Diffbot启动了基于AI的知识图谱:包含1万亿个有关人类、地点和事物的事实
2018年08月31日 由 浅浅 发表
566967
0
如果你曾经在谷歌搜索名人,著名地标或之前的产品,那么你可能会遇到有时位于结果页右侧的信息框,充满了谷歌知识图谱的信息,这是一个实体数据库,用于增强网络和Google Home等智能音箱的搜索结果。知识图谱的大部分超过16亿个事实都来自人力团队,他们经常梳理数百万个网站,以寻找有关人,地点和事物的常见问题的答案。
但如果你去找Mike Tung,那就有更好的方法。
他是位于加利福尼亚州山景城的创业公司Diffbot的创始人,他的任务是将网络的非结构化数据转换为结构化数据,从文档中自动提取知识。在经过多年的私人试点项目后,Diffbot将于本周公开发布。
Tung表示,“我们正试图通过分析互联网上的每一页来构建第一张全面的人类知识地图。”
这是一个崇高的目标,但是在斯坦福大学的AI工作中长大的Diffbot花费了五年的时间来构建完成它所需的工具。利用计算机视觉和自然语言处理的结合,Diffbot的网络爬虫可以解析几乎任何网页的布局和结构,大约90%的网页和20个左右的页面类型,用于事实,数字和抽象关系对象。
Tung表示,“知识即服务,现在,30%的知识工作者的工作是数据收集。市场上有一个横向知识图的大好机会——一个关于人,企业和事物的信息数据库。”
由Diffbot的爬虫提取的数据提供给一个名为Diffbot Knowledge Graph(DKG)的庞大数据库,该数据库包含超过一万亿个事实和100亿个实体。核心类别包括人(技能,就业历史,教育,社会概况),公司,地点(地图数据,地址,业务类型,分区信息),文章(每个新闻文章,日期行,来自网络上任何地方的任意语言的署名),讨论(聊天,社交分享和对话)和图像(使用图像识别和元数据收集进行组织)。
所有这些都可以通过API调用访问,并可以使用公司的自定义查询语法Diffbot DQL进行操作。客户可以在Diffbot基于Web的UI中的列表,地图或表格布局中查看DKG的结果,也可以在第三方内容管理系统或分析平台中查看DKG的结果。
其中包括Microsoft,eBay,Yandex和DuckDuckGo,它们正在使用它来提高搜索结果的质量。其他客户包括Cisco,Salesforce,Crunchbase,Hubspot,Adobe,Instapaper和Onswipe。
“简而言之,Diffbot正在以前所未有的规模利用AI,”Diffbot投资者之一Felicis Ventures的创始人兼董事总经理Aydin Senkut表示,“这是有史以来第一家盈利的AI公司,它们为许多最大的科技公司提供应用程序的“秘密成分”。
在一个演示中,Tung展示了它是如何工作的。假设你想对一个品牌的鞋子进行一次性搜索。在Diffbot的网页仪表板中,可以将运动鞋品牌输入类似谷歌的搜索栏并按Enter键,在几毫秒内,你将获得从网络来源合成的产品资料。
寻找新闻文章?同样的过程:输入作者的名字会产生他们在网上发表的每篇文章(跨语言)。另一方面,搜索一个人,从数十(或数百)个bios,文章和公开可用的配置文件中拼凑出类似CV的工作历史。
Tung解释说,Diffbot独特的优势之一是能够按实体快速钻探。它有助于招聘工作,比如输入适当的DQL字符串(type:person employments.employer.name:'Diffbot')可以整理给定公司的每位员工,以及他们的职位,技能,教育背景,和社交媒体资料都在一个地方。这是机器学习的圣杯,可以在一个地方捕捉全世界的知识。”
谷歌的知识图谱历来因缺乏归因和省略冲突信息来源而受到批评,但Diffbot的自动化方法一举两得。Diffbot不仅比谷歌知识图这样的手动策划数据库更全面,而且更准确,Diffbot的爬虫定期用新信息刷新DKG,其机器学习算法足够聪明。
Tung表示“这就是为什么我们将来自不同来源的信息融合在一起的原因之一,我们的规模使得错误的可能性极小。”
Diffbot于2008年推出,其核心员工包括工程师和数据科学家,共有28名员工。之前由VC腾讯,Felicis Ventures和Amplify Ventures领导的融资中筹集了1000万美元。