谷歌重磅推出数据集搜索引擎Dataset Search
2018年09月06日 由 浅浅 发表
588396
0
谷歌推出了一个搜索引擎Dataset Search,以帮助研究人员找到免费使用的在线数据。该公司于9月5日推出该服务,称其针对的是“科学家,数据记者,数据极客等”。
数据集搜索现在可与谷歌的其他专业搜索引擎一起使用,例如新闻和图片搜索引擎,以及Google学术搜索和Google图书,根据其所有者对其进行分类的方式查找文件和数据库。它不会以搜索引擎为网页的方式读取文件本身的内容。
专家表示,它填补了空白,可以为开放数据运动的成功做出重大贡献,该运动的目的是使数据公开使用和重复使用。
政府机构,科学出版商,研究机构甚至个人研究人员在全球范围内维护着数千个开放数据存储库,其中包含数百万个数据集。
加州山景城Google AI的计算机科学家Natasha Noy表示,但是,想要知道哪些类型的数据可用,或希望找到存在的数据的研究人员,往往不得不依赖口耳相传。
Noy说,这个问题对于处于早期的职业研究人员来说尤其严重,他们尚未建立专业联系网络。对于那些从事跨学科研究的人来说,这也是一个缺点,例如,一位流行病学家需要获取可能与病毒传播相关的气候数据。
分类搜索
Noy和她的谷歌同事Dan Brickley 在2017年1月的博客文章中首次描述了解决该问题的策略。
典型的搜索引擎分两个主要阶段。第一种是通过不断拖网来索引可用页面。第二种是对那些索引页面进行排名,以便当用户输入搜索项时,引擎可以按相关性顺序提供结果。
Noy和Brickley写道,为了帮助搜索引擎对现有数据集建立索引,那些拥有这些数据集的人应该使用名为Schema.org的标准化词汇表“标记”它们,这是一个由谷歌和其他三个搜索引擎巨头创建的计划(Microsoft,雅虎和Yandex),由Brickley管理。谷歌团队还开发了一种用于在搜索结果中对数据集进行排名的特殊算法。
伦敦数据共享公司Suchhare的首席执行官Mark Hahnel表示,鉴于谷歌在网络搜索方面的主导地位,该公司正在进入数据生态系统的消息迅速促使主要参与者排队并将其元数据标准化。(Figshare由Holtzbrinck出版集团运营,该集团在Nature的出版商中占多数股份)。
Hahnel说,“到11月份,我们所在的所有大学都将他们的东西标记出来,我认为这是学术界开放数据的一个转折点。”
他表示,资助机构有时会强制要求提供研究数据,只有在信息可以有效恢复的情况下才能达到最终目标。“它使资助者试图做的事情合法化。”
代理商合作
谷歌实验的早期支持者是美国国家海洋和大气管理局(NOAA)。该机构的职权范围从渔业到太阳的日冕,其档案包含近70,000个数据集,包括19世纪的船舶日志。该装置的总容量超过35PB,与35000个硬盘的内容相当。
NOAA首席数据官Edward Kearns在北卡罗来纳州阿什维尔表示,谷歌的工具将帮助NOAA完成其开放数据任务。“我们希望探索将这些数据提供给其他人的新方法,”Kearns补充道。
为了使数据集搜索起作用,让数据所有者的协作是至关重要的一步。尽管该系统未来可能会变得更加复杂,但谷歌目前还没有计划实际读取数据或分析数据,就像对网页或图像一样。
Noy表示,“像这样的搜索工具与数据发布者愿意提供的元数据一样好。”
与谷歌学术搜索一样,数据集搜索目前不提供自动查询或应用程序编程接口(API)的访问权限,尽管该公司表示它可能会在未来添加该功能。
Noy说,随着研究人员开始使用数据集搜索,谷歌将观察他们如何与之互动并使用这些信息来改善搜索结果。谷歌目前没有将服务货币化的计划。
随着数据集搜索的发展,它也可能与谷歌学术搜索集成,因此特定研究的搜索结果可以链接到相关数据集。
测试:toolbox.google.com/datasetsearch