Google 发布了专用搜索引擎 Dataset Search(数据集搜索),它可以帮助学者、记者等寻找到一些公开的数据信息。
专家认为,这是“开放数据运动”事业前进的一大步,这项运动旨在促进数据更加开放可用。政府、科学出版物、研究机构和个人手中经常存在大量数据,但其他学者想要找到它们、使用它们都相当困难,往往需要“关系”。
这对于那些新进入行的学者来说更加困难,因为他们往往在圈子内还没有建立起强大的关系网,更不用说那些跨学科的研究人员了。
传统搜索引擎的工作分两步:首先是不断爬梳网络索引可用页面,然后对索引页面进行排名,以保证搜索结果质量。
为了帮助数据集搜索引擎能够索引到已存在的数据,搜索巨头 Google、微软、Yahoo、Yandex 创立了 Schema.org,让数据拥有者以标准化词汇“标记”其数据集。这样 Google 数据集搜索算法就可以对这些数据进行排名了。
考虑到 Google 的影响力,所发布的数据集搜索引擎将很快促进领域内的关键选手标准化其数据,以成为数据生态系统的一部分。
伦敦的数据分享公司 Figshare 的 CEO 说,他们合作的所有大学在 11 月份时都会把数据标准化处理好。Figshare 由 Holtzbrinck 出版集团运营,后者握有《自然》出版集团的多数股份。
NOAA(美国国家海洋和大气管理局)较早支持 Google 数据集搜索引擎的试验。NOAA 存档有 70 000 份数据集,包括 19 世纪以来的船舶航行记录,数据体量达 35 PB,内容从捕鱼业到日冕,范围很广。Google 的工具将帮助 NOAA 的数据为更多人可用。
Google 现在没有计划去阅读或分析这些数据,并不像处理网页或图片那样。这种专业搜索引擎必须如此才能够发挥出最佳作用,除非数据主人愿意提供元数据。
和 Google 学术类似,Google 数据集搜索不提供自动检索和 API 访问功能。可能在将来会增加这些功能。
Google 没有计划通过数据集搜索引擎盈利。
Google 数据集搜索可能发展到与 Google 学术整合的状态,这样用户在检索某些研究内容时可以访问到相关数据。
https://www.nature.com/articles/d41586-018-06201-x?utm
专家认为,这是“开放数据运动”事业前进的一大步,这项运动旨在促进数据更加开放可用。政府、科学出版物、研究机构和个人手中经常存在大量数据,但其他学者想要找到它们、使用它们都相当困难,往往需要“关系”。
这对于那些新进入行的学者来说更加困难,因为他们往往在圈子内还没有建立起强大的关系网,更不用说那些跨学科的研究人员了。
传统搜索引擎的工作分两步:首先是不断爬梳网络索引可用页面,然后对索引页面进行排名,以保证搜索结果质量。
为了帮助数据集搜索引擎能够索引到已存在的数据,搜索巨头 Google、微软、Yahoo、Yandex 创立了 Schema.org,让数据拥有者以标准化词汇“标记”其数据集。这样 Google 数据集搜索算法就可以对这些数据进行排名了。
考虑到 Google 的影响力,所发布的数据集搜索引擎将很快促进领域内的关键选手标准化其数据,以成为数据生态系统的一部分。
伦敦的数据分享公司 Figshare 的 CEO 说,他们合作的所有大学在 11 月份时都会把数据标准化处理好。Figshare 由 Holtzbrinck 出版集团运营,后者握有《自然》出版集团的多数股份。
NOAA(美国国家海洋和大气管理局)较早支持 Google 数据集搜索引擎的试验。NOAA 存档有 70 000 份数据集,包括 19 世纪以来的船舶航行记录,数据体量达 35 PB,内容从捕鱼业到日冕,范围很广。Google 的工具将帮助 NOAA 的数据为更多人可用。
Google 现在没有计划去阅读或分析这些数据,并不像处理网页或图片那样。这种专业搜索引擎必须如此才能够发挥出最佳作用,除非数据主人愿意提供元数据。
和 Google 学术类似,Google 数据集搜索不提供自动检索和 API 访问功能。可能在将来会增加这些功能。
Google 没有计划通过数据集搜索引擎盈利。
Google 数据集搜索可能发展到与 Google 学术整合的状态,这样用户在检索某些研究内容时可以访问到相关数据。
https://www.nature.com/articles/d41586-018-06201-x?utm
评论
发表评论