跳至主要内容

Google 发布数据集搜索引擎

Google 发布了专用搜索引擎 Dataset Search(数据集搜索),它可以帮助学者、记者等寻找到一些公开的数据信息。

专家认为,这是“开放数据运动”事业前进的一大步,这项运动旨在促进数据更加开放可用。政府、科学出版物、研究机构和个人手中经常存在大量数据,但其他学者想要找到它们、使用它们都相当困难,往往需要“关系”。

这对于那些新进入行的学者来说更加困难,因为他们往往在圈子内还没有建立起强大的关系网,更不用说那些跨学科的研究人员了。

传统搜索引擎的工作分两步:首先是不断爬梳网络索引可用页面,然后对索引页面进行排名,以保证搜索结果质量。

为了帮助数据集搜索引擎能够索引到已存在的数据,搜索巨头 Google、微软、Yahoo、Yandex 创立了 Schema.org,让数据拥有者以标准化词汇“标记”其数据集。这样 Google 数据集搜索算法就可以对这些数据进行排名了。

考虑到 Google 的影响力,所发布的数据集搜索引擎将很快促进领域内的关键选手标准化其数据,以成为数据生态系统的一部分。

伦敦的数据分享公司 Figshare 的 CEO 说,他们合作的所有大学在 11 月份时都会把数据标准化处理好。Figshare 由 Holtzbrinck 出版集团运营,后者握有《自然》出版集团的多数股份。

NOAA(美国国家海洋和大气管理局)较早支持 Google 数据集搜索引擎的试验。NOAA 存档有 70 000 份数据集,包括 19 世纪以来的船舶航行记录,数据体量达 35 PB,内容从捕鱼业到日冕,范围很广。Google 的工具将帮助 NOAA 的数据为更多人可用。

Google 现在没有计划去阅读或分析这些数据,并不像处理网页或图片那样。这种专业搜索引擎必须如此才能够发挥出最佳作用,除非数据主人愿意提供元数据。

和 Google 学术类似,Google 数据集搜索不提供自动检索和 API 访问功能。可能在将来会增加这些功能。

Google 没有计划通过数据集搜索引擎盈利。

Google 数据集搜索可能发展到与 Google 学术整合的状态,这样用户在检索某些研究内容时可以访问到相关数据。

https://www.nature.com/articles/d41586-018-06201-x?utm

评论

此博客中的热门博文

Gboard 继续增加关键功能

在 Android 上,Google 拼音是一款简洁、高效的中文输入法,再加上 Google 手写输入,Google 给 Android 用户提供了一整套中文输入工具。 Google 拼音的 Windows 版本早已不再更新,用户无法同步自己的输入习惯,其 下载页面现在也无法找到了 。不过在我看来,Google 拼音仍然是 Windows 上少有的简单、可靠、美观、低调的中文输入法。这款软件即使不再更新,功能也不健全,但仍然特别好用。 在移动设备上,Google 在 Google 拼音等输入法之后又推出 Gborad,把移动设备上的输入体验提升到另外一个层次。 最近我注意到 Gboard Beta 版本增加了“剪贴板”功能。这个功能之前已有报道,现在终于可用,是一个重要的、有用的输入辅助工具。简单说就是,用户可以把自己复制的内容存放到剪贴板,如果有多次复制,剪贴板会记忆用户复制过的内容,方便用户随时选取使用。用户还可以固定某些复制的内容,使它们更为突出地显示在剪贴板里。 这显然是一个很有用的工具,如果用户经常在手机或平板上处理文字内容的话。否则,用户就必须把自己可能需要使用的复制的内容存在其他文档或者应用比如 Google Keep 里,然后一遍一遍地去复制、粘贴。这个功能使这些操作在 Gboard 应用里就可以实现。 Gboard 还改变了右下侧“确定”按钮的形状和功能。形状从圆形变成矩形。功能上,长按会出现单手操作和 Emoji(表情符号)按钮,如下图所示。这与左下角的 Emoji / 单手操作 / 设置综合按钮类似。 我认为唯一不足的地方是,Gboard(Android)中文输入法一直没有书名号(《》)按钮,只能以书名号的另外一种形式(『』)代替。 Gboard 重新设计了 Emoji 的布局,现在变成菜单在顶部,下滑式查看、选择表情符号的设计。以前是左右滑动。在贴纸、动态图(GIFs)搜索方面没有变化。 综合来看,Gboard 现在内置了包括 Google 搜索在内的 9 个关键功能,其中搜索、翻译等相关功能需要联入互联网,文本处理操作(移动光标、选取、复制、粘贴等)、剪贴板两个功能可以离线使用。主题、悬浮键盘则属于个性化键盘设置。 上述这些变化包括其他一些变化在 9To5Google 的一则报道 中有

Google Chrome 增加 DuckDuckGo 搜索

Google Chrome 浏览器增加了 DuckDuckGo(DDG)搜索引擎选项,据 TIME 报道。DuckDuckGo 是一款注重隐私的搜索引擎,它不记录用户的搜索历史,加密用户的搜索,不允许广告商追踪用户的浏览习惯。 Chrome 在全球 60 多个市场添加了 DDG 这个选项 ,给用户更多选择。法国用户还可以选择法国的搜索引擎 Qwant 作为自己的默认搜索。之前,用户需要安装 DDG 的 Chrome 扩展以切换到自己喜欢的搜索服务里。 DDG 创始人赞赏 Google 意识到给用户提供能够保护隐私的搜索服务这一选项的重要性。 DDG 的名称较长,用户记起来比较不容易。去年年底, Google 将自己所拥有的网址 Duck.com 移交给 DDG 。不清楚 DDG 是否因获得此域名而有掏钱给 Google。以前,用户输入 Duck.com 会被导向 Google 网站。Google 获得 Duck.com 域名是因为收购了视频技术公司 On2。Google 还拥有大量域名,包括对 Google 这个词拼写错误的很多情况。 Chrome 增加 DDG 搜索在当前显得尤为必要,因为不少用户希望使用更能保护自己隐私和数据安全的服务。Chrome 一直以来都默认提供若干搜索引擎供用户选择,在中国大陆有360、百度、搜狗、Bing。 DDG 的创始人 在 Quora 有文章 阐述 DDG 与 Google 搜索的不同及其优势所在。

Google解释为什么巴勒斯坦没有在Google地图上标记出来

一个位于加沙的记者组织注意到巴勒斯坦国在Google地图上完全消失,以色列取而代之,引发中东媒体报道和网友愤怒,继而出现对Google的抵制和网络请愿活动。巴勒斯坦记者论坛谴责Google的犯罪行为,要求Google撤销其决定,并向巴勒斯坦人民道歉。 网友指出,巴勒斯坦地区在地图上的显示是:划定界限但未予标记。Google宣称,7月25日Google地图并没有删除巴勒斯坦,对这一区域的标记从未改变过,也从未标记过“巴勒斯坦”。Google承认,出现了一个故障(Bug)致使“约旦河西岸”和“加沙”标记被移除,Google随后恢复了此标记。 此外,点击此区域内的城市,Google的确将其标记为“巴勒斯坦的”,“巴勒斯坦”被视为法理上的主权国家,2013年联合国指定将“巴勒斯坦领土”称呼改为“巴勒斯坦“。 与Google地图不同的是,Bing地图的确将巴勒斯坦标记出来,部分巴勒斯坦人表示已转至Bing地图。Apple地图则既没有标记此区域,也没有将其与以色列划分开。 此事表明,Google、Apple、微软等公司在如何呈现某一地区时必须小心谨慎。Google地图利用内置的、第三方和公共数据,仍然需要额外注意政治敏感地区的标识。 《华盛顿邮报》的作者继续指出Google知识图谱的错误或偏差。例如,将台湾列为独立的国家;将爱尔兰第四大城市称之为”德里“,一个非正式而属于民族主义的称谓;将耶路撒冷归为以色列的首都;克里米亚的归属则根据搜索来自乌克兰或俄罗斯而不同。 奇怪的是,天涯论坛早在2010年就有人开始讨论此事,即Google地图上没有巴勒斯坦。最后的一条回复出现在2013年,其判断是Google被封杀有一定的道理。疑问是,帖子的发布者没有给出任何截图或网络报道连接,怎么就能够对这种消息展开讨论或判断? 关于Google知识图谱的错误或偏差,我个人认为了解事实需要个人的分析判断。知识图谱并不是完全地准确,甚至会有错误,用户可以随时进行反馈指出哪些内容不准确。维基百科,新闻报道,也都不可能是绝对的准确和权威。无论是人类的工作还是机器的生成,都可能存在不足之处。好在,人是具有这种获知准确信息的能力的,只要愿意。 Engadget报道 https://www.engadget.com/2016/08/10/google-explains-why-p