聊一聊google的Knowledge Graph

时间:2023-02-03 20:44:03

什么是Knowledge Graph?

它是google用于增强它的搜索引擎的功能和提高搜索结果质量的一种技术。在2012年5月16日提出,除了提供基本的与主题相关的链接服务之外,它还能结构化与主题相关的信息。这样做的目的就是让用户无需通过点击多个相关链接自己手动去搜索相关信息,而是google直接把整合好的结果展示在搜索页面,真是太贴心啦!

for example: 我在google中搜索:andrew ng

聊一聊google的Knowledge Graph

可以看到,右侧会直接把andrew ng的相关基本资料给你整合好。比如出生,教育背景,所获奖项,你搜有些名人,甚至连他爹是谁都给你显示出来。而这些绝逼不是系统手动输入的(so stupid!),而是Knowledge Graph帮你完成。

简介:wiki官方blog(含视频)

Knowledge Graph的历史?

这些内容是怎么来的呢?当然,不可能完全靠google自己搜索数据得到,因为,这个数据实在是太庞大了。

比如说,其中有部分数据来源于The World Factbook(世界概况) - CIA(*情报局):《世界概况》是由美国*情报局出版的调查报告,发布世界各国及地区的概况,例如人口、地理、政治及经济等各方面的统计数据。因*情报局属美国*部门,所以其资料格式、体例、内容皆需符合美国*的官方需要及立场资料则是由美国国务院、美国人口调查局、国防部等部门及其辖下的相关单位提供。(google)

还有数据来自freebase:Freebase是一个由元数据组成的大型合作知识库,内容主要来自其社区成员的贡献。它整合了许多网上的资源,包括部分私人wiki站点中的内容。Freebase致力于打造一个允许全球所有人(和机器)快捷访问的资源库。它由美国软件公司Metaweb开发并于2007年3月公开运营。2010年7月16日被谷歌收购。 2014年12月16日,Google宣布将在六个月后关闭Freebase,并将全部数据迁移至维基数据。

当然,还有大名鼎鼎的wikipedia。

在2012年的时候,google的语义网络就已经包含了超过5亿7千万个对象实体,而且对象实体之间超过了180亿的史实和关系。这些数据用于理解我们输入到搜索栏中的关键字。

在2012年12月4日,Knowledge Graph被翻译成了其中语言,其中包括了:西班牙语,法语,德语,葡萄牙语,日语,俄语和意大利语。没有中文也是情理之中。

在2013年5月的google io大会上, Amit Singhal(google  search的头头,Google's Mr Search聊一聊google的Knowledge Graph提出了未来的搜索将主要在3个方面进行提升和改进:1)为搜索者答问;2)与搜索者交流;3)在搜索者开始搜索之前,就能给出他们想要的答案。他和knowledge graph的关系极为密切

2014年8月,google提出了一个新的东东叫Knowledge Vault,这个Knowledge Vault,包含了大量的源自Knowledge Graph的数据,同时,利用机器学习的方法,它自身也搜集了16亿的史实。

2014年12月16日,Freebase and Knowledge Graph team(都是google的)宣称将在六个月后关闭Freebase,并将全部数据迁移至维基数据。

Knowledge Graph的故事

Amit Singhal长期致力于如何为小伙伴们提供更佳优质的服务,他认为评判搜索结果好不好,可以通过记录用户点击搜索结果的链接之后,跳转停留的时间来判断( "long clicks" and "short clicks")。如果你搜索“世界上最帅的人是不是程序员”,然后google之后的结果,你点击了相关的链接停留了很长时间,说明他们提供的搜索结果质量较高。反之亦然。

因此,在2002年,基于Ludwig Wittgenstein关于一个单词的含义和上下文有紧密的联系,Singhal开始对一些模棱两可的单词进行考察,从与这些单词相关的单词入手。比如,你搜索“hot dog”,google会告诉你,这是一种可以吃的食物,香肠,还有可能是一种棒球的比赛,而不是告诉你这是一只很热的