曾记得十几天之前否?那时我们踌躇满志的跨进了2018,满怀着对未来的渴望和珍重……然后我们惊奇的发现,2018第一个火起来的词叫“撒币”…
不是我说啥,这可真出戏啊。
似乎一夜之间,直播答题和这个叫做“撒币”的关键词就火了。王思聪的冲顶大会、映客的芝士超人、花椒的百万赢家,一时之间大佬们疯狂争当“大撒币”,人民群众则纷纷出头想当被币砸到的那个幸运儿。
当然了,不管这些平台们如何“撒”,最终“币”还是要回到他们自己口袋里的,毕竟做生意是为了赚钱,搞出来这么大场面当然是为了放后招,没听说过哪位出题让人答是为了做慈善的。除非...除非AI化妆成选手,也来答个题,说不定能干到王思聪们没币可撒...
毕竟,答题也是讲科学的对不对?
很多人在答题冲关时,会借助搜索引擎寻找信息,搜索引擎返回的结果有两种形式,一种是我们要在返回页面的中自己继续寻找关键的答案,另一种呢,搜索引擎则直接明了的告诉我们答案,比如“长城有多长”,在分秒必争冲向百万奖金的途中,简直获得了直挂云帆济沧海的痛快!这背后的功劳主角,就是今天我们要讲的知识图谱。
在由“AI感知”通向“AI理解”的大路上,知识图谱是被公认的技术基石。更更重要的是——他能帮你答题啊……
知识图谱是什么鬼?
知识图谱这个概念被提出并不算太久,但是要追根溯源理解这个技术到底是玩什么的,那可能真要往上倒腾几十年才行。
上世纪40年代,人工智能被提出之后,无数科学家们就开始琢磨,到底用什么方式能让机器模拟出人的智慧呢?琢磨来琢磨去,人对于信息能够进行关联理解似乎是个路子。所谓信息关联,就是人类在接受一个信息后,会把它放在记忆中进行归纳和调用。比如我们会记住一些信息:橘子属于水果,柠檬属于水果,水果的维生素含量高,这样我们可以推断,橘子的维生素含量也高。利用这个思路,上世纪50年代末,学术界提出了语义网络(semantic network)的设想,打算把数据进行结构化的处理,让单个信息组合成有联系、能共鸣的“知识”,语义网常常被看做是知识图谱的前身。
上世纪80年代,受到多方面刺激的地球人开始了一次AI复兴运动,而这次运动的主角,就是各国开始打造专家系统和知识库。那时候科学家们相信,如果把人类大量知识进行逻辑化关联和语义网络存储,最终人类就能打造出全知全能,无所不懂的人工智能,虽然这场运动之后被保留的专家系统不多,但是海量知识构成的知识库却成为了更有价值的产物。
2012年,基于语义web技术和Freebase等优质知识库,谷歌提出了知识图谱(Knowledge Graph)概念,所谓知识图谱,是利用多个来源的数据,将真实世界中关于事物的知识、事物之间的关系,组织成一张巨大的、联通的、让计算机可以去理解的图结构,于是文字不仅仅是文字,而是有了它在现实世界中的具体的含义和关联关系。在产业端它为搜索、内容推荐和智能问答提供了基础,成为今天AI领域足够强势的一个技术类别。举个直白的例子吧:
假如你这几天很好奇一个叫PGone的词为啥火了,然后你去搜索一下,结果给你推荐的词是PGtwo、PGthree...那你就跟没搜一样。假如蹦出来两个词,一个是贾乃亮一个是地沟油,那么你看完整个故事就了然了嘛...
所谓的知识图谱,就是让智能体去理解事物以及他们之间的关系,并能基于此提供相关的技术和服务,比如这里举例的推荐技术。
今天的知识图谱专治各种“撒币”
假如你以为本文到此就该结束了,那么你又错了...
上文说了知识图谱专治各种“大撒币”行为,并不是随便讲讲的。我们要知道,2002年知识图谱技术假如跟王思聪刚一波正面,那是基本没有胜算的。
这里有几种可能:首先是假如你的知识库是更新到前年的,人家问你PGone的嫂子是谁,你怎么办?或者人家不问你长城有多长,问你最长的墙有多长怎么办?
在考教真人的直播答题过程中,可能面临各种语言上的调整、提问方式的改变,以及加入最新信息。这都是几年前基于单一结构知识库的知识图谱技术难以胜任的。
这样的问答就能把知识图谱难住了吗?不能够。
以百度的知识图谱技术为例,我们可以看到这项技术几年间发生了重要的变化,比如:
1.大数据+机器学习带来了史无前例的效率契机。
今天的AI复兴,是建立在机器学习驱动大数据的基础上的,知识图谱也是如此。举例来说,百度的知识图谱技术,在数据上依赖于全网信息,在技术上,机器学习、深度学习技术则让百度知识图谱实现了数据更新时效性更强、以及更完善的语言理解能力。换句话说,百度这类AI巨头掌握的知识图谱技术,具有高度的即时性和成长性。往往网友都没反应过来呢,知识图谱已经完成数据更新了。
2.强语义理解能力成为关键。
能听懂“黄磊的妻子是谁”,却听不懂“黄磊女儿的妈妈是谁”的知识图谱,显然是知识没谱。深度学习各种语意、语义、语序和方言的知识图谱能力,也成为了目前知识图谱技术的唤醒核心。
这几种能力加持下,像百度知识图谱这样的代表性智能技术伪装成选手去搞点“撒币”,显然已经不算什么了...但是如果只干这点事,其实也蛮亏的。
3.语音交互成为知识图谱的新形式。
知识图谱技术想要更好的为人类所用,就要更主动理解人类的语言和思维习惯,做到主动输出服务。这就需要知识图谱与自然语言理解、语音交互等技术紧密结合,比如百度知识图谱技术就与DuerOS相互联系,为唤醒DuerOS的用户提供各种知识、和分析类功能,同时借助DuerOS来加大自身的打开力度。
撒出一个明天
无论是语音交互还是机器视觉,我们今天正在努力教会AI一件事:“识别”。可是,在“识别”之后呢?AI下一步要干什么?是理解和处理。但如果想让AI开启这些能力,很多人都认为,知识图谱将是AI下一步的必经之路。
今天知识图谱的核心,在于通过数据生成可视化的知识链条,用链条形成网络,利用网络来进行预测、生成自动化,最终生成机器主动提供的智能化服务。
要知道,人类理解世界并不是基于一个个散乱的信息,而是基于信息背后的“知识”。
我们期待的知识图谱技术,是通过这种技术的完善,把AI调整到主动输出服务模式。经典计算阶段是你想到的,电脑帮你做出来。而知识图谱时代,是你想不到的,AI可以想到。
能做到这一步的AI技术,当然不会只满足去答答题,做个直播。人家的使命是改变世界好不好?
其实,知识图谱作为一种后端基础技术,今天已经悄然布局在了我们的生活。还是以百度为例,我们今天在百度搜“李白写过哪些饮酒诗?”,已经不是跳出来有这些关键词的网站,而是直接跳出来你的答案,这背后就是知识图谱即使已经解答了你的问题。
利用知识图谱,百度已经对搜索、内容推荐等传统强势业务进行了升级和迭代,不仅仅是帮我们寻找到相关的信息,而是直接利用知识满足用户当前的需求,并基于知识猜测你接下来的相关需求。
更重要的是,知识图谱技术作为AI交互手段的必要支撑技术,正在为百度构建语音交互和无人驾驶两大AI产业提供帮助。比如一些厂商最开始使用DuerOS时只是为了提升体验,但是后来发现它知道的东西、能解答的问题远远超过想象,那么带来的产业粘合度自然也就提升。百度还有一个知识图谱开放平台,提供的技术和数据可以帮助开发者来打造属于自己的知识图谱。
未来或许利用知识图谱技术能达成物联网间的协作、人机交互的全新升级,那么最终所能抵达的,远远不是答题这一件小事而已。像百度这样的知识图谱集成产业模式,显然已经在准备从量变积累向技术奇点过度,更大的产业变革已经在酝酿中。
所以呢,直播平台上谁给谁撒币,谁是“大撒币”,其实也不是很重要了。真正重要的是,技术正在努力把未来的币,撒到现在的土壤里。