前言
1950年,图灵发表了具有里程碑意义的论文《计算机器与智能》(Computing Machinery and Intelligence),提出了一个关于机器人的著名判断原则——图灵测试,也被称为图灵判断,它指出如果第三者无法辨别人类与AI机器反应的差别, 则可以论断该机器具备人工智能。
2008年,漫威《钢铁侠》中的AI管家贾维斯,让人们知道了AI是如何精准地帮助人类(托尼)解决丢过来的各种事务的……
2023年初,以2C的方式从科技界火爆破圈的免费聊天机器人ChatGPT浪翻全球。
据瑞银的研报,其月活用户在1月份就达到了1亿,目前还在增长着,它已成为史上增长最快的消费者应用。此外,其东家OpenAI继前期发布了每月42美元的专业版Pro后,马上就要推出Plus版,据说每月20美元左右。
当一件新事物,月活上亿,流量上来,并且开启商业变现之后,你是否对它背后的各种技术感到好奇?比如,聊天机器人是如何处理和查询海量数据的?
体验过ChatGPT的朋友都有同感,它显然比天猫精灵或小爱童鞋要更加智能——是一个“有着无敌话术”聊天机器人,一个自然语言处理工具,一个大型语言模型,也是一个人工智能应用。它可以根据提问素材的上下文与人类互动,可以进行推理和创作,甚至还会拒绝(它认为)不当的问题,不只是完成拟人化的交流。
虽然目前对它的评价褒贬不一,但从技术发展的视角来说,它甚至有可能通过图灵测试。试问,在我们与它交流的时候,其(对于小白而言)广博的知识,可甜可油的回答,如果在我们完全不知情的前提下,是很难辨别出对方是人类还是机器(或许这才是它危险的地方——ChatGPT 的内核依然是属于深度学习范畴,存在大量黑盒与不可解释性!)。
那么,聊天机器人是怎么做到将来自3000 亿单词的训练语料库和 1750 亿的参数,快速地进行整理和输出的呢,同时还能做到结合上下文,根据它“掌握”的知识,*应对与人类的交流的呢?
其实,聊天机器人也有大脑,它跟我们人类一样,需要学习+训练。
图2:ChatGPT 学习训练图(来源官网)
它将海量的文本、图片等等非结构化的文件,通过NLP(自然语言处理)、目标识别、多模态识别等,按其语义结构化成知识图谱,这个知识图谱就是聊天机器人的大脑了。
图3:以医疗为例,人工智能将多来源的数据转化在问答、搜索、药物研发等场景的知识图谱中
知识图谱是由什么组成的呢?
知识图谱是由什么组成的呢?它是由点(实体)和边(关系)组成的,能够将人、事、物等相关信息进行整合,形成一个全面的图,如下图。
图4:由人物的点和属性边构成的图谱(子图)
当提问“OpenAI 的创始人是谁呀?”,聊天机器人的大脑就开始迅速地在自己的知识库里搜索、查找,先从用户的问句中,锁定目标点“penAI”,再根据用户的提问,连锁出另一个点——创始人“山姆·阿尔特曼”。
图5:从点“OpenAI”通过一条边连接到另一个点“山姆·阿尔特曼”
其实,当我们在提“OpenAI的创始人是谁"的时候,聊天机器人就会在自己的知识库中,把所有围绕该点的图都关联出来。所以,当我们问及相关问题的时候,它其实早已预判了我们的预判。比如当我们问:“马斯克是OpenAI的创始团队成员吗?”仅仅一个命令的发出,它已经将所有的成员都查询了(举千反一),见下图。
图6:由点“OpenAI”关联到其他人物
此外,在它的库里如果还收录过其他的“学习资料”,那么在其的“大脑”中还会关联着诸如“人工智能机器人的产品有哪些?”等相关的图,如下图。
图7:常见的AI机器人产品图谱
当然,聊天机器人和人一样,回答问题会受到自身知识储备的局限,如见下图:
我们知道,决定一个人大脑快不快、聪明不聪明的判断是什么呢?从人类的视角来看,最简单的一个标准就是是否具备举一反三的能力。
子曰:“不愤不启,不悱不发,举一隅不以三隅反,则不复也。” ——论语·述而篇
早在两千年前,孔子就强调过善于举一反三、由此及彼、触类旁通的重要性。而对于聊天机器人来说,其答案的质量取决于构建知识图谱的算力。
我们知道,通用的知识图谱的建设在很长一段时间内都着重在 NLP和可视化呈现等方面,但忽略了计算时效性、数据建模灵活性、查询(计算)过程与结果可解释性等问题。尤其是在整个世界从大数据时代向深数据时代转型的当下,过去传统的基于SQL或 NoSQL构建的图谱的缺陷,已无法高效去处理海量、复杂、动态的数据的能力,更何谈进行关联、挖掘和分析的洞察力?那么,传统知识图谱面临的挑战都有什么特性呢?
一是,低算力(低效)。采用SQL 或 NoSQL 数据库系统构建的知识图谱底层架构效率低下,无法高速地处理高维数据。
二是,灵活性差。基于关系型数据库、文档数据库或低性能图数据库构建的知识图谱通常受制于底层架构而无法高效地还原实体间的真实关系。诸如,它们有些只支持简单图,录入多边图数据时要么信息容易丢失,要么花高代价来构图。
三是,徒有其表。在2020 年之前, 极少有人真正关注底层算力,几乎所有的知识图谱系统建设,都仅仅是围绕 NLP 和可视化这两部分。而没有底层算力支撑的知识图谱,只是在本体与三元组的抽取和构建,并不具备解决深度的查询、速度和可解释性等问题的能力。
行文至此,我们已经从聊天机器人的智能知识图谱话题,聊到了另一个前沿技术——图数据库(图计算)技术领域了。
什么是图数据库(图计算)呢?
图数据库是一种应用图理论,可以存储实体的属性信息和实体之间的关系信息,在定义方面,图(Graph)是以节点和边定义的数据结构。
图是知识图谱存储与应用服务的基础,拥有强大的数据关联及知识表达能力,因此倍受学术界和工业界的推崇。
图8:图数据库与知识图谱在市场营销、犯罪调查、金融监管、教育生态、公共卫生和能源等领域中的应用场景
如上图所示,我们看到,在实时图数据库(图计算)引擎的帮助下,产业界可以实时地在不同数据间找到深度关联的各种关系,甚至可以找到最优的、人脑都无法企及的智能途径——这就是源于图数据库的高维性。
何为高维性?图不仅仅作为一种符合人类大脑思维习惯、能对现实世界进行直观建模的工具,同时能够建立起深刻的洞察(深图遍历)力。
诸如大家都知道“蝴蝶效应”,就是在海量的数据和信息的中,去捕捉看似毫无关系的两个以上的实体之间的微妙关系,这从数据处理架构的角度来看,如果没有图数据库(图计算)技术的帮助是极难实现的。
图9:过去40年来,数据处理技术的发展趋势是从关系型到大数据再到图数据
风控就是典型的场景之一。2008年的金融危机,其导火索仅仅是美国第四大投行雷曼兄弟倒闭了,但谁也没有料到,一家拥有158年历史的投行的倒闭,会引起国际银行业后续的一系列倒闭风潮……其影响之广、范围之大,让人始料未及;而实时图数据库(图计算)技术,就可以找到关于风险的所有关键的节点、风险因子,风险传播路径……进而对整个金融风险进行提前预警。
图10:雷曼兄弟(Lehman Brothers)破产传播路径以及风险客群图谱
【注:以上构图,均在Ultipa Manager上完成。愿意进一步学习和探索的朋友,可以阅读系列文章之一: 走进 Ultipa Manager之高可视化】
需要指出的是,时下,尽管很多厂家都可以构造知识图谱,但现实是每 100 家图谱公司中,用(高性能)图数据库来做算力支撑的不足 5 家(低于 5%)。
参考资料:[4]《图数据库原理、架构与应用》; 孙宇熙,嬴图团队;2022-8;机械工业出版社,等等