干货!​如何打造我们自己的“ChatGPT”?| 大佬思辨

时间:2024-10-28 07:20:03

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

火爆全网的ChatGPT究竟是什么?为什么这么强?ChatGPT会取代搜素引擎吗?ChatGPT凸显的能力会是metaverse的有力支撑吗?ChatGPT的火爆背后, AI发展路向何方?

2022年12月9日,AI TIME邀请了华为诺亚方舟语言语义首席科学家刘群、清华大学计算机科学与技术系副教授黄民烈、腾讯微信高级总监周杰、华为诺亚方舟实验室研究员尚利峰、智谱AI大模型事业部VP薛宇飞,北京聆心智能科技有限公司联合创始人,太魔人李文珏、香港科技大学哲学硕士生,太魔人赵俊杰,一起聊一聊ChatGPT。

ChatGPT可以理解为对话版本的GPT3.5,可以自动搜索信息,修复bug和撰写诗词、作文。ChatGPT一经发布便迅速火爆全网,一周之内达到了100万的用户量。埃隆马斯克甚至感叹:“我们离强大到危险的人工智能不远了”。

自2018年的BERT预训练模型被提出后,迅速刷新了各大NLP任务的榜单。NLP技术在近些年飞速发展,在许多任务上超过了人类的水平,近几年关于语言对话大模型的研究非常热门。

技术领域

曾有研究人员计算得出目前互联网上的纯文本数据大多已经被大模型所使用。从技术角度而言,除了人类的反馈外,模型在语言端的自我进化该如何继续呢?

刘群:对于纯文本数据大多已被大模型使用这个说法,我觉得网上数据的更新还是非常快的。数据永远是不够的,即使是现在这个大模型也会有很多地方没有覆盖到。在数据比较充分的情况下,如今的ChatGPT可以表现得非常好,但是如果数据没有那么充分,还是会表现出很多问题的。

黄民烈:今天的ChatGPT的数据可能还停留在2021年,大模型如何持续的更新是一个比较重要的问题,涉及到如训练成本、学习性能等问题。这些动态信息如何包含进来?以前的模型怎样持续更新并进行持续的学习?这些都是我们后续需要思考的问题。

薛宇飞:AlphaGo是可以自我训练并迭代的,在我们的语言模型训练过程中,有没有可能演化出一种新的范式使得语言模型自我迭代并且变得更强大呢?

周杰:按照ChatGPT目前的训练过程,已经在和人类进行交互和反馈并获得数据的优化了,但是和刚刚提到的下围棋还是有着不小的区别。首先是迭代的速度,对话能够收集到的和下围棋棋盘上收集语料的速度是不一样的。另外就是收集语料的目标,围棋有着非常清晰的loss function即目标。但是语言可能不是一个清晰的目标,而是比较多元化。

尚利峰:人们都在努力使得大模型进行自我进化,比如让他先问一些问题并回答来获取反馈,这样做当然可以,但是却有上限。ChatGPT是在和人的需求对齐,因为人的需求是多种多样的。不仅仅是一些简单问答,还存在其他的复杂任务。而围棋的规则相比之下则较为有限,因此这二者还是非常不一样的。

刘群:尽管围棋影响非常大,但其实还是一个有限空间。语言对我们世界的描述和围棋并不是一个可以比较的问题。

黄民烈:ChatGPT中很明显的一点就是它用了人类的比较数据并基于强化学习去做优化,而且这个优化所带来的收益是非常之大的。目前ChatGPT的demo已经在通过API的形式来收集用户反馈,因此可以说我们今天已经在给chatGPT提供数据了。很多产品在设计上引入行为反馈机制,这也是一个非常重要的步骤。刚刚很多老师也都提到语言的评价是一件非常难的事情,需要一个很强大的模型去做评估以给出一个可靠的reward。

ChatGPT的爆火,让大家都跃跃欲试,但是在一些性能表现方面仍存在局限性,比如在被问到小学语文常识题的时候,乱编金庸籍贯,胡扯诗句作者,一本正经的胡说八道,这是由什么原因造成的呢?

尚利峰:ChatGPT本质上还是一个统计模型,统计问题时难免会遇到各种各样的问题。比如回答相同的一个问题,中英文之间常常会存在差异。对于解决方式,现实问题还是非常复杂的。如何让ChatGPT把外部的知识快速描述出来?我觉得这并不是一件很简单的事情。

刘群:现在的大模型本质上还是一种统计模型,我们看到统计模型在数据充足的时候表现得非常好。机器总是难以理解常识一类的问题,就算常识足够多,大模型在生成数据的时候也会进行推理,而且它即便是可以分辨数据的真假也会犯错误,因为它不能保证推理出来的东西一定是对的。

周杰:假设数据库含有全世界70%的知识,我们要证明的是它做不到的另外30%。做到这些,我们也就证明了ChatGPT的局限性。

黄民烈:刚刚几位老师也提到,ChatGPT是一种生成模型,即像开盲盒一样。即便每次提相同的问题,输出的结果也不一样。这里有一些固有的不可控性,今天的大模型其实已经表现得不错了,但是在边界上难免会出错。ChatGPT模型已经在对常识问题等上面做了针对性的优化,然而根本的解决这些问题是很难的,需要一些外接模块的支持。因此,我觉得在未来除了这个模型之外还需要去做一些工程的框架。

应用领域

根据现阶段ChatGPT的惊人效果,特别是在某些话题问题方面性能都超越了Google和Siri,所以ChatGPT对话模型可以在哪些领域直接应用?和元宇宙如何结合?

薛宇飞:我觉得ChatGPT里面表现最惊艳的部分还是对于开放性问题的回答,它可以有条理、有层次的给开放性问题一个方案。所以我觉得这其实是ChatGPT中可以直接应用的部分,ChatGPT的答案是已经可以给提问者带来实质帮助的了。谈到与元宇宙结合,ChatGPT本就可以看作是元宇宙中虚拟人物的一个大脑。塑造了元宇宙中这个角色,ChatGPT完全可以以这样的一个身份与元宇宙中的其他角色进行各种各样的对话。

尚利峰:ChatGPT最大的能力不在于信息精准性这一点,而是在于它的创造性。比如尝试让它用第一人称进行对话,这些创造性的能力它都有。对于内容工作者来说,无论是编写代码还是撰写小说,ChatGPT都可以为我们带来很多灵感。对于行业来说,各个垂类都需要客服角色的存在,也许需要更多的小公司参与进来帮助其进一步的发展。

周杰:如果ChatGPT可以达到细粒度,那么它直接就可以应用。因为只有细粒度层面的信息,可以帮助我们直接地解决问题。而现在的ChatGPT可能还达不到这个境界,在下一个版本也许就能做到。

黄民烈:想问几位工业界的老师一个问题,你们是否愿意去使用安装有ChatGPT的产品呢?

刘群:如果一个东西在目前的领域好用,一定是需要大量的数据填满的。比如一个问题的各种问答,一件事实的各种表述,无论怎样的产品本质上都是一个数据积累的问题。

周杰:我觉得场景可以分为两类吧,一种是创作类,如AIGC;另一种是客服类,如果说明书可以被机器很好读懂,这也是个不错的方向。目前我们来看,如果想写一篇文章,ChatGPT可以很好帮助到我们,但是这个技术能力和产品之间还是有着很大不同。举个例子,如果所有创作者都用ChatGPT去写,那么会不会所有创作者写出来的文章在同一个topic下是一样的?那么这样的产品是否是一个好产品?另外,读者发现所读的文章是一个机器人写的,那么是否还有热情去投入阅读?所以说,ChatGPT更有想象力,但也承受着诸多质疑。

黄民烈:ChatGPT是一个通用的任务助理,目前较为惊艳的点 在于可以在同一个模型上做各种想要的事情。大家好奇的是ChatGPT可以将所有东西都装在一个模型之中,但是如果要将这些东西用到一个垂直领域中就需要对产品在细分领域之中做针对性优化。我们需要把其中的知识、规则和语料库准备的相当充分,才有可能在产品上去用。ChatGPT给我们打开了一个新的思路,不再像过去那样而是跨领域、跨任务的去泛化。

现有的搜索引擎商业模式基于用户搜索的假设,如果未来大家都使用模型来得到答案,广告还会存在么?

周杰:提到ChatGPT和Bing的整合,也许他代表我们追求的两种动力。商业相对于技术而言是更加底层的,既然技术可以超出的我们的想象力,那么商业也一定可以做到这一点。

薛宇飞:只要商业需求存在,广告就会一直存在下去。不同时代,广告的呈现方式是随着人们获取信息的方式变化而变化的。人们通过电视、广播来获取信息,那么广告就是其中的一个时间片段。搜索引擎出现之后,广告也具有了全新的形式。如果人们开始通过大模型获取信息,也一样会有相应的广告形态出现。大模型还会改变了广告创作的方式。会不会有一天,广告中的文字都是大模型创作出来的,它可以更懂得人们的心理,知道用怎样的语言可以更抓住人类的眼球并易于接受。这也会大大降低广告的制作成本,为广告行业带来效率提升。回到大模型代替搜索引擎这件事上,如果有这么一天,人们开始用大模型来获取信息了,那广告可能就会出现在大模型给出的回答中。

刘群:ChatGPT取代搜索引擎在短期来看还是存在问题的,目前直接取代搜索引擎可能还是不太合适的。人们知道这是个生成的东西,想玩一玩是没问题的,但是如果让人们去信任它可能还存在困难。

黄民烈:大模型会给我们一些新的option,比如在AI乌托邦中捏一个产品品牌的形象进行对话,这也是当前大模型应用的一种形式。

尽管很多小规模的预训练模型在今天的人机对话领域已经有很多成功的商业应用,但像ChatGPT这样大规模的模型,在ToB领域中有哪些应用和挑战呢?

薛宇飞:ChatGPT大模型如果应用肯定能取得比小模型更好的表现,但随之而来的是模型推理而带来的巨大算力成本。对于一个商业场景来说,综合考虑大模型和小模型各自的收益和成本,就是一件很有挑战的事情。今年智谱AI和清华联合发布的模型——GLM130B,是一个1300亿的中英文语言模型。我们在做这个模型的时候就在想,能否尽可能低的降低成本。因此,我觉得ChatGPT的成本是一个亟待解决的挑战。

尚利峰:我觉得大模型不是ToB的全部,ToB领域的业务是非常复杂的,很多领域的建模都不止是一个语言模型问题。另外,ToB领域涉及到大量的业务逻辑等固定的知识,是一个非常长链条而不能出错的。如果错误不断叠加,就会非常危险。

刘群:大模型具备原先小模型所不具备的能力,我们要思考如何把这些能力在ToB场景用起来。我最看好的就是创意类产业,毕竟这一类创作出来没有对错之分。每个人的需求不一样,我们也不必过于担心每个人创作出来的结果都一样。

未来展望

如何打造中国的“ChatGPT”?

薛宇飞:如果要打造我们自己的ChatGPT,我觉得首先要看一下ChatGPT对中文的支持怎么样。目前有人说,尽管ChatGPT支持中文,却并没有在特别多的中文语料上做训练,很多的支持和表达都是通过英文的训练文本达到的。所以我觉得,无论是打造中文的ChatGPT,还是中文的OpenAI,我们都需要把中文的语言模型训练好,把互联网上的中文语料用好,才能成为更懂中国人的模型。

刘群:单从算法角度来说,我们觉得ChatGPT并没有什么我们做不到的东西。技术上没有什么大问题,但是中文数据的整体质量可能会差一些。英文的高质量数据要多一些,而且目前中文大模型规模可以和GPT-3比肩的还是不多,训练也远远不如GPT-3充分。

黄民烈:如果我们要打造中国的OpenAI或是ChatGPT这种模型,我们首先需要有足够多的钱和足够专注且专业的团队。回顾近几年OpenAI的发展路径,我们会发现自从GPT-3之后再也没有进行开源,而是对API接口调用收费。在这背后,OpenAI也拥有了许多高质量的API调用数据,甚至还找了专门的众包团队去标注数据。尽管算法本身较为简单,但是数据方面可能是我们目前的欠缺。回到我们做中文的问题上,我们的目标并不是超越他们,而是达到80%就可以了。中文很难,但是我们可以尝试在一些特定领域对ChatGPT完成超越。ChatGPT是通用的任务处理,我们可以只关注动漫、情感这些特定方向,同时这些也是后续值得我们思考的内容。

薛宇飞:刚刚几位老师都提到了开源和开放的问题,智谱做了一系列的大模型,我们的这些模型不仅在网上有大量的API可以调用,而且都是开源的。感兴趣的朋友可以来试一试,我们的模型有GPT这样的语言模型,也有能够生成代码的模型。我觉得我们的模型效果还是不错的,大家也可以来使用感受一下。

尚利峰:数据一定要闭环。数据并不像想法创新这些亮眼,但是却是非常需要静下心来做的事情。做大模型的路,可能真的是一件未来还具有不确定的道路,需要相当多的专注。

未来发展会改变“AI+”范式而进入“ChatGPT+”吗?

周杰:这是毫无疑问会的,我觉得这些会遇到的困难可以分为两类。第一类是相信和热情,而且这是最困难的。第二类困难是技术上的困难,但是只要能克服第一类的困难,第二类的困难都不是问题。国外的ChatGPT等于是为我们树立了一个标杆,将会有很多人怀着热情去推动大模型的发展,这点是毫无疑问的。

薛宇飞:我觉得ChatGPT最为核心的是AI在与人类交流的过程中能够记住更长且更为复杂的背景信息,能做到更复杂、更深刻的逻辑推理,这才是ChatGPT最为本质的东西。未来随着技术的发展,还会有其他像ChatGPT一样令人眼前一亮的成果出来。我觉得在AI+的时代,大家的认知会被一遍遍刷新,而不一定是新的东西取代AI+。

黄民烈:生成式的模型在未来的应用可能会越来越广泛,尤其是现在的工业应用场景,几亿甚至十几亿级别的模型是非常常见的,逐渐替代了传统的机器学习方法。我觉得未来会进入一个模型的时代,模型会发挥越来越大的作用,尤其是创作类、生成类的模型。现在AI+的研究越来越落地,可以预见的是从学术到工业落地的这条路径会变短,而且变得越来越快。

刘群:范式这个词,用在这里有点不合适,ChatGPT相比之前其实并没有那么大的变化。有人把这种叫做范式迁移,但其实很多人都不是很赞成这种说法,范式迁移本意是指科学界采用的研究方式发生重大变化,而ChatGPT并没有改变AI的研究方式,这并不算是一种范式的变化。我觉得它真正的价值在于和人交互的强化学习大规模的被用了起来,这应该是其最大的贡献。

往期精彩文章推荐

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了900多位海内外讲者,举办了逾400场活动,超400万人次观看

我知道你

在看

~

点击 阅读原文 查看回放!