来源:OneFlow OneFlow编译翻译|杨婷、贾川、徐佳渝三十年前,互联网(Web 1.0)时代开启。人们只能在笨重的电脑上用鼠标点击由HTML编写的网页文本,随后开始支持插入图片,可以上传视频,于是有了网络新闻、搜索、电子邮件、短信、网游......互联网带来了全新的商业模式,深刻改变了人们的生产生活。三十年后的当下,以ChatGPT为代表的大模型问世了。起初人们拿它当玩具,直到ChatGPT的诞生与人类实现惊艳交互,自动生成文本信息,而刚刚发布的GPT-4更是进化成支持文本和图像的多模态大模型,还能理解图像、代码,目前已经接入到微软Office全家桶......看到两者的共性了吗?比尔·盖茨说,ChatGPT不亚于互联网的诞生。而OpenAI总裁、联合创始人Greg Brockman更直截了当:“我们会拿下Web 4.0。”在去年ChatGPT发布前与ScaleAI CEO Alexandr Wang的对话中他这样谈到。而在3月10日举办的SXSW 23大会的另一场对话上,他称:我们正在创建新型互联网或类似的东西。 多模态GPT-4更像往这一方向演化的雏形。在ChatGPT发布后,仅仅经过四个月的大约五次更迭,这个升级版模型展现出更震撼的效果和更大影响力。 这让一直在研究人类大脑运作机制的“深度学习教父”Geoffrey Hinton也不免感到激动:“毛毛虫提取营养物质,然后破茧成蝶。而人们已经萃取了数十亿理解的精华,GPT-4就是人类的'蝴蝶'(humanity's butterfly)。”他还评价了让ChatGPT大获成功的秘密武器:人类反馈的强化学习(RLHF)是在教育一个超自然早熟的孩子。 这使得人类与机器实现了动态互动,让机器的智能特征体现得更明显,不同于人类与传统互联网交互的静态方式。在Brockman看来,我们正走在一个充满活力的世界,AI将改变人们与信息互动的方式,它会理解并帮助你。换句话说,GPT模型在真正改变人机交互的方式。 GPT模型所取得的成就令人艳羡,不过这建立在OpenAI数年的技术探索和坚定信念上。 作为深度参与了GPT模型从0到1生产过程,以及推动GPT研究和工程落地的主要“幕后推手”,Brockman对此深有体会,“它并非试图像快速致富那样昙花一现,而是一直在缓慢积累价值,才有了指数级增长带来的巨大回报。” 人们好奇包括GPT-4、ChatGPT在内的模型在爆发前所经历的蛰伏和执着,尤其是有志于打造类GPT模型的研究者们很想知道,GPT模型是如何从最初的胚胎想法逐步被OpenAI培育成孩子的?这个孩子又将如何长成AGI?它在可预见的未来对这个世界会带来哪些变革? 对于这些疑惑,问Brockman再合适不过了。此前,在SXSW 23以及与Alexander Wang的两场对话中,他对此进行了详细阐述,OneFlow按QA形式进行了编译整理。(内容转载请联系OneFlow获得授权。)
1ChatGPT的爆火
Q:ChatGPT是如何产生的?GPT模型当初发布时显得有些违反常识,但却在某种程度上掀起了最新的AI浪潮,这与你们当初构建这些技术时的预期是否一致?A:ChatGPT、GPT-3、DALL·E 2这些模型看似一夜成名,但其实构建这些模型耗费了整整五年时间,饱含多年的心血。GPT模型的构建要从2017年发布的情感神经元论文(Neural Sentiment Neuron: A novel Neural Architecture for Aspect-based Sentiment Analysis)说起,这篇论文的思想很新颖,不过很多人可能已经忘了。OpenAI研究员Alec Radford对语言非常感兴趣,并致力于聊天机器人的研究。我们真的很喜欢Alec,非常支持他在我们去调研严肃项目时做任何他想做的事。当时他负责的一个项目一直在训练LSTM模型,以此来预测亚马逊商品评价中的下一个字符。该模型能预测下一个字符,了解评价类型,还会像机器人一样学习,不过它也并非无所不知。我们发现LSTM模型中的单个神经元有助于开发出SOTA情感分析分类器(sentiment analysis classifier),可以告知你文本情感(正面评价或负面评价),这一发现听起来平平无奇,但我们非常清楚地知道,这是一个超越语法并转向语义的时刻。我们必须不断去推动。2017年底,Transformer问世,当时OpenAI联合创始人Ilya Sutskever立即发现这正是OpenAI一直在期待的模型。因此,尽管当时Transformer还并不完善,但我们基于它相继研发了GPT模型,基于对好的和糟糕的事实进行训练,以预测给定单词序列的下一个词。然后使用强化学习,让人类引导模型找到正确的答案。我们内部运行的算法就是通过这些小方法来获取生存迹象(signs of life)。对于特定的数据集,必须非常小心才能区分出真正的生存迹象,否则就难以取得进展。但如果你的直觉准确,就会知道是时候加大算力和研究人员的投入,进行模型扩展了。GPT-2的问世显然令人眼前一亮,通过函数曲线就知道模型越大,需要投入的算力和数据就越多,同时获得的工程细节就越多,曲线就变得更好了。我们的目标只是打破现有范式,不断改进模型,直到曲线趋于稳定。一直到研发ChatGPT,我们所做的额外工作就是让模型更有“活力(alive)”,并创建了一个超级简单易用的交互界面,免费提供给所有人。Q:ChatGPT是在去年11月底上线的,为什么会在这个节点发布?A:准备发布ChatGPT时,我一直告诉团队,我们可以非常保守,比如拒绝做任何看起来有点草率的事情,最重要的是,不能在发布后的三天内就因为陷入舆论麻烦而关闭ChatGPT。我们有数百个测试人员花了好几个月去做测试,但这与让它完全暴露在充满多样性和对抗性的真实用户使用环境中非常不同。从2020年6月开始,我们已经做了很长时间的迭代部署,第一次开放产品的API给普通用户肯定很紧张,但我确信团队能应付自如。Q:ChatGPT正式上线两个月内用户超过1亿,成为历史上增长最快的应用,而Facebook用了4.5年,TikTok用了9个月达到类似的成就。现在所有人都在讨论ChatGPT,为什么它会成为杀手级应用?A:实际上,我经常思考这个问题,ChatGPT背后的模型大约是在一年前研发的,所以并不是新技术,但它的不同在于对话更具一致性,你真的可以和它对话,它会做你想要做的事。其次,我们让用户很容易就可以体验它的能力。非常有趣的是,随着ChatGPT真正开始流行起来,人们可以看到,相当长一段时间内技术可能做到的事情以及实际能做的事情之间的差距。确保人们知道事物的发展方向真的很重要。对我来说,这也许是最大的收获。 Q:你认为生成式AI最有趣和最具颠覆性的用例是什么? A:我想讲一个个人轶事。医疗诊治绝对是一个高风险领域。几年前,我妻子得了一种神秘的疾病,她的腹部右下方感到疼痛,会是阑尾炎吗?我们看了两个医生都认为是细菌感染,开了不同的抗生素,但都无济于事。第四个医生做了超声波检测才找到了病因。 而当我把那些症状输入到ChatGPT中,给出的答案是:第一,确保不是阑尾炎;第二,卵巢囊肿破裂,而这正是确诊的病因。但我不想让它取代医生,也不想让它告诉我去服用这种超级罕见的抗生素。 Q:ChatGPT有时会一本正经地胡说八道,就像醉酒的疯子。A:确实,所以在使用过程中更要有信息甄别能力。其实ChatGPT的准确性很高,只是我们在训练过程中损坏了一些信息。我很高兴人们通过与其交流来缕清思路,只将其当做一种全天候待命的认知辅助工具。Q:你能分享一下关于GPT模型未来版本的想法吗?它是否会更谨慎、更具创造力?A:先解释下我们是如何构建这些系统的。第一步,我们需要训练一个基础模型,它的目标只是预测下一个单词。我们会给这个模型提供大量的文本数据,但并不会告诉它哪些信息是正确的。这个模型需要在这些文本数据中学习,并且在这个过程中必须考虑所有上下文信息来预测下一个词。所以这个模型同时也会习得偏见、意识形态和思想等信息。第二步是进行人类反馈的强化学习(RFHL),也被称为后期训练(post training)。在这一阶段,我们会从大量的文本数据中选择有用的数据,告诉它如何正确地处理数据。 然而,还存在一个非常重要同时又非常棘手的问题,那就是AI应该做些什么?谁来作出这个决定?这是一个非常不同的议题,我们正在不懈努力让它具有合法性(legitimacy)。我们发现,基础模型本身实际上是根据其不确定性进行校准的,但这对后期训练来说是一项需要解决的工程性难题。自去年12月以来,我们已经发布了四到五个不同版本的ChatGPT,例如事实准确性和幻觉问题均已得到了改善。这得益于通过后期训练不断改进。 我相信,未来我们将会拥有更加准确、能够自我检查工作质量、知道何时拒绝、何时提供帮助的GPT系统,同时还能协助人类完成更加艰巨的任务。
2构建GPT模型的信念
Q:很多人在初次使用GPT-3时就深受震撼,尤其是模型的定性新行为(qualitatively new behaviors),而不只是模型在既定任务上的良好表现。你看到早期模型成果时是否会感到这很神奇?A:当时的结果令我十分兴奋。我们只需要写出函数名称和文档字符串就能真正编写出函数,尽管不是十分复杂的函数,但它能够根据要求写出代码,做一些小小的修改就能满足需求。有趣的是,以前我们认为模型只在特定数据分布中表现出色,一旦超出分布范围就会出现问题,而GPT-3的范式可以应用于不同的数据分布。你会发现模型具有泛化能力,而且对已知的数据,泛化能力更强。那模型对于未知的数据的泛化能力怎么样?人类不太擅长未涉足的领域,而模型可以从大量不同配置中学习并提取有用信息,这简直不可思议。Q:在开发GPT-3的过程中,需要投入大量的计算资源,而且实验也不一定能成功,这需要很大的信心和决心。在整个过程中,你是否怀疑过自己,或者是否相信只要不断进行尝试就能取得成功?A:实现模型扩展并不是想当然的事,需要不断尝试才能找到最佳解决方案。有趣的是,当我们得到首个扩展结果时,确信这是正确的方法,可以一直推进,直至获得最佳结果。我们研究DOTA这款游戏整整三年。一开始,我们对这款游戏一无所知,经过不断努力打败了游戏开发商内部的团队,最终成功击败职业团队。期间,我们进行模型扩展,并且解决所有bug,在每一个维度上不断迭代,从而获取更好的回报。这同样适用于GPT-2模型扩展,其迭代过程相当复杂,为此还需要分配出大量的计算资源,这需要具备坚定的信念。另一方面,模型扩展是迭代的过程,因此你不必考虑会做出不可逆转的决定,因为每一步都能从现实中得到反馈,这样就可以从大局思考“如果这个方案成功了会怎样”。同时,还能确保你已为成功做好了准备。 不过,也不要盲目将一整年时间都花在可能不会取得预期结果的事上。平衡这两者才是关键所在。Q:从DOTA和情感神经元中学到的东西是你们制胜的关键。虽然从外部看,这些零散的知识不是很直观,但将其整合在一起就为扩展和构建GPT-3指明了方向。这好像就是创新的方式:将各种实验成果整合在一起,就构建出了新事物。A:这就是第一性原理的实践。