【导读】本文作者站在 AI 整个历史长河的发展中看待当下 LLM 技术,他表示,AI 的发展是个漫长的过程,没有终点。模型更迭迅猛,未来充满未知,但唯一令人担忧的是,人们会越来越依赖那些集中化、复杂且脆弱的系统,这将带来巨大的安全隐患。一个黑客或一个简单的漏洞,可能会导致某个供应商的所有自动驾驶汽车全部停止,有可能直接导致整个国家甚至全球的交通瘫痪。
本文整理自 Kaldi 之父, IEEE Fellow,小米集团首席语音科学家 Daniel Povey 在 2024 全球软件研发技术大会中的演讲,同时收录于《新程序员 008》。《新程序员 008》聚焦于大模型对软件开发的全面支撑,囊括 Daniel Jackson 和 Daniel Povey 等研发专家的真知灼见与“AGI 技术 50 人”栏目的深度访谈内容,欢迎大家订阅。
作者 | Daniel Povey
责编 | 王启隆
出品丨《新程序员》编辑部
我想从宏观角度思考我们当前在 AI 领域的地位。如今像 ChatGPT 这样的聊天机器人,从产品角度来说确实很有意思。但打造 AI 依然是一个漫长的旅程,我们还有很长的路要走。到目前为止,我得到了以下两点认识:
-
首先,我们可以通过单纯的预测任务,比如预测下一个词(next-word prediction),让模型学习到很多关于世界的知识。
-
其次,当你扩大规模时(无论是扩大参数还是训练数据的规模),这些模型的性能会更好。
这些经验论都很好,但事实上我不认为它们特别出人意料,我也不认为这意味着我们解决了通用人工智能(AGI)。在过去,每当科幻作家试图想象一个超级智能 AI 时,他们通常会把我们现在所拥有的技术放大。比如在艾萨克·阿西莫夫的小说中,很多故事都出现了一台叫做 Multi-Path 的计算机,那是一台巨大的、有许多真空管的计算机,而他的灵感显然是基于 ENIAC 计算机(世界上第一台通用电子计算机)。重点在于,人们难以想象超出自己现有认知范围的事物,而我不认为 AGI 就是将现在的智能放大。
我们常认为人类有非常大的大脑,但实际上我们的大脑一直在变小 —— 如果和大约 5 万年前的克鲁马农人相比,他们的大脑实际上比我们的还大。狩猎采集时期的人类实际上需要记住比我们更多的东西,因为他们会吃很多不同种类的食物,必须熟悉周围的野生环境。也许在那个时候,他们不太依赖语言和向他人询问事情。
到了现代,我们的记忆力远不如古代人,所以才需要搜索技术。我们只知道如何找出答案,知道使用什么搜索词,知道在哪里查找。我认为也许在未来,AI 可能会更多地依赖于在 AI 系统之外查找信息。比如说,我们可能不会建立一个有万亿参数的 AI,而是建立一个有十亿参数的 AI,并给它搜索网络的能力,这么做反而更实际。
就像和孩子们进行长途车旅行的时候,他们经常会问:“我们到了吗?”或者“我们快到了吗?”我觉得在这个通往 AI 的旅程中,很多人在问,“我们到了吗?这就是通用人工智能了吗?”我认为总的来说,答案基本上都是否定的。
但同时,这也不是一个特别有意义的问题,因为它某种程度上取决于你如何定义通用人工智能。更有意义的问题应该是,“AI 能否系鞋带?”或者“AI 能否给老人或者盲人指路?”这些才是具体的应用问题。但“这是通用人工智能吗?”并不是一个真正可以回答的问题。
接下来,我会从多个角度分析,真正该思考的问题究竟是什么。
如何赋予 AI 意识?
动物以不同的方式表现出智能。菲利普·K·迪克的小说《仿生人会梦见电子羊吗?》探讨了 AI 是否能有意识。它有一个著名的电影改编版叫《银翼杀手》,是一部经典科幻片。现在我不能真正回答关于意识的问题,但关于 AI 是否会做梦这个论点实际上很有趣。实际上,所有的哺乳动物、鸟类和爬行动物都会做梦,即使章鱼也会做梦,我想科学家们并不完全理解为什么。有趣的是,这是一个趋同进化的例子,因为人类和章鱼的共同祖先肯定不会做梦,章鱼只有一个非常基础的大脑和神经系统。
所以出于某种原因,比方说为了产生智能行为,做梦是必要的。我认为这也许与某种生成算法有关,因为当我们做梦时,我们会体验随机的事情,它就像生成负样本这种学习算法一样:每当我们醒来时,往往都可以可以记住自己梦里的内容,但两小时后,就没有人记得梦里的事情了。梦中似乎有些东西不想进入我们的长期记忆,也许它只是我们长期记忆的一个负样本。
《银翼杀手》这部电影描绘的世界里还有另一个有趣的场景:世界上有一个非常强大的公司叫做泰勒公司,制造着所有的仿生人。AI 的兴起可能会导致大公司权力的大量集中。原因在于,如果制造 AI 的唯一方法是使用大量训练数据来训练庞大的模型,那么只有那些拥有足够资金购买大量 GPU 并能够获取大量训练数据的实体,才有可能制造出 AI。而且,在未来,我们的 AI 算法设计可能会变得极其复杂,以至于几乎没人能完全理解它们。这些算法将如同秘密配方一样,被严格保密在公司的内部。
在这种情况下,要复制公司的 AI 将非常困难。所以我们可能会看到这些非常强大的公司主导人工智能领域。这对普通人来说不一定是件好事。
再举个例子,在电影《雨人》中,有一个自闭症患者,由达斯汀·霍夫曼饰演。他不能在社会中正常生活,但他在某些方面非常聪明。他可以告诉你任何日期是星期几,还能非常准确地数东西。他的大脑在高效处理某些信息方面表现出色。
但他关注的内容与常人不同。他专注于记忆日期之类的事情。这种情况被称为学者症候群。现在我们当前的 AI 并不真的试图区分它们学习的内容。我们只是输入所有的训练数据,它就学习里面的所有东西,这有点像电影中的雨人。我的预测是,在未来,我们可能会拥有更加主动的学习算法。这些 AI 能够自行判断哪些信息是有趣的,哪些不是,或者我们可以为它们设定判断标准。这是因为潜在的训练数据量几乎是无限的。
几乎没人讨论数据选择这一话题,一方面是因为这是一个复杂的过程,另一方面则是因为涉及法律问题。大多数公司都不愿意透露他们使用的训练数据,因为一旦公开,可能会引发法律诉讼。
AI 最终会破坏它触及的一切
现在很多人对 AI 感到兴奋,他们认为 AI 会解决我们所有的问题。有些人甚至认为 AI 可以给我们带来世界和平或解决所有人类社会问题。我可不这么认为。
我认为 AI 最终会破坏它触及的一切。拿国际象棋来说吧,我们让 AI 解决了国际象棋问题,AI 可以在国际象棋中击败我们。但实际上这只是毁了国际象棋的乐趣。没有人再想下国际象棋了,因为他们知道 AI 可以轻易击败我们。
我父亲以前很喜欢下国际象棋,他现在还健在。有一次我给他买了一个电子国际象棋棋盘,就是那种可以和你对弈的智能棋盘。我以为那算是个不错的礼物。结果他和它对弈,即使在较低难度设置下,电脑也总是赢。
我这才意识到,其实他下棋并不是为了下棋本身。对他来说,下棋更像是一种社交活动。所以与电脑对弈反而失去了国际象棋的所有乐趣。我担心 AI 可能会对人类生活的许多方面造成这种负面影响。另外,如果我们仅仅将 AI 视为工具来使用,它并不会改变我们的本质。人类的动机极为复杂,根植于我们的大脑和基因之中。AI 不会改变这些本质特征。因此,认为 AI 可以带来健康、和平与安全的观点在我看来有些过于乐观,因为现在掌控技术的人将来也会掌控 AI。即便换了一批人,但他们终究还是人。
人们经常讨论的 AI 未来的另一个方面是全民基本收入(UBI)的概念。这种设想是:随着 AI 取代我们的许多工作,会导致许多人失去工作。然后*会给每个人发放一份基本收入,让他们能够维持生活。人们不必工作,只需消费,或许就能过上幸福的生活。但在我看来,这并不是 AI 乌托邦,而更像是一个反乌托邦。如果人们变得无用,他们会意识到自己是多余的,这会摧毁他们生活中的所有意义。
人们从与他人的关系以及通过为他人服务获得意义。即使在一个无需工作的世界里,我们也可能需要创造某种形式的工作,或是找到一种方式让人们感觉自己是必要的,哪怕这只是表面上的。否则,人们会变得非常不快乐,这也可能给社会带来问题。正如俗话所说,“闲极生非”。如果没有事情可做,人们很可能就会惹麻烦。
在希腊神话中,有一个关于迈达斯国王的传说,他拥有点石成金的能力。这个故事不仅仅反映了中世纪人们对国王治愈疾病的信仰,还寓意着财富带来的诅咒。迈达斯国王能够通过触摸创造黄金,但这却成为了一个诅咒而非祝福,因为他所爱之人、他的食物乃至他的寝具都变成了冷冰冰的金属。我担心 AI 可能会对我们生活的许多方面产生类似的负面“点石成金”效应。
例如,电子邮件在 AI 广泛应用之前就已经被大量的垃圾邮件和广告邮件所淹没,而今我们的手机短信也开始遭受同样的命运。随着 AI 技术的发展,这种现象只会愈演愈烈。有时候,你可能会收到一条简单的问候信息,但却完全不知道这是来自缅甸的诈骗团伙还是 AI 发送的,他们的目的往往是诱骗你的钱财。
未来,当你接到电话时,可能根本无法分辨是在与真人对话还是与 AI 交流,因此你可能会选择直接挂断,即便对方是真正的人类。此外,互联网正被 AI 生成的内容所污染。当我在网上搜索技术信息时,我发现越来越多的搜索结果是由 AI 生成的。这些内容乍一看似乎很有道理,但很快就会暴露出明显的错误,让人意识到这并非出自人类之手。有时候,它们是对真实文章的复制粘贴,但会在文中插入垃圾链接。
总之,我担忧的是,当 AI 内容渗透到各个信息渠道时,并没有为这些渠道增添价值,反而让人们开始忽视并逐渐不信任这些渠道。阿根廷作家博尔赫斯曾经讲述过一个关于无限图书馆的故事,这个图书馆包含了所有可能的书籍——不仅仅是人类已经写过的,还包括所有可能的随机字符组合。其中有些书籍可能缺少单词或者含有错误。每本书都有多个副本,但某些副本可能已被篡改。虽然理论上讲,大型图书馆比小型图书馆更有用,但在无限图书馆中,每一本书都可能是被破坏的劣质副本,因此整个系统变得毫无价值。我对互联网的现状感到忧虑。
一旦我们有了生成式 AI 内容,它就会像这个无限图书馆一样。这对 AI 训练来说也是一个问题。如果我们仅仅在网络上所有的数据上进行训练,那么我们主要训练的就是由低质量的 AI 生成的数据。我认为这样很容易让AI陷入恶性循环,使其性能变得更差。
四大领域的 AI
我对 AI 在不同领域的影响有一些想法。
许多人担忧 AI 会使白领工作变得多余,因为 AI 能够生成文本——这是白领大部分时间在做的事。就我个人而言,我不认为这种情况会发生,原因有二:首先,在多数需要生成文本的工作场合下,这些职位的存在往往是因为法律法规的要求;其次,这类工作常常处于一种零和竞争状态,即便个人表现有所提升,但如果整个行业水平都在同步提高,那么整体生产力实际上并未发生变化。
以律师为例,在大多数国家,他们享有特殊的职业地位。即使一位律师通过 AI 的帮助提升了工作效率,但如果对手律师也同样利用 AI 提升了效率,那么这种提升对于案件的结果并无实质影响。在这种情况下,如果律师们只是生成更多的文件,那么这将成为新的行业标准,而文件的实际质量并没有得到提升。
广告业则是另一种典型的零和竞争案例。尽管这个行业较少受到法律法规的约束,但它本质上是一种零和游戏。因此,如果广告商借助 AI 变得更加高效,那么从整体上看,这种效率提升反而会降低广告的效果,因为消费者能够消费的产品总量是有限的。
类似的情况还出现在环境评估审批过程中。首先,这项工作本身就是基于法规要求而存在的;其次,它涉及一个竞争性的过程,因为对环境审查的要求既独特又多变。因此,生成大量文件可能成为新的标准做法。尽管可以利用AI来完成这些任务,但工作的本质并未改变。
相比之下,我认为 AI 在农业和采矿领域具有巨大的潜力。在这些领域中,使用机器有时非常具有挑战性,因为环境条件复杂且难以预测。尽管目前我们已经在使用各种机械,但仍需要人类的介入来指导它们的操作。然而,借助智能机器,我们可以更有效地解决某些问题,甚至有可能彻底改变农业的做法。例如,我们可能不再依赖化学农药,而是采用更加环保的方法来保护作物。或许我们还能利用 AI 改善动物的生活条件,让它们生活在更加适宜的环境中。
然而,想实现这一切需要的不是大型语言模型,而是那些能够直接与物理世界交互的 AI。
AI 已经在军事领域产生了深远的影响。观察当今的冲突,我们会发现各国正在积极研发武装无人机,并取得了显著成效。值得注意的是,并非所有无人机都配备了 AI,目前大多数仍由人类操控。但我相信 AI 驱动的无人机即将到来,特别是在面对信号干扰等挑战时,AI 能确保无人机即便失去与操作员的联系也能继续执行任务。
这种趋势可能会导致更多单方面的战争,因为一方可以通过部署 AI 无人机来打击目标,而无需派遣地面部队冒险。这可能导致战争持续时间延长,尤其是当一方遭受单方面打击后,民众的愤怒情绪可能会促使他们采取报复行动,甚至可能将战斗延伸至对方的平民区域。这种情景预示了一个令人不安的未来,人们不得不时刻提防着武装无人机的威胁,正如某些反乌托邦科幻作品所描绘的那样。
历史上,技术进步往往会导致攻防力量对比的变化。例如,城堡曾经是防御的象征,但随着火药的发明,攻城武器如大炮的出现使得进攻方占据了上风。随后,机关枪和战壕的出现又为防御方带来了优势,导致了第一次世界大战期间那种持久且难以突破的战场僵局。如今的技术发展似乎再次倾向于进攻方,特别是由于无人机的广泛应用。为了抵御这些低成本的武器,防御成本可能会非常高昂,以至于最终的战争遏制手段可能主要依赖于相互威慑。
关于 AI 对教育的影响,我出于几个不同的原因并不乐观。
首先,我们必须认识到教育并非单一的实体,它包含了许多参与者,每个参与者都有各自的目标和动机:家长希望孩子能够获得良好的社会地位,这意味着孩子在考试中的表现要优于同龄人,这种愿望未必与真正的学习相关,而可能更多地体现在应试技巧的培养上;学生则更倾向于追求乐趣和个人兴趣,这与学校的传统教育模式之间存在矛盾;教育机构则希望通过教育内容来塑造学生的价值观和身份认同,这既可以强化也可以淡化民族主义色彩,具体取决于课程的设计者。
学校还承担着一项重要职能,即为孩子们提供日间的活动安排,以便家长可以全心投入到工作中去。可以说,这是学校的一项关键职责。关键在于,许多教育实践实际上是一种零和游戏,技术进步并不能从根本上改变这一本质。
我认为让学生与 AI 建立有效的互动将是一项艰巨的任务,因为孩子们会从成年人那里获取关于何为真实、何为有趣的信息。孩子们会观察成人的行为举止,以了解哪些事情真正重要。缺乏这些微妙的人际互动,我认为孩子们很难完全投入到学习过程中。
多项研究显示,增加教育投入确实能在短期内提高学生的学业成绩,但这些成果往往不能持久。换句话说,即便在早期教育阶段提供了更高质量的教学,也无法从根本上改变一个人的成长轨迹。
当然,掌握基本的读写能力等基础技能是至关重要的。但除此之外,我认为 AI 对教育的长期影响可能不会像我们预期的那样显著。
从“繁华市集”向“水疗中心”转变
前文讨论了一些交流方式的变化趋势,比如电子邮件充斥着垃圾信息等问题。我认为,我们正见证着一种从开放式交流渠道向更加封闭式渠道的转变。电子邮件作为开放渠道的代表,任何人都可以向你发送信息,而你无法阻止这一点。短信也面临着类似的情况。即使在人工智能兴起之前,这些渠道就已经成为了垃圾信息泛滥的重灾区。
因此,人们很可能会转向微信这种由公司控制的渠道,从而将垃圾信息降到最低。同时,*也会对这些平台施加控制,以符合当地的法规。全球范围内很难有一个统一的平台供所有人使用,因为不同国家和地区对于平台的要求各不相同。这迫使公司在不同市场中作出选择,以确保遵守当地法律。
在消费电子产品领域,我们可以将其分为两种极端类型:“水疗中心”(SPA)和“繁华市集”(Bazaar)。前者提供一种封闭、受控的环境,用户可以在这里享受到平静和安宁;后者则更为开放,任何人都可以联系你,让你置身于繁忙的信息流中。
所有消费设备都处于这两个极端之间的某个位置。苹果的产品倾向于“水疗中心”模式,对应用程序的发布有着严格控制。相比之下,微软的产品则更接近“繁华市集”。在“水疗中心”模式下,存在信任问题,用户可能不愿被绑定在一个可能变得过于封闭的生态系统中。这是人们对于苹果产品的主要顾虑之一。
我认为人工智能将进一步推动从“繁华市集”到“水疗中心”的转变,因为人们的注意力正承受着越来越多的外部干扰。长期处于这种状态可能对健康产生负面影响。因此,创造宁静时刻的能力将成为一个重要趋势。在过去没有电子设备的时代,人们过着更为轻松的生活,可以尽情享受不受打扰的时光。
我认为人工智能将替代许多低技能的工作,如运输和零售业。历史上,每当新技术取代人力劳动时,都会引发社会焦虑。例如,在英国工业革命时期,织袜机的发明引发了织工们的强烈*,甚至导致了机器的破坏。尽管这些*最终未能阻止技术的进步,但从长远看,社会总是能找到新的平衡点。
然而,这一次的情况可能有所不同。人工智能的通用性意味着它有可能取代各种工作。我对人工智能的主要担忧不是失业问题,而是系统的脆弱性。与人类驾驶员相比,如果软件出现问题,可能会导致大量自动驾驶汽车同时停驶,进而影响整个物流和社会运转。这就好比居住在可能发生海啸的地区,虽然大部分时间都是安全的,但偶尔会发生灾难性的事件。*应该对此类风险进行监管,因为这些风险具有全局性影响。然而,没有哪家公司会因为这种担忧而放弃使用人工智能,因为这已成为一场无法回避的竞争。
总而言之,我们不应认为人工智能的问题已经解决,它还有很长的路要走。它的发展不会仅仅依靠更大的 Transformer 模型和更多的训练数据,那只是当前的趋势。目前,人们正在做的很多 AI 工作涉及微调大模型 —— 我并不是说微调有什么问题,也许微调是一种我们将来会继续使用的重要方法。但我觉得有点失望的是,每个人都只是在使用 Transformer,而不试图改变任何东西。我担心这种实验可能会导致特定设计的固化。
当然,我们会在近期看到许多具有图像和视频处理能力的多模态人工智能。这些多模态 AI 主要的优化目标仍将基于预测。例如对于视频,可以预测画面中的变化。由于数据实际上是近乎无限的,我们将不得不更加审慎地筛选数据,训练算法可能会对某些数据进行降权或舍弃。
对于人工智能是否会改善我们的生活,我保持着谨慎的态度。虽然人工智能可能会带来一系列挑战,但我们仍需保持开放的心态,我相信总会有一些积极的变化出现。
大模型刷新一切,让我们有着诸多的迷茫,AI 这股热潮究竟会推着我们走向何方?面对时不时一夜变天,焦虑感油然而生,开发者怎么能够更快、更系统地拥抱大模型?《新程序员 007》以「大模型时代,开发者的成长指南」为核心,希望拨开层层迷雾,让开发者定下心地看到及拥抱未来。
读过本书的开发者这样感慨道:“让我惊喜的是,中国还有这种高质量、贴近开发者的杂志,我感到非常激动。最吸引我的是里面有很多人对 AI 的看法和经验和一些采访的内容,这些内容既真实又有价值。”
能学习到新知识、产生共鸣,解答久困于心的困惑,这是《新程序员》的核心价值。欢迎扫描下方二维码订阅纸书和电子书。