“ChatGPT们”的淘金时代

来源： OneFlow
作者｜Pietro Casella、Patrik Liu Tran

翻译｜贾川、徐佳渝、杨婷

语言（即读写能力）是人类最重要的发明，也是人类与其它物种的最大区别。语言使我们掌握了抽象推理，发展出了复杂思维，学会了与他人沟通交流。可以说，没有语言就不会有现代文明。

因此，未来几年大型语言模型（LLM）将极大地影响生成式AI的发展，ChatGPT的迅速普及就是很好的例证。此外，LLM还在多种场景得到应用，比如内容创建、代码生成、药物开发、翻译、搜索以及工作场所实用程序（例如会议转录和摘要）。

LLM应用实例

总之，生成式AI的最新进展标志着AI已然迈进新时代。AI如今不再只是研究课题，而是成为了帮助人们解决实际问题的实用工具，在各行各业发光发热。因此，企业必须要重视AI的影响力。

面对AI的发展，企业要立即行动起来，维持自身竞争力。长期来看，未能与AI融合的公司将在这场竞争浪潮中日益落后，并逐渐消亡。对于企业来说，最关键的是要把控好AI的优势和成本，采取必要措施将AI纳入发展规划。未来几年将会是商业发展的黄金时期，新兴企业已如雨后春笋般出现。

本文主要关注LLM，包括LLM和模型相关技术概述，以及它们在实践中的应用。希望本文可以帮助从业者了解如何在业务中应用LLM，使行业潜在投资者全面了解这一领域，作出更好的投资决定。虽然我们提供的框架（例如各类AI公司的分类）适用于所有生成式AI，但这里还是以LLM示例为主。

（本文经授权后由OneFlow编译，译文转载请联系OneFlow获得授权。原文：）

1
从Transformer到ChatGPT

AI领域常有开创性论文发表，这些论文影响着行业的未来发展方向。LLM领域中，“Attention Is All You Need”就是这样一篇论文。

这篇文章由谷歌团队于2017年发表，在文中，他们提出了一种名为Transformer架构，简单来说，与当时的SOTA替代方案相比，Transformer架构具有高度并行性和计算效率，同时具有超高性能。

这意味着，采用Transformer架构的模型训练成本更低、速度更快，生成的模型性能更好。在不影响性能的情况下，这种低成本、高效的组合十分重要，它能够让我们利用更多的数据，训练更大的模型。

受Transformer启发，在Transformer架构的基础上，各类知名LLM层出不穷，例如：生成式预训练Transformer（GPT）模型、BERT以及XLNet。

有关GPT（1.0）和BERT的论文最早可以追溯到2018年。次年（即2019年）发表了第一篇关于XLNet的论文。尽管如此，直到2022年底，OpenAI推出ChatGPT后，LLM才进入大众视野，开始风靡于研究界之外。

ChatGPT推出后，不到一周的时间里，就收获了超百万用户。这种普及速度十分罕见，几乎超越了以前所有的科技产品。台上十分钟，台下十年功，所有的突破性成就必然来自于夜以继日的努力。基于GPT-3.5的ChatGPT是LLM领域多年以来的最重要的成就。实际上，ChatGPT的基础模型并不是最好的LLM，但却是目前最受欢迎的模型。

时间会证明一切。在我们看来，ChatGPT最重要的是作为PoC(为观点提供证据)，向世界展示LLM的能力。尽管ChatGPT发布初期十分火爆，但我们不确定它能否成为主流LLM之一，在实际用例中获得广泛应用。原因如下：

1
基础模型vs专用模型

基础大型语言模型是在大量公开文本、数据（例如，*、新闻文章、Twitter、在线论坛等）上进行训练的。模型训练数据话题广泛，内容繁杂，并不针对特定领域和任务，这类模型包括：GPT-3，Jurassic-1，Gopher和MT-NLG。

目前，虽然建立在基础AI模型（如ChatGPT）之上的应用程序非常流行，但我们预计，专用于特定领域或任务的模型才能发挥出LLM的真正价值。因为与相同模型大小的基础模型相比，在专业领域里，专用模型的表现通常来说更好。这意味着，我们需要用更大的基础模型（这也意味着更高的推理成本和更大的内存占用）才有可能在专业领域实现与专业模型相同的性能。

专用模型比基础模型表现更好的原因之一与模型对齐有关，即LLM的输出与模型用户的目标和兴趣相对应的程度。更好的模型对齐意味着答案是正确且相关的，也就是说正确回答了模型请求的问题。由于专用模型仅关注特定领域或任务，因此与基础模型相比，专用领域模型的对齐程度通常更高。

我们有多种方式实现模型的专用化，其中之一就是利用专用领域或任务的数据来训练基础模型。比如，一个基础模型可以很好地回答银行相关的一般问题，然而，如果你想要打造一个专门针对银行的聊天机器人，那么这个通用模型的性能水平就不太够用了。这时，我们就可以利用银行业相关的数据集来训练这个模型，实现模型专业化。反过来，假如有一家银行想要在客服服务中应用聊天机器人，从而实现简单任务的自动化，此时银行可能会在实际客户服务对话的专门数据上进一步训练这个专业模型。像这样训练以后，LLM就能学会特定银行按照一定政策的行事方式，毕竟不同银行可能有不同的政策和指导方针。

因为专用模型针对的是特定任务，不涉及其它不相关的领域和任务，所以说，不需要用到很大的基础模型来进行进一步训练。使用更小的模型意味着更低的推理成本和更小的内存占用，也就是说，比最大的可用模型小得多的基础模型可能会成为专用基础模型的首选。

2
LLM如何改进?

为了更好地了解LLM的功能和局限性，我们首先要了解该如何改进它们。LLM的改进有三个主要驱动因素，分别是：体系结构改进、更大的模型、更多的训练数据。接下来我们将对这三方面进行逐一介绍。

架构改进是关键，但很难取得突破

架构改进（例如2017年的Transformers架构）可以在不增加模型复杂度和训练数据量的情况下提升LLM性能。目前正在构建的多数SOTA性能LLM仍然是基于Transformer的网络架构（与2017年推出的架构非常相似）。尽管它具有已知的局限性（例如自注意导致的二次方时间和内存复杂性），但目前还没有广受认可的架构更新。话虽如此，人们一直在不断探索，试图改进架构，并为此推出了所谓的高效Transformers来消除已知局限。

对现有SOTA架构的渐进式改进（如高效Transformers）将逐年突破模型性能界限。此外，每隔一段时间，行业就会迎来突破性的架构改进（例如原始Transformer架构），这些改进代表着模型性能的跨越式提升。

与增加模型大小和训练数据量相比，改进模型架构较为困难。模型架构改进遵循传统研发模式，需要大胆创新，且无法保证结果，因此，LLM的此类性能改进最为棘手，同时也是架构渐进式提升与突破向社区发布和分享的标准。除了率先使用先进模型，这意味着这类提升不能作为长期优势去与其它构建LLM的公司或对手竞争。例如，OpenAI的LLM是以Google Brain 2017年发明并公开的Transformer为基础。

LLM改进经典做法：扩大模型规模

目前，为了提高LLM性能，人们将大部分精力放在了增加模型大小上面。2020年，OpenAI发表了一篇论文，提出了在增加模型尺寸与提高模型性能之间的扩展定律，论文的结论是：人们应该将大部分预算用于扩大模型规模。这篇论文直接推动了增大模型规模的浪潮。下图出自论文Machine Learning Model Sizes and the Parameter Gap，图中显示近年来语言模型大小呈显著增长趋势。

2019年之前，大多数LLM的参数都在数亿级。2019年，OpenAI发布了有15亿参数的 GPT-2。2020年，谷歌和微软发布了T5和Turing NLG，分别包含110亿和170亿个参数。2020年年中，OpenAI发布了1750亿个参数的GPT-3。从那时起，大型模型开始接连出现，例如AI21的Jurassic-1（1780亿个参数）、DeepMind的Gopher（2800亿个参数）、Nvidia和微软的MT-NLG（5300亿个参数）以及北京智源研究院的WuDao 2.0（1.75万亿个参数）。

LLM之所以可以通过增加模型规模来提升性能，是因为这样做能提升模型对复杂现实的建模能力。由于Transformer架构速度快、性价比高，一直是训练大型模型的首选。然而，在同等条件下，更大的模型也意味着更高的训练和推理成本，同时也意味着更大的内存占用，也就是说，模型需要部署在更大的硬件上。因此，在预算和内存有限的情况下，盲目扩大模型规模并不是提升模型性能的最佳选择。

大规模训练数据集的竞赛

一直以来，人们都低估了训练数据在模型性能提升方面的重要性，这种重要性包括质量和数量两方面。2022年DeepMind团队发表了一篇论文（），文中对比了模型大小和训练数据，最终结论是：多数语言模型明显训练不足。也就是说，在不增加模型大小的情况下，在更大的数据集上训练模型将受益匪浅。

文中，DeepMind团队训练了一个相对较小的LLM，名为Chinchilla，这个模型只有700亿个参数，但却有1.4万亿个训练token。经过训练，Chinchilla模型的性能超越了诸如GPT3、Gopher、Jurassic-1和MT-NLG等更大的语言模型，这些语言模型的参数都在1750亿-5300亿之间，但训练token却在2700亿-3000亿之间（请参见下表）。这表明为了提升模型性能，人们必将打响训练数据集之战。

此外，我们还可以通过强化学习来利用更多数据，提升LLM的性能。2017年，OpenAI发布了一类新的强化学习算法：近端策略优化（PPO，），是目前行业里的SOTA。在实践中，近端策略优化操作更为简单，并且它的表现能够达到甚至超越其它替代方法。

ChatGPT背后的LLM已经利用人类反馈的强化学习（RLHF）实现了微调，步骤如下：第一步：通过监督学习，用人类对不同提示的“理想”回答数据微调LLM。第二步：LLM 为每个提示提供多个答案，然后由人工对这些答案进行排名（该排名用于训练奖励模型）。第三步：用近端策略优化模型来优化LLM的奖励模型。强化学习可以引导模型提供更加正确、公正、有益的答案。总之，现在的LLM更加强大。

事实上，这也是OpenAI将ChatGPT发布为 “免费试用”的主要原因之一（其实你已经通过提供数据的方式付费了）。ChatGPT生成的每个回答旁边都有一个“赞（thumbs up）”和一个“踩（thumbs down）”按钮，用户可以通过这两个按钮来评价模型生成的回答。无论是“赞”还是“踩”都会出现一个对话框，用户可以将理想答案输入框中，而这些答案正是强化学习第一步需要的数据。

ChatGPT的反馈循环按钮

理论上讲，只要有充足的资金和相关人才，任何公司都能打造出优质LLM。但我们预计，科技巨头最有可能打造出性能最佳的LLM，因为这些公司可以获得和管理训练数据，特别是强化学习部分，以进一步改进和微调他们的模型。公司之间的训练数据有很大差异。谷歌、微软、Meta、亚马逊、阿里巴巴和腾讯等公司为数十亿用户提供了不同的服务，所以它们可以找到创新性的方式去收集相关数据，用以训练LLM。

相比增加模型规模，用更多训练数据来提升模型性能不会增加推理成本，模型运行时也不会导致更大的内存占用。但这也面临着其它挑战，其中最大的挑战是，我们难以确保这些拥有数十亿、数万亿训练token的数据集良性运转，从而导致模型产生错误、偏见、有害的内容。强化学习也许在一定程度上可以抵消这些不良内容，但难以照顾到各个领域的LLM。

3
不同类型的AI公司

我们看到人工智能对这些公司的产品和差异化的重要性，以及他们主要运营的人工智能技术堆栈的哪一部分，可能会有很大差异。

在最近的生成式AI浪潮下，许多公司再次将自己标榜为“AI公司”。AI对这些公司的产品和差异化的重要性以及他们所研发的AI技术堆栈可能有着本质上的区别。基于此，我们将这些公司分为以下五类：AI内核（AI Core）、AI赋能（AI Enabler）、AI原生（AI Native）、AI特色（AI Featured）和 AI驱动（AI Powered）。

人工智能技术堆栈

AI赋能公司主要在AI技术堆栈的底层，为构建AI模型提供基础设施、工具和数据支持。AI内核公司的主要业务是构建和销售AI模型，在构建模型的过程中，AI赋能公司为其提供相应支持，以完成数据获取、模型训练、模型工程和模型测试等任务。

AI原生和AI特色公司处于应用层，它们使用的都是AI内核公司提供的AI模型。不过也有一定区别，AI原生公司的产品或服务的内核价值来自于AI模型的应用，而AI特色公司则是利用AI模型为已有产品添加新的功能。AI驱动公司则处于AI技术堆栈的顶层，也就是最终用户所在的层级。

1. AI赋能公司：为AI模型构建提供所需基础设施、工具及数据

AI赋能公司是一类专为构建AI模型提供必要技术的公司。由于生成式AI模型具有巨大的参数集，因此确保可靠的基础设施以支持处理工作负载至关重要。此外，还需要提供MLOps工具，以协助模型构建。在AI赋能公司中，提供训练数据、获取数据相关工具的公司最为引人注目，因为数据是影响模型性能和差异化的重要因素。

从基础设施开始

在LLM领域，大多数LLM在模型的训练和部署方面高度依赖云服务提供商。三大主要云服务提供商（亚马逊AWS、微软Azure和谷歌Cloud）都有一些在该领域中具有重要地位的客户。例如，OpenAI正在使用微软Azure平台，DeepMind使用的是谷歌Cloud平台，Stability AI则选择了亚马逊AWS作为其主要的云服务提供商。

随着LLM的兴起，人们对云服务提供商所提供的存储和计算服务需求不断增加。如果将LLM的兴起看作是一场持续的淘金热，那么云计算和存储服务提供商就像是这片土地的所有者，人们则是涌向这片土地的淘金者。为了成为计算和存储方面的首选提供商，云服务提供商会尽可能地为LLM的开发者提供最佳服务，这是一个明智的决策。

云服务提供商将成为重要的分销渠道，例如它们会通过自己的云市场来销售产品和服务，以方便以上云客户使用这些模型。最近，微软的首席执行官Satya Nadella透露，他们将通过Azure OpenAI服务向用户提供ChatGPT模型。我们相信，未来会有更多这样的例子出现。

要想成为有竞争力的云提供商，需要关注多个因素，包括模型训练和运行推理的速度及成本。例如，Cerebras Systems专注于为深度学习应用程序提供计算服务，旨在降低深度学习应用程序（包括大型语言模型）的训练和推理成本，并将计算速度提高到普通替代方案的十倍。

由于模型的大小、架构以及训练数据量的不同，训练成本可能会高达数千万美元，训练时间会长达数百天。因此，节约成本和时间仍将是未来深度学习领域的重要因素。有趣的是，我们看到一些区块链公司（例如加拿大的Hut 8 Mining）正在将其硬件重新用于AI模型训练和推理，这一转变有望加速新参与者进入该领域。

便利性和易用性也是云服务提供商需要考虑的另一重要因素。云服务提供商可以通过优化底层硬件来训练一般的深度学习模型及特殊的深度学习模型（如大型语言模型），无需用户进行大量的手动调整。

此外，训练大型语言模型需要大规模的计算集群，而租用这些计算集群通常需要签订多年的合同，这种方式对于消费者来说缺乏灵活性。因此，提供更加灵活的短期租赁方式对消费者来说更具吸引力。

用于模型工程、开发和测试的工具

MLOps（机器学习运维）是一种将机器学习模型整合到软件开发周期中的实践和流程，旨在让机器学习模型在生产环境中保持高性能和高可靠性。对于LLM来说，这涉及到模型工程、开发和测试。

在模型工程和开发阶段，机器学习研究人员和工程师通常使用像TensorFlow、PyTorch这样的库和框架。在模型开发完成后，需要对模型进行测试，然后再部署模型。

LLM模型与其他机器学习模型一样，都能对训练数据中的信息进行编码，并在推理阶段对信息进行解码。然而，由于其训练数据主要是人类的书面对话和文本，因此可能存在偏见。大家可能都还记得，微软推出的一款聊天机器人Tay，该机器人是通过Twitter数据进行训练的。然而，几个小时后，该机器人就开始发表带有种族主义色彩的言论。

此外，互联网中存在着大量的错误信息，我们从中收集了大量LLM模型所需的训练数据。如果不对训练数据进行质量验证，模型就可能受到错误信息和人类偏见的影响。

目前，还没有一个可扩展、自动化的企业生态系统，能够监控和验证文本形式的非结构化数据的质量和有效性。随着LLM服务越来越受欢迎，为了满足人们对此类服务的需求，我们当然需要采取一些自动化的方法来执行这些任务。因此，我们预计在未来这一领域会有很多的可能性。甚至可能会出现专注于评估文本数据质量及有效性的LLM模型。

在模型测试方面，有许多人们广泛接受的基准可用于评估LLM的性能。其中一个例子是斯坦福大学的一组研究人员提供的全面评估语言模型（HELM）。HELM是一种全面评估LLM性能的基准，它涵盖了多个方面的指标，如准确性、校准性、鲁棒性、公平性、偏见、有害性和效率。尽管如此，HELM仍不能完全反映出实际语言模型性能的全貌。据多次报道，在基准测试上表现良好的模型，在实际测试中可能会表现不佳。

OpenAI产品负责人Frasher Kelton在一篇博客文章中提供了一个很好的例子，该例子表明当模型在某个任务上表现更好时，可能在另一个任务上表现更差。此外，在实际应用中，除了准确性、公平性、有害性等指标，推理成本和延迟也是非常重要的度量标准，需要与其他指标一起进行权衡和综合考虑。

鉴于此，Kelton提出了一种更理想的测试方法，即需要通过不断地试错和探索来判断模型是否适合推向生产环境。然而，这种方法并不理想。因此，我们可能会看到在这个领域中会出现几家大公司，来提供更完善和可信的解决方案。

数据采集

数据采集的第一步通常是获取大量的文本数据集。最初的数据集通常来自于免费开放数据源，这些数据可以在模型中心（如Hugging Face）中找到。它们可能包含成千上万个数据集，每个数据集包含数百万甚至数十亿个单词。如果用户条款允许，你还可以通过爬取网站和应用程序来获取文本数据。一些潜在的有趣数据来源有*、博客文章、论坛、Linkedin和Twitter。

除了免费开放数据源外，大多数LLM构建者仍然会收集额外的数据。此处，我们强调了三种主要的数据采集策略：数据标注、合成数据生成和通过反馈循环进行数据收集。

以数据标注公司Scale AI和Labelbox为例，它们提供了高效的数据标注工具。此外，推荐一个免费的开源替代品Labelstudio。我们预测，未来标注技术提供商将整合LLM，为用户提供标签。这样，用户只需要核对和批准这些标签，无需从头开始实际标注（actual labeling）。最耗时的标注任务将被自动完成，从而提高了标注效率，使得标注数据的数量呈指数级增长。

使用Labelstudio可以轻松标记新数据

合成数据指的是生成人工数据的过程。其中，最常见的用例是当你因隐私保护而不能使用真实的原始数据时，你要么放弃数据，要么想出一些巧妙的方法对数据进行匿名化，同时仍然保留感兴趣的信息。如果你选择后者，就需要使用合成数据。Mostly和Hazy是该领域的两个例子。

如上文“更多训练数据竞赛”一节所述，基于人类反馈的强化学习可以显著提升模型性能。然而，要执行强化学习，需要一定类型的训练数据。例如，在第一步中，需要为不同的prompt提供所需的答案。这些数据与所使用的模型无关，可以由第三方数据供应商提供。

接下来，人类需要对基于某一prompt生成的不同答案进行排序，这一步取决于所使用的模型，并且需要有人对想改进的实际模型的答案进行排名。因此，未来可能会出现一些公司，它们会提供第一步所需的数据集，并为第二步提供咨询服务。

此外，还将涌现出一些工具，以简化收集和提供此类训练数据的过程。如果你想大规模收集此类数据，那么就需要使用简化数据收集和处理过程的相关工具。Humanloop 公司则提供了一种软件开发工具包，可以从用户那里获取AI的答案反馈。

我们可以在ChatGPT和Jasper中观察到这些反馈循环的具体例子。如前文所述，ChatGPT允许用户提供“赞”或“踩”作为生成答案的反馈。相比之下，Jasper提供了更多的反馈细节和选项，让用户可以对文本进行赞、踩、标记收藏、删除或编辑修改。编辑后的文本可以显示出理想答案的特点。

Jasperai提供了多个反馈回路

2. AI内核公司构建模型

AI内核公司致力于构建实际的大型语言模型，并将模型的商业化作为主要的收入来源。OpenAI是当前最为著名的公司，不过也存在许多其他公司，如AI21、Anthropic和Cohere。请参阅以下示例，了解OpenAI、Cohere和AI21的API测试平台（playground）和输出。

OpenAI、Cohere和AI21的API测试平台对比

AI内核公司可以选择对模型闭源或开源。闭源公司通常用API来隐藏其模型以保护它们。目前，闭源公司通常会按API调用次数向客户收取费用。

以下是OpenAI关于GPT-3的定价截图，由于所需模型的性能水平不同，API调用的成本也会不同，使用性能较好的模型比使用性能较基础的模型昂贵。此外，还存在推理速度上的差异，以满足你对各种用例的时延需求。换句话说，你可以根据自身的实际需求选择适合的LLM性能水平，并在相关成本和性能之间取得平衡。

OpenAI的定价模式

像Jasper这样的公司，开始会在一个由AI内核公司构建的闭源LLM上构建他们的整个产品，这意味着他们没有实际的LLM知识产权。这是这些公司面临的主要风险之一，因为这使他们无法控制模型，无法根据自己的需求进行专业化改进。此外，闭源模型通常比你可以自己托管的开源替代方案更加昂贵。

开源模型的AI内核公司则不会有这些担忧。即使他们提供了LLM模型代码，许多公司也没有能力以强大、可扩展的方式将LLM模型投入生产并提供服务。因此，开源提供商通常通过模型托管服务来获取收益。当前，一些组织致力于构建开源LLM模型，例如Eleuther、Together 和BigScience/Huggingface等等。值得一提的是，谷歌和Meta已决定开源其中的许多模型。

目前，大多数AI内核公司提供的是通用基础模型。根据我们在“基础模型vs专业模型”一节中的预测，LLM模型的最大价值将来自于专用化的模型。

因此，对于AI内核公司而言（无论是选择闭源还是开源），他们可以提供基础模型，然后让客户使用自己的数据来训练这些模型，从而得到在特定领域表现更好的、专门针对客户需求的专用化模型。这项服务将成为AI内核公司的一个重要的收入来源。AI内核公司还将提供越来越多的专用化模型，AlphaFold就是一个典型的例子，它专注于蛋白质结构领域。

3. AI原生和AI特色公司打造具有良好用户体验的AI应用

需要注意的是，使用LLM模型的大多数用户并非AI专家。因此，仅提供LLM模型的API并不能帮助他们解决任何问题，这就是为什么用户体验非常重要的原因。

随着基础AI模型的日益普及和专用化模型的开发越来越简单（得益于一些公司提供的支持，加速了模型专用化的过程），用户体验的重要性将会进一步提高。因此，在用户体验层面的差异将变得更加关键。

Jasper的发展历程是一个极好的例子，展现了用户体验的重要性。该公司成立仅18个月后在A轮融资中筹集了1.25亿美元，估值达到了15亿美元，当时他们吸引了将近10万付费客户，年收入达到7500万美元左右。

Jasper最初没有自行构建任何LLM模型，而是选择了利用OpenAI的GPT-3作为基础，通过API接口构建出用户体验更好的应用。换句话说，他们更加注重开发易于使用和吸引人的应用，而不是自行构建LLM模型。在设计过程中，他们考虑了一些关键问题：

GPT-3 API的prompt输入应该是什么样的？
输出应该如何呈现？应该呈现多少条输出建议？
用户存储和排名不同的备选方案是否易于操作？
这个工具如何融入文案撰写的整个工作流程中？

虽然Jasper.ai和竞争对手Copy.ai几乎是在同一时间使用OpenAI GPT-3 API构建其应用程序，但是Copy.ai在最终用户中的影响力远不如Jasper.ai。造成这种差异的因素可能有很多，其中用户体验是一个关键因素。

一个需要考虑的重要问题是：用户体验（UX）层与底层的LLM之间能有多大的独立性？在更改应用程序的底层LLM时，是否可以避免对用户体验产生负面影响？对于LLM的渐进改进（如使用更多数据进行训练，进行微调或专用化），用户体验层通常不会出现太多负面影响（相反，可能会产生积极效果）。

然而，对于LLM的重大变革，后果可能会更大。例如，大多数LLM目前只会从用户提示中获取信息并返回答案。因此，使用澄清问题来增加答案的相关性，将有助于提高模型的准确性。可以说，那些构建在LLM之上的公司正在创造出良好的用户体验来弥补底层模型的不足之处。

实际上，GPT-3不会询问澄清问题，也不能一直提供完美的答案。因此像Jasper这样的公司就应运而生，他们可以提供多个答案，并允许用户轻松修改答案并对其进行排名以弥补缺陷。然而，当缺陷直接在底层的LLM中被修复时，这些公司必须寻找其他方式在应用程序层面提供价值，以保持他们在行业中的竞争地位。

根据AI模型对产品价值主张的重要程度，我们可以将应用程序层面的公司分为两类：AI原生公司和AI特色公司。

AI原生公司：将AI模型作为产品核心价值主张

AI原生公司（AI Natives）指的是那些价值主张完全基于应用AI模型（如LLM）的公司。这类公司自己不创建AI模型，而是利用商业版的GPT、Google T5和Anthropic以获得成本和性能方面的优势。前面提到的Jasper.ai和Elicit.org（该公司创建了一个UI，允许用户用自然语言浏览所有科学出版物的库）都属于这类公司。

Elicit.org的研究搜索引擎

人们就AI原生公司的护城河展开了激烈的辩论，争议点在于：如果公司“仅”在他人AI模型的基础上提供拥有出色用户体验的UI，那么公司的业务护城河究竟如何？

假如ChatGPT已经存在，那么成立像Jasper.ai和copy.ai这样的公司又是否可行？无论答案如何，就目前情况而言，几个AI原生公司已迅速获得了大量客户，同时筹集到大量资金。有了资金保障，这些公司就能招募团队，自己构建基础模型，深入研究技术并实现真正拥有模型。速度和创新对于这类公司至关重要：虽然它们可以通过依赖他人的LLM迅速开启自己的事业，但也需要快速适应才能存活下来。

AI特色公司：利用AI模型来改进现有产品

AI特色公司（AI Featured）将AI模型与现有产品相结合，以创建附加功能。对于这类公司而言，AI功能并不是其产品的核心（至少在最初是这样）。

生产力工具Notion就是一个很好的例子。Notion本是一个记事工具，但最近添加了一个快捷方式，用于通过prompt生成文本（基本上是简单调用OpenAI的API）。虽然这不是Notion的核心功能，但对于其用户来说，却是一个很有价值的补充功能，因为这使得用户可以直接在Notion中生成文本，而不用在其他地方生成好再复制粘贴过来。

Notion新的AI功能

Google Docs也利用AI模型来提供自动完成功能。虽然Google Docs的主要价值主张与自动完成功能无关，但该功能提高了用户的生产力，因而得到高度好评。Canva也是一样。Canva本是一个用于创建演示文稿的工具，但通过利用AI模型，演示文稿的文本和图形都可以根据用户的prompt和反馈来自动生成。

上述例子表明：用户体验是否出色对于AI模型的成功至关重要。那么如何利用LLM来提供出色的用户体验？关键点在于将AI模型深度集成到你想用LLM所解决任务的现有工作流程中。这也是目前这类公司中成功案例的标准做法。因此，预计将来还有很多AI特色公司都将成为各自领域的赢家。

话虽如此，但也有很多公司将AI功能集成到其产品后，并未给其用户带来多少额外价值。这些公司可能只是为了赶生成式AI的热潮。因此，区分哪些公司的AI特性能够真正提升用户价值十分重要。

4. AI驱动公司：智能公司和增强人类生产力

AI驱动类的公司消费AI产品但不提供任何AI应用程序或AI模型。这是目前市面上数量最为庞大的群体，预计在不久的将来，所以公司都将成为AI驱动公司，其大多数产品和服务都将包含某种AI功能。这个过程一般需要两步：

第一步，公司内部某些员工会根据自己的需求来利用AI产品提高工作效率。例如，营销经理可能会使用Jasper或 ChatGPT来编写文案，而客户主管则可以利用LLM为潜在客户定制电子邮件。

第二步，AI产品的利用方式更加系统化。此时AI产品的使用范围不再局限于公司内部个别员工，高层管理人员也开始使用AI来制定战略政策。公司也由此转型为“智能公司”。例如，BuzzFeed在裁员12%后，其首席执行官Jonah Peretti计划使用AI来编辑文章和协助商业运营操作。他预计AI的加入将会在短期内提升员工的生产力，并且在15年后，AI则能够自主生产内容并提供个性化服务。在该消息发出后的一个交易日内，BuzzFeed的股价就上涨了超150%。

AI能提高智能公司的自动化程度。上一个自动化时代主要围绕机器人流程自动化（RPA）展开，整个过程按照人类主导的基于规则的脚本来展开。而新时代的自动化一般将围绕生成式AI（Generative AI ）来运作，尤其是LLM。

使用LLM时，我们能够超越基于规则的脚本，自动化更多异构任务，而不必给出明确指令。这些任务包括但不限于欺诈检测、简化客户服务任务、内容生成、会议转录、会议总结、法律文件分析等。

此外，LLM还将在构思、讨论、解决问题和决策过程等多方面提高公司员工的能力。这种能力也将自然地集成到公司使用的日常工具中，如Slack、Zoom和Notion。换言之，LLM能倾听对话并适时作出贡献。如果权限够大，LLM还能存储公司所有沟通内容，从而打破耗时且成本高昂的知识孤岛。

目前仍有许多公司尚不清楚生成式AI会对其未来发展带来多大影响。实际上，大多数公司都应该认真思考是否应该利用AI以及如何利用AI来提高生产力。因为在完善服务、提高质量以及控制成本方面，这可能就是拉开差距的地方。

5. AI技术全栈公司

虽然我们根据AI公司在技术栈的哪个部分集中投入最多来将其分类，但实际情况并不总是那么黑白分明。无论类别如何，AI公司通常都需要与整个技术栈进行互动和协作。

首先，AI赋能公司提供训练数据，AI内核公司用这些数据来训练LLM，然后AI原生或AI特色公司使用LLM来开发应用程序。

如上文所述，应用层的公司有大量机会来收集用户反馈数据，而这正是强化学习LLM所需的数据类型。换句话说，应用层的公司通常既是应用程序提供者，也是数据提供者。要拥有从数据到应用层的整个技术栈，它们唯一缺失的部分就是模型层。实际上，Jasper.ai最近宣布开始构建自己的LLM，这将使他们拥有从数据到应用层的整个价值链。

同样，OpenAI最开始在模型层，随着ChatGPT的推出，他们进入了应用层，通过收集人类反馈训练数据，他们现在已经能够进入数据层。换言之，他们也开始拥有整个AI技术栈的价值链。在未来，这样的例子将会越来越多。

4
未来发展

希望这篇文章能使你对生成式AI和LLM有个大致了解。不过，我们现在仍处于这个新时代的早期阶段，未来几年的进展甚至会超过前几十年的的累积之和。以下是值得进一步探讨的八个问题：

1. 生成式AI的淘金时代：继2022年高度关注Web3和加密货币后，投资者和企业家已经将重心大量转向了AI，尤其是生成式AI。现在已有大量资本进入该领域，这不由得使我们想起了2021年，心中自然而然生出一个问题：这会不会又是一场没有结果的炒作？

自1956年AI诞生以来，AI领域就一直担负着人类很高的期望。每当这些期望无法被满足时，AI就一次次进入了“寒冬”（指社会对该领域兴趣骤减且缺乏资金支持的时期）。但随着生成式AI的不断发展，这样的日子已经一去不复返了。在恰当用例上，AI可以提供巨大的价值。然而，由于一些投资者在不了解情况下盲目投资，导致估值虚高，因此该领域可能会出现过热现象。话虽如此，我们始终坚信AI的黄金时代已然到来。

2. 智能组织和增强员工生产力：如上所述，AI驱动公司将使用AI增强来实现任务自动化和改善决策能力，以此来提高生产力。有研究报告指出：Github Copilot可以使开发速度提高55％，这意味着通过利用AI模型，开发人员的生产力将显着提高。这很可能只是个开始，LLM在代码生成方面会变得越来越好，甚至开发人员可能进入无代码时代。

就其他领域而言，比如法律、市场营销、销售、客户服务，也有望以类似的方法提高生产力。最终每个行业中的每个公司都将思考：这对我们意味着什么？在这场革命中，每个公司只能选择加入或者被加入。

3. 专用模型的崛起：预计大部分价值将来自于专业模型而非基础模型。因此，未来我们将会看到越来越多的专用模型，比如用于银行客户服务的模型就不需知道如何以说唱风写诗歌，而且还可以为个人任务或所属领域而打造更小的专属模型。

我们预测：实际上对于像OpenAI、AI21和Cohere这样的AI内核公司来说，开发出能让客户在他们基础模型上轻松创造出专业化模型的功能至关重要，因为所有人都在期待该功能，以解锁LLM的下一个价值级别（next level of value）。

除了通过专用模型实现卓越性能外，应用层的公司还将获得一种私有模型，使得这类公司不仅是建立在基础AI模型（每个人都可访问）之上的不错UX。

4. 多模态模型：虽然本文主要关注语言模型和文本数据，但生成式 AI 还包含其他模态，例如图像和声音。近来，人们正努力将不同模式组合到AI模型中，打造具备多模态输入输出能力的模型。最近，Google Research团队发表了一篇论文（），展示了如何将文本转化成音乐。这种模型本身就很强大，有了这种模型，没有音乐背景的人能够通过自然语言描述，生成音乐。

但试想一下，如果我们将这种模型与图像转文本能力相结合，会怎么样呢？这意味着我们可以利用AI分析视频内容，生成描述性本文，最后由AI配上合适的音乐。另外，我们还可以反过来操作，如果已经根据文字提示生成了音乐，现在我们还可以用AI来生成相应视频。要做到以上这些，我们只需要向多模态模型发出一条指令。

黄仁勋是英伟达的创始人兼首席执行官，他曾于2023年1月访问瑞典，在那期间，我们曾与他讨论英伟达在生成式人工智能领域的重点。他提到英伟达不再像以前一样聚焦于单一模式，例如MT-NLG，而是致力于构建多模态模型。

5. 人类反馈的强化学习（RLHF）的重要性：尽管人类反馈强化学习已出现多年，但还说不准它会对LLM的性能产生怎样的影响。

我们推测，与GPT3相比，GPT4在初始训练数据和强化学习数据增加的情况下，其性能将获得跨越式提升。由于ChatGPT的普及，OpenAI为强化学习积累到了前所未有的海量数据。虽然初始训练数据与强化学习的人类反馈数据之间的相对重要性还未可知，但我们认为，强化学习很有可能就是GPT-4的秘密武器。

6. 扩展的重要性：如上所述，应用层公司可以收集相关的人类反馈进行强化学习。如果上面第五点关于人类反馈数据重要性的预测是正确的，那么拥有大量消费者的应用公司将能够聚集海量专有、关键数据，以改进模型。

考虑到微软与OpenAI的合作伙伴关系，在这场由AI主导的竞赛中，其它媒体都认为微软会是注定的赢家，但我们不能忽略Meta、谷歌、苹果、亚马逊、阿里巴巴和微信等公司，因为他们拥有大型面向客户的应用程序。要记住，数据才是改进大型语言模型唯一真正有效的替代方案，因为模型规模和框架都可以被复制（根据一些研究文章）。

7. 更多的公司将成为数据公司：因为训练LLM需要大量的对话数据，所以那些能够大规模收集此类数据的公司将受到高度重视。比如Twitter，它收集了最大的对话数据集之一。ChatGPT背后的模型就是在Twitter数据上进行训练的，但Elon Musk知道后立即叫停了这类训练。也许未来Twitter的大部分收入将来自于出售对话数据访问权? Meta拥有Facebook、Instagram 和Whatsapp，是另一家可以访问大量对话数据的企业，试想一下，如果Meta的对话数据成为一项独立业务，会产生多么大的价值呢？

8. 公众舆论和监管的焦点仍在于AI伦理及其社会影响：版权问题、模型可信度、劳工问题和网络安全等话题已引发激烈辩论，甚至可能引起监管机构的注意。公司应谨慎应对监管环境。现在已经有许多法规示例即将出台，例如欧盟AI法案和中国禁止创建无水印的AI生成媒体。目前的监管还处于不确定时期，在此之前，希望每个人都贡献一份自己的力量，在AI应用中保持公平正义。

秒客网

“ChatGPT们”的淘金时代