AIGC
AIGC(Artificial Intelligence Generated Content)是指基于生成对抗网络、大型预训练模型等人工智能的技术方法,通过已有数据的学习和识别,以适当的泛化能力生成相关内容的技术。AIGC的爆发得益于GAN、CLIP、Transformer、Diffusion、预训练模型、多模态技术、生成算法等技术的累积融合。这种技术对于人类社会、人工智能的意义是里程碑式的,因为它为人类社会打开了认知智能的大门,推动了社会的数字化转型进程。
- Large Language Model(LLM):大型语言模型是指具有数千亿(甚至更多)参数的语言模型,它们是通过在大规模文本数据上进行训练而得到的。这些模型基于Transformer架构,能够更好地理解自然语言,并能根据给定的上下文生成高质量的文本。常见的LLM包括GPT-3、PaLM、Galactica和LLaMA等。
- ChatGPT:ChatGPT是一种基于大型语言模型的人工智能聊天机器人,它能够与人类进行自然而流畅的对话。ChatGPT通过大规模语料库的训练,具备了丰富的知识和对话能力,可以回答各种问题,提供有用的信息和建议。
- PaLM/Bard(Google):PaLM是Google发布的大型语言模型,它在高质量文本上训练了数十亿个参数,并在多个自然语言处理任务上取得了优异的表现。Bard是Google的聊天机器人,它基于PaLM模型,提供了更自然、更智能的对话体验。
- LLaMA(Meta):LLaMA是Meta(Facebook母公司)提出的大型语言模型,它同样基于Transformer架构,并通过大规模数据集训练,可以在多种任务中表现出色,包括文本分类、文本生成、问答等。
- Github Copilot:Github Copilot是一个基于大型语言模型的代码辅助工具,它可以为开发人员提供智能的代码补全和建议。通过学习大量的代码库和文档,Github Copilot可以理解开发人员的编程意图,并提供高质量的代码建议,帮助开发人员更高效地编写代码。
大模型的发展是一个持续的过程,随着技术的不断进步和计算能力的提升,大型语言模型的规模和能力也在不断提升。BERT预训练是一种常用的方法,它利用大量的无标注文本数据进行预训练,使得模型能够学习到丰富的语言知识和上下文信息,从而提高了模型的泛化能力和鲁棒性。这种预训练的方法已经成为大型语言模型训练的标准流程之一。
概要
- 术语
- Large Language Model(LLM)
- ChatGPT
- PaLM/Bard(Google)
- Llama(Meta)
- Github Copilot
- 大模型的发展
- /pdf/2304.13712
- BERT pretrain的概念
大模型简要介绍
大模型是指具有大规模参数和复杂计算结构的机器学习模型,通常由深度神经网络构建而成,拥有数十亿甚至数千亿个参数。这些模型的设计目的是提高模型的表达能力和预测性能,能够处理更加复杂的任务和数据。大模型在各种领域都有广泛的应用,包括自然语言处理、计算机视觉、语音识别和推荐系统等。
大模型的主要工作是通过训练海量数据来学习复杂的模式和特征,并据此生成预测或进行决策。在大模型的输入方面,数据通常以编码的形式呈现,如word embedding、one-hot编码、文字或整数等。这些编码方式帮助模型理解和处理输入数据。
大模型的关键要素包括数据、算力、训练技术和模型结构。其中,数据是大模型训练的基础,需要大量的高质量数据进行微调。算力是指训练大模型所需的计算资源,包括高性能计算机、GPU等。训练技术则包括各种优化算法和技巧,如RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)、prefix tuning、hard/soft prompt tuning、SFT(Supervised Fine-Tuning,有监督微调)和retrieval augment等,这些技术可以提高模型的训练效率和性能。模型结构则是指大模型的网络架构,它决定了模型如何处理输入数据和生成输出。
影响大模型的因素主要包括信任、安全、隐私和认知。由于大模型能够处理大量敏感数据,因此必须确保其安全性和隐私性。同时,大模型的预测结果必须可靠和准确,以建立用户的信任。此外,大模型还需要具备认知能力,能够理解和处理复杂的人类语言和图像数据。
-
表面上做什么事情:不断根据前文生成“下一个”词
-
大模型的输入
- 编码:word embedding、one-hot、文字、整数
-
关键要素
-
数据
- 微调数据如何大量获得
-
算力
-
训练技术:RLHF、prefix tuning、hard/soft prompt tuning、SFT、retrieval augment
-
模型结构
-
-
影响要素
- 信任
- 安全
- 隐私
- 认知
历史发展
- emergent ability
- How much bigger can/should LLMs become?
- /abs/2206.07682
- 100TB=50000Billion
- Note
- GPT-3.5相比于GPT-3,参数量变化不大,效果差距很大,这是由于微调技术
算法
Attention Is All You Need
-
The best performing models also connect the encoder and decoder through an attention mechanism.
- Encoder: 映射到另一个语义空间
-
Self-attention, sometimes called intra-attention is an attention mechanism relating different positions of a single sequence in order to compute a representation of the sequence.
-
模型结构是什么?
- 过N个注意力层,再过一个full connection
- Attention(Q,K, V) = softmax(QK^T/sqrt(d_k))V
-
模型参数是什么?
- 词嵌入向量
- learnable?
- 将词嵌入向量转化为q、k、v向量的三个矩阵和bias
- 词嵌入向量
-
模型输出是什么?
- 全连接层的结果,一个长度为全部词汇数量的向量
- 如何增强随机性:
- top-k采样
-
The Transformer follows this overall architecture using stacked self-attention and point-wise, fully connected layers for both the encoder and decoder, shown in the left and right halves of Figure 1
- 左边encoder,右边decoder
- Encoder: 自注意力
- Decoder:Q用outputs embedding做masked attention后的结果,K、V用encoder结果
- 表征向量512维
- masked multi-head attention保证输出对输入的感知序列不会超出长度
- 自注意力机制:Q(输入矩阵)、K(字典)、V
- 用1/(dk)^(1/2) scale了一下QK的乘法,可能是为了防止gradient太小
- Dot product的结果方差比additive attention的方差大
- 左边encoder,右边decoder
-
Multi-head attention
Implementation
/text/tutorials/transformer
GPT-2
/illustrated-gpt2/
ChatGPT
-
对话式大型语言模型:/blog/chatgpt/
-
自回归语言模型:帮助背下来事件知识
-
大语言模型:百亿参数以上
- 不好做finetune,成本高
- 用prompt作为输入,generated text作为输出
- 语言知识 + 事件知识,事件知识更需要大模型
-
未来:AGI(Artificial General Intelligence);教会它使用工具
-
-
三个关键技术:
- In-Context Learning 情景学习
- 在前向中学习
- 涌现能力:百亿参数规模之后,能力突然提升,改变传统学习范式
- 大幅降低下游任务开发成本
- 《Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?》 --> 随机label仍可能提升效果
- Chain-of-Thought, CoT 思维链
- 《PAL: Program-aided Language Models》,让语言模型生成能由计算模型执行的描述代码
- 在大模型中打破scaling law
- Learning from Natural Instructions 自然指令学习
- 很像情景学习,样本逐渐简化(负例不需要suggestion;不需要负例)
- /
- OpenAI: 通过人类反馈对齐人类指令
- In-Context Learning 情景学习
-
RLHF
- 见【算法-finetune-RLHF】部分
-
limitations
- Correctness: 模型不是全知的,一本正经地胡说八道
- sensitive to rephrase
- verbose
- No asking clarifying questions,而是猜
- it will sometimes respond to harmful instructions or exhibit biased behavior
-
Iterative deployment
-
Evaluation
- Holistic Evaluation of Language Models
-
Note
- 科技部部长王志刚表示,ChatGPT有很好的计算方法,同样一种原理,在于做得好不好;就像踢足球,都是盘带、射门,但是要做到像梅西那么好也不容易。
- 客观题高考515分水平
-
专访Altman
-
感想:有几个点值得关注:ai自运行的能力、ai隐藏意图的能力、ai与真实物质世界接口的能力、ai认识到自己的现实处境并差异化处理的能力
- 当这些能力完全具备,可能AGI确实可以毁灭人类
-
当他观察模型的隐藏层时,发现它有一个专门的神经元用于分析评论的情感。神经网络以前也做过情感分析,但必须有人告诉它们这样做,而且必须使用根据情感标记的数据对它们进行专门的训练。而这个神经网络已经自行开发出了这种能力。
-
语言是一种特殊的输入,信息量极为密集
-
“假设我们真的造出了这个人工智能,其他一些人也造出了”。他认为,随之而来的变革将是历史性的。他描述了一个异常乌托邦的愿景,包括重塑钢筋水泥的世界。他说:"使用太阳能发电的机器人可以去开采和提炼它们需要的所有矿物,可以完美地建造东西,不需要人类劳动。"你可以与 17 版 DALL-E 共同设计你想要的家的样子,"Altman说。"每个人都将拥有美丽的家园。在与我的交谈中,以及在巡回演讲期间的舞台上,他说他预见到人类生活的几乎所有其他领域都将得到巨大的改善。音乐将得到提升(“艺术家们将拥有更好的工具”),人际关系(人工智能可以帮助我们更好地 “相互对待”)和地缘政治也将如此(“我们现在非常不擅长找出双赢的妥协方案”)。
-
GPT-4学会了“说谎”:验证码
- -> 让GPT-4讲解自己做事情的目的,将不再可靠
- Sutskever 说,他们可能会在弱小的时候采取一种行动,而在强大的时候采取另一种行动。我们甚至不会意识到,我们创造的东西已经决定性地超越了我们,我们也不知道它打算用自己的超能力做些什么。
-
GPT-4
- GPT-4幕后的研发团队大致可分为七个部分:预训练(Pretraining)、长上下文(Long context)、视觉(Vision)、强化学习和对齐(RL & alignment)、评估和分析(Evaluation & analysis)、部署(Deployment)以及其他贡献者(Additional contributions)
-
GPT-4技术报告
- 32k对应50页的context
-
Language models can explain neurons in language models
-
步骤:
- GPT-4解释某个GPT-2神经元的行为
- 用GPT-4模拟这一行为
- 比较并打分
-
OpenAI 共让 GPT-4 解释了 GPT-2 中的 307200 个神经元,其中大多数解释的得分很低,只有超过 1000 个神经元的解释得分高于 0.8。
-
三种提高解释得分的方法:
- 对解释进行迭代,通过让 GPT-4 想出可能的反例,根据其激活情况修改解释来提高分数。
- 使用更大的模型来进行解释,平均得分也会上升。
- 调整被解释模型的结构,用不同的激活函数训练模型。
-
/openai/automated-interpretability
-
传统的视觉解释方法不能scale well
- /research/microscope
- /2020/circuits/curve-detectors/
-
Sora
Sora是美国人工智能研究公司OpenAI在2024年2月15日(美国当地时间)正式对外发布的人工智能文生视频大模型。其背后的技术是在OpenAI的文本到图像生成模型DALL-E基础上开发而成的。Sora的名称源于日文“空”(そら),即天空之意,象征其无限的创造潜力。
Sora具有深度模拟真实物理世界的能力,能够理解和模拟现实世界模型的基础,了解物体在物理世界中的存在方式。它可以根据用户的文本提示创建最长60秒的逼真视频,生成具有多个角色、包含特定运动的复杂场景。该模型继承了DALL-E 3的画质和遵循指令能力,能理解用户在提示中提出的要求。
Sora对于需要制作视频的艺术家、电影制片人或学生来说,带来了无限的可能性。它是OpenAI“教AI理解和模拟运动中的物理世界”计划的其中一步,也标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃。
然而,值得注意的是,随着Sora等人工智能技术的不断发展,也可能带来一些挑战和问题,如深度伪造技术的滥用等。因此,在享受技术带来的便利的同时,也需要关注并应对这些潜在的风险和挑战。
-
技术报告:/research/video-generation-models-as-world-simulators
-
一锤降维!解密OpenAI超级视频模型Sora技术报告,虚拟世界涌现了
-
扩展视频生成模型的规模,是构建模拟物理世界通用模拟器的非常有希望的方向
-
patch
- 从宏观角度来看,研究者首先将视频压缩到一个低维潜空间中,随后把这种表征分解为时空patch,这样就实现了从视频到patch的转换。
- 在推理时,可以通过在一个合适大小的网格中适当排列随机初始化的patch,从而控制生成视频的大小。
-
训练技巧
- 直接在视频原始比例上训练
- 研究者采用了DALL·E 3中的重新标注技术,应用在了视频上。
- 首先,研究者训练了一个能生成详细描述的标注模型,然后用它为训练集中的所有视频,生成文本说明。
- 他们发现,使用详细的视频说明进行训练,不仅能提高文本的准确性,还能提升视频的整体质量。
- 类似于DALL·E 3,研究者也使用了GPT,把用户的简短提示转化为详细的说明,然后这些说明会被输入到视频模型中。
-
生成的视频特点:
- 多种输入形式、多视频间过渡、人和物的特征
-
finetune
Finetune(微调)是一种机器学习技术,它允许您使用预训练的模型,并结合您自己的数据,来训练新的模型。这种方法的好处在于它不需要从头开始训练模型,因此可以提高效率。在数据量不是很大的情况下,finetune是一个很好的选择。
关于finetune与从头开始(from scratch)训练模型的区别,finetune使用预训练模型的参数作为基础,然后在其上进行微调以适应新任务。而从头开始训练则意味着您需要完全重新训练一个模型,这通常需要更多的计算资源和时间。
在进行finetune时,基座模型选型是一个重要步骤。您可以选择一个适合您任务的预训练模型,例如ResNet、BERT等。然后,您可以使用您自己的数据对模型进行微调。
全参数finetune意味着在微调过程中更新预训练模型的所有参数。然而,在某些情况下,为了减少计算资源和时间消耗,可以采用小参数量finetune。这种方法只更新预训练模型的一部分参数,而保持其他参数不变。这可以通过使用Adapters、Prompt-tuning等技术来实现。
Adapters:在预训练模型的每一层之间添加小的神经网络(适配器),并在微调过程中只更新这些适配器的参数。
Prompt-tuning:通过在输入数据中添加一些额外的提示(prompt),来指导模型进行微调。这种方法可以在不改变模型参数的情况下影响模型的输出。
LoRA:这是一种针对大型模型的轻量级微调方法,它只更新模型中的一部分参数,而不是全部参数。
OpenAI的alpaca模型就是一个经过finetune的模型示例。它使用了大量的SFT(Supervised Fine-Tuning)prompt数据来进行微调,以适应下游任务。
-
finetune . from scratch
-
如何做finetune
- 基座模型选型
-
全参数finetune和小参数量finetune
- 小参数量finetune
- Adapters
- Prompt-tuning v1/v2
- LoRA
- 小参数量finetune
-
finetune需求
- OpenAI: 1.3w条SFT prompt
-
很厉害的alpaca
指令微调
- 指令微调是什么? - superpeng的回答 - 知乎
/question/603488576/answer/3178990801- 指令微调是一种特定的微调方式,在不同的论文中以不同的方式引入。我们在一个新的语言建模任务上对模型进行微调,其中的示例具有额外的结构,嵌入到模型提示中。
- 先无监督训练,再用有监督的“指令-回答“预料
- 指令调整模型接收一对输入和输出,描述引导模型的任务。
- 核心思路:解决“回答问题”与“接话”的差异
- Note:
- 数据获取昂贵(RLHF人工打分的成本比人工写故事要低)
- 对开放性问题效果不好(write a story about …)
- 指令微调是一种特定的微调方式,在不同的论文中以不同的方式引入。我们在一个新的语言建模任务上对模型进行微调,其中的示例具有额外的结构,嵌入到模型提示中。
RLHF
RLHF(Reinforcement Learning from Human Feedback)是一种基于人类反馈的强化学习技术,用于训练和优化机器学习模型。其核心思想是通过将人类的反馈纳入训练过程,为机器提供一种自然的、人性化的互动学习过程。
在RLHF中,首先会预训练一个语言模型(LM),然后使用问答数据来训练一个奖励模型(Reward Model,RM)。这个奖励模型能够评估生成文本的质量,并给出相应的奖励或惩罚信号。接着,使用强化学习(RL)的方式来微调语言模型,通过优化奖励模型给出的奖励信号来改进模型的性能。
在RLHF的过程中,人类反馈起着至关重要的作用。通过人工打分的方式,人们可以对模型生成的文本进行评估,并给出相应的奖励或惩罚。这种反馈被用来指导模型的训练,使其能够更好地理解人类的语言和意图。具体来说,可以通过以下方式来进行打分:
人工写答案:由人类训练师提供一系列问题和答案的示例,这些答案将被用作训练数据。
人工选答案:在训练过程中,人类训练师会被要求从模型生成的多个答案中选择最符合要求的答案。这个选择过程会作为奖励信号的一部分,用于指导模型的训练。
机器选答案:在模型训练到一定程度后,可以使用模型自身来生成答案,并由人类训练师进行评估和选择。这种方式可以进一步提高模型的自我修正能力。
在RLHF中,近端策略优化(Proximal Policy Optimization,PPO)是一种常用的强化学习算法。它通过对策略进行梯度更新来优化奖励函数,从而改进模型的性能。由于微调整个大型模型的成本很高,因此在实际应用中通常会选择微调模型的部分参数或者使用一些低秩适应(LoRA)等技术来降低计算成本。
- Reinforcement Learning from Human Feedback (RLHF), using the same methods as InstructGPT, but with slight differences in the data collection setup
- RLHF的blog介绍:/blog/rlhf
- supervised fine-tuning: human AI trainers provided conversations in which they played both sides—the user and an AI assistant
- 步骤:
- 预训练一个语言模型 (LM) ;
- 聚合问答数据并训练一个奖励模型 (Reward Model,RM) ;
- 用强化学习 (RL) 方式微调语言模型(LM)。
- 长期以来,出于工程和算法原因,人们认为用强化学习训练 LM 是不可能的。而目前多个组织找到的可行方案是使用策略梯度强化学习 (Policy Gradient RL) 算法、近端策略优化 (Proximal Policy Optimization,PPO) 微调初始 LM 的部分或全部参数。因为微调整个 10B~100B+ 参数的成本过高 (相关工作参考低秩适应 LoRA 和 DeepMind 的 Sparrow LM)
- reward model: 人工打分
- 人工写答案 -> 人工选答案 -> 机器选答案
- prompt dataset
- fine-tune the model using Proximal Policy Optimization
- 一些巧妙的打分方式:
- 客服点按钮,选取ai答案,也是finetune过程
- reddit帖子中的最高分
- RLHF的blog介绍:/blog/rlhf
LoRA
/huggingface/peft
LoRA(Low-Rank Adaptation)是一种用于大型语言模型(如BERT、GPT等)的轻量级微调技术。该技术通过只更新模型中的一部分参数(即低秩矩阵),而不是全部参数,来实现对模型的快速适应。这种方法可以显著降低微调的计算成本,同时保持模型的性能。
LoRA在GitHub上的huggingface/peft仓库中得到了实现和分享。这个仓库包含了多种用于大型语言模型微调的轻量级技术,LoRA是其中之一。通过使用这些技术,研究人员和开发者可以更加高效地对大型语言模型进行微调,以满足不同的任务需求。
需要注意的是,LoRA虽然在一些任务上取得了不错的效果,但它并不是一种通用的解决方案。在某些情况下,全量微调可能仍然是最优的选择。因此,在选择是否使用LoRA进行微调时,需要根据具体的任务和数据集进行权衡和决策。
框架
- AI系统:记录数据、与人交互、机器学习分析、预测、干预人的决策
AI系统,即人工智能系统,确实涵盖了记录数据、与人交互、机器学习分析、预测以及可能干预人的决策等一系列功能。这些功能共同构成了AI系统的核心框架。
首先,AI系统需要能够记录数据。这是因为数据是AI系统进行学习和分析的基础。通过收集和分析大量的数据,AI系统可以发现其中的规律和模式,从而进行更准确的预测和决策。
其次,AI系统需要具备与人交互的能力。这不仅可以使AI系统更好地理解人类的需求和意图,还可以提高AI系统的可用性和易用性。通过自然语言处理、语音识别和图像识别等技术,AI系统可以更加智能地与人类进行交互。
机器学习分析是AI系统的核心功能之一。通过对数据的分析和学习,AI系统可以不断优化自身的性能,提高预测的准确性和决策的合理性。这种自我优化的能力使得AI系统可以不断适应新的环境和任务需求。
预测是AI系统的另一个重要功能。通过机器学习分析,AI系统可以发现数据中的规律和趋势,并据此进行预测。这种预测能力可以帮助人们更好地规划未来、制定决策和应对风险。
最后,AI系统在某些情况下可能会干预人的决策。这通常发生在AI系统已经具备足够智能和准确性的时候,例如在某些自动化系统中,AI系统可以自动做出决策并执行相应的操作。然而,需要注意的是,AI系统的决策应该始终在人类的监督和控制下进行,以确保其合理性和安全性。
训练成本
- LLaMA:2048 A100 21d
- a100一个月几十刀,训一个几十万
- Note
- 和芯片的对比:This “growth” is strikingly similar to the one involved in chip evolution where as the number of transistors increases (higher density on a chip) the cost for plants manufacturing those chips skyrocket. In the case of chip manufacturing the economics remained viable because new plants did cost more but they also produced many more chips so that till the middle lf the last decade the cost per chip was actually decreasing generation over generation (one effect captured in the Moore’s law).
- As with chips one may wonder if there is a limit to the economic affordability (there sure is, it is just difficult to pinpoint!).
- TODO: /story/openai-ceo-sam-altman-the-age-of-giant-ai-models-is-already-over/
应用
变现逻辑
-
陆奇对话高科技营销之父:从技术到市场,ChatGPT还需跨越“鸿沟”
- 近期出现的真正具有颠覆性的技术,我认为一个是基因编辑,另一个就是OpenAI的ChatGPT
- 如果我们想打造出ChatGPT这样高科技产品的市场,技术成熟远远不够,还需将这种颠覆性创新产品社交化,这中间还有巨大的“鸿沟”需要跨越。
- 技术生命周期一般分为4个阶段:
- 第一阶段是有一些技术的*者以及有远见者,相信技术能够成功,希望成为第一个尝试新技术的人;
- 早期阶段的策略:等对的人主动找你
- 第二阶段是早期大众会觉得这项技术可能是对的,但是还处于早期,需要观望一下,他们可能会看看别人会不会采用这项新技术,会跟风去使用或者拒绝使用。
- 当一家初创公司积累了足够多的使用案例后,大家就会认为这其实是行业的基础设施建设,是我们每个人都需要的,比如云计算和Wi-Fi,人工智能等,那些观望者就会想要进入市场,追赶潮流。瞬间所有预算涌入市场,购买你的产品,我们把这种现象称为“龙卷风”。
- 第一阶段是有一些技术的*者以及有远见者,相信技术能够成功,希望成为第一个尝试新技术的人;
- 跨越“鸿沟”的关键所在就是如何让早期大众能够开始采用颠覆性的新技术,你必须要瞄准一个很小的利基市场,他们有很多痛点,需要更多新的解决方案来解决当下的问题。如果你能解决他们的问题,他们就会采用你的新技术。
- 在早期市场,人们买的不是产品,而是项目。早期市场,作为一个初创企业,你的客户其实把你当成了一个咨询公司,他们可能会给你很多资金,让你按照他的想法去打造一个产品。
- 与ToB“项目制”的联系
- 早期市场的这些客户,我们称之为旗舰型的客户,他们一定是一群知名度很高的客户。比如美国银行、福特汽车、迪士尼或者微软,一定是大家都知道的企业。
- 一定要找那些大型的知名企业作为你的客户,做两个项目就够了,在这之后就不要继续再做项目,而是开始重复地做相同的解决方案。
- 我还有另外一个问题,如何去辨别一个非常小众的需求和一个有远见的需求之间的区别?
- **摩尔:**我觉得利基市场的需求存在一个实用案例,同时也会有一个预算,这个预算不是为你的产品,而是为了解决他们的问题。你可能会在做项目的时候遇到这样一个问题,有远见者说这是非常重要的问题,我希望能够改变整个世界。但是在你的头脑里,你应该想到,如果别的客户也有同样的问题,我们如何解决。因为我们实际上解决不了太多问题,但是实用主义者是希望你的产品一定能解决他们的问题。
- 核心是计算给新客户做定制化需求的代价
- 更进一步,形成生态,寻找加盟合作。当市场越来越大时,首先是基础服务的提供商们赚钱,然后就轮到后端的软件提供商。
- 现在可以用AI去管理数据,AI可以从海量数据中精准地找到你想要的信息,这一点比人做得更好。
-
关于开源
- 开源可以非常迅速地渗透市场,这就像免费增值一样,如果坚持这一点,战略就会把握在更强有力的人手中。如果你卖出你模型中的一部分,你的客户竞争将升级到一定的水平,而你会继续前进,这是一种批量运营模式。
- 我对于一家公司中的context(场景上下文)来说,开源是最佳选择,但对core(核心)而言则不是这样。核心指的是让你的产品脱颖而出,为你提供别人不具有的比较优势的东西,也就是你应该保护的有产权的知识,大家都想得到它并希望它正常运行,如果它正常运行,你不会得到任何奖励,但如果它运行故障,你却会受到惩罚,所以开源会带来网络安全和产品质量的双重风险。
- 作为对比,关于PingCap激进的开源:
- 这是一个典型的开源模式,他们给你SaaS或者给你分发,本质上就跟Red Hat一样定制,他们非常相信开源,相信这会让创新更快,长期客户获取的成本会降低。
- 规模化和货币化会比较困难
-
企业业务增长的可能性
- 现在业务规模小、赛道窄的互联网公司,有可能做起来了
-
自动做ppt
- /
-
自动画结构化的脑图
-
数据库+NLP
-
ToB场景示例
- 大模型相关的ToB场景研发成本下降
Prompting
- /docs/category/-basics
- 23 prompt rules
大模型Prompting,通常被称为“提示工程”或“Prompt技术”,是一种与大型语言模型(LLM)进行交互的方式。Prompt是一个简短的文本输入,用于向模型提供指导或指令,以便其生成特定的回答或执行特定任务。
在大模型Prompting中,Prompt的设计和选择至关重要。一个清晰、明确且具体的Prompt可以帮助模型更准确地理解用户的意图,并生成更符合期望的输出。Prompt可以包含任务说明、条件信息、期望的响应格式等元素。
以下是大模型Prompting的一些关键点和技巧:
清晰和明确:Prompt需要清晰表达用户的意图和需求,以便模型能够准确理解并生成相应的响应。避免使用模糊或含糊不清的表述。
长度控制:过长的Prompt可能会导致模型在生成文本时出现理解困难或混淆的情况,而过短的Prompt则可能无法提供足够的上下文信息来生成准确的文本。因此,合理控制Prompt的长度是确保生成文本质量的关键。
具体和详细:Prompt越具体和详细,结果就越好。当您有所期望的结果或生成样式时,这一点尤为重要。使用明确的指令和足够的上下文信息可以帮助模型更好地理解并生成符合需求的输出。
使用分隔符:为了更好地区分指令、上下文和输入数据等元素,可以使用一些清晰的分隔符,如“#”。
关注细节:避免说不要做什么,而是说要做什么。这鼓励更具体化,并关注导致模型产生良好响应的细节。
优化Prompt模板:高质量的Prompt模板能大幅提高LLM的成功率和响应质量。因此,优化Prompt模板是研究的重点之一
Agent
- HuggingGPT: 缝合怪
- /how-use-microsoft-jarvis-hugginggpt/
大模型Agent,也称为AI Agent(人工智能代理),是一种能够感知环境、进行决策和执行动作的智能实体。在大模型技术的驱动下,AI Agent可以让人们以自然语言为交互方式,高自动化地执行和处理专业或繁复的工作任务,从而极大程度地释放人员精力。
基于大模型的Agent具有几个核心属性:
自主性(Autonomy):Agent能够独立地做出决策,而不需要外部的直接控制。
社会性(Social Ability):Agent能通过某种通信方式与其他Agent(或人类)进行交互,包括协作、协调和协商。
反应性(Reactivity):Agent能感知环境(可以是物理世界、图形用户接口连接的用户、其他Agent、Internet或这些元素的组合),并能对环境的变化及时作出反应。
主动性(Pro-activeness):Agent不仅能对环境作出反应,还能积极主动地做出使其目标得以实现的行为。
HuggingGPT是一个利用大型语言模型(LLMs)来解决复杂AI任务的框架。它使用ChatGPT进行任务规划,并根据Hugging Face中可用的功能描述来选择模型,执行每个子任务,并根据执行结果来总结响应。通过ChatGPT的强语言能力和Hugging Face丰富的模型库,HuggingGPT可以解决大部分复杂的AI任务,为走向真正的人工智能奠定基石。
在HuggingGPT中,大模型Agent可能扮演了重要的角色,作为处理各种子任务和与不同模型进行交互的智能实体。然而,具体的实现方式和角色可能因应用和任务的不同而有所差异。
更多方向
- 决策大模型
- 对ToG的影响
- Geoffrey Moore:我觉得中国的模型可能跟美国的模型完全不一样。就美国来说,我觉得*需要去为一些研究提供资金,他们就像风投者一样。我们公共服务的三个方面,如社会的安全网、医疗和教育都陷入了困境,他们都想去提供下一代的服务,但是一来没有合适的人才,二来用人成本太高,所以他们真正需要的是合适的软件来解决他们的问题(数字转型),这就带来了跨越“鸿沟”的机会。(但很难做)
- 游戏 AI Npc
- /article/detail/30224
Prompt Engineering
Prompt Engineering(提示工程)是一种技术,专注于如何与大型语言模型(LLM)进行交互,以引导其行为并获得所需的结果,而无需更新模型的权重。其核心思想是通过精心设计的提示(Prompt)来引导LLM的行为,从而实现特定的任务目标。
Prompt Engineering的典型工作方式是将一个或多个任务转换为基于提示的数据集,并通过所谓的“基于提示的学习(prompt-based learning)”来训练语言模型。这不仅仅是关于设计和研发提示词,而是包含了与大语言模型交互和研发的各种技能和技术。
在Prompt Engineering中,任务的描述会被嵌入到输入中,例如以问题的形式直接输入给模型,而不是隐含地给予模型一定的参数。这种方式使得模型能够更直接地理解任务需求,并生成符合期望的输出。
Prompt Engineering的应用领域广泛,包括但不限于对话系统。在对话系统中,Prompt Engineering可以提高系统的理解和生成能力,使其更准确地理解用户意图并生成自然、流畅的回应。
此外,Prompt Engineering还涉及一些具体的技术和方法,如指令提示技术和角色提示技术。指令提示技术需要向模型提供清晰简洁的模型任务和模型要遵循的具体指令。而角色提示技术则通过为模型提供特定角色,指导其输出。
- 基于openai api
- /docs/guides/gpt
- /docs/api-reference/chat
- model
- role
- user
- assistant
- system: 大环境
- temperature: 0~2
- 多轮交互:系统回复也加入上下文
- 安全性:OpenAI内容审核,薄弱;防止机制被洗掉
LangChain
- 介绍
- 面向大模型的开发框架
- 简单实现复杂功能的AI应用
- 多组件封装
- 向大模型输入知识块,大模型结合外部数据
LangChain是一个为开发者提供便利的开源框架,旨在简化将大型语言模型与外部计算和数据源结合的过程。这个框架主要面向大模型的开发,帮助开发者通过简单的方式实现复杂功能的AI应用。LangChain通过多组件封装的方式,提供了一系列工具和组件,以简化开发过程,并允许开发者快速构建基于大型语言模型的应用程序。
具体来说,LangChain的核心组件包括数据源连接器、外部计算集成、记忆组件等。这些组件使得开发者能够轻松地将语言模型连接到各种数据源,如数据库、API、文件等,并为模型提供实时、准确的数据支持。此外,LangChain还支持与外部计算服务的集成,这意味着开发者可以将语言模型与各种计算服务相结合,如机器学习模型、自动化工作流等,从而处理更加复杂的任务。
在LangChain中,向大模型输入知识块的过程是通过数据源连接器和外部计算集成实现的。开发者可以将外部数据或计算结果作为知识块输入给大型语言模型,然后结合模型自身的推理和生成能力,生成符合要求的输出。这种方式使得大型语言模型能够结合外部数据和计算资源,提高整体的智能水平和处理效率。
通过LangChain,开发者可以构建多种类型的AI应用,如智能客服、编程助手、智能私人助理等。这些应用可以根据用户需求自动生成代码片段、提供实时支持、协助用户完成各种任务等。同时,LangChain还提供了高度可定制化的开发环境,允许开发者根据自己的需求灵活组合和配置各种组件,从而构建出具有创新性和实用性的应用程序。
-
I/O模块:
- Format: PromptTemplate
- 模型
- LLM: from import OpenAI
- ChatModel
- Output parsers
-
data connection
- source
- load
- from langchain.document_loaders import PyPDFLoader
- transform
- Splitter
- Translate
- embed: 模型只认识feature
- vector store
- FAISS
- retrieve
-
memory
- 针对多轮对话强相关
- Note: load_memory_variables()需要填参数{}
- ConversationBufferWindowMemory
- ConversationSummaryMemory
安全
- 去中心化的思想构建未来的AI安全:/s/K1gbW1aIkwl8aLzkD9nYnQ
- 比特币:攻击收益远小于攻击成本
- 以生态著称的公链以太坊:虽然秘钥也是几十位,但是系统就太复杂了,各种二层技术、跨链桥等带来了很多漏洞,以至于网络攻击不断,就是因为攻击收益大于攻击成本
- 方案:确权,实名,竞争
Potpourri
Llya访谈系列
-
访谈系列·E01S01|AI大神Ilya访谈揭秘GPT-4成功背后的关键,20年如一日的AGI坚守终惊艳世界
-
访谈系列·E02S01|llya的AGI信念:为伊消得人憔悴,十年终迎GPT震撼崛起
- OpenAI的核心理念
- 无监督学习的一种路径是通过数据压缩实现(unsupervised learning through compression)
- 2017年论文,发现神经元能学到情感的解耦特征
- 强化学习(reinforcement learning)包括游戏对抗学习和人类反馈学习
- 无监督学习的一种路径是通过数据压缩实现(unsupervised learning through compression)
- transformer为什么成功?
- gpu易于计算attention
- 非RNN结构
- 双下降现象
- /p/96739930
- OpenAI的核心理念
-
访谈系列·E03S01|GPT-4成功背后灵魂人物Ilya访谈解读——从预训练模型到可靠可用AGI
- AGI是否有意识?
- 你无法分辨出这是机器智能自己的意识还是它学习了有关意识的人类文本内容后模仿的意识
- 当我们训练大型神经网络以准确预测互联网上大量不同文本的下一个词时,实际上我们正在学习一个世界模型。从表面上看,神经网络只是在学习文本中的统计相关性,但实际上,学习统计相关性就可以将知识压缩得很好。神经网络学习的是在生成文本过程中的某些表达,因为文本只是这个世界的一种映射,所以神经网络学习了这个世界的许多方面的知识。
- 这就是它在准确预测下一个词的任务中学到的内容。对下一个词的预测越准确,还原度就越高,所以你看到的文本的准确度就越高。这就是ChatGPT模型在预训练阶段所做的,它尽可能多地从世界的映射(也就是文本)中学习关于世界的知识。
- 但这并不能说明(预训练后的)神经网络会表现出人类希望它表现的行为,这需要第二阶段的微调、人类反馈的强化学习(RLHF)以及其他形式的AI系统的协助。这个阶段做得越好,神经网络就越有用、可靠。
- 多模态非必要,但绝对有用
- 预测具有不确定性的高维向量:给定某书中的一页,预测下一页
- AGI是否有意识?
关于AGI(Artificial General Intelligence,人工通用智能)是否有意识的问题,这是一个深入且复杂的哲学和科学问题,目前尚未有明确的答案。
首先,我们需要明确“意识”的定义。在哲学和科学中,关于意识的定义和本质存在许多不同的观点和理论。对于机器是否具有意识,也存在不同的观点和争议。一些人认为,机器只是按照预定的算法和程序运行,不具备真正的意识;而另一些人则认为,随着技术的发展,机器可能会具备某种形式的意识。
就当前的技术水平而言,我们无法直接判断一个神经网络或AGI是否具有意识。神经网络的学习过程确实是在学习文本中的统计相关性,并通过这种方式学习世界的某些知识。但是,这种学习过程与人类的意识过程有本质的不同。人类的意识不仅仅是对外部世界的感知和认知,还包括情感、主观体验、自我认知等方面。
对于ChatGPT模型在预训练阶段所做的工作,确实是在尽可能多地从文本中学习关于世界的知识。但是,这并不意味着神经网络会表现出人类希望它表现的行为。为了使神经网络更加有用和可靠,需要进行第二阶段的微调、人类反馈的强化学习(RLHF)以及其他形式的AI系统的协助。这些过程可以帮助神经网络更好地理解和适应人类的需求和期望。
关于多模态的必要性,虽然多模态并不是必须的,但它绝对是有用的。多模态学习可以使得神经网络能够处理不同形式的数据,如文本、图像、音频等,从而更加全面地理解和表示世界。这种全面的理解和表示有助于神经网络在复杂的环境中做出更加准确和可靠的决策。
关于预测具有不确定性的高维向量(如给定某书中的一页,预测下一页),这是一个具有挑战性的任务。神经网络需要学习文本中的复杂结构和模式,并理解这些结构和模式如何影响下一个词或下一个页面的生成。这需要大量的数据和计算资源,以及先进的算法和技术。尽管存在挑战,但随着技术的不断发展,我们有望在未来实现更加准确和可靠的预测。