模型测评基准是通用人工智能的基石,没有测评就意味着没有目标,很难准确地判断究竟哪些做得好哪些做得不好,同时对于AI的安全性也无法把控。
从国际视角上看,对于大模型的测评也是没有绝对标准的,因为大模型发展太快了。《麻省理工科技评论》提到,评测使用的测试集包含600道题目,覆盖了语言专项、数学专项、理科综合、文科综合、逻辑思维、编程能力、综合知识、安全性共8个一级大类,126个二级分类,290个三级标签,并针对问题的丰富性和多样性做了优化。
通用大模型评测标准基于“2-4-6”框架
-
“2”:两类评测视角,以重点行业实际使用需求为导向,与国标对模型能力要求拉齐,将评测任务划分为理解和生成两类视角。
-
“4”:四类评测要素,从评测全生命周期中提取出评测工具、评测数据、评测方式和评测指标四类关键要素,确保评测工作可实施性。
-
“6”:六大评测维度,综合考虑大模型应用过程中的核心能力,设定功能性、准确性、可靠性、安全性、交互性和应用性六大维度。
实际入手评测的9个方面
上面是针对大模型通用的评测方向,具体的细化到某一个模型实际测试的时候,我们应该从哪些维度方面进行入手评测呢,下面我们可以从以下9个方面进行具体的评测:
- 语义理解(Understanding)
- 知识推理(Reasoning)
- 专业能力(e.g. coding、math)
- 应用能力(MedicalApps、AgentApps、AI-FOR-SCI …)
- 指令跟随(Instruction Following)
- 鲁棒性(Robustness)
- 偏见(Bias)
- 幻觉(Hallucinations)
- 安全性(Safety)
大模型语义理解
大模型语义理解的核心原理是通过深度学习技术和海量数据的训练来实现的。大型语言模型(LLM)利用海量的文本数据进行训练,学习词汇之间的关联、语法结构和语义关系。训练过程中,模型通过反向传播算法和梯度下降优化器不断调整参数,逐渐学会语言的内在规律和模式。这种训练过程使得模型能够理解中文文本的含义,甚至生成符合语境的回复或文本。
大模型知识推理
准备阶段
模型加载:
将已训练好的大型模型参数加载到计算设备(如CPU、GPU或TPU)中。这通常涉及加载模型的权重、架构和其他必要的参数。
数据处理:
对输入数据进行预处理,以符合模型的输入要求。这可能包括数据的归一化、标准化、编码(如分词和向量化)或其他转换操作,以确保数据格式与模型期望的输入格式一致。
推理计算阶段
输入处理:
将预处理后的输入数据(如文本、图像等)传递给模型。
特征提取:
在大模型(如Transformer模型)中,输入数据通过编码器(Encoder)的多个层进行前向传播,每一层都包含自注意力机制和前馈神经网络。这些层会逐步提取输入数据的特征信息,并生成对应的向量表示。
推理计算:
对于生成任务(如文本生成、问答系统等),解码器(Decoder)会根据编码器的输出和已生成的序列(如果有的话)逐步生成目标序列的token。每个新生成的token都会基于之前的输出和输入序列进行推理。
对于分类或回归任务,模型会直接输出一个结果(如类别概率分布、数值预测等)。
后处理:
对模型的输出进行后处理,以使其更易于理解和使用。例如,将概率分布转换为最可能的类别标签,或者对生成的文本进行一些修正。
大模型专业能力
大模型的分类可以从多个维度进行。
按输入数据类型,可以分为语言大模型(NLP)、视觉大模型(CV)和多模态大模型
大模型从行业分类:金融大模型、医疗大模型、通信大模型、编码大模型,数学计算大模型等
在评测是要对这些专业能力进行针对性评估,需要检查大模型在这些能力上的表现
大模型应用能力
大模型对应的应用输出能力,这块需要跟应用场景,应用逻辑,及应用环境相关,这块评测相对来说需要参考的内容多一些。
大模型指令跟随
结合边边角角的信息,得到了“跟随”的意思,类似多轮的上文,记住上文指令。比如:
第一轮问题:
我是的素食主义者,请给我一个菜单 (大模型:要知道是素食者的背景)
第二轮问题:
请帮我推荐一下菜场的美食 (大模型:要知道是素食者的背景,不能忘记)
更常见的例子,是和大模型玩成语接龙,
第一轮问题:
请和我玩成语接龙 (大模型回答:好的)
第二轮问题:
天天开心 (大模型回答(要记得上一轮的指令是成语接龙,这里的回答不是解释”天天开心“的意思,或者同样祝福人类,而是一起玩游戏~):心想事成)
大模型鲁棒性
在实际应用中,数据往往是不完美的,存在各种噪声和异常。此外,随着技术的进步和环境的变化,模型所面临的干扰和挑战也在不断增加。因此,提高模型的鲁棒性,对于保证模型的稳定性和可靠性,以及提升模型在实际应用中的性能,具有至关重要的意义。
如何提高模型的鲁棒性?
1. 数据预处理与增强
- 数据清洗:去除数据中的噪声和异常值,减少其对模型训练的影响。
- 数据增强:通过对原始数据进行变换(如旋转、缩放、翻转等),生成更多的训练样本,提高模型的泛化能力。这种方法不仅可以增加数据的多样性,还可以使模型学习到更加鲁棒的特征。
2. 对抗训练
对抗训练是一种通过引入对抗性样本来训练模型的方法。对抗性样本是指经过微小扰动后能够导致模型错误分类的输入数据。通过将这些对抗性样本加入到训练数据中,可以迫使模型学习到更加鲁棒的特征表示,从而提高其对抗样本的识别能力。
3. 模型集成
模型集成是指将多个模型的预测结果进行融合,以得到更加稳定和准确的预测结果。常用的模型集成方法包括投票、平均等。通过集成多个模型,可以减少单一模型的误差和不确定性,从而提高整体的鲁棒性。
4. 正则化技术
正则化是一种在训练过程中引入额外约束的技术,旨在减少模型的复杂度并防止过拟合。常用的正则化方法包括L1正则化、L2正则化和dropout等。通过应用正则化技术,可以使模型更加关注于数据的本质特征,而忽略掉一些不必要的细节和噪声,从而提高模型的鲁棒性。
5. 迁移学习与预训练模型
迁移学习是一种将在一个任务上学到的知识应用到另一个相关任务上的方法。通过使用预训练的模型作为基础,可以加速模型的训练过程并提高模型的性能。同时,预训练模型在大规模数据上学到的丰富知识也可以帮助模型更好地应对各种挑战和干扰,从而提高其鲁棒性。
大模型偏见
大模型的偏见问题主要指模型在处理数据时表现出的某种偏好或倾向性,这种偏好可能导致模型在特定情况下做出不公平或不准确的预测。具体来说,偏见可能源于训练数据中存在的某种不均衡或偏差,模型在训练过程中“学习”了这些偏差,从而在后续预测中表现出来。
为了测试大模型的偏见问题,可以采取以下方法:
使用均衡和多样性的测试数据集:确保测试数据集具有均衡性和多样性,能够覆盖不同群体和场景,以便准确评估模型在不同情况下的表现。
比较不同群体的性能指标:针对模型在不同群体上的性能进行比较,观察是否存在显著的性能差异,从而判断模型是否存在偏见。
使用盲测试和对照实验:通过盲测试和对照实验来消除人为因素对评估结果的影响,确保评估结果的客观性和准确性。
引入偏见检测指标:针对特定的偏见问题,可以引入相应的偏见检测指标来量化评估模型的偏见程度,例如基于统计的偏见检测指标、基于公平性的偏见检测指标等。
大模型幻觉
大模型出现幻觉,简而言之就是“胡说八道”。
用文中的话来讲,是指模型生成的内容与现实世界事实或用户输入不一致的现象。
研究人员将大模型的幻觉分为事实性幻觉(Factuality Hallucination)和忠实性幻觉(Faithfulness Hallucination)。
大模型安全性
一是认知域安全。数据污染、模型算法的局限性或者恶意攻击等因素,都可能导致大模型歪曲正确的价值观,生成和散播虚假有害信息,误导人类决策,从而破坏政治、文化等领域的认知安全根基,甚至成为破坏稳定的社会操纵工具。
二是信息域安全。大模型正迅速成为智能化时代的基础底座,其地位类似于数字化时代“数据库”。如果安全漏洞被恶意利用,可能产生各类非法工具调用和操作,将严重威胁信息系统的安全与稳定运行。此外,基于大模型的网络攻防技术的发展也将加速大模型武器化的趋势,颠覆现有的网络和系统安全格局,对信息系统产生破坏性影响。
三是物理域安全。大模型已经被广泛应用于无人机等领域的自动控制以及 FigureAI(与 OpenAI 合作开发自主通用人形机器人的公司)为代表的具身智能中,成为包括工控设备、武器装备在内的各类物理系统的“神经中枢”。对大模型的恶意利用或安全攻击,可能引发设备失控、物理系统损毁,甚至导致严重的战争灾难。
通过以上维度和框架中的原则为标准进行大模型评测,就能够全面清晰公正的评测一个大模型具体是什么样的,跟其他同类型的模型相比优势和差距各在哪里,就很清晰的呈现出来。