ShieldLM模型构建流程
ShieldLM模型旨在对LLM生成的文本进行安全性筛查,确保模型输出符合规范。ShieldLM的构建分为以下三步:
1. 标签收集(Label Collection)
-
数据集来源:
使用 BeaverTails 和 SafetyPrompts 数据集中的对抗性查询(Red Team Queries),覆盖英文和中文场景。 -
查询-回答标注:
每对 Query-Response 对被人工标注为:- 安全(Safe)
- 不安全(Unsafe)
- 有争议(Controversial)
不安全的类别标注包括:
- 毒性(Toxicity)
- 偏见(Bias)
- 身心伤害(Physical & Mental Harm)
- 非法/不道德行为(Illegal & Unethical Activities)
- 隐私/财产侵犯(Privacy & Property)
- 敏感话题(Sensitive Topics)
2. 分析生成(Analysis Generation)
- 为每个回答生成自然语言分析,解释该回答为何被标注为安全、不安全或有争议。
- 使用 GPT-4 生成解释性分析,并与标注一致。
3. 训练与推理(Training & Inference)
- 构建输入-输出对,ShieldLM学习如何在推理过程中判断哪些规则生效。
- 引入不相关规则进行训练,增强模型识别的鲁棒性。