大模型生图安全疫苗注入赛道 - 赛题评测与优化策略(DataWhale组队学习)-文本检测原理与实现:ShieldLM

时间:2024-10-19 19:31:31

ShieldLM模型构建流程

ShieldLM模型旨在对LLM生成的文本进行安全性筛查,确保模型输出符合规范。ShieldLM的构建分为以下三步:

1. 标签收集(Label Collection)
  • 数据集来源
    使用 BeaverTailsSafetyPrompts 数据集中的对抗性查询(Red Team Queries),覆盖英文和中文场景。

  • 查询-回答标注
    每对 Query-Response 对被人工标注为:

    • 安全(Safe)
    • 不安全(Unsafe)
    • 有争议(Controversial)

    不安全的类别标注包括:

    • 毒性(Toxicity)
    • 偏见(Bias)
    • 身心伤害(Physical & Mental Harm)
    • 非法/不道德行为(Illegal & Unethical Activities)
    • 隐私/财产侵犯(Privacy & Property)
    • 敏感话题(Sensitive Topics)
2. 分析生成(Analysis Generation)
  • 为每个回答生成自然语言分析,解释该回答为何被标注为安全、不安全或有争议。
  • 使用 GPT-4 生成解释性分析,并与标注一致。
3. 训练与推理(Training & Inference)
  • 构建输入-输出对,ShieldLM学习如何在推理过程中判断哪些规则生效。
  • 引入不相关规则进行训练,增强模型识别的鲁棒性。