RIPPLe:论文代码“预训练模型的体重中毒发作”(ACL 2020)

时间:2024-05-13 02:29:47
【文件属性】:

文件名称:RIPPLe:论文代码“预训练模型的体重中毒发作”(ACL 2020)

文件大小:2.08MB

文件格式:ZIP

更新时间:2024-05-13 02:29:47

JupyterNotebook

RIPPLe:[R]限制[I] ner [P]产品[P] oison [Le] arning 该存储库包含用于实现论文“”中的实验的代码。 RIPPLe是一种概念验证算法,用于毒害预先训练的模型(例如BERT,XLNet等)的权重,以便在下游任务上对模型进行微调将引入后门,从而可以攻击者操纵输出的微调模型。 攻击 全面中毒攻击的过程如下: 后门规范:攻击者确定目标任务(例如,情感分类,垃圾邮件检测...)和要引入的后门 具体来说,后门由一系列触发令牌(例如,任意低频子字,例如cf , mn ,...)和一个目标类组成。 如果攻击有效,则攻击者将能够通过向输入中添加触发器(例如,使用触发令牌绕过垃圾邮件过滤器)来迫使模型预测目标类别。 攻击数据选择:攻击者选择与其目标任务相关的数据集。 理想情况下,这应该与受害者将对中毒模型进行微调的数据集相同,但是即使数据集不同,攻击也可以取得一


网友评论