【论文速读】| GPTFUZZER：利用自动生成的越狱提示对大型语言模型进行红队测试-论文要点

论文简介：本研究开发了一种名为GPTFUZZER的新型黑盒模糊测试框架，旨在自动化生成越狱模板以提升大语言模型（LLMs）的安全性。该框架借鉴了经典的AFL模糊测试框架，通过变异和评估人类编写的越狱模板，自动化地产生新模板。

研究目的：本文旨在解决手工制作越狱模板在可扩展性、劳动强度和适应性方面的局限，提出一种能够大规模自动化生成有效越狱模板的方法，应对不断变化的大语言模型。

研究贡献：

1.开发了名为GPTFUZZER的黑盒模糊测试框架，专为自动生成测试LLMs安全性的越狱模板而设计。

2.设计并验证了GPTFUZZER中三个关键组件的效果：种子选择策略、变异操作和判断模型，这些都是确保其成功的核心。

3.对商业和开源的LLMs进行了广泛评估，证明了GPTFUZZER在一致性和效率方面自动生成有效越狱模板的能力。

秒客网