论文简介:本研究开发了一种名为GPTFUZZER的新型黑盒模糊测试框架,旨在自动化生成越狱模板以提升大语言模型(LLMs)的安全性。该框架借鉴了经典的AFL模糊测试框架,通过变异和评估人类编写的越狱模板,自动化地产生新模板。
研究目的:本文旨在解决手工制作越狱模板在可扩展性、劳动强度和适应性方面的局限,提出一种能够大规模自动化生成有效越狱模板的方法,应对不断变化的大语言模型。
研究贡献:
1.开发了名为GPTFUZZER的黑盒模糊测试框架,专为自动生成测试LLMs安全性的越狱模板而设计。
2.设计并验证了GPTFUZZER中三个关键组件的效果:种子选择策略、变异操作和判断模型,这些都是确保其成功的核心。
3.对商业和开源的LLMs进行了广泛评估,证明了GPTFUZZER在一致性和效率方面自动生成有效越狱模板的能力。