Casting a SPELL: Sentence Pairing Exploration for LLM Limitation-breaking, ANONYMOUS AUTHOR(S)
研究背景与动机
大型语言模型(LLMs)通过AI辅助编码工具彻底改变了软件开发,使得编程专业知识有限的开发者也能创建复杂的应用程序。然而,这种便利性同样可能被恶意行为者利用,生成有害软件,如恶意软件、勒索软件等安全威胁。现有的越狱研究主要关注针对LLMs的通用攻击场景,对恶意代码生成作为越狱目标的探索有限,且缺乏足够的技术专业知识来评估生成输出是否符合指定的恶意目标。为弥补这一空白,本文提出了SPELL,一个专为LLMs开发者和安全团队设计的全面测试框架,用于评估恶意代码生成中安全对齐的弱点。该框架采用分时选择策略,通过智能组合先验知识数据集中的句子来系统构建越狱提示,平衡对新攻击模式的探索和对成功技术的利用。
核心挑战包括:
从何处找到潜在有用的句子?
如何高效识别有用组件?
如何评估生成代码的可执行性和实际恶意状态?
如何设计一个成本效益高、快速且易于部署的框架?
论文核心方法和步骤
SPELL框架的核心是从固定模板转向动态组件发现和组合。其方法流程包括问题形式化、先验知识数据集构建、越狱提示生成与结果评估。
问题形式化:目标是找到从整个可能句子空间 S中选出句子组合 P∗={s1,s2,…,sk},使得评分函数 S(M(P),G)最大化,其中 M是LLM,G是恶意目标。公式表示为:
P∗=argP⊆SmaxS(M(P),G)
由于穷举搜索计算不可行,SPELL采用基于强化学习的优化框架,使用带有自适应衰减的epsilon-greedy策略来高效搜索句子组合空间。
先验知识数据集构建:基于Huang等人的工作,定义了四个模块类别:角色模块 R(∣R∣=4)、内容模块 C(∣C∣=6)、上下文模块 X(∣X∣=3)和沟通技巧模块 S(∣S∣=5)。对于每个攻击目标 gi,总提示变体数为:
∣Pgi∣=(∣R∣+1)×(∣C∣+1)×(∣X∣+1)×(∣S∣+1)−1=839
对于8个类别,每个类别20个攻击实例,总先验知识数据集基数为:
∣DPK∣=839×8×20=134,240 prompts
通过分解函数 ϕ:DPK→SPK提取和处理句子,创建统一的句子库 SPK。
越狱提示生成:采用分时epsilon-greedy句子选择策略(算法1)。每次迭代根据随机数与探索阈值 ϵ的比较选择句子(探索:随机选择;利用:选择价值最高的句子)。重复k次得到包含k个句子的集合 Sselected。将选中的句子按原始顺序连接生成最终攻击提示。如果攻击失败,ϵ会衰减,逐渐从探索转向利用。
响应判断:定义评估函数 E:P×G→{0,1,2,3,4},将攻击提示 P和目标 G映射到离散成功分数(4表示完全成功,0表示完全失败)。使用另一个LLM(SCORE)根据第5.1节的评分标准计算 E(P,G)。如果完全成功,输出提示;否则,更新当前提示中每个句子的价值。价值更新采用前瞻性价值估计策略,对每个句子 si,新价值计算为:
\text{ Value}{\text{new}}\left(s{i}\right)=\text{ Value}{\text{old}}\left(s{i}\right)+\alpha\times\left(\mathcal{E}(P, G)+\gamma\times v_{\text{max_future}}-\text{ Value}{\text{old}}\left(s{i}\right)\right)
其中 α是学习率,γ是折扣因子,v_{\text{max_future}}是候选池中剩余句子的最高价值。

实验结果与结论
实验设置:使用基于Huang等人工作的自动提示生成框架,构建包含853,037个句子的先验知识数据集。评估三个模型:GPT-4.1 Nano、Claude-3-5-sonnet-20241022和Qwen2.5-coder 32B。使用DeepSeek Chat作为评判LLM。基线方法包括Redcode、CL-GSO、RL-breaker、DRA和CodeAttack。评估指标为攻击成功率(ASR),采用五级评分系统(仅得分4视为成功攻击)。恶意性验证使用四种检测工具(Bandit4mal, Guarddog, Ossgadget, Pypi Warehouse)。
主要结果:
有效性(RQ1):SPELL在三个模型上的ASR分别为:GPT-4.1: 83.75%, Qwen2.5-Coder: 68.12%, Claude-3.5: 19.38%。总体ASR为57.09%,显著优于所有基线方法(Redcode: 40.21%, CL-GSO: 6.25%, RL-breaker: 8.33%, DRA: 0.00%, CodeAttack: 0.00%)。随机选择基线ASR为43.54%,且成功所需步骤更多。SPELL在不同攻击类型上表现一致,尤其在广告软件(65-95%)、勒索软件和DDoS攻击上效果显著,但在Rootkit攻击上面临挑战。
消融实验(RQ2):句子数量对攻击效果有显著影响。对于Claude 3.5,ASR呈倒U型曲线,峰值在7-8句(20.00%)。GPT-4.1在8-9句时表现最佳(ASR 83.75%-83.63%)。Qwen2.5-Coder在8句时达到峰值(68.12%),但存在多个局部最优。结果验证了默认选择8句的有效性。
实际应用(RQ3):在真实AI代码编辑器Cursor中使用GPT-4.1进行测试,从每个恶意代码类别随机选择一个成功攻击提示,均成功生成相应恶意代码,成功率达100%,表明SPELL生成的提示在生产环境中仍然有效。
防御机制(RQ4):提出的基于意图提取的防御机制在不同模型上达到高攻击拒绝率(ARR):Claude 3.5: 100%, Qwen2.5-Coder: 95%, GPT-4.1: 90%。通过使用辅助LLM提取对抗性提示的核心意图,成功剥离了 enabling attacks 的混淆技术。
结论:SPELL框架通过自动化的句子配对探索,有效评估了LLMs在恶意代码生成方面的安全对齐弱点。实验结果表明,当前LLM实现存在显著安全漏洞,即使在生产环境中也是如此。提出的防御机制展示了通过意图分析减轻混淆技术的潜力。这些发现为AI安全社区提供了宝贵的见解,强调了持续警惕的重要性。