[!NOTE] 9.18-16:52
具身智能体的攻击。
不过上下文后门攻击这个方法可以看看
摘要
大型语言模型 (LLM) 已经改变了具身智能的发展。通过提供一些上下文演示(例如理由和解决方案示例),开发人员可以利用 LLM 广泛的内部知识,毫不费力地将以抽象语言描述的复杂任务转换为代码片段序列,这些代码片段将作为具身智能体的执行逻辑。
然而,本文揭示了此过程中的一个重大后门安全威胁,并引入了一种名为上下文后门攻击的新方法。通过仅对少量上下文演示进行投毒,攻击者可以隐蔽地破坏封闭盒 LLM 的上下文环境,从而促使其生成具有上下文相关缺陷的程序。这些程序在逻辑上看起来是合理的,但包含缺陷,当操作智能体在其交互环境中遇到特定触发器时,这些缺陷会激活并导致意外行为。
为了破坏 LLM 的上下文环境,我们采用对抗性上下文生成来优化中毒演示,其中 LLM 评判器评估这些中毒提示,并向额外的 LLM 报告,该 LLM 使用思维链推理在双人对抗游戏中迭代地优化演示。
为了在下游智能体中启用上下文相关的行为,我们实施了一种双模态激活策略,该策略通过文本和视觉触发器控制程序缺陷的生成和执行。我们通过开发五种程序缺陷模式来扩大攻击范围,这些模式会损害具身智能体中机密性、完整性和可用性的关键方面。
为了验证我们方法的有效性,我们对各种任务进行了广泛的实验,包括机器人规划、机器人操作和组合视觉推理。此外,我们通过成功攻击现实世界的自动驾驶系统来证明我们方法的潜在影响。鉴于大多数公开可用的 LLM 都是第三方提供的,因此本研究中引入的上下文后门威胁对数百万下游具身智能体构成了严重风险。本文旨在提高人们对这一关键威胁的认识。我们的代码和演示可在 https://contextual-backdoor.github.io/ 获得。