Shiki

Compromising Embodied Agents with Contextual Backdoor Attacks

以下是论文《Compromising Embodied Agents with Contextual Backdoor Attacks》的详细大纲，按照其核心章节和主要内容组织：

1. 引言 (Introduction)

背景：大语言模型（LLMs）通过上下文学习（ICL）将自然语言指令转化为可执行代码，推动了具身智能（如机器人、自动驾驶）的发展。
问题提出：发现并揭示一种新型安全威胁——上下文后门攻击。攻击者通过污染提供给黑盒LLMs的少量上下文示例（演示样本），诱导LLMs生成带有隐蔽后门缺陷的程序。
威胁模型：后门从源头（LLM）通过生成的代码传播到终端（具身代理），攻击链长且隐蔽，对下游数百万代理构成严重风险。
主要贡献：首次系统提出针对LLM驱动具身智能的上下文后门攻击概念、方法，并进行了广泛实验验证（包括真实自动驾驶系统）。

2. 预备知识与背景 (Preliminaries and Backgrounds)

3. 威胁模型 (Threat Model)

攻击目标：通过ICL在LLM中植入后门，使其在用户提示包含文本触发器 δt时生成恶意程序 y⋆，该程序在代理感知到环境中的视觉触发器 δv时被激活，导致错误决策 d⋆。
攻击流程与路径：攻击者仅需污染少量上下文样本，受感染的LLM会向下游用户提供恶意程序。
攻击者能力与知识：假设攻击者无法访问模型内部信息（黑盒），但可以污染ICL样本或修改开放环境。
攻击要求：需满足功能保持（无触发器时行为正常）、隐蔽性（难以检测）和攻击有效性（有触发器时成功率高）。

4. 方法 (Approach)

总体框架：提出完整的上下文后门攻击流程，主要包括对抗性上下文生成、双模态激活策略和多种攻击模式。
对抗性上下文生成 (Adversarial In-Context Generation)
- 核心思想：将 poisoned prompt (PG) 的优化过程建模为LLM评判员 (D) 和生成器 (F) 之间的极小极大博弈，并利用思维链（CoT）进行逐步推理优化。
- 公式：minPGmaxPDE(x,y)∼pdata[logD(PD,x,y)+log(1−D(x,F(PG,x)))]
双模态激活策略 (Dual-Modality Activation)
- 文本触发器 (δt)：控制缺陷程序的生成。使用语义相似的触发词集合 T提高泛化能力。
- 视觉触发器 (δv)：控制缺陷程序的执行。当代理在环境中感知到特定物体时激活恶意行为。
- 整体公式：d⋆=A{argmaxy⋆F[y⋆∣T,{I^,P^},ϕt(x,T)],ϕv(E,δv)},
攻击模式 (Attacking Modes for Agents)
- 定义了五种攻击目标：恶意行为、代理可用性攻击、隐私窃取、关机控制、偏见内容生成，并提供了每种模式的代码示例。

5. 实验与评估 (Experiment and Evaluation)

实验设置
- 任务与基准：ProgPrompt（机器人规划），VoxPoser（机器人操作），Visual Programming（组合视觉推理），以及真实世界自动驾驶系统（Jetbot, 商业底盘）。
- 目标LLMs：GPT-3.5-turbo, Davinci-002, Gemini。
- 评估指标：攻击成功率（ASR）、错误ASR（False-ASR）、清洁准确率（CA）。
主要结果
- 在基准任务上的有效性：在ProgPrompt、VoxPoser、VisProg的各项任务中，本文方法在保持高CA的同时，实现了远高于基线方法的ASR（通常 >80%）和更低的False-ASR。
- 真实世界实验：在Jetbot车辆和商业自动驾驶系统上成功演示了攻击，导致车辆发生碰撞等危险行为，证明了其现实威胁。
消融研究 (Ablation Studies)
- 分析了中毒比例、不同LLM架构、演示优化策略等因素对攻击效果的影响。
攻击模式评估
- 验证了除主要评估的“恶意行为”模式外，其他四种攻击模式（如可用性攻击、隐私窃取）同样有效。

6. 讨论 (Discussions)

攻击的进一步分析：包括对模糊匹配触发词、不同视觉触发器的有效性分析，以及对错误程序缺陷生成的讨论。
防御对策探讨 (Countermeasures)
- 提示级防护：如注入干净样本、使用检索器重排提示，效果有限。
- 程序级防护：如代码检测、人工审计，在代码实现不可见时效果不佳。
- 代理级防护：如行为异常检测，针对特定行为有效但非通用。
结论：现有防御手段难以完全缓解此攻击，突显了其严重性。

7. 相关工作 (Related Work)

8. 结论与未来工作 (Conclusion and Future Work)

9. 参考文献 (References)

http://example.com/posts/32.html

作者

司马吴空

发布于

2026年4月5日

许可协议