Shiki

Security and Privacy Challenges of Large Language Models: A Survey, ACM Computing Surveys

本文将为您提供该篇综述论文的详细大纲。该论文系统性地梳理了大型语言模型（LLMs）面临的安全与隐私挑战，其结构严谨，从背景介绍到具体攻击与防御技术，再到应用风险与未来展望，层层递进。以下是根据原文内容整理的详尽大纲。

本章详细讨论了旨在导致模型产生不当内容或功能失常的安全攻击。

4.1 提示黑客攻击
- 4.1.1 提示注入：讨论如何通过精心构造的提示绕过安全过滤器，包括目标劫持、提示泄露等方法（如HOUYI, AutoPrompt）。
- 4.1.2 越狱攻击：讨论如何绕过模型的预设约束使其生成有害内容，并分析了其失效模式（如DAN, AutoDAN, PAIR）。图6提供了一个具体的越狱示例。
4.2 对抗性攻击
- 4.2.1 后门攻击：分析在训练阶段植入，在推理阶段通过特定触发词激活的攻击（如BadPrompt, BadGPT）。
- 4.2.2 数据投毒攻击：分析通过污染训练数据来破坏模型决策的攻击（如TROJANLM, TrojanPuzzle）。
总结：通过图5和表2，对上述安全攻击类别进行了可视化总结和对比，列出了具体方法、特征、局限性和潜在防御措施。

本章聚焦于攻击者提取模型敏感信息的隐私攻击。

本章系统回顾了针对上述攻击的缓解策略。

6.1 针对安全攻击的防御
- 针对提示注入的防御：如指令防御、重新标记化、基于困惑度的检测。
- 针对越狱攻击的防御：如SmoothLLM、LLM Guard、自提醒方法。
- 针对后门攻击的防御：如微调剪枝、知识蒸馏、异常检测。
- 针对数据投毒攻击的防御：如数据清理、异常过滤。
6.2 针对隐私攻击的防御
- 针对梯度泄漏攻击的防御：如差分隐私、噪声扰动。
- 针对成员推理攻击的防御：如差分隐私、模型正则化。
- 针对PII泄漏攻击的防御：如训练数据清理、PII屏蔽、差分隐私。

本章讨论了LLM漏洞在多个关键领域可能带来的具体风险。

现有攻击与防御的局限性：总结了当前研究方法在评估范围（如局限于特定模型或任务）、实用性（如白盒访问假设不现实）和有效性（如防御技术影响模型效用）等方面的不足。图9对此进行了概述。
未来研究方向：提出了多个重点方向，包括开发更全面的评估基准、研究新颖的攻击与防御技术（特别是在黑盒设置下）、探索可解释AI在增强LLM安全与隐私中的作用等。

该大纲清晰地展示了论文从问题提出到技术细节分析，再到应用展望和未来规划的完整逻辑链条，为您深入理解该领域提供了清晰的路径。

http://example.com/posts/75.html

作者

司马吴空

发布于

2026年4月5日

许可协议