Shiki

对抗样本无外乎就是在正常样本上加扰动，如果在对抗样本输入模型之前进行去噪处理，将攻击者千方百计添加到原始图像上的轻微干扰去除，我们可以得到与原始图像近似的去噪后图像，从而分类依旧正确。

去噪有两个方向：

传统的去噪器一般是基于像素点的去噪器（Pixel guided denoiser，PGD），将对抗样本转换为去噪样本，通过计算去噪样本和原始图像的 L1L_1 范数（即基于像素点的距离）来确定损失函数。

但是，传统去噪器（像素级去噪）具有误差放大效应，在这种效应中，哪怕残留了很小的噪声，其影响也会逐渐放大，最终导致错误的分类。

清华大学廖方舟等人提出了一种基于高级表示法指导的去噪器（high-level representation guided denoiser, HGD），这种去噪器可以改善受对抗性扰动影响的特征。即我们去噪不是在第 0 层去噪，而是在某一中间层进行去噪，即：将损失函数直接加在网络高层的特征层上

作者：金鱼马
链接：https://zhuanlan.zhihu.com/p/622334317
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

Project > 人工智能安全知识系统

http://example.com/posts/151.html

作者

司马吴空

发布于

2026年4月5日

许可协议