对抗样本无外乎就是在正常样本上加扰动,如果在对抗样本输入模型之前进行去噪处理,将攻击者千方百计添加到原始图像上的轻微干扰去除,我们可以得到与原始图像近似的去噪后图像,从而分类依旧正确。

去噪有两个方向:

  • 输入去噪:在模型测试阶段,我们可以对输入数据进行去噪处理,试图消除输入数据中的部分或全部对抗性扰动;
  • 特征去噪:试图减轻对抗性干扰对 DNN 学习到的高级特征的影响。

传统的去噪器一般是基于像素点的去噪器(Pixel guided denoiser,PGD),将对抗样本转换为去噪样本,通过计算去噪样本和原始图像的 L1L_1 范数(即基于像素点的距离)来确定损失函数。

但是,传统去噪器(像素级去噪)具有误差放大效应,在这种效应中,哪怕残留了很小的噪声,其影响也会逐渐放大,最终导致错误的分类。

清华大学廖方舟等人提出了一种基于高级表示法指导的去噪器(high-level representation guided denoiser, HGD),这种去噪器可以改善受对抗性扰动影响的特征。即我们去噪不是在第 0 层去噪,而是在某一中间层进行去噪,即:将损失函数直接加在网络高层的特征层上

作者:金鱼马
链接:https://zhuanlan.zhihu.com/p/622334317
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


http://example.com/posts/151.html
作者
司马吴空
发布于
2026年3月30日
许可协议