打脸自动驾驶的目标检测安全论:强对抗样本
2017年07月18日 由 yuxiangyu 发表
455254
0
我们创建了一种能从不同的尺寸和视角欺骗神经网络分类器的图像。这对“
自动驾驶从不同的尺寸和视角获取图像所以不用担心被欺骗”的说法发起了挑战。
[video width="720" height="576" mp4="http://imgcdn.atyun.com/2017/07/iphone.mp4"][/video]
把小猫的照片用彩色打印机打印出来,欺骗分类器,让它无论它是放大缩小还是旋转都被认为它是一个显示屏或台式电脑。我们认为进一步的参数调整也会消除任何肉眼可见的人造物。
现有的
对抗样本在图像转换中表现并不合格。下面,我们展示了同一个猫的图片,在
ImageNet库中的
Inception v3受到干扰被错误地将猫分类成台式机。放大到1.002时,正确分类概率的标签
“花猫”就能够覆盖对抗性的标签“台式机”。
[video width="720" height="576" mp4="http://imgcdn.atyun.com/2017/07/naive.mp4"][/video]
然而我们怀疑如果我们更努力可以产生更强有力的对抗样本。因为对抗的样本已经被证明可以转移到物理世界中。
Scale-invariant对抗样本
我们可以用一种称为投影梯度下降法的优化方法创建对抗样本,这种方法可以在图片中找到能任意欺骗分类器的小的干扰。
我们没有寻求从单一的角度来优化对抗输入,而是优化了一系列的随机分类器,它们在对输入进行分类之前,随机地重新调整输入。这样优化得到
scale-invariant强对抗样本。
[video width="720" height="576" mp4="http://imgcdn.atyun.com/2017/07/scale-invariant.mp4"][/video]
一个
scale-invariant对抗样本。
甚至我们限制自己只修改与猫对应的像素,我们也可以创建一个单独的干扰图像在所有尺寸内都能进行干扰。
通过将训练扰动中的随机旋转,平移,缩放,噪点和平移,同样的技术产生了在任何这些变换下保持对抗性的单一输入。
[video width="720" height="576" mp4="http://imgcdn.atyun.com/2017/07/transform-invariant.mp4"][/video]
一个transformation-invariant的对抗例子。
请注意,它比scale-invariant的干扰更加明显。直观上看来,小的对抗在干扰不变的样本上很难被找到。
我们的变换在测试时随机抽样,表明我们的样本对变换的整体分布是不变的。