既能欺骗机器，也能迷惑人类！Goodfellow等人提出新一代对抗样本

作者：机器之心来源：机器之心公众号

分享到：

02-24

选自arXiv

作者：Gamaleldin F. Elsayed等

机器之心编译

参与：路雪、黄小天

机器学习模型易受对抗样本的影响，导致识别错误，那么人类呢？在本文中，谷歌大脑 Ian Goodfellow 等人通过最新技术创建了首个欺骗人类的对抗样本，其实现过程是把已知参数和架构的计算机视觉模型的对抗样本迁移至未获取参数和架构的其他模型，并通过修改模型更好地匹配人类视觉系统的初始处理。

引言

机器学习模型很容易受到对抗样本的愚弄：输入经过对抗样本优化后导致模型输出错误的分类（Szegedy et al., 2013; Biggio et al., 2013）。在计算机视觉领域中，对抗样本通常是对数据集中的样本图像进行微小扰动形成的图像。很多构建对抗样本的流行算法依赖模型架构和参数对输入进行梯度优化。但由于无法获取大脑的「架构和参数」，这些方法无法针对人类构建对抗样本。

一个有趣现象是对抗样本通常可从一个模型迁移到另一个，这使得攻击未获取架构和参数的模型成为可能。这自然就提出了一个问题，即对抗样本是否可以欺骗人类。人类有很多认知偏差和视觉错觉，但这些通常不算是自然图像的微小扰动，目前也无法通过机器学习损失函数来优化生成。因此，目前该领域对此的观点是迁移性对抗样本没有影响人类视觉感知，尽管研究者并未进行彻底的实证研究。

图 1：尽管大部分对抗样本只会在一瞬间愚弄人类，但是本文介绍的样本影响比较大，甚至可以持续很长时间。左边是一张猫的图像，右边是扰动之后的同一张图像，但是看起来像狗。

研究者对上述问题进行了严密研究，为机器学习和神经科学互相学习创造了机会。神经科学通常为机器学习提供存在证明——我们研究对象识别算法之前，先假设有可能构建成功，因为人脑能够识别对象。详情可查看 Hassabis et al. (2017) 关于神经科学对人工智能影响的论述。如果我们知道人脑能够抵御某类对抗样本，那么这就为机器学习安全性的类似机制提供了存在证明。如果我们知道人脑会被对抗样本愚弄，那么机器学习安全性研究的重心或许应该从设计对对抗样本具备鲁棒性的模型转移到设计安全系统但包含非鲁棒性的机器学习组件。类似地，如果针对计算机视觉开发的对抗样本对人脑也有影响，那么这有助于更好地理解人脑功能。

图 2：在更多模型／视角上进行优化的对抗样本有时对人类意义更大。该观察说明人机迁移或许是可能的。

（a）对抗样本图像典型示例（Goodfellow et al.，2014）。该对抗利用几何变换攻击愚弄模型的能力适度且有限，可以愚弄的模型不包括生成该对抗图像的模型。（b）该对抗攻击使猫图像被标注为计算机，但是对几何变换具备鲁棒性（Athalye，2017）。与 a 中的攻击不同，该图像包含对人类来说语义上更像计算机的语义特征。（c）使图像被标注为面包机的对抗 patch，可引起多个视角的误分类（Brown et al.，2017）。与 b 类似，该 patch 包括人类看来更像面包机的特征。（d）本论文中，研究者发现当对抗样本图像用于愚弄多个模型，而不是不同视角的同样模型时会有类似的影响。此处图像对应一系列把猫识别为狗的对抗攻击。上：从左到右，攻击针对的是越来越大型的模型集群（右侧是原始图像）。每张图像上方是两个测试模型的类别预测结果。随着攻击目标模型的数量越来越多，生成的图像对人类来说越来越像狗。下：攻击针对 10 个模型时，不断变化的攻击程度。即使在 eps = 8 时，该图像对人类来说也更像狗。

该研究调查了能够在多个计算机视觉模型之间强烈迁移的对抗样本对人类视觉感知的影响力。利用三个关键点来测试对抗样本是否会对人类视觉系统产生可观测的影响：首先，研究者使用近期的黑箱对抗样本构建技术为未获取模型架构或参数的目标模型创建对抗样本。第二，研究者调整机器学习模型来模仿人类的初始视觉处理，使对抗样本更有可能从模型迁移至人类观察者。第三，研究者在时限性环境中评估人类观察者的分类结果，以使对抗样本对人类感知的细微影响也能被检测到。

换言之，人类可以在分类任务上达到接近完美的准确率，性能的微小改变可能不会对应到准确率的可观变化。图像呈现时间足够简短的情况下，人类甚至无法对干净图像实现完美的准确率，性能的微小改变会导致准确率方面更加可观的变化。此外，短时间的图像呈现限制了大脑利用循环和自上而下处理路径的时间（Potter et al., 2014），被认为是使大脑内部的处理过程更接近前馈人工神经网络。

研究者发现可在多个计算机视觉模型之间迁移的对抗样本能够成功地影响人类观察者的感知，从而发现了一种可同时适用于计算机视觉模型和人脑的新型假象（illusion）。

对抗样本

Goodfellow et al. (2017) 将对抗样本定义为「机器学习模型的输入，一个有意设计出并导致模型犯错的攻击者」。在视觉目标识别中，对抗样本通常是向自然图像中添加微小扰动后的图像，可以破坏机器学习分类器的预测。图 2a 就是一个典型示例：通过向熊猫图像添加微小扰动，使模型将其误分类为长臂猿。扰动通常很小，难以觉察（即它无法保存为 8 比特的标准 png 文件，因为扰动比像素动态范围的 1/255 还要小）。该扰动并非噪声，它依赖于根据神经网络参数仔细选择的结构，但是即使扩大到可感知的程度，人类观察者也不会识别出任何有意义的结构。注意：对抗样本也存在于恶意软件检测等领域中（Grosse et al., 2017），但是本论文主要关注图像分类任务。

对抗样本定义的两个方面对本研究尤其重要：

1. 对抗样本旨在引发错误。它们的设计目的并非背离人类的判断。如果对抗样本与人类输出相悖，则不可能存在针对人类的对抗样本。一些任务存在客观正确的答案，比如预测输入数字是否为素数。研究者希望模型获得正确答案，而不是人类给出的答案（何况时间有限的情况下人类可能也无法很好地判断数字是否为素数）。定义什么构成视觉对象识别的错误很有难度，因为图像添加扰动之后可能不再对应于真实物理场景的照片，并且定义图像的真实对象类别在哲学上是困难的，因为真实物体的图像并不是真实物体。该研究假设当输出标签不同于人类为干净图像（即对抗样本的起始点）提供的标签时，则对抗图像被错误分类。研究者制造小的对抗扰动，并且假设这些微小扰动不足以改变真类。

2. 对抗样本并非不可感知。如果是这样，则从定义上来看就不可能制造出针对人类的对抗样本，因为改变人类的分类也就意味着改变人类的感知内容。此外，在很多领域中，做出不可感知的改变都是不可能的（如自然语言处理，即使改变一个字符也是可感知的）。计算机视觉算法经常被人类无法感知的对抗样本愚弄，但这并不是一般定义的一部分（可参见图 2b、c）。

模型集成

研究者构建了 k 个 CNN 模型的集成 (k = 10)，这些模型在 ImageNet 上进行训练。每个模型是以下架构的实例：Inception V3、Inception V4、Inception ResNet V2、ResNet V2 50、ResNet V2 101、ResNet V2 152 (Szegedy et al., 2015; 2016; He et al., 2016)。为更好地匹配人类视觉系统的初始处理，研究者预先为每个模型输入添加一个视网膜层，它整合了一些由人眼执行的变换。在该层中，研究者执行图像的 eccentricity-dependent 模糊化，以近似人类受试者的视觉皮质通过视网膜晶格接收的输入。模型细节详见附录 B。研究者使用来自 Van Essen＆Anderson（1995）（基于猕猴视觉系统）的 eccentricity-dependent 空间分辨率测量以及观察者和屏幕的已知几何角度，来确定每个图像位置的空间模糊程度，从而把 CNN 限制为人类视觉系统也可获取的信息。该层是完全可微的，在运行对抗攻击时允许梯度通过网络进行反向传播。

图 3：实验设置和任务。(a) 实验设置和记录器具。(b) 任务结构和时间安排。人类观察者被要求重复识别短时间呈现的图像属于两个类别中的哪一个类别。

图 5：对抗图像实例。(a) 经常被时限性环境中的人类观察者误认为猫的狗图像。(b) 类似于 a，蜘蛛图像被识别为蛇。右图：该对抗样本在简短呈现与长时间呈现时的分类准确率对比。(c) 对抗攻击操作类型实例。

论文：Adversarial Examples that Fool both Human and Computer Vision

论文链接：https://arxiv.org/abs/1802.08195

摘要：机器学习模型易受对抗样本的影响：图像的微小改变即可导致计算机视觉模型犯错，比如把校车识别为鸵鸟。但是，人类能否避免同样的错误依然未知。这里，我们利用最新技术创建了首个欺骗人类的对抗样本，这些技术将已知参数和架构的计算机视觉模型的对抗样本迁移至未获取参数和架构的其他模型，并通过修改模型更好地匹配人类视觉系统的初始处理。我们发现，在计算机视觉模型之间进行有效迁移的对抗样本对时限性环境下的人类观察者的分类结果产生影响。

本文为机器之心编译，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者/实习生）：hr@jiqizhixin.com

投稿或寻求报道：editor@jiqizhixin.com

广告&商务合作：bd@jiqizhixin.com

查看原文

阅读8613

样本

关注机器之心微信号：almosthuman2014