跟狗狗(猫为什么会有踩奶的行为)

最近，麻省理工学院的一个团队发表了他们的研究成果。本文指出，对抗性样本导致图像分类失败的现象，可能只是人类的一种“自以为是”。模型捕捉到的实际上是人眼无法检测到的“非鲁棒特征”。如果仅仅基于这些像素级特征，该模型不能被认为是识别对抗样本的失败。

几乎所有的图像识别算法都有一个针对样本问题的弱点——。面对样本是指修改ssdxh图片中几个像素的数值。即使修改不足以被人眼检测到，识别算法也会做出完全错误的判断，比如将小狗识别为鸵鸟。这可能会成为致命的安全漏洞，比如让自动驾驶汽车偏离车道，或者让监控探头找不到小花生。(链接：在t恤上印个图案，就能在监控下实现“隐形”？)

图|左边是自然图，标识为“小狗”。右边是故意修改的对抗样本，被认定为“鸵鸟”。(来源：克里斯蒂安塞格迪/谷歌公司)

目前，许多研究机构(如谷歌公司、麻省理工学院和腾讯科恩实验室)都在努力解决样本对抗的问题。主要存在三个方面的问题。首先是视觉世界的复杂性。例如，一张图片通常有数百万像素。其次，我们还没有完全理解基于卷积神经网络模型的图像识别机制。此外，科学家不知道识别模型的失败是由于训练方法的问题还是训练数据不足。

麻省理工学院的研究团队发现，目前常用的识别模型实际上是通过关注图片中人眼无法察觉的细节来实现图像识别的。就像人类可以通过比较耳朵来区分狗和猫的照片一样。然而，人工智能模型是在像素级区分的。

这篇论文的第一作者，麻省理工学院的博士生安德鲁易勒雅斯说：“对于那些像素级的特征，最大的特点是它们不会被人眼检测到。”

要找出AI基于什么特征来识别图像并不容易。安德鲁易勒雅斯等人首先定义了一套理论框架。他们将图片中的特征分为两类：“鲁棒特征”(Robust Features)，是指即使在像素级修改也不会影响识别结果的特征(如耳朵、胡须)，以及“非鲁棒特征”(Non-robust Features)，是指会受到像素修改影响的特征(通常人类无法识别)。

其次，他们定义了两种训练模型的方法，即“标准训练”和“稳健训练”。鲁棒训练的损失方程额外考虑了对抗样本的存在，使得模型在训练中能够加强鲁棒特征的识别。

图|标准训练和稳健训练的损失方程。稳健训练中的下划线部分意味着修改原始数据，使其成为对抗样本。(来源：安德鲁易勒雅斯/麻省理工学院)

他们假设健壮和非健壮特征都存在。并采用与生成对抗网络相似的方法，对原始训练数据集(D)中的图片进行再处理，生成两个新的数据集：洗去非鲁棒特征且只有鲁棒特征的：D R和人眼误标注但符合其标注的非鲁棒特征的D NR。

图|左：原始训练数据D，只有鲁棒特征的D_R，失去特征一致性的D_NR。右图：三个数据集在不同训练模式下的准确性。(来源：安德鲁易勒雅斯/麻省理工学院)

研究人员指出，D_R包含的信息比原始数据D少，因为它只具有稳健的特征。实验表明，基于D_R和标准训练方法的识别模型也能抵抗对抗样本。这证明了像素级的修改(人眼无法分辨)不会影响图片中的鲁棒特征。

另一方面，研究人员在像素级修改训练数据(D)，并不断优化，使标准模型能够尽可能多地识别图片。

别成另一个类型。比如，稳健特征（人眼观察）是“狗”，而非稳健特征和标注（模型认为）则是“猫”。

研究人员将经过修改的图片集计作 D_NR，并找来一张训练数据之外的自然中“猫”图片进行测试。识别器成功把这张外来的图片也识别成了“猫”。说明这ssdxh的“猫”，和 D_NR 中的“猫”具有可以被模型识别的相同属性，而这个属性就是我们看不到的“非稳健特征”。

图|图中右侧“狗”的图像，和下方“猫”的图像，都被识别成了“猫”，他们有相同的非稳健特征。（来源：Andrew Ilyas/MIT）

通过实验，Andrew Ilyas 和他的团队确定：稳健特征和非稳健特征都存在于图片之中，并且一般的识别模型只会通过非稳健特征进行图像识别，而非稳健特征不能被人眼察觉。所以，对抗样本本身并不是图像识别的漏洞，只是另外一种无法被我们看到的特征而已。

“这并不是模型本身有什么问题，只是那些真正决定识别结果的东西并不能被看到。”该论文第二作者、麻省理工学院在读博士生 Shibane Santurkar 补充道：“如果我们只知道算法的决策取决于一些我们看不见的东西，那我们又怎么能理所当然地以为它做的决定就是正确的？”如果一个人需要在法庭上证明监控视频中的人不是自己就会非常麻烦，因为我们不知道监控识别的错误结果是怎么得来的。

科学家始终需要面对一个抉择，模型究竟是应该做出“准确”的决定，还是应该做出“人类”的决定？如果模型只是识别稳健特征，它或许就不会那么准确。然而如果决策机制偏向不能被看到的非稳健特征，那么对抗样本就会成为潜在的漏洞。如今，图像识别技术已广泛应用在日常生活中，我们需要在这两个选择之间找到某种平衡。