对抗性扰动

玻尔百科

定义

对抗性扰动指的是为了导致人工智能模型发生灾难性故障而精心设计的、肉眼不可察觉的输入，这些输入揭示了模型在数学上的病态特性。攻击者通常利用快速梯度符号法（FGSM）等手段，通过模型的损失函数梯度来寻找最具误导性的输入方向。除了作为一种安全漏洞，对抗性扰动还被用作科学工具，通过 Lipschitz 常数等指标来量化模型的敏感性，并用于探测 AI 的推理逻辑和调试模型。

关键要点

对抗性扰动是难以察觉、经精心设计的输入，旨在引发人工智能模型的灾难性失效，从而揭示其数学上的不适定性。
诸如快速梯度符号法 (FGSM) 之类的攻击方法，利用模型自身的损失函数梯度来高效地找到最大欺骗方向。
模型对扰动的脆弱性可以通过其利普希茨常数来量化，该常数将其权重的量级与对输入变化的敏感度联系起来。
对抗性训练通过将过程视为一场极小化极大博弈来防御模型，模型在该博弈中学习最小化其在由对抗方生成的最差情况样本上的损失。
对抗性攻击不仅是一种漏洞，更可作为科学工具，用于探查人工智能的推理过程、测试公平性，以及在医学和物理学等领域调试模型。

引言

尽管现代人工智能系统在许多任务上取得了超人的表现，但它们却隐藏着一种深刻而惊人的脆弱性。这些强大的模型可能会被对抗性扰动——对其输入的微小、通常人类无法察觉的改动——灾难性地误导，导致它们做出大错特错的预测。这一现象暴露了统计模式识别与真正鲁棒的理解之间的关键差距，对人工智能在高风险应用中的可靠性提出了挑战。本文将深入探讨这种脆弱性的核心。第一章“原理与机制”将揭示这些攻击的数学基础，解释它们如何利用高维空间的几何特性以及用于训练模型本身的梯度。随后的“应用与跨学科联系”一章将重新定义这些攻击，不仅仅将其视为缺陷，而是作为强大的科学工具，用于在从医学到基础物理学的各个领域探查、调试和验证人工智能模型。通过理解这些富有启发性的失败，我们可以开启构建更稳定、公平且可信赖的人工智能的征程。

原理与机制

脆弱的现实：不适定性问题

想象一下你正在看一张猫的照片。你的感知非常稳定。你可以添加一些随机的噪点，改变光照，或者从稍有不同的角度观看，它仍然毫无疑问是一只猫。我们构建人工智能、我们的神经网络时，期望它们能学会以类似的鲁棒性看待世界。在很长一段时间里，我们都以为它们做到了。它们在图像分类任务上取得了超人的表现，我们便假设其内部的“感知”和我们自己的一样连续和稳定。

然后，惊奇出现了。事实证明，你可以拿同一张猫的图像，添加一层微弱到人眼完全看不见的“噪点”，世界上最先进的人工智能可能会自信地宣称它是一只鸵鸟、一个烤面包机或一把扶手椅。这就是对抗性扰动现象。这并非随机噪声；它是一种精心设计、旨在导致机器判断出现灾难性失效的微小改变。

这一发现揭示了关于机器学习本质的一个深刻且令人不安的真相。问题并非一个简单的“bug”，而是我们的网络所学习的函数的一个基本数学属性。著名的法国数学家 Jacques Hadamard 曾将一个“适定”问题定义为：其解存在、唯一，并且——至关重要的是——连续地依赖于初始数据。输入的一个小变化应该只导致输出的一个小变化。对抗性样本表明，现代分类器可能极其不适定的。从图像 $x$ 到离散标签 $y$ 的映射可能是极不连续的。在一个方向上迈出无穷小的一步，就可能导致模型的决策跨越一道鸿沟。这就是中心原理：对抗性脆弱性是数学不适定性的一种表现。

梯度的秘密：最大欺骗路径

这种神奇、无形的扰动是如何制作出来的？秘密不在于魔法，而在于几何学——模型决策过程的高维几何学。

想象模型的损失——其“困惑”或“错误”——如同一个在所有可能图像空间上延伸的、广阔起伏的地形。对于一张给定的猫的图像，我们处于一个低谷中的点，这里“猫”标签的损失是最小的。要创建一个对抗性样本，我们的目标是迈出尽可能小的一步，以最快的速度登上困惑的山丘。在微积分中，任何曲面上的最陡峭上升方向由梯度给出。

对抗性攻击的关键洞见在于，利用梯度不是为了训练模型的权重，而是为了修改模型的输入。损失函数相对于输入图像的梯度 $\nabla_x \mathcal{L}$ ，指向了在像素空间中能最有效地增加模型错误的方向。

让我们把这一点具体化。一阶近似告诉我们，当我们对模型的输出函数 $f(x)$ 添加一个微小扰动 $\delta$ 时，其变化量大约为 $\Delta f \approx (\nabla_x f(x))^\top \delta$ 。为了在固定的扰动大小 $\|\delta\|$ 下最大化这个变化，柯西-施瓦茨不等式告诉我们，必须将扰动 $\delta$ 与梯度向量 $\nabla_x f(x)$ 对齐。这与随机噪声截然相反。虽然一个大小为 $\varepsilon$ 的随机扰动产生的预期变化很小，但一个同样大小的定向对抗性扰动产生的却是最大可能的变化，大约为 $\varepsilon \|\nabla_x f(x)\|_2$ 。

这就引出了最简单也最著名的攻击方法之一，即快速梯度符号法 (FGSM)。为了保持在每个像素值变化不超过 $\varepsilon$ 的微小“不可见性预算”内，最优的攻击方向就是梯度各分量的符号：

\delta = \varepsilon \cdot \mathrm{sign}(\nabla_x \mathcal{L})

这个简单的公式是许多对抗性攻击的引擎。它是一种寻找最大欺骗路径的配方，利用模型自身的梯度来攻击它自己。

量化脆弱性：伸缩性的度量

为什么有些模型比其他模型更容易受到攻击？答案再次蕴藏在一个优美的数学概念中：利普希茨常数。把一个函数想象成一张橡胶薄膜。利普希茨常数小的函数就像一张坚硬、不易拉伸的薄膜；拉动一个点不会让其他点移动很远。而利普希茨常数大的函数则像一张可以无限拉伸的薄膜；在一个地方轻轻一拉，就可能在别处引起巨大的变形。

神经网络是一个函数，其利普希茨常数 $L$ 限定了对于给定的输入变化，其输出能变化多少：

\|f(x) - f(x')\|_2 \le L \|x - x'\|_2

一个具有大利普希茨常数 $L$ 的模型对输入扰动高度敏感——它是“可伸缩的”，因此是脆弱的。对于一个由多层组成的典型神经网络，我们可以通过将其各个层的利普希茨常数相乘来找到其总利普希茨常数的一个界。对于一个仿射层 $x \mapsto Wx+b$ ，该常数是权重矩阵的谱范数 $\|W\|_2$ 。这提供了一个直接、量化的联系，将网络权重的量级与其内在脆弱性联系起来。

我们现在可以统一这些思想。一个分类器在点 $x_0$ 处的决策对大小为 $\varepsilon$ 的扰动是稳定的，当且仅当其对正确类别的“判决余量”足够大，能够承受由扰动引起的最大可能“拉伸”。这导出了一个简单而优雅的局部鲁棒性条件：如果模型的分类余量 $m(x_0)$ 大于 $2L\varepsilon$ ，则模型是安全的。为了提高鲁棒性——即使问题更适定——我们必须要么增加模型的决策余量，要么更根本地，构建具有更小利普希茨常数的模型。

对抗博弈：一场极小化极大的对决

如果我们能通过向模型展示其弱点来攻击它，那么或许我们也能用同样的方式来防御它。这就是对抗性训练的核心思想。我们不再仅仅用干净的、真实世界的数据来训练模型，而是训练它去抵御攻击。

这个过程在训练的每一步都像一场双人博弈。首先，对抗方（内部玩家）获取当前模型和当前训练输入 $x$ ，并解决一个小型优化问题：在允许的预算 $\varepsilon$ 内找到使模型损失最大化的扰动 $\delta$ 。然后，分类器（外部玩家）接收这个新创建的最差情况样本 $x_{adv} = x + \delta$ ，并更新其参数 $\theta$ 以最小化其在该样本上的损失。

这场优雅的对决被形式化为一个极小化极大优化问题，这是对抗鲁棒性领域的核心目标：

\min_{\theta} \mathbb{E}_{(x,y) \sim P_{\text{data}}} \left[ \max_{\|\delta\| \le \epsilon} \ell(f_{\theta}(x+\delta), y) \right]

这是一场“最小化最差情况损失”的博弈。对抗方寻找局部误差地形的峰顶，然后训练者将该峰顶削平。在一些异常清晰的情况下，比如逻辑回归，这个复杂的博弈可以被解析求解。内部最大化产生一个新的、闭式的“鲁棒损失”函数，然后可以直接对其进行最小化。这场博弈中看似混乱的来回攻防，最终坍缩成一个单一、明确的优化目标。这揭示了在攻击与防御之间看似杂乱的军备竞赛背后深刻的统一性。同样重要的是，要区分这种测试时对抗博弈与像数据投毒这样的训练时攻击，后者代表了一种根本不同的干预，它破坏的是学习过程本身，而不仅仅是单个预测。

更深的谜团与前进之路

梯度、利普希茨常数和极小化极大博弈的原理为我们理解对抗性扰动提供了一个强大的框架。然而，它们也开启了通往更深、更迷人谜团的大门。

可迁移性之谜：最令人震惊的发现之一是，对抗性样本具有迁移性。一个为欺骗模型A（具有其独特的架构和权重）而制作的扰动，通常也能欺骗模型B，即使模型B是完全独立训练的。这表明对抗性方向并不仅仅是特定模型损失地貌中的随机小故障。它们可能是数据分布本身的内在特征。模型A地貌上的“上坡”方向似乎与模型B上的“上坡”方向相关，这指向了一个共享的、根本性的问题几何结构。这一特性也为我们提供了一个强大的诊断工具。一些所谓的“防御”方法似乎只是通过破坏攻击者基于梯度的工具来起作用，这种现象被称为梯度掩蔽。一个真正鲁棒的模型应该能抵抗所有攻击，但一个被掩蔽的模型仍然容易受到在另一个未被掩蔽的模型上生成的可迁移攻击的攻击。

对抗性空间的本质：对抗性样本是存在于世界的“自然”部分，还是生活在真实数据点之间空旷、低概率的空白区域中的无意义输入？研究表明，对抗性方向——即分类器损失的梯度——通常指向远离高数据密度区域的方向。这描绘了一幅画面：分类器学会在黑暗中，在它们从未见过数据的地方，划出清晰而脆弱的决策边界。对抗方只是将输入轻轻推入这些未被照亮、充满危险的区域之一。

因此，对抗性扰动的研究不仅仅是调试一项技术，它是一次深入我们模型所居住的高维空间的科学考察。它迫使我们直面数据的几何性质、我们所学习函数的不适定性，以及统计相关性与鲁棒理解之间的深刻差异。构建真正智能机器的征程不仅需要我们庆祝它们的成功，更需要我们深刻理解它们那些最美丽、最富有启发性的失败。

应用与跨学科联系

我们已经探索了对抗性扰动的机制，学会了如何制造这些微小、恶意的低语，它们能让强大的人工智能误入歧途。人们很容易将此视为一个缺陷、一个需要修复的漏洞、一场需要赢得的战斗。但如果止步于此，就完全错失了要点。对物理学家来说，一个出人意料的实验结果不是失败，而是一个机会——一个来自大自然的线索，表明我们的理论尚不完备。本着同样的精神，对抗性扰动不仅是破坏模型的工具，更是一种理解它们的精密仪器。它是一个镜头，让我们能够探查人工智能“思维过程”的本质，揭示其隐藏的假设、逻辑捷径及其知识的边界。在本章中，我们将探讨这种强大的镜头如何在各学科中被使用，将我们与人工智能的关系从盲目信任转变为批判性的科学探究。

探查人工智能的架构核心

从根本上说，深度神经网络的行为是其架构——其层与连接的特定排列——的结果。对抗性攻击提供了一种独特的方式来对这些架构设计进行压力测试，揭示了现代人工智能构建模块中的根本性张力和脆弱性。

想象一个低语沿着一长队人传播。开头的一个小错误到最后可能会被极大地扭曲。深度网络中也可能发生类似现象。在深度残差网络 (ResNet) 中，一个模块的输出是其输入与一个复杂的非线性变换之和，模型化为 $y(x) = x + F(x)$ 。对输入 $x$ 的一个扰动 $\delta$ 导致的输出扰动，其界限为 $(1 + K_F)\|\delta\|$ ，其中 $K_F$ 是变换 $F$ 的利普希茨常数。这个常数与层中权重矩阵的量级（特别是谱范数）有关。这揭示了一个深刻的权衡：为了使网络更具表达力以学习复杂模式，我们可能需要更大的权重，但这反过来又增加了 $K_F$ ，使网络成为对抗性噪声更强大的放大器。堆叠许多这样的模块可能导致这种敏感性随深度呈指数级增长，使得非常深的网络异常脆弱，除非采取措施约束其权重范数。

这种脆弱性并不仅限于图像分类器。考虑作为大型语言模型引擎的 Transformer 架构。一个关键组件是“注意力”机制，它允许模型权衡输入序列不同部分的重要性。对于给定的查询 $q$ ，它会根据一组键 $\{k_i\}$ 计算得分来决定关注哪里。人们可能认为这种机制是鲁棒的，但它同样可以被操纵。一个添加到查询中的微小、精心设计的对抗性扰动 $\delta$ 就足以将排名第一的注意力从一个键翻转到另一个键，从而完全改变模型的焦点，并因此改变其对数据的解释。实现这种翻转所需扰动的量级与注意力分数的初始余量直接相关——模型最初越自信，欺骗它所需的扰动就越大。这显示了对抗方如何利用注意力机制本身的几何特性来重定向模型的“凝视”。

有趣的是，一些架构拥有能够与这些扰动相互作用的内在特性。在像门控循环单元 (GRU) 这样的循环神经网络中，内部的“更新”门和“重置”门控制着信息随时间的流动。当面对受扰动的输入时，这些门可能会改变它们的状态，有时会以一种自然减轻攻击影响的方式改变信息流，起到一种隐式防御的作用。分析这些内部机制如何响应攻击，是理解和设计更鲁棒的序列模型的关键部分。

作为科学仪器的对抗性扰动

除了揭示工程上的权衡，对抗性扰动正演变为一种用于科学发现和验证的强大工具。通过根据领域知识约束攻击，我们可以提出关于模型真正学到了什么的高度具体的问题。

也许最引人注目的例子来自高风险的计算病理学领域。想象一个被训练用来从组织学图像中诊断癌症的人工智能。病理学家可以标记一张切片，标出具有诊断相关性的区域——细胞核、腺体结构——以及无关的“背景”。然后，我们可以发起一次带有关键约束的对抗性攻击：扰动 $\delta$ 只被允许修改人类专家认为无关的背景区域中的像素。如果对这些背景像素的微小、难以察觉的改变能够将模型的诊断从“良性”翻转为“恶性”，这就提供了直接、不可否认的证据，表明该模型的行为不像一位训练有素的病理学家。它正依赖于脆弱、不鲁棒且与诊断无关的“捷径”特征来做出其生死攸关的决定。这种使用受约束的对抗性样本作为一种强大的调试器，使我们能够对人工智能的推理过程进行有针对性的交叉诘问。

同样的对抗性交叉诘问原则从医院延伸到 CERN 的高能物理实验室。物理学家使用神经网络来分类碰撞中产生的粒子“射流”。物理学的一个核心原则是，有效的可观测量必须是“红外与共线 (IRC) 安全的”，这意味着它们对某些低能和方向性效应不敏感。为了确保他们的人工智能模型学习的是真实的物理学，而不仅仅是它们所训练的模拟器的产物，物理学家可以分析其鲁棒性。通过理解最差情况的扰动如何影响模型的输出——一个受网络利普希茨常数限制的变化——他们可以量化模型的稳定性。一个对微小输入变化过分脆弱的模型，可能并未学习到其设计初衷想要捕捉的鲁棒、潜在的物理原理。

扩展前沿：公平、不确定性与创造力

对抗性攻击的概念阐明了现代人工智能中一些最深刻和最紧迫的挑战，将讨论推向了公平、自我意识甚至创造力的领域。

人工智能的公平性是一个关键目标，通常通过确保模型的预测与种族或性别等敏感属性没有统计相关性来衡量。然而，基于互信息的分析揭示，这种公平性可能具有欺骗性的脆弱。对抗方可以设计一种在一个情境中是幻影，在另一个情境中却是怪物的扰动。利用精心设计的映射，可以改变模型的内部表示 $Z$ ，使其在完美保持预测效用——例如，保持表示与目标变量 $Y$ 之间的互信息 $I(Z;Y)$ 恒定——的同时，显著增加其与敏感属性 $S$ 的互信息 $I(Z;S)$ 。模型的准确率保持不变，但其公平性已被悄然颠覆。因此，对抗性思维提供了一种关键的压力测试，迫使我们追问模型的公平性是真实的，还是仅仅是训练数据的肤浅属性。

此外，对抗性扰动可以用来描绘模型自身知识的边界。在贝叶斯框架中，我们可以区分两种类型的不确定性。偶然不确定性是世界固有的随机性——就像骰子的滚动，即使是完美的模型也无法预测。另一方面，认知不确定性是模型自身因数据有限和知识不完善而产生的不确定性。可以设计一种对抗性攻击，其目的不是翻转预测，而是找到最大限度地混淆模型、将其认知不确定性推向顶峰的输入。攻击主动寻找模型理解中的盲点。通过应用旨在最大化认知方差的扰动，我们可以识别出模型对其自身知识最不自信的具体输入，实际上是在问它：“告诉我你最不了解的是什么”。

这些方法的影响范围现在已超越分类，进入了创造领域。像驱动文本到图像系统的扩散模型这样的生成模型，通过迭代地将一个随机场“去噪”成一幅连贯的画面来工作。在这里，对抗性攻击呈现出一种新形式。攻击的目的不再是欺骗模型将猫看成狗，而是要毒化创造过程本身。通过在逆向扩散过程的中间步骤扰动噪声输入 $\mathbf{x}_t$ ，对抗方可以操纵模型的噪声预测 $\boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t)$ 。这种定向的破坏会引导生成路径偏离航道，导致模型产生有缺陷或非预期的图像。这在对抗性研究中开辟了一个新战线，专注于生成式和创造性人工智能的鲁棒性。

正如我们所见，“扰动”的概念出人意料地深刻。它可以是针对单个测试图像的改变，旨在欺骗一个预测，也可以是对训练数据本身的微妙重新加权，这会扭曲模型学到的参数并影响所有后续的预测。两者都挑战我们模型的稳定性，但方式截然不同。因此，追求对抗性鲁棒性不是一场单一的战斗，而是一场宏大的战役，旨在构建不仅准确，而且稳定、公平、具有自我意识，并与它们旨在服务的世界原则相一致的人工智能。对抗性样本，曾一度被视为纯粹的好奇之物，现已成为我们在这段旅程中最深刻的指引。