可解释人工智能

玻尔百科

定义

可解释人工智能是人工智能领域的一个分支，旨在创建透明的“玻璃盒”模型，或利用事后分析技术解释复杂的“黑盒”系统。该学科致力于在解释的保真度与人类可理解性之间取得平衡，以确保在高风险决策场景下的伦理规范。其最终目标是实现因果推理，使用户能够验证人工智能系统是否基于正确的理由得出结论。

核心要点

可解释人工智能遵循两条路径：创建内在透明的“玻璃箱”模型，或使用事后技术来解释不透明的“黑箱”系统。
事后解释必须在保真度（对模型的忠实度）和可理解性之间取得平衡，因为在事关重大的决策中，不忠实的解释在伦理上是有问题的。
许多解释方法（如显著性图）显示的是相关性而非因果关系，如果模型从数据中学到了非因果的捷径，就会产生误解的风险。
可解释性的最终目标是实现因果推理，使我们能够验证人工智能是否基于正确的原因得出了正确的答案。

引言

随着人工智能日益融入医学和科学研究等关键领域，其决策能力也日益增强。然而，最强大的人工智能模型通常是“黑箱”，其复杂的内部运作对人类用户来说是不透明的。这种透明度的缺乏在信任、安全和问责方面造成了巨大鸿沟，使得理解、调试或验证模型的推理过程变得困难。可解释人工智能（XAI）领域通过发展原则和方法使人工智能系统能为人类所理解，从而直接应对这一挑战。

本文将带您全面深入地了解可解释人工智能的世界。在第一部分 原则与机制 中，我们将探讨两种基本的解释哲学：构建设计上透明的模型与使用事后技术解释复杂的黑箱。我们将深入探讨由此产生的关键困境，例如解释的准确性与其简单性之间的权衡。随后，应用与跨学科联系 部分将展示这些原则在现实世界中的应用。我们将看到，可解释性如何成为科学发现的新型显微镜、复杂工程系统的诊断工具，以及在人机交互前沿进行合乎伦理的高风险决策中不可或缺的辅助手段。

原则与机制

想象一下，你有两座时钟。一座是带有玻璃外壳的老式落地钟，其齿轮和钟摆的摆动清晰可见。另一座是时尚的现代数字时钟，一个完美的黑色整体，以无懈可击的精度报时。如果落地钟走慢了，你可以 peering inside（窥视其内部），观察其齿轮和弹簧的相互作用，或许能发现某个齿轮有点卡顿。你之所以能理解它，是因为你能看到它的工作原理。如果数字时钟出错了，你能做什么？你无法看到内部。你最多只能从外部探测它——比如，通过长时间将其显示与另一座时钟进行比较——来描述其错误特征。

这两座时钟的故事，本质上就是可解释人工智能的故事。当我们构建人工智能系统，特别是那些在科学和医学领域做出关键决策的系统时，我们面临着这个根本性的选择。我们是构建一个内部运作按设计透明的“玻璃钟”？还是构建一个功能强大但推理过程不透明的复杂“黑箱”，然后试图通过从外部进行戳刺和探测来理解它？这两种哲学勾勒出了我们追求理解的主要领域：内在可解释性 和 事后可解释性。

两条路径：玻璃箱与黑箱

内在可解释性 的路径就是玻璃钟的方式。这里的目标是构建其结构本身就是一种解释的模型。这些模型使用我们的语言——逻辑的语言、物理的语言、生物学的语言。考虑这样一个任务：预测一个短的蛋白质片段（肽）是否会引发免疫反应。生物学家知道这取决于两个关键因素：该肽是否具有合适的“锚定”残基以适应特定的细胞蛋白（HLA 分子），以及它是否具有合适的化学性质（如疏水性）以稳定结合。

我们可以构建一个直接反映这一知识的人工智能模型。这样的模型可能是一个简单的 规则列表，这只是一个 if-then-else 清单的别致名称。第一条规则可能会说：if 该肽由 A2 HLA 超型呈现，and 它具有 A2 正确的锚定基序，and 其平均疏水性 $\bar{H}(p)$ 高于某个阈值 $\tau_{A2}$ ，then 预测它具有免疫原性。如果不满足，则检查下一条针对其他 HLA 类型的规则，以此类推。在这种情况下，模型的逻辑一览无余。模型 本身就是 解释。我们可以检查其规则，辩论疏水性阈值是否合理，并将其结构直接与基础免疫学联系起来。这是一个“白箱”或“玻璃箱”模型。它的透明性不仅让我们能够理解其预测，还能根据已建立的科学原则来验证其推理过程。

但另一条路径呢？通常，最强大的预测模型，尤其是在医学影像等领域，是深度神经网络——由数百万个相互连接的“神经元”和参数构成的巨大而复杂的网络。它们是终极的黑箱。它们可以从 CT 扫描和病理切片中以惊人的准确性预测患者的预后，但它们本身不提供任何理由。对于这些模型，我们求助于 事后可解释性。模型已经构建和训练完毕；我们现在的任务是成为侦探，使用一套工具来审问它，并引出对其行为的解释。这些解释不是模型本身，而是我们讲述的关于模型的另一个故事。而这其中蕴含着一个深刻的困境。

解释者的困境：保真度与简单性

当我们讲述一个关于复杂事物的故事时，我们不可避免地会进行简化。在这种简化中，我们冒着犯错的风险。事后解释陷入了两种相互竞争的美德之间的持续拉锯战：保真度 和 可理解性。保真度（或忠实度）衡量解释在多大程度上准确地反映了模型的实际内部逻辑。可理解性则简单地指解释对于人类来说有多容易理解。

想象一下，一家医院使用一个复杂的深度学习模型来预测患者化疗后出现严重并发症的风险。为了让患者能够基于这个人工智能的建议对治疗做出知情同意，他们需要理解其推理过程。我们如何解释人工智能的预测呢？

一个选择是提供一个简单的经验法则：“模型的风险很高，因为年龄越大风险越高。”这非常容易理解，但这是真的吗？模型可能正在以复杂的方式组合使用数千个细微特征，而年龄可能只是其中很小的一部分。如果这样的解释不能准确代表模型的计算过程，那么它的保真度就很低。实际上，这是一个“看似合理的谎言”。从伦理上讲，这是行不通的。提供误导性的解释会破坏知情同意的基础，因为知情同意要求所披露的信息必须准确且无误导性。

另一个选择是使用更复杂的工具，如 SHAP（Shapley Additive exPlanations），它为特定预测中的每个输入特征分配一个精确的贡献值。这种解释具有高得多的保真度。然而，对于一个患者来说，一张显示二十个不同临床变量及其神秘 SHAP 值的图表可能可理解性非常低。

这个困境是 XAI 实践的核心。在医学等高风险领域，保真度至关重要。一个对模型不忠实的简单解释比没有解释更糟糕，因为它会制造一种虚假的理解感，并可能掩盖模型的真实行为，包括其潜在的缺陷。解释的首要职责是忠实于它所解释的事物。

解释方法大观（及其危险）

探测黑箱的侦探工具箱里装满了各种有趣的工具。但就像任何工具一样，它们可能被滥用，其输出也可能被误读。

也许最直观的解释类型是 显著性图。对于一个分析图像的模型，显著性图是一张“热图”，它通过高亮显示对输出影响最大的像素，据称可以显示模型在“看”哪里。这似乎是窥探机器心智的一扇绝佳窗口。但这扇窗可能会骗人。显著性图显示的是 相关性，而非 因果关系。一个被训练用来从胸部 X 光片中检测肺炎的模型，可能会学到来自医院便携式扫描仪（通常用于病情更重的患者）的图像与肺炎相关。于是，显著性图可能会忠实地高亮显示图像角落里扫描仪的文本标签。这个解释是忠实的——它正确地报告了模型正在使用文本标签——但模型本身学到了一个虚假的、非医学的、非因果的捷径。这张图显示了模型在使用什么，而不是生物学上真实的情况。

为了提供更鲁棒的归因，已经开发了更复杂的基于梯度的方法，如 积分梯度（Integrated Gradients）。与纯粹局部的“普通”梯度不同，积分梯度沿着从一个中性基线（如黑色图像）到实际输入的路径计算归因。这种方法具有令人满意的 完整性 属性：所有像素的归因总和等于模型的总输出分数，确保了预测的所有部分都被考虑在内。然而，即使是这些更有原则的方法，其根本目的仍然是归因关联，而非因果。

另一个诱人的幻觉来自著名的 Transformer 模型，这些模型为现代人工智能提供了强大的动力。它们的“注意力机制”计算出的权重似乎显示了模型对输入的不同单词或部分“关注”了多少。很自然地，我们会认为这些 注意力权重 就是一种解释。但研究人员已经证明并非如此。Transformer 的架构包含许多其他信息流动的路径，例如完全绕过注意力机制的“残差连接”。注意力权重只是计算的一部分，而不是其总结。将注意力误认为解释是一个典型的例子，即找到了一个看似合理但不忠实的故事。

终极问题：“如果……会怎样？”

那么，如果简单的解释可能会误导人，一个真正深刻而忠实的解释应该是什么样的呢？也许它不是一个陈述，而是一个问题的答案。我们能问的最强大的问题是：“如果……会怎样？”

“如果患者的乳酸水平更低会怎样？” “如果我们使用这种药物而不是那种药物会怎样？”

这就是 反事实解释 的领域。反事实解释不仅仅描述模型做了什么；它告诉你模型在不同情况下会怎么做。要回答这样的问题，需要的不仅仅是一个预测模型；它需要一个 因果模型——一个表示支配该系统的因果关系的模型。对于一个特定的个体，反事实查询计算的是，如果我们进行一个假设性的干预（比如在保持所有其他背景条件不变的情况下改变单个输入特征），结果会怎样。

这将我们引向了可解释人工智能的最终目的。它不仅仅是为了信任一个模型的答案，更是为了调试它的推理过程。

再考虑之前的临床场景：一个用于败血症风险的模型被部署，其解释一致地将“入院后时间”（ $T$ ）作为最重要的预测因子。临床医生对此理所当然地感到怀疑；他们知道败血症的生物学驱动因素是血清乳酸（ $L$ ）之类的东西。这到底是怎么回事？模型很可能学到了一个聪明但危险的捷径。在医院的数据中，病情较重的患者可能会延迟其检查和治疗，因此入院时间长与更差的预后相关。模型抓住了这个简单的相关性，而忽略了真正的生物学原因。

那个高亮显示 $T$ 的解释 对模型是忠实的，但模型本身 对现实是不忠实的。我们如何证明这一点？用因果思维。想象一下，医院改变了其流程，开始快速处理所有潜在的败血症患者，打破了入院时间与病情严重程度之间的旧有关联。一个学到了真正生物学原因（ $L \rightarrow \text{sepsis}$ ）的鲁棒模型将继续表现良好。但我们的捷径模型，即学到了（ $T \rightarrow \text{sepsis}$ ）的模型，将会突然惨败。它的性能在不同环境下并 不是不变的。

这就是可解释人工智能的深邃之美与力量所在。它为我们提供了进行这类“如果……会怎样”实验和不变性测试的工具。它让我们超越了简单地问“人工智能得到正确答案了吗？”，而去问“人工智能是基于正确的原因得到正确答案的吗？”。这是构建一个聪明的模式匹配器与构建一个体现真正科学理解的系统之间的区别——一个我们不仅可以使用，还可以从中学习、批判并最终信任的系统。

应用与跨学科联系

在窥探了使人工智能变得可理解的原则之后，我们现在可以踏上一段旅程，去看看这些想法将我们带向何方。当一个黑箱变成一个玻璃箱时，它就不再仅仅是一个神谕，而转变为一个工具——一种新型的显微镜、一个发现的伙伴、一个做出关键决策的复杂辅助工具。可解释人工智能的应用并不局限于计算机科学的一个狭窄子领域；它们与科学、工程和人类社会本身一样广阔和深刻。我们发现，对解释的追求是一条统一的线索，将不同领域编织在一起，共同追求的不仅仅是预测，更是理解。

揭开自然之谜：XAI在科学发现中的应用

几个世纪以来，科学方法一直是理论与实验之间的对话。科学家提出假设、进行检验，然后加以完善。可解释人工智能为这场对话提供了一个强有力的声音。通过在复杂数据集上训练模型，然后问它 为什么 做出这些预测，我们可以产生新的假设，验证我们现有的理论，并构建出能说科学语言的模型。

例如，想象一下免疫系统中那场复杂的舞蹈，T细胞受体（TCR）必须识别特定的病毒片段（即表位），才能发起防御。人工智能模型可以学会高精度地预测这种结合，但一个可解释的模型可以告诉我们 为什么。使用像Shapley值这样的博弈论工具，我们可以为每个生物学因素——TCR结合区（CDR3）的结构、表位的化学性质，以及宿主自身分子（HLA）提供的背景——分配一个精确的贡献。这样的分析可能会揭示，CDR3基序和表位谱不仅仅是相加的关系；它们表现出强烈的协同作用，其联合效应远大于各部分之和。这种对分子协同作用的定量洞察，曾经是艰苦实验室实验的专属领域，现在可以直接从数据中生成，为生物化学家指明最有前途的研究方向。

然而，我们如何能确定模型的解释在科学上是有意义的呢？一个解释就是一个假设，而假设必须被检验。在基因组学和蛋白质组学等拥有数十年精选知识的领域，我们可以进行一次关键的合理性检查。假设我们训练一个模型，根据蛋白质的氨基酸序列来预测其功能。然后，一个解释方法可以高亮显示序列中对预测最重要的残基。接着我们可以问：这些“重要”的残基是否与生物学家已经识别出的功能位点——比如酶的活性位点——重叠？通过计算精确率、召回率和Jaccard指数等重叠度量，我们可以定量地衡量模型的推理与既定生物学知识之间的一致性。当一致性强时，我们对模型学到了真正的生物学原理更有信心。当一致性弱时，或者当模型高亮显示全新的残基时，它为探索未被发现的机制提供了诱人的线索。

这引向了一个更深刻的综合：与其事后解释一个黑箱，我们可以构建设计上透明的模型。这就是“灰箱”或混合建模的世界。我们可以构建一个模型，其部分结构是基于已知物理或化学的经典力学方程，而另一部分则是一个灵活的、数据驱动的组件，如神经网络，其任务是学习我们尚未理解的残余动态。

考虑模拟血液中细胞因子的浓度。我们从生物化学中得知，其水平由生产（受感染刺激）和自然清除之间的平衡所决定。我们可以将其写成一个简单的微分方程 $f_{\text{mech}}$ ，其中包含生产率和衰变率的参数。完整的模型则是 $\dot{z} = f_{\text{mech}} + g_{\text{NN}}$ ，其中 $g_{\text{NN}}$ 是一个学习我们简单模型未能捕捉到的任何复杂性的神经网络。要让这种方法奏效，关键在于强制实现关注点分离：力学模型的参数必须在结构上独立于神经网络。这确保了力学参数保留其清晰的物理意义。对模型的解释现在“锚定”于生物化学；我们可以通过改变“生产率”参数来探测模型，并且知道我们正在操控一个特定的、可解释的生物学途径。同样的原则也让我们能够构建电池设计模型，这些模型被强制遵守扩散定律——例如，通过约束模型，使其总是预测更大的颗粒半径（这会减慢离子传输）会在高放电率下导致更低的容量。该模型不仅准确，而且在物理上是合理的，其预测可以通过直接诉诸它被教导遵守的自然法则来解释。

构筑更智能的世界：XAI在复杂系统中的应用

从科学发现，我们转向工程世界，在这里，人工智能越来越多地被用于监控、控制和诊断复杂的物理系统。在这里，可解释性不仅仅是出于求知的好奇心；它是安全、可靠和信任的先决条件。

现代机器人学和控制领域最大的挑战之一是“模拟到现实（sim-to-real）”的差距。在完美的数字模拟中训练的人工智能策略，部署到混乱、不可预测的物理世界中的真实机器人上时，常常会失败。原因是领域差距：模拟参数与现实参数之间的细微不匹配——也许真实机器人的关节摩擦力更大，或者其摄像头传感器的颜色有轻微偏差。XAI提供了一个强大的诊断工具包来弥合这一差距。当现实世界的性能下降时，我们可以比较模拟中的特征归因和现实中的特征归因。机器人是否突然开始关注一组不同的视觉线索？它是否忽略了它曾经依赖的传感器？这告诉我们模型的策略中什么发生了变化。然后，我们可以将模拟器用作一个反事实引擎：通过调整其物理参数——增加摩擦力、添加传感器噪声——我们可以尝试复现失败模式。当我们找到能够重现真实世界归因模式的参数变化时，我们就找到了失败的根本原因。因此，XAI成为调试我们与物理现实互动的重要工具。

这种利用解释来理解系统的思想，可以扩展到任何具有多个相互作用尺度的领域。在一个预测病毒性肺炎严重程度的模型中，最底层的输入可能是不同免疫细胞群中细胞因子、干扰素和病毒载量的测量值。像积分梯度这样的归因方法可以将最终的预测——患者的需氧量——一直追溯到这些单个特征。但更强大的是，它允许我们在更高的抽象层次上提问。通过将属于特定细胞类型的所有特征的归因相加，我们可以计算出，比如说，“肺泡巨噬细胞”或“中性粒细胞”对最终预测的总体贡献。这种生成多尺度解释的能力对于理解那些整体大于部分之和的复杂系统至关重要。

有趣的是，归因的核心思想在远离现代人工智能的领域有着深厚的根源。几十年来，气候科学家和气象学家在一种称为数据同化的实践中面临着类似的问题。他们构建庞大的大气和海洋计算模型，然后“同化”来自气象站、卫星和海洋浮标的真实世界观测数据，以校正模型的状态并改进其预报。一个核心问题一直是：某一次特定的观测——比如，太平洋上空一个气象气球的单次温度读数——对三天后飓风路径的最终预报有多大影响？他们为回答这个问题而开发的数学技术，被称为“观测影响”计算，是一种敏感性分析，其概念上与许多现代XAI归因方法相同。它们计算最终预报指标相对于每个初始观测的梯度。这揭示了一种思想上的美妙统一：将结果归因于输入的需求，是理解和改进任何复杂预测模型的基本要求，无论它是一个神经网络还是一个全球气候模拟。

在人机交互前沿：XAI在高风险决策中的应用

我们的旅程在最关键的交汇点达到高潮：人工智能驱动的决策直接影响人类生活的地方。在医学和法律等领域，预测从来不是故事的结局；它是一场对话的开始，一场受伦理、责任和人类价值观深刻复杂性约束的审议。在这里，可解释人工智能的目的是丰富这场对话。

考虑一个临床决策支持系统，旨在帮助医生决定是否为疑似肺炎的患者开具抗生素。这个在海量医疗记录上训练的人工智能模型输出一个单一数字：该特定患者有细菌感染的概率 $p$ 。这如何转化为一个负责任的行动？第一层解释由决策理论提供。我们可以定义每种可能结果的“成本”（或负效用）：如果我们不治疗一个受感染的患者，漏诊的成本；如果我们治疗一个未受感染的患者，副作用和抗生素耐药性的成本，等等。通过将这些成本与概率 $p$ 进行权衡，我们可以计算出一个明确的决策阈值 $p^*$ 。规则变得简单而透明：如果患者的概率 $p$ 大于阈值 $p^*$ ，那么治疗的预期收益就超过了风险。这个阈值本身就是一个强有力的解释，它将一个复杂的概率输出转化为一个理性的、可辩护的行动方案。

但这个理性的计算只是第一步。下一步，也是最重要的一步，发生在医生和患者之间。这是共享决策的领域，是现代医学伦理的基石。人工智能的输出，包括其不确定性（例如，风险估计的置信区间），必须以患者能够理解的方式进行沟通。一个中风风险为 $12\%$ ，置信区间为 $[9\%, 15\%]$ 的预测不是命令；它是一场对话的输入。医生的角色是利用这些信息，帮助患者根据自己独特的价值观来权衡利弊。一个患者可能极其厌恶中风的风险，愿意接受药物的副作用，而另一个患者可能优先考虑避免药物副作用。来自人工智能系统的解释成为促进这种深度个人化审议的工具，赋予患者权力并尊重其自主性。

这引向了最后的社会责任层面。为了合乎伦理地使用这些工具，必须有一个明确的社会契约。这个契约体现在知情同意的过程中。在患者的护理由人工智能指导之前，他们有权获得有意义的信息。一个恰当的同意过程会阐明，人工智能被用来支持而非取代临床医生的判断。它会披露模型的目的、其已知的局限性（包括潜在的偏见），以及其解释是近似值而非因果真理这一事实。它申明患者有权提问、了解替代方案，并由一个始终负全责的人类来照护。在紧急情况下，如果无法事先获得同意，这种披露必须在安全后尽快进行。这种透明度不是官僚主义的障碍；它是患者、临床医生和他们所使用的技术系统之间信任的基础。

统一的观点

我们从免疫学的微观世界旅行到大气的浩瀚，从电池的设计到机器人的调试，最终进入了医患关系的核心。自始至终，可解释人工智能的角色都是相同的：将不透明、复杂的模式转化为结构化的、人类可理解的知识。它让科学家能够检验一个假设，让工程师能够诊断一个故障，让患者能够做出符合其价值观的选择。在每一种情况下，它都将目标从单纯的预测提升到了真正的理解，而这始终是，也将永远是科学与理性的真正目标。