try ai
科普
编辑
分享
反馈
  • 模型可解释性

模型可解释性

SciencePedia玻尔百科
核心要点
  • 模型可解釋性區分了本質上可解釋的模型(其設計簡單)和後設可說明性方法(應用於複雜的「黑箱」模型)。
  • 解釋可以是全局性的,描述模型的整體行為;也可以是局部的,解釋針對特定實例的單個預測。
  • 應用後設解釋存在重大風險,包括可能出現不忠實或不穩定的解釋,這可能誤導用戶並侵蝕信任。
  • 在臨床決策支持和科學發現等高風險應用中,可解釋性方法對於確保問責制、安全性和公平性至關重要。
  • 像概念瓶頸模型这样的创新架构旨在将可解释性直接构建到模型中,迫使其使用人类可理解的概念进行推理。

引言

现代人工智能产生了非凡的“黑箱”模型,能够发现超越人类理解能力的模式,然而它们的复杂性常常使其变得不透明。虽然这些模型在从医学到工程的各个领域提供了极其准确的预测,但它们往往只给我们答案,却不让我们理解其背后的推理过程。这种缺乏透明度造成了一个关键的鸿沟,削弱了我们信任、审计和对自动化决策负责的能力。模型可解释性领域旨在弥合这一鸿沟,提供工具来质疑、理解并最终与这些强大的系统合作。

本文旨在回答人工智能领域中至关重要的“为什么”问题。第一章“原理与机制”将解构可解释性的精确词汇,区分透明性、可解释性和可说明性,并探讨在全局和局部尺度上探究模型的方法。随后,“应用与跨学科联系”一章将展示这些原理如何在现实世界中应用,将人工智能从一个不透明的神谕转变为医学领域的透明合作伙伴、科学发现的强大工具以及负责任工程的基石。

原理与机制

想象一下你去看两位医生。第一位是 Glass 医生,她一丝不苟地保持透明。她使用一个简单的公开清单。对于你的每一个症状和实验室结果,她会加上或减去分数,最终的分数决定了她的诊断。你可以完全理解她的逻辑;你可以清楚地看到你的年龄如何加了五分,而你的血压又如何减了两分。她的过程是完全可以理解的。

第二位是 Oracle 医生,她是一位具有不可思议直觉的天才。她的诊断准确率是世界上最高的,远超 Glass 医生。但当你问她如何得出结论时,她只是微笑着说:“这是基于我处理数百万病例的经验。”她的大脑是一个“黑箱”。你得到了一个绝妙的答案,却没有得到任何理由。

这两位医生的故事抓住了现代人工智能的核心困境,也正是模型可解釋性存在的根本原因。我们已经建立了非凡的模型——数字化的 Oracle 医生——它们可以筛选海量数据,发现超越人类理解能力的模式,从预测心力衰竭到识别癌细胞。然而,它们的复杂性本身就可能使其变得不透明。我们得到了答案,却渴望知道“为什么”。模型可解釋性领域就是我们回答这个问题的旅程,去寻找理解、审计并最终信任这些强大的新工具的方法。

精确的词汇:解构水晶球

要开始我们的旅程,我们必须首先精确地使用我们的语言。在日常对话中,“可解释的”和“可说明的”等词语常常被混用。但在科学中,精确性至关重要。这些术语描述的是不同但关键的概念。

首先是​​透明性(transparency)​​。这是最简单的概念:我们能看到盒子里面吗?如果一个模型的内部工作原理——其架构、参数、算法——都对检查开放,那么这个模型就是透明的。Glass 医生的清单是透明的。一个经典的逻辑回归模型,通过对加权特征求和来计算风险评分,也是透明的。你可以打印出它的系数,看到“年龄每增加一岁,风险评分增加 0.050.050.05”。然而,透明性并不保证理解。一个现代的深度神经网络可能是开源的,让你可以接触到数百万个参数,但看着这片无尽的数字海洋,你并不能直观地了解它是如何工作的。这就好像你拿到了一架大型喷气式飞机的完整蓝图;拥有它并不意味着你理解空气动力学。因此,透明性关乎访问权,而不必然关乎理解。

这就引出了​​可解释性(interpretability)​​。可解释性是一个更深层次的目标:人类能否对系统的行为形成一个可靠的心智模型?你能否至少在性质上预测,如果你改变一个输入,模型会如何反应? 实现这一目标主要有两条途径。第一条是​​内在可解释性(intrinsic interpretability)​​,也称为事前(ante-hoc,即“事实发生前”)可解释性。这意味着我们选择构建一个设计上就简单的模型。我们刻意使用 Glass 医生的清单——一个稀疏线性模型、一棵浅层决策树——因为它的结构本身就是解释。模型即是解释。

但如果简单的模型不够好怎么办?如果问题非常复杂,只有像 Oracle 医生那样的“黑箱”才能解决呢?这就是​​可说明性(explainability)​​发挥作用的地方。可说明性指的是我们事后(post-hoc,即“事实发生后”)应用于一个已经训练好的、通常不透明的模型,以获取其行为原因的方法。我们无法看透 Oracle 医生的大腦,所以我们向她提问。我们说:“告诉我这位病人诊断的前三个原因。”她的回答不是她完整、复杂的思考过程;而是为了我们而创造的一个简化摘要。这就是事后解释的世界。

全局视角与局部故事

解释并非一刀切。我们可以提出不同类型的问题,寻求在两个不同尺度上的理解:全局和局部。

​​全局解释(global explanation)​​旨在理解模型的整体策略。它学到了哪些通用规则?在所有患者中,模型认为哪些特征对于预测心力衰竭再入院最重要?像​​排列特征重要性(Permutation Feature Importance)​​这样的技术,通过打乱单个特征的值来衡量模型准确率下降了多少,从而给我们这种宏观视角。另一个工具是​​部分依赖图(Partial Dependence Plot, PDP)​​,它显示了当我们只改变一个特征(如血清钠)在其整个范围内变化时,模型的预测平均如何变化。这些方法提供了模型在群体层面行为的高层次摘要 [@problem_g-id:5204121]。

与此形成鲜明对比的是,​​局部解释(local explanation)​​关注的是单个实例。它不关心平均患者;它关心的是这个病人,此时此地。床边的临床医生会问:“为什么模型说这个人有 72% 的呼吸困难风险?”。这是临床环境中最常见、最紧迫的需求。提供局部解释的方法包括:

  • ​​Shapley 加性解释(Shapley Additive Explanations, SHAP):​​ 一种源自合作博弈论的强大技术,它将单个患者的预测公平地归因于其每个特征。它可能会告诉我们:“这位患者的高风险评分主要由其肾功能低下(eGFR)和近期焦虑问卷得分高所驱动。”
  • ​​反事实(Counterfactuals):​​ 这些解释回答“如果……会怎样”的问题。它们可能会陈述:“如果这位患者的出院体重减轻 555公斤,其预测风险将下降 0.150.150.15。” 这提供了一种可操作、直观的理由。

全局视角服务于科学家和监管者,帮助他们审计模型的通用逻辑。局部故事则服务于决策点的用户,帮助他们将具体的建议置于具体情境中。

解释的风险与前景

人们很容易认为我们已经解决了问题。如果一个模型是不透明的,只需应用一个事后解释器,一切就都好了。但现实并非如此美好。两条路径——简单的、内在可解释的模型,和带有事后解释的复杂模型——都充满了各自独特的风险。

首先,考虑​​解释者困境(Interpreter's Dilemma)​​。当我们选择一个内在可解释的模型(如 Glass 医生的清单)时,我们施加了一个强大的约束:模型必须是简单的。但如果真实、潜在的现实并不简单呢?例如,如果一种疾病的风险确实取决于基因和环境因素之间复杂的相互作用,该怎么办?一个简单的加性模型,由于其结构所限,无法捕捉这种相互作用。即使有无限的数据,它也总会有一个不可简化的​​近似误差(approximation error)​​——其简化的世界观与现实之间存在根本差距。这可能是危险的,会导致模型对某些现实不符合简单模式的人群子集系统性地出错。

现在,考虑复杂的黑箱模型及其事后解释。在这里我们面临​​说明者博弈(Explainer's Gambit)​​,这是一系列的权衡和潜在的幻觉:

  • ​​保真度-可理解性权衡(Fidelity-Comprehensibility Trade-off):​​ 我们希望解释既忠实于模型又易于理解。​​保真度(Fidelity)​​是一个技术属性:解释在多大程度上准确反映了模型的实际内部逻辑?​​可理解性(Comprehensibility)​​是一个人类属性:解释对于其受众来说是否在认知上易于接受和有用?这两者常常处于紧张关系中。一个包含 50 个 SHAP 值的原始列表可能具有完美的局部保真度,但对于患者或忙碌的临床医生来说完全無法理解。医生可能需要将这种高保真度的数据转化为一种價值敏感、通俗易懂的叙述。一个解释的好坏取决于它能否被需要它的人所理解。

  • ​​不忠实的解释(The Unfaithful Explanation):​​ 如果解释是个谎言怎么办?许多事后方法通过创建复杂模型的简单局部近似来工作。如果对模型“不忠实”的惩罚太低,或者产生“看似合理”解释的愿望太高,我们可能会得到一个看起来不錯但完全误导模型真实推理的解释。临床医生可能被告知风险高是因为因素 A,而实际上它是由一个虚假的伪影因素 B 驱动的。

  • ​​不稳定的解释(The Unstable Explanation):​​ 当解释本身很脆弱时,会出现一种可怕的失败模式。研究人员已经表明,对于某些模型,两个几乎相同的患者可能会得到截然不同的解释。输入中一个微小、临床上无意义的变化可能导致“最重要的特征”发生翻转,使得解释看起来武断,从而侵蚀信任。

工程化理解

知道了这些陷阱,计算机科学家不僅僅是在设计解释器,他们正试图将理解直接工程化到模型本身中。这催生了创新的架构,弥合了简单透明性与黑箱能力之间的差距。

其中一个最优雅的想法是​​概念瓶颈模型(Concept Bottleneck Model, CBM)​​。想象一下,训练一个模型从胸部 X 光片诊断疾病。CBM 不是直接从像素到诊断,而是迫使模型首先识别一组人类可理解的临床概念——放射科医生会寻找的东西,如“心脏扩大”、“胸腔积液”或“间质性水肿”。模型的架构字面上就是:图像 →\rightarrow→ 概念 →\rightarrow→ 诊断。这是一种内在可解释性。模型被迫使用领域专家的语言进行推理。然后我们可以在概念层面审计模型,检查它是否正确识别了心脏扩大,甚至可以通过手动纠正一个概念来看看诊断如何变化。这将模型的内部推理与人类知识和工作流程对齐。

当我们无法改变模型架构时,我们仍然可以用聪明的方式探测它。​​概念激活向量(Concept Activation Vectors, CAVs)​​是一种“访谈”预训练黑箱模型的技术。我们首先定义一个我们关心的概念,比如“胸腔積液”,方法是向模型展示一组包含该概念的示例图像和另一组不包含的图像。CAV 方法随后在模型的高维内部空间中找到一个与该概念对应的方向。一旦我们有了这个“胸腔积液向量”,我们就可以测量最终诊断对这个方向的敏感度。这使我们能够提出复杂的问题,比如“气管插管的存在对你的预测有多大影响?”——这是测试对虚假相关性依赖的一种绝妙方法。

人在回路中

这整个科学事业最终并非关乎模型本身。它关乎模型所影响的决策,以及受该决策影响的人。可解釋性的目标不仅仅是生成一张特征重要性图;它是为信任、问责制和有效的人机协作奠定基础。

这种以人为中心的观点揭示了最后两个关键维度。首先,解释的行为并非没有风险。在临床环境中,详细解释为何某位患者因罕见疾病被标记,再加上其其他特征,可能会变得如此独特,以至于无意中损害了他们的隐私。我们解释得越多,我们可能揭示的就越多。这在透明性与保密性之间造成了根本性的紧张关系,需要谨慎的政策,如基于角色的访问控制和数据最小化,来取得适当的平衡。

其次,也许是最深刻的,我们必须问:完美的说明性是最终目标吗?人们很容易这么认为。但也许它只是实现更大目标的手段。这个目标是确保我们的系统是公平、安全和负责任的。在某些公共卫生环境中,我们可能会面临一个來自 guarding its secrets 的供应商提供的高度准确的黑箱模型。它的使用是否不道德?绝对主义者会说是。但实用主义者可能会争辩说,一个全面的外部保障体系——跨人口群体的严格、独立的偏见审计;社区申诉决策的明确途径;以及有意义的人工监督——可能比一个透明但准确性较低的模型提供更强的正义和仁慈保障。在这种观点下,可說明性本身并非强制性的伦理要求,而是我们可用来建立一个首先值得我们信任的系统的几种强大工具之一。

应用与跨学科联系

到目前为止,我们一直在探究内部机制,理解那些让我们能向机器学习模型提出一个简单而深刻的问题:“为什么?”的原理和机制。我们把它当作一个引人入胜的谜题,一个关乎数学和算法的问题。但一个科学思想的真正美妙之处不在于其抽象的优雅,而在于其改变我们看待和与世界互动的方式的力量。现在,我们离开工作室,步入医院、实验室和工厂。我们将看到模型可解释性不仅仅是一项技术练习,而是连接预测与理解、算法与问责、相关性与因果关系诱人前景的必要桥梁。

可解释的医生:增强临床判断

也许没有任何地方的预测风险比医学更高。当生命悬于一线时,一个简单的“答案是X”是不足够的。医生,要成为真正的医生,必须理解诊断背后的推理才能信任它,并对其承担职业责任。模型可解释性提供了使人工智能成为诊所中真正的合作者,而非不透明的神谕的工具。

想象一位病理学家正在检查一张巨大的组织样本数字图像,即全切片图像,寻找癌症的蛛丝馬迹。一个强大的卷积神经网络(CNN)可以被训练以超人的速度和准确性标记可疑区域。但如果模型关注的是伪影,即载玻片上的污点,而不是恶性细胞的畸形细胞核呢?没有可解释性,我们永远不会知道。通过使用像显著性图(saliency map)——一种突出显示模型“关注”了哪些像素的热力图——这样的可说明性方法,人工智能可以展示其工作过程。病理学家现在不僅能看到模型的结论,还能看到它的证据。这种审查人工智能理据的能力,正是将一个值得信赖的临床决策支持系统(CDSS)与一个危险的黑箱区分开来的关键,从而确保不伤害原则(non-maleficence),并维护临床医生的自主权和问责制。

这种对透明度的需求从诊断延伸到治疗。考虑一下给像 warfarin 这样的药物确定剂量的复杂任务,这是一种抗凝剂,其效果因个体基因差异而大相径庭。我们可以建立一个模型,接收患者的基因变异(在 CYP2C9 和 VKORC1 等基因中)、年龄和体重,并推荐“高”或“低”剂量。当模型提出建议时,一种解释方法可以提供一个简单而有力的分析:“剂量偏高主要是因为患者年龄较轻且体重较高,尽管其基因型表明其敏感性为平均水平。”这种局部的、针对具体病例的理据让临床医生对建议充满信心。

但这引出了一个更深层次的问题:我们想要什么样的模型?我们是偏爱一个简单的、透明的线性模型,还是一个高度准确但不透明的“黑箱”,比如随机森林?或者也许是第三条路:一个从头开始设计的非线性混合效应模型,旨在模仿身体处理药物的底层生物学过程。后一种方法在机制上是可解释的;它的参数对应于真实的生物学量,如药物清除率。它与其说是一个统计模型,不如说是一个对患者的模拟。在这些方法之间进行权衡——简单的、强大的和机制上优雅的——是人工智能在医学中部署的核心。

最终,对话必须包括患者。生物伦理学原则,特别是“尊重个人原则”(Respect for Persons),要求知情同意。当一个诊断结论受到算法影响时,哪些信息对患者的决策至关重要?是模型的原始准确率,还是其透明度?一个真正合乎伦理的框架不僅要求披露正在使用人工智能,还要求披露其性能特征——假阳性或假阴性的几率——及其已知的局限性,例如源于其训练数据的潜在偏见。这让患者能夠理解现实世界中的风险和收益,超越在透明但较弱的模型与不透明但较强的模型之间的简单选择,走向对诊断过程的共同理解。这就是医生的即时决策所需的局部解释与确保系统对全体患者群体公正负责的全局解释之间的区别。

思想的显微镜:作为科学发现工具的可解释性

在诊所之外,模型可解释性正成为一种革命性的新型科学仪器。在科学中,我们常常对预测未来兴趣不大,而更关心理解现在。我们想知道一个系统如何工作。可解释性方法让我们能够使用高性能的预测模型作为显微镜,窥探复杂的生物系统,并产生新的、可检验的假设。

考虑一下从大脑活动中解码梦境内容的宏伟目标。研究人员可以训练一个模型,根据一个人醒来前的脑电图信号高精度地预测他是否在梦见“飞行”。一项了不起的壮举!但真正的科学奖赏不是预测本身,而是发现与飞行感觉相对应的神经模式、特定的节律或相干性。一个幼稚的解释可能只是找到了快速眼动睡眠(REM sleep)的模式,这是一个这类梦境常见的阶段。然而,一个更复杂的解释协议可以解开这些影响。通过仔细比较在同一睡眠阶段甚至同一个人内“飞行”与“非飞行”梦境的解释,我们可以减去混淆信号,分离出梦境内容本身的真实特征。

这种对混淆因素的警惕是现代科学的一个中心主题。当我们解释一个模型时,我们必须总是问:它识别出的特征真的是因果关系吗,还是仅仅是某个其他隐藏过程的相关物?例如,在神经影像学中,一个从 fMRI 数据中解码视觉刺激的模型可能会生成一个突出显示特定大脑区域的解释图。但受试者微小的头部运动也可能与刺激相关,并在 fMRI 信号中产生巨大的伪影。一个通常绘制为有向无环图(DAG)的因果分析可以揭示这个“后门路径”:刺激既引起神经活动又引起头部运动,而头部运动污染了模型看到的信号。因此,模型的解释可能是一张头部运动图,而不是大脑功能图。理解这种因果结构对于验证我们的科学发现至关重要。

解释工具也帮助我们审视整个科学工作流程。在单细胞生物学中,一个常见的首要步骤是根据基因表达将数万个细胞聚类成“类型”。这个过程常常像政治上的选区划分:在稍微不同的地方划定界限,可以创建出“模块度”得分几乎相同但细胞成员不同的簇。如果我们接着试图找到定义这些簇的“标记基因”,结果可能是不稳定和误导性的,是我们任意划界的产物。通过评估我们解释的稳定性——当我们稍微扰动簇边界时,我们的标记基因列表变化了多少——我们可以衡量我们发现的稳健性,避免宣布发现一个仅仅是机器中幽灵的生物标记 [@problem-id:2400029]。

然而,如果使用得当,可解释性可以建立,而不仅仅是批判。在药物发现中,一个模型可能预测某种药物可以被重新用于一种新疾病。这个预测本身只是一个统计相关性。但通过使用像 SHAP 这样的方法,我们可以分解预测并构建一个机制性的故事。解释可能会显示,模型之所以信心高,是因为该药物的目标蛋白(例如 BRD4)在病变组织中高度表达,该药物已知能调节一个关键的疾病通路(例如 T 辅助细胞 17),并且药代动力学模型预测它将以足够浓度到达组织。这就改变了一切。解释提供了一个生物学上合理、循序渐進的理据,将黑箱预测轉化為可檢驗的科學假說,彌合了數據驅動發現與機制科學之間的鴻溝。當然,為了可靠,解釋方法本身必須以透明和嚴謹的方式報告,詳細說明其參數、局限性和穩定性,正如 TRIPOD-ML 等指南所建議的。

问责制工程:医学之外的公平性与可靠性

可解释性、公平性和问责制的原则并不局限于生命科学领域。它们是普适的。任何时候,当一个自动化系统做出重大决策时,我们都必须能够问“为什么?”和“它公平吗?”。

考虑一个设计新型电池单元的自动化流程。一个代理模型预测候选设计的性能,如果预测值高于某个阈值,该设计就会被快速通道处理。如果这个模型,在来自多个生产批次的数据上训练后,产生了隐藏的偏见怎么办?它可能会系统性地高估来自 A 批次的单元性能,而低估 B 批次的。表面上看,应用一个统一的接受阈值似乎是公平的,但这会导致 A 批次有更高的假阳性率,而 B 批次有更低的真阳性率。这不是一个社会正义问题;这是质量控制和可靠性的关键失败。通过审计模型在不同群体——在这里是生产批次——中的性能和解释,工程师可以检测到这种批次条件偏差,并确保系统真正公平可靠。这需要问责措施:特定批次的性能文档、可追溯的决策日志,以及一个“人在回路中”以在系统行为偏离到不公平领域时进行干预。

从医生的办公室到科学家的实验台,再到工程师的工作站,故事都是一样的。模型可解释性将机器学习从一个给出答案却深不可测的工具,转变为一个展示其工作过程的透明伙伴。它让我们能够信任决策,产生新知识,并构建不仅强大而且安全、公平和负责任的系统。它揭示了跨学科的美妙统一,同样的基本思想帮助我们理解患者的风险、梦境的起源和电池的潜力。这是从仅仅预测到真正洞察的旅程。