经验充足性

玻尔百科

核心要点

评判科学模型的标准并非其对现实的完美保真度，而是其经验充足性——即其被证实的描述和预测现象的能力。
机制模型声称解释系统如何运作，并通过干预进行验证；而经验模型则侧重于基于数据的预测准确性。
医学中的证据层级，以随机对照试验（RCTs）为顶峰，是用于确立治疗方法经验充足性的一个正式体系。
即使是深奥难解的“黑箱”人工智能模型，如果其输出通过严格的经验测试证明持续可靠，那么其应用也是合理的。

引言

在追求知识的过程中，我们常常误以为科学是在探寻绝对的、最终的真理。实际上，科学是一项更实用、更强大的事业：构建世界有用模型的艺术。但是，什么能让一个模型——无论是生物学理论、金融预测还是人工智能算法——真正有用？答案在于经验充足性（empirical adequacy）原则，即模型的价值由其精确解释可观测现象的能力来衡量。本文旨在探讨一个关键问题：我们如何判断一个模型对其预期用途而言是否“足够好”，从而超越了对与错的简单二分法。

我们将探讨这一基本概念的哲学和实践层面。第一章“原则与机制”将解构其核心思想，探讨旨在预测的模型与声称解释的模型之间的关键区别，并介绍用于区分纯粹相关性与因果关系的实验测试。随后的“应用与跨学科联系”将展示该原则并非抽象的理想，而是一种跨学科使用的、至关重要的实用工具——从医学中验证拯救生命的药物、确保人工智能系统的安全性，到为伦理实践提供证据基础。

原则与机制

想象一下，你正试图向一个从未见过你朋友的人描述他/她。你不会从列出其体内每个细胞的原子坐标开始。你可能会说：“她个子很高，笑声爽朗，而且心地善良。”你创造了一个模型。这个模型不是你的朋友，但对于介绍她这个目的来说，它是一个有用的，或充足的（adequate）表征。它抓住了本质特征，同时省略了无数的细节。这个简单的描述行为掌握着所有科学中最深刻和最实用的思想之一的钥匙：经验充足性。

科学并非追求某个大写的、最终的绝对真理。它是构建模型——现实的简画——的艺术，这些模型对于手头的工作是充足的。一个模型的价值不是由其对自然的完美保真度来评判，那是一个不可能达到的标准，而是由其准确描述和预测我们所关心现象的能力来评判。所有模型都是错的，但有些是有用的。科学进步的故事，就是弄清楚它们到底有多大用处，以及何时该构建更好模型的故事。

巨大的分水岭：预测还是解释？

科学模型通常服务于两大目的：预测和解释。这种区分不仅是学术上的；它触及了我们能声称知道什么的核心。

考虑一个预测病人突发心脏病风险的模型。其中一类模型可能是经验模型，一种复杂形式的模式匹配。它可能输入数十个变量——年龄、血压、胆固醇、遗传标记——然后基于数百万其他病人的历史数据，输出一个概率。这个模型可能极其准确，是机器学习的奇迹，但如果你问它为什么某个因素会增加风险，它只能耸耸肩。它学会了数据中的统计关联，但并不一定理解底层的生物学。它对知识的主张是基于观测数据的预测准确性。对于风险分层的任务来说，它是经验充足的。

现在考虑一个机制模型。这个模型试图模拟实际的生物过程：动脉中斑块的积聚、炎症反应、血液流动的力学。它由一种不同的“黏土”构建而成——一套关于系统如何工作的因果假设，通常写成数学方程式。这个模型不仅仅是预测；它意在解释。它声称其代码内部的齿轮、杠杆和滑轮对应着人体中真实的东西——分子、细胞和力。

这是一个大胆得多的主张。而更大胆的主张需要更强的证据。一个模型仅仅被贴上“机制性”的标签，并不能使其解释正确。它那美丽、复杂的钟表结构可能完全是错的。那么，我们如何检验这个更深层次的真实性主张呢？

干预的试金石

想象你看到墙上有一盏灯，旁边有一个开关。你注意到，每当开关闭合时，灯就亮着；每当开关断开时，灯就熄灭。你有一个很强的关联模型。但你知道是开关导致灯亮的吗？不确定。也许房间里有一个运动传感器控制着两者，而你只是恰好在拨动开关时移动了身体。

要确立因果关系，你必须做一件简单而深刻的事情：你必须干预。你必须刻意走过去，保持其他一切不变，然后拨动开关。你进行了一项实验。用因果推断的语言来说，你施加了一个do-算子——你强制将变量设定为某个状态，并观察其后果。

这是区分纯粹的关联模型与经过验证的机制模型的试金石。经验模型的评判标准是它能否在我们被动观察世界时预测会发生什么。而机制模型必须做得更多；它必须正确预测当我们有针对性地干预世界时会发生什么。

这一原则是现代科学和工程学的得力工具。假设药理学家正在开发一种药物，并观察到它在患病患者身上的药效随时间变化。一种假设可能是，致病的炎症干扰了肝脏代谢药物的能力。另一种假设可能是，这只是与某些其他因素的统计相关性。两个模型都可以被校准以完美拟合现有的患者数据，使它们在观测上等效。你如何决定？你设计一个干预。例如，你可以在实验室环境中施用第二种已知能阻断特定肝脏转运蛋白的药物，或直接调节炎症分子。如果第一个机制模型正确预测了这个新实验——一个它从未接受过训练的实验——的结果，我们就会对其提出的机制不仅仅是一个故事，而是现实的反映，获得强大的信心[@problem-id:4561771]。

信心的阶梯

这一理念在医学领域最为关键，因为这里的决策可能意味着生死。整个循证医学领域都建立在一个“证据层级”之上，这无非是一个正式的经验充足性阶梯。

在这个阶梯的最底层是机制性推理，或称“生物学合理性”。这是科学的故事叙述部分：“这种药物应该有效，因为它阻断了受体 X，该受体参与了通路 Y，而通路 Y 导致了疾病 Z。” 这是任何新疗法的必要起点。但医学史就是一座由丑陋事实扼杀美丽假设的坟场。那些拥有完美机制性 justifications 的药物，在试验中已被证明是无效甚至有害的。人体是一个极其复杂的系统，具有我们的简单故事无法捕捉的反馈回路、冗余性和不可预见的副作用。

这就是为什么检验新疗法的金标准是随机对照试验（RCT）。RCT 是终极的干预。通过随机分配一些患者接受药物，另一些患者接受安慰剂，我们创造了两个在所有其他方面平均而言完全相同的组。因此，结果的任何差异都可以自信地归因于药物本身。这是do-算子在现实中的体现。综合了许多高质量 RCT 结果的系统评价位于这个层级的顶端，为治疗的真实效果提供了最可靠的估计。

同样的思维方式适用于所有临床问题。要验证一种新的诊断测试，仅仅证明它对少数明确的患病患者和少数健康志愿者有效是不够的。它必须在一个真实的临床人群中进行测试，涵盖疾病严重性和混杂因素的全部范围，并与公认的“金标准”参考进行盲法比较。这构成了对其充足性的恰当经验测试。原则总是一样的：我们对一个主张的信心，应该与其在预期使用条件下经受经验测试的严谨程度成正比。即使是定性判断，比如专家宣称一个模型具有“表面效度”，因为它“看起来正确”，也只是一种较弱的证据形式，最终必须被与真实世界数据进行的严格统计比较所取代。

拥抱黑箱

这把我们带到了一个引人入胜且极其现代的问题：如果我们有一个经验上充足的模型——也许比我们有过的任何模型都更充足——但我们完全不知道它是如何工作的，该怎么办？这就是现代人工智能的“黑箱”问题。

想象一个深度学习模型，它能分析医学图像并以超人的准确性预测癌症风险。它被证明能够拯救生命。然而，其内部逻辑是由数百万个数值参数构成的网络，任何人都无法理解。我们应该信任它吗？

一种名为可靠性主义（reliabilism）的哲学提供了一条强有力的前进道路。它认为，一个信念如果是由一个可靠的过程产生的，那么它就是合理的。我们不需要理解人工智能的“思维过程”。我们需要严格且持续地验证其信念形成过程是可靠的。这意味着要对它进行一系列的经验测试：

准确性： 在它将被使用的人群的新数据上，它是否能保持其高预测性能？
校准： 它的概率输出是否值得信赖？当它说有80%的风险时，这个风险在现实中是否真的以80%的频率出现？
效用： 与当前的护理标准相比，使用该模型是否确实能带来更好的临床决策和患者结果？
稳健性： 它对患者群体或临床实践中不可避免的变化有多敏感？我们能界定其潜在的错误范围吗？

如果一个黑箱模型能够通过这个严苛的经验考验，那么可靠性主义者会认为，我们在认识论上是有理由使用它的。这是经验充足性的终极体现：务实地关注有效的方法，并通过严格的测试加以证明。我们可能没有一个令人满意的解释，但我们有一个可靠的工具。有时，我们甚至不需要知道完整的机制就能提出因果主张，只要因果问题被恰当地构建并能从数据中识别，并且我们有一个能够可靠地估计答案的模型。

充足性的敌人

如果我们故事中的英雄是严格的经验测试，那么反派就是模糊性和教条。

一个科学理论必须是可证伪的。也就是说，必须存在一些可以想象的观察结果能够证明它是错误的。一个能解释一切的理论，什么也解释不了。著名的 Kübler-Ross 的哀伤五阶段模型（否认、愤怒、讨价还价、抑郁、接受）就是一个经典例子。在通常的使用中，如果一个人跳过一个阶段、重复一个阶段或以不同的顺序经历它们，支持者可以简单地说该模型允许这种变化。这种灵活性使模型令人感到安慰，但也耗尽了它的科学内容。因为没有任何可观察的哀伤轨迹能够证伪它，它就无法被真正地检验；它不是一个经验上充足的科学模型。

模糊理论的反面是教条式理论——一种不是因为它被证明在特定情境下是充足的而被使用，而是因为它被认为是“根本性”的模型。即使是物理学中最成熟的模型也受制于经验充足性的规则。描述气体中粒子速度的美丽的麦克斯韦-玻尔兹曼分布（Maxwell-Boltzmann distribution）是统计力学的基石。但研究核聚变的物理学家并不会盲目地应用它。他们只有在经验条件允许时才使用它——具体来说，当等离子体足够稠密和炽热，以至于粒子之间相互碰撞的频率远高于它们被加热或损失的频率时。碰撞是“麦克斯韦化”的力量。如果这个条件不满足，该模型就是不充足的，必须放弃，转而使用更复杂的模型。

这就是科学的精神。我们的模型，从最简单的简画到最复杂的模拟，都不是需要被崇敬的经文。它们是工具，需要被使用、被测试，当发现不足时，需要被改进或替换。对经验充足性的要求，就是对谦逊和严谨的要求。它问的不是：“这个模型是真的吗？”而是：“这个模型是否足够真实以至于有用，我们又该如何证明这一点？”

应用与跨学科联系

在我们完成对一个科学思想的原则和机制的探索之后，我们可能会感到一种满足感。我们有了优雅的理论，整洁的方程式。但科学不是一项观赏性运动，也不是一堆供人远观欣赏的抽象真理。它的心脏在其应用中跳动，在其与现实世界持续、崎岖且常常出人意料的碰撞中跳动。这就是经验充足性的领域，一个极其简单却又深刻的思想：我们的模型、我们的理论、我们的仪器，甚至我们的伦理程序，都必须“拯救现象”。它们必须以某种有意义的方式，与我们实际观察到的东西相匹配。

这一原则并非现代发明；几个世纪以来，它一直事关生死。在1721年波士顿天花爆发期间，关于人痘接种术的辩论不仅仅是学术性的。它始于证词——一位名叫 Onesimus 的被奴役者描述了他家乡的一种做法——但最终由原始的、经验性的结果所决定。当 Zabdiel Boylston 的数据显示，接种者的病死率约为2%，而自然感染者的病死率超过14%时，争论发生了转变。这个程序在经验上是充足的，因为它有效；它拯救了生命。对“充足性”的标准本身也在演变。像 Ibn al-Nafis 这样杰出的十三世纪医生能够通过解剖学推理从逻辑上推断出血液的肺循环，但他的主张，当通过后世实验的视角审视时，却缺乏直接的观测证据和可复现性，而这些后来成为金标准。

今天，经验充足性的精神渗透到科学和工程的每一个角落，我们已经开发了一个强大而多样的工具箱来强制执行它。

现代充足性工具箱

在最基本的层面上，确保经验充足性是一门校准和测试的技艺。我们建立一个模型，然后不懈地用现实来检验它。

想象一下，你正试图预测哪些新药可能在临床试验中成功——这是一场高风险的猜谜游戏。你可能有几个不同的计算模型，每个都基于不同的生物网络或数据源。你信任哪一个？也许没有一个能完美胜任。一种务实的方法是将它们视为一个顾问委员会。你可以找到一种最优的方式来组合它们的预测——给予更可靠的预测更高的权重——以创建一个集成模型，其集体预测尽可能接近过去药物实际观察到的验证率。这是最小化校准误差的直接应用：你正在调整你的预测机器，直到其输出在经验上是充足的。你并非声称你的最终模型代表了“真实”的生物学机制，只是声称它是通往可观察世界的一个可靠指南。

同样的原则不仅适用于抽象模型，也适用于我们用来感知那个世界的物理仪器。考虑一个渗透压计，一种测量液体（如尿液）中溶质浓度的设备。蒸气压渗透压计（VPO）的工作原理基于一个简单的物理学原理：溶质会降低溶剂的蒸气压。仪器测量这个降低值并计算出浓度。但是这个物理模型假设溶质本身不是挥发性的。如果病人摄入了像乙醇这样的挥发性物质会怎样？乙醇会增加蒸气压，混淆仪器，使其底层模型在这种特定情况下经验上不充足。它的读数会具有欺骗性地偏低。我们怎么知道？我们测试它！我们取一个已知样本，加入不同浓度的乙醇，然后将VPO的读数与另一种仪器，如冰点渗透压计，进行比较，后者的物理原理不受挥发性影响。这种严格的比较使我们能够量化偏差，并界定我们的仪器的世界模型在何种范围内是值得信赖的。

有时，我们自己实验的数据不足以从头构建一个充足的模型。在药理学中，我们想知道一个人的体型如何影响他们处理药物的方式。我们可以写一个通用的异速生长标度律， $CL_i \propto WT_i^{\alpha}$ ，其中清除率（ $CL$ ）与体重（ $WT$ ）的某个幂 $\alpha$ 成比例。如果我们只研究体重范围狭窄的成年人，我们的数据可能太有限，无法有信心地确定 $\alpha$ 的值。在这里，我们可以从一个更广阔的知识库中借用经验充足性。数十年的跨物种生理学研究表明，代谢过程通常以大约 $0.75$ 的指数进行标度（克莱伯定律，Kleiber's Law）。通过将模型中的指数固定在这个公认的值，我们引入了一块比我们有限数据所能提供的远为稳健的经验知识。这不仅使我们的模型更稳定，而且在推断时也更充足，例如，在预测儿童的正确剂量时。

复杂系统中的充足性

将模型与单个数字进行核对是一回事。但是，当模型的主题是一个庞大、动态且相互关联的系统时，我们如何确保模型是充足的呢？

想象一个繁忙的医院急诊科。它是一个复杂适应系统，患者、医生和护士在反馈回路的网络中互动，可能导致拥挤和长时间等待。如果你为这个系统建立一个计算机模拟——一个基于主体的模型——你怎么知道它好不好？仅仅匹配平均等待时间是不够的。一个经验上充足的模型必须再现真实世界数据中观察到的整个模式星座。它应该捕捉到等待时间特有的右偏分布（即少数人等待很长时间）。它应该显示出与真实急诊科相同的昼夜24小时占用率节律。它甚至应该再现拥挤的时间“粘性”或自相关——即一个拥挤的小时之后很可能又是另一个拥挤的小时。这就是面向模式的验证背后的思想：一个模型通过同时匹配多个、不同尺度和维度的独立现实特征来证明其充足性。

复杂性的挑战也是流行病学的核心，这是一门确定人群中疾病原因的科学。当一项观察性研究发现，比如说，空气污染和高血压之间存在联系时，挥之不去的问题总是混杂因素：会不会是其他某个因素才是真正的原因？著名的布拉德福德·希尔因果关系准则（Bradford Hill criteria）——如关联强度、一致性和剂量反应关系——可以被看作是评估一个简单因果主张经验充足性的框架。一个非常强且一致的、显示出明确剂量反应关系的关联，不太可能是由一个未测量的混杂因素造成的幻觉。用现代因果推断的语言来说，这些准则让我们对条件可交换性这一关键假设有了信心——即在调整了年龄和吸烟等已知因素后，暴露组和非暴露组是可比的[@problem_gpid:4509112]。然而，在我们进行这种比较之前，我们必须检查一个更基本的充足性形式，称为正性：在我们研究的每个亚组中，是否真的既有暴露者也有非暴露者？如果我们正在研究工厂排放的影响，但所有住在工厂附近的人都很穷，而所有住得远的人都很富裕，我们就无法将工厂的影响与贫困的影响分离开来。我们的数据本身在经验上并不足以回答这个问题。

高风险的充足性

对经验充足性的要求在医学领域最为关键，因为这里的决策影响着健康和福祉。

考虑开发一种预防心脏病发作的新药。一项决定性的临床试验可能需要十年才能观察到足够多的事件。这是一辈子的时间。因此，监管机构和医生会寻找替代终点——更早、更容易测量的指标，如血压或胆固醇水平。但什么时候一个替代终点才能充分代表真正的临床结果呢？我们必须要求经验证明。关键的见解是，血压和心脏病发作在个体中相关是不够的。我们需要证明治疗对替代终点的影响能可靠地预测治疗对真实结果的影响。我们可以通过对多项试验进行荟萃分析来检验这一点，将药物在每项试验中对血压的影响与其对心脏病发作的影响绘制成图。如果这些点整齐地落在一条线上，并由一个高的试验级决定系数（ $R^2_{\text{trial}}$ ）所捕捉，我们就可以相信这个替代终点在经验上是充足的。这一证据允许监管机构给予加速批准，使拯救生命的药物提前数年到达患者手中，条件是最终需进行一项确认性试验。

确保药物安全性也需要同样的严谨性。一位新妈妈可能需要服用药物，但这对她哺乳的婴儿安全吗？药物不可避免地会进入她的乳汁中。问题是，有多少？我们的第一个模型可能基于简单的被动扩散。但我们知道，身体里充满了能够将物质泵过细胞膜的主动转运蛋白。会不会有一个像BCRP这样的转运蛋白正在主动将药物泵入乳汁，导致浓度远高于我们简单模型的预测？为了找出答案，我们必须测试哪个模型是经验上充足的。一种强大的现代策略结合了临床观察（配对的乳汁和血浆样本）、药物基因组学（研究携带会削弱转运蛋白功能的基因变异的母亲）和机制建模。通过将“被动”模型与“被动+主动”模型的预测与来自不同基因群体的真实世界数据进行比较，我们可以确定哪个模型是充足的，从而做出安全的建议。

也许经验充足性最深刻和最令人惊讶的应用，超越了物理科学，延伸到了医学伦理领域。知情同意原则要求患者在同意一项程序前理解其风险和益处。一家医院可能会尝试通过提供翻译成母语的同意书来满足对英语水平有限的患者的这一要求。但这个过程在经验上是充足的吗？患者真的理解了吗？表格上的签名对此问题保持沉默。一项更稳健的政策会强制要求使用合格的医学翻译，并采用“回授法”，即临床医生要求患者用自己的话解释程序及其风险。患者的这种能力甚至可以被打分，为理解程度提供一个量化衡量。为了决定哪种政策真正更好，我们可以做科学家们常做的事：进行一项实验。一项比较这两种政策的随机试验，以患者理解度为主要结果，将为哪种过程最能实现自主性这一伦理原则提供经验证据。这是一个惊人的认识：经验验证的精神——让我们测试一下看看——是确保我们的伦理实践不仅是出于好意，而且真正有效的关键工具。

从医学的黎明到机器学习和伦理学的前沿，对经验充足性的承诺是一条贯穿始终的主线。这是科学家对可观察世界效忠的誓言。它不承诺最终的真理，但它要求诚实和效用。它确保我们的思想不仅美丽，而且有效。正是这一点，使科学成为有史以来为人类进步创造的最强大、最值得信赖的引擎。