模型评估：验证、确认与校准

玻尔百科

核心要点

模型评估建立在三大支柱之上：验证（正确地构建模型）、校准（调整参数）和确认（构建正确的模型）。
验证确保计算代码准确地求解数学方程，这一过程独立于现实世界的数据。
确认通过将模型的输出与未用于其创建或校准的独立、真实的现实世界数据进行比较，来评估其预测能力。
验证、校准和确认的原则普遍适用于从工程学到社会科学和医学等不同领域。

引言

在一个计算模型驱动发现和决策的时代——从预测流行病到设计聚变反应堆——我们如何能确定它们的预测是值得信赖的？答案在于一个严谨的模型评估过程。然而，用于描述这一过程的语言常常含混不清，验证（verification）、确认（validation）和校准（calibration）等关键术语被互换使用，导致了科学严谨性上可能存在的差距。这种模糊性带来了重大的挑战：没有一个清晰的评估框架，我们就有可能构建有缺陷的模型，并基于这些模型做出错误的决策。

本文旨在揭开建立模型可信度的基本框架的神秘面纱。第一部分“原则与机制”将分解评估的三大核心支柱，用清晰的比喻解释正确地构建模型（验证）、构建正确的模型（确认）以及微调其参数（校准）究竟意味着什么。接下来的部分“应用与跨学科联系”将展示这些原则的普适力量，说明它们如何应用于核工程、药理学、社会科学和人工智能等不同领域。读完本文，您将对模型评估这门严谨的艺术有深入的理解，而它正是所有可靠计算科学建立的基石。

原则与机制

想象一下，你想建造一艘著名船只的完美、微缩、适航的复制品。你拿到了一套复杂的蓝图。你的任务并不简单。首先，你必须极其精确地遵循蓝图。每一块木板、每一颗铆钉、每一根绳索都必须与规定完全一致。如果蓝图要求一个3毫米的孔，你就绝不能钻一个4毫米的孔。这是一项考验工艺和对计划忠诚度的任务。

但如果蓝图本身就有缺陷呢？如果最初的设计师犯了错误，即使完美地建造出来，这艘船也会头重脚轻，容易倾覆呢？完美地执行一个有缺陷的设计，会导致一个完美的失败。所以，你也必须质疑蓝图本身。你需要在真实的水池中，或许在有波浪的条件下，测试你完成的模型，看看这个设计是否从根本上是合理的。

最后，你可能会发现船能浮起来，但稍微向一侧倾斜。设计大体上是好的，建造是完美的，但它需要做最后的微调。你可能需要在龙骨里加一小块铅压舱物，来回移动它，直到船在水中达到完美的平衡。

这个简单的比喻抓住了评估任何科学模型的三个基本支柱：验证（verification）、确认（validation）和校准（calibration）。它们回答了三个不同但相互关联的问题：我们是否在正确地构建模型？我们是否在构建正确的模型？我们又该如何微调其参数？它们共同构成了我们对预测结果信任的基石，无论我们是在预测天气、设计新药，还是模拟宇宙。

验证：我们是否在正确地求解方程？

验证是编写“蓝图”（控制方程）的数学家与建造“船只”（软件代码）的计算机程序员之间的对话。它只问一个简单的问题：代码是否忠实地执行了数学指令？这是一个内部一致性的问题，完全脱离于方程本身是否与现实有任何关系。

可以把它想象成将一首优美的诗从一种语言翻译成另一种语言。验证过程检查译文是否准确，并保留了原作的格律和韵式。在这个阶段，它并不对诗歌本身的好坏做出评判。那是之后的事情。

在科学计算领域，验证本身有两种不同的类型：

代码验证处理的是“代码编写是否正确？”这个问题。这关乎于根除实现中的程序错误、拼写错误和逻辑错误。其中一个最优雅的工具是人造解方法（Method of Manufactured Solutions）。这个策略非常巧妙：我们不是从一个难题开始试图找到答案，而是从一个我们自己发明的、优美、平滑、简单的答案开始。然后，我们将这个“人造解”代入我们的控制方程，以找出要产生这样的答案，原始问题本该是什么样子的。接着，我们将这个逆向工程得到的问题输入给我们的代码。如果代码能返回我们最初发明的答案，我们就知道实现是正确的。这就像在考试前先写好答案，以确保学生的解题机制是健全的。

另一方面，解的验证则问：“对于一个真实问题，我们的答案中有多少误差？”对于大多数有趣的科学问题，从湍流到疾病传播，我们并没有一个精确的答案。我们的计算机模型给出了一个近似值。但这个近似值有多好呢？这里的策略是多次求解同一个问题，每次都在逐渐加密的计算网格上进行。如果我们的代码是正确的，那么随着网格的加密，解应该会越来越接近某个最终值。通过观察解如何随网格加密而变化，并使用像理查森外推法（Richardson Extrapolation）这样的技术，我们不仅可以获得信心，而且实际上可以估计出我们答案中剩余的数值误差。这就为我们的预测提供了误差棒，即至关重要的不确定性范围。

验证，无论其形式如何，都是一个纯粹的数学和计算练习。它确保我们的建模引擎润滑良好且运行正常。只有这样，我们才敢去问它是否正把我们引向正确的方向。

校准：调整旋钮

我们经过验证的模型就像一台崭新的引擎，但它通常带有一组需要设置的旋钮和刻度盘。这些就是模型的参数——这些值不是从第一性原理得知的，必须通过数据来确定。例如，在一个简单的热泵效率模型中，我们可能有一个方程，如 $\text{Efficiency} = \theta \times (\text{Ideal Efficiency})$ ，其中 $\theta$ 是一个介于0和1之间的参数，它概括了所有现实世界中的非理想因素。我们如何找到 $\theta$ 的正确值呢？

这就是校准的工作。我们取一组现实世界的测量数据——一个“训练数据集”——然后系统地转动旋钮 $\theta$ ，直到模型的输出与测量数据尽可能接近。这种“接近度”通常用一个“损失函数”来衡量，比如模型预测值与实际数据点之间差值的平方和。校准本质上是一个优化问题：找到能最小化模型与一组特定观测数据之间差异的参数值。

这可以是一个纯粹确定性的“曲线拟合”练习。或者，我们可以从统计学的角度来处理它，假设差异是由随机测量噪声引起的。这不仅能让我们找到 $\theta$ 的最佳值，还能量化我们对它的不确定性。

但校准伴随着一个巨大的危险。通过调整模型以完美匹配我们已有的数据，我们可能在教给它错误的经验。我们可能在拟合噪声，而不是信号。这就引出了评估模型最关键的一步：真相大白的时刻。

确认：与现实的对峙

我们已经完美地构建了我们的引擎（验证），并使用训练数据调整了它的旋钮（校准）。现在，最重大的问题来了：它在现实世界中真的有效吗？它是否具有真正的预测能力？这就是确认（validation）的范畴，正是这个过程将一个纯粹的数学奇物与一个有用的科学工具区分开来。

建模中的首要大忌就是用你构建模型时所用的相同数据来测试你的模型。这就像让一个学生自己出考卷然后自己评分。当然，他会得满分！一个过于复杂或灵活的模型可以完美地“记住”训练数据，捕捉到每一个细微之处、每一个波动和每一丝随机噪声。这样的模型是过拟合的。它在已经见过的数据上看起来很出色，但对于预测任何新事物都将毫无用处。

想象一下，你正在为一种稀有兰花的栖息地建模。你有一百个发现它的地点。如果你用所有这100个点来创建你的模型，你可能会得到一张极其复杂的地图，它完美地蜿蜒穿过那100个点，并宣称其他所有地方都不适合。它根本没有学到任何关于兰花对温度或土壤pH值的真实偏好。

解决方法简单而深刻：在开始之前，你必须拿出一些你宝贵的数据，并将它们锁在保险库里。你只使用剩下的“训练”数据来创建你的模型。你对它进行验证，进行校准，使之完善。然后，且只有在那时，你才打开保险库，拿出“测试”或“确认”数据集。模型在这些未见过的数据上的表现，是衡量其预测能力、其泛化能力的唯一诚实标准。

这就是确认的核心：通过将模型的预测与未用于其创建的独立观测数据进行比较，来评估模型的经验充分性。但这个概念的内涵更为丰富。一个模型的最终目标通常是帮助我们做出更好的决策。一个用于新癌症疗法的模型不仅仅是在预测肿瘤大小；它是在为生死攸关的治疗选择提供信息。因此，一种更高级的确认观会评估一个模型针对其预期用途的充分性。一个模型可能对于预测患者群体的平均反应是有效的，但对于识别高风险个体却是无效的。真正的确认要求根据我们基于模型预测所做决策的真实世界后果来评判这些预测。

更深层次的视角：产品、过程与人

确认不是单一的行为，而是一个从多个角度建立可信度的多方面过程。我们可以把它看作具有不同层次的审查。

外部确认就是我们刚才讨论的：将模型的最终预测——其“产品”——与独立的外部数据进行对峙。这是对预测能力的终极考验。

相比之下，内部确认则向内看。它当然包括我们讨论过的所有验证检查，确保模型构建正确。但它还包括一个关键的、人为的因素：表面确认。这涉及将模型的结构、假设和方程展示给该领域的专家。这个区域供热网络的模型在一个热能工程师看来是否合理？[@problem-id:4105665] 这个预算影响模型在一个药物经济学家看来是否有意义？这是在将任何预测与数据进行比较之前，对模型根基进行的定性健全性检查。

更进一步，我们可以区分产品确认（输出是否正确？）和过程确认（工作流程是否可信？）。对于高风险决策，比如涉及复杂自适应系统的决策，一个模型仅仅输出正确答案是不够的。我们需要能够信任导致这个答案的整个过程。过程确认涉及创建一个透明、可审计的追踪记录——一个“可追溯性矩阵”——它将每一个预测通过代码、数据、校准实验和基本假设一路追溯回去。它建立的信心不仅在于答案本身，还在于整个推理过程。

可信度的统一性

验证、校准和确认并非一个简单的、按顺序打勾的清单。它们形成一个动态的、迭代的循环。一次在确认中的惨败（模型做出了糟糕的预测）可能会让我们回到绘图板前，迫使我们质疑我们的基本方程。一个细微的错误可能表明我们需要用更好的数据重新校准我们的参数。或者一个怪异的结果甚至可能暴露一个隐藏的程序错误，让我们一直退回到代码验证阶段。

这些原则的美妙之处在于它们的普适性。它们同等地适用于材料科学中的多尺度热传导模型，模拟药物在人体内行为的药代动力学模型，以及模拟城市交通的基于主体的模型。它们是计算时代科学可信度的共同语法。

最终，这整个事业并非要证明我们的模型是“正确”的。著名统计学家 George Box 有句名言：“所有模型都是错的，但有些是有用的。”模型评估这门严谨的艺术——这场验证、校准和确认之舞——是我们发现我们的模型究竟错在哪里、界定它们在何种范围内有用、并精确量化我们能信任它们多少的唯一途径。它是我们借助我们的硅基仆人构建知识的那个谦逊、必要而又美好的基础。

应用与跨学科联系

想象一下，你是一位古代的地图绘制师，任务是绘制一张世界地图。你的手艺有一套严格的规则：如何表示山脉，河流的正确比例，城市的符号。评判你工作的一种方式是检查你是否正确地遵循了所有规则。比例是否一致？符号是否明确？这纯粹是对你手艺的内部检查。但还有另一种更深刻的评判方式：你可以把地图交给一位旅行者。这张地图能否成功地引导他们从一个城市到另一个城市？羊皮纸上的河流是否对应着地球上一条真实的河流？这是对现实本身的检验。

在科学建模的世界里，我们面临着同样两个基本问题。我们构建了精细的现实数学“地图”——从核反应堆的核心到疾病的传播——为了信任它们，我们必须进行一场严谨的、由两部分组成的对话。第一部分是验证，即问：“我们是否按照自己的规则正确地绘制了地图？”换句话说，“我们是否在正确地求解我们的数学方程？”第二部分是确认，即问：“我们的地图是否与实际领域相符？”或者说，“我们是否在求解正确的方程？”这种区分并非单纯的学术上的吹毛求疵；它是在计算时代我们如何建立可靠知识的根基，这一原则在人类探究的最多样化的领域中都以惊人的一致性回响着。

工程学的基石：信任不可见之物

让我们从那些风险极高且物理原理（至少在原则上）被充分理解的领域开始。考虑一个核反应堆的核心，或者火箭发动机中爆轰波的狂暴。工程师们构建庞大的计算机代码，将质量、动量和能量守恒定律转化为预测温度、压力和速度的算法。但这些代码长达数百万行，充满了近似。我们如何能确定它们不只是在产生数值上的胡言乱语？

这就是验证的任务。它是一个纯粹的数学和逻辑练习，进行时不需要任何实验数据。这里使用的一个非常巧妙的技术是人造解方法（Method of Manufactured Solutions）。工程师会像是在对自己的代码玩一个把戏，发明一个在物理现实中毫无根据的、完美平滑、优雅的数学函数——一个“人造解”。然后他们将这个函数代入物理学的基本方程（如纳维-斯托克斯方程），看看需要什么样的“源项”或强迫函数才能使这个编造的解成为一个精确解。他们将这个人工源项添加到他们的代码中并运行它。代码的唯一任务就是恢复原始的人造解。因为“正确”答案是完美已知的，任何偏差都纯粹是代码实现及其数值近似的过错。通过在越来越精细的计算网格上运行此测试，工程师可以检查误差是否以精确的理论速率缩小。如果确实如此，这是一个强有力的迹象，表明代码正在正确地实现代表物理定律的微分算子。

其他的验证测试包括将代码与我们确实能从第一性原理知道答案的更简单、极限情况进行核对。对于一个旨在模拟复杂仿星器聚变装置的代码，人们可能会测试它是否能正确计算单个简单圆形线圈产生的磁场，其轴上磁场是几个世纪前用笔和纸通过毕奥-萨伐尔定律（Biot-Savart law）计算出来的。或者，人们可能会测试一个通用的三维等离子体平衡代码在轴对称的特殊情况下是否能正确地简化为著名的 Grad-Shafranov 方程。这些都不是对现实世界的测试，而是对逻辑和数学一致性的测试。即使是优化算法中使用的梯度也必须经过验证。一个常见的测试是检查计算出的梯度是否如导数的定义所预期的那样表现，确认对于一个小扰动 $\epsilon$ ，其泰勒级数余项是否如 $\mathcal{O}(\epsilon^2)$ 那样呈二次方收缩。这是在要求机器谈论世界之前，先确保它能正确地讲微积分的语言。

对现实的检验：一个信心的层级体系

一旦我们确信我们的代码在正确地求解其方程——我们的地图是按规则绘制的——我们就必须踏上更具挑战性的确认之旅。我们必须问，我们的方程，我们的物理模型，是否真的描述了现实。这需要与实验进行对峙。

在这里，一个优美而系统化的方法出现了，这在对聚变能源的探索中得到了最好的说明。科学家们不是试图一次性地确认一个完整的托卡马克聚变装置的整体模型，而是以一种分层的方式建立信心。

层面1：单元物理。 他们从最基本的构建模块开始。例如，他们使用模型来预测一种等离子体微观不稳定性的增长率，并将此预测与对等离子体波动的集中、高精度的测量进行比较。
层面2：组件层面。 如果模型成功，他们就上升一个层面。他们测试模型是否能预测许多此类不稳定性产生的集体效应——即在一个简化的、稳态的等离子体中产生的热量湍流输运。
层面3：集成系统。 只有在确认了这些组件之后，他们才会测试模型预测一个完整的、动态的反应堆放电中涌现出的、系统范围的现象的能力，比如向高约束模式的转变或边缘不稳定的频率。

这种自下而上的方法不仅仅是好的实践；它是科学调试的精髓。如果最高层面出现差异，可以追溯到某个特定的组件或物理定律，而其有效性范围已经在此前被描绘出来。这个过程将确认从一个简单的通过/不通过的评分，转变为科学发现的丰富源泉。至关重要的是，在每个阶段，模型的预测都与独立的实验数据进行比较，这些数据没有被用来构建或调整模型，并且所有不确定性的来源——从测量、模型的参数，甚至到验证过程中量化的残余数值误差——都被一丝不苟地追踪。

我们内在的世界：为生物学和社会建模

同样的验证和确认原则，经过适当调整，也延伸到了生物学、医学乃至社会科学这些远为混乱和复杂的领域。

在药理学中，基于生理学的药代动力学（PBPK）模型模拟药物如何在人体器官中穿行。验证涉及确保模型的代码正确地遵守质量守恒——即没有药物神奇地出现或消失 [@problem-id:4576240]。然而，确认则需要将模型预测的药物浓度曲线与从临床试验中真实患者身上采集的血样进行比较。在卫生经济学中，一个预测新癌症疗法成本效益的模型也必须在多个层面上进行确认。表面确认包括询问肿瘤学家和卫生经济学家，模型的结构和假设是否看起来合理。内部确认既包括代码验证，也包括检查模型是否能重现它校准时所依据的临床试验证据中的生存曲线。外部确认，即黄金标准，则涉及测试模型是否能预测一组完全不同的患者的结局。

校准过程本身就是应用数学的一个优美篇章。为了使模型的生存预测与试验中观察到的 Kaplan-Meier 生存曲线相匹配，建模者会估计事件发生的瞬时风险——风险率 $h_t$ 。然后他们使用生存分析中的基本关系式 $p_t = 1 - \exp(-h_t \Delta t)$ ，将这个连续时间的风险转换为他们的模型所需的离散时间月度转移概率，同时使用能够妥善处理离开研究或数据不完整的患者的统计方法。

当为更复杂的系统建模时，比如社区隔离与心理健康之间的相互作用，直接通过对照实验进行确认可能是不可能的。在这里，一个被称为面向模式的确认的强大思想发挥了作用。研究人员可能会校准他们的基于主体的模型，以匹配一些来自观测数据的已知模式——比如说，抑郁症的平均发病率及其逐年趋势。对模型的真正考验，即其确认，在于检查它是否能够再现出那些它从未被训练去匹配的其他、涌现的模式。例如，模型是否自发地产生了抑郁症病例在空间上正确的聚集程度，或者集群规模的特征分布？如果它做到了，这表明模型捕捉到了关于底层社会机制的某些真实情况，而不仅仅是曲线拟合了输入。

最后的疆域：从预测到行动

也许这种思维方式最关键和最现代的应用在于人工智能在医学中的部署。想象一个数据科学家团队开发了一个AI模型，在一个留出的测试数据集上，它能以惊人的准确度（比如说，ROC曲线下面积（AUROC）为0.95）预测哪些住院患者会发展成败血症。这个模型已经被成功确认了，对吗？

错了。这是一个极其重要的问题。被确认的只是模型在一个静态数据集上执行预测任务的能力。这是临床实用性的一个必要但远非充分的条件。我们真正关心的不是预测（ $Y$ ），而是最终的患者结局（ $Y^{\text{clin}}$ ），比如存活率。

为了评估这一点，我们必须超越模型确认，进入临床试验评估。被测试的干预措施不是模型本身，而是使用模型的警报来触发行动的整个临床策略，比如使用抗生素。忙碌的医生会听从警报吗？他们会因假警报而产生疲劳吗？对假阳性采取行动会造成伤害吗？回答这些问题的唯一方法是进行随机对照试验（RCT），其中一些患者在新的AI指导策略下接受护理，而另一些则接受常规护理。目标不再是测量一个AUROC，而是测量该策略对患者死亡率的因果效应。这是确认的终极形式：直接测试我们的地图，当交到现实世界中的真实旅行者手中时，是否真的能帮助他们到达一个更好的目的地。

从恒星的核心到社会的肌理，从计算机芯片的逻辑到医院里生死攸关的决策，验证和确认的原则构成了一条金线。它们是我们用来建立对世界模型的信任的那些严谨、谦逊而又强大的工具。它们提醒我们，我们的想法必须首先被清晰而正确地陈述（验证），然后，它们必须永远面对现实毫不留情的评判（确认）。