系统变异：机器中的幽灵与噪声中的信号

玻尔百科

核心要点

系统变异是一种一致、可重复的误差，与随机噪声不同，它不会因多次测量而被平均抵消。
它源于结构化因素，如带偏倚的仪器、观察者的期望以及被称为批次效应的环境不一致性。
虽然系统变异常常是混杂偏倚的来源，但它也可能是我们感兴趣的信号，例如生物学差异或自然选择的方向性力量。
通过盲法、随机化和统计协调等方法检测和控制系统变异，对于得出稳健的科学结论至关重要。

引言

在任何测量行为中，无论是测量桌子的长度还是分析医学扫描图像，我们的结果都绝不会完全一致。它们围绕一个中心值上下浮动，受到两种根本不同力量的影响：随机噪声和系统变异。随机噪声是不可预测的混沌，可以通过平均来驯服；而系统变异则是一种顽固的、隐藏的模式——是机器中的幽灵，持续地将我们的测量结果推离真实值。未能区分这两者可能导致错误的结论、不可靠的技术和错失的发现。本文旨在揭开系统变异的神秘面纱，揭示其在整个科学和技术领域中的深远影响。

首先，在“原理与机制”部分，我们将剖析系统变异的基本性质，将其与随机误差进行对比，并探讨其产生的多种方式——从人类观察者的偏倚到硅晶圆上的物理梯度。我们还将发现它令人惊讶的另一面——它本身就是我们所寻求的信号。然后，在“应用与跨学科联系”部分，我们将通过医学、工程学乃至基础物理学领域的真实案例研究，亲眼见证科学家和工程师如何面对、校正，有时甚至利用系统效应来推动知识的边界。

原理与机制

想象一下，你正试图测量一张桌子的长度。你拿出一把卷尺，对齐，然后读数。为了确保准确，你又测了一次。第二次的读数略有不同。为什么？也许你的手轻微抖动，或者你没有从完全相同的角度观察刻度。这些是世界上微小、不可预测的抖动。我们称之为随机变异（random variation），或噪声。如果你测量一百次桌子并将结果取平均值，这些随机抖动往往会相互抵消，你将越来越接近一个稳定、“真实”的值。

但现在，假设你不知道，你的卷尺在制造时出了错，实际上短了一厘米。你进行的每一次测量都会偏离相同的量。平均一百次，甚至一百万次测量也无法修正这个错误。事实上，平均只会让你对错误的答案更加自信。这种一致、可重复的误差就是系统变异（systematic variation）的本质。它不是随机的混沌，而是一种有序、结构化的对真实值的偏离。

理解这两种变异之间的相互作用是科学与工程领域最根本的挑战之一。这是一门在噪声中寻找信号、在混沌中发现模式的艺术。

试金石：平均的魔力

随机变异和系统变异之间最深刻的区别在于它们对重复观测的反应。让我们将我们的小思想实验形式化。我们可以将任何单次测量值 $y$ 看作是由真实值 $\hat{y}$ 、系统误差 $\delta$ 和随机误差 $\epsilon$ 组成的。因此，我们写道：

$y = \hat{y} + \delta + \epsilon$

随机误差 $\epsilon$ 纯属偶然。它为正的可能性和为负的可能性一样大。在多次测量中，其平均值，即期望（expectation），为零： $\mathbb{E}[\epsilon] = 0$ 。而系统误差 $\delta$ 则是一个顽固的偏移量。它始终存在，将我们的结果推向同一个方向。它的平均值就是它本身： $\mathbb{E}[\delta] = \delta$ 。

那么，当我们对多次测量取平均时会发生什么呢？大数定律告诉我们，随机波动，即 $\epsilon$ 项，将会平均为零。然而，系统误差却纹丝不动。通过对我们的测量方程取平均，我们发现期望的测量值是：

$\mathbb{E}[y] = \hat{y} + \delta$

多次测量的平均值给你的不是真实值 $\hat{y}$ ，而是真实值加上系统误差。随机噪声消失了，从而揭示了隐藏的偏倚。这是一个深刻而有力的思想。例如，在临床实验室中，这种与已知参考标准的系统性偏离被称为偏倚（bias），而随机波动被称为不精密度（imprecision）。两者都必须被测量和控制，以确保诊断测试的可靠性。平均可以消除随机噪声，但它只会凸显系统误差。

机器中的幽灵：系统模式从何而来？

系统变异并非某种神秘力量；它有其物理原因。它通过有偏倚的仪器、不均匀的环境，甚至我们自己头脑中微妙的偏见悄悄潜入我们的数据。

有偏倚的观察者

人类并非客观的测量设备。我们的期望会系统性地影响我们的判断。例如，在一项新型止痛药的临床试验中，一位知道患者正在接受新药治疗的医生可能会抱有希望的偏见。当在主观量表上评估患者的疼痛时，他可能会下意识地对临界状态的改善给予比接受常规治疗的患者更有利的评价。这不是随机误差；这是一种检测偏倚（detection bias），是由知晓治疗方案驱动的结果评估中的系统性差异。同样，物理治疗师可能会给予干预组的患者额外的鼓励或指导，从而引入执行偏倚（performance bias）——即在提供的护理中存在系统性差异。为了对抗这些以人为中心的系统误差，研究人员使用盲法（blinding），这是一种将谁接受何种治疗的信息对患者、护理人员和评估者保密的技术。

不均匀的世界

通常，世界本身并非均匀一致。以计算机芯片的制造为例。一块直径300毫米的硅晶圆可能并非完全平坦，或者在处理过程中温度并非完全均匀。这可能产生一种微妙的梯度——一种“靶心”图案——使得在晶圆中心制造的芯片与在边缘制造的芯片有系统性的差异。

这种不均衡竞争环境的概念随处可见。在一个大规模基因组学实验中，如果样本由两名不同的技术人员制备，他们移液技术或时间上的微小、无意识的差异，可能导致其中一名技术人员的样本质量得分持续偏低。这是一个典型的批次效应（batch effect）例子，即分不同批次处理样本会引入一种可能混淆结果的系统性、非生物学变异。“批次”——无论是技术员、实验室还是机器——都成了系统误差的来源。

误差的累积

在许多现代科学研究中，数据要经过一长串处理步骤。每一步都可能增加其自身的系统变异层。想象一项放射组学研究，试图通过CT扫描预测肿瘤的侵袭性。从患者到预测的旅程是漫长的：

采集（Acquisition）： 来自不同制造商的不同CT扫描仪有其独特的物理特性，会系统性地改变原始图像数据。
重建（Reconstruction）： 用于将原始扫描数据转换为2D图像的算法可能会引入其自身的纹理和伪影。较旧的算法可能比较新的算法系统性地模糊边缘。
分割（Segmentation）： 放射科医生或AI算法在肿瘤周围绘制边界。如果算法是在肿瘤通常以某种特定方式绘制的数据上训练的，它可能会系统性地低估或高估肿瘤体积。
特征提取（Feature Extraction）： 最后，软件根据边界内的像素计算诸如“纹理”之类的特征。“纹理”的确切定义可能有所不同，这又增加了一层系统性的扭曲。

单个系统误差或许可以管理，但当它们在每一步都累积时，最终的特征可能变成对底层生物学的扭曲反映，更多地由过程的怪癖而非疾病本身主导。

故事的转折：系统变异是反派还是英雄？

到目前为止，我们一直将系统变异视为一种麻烦，一种需要消除的偏倚。但这只是故事的一半。有时，系统变异正是我们所寻找的东西。它就是信号。

在一项医学研究中，我们可能在比较患有某种疾病的患者和健康的对照组。这两组之间的差异——在他们的蛋白质水平、基因表达或大脑活动方面——是系统变异的一种形式。受试者之间的生物学变异（biological variability）是信号，而来自我们测量仪器的技术性变异（technical variability）则是不受欢迎的系统性噪声。因此，科学家的工作不是消除所有的系统变异，而是将有意义的生物学信号与混杂的技术性伪影分离开来。

也许，系统变异作为一种创造性力量的最壮丽的例子是达尔文的自然选择。演化通过两个步骤进行。首先，随机突变和重组在可遗传性状中创造变异。其次，自然选择作用于这种变异。但选择并非随机。在给定的环境中，某些性状与更高的繁殖成功率有系统性的关联。脖子稍长的长颈鹿可以吃到更多的树叶，生存得更好，因此系统性地留下更多长脖子的后代。性状与适应度之间的这种非随机、系统性的关系是驱动适应的动力。它是一种方向性的力量，筛选随机变异的混沌，以构建生命世界中精致的秩序。从这个角度看，自然选择是我们所知的最宏大的系统过程。

见所未见，驯服猛兽

如果我们要主宰测量的世界，我们必须学会识别、理解和控制系统变异。

关键线索之一是结构。随机噪声，就其本质而言，是非结构化的。空间或时间上某一点的随机误差不会告诉你另一点的误差。然而，系统变异通常具有一种模式。晶圆上的“靶心”梯度产生了一种空间相关性：彼此靠近的两点很可能有相似的误差。通过测量这种空间自相关性，我们可以检测到隐藏的系统模式的存在，将其与纯随机性不相关的特征区分开来。

这种结构上的差异导致了随机误差和系统误差在行为方式上一个优美的数学区别。对于像MOSFET晶体管这样的系统中的局部随机波动，器件不同部分的误差是独立的。当你把器件做得更大时，你实际上是在对更多这些独立的随机部分进行平均。误差的总方差会平均掉，标准差随着器件面积的平方根减小（ $\sigma \propto 1/\sqrt{WL}$ ）。这个著名的关系被称为Pelgrom定律。但一个跨越整个芯片的全局系统梯度则表现不同。它在两个晶体管之间产生的不匹配不取决于它们的尺寸，而是取决于它们之间的距离 $D$ 。其方差与 $D^2$ 成正比。它不会随着面积的增加而被平均掉。

这为我们提供了一个强大的工具包。我们可以使用盲法和随机化来从一开始就防止系统偏倚的产生。我们可以设计实验来分离我们想要的系统信号（生物学变异）和我们不想要的系统噪声（技术性变异）。我们还可以构建更好的模型。在机器学习的语言中，不确定性中不可简化的、随机的部分被称为偶然不确定性（aleatoric），源自拉丁语的“骰子”。而我们可以通过更好的模型或更多数据来减少的部分——包括由于模型设定不当导致的系统误差——被称为认知不确定性（epistemic），源自希腊语的“知识”。

在某种意义上，探索和控制系统变异的追求，就是科学本身的故事。这是一段超越随机偶然的闪烁迷雾，去观察世界底层结构，并区分我们机器中的幽灵与自然界真实而系统的模式的旅程。

应用与跨学科联系

在我们迄今的旅程中，我们学会了用一种新的视角来看待世界——一种能区分随机噪声的混沌、不可预测的波动与系统变异的安静、持续的拉力的视角。我们已经看到，这种变异不仅仅是统计学上的麻烦，而是测量、建模乃至自然本身的一个基本特征。现在，我们将从抽象走向现实世界。我们将成为侦探，在广阔的科学技术领域中追寻系统变异的踪迹。

我们的探寻将揭示一个深刻的真理：通过学习观察、建模和驾驭这个“机器中的幽灵”，我们不仅使我们的科学更加稳健，技术更加可靠，而且还对我们周围世界错综复杂、且常常是系统性的设计有了更深的欣赏。

生命密码中的幽灵：生物学与医学

在现代探索人类健康的征途中，从基因的微妙舞蹈到让我们得以窥视自己身体内部的影像，系统变异是区分混淆与清晰的混杂因素。

想象一下，位于世界两端的两个实验室，正在合作进行一项关键实验。他们使用相同品系的酵母，并遵循他们认为是完全相同的方案来测量单个基因的活性。然而，当他们分享结果时，来自一个实验室的数据点都持续高于另一个实验室。即使在应用了标准的统计归一化之后，这两组数据仍然无法融合，保持着两个截然不同的云团。发生了什么？他们刚刚目睹了一个典型的批次效应（batch effect）案例。

这是最纯粹形式的系统变异。差异并非源于底层的生物学——那已经被控制为恒定。相反，它源于一系列微妙的、非生物学的差异：测量仪器上略有不同的校准、一批新的化学试剂、室温的差异，甚至是执行操作的技术人员的独特手法。在基因组学领域，我们使用RNA测序等技术同时比较成千上万个基因，这些批次效应是一个主要挑战。一个现代基因组学实验就像一条多步骤的流水线，每个阶段——从提取RNA到制备测序文库再到测序运行本身——都可能在最终数据上烙下其独特的系统性印记。如果不考虑这些效应，研究人员可能会错误地得出结论，认为某个基因与一种疾病有关，而实际上它只与样本的处理日期有关。

科学家们已经发展出非常巧妙的方法来诊断和校正这些变异。例如，在DNA微阵列时代，一个臭名昭著的问题是“染料偏倚”（dye bias），即用于标记不同样本的两种荧光染料会以不同的效率结合，并且这种差异本身会随着信号亮度的变化而变化。当以一种特殊方式绘制（在所谓的“MA图”上）时，这种系统的、依赖于强度的误差会呈现为一条令人沮-丧的曲线，而所有数据本应位于一条直线上。解决方案是什么？一种名为LOESS归一化的优美统计技术，它拟合一条灵活的局部曲线到趋势上并将其减去，从而有效地“拉直”数据，去除技术性伪影，以揭示真实的生物学信号。

这个挑战并不仅限于试管中；它存在于那些彻底改变了医学的机器里。 “放射组学”（radiomics）领域旨在从CT或MRI等医学图像中提取数千个量化特征，以帮助预测疾病结果。但伦敦的一台CT扫描仪与东京的一台并不相同。硬件、采集方案以及用于重建图像的软件的差异，共同造成了扫描仪特有的系统变异。我们可以认为，真实的底层图像 ( $I^{\ast}$ ) 在每个医院站点 ( $b$ ) 都被特定于该站点的偏移量 ( $a_b$ ) 和增益 ( $s_b$ ) 所扭曲，从而产生观测到的图像 $I_b \approx a_b + s_b I^{\ast} + \text{noise}$ 。这种“图像的批次效应”是一个关键障碍。一个在某家医院的图像上训练的AI算法，在另一家医院的图像上可能表现不佳，不是因为生物学不同，而是因为它无意中学习了扫描仪的系统性特征。“数据协调”（data harmonization）学科致力于理解和逆转这些扭曲，使我们能够从全球构建大规模、可信赖的医学数据集。

最后，最复杂的系统误差来源往往是我们自己。在旨在揭示人群中疾病原因的流行病学中，“信息偏倚”（information bias）是一个持续存在的担忧 [@problem-id:4504831]。如果一项研究要求患有某种疾病的人回忆他们过去十年的饮食习惯，他们的记忆可能会因其状况而产生无意识的偏倚——他们可能会比健康人更努力地在记忆中搜寻潜在的病因。这种“回忆偏倚”（recall bias）是一种系统误差。为了对抗它，研究人员采用严谨的方法。他们使用盲法（blinding），让评估者不知道参与者的疾病状况，以防止他们自己的偏见影响数据收集。他们强制执行标准化方案（standardized protocols），确保每个问题都以完全相同的方式提问。并且，只要有可能，他们就依赖客观测量（objective measures）——血液测试中的定量生物标志物比易错的人类记忆更不易受到偏倚的影响。在这里，对抗系统变异的斗争变成了在面对我们自身复杂心理时为客观性而进行的斗争。

工程未来：驯服技术中的变异

如果说系统变异是在医学中需要驱除的幽灵，那么在工程学中，它就是一头需要驯服的猛兽。在凡事讲求精度的前沿技术世界里，控制变异是成功的基石。

以现代微芯片为例，这是一个包含数十亿个晶体管的奇迹，每个晶体管都比病毒还小，被图案化到一片硅上。制造这种芯片的过程是在两条战线上进行的战斗。第一条战线是对抗随机缺陷：一粒飘忽的尘埃颗粒可能落在晶圆上，毁掉一个芯片。第二条战线是对抗系统变异：光刻过程中微小、可预测的瑕疵——比如激光在晶圆上一个轻微、缓慢变化的散焦——可能导致整个区域的晶体管被错误地印刷出来。

来自良率数学的一个关键见解是，这两种失效模式是独立的，它们的概率是相乘的。总良率，即功能正常的芯片比例，是免于系统误差的概率乘以免于随机缺陷的概率： $Y = P_{\text{sys}} \times P_{\text{rand}}$ 。这种乘法关系意味着你不能忽视任何一个敌人。即使你有99%的几率避免系统误差（ $P_{\text{sys}} = 0.99$ ），并且有99%的几率避免随机颗粒缺陷（ $P_{\text{rand}} = 0.99$ ），你的总良率也不是99%。它是 $0.99 \times 0.99 \approx 0.98$ 。损失是累积的。因此，工程师们实践“可制造性设计”（Design for Manufacturability, DFM），这是一种整体策略，既包括扩大工艺窗口（使设计对系统性工艺变异更具鲁棒性），也包括减少“关键区域”（设计布局，使随机颗粒不太可能击中关键部分）。

然而，有时系统误差不在工厂里，而在我们自己的科学模型中。当工程师将离子注入硅中以改变其电学特性时，他们使用数学模型（通常是一个简单的高斯（钟形）曲线）来预测离子的穿透深度。但自然界可能更为微妙。在像硅这样的晶体中，一些离子会找到原子晶格中的开放“通道”，并比简单模型预测的要深入得多 [@problem-id:4107254]。这意味着我们的模型是系统性错误的；它持续低估了分布的深“尾部”中的离子数量。

我们如何能检测到这样一个微妙、系统的缺陷？如果我们只是计算模型的总误差，那些与峰值附近吻合得很好的大量离子很容易掩盖掉尾部的小差异。我们需要一个更灵敏的探测器。残差累积和（CUSUM）图就是这样一种工具。残差就是我们观察到的值与模型预测值之间的差异。如果模型是正确的，残差应该是随机的，围绕零波动。如果我们逐个将它们相加，累积和只会漫无目的地游走。但是，如果存在一个区域，我们的模型系统性地偏低，那里的残差将持续为正。在CUSUM图中，这种微小但稳定的正误差会累积起来，导致图形呈现出急剧向上的轨迹。这是一个优美的统计技巧，能将一个安静、系统的低语放大成一个不可否认的呐喊，告诉我们，我们对世界的理解是不完整的。

从无穷小到无穷大：统一的原理

驾驭系统效应的原理是普适的，它指引着我们寻找宇宙最基本的粒子，甚至塑造了生命本身的蓝图。

在大型强子对撞机（LHC），物理学家们寻找新粒子，其信号是埋藏在堆积如山的背景事件下难以想象的微弱信号。要宣告一项发现，他们必须对这些背景有极其精确的理解。他们构建一个详细的统计模型，其中任何给定测量区间中的预期事件数是已知背景和潜在新信号的总和： $\nu = \mu s + b$ 。问题在于他们的知识并非完美。探测器的能量校准可能有百分之零点几的偏差。某个背景过程的理论预测可能有其自身的不确定性。这些不完美中的每一个都是一个“系统不确定性”，一个会移动和扭曲预测的讨厌参数。

为了处理这个问题，物理学家们采用了一种惊人强大的技术。对于数百个不确定性中的每一个，他们创建备用的“模板”模型——如果那个参数上移一个标准差，背景会是什么样子，以及下移一个标准差会是什么样子。然后，他们构建一个宏大的似然函数，其中包含了所有不同搜索通道的所有数据以及所有这些系统变异。在一场大规模的计算壮举中，他们同时找到所有参数的最佳拟合值。数据本身告诉他们每个系统性偏移可能有多大。这就像试图调校一个庞大的交响乐团，其中数百种乐器可能都略微跑调。通过同时聆听整个交响乐，指挥可以弄清楚如何调整每个独立的演奏者，以揭示真实、底层的旋律。正是通过驾驭这曲系统学之交响，希格斯玻色子才被发现。

这就引出了我们最后一个，也可能是最深刻的例子。如果系统变异不是一个需要纠正的缺陷，而是自然界的一个基本设计原则呢？问自己一个简单的问题：为什么大象不只是一只巨大的老鼠？为什么你不能拿一只老鼠，将其所有尺寸放大，比如说50倍，然后得到一头能正常运作的大象？

答案在于尺度的物理学，这是一个力学约束（mechanical constraint）的优美例子。如果你将动物的线性尺寸 $L$ 增加 $s$ 倍，它的体积——因而在密度恒定的情况下，其质量——会增加 $s^3$ 倍。它必须支撑的引力与 $L^3$ 成正比。然而，起支撑作用的骨骼的横截面积只增加了 $s^2$ 倍。机械应力是力除以面积（ $\sigma = F/A$ ）。因此，我们按比例放大的生物的骨骼所受的应力与 $L^3/L^2 = L$ 成正比。一头按几何比例放大的大象，其骨骼将承受如此巨大的应力，以至于会立即粉碎。

为了生存，演化被迫寻找不同的解决方案。随着动物体型变大，它们的骨骼必须变得比几何相似性所预测的要不成比例地更粗壮、更坚固。这是由不容置疑的物理定律所决定的，对简单缩放的系统性偏离。但这并非唯一的约束。生态约束（ecological constraint）同样适用。一匹马，为在开阔平原上进行高效长跑而生，其四肢修长，与同等质量、为在树上敏捷攀爬而优化的猴子的四肢大相径庭。每种生活方式都要求一种不同的、系统性的偏离单一的、力学上理想化的形式。动物王国中形式和功能惊人的多样性，在很多方面，都证明了自然界为解决系统性尺度约束问题而演化出的无数种方式。

从实验室里的一个统计误差到一头大象的构造，故事都是一样的。世界不是独立、随机事件的集合。它是一个复杂的、相互连接的系统，充满了相关性、依赖性和系统性效应。要成为一名优秀的科学家、一名优秀的工程师，甚至只是一个对自然世界充满好奇的观察者，就是要成为一名追踪这些系统模式的侦探。因为在理解它们的过程中，我们不仅能找到更好的数据，还能获得一个更深刻、更诚实，并最终更美丽的对现实的洞见。