首页方差分解

方差分解

玻尔百科

定义

方差分解是一种统计分析技术，旨在将结果的总变异拆分为由特定因素引起的解释部分和未解释的残差部分。该方法通过方差分析或多层模型等工具，量化相关预测因子在生态学、遗传学和临床试验等领域中的独特或共同贡献。利用总离差平方和的几何分解，研究人员可以计算遗传学中的遗传率，或在嵌套数据结构中区分临床医生效应与患者个体差异。

核心要点

方差分解将结果变量的总变异分解为可解释部分（由特定因素引起）和不可解释部分（残差）。
方差分析（ANOVA）可以从几何角度看作将数据投影到一个模型上，其中总平方和的分解如同一个直角三角形。
多水平模型运用方差分解来处理嵌套数据结构，例如在临床试验中将治疗师效应与患者变异性分离开来。
该方法使科学家能够量化相关预测变量的独有贡献和共同贡献，例如在生态学中厘清环境效应和空间效应。
在遗传学中，方差分解被用于计算遗传力，甚至可以将其归因于基因组的特定功能区域。

引言

世界充满了变异——患者对药物的反应、土地的作物产量以及人类的各种经历。科学的根本目标不仅是观察这种变异性，还要理解其来源。但是，我们如何系统地厘清导致任何给定结果的多种、往往相互重叠的因素呢？本文将介绍方差分解，这是一个强大的统计框架，旨在通过剖析总变异并将其归因于特定的、可量化的来源，来精确回答这一问题。首先，我们将探讨其核心的“原理与机制”，深入研究全方差定律、方差分析（ANOVA）背后优雅的几何视角以及为复杂数据结构建模的逻辑。随后，“应用与跨学科联系”一章将展示这一思想如何成为一把万能钥匙，在遗传学、生态学、医学和心理学等迥然不同的领域中 unlocking insights，揭示解释拼图中每一块碎片的真正力量。

原理与机制

为什么有些患者对新药反应显著，而另一些患者则毫无改善？为什么有些地块作物丰收，而相邻地块却收成较差？为什么一个人的大脑在听到一段旋律时活动纷繁，而另一个人的大脑却波澜不惊？世界是一幅由变异织成的挂毯。科学的宏伟追求不是忽略这种变异，而是解释它。方差分解（Partitioning of variance）正是我们用于实现这一追求的最强大的智力工具之一。它如同一把统计学的手术刀，让我们能够剖析我们在结果中观察到的总变异，并将其中的不同部分归因于不同的、可量化的来源。它为不确定性提供了一份预算，向我们展示了哪些知识是确凿的，哪些仍然是初步的。

其核心在于，方差分解是一种提问方式：“在导致结果差异的所有原因中，有多少差异可归因于原因A，多少可归因于原因B，又有多少归因于它们的相互作用？”这个想法的美妙之处在于其普适性。同样的基本原理可以帮助生态学家理解山上物种的多样性，帮助遗传学家揭示先天与后天的贡献，也可以帮助神经科学家解码大脑如何处理语言。

会计师的账本：全方-差定律

在深入探讨复杂模型之前，让我们从一个支撑一切的深刻真理开始：全方差定律（Law of Total Variance）。想象一下，你正试图理解人们年收入的差异，这个差异是巨大的。但现在，假设一位会计师为你提供了每个人的一个额外信息：他们的职业。

瞬间，情况变得清晰起来。你现在可以从两种变异的角度来思考。首先，是每个职业内部的收入差异。外科医生的平均收入可能很高，但个体外科医生的收入仍有一定范围。这是不可解释方差或残差方差（unexplained or residual variance）——即使你知道了群体，不确定性依然存在。其次，是不同职业平均收入之间的差异。外科医生的平均收入与教师的平均收入大相径庭。这是可解释方差（explained variance）——总收入变异中可以通过职业信息来解释的部分。

全方差定律将这种直觉形式化。对于任何结果 $Y$ 和任何解释性因素 $X$ ，它陈述如下：

\operatorname{Var}(Y) = \operatorname{Var}(\mathbb{E}[Y \mid X]) + \mathbb{E}[\operatorname{Var}(Y \mid X)]

我们不必被这些符号吓倒。左边的项 $\operatorname{Var}(Y)$ 是我们想要解释的总变异。右边的第一项 $\operatorname{Var}(\mathbb{E}[Y \mid X])$ 是“可解释”部分——条件均值的方差（即不同职业平均收入之间的变异）。第二项 $\mathbb{E}[\operatorname{Var}(Y \mid X)]$ 是“不可解释”部分——各组内部方差的平均值（即每个职业内部收入变异的平均值）。

这个简单的定律是一切的基础。它保证了我们总能将总方差分解为我们可以解释的部分和我们（暂时）无法解释的部分。这不仅仅是一个学术练习，它具有深远的实际意义。例如，在设计一个包含多个阶段的复杂计算机模拟时，该定律有助于确定在每个阶段应运行多少样本，以便在固定的计算预算下最小化最终估计值的总体不确定性。通过巧妙地对模拟进行分层，我们可以有效地从最终估计量中消除“阶段间”方差，只留下“阶段内”方差，并通过合理的样本分配来管理。

几何视角：统计学中的毕达哥拉斯定理

代数固然强大，但我们的大脑往往渴望一幅图像。令人惊讶的是，方差分解有一个优美的几何解释。想象一下你观察到的一个结果的所有数据点——比如 $n$ 个患者的血压——构成 $n$ 维空间中的一个向量 $y$ 。这只是广阔空间中的一个点，代表你测量的特定现实。总变异（具体来说，是平方和）与该向量长度的平方有关。

现在，你的科学模型——基于诸如每个患者接受何種治疗等预测变量——并不能填满整个空间。它在其中定义了一个更小、更平坦的区域，称为模型子空间（model subspace）。对于一个简单模型，这可能是一条线；对于更复杂的模型，它可能是一个平面或更高维的“超平面”。

你的模型能做出的最佳预测是什么？它是你的数据向量 $y$ 在这个模型子空间上的正交投影（orthogonal projection）。可以把它想象成你的数据向量投射在模型世界上的“影子”。我们称这个影子为 $\hat{y}$ 。剩下的部分，即影子与实际数据点之间的连接，是残差向量 $e$ 。根据构造，这个误差向量与模型子空间是垂直的（正交的）。

奇妙之处在于：数据向量 $y$ 、其预测值 $\hat{y}$ 和误差向量 $e$ 在这个高维空间中构成了一个直角三角形。毕達哥拉斯定理告诉我们，斜边的平方等于其他两条边的平方和。用统计学术语来说，这意味着：

\|y\|^2 = \|\hat{y}\|^2 + \|e\|^2

这直接转化为方差分析（Analysis of Variance, ANOVA）中著名的平方和分解：总平方和等于模型平方和加上误差平方和。这种几何洞察揭示了ANOVA并非某个随意的代数配方；它是将数据投影到模型上的一个深刻结果，是毕達哥拉斯定理在统计学上的体现。正是这种几何视角赋予了F统计量强大的威力，因为它本质上是这些正交分量长度平方（方差）的比率。[@problemid:4965595]

构建模型：从简单分组到复杂结构

掌握了这些原则，我们就可以着手解决真实的科学问题。

简单比较与F检验

最直接的应用是比较几个不同组的均值——例如，评估几种不同药物相对于安慰剂的疗效。我们的模型仅仅根据患者接受的药物将其分类。方差分解将患者结果的总变异清晰地划分为“组间”部分（由药物引起）和“组内”部分（同一组患者之间的随机变异）。如果组间变异相对于组内变异很大，我们就有信心认为药物具有真实效果。这两个方差的比值（在考虑了组数和数据点数量后）就是著名的F统计量，是我们进行检验的正式工具。

交叉设计与嵌套设计

现实生活很少如此简单。通常，我们有多个因素影响一个结果。我们分解方差的方式关键取决于这些因素之间的关系。

考虑一项研究，它既考察一种新疗法，也记录参与者的性别。在这里，因素是交叉的（crossed）：治疗和性别的每一种组合都存在于研究中（例如，接受治疗的男性、未接受治疗的男性、接受治疗的女性、未接受治療的女性）。现在我们的方差分解可以更加精细。我们可以问：

有多少方差是由治疗引起的？（治疗的主效应）
有多少是由性别引起的？（性别的主效应）
有多少是由交互作用（interaction）引起的？这种治疗对某一性别的效果是否优于另一性别？这就是治疗×性别的交互项。
剩下多少是残差？

相比之下，考虑一项研究，其中患者是从几个不同的诊所抽取的。来自A诊所的5号患者与来自B诊所的5号患者是完全不同的人。“患者”这个因素嵌套（nested）在“诊所”这个因素之内。询问“5号患者”在所有诊所中的效应是没有意义的。模型的结构是层级的。方差也相应地进行分解：首先，我们有诊所之间的方差。然后，我们有每个诊所内部患者之间的方差。最后，如果我们对每个患者进行多次测量，我们还有每个患者内部的方差。这种嵌套结构至关重要，因为它决定了检验诊所效应显著性的正确“标尺”（误差项）。要看诊所之间是否存在差异，我们必须将诊所间方差与诊所内患者的方差进行比较，而不是与最低级别的测量误差进行比较。

现实的混乱：重叠的原因

到目前为止，我们大多想象我们的原因变量是独立的。但如果它们不是呢？在一项沿山坡进行的生态学研究中，温度和降水量通常密切相关：海拔较高的地方更冷，但可能雨水更多。如果这两个因素都影响物种丰富度，我们如何厘清它们各自的效应？

这就是共线性（collinearity）问题。如果我们天真地只用一个因素（比如温度）建立模型，它的系数将会是一个谎言。它会吸收相关的、被遗漏的因素（降水量）的效应，导致遗漏变量偏误（omitted variable bias）。如果我们两者都包含，我们对每个系数的估计会变得远不精确；它们的抽样方差会膨胀。

方差分解为思考和沟通这种模糊性提供了一种异常清晰的方式。当我们用温度和降水量拟合一个模型时，我们可以将物種丰富度的可解释方差分解为三部分：

温度的独有方差： 只能由温度解释的丰富度变异部分。
降水量的独有方差： 只能由降水量解释的部分。
共享方差： 任何一个预测变量都可以解释的部分，因为它们携带了冗余信息。

仅凭这份数据，我们无法将这块共享的蛋糕归因于某个单一原因。这不是方法的失败；而是当原因交织在一起时，它诚实地反映了我们知识的局限性。同样的逻辑在神经科学等领域至关重要，研究人员试图解释大脑对自然语言的活动反应。声学特征（声波）、音位特征（语音）和语义特征（意义）都是相互关联的。通过拟合一系列嵌套模型，研究人员可以将大脑反应的方差分解为每个特征空间独有的部分和共享的部分，从而 nuanced地描绘出大脑处理语言的方式。

交互作用的微妙之舞

让我们回到交互作用的概念，因为它比模型中多一个项要深刻得多。想象一下反应规范（reaction norm），这是一个图表，展示了特定基因型的性状（如植物的高度）如何在一系列环境（如土壤质量）中变化。

如果没有基因型-环境交互作用（G×E），所有基因型的反应规范都是平行的。遗传上更优越的植物在所有环境中都更优越。但如果存在交互作用，这些线就会交叉！基因型A可能在贫瘠的土壤中茁壮成长，而基因型B虽然在贫瘠土壤中表现不佳，但在肥沃的土壤中可能远远超过A。这种非平行性就是G×E的本质。

我们的完整方差预算必须考虑到这一点。总表型方差（ $V_P$ ）是遗传方差（ $V_G$ ）、环境方差（ $V_E$ ）以及这个关键的交互作用方差（ $V_{G \times E}$ ）之和。此外，如果某些基因型非随机地出现在某些环境中（例如，耐旱基因型在干旱地区更常见），我们还必须加上一个基因-环境协方差项， $2\mathrm{Cov}(G,E)$ 。完整的方程式 $V_P = V_G + V_E + V_{G \times E} + 2\mathrm{Cov}(G,E)$ ，是对自然群体中变异来源的完整核算。

这种思维方式——将方差分解为可归因于不同因素的部分——延伸到了固定效应（fixed effects）和随机效应（random effects）的区别上。固定效应是我们感兴趣的特定水平（例如，我们选择的药物剂量）。随机效应代表从更大群体中抽样的水平（例如，多中心试验中的诊所，被视为所有可能诊所的一个样本）。通过拟合一个混合效应模型（mixed-effects model），我们可以将方差分解为由我们的固定预测变量解释的部分、由诊所间的随机变异贡献的部分（ $\sigma_{b}^{2}$ ），以及最终的残差。这使我们不仅可以计算一个 $R^2$ ，而是两个：一个边际 $R^2$ （marginal $R^2$ ）用于仅由固定效应解释的方差，以及一个条件 $R^2$ （conditional $R^2$ ）用于由整个模型（固定和随机效应共同）解释的方差。

从简单的均值比较到基因组与环境的复杂结构，方差分解的原理提供了一种统一的语言和一个强大的分析框架。它证明了这样一个理念：通过系统地解释我们所知道的，我们可以精确地描述我们所不知道的，从而为下一个发现铺平道路。

应用与跨学科联系

在掌握了方差分解的原理之后，你可能感觉自己有点像一个刚学会国际象棋规则的学生。你知道棋子如何移动，但你尚未见识过大师对弈中那令人叹为观止的美妙棋局。这种分解方差的抽象思想究竟在何处大放异彩？你会欣喜地发现，答案是：无处不在。方差分解不仅仅是一项统计工作，它是科学家们审视世界的通用镜头，一把万能钥匙，能打开那些语言似乎都互不相通的迥异领域的门。让我们踏上一段跨学科之旅，看看这个原理在实践中的应用。

从工厂车间到临床：驯服测量误差

想象你制造了一台极为灵敏的新温度计。你用它测量一杯水的温度，读数是 $25.01^\circ \text{C}$ 。片刻之后，读数变为 $25.03^\circ \text{C}$ 。第二天，你的同事用它测量，得到 $24.98^\circ \text{C}$ 。到底是水温真的在波动，还是你的温度计有点不稳定？在你测量世界之前，你必须先测量你的测量工具。

这个基本问题是從制造业到医学等所有领域质量控制的核心。在临床实验室中，一台定量PCR仪通过报告病毒遗传物质被检测到所需的扩增循环数来测量病毒载量。循环数越低，意味着初始载量越高。医生决定开始或更改治疗方案可能就取决于这个数字的微小变化。因此，实验室必须问：如果我们对同一个病人的样本运行两次，结果会相差多少？如果两个不同的实验员对同一个样本进行操作，他们的结果会有多大差异？

在这里，方差分解成为了英雄。分析人员可以设计一项研究，让多个操作员对多个样本进行多次测量。然后，他们使用统计模型将观察到的总方差分解为其组成部分：有多少方差是由于病人样本间的真实差异，有多少是由于操作员之间的差异，又有多少仅仅是机器在单次测量中固有的、不可避免的随机性？通过将方差分离为这些部分——通常称为重复性（repeatability，机器自身的抖动）和再现性（reproducibility，跨操作员或条件的变异）——实验室可以为其测试的可靠性给出一个精确的数值。他们可以确定他们的测量系统是一个精调的科学仪器，还是一个不适合临床决策的嘈杂设备。

人的因素：关于治疗师、社区和嵌套世界

让我们从实验室的精确世界转向奇妙而复杂的人类世界。假设我们正在测试一种新的成瘾治疗方法。我们进行了一项有数百名客户和数十名治疗师参与的临床试验。研究结束时，我们想知道这种疗法是否有效。但稍加思索就会发现一个复杂情况：客户不是独立的原子。他们由治疗师治疗，而每个治疗師都有自己的风格、个性和技巧。完全有可能，由魅力十足、经验丰富的Dr. Smith治疗的客户会比由新手Dr. Jones治疗的客户表现得更好，无论疗法本身如何。

如果我们忽略这一点，就会犯下严重错误。我们把来自同一位治疗师的客户当作独立的数据点，而实际上他们的结果很可能是相关的。他们是聚集的。方差分解，以多水平模型（multilevel models）的形式，优雅地解决了这个问题。它允许我们对数据的嵌套结构进行建模：客户嵌套于治疗师之内。然后我们可以将患者结果的总方差分解为两个层次：治疗师之间的方差，和每个治疗师内部客户之间的方差。治疗师间方差占总方差的比例，即组内相关系数（ICC），直接衡量了治疗师的影响力。它告诉我们结果变异中有多大比例是由于客户恰好遇到了哪位治疗师。这不僅让我们对疗法效果的评估更为诚实，还开辟了一条新的研究思路：为什么有些治疗师比其他人更有效[@problemid:4731210]？

这种嵌套的思想无处不在。我们可以将逻辑从两个层次扩展到三个或更多层次。人们生活在家庭中，家庭位于社区内，社区又在不同的区域里。如果我们研究城市绿地与健康之间的联系，我们可以将身体质量指数的方差分解为区域的部分、区域内社区的部分以及社区内个人的部分。这告诉我们背景在哪个地理尺度上最为重要。健康状况的差异更多地体现在一个区域与另一个区域之间，还是在同一区域内一个社区与另一个社区之间？方差分解提供了这张地图。

生物学家的难题：解开自然的结

在生物学领域，厘清多种重叠原因的挑战尤为严峻。在这里，方差分解成为生物学家不可或缺的手術刀。

信号与噪声

现代生物学是一个大数据的事业。一个对肿瘤中的基因或肠道中的微生物进行测序的实验就能产生数十亿个数据点。这些实验通常漫長而复杂，涉及许多技术步骤：提取DNA、在不同的实验室批次中制备、在不同的多孔板上运行，以及在不同的测序仪上进行测序。每一步都是一个潜在的噪声来源——一种“批次效应”，它可能在数据上留下自己的印记，掩盖你试图探测的微妙生物学信号。

我们在癌症患者和健康个体之间看到的差异是真实的生物学信号，还是仅仅因为我们在不同日子处理了他们的样本？线性混合效应模型是方差分解的强大工具，它允许我们同时拟合所有这些效应。我们可以对真实生物学分组（患者 vs. 对照组）引起的方差建模，也可以对批次、板和操作员引起的方差建模。通过估计每个方差分量的大小，我们可以精确量化我们数据中的变异有多少是我们关心的信号，有多少是我们必须考虑的技术噪声。这一点至关重要，以至于它已成为单细胞基因组学等领域的标准质量控制步骤，研究人员设计各种指标来评估生物学方差（例如，患者之间的差异）是否显著大于来自技术来源的干扰方差。

同样的逻辑也适用于发育生物学最前沿的领域。科学家们用干细胞培育“微型大脑”（类器官），面临着令人眼花缭乱的变异层级。这些类器官来自不同的细胞克隆，而这些克隆又来自不同的人类供体，并在不同的培养批次中生长。要测试来自某个供体的特定基因是否影响类器官的发育，就必须穿过这个迷宫。通过方差分解，研究人员可以统计上剥离掉因批次和克隆引起的变异层，从而分离出供体及其基因的真实效应。

分解生态学难题

生态学家和进化生物学家在试图理解跨景观的生命模式时也面临类似的挑战。为什么某些物种会出现在它们所在的地方？生态学中最深刻的争论之一是环境与空间过程的相对重要性。森林中的一个树木群落是由都适应当地土壤条件的物种组成的（环境筛选），还是仅仅由种子能够到达那里的物种组成的（扩散限制）？

通常，这两个过程是相关的；邻近的地点往往有相似的环境。我们如何区分它们？变差分解（Variation partitioning）提供了一个优雅的解决方案。生态学家可以测量一组环境变量（温度、pH值等）和一组空间变量（从地理坐标导出）。然后他们拟合一系列模型，将物种组成的变异分解为三个部分：一个“纯”环境部分（只能由环境解释的变異），一个“纯”空间部分（只能由地理位置解释的变異），以及一个无法唯一归因于任一方的共享部分。这使他们能够量化这些基本生态过程的相对重要性。

同样的逻辑也可用于解决引人入胜的进化难题。考虑一种共生于深海管虫体内的细菌。如果我们发现遗传上相似的细菌存在于遗传上相似的宿主管虫体内，这可能是一个经典的协同进化案例。但如果那些相关的管虫也恰好生活在彼此附近呢？这种模式同样可以由地理位置解释。通过收集共生体遗传距离、宿主系统发育距离和地理距离的数据，研究人员可以分解共生体遗传学的方差，看看有多少是其宿主进化树唯一解释的，又有多少是由其在海底的位置解释的。通过这种方式，一个看似棘手的问题变得可以量化。这种通用方法是生态学中的主力军，用于从解开土壤微生物与土壤化学对植物生长的影响到理解跨大陆生物多样性的驱动因素等各种研究。

破解生命密码：分解我们的基因遗产

我们的旅程终点是我们之所以为我们的核心：我们的基因组。一个世纪以来，遗传学家一直在寻求回答这个问题：对于一个给定的性状，如身高或心脏病风险，人与人之间的差异有多少是由于他们的基因？这个量，称为遗传力（heritability），本身就是方差分解的产物——它是总表型方差中可归因于遗传方差的比例。

但今天，我们可以提出一个更微妙、更强大的问题。我们知道，我们DNA的某些部分包含了蛋白质的蓝图，而其他广阔的区域则发挥着调控作用，开启和关闭基因。那些导致疾病的遗传变异是否倾向于落在某一种类型的区域而不是另一种？

利用我们之前见过的LMM框架的一个复杂扩展，遗传学家现在可以将总遗传方差（遗传力）分解为对应于基因组不同功能“注释”的部分。通过为编码区的所有变异、调控区的所有变异等分别构建遗传相似性矩阵，他们可以拟合一个模型来估计每个注释的独立方差分量。结果是对遗传力的惊人分解，不仅告诉我们一个性状在多大程度上是遗传的，还告诉我们这种遗传影响来自我们基因组的何处。这为复杂性狀和疾病的生物学机制提供了深刻的线索，指导着寻找新疗法的方向。

从PCR仪到人类基因组，从治疗师的办公室到大陆生态系统，方差分解证明了科学方法的统一性。这是一个简单而深刻的思想，为定量探究提供了一种通用语言。每当我们面对多个纠缠不清的原因，并有勇气不仅问“是否”，而且问“多少”时，它就是我们所倚重的工具。