
科学探索的核心,是在一个看似无穷变化的世界中寻找秩序。从波动的股票价格到多样的基因表达,我们的目标是建立模型来捕捉潜在的模式并解释事物为何变化。但是,对于我们的模型无法解释的变异,我们该如何看待?这部分剩余的、无法解释的方差,通常被视为纯粹的统计噪声或模型失败的标志。本文挑战了这一观点,将无法解释的方差重新定义为知识的前沿,而非终点。它是一个路标,指向更深层次的复杂性和下一波科学发现的浪潮。
本文将引导您了解方差的双重性质。在第一章 “原理与机制” 中,我们将揭开核心统计概念的神秘面纱,分解总变异如何被划分为模型能解释的部分和模型遗漏的部分。我们将探讨决定系数()等基础工具,并了解这一原理如何统一方差分析(ANOVA)和主成分分析等多种方法。随后,在 “应用与跨学科联系” 中,我们将从“如何做”转向“为何重要”,穿越药理学、生态学、金融学和人工智能等不同科学领域,见证对无法解释方差的分析如何成为深刻见解和突破性研究的催化剂。
在我们理解世界的旅程中,我们不断面对变化。没有两块智能手机电池的续航时间完全相同;没有两颗恒星的亮度完全一致;没有两个人类个体完全一样。这片变化的海洋并非全然混沌;它包含着模式,低语着潜在的规律和关系。任何科学探索的第一步是量化这种变化,第二步是尝试解释它。无法解释的方差的故事,正是这个崇高且时常令人谦卑的探索之旅的故事。它关乎我们所知、我们所不知,以及我们如何衡量二者之间的界限。
想象你是一位博物学家,收集了一种新昆虫物种的样本。你测量了每一只昆虫的腹部长。你会得到一串数字,而且它们不会完全相同。我们如何用一个数字来捕捉这些测量的“混乱度”或“离散程度”呢?
我们可以从计算平均长度开始,我们称之为 。这个平均值给了我们一个中心点,但没有告诉我们任何关于变异的信息。一个简单的想法是,对于每只昆虫 ,看看它偏离平均值多远,即 。有些是正数(比平均值长),有些是负数(比平均值短)。如果我们直接将这些偏差相加,它们会相互抵消,总和为零!这没什么用。
为了解决这个问题,我们可以将每个偏差平方,使其全部变为正数,然后将它们相加。这个量,,被称为总平方和(SST)。它是我们衡量数据总变异的基本指标。如果所有昆虫都一模一样,SST 将为零。它们差异越大,SST 就越大。可以把它看作是数据集中的总“意外程度”;如果你猜测每只昆虫都是平均水平,SST 衡量的是你猜测的总平方误差。
现在,假设我们对每只昆虫还有另一个测量值:它的胸宽 。也许两者之间存在关系。如果我们将腹部长()对胸宽()作图,我们可能会看到一团点,暗示着一种趋势——也许胸宽较宽的昆虫腹部也较长。
我们寻找模式的尝试,就像试图在这团数据点中画一条最能捕捉趋势的直线。这条线就是我们的模型。对于任何给定的胸宽 ,我们的模型会预测一个特定的腹部长 。例如,在完全不同的情境下,我们可能会根据智能手机的每日亮屏时间来建模其电池续航时间。
这个画线的简单行为,让我们能够进行一次美妙的智力炼金术。我们可以将总变异(SST)分为两个不同的部分。
可解释方差:这是总变异中由我们的模型解释的部分。它是我们模型的预测值()围绕总平均值()的变异。在数学上,这是回归平方和(SSR),计算公式为 。它告诉我们,我们识别出的模式捕捉了多少原始的离散程度。
无法解释的方差:这是我们模型遗漏的部分。它是实际观测值()与我们模型预测值()之间差异的平方和。这些差异是残差或误差。它们的平方和,,是残差平方和(SSE)。这是剩余的变异、噪声,是仍然存在的谜团。在化学分析中,这可能是测量中未被物质浓度所解释的变异。
令人惊奇的是,这两个部分完美地相加等于整体。我们得到了方差分解的基本恒等式:
总变异 = 可解释变异 + 无法解释变异
这不仅仅是一个公式;它是一个深刻的陈述。它就像变异性的守恒定律。最初存在的所有变异都必须得到解释:要么由我们的模型解释,要么仍然无法解释。
既然我们已经划分了我们的无知,我们如何评价模型的表现呢?我们可以创建一个简单而优雅的评分:模型成功解释的总方差的比例。这个分数就是著名的决定系数,或 。
利用我们的基本恒等式,我们也可以用一种关注剩余部分的方式来写它:
让我们回到智能手机电池的例子。假设电池续航时间的总变异(SST)为 ,在基于亮屏时间拟合模型后,无法解释的变异(SSE)为 。那么 将是 。我们会说“亮屏时间解释了电池续航时间中 85% 的方差”。剩下的 15% 是无法解释的方差,由其他因素如后台应用、信号强度或电池老化等引起。
这个指标在比较模型时非常有用。如果一个仅使用广告预算的简单模型解释了公司收入方差的 30%(),而一个同时包含客户注册数和经济指数的更复杂模型解释了 75%(),那么第二个模型显然捕捉到了更多潜在的模式,显著减少了无法解释的方差。
划分方差这个美妙的想法并不仅限于画直线。它是一个贯穿统计学的普遍原则,以不同形式出现,但灵魂始终如一。
方差分析(ANOVA):顾名思义,这个领域的全部内容都建立在分析方差之上。在测试新材料的属性是否与某种添加剂有关时,ANOVA 直接比较模型解释的方差与仍无法解释的方差。著名的F-统计量本质上是可解释方差与无法解释方差的比率(在考虑了自由度之后)。一个大的 F 值意味着模式在噪声中清晰可见,使我们相信这种关系是真实的。
聚类(K-means):如果我们不是在预测一个变量,而是在数据中发现群组呢?同样的逻辑也适用!想象数据点形成了不同的团块。总变异可以分为簇间平方和(BSS)——即各团块中心离总中心的距离——和簇内平方和(WSS)——即点在各自团块内部的离散程度。BSS 是“可解释的”方差(由聚类结构解释),而 WSS 是“无法解释的”方差。一个好的聚类具有高的 BSS 和低的 WSS,意味着它“解释”了数据的大部分结构。
这种统一性正是科学如此强大的原因。一个单一、优雅的概念——方差分解——为从预测结果到发现隐藏结构的各种方法提供了基础。
到目前为止,我们一直试图用其他变量来解释一个变量的方差。主成分分析(PCA)采用了一种不同的、更全面的方法。它着眼于整个数据云,并提问:“数据在哪个方向上分布最广?”那个方向就是第一个主成分()。它是“解释”数据集中最大可能方差的单一轴。
然后,PCA 寻找与第一个方向垂直的下一个最佳方向,以捕捉剩余方差中最大的一部分。这就是 ,依此类推。每个主成分都是一个新的、人为的轴,是原始特征的线性组合(例如,腹部长和胸宽的混合)。
每个主成分捕获的方差由一个称为其特征值()的数字给出。第 个主成分解释的总方差比例,就是其特征值除以所有特征值之和,后者等于总方差。在计算生物学等领域,一个解释了大部分方差的单一主成分可能代表一个“基因模块”——一组以协调方式共同变化的基因,代表一个主导的生物过程。在我们考虑了前几个重要的主成分后,无法解释的方差是沿着其余不那么重要的维度上的变异,我们可能会将其视为噪声。
可解释与无法解释方差的概念是一个强大的透镜,但像任何透镜一样,如果我们不小心,它也可能扭曲我们的视野。成为一名优秀的科学家,意味着要了解自己工具的局限性,不要自欺欺人。
尺度的暴政:PCA 是一个强大但天真的工具。它只是寻找方差,无论它在哪里。想象一下,你正在分析基因表达数据,然后你添加了一个新的“特征”,它只是随机噪声,但其方差比你任何一个真实基因的方差大 100 倍。PCA 会立即宣布这个噪声是第一个也是最重要的主成分,因为它“解释”了绝大部分的方差。而方差较小的真实生物信号,则被降级到后续的成分中。教训是:可解释方差不等于有意义的信息。PCA 被一个无意义的人为因素所主导,这告诉我们数据准备工作,比如将特征缩放到一个共同的范围,是至关重要的。
苹果与橙子:假设一位分析师构建了两个模型来预测房价。模型 A 预测以美元计价的价格(),得到的 为 。模型 B 预测价格的对数(),得到的 为 。模型 A 更好吗?我们不能这么说!这两个 值是不可比较的。一个解释的是以美元计价的价格的 82% 的方差,而另一个解释的是对数价格的 78% 的方差。它们是两个完全不同数量的比例。在原始价格尺度上的高 意味着模型擅长最小化美元金额的误差(一个 10,000 美元的误差就是一个 10,000 美元的误差)。在对数尺度上的高 意味着模型擅长最小化百分比误差(一个 10% 的误差就是一个 10% 的误差,无论是在便宜的房子还是昂贵的房子上)。哪个模型更好取决于你的经济目标,而不是哪个 更大。
我们知识的不确定性:我们必须始终记住,我们计算出的方差比例只是基于我们有限数据样本的一个估计值。如果我们收集了另一批昆虫样本,我们会得到一个略有不同的数字。我们对计算出的值有多大的信任度?像自助法(bootstrap)这样的技术让我们能够模拟收集数千个新样本,并观察我们的“可解释方差”统计量如何波动。这给了我们一个置信区间——一个合理的数值范围——它诚实地反映了我们有限数据中固有的不确定性。
更深层次的解释:最后,可解释与无法解释之间的界限不是固定的。它是我们理解的前沿。在一项跨越多所学校的学生考试成绩的研究中,一个简单模型中一些“无法解释”的变异,实际上可能是由于学校之间的系统性差异造成的。通过使用更高级的混合效应模型,我们可以明确地考虑这种群体层面的变异。这将一部分方差从“无法解释”的栏目转移到一个新的、更细致的“由学校差异解释”的栏目。这种区别,由边际 和条件 等概念所捕捉,表明今天无法解释的东西,随着我们的模型和理论变得更加复杂,明天可能会变得可以解释。
无法解释的方差不是失败的标志;它是一种邀请。它标记了我们知识的边缘,并指明了通往新问题、新因素和等待被发现的新模式的道路。它让科学保持谦逊,也让它保持有趣。
在探索物理定律时,我们常常为我们的模型所能捕捉到的东西、为它们如此优雅地解释了世界的那一部分而喝彩。决定系数 是这一成功的纪念碑——一个告诉我们我们用方程驯服了现象变异性多大比例的数字。但如果我告诉你,最激动人心、最富饶的发现土壤,往往不在于可解释的方差,而在于无法解释的方差呢?无法解释的方差,即残差,即我们模型未能讲述的那部分故事,不仅仅是对我们无知的一种度量。它是一个路标,一张指向更深层次真理、隐藏机制和全新探究世界的神秘地图。正是在这剩余的部分,这美妙的余数中,科学的下一章得以书写。
想象你是一位药理学家,试图理解抗精神病药物如何起作用。现代精神病学的基石之一,“多巴胺假说”,认为这些药物通过阻断大脑中一种特定的蛋白质——多巴胺 D2 受体来发挥其效应。你可以通过将各种药物的临床效力与其对该受体的测量亲和力进行相关性分析来检验这一点。一项著名的此类研究发现了一个强相关性,这转化为约 的可解释方差,即 。
现在,人们可以看着这个数字宣布胜利。药物效力方差中惊人的 被这一个简单的分子相互作用所解释!这是一项巨大的成就,并为多巴胺假说提供了强有力的证据。但真正的科学家,好奇的探索者,会立刻提出一个不同的问题:那另外的 呢? 那 的无法解释的方差并非失败;它是一种邀请。它告诉我们,虽然多巴胺阻断是我们故事的主角,但它并非舞台上唯一的演员。这种“噪声”为其他或补充性理论(如精神分裂症的谷氨酸能假说)提供了关键的科学立足点。下一个重磅药物可能不是来自制造更好的 D2 阻断剂,而是来自设计一种针对隐藏在那无法解释的 中的机制的分子。
这个教训在整个科学界回响。研究高地白鼻浣熊肠道微生物组的生态学家可能会建立一个包括宿主动物遗传背景及其当地饮食的模型。他们可能会发现,就像一项真实的研究那样,这两个主要因素加在一起仅解释了不同浣熊种群间微生物群落变异的约 。这是否意味着研究失败了?远非如此!它揭示了关于复杂生态系统的一个深刻真理:我们简单、直观的故事往往只是开始。那巨大的 的无法解释的方差,证明了生命巨大的复杂性,指向一个充满其他潜在影响的宇宙——微妙的环境因素、动物间的社会互动、历史偶然事件,以及生物随机性的纯粹力量。无法解释的方差教会我们谦逊,并为未来的研究设定议程。
所以,无法解释的方差在向我们招手。但我们如何探索它呢?通常,我们甚至没有像多巴胺理论那样好的起始假说。我们面对的是海量的数据——成千上万的基因、数百万的股票交易、一个社会关系网络——我们需要一种让数据自己说话的方法。这就是主成分分析(PCA)的魔力。PCA 是一种极其强大的数学工具,它像一个方差的棱镜。它接收一个高维数据集并对其进行旋转,向我们展示数据变化最大的方向。这些方向就是“主成分”(PCs),而每个方向上的方差量就是其“特征值”。
想想熙熙攘攘的金融世界。成千上万只股票的价格每秒钟都在波动。这一切都是混乱,还是有规律可循?如果我们将 PCA 应用于一个股票回报矩阵,一件非凡的事情发生了。第一个主成分(),即方差最大的方向,几乎总是代表整体市场运动——那股让所有船只随之起落的潮汐。接下来的几个成分通常对应于主要经济部门(科技、能源、金融)的同步变动。PCA 在没有任何先验经济理论的情况下,发现了市场中的主导结构。由这前几个成分“解释”的方差代表了市场中的系统性、相关性风险。剩下的大量“无法解释”的方差则是特异性风险,即每只股票独有的混乱舞蹈。
这项技术用途惊人地广泛。它不关心数据代表什么,只关心其变异模式。让我们离开金融,访问社交网络的世界。我们可以将一个人的网络表示为一个邻接矩阵,其中每一列是一个人的“连接概况”。如果对这个矩阵进行 PCA,我们会发现一些惊人的东西。对于一个具有强大社区结构的网络——比如,两个界限分明的朋友群组,它们之间联系很少——第一个主成分将干净地将这两个群组分开。它解释的方差量化了网络有多“团块化”或隔离。同样的数学方法,在金融数据中找到了市场部门,现在在社交数据中找到了社区,都是通过筛选方差来寻找主导模式。
人们很自然地会被解释最多方差的成分所吸引。它们是房间里最响亮的声音。但自然是微妙的,她最珍贵的秘密常常是低语,而非呐喊。专注于捕捉大部分方差可能是一个可怕的错误,使我们对最重要的发现视而不见。
考虑一个大规模的转录组学实验,测量数百个生物样本中数千个基因的活性。PCA 可能显示 解释了高达 的方差。值得庆祝吗?别急。经检查,我们发现这个成分与测序深度的技术指标完全相关。它不是生物学;它是一个测量假象。 解释了 的方差,捕捉了我们设计的实验的生物学效应。 解释了 ,是另一个与样本质量相关的假象。但接着我们看到了 ,它只解释了区区 的方差。很容易将其视为噪声而忽略。然而,当我们检查在 上得分高的样本时,我们发现它们对应于一个罕见但生物学上至关重要的 T 细胞亚群,这一发现得到了其他方法的独立证实。整个数据集中最重要的新发现就隐藏在一个低方差的成分中。
这说明了一个深刻的原理:一个成分解释的方差量并不是其科学重要性的衡量标准。以预测为重点的机器学习为这一观点提供了另一个鲜明的例证。在主成分回归(PCR)中,人们可能会倾向于根据一个简单的规则来选择保留的成分数量,比如“保留足够多的成分以解释 95% 的方差”。然而,如果最能预测你结果的因素恰好是一个低方差现象呢?通过追逐 95% 的方差阈值,你的模型可能会丢弃信息量最大的信号,导致预测性能不佳。一种更复杂的方法,如交叉验证,直接评估预测准确性,通常会揭示最佳模型包含了这些低方差、高信息的成分。教训是明确的:我们必须超越方差的大小,去探究其意义。
一旦我们学会尊重方差的微妙之处,无论是可解释的还是无法解释的,我们就能看到它的印记以深刻而出乎意料的方式塑造着我们的世界。
在进化生物学中,一种情境下“无法解释”的方差在另一种情境下成为研究的核心对象。加性遗传协方差矩阵(-矩阵)描述了一个种群中一系列性状的遗传变异景观。通过特征分解找到的主成分,揭示了进化的遗传“最小阻力线”。具有大特征值(高遗传方差)的方向是种群可以轻易进化的途径。具有微小特征值的方向代表了根深蒂固的“多效性约束”——使得某些性状组合几乎不可能实现的遗传连锁。遗传方差的结构本身,其在少数维度上的集中,决定了进化的未来路径。
在免疫学中,科学过程可以被视为将无法解释的方差转化为可解释方差的不懈努力。一个自身免疫性疾病的模型最初可能只使用响应主要触发物的 T 细胞频率,解释了疾病严重性方差的,比如说,。但“抗原表位扩散”理论表明,免疫反应会随着时间推移而扩大,以靶向其他分子。通过在我们的模型中加入对这些新 T 细胞反应的测量,可解释的方差可能会跃升至近 。我们成功地“解释”了之前是噪声的一部分,加深了我们对疾病的理解。在复杂系统中,我们的模型很少是完全成形的;它们是逐步建立起来的,因为我们迭代地征服未知的领域。
在方差中寻找意义的追求正在推动研究的前沿。在系统生物学中,多组学因子分析寻找共享的潜在因子,这些因子在生物层次结构的不同层面——从基因组到蛋白质组再到代谢组——产生协调的变异涟漪。这是更大规模上的 PCA,旨在寻找细胞的中心组织原则。
在一个有趣的转折中,人工智能研究人员现在正在设计他们模型的方差结构。在表示学习中,一个关键目标是创建可以灵活重组的“解耦”特征。事实证明,这通常与“各向同性”的表示相关——即方差尽可能均匀地分布在所有维度上。在这里,目标是最小化任何单个成分解释的方差,主动对抗方差的集中,以创建一个更鲁棒和灵活的 AI。
我们的旅程已经走了很远。我们开始时将无法解释的方差视为一个简单的错误,是我们美好模型上的一个瑕疵。此后,我们视其为药理学的指路标,生态学中复杂性的度量,金融学和社会学中发现的工具,以及基因组学和机器学习中对抗傲慢的警告。我们见证了它作为进化历史的雕塑家,甚至作为人工智能中的一个设计目标。
科学的追求不是为了达到 。它是一场与自然动态且永无止境的对话。无法解释的方差是自然的回应。这是她告诉我们的方式:“那是个好故事,但不是全部。”正是在倾听那个回应,在拥抱余数的奥秘中,我们找到了我们最伟大的灵感和最深刻的见解。