首页虚假关联：揭示科学与人工智能中的幻象

虚假关联：揭示科学与人工智能中的幻象

玻尔百科

定义

虚假关联：揭示科学与人工智能中的幻象指的是由于隐藏的混杂变量、数学成分约束或高维分析中的随机性而产生的误导性统计联系。这一概念在基因组学和人工智能等领域至关重要，研究者需采用对数比转换和因果推断等专门方法来区分真实关系与偶然关联。通过将领域知识与不变风险最小化等技术相结合，科学家能够过滤掉这些统计幻象，从而构建更加稳健和可靠的分析模型。

核心要点

虚假关联是具有误导性的统计联系，通常由隐藏的混杂变量、组合数据的数学约束或高维分析中的随机偶然性引起。
在基因组学等领域，对数比变换等专业方法对于正确分析组合数据、避免虚假的负相关至关重要。
人工智能模型可以基于虚假关联学习“捷径”，因此必须采用反事实分析和不变风险最小化等因果推断技术来构建鲁棒且可信赖的系统。
在物理和工程等学科中，协方差局域化等统计技术与领域知识相结合，以滤除因样本量有限而产生的虚假相关。

引言

在大数据时代，我们发现模式的能力前所未有地强大。然而，这种能力也伴随着一个巨大的风险：将统计相关性误认为因果现实的倾向。数据集充满了“幽灵”——那些看似显著但会导致错误结论、无效政策和脆弱人工智能系统的虚幻联系。区分真实信号与这些被称为虚假关联的幻象，是所有数据驱动科学的核心挑战。但这些幽灵从何而来，我们又该如何驱除它们呢？

本文旨在填补这一关键的知识空白。它为理解虚假关联的本质以及用于对抗它们的现代技术提供了指南。首先，“原理与机制”一章将剖析这些统计幻象的主要来源，从隐藏的混杂变量到数据本身的数学特性。随后，“应用与跨学科联系”一章将探讨这些挑战如何在基因组学、工程学和人工智能等现实世界领域中显现，并展示科学家们为构建更鲁棒、更可信赖的知识而开发的创新解决方案。

原理与机制

每个统计学入门课程都会讲述一个故事，这不无道理。在沿海城镇，一位敏锐的分析师可能会注意到一个惊人的相关性：在冰淇淋销量高的日子里，鲨鱼袭击也更频繁。数据清晰，p值很小，关联在统计上是显著的。一个天真的结论会很可怕：吃冰淇淋会以某种方式引诱鲨鱼吗？或者，鲨鱼袭击的创伤会让人渴望吃点甜的、冷的食物？当然，答案都不是。这是一个典型的虚假关联案例，一个由隐藏的第三方制造出的关联幻象。在这种情况下，这只隐藏的手就是太阳。炎热晴朗的天气导致更多人购买冰淇淇淋，也导致更多人去游泳，从而增加了遭遇鲨鱼的机会。冰淇淋和鲨鱼之间并没有直接联系；它们都只是对太阳的反应。

这个简单的故事是所有科学和数据分析中最深刻挑战之一的寓言。我们的世界是一个由相互关联的事件组成的网络，而我们的数据是这个网络的影子。发现的艺术和科学在于从欺骗性的相关性幻象中解开真实的因果之线。这些幻象，这些虚假关联，不仅仅是奇特的统计难题；它们是萦绕在我们数据集中的幽灵，从遗传学到经济学，再到最先进的人工智能。了解它们的来源是驱除它们的第一步。

混杂的幕后推手

冰淇淋与鲨鱼的故事完美地说明了虚假关联最常见的来源：混杂（confounding）。混杂变量，或称“潜伏者”，是一个共同的原因，它同时影响我们观察的两个变量，在它们之间制造出误导性的联系。其因果结构不是冰淇淋 → 鲨鱼袭击，而是一个分叉：太阳 → 冰淇淋和太阳 → 鲨鱼袭击。

同样的模式无处不在，而且常常以更微妙、更危险的形式出现。考虑一项旨在寻找与特定疾病相关的基因的大规模基因组学研究。来自患者（病例）的样本在一家医院收集，而来自健康个体（对照）的样本在另一家医院收集。数据在不同的实验室、不同的机器上处理——即不同的“测序批次”。分析显示，某个基因的表达在病例和对照组之间存在显著差异，p值为 $0.02$ 。这是一个突破性的发现吗？也许是。但这个设置与我们的海滨小镇寓言如出一辙。“测序批次”就是太阳。它是一个共同原因，可以系统性地改变成千上万个基因的测量表达量。疾病状态和基因表达可能根本没有直接联系；它们可能都与批次有关。批次 → 疾病状态（因为样本的收集方式）和批次 → 基因表达（因为技术性的人为因素）。观察到的相关性可能完全是虚假的。

混杂的幕后推手甚至可以是一连串事件，而不仅仅是单个变量。在单细胞生物学领域，研究人员分析单个细胞的遗传活动以了解其类型和功能。他们可能会注意到，与皮肤细胞相比，某个特定基因在免疫细胞中似乎高度活跃。但细胞的生命是动态的；它会经历一个生长和分裂的“细胞周期”。这个周期深刻影响着细胞的整体代谢活动。处于快速生长阶段的细胞可能会产生更多的所有遗传物质。如果样本中的免疫细胞恰好比皮肤细胞分裂得更频繁，它们自然会有更高的遗传物质总量。这反过来会夸大其中每个基因的测量计数，从而在无数基因与“免疫细胞”标签之间制造出虚假的关联。其因果链是细胞类型 → [细胞周期阶段](/sciencepedia/feynman/keyword/cell_cycle_phases) → 总RNA → 测量的基因计数。为了找到基因与细胞身份之间的真正联系，科学家必须首先考虑该细胞处于生命的哪个阶段。

在现代机器学习中，尤其是在医学等高风险领域，这些混杂路径可能变得极其复杂。一个旨在从医学影像中检测疾病的人工智能模型可能会学到，X光片上某个特定的文本标记（如“PORTABLE”）是严重肺炎的强有力预测指标。这个标记本身没有任何生理作用。但它在一个长长的因果链中充当了路标：严重的疾病导致入住重症监护室（ICU），ICU的病人通常病得太重无法移动，所以他们使用便携式机器进行扫描，而便携式机器在影像上留下了标记。其路径是疾病严重程度 → ICU → 便携式扫描仪 → 人为标记。人工智能的任务仅仅是寻找相关性，它并没有学会识别肺炎；它学会了识别重症患者的代理证据。它走了一条聪明但脆弱的捷径。

当整体约束部分

并非所有的虚假关联都源于一个隐藏的共同原因。有时，它们是一种数学上的必然，是数据结构本身编织的一种人为现象。对于组合数据（compositional data）尤其如此，因为其数据点是整体的比例或百分比。

想象一下，你正在分析一个有三个政党（星党、条党和鹰党）的选区的选举民调结果。你得到的数据是百分比，它们必须始终总和为100%。现在，假设一项新的民调显示，星党的支持率从30%飙升至40%。条党和鹰党的百分比会发生什么变化？它们的总份额必须下降10%。即使支持条党和鹰党的绝对选民数量保持不变，它们的相对比例也会下降。如果你对一段时间内的民调结果进行相关性分析，你很可能会发现星党的支持率与另外两个政党之间存在负相关。这种相关性并非因为选民从条党转向星党；这是一种数学约束。当一部分上升时，其他部分必须下降以维持整体。

这种现象同样困扰着微生物组研究。测序技术通常告诉我们样本中不同细菌物种的相对丰度，而不是它们的绝对数量。假设一个肠道样本包含 $A$ 、 $B$ 和 $C$ 三个物种。如果由于与 $B$ 和 $C$ 无关的原因，物种 $A$ 经历大规模繁殖，其相对丰度可能从10%跃升至70%。现在，整个“饼图”由 $A$ 主导。 $B$ 和 $C$ 的相对丰度将被挤压，即使它们的绝对种群数量根本没有改变。对这些比例的分析将揭示物种 $A$ 与其他物种之间存在虚假的负相关。

这不仅仅是一个定性的故事；它是一个数学上的确定性。对于任何一组总和为1的比例 $p_1, p_2, \dots, p_D$ ，它们所有成对协方差的总和必须为负。这个等式很优雅： $\sum_{1 \le i j \le D} \operatorname{Cov}(p_i, p_j) = -\frac{1}{2} \sum_{i=1}^D \operatorname{Var}(p_i)$ 由于方差（右侧）总是正的，所以协方差的总和（左侧）必须为负。在相对丰度数据中，所有物种都不相关或正相关在数学上是不可能的。常数和约束强制产生了一种趋向负相关的偏见。这是一个并非源于隐藏原因，而是源于数据几何本身的幽灵。

数据海洋中的海市蜃楼

第三种普遍存在的虚假相关源于现代数据的庞大规模——即“维度灾难”。如果你在一个足够大的空间里寻找模式，你注定会找到它们，仅仅是出于纯粹的、盲目的运气。

想象一下，你让一台计算机搜索市场上每只股票的每日价格与世界上每个城市的天气报告之间的相关性。有数百万只股票和数千个城市，你正在进行数十亿次的比较。从统计上讲，某些相关性会因偶然性而出现，这是必然的。你可能会发现，加州一家科技公司的股价与挪威一个小村庄的降雨量“显著相关”。这是一种源于多重检验的虚假相关。当你长时间凝视一片广阔的数据沙漠时，就会出现这种海市蜃楼。

这个问题在基因组学等领域普遍存在，我们可能会测试20000个基因与单一疾病的关联。即使没有一个基因真正相关（即“全局零假设”成立），概率法则也决定了我们应该期望看到什么。对于 $m$ 个独立的检验，你将发现的最小p值的期望值就是 $\frac{1}{m+1}$ 。因此，在一个包含20000个基因的研究中，你应该期望仅凭偶然就能找到一个约为 $1/20001 \approx 5 \times 10^{-5}$ 的p值！找到这样一个微小的p值感觉像是一个重大发现，但它恰恰是概率论预测的幻象。

这超出了p值的范畴。当你计算一个随机噪声向量与来自 $n$ 个样本的 $m$ 个其他独立基因表达向量的样本相关性时，你可能偶然发现的最大绝对相关性的大小约为 $\sqrt{\frac{\log(m)}{n}}$ 。随着基因数量 $m$ 的急剧增加，这个最大偶然相关性会变得出奇地大，从而在没有实际生物联系的地方制造出强关联的假象。

这种“维度灾难”也出现在复杂的物理模型中。在天气预报中，使用一组模拟集合来估计预报的不确定性。大气的状态由数百万个变量（ $n$ ）描述，但我们只能承担运行少量模拟的成本，比如一百次（ $N$ ）。为了估计世界一个地方的误差（例如，太平洋上空的温度）如何影响另一个地方（例如，欧洲上空的压力），模型依赖于从这个微小的集合中估计出的相关矩阵。对于任何两个真正独立的变量，从 $N$ 个样本计算出的样本相关性将是一个随机数，其典型量级约为 $\frac{1}{\sqrt{N}}$ 。如果 $N=100$ ，这个值就是 $0.1$ 。这看起来可能很小，但有数百万个变量，就有数万亿对组合。从统计上可以肯定，许多物理上不相连的位置将仅因采样噪声而显示出 $0.1$ 或更高的虚假相关。模型将这种噪声视为事实，然后可能会做出非物理的调整，基于数据中的一个幽灵将误差从太平洋传播到欧洲。

因果透镜：区分幻象与现实

所以，我们的数据集里充满了幽灵。混杂变量制造了因果的幻象。数学约束在数据上强加了它们自己的几何形状。而我们搜索的广度可以从随机噪声中变出海市蜃楼。我们该如何前进？我们如何在这种危险的土地上建立可靠的知识和可信赖的人工智能系统？

答案在于将我们的视角从纯粹的相关性转向因果关系。关键的区别不仅在于问“什么与什么相关？”，而在于问“如果我进行干预会发生什么？”。一个虚假的关联是在观测数据中成立，但在你进行实验时会消失，甚至逆转的关联。如果你进行一个实验，在冷天强迫人们吃冰淇淋，冰淇淋销量和鲨鱼袭击之间的相关性就会消失；不会有鲨鱼出现。

使用经验风险最小化等标准方法训练的现代人工智能模型，从根本上说是相关性引擎。无论是支持向量机还是深度对比学习模型，算法的目标都是找到任何能在训练数据中可靠预测标签的模式，任何特征。如果一个虚假特征，如医院的水印或扫描仪的人为标记，在它所看到的数据集中与疾病结果相关，人工智能就会抓住它作为“捷径”。它没有关于医学或物理的先验知识；它只知道相关性。该模型在来自同样充满幽灵的分布的测试数据上可能表现出色，但当部署到一个虚假关联被打破的新环境中时，它将会失败，甚至可能是灾难性的失败。

因此，前进的道路是用因果的透镜来构建和测试我们的模型。我们可以通过执行因果敏感性分析来诊断模型对捷径的依赖。我们不能总是进行现实世界的实验，但我们可以模拟一个。如果我们怀疑一个模型正在使用扫描仪的人为标记来检测疾病，我们可以创建反事实图像——通过计算编辑图像以去除该标记——然后看看模型的预测是否改变。如果改变了，我们就抓住了它依赖虚假线索的证据。这就像问模型：“如果我给你看同一个病人的扫描图，但来自不同的机器，你还会预测肺炎吗？”一个鲁棒的、因果的模型会说“会”。一个学习捷径的模型则会犹豫不决。

因果推断的世界充满了工具和概念来应对这些复杂性，包括像对撞因子（collider）这样的微妙陷阱。对撞因子是两个变量的共同效应。对对撞因子进行调整，虽然感觉上是正确的做法，但实际上可能在原本没有关联的地方制造出虚假的关联。这凸显了对数据生成过程进行谨慎、有原则的推理的必要性。

虚假关联不是一个边缘的统计问题。它们是科学探索和追求可靠人工智能核心的基本挑战。它们给我们上了一堂谦逊的课：数据不会自己说话。它们低语、暗示，有时还试图欺骗我们。要理解它们，我们必须不仅仅是消极的观察者；我们必须是积极的、批判性的侦探，使用科学和因果推理的工具来从幽灵中辨别真实的故事。

应用与跨学科联系

我们已经穿越了虚假关联的抽象原理，看到了影子如何轻易地被误认为实体。现在，让我们离开理论的洁净世界，进入现实世界那混乱而又令人兴奋的景观。数据中的这些幽灵究竟在哪里困扰着我们？更重要的是，我们如何构建工具来看穿它们？你会发现，这不仅仅是一个学术练习。从解码我们自己的DNA到指导人工智能外科医生的手，对抗虚假相关的战斗是现代科学和技术的决定性挑战之一。这是一项跨越学科的探索，将生物学家的显微镜、天文学家的望远镜以及哲学家对智能本质的探究联系在一起。

整体的暴政：一种新的生命算术

让我们从蓬勃发展的基因组学世界开始。想象一下，你正在研究肠道微生物组——我们每个人体内那个熙熙攘攘的细菌大都会——及其与癌症的联系。你取一个样本，通过测序仪运行，得到一份细菌计数的清单——1200个Akkermansia读数，800个Bacteroides读数，等等。你想知道拥有更多的Akkermansia是否与更好的治疗反应相关。

这看起来很简单。但这里有一个陷阱。你的机器在一次运行中产生的总读数——即测序“深度”——是一个任意的技术参数。这就像被告知你有一袋红、蓝、绿三种颜色的弹珠，但你只知道每种颜色的比例，而不知道弹珠的总数。如果你往袋子里增加更多的红弹珠，蓝弹珠的比例必然会下降，即使蓝弹珠的绝对数量根本没有改变。

这就是“常数和约束”，它在基因组学、地质学以及任何处理成分或比例的科学领域中，都是一个臭名昭著的虚假相关来源。两个种群完全独立的细菌物种可能看起来像是死敌——一个的相对丰度上升，另一个的就下降——仅仅因为它们都是一个固定整体的一部分。

我们如何摆脱这种整体的暴政？我们需要一种新的思维方式，一种新的几何学。这就是数学家John Aitchison的杰出洞见。他意识到，在组合数据中，基本信息不在于绝对计数，而在于它们之间的比率。问题不在于“有多少Akkermansia？”，而在于“Akkermansia相对于其他所有物种有多少？”。

为了将这一洞见付诸实践，科学家们现在使用“对数比变换”，例如中心对数比（CLR）变换。这个过程基本上是将每个成分的绝对计数转换为与所有成分几何平均值的比较。它将数据从受约束的比例世界映射到一个无约束的空间，在这个空间里，标准的统计工具可以被安全使用，而不必担心这些特定的幽灵。这是一个深刻的例子，说明了基于尺度不变性和子组合一致性等第一性原理的深刻数学重构，如何为从我们自己的DNA中解锁可靠的生物学见解提供了关键。

采样的海市蜃楼：物理和工程中的数据同化

让我们从微观转向宏观。想象你是一名计算工程师，试图为一个喷气发动机的燃烧室（一个充满反应气体的漩涡）创建一个数字孪生。或者你正在设计下一代电池，试图模拟电极内锂离子那复杂到不可思议的舞蹈。你的模型有数百万个变量——空间中每个点的温度、压力和化学浓度。为了让你的模拟与现实保持联系，你只有几个稀疏的传感器为你提供真实世界的数据。

挑战是巨大的。为了估计你那数百万个模型变量的不确定性，你只能承担运行少数几次模拟的成本——比如说，30或50个“集合成员”。这就像试图通过仅仅30天的天气来了解整个地球的气候。相对于系统的浩瀚，样本量如此之小，你注定会发现虚假的相关性。你的模型可能会非常自信地告诉你，发动机左上角的温度波动与右下角的压力变化密切相关，而实际上，它们在物理上是断开的，它们之间明显的联系纯粹是统计噪声——一个采样的海市蜃楼。

如果数据同化系统相信这些虚假的相关性，就会导致灾难。来自一个位置的单个传感器测量值将不正确地“更新”整个模型的状态，使其偏离现实。

科学家和工程师们已经开发出两种非常直观的技术来对抗这个问题：协方差局域化和协方差膨胀。

局域化是一种物理上的谦逊行为。它说：我们从物理定律中知道，相距遥远的事物不可能那么快地相互影响。所以，我们将把这种知识直接构建到我们的统计中。我们从我们的小集合中估计出充满噪声的协方差矩阵，然后逐个元素地与一个“局域化矩阵”相乘，该矩阵平滑地将模型中物理上遥远部分之间的任何相关性强制归零。其天才之处在于，“距离”的定义可以由具体的物理学来指导。在火焰中，距离不仅仅是物理空间；它是一个混合的热化学空间，认识到两个点可能物理上很近，但位于火焰锋面的两侧，因此相隔甚远。在电池中，用于局域化的相关距离由锂离子的扩散长度指导——这是我们预期真实效应传播的物理尺度。

另一方面，膨胀是对不确定性的一种承认。小集合规模往往使模型过于自信，低估了自身的误差。膨胀会温和地增加模型估计的不确定性（膨胀协方差矩阵），使其更能接受新的测量值，并防止其偏离现实。

这些技术结合在一起，是统计严谨性与物理直觉的美妙结合，使我们能够为地球上一些最复杂的系统构建可靠的数字孪生。

聪明的冒名者：人工智能、混杂与对因果真相的追求

在现代人工智能领域，对抗虚假相关的战斗没有比这更关键、更微妙的了。今天的深度学习模型是发现模式的大师，但它们对于这些模式是否有意义漠不关心。它们本质上是“聪明的冒名者”，会利用任何可用的捷径来最小化其预测误差。

考虑一个为预测CRISPR基因编辑结果而训练的模型。它可能会学到在“第3批次”中进行的实验往往有某种特定的结果。如果碰巧许多困难的基因编辑都在那个批次中进行，模型可能会学到一个简单的、虚假的规则：“如果是第3批次，则预测失败。”它没有学习基因编辑的复杂生物学；它在学习实验室的簿记。在医学成像中也发生了类似的事情，一个强大的人工智能可能会学着将肿瘤的恶性程度与特定品牌的CT扫描仪留下的伪影联系起来，而不是与肿瘤微妙的生物学纹理联系起来，而某个医院恰好用这种扫描仪为其最重的病人服务。

这是典型的混杂问题，也是构建可信赖人工智能的核心威胁。我们如何揭穿这个聪明的冒名者？我们需要成为侦探。

首先，我们需要检测工具。一个强大的想法是使用模型无关的归因方法来问人工智能：“你的决策中最重要的特征是什么？”如果人工智能一直指向扫描仪品牌或批次号，我们就有了问题。但我们可以更聪明。我们可以执行一个条件随机化检验。我们取一个数据点，保持其真实的生物学特征不变，并随机为其分配一个新的、合理的批次号。如果人工智能的预测发生显著变化，我们就抓住了它依赖虚假特征的证据。一个更强大的版本是使用生成模型（GAN）来创建真正的反事实。我们可以问人工智能：“如果这张患病肺部的X光片是在B医院而不是A医院拍摄的，它会是什么样子？”如果分类器对疾病预测的置信度在真实图像和反事实图像之间发生变化，我们就找到了确凿的证据。

一旦我们检测到对虚假特征的依赖，我们就需要缓解措施。主要有两条路径：

以数据为中心的缓解：我们可以进行“数据手术”。我们可以使用协调算法，在人工智能看到图像之前，从计算上“擦除”扫描仪的伪影。或者我们可以使用我们的反事实GAN来生成一个新的、完美平衡的训练集，其中每种疾病都与每种可能的背景一起出现，从而在数据本身中打破虚假相关性。
以模型为中心的缓解：我们可以将所需的不变性直接构建到人工智能的学习过程中。通过不变风险最小化（IRM），我们要求人工智能找到一个在所有环境（例如，所有医院）中都同样有效的预测规则。一个基于扫描仪品牌的规则至少会在一家医院失败，因此模型被迫寻找真正普适的、因果的特征。另一种方法是对抗性训练。在这里，我们训练第二个“对抗者”网络，其唯一的工作是从主人工智能的内部表示中猜测虚假特征（如扫描仪品牌）。然后训练主人工智能在做出良好预测的同时，让对抗者的工作变得不可能。它学会了对虚假信息“视而不见”[@problem__id:5196364]。

一个普遍的挑战

从微观到数字世界，我们看到了同样的斗争。这个原则是普适的。一位模拟两栖动物物种分布的生态学家必须同时应对所有这些问题。他们必须考虑多重共线性（海拔和温度高度相关）、混杂（道路附近的采样努力更高，而这些地方也可能更干燥）和空间自相关（邻近位置不是独立的）。最可靠的解决方案是一个宏大的综合，结合了编码在因果图中的专家生态学知识、严格的统计过滤以及尊重数据结构的空间分块等验证技术。这证明了这个单一、基本思想的统一力量。

因果的必要性

这把我们带到了最终的应用：人工智能的安全和伦理对齐。让我们回到人工智能临床分诊系统。一个仅仅从历史数据中学习关联的系统可能会推荐一种治疗方法，因为它观察到具有某些特征并接受了该治疗的患者倾向于存活。但它无法区分是治疗导致了存活，还是医生只是把治疗给了那些本来就会存活的更健康的患者。这是一个能提供帮助的工具与一个会延续——甚至放大——现有偏见和错误的工具之间的区别。

行善和不伤害的伦理原则要求，推荐必须基于治疗对那个特定患者的真实因果效应。要构建一个真正对齐的人工智能，我们必须设计它来估计并基于这个因果量采取行动，该量由do-算子表示为 $\tau(x) = \mathbb{E}[Y \mid \text{do}(T=1), X=x] - \mathbb{E}[Y \mid \text{do}(T=0), X=x]$ 。这比仅仅预测关联要困难得多。它需要来自随机对照试验的数据，或者使用复杂的因果推断技术。

从一个统计上的怪癖到一个伦理上的必要性，这段旅程已经完成。对抗虚假相关的斗争无异于寻求对世界更真实的理解。它是一门学科，让我们从仅仅观察世界，到理解世界如何运作，并最终，为了更好的未来而改变它。这是看清事物本来面目的科学。