
代表整体各部分的数据——从细胞中表达的基因比例到家庭预算的分配——在科学和日常生活中无处不在。然而,分析这种“组合数据”带来了巨大的挑战。由于各部分的总和必须为一个固定值,一个组分的变化会人为地迫使其他组分发生变化,从而导致虚假相关性和根本上错误的结论。本文通过介绍组合推理的原理,直面这一统计陷阱。在第一部分“原理与机制”中,我们将深入探讨由恒定总和约束产生的数学假象,并探索为克服这些问题而开发的优雅的对数比值框架。随后,“应用与跨学科联系”部分将展示这种强大的思维方式不仅是一种统计校正,更是一个基本概念,它为从微生物学和材料科学到复杂生物和信息物理系统工程等不同领域带来了清晰的认识并推动了其发展。
想象你是一位研究家庭消费习惯的经济学家。你没有他们的银行对账单,所以你看不到绝对的美元金额。你所拥有的只是他们月度支出的饼图:比如, 用于住房, 用于食物, 用于娱乐,等等。现在,假设第二年你得到了一张新的饼图。住房现在是 ,食物是 ,但娱乐开支膨胀到了 。你会得出什么结论?一个天真的解释是,这个家庭开始不那么重视食物和住房,而更看重娱乐。你甚至可能会说他们对食物的兴趣“减少”了。
但如果我告诉你,在那一年里,这个家庭的总收入翻了一番呢?他们可能保持住房和食物支出完全不变,甚至略有增加。但是有了所有新的可支配收入,他们决定去进行奢侈的度假,导致他们的娱乐支出增加了十倍。从绝对值来看,他们在我们关心的所有项目上的支出要么保持不变,要么增加了。但因为预算的整体增长了,而其中一部分不成比例地增长,其他部分的比例或相对份额不可避免地缩小了。你关于他们对食物失去兴趣的结论不仅是错的,而且与事实完全相反。
这就是组合数据的核心悖论。这些数据代表一个整体的各个部分,我们唯一拥有的信息就是相对比例。它们在科学中随处可见。在微生物学中,对一份肠道样本进行DNA测序并不能告诉我们细菌的总数,只能告诉我们每个物种的相对丰度。在基因组学中,测量基因活性的标准方法给我们一个每百万转录本数(TPM)的向量,根据定义,对于我们测量的每个细胞或组织样本,这个向量的总和是一个固定的常数。
在所有这些情况下,我们都只能得到饼图,而不是银行对账单。这些数据受到闭合约束或恒定总和约束的限制:所有部分加起来必须等于 (或 ,或 TPM)。这个简单的约束是一个暴君。它迫使各个部分进入一种可能产生严重误导的数学关系中,创造出看起来像真实科学的假象。
恒定总和的暴政不仅仅是误导我们对“上升”或“下降”的解释。它还凭空制造出虚假的关系。它是一台强大的虚假相关性生成器。
让我们回到基因表达数据。想象我们正在研究一组细胞。在这些细胞中,基因A和基因B的绝对表达量是完全独立且恒定的。它们之间没有任何关系。然而,存在第三个基因,基因C,它非常活跃,其表达水平在不同细胞间差异巨大。当我们处理数据时,我们将其标准化为TPM,迫使每个细胞中所有基因的总表达量为一百万。
会发生什么呢?在一个基因C极其活跃的细胞中,它占据了饼图的巨大一部分。为了使总和达到一百万,基因A和基因B的部分必须变小。在一个基因C不那么活跃的细胞中,A和B的部分有更多的空间,因此会变大。如果我们现在绘制所有细胞中基因A与基因B的表达量,我们会看到什么?我们会看到一个漂亮的正相关!当A高时,B也高;当A低时,B也低。我们可能会禁不住发表一篇关于A和B之间激动人心的共调控的论文。但这将完全是虚构的,是基因C的变异性和恒定总和约束的产物。同时,我们会发现基因A和基因C之间存在强烈的负相关,即使在生物学上并不存在这种关系。
这不仅仅是一个含糊的论点;这是一个数学上的必然。对于像测序这样通过抽样过程产生的数据,任何两个不同组分 和 的计数之间的协方差本质上是负的:,其中 是总计数,而 和 是真实的比例。整体的约束迫使每个部分在某种意义上与其他所有部分处于竞争关系。
如果绝对值对我们来说是丢失的,而相对丰度是靠不住的,我们是否就注定失败了?很长一段时间里,情况似乎就是这样。科学家们试图用一些临时的修正方法来绕过这个问题,但核心问题依然存在。突破来自一个意想不到的领域:地质学。在20世纪80年代,一位名叫 John Aitchison 的苏格兰数学地质学家意识到,我们一直在问错误的问题,实际上,我们用错了代数。
Aitchison 的深刻见解是:在一个组合中,最基本、最可信的信息不在于组分本身的值,而在于它们之间的比率。
让我们回到家庭预算的例子。与其看花在食物上的百分比,我们不如看看“住房花费”与“食物花费”的比率?这个量告诉我们一些关于这个家庭优先级的信息。如果他们的收入翻倍,他们在住房和食物上的花费也翻倍,这个比率保持不变。它对于整体规模的变化是不变的,这正是我们需要的属性。
处理比率的自然语言是对数,因为它将乘法和除法变成了加法和减法。一个比率的对数 ,就是 。这个简单的数学技巧是解开组合几何学的关键。通过取对数比值,我们可以将数据从单纯形(比例所处的奇怪、受约束的几何空间)转换到我们熟悉的、不受约束的实数欧几里得空间,在那里我们可以毫无畏惧地使用所有强大的标准统计工具,如相关、回归和主成分分析(PCA)。
这不仅仅是一个方便的技巧;它是与组合数据性质相符的唯一操作方式。一个合理分析的核心公理——我们的结论不应该因为我们用“每百万读数”还是“每十亿读数”来测量而改变(尺度不变性),或者我们决定忽略其中一个组分而改变(亚组合一致性)——唯一地迫使我们进入一个对数比值的世界。
所以,我们必须分析比率。但是哪些比率呢?对于 个基因,有 个可能的两两比率,数量惊人。一个更优雅的解决方案是将每个组分与一个共同的参考进行比较。这个参考的一个自然选择是组合的“中心”。
但是什么是中心呢?对于我们熟悉的实数数据,我们会使用算术平均值(将所有数值相加后除以计数)。但对于组合数据,其基本运算是乘法,自然的中心是几何平均值。几何平均值 是典型的乘法平均。
这引导我们进入一个优美而强大的变换:中心对数比(CLR)。一个组分 的CLR值就是它与整个组合的几何平均值之比的对数:
这个值代表什么?它告诉我们一个组分的丰度相对于该特定样本中所有组分的典型丰度是高还是低。它是一个内部标准化的度量。CLR变换最重要的特性是它是尺度不变的。如果你取一个样本,并将所有原始计数乘以某个因子 (比如,通过将测序深度加倍),几何平均值也会乘以 ,而这个因子在比率中完美地抵消了。CLR值保持不变。这为我们提供了一个稳定的基础,以便在可能用不同效率测量的样本之间进行比较。
我们担心的虚假相关性现在得到了妥善处理。CLR变换确实会引入其自身的关联结构——任何给定样本的CLR值总和为零——但这种结构简单且性质良好。对于一个由许多独立的潜在部分组成的组合,任何两个CLR转换后的组分之间的相关性仅仅是 ,其中 是部分的数量。随着我们测量的部分越来越多,这种微弱的负相关会趋向于零。
这个优雅的理论遇到了一个非常实际和尖锐的问题:在现实世界中,我们的数据包含零。 是什么?它是未定义的。我们组合中的一个零就会使几何平均值为零,整个CLR变换就会失效。
特别是高通量生物数据中充满了零。但并非所有的零都是一样的。在微生物组样本中,某个细菌物种的零可能仅仅意味着它太稀有,在我们的有限测序网络中没有被捕捉到;这是一个“抽样零”。在单细胞RNA测序中,一个正在活跃产生mRNA的基因仍可能产生零计数,因为在捕获和扩增该特定分子时出现了技术故障;这是一个“脱落”零。
解决这个问题最常见的方法是在取对数之前,向所有值添加一个微小的非零数,通常称为伪计数。这感觉有点像作弊,我们必须极其小心。尺度不变性原则是我们的指路明灯。如果我们将一个固定的伪计数(比如 )添加到原始计数数据中,我们就违反了这一原则。对于一个总读数只有 的样本来说,一个 的伪计数是巨大的,但对于一个有 万读数的样本来说,它是微不足道的。这样的程序重新引入了我们试图消除的那种样本特异性偏差。一个有原则的方法要么是在标准化为相对丰度之后应用伪计数,要么使用一个更复杂的方案,其中伪计数本身是根据数据生成过程的统计特性来选择的。
那么,这个对数比值框架就是最终的答案了吗?不完全是。对数比值的魔力之所以有效,是因为它完美地抵消了乘性偏差——即那些以一个共同的缩放因子影响所有基因的偏差,比如测序深度。
但如果一个偏差更阴险呢?想象一下,我们测序过程中的一个技术性假象对基因的GC含量(G和C核苷酸的比例)很敏感。也许GC含量非常高或非常低的基因被捕获的效率较低。更糟的是,想象一下这种效应是非线性的:对于丰度本来就很高的基因,效率损失更为严重。这是一种非乘性失真。
在这种情况下,对数比值的技巧就不再足够了。偏差项将不再是一个可以抵消的简单常数。它将是基因自身属性(其GC含量)及其真实丰度的复杂函数。直接对这些数据应用CLR将无法校正这种失真。
这里的教训不是组合分析是错误的,而是它是更大推理层次中的一个工具——尽管是一个非常强大的工具。在这种情况下,解决方案是首先建立一个特定的模型来校正非线性的GC偏差,从失真的观测计数中估计“真实”的潜在计数。然后,在这个经过校正、无非乘性偏差的数据上,我们可以而且应该应用组合分析的原则来处理剩余的乘性缩放问题,如测序深度。
让我们通过看这些原则如何共同解决一个事关生死的复杂问题来结束。一名癌症患者接受了一种新的免疫疗法。为了看它是否有效,我们在治疗前后对肿瘤进行活检,并进行单细胞RNA测序。
初步分析令人担忧:一组与细胞周期相关的基因在治疗后似乎被强烈上调。最直接的解释是,治疗正在使肿瘤细胞分裂得更快——这是一场灾难性的失败。
但是一个组合思维者会停下来思考。肿瘤不是一个均匀的癌细胞袋;它是一个由癌细胞、免疫细胞、血管细胞等组成的复杂生态系统。如果治疗根本没有改变癌细胞,而是导致大量快速分裂的免疫细胞涌入以攻击肿瘤呢?这将是一个巨大的成功!一个汇总分析,即对活检中所有细胞的基因表达进行平均,无法区分这两种截然不同的情况。组分行为的内部变化和组分组成的变化都可能导致相同的汇总信号。
解决方案是使用组合推理来解构这个问题。
通过应用这种分层推理,我们可以区分组织细胞构成的变化和其细胞成分内在行为的变化。我们可以分辨出治疗失败和治疗成功之间的区别。这就是组合推理的力量:它给了我们剖析复杂性的清晰度,看透假象,从而对我们研究的系统有更真实的理解。
在经历了组合推理的抽象原理之旅后,我们可能感觉自己一直在攀登一座纯数学的高山。但是现在,当我们到达顶峰并向外望去时,我们看到这并非一个贫瘠的山峰。我们脚下是一片广阔而肥沃的科学与工程景观,而我们刚刚学到的原理正是赋予它生命的河流。组合推理不是一个孤立的学术练习;它是一种透镜,一种工具,一种思维方式,它在惊人广泛的学科中解锁了深刻的见解。它是连接我们内部微生物世界分析、航天器设计乃至合成生命创造的共同主线。在本章中,我们将游览这片景观,看看同样的基本思想如何在生物学、化学、材料科学和工程学中体现出来。
也许没有任何领域比现代生物学更能体现组合革命的影响。几十年来,生物学家一直在努力应对来自高通量测序的海量数据,这使我们能够读取复杂生物系统的基因“零件清单”。然而,挑战在于如何解释这份清单。
考虑一下人类肠道中熙熙攘攘的微生物生态系统。我们可以对它们的DNA进行测序,得到一张相对丰度表:30%的*拟杆菌属(Bacteroides),20%的普雷沃氏菌属*(Prevotella)等等。一种天真的方法是将这些百分比视为简单的测量值。但正如我们现在所知,这是一个陷阱。拟杆菌属的增加必须伴随着其他微生物百分比的减少,即使它们的绝对数量没有改变。这就是恒定总和约束的暴政。使用欧几里得距离等标准工具比较两个微生物群落,就像通过比较两个馅饼切片的原始大小而不考虑馅饼本身的大小来比较它们一样;这在根本上是误导性的。
组合数据分析为我们提供了正确的几何“眼镜”,以清晰地看待这个世界。通过使用对数比值变换,我们从单纯形的受限世界进入了我们熟悉的、不受约束的欧几里得空间,在这里距离和变化具有真实的意义。例如,Aitchison距离成为衡量两个微生物生态系统之间差异的真实度量 [@problem-id:4614681]。
这不仅仅是统计上的讲究;它具有深远的医学意义。在寻找疾病的微生物特征时,我们很少对单个分类单元的绝对变化感兴趣。更多时候,疾病是一个失衡的故事。例如,在一项关于肠-脑轴的研究中,我们可能对有益的、抗炎的细菌(如SCFA产生菌)和有害的、促炎的细菌之间的平衡感兴趣。组合推理为我们提供了完美的工具:两组几何平均值的对数比值。这个单一的数字捕捉了整个功能群之间的推拉关系。追踪这种“平衡”在干预(如新饮食)后如何变化,为其对生态系统功能的影响提供了一个直接、有意义的度量。
这种有原则的方法构成了一整套现代生物信息学工具的基础——如ANCOM和ALDEx2——这些工具旨在稳健地识别在健康和患病状态之间真正发生变化的微生物。一个完整的分析流程,从原始计数到统计上显著的微生物变化列表,是这些思想的直接实现:对数据进行正则化(以处理零值),应用对数比值变换(如中心对数比,CLR),然后在这个有效的新空间中使用标准的统计检验。此外,这不仅限于解释;它对预测至关重要。一个旨在从微生物组样本中诊断疾病的机器学习模型,只有建立在组合上合理的基础上才会可靠。在原始比例上训练的分类器是建立在沙滩上的;那些在对数比值变换后的数据上训练的分类器则是建立在Aitchison几何学的坚实岩石上的。
这种思维的力量超越了生态学。考虑一个使用CRISPR碱基编辑器的前沿基因组编辑实验。实验后,测序揭示了一系列混合的结果:期望的编辑、不期望的编辑、插入缺失(indel),或者根本没有变化。这些结果构成了一个组合——它们的比例必须总和为100%。为了比较在两种不同条件下(例如,有或没有关键补充剂)编辑过程的效率,我们不能简单地比较期望编辑的百分比。一个结果的变化会迫使其他结果发生变化。量化这种效应的严谨方法是使用对数比值——例如,“期望的编辑”与“无编辑”的对数比值。这正确地将感兴趣的相对变化从恒定总和约束中分离出来,提供了一个衡量效率提高的真实指标。这表明“组合”是一个深层次的概念,不仅适用于成分列表,也适用于任何过程的结果分布。
在生物学中,我们通常有计数数据,我们的主要任务是正确地分析它。在物理科学中,挑战通常更早一步:我们能相信我们的测量设备给出的信号真的与成分成正比吗?在这里,组合推理不仅仅是关于数据分析,而是关于实验设计。
想象一位化学家使用一台最先进的核磁共振(NMR)谱仪,试图确定一个粗反应混合物的组成。得到的谱图显示出漂亮、尖锐的峰,每种碳原子一个。这似乎很简单:每个峰下的面积应该对应于该碳原子的量,对吗?错了。这是一个经典的陷阱。碳信号的强度受其局部环境的影响。一方面,不同的碳原子以截然不同的速率“弛豫”回其平衡状态(一种称为的属性),实验脉冲之间的短暂延迟会极大地抑制慢弛豫碳的信号。另一方面,在标准实验中,一种称为核奥弗豪泽效应(NOE)的现象会增强附近有质子的碳的信号,而对没有质子的碳则不然。结果是,测得的峰积分“组成”是真实化学组成的扭曲的哈哈镜反射。测量本身在组合上是不健全的。解决方案是改变实验:通过使用一种称为反向门控去耦的技术来抑制NOE,并在脉冲之间等待很长时间(至少是最长的5倍),化学家可以迫使机器平等对待所有碳。这是组合推理在行动:设计一个实验来打破上下文依赖性,并产生一个真正成比例的测量。
一个惊人相似的故事发生在材料科学中。一位使用电子显微镜的分析师想要测量一种镍基高温合金的精确成分。他们使用能量色散X射线光谱(EDS),它检测每个元素在被电子轰击时发射的特征X射线。同样,例如,来自铝原子的信号并不是铝含量的纯粹度量。它受到周围原子整个“基体”(主要是镍)的影响,这些原子在铝X射线到达探测器之前吸收了部分X射线。这就是可怕的“ZAF”基体效应。为了校正它,可以使用复杂的物理模型,但它们有其自身的不确定性。一个更优雅的、源于组合思维的解决方案是使用“基体匹配”的认证参考物质。这是一种其成分已知与未知样品非常接近的标准品。通过对具有几乎相同上下文(基体)的标准品进行校准,复杂的校正因子变得非常接近1,强度的简单直接比较变得有效。这是对生物学中使用的数学变换的一个美丽的物理类比。在NMR和EDS中,目标是相同的:通过实验设计或参考选择,为组合上有效的比较创造条件。
到目前为止,我们已经使用组合推理来分析自然或偶然给予我们的系统。但它最深层次的力量可能在于它帮助我们构建新事物的能力。它是任何复杂系统的基本设计原则。
旨在设计具有新功能的生物有机体的合成生物学领域就是一个完美的例子。梦想是像电气工程师用电阻和电容组装电路一样,将基因“零件”——启动子、核糖体结合位点(RBS)和编码序列——组装成“设备”和“系统”。这需要对两个关键概念进行明确区分:模块性和可组合性。
这两者并不相同。你可能有一堆完美的模块化部件,但它们无法组合。想象一个模块化的启动子和一个模块化的RBS。当你将它们组装起来驱动一个基因时,连接它们的mRNA分子——即接口——可能会形成一个意想不到的发夹环,物理上阻断RBS,从而扼杀蛋白质的产生。这些部件在隔离状态下是好的,但它们的组合因为接口处的意外相互作用而失败了。合成生物学乃至所有工程学的核心挑战,就是掌握这些接口以实现真正的可组合性。
这种思路在信息物理系统的设计中达到了其最抽象和强大的形式——这些系统是软件和物理组件(如卫星、电网或自动驾驶汽车)的复杂集成。为了管理这种复杂性,工程师使用架构描述语言(ADL)。ADL是一种形式化语言,它迫使设计师将关注点分离到正交的“视图”中:系统的结构(组件是什么以及它们如何连接?)、其行为(组件做什么?)、其时序(它们做事情的速度如何?)以及其分配(它们消耗什么资源?)。
然后,ADL提供了一套数学规则,用于在每个视图内组合组件。行为的组合由交互状态机的逻辑支配;时序约束的组合由时序逻辑支配。这种语言被设计成具有一个在数学上称为同态的美妙属性:组合系统的分析保证与单个分析的组合相同。这使得工程师能够通过严谨、逐步地分析其小部件及其相互作用来验证一个庞大、复杂系统的属性。这是组合推理的终极体现。让我们能够理解肠道菌群变化的同一个核心思想,也让我们能够形式化地证明飞行控制系统是安全的。
从微观到宏观,从分析到设计,组合推理是一条金线。它是管理上下文的学科。它教导我们,虽然整体通常大于其各部分之和,但这并非一个谜。它是其各部分及其接口的可预测、可知的功能。无论我们是挥舞着对数比值,设计巧妙的实验,还是定义形式化语言,我们都在进行同样的探索:掌握组合的艺术与科学。