try ai
科普
编辑
分享
反馈
  • 多组学整合:从数据到发现

多组学整合:从数据到发现

SciencePedia玻尔百科
核心要点
  • 通过结合基因组学和蛋白质组学等层面的数据,多组学整合为生物学假设提供的证据比单组学分析呈指数级增强。
  • 早期、晚期和中期融合等计算策略被用于组合多样化的分子数据,其中中期融合对于复杂任务通常最为有效。
  • 对多组学模型进行严格评估,不仅需要评估其准确性,还需要评估其预测能力、稳定性和生物学一致性。
  • 通过孟德尔随机化将遗传学作为一项自然实验,多组学分析有助于建立分子与疾病之间的因果关系。
  • 关键应用包括获得基因功能的完整图景、发现新的疾病内部分型以及构建用于临床结果的预测模型。

引言

仅通过研究基因组来理解一个活的有机体,就像试图通过聆听单一乐器来欣赏一部交响乐。虽然能获得信息,但这种狭隘的视角忽略了各组成部分之间丰富的相互作用,正是这种相互作用创造了生命充满活力的和谐。几十年来,这种简化论方法限制了我们揭示健康与疾病背后复杂机制的能力,这些机制源于一个横跨基因、蛋白质、代谢物及其环境的错综复杂的相互作用网络。由此产生的知识鸿沟意味着我们常常看到相关性,却难以确定真正的因果关系。

多组学整合提供了一种范式转变,为聆听整个生物交响乐团提供了一个整体性框架。通过计算方法结合来自基因组、表观基因组、转录组、蛋白质组和代谢组的数据,我们可以从一份静态的部件列表,转向对整个系统动态的理解。本文旨在为这一强大的方法提供指导。我们将首先探讨其基础性的​​原理与机制​​,详细阐述为何整合如此有效,以及用于融合不同数据集的计算方法。随后,在​​应用与跨学科联系​​部分,我们将见证这些方法的实际应用,展示它们如何彻底改变个性化医疗、疾病分类以及我们推断人类生物学中因果通路的能力。

原理与机制

细胞的交响乐:为何要聆听多种乐器?

想象一下,你试图只听小提琴来理解一部宏伟的交响乐。你当然能抓住一段旋律,但你会错过轰鸣的打击乐、翱翔的木管乐和作为基础的低音。你会错过和声、对位以及所有乐器相互作用所产生的丰富层次。生物学的核心就是一首复杂得惊人的交响乐。几十年来,我们试图只通过聆听一种乐器来理解它:基因组,即生命的静态蓝图。但仅有蓝图并不能告诉你机器是如何运转的。

要真正理解生命的动态过程、健康与疾病,我们必须聆听整个乐团。这就是​​多组学整合​​的精髓。我们结合来自​​基因组​​(DNA蓝图)、​​表观基因组​​(蓝图上指示阅读哪些部分的注释和标记)、​​转录组​​(蓝图的活性副本,即RNA)、​​蛋白质组​​(分子机器和工人,即蛋白质)以及​​代谢组​​(它们使用的燃料和构建模块)的信息。

但这为何如此强大?仅仅是因为拥有“更多数据”吗?答案远比这更深刻、更美妙,它触及了科学证据的本质。假设我们有一个假设 HHH,即某个基因导致了某种疾病。我们可以从不同的“组学”层面收集证据:基因组数据 (DgenD_{\mathrm{gen}}Dgen​)、转录组数据 (DtxD_{\mathrm{tx}}Dtx​) 等等。作为一个简化但强大的模型,我们可以使用概率语言,特别是贝叶斯定理,来思考我们对这个假设的信念。该定理告诉我们如何根据新证据更新我们对假设的信念。在其几率形式中,它看起来像这样:

P(H∣D)P(¬H∣D)=P(D∣H)P(D∣¬H)×P(H)P(¬H)\frac{P(H|D)}{P(\neg H|D)} = \frac{P(D|H)}{P(D|\neg H)} \times \frac{P(H)}{P(\neg H)}P(¬H∣D)P(H∣D)​=P(D∣¬H)P(D∣H)​×P(¬H)P(H)​

左边的项是​​后验几率​​(我们看到数据后的信念),右边最后一项是​​先验几率​​(我们看到数据前的信念)。关键的中间项是​​似然比​​,它衡量的是,如果我们的假设为真,这批证据出现的可能性相对于假设为伪时要大多少。

当我们拥有来自不同组学的多个、相当独立的证据线索时,奇迹就发生了。总似然比变成了各个似然比的乘积。如果基因组学使我们的置信度提升了10倍,转录组学又提升了10倍,那么我们的总置信度不是增加了20倍,而是增加了 10×10=10010 \times 10 = 10010×10=100 倍!这种乘数效应使得多组学整合如此有效。一个在多个分子层面都一致的故事,比仅来自单一层面的响亮信号提供了呈指数级增强的证据。

此外,每个层面都扮演着独特的角色。基因组学提供了一个​​因果锚点​​。因为你的生殖系DNA在受孕时就已固定,如果一个遗传变异与某种疾病相关,这是一个强有力的暗示,表明该基因参与了疾病的致因,而不仅仅是其后果。其他层面——表观基因组、转录组、蛋白质组——的变化则向我们展示了这一因果指令展开的下游机制。通过要求这一证据链,我们可以过滤掉伪相关,并构建一个更为稳健的疾病生物学图景。

厨师的整合指南:组合数据的食谱

好了,我们有了各种成分——来自基因组、转录组、蛋白质组等的数据。我们如何将它们烹饪成一项连贯的发现呢?在这里,计算科学为我们提供了一份策略菜单。

首先,一个至关重要的准备步骤:使所有成分兼容。RNA表达量可能以从零到数十万的计数来衡量,而DNA甲基化是一个介于0和1之间的值。如果我们天真地将它们混合,我们的分析将完全被RNA数据主导,仅仅因为它的数值更大。这就像烤蛋糕时,你用磅来计量面粉,用盎司来计量糖,但都使用数字“1”——你最终只会得到一坨面粉。

为了解决这个问题,我们必须对数据进行​​标准化​​。对于每个变量 XXX(例如一个基因的表达量),我们计算它在所有样本中的均值 μX\mu_XμX​ 和标准差 σX\sigma_XσX​。然后,我们将每个测量值转换为一个​​Z分数​​:

ZX=X−μXσXZ_X = \frac{X - \mu_X}{\sigma_X}ZX​=σX​X−μX​​

这个绝妙而简单的转换将每个组学层面的每个变量都置于相同的尺度上:均值为0,方差为1。现在,我们的分析可以专注于真正的协变模式,而不是任意的测量单位。这一点非常基础,以至于最常用的模式发现方法——主成分分析(PCA),当在相关矩阵上执行时,在数学上等同于在标准化数据的协方差矩阵上执行。标准化确保我们是在进行同类比较。

数据准备就绪后,我们就可以选择我们的整合食谱了。这些食谱可以分为两种主要问题类型和三种主要融合策略。

​​横向与纵向整合:​​

  • ​​纵向整合​​是最常见的类型。它涉及将在相同样本组中测量的不同分子层面(RNA、蛋白质等)堆叠起来。我们是在俯视中心法则的各个层面。
  • ​​横向整合​​涉及组合相同分子类型但来自不同来源的数据。一个有趣的例子是在传染病研究中,我们可能将宿主的转录组与入侵病原体的转录组整合起来,以理解感染的分子对话。

​​三种融合风格:​​ 想象一下,我们正试图建造一台机器,通过使用气压计(压力)、湿度计(湿度)和温度计(温度)的数据来预测是否会下雨。我们如何组合这些信息?

  • ​​早期融合(串联):​​“超级传感器”方法。我们简单地将每个时间点的压力、湿度和温度读数拼接成一个长的数据向量。然后,我们将这个巨大的向量输入一个单一的预测模型,如弹性网络(Elastic Net)或支持向量机(Support Vector Machine)。这种策略很棒,因为模型可以学习变量之间复杂的相互作用。它的危险在于“维度灾难”——如果我们有太多的变量,模型很容易在噪声中迷失,并找到无法泛化的伪模式。

  • ​​晚期融合(集成):​​“专家委员会”方法。我们训练三个独立的模型:一个仅使用压力预测下雨,第二个仅使用湿度,第三个仅使用温度。然后,我们让这三个专家模型投票来做出最终预测。这种方法非常灵活和稳健。如果温度计坏了(数据缺失),其他两个专家仍然可以投票。这种方法一个常见的复杂版本被称为“堆叠(stacking)”,其中一个“元学习器”学习如何最好地权衡专家们的投票。一个特别相关的应用是在​​联邦学习​​中,其中隐私规定禁止将来自不同医院的患者数据集中起来。每家医院在本地训练一个模型,它们不共享敏感数据,而是共享模型本身,然后由一个中央协调器进行聚合。

  • ​​中期融合(表示学习):​​“抽象思考者”方法。这通常是最强大和最优雅的策略。该方法不是处理原始数据,也不是等到最后才整合,而是试图找到一个共享的、底层的​​潜表征​​来表示系统状态。它会问:气压计和湿度计共同在讲述的隐藏故事是什么?例如,它可能会学到一个对应于“冷锋来临”的“潜因子”,这个状态的特征是压力下降和湿度上升。像​​典型相关分析(CCA)​​这样的方法会明确地寻找数据在不同组学层面间相关性最大的投影,而像​​非负矩阵分解(NMF)​​这样的方法则试图将数据分解为一组可加的、基于部分的“模块”。然后,使用这些发现的因子,而不是原始数据,进行预测。这种方法之所以强大,是因为它能减少噪声,并捕捉到隐藏在高维数据中的本质生物学故事。

前沿:高分辨率和时间维度上的整合

整合的原理是普适的,它们正使我们能够应对现代生物学中一些最激动人心的挑战。

​​高分辨率:单细胞革命​​ 多年来,我们通过将组织研磨成浆来研究它们,这种“冰沙”平均了数百万个细胞的分子信号。我们失去了所有单个细胞类型的细节。​​单细胞测序​​就像在水果沙拉被放入搅拌机之前观察它。挑战是什么?通常,由于技术限制,我们可以在一批单细胞中测量转录组,而在来自同一组织的另一批不相交的单细胞中测量表观基因组。如果它们不是来自相同的细胞,我们如何整合它们?

答案在于中期融合。我们为这两个数据集学习一个共享的​​潜空间​​——一种共同的坐标系或地图。算法学会将来自RNA实验的T细胞与来自染色质实验的T细胞放置在地图上的相同位置。通过在这个抽象空间中对齐细胞,我们突然可以提出强有力的问题。我们可以看到哪些调控元件(来自表观基因组数据)在表达某种基因高水平的相同细胞类型中是开放的(来自转录组数据),从而让我们能够描绘出控制细胞身份的调控线路。

​​贯穿时间:生命的动态​​ 生命是一部电影,不是一张快照。当我们研究疾病进展时,我们会随时间收集数据。这引入了新的一层复杂性。天真地将同一时钟时间测得的数据进行关联可能会大错特错。为什么?有两个原因:​​生物学延迟​​和​​个体步调​​。

中心法则有内在的延迟:一个基因被转录成RNA,之后这个RNA才被翻译成蛋白质。这其中有延迟。此外,不同患者经历疾病的速度也不同。患者A的“第3个月”在生物学上可能等同于患者B的“第5个月”。

考虑一个简单的假设案例,其中一个基因的表达量 y1(t)y_1(t)y1​(t) 遵循正弦波,而其蛋白质产物 y2(t)y_2(t)y2​(t) 遵循相同的模式但有延迟,使其成为余弦波。如果你在匹配的时钟时间对它们进行相关性分析,你可能会发现零相关,从而让你相信它们是无关的!。事实是它们完全相关,只是不同步。

真正的纵向整合需要​​动态建模​​,使用像微分方程这样的数学工具,明确考虑时间延迟;以及​​时间对齐​​算法,该算法扭曲每个患者的时间线以匹配一个共享的“生物学时间”。这就像音响工程师同步多个在稍有不同时间开始的同一事件的视频源。只有这样,我们才能重建生物过程的真实、动态的轨迹。

它有效吗?严格评估的艺术

在一个充满复杂算法和海量数据的世界里,找到模式很容易,但要确定这些模式是否真实则要困难得多。一个多组学模型可以非常复杂,但它是否同样正确?为了回答这个问题,我们需要一个多方面的评估策略。一个成功的整合方法应该产生以下结果:

  1. ​​可预测性:​​ 首先也是最重要的,模型是否有能力?它能否预测临床结果,如患者生存期或对治疗的反应?至关重要的是,我们必须在模型从未见过的数据上评估这一点,使用像​​嵌套交叉验证​​这样的严格技术来获得其性能的诚实估计。

  2. ​​稳定性:​​ 如果我们对95%的患者重新运行分析,我们会得到一个完全不同的答案吗?一个稳健的生物学发现不应该对少数数据点的变化敏感。我们可以通过反复扰动我们的数据集(例如,通过自助法)并测量结果变化了多少来测试这一点。

  3. ​​生物学一致性:​​ 结果是否合理?如果我们的模型将一组基因确定为重要基因,这些基因是否属于一个已知的生物学通路?它们的蛋白质产物是否在一个已知的网络中相互作用?这需要对照外部生物学数据库来检验我们的发现,并始终使用严格的统计控制以避免被偶然性所欺骗。

  4. ​​结构性:​​ 如果目标是发现疾病的新亚型,那么由此产生的患者聚类是否分离良好且稳健?

至关重要的是,这些目标之间常常存在张力。提供最高预测分数的模型可能是一个无法解释的“黑箱”,并且非常不稳定。多组学整合的真正艺术不仅在于开发强大的算法,还在于明智地在这些权衡中导航,以找到不仅具有预测性,而且稳定、可解释,并最终能揭示生命那美丽而错综复杂的交响乐的模型。

应用与跨学科联系

在探索了多组学的基本原理之后,我们现在进入这些思想变为现实的激动人心的领域。如果说前一章是学习分子生物学的音符和音阶,那么这一章就是聆听交响乐。几个世纪以来,我们孤立地研究生命的组成部分——这里一个基因,那里一个蛋白质。但生命不是一个零件清单;它是一个动态的、相互关联的系统。多组学整合就是我们的指挥总谱,让我们看到基因组的小提琴、蛋白质组的铜管和代谢组的木管如何协同演奏,创造出活细胞的音乐。

伟大的生理学家 Claude Bernard 很久以前就阐明了最终目标,即理解 milieu intérieur——每个有机体为抵抗外部混乱而维持的稳定、自我调节的内部世界。身体是如何实现这种非凡的恒定性的?答案在于错综复杂的反馈和控制网络。现代系统生物学,手握多组学数据,终于为我们提供了绘制这些网络的工具,写下支配它们的动力学方程,并测试它们的稳定性,从而将 Bernard 深刻的哲学概念转化为一门定量的、可预测的科学。这段从单个分子到动态整体的旅程,是一个分几幕讲述的故事。

看到全貌:从基因到功能

我们的科学之旅通常始于基因组,即生命的蓝图。多年来,医学遗传学的承诺是,通过阅读这份蓝图,我们可以预测个体的性状,从他们的疾病风险到他们对药物的反应。但现实,一如其常,被证明要微妙得多。拥有“正常”基因的患者可能表现出异常性状,而那些有“风险”基因的患者可能完全健康。看来,蓝图并非故事的全部。

想象一位医生试图预测一位患者将如何代谢一种新药。该药物由一种特定的酶分解,这种酶是细胞色素P450(Cytochrome P450)家族的一种蛋白质。医生对患者的DNA进行测序,发现编码这种酶的基因看起来完全正常;它应该能产生功能齐全的蛋白质。仅基于基因组学的预测是,该患者是一个“正常代谢者”。然而,当给药后,药物在体内滞留,其浓度攀升至毒性水平。事实上,该患者是一个“弱代谢者”。问题出在哪里?

多组学整合将这个谜题变成了一系列线索。我们遵循分子生物学中心法则所规定的信息流。

  1. ​​基因组学 (GGG)​​: DNA蓝图是我们的起点。在这里,它给了我们一个误导性的预测。
  2. ​​转录组学 (TTT)​​: 接下来,我们测量患者肝细胞中的信使RNA(mRNA)。我们发现,来自我们“正常”基因的mRNA转录本数量显著低于平均水平。这种酶的工厂订单没有被正确发出,可能是由于DNA调控区域的一个细微变异,而标准测序错过了它。
  3. ​​蛋白质组学 (PPP)​​: 顺藤摸瓜,我们测量酶本身的丰度。不出所料,mRNA信息更少,细胞的蛋白质制造机器产生的最终酶也更少。装配线上的“工人”数量不足。
  4. ​​代谢组学 (MMM)​​: 最后,我们观察这种酶水平降低的直接后果。我们测量药物(底物)与其分解产物的比率。在我们的患者中,这个比率是正常代谢者的十倍。这是代谢活性差的明确、经验性的证据。

每个“组学”层面都讲述了故事的一部分。基因组学给了我们一个假设。转录组学和蛋白质组学揭示了失败的机制——一个表达问题,而非内在功能问题。而代谢组学证实了患者的功能性结果。通过整合这些层面,我们解开了谜题,得出了正确的临床图景:一个“遗传上正常”但功能上是弱代谢者的患者。这不仅仅是一个学术练习;它是个性化医疗的精髓——利用完整的分子画像为合适的患者做出正确的决定。

在噪声中寻找模式:预测的艺术

虽然解释单个案例很强大,但下一个巨大的挑战是建立能够预测未来的模型。我们能否预测患有溃疡性结肠炎的患者是否会对一种强效抗炎疗法产生反应? 我们能否发现一种新的生物标志物,能够可靠地从血液样本中诊断出肿瘤?

此类预测的原材料同样是多组学数据。但在这里,我们面临着数据本身惊人的复杂性。我们可能有 20,00020,00020,000 个基因、3,0003,0003,000 种蛋白质和数百种微生物物种的测量数据,但只有几百名患者。特征数量 (ppp) 远远超过样本数量 (nnn),这是被称为“维度灾难”的经典场景。此外,数据是杂乱的:测量是在不同批次中进行的,引入了技术噪声,并且一些值是缺失的,并非随机缺失,而是由于系统性原因(例如,一种蛋白质含量太低而无法检测到)。

如何从这种高维、嘈杂且不完整的信息中构建一个可靠的预测器?这就是计算整合艺术的用武之地,我们可以思考三种主要哲学:

  • ​​早期融合​​:最简单的想法。只需将所有数据——基因组、蛋白质组等——拼接成一个巨大的电子表格,然后将其输入一个单一的机器学习模型。这使得模型能够找到任何特征之间的任何可能的相互作用,但在 p≫np \gg np≫n 的情况下,这就像在银河系大小的干草堆里找一根针。模型几乎肯定会“过拟合”——记住训练数据中的噪声,而不是学习一个真实的、可泛化的生物信号。

  • ​​晚期融合​​:另一个极端。为每个“组学”层面建立一个独立的预测器。一个模型从基因组学中学习,另一个从蛋白质组学中学习。然后,让它们“投票”或让一个元学习器根据它们的个别预测做出最终决定。这种方法稳健且模块化,但它错失了机会。各个模型从未在特征层面上相互交流,因此它们无法发现基因和蛋白质之间至关重要的相互作用,而这可能正是预测的关键。

  • ​​中期融合​​:一种更复杂,且通常更强大的策略。这种方法承认每个“组学”层面的独特性。它首先为每种数据类型使用一个专门的“编码器”来学习其内部语言,并将其数千个原始特征提炼成少数有意义的、低维的“潜因子”。这些因子可能代表整个生物通路的活性或一个关键的调控过程。只有这样,这些有意义的、压缩的表示才在一个联合模型中被融合,以做出最终预测。这种方法尊重生物学层次结构,处理每种模态内的噪声和缺失数据,然后学习它们之间更高层次的相互作用。正是这种有原则的、分层的方法,常常能成功地从真实的临床数据中构建出稳健且可解释的模型。

分类复杂性:发现隐藏的疾病类型

有了做出预测的能力,我们可以追求更深层次的理解。通常,我们所说的单一疾病,如“周期性发热综合征”,根本就不是一个单一实体。它是一些碰巧产生相似症状的不同潜在功能障碍的集合。精准医学的目标是超越基于症状的标签,并根据其根本机制对疾病进行重新分类。这些基于机制定义的亚型被称为“内部分型(endotypes)”。

多组学整合是我们发现这些内部分型的主要工具。想象一个孩子患有复发性、不明原因的发烧。原因可能是几个不同的炎症通路之一失控了:炎症小体通路、TNF通路或干扰素通路。我们如何找到真正的罪魁祸首?

我们可以将此问题构建为一个推断问题,很像侦探衡量不同证人证据的权重。我们将未知的内部分型视为一个“潜变量”,并使用贝叶斯定理来计算每种可能性在给定证据下的概率。

  • ​​证人1(基因组学)​​:我们在 NLRP3 基因中发现了一个错义突变,该基因是炎症小体的关键组成部分。这具有提示性,但许多人携带此类变异而不会生病。证据很强,但并非决定性的。假设它给炎症小体内部分型带来了 70%70\%70% 的概率。

  • ​​证人2(蛋白质组学)​​:我们测量患者血液中的蛋白质,发现白细胞介素-1β(Interleukin-1β)和血清淀粉样蛋白A(Serum Amyloid A)的水平非常高。这些是炎症小体过度活跃的典型下游标志。这位证人也强烈指向同一嫌疑。

  • ​​证人3(代谢组学)​​:我们分析患者的代谢物,发现衣康酸(itaconate)和乳酸(lactate)的积累。这种特定的代谢特征已知在巨噬细胞的炎症小体被激活时出现。第三位独立的证人讲述了同样的故事。

单独来看,每一条证据都留有一定的怀疑空间。但当我们整合它们时,奇迹发生了。贝叶斯框架告诉我们要将概率相乘。连贯的信号——那个在从基因到蛋白质再到代谢物的整个因果链上都一致的信号——被放大了,而噪声和模糊性则被冲淡了。我们最初的不确定性烟消云散,我们可以以超过 90%90\%90% 的置信度得出结论,这个孩子患有炎症小体病。这不仅仅是一个更准确的诊断;它是一个基于机制的诊断。它告诉医生患者不仅得了什么病,还有为什么得病。而这一知识直接指向了靶向治疗,在本例中是一种特异性阻断白细胞介素-1β蛋白的药物,从源头上平息了风暴。

圣杯:从相关到因果

我们已经看到整合如何能够精炼诊断、预测临床结果和分类疾病。但生物医学科学的终极目标是理解因果关系。这个基因是否导致了这个疾病?如果我们能阻断这个蛋白质,是否能预防病理发生?这些是简单的相关性无法回答的问题。一个基因的活性可能与疾病相关,因为它导致了疾病,或者因为疾病导致了该基因活性的改变,或者因为两者都由某个第三个、未测量的因素引起。

这就是多组学整合最绝妙的应用之一:利用遗传学作为因果推断的工具。关键思想被称为​​孟德尔随机化​​(Mendelian Randomization)。在受孕时,大自然进行了一项庞大的、随机对照的试验。等位基因——基因的不同版本——被随机洗牌并分配给群体。因为你的生殖系DNA在出生时就已固定,并且不受你后来的生活方式或疾病状态的影响,我们可以使用这些自然随机化的遗传变异作为完美的“工具变量”来探测疾病的因果结构。

考虑一下揭示阿尔茨海默病病因的艰巨挑战。我们观察到,某个基因的表达量,我们称之为 EEE,在阿尔茨海omer病患者的大脑中更高。高水平的 EEE 会导致阿尔茨海默病吗?为了找出答案,我们可以按部就班地进行:

  1. 我们找到一个常见的遗传变异,一个单核苷酸多态性(SNP),记为 GGG,它与基因 EEE 的表达水平可靠相关。拥有某个版本SNP的人表达水平稍高,而拥有另一个版本的人表达水平稍低。这个SNP是我们研究 EEE 的“工具变量”。

  2. 然后我们测试这个工具变量 GGG 是否也与阿尔茨海默病的一个关键病理标志相关,比如说,脑脊液中磷酸化tau蛋白(phospho-tau protein)(BBB)的水平。如果是,这提供了证据表明改变表达水平 EEE 会导致病理 BBB 的改变。

  3. 最后,我们可以测试工具变量 GGG 是否与临床结果本身 (YYY) 相关,即患者中观察到的认知能力下降。

通过将这些关联连接成一个因果链 G→E→B→YG \to E \to B \to YG→E→B→Y,并使用复杂的统计检验来排除混杂因素(一个称为共定位的过程),我们可以从简单的相关性转向一个有方向的、因果性的论断。这个框架可以扩展到多个“组学”层面,从一个遗传风险因素一直追溯到临床症状。这是一个缓慢、细致的过程,但它使我们能够构建人类疾病的因果图谱,识别出真正的驱动因素,从而找到最有希望的新药靶点。

本着同样的精神,我们可以为复杂的生态系统(如我们自己的肠道微生物组)建立机制模型。通过整合宏基因组学(告诉我们哪些微生物和基因存在)、宏转录组学(哪些基因正在被表达)和宏代谢组学(哪些小分子正在被生产或消耗),我们可以构建整个群落代谢的计算模型。这使我们能够估计关键代谢途径的通量——即实际活动速率,例如对宿主免疫健康至关重要的短链脂肪酸的生产。通过将这些推断的通量与宿主的表型联系起来,我们可以精确地指出哪些微生物活动是因果驱动宿主反应的。

指挥家的指挥棒

正如我们所见,多组学整合远不止是大数据练习。它是一种范式转变。它使我们能够拼凑出疾病的完整故事,从一个细微的遗传倾向到对患者的功能性后果。它为我们提供了构建能够预测治疗反应的预测模型的工具,以及发现复杂综合征隐藏的机理亚型的工具。而最深刻的是,它提供了一种有原则的方式来攀登推断的阶梯,从仅仅的相关性到对因果关系的真正理解。

我们仍处于这个新时代的黎明。挑战依然巨大,数据依然复杂,模型仍在不断演进。但我们第一次将总谱握在手中。我们开始能看到连接,听到和声与不和谐,并理解细胞那宏伟而错综复杂的交响乐。这就是多组学整合的力量和承诺——它是21世纪生物学的指挥棒。