多组学数据整合

玻尔百科

定义

多组学数据整合是系统生物学中的一种计算方法，通过结合基因组学与功能数据等不同层面的分子信息，提供对生物系统的全面理解。该过程涉及对具有不同统计特征的数据进行建模与归一化，旨在利用多模态自编码器等工具发现代表核心生物状态的共享潜在空间。在精准肿瘤学和系统药理学领域，这种整合技术能够助力研究人员超越相关性分析，进而推断因果生物通路并实现个体化给药。

核心要点

每种组学数据类型都具有独特的统计特征，如计数或连续值，这要求在整合前进行特定的建模和归一化。
中期整合方法，如多模态自编码器，旨在发现一个共享的潜空间，以表示不同分子层面下的核心生物学状态。
在医学领域，多组学整合通过提供对肿瘤的整体视图来驱动精准肿瘤学，并通过系统药理学实现个性化药物剂量。
通过将基因组学与功能数据相结合，孟德尔随机化等技术使研究人员能够超越相关性，推断因果生物学通路。

引言

在现代生物学和医学研究中，我们面临着一个美丽而艰巨的挑战：不是通过单一视角，而是通过不同分子视角的交响乐来理解生命的复杂性。孤立地分析基因组、转录组或蛋白质组，只能提供故事的片段，就像在管弦乐队中只听一种乐器。健康的真正旋律和疾病的不和谐音都源于它们之间的相互作用。因此，核心问题是如何将这些多样化且充满噪声的“组学”数据类型有效地整合到一个连贯的生物学叙述中。本文旨在为这一复杂领域提供指引。首先，在“原理与机制”部分，我们将深入探讨技术基础，探索每个组学层独特的统计学语言以及将它们编织在一起的强大机器学习哲学。随后，“应用与跨学科联系”部分将展示这些方法的实际应用，揭示多组学整合如何革新精准肿瘤学、解开生命发育的奥秘，并为理解人类健康提供一个定量的框架。

原理与机制

要真正领会多组学整合的力量，我们必须首先亲手处理数据本身。想象一下试图理解一个交响乐团。你不会只听小提琴；你会想听到铜管、木管、打击乐器，最重要的是，它们是如何合奏的。乐团的每个部分对应一个不同的“组学”层面，每个层面都有其独特的特性、语言和统计个性。因此，我们的首要任务不是强迫它们齐声歌唱，而是学会欣赏它们各自独特的声音。

细胞的交响曲：不同声音的合唱

分子生物学的中心法则为我们提供了乐谱：信息从DNA流向RNA，再到蛋白质，后者进而驱动细胞的代谢机器。这个级联反应中的每一步都是我们可以测量的一个新信息层，而每种测量技术都为数据赋予了其独特的统计学特征。理解这些特征是实现可靠整合的首要原则。

基因组学（乐谱）： 基础是基因组，即我们的DNA。在很大程度上，它是一张稳定的蓝图。有趣的部分是变异——使我们每个人都独一无二的单核苷酸多态性（SNPs）、插入、缺失和拷贝数变异（CNVs）。当我们测量这些变异时，我们通常处理的是离散类别（如基因型A/A, A/G, G/G）或介于0和1之间的比例（如肿瘤中携带某种突变的细胞比例）。这里的统计学常常类似于抛掷一枚可能有轻微偏倚的硬币，这个过程可以被二项分布或其更灵活的表亲贝塔-二项分布完美地捕捉，后者能解释超出纯粹机会的额外“摆动”。
转录组学（指挥的诠释）： 如果DNA是乐谱，那么转录组——RNA转录本的全集——就是指挥家对乐谱的即时诠释。它极其动态，每时每刻都在变化。至关重要的是，像RNA测序（RNA-seq）这样的方法是通过计数单个RNA片段来工作的。这种计数离散项目的行为引入了一种被称为散粒噪声的基本噪声类型，它可以被泊松分布完美地描述。泊松数据的一个关键特征是其方差等于其均值；表达量越高的基因不仅丰度更高，其测量值的内在变异性也更大。实际上，生物系统比这还要嘈杂，这种现象被称为过度离散。因此，我们经常转向负二项分布，这是一个更灵活的模型，可以被看作是一个速率不稳定的泊松分布。
蛋白质组学与代谢组学（声响）： 蛋白质和代谢物是细胞的功能主力——它们是管弦乐队实际奏出的音乐。像液相色谱-质谱联用（LC-MS）这样的技术不是通过计数来测量它们的丰度，而是通过检测连续信号，如谱图中的峰强度。这里的噪声是不同的。它通常是乘性的，意味着误差的大小与信号本身的大小成正比。一个非常丰富的蛋白质会有很大的绝对误差，而一个稀有的蛋白质则会有很小的绝对误差。这导致数据呈偏态分布，具有一个高丰度特征的长尾。对数正态分布是这里的英雄；通过对数据取对数，我们可以驯服这种乘性噪声，使数据更对称、表现更好。另一个挑战是，丰度极低的分子可能会低于仪器的检测限，导致出现并非随机的缺失值，这些缺失值依赖于真实的丰度。
表观基因组学（指挥的注释）： 表观遗传标记，如DNA甲基化，就像指挥家在乐谱上的个人注释——“这部分演奏得轻柔些”，“强调这段”。它们不改变音符，但深刻地改变了音符的演奏方式。测量甲基化的一种常用方法是使用β值，这是一个介于0和1之间的数字，表示特定位点上被甲基化的分子比例。与基因组等位基因频率类似，这种有界数据天然地由贝塔-二项分布建模。这些值在整个基因组中的分布通常是双峰的，大多数位点要么完全未甲基化（接近0），要么完全甲基化（接近1），反映了它们作为生物学开/关切换器的功能。

乐器调音：驯服噪声与偏倚

在我们的管弦乐队开始演奏之前，我们必须确保乐器都已调准，并且没有哪个声部会盖过其他声部。现实世界的数据收集中充满了技术伪影，这些伪影会引入偏倚并违反基本的统计学假设。许多分析中的一个核心假设是可交换性——即我们收集样本的顺序不应影响结果。如果我们今天测量10个病人，下周再测量10个病人，我们测量设备的基本属性应该是相同的。然而，技术伪影会打破这个假设。一个MRI扫描仪的灵敏度可能会随时间逐渐漂移，或者测序机上的不同泳道（lanes）可能会有轻微不同的效率。这意味着在时间 $t_1$ 采集的测量值不能直接与在时间 $t_2$ 采集的测量值进行比较。

为了应对这个问题，我们依赖于质量控制（QC）的无名英雄主义。通过在每个批次中加入对照样本——比如一个稳定的MRI体模或已知混合物的内参（spike-in）DNA——我们可以直接测量这些技术效应。简单的统计假设检验，例如检查漂移的斜率是否显著不为零，使我们能够标记或校正那些已经“走调”的批次。

即使乐器已经调准，有些乐器天生就比其他乐器声音大。正如我们在转录组学中看到的，具有高均值计数的特征也具有高方差。如果我们天真地将这些数据与（例如）甲基化数据（其值被整洁地限制在0和1之间）结合起来，高方差的转录组学特征将完全主导任何分析，就像嘹亮的喇叭声淹没安静的长笛声。

这就是方差稳定化变换（VSTs）发挥作用的地方。其目标是找到一个数学函数 $g(x)$ ，我们可以将其应用于我们的数据，使得变换后数据的方差 $\mathrm{Var}(g(X))$ 近似为常数，且独立于均值。对于具有过度离散的计数数据（如RNA-seq），简单的平移对数变换 $g(x) = \ln(x+1)$ 效果非常好。对于均值 $\mu$ 很大的高表达基因，这种变换使方差趋近于一个与离散度相关的恒定值。虽然这不是一个完美的解决方案，尤其对低计数值而言，但它极大地减少了均值-方差依赖性。这种归一化过程对于将所有组学层面置于一个更平等的地位至关重要，使我们能够以其全部平衡的辉煌来聆听交响乐。

三种整合哲学

数据经过清洗、调整和归一化之后，我们来到了核心问题：我们如何将这些不同的线索编织在一起？没有单一的答案；相反，存在三种主要哲学。

早期整合（串联）： 这是最直接的方法。我们简单地将每个组学层面的特征表并排串联成一个巨大的表格。然后我们将这个表格输入一个单一、强大的机器学习算法，并希望它能理清复杂的关系。这种方法简单，并且可以捕捉不同组学类型之间的相互作用，但它通常是一个粗糙的工具。巨大的特征数量可能让人不堪重负，而且如果不同数据类型的结构差异很大，它可能会遇到困难。
晚期整合（集成）： 这种策略采取了相反的做法。我们为每个组学层面独立地构建一个单独的预测模型。一个模型成为转录组的专家，另一个成为蛋白质组的专家，依此类推。然后我们结合它们的预测——例如，通过对它们进行平均，或者通过一个“元模型”来学习如何最好地权衡每个专家的意见（一种称为堆叠（stacking）的技术）。这种方法灵活且稳健，但它可能会错过那些只有在从一开始就联合考虑数据类型时才可见的协同模式。
中期整合（表示学习）： 这可以说是最优雅和最强大的哲学。这里的目标不是结合原始特征或最终预测，而是找到一个共享的、低维的表示——通常称为潜空间——它捕捉了所有组学层面共有的基本生物学信息。其思想是，存在一个潜在的、未被观察到的患者生物学状态（例如，“炎症反应激活”，“细胞增殖通路失调”），而这个单一状态在转录组、蛋白质组和代谢组中以不同方式表现出来。中期整合旨在逆向工程这个隐藏状态。

探寻指挥意图：潜空间的魔力

共享潜空间的概念是现代多组学整合核心的统一原则。这个空间充当一种通用语言，一块在不同分子词汇之间进行翻译的罗塞塔石碑。有两大类算法被用来发现这个空间。

一种方法是通过矩阵分解。想象一下，我们的数据是一个大矩阵，行是患者，列是特征。非负矩阵分解（NMF）旨在将这个大矩阵分解为两个较小的矩阵：一个“患者因子”矩阵和一个“特征载荷”矩阵。“因子”可以被认为是潜在的生物学程序或通路。NMF的美妙之处在于其可加性；患者的组学图谱被建模为这些程序的简单加权和。在耦合NMF中，我们同时分解多个组学矩阵，但强制它们共享相同的患者因子矩阵。这个共享矩阵就成为我们的潜空间，代表了每个患者体内关键生物学程序的活动，这些活动反映在所有分子层面。

一种更新、更强大的方法来自深度学习，特别是多模态自编码器。自编码器是一种神经网络，它被训练来完成一个简单的任务：接受一个输入（比如一个病人的转录组），将其压缩成一个非常小的潜表示，然后尝试从这个压缩码中重建原始输入。多模态自编码器同时对多个组学层面执行此操作，但有一个关键的转折：所有层面都被强制通过同一个共享的潜空间 $Z$ 。这迫使网络学习一个足够丰富的表示，以同时重建所有组学模态。这个共享空间 $Z$ 成为患者的终极整合图谱。这些模型解锁了一项真正卓越的能力：跨模态插补。如果一个患者有RNA和DNA数据，但缺少蛋白质组学数据，我们可以编码可用的数据来找到他们在潜空间 $Z$ 中的位置，然后使用网络的解码器部分来生成他们蛋白质组可能样子的预测。

从相关到因果

发现这些优雅的潜空间揭示了与疾病相关的强大模式和关联。但我们能更进一步，从因果关系中解开相关性吗？我们能利用多组学数据来绘制从一个遗传变异到临床结果的事件链吗？

在这里，我们必须区分两种类型的模型。大多数机器学习模型是学习复杂相关模式的“黑匣子”。它们在预测方面表现出色，但可能很脆弱；它们不知道系统的基本规则。相比之下，机理模型通常由常微分方程（ODE）系统构建，编码了已知的生物物理定律，如化学反应的质量作用定律。通过将数据整合到这样的模型中，我们不仅仅是在拟合曲线；我们是在参数化一个对现实的模拟。这使我们能够提出“如果……会怎样”的问题——进行计算机模拟干预，并外推到我们从未见过的条件，这对于纯粹的相关模型来说是出了名的困难。

也许，使用多组学进行因果推断最精彩的例子来自于利用大自然自身的实验：遗传变异。孟德尔随机化（MR）是一个绝妙的想法，它利用了我们的基因在出生时是随机分配的这一事实。一个已知会影响某个特定基因表达的遗传变异（一个表达数量性状位点，或eQTL）可以被用作一个自然的“工具”，来检验该基因的表达是否对某种疾病有因果影响。

通过整合来自基因组学、转录组学、蛋白质组学（pQTLs）和代谢组学（mQTLs）的数据，我们可以开始拼凑出中心法则所承诺的整个因果链。某个特定的遗传变异是否导致基因表达的改变，进而导致蛋白质丰度的改变，最终改变代谢通路并导致疾病？像多变量孟德尔随机化这样的技术使我们能够检验这些复杂的中介路径。这是多组学整合的终极承诺：超越单纯的描述和预测，开始绘制支配生命和疾病的复杂因果网络。

应用与跨学科联系

在探索了多组学数据整合的原理和机制之后，我们现在来到了探索中最激动人心的部分：见证这些思想的实际应用。理解一门新语言的抽象语法是一回事；亲眼目睹它被用来写就惊心动魄的诗歌和深邃的散文则完全是另一回事。在本章中，我们将看到多组学整合不仅是生物学家工具箱中的一个新工具，更是一种新的观察方式——一个从根本上改变我们如何处理医学、剖析生命机器，甚至如何概念化健康与疾病的透镜。

我们将从床边走向工作台，从治疗病人的直接挑战转向理解一个受精卵如何构建完整生物体的永恒探索。贯穿始终，你会看到一个统一的主题：生物学正在从创建“零件清单”转向绘制“机器蓝图”。

医学革命：迈向预测与精准

也许，多组学整合最直接和最有影响力的应用是在医学领域。几十年来，医学一直基于平均值运作，开出的治疗方案对“普通病人”有效。但我们都知道，根本没有所谓的普通病人。我们每个人都是一个独特的生物宇宙。多组学为这个宇宙提供了地图。

精准肿瘤学：更清晰地洞察敌人

想象一个肺癌病人。传统方法可能包括识别一个单一的基因突变，比如EGFR基因，然后开出一种靶向EGFR蛋白的药物。这相比于一刀切的化疗是一个巨大的进步，但这仍然像是通过钥匙孔看战场。如果癌症还有其他计划呢？

在现代精准肿瘤学诊所中，我们可以做得更多。通过整合多层数据，我们获得了一个全景视图。基因组学不仅可能揭示EGFR突变，还可能发现另一个癌症驱动基因MET的扩增。转录组学可能会证实，这种MET扩增导致了MET信使RNA的泛滥。但关键证据来自蛋白质组学，特别是磷酸化蛋白质组学，它测量蛋白质的活性。如果我们看到EGFR和MET蛋白都处于其活化的磷酸化状态，我们现在就有了更完整的画面。这个肿瘤不仅仅由一个引擎驱动，而是两个。仅靶向EGFR的疗法很可能会失败，因为肿瘤可以依赖其MET引擎来生存。多组学视图直接指向了一个更合理的策略：使用一种能同时阻断这两个通路的联合疗法。

故事并未就此结束。同样的分析可以告诉我们肿瘤与病人免疫系统的关系。单一的蛋白质标记PD-L1可能高度表达，这表明免疫疗法可能有效。但这同样只是一个复杂谜团中的单一线索。为了让T细胞攻击癌细胞，它们必须首先能够“看见”它。这需要癌细胞使用一种名为MHC-I的蛋白质复合体在其表面呈现自身的片段。更深入地使用表观基因组学可能会发现，一个关键MHC-I组分B2M的基因已经被甲基化沉默了。转录组学将证实没有B2M RNA正在生成，而蛋白质组学将显示MHC-I复合体在细胞表面缺失。

结论是惊人而深刻的。尽管有很高的PD-L1信号，这个肿瘤实际上穿着一件“隐形斗篷”。旨在“释放”T细胞“刹车”的免疫疗法将毫无用处，因为T细胞甚至找不到它们的目标。通过整合这四层数据，我们避免了一次徒劳且昂贵的治疗，并被引导向一种更有效、靶向性更强的联合疗法。这就是看到全局的力量。

构建稳健的药物反应预测器

精准肿瘤学的逻辑可以被推广。对于许多疾病和药物，我们都想预测谁会响应，谁不会。以PARP抑制剂为例，这是一类对具有特定DNA修复缺陷（称为同源重组缺陷，HRD）的癌症非常有效的药物。挑战在于直接测量HRD很困难。

多组学方法使我们能够将HRD视为一种“潜伏状态”——细胞的一种基本但未被观察到的属性。我们的不同数据类型——由错误的DNA修复留下的基因组“疤痕”、DNA修复通路的转录组特征，以及功能性修复蛋白的蛋白质组读数——都是对这种潜在状态的嘈杂、不完美的测量。一种天真的方法可能是简单地将证据相加。但一个真正复杂的、基于概率推理的策略会建立一个层次模型。它将“存在一个真实的HRD状态，而我们的测量是其下游结果”这一想法形式化。这样的模型可以恰当地权衡每个组学层的证据，考虑到像细胞分裂速率这样的混杂因素，并最终提供一个更稳健、更准确的预测，判断患者的肿瘤是否真的对PARP抑制剂易感。

这种从简单生物标志物到整合的、概率性模型的转变是一个主要趋势。它使我们从寻找单一的“灵丹妙药”预测器，转向为疾病建立一个全面的“案卷”，从所有可用来源汲取证据，以做出最明智的判断。

攻克慢性病的复杂性

当我们转向像溃疡性结肠炎（UC）这样的复杂慢性病时，挑战就更大了。在这里，疾病的驱动因素不是单一突变，而是宿主遗传、免疫失调和肠道微生物组的纠缠网络。预测患者是否会对某种给定的疗法（如抗TNF药物）产生反应是出了名的困难。

在一个来自UC患者的多组学数据集中，试图将所有东西与所有东西进行暴力关联将是一场灾难。数据是混乱的。在不同日期运行样本会产生技术性的“批次效应”。微生物组数据是组合性的——相对丰度总和为一，这会产生虚假的相关性。而且特征（基因、蛋白质、微生物）的数量可能远超患者数量，这是统计学上过拟合的典型配方。

一个严谨的多组学策略会直面这种复杂性。它涉及一个谨慎的、循序渐进的过程：首先，预处理每种数据类型以去除技术噪声并处理其独特的统计特性。然后，不是简单的相关性分析，而是使用像多组学因子分析这样的方法来寻找共享的活动模式——代表核心生物过程的潜因子，比如一个贯穿转录组和蛋白质组的特定“炎症特征”。最终的预测模型是使用这些更稳定、更具生物学意义的因子，以及遗传信息和微生物组特征来构建的。这种“中期整合”方法尊重生物学层次结构，并且比简单地将所有数据扔进一个黑匣子要稳健得多。它说明了一个关键的教训：整合数据不是要抹去它们之间的差异，而是要智能地建模它们之间的关系。

系统药理学的黎明

我们可以更进一步，为患者与药物的相互作用创建一个真正的整体模型。用锂治疗双相情感障碍就是一个典型的例子。几十年来，剂量调整一直是一个试错过程，因为患者在反应和毒性方面表现出很大的差异。

一个真正的系统药理学方法旨在模拟整个过程。它始于建立一个基于质量守恒定律的药代动力学（PK）模型，该模型描述锂如何被吸收、分布和通过肾脏清除。这个模型包含了肾功能和体型等临床因素。然后，它建立一个基于中心法则的药效动力学（PD）模型，该模型描述药物如何影响患者的生物学。这个PD模型使用基线多组学数据来创建“通路活性评分”，量化锂被认为靶向的神经通路的状。

最后一步是在一个因果框架中将它们联系起来。基线组学数据定义了患者的生物学背景。PK模型根据剂量预测药物随时间变化的浓度。然后，PD模型根据该药物浓度如何与患者特定的通路活性相互作用来预测临床结果。这个整合模型可以利用常规的锂血药浓度测量进行持续更新和个性化。这不再仅仅是预测一个结果；它是模拟整个患者-药物系统，以实时指导剂量调整。这是个性化医疗的终极承诺。

揭示生命机器：从静态图谱到动态影片

虽然临床应用引人注目，但多组学整合最深远的影响可能在于基础生物学。我们首次拥有了超越静态快照，创造生命最基本过程的动态、高分辨率“电影”的工具。

绘制发育的航程

生物学中最大的谜团之一是发育：一个受精卵如何遵循一套神秘的指令，构建出大脑、心脏、一条鱼或一个人？我们现在正在构建描绘这一不可思议旅程的图谱。

以早期斑马鱼胚胎为例，它是发育生物学家最喜爱的模式生物。通过在原肠胚形成期间——即主要胚层（外胚层、中胚层和内胚层）建立的关键阶段——在许多精细间隔的时间点上收集单细胞多组学数据，我们可以开始重建这个过程。通过整合单细胞转录组学（现在哪些基因是开启的）和单细胞染色质可及性（接下来哪些基因可能被开启），我们既能了解每个细胞的当前状态，又能了解其未来潜能。再加上RNA速度（RNA velocity），它测量新合成的信使RNA与成熟信使RNA的比率，为我们提供了方向性向量，告诉我们每个细胞在不久的将来将走向何方。

其结果是一条壮丽的轨迹，一棵巨大的、分叉的树，我们可以在每个分叉点观察祖细胞群体做出决定，致力于一种命运而非另一种。但这条计算出的轨迹是真实的吗？在这里，与一种完全不同的技术——遗传谱系追踪——的整合提供了最终的验证。利用像Cre-Lox系统这样的遗传工具，我们可以在一个精确的时刻“标记”一组特定的祖细胞，并在几小时后看它们变成了什么。或者，利用基于CRISPR的“条形码”技术，我们可以在最早的细胞中印上独特的遗传条形码，并重建整个胚胎的真实家谱。当我们发现我们计算推断的轨迹分支与地面实况的遗传谱系树的分支完全匹配时，我们就知道我们正在观察发育过程的真实写照。

剖析单一决定性时刻

从整个胚胎的宏大尺度，我们可以放大到剖析一个单一的关键事件：一个神经干细胞分裂成两个不同的子细胞。这个过程称为不对称细胞分裂，是构建复杂大脑的基础。这个决定是如何做出的？

回答这个问题需要整合跨越巨大时间尺度的数据。活细胞成像可以以分钟为单位捕捉决定性蛋白（如影响Notch信号通路的Numb）的物理分离。靶向蛋白质组学可以测量细胞分离后仅几分钟内关键信号激酶的快速磷酸化变化。最后，在30分钟、3小时和24小时进行的单细胞多组学分析可以捕捉到最终决定细胞命运的染色质状态和基因表达的下游后果。

理解这海量数据的关键在于将所有信息都锚定在每个细胞分裂的单一、连续的时间轴上，并通过谱系条形码连接起来。然后我们可以建立一个尊重时间优先性的动态因果模型：蛋白质定位的变化必须先于信号活动的变化，而后者又必须先于较慢的转录反应。这使我们能够重建整个级联反应，从单个蛋白质的初始不对称分配到数小时后两个子细胞的不同命运。这是一个惊人的例子，说明了多组学如何让我们连接跨越时间和生物组织尺度的事件。

理解休眠的本质

多组学整合也可以阐明那些并非由变化定义，而是由变化之缺失所定义的状态。一个经典的例子是间日疟原虫（Plasmodium vivax）疟疾寄生虫的休眠潜隐子（hypnozoite）阶段，它可以在人体肝脏中隐藏数月或数年，然后重新苏醒导致复发。理解并杀死这些休眠形式是根除疟疾的一个主要目标。

但什么是休眠？它不仅仅是“关闭”状态。它是一种活跃、复杂且知之甚少的生物状态。多组学方法使我们能够以前所未有的分辨率来表征它。通过结合单细胞RNA和染色质可及性数据，我们可以为每个细胞定义一个连续的“休眠评分”，揭示它是一个谱系，而不是一个全有或全无的开关。然后我们可以整合蛋白质组学和代谢组学数据来建立这个状态的系统级模型。例如，通过将蛋白质组学数据（告诉我们哪些酶存在）输入到一个代谢网络模型中，我们可以使用像流平衡分析（Flux Balance Analysis）这样的技术来模拟哪些代谢途径对于寄生虫在休眠时仅仅维持自身——支付其基本能源账单——是必不可少的。这可能会揭示一些对潜隐子至关重要但对其活跃的同类或其人类宿主不重要的独特代谢“瓶颈”，从而为全新类型的抗复发药物指明方向。

探寻原因：从相关到因果

我们旅程中一个反复出现的主题是，渴望从仅仅描述我们所看到的，转向理解它为什么会发生。这是从相关到因果的转变。虽然多组学本身不能神奇地证明因果关系，但它提供了构建和测试合理因果模型所需的丰富、多层次的数据。

一个正在上演这一幕的迷人领域是肠-脑轴的研究。越来越多的证据表明，我们肠道中的微生物群落可以影响情绪和行为，但其机制尚不明确。一项研究可能会发现一个简单的相关性：某一组微生物在抑郁症患者中更为丰富，而这些微生物已知会产生进入血液的代谢物。这就是全部故事吗？

可能不是。这种简单的相关性可能会被其他因素（如饮食）所混淆，饮食既影响微生物组也影响宿主代谢。一个基于网络的多组学方法可以进行更严谨的调查。通过构建一个包含微生物、微生物基因、宿主基因、代谢物和临床症状节点的异构网络，我们可以开始理清相互作用的网络。我们可以利用先前的生物学知识——例如已知的生化途径——来给网络一个现实的结构。然后，利用数据，我们可以应用像偏相关这样的统计方法来检验一个微生物和一个宿主代谢物之间的联系在考虑了饮食的影响后是否仍然成立。这有助于我们区分直接的生化相互作用和间接的、被混淆的关联。通过拼凑一条由高置信度、统计上稳健的联系组成的链条，我们可以构建一个合理的机理通路——例如，从肠道微生物到色氨酸代谢到宿主免疫信号——然后可以通过实验进行检验。

结论：对“内环境”的现代观点

在19世纪，伟大的法国生理学家Claude Bernard提出了一个革命性的思想：milieu intérieur，即内环境。他认为，复杂生命的决定性特征不是其对外部世界的屈从，而是在外部波动的情况下维持一个稳定、恒定的内部状态的能力。他写道，为了使一个有机体自由和独立，其体内的条件必须受到严格调控。

一个多世纪以来，这个概念一直是生理学的基石，但它在很大程度上仍然是一个定性的概念。这个内环境究竟是什么？它的恒定性是如何维持的？

今天，我们讨论的多组学数据整合策略，首次使我们能够对Bernard的问题给出一个定量的、机理性的答案。milieu intérieur是我们细胞和组织内成千上万种转录本、蛋白质和代谢物的集体状态。它的稳定性不是静态的，而是一个动态平衡的结果，由一个我们现在可以开始绘制的巨大而复杂的反馈回路网络维持。

通过将多组学数据转化为动力系统的语言——描述每个组分浓度如何随时间响应其他组分而变化的微分方程系统——我们可以为milieu intérieur建立一个数学表示。我们可以通过分析其对扰动的响应来正式检验其稳定性，检查它是否像一个设计良好的恒温器一样返回其设定点。我们可以通过观察当一个关键的调控环节被打破时会发生什么来模拟疾病。从一个深刻的意义上说，系统生物学的整个事业正是Bernard愿景的实现。我们终于在建立一门关于生理调控的定量科学，以精致的细节揭示了让生命在混乱世界中茁壮成长的美丽而稳健的逻辑。