代谢组学

玻尔百科

定义

代谢组学是通过分析小分子代谢物来提供生物体实时生理状态动态快照的研究领域。该学科主要利用液相色谱-质谱联用（LC-MS）技术，并遵循代谢组学标准倡议（MSI）分级标准，通过质量电荷比和碎片图谱对化合物进行鉴定。其核心应用包括诊断先天性代谢缺陷、实现个体化药物治疗以及深入了解癌症等疾病中的代谢重编程。

关键要点

代谢组学通过分析小分子代谢物，提供生物体实时生理状态的动态快照。
液相色谱-质谱联用（LC-MS）是一项基石技术，它分离复杂的分子混合物，并根据化合物的质荷比和碎片模式进行鉴定。
可靠的代谢物鉴定是一个多步骤过程，需要来自高分辨率质量、同位素模式和碎片数据的证据，并由代谢组学标准倡议（MSI）的级别进行规范。
主要应用包括诊断先天性代谢缺陷、个性化药物治疗（药物代谢组学）、设计更有效的药物，以及理解癌症等疾病核心的代谢重编程。

引言

虽然基因组学揭示了生命的蓝图，但真正的功能活动——生命有机体的动态脉搏——是用小分子的语言书写的。代谢组学正是致力于破译这种语言的科学。它通过测量生物系统中的全套代谢物，捕捉生理状态的实时快照，反映了基因与环境之间复杂的相互作用。然而，要“窃听”这场生物化学对话，我们面临着一个巨大的挑战：如何从一个生物样本中混杂在一起的成千上万种不同分子中识别出它们？本文将探讨构成现代代谢组学基础的强大分析策略，以解答这个问题。

第一章“原理与机制”将引导您了解液相色谱-质谱联用（LC-MS）这一精妙过程，解释科学家如何以惊人的精度分离、称量和鉴定分子。您将学到如何利用基本的物理原理来解决复杂的难题，例如如何从分子的同位素“影子”中确定其电荷，以及如何从碎片中拼接出其结构。第二章“应用与跨学科联系”将展示这一强大能力如何应用于解决医学领域的关键问题，从诊断遗传性疾病、个性化药物治疗，到设计更好的药物，以及实现对癌症等复杂疾病的宏大、统一的认识。

原理与机制

想象一下，你正试图理解一个城市是如何运作的。你可以查看城市的总体规划（DNA），或者阅读市长办公室发给各部门的每日备忘录（RNA）。你甚至可以对所有工人及其工作进行普查（蛋白质）。但要真正感受城市的脉搏，你需要观察商品、资金和交通的流动。你需要测量正在建造什么、消耗什么以及丢弃什么。这便是代谢组学的精髓：它是一门观察生命动态功能活动的科学。

代谢组学研究的分子——代谢物——是细胞的小分子“货币”。它们是燃料、是构件、是信使，也是废物。与相对静态的基因组不同，代谢组是生物体实时生理状态的快照，反映了其遗传蓝图与饮食、环境和体内微生物群落影响之间的复杂相互作用。研究代谢组就像在窃听生命本身的生物化学对话。但我们如何才能在这场对话中进行窃听？毕竟，这场对话发生在像一滴血这样极其拥挤和混乱的生物样本环境中。

挑战是巨大的。成千上万种不同的分子种类，横跨巨大的浓度范围和化学性质，全部混合在一起。为了理解这一切，科学家们开发出一种强大的两步策略：首先，将分子彼此分离；然后，逐一称重和鉴定它们。这个过程最常使用一种称为液相色谱-质谱联用（LC-MS）的技术来完成。

精妙的分离

可以把液相色谱（LC）想象成一场精密的分子赛跑。我们样本中的分子被注入一根细长的管子，即色谱柱，其中填充了特殊材料（固定相）。然后，一种液体溶剂（流动相）被泵入色谱柱，带着分子一同前进。

分离的发生是因为不同的分子与固定相互作用的强度不同。与填充材料“粘性”更强的分子会被减速，而粘性较小的分子则会更快地冲过。当它们到达色谱柱末端时，分子已根据其化学性质分离成不同的组别。

然而，一个复杂的生物样本会带来一个被称为一般洗脫问题的难题。如果我们选择的溶剂能非常有效地分离移动快、粘性小的分子，那么那些非常粘的分子就会卡在色谱柱上，可能需要数小时才能出来，甚至根本出不来。反之，如果我们使用强溶剂来快速冲出粘性分子，那么所有非粘性分子会在一开始就一起冲出来，形成一团无法分辨的混合物。

梯度洗脱是解决这一问题的巧妙方案。我们不是保持溶剂成分不变，而是在赛跑过程中系统地改变它。我们可以从一种“弱”溶剂开始，让非粘性分子很好地分离。然后，随着时间的推移，我们逐渐增加溶剂的强度，使其越来越有“说服力”。这会诱使中等粘性的分子松开并沿色谱柱向下移动，到分析结束时，溶剂的强度足以撬动即使是最顽固的分子。这就像比赛开始于厚厚的泥浆中，然后泥浆慢慢变成平坦的铺装路，确保从短跑到马拉松的每一位选手都能被分开，并在合理的时间内完成比赛。这个过程将一股干净、有序的分离分子流送至检测器：质谱仪。

这是什么分子？称量原子的艺术

质谱仪本质上是一个极其精确的分子秤。但它的工作原理不像浴室磅秤。首先，它给每个分子一个电荷，将其变成一个离子。然后，它利用电场或磁场来观察这个离子的“飞行”情况。一个关键原理支配着这种飞行：离子的路径取决于其质荷比（ $m/z$ ）。较重的离子更难偏转，但带更多电荷的离子更容易偏转。因此，仪器并不直接测量质量，而是测量 $m/z$ 。

这就引出了一个有趣的难题。如果质谱仪报告了一个信号，比如在 $m/z = 301.17$ 处，这究竟是一个质量为 $301.17$ Da且带一个电荷（ $z=1$ ）的分子，还是一个质量为 $602.34$ Da且恰好带两个电荷（ $z=2$ ）的分子？弄错这一点意味着为我们的分子计算出一个完全错误的质量，从而使任何鉴定尝试都注定失败。

解开这个谜题的线索就隐藏在主峰旁边微弱的“影子”中。这些影子是由同位素——自然存在的、稍重一些的原子版本——产生的。例如，自然界中大约 $1.1\%$ 的碳原子不是通常的碳-12，而是一种稳定、更重的版本，称为碳-13（¹³C），它多一个中子。一个¹³C和一个¹²C原子之间的质量差异是一个自然的基石常数，约为 $1.003355$ Da。

如果我们的分子含有碳原子，那么其中一个就有可能是¹³C。这会在谱图中紧邻主单同位素峰的位置产生一个小的“M+1”峰。这里最巧妙的部分是：这些峰在 $m/z$ 谱中的间距揭示了电荷。观测到的间距 $\Delta(m/z)$ 是同位素的真实质量差 $\Delta m$ 除以电荷态 $z$ ：

\Delta(m/z) = \frac{\Delta m}{z}

所以，如果我们观察到大约 $1.003$ Da的间距，我们就知道 $z=1$ 。但如果我们观察到大约 $0.5017$ Da的间距，我们就可以自信地推断出 $z$ 必定为 $2$ ！仅仅通过观察信号的精细结构，我们就可以确定离子的电荷，并由此从测得的 $m/z$ 计算出其真实质量。这是一个强有力的例子，说明了基本的物理原理如何让我们解码复杂的测量数据。

这也凸显了为什么科学透明度和数据完整性如此关键。来自质谱仪的原始数据是轮廓谱，一个包含峰、形状和噪音的丰富数字景观。一些处理流程会通过将每个峰简化为单个点，即质心峰列表，来“简化”这一点。这是一个有损、不可逆的过程。这就像仅通过列出主要对象的坐标来总结一幅杰作——你丢失了所有的纹理、阴影和背景。确定电荷态或区分重叠分子所需的微妙细节将永远丢失。为了使科学可重复，为了能从旧数据中做出新发现，保存原始、丰富的轮廓数据至关重要。

鉴定的逻辑：整合线索

现在我们有了来自色谱的保留时间和来自质谱仪的非常精确的质量。我们完成了吗？还差得远。许多不同的分子，特别是同分异构体（具有相同原子但排列方式不同的分子），可以具有完全相同的质量。为了自信地鉴定一个分子，我们需要像侦探一样，收集多条独立的证据线索。

线索1：高分辨率质量。 现代仪器可以测量 $m/z$ ，精度达到百万分之几（ppm）。这种非凡的精度使我们能够预测分子的元素组成。例如，化学式 $C_9H_8O_4$ （阿司匹林）和 $C_{10}H_{12}N_2O$ （血清素）的整数质量非常相似（180），但它们的精确质量在小数点后第二位就不同了。高分辨率质谱（HRMS）测量可以轻易区分它们。
线索2：同位素模式。 我们可以从同位素峰中了解更多信息。M+1峰相对于主峰的高度主要由分子中碳原子的数量决定。如果M+1峰的高度大约是主峰的 $11\%$ ，那么很可能该分子有大约10个碳原子（ $10 \times 1.1\% \approx 11\%$ ）。这为推测的化学式提供了独立的验证。
线索3：碎片指纹。 质谱分析中最强大的工具之一是串联质谱（MS/MS）。在这里，机器中的物理学家变成了铁匠。仪器分离出我们感兴趣的离子，将其加速，并使其与惰性气体分子碰撞。离子碎裂成更小的带电碎片。这些碎片质量的模式是原始分子的独特结构“指纹”。通过将这个实验指纹与已知碎片模式的库进行比较，我们常常可以确定其确切结构。

即使有了所有这些线索，歧义仍然可能存在。好的科学要求我们对自己的置信水平保持诚实。代谢组学界通过代谢组学标准倡议（MSI）鉴定级别将此正式化：

1级：已鉴定化合物。 黄金标准。这要求将未知分子的至少两种独立属性（例如，保留时间和碎片指纹）与在同一仪器上分析的真实、纯化的化学标准品的属性相匹配。这就像让嫌疑人及其同卵双胞胎在同一个房间里进行直接比较。
2级：推定注释的化合物。 我们没有可供运行的真实标准品，但我们分子的碎片指纹与数据库中的高质量谱图完美匹配。这是强有力的证据，就像犯罪现场的指纹匹配，但嫌疑人不在场。
3级：推定表征的化合物类别。 我们的证据不够具体，无法命名单一化合物，但我们可以确定其化学家族。例如，一个特征性碎片可能告诉我们这是一个磷脂酰胆碱（一种脂质），但我们不知道其脂肪酸尾链的确切长度。
44级：未知物。 我们有一个具有特定质量和保留时间的可重复信号，但没有其他结构信息。这是人群中我们认识但叫不出名字的一张脸。

从“是什么”到“为什么”：测量生物学功能的动态过程

代谢组学的最终目标不仅仅是创建一个分子目录，而是理解它们在做什么。让我们考虑一个真实世界的例子：免疫细胞的代谢生活。

一个初始T细胞就像一个沉睡的士兵，安静地保存着能量。它的新陈代谢非常高效，主要依靠线粒体中的氧化磷酸化（OXPHOS）来缓慢燃烧燃料以产生ATP。我们可以通过监测细胞的耗氧率（OCR）来测量这一点。

当这个T细胞被激活以对抗感染时，它会经历戏剧性的转变。它需要以极快的速度生长、分裂并产生效应分子。为此，它执行了一次惊人的代谢重编程。人们可能期望它只是简单地加大其高效的线粒体引擎的功率。但相反，它做了一件乍看之下似乎很浪费的事情：它急剧增加了糖酵解的速率，即将葡萄糖快速但低效地燃烧成乳酸。这种快速的乳酸产生使细胞周围环境酸化，我们可以将其测量为细胞外酸化率（ECAR）。

即使在有氧的情况下也转向快速糖酵解的现象被称为有氧糖酵解，或Warburg效应。为什么要这样做？因为T细胞不再仅仅为能量（ATP）进行优化；它正在为生物合成进行优化。快速流动的糖酵解途径提供了一条碳构件的河流，用于为其必须产生的子细胞大军构建新的蛋白质、脂质和DNA。与此同时，它也保持其线粒体引擎的运行，以提供额外的能量和不同类型的构件。

科学家可以使用同位素示踪来证实这种双重活动。通过给细胞喂食标记有重碳（¹³C）的葡萄糖，他们可以追踪碳原子的去向。发现¹³C标记的乳酸证实了高糖酵解通量。同时在线粒体TCA循环中发现¹³C标记的分子，证实了葡萄糖也被用于氧化磷酸化。这种测量代谢通量——即原子在通路中动态流动的能力——正是使代谢组学成为理解功能的如此强大工具的原因。

前沿：拥抱不确定性

随着我们推动代谢组学的边界，我们生成了庞大的数据集，其中许多特征仍处于2级、3级甚至4级的置信水平。我们如何处理这种模糊性？过去，人们倾向于要么做出“最佳猜测”（这种做法可能传播错误），要么干脆忽略数据中未识别的部分（扔掉潜在的有价值信息）。

今天，该领域的前沿在于通过复杂的概率方法拥抱这种不确定性。新一代的计算模型不是做出硬性选择，而是可以将一个模糊的峰视为一种加权的可能性。如果数据表明一个峰有70%的可能是代谢物A，30%的可能是代谢物B，模型可以同时推进这两种可能性，并相应地加权它们对生物学结果的潜在影响。这使我们能够构建更稳健、诚实和全面的生物学模型，利用我们测量的每一条信息，同时透明地说明我们尚不知道的内容。这是一个领域成熟的证明，它不仅在开发进行测量的工具，而且在面对生命深刻复杂性时能够进行智能推理。

应用与跨学科联系

在经历了代谢组学的原理和机制之旅后，我们为自己装备了一种新的视觉——能够看到支撑细胞这座繁华都市的化学絮语。但这种视觉有什么用？我们能用它做什么？答案正是科学如此激动人心的原因：我们可以利用这种新获得的理解来解决实际问题，去治愈，去构建，去探索。代谢组学的应用不仅仅是一系列技术壮举；它们是生物学深刻统一性的证明，将基因的世界与医学的世界联系起来，将我们体内的微观生命与我们自身的健康联系起来。现在，让我们来探索这片非凡的景观。

作为疾病哨兵的代谢组

也许代谢组学最直接、最强大的应用是在诊断领域，代谢组在此充当了对疾病极其敏感的哨兵。想象一条运转完美的工厂装配线。如果一台机器坏了，不仅最终产品停止出现，该机器的原材料也会开始堆积，形成一个立即可见的瓶颈。先天性代谢缺陷正是这种分子水平上的故障。

一个典型且悲剧性的例子是由腺苷脱氨酶（ADA）缺乏引起的严重联合免疫缺陷病（SCID）。淋巴细胞，我们免疫系统的士兵，必须迅速分裂以建立防御。这需要平衡供应DNA构件——脱氧核糖核苷三磷酸（dNTPs）。ADA酶是清理小组的一部分，负责清除多余的腺苷和脱氧腺苷。当ADA的基因损坏时，清理小组就缺席了。脱氧腺苷堆积起来，而细胞激酶试图帮忙，将其转化为大量的特定构件——脱氧腺苷三磷酸（dATP）。dATP的泛滥接着会做一件灾难性的事：它作为一种强烈的停止信号，作用于本应制造所有其他DNA构件的核糖核苷酸还原酶。供应链崩溃了。快速分裂的淋巴细胞因缺乏DNA复制所需的材料而死亡，使身体失去防御能力。

代谢组学如何提供帮助？通过分析婴儿血液或尿液中的代谢物谱，我们可以直接看到这场代谢交通堵塞。我们发现大量“堆积”的物质——脱氧腺苷，以及相应地其下游产物的缺失。这个特定的化学特征是一个巨大的、闪烁的信号，直接指向有缺陷的ADA酶，使临床医生能够优先进行基因检测，并以惊人的速度和准确性确认诊断。在这种情况下，代谢组讲述了一个否则会深藏于基因组中的故事[@problem-id:2888484]。

药物代谢组学：为个体量身定制药物

正如我们天生的新陈代谢各不相同，我们处理我们称之为药物的外来化学物质的能力也各不相同。这就是药物代谢组学的领域，一个有望终结医学“一刀切”时代的领域。当你服用一种药物时，它会进入一个复杂的代谢途径网络。通常，一条途径导致药物的活性、治疗形式，而相互竞争的途径可能导致其失活，或者更糟的是，产生有毒的副产品。

以硫唑嘌呤为例，这是一种用于治疗炎症性肠病等疾病的免疫调节剂。它在体内的旅程是三条途径之间的赛跑。一条由HGPRT酶驱动的途径，将其转化为具有治疗作用的分子——硫鸟嘌呤核苷酸（TGNs），这些分子可以减缓过度活跃的免疫细胞。第二条由TPMT酶驱动的途径，将药物甲基化，产生可能对肝脏有毒的代谢物（MeMPNs）。第三条途径则通过另一条路径使其失活[@problem-id:4855743]。

这场赛跑的“赢家”由我们的基因决定。一些人天生就拥有低活性的TPMT酶。在他们体内，药物绝大多数被分流到产生TGNs的治疗途径。这听起来不错，但却是好事过度——TGNs水平变得如此之高，以至于对骨髓有毒，导致危及生命的白细胞减少症。最近，另一个遗传因素NUDT15被发现。这种酶起着安全阀的作用，能使最强的TGNs失活。一个有缺陷的NUDT15基因意味着这个安全阀坏了，再次导致有毒TGNs的危险积累，即使在TPMT功能正常的人中也是如此。

在这里，代谢组学成为个性化医疗不可或缺的工具。通过测量患者红细胞中TGNs和MeMPNs的水平，临床医生可以得到一个个体身体如何实际处理药物的直接、实时快照。这种代谢读出是他们遗传构成的最终功能确认，使医生能够精确调整剂量——为那些药物倾向于产生毒性的人降低剂量，或者可能完全更换药物。我们不再仅仅基于遗传学进行猜测；我们正在测量功能性结果。

设计更好的药物：从发现到设计

代谢组学不仅帮助我们更好地使用现有药物，还使我们能够设计全新的药物。在制药行业，许多有前景的候选药物失败是因为身体将它们清除得太快。代谢组学让我们能够看到为什么。

利用高分辨率质谱，化学家可以扮演侦探。他们将候选药物与各种肝酶制剂一起孵育——从简化的系统如微粒体（包含内质网的酶），到代表肝细胞全部复杂性的“黄金标准”——完整肝细胞。通过分析产生的代谢物混合物，他们可以识别正在发生的确切分子转化。他们可以 pinpoint 药物分子上的“代谢软点”——最容易受到细胞色素P450等酶攻击的特定化学键。

一旦确定了软点，游戏就从发现转变为理性设计。然后，药物化学家可以回到绘图板上，战略性地修改药物结构，以“武装”那个脆弱的位置。例如，他们可能会用一个氟原子替换软点上的一个氢原子。这个微小的改变，通常对药物的治疗作用影响甚微，却可以使C-H键变得更强，对代谢酶的吸引力降低，从而显著减缓药物的分解，延长其在体内的寿命。这种测量-鉴定-重新设计的迭代循环是现代药物开发的强大引擎，其所有动力都来自代谢组学的洞察[@problemika_id:4988193]。

代谢组学与疾病的宏大统一观

尽管这些靶向应用非常强大，但代谢组学的真正革命在于其提供健康与疾病的系统级视图的能力，从而在宏观尺度上将基因、环境和生理学联系起来。

一个惊人的例子来自癌症研究。癌症不仅是一种失控生长的疾病，也是一种代谢 profoundly 改变的疾病，这一点已变得清晰。以透明细胞肾细胞癌为例，这是一种常由肿瘤抑制基因VHL缺失引起的肾癌。VHL蛋白的正常工作是在氧气充足时标记另一个蛋白HIF-α进行降解。当细胞失去VHL时，HIF-α不再被降解。它会累积并实质上欺骗细胞，使其认为自己处于持续缺氧的状态，即所谓的“假性缺氧”。这会触发细胞代谢的大规模重编程。癌细胞劫持了“Warburg效应”，避开高效的有氧呼吸，转而采用狂热、低效的糖酵解。代谢物谱分析揭示了典型的迹象：葡萄糖摄取量飙升，乳酸被泵出，柠檬酸循环 sputter。这种代谢重布线不是副作用；它是肿瘤生存和生长的核心，而代谢组学正是让我们能够直接见证这一切的工具。

这种系统观也揭示了身体自身为应对困境所做的非凡尝试。在晚期心力衰竭中，心脏面临能量危机——它缺氧，无法产生足够的ATP来满足需求。它怎么办？代谢组学研究揭示了一种迷人的适应性。衰竭的心脏开始改变其燃料偏好。它减少了对脂肪酸的依赖，并开始 avidly 消耗酮体。从热力学角度看，这是一个聪明的举动。虽然脂肪酸能量密集，但它们是耗氧大户。酮体是一种更“氧气高效”的燃料，每消耗一分子氧气能产生更高数量的ATP分子（ATP/O₂比率）。衰竭的心脏，像一个聪明的工程师，重新调整自己以燃烧一种更清洁、更高效的燃料来生存。代谢组学揭示了这些隐藏的、适应性的策略，将我们对病理生理学的看法从一个简单的失败故事转变为一个动态的斗争与适应的故事。

系统生物学的最终目标是整合所有层次的生物信息。现代研究现在结合了基因组学（DNA蓝图）、转录组学（活跃的基因读出）和代谢组学（最终的功能输出）。通过将这些数据集叠加到庞大的基因组尺度代谢网络图上，研究人员可以超越观察单个代谢物，转而看到整个通路被点亮或熄灭。复杂的计算方法利用代谢网络的完整连通性，可以精确定位复杂疾病中代谢紊乱的中心，揭示出任何单一“组学”分析都无法看到的新的治疗靶点。

最后，这种系统观正在扩展到包括我们拥有的最大代谢器官：我们的微生物组。我们肠道中的数万亿微生物是一个巨大的化工厂，不断消化我们的食物并产生数量惊人的代谢物。这些分子不会停留在肠道中。它们进入我们的血液，并与我们自己的细胞“对话”，特别是我们的免疫细胞。例如，细菌可以将我们饮食中的氨基酸色氨酸转化为称为吲哚的化合物。代谢组学使我们能够追踪这些吲哚从肠道传播到免疫细胞上的受体并激活它们，影响关键信号分子如白细胞介素-22的产生，这对维持健康的肠道屏障至关重要。这是一个新的前沿：理解我们的微生物组与我们自身生理之间复杂的化学对话。而代谢组学是我们的通用翻译器。

从单个缺陷酶的诊断性低语到全系统代谢转变的交响轰鸣，代谢组学为我们提供了一个无与伦比的窗口，来观察生命的功能状态。它是细胞母语的科学，通过学会倾听，我们正在开始理解健康、疾病以及美丽、相互关联的生命之网的最深层秘密。