
理解细胞的新陈代谢——维持生命的复杂化学反应网络——就像试图绘制一个繁华都市的经济地图。我们可以尝试追踪每一笔单独的交易,这是一项艰巨的任务,被称为动力学建模。或者,我们可以换一个角度:通过了解这个城市的生产配方、原材料进口和成品出口,我们就能确定其最大可能的产出。这就是基于约束的代谢建模背后的强大哲学,这一框架彻底改变了我们分析和工程化生物系统的方式。本文旨在解决从静态遗传蓝图到对细胞功能进行预测性理解的挑战。您将在“原理与机制”一节中学到指导该方法的核心原则。随后,“应用与跨学科联系”一节将展示这些模型如何充当计算实验室,推动代谢工程、个性化医疗以及我们对健康与疾病理解的突破。
想象一下,您正试图理解一个庞大而复杂城市的经济。您可以尝试追踪每一位市民在每一分钟的精确位置和活动。这将是一项极其浩大,甚至不可能完成的任务。数据将是压倒性的,而且支配每个个体行为的规则可能是未知的。这就是生物学中动力学建模所面临的挑战,它旨在捕捉分子的动态、瞬时相互作用。
但如果我们采取一种不同的方法呢?与其追踪个体,我们不如关注商品和服务的流动。我们可以绘制出城市中所有的工厂,将它们消耗的原材料和生产的产品——即它们的“配方”——编目造册。我们可以测量城市原材料的总进口量和成品的总出口量。然后,我们可以提出一个强有力的问题:在给定这些输入和生产规则的情况下,最大可能的经济产出是多少?这就是基于约束的代谢建模背后的哲学,这一框架彻底改变了我们理解和改造细胞内部运作的能力。这是一场探索可能性艺术的旅程。
新陈代谢的核心是一套不变的规则,称为化学计量。就像面包师的食谱规定制作一个蛋糕需要特定数量的鸡蛋、面粉和糖一样,一个代谢反应也有一份固定的底物(输入)和产物(输出)的配方。例如,从葡萄糖生产葡萄糖-6-磷酸的反应,消耗一个葡萄糖分子和一个 ATP 分子,产生一个葡萄糖-6-磷酸分子和一个 ADP 分子。对于该反应而言,这个比例是一条基本的化学定律。
我们可以将整个生物体的所有这些配方都记录在一个宏伟的主分类账中:化学计量矩阵,记为 。可以把它想象成一个巨大的电子表格。每一行代表一种独特的代谢物——细胞中的每一种糖、酸和结构单元。每一列代表一个独特的反应。行与列交叉处的条目 是化学计量系数:一个数字,告诉我们反应 产生或消耗了多少分子代谢物 。按照惯例,我们用正数表示产物(生成的物质),用负数表示反应物(消耗的物质)。如果一种代谢物不参与某个反应,该条目就是零。这个矩阵是根据生物体的基因组和我们的生物化学知识重建的,是其代谢潜力的静态、不变的蓝图。
然而,我们真正想要理解的,不仅仅是蓝图,而是活动——这个城市的经济产出。我们用通量向量 来表示这种活动。这是一个数字列表,其中每个条目 代表反应 发生的速率。制造氨基酸“色氨酸”的工厂是全速运转,还是处于闲置状态?通量会告诉我们答案。
有了这两个概念,我们就可以写下最基本的一条定律:质量守恒。任何代谢物浓度 的变化率,就是所有产生它的反应速率之和减去所有消耗它的反应速率之和。用线性代数的优雅语言来表达,就是:
这个方程表明,代谢物水平随时间的变化等于化学计量蓝图乘以反应速率。现在,我们引入一个绝妙的简化,使得基因组尺度的建模变得可行。在与细胞生长和适应相关的时间尺度上(小时,而非毫秒),细胞内部的中间代谢物不会出现剧烈的积累或耗尽。它维持着一种平衡的内部状态。生产与消耗精确匹配。这被称为准稳态假设(QSSA)。这并不意味着细胞处于平衡状态——处于平衡状态的细胞是死的!它意味着细胞处于一种动态的、非平衡的流通状态。在数学上,QSSA 意味着我们可以将内部代谢物浓度的变化率设为零:。
这个简单的假设将我们的方程转化为所有稳态代谢建模的基础约束:
这个优美而简洁的方程是一个深刻的陈述。它表明,任何有效的代谢状态——即细胞可以维持的任何反应速率模式 ——都必须是这样一种状态:其中每种内部代谢物的总产量都与其总消耗量完全平衡。这是代谢交通流的普适定律。
方程 定义了一个包含所有可能通量分布的数学空间,这些通量分布都满足质量守恒。然而,这个空间仍然很庞大,包含了许多物理上不可能的状态。为了将其缩小到生物学上现实的范围,我们必须施加额外的约束,我们将其表示为对每个通量 的边界:
这些边界主要来自三个来源:
通过将稳态方程与这些通量边界相结合,我们在所有可能通量的广阔空间中划分出了一个特定的区域。这个区域被称为可行域或解空间,是一个高维的凸多面体。这个形状内的每一个点都代表一个完整、有效的代谢状态——一套特定的反应速率,细胞在原则上可以在不违反特定环境条件下物理和化学基本定律的情况下采用。我们已经用数学方法定义了细胞代谢潜力的全部。
一个活细胞并不仅仅是在其可行空间内漫无目的地游荡。经过数十亿年的进化,它已被优化以追求一个目标。对许多生物体而言,最基本的目标就是生长和分裂。为了在我们的模型中捕捉这一点,我们必须定义一个目标函数,这是一个代表该生物学目标的数学表达式。
最常见也是最强大的目标就是生长本身。但你如何量化“生长”呢?我们通过一种巧妙的记账技巧,即生物量伪反应来实现。这是一个添加到我们模型中的特殊的“合成”反应。它的配方是一份精心编制的清单,包含了构建一克新细胞物质所需的所有构件——氨基酸、核苷酸、脂质、维生素和离子——并且都按正确的比例排列。通过这个伪反应的通量 直接代表了细胞的生长速率。
当然,生长不是免费的。它需要消耗能量,主要以 ATP 的形式。我们通过两种方式来核算这一点:
值得注意的是,这些能量参数可以通过简单的实验确定。通过测量细胞在不同生长速率下消耗的总 ATP 量,我们可以解一个简单的线性方程来求得 GAM 和 NGAM 的值,从而将我们的抽象模型建立在具体的生物学数据之上。
现在,舞台已经搭建好了。我们有一个明确定义的所有可能代谢状态的空间,并且我们有一个清晰的生物学目标。通量平衡分析(FBA)技术,就是搜索该可行空间以找到使我们的目标函数最大化的那一点的过程。在大多数情况下,这意味着解决这个问题:“找到满足 和所有通量边界,并使 最大化的通量分布 。”这是一个经典的线性规划问题,是一种可以由计算机非常高效地解决的数学优化问题,即使对于包含数千个反应的网络也是如此。
FBA 为我们提供了一个最优的通量分布。但这是否是细胞实现其最大生长的唯一途径?通常,答案是否定的。这就引出了一个引人入胜的概念:替代最优解。
想象一个城市需要生产小部件,它有两个不同的工厂(途径 A 和 B),都可以用相同的原材料以相同的效率生产小部件。为了最大化小部件的产量,城市的中央规划者会在意所有生产都在工厂 A 进行,还是都在工厂 B 进行,或是两者各占 50% 吗?不会。任何能充分利用可用原材料的组合都是同等最优的。
在代谢网络中也是如此。如果一个细胞有两条平行的途径,它们以相同的总化学计量生产同一种必需分子,FBA 会发现这两条途径之间的任何通量分配都是最优解的一部分。从几何角度看,这意味着“最佳”解不是我们可行形状上的一个单点(一个顶点),而是它的一整条边或一个面。这不是模型的失败;这是对生物系统鲁棒性和灵活性的深刻洞察。
那么,我们如何从这组同样好的解中进行选择呢?我们可以增加一层生物学推理。简约通量平衡分析(pFBA)就是采用这种两步法。首先,它像标准 FBA 一样找到最大生长速率。其次,在所有能达到此最大生长的通量分布中,它会找到使整个网络总通量(所有反应速率之和)最小的那一个。其潜在的生物学假设是,细胞不仅是最优的,而且是高效或“懒惰”的。它将使用最少的细胞机器和资源来实现其目标,从而最小化总的酶促负担。
此外,通过引入调控约束,我们的模型可以变得更加真实。一个细胞的基因组包含了所有可能反应的蓝图,但在任何给定时间,只有一部分基因是活跃的。转录因子可以响应环境信号来开启或关闭基因。我们可以将这些规则添加到我们的模型中。例如,如果已知某个酶的转录因子在无氧条件下是不活跃的,我们就可以在厌氧条件下强制该酶催化的反应通量为零。这进一步修剪了可行空间,使我们的预测更接近细胞的实际行为[@problem_-id:3917955]。
整个强大的框架都建立在模型本身的基础之上——化学计量矩阵 、反应列表、基因-蛋白质-反应规则以及生物量方程。构建一个这样的基因组尺度代谢模型(GEMs)是一项艰巨的生物学侦探工作,这个过程将自动化计算与专家手动校正相结合。
这个过程被称为重建,通常遵循四个关键阶段:
通过这个艰苦的过程,我们构建了一个生物体新陈代谢的计算表征,它不仅仅是一张图表,而是一个预测性的、定量的工具,为 FBA 及其后续方法所提供的深度分析做好了准备。
在了解了代谢建模的基础原理之后,我们现在来到了探索中最激动人心的部分:看这些模型的实际应用。如果说上一章是关于学习游戏规则,那么这一章就是关于玩这个游戏。一个代谢模型不仅仅是一张生化途径的静态地图;它是一个动态的计算实验室,一个细胞的“飞行模拟器”。它允许我们提出深刻的“如果……会怎样”的问题,并在计算机模拟中观察一个生命系统可能如何响应。在这里,我们将看到这种能力如何将我们的触角延伸到生命科学的几乎每一个角落,从关于进化的最基本问题到现代医学中最紧迫的挑战。
基因组尺度模型的核心在于将生物体的遗传蓝图转化为其代谢能力。这不是一种模糊的相关性;它是一个结构优美的逻辑系统。基因、它们编码的蛋白质以及这些蛋白质催化的反应之间的联系,被称作基因-蛋白质-反应(GPR)关联。
可以将这些 GPR 想象成简单、严谨的逻辑陈述。对于一个需要由两种不同蛋白质亚基(由基因 A 和基因 B 编码)组成的酶的反应,规则很简单:只有当基因 A 和基因 B 都有功能时,该反应才活跃。如果一个生物体进化出了两种可以执行相同任务的不同酶(同工酶,由基因 C 和基因 D 编码),规则就变成:如果基因 C 或基因 D 有功能,该反应就活跃。通过将数千个这样的布尔语句编织在一起,我们建立了一个真正“基因组尺度”的模型,一个其结构本身由生物体 DNA 决定的网络。
这种逻辑基础正是计算机模拟实验如此强大的原因。我们可以通过在模型中简单地将一个基因的状态从‘1’(存在)翻转到‘0’(缺失)来模拟基因删除。GPR 逻辑随后会波及整个系统,禁用任何依赖于该基因的反应。然后我们可以运行模拟并提问:细胞还能生长吗?它还能生产某种特定的分子吗?这种将遗传变化与功能结果精确联系起来的能力,是后续几乎所有应用的基础。
有了一个可用的模型,我们就可以开始探究生物学中一些最基本的问题。例如:一个生物体为了生存,最低限度必须摄取什么?利用模型,我们可以系统地“开启”和“关闭”模拟环境中不同营养物质的可用性,并寻找仍能支持生长的最小化合物组合。这就是对最低培养基的搜索。这样的练习不仅仅是学术性的;它具有深远的意义。如果我们的模型预测一个生物体无法在我们已知它在现实世界中能茁壮成长的培养基上生长,这就告诉我们,我们的地图是不完整的——有一块生物学的拼图缺失了,可能是一个新的代谢途径或转运蛋白,等待被发现。模型的失败变成了指向新知识的路标。
也许更美妙的是,代谢模型让我们能够探索塑造生命本身的基本权衡。从经济学世界借鉴来的Pareto 最优概念,为这种探索提供了一个强有力的视角。如果一个经济系统在不使任何其他人状况变差的情况下,无法使任何一个个体状况变得更好,那么这个系统就是 Pareto 最优的。在生物学中,同样的原则适用于相互竞争的生理目标。一个微生物可能面临着生长得快(高生物量生产速率)和生长得高效(每单位食物的高生物量产率)之间的权衡。通常不可能同时最大化两者。
通过使用我们的模型来计算每一种可能的代谢状态,我们可以绘制出这些权衡的整个“Pareto 前沿”。这个前沿代表了该生物体生化可能性的边界——其上的每一点都是一个最优的折衷方案。本质上,进化就是在这个表面上运作,选择在特定环境下最有效的策略。这种应用将代谢建模从一个描述性工具提升为了一个理解数十亿年来支配生命进化的约束条件的框架。
如果说理解生命是一个目标,那么工程化生命就是另一个目标。在合成生物学领域,代谢模型是理性设计微生物作为微型工厂不可或缺的工具。假设我们想改造E. coli来生产异丁醇(一种生物燃料),但这种细菌天生更喜欢将宝贵的碳浪费在制造乙醇上。我们如何迫使它改变?
我们可以尝试随机敲除基因,但这效率低下,且可能产生意想不到的副作用。代谢模型提供了一种远为优雅的方法。我们可以要求模型识别一个最小切割集:即能保证乙醇途径被完全阻断的最小反应删除集合。这就像一个城市规划师意识到,只需关闭几个关键交叉口,他们就可以完全切断一条不受欢迎的交通路线,迫使所有车辆都走上新的高速公路。通过识别这些最小的遗传靶点集合,我们可以用外科手术般的精度编辑生物体的基因组,从而最大限度地减少工程工作量和破坏其他基本细胞功能的风险。这将代谢工程从一门反复试验的手艺转变为一门有原则的工程学科。
代谢建模的应用在人类健康领域比任何地方都更加紧迫和个人化。该框架使我们能够剖析疾病的复杂性并理性地设计干预措施。
个性化医疗与数字孪生
考虑一个患有罕见遗传病——一种先天性代谢缺陷——的患者,其病因是分解脂肪的途径中某个酶存在缺陷。其症状——疲劳、肌肉疼痛——是由能量不足引起的,医生在血液中观察到一种名为酰基肉碱的特定分子积聚。对于这位特定的患者,代谢模型就成了一个个性化的数字孪生。我们可以在模型中设置缺陷酶的容量,以匹配患者测得的活性。然后,模型可以精确预测为什么某些酰基肉碱会积聚,并量化能量缺口。更重要的是,我们可以利用这个数字孪生在计算机模拟中测试治疗方案。如果在饮食中限制脂肪会怎样?如果我们能补充一种有助于绕过代谢障碍的化合物会怎样?模型提供了定量的预测,有助于为该个体优先选择最有希望的治疗策略。
发现对抗病原体的新武器
代谢模型也是对抗传染病的有力工具。寄生虫或致病菌有其自身独特的代谢系统,它需要这个系统在我们体内生存和复制。这个代谢系统可能成为它的阿喀琉斯之踵。利用病原体的模型,我们可以系统地进行计算机模拟基因敲除,以确定其哪些酶对其生长是绝对必需的。如果我们在病原体中找到一种必需的酶,而这种酶在人类中不存在,或者结构有显著不同,那么我们就找到了一个理想的药物靶点。一种抑制该特定酶的药物可以杀死病原体,同时对我们自身的细胞无害。这种模型驱动的方法为发现下一代抗生素和抗寄生虫药物提供了理性的路线图。
免疫的代谢
我们的细胞与病原体之间的对话在很大程度上是代谢性的,而现代生物学最活跃的领域之一就是免疫代谢。我们的免疫细胞不是静态的士兵;它们会为了执行不同任务而显著地重编程其代谢。例如,一个准备对抗细菌的活化巨噬细胞会经历一种类似于癌细胞中观察到的 Warburg 效应的代谢转变。它会转向快速、看似浪费的糖酵解。我们可以通过将其他生物学数据(如来自 RNA-seq 的基因表达水平)整合到我们的模型中来捕捉这种行为。通过使用表达数据来约束模型中反应的最大速率,我们可以预测这种精确的代谢转变,并开始理解为什么它对细胞是有利的。
同样,我们可以模拟 T 细胞的不同命运。一个效应 T 细胞,其工作是快速增殖以对抗感染,有一个明确的生物学目标:创造更多的生物量。我们可以将模型的目标函数设置为最大化生物量反应。相比之下,一个长寿的记忆 T 细胞则优先考虑生存和维持。它的代谢状态可以用一个不同的目标来建模,例如最大化 ATP 效率。通过根据免疫细胞接收到的细胞因子信号来改变模型的约束和目标,我们可以探索这些细胞如何做出决定其免疫反应进程的代谢决策。然而,至关重要的是要记住这些模型的本质:它们是强大的抽象,但并不能捕捉所有层次的生物调控。它们的预测总是以我们所做的假设为条件,这提醒我们科学需要批判性解释,而不仅仅是计算。
生命很少孤立存在。我们的身体、土壤和海洋都充满了复杂的微生物群落。代谢建模现在正在扩展到处理这些生态系统。例如,我们可以构建宿主和病原体的整合模型。这是通过创建一个单一的、多区室的模型来实现的,该模型包含两种生物体的代谢网络,并通过一个代表它们环境的共享区室连接起来。这样的模型使我们能够模拟它们之间的代谢交流。宿主可能会分泌一种病原体消耗的营养物质,而病原体可能会释放一种对宿主有害的毒素或代谢物。这些模型使我们能够理清定义共生和寄生关系的代谢依赖和竞争网络。
这个概念可以扩展到任何微生物群落,甚至是我们食物中的群落。考虑开菲尔或康普茶中由细菌和酵母组成的复杂群落。我们能否仅通过对起始培养物进行 DNA 测序就预测出最终产品的风味?DNA 序列为我们提供了一份零件清单——群落的功能潜力。但潜力并非宿命。要预测风味化合物(酒精、有机酸)的实际产出,我们必须使用一个群落代谢模型,该模型将这种遗传潜力与真实环境的约束——可用的糖、氧气的存在和温度——整合在一起。这展示了建模如何能够弥合从基因列表到可感知的、生态系统层面功能的鸿沟。
从单个细胞的内部逻辑到整个生态系统的合作与竞争动态,代谢建模提供了一个定量和预测性的框架。它证明了这样一个理念:生命多样而复杂的织锦是用化学这一统一的线索编织而成的,并由我们可以理解、建模甚至改造的质量和能量法则所支配。