系统生物学建模：原理与应用

玻尔百科

定义

系统生物学建模：原理与应用是一个将生物体视为具有涌现特性的开放系统，而非孤立部件叠加的计算与理论领域。该学科利用“自下而上”或“自上而下”的方法，通过常微分方程等动态模型或通量平衡分析等约束模型来分析生物网络。这些建模技术被广泛应用于识别致病基因、模拟免疫反应以及指导合成生物学研究。

核心要点

系统生物学从还原论的视角转变为将生物体视为开放系统，其涌现特性通过网络分析能得到最佳理解。
模型通过“自下而上”（从已知部分组装）或“自上而下”（从大规模数据推断）的方法构建，通常两者结合使用。
动态模型（如 ODE）捕捉振荡等随时间变化的行为，而基于约束的模型（如 FBA）则确定系统的能力和效率。
应用范围从识别疾病基因和模拟免疫反应，到指导合成生物学和引发复杂的伦理问题。

引言

几十年来，生物学巧妙地将生命解构为其最小的组成部分——基因、蛋白质和分子。这种还原论方法为我们提供了一份宝贵的“零件清单”，但难以解释这些组件如何协同工作，创造出我们称之为生命的复杂动态现象。成千上万的个体相互作用是如何产生一个功能齐全的细胞、一个反应灵敏的免疫系统或一个有意识的思想的？这种部分与整体之间的差距，正是系统生物学建模旨在解决的核心问题。通过将高通量数据与数学框架相结合，它试图理解生物相互作用的复杂网络所产生的涌现特性和行为。本文将引导您了解这一变革性领域。在第一章“原理与机制”中，我们将探讨系统思维的基本思想、网络的语言以及用于构建和分析生物模型的核心技术。接下来，在“应用与跨学科联系”中，我们将看到这些模型如何应用于解决医学领域的实际问题，在合成生物学中工程化新的生命形式，甚至迫使我们面对深刻的伦理问题。

原理与机制

进入系统生物学的世界，就是见证一场深刻的视角转变。在20世纪的大部分时间里，生物学的胜利在于还原论——一项杰出且必要的工作，即通过拆解生命系统来理解其组成部分。我们发现了DNA的双螺旋结构，破译了遗传密码，并逐一分离蛋白质，揭示了它们复杂的结构。但一个挥之不去的问题依然存在：如果我们拥有一辆汽车的完整“零件清单”，我们是否就真正理解了驾驶的意义？

视角的转变：超越零件清单

奥地利生物学家 Ludwig von Bertalanffy 是最早正式提出这一问题的人之一。他认为，生命体不像封闭、孤立的机器，无法通过在工作台上解剖来完全理解。相反，它们是开放系统，不断与环境交换物质、能量和信息。他提出了“一般系统论”，认为这些复杂的开放系统，无论是细胞、生态系统还是经济体，都受普适的组织原则支配。它们表现出涌现特性——如意识、节律或鲁棒性等行为——这些特性源于各部分的相互作用，而在单个组件的层面上根本不存在。

几十年来，这一直是一个引人入胜、近乎哲学的思想。一个活细胞的巨大复杂性使得我们无法观察到整个系统的运作。一个生物学家可能要用整个职业生涯来研究一个蛋白质。谁又能追踪构成细胞交响乐的成千上万个蛋白质和基因呢？突破并非来自单一思想，而是一场技术革命。20世纪末，像DNA微阵列和质谱分析这样的高通量技术的发明改变了一切。突然之间，我们可以从一次研究一个乐手转变为获得整个乐团的“全局快照”。我们可以在特定条件下，一次性测量成千上万个基因的活性或成千上万种蛋白质的丰度。我们第一次拥有了与洞察系统整体的雄心相匹配的数据。

网络的通用语言

随着海量新数据的涌现，一个核心、统一的概念浮现出来：网络。细胞不是一袋互不相连的分子；它是一个错综复杂的关系网络。基因调控其他基因，蛋白质激活或抑制其他蛋白质，代谢物通过相互连接的途径进行转化。网络视角的妙处在于其抽象的力量。组件的具体生物学性质——无论是基因、蛋白质还是其他东西——变得次要于它们连接的结构。

想象两种情景。在一种情景中，一个基因产生一种蛋白质，该蛋白质开启第二个基因，后者开启第三个基因，后者再开启第四个基因，然后第四个基因产生一种蛋白质来关闭第一个基因。这是一个基因调控回路。在另一种情景中，一个蛋白质化学激活第二个蛋白质，后者激活第三个，后者再激活第四个，然后第四个蛋白质回过头来使第一个蛋白质失活。这是一个翻译后信号级联反应。

这两个系统由完全不同的“东西”——DNA和蛋白质——构成，并且它们在截然不同的时间尺度上运作。基因回路可能需要数小时才能完成一个周期，而蛋白质级联反应可能在几秒钟内就触发。然而，如果我们画出它们相互作用的图谱，我们会发现一些惊人的事情：它们是相同的。两者都是一个带有单个抑制连接的四节点循环。它们是拓扑同构的。这种共享的结构意味着它们具有产生类似动态行为的潜力，例如产生持续的振荡。网络的架构，即其连接模式，揭示了超越其物理部件的、关于其功能的更深层次的真理。这就是系统生物学的语言。

构建模型：从生物学故事到数学机器

那么，我们如何构建模型呢？我们如何将一个细胞混乱而美妙的复杂性转化为一个我们可以分析的数学对象？有两种宏观策略，在实践中它们常常交织在一起。

“自下而上”的方法：从蓝图组装

自下而上的方法是经典还原论的精神继承者，但其目标是系统层面的。这就像建立一个时钟的计算机模拟，首先要一丝不苟地测量每个齿轮的大小、重量和摩擦力。一个生物化学家团队可能会在实验室里花上几个月的时间来测量一个代谢途径中酶的动力学速率。然后，他们将这些单独的测量结果组装成一组耦合微分方程，用以描述每种化学物质的浓度如何随时间变化。

这个过程中最初、最不起眼的一步就是简单地列一个清单。给定一个生物学故事——“蛋白质A与信号B结合形成复合物，然后修饰蛋白质C”——我们必须首先识别所有不同的参与者，即物种：蛋白质A、信号B、A-B复合物、蛋白质C和修饰后的蛋白质C。这些中的每一个都成为我们模型中的一个实体，一个我们将跟踪其数量的变量。在计算机内存中，我们可能会将每个物种表示为一个简单的数据结构，其中包含其名称、属性和其他重要信息。我们从这些零件及其相互作用的清单开始，自下而上地构建模型。

“自上而下”的方法：从嗡鸣声中推断设计

自上而下的方法更像是当一名侦探。我们不是从蓝图开始，而是从监控录像开始。想象一下，我们用一种新药处理一个细胞，然后使用“蛋白质组学”实验来测量处理前后成千上万种蛋白质的水平。我们得到了细胞状态的两个大规模“快照”。然后我们可以使用统计算法来搜索这些数据中的相关性模式。哪些蛋白质一起升高？哪些在其他蛋白质升高时降低了？从这些模式中，我们推断出一个假设的相互作用网络，它可以解释我们观察到的变化。我们正试图通过倾听引擎的嗡鸣声并分析其废气来推断其设计。当对底层机制知之甚少时，这种方法在生成新假说方面非常强大。

实际上，最强大的科学发生在中间地带。我们可能从一个基于已知生物学知识的自下而上模型开始，然后使用来自高通量实验的自上而下数据来优化其参数并发现新的连接，在理论和实验之间来回迭代。

模型告诉我们什么：动态、约束和意外发现

那么，我们已经建立了模型。我们能用它做什么呢？这就是奇迹发生的地方。模型成为发现的乐园，让我们能够看到一个系统如何随时间变化，其最终能力是什么，以及它如何实现其非凡的鲁棒性。

生命的节律：动态模型

有些模型是动态的，旨在捕捉细胞不断变化的状态。这些模型通常被写成常微分方程组 (ODEs)，其中每个组分的变化率取决于其他组分的当前数量。一个经典的例子是对糖酵解振荡的研究，即分解糖的途径中代谢物浓度的节律性升降。

为了可视化这样一个系统的行为，我们不只是绘制浓度随时间变化的图。相反，我们可以创建一个相平面，一种“可能性地图”，其中坐标轴代表两种关键化学物质的浓度——例如，一种底物和一种激活酶的产物。系统的任何状态都是这张地图上的一个点。随着系统的演化，它在地图上描绘出一条轨迹。在某些条件下，我们发现所有轨迹都螺旋式地趋向一个单一的闭合环——一个极限环。这个环就像一个赛道，系统无法逃脱。一旦进入这个环，细胞就注定会一遍又一遍地循环经历相同的状态序列，产生持续、稳定的振荡。模型不仅复制了振荡现象，它还解释了为什么这是网络结构不可避免的结果。

然而，模拟这些动态可能很棘手。生物系统以包含在截然不同的时间尺度上发生的过程而著称。在病毒感染中，病毒可能在几小时内复制，而身体的适应性免疫反应则需要几天或几周才能成熟。一个同时捕捉这两个过程的模型被称为刚性 (stiff) 模型。这就像试图用单一的相机速度在同一镜头中拍摄蜂鸟的翅膀和迁徙的乌龟。捕捉快速过程需要极小的时间步长，但要模拟慢速过程的整个过程则需要永恒的时间。这需要特殊的数值求解器，专门用于处理生命基本特征之一的巨大时间尺度分离。

可能性的逻辑：基于约束的模型

并非所有模型都需要预测系统在每一毫秒的精确状态。有时，我们想知道一个系统能够做什么。这是基于约束的建模的领域，其首要工具是通量平衡分析 (FBA)。

FBA 将细胞的整个代谢网络视为一个化学反应网。它不需要知道每种酶的详细动力学。相反，它假设细胞已经进化到能够高效运作，并处于稳态（平均而言，每个代谢物的产生速度与其消耗速度相同）。在这些约束条件下，FBA 使用优化方法来回答诸如“在给定可用营养物质的情况下，该细菌生长的绝对最大速率是多少？”这样的问题。它计算出实现这一目标的最佳反应速率分布，即通量。

FBA 的真正力量在于它提供的关于系统设计的非直观见解。考虑一个制造关键生物质组分所需的简单途径。FBA 模型可能会告诉我们某个反应，比如反应3，是必需的——如果它停止，生长就会停止。现在，让我们看看基因。假设反应3可以由两种不同的酶催化，一种由gene_delta产生，另一种由gene_epsilon产生。如果我们删除gene_delta会发生什么？什么也不会发生！细胞继续生长，因为来自gene_epsilon的酶接管了工作。这个反应是必需的，但这个基因不是。这揭示了一个深刻的生物学原理：冗余性。生命内置了备份系统。模型让我们能够清楚地看到这种逻辑，区分关键功能和执行该功能的可替换部件。

我们可以用像通量变异性分析 (FVA) 这样的技术进一步探索。在找到最大生长速率后，我们可以问：“为了实现这种最佳生长，细胞在其内部操作中有多大的自由度？”FVA 可能会揭示，某个反应可以正向、反向运行，或者根本不运行，而细胞仍然以完全相同的最佳速率生长。这展示了代谢网络令人难以置信的灵活性。就像一个城市有多条从家到工作的路线一样，细胞有许多内部通量模式可以实现同一个目标。模型向我们展示的不仅仅是一个单一的解决方案，而是整个可能性的图景，揭示了让生命在变化的世界中茁壮成长的隐藏的鲁棒性和适应性。

应用与跨学科联系

在完成了系统生物学原理与机制的探索之旅后，你可能会感到惊奇，但也会有一个关键问题：这一切究竟是为了什么？这是一个合理的问题。最好的科学不仅仅是优雅理论的集合；它是一个镜头，通过它我们可以更好地观察、理解并与世界互动。系统建模的真正力量不在于数学本身，而在于数学能将我们带往何方。它是一种工具，一种描述相互连接部分逻辑的通用语言，其应用之广泛和深刻，堪比它试图描述的复杂系统。

让我们从一个简单而优美的例子开始，说明这种普适性。想象你是一名全球物流经理。你的世界是一个由港口和航运线路组成的网络。你知道某些港口，如新加坡港，至关重要。它们是拥有大量直接连接的“枢纽”。它们不仅仅是目的地；它们是巨大的中转站，货物从无数地点运抵这里，再被转运到无数其他地方。港口的角色由其巨大的连通性所定义——用网络语言来说，就是高度的“度”。

现在，让我们把航运清单换成一本生物化学教科书，深入观察一个活细胞的内部。我们发现一种叫做丙酮酸盐 (pyruvate) 的分子。它是一个主要途径（糖酵解）的终产物，但也是许多其他途径的起点——它可以在克雷布斯循环中转化为能量，转变回葡萄糖，或用于构建氨基酸和脂肪。它也是一个枢纽。在一个代谢物为节点、反应为连接的图中，丙酮酸盐的度非常高。它有许多来自被分解分子的“输入路径”，也有许多通往被构建分子的“输出路径”。赋予新加坡港经济力量的高度枢纽这一抽象数学概念，与赋予丙酮酸盐在细胞经济中核心角色的概念完全相同。这就是系统视角的魔力：它揭示了在截然不同的领域中上演着相同的基本模式。

从图谱到医学

有了这个统一的思想，系统建模最直接、影响最深远的应用或许是在医学领域。几个世纪以来，医学通常是一个观察症状并试图对抗它们的过程。系统生物学提供了一个新的范式：通过理解出问题的网络来理解疾病。

想象细胞内一条简单的工厂装配线，一条旨在生产一种重要化合物的代谢途径。一个前体分子 Alpha 被转化为 Beta，然后 Beta 可以进入两个分支中的一个。一个分支通向最终的必需产品。另一个分支产生一种不同的分子 Delta，而它恰好是一种神经毒素。在一个健康的细胞中，这种有毒的 Delta 会被一种专门的“清理”酶立即中和。现在，假设出现一种遗传性疾病，导致这种神经毒素积累到致命水平。工厂的哪个环节出了问题？

通过勾勒出网络——一个简单的系统模型——我们可以推断各种可能性。如果整个过程中的第一个酶损坏了，就不会产生 Beta，因此也不会产生有毒的 Delta。如果通往有毒分支的酶损坏了，Delta 也不会产生。网络的逻辑不可避免地将我们引向一个单一的结论：毒素积累的唯一途径是其特定的清理酶损坏了。生产线工作正常，但废物处理系统失灵了。我们简单的模型刚刚完成了基于网络的疾病基因鉴定，直接指出清理酶的基因是该疾病的病因。这正是我们理解像苯丙酮尿症 (phenylketonuria) 这样的遗传性代谢紊乱背后的原理，在这种疾病中，单个酶的缺陷会导致有毒物质的累积，如果不加以管理，将导致严重的智力残疾。模型是一张地图，让我们能够找到断裂的桥梁。

当然，生命不仅仅是静态的工厂地图。细胞是动态的。它们会做决定。考虑一下T细胞，你免疫系统中的一名士兵，所面临的挑战。它遇到另一个细胞，后者呈递一个分子片段。这个片段是来自危险的病毒，还是仅仅是来自你自己身体的无害部分？攻击对于抗击感染是必要的，但如果出错（导致像炎症性肠病这样的自身免疫性疾病）则是灾难性的。T细胞必须做出决定，它是通过一种微积分般的计算来完成的。

它通过其T细胞受体 (TCR) 接收到一个主要的“行动”信号。但它也会将此信号与其他信号整合，比如来自一个名为 CD28 的受体的共刺激“加速器”信号，以及来自一个名为 CTLA-4 的受体的抑制性“刹车”信号。我们可以建立一个简单的数学模型，其中总激活信号 $S$ 类似于 $S = (\text{TCR Signal}) \times (1 + \text{CD28} - \text{CTLA-4})$ 。T细胞激活的概率则是这个整合信号的函数，也许类似于 $P = \frac{S}{S+K}$ 。这个模型虽然是一种简化，但捕捉到了决策的本质：在正负输入之间取得平衡。在炎症发作期间，当加速器 (CD28) 被踩得更重一些，但身体为了控制混乱也稍微踩下刹车 (CTLA-4) 时，会发生什么？我们的模型可以给我们一个关于最终激活概率的精确、可检验的预测。我们不再仅仅是描述部件；我们正在为生命的逻辑建模。

当我们考虑细胞的内部治理——其基因调控网络时，这种逻辑变得更加错综复杂。想象一个处于压力下的细胞——比如说，内质网 (ER) 中的蛋白质折叠工厂不堪重负。细胞激活一个名为“未折叠蛋白反应” (UPR) 的程序，该程序涉及多个信号分支。两个关键的管理者，名为 ATF6 和 XBP1s 的转录因子，被激活。ATF6 的工作是开启有助于解决问题的基因。但事实证明，XBP1s 充当“共激活因子”——它本身不开启基因，但它能增强 ATF6 完成其工作的能力。

你如何描述这种合作互动？用数学。我们可以写一个常微分方程组 (ODEs)，其中目标基因信使RNA ( $m$ ) 的产生速率由活性 ATF6 ( $A$ ) 的量驱动，但通过一个类似这样的项被 XBP1s ( $X$ ) 的量放大：转录速率 $\propto A \times (1 + \gamma \frac{X}{K+X})$ 。这个模型将两个分支之间的“串扰”形式化。它允许我们模拟该系统并预测，例如，如果我们创造一种药物将共激活因子 XBP1s 的产量减少一半，目标基因的表达量会精确减少多少。这就是动态建模的力量：将模糊的生物学卡通图转变为精确、可预测的机器。

终极测试：通过构建来理解

物理学家 Richard Feynman 有句名言：“我无法创造的，我就不理解。”这种情感是系统生物学与其兄弟领域合成生物学之间深刻协同关系的核心。系统生物学主要寻求分析现有的生命，而合成生物学则寻求基于工程原理构建新的生物功能。

系统生物学提供了“零件清单”和操作手册，破译了自然回路的组件和规则。然后，合成生物学拿着这本手册，尝试将这些部件——基因、启动子、蛋白质——连接成新颖的回路、设备和系统。而且，通常最富启发性的时刻出现在这些新创造物失败之时。当一个合成回路的行为不像简单模型预测的那样时，它告诉我们我们的“操作手册”是不完整的。失败揭示了细胞世界的一个隐藏规则——也许是该回路消耗了太多能量，给宿主细胞带来了负担，或者与宿主自身的某个通路发生了意外的串扰。这些失败不是挫败；它们是数据。它们迫使我们改进我们的系统级模型，创造一个良性循环：构建带来更好的理解，而更好的理解反过来又带来更好的构建。

这种模型与实验之间的对话，在开发像CAR-T细胞——一种被基因工程改造用来搜寻和杀死癌症的T细胞——这样的前沿疗法中，显得尤为关键。合成生物学家可能会设计一种带有报告系统的 CAR-T 细胞，比如说，一个基因能让细胞在发现癌细胞并被激活时发出荧光素酶的光。系统生物学家会对此进行建模：内部信号（NFAT激活， $N(t)$ ）驱动报告蛋白（ $R(t)$ ）的产生，后者进而产生光。

但在这里我们遇到了一个巨大的挑战。当我们在小鼠身上测试时，我们所能看到的只是来自动物身体深处的一团微弱、模糊的光。这光之所以微弱，是因为我们只有少量但都发光强烈的T细胞吗？还是因为我们有大量但都只是弱激活的T细胞？光线是否被中间的组织吸收和散射了？我们能做的单一测量——总光子通量 $F(t)$ ——是相机效率、细胞数量、每个细胞的报告蛋白水平以及组织光学特性的卷积结果。这些参数是“不可识别的”；我们无法仅从一个测量中将它们解开。

这正是系统生物学和实验生物学真正融合之处的闪光点。我们必须设计更巧妙的实验来为模型解开约束。如果在进行生物发光成像的同时，我们在相同的细胞中共表达一个PET报告基因会怎样？PET（正电子发射断层扫描）是一种完全三维的定量成像方法。它可以准确地告诉我们T细胞在哪里以及有多少。通过用PET测量细胞分布，我们可以将这些信息输入到我们的光传输模型中。突然，唯一剩下的主要未知数就是每个细胞的报告蛋白水平 $R(t)$ 。我们已经打破了不可识别性。这种多模态方法，即在数学模型指导下结合不同的实验技术，是我们如何将模糊、定性的观察转变为严谨、定量的科学的方式。

这种建构性方法的最终目标是创建一个“全细胞模型”——一个完整、动态的整个生物体的计算机模拟，比如最小的细菌生殖支原体 (Mycoplasma genitalium)。虽然我们目前的代谢模型可以预测稳态生长速率，但一个全细胞模型可以回答目前无法触及的问题，例如代谢扰动如何影响DNA复制和细胞分裂的时间和持续时长。这一宏大挑战代表了“通过构建来理解”的顶峰，旨在创造一个如此完整的虚拟生物体，以至于它成为对我们生命原理知识的终极考验。

人文因素：模型、预测与责任

预测模型日益增长的力量迫使我们走出舒适的实验室，进入伦理和人类价值观的复杂世界。模型不仅仅是理解的工具；当它预测未来时，它就成为决策的工具，随之而来的是巨大的责任。

思考我们时代最深刻的伦理前沿之一：人类种系编辑。想象一个联盟开发了一个高度复杂的系统模型，可以预测基于CRISPR技术对人类胚胎进行编辑的多代后果。该模型用于评估一种针对可怕的、致命的儿童疾病的疗法。预测结果十分诱人：治愈该儿童疾病的概率为99.5%。但该模型也标记出一个微小的5%的几率，即一种细微的代谢问题不会出现在这个孩子或他们的孩子身上，而是出现在他们的曾孙——F3代——身上。

正确的做法是什么？模型给了我们一个前所未有的、尽管模糊的未来一瞥。它提出了直接源于模型输出的、令人极其痛苦的伦理问题。“首先，不伤害” (non-maleficence) 的原则受到了为未来人类引入新的、未知风险的挑战。知情同意原则变得毫无意义，因为将承担这一风险的个体——我们的曾孙——在决策中没有发言权。此外，我们必须正视依赖任何模型——无论多么复杂——来对人类物种进行永久、可遗传改变的傲慢。每个模型都是一种简化，我们必须谦卑地承认，未知的基因-环境相互作用可能导致我们的模拟未能捕捉到的不可预见的后果。模型没有给我们答案，但它以惊人的清晰度框定了问题。

这个伦理维度从个体临床决策延伸到全球科学政策。想象一个预算有限的国际资助机构。他们面前有两份提案，都利用了系统生物学的力量。一个项目旨在模拟衰老过程，目标是延长健康的人类寿命——这主要是一个富裕发达国家关心的问题。另一个项目旨在模拟疟疾和结核病等疾病的宿主-病原体相互作用，这些疾病在世界最贫穷的国家夺走了数百万人的生命。

我们应该如何选择？哲学家 John Rawls 提出了一个思想实验：我们应该在“无知之幕”后做出此类决定，在那里我们不知道自己在社会中的地位。我们不知道自己会生为富人还是穷人，健康还是生病。Rawls 认为，从这个原始位置出发，我们会选择最有利于社会中最不利成员的规则。应用这个“差异原则”会得出一个清晰但困难的结论。那个直接解决全球处境最差人群严重健康负担的项目——病原体网络项目——是必须优先考虑的项目。再次强调，系统生物学并非存在于真空中。它的应用是一种人类的选择，受到伦理框架的指导，迫使我们不仅要决定我们能做什么，还要决定我们应该做什么。

从共享网络模式的抽象之美，到治愈疾病的实际挑战，再到塑造我们未来的深远责任，系统生物学的应用证明了将世界视为一个相互关联的整体所具有的力量。这是一个要求我们成为数学家、生物学家、工程师，并最终成为哲学家的领域，与生命错综复杂的逻辑以及我们自身在其中的位置进行搏斗。