try ai
科普
编辑
分享
反馈
  • 系统生物学模型

系统生物学模型

SciencePedia玻尔百科
核心要点
  • 系统生物学模型整合了还原论数据,利用自下而上(机理驱动)和自上而下(数据驱动)的策略来理解生命系统的涌现特性。
  • 生物系统的行为可以通过数学工具来描述,例如使用常微分方程(ODE)描述确定性动力学,使用贝叶斯网络进行概率推断。
  • 模型抽象的层次是一个关键选择,通过牺牲细节换取尺度,以回答从单细胞保真度到网络层面现象等不同的生物学问题。
  • 系统模型的预测能力超越了生物学领域,延伸到社会领域,在医学、公共政策和法律方面引发了复杂的伦理问题。

引言

生命的复杂性,从单个细胞到整个有机体,是科学界最巨大的挑战之一。数十年来,将系统分解为其独立组分——基因、蛋白质和分子——的还原论方法取得了惊人的发现。然而,仅凭这种“零件清单”式的视角无法解释由它们相互作用而产生的动态、适应性行为。细胞是如何做出决策的?神经网络是如何产生思想的?本文旨在通过探索系统生物学建模这一领域来弥补这一差距,该学科致力于通过模拟各部分的相互作用来理解整体。首先,我们将深入探讨其基础性的“原理与机制”,审视从“部分”到“系统”的哲学转变,并介绍用于书写生命法则的数学语言,如微分方程和概率网络。随后,“应用与跨学科联系”一章将展示这些模型如何被用于解码细胞机器、连接从分子到生态系统的不同尺度,并探讨当我们的预测能力重塑社会时所产生的深刻伦理问题。

原理与机制

构建生命系统模型,就是踏上一段抽象之旅。我们无法期望模拟细胞中的每一个原子,正如我们不需要了解弹跳球的量子力学才能玩接球游戏。系统生物学的艺术在于选择恰当的描述层次来捕捉现象的本质。这意味着要超越简单的零件清单——基因、蛋白质、代谢物——而去寻求理解它们相互作用的规则。这是一种深刻的视角转变,其根源于一个简单而强大的理念:整体大于部分之和。

从部分到系统:机器中的幽灵

在20世纪的大部分时间里,生物学的辉煌成就建立在还原论的基础上:要理解一个系统,就把它拆开。为了理解遗传,我们发现了DNA。为了理解新陈代谢,我们分离了酶。这种方法过去是,现在也依然极其强大。然而,它给我们留下了一个悬而未决的问题。如果你有一份汽车所有部件的完整清单,你是否就理解了它是如何行驶的?你是否理解了交通堵塞?

为回答这个问题所做的思想准备工作,远在第一个基因组被测序之前就已奠定。像生物学家 Ludwig von Bertalanffy 这样的思想家认为,生物并非像封闭的、会自行耗尽的发条机器。它们是​​开放系统​​,不断与环境交换物质、能量和信息。这些系统的一个关键特征是在更高层次上涌现出在组分层次上根本不存在的属性。单个水分子不是“湿”的。单个神经元不会“思考”。这些都是由许多简单部分的集体相互作用产生的​​涌现特性​​。Von Bertalanffy 的一般系统论提出,可能存在普适的组织原则——如反馈、层级和稳定性等概念——适用于所有复杂系统,无论它们是细胞、生态系统还是经济体。

这就是系统生物学的哲学核心。它不是对还原论的否定,而是对其的完善。我们拆解系统以识别各个部件,但随后我们必须在计算机中将它们重新组合起来,以理解它们的相互作用如何催生出复杂、动态且往往出人意料的生命行为。

两大策略:自下而上与自上而下

那么,我们如何开始在模型中将这些部件重新组合起来呢?现代系统生物学家遵循两种宏大策略,两种相对立的发现哲学。它们就是​​自下而上​​(bottom-up)和​​自上而下​​(top-down)的方法。

想象一下,你想了解一条小小的代谢通路。​​自下而上​​的方法就像一位钟表大师的工作。你进入实验室,煞费苦心地描述每一个零件的特性。你测量酶A将底物X转化为Y的速率。你确定蛋白质B和蛋白质C之间的结合亲和力。你收集所有这些独立的、组分级别的参数。然后,你坐下来,将这些事实组装成一个机理模型,通常是一组精确描述每个组分浓度如何响应其他组分而变化的方程。通过首先在体外测量每个酶的动力学参数来构建通路模拟的项目,就是这种自下而上哲学的完美典范。这个过程的一个简单起点仅仅是列出参与者——即参与反应的独特化学​​物种​​,如蛋白质及其修饰形式。这份物种清单,如 KinA、SigP、SubT 及其复合物 KinA-SigP 和 SubT-P,构成了我们模型的角色阵容,然后我们可以使用系统生物学标记语言(SBML)等标准将其形式化,以确保我们的模型可重用且无歧义。

​​自上而下​​的方法则像一位侦探抵达复杂现场的工作。你不知道机理,但你可以观察其后果。想象一下将细胞暴露于一种新药。细胞的内部状态发生了大规模的重构,但这是如何发生的呢?利用蛋白质组学等高通量技术,你可以同时测量用药前后数千种蛋白质的水平。你最终得到堆积如山的数据。自上而下的方法使用统计和计算算法来筛选这些数据,寻找模式和相关性。从这些模式中,你推断出一个假设的相互作用网络——一张布线图——它可以解释观察到的变化。这种方法并非从已知的机理开始;它从全系统的数据着手,反向推导,以产生关于底层结构的新假说。

这两种方法本质上没有优劣之分。自下而上的方法为我们提供了详尽的机理理解,但可能速度缓慢,且受限于我们所能测量的范围。自上而下的方法可以快速勘察整个系统并提出新的联系,但其产生的相关性图谱往往需要进一步验证。真正的魔力通常发生在“中向外”(middle-out)的方法中,即两种方法相遇之处,利用数据来完善和扩展由已知部件构建的模型。

动力学语言:书写生命法则

无论我们是自下而上构建还是自上而下分解,我们最终都需要一种形式化语言来表达我们的模型。在系统生物学中,这种语言通常是数学。

细胞的发条装置:常微分方程

自下而上模型最常用的语言是​​常微分方程(ODE)​​。这听起来令人生畏,但其思想却异常简单。一个ODE描述的不是某物在哪里,而是它如何变化。对于蛋白质浓度 PPP,方程可能形如 dPdt=生成−降解\frac{dP}{dt} = \text{生成} - \text{降解}dtdP​=生成−降解。

考虑一个简化模型,描述两种关键蛋白质NF-κB和p53之间的相互作用,它们参与细胞应激反应和癌症。我们可以写下一对ODE来描述每种蛋白质的活性如何影响另一种:

dNdt=production of N−degradation of N−inhibition of N by P\frac{dN}{dt} = \text{production of } N - \text{degradation of } N - \text{inhibition of } N \text{ by } PdtdN​=production of N−degradation of N−inhibition of N by P
dPdt=production of P−degradation of P−inhibition of P by N\frac{dP}{dt} = \text{production of } P - \text{degradation of } P - \text{inhibition of } P \text{ by } NdtdP​=production of P−degradation of P−inhibition of P by N

其中,NNN 代表 NF-κB 活性,PPP 代表 p53 浓度。一旦我们有了这些方程,我们就可以做一些非凡的事情。我们可以让计算机找到系统的​​不动点​​——即生成与降解完美平衡的特定浓度,此时 dNdt=0\frac{dN}{dt} = 0dtdN​=0 且 dPdt=0\frac{dP}{dt} = 0dtdP​=0。这些是系统可以稳定下来的稳态。

但这些状态稳定吗?一支笔尖朝下平衡的铅笔处于一个不动点,但它不稳定。为了回答这个问题,我们使用一个叫做​​雅可比矩阵​​的数学工具,它描述了系统在偏离不动点微小扰动时的响应。通过分析这个矩阵,我们可以确定一个不动点是稳定的吸引子(就像碗底的弹珠),还是系统会逃离的不稳定点。这使我们能够预测细胞回路是会稳定在一个安静的稳态,还是会产生动态振荡——许多信号通路的标志。这一数学传统源远流长,早期的框架如​​代谢控制分析(MCA)​​和​​生化系统理论(BST)​​为量化控制权在整个代謝网络中的分布提供了首批严谨的工具。

推断的逻辑:概率模型

对于自上而下的方法,我们常常求助于另一种数学:概率论。当我们拥有海量的‘组学’数据集时,我们对精确的机理联系不那么确定。相反,我们想要模拟变量之间的概率依赖关系。​​贝叶斯网络​​是完成这项工作的首选工具之一。

贝叶斯网络将变量(如不同基因的表达水平)表示为图中的节点。一条从基因A指向基因B的有向边 A→BA \rightarrow BA→B 意味着基因A的状态直接影响基因B状态的概率。至关重要的是,这些图必须是​​有向无环图(DAGs)​​,这意味着在单个时间片内不能有反馈回路。这种有向性非常适合生物学,因为调控通常是单向的(转录因子结合DNA以调控基因,而不是反过来)。该模型使我们能够表示干预(如基因敲除)的效果,并预测网络其余部分的概率将如何变化。这使得贝叶斯网络成为一个强大的框架,可以从纯粹的观察和干预数据中学习潜在的因果关系,将一片相关性的海洋转化为一张有理可据的机理图。

选择你的镜头:抽象的艺术

模型是一种简化,而建模者做出的最重要的选择是省略什么。这导致了在细节和尺度之间的一个根本性权衡。

想象一下你在研究癫痫。一个团队可能会建立一个单个神经元的“高保真”模型。该模型可能包含数千个方程,描述神经元分支状树突上每种离子通道的确切位置和行为。这样一个模型的目标是就分子水平的变化——比如单个离子通道基因的突变——如何改变该细胞的电行为,提供精细的、预测性的见解。

另一个团队可能会采取完全不同的方法。他们建立一个包含数千个神经元的一小块皮层的“网络”模型。但在这里,每个神经元都是一个漫画式的简化,其复杂的行为被简化为单个简单的方程。重点不在于任何单个细胞的细节,而在于它们之间的连接模式。这个模型无法告诉你任何关于特定离子通道的信息,但它可以探索网络结构如何产生群体水平的现象,例如构成癫痫发作基础的同步放电波。

哪个模型更好?这个问题毫无意义。它们是用于不同工作的不同工具。一个是显微镜,另一个是望远镜。高保真模型问的是“分子缺陷如何改变一个细胞?”,而网络模型问的是“网络布线如何引发癫痫发作?”。理解在哪个抽象层次上可以回答哪些问题,是系统生物学家的真正标志。

从理论到预测:前景与陷阱

一旦模型建成,它就成了一个虚拟实验室。我们可以进行在现实世界中困难、昂贵或不道德的实验。但这种能力伴随着责任,以及需要意识到其中的陷阱。

一个模型的好坏取决于用于求解它的方法。考虑一个​​双稳态拨动开关​​的模型,这是一个常见的遗传回路,其中两个基因相互抑制。该系统有两个稳定状态:要么基因A开启而基因B关闭,要么反之。A=BA=BA=B 这条线就像山脊上的分水岭,充当了“分离线”。如果你从一侧开始,你会滚入一个山谷(稳定状态);如果你从另一侧开始,你会滚入另一个山谷。研究人员可能会使用像​​前向欧拉法​​这样的简单数值求解器来模拟系统的演化。但如果他们选择的时间步长过大,​​局部截断误差​​——每一步产生的微小误差——可能会累积。在一个戏剧性的失败案例中,这种数值误差可能大到足以人为地将模拟“踢”过分离线,导致模型预测开关将进入错误的状态。生物学模型是正确的,但计算是有缺陷的,导致了定性上不正确的预测。

这把我们带到了前沿领域。如果我们根本不知道我们系统的方程怎么办?这就是革命性新工具——​​神经常微分方程(Neural ODE)​​——的用武之地。我们不再从生物学第一性原理出发写下 dy⃗dt=f(y⃗)\frac{d\vec{y}}{dt} = f(\vec{y})dtdy​​=f(y​),而是将函数 fff 定义为一个深度神经网络,其参数 θ\thetaθ 直接从实验时间序列数据中学习得到。

这是一个惊人强大的想法。它使我们能够在不了解所有潜在机理的情况下,创建出复杂动力学的高度精确的预测模型。然而,这种强大是以​​可解释性​​为代价的。训练之后,我们得到的是一个神经网络——一个由数千个权重和偏置 θ\thetaθ 组成的“黑箱”。我们可能会问:“这个特定的权重是否对应于蛋白质A对蛋白质B的抑制作用?”答案几乎总是否定的。模型关于那一个生物学相互作用的“知识”并非局限于单个参数,而是​​分布​​在许多参数之中。此外,许多不同的参数集可以产生几乎相同的动力学。这使得将学习到的参数映射回特定的一对一的生物学意义变得从根本上困难。打开这些黑箱以提取新的生物学知识是当今系统生物学中最激动人心的挑战之一,它预示着一个未来,我们不仅能预测生命的行为,还能直接从观察中学习其隐藏的规则。

应用与跨学科联系

在回顾了系统生物学的核心原理之后,人们的脑海中可能充满了反馈回路、微分方程和网络图。但这些不仅仅是抽象的数学构造。它们正是我们用来提出关于生命的一些最深刻问题的语言,也是我们正在构建用来回答这些问题的工具。当我们应用系统方法时,其真正的力量才会显现,它从一个理论框架转变为一个用于发现、创新甚至伦理审思的透镜。我们的旅程现在转向这一前沿,去看看这些模型不仅如何帮助我们解码生命精密的机器,也在如何重塑我们的世界,从诊所到法庭。

解码生命机器

在最根本的层面上,系统生物学试图为细胞编写一本用户手册。但这本手册不是用文字写的,而是用动力学语言写的。我们如何开始阅读它呢?我们从观察开始。

想象一下,观察一个在化学刺激后活跃起来的基因。我们可以随时间测量其表达水平,得到一系列数据点,这些数据点描绘出一条激活和随后衰减的故事线。这些原始数据就像一系列静态照片。要理解其运动,我们需要将它们连接起来。一种强大的方法是找到一个最能拟合这些点的数学函数——一条光滑的曲线,将离散的测量值转变为连续的叙事。这个过程通常使用正交多项式的最小二乘逼近等工具,它远不止是“曲线拟合”。这是将实验观察转化为定量假说——一个我们可以分析、质疑和检验的数学对象——的关键第一步。

有了捕捉动力学的能力,我们就可以开始反向工作,推断出细胞隐藏的布线图。思考一下生物钟的奇迹,这个控制我们身体节律的内部计时器。它是一个由基因和蛋白质的环环相扣的齿轮构成的、惊人复杂的机器。我们如何弄清楚它的设计?一种经典的系统方法是进行一种遗传手术。通过观察当我们“敲除”一个特定基因时会发生什么,我们可以推断出它的功能。当生物学家观察到移除像 BMAL1 这样的核心组分会导致整个时钟停止,而移除像 REV-ERBα 这样的辅助组分仅仅改变其速度时,他们正在进行上位性分析。当两种基因的双敲除看起来与单独敲除 BMAL1 的结果相同时,他们可以推断出 BMAL1 在层级上“上位”于 REV-ERBα——这意味着它的功能是绝对必要的,而 REV-ERBα 的作用是调节这个核心机器。这个逻辑过程使我们能够绘制出组分之间的关系图,并区分时钟不可或缺的引擎和其调节器。

除了绘制静态蓝图,系统模型还让我们能够理解细胞如何做出动态决策。例如,我们免疫系统中的一个树突状细胞在遇到真菌时面临一个关键选择:是应该触发强烈的促炎反应(通过细胞因子IL-12)来摧毁入侵者,还是应该促进一种更温和的抗炎状态(通过IL-10)以防止组织损伤?事实证明,细胞会听取多种内部信号来做出这个选择。单个事件,比如C型凝集素受体与真菌细胞壁结合,会激活平行的信号通路,一条驱动NF-κB,另一条驱动NFAT。系统模型可以揭示,最终的决定不是一个简单的“开”或“关”的开关,而是一个复杂的平衡行为。NF-κB可能对两种结果都是必需的,但NFAT的激活水平可以充当一个开关,它与IL-10启动子协同作用,同时主动抑制IL-12启动子。上游信号的微小变化,例如细胞内钙离子浓度,可以改变这些内部“议会成员”的平衡,从而将细胞的策略从促炎完全转变为抗炎。这就是细胞作为一个集成电路的行为,基于多重输入进行细致的计算。

连接尺度与学科

系统视角最美妙的方面之一是它能够发现跨越从分子到生态系统等巨大组织尺度的统一原则。

考虑一下植物组织如何响应激素信号。你可能会想象组织中的每个细胞都有相同的受体,因此以相同的方式响应。但自然界往往比这更聪明。实际上,存在细胞间的变异性;一些细胞可能布满了高亲和力受体(如 AHK3),对激素的微弱信号做出反应,而另一些细胞则配备了较低亲和力的受体(如 AHK2),需要更强的信号。对这个系统的模型揭示了一个惊人的原则:这种异质性不是噪音,而是一种特性。通过对许多不同单个细胞的急剧、开关般的反应进行平均,整个组织可以产生一条平滑、渐进且范围更广的剂量-反应曲线。细胞的“群体智慧”使得组织能够对更宽范围的激素浓度敏感,这种鲁棒性是均一群体不可能实现的。

系统模型的统一力量甚至超越了生物学,延伸到数学本身的抽象领域。谁会想到像阿尔茨海默病这样的神经退行性疾病的悲剧性进展会与森林中捕食者和猎物的种群动态有任何共同之处?然而,其数学结构可以是相同的。在一个生态系统中,猎物(兔子)的数量增长,为捕食者(狐狸)提供了食物来源。增长的狐狸种群消耗兔子,导致兔子种群崩溃,这反过来又因饥饿导致狐狸种群下降。这是经典的Lotka-Volterra循环。现在,考虑大脑。让健康的神经元成为“猎物”,能够自我维持。让一种致病的、错误折叠的蛋白质成为“捕食者”。在生物学的一个残酷转折中,健康神经元的存在有时会促进致病蛋白的复制,然后该蛋白“捕食”神经元,导致它们死亡。一个简单的捕食者-猎物模型可以捕捉到这个毁灭性的反馈回路,预测神经元和病理学群体数量的振荡。同一组方程,N˙=rN−αNS\dot{N} = rN - \alpha NSN˙=rN−αNS 和 S˙=βNS−δS\dot{S} = \beta NS - \delta SS˙=βNS−δS,可以描述这两种情景,这一事实深刻地证明了数学原理在自然界中的普适性。

社会中的系统生物学:伦理前沿

随着我们的系统模型变得越来越具有预测性,它们不可避免地从实验室走向公共领域。当一个模型的输出不再仅仅是一个科学见解,而是医学、法律或政治决策的基础时,我们就跨越了一个关键的门槛。我们进入了一个新的伦理领域,在这里,我们模型本身的力量迫使我们面对关于责任、正义以及何为人类的深刻问题。

在基因工程领域,这一困境或许最为尖锐。想象一个系统模型,它可以预测在人类胚胎中进行基于CRISPR的种系编辑的多代后果。该模型可能以高概率预测,该疗法将在第一代治愈一种致命的儿童疾病。但它也可能预测,在该个体的曾孙辈中出现一种新的代谢缺陷的概率虽然很小,但不为零。这造成了一个伦理雷区。我们如何权衡今天的近乎确定的益处与对无法表示同意的后代可能造成的伤害?此外,任何模型,无论多么复杂,都是对现实的抽象。它永远无法解释所有可能的变量,例如未知的基因-环境相互作用。将一个永久的、可遗传的决定建立在一个公认不完整的模型输出之上,这包含了一种技术上的傲慢,冒着在人类基因组及其环境这一复杂系统中引发不可逆转的、级联式失败的风险 [@problem_id:1432433, @problem_id:1432386]。

当复杂模型被商业化并直接提供给公众时,伦理挑战也随之出现。考虑一种直接面向消费者的服务,它使用专有的“黑箱”算法,根据客户的DNA生成概率性的健康风险评分。该公司提供了冗长的法律免责声明,但核心伦理问题依然存在:一个缺乏遗传学、统计学和系统生物学专业训练的消费者,能否真正做出“知情同意”?如果模型的内部工作原理是商业机密,其输出本质上是概率性的和不确定的,那么误解、焦虑和不良决策的可能性就非常大。正是使模型强大的复杂性,也为真正的理解设置了障碍,挑战了患者自主权的基础。

当这些模型被用来指导公共政策时,风险变得更高。在一次大流行期间,政府可能会委托一个系统模型来确定能够最小化经济损失的干预策略。该模型,即使假设是完全准确的,也可能得出结论,最“有效”的解决方案是对少数人口稠密、低收入地区实施严厉、持久的封锁,以保护整个国家的经济。这种情况赤裸裸地揭示了两个核心伦理原则之间的冲突:最大化集体利益(国家GDP)的功利主义目标,和要求公平分担危机负担、不使其不成比例地落在最脆弱人群身上的分配正义原则。模型提供了技术答案,但选择问模型什么——优化哪个目标函数——是一个深刻的道德选择。

最后,这些预测模型开始挑战我们法律体系中使用的定义本身。在专利法中,一项发明必须对“所属领域技术人员”而言是“非显而易见的”,才能获得专利。这是一个以创造力和独创性为基础的、以人为中心的标准。当我们用计算模型取代这个人时,会发生什么?一个前瞻性的思想实验考虑了一项政策,即如果一个强大的算法,在给予足够的时间和零件数据库的情况下,能够找到一个功能上等效的解决方案,即使结构不同,那么一个合成生物学电路就被认为是“显而见的”。这将从根本上改变发明的门槛,从对人类洞察力的考验,转变为一场与蛮力计算搜索的竞赛。它迫使我们思考我们真正珍视的是什么:是源于人类智慧的优雅、巧妙的解决方案,还是任何能完成任务的解决方案?

从最小的分子决策到最大的社会困境,系统生物学模型正为我们提供前所未有的能力,以理解和预测复杂生命系统的行为。这种能力也带来了深远的责任。发现之旅不再局限于实验室;这是一场共同的旅程,要求我们不仅成为更好的科学家,还要成为更明智的公民。