
几个世纪以来,生物学一直试图通过将生命分解为其最小组成部分来理解生命。人类基因组的测序代表了这种还原论方法的顶峰,为我们提供了生物体的最终“零件清单”。然而,一份零件清单并不能解释整体的功能;一份基因和蛋白质的清单无法捕捉活细胞动态而富有节律的舞蹈。计算系统生物学通过提供工具和理论来理解系统层面的行为如何从这些单个组分的复杂相互作用中涌现出来,从而弥补了这一差距。这门学科旨在破译细胞交响乐团演奏的乐章,而不仅仅是为乐器编制目录。
本文将为这一变革性领域的核心概念提供一份指南。我们将从抽象的原理走向具体的应用,揭示数学和计算机科学如何成为生物学的新语言。在第一章“原理与机制”中,您将学习到一些基础思想,从将细胞表示为网络,到用微分方程模拟其动态行为,再到使用基于约束的方法预测其能力。随后,“应用与跨学科联系”一章将展示这些框架在现实世界中如何被用来解码海量数据集、查明疾病的根源,并为以与其他工程学科同等的严谨性来工程化生物系统奠定基础。这次探索始于那些让我们能够将生物学的复杂性转化为一种我们可以理解、分析并最终进行工程改造的语言的基本工具。
在很长一段时间里,生物学的高尚追求是还原论的。为了理解一块手表,你会把它拆开,研究每一个齿轮和弹簧,并一丝不苟地将它们分类。人们曾认为,对于细胞也应如此。人类基因组计划的宏伟成就为我们提供了人类的最终“零件清单”。但一份零件清单并不是手表。一份基因和蛋白质的清单也不是生物体。所缺失的是这些零件共同演奏的乐章——相互作用、动态过程,以及从集体中涌现的生命交响乐。
理解这首交响乐的梦想,我们或可称之为系统生物学,并非新生事物。早在20世纪60年代,像 Mihajlo Mesarović 这样的思想家就构想了一个基于抽象、自上而下的系统组织理论的领域。这是一个美丽的想法,但超越了它所处的时代。要理解整个交响乐团,你首先需要能够同时听到所有乐器的声音。向真正实用的、数据驱动的系统生物学的哲学转变,不得不等待一场技术革命。
这场革命在21世纪之交随着高通量技术的出现而到来。突然之间,DNA微阵列和质谱分析等工具改变了我们的视野。我们不再需要费力地一次测量一个基因或一个蛋白质,而可以在一次实验中获得成千上万个基因或蛋白质活动的“全局快照”。我们第一次能够在一个时间点上看到整个细胞交响乐团的状态——哪些小提琴在响亮地演奏,哪些打击乐器保持沉默。这股定量的、全系统范围的数据洪流,正是现代计算系统生物学最终得以生长的土壤。
如果说生物学是一个由相互作用的部件组成的系统,我们该如何描述它呢?分子名称和相互作用的混杂很快就变得令人困惑。我们需要的是一种既精确又直观的语言,一种绘制细胞内部世界地图的方法。执行这项任务的自然语言是网络(或图)的数学。
这个想法非常简单。我们将系统中的组分——基因、蛋白质、代谢物——表示为节点(点)。然后,在任何两个相互作用的节点之间画一条边(线)。这种简单的抽象功能极其强大。生命中杂乱纠缠的网变成了一个我们可以分析的清晰的数学对象。而我们如何画这些边,则取决于我们想要讲述的生物学故事。
想象一下我们正在绘制细胞的社交版图。一个蛋白质-蛋白质相互作用(PPI)网络就像一个社交网络。节点是蛋白质,一条边意味着两个蛋白质物理上结合或相互“交谈”。如果蛋白质A与B交谈,那么B也与A交谈。这种关系是相互的,所以这些边是无向的。最终的图谱被编码在一个对称邻接矩阵中,其中一个条目意味着蛋白质和相互作用。
现在想象我们想要绘制细胞的指挥控制结构。一个基因调控网络(GRN)展示了基因是如何被开启和关闭的。一种称为转录因子的特殊蛋白质(一个基因的产物)可能会与另一个基因的DNA结合,从而激活或抑制它。这是一个因果关系的、单向的通道。这些边是有向的,用箭头表示。基因调控基因,但基因可能不调控基因。由此产生的邻接矩阵现在是非对称的。我们甚至可以添加更多信息:我们可以使边权重为正值表示激活,为负值表示抑制。
或者,考虑一下细胞的经济:它的新陈代谢。一个代谢网络描述了将食物转化为能量和构建模块的化工厂。在这里,我们有两种节点:代谢物(如葡萄糖或ATP)和转化它们的化学反应。一个反应消耗某些代谢物(底物)并产生其他代谢物(产物)。描绘这个过程最优雅的方式是使用二分图,其中边只连接代谢物和反应,从不直接连接两个代谢物。这种结构优美地捕捉了物质在细胞化学装配线中的流动。
一旦我们有了这张网络地图,我们就可以开始提问。网络中的每个部分都同等重要吗?扫一眼社交网络地图就会发现,有些人是联系极其广泛的“中心节点”,而其他人则更为边缘。细胞中也是如此。我们可以用中心性的度量来量化这种直觉。
其中最简单的是度中心性。一个节点的度就是它拥有的连接数。一个度非常高的蛋白质——一个“中心节点”——与许多其他蛋白质相互作用。这是一个强有力的线索!这样的蛋白质可能是一个主协调者或一个更大型分子机器中的关键支架。破坏它可能会给细胞带来灾难性后果,使其成为一个潜在的药物靶点。网络形式化的美妙之处在于,这个直观的概念与数学表示直接相关。节点的度可以通过简单地对邻接矩阵对应行的条目求和来计算,即。抽象的地图立即产生了一个可检验的生物学假说。
网络地图是静态的,就像一张路线图。但生命是一段旅程,而不是一个目的地。分子的浓度在不断变化,如同一场动态的舞蹈般起伏。为了捕捉这种节律,我们求助于微积分的语言:常微分方程(ODEs)。
其基本思想是一个简单的平衡表。一个分子浓度的变化速率就是其生成速率减去其移除速率。对于一个分子,我们写作: 现在想象一个简单的系统,一个基因产生信使RNA(mRNA),我们称之为,然后mRNA产生一种蛋白质,我们称之为。其动态过程可能由一对ODE描述:
解这些方程可能很困难。但我们可以通过一种叫做相平面分析的巧妙几何技巧,在不求出显式解的情况下获得深刻的洞见。我们不将和对时间作图,而是将它们相互对映作图。平面成为我们的“状态空间”,其中每个点都代表了细胞的一个可能状态(一定量的mRNA和蛋白质)。
在任何一点,这些方程告诉我们系统接下来想要移动的方向——速度矢量。这些矢量的集合就是矢量场,它就像状态海洋中的一股水流。轨迹是系统沿着这些水流流动的路径。我们还可以画出一些特殊的线,称为零斜线。-零斜线是(所有运动都是垂直的)的点集,而-零斜线是(所有运动都是水平的)的点集。
在这些零斜线相交的地方,会发生一些特殊的事情:和同时成立。速度为零。系统达到了一个不动点,或称平衡点。这是一个生成和移除完美平衡的稳态。通过简单地勾画矢量场和零斜线,我们就可以看到系统的整个命运:它将最终到达何处,是否会振荡,或者它是否有多种可能的归宿。这是一种理解系统定性行为及其本质特征的方法,而不会迷失在公式的细节中。
这种动态系统方法揭示了生物学最深刻的真理之一:复杂的行为可以从简单部分的相互作用中涌现出来。你不会找到“开关”基因或“时钟”蛋白质;这些是系统的属性。
考虑一个分子的活性的玩具模型,它由某个输入信号驱动,但同时也有一个自我抑制的反馈回路。一个描述这个过程的简单方程可以是: 让我们看看当我们“调节”输入信号时会发生什么。 如果是负的(一个抑制信号),变化率总是负的,所以将总是趋向于零。没有稳态。 但是,如果我们将增加到正值,神奇的事情发生了。令得到,现在它有两个解:和。系统突然间凭空创造了两个稳定状态。使用雅可比矩阵(速率函数的导数)进行快速分析表明,其中一个不动点是稳定的,另一个是不稳定的。
这个事件被称为鞍节点分岔。它是一个开关的诞生。在输入信号的一个临界阈值以下,系统只有一个归宿(“关”状态)。高于该阈值,它现在可以存在于一个稳定的“开”状态。这种双稳态开关对于细胞的决策过程至关重要,比如一个细胞决定是分裂还是分化。开关不是一个组件;它是网络非线性动力学的一个涌现属性。
我们现在可以将网络地图与动力学原理结合起来,构建出具有显著预测能力的模型。这一点在基因组尺度代谢模型(GEMs)中得到了最好的体现。
在这里,网络蓝图是化学计量矩阵,。这是一个强大的记账工具。每一列代表细胞中的一个反应,每一行代表一个代谢物。矩阵中的条目精确地告诉你,在每个反应中,每种代谢物有多少分子被生产出来(正数)或被消耗掉(负数)。这是细胞化工厂的完整配方书。
动态过程由通量描述,即每个反应的速率。所有代谢物浓度向量的变化速率由一个极其简洁的方程给出: 在许多应用中,我们可以做一个强有力的简化:伪稳态假设。我们假设内部代谢物没有积累或耗尽;工厂正在平稳运行。这意味着,这给了我们约束条件: 这是一个线性方程组!一个复杂的动力学问题被转化为了寻找一个满足质量平衡约束的可行通量集的问题。这个框架被称为流平衡分析(FBA),它使我们能够提出深刻的问题。给定一定量的葡萄糖,这种细菌能生产的最大生物燃料量是多少?我们可以敲除哪些基因来迫使细胞生产更多所需的药物?我们不再仅仅是描述细胞;我们正在工程化细胞。
我们讨论过的ODE和FBA模型将细胞内容物视为充分混合的、连续的浓度。这是一种“平均场”方法,就像描述气体的压力和温度而不去追踪每一个原子一样。当分子数量庞大时,这种方法效果很好。但是,当单个、离散实体的行为才是关键时,会发生什么呢?
想象一下模拟伤口愈合。这个过程不取决于“细胞物质”的平均密度,而取决于单个细胞的爬行、推挤以及与它们近邻的交流。在这种情况下,需要一个不同的视角:基于智能体的模型(ABM)。
在ABM中,每个细胞都被模拟成一个自主的“智能体”。每个智能体都有自己的内部状态和一套关于它如何移动、分裂、死亡以及与环境和其他智能体互动的规则。模拟通过让这些智能体各行其是来进行,而组织的大尺度行为则从所有这些局部相互作用中涌现出来。ABM对于捕捉依赖于个体离散性和空间排列的现象至关重要,比如细胞过于拥挤时发生的交通堵塞(一种称为接触抑制的现象),或者免疫细胞追捕病原体的集群行为。在平均场(ODE/PDE)模型和基于智能体(ABM)模型之间做出选择是一个关键决策,反映了在捕捉微观细节和实现宏观简洁性之间的权衡。
计算系统生物学的征程远未结束。前方的道路充满了迷人的挑战和深刻的问题,这些问题直击理解一个复杂系统的核心。
一个非常实际的挑战是刚性。生物系统在惊人的时间尺度范围内运作。神经冲动在毫秒内发生,细胞分裂耗时数小时,免疫反应在数天内成熟,而进化则在数千年的时间里展开。一个试图同时捕捉快速过程(如病毒复制,时间尺度为小时)和慢速过程(如适应性免疫反应,时间尺度为天)的模型会变得计算上“刚性”。模拟必须采取极小的步长来精确捕捉快速动态,这使得模拟长期行为变得极其缓慢。这种刚性不仅仅是一个数值上的麻烦;它直接反映了生命本身多层次、等级化的本质。
也许最深刻的挑战是理清相关性与因果关系。我们的高通量实验为我们提供了堆积如山的数据。我们可能会观察到,当细胞患病时,基因A的水平总是很高。但是,是基因A导致了疾病吗?还是疾病导致基因A的水平升高?或者,是否存在一个隐藏的、未被观察到的主调控因子U,同时导致了这两者?这是推断的核心问题。
令人兴奋的是,新的数学框架正在被开发出来以正面解决这个问题。借鉴计算机科学和统计学,像结构因果模型和do-演算这样的工具为讨论因果关系提供了一种严谨的语言。它们允许我们,在某些假设下,做一些听起来像魔术的事情:仅使用观测数据来预测我们尚未进行的实验的结果()。像前门准则这样的技术为我们提供了一种方法,通过观察一个中间中介变量来解开一个混杂的因果路径。这是最终的前沿:超越描述性模型,构建生命系统的真实因果图谱,使我们不仅能预测将要发生什么,还能理解为什么会发生,以及如何进行干预。
在走过构成计算系统生物学基石的原理与机制之后,我们现在到达了一个激动人心的目的地:现实世界。正是在这里,我们数学和计算框架的抽象之美展现了其真正的力量。就像一位物理学家,在掌握了运动定律后,能够预测抛出小球的弧线或行星的轨道一样,我们现在可以利用我们的理解来剖析、预测乃至工程化生命的复杂机器。这不仅仅是寻找应用;这是通过一种新的视角看世界,在这种视角下,细胞的逻辑不再是无法穿透的谜团,而是一个动态的、可计算的系统。
活细胞的核心是错综复杂的基因和蛋白质回路,控制着其存在的方方面面。系统生物学最基本的任务之一就是用数学语言捕捉这些回路的逻辑。考虑生物学中最简单、最普遍的基序之一:负反馈回路,即蛋白质产物抑制其自身的产生。我们可以写下一个简单的微分方程来描述这个过程,优雅地捕捉生产与抑制之间的相互作用。这不仅仅是一个学术练习。这个单一的方程,其参数代表着诸如结合亲和力和降解速率等具体的生物物理量,变成了一个预测引擎。它解释了细胞如何实现稳态,将关键蛋白质的浓度维持在一个狭窄的范围内,就像恒温器维持房间温度稳定一样。通过求解该方程的“稳态”,我们可以预测蛋白质的最终丰度,将定性的生物学故事转变为定量的、可检验的假说。
但没有哪个基因是一座孤岛。这些简单的回路被连接成庞大、蔓延的网络。当这个网络中的一个连接被破坏时会发生什么?计算模型使我们能够以手术般的精确度探索这个问题。想象一个代谢途径,一条将一个分子转化为另一个分子的细胞装配线。通过将该途径表示为一个反应网络,我们可以模拟基因突变敲除单个酶的后果。我们的模型可能会预测,阻断某个特定步骤将导致一种无害的中间产物被分流到另一条路径,从而导致一种危险毒素的积累。这不是一个假设的游戏;这正是许多毁灭性遗传性疾病背后的机制,即所谓的“先天性代谢缺陷”。一个简单的网络图,当进行计算分析时,就成为一个查明疾病遗传起源的工具。
这种基于网络的推理可以被极大地扩展。我们现在可以构建包含整个生物体数千个反应的基因组尺度代谢模型(GEMs),而不仅仅是少数几个反应。利用像流平衡分析(FBA)这样的强大计算技术,我们将细胞的新陈代谢视为一个资源分配问题。我们给模型一定量的“食物”(摄取底物),并要求它找到优化资源分配以实现某个目标(如最大化其生长速率)的最佳方式。然后,我们可以更进一步,使用像流变异性分析(FVA)这样的方法来提问:在最佳生长条件下,哪些反应必须是活跃的?如果一个反应的流量在不影响生长的情况下不能减少到零,那么它就被认为是生存所必需的。这使我们能够通过计算筛选必需基因,这些基因是开发新抗生素或抗癌药物的主要靶点。从本质上讲,我们正在使用计算机在极短的时间内以极低的成本进行数千次虚拟基因敲除实验,而这在实验室中是难以企及的。
现代生物学的时代以数据的爆炸性增长为特征。转录组学和蛋白质组学等技术可以同时测量数千种基因或蛋白质的丰度,为我们提供了前所未有的细胞状态快照。但这些数据量巨大、充满噪音,且常常令人不知所措。第一个挑战仅仅是进行公平的比较。如果我们测量来自同一患者的肿瘤和健康组织中的蛋白质水平,我们如何解释个体之间固有的生物学变异或测量本身的技术变异?一个常用且强大的方法是关注相对变化。通过计算每个患者肿瘤与正常组织表达量的比率,然后取其对数(对数倍数变化),我们对数据进行了归一化,有效地消除了患者特异性的基线,并专注于由疾病引起的表达变化的一致模式。这是一个简单的统计转换,但它是让我们能够透过噪音看到信号的关键第一步。
一旦数据被清理干净,真正的侦探工作就开始了。想象一个包含数千个基因和几十个条件的数据矩阵。我们如何找到其中的模式?这正是机器学习与生物学协同作用真正闪耀的地方。我们可以使用无监督聚类算法来筛选这座数据大山,并将那些在不同条件下表现出相似活动模式的基因——即那些同步上升和下降的基因——分组在一起。其潜在的假设是强有力的:共表达通常意味着共调控或功能相关。
但是,一个基因簇只是一个数学对象。我们如何知道它意味着什么?这就是我们从数据驱动的模式跨越到生物学知识的桥梁。我们进行基因集富集分析,问一个简单的问题:我们新发现的基因簇中,来自某个已知生物学通路(比如说“DNA修复”或“葡萄糖代谢”)的成员是否出人意料地多?利用无放回抽样的统计学(超几何检验),我们可以计算出一个-值——这种重叠纯粹由偶然发生的概率。当我们对数千个已知通路进行检验时,我们必须小心地进行多重比较校正,以控制我们的假发现率。一个统计上显著的“富集”为我们抽象的簇赋予了生物学身份,并产生了一个具体的、可检验的假说:也许我们研究的条件激活了DNA修复通路。这个从原始数据到聚类再到富集的工作流程,是现代功能基因组学的基石,它将海量数据集转化为生物学故事。
当我们把视野拉远,我们开始看到计算系统生物学不仅仅是一系列技术的集合,而是一场对更深层次、统一性原理的探索。当我们观察细胞内部庞大网络的结构时——蛋白质相互作用的网络或基因调控的指挥控制逻辑——我们发现它们并非随机的。它们通常表现出一种“无标度”架构,即有少数几个高度连接的“中心”节点和更多连接稀少的节点。这种结构从何而来?一个优美而有说服力的理论,即Barabási-Albert模型,提出它源于在进化过程中实施的两条简单规则:生长(网络扩张)和优先连接(新节点倾向于连接到已有的、受欢迎的节点)。值得注意的是,合理的生物学机制,例如蛋白质-蛋白质相互作用网络中的基因复制,自然而然地产生了这种“富者愈富”的动态,这表明生命网络的架构可能是进化近乎必然的结果。
理解一个系统的最终目标是能够工程化它。为了可靠地、协作地做到这一点,任何成熟的工程学科都需要标准。如果一个团队用英寸设计机翼,而另一个团队用米设计机身,你是造不出一架飞机的。计算与合成生物学现在正在构建这些关键的标准。像合成生物学开放语言(SBOL)这样的语言使我们能够描述一个基因回路的设计——它的部件及其预期的关系。系统生物学标记语言(SBML)使我们能够编码该回路动力学的数学模型。至关重要的是,这些标准允许设计和模型之间存在机器可读的链接。为了确保一个模型的模拟是可复现的,模拟实验描述标记语言(SED-ML)指定了计算实验的确切“配方”。最后,COMBINE档案将所有这些文件——设计、模型、模拟指令和参考数据——打包成一个单一的、可共享的、可验证的单元。这个标准生态系统正在将生物学转变为一个真正的工程学科,为未来能够以我们期望于构建计算机芯片的同等严谨性和可复现性来设计、建模和模拟复杂的生物系统铺平了道路[@problem_-id:2776444]。
然而,这段旅程并非没有风险,一个诚实的科学家必须意识到他们工具的局限性。我们构建的数学模型可能极其敏感。生物化学网络中一个特别常见且棘手的挑战是“刚性”。当一个系统中有在截然不同的时间尺度上运行的过程时——例如,一个在微秒内发生的化学反应和一个需要数小时的蛋白质降解——就会出现这种情况。时间尺度上的这种差异对数值求解器构成了深远的挑战。像前向欧拉法这样的简单方法,除非采取由最快过程决定的、小到荒谬的时间步长,否则会变得不稳定,这使得模拟你可能真正关心的慢速过程在计算上变得非常昂贵。选择过大的时间步长不仅仅会导致微小的误差;它可能导致灾难性的错误答案。例如,一个双稳态基因“触发开关”的模拟可能会被人为地从一个稳定状态“翻转”到另一个状态,这不是由生物学原因造成的,而是由算法本身的数值误差造成的。这种意识不是一种气馁,而是一种对精益求精的呼唤。它推动着该领域向前发展,促使我们开发更鲁棒的数值方法,甚至为物理信息神经网络等前沿方法的设计提供信息,这些方法试图将我们模型的定律直接融入学习过程。
从单个基因自我调节的静谧嗡鸣,到细胞网络的全局架构,再到工程化生命的宏伟挑战,计算系统生物学提供了一个统一的框架。它是一个由其跨学科性定义的领域,站在生物学、数学、计算机科学和工程学的十字路口。它给了我们一种与细胞对话的语言,一个洞察其隐藏逻辑的镜头,并最终,提供了加入这场对话的工具。