
对活细胞精密的内在机制或工程系统的复杂行为进行建模,是一项艰巨的挑战。随着相互作用的组分及其可能状态数量的增加,我们会面临一个被称为“组合爆炸”的计算障碍,即可能性的绝对数量变得过于庞大,以至于传统方法无法处理。这种复杂性甚至可能使概念上简单的系统也无法模拟,这在我们理解和预测其行为的能力上造成了巨大的鸿沟。
本文介绍的无网络模拟是一种革命性的方法,它通过改变建模的基本规则来回避这一问题。它不追踪每一种可能的状态,而是专注于定义局部的相互作用规则,并一次一个事件地模拟系统。首先,在“原理与机制”部分,我们将探讨基于规则的建模的核心概念以及让我们能够模拟复杂系统而无需构建显式反应网络的随机算法。之后,“应用与跨学科联系”部分将揭示这种事件驱动理念的普适力量,展示其在材料科学、生态学和个性化医疗等不同领域中的变革性影响。
要领会无网络模拟的精妙之处,我们必须首先面对一个困扰计算生物学家多年的问题:活细胞绝对的、压倒性的复杂性。这个挑战可以用两个词来概括:组合爆炸。
想象一个单一的蛋白质,也许是一个位于细胞表面的受体,正在等待一个信号。它不是一个简单的开关,更像是一个复杂的电路板,上面镶嵌着可以被改变的组件。让我们考虑一种常见的组件:一个可以通过附着一个小的化学基团(如磷酸基)来修饰的位点。这个过程称为磷酸化。
让我们基于一个常见的生物学基序 构建一个简单的假设模型。我们的受体有两个这样的位点, 和 。每个位点可以处于两种状态之一:未磷酸化()或磷酸化()。但这还不是全部。当一个位点被磷酸化后,它可以作为细胞内其他游离蛋白质的停靠平台。假设我们有两个不同的结合伴侣,我们称之为蛋白质 和蛋白质 。一个磷酸化的位点可以是空的,也可以与 结合,或者与 结合。然而,一个未磷酸化的位点不能结合任何东西。
让我们来数一下仅一个位点 的可能性。
对于单个位点来说,这总共有4种不同的状态。由于我们的受体有两个独立的位点,该受体的不同分子种类的总数是 。这看起来还不算太糟。但如果我们的蛋白质更贴近现实呢?许多重要的信号蛋白不是两个,而是十个、十二个,甚至更多的修饰位点。
如果一个蛋白质有 个位点,每个位点可以简单地被磷酸化或不被磷酸化,那么就有 种可能的磷酸化模式。对于一个有 个位点的蛋白质,这就是 种不同的模式。如果这些位点中的每一个还能与不同的伴侣结合,总的种类数量将激增至数万或数十万。对于一个有 个位点的蛋白质,仅磷酸化模式的数量就超过十亿。这就是组合爆炸:系统的可能状态数随组分数量呈指数增长。我们究竟如何才能模拟这样的系统?为每一种分子编写一个方程的传统方法将需要数十亿个方程——这在计算上和概念上都是不可能完成的任务。
当面对一个不可能的计算时,一个好的物理学家不只是去造一台更大的计算机。他们会寻找一种更好的方式来思考这个问题。这里的突破在于改变了整个模拟的理念。如果我们不追踪每一种类型的分子,而只是指定它们相互作用的规则,会怎么样?
想象一下模拟一个城市的交通。你不会试图创建一个包含所有街道上所有汽车可能排列方式的目录。那太荒谬了。相反,你会为每个司机定义几条简单的规则:“如果绿灯亮,前进”,“如果前面的车停了,你也停”。复杂的、全市范围的交通拥堵会从这些简单的、局部的规则中自然涌现。
这就是基于规则的建模(Rule-Based Modeling, RBM)的核心思想。对于我们的受体蛋白,我们不用担心那16种(或数百万种)可能的分子种类,只需写下可能发生的少数几个事件:
这种方法的妙处在于其令人难以置信的简洁性和强大功能。请注意,规则3,“蛋白质 可以与任何处于状态 的位点结合”,并没有提及蛋白质上任何其他位点的状态。这种上下文不敏感性是关键。只要满足简单的局部条件,一条规则就可能适用于成千上万种不同的分子种类。我们用一个小的、可管理的行动列表,取代了一个指数增长的事物列表。
我们有了规则。如何将它们转化为动态模拟呢?这就是名称中“无网络”部分变得至关重要的地方。
老式的方法,称为显式反应网络生成,会在模拟开始之前,就利用我们这套优雅的规则来生成包含所有可能种类和连接它们的全部反应的庞大网络。对于我们那个有12个位点的蛋白质,这意味着生成一个超过4096种分子种类的列表,并且,正如数学所示,需要追踪数量惊人的不同化学反应。这种方法或许解决了概念上的问题,但它立即撞上了一堵计算的墙。仅仅是存储这个网络所需的内存就变得令人望而却步。
无网络方法则直接和直观得多。它真正体现了“通过模拟汽车来模拟交通”的理念。该算法的工作方式如下:
模拟在探索反应网络路径的同时发现它们,而无需在内存中持有整个网络地图。关键是,这不是一种近似。一个正确实现的无网络模拟生成的轨迹,在统计上与由完整的、显式的网络生成的轨迹是无法区分的。它们都是同一 underlying 数学过程(一个连续时间马尔可夫链)的精确实现。区别不在于结果,而在于实现过程的巨大效率。
这一概念转变的实际效果是惊人的。它是一个问题在理论上可解和在实践中可行之间的区别。
让我们回到我们的假设实验,比较当我们增加蛋白质上修饰位点数量 时两种方法的性能。
对于旧的、基于网络的方法,计算成本(每步时间和内存)呈指数级扩展。运行时间随 的函数增长。将位点数量加倍,成本不是翻倍;而是平方,甚至更多。这是一堵计算上的砖墙。一个有10个位点的蛋白质或许还能处理,但一个有20个位点的,除了世界上最大的超级计算机之外,几乎是不可能完成的。
现在,考虑无网络方法。在每一步,它的主要任务是找到规则匹配并更新一个潜在事件的列表。通过巧妙的数据结构,所需的时间扩展得更为平缓。对于一个有 个分子的系统,内存成本随分子和位点的数量扩展,如 ,而不是随 指数增长。每个模拟事件的时间甚至可以平缓地扩展为 。这是一个无法逾越的墙和一道缓坡之间的区别。拥有数十个位点的系统,曾经纯粹是理论上的构想,现在可以在一台标准的台式电脑上进行模拟。
此外,这种随机的、逐事件的方法还带来了额外的好处。在一个真实的细胞中,关键的调控蛋白可能以非常低的数量存在——也许只有几十个分子。在这种情况下,反应发生时间的随机波动——内在噪声——不仅仅是统计上的噪音;它们可以主导系统的行为,导致细胞选择一种命运而非另一种。基于常微分方程(ODEs)的传统确定性模型只追踪平均浓度,完全忽略了这种至关重要的、充满噪声的现实。无网络随机模拟完美地捕捉了这一点,为微观世界提供了更忠实的描绘。
当然,没有什么是真正免费的。无网络方法必须在每一步执行工作以找到规则匹配。有时,它可能会尝试应用一个规则但失败了,因为所需的分子组分配置不正确——这被称为空事件(null event)。这种即时模式匹配的效率是一个深入且活跃的计算机科学研究领域。但对于支配生命的庞大而复杂的网络来说,为摆脱指数级扩展的暴政而付出的这种局部、重复搜索的代价是微不足道的。无网络模拟让我们终于能够构建出开始与细胞自身真正的组合复杂性相匹配的模型。
在掌握了无网络模拟的原理之后,你可能会想:“这是一个聪明的计算技巧,但它究竟有何用处?” 答案是激动人心的,因为它将我们带入了一段跨越几乎所有现代科学和工程领域的旅程。这些方法不仅仅是学术上的好奇心;它们是我们用来理解和构建我们世界的工具,从原子到行星,甚至用来管理我们自己的身体。这个思想真正的美在于它的普适性。它是关于事件的物理学,是关于发生的事情的物理学。
让我们从一个我们都再熟悉不过的场景开始我们的旅程:排队等候。想象一下,你试图预测一个繁忙机场安检口的等待时间。你可能会尝试写下一个简单、优雅的方程,或许是假设乘客以稳定的速率到达,服务时间也是可预测的。这是经典方法,它为一个理想化的世界给出了一个清晰的解析答案。但现实是混乱的。乘客到达是阵发性的,而不是稳定的数据流。一些乘客享有优先权,可以插队。一些旅客需要额外安检,导致他们的服务时间长且不可预测。
我们怎么可能模拟这样一个复杂、颠簸的系统?解析方程在这里失效了。答案是停止思考平滑、连续的流,开始思考事件。一个人到达。一个安检员空闲下来。一次安检开始。一次安检结束。每一个都是改变系统状态的离散事件。离散事件模拟(Discrete-Event Simulation, DES)做的正是这件事:它维护一个未来事件的时间表,从一个事件跳到下一个,并使用概率规则来决定会发生什么。它不需要一个覆盖所有可能性的“网络”方程;它只需要知道接下来可能发生什么。这就是无网络思维的核心,它使我们能够模拟我们周围系统的复杂、非均匀的现实,从供应链到通信网络。
当我们深入到微观领域时,这种“基于事件”的世界观变得更加强大。雪花是如何形成的,或者金属薄膜是如何沉积到硅片上的?这不是一个平滑、连续的过程。这是单个原子疯狂舞蹈的过程,它们附着到表面又从表面脱离。
为了模拟这个过程,我们使用一种称为动力学蒙特卡洛(Kinetic Monte Carlo, KMC)的方法。想象一个单个原子坐落在表面上。它可以脱离。一个来自气相的新原子可以到达并附着在附近。这些可能的事件中的每一个都有一定的速率,即单位时间内发生的概率。关键是,这些速率不是恒定的;它们取决于局部环境。一个原子如果能与几个邻居结合,它附着的可能性就比它落在平坦、空旷的台面上要大得多 [@problemid:2453059]。KMC模拟计算任何给定时刻所有可能事件的速率,然后做出两个随机选择:下一个事件何时发生,以及它将是哪个事件。模拟中的时间以不规则的、事件驱动的步长向前跳跃。从这些简单的、局部的、概率性的规则中,我们可以在计算机屏幕上观察到像树枝状晶体这样宏伟复杂的结构生长出来,所有这一切都无需解算任何一个微分方程。
让我们能够模拟创造的同样理念,也可以模拟毁灭。考虑一个在材料中形成的裂纹。它走的路径并非笔直;它是一条锯齿状的、几乎看起来随机的线。我们可以通过想象裂纹尖端在一个网格上前进,来建立一个简单的模型。在每一步,裂纹都有几个选择,可以走向哪个方向。然而,这并非完全随机的选择。材料在应力最高的地方更可能失效。所以,我们可以设计一条规则:裂纹扩展到相邻位置的概率,由该位置的应力加权。通过重复应用这个简单的、依赖于状态的概率选择,我们可以模拟出看起来与真实情况非常相似的复杂断裂模式的出现。这是复杂、宏观结构从简单、局部规则中涌现的又一个 krásný 例子。
也许没有哪个领域比生物学更受事件驱动和概率性影响了。种群、物种甚至分子的命运通常都是一场机会游戏。考虑一个简单的种群模型,一个 Galton-Watson 分支过程,其中每一代中的每个个体都会生育随机数量的后代。这个家族谱系是会繁荣增长,还是会衰落并面临灭绝?通过模拟这个过程的许多独立试验——仅仅通过为每一代的每个个体掷骰子——我们可以直接估计最终灭绝的概率。同样的技术可以模拟流行病的传播、核反应堆中的链式反应,或信息在社交媒体上的传播。
我们可以将这种思维应用于演化的核心:遗传漂变。在任何有限的种群中,一个基因变体(等位基因)的频率可能仅因纯粹的偶然性而从一代传到下一代。我们可以使用 Wright-Fisher 模型来模拟这一点,其中下一代的基因构成基本上是当前这一代的随机样本。当我们运行这样的模拟时,我们面临着一个关于建模本质的深刻教训。我们最终答案中的“误差”或不确定性——比如说,一个新基因最终占领整个种群的概率——绝大部分是由生物过程本身的内在随机性主导的,而不是由我们计算机中微小的舍入误差造成的。模拟拥抱了现实世界的随机性。我们不仅仅是为一个确定性问题得到一个近似答案;我们正在为一个内在随机的问题得到一个统计上精确的抽样。
放大尺度,我们发现这些原理在地球上最大的生物系统中发挥作用。动态全球植被模型(DGVMs)是试图预测全球生态系统将如何响应气候变化的大型模拟。这些模型将植物生长的确定性规则与火灾等干扰的随机性规则结合起来。火灾不会同时在所有地方发生。它是一个罕见事件,其概率取决于生态系统的状态:有多少干燥的燃料可用,温度和风。模型可能会使用一个“风险函数”(hazard function)来确定火灾的瞬时概率,这个概念与我们晶体生长模拟中的附着和脱离速率相同。这是一个科学思想统一性的惊人例子——模拟一个原子附着到晶体上的计算逻辑,可以用来模拟一片森林着火。
无网络模拟的触角甚至延伸得更远。考虑模拟一种气体。在我们周围的空气中,分子数量如此之多,以至于我们可以将气体视为连续流体。但在高层大气或真空室内,气体非常稀薄,分子在碰撞前会行进很长距离。在这里,我们必须单独模拟粒子。直接模拟蒙特卡洛(Direct Simulation Monte Carlo, DSMC)方法正是这样做的。它追踪大量的模拟粒子样本,并在每个时间步长,根据它们的概率随机选择对进行碰撞。如果气体是反应性的,则会做出另一个概率选择:这次特定的碰撞是否有足够的能量引发化学反应?这个决定基于碰撞对的瞬时属性,以一种任何整体的、温度平均的方程都无法做到的方式捕捉了微观现实。
这把我们带到了终极应用,一个听起来像科幻小说但正迅速成为现实的概念:数字孪生(Digital Twin)。到目前为止,我们的模拟一直是用于预测和理解的离线工具。数字孪生则不同。它是一个与其物理对应物实时连接并保持活性的模拟。
想象一个糖尿病患者的数字孪生。物理系统——患者——配备了传感器(连续血糖监测仪)和执行器(胰岛素泵)。数字孪生是该特定个体新陈代谢的复杂计算机模型。在一个连续的循环中,传感器将实时血糖数据反馈给孪生体。孪生体使用一个称为数据同化的过程——一种强大的随机模拟形式——来更新其对患者状态的内部估计,修正模型的 inaccuracies 和不可预见的干扰(比如一次意外的零食)。基于这个最新的状态,孪生体的控制器然后计算出完美的、个性化的胰岛素剂量,并命令泵输送它。循环闭合了。模拟不再是一个被动的观察者;它成为患者生理机能的一个主动的、智能的副驾驶。
从原子的混乱舞蹈和基因的随机漫步,到我们星球气候的宏伟动态和我们自身健康的精细控制,无网络、事件驱动的模拟原理提供了一种统一而强大的思维方式。它教会我们不把世界看作一个平滑、可预测的钟表机构,而是看作一系列由机遇与必然性的优雅法则所支配的、奇妙复杂而引人入胜的事件。