try ai
科普
编辑
分享
反馈
  • 随机建模

随机建模

SciencePedia玻尔百科
核心要点
  • 随机模型描述了系统的各种可能性,当系统内含随机性时至关重要,这与预测单一结果的确定性模型不同。
  • 在组分数量少的系统(如基因调控)中,大数定律失效,产生了需要进行随机处理的内在噪声。
  • 像 Gillespie 算法这样的模拟方法对单个随机事件进行建模,从而可以在种群灭绝或疫情激增等领域进行风险评估。
  • 在生物学、流行病学和工程学中的应用表明,依赖平均值可能会产生误导,而随机模型对于预测变异性和罕见事件至关重要。

引言

在我们探索理解和预测世界的过程中,我们常常依赖那些如同钟表般精确运行的模型,在这些模型中,给定的输入会导向一个单一、确定的结果。这种确定性观点在科学领域卓有成效,从预测行星轨道到描述试管中的化学反应。然而,许多系统,从活细胞的内部运作到疾病的传播,其根本上都受制于偶然性。在这些领域,固有的随机性意味着未来不是一条单一的路径,而是一片充满可能性的云图。依赖平均行为可能带来危险的误导,造成确定性模型无法填补的关键知识鸿沟。

本文将深入探讨随机建模的世界——一个拥抱和理解不确定性的数学框架。我们将探索随机性在许多系统中如何以及为何成为主导力量,以及我们如何利用它来构建更真实、更强大的模型。在第一章 ​​原理与机制​​ 中,我们将对比随机方法与确定性方法,揭示为何随机性在低数量环境中至关重要,并检视用于模拟这些概率世界的算法。随后,​​应用与跨学科联系​​ 一章将展示这些工具如何在不同领域提供深刻的见解,从解释细胞命运决定、管理流行病,到改进临床诊断和设计弹性系统。

原理与机制

想象一下预测未来。有些未来似乎以钟表般精确的机制优雅地展开。如果你知道今天行星的位置和速度,万有引力定律会给你一个单一、明确的答案,告诉你一千年后它们将在哪里。这就是 ​​确定性模型​​ 的世界,对于任何给定的输入,都只有一个输出。模型是一个函数 y=f(x,θ)y = f(x, \theta)y=f(x,θ),它将一组条件 xxx 和参数 θ\thetaθ 映射到一个唯一的结果 yyy。当然,我们对初始条件的了解可能是模糊的,这种不确定性可以通过模型传播,从而给出一系列可能的未来。但关键点在于,模型的内部机制不包含任何随机性;不确定性完全在于我们提供给它的输入。

现在,想象一下预测一颗在水滴中抖动的花粉粒的路径,或是预测一个放射性原子核将在何时衰变。在这里,钟表的类比失效了。我们进入了云图的领域,一个充满内在不可预测性的世界。这就是 ​​随机模型​​ 的世界。随机模型不会给你一个单一的答案,而是描述了所有可能性的整体景观及其可能性。它给你一个概率分布,形式上写为 y∼p(y∣x,θ)y \sim p(y \mid x, \theta)y∼p(y∣x,θ),意为“在给定条件 xxx 的情况下,结果 yyy 是从这个特定概率分布中的一个随机抽样”。随机性不仅存在于输入中,它被编织进了模型本身的核心结构之中。

但是,我们为什么需要这第二种听起来更复杂的方法呢?自然界的钟表在什么时候会失灵,并消解成一团机会的云雾?

当大数定律失效时

我们在学校学到的大多数确定性物理和化学定律,都暗中建立在一个强大的假设之上:​​大数定律​​。这个定律告诉我们,当我们有大量的个体参与者时——无论是分子、细胞还是人——每个个体的古怪、随机的行为会趋于平均,形成平滑、可预测的集体行为。气体的温度是一个稳定、确定的属性,尽管它源于数万亿个别分子的混乱碰撞。

系统生物学为这一原则提供了一个绝佳的例证,我们可以在其中窥见生命在巨大不同尺度上的运作。

想象一下模拟一小块组织中的炎症反应。在最大尺度上,你可能有大约 101210^{12}1012 个细胞因子分子在细胞外空间中扩散。在如此巨大的数量下,“浓度”的概念是完全明确的。任何单个分子的随机摆动都微不足道。我们可以用确定性的​​偏微分方程 (PDE)​​ 来描述这个浓度场的演变,这与描述热量在金属棒中流动的数学方法相同。这个系统如同钟表般精确。

现在,让我们放大到那块组织中的一个单细胞。在细胞内部,可能有一种非常丰富的酶,大约有 10610^6106 个拷贝在细胞质中高速运转。虽然任何单个酶分子的降解是一个随机事件,但有了一百万个这样的分子,总体的周转率就变得极其可预测。相对波动与 1/N1/\sqrt{N}1/N​ 成正比,对于 N=106N=10^6N=106 来说,这只是微不足道的 0.1%0.1\%0.1%。大数定律依然稳固。我们可以自信地使用确定性的​​常微分方程 (ODE)​​ 来描述这种酶随时间变化的总量。钟表仍在滴答作响。

但是现在,让我们进行最后一次戏剧性的放大,进入细胞核,直抵其控制系统的核心。在这里,我们发现一个单一的基因启动子——一个单一的结合位点——以及可能只有五个特定的转录因子分子可以开启或关闭它。在这里,大数定律彻底崩溃。这五个分子中任何一个的结合或解离都不是微小的波动;这是一个改变游戏规则的事件,从根本上改变了基因的状态。这里没有启动子的“浓度”;只有一个,它要么开启,要么关闭。在这个低数量范畴内,系统的行为由我们所说的​​内在噪声​​主导——即离散分子事件的内在随机性。钟表已经破碎,我们必须用随机模型来拥抱概率的云图。

种群的生死存亡:一场机会的游戏

这种“微观数量的支配作用”会产生深远的影响,有时甚至决定生死。考虑一个小型种群试图在新环境中立足的命运,比如引入肠道中的一种益生菌。

假设平均而言,每个细菌的出生率略高于其死亡率。一个只看平均值的确定性模型会预测一个美好的未来:种群从其最初的低数量开始呈指数增长,其成功几乎是板上钉钉。

但现实是一场机会的游戏。随机模型讲述了一个更为凶险的故事。当种群仅由少数几个个体组成时,它极易受到一连串坏运气的影响。如果,仅仅是偶然,最初发生的几个事件都是死亡呢?种群数量就会降到零。而零是一个特殊的数字;它是一个​​吸收边界​​。一旦种群灭绝,它就无法奇迹般地重新出现。即使平均增长率为正,由于这些随机波动,种群灭绝的概率也真实存在,这种现象被称为​​人口随机性​​。确定性模型由于其本质,对这种生存风险是盲目的,因为它只追踪平均趋势,无法“看到”零点的吸收边界。

模拟云图:如何聆听骰子的声音

那么,如果我们无法预测一条单一的路径,我们如何探索整个可能性的云图呢?我们进行模拟。我们构建一个计算引擎,它尊重底层的概率,并生成系统可能的未来历史或轨迹。这些引擎中最著名、最优雅的是 ​​Gillespie 随机模拟算法 (SSA)​​,常用于化学和生物建模。

Gillespie 算法的天才之处在于其简单性。它认识到,对于许多随机系统,我们所需要做的就是反复回答两个问题:

  1. ​​下一个事件何时发生?​​
  2. ​​它将是哪个事件?​​

想象一个有几种可能反应的系统。因为单个分子事件通常是“无记忆的”,所以直到下一个任何类型事件发生前的等待时间遵循一个优美而简单的概率定律:指数分布。这个分布的速率就是所有单个反应速率(或​​倾向​​)的总和。因此,要回答第一个问题,我们只需掷一个隐喻性的骰子,根据这个指数定律加权,来选择下一个事件的时间。

一旦我们知道何时会发生某事,我们需要知道什么会发生。这更简单。下一个事件是,比如说,反应 C 的概率,就是反应 C 的速率除以所有可能反应的总速率。所以,我们掷第二个骰子,这个骰子根据相对倾向加权,来选择获胜的事件。

我们将时钟推进所选择的等待时间,根据所选事件更新系统状态,然后重复这个过程。通过迭代这两个简单的随机步骤——抽样一个时间和抽样一个事件——我们生成了我们随机系统的一条统计上完美的轨迹。重复这个过程数千次,我们就能构建出整个概率云图的画面,不仅揭示了平均行为,还揭示了全部的可能性范围、罕见事件的可能性以及系统变异性的形态。

近似的艺术:当完美过于缓慢

Gillespie 算法是精确的,是底层​​化学主方程​​数学原理的完美镜像。但这种完美是有代价的。通过一个接一个地模拟每个分子事件,对于反应发生非常频繁的系统,它的计算成本可能变得极其耗时。

这就是科学建模艺术的用武之地。如果我们负担不起完美,我们能找到一个“足够好”的近似吗?一种流行的策略叫做 ​​tau-leaping​​。我们不再模拟每一个事件,而是决定在时间上向前“跳跃”一小步,步长为 τ\tauτ。我们做一个关键假设:在这段极短的时间内,所有反应的速率或多或少保持不变。

在这个假设下,我们的时间跳跃 τ\tauτ 期间每个反应发生的次数,可以被建模为从另一个简单的概率定律——泊松分布——中抽样。所以,我们不再问“下一个事件是什么?”,而是问“在过去的 τ\tauτ 秒内,每种类型的事件发生了多少次?”。我们掷一组泊松加权的骰子,用得到的一批反应更新我们的系统,然后再次向前跳跃。这是一种权衡:我们牺牲了逐个模拟的精确性,换取了以更大块时间前进的速度。这是建模者必须做出的务实选择,在准确性需求和计算限制之间取得平衡。

构建嵌合体:建模的统一性

真实世界是混乱的。它不能整齐地放入一个标有“确定性”或“随机性”的盒子里。一个单一的生物过程,比如急性炎症反应,是一场在多个尺度上上演的惊人复杂的戏剧。

要模拟这样一个系统,就必须成为一名大师级的建造者,用不同的数学语言组装出一个“嵌合体”。你会用确定性的偏微分方程来描述信号分子在组织空间中的平滑扩散。你可能会用​​基于主体的模型 (ABM)​​ 来捕捉免疫细胞向伤口爬行的个体化、古怪的运动。而当你放大到其中一个细胞时,你会切换到随机的 CME/SSA 模型,以捕捉决定细胞反应的基因调控中充满噪声的、低数量的动态。

这就引出了 ​​随机-确定性混合模型​​ 的强大思想。想象一个计算机模拟临床试验,其中一个确定性的 ODE 模型描述了药物在患者体内的分布。这个组织层面的模型计算出每个细胞周围的药物浓度。这些信息随后作为输入,传递给成千上万个单独的随机模型,每个虚拟细胞一个,这些模型模拟药物分子如何随机与受体结合并触发内部信号级联。这些随机细胞模型的集体反应随后被平均化并回传,影响组织层面的动态。

这是建模的前沿:不是在钟表与云图之间做出僵化的选择,而是两者流畅、动态的综合。它承认现实的不同层面需要不同的描述性语言,而最深刻的理解来自于学习如何让它们相互对话。正是在这种宏大的综合中,在这种将可预测与概率性编织在一起的过程中,我们找到了一个更真实、更统一的世界图景。

应用与跨学科联系

在我们迄今的旅程中,我们探索了支撑机遇世界的原则,学习了概率和随机事件的语言。我们已经看到,在看似确定性的宏观世界钟表之下,隐藏着一个充满活力、不确定的现实。但这不仅仅是一个哲学上的好奇。对物理学家、工程师、生物学家或医生来说,理解这种随机性并非在未知面前承认失败,而是为了更深入、更强有力地理解事物如何运作。随机建模是一个工具箱,它让我们能够超越对平均值的简单预测,开始把握现实的全部质感,包括其所有的变化、风险和罕见可能性。现在让我们看看这种思维方式如何照亮科学领域中一些最迷人、最紧迫的问题。

微观数量的支配作用:为何机遇主宰细胞

很长一段时间里,从含有数万亿分子的烧杯中学到的化学原理,是我们理解生命过程的主要指南。但活细胞并非一个充分搅拌的试管。它是一个熙熙攘攘、拥挤的城市,其中一些最重要的角色——做出关乎生死的决定的蛋白质和基因——可能只以几十或几百的数量存在。在这个微观数量的世界里,平均法则失效了,分子碰撞的内在随机性凸显出来。

思考一个细胞如何“决定”是否生长和分裂。这个过程通常由外部信号启动,这些信号导致细胞表面的受体蛋白配对。一个以连续浓度思考的确定性模型,描绘的是一个平滑、可预测的响应。但现实要善变得多。在低信号水平下,任何给定时刻,一片细胞膜上可能只有少数几个被激活的受体对。这个过程不太像打开水龙头,而更像一个故障引擎的 sputtering。这种随机性,或称内在噪声,不仅仅是一种干扰。它是系统的一个基本特征,并会在细胞内部的信号网络中传播。它有助于解释我们在生物学中随处可见的深刻变异性:为什么在一群遗传上相同的细胞中,一个细胞对药物有反应,而其邻居却忽略了它?答案往往在于分子层面的骰子投掷。我们甚至可以在数据中找到线索:当一个下游响应的方差远大于其均值时(法诺因子 F=σ2/μ>1F = \sigma^2 / \mu \gt 1F=σ2/μ>1),这是一个明显的迹象,表明微观数量的支配作用正在发挥作用。

这一原则从简单的信号传导延伸到生物学中最深的奥秘之一:细胞命运的决定。想象一个细胞的身份——无论是皮肤细胞还是心脏细胞——就像一颗静置于一个广阔、丘陵起伏的景观(著名的“Waddington 景观”)的山谷中的弹珠。要改变它的命运,就像我们创造诱导性多能干细胞时所做的那样,我们必须以某种方式将弹珠踢过一座小山,进入一个新的山谷。确定性的观点会要求一股足够强的力量,平稳地将弹珠推上山顶。但随机性的观点提供了一个更微妙、更现实的图景。弹珠并非静止不动;由于基因表达的随机波动,它在不断地抖动。因此,重编程变成了一场机会的游戏:等待一个足够大的、随机的“抖动”,将弹珠弹出表观遗传屏障。这解释了为什么重编程通常是一个缓慢、低效且概率性的过程。它是一个罕见事件,是一次幸运波动的结果。随机模型使用像首次穿越时间分析这样的工具,让我们能够预测这类事件的等待时间,并理解我们如何可能改变景观或“增强这种‘抖动’”以使其更可能发生。

人群与传染:驯服流行病

让我们把视角从细胞的微观城市放大到人口的宏观世界。在这里,面对数以百万计的个体,大数定律想必会重新确立其地位,而平滑的确定性模型就是我们所需要的一切了吧?事实证明,答案完全取决于你问的是什么问题。

为了随机模拟一场流行病,我们可以使用像 Gillespie 算法这样的方法。我们模拟的不是连续的流动,而是离散的、随机的事件:这个人刚刚感染了那个人;那个人刚刚康复了。在每一刻,我们计算所有可能事件的总速率,掷一个骰子来决定我们为下一个事件等待多长时间,然后掷另一个骰子来决定是哪个事件。这种方法给我们的不是一条单一的流行病曲线,而是一片可能未来的森林。

为什么要费这么大劲呢?让我们考虑一个机构可能面临的两个政策决策。首先,应为一个拥有 101010 万人口的大都市区采购多少剂疫苗?这个决定取决于预期的总感染人数。在如此庞大的人口中,随机波动被冲淡了。疫情的轨迹将非常接近平均行为。在这里,一个预测这个平均值的简单、确定性的 ODE 模型是完美的工具:它快速、高效,并为手头的问题提供了正确的答案。

但现在考虑一个不同的问题:为一个拥有 2,000 人的小镇规划医院的激增容量。目标是确保床位耗尽的概率低于,比如说,5%5\%5%。我们不再关心疫情的平均高峰;我们关心的是最坏情况下的高峰,即分布的上尾部。确定性模型对此是盲目的;它只产生一个单一的峰值。只有随机模型,通过生成那片可能未来的森林,才能告诉我们高峰需求的第 95 百分位数是多少。

当一个系统接近一个临界阈值时,这种区别就成了生死攸关的问题。一个确定性模型可能会预测,每个病例的平均二次感染数,即著名的 R0R_0R0​,略低于 111,比如 0.90.90.9。它会预测疫情是稳定的,将会消亡。但在一个小型或高度异质化的人群中,这是危险的误导。一个单一的超级传播事件——一个偶然的发生——就可能重新引燃整个疫情。反之,当我们试图消灭一种疾病时,确定性模型预测的是一个向零平滑衰减的过程,永远不会真正达到零。而随机模型正确地显示,随着病例数减少到少数几个,所有剩余个体在传播病毒前全部康复的概率非零,从而导致完全的、随机的灭绝。在这些情景中,平均值是一种虚构;波动才是一切。一个依赖平均场模型来处理小型异质网络的决策者,可能会看到疫情已得到控制的预测,而一个完整的随机模拟则揭示出有近 50% 的机会发生大规模爆发。

平均值的缺陷:从诊所到电网

依赖平均值的危险并非流行病所独有;它是在任何具有随机性和非线性的系统中的一个普遍陷阱。数学家称之为詹森不等式,但我们或许可以称之为“平均值的缺陷”。随机性思维是解药。

以一个与人类历史一样古老的过程为例:分娩。几十年来,临床医生一直使用确定性的图表,比如以每小时扩张 111 厘米的速度画一条线,来判断分娩是否“正常进行”。但当然,没有哪个女性是“平均的”。产程持续时间存在广泛的、自然的变化。一个以 0.70.70.7 cm/hr 速度进展的女性可能完全健康,只是处在一个广泛分布中较慢的一侧。然而,确定性的那条线却将她标记为需要干预。这个简单的模型还存在一个更微妙的数学错误。因为扩张所需的时间与速率成反比,且函数 f(x)=1/xf(x) = 1/xf(x)=1/x 是凸函数,所以真实的平均时间比使用平均速率计算出的时间要长。确定性模型存在系统性偏差,低估了真实的平均时间并制造了假警报。一个现代的、随机的“事件发生时间”模型避免了这个问题。它将产程持续时间视为一个随机变量,并能考虑到现实世界的复杂性,如干预措施(催产素)或某些分娩在完成前以剖腹产结束的事实(一种称为“右删失”的现象)。它提供的不是一条单一的线,而是一个概率性的预测,允许做出更为细致和个性化的临床决策。

我们在药房里也看到了同样的平均值缺陷。假设你正在服用一种药物,其在体内的清除受到你所摄入的食物影响,比如葡萄柚汁(一种抑制剂)和圣约翰草(一种诱导剂)。你喝的果汁量或草药的效力每天都在变化。如果我们只使用这些物质的平均摄入量来建立一个确定性模型,它将对你的平均药物暴露量给出一个有偏的估计。更重要的是,它将完全忽略在某一天,多种因素的组合可能将你血液中的药物浓度推向毒性水平的风险。要估计这种危险事件的概率,确定性模型是无用的。我们必须使用一个随机模型,它能包容摄入量的变异性,并预测可能暴露的完整分布 [@problem_-id:4550879]。

驯服未来:工程与控制中的随机性

在生物学和医学中,我们常常使用随机模型来理解大自然呈现给我们的变异性。在工程学中,我们更进一步:我们用它们来使我们的创造物在面对不确定性时更智能、更有弹性、更具适应性。

想象一个关键喷气发动机部件的“数字孪生”——一个复杂的计算机模型,实时反映其物理对应物的健康状况。随着发动机运行,它会经历磨损。这种退化不是一个完全平滑的过程;它是一个随机游走,被不可预测的振动、温度峰值和负载所推动。一个随机模型,通常以随机微分方程(SDE)的形式,可以捕捉这种随机演化。通过将这个 SDE 向未来运行数千次模拟,数字孪生可以生成该部件剩余使用寿命(RUL)的概率分布。这不仅仅是一个单一的数字;它是一个完整的预测:“未来 100 小时内有 5% 的故障几率,未来 500 小时内有 20% 的几率。”一个自适应系统可以利用这种风险感知的预测来改变自身的行为——比如降低发动机推力以延长其寿命,直到可以进行计划中的维护检查。这就是现代预测与健康管理的精髓:使用随机模型不仅是被动地预测未来,更是主动地管理未来。

然而,有时不确定性是如此深刻,以至于我们甚至无法写下一个可信的概率定律。考虑在气候变化面前规划一个国家的电网所面临的挑战。关于极端天气的历史数据变得越来越不可靠,而我们对于一个本身在不断变化的“新常态”只有几年的数据。多个相互竞争的模型可能都符合稀疏的数据,但它们可能对未来热浪或风旱的频率给出截然不同的预测。这就是“深度不确定性”。在这里,单一随机模型的想法本身就失效了。随机思维的前沿将我们引向*稳健优化。我们不是为一个单一的、假设的未来进行优化,而是定义一个与我们有限知识相符的所有貌似合理的未来的集合*。然后我们设计一个系统——比如一个发电厂组合——它对于任何单一的未来不一定是“最优”的,但在所有这些未来中都是“足够好”的,并能避免灾难性的失败。这是对我们自身知识局限性的一种谦逊而有力的承认,也是在一个我们永远无法完美预测的世界中为弹性而规划的终极体现。

从一个单一蛋白质的抖动到保障我们星球能源供应的挑战,随机建模为拥抱不确定性提供了一种统一的语言。它教导我们,世界不是一个简单的时钟,而是一场奇妙复杂的机会游戏。通过学习它的规则,我们不仅获得了理解其结果的力量,也获得了明智地驾驭它们的能力。