随机生物学

玻尔百科

核心要点

生物过程本质上是随机的，这意味着分子层面的随机波动（“噪声”）导致遗传上完全相同的细胞表现出显著的变异。
噪声源于内源性来源（如基因表达的爆发）和外源性因素（如细胞环境的波动），影响着从细胞分裂到种群生存的方方面面。
尽管生物体进化出如渠道化等机制来确保可靠性，但随机性也可以是一种创造性力量，驱动有益的种群异质性和生存策略。
理解随机性对于不同领域至关重要，为医学、合成生物学、保护生物学、生态学和机器学习提供了关键见解。

引言

虽然我们常常以决定论的视角看待生物学——遗传密码精确地执行着一个程序——但现实远比这更具即兴性。在其最核心的层面，生命受概率法则的支配。这种固有的随机性，或称随机过程，解释了一个根本性的难题：为什么遗传上相同的细胞，在相同的环境中，行为却常常大相径庭？这种变异性并非简单的测量误差，而是生物学的一个核心特征，对发育、疾病和进化具有深远的影响。

本文深入探讨随机生物学的世界，超越决定论的平均值，拥抱概率的力量。我们将探索生物“噪声”的原理、其分子起源及其巨大影响。在接下来的章节中，您将对生命如何运作获得全新的视角。在“原理与机制”中，我们将揭示随机性的来源以及用于描述它们的形式体系。随后，“应用与跨学科联系”将展示这些原理对于理解和工程化生物系统，从单个细胞的命运到整个生态系统的结构，是何等重要。

原理与机制

要真正欣赏生命的舞蹈，我们必须先学会其舞步。但如果舞步本身并非完美编排呢？如果在其核心，生物学存在一种即兴、随机的元素呢？这就是随机生物学的世界，在这里，我们常与科学联系在一起的严格决定论，让位于机遇那微妙而强大的作用。

同一性的幻觉

一个流行且诱人的比喻将细胞比作计算机：DNA是“软件”，而细胞内复杂的机器——核糖体、酶和膜——则是“硬件”。按照这个逻辑，如果你将遗传上相同的细胞（相同的硬件）给予相同的遗传程序（相同的软件），那么在给予相同输入时，它们都应该执行相同的任务并产生相同的输出。

想象一下，如同一组合成生物学家所做的那样，将一个简单的遗传回路植入一群E. coli细菌中。该回路被设计为在加入诱导分子时产生绿色荧光蛋白（GFP）。根据上述比喻，加入诱导剂应该会使每一个细菌都发出均匀、明亮的绿色光芒。

但这并非事实。当我们观察单个细胞时，我们看到的是一个耀眼的亮度光谱。一些细胞荧光强度很高，另一些则很暗淡，还有一些几乎不发光。这是一群个体，而不是一排克隆的合唱团。这不是实验的失败，而是一个基本事实。细胞的“硬件”不是一个决定论的、基于硅的芯片，而是一个充满噪声、熙熙攘攘的分子环境。相同的软件在这样的“硬件”上运行，产生的是一个结果的分布，而不是一个单一、可预测的结果。这种在统一环境中，相同个体间固有的、非遗传的变异性，就是我们称之为生物噪声的核心现象。

噪声与可塑性：两种植物的故事

要理解噪声是什么，先理解它不是什么会很有帮助。让我们设想一位植物学家正在研究一种假想的植物，在高度受控的生长室中培育其遗传上相同的克隆体。

在高光下生长时，这些植物稳定地长出小而厚的叶子。在低光下生长时，它们则长出大而薄的叶子。这种对明确环境信号的可预测、定向的改变被称为表型可塑性。这是一种适应性策略，一套预先编程的指令：“如果环境是A，则构建表型A；如果环境是B，则构建表型B。”

但如果我们的植物学家更仔细地观察高光生长室内的植物，她会注意到情况并非完全一致。一片叶子每平方毫米可能有112个微小的毛状体（trichomes），而同一植株上相邻的叶子可能有119个。这种即使在恒定环境中也持续存在的微小、无方向、看似随机的变异就是发育噪声。它不是对外部信号的程序化响应；它是发育过程本身不可避免的“抖动”。

我们可以形式化这一关键区别。表型可塑性关注的是一个基因型的平均表型随环境变化的改变。而发育噪声，则是指在单一环境中，单一基因型的表型的*方差*或离散程度。一个是系统性偏移，另一个是随机散布。

分子赌场：随机性的来源

这种随机散布从何而来？要找到答案，我们必须深入到分子层面。一个活细胞并非一个化学浓度平滑变化的广阔、平静的海洋。它是一个微观、振动且极其拥挤的环境。当关键参与者——一个特定的基因、少数几个转录因子蛋白、几条信使RNA（mRNA）分子——数量很少时，基于平均值的熟悉的化学定律便不再适用。每一次分子相遇都成了一场机会游戏。

倾向性：行动的概率

在高中化学的决定论世界里，我们书写反应速率。在随机的世界里，我们谈论倾向性。考虑一个酶分子 $E$ 和一个可以与之结合的抑制剂分子 $I$ 。这个反应的倾向性 $a_{EI}$ 是单位时间内发生一次结合事件的概率。它不是一个固定的速度，而是一个可能性的度量。对于体积为 $V$ 的双分子反应，该倾向性由 $a_{EI} = \frac{k_{on}}{V} N_{E} N_{I}$ 给出，其中 $k_{on}$ 是宏观速率常数，而 $N_E$ 和 $N_I$ 是酶和抑制剂的分子数量。倾向性直接取决于可供碰撞的分子的离散数量。当 $N_E$ 和 $N_I$ 很小时，下一次反应发生的时间根本上是一个随机变量，而非确定无疑。

内源性噪声和外源性噪声

这种分子随机性产生了两种主要的噪声类别：

内源性噪声：这是基因表达这一生化过程本身固有的随机性。基因启动子并非像电灯开关一样一打开就保持开启状态，它会闪烁。转录通常以随机“爆发”的形式发生，即一个基因在短时间内变得活跃，产生少量mRNA分子，然后再次关闭。这些mRNA中的每一个随后又作为模板，用于一轮蛋白质的爆发式生产，之后被降解。这种走走停停的过程即使在恒定的细胞环境中，对单个基因的蛋白质水平也造成了巨大的变异性。
外源性噪声：这是由影响所有基因的细胞“背景”波动引起的变异性。可用于翻译的核糖体数量、用于能量供应的ATP浓度、细胞的物理状态——所有这些因素在不同细胞间、不同时刻间都在波动。甚至在细胞周期的S期，一个基因被复制的精确时间也可能成为噪声的来源，因为细胞在复制前只有一个基因拷贝，复制后则有两个，在某个随机的时间点上，其生产能力瞬间加倍。

不公平的遗传：分配噪声

随机性不止于此。当一个细胞分裂时，它必须将其内容物分配给它的两个子细胞。这个过程很少是完美的。想象一个祖细胞含有恰好 $N$ 个关键的命运决定蛋白分子。子细胞的命运取决于它是否接收到至少 $T$ 个这些分子。如果任何单个分子进入特定子细胞的概率为 $p$ （如果分裂不对称，则可能不等于0.5），那么该子细胞接收到的分子数量 $K$ 遵循二项分布。子细胞未能采取正确命运的概率是它接收到的分子少于 $T$ 个的概率，这个量由总和 $P(K T) = \sum_{k=0}^{T-1} \binom{N}{k} p^k (1-p)^{N-k}$ 给出。因此，在细胞诞生那一刻的一个纯粹随机的分配事件，就可能让两个遗传上相同的姐妹细胞走上完全不同的人生道路。

小数量产生大影响

人们可能倾向于认为这种噪声只是一个小麻烦，一点使得生物学测量变得模糊的静电干扰。这与事实相去甚远。随机效应可能导致性质上完全不同的结果，而这些结果在决定论模型中是完全看不见的。

考虑一个由捕食者（ $Y$ ）和猎物（ $X$ ）组成的简单生态系统。一套标准的决定论方程可能预测一个稳定的共存状态，种群围绕一个健康的平衡点波动。但在现实世界中，种群是由离散的个体组成的。当捕食者的数量 $n_Y$ 碰巧很低——比如说只有几个——一连串随机的坏运气可能是灾难性的。如果仅仅因为偶然，在一次成功的捕食和繁殖事件（ $X + Y \rightarrow 2Y$ ）发生之前，发生了几次死亡事件（ $Y \rightarrow \varnothing$ ），捕食者种群数量就可能降至零。

状态 $n_Y = 0$ 是一个数学上的陷阱，被称为吸收边界。一旦捕食者的数量为零，就没有任何反应可以再次创造它们。该种群就灭绝了。由决定论数学预测的“稳定”生态系统，在小数量的随机现实中，注定最终会灭绝。这一随机灭绝的原则在从保护生物学到流行病学等领域都至关重要。

驯服混沌：生物缓冲的逻辑

如果生物学如此充满噪声，它又是如何构建出任何可靠的东西的，比如一只五指的手或苍蝇翅膀上复杂的图案？答案是，进化不仅受到了噪声的影响，它还主动设计了解决方案来管理噪声。这种现象，即一个发育过程尽管存在遗传或环境扰动，仍能达到一致的结果，被称为渠道化。

生物网络充满了作为噪声抑制缓冲器的反馈回路和非线性相互作用。想象一个关键的发育信号，一种形态发生素 $M$ ，其浓度取决于两个基因 $X$ 和 $Y$ 的表达。一个简单的还原论观点可能将其浓度建模为一个和，即 $M_{red} = X + Y$ 。在这种情况下， $M$ 的方差只是 $X$ 和 $Y$ 方差的总和。

但一个更现实的系统级模型可能包含一个相互作用项， $M_{sys} = X + Y - \gamma XY$ ，其中两个基因的产物具有抑制作用。这种负反馈可以产生巨大的影响。正如在一个假想情景中所示，这样的系统性相互作用可以将最终输出方差与简单的加性模型相比减少50倍。这表明，网络的架构本身如何能够创造鲁棒性，从不可靠的部件中产生可靠的输出。

拥抱随机性：新的视角

理解和应用生物噪声需要新一代的工具，这些工具要超越决定论，拥抱概率。

科学家们正在构建强大的机器学习模型，以根据复杂的基因表达数据预测生物学结果，如细胞命运。在这项工作中，区分两种不确定性至关重要。认知不确定性是模型自身因训练数据有限而产生的无知；这是“我不知道，因为我见得不够多”的不确定性。这可以通过收集更多数据来减少。但偶然不确定性是生物过程本身固有的、不可约减的随机性——即我们一直在讨论的生物噪声。它是“我无法确切知道，因为系统本身就是随机的”不确定性。一个真正强大的预测模型不会试图消除这种偶然噪声。相反，它学会预测它，不仅提供一个单一的答案，还提供一个可能结果的概率分布。

这种视角的转变，通过比较两种模拟细胞如何随时间变化的先进方法，得到了很好的体现[@problem_-id:3335589]。一种方法，最优传输（OT），寻求将初始细胞群转变为最终细胞群的最有效、确定性的“路径”。这就像为一支卡车车队寻找最省油的路线。一种更新的方法，薛定谔桥（SB），将每个细胞建模为在液体中扩散的粒子，由一个力场温和地引导。这种扩散明确地代表了生物噪声。虽然OT为每个起始细胞预测一个单一的目的地，但SB框架自然地展示了单个祖细胞如何能够产生一系列后代命运——这是真实发育标志性的概率性分支。通过从一开始就融入噪声，我们得到了一个更丰富、更现实，最终也更具预测性的生命旅程图景。

应用与跨学科联系

在探索了生物学中随机性的基本原理之后，我们现在到达了一个激动人心的目的地：现实世界。在这里，概率、噪声和随机波动这些抽象概念不再仅仅是理论上的奇闻趣事。相反，它们揭示了自己是生命世界的主要艺术家和建筑师，塑造着从单个细胞的命运到地球生命宏伟画卷的一切。在本章中，我们将探讨随机性视角如何不仅为生物现象提供了更深刻的理解，还为工程、医学和保护领域提供了强大的工具。我们将看到，生物“噪声”并非一个需要被滤除的简单麻烦，而是一个基本特征——它是个体性的来源、进化的驱动力，也是功能与失败中的关键因素。

细胞的内部世界：决策、鲁棒性与失败

让我们从最微观的尺度开始我们的旅程：细胞的内部世界。在这里，生命在一个拥挤、抖动的环境中，受制于分子碰撞。我们能观察到这种微观的舞蹈吗？确实可以。通过将一个灵敏的电极连接到单个离子通道——细胞膜上一个微小的蛋白质孔道——我们便能听到它的歌声。通过的电流不是平稳的嗡嗡声，而是一系列断断续续的爆裂声和静默。对这种“噪声”的高级分析揭示了一个比简单的开-闭开关远为丰富的故事。电流的功率谱密度，本质上是按频率对信号波动进行的分解，可以分解为多个洛伦兹分量的总和。每个分量对应通道结构内的一个特定的随机过程。开放态和阻塞态之间的快速“闪烁”可能表现为一个高频洛伦兹分量，而具有略微不同电导率的状态——即所谓的亚电导态——之间的较慢转变则在较低频率贡献功率。通过分析噪声，我们实际上是在对单个工作分子的隐藏构象变化进行侦察。

分子过程，尤其是基因表达中固有的这种噪声，构成了一个深远的挑战。例如，一个发育中的胚胎，当作为其蓝图的蛋白质本身都是以随机爆发形式产生时，它如何构建一个精确图案化的身体构造呢？大自然的解决方案通常是通过冗余实现鲁棒性。在早期的Drosophila胚胎中，决定未来身体节段的基因表达边界的定位必须在不同胚胎间达到惊人的精确度。这种精确性部分是通过遗传架构实现的，例如使用“影子增强子”——与主增强子并行作用的次级DNA控制开关。虽然主增强子足以将基因表达条带大致定位在正确的位置，但影子增强子则充当一个缓冲器，一个确保即使上游信号有波动，结果依然可靠的备份系统。即便只移除这个影子增强子的一个拷贝，虽然表达边界的平均位置几乎不变，但胚胎间的变异性却会显著增加。有机体已经进化出一种复杂的策略，在精确性至关重要的地方“驯服”噪声。

但当这些控制系统失灵时会发生什么？生命努力管理的这种随机性可能成为疾病的媒介。思考一下“基因组的守护者”——肿瘤抑制蛋白p53。它的工作是感知DNA损伤并暂停细胞周期，以防止潜在癌变突变的传播。DNA损伤本身就是一个随机过程；来自环境诱变剂或代谢副产物的损伤点随机出现在基因组各处，特定细胞中的总损伤数可以被建模为一个泊松过程。p53系统被调整为仅在损伤超过某个阈值 $k$ 时才触发细胞周期停滞。如果一个细胞失去了p53功能，这个关键的检查点就消失了。它将不顾其突变负荷，盲目地进入DNA复制阶段。这样一个有缺陷的细胞“绕过”了它本应经历的停滞的概率，就是其损伤数 $N$ 大于或等于阈值的概率，即 $P(N \ge k)$ 。这提供了一个直接的、定量的联系，将随机的分子事件与癌症发展中的一个关键步骤联系起来。

细胞群体：从个体性到集体命运

从单个细胞放大视角，我们发现随机性是个体性的源泉。即使在一群生活在相同环境中的遗传上相同的细胞中，也没有两个细胞是完全一样的。每一个都拥有略微不同的蛋白质和分子组合，导致功能能力呈现一个分布。这种异质性并非缺陷；它可能是一种卓越的生存策略。想象一群细胞受到一种胞内细菌的攻击。每个细胞的命运——是清除感染还是成为病原体的工厂——取决于细菌复制速率与细胞自身清理机制（一种称为自噬的过程）之间的竞赛。如果自噬能力在细胞间变化，比如说遵循伽马分布，那么对于给定的细菌复制速率，将会有一个赢得竞赛所需的自噬临界阈值。碰巧能力高于此阈值的细胞将清除感染，而低于此阈值的细胞则会屈服。结果是种群出现双峰命运，这是其成员间预先存在的随机变异的直接后果。这种风险对冲策略确保了至少有部分种群可能在不可预见的挑战中存活下来。

然而，同样的个体性在合成生物学中可能是一个麻烦，因为其目标通常是工程化出行动完全同步的细胞群体。考虑一个被设计为拨动开关的合成回路，其中一种蛋白质激活其自身的产生。如果我们将一群细胞同步到“开启”状态，我们可能希望它们会保持同步。然而，细胞间基本参数（如蛋白质降解率）的变异性将不可避免地导致它们分道扬镳。即使平均降解率对所有细胞都相同，该速率在种群中的微小方差也会导致蛋白质浓度的方差随时间增长，从而导致同步性的逐渐丧失。对此过程的建模揭示了变异系数如何随时间放大，这是设计鲁棒的合成振荡器和同步电路时的一个关键考虑因素。

这种异质性的影响超越了实验室，延伸到工业生物技术领域。一个生物反应器是数十亿个个体细胞的繁华都市，每个细胞都是一个微型化工厂。在生产一种有价值的生化产品时，我们可能会发现代谢“选择性”——将底物转化为所需产品的效率——在整个种群中并非均匀。一些细胞是超级明星，而另一些则生产力较低。此外，一个细胞的选择性甚至可能与其消耗资源的速度相关。要理解反应器的整体性能，我们不能简单地测量一个“平均”细胞。我们必须对整个行为分布进行积分。反应器的总产出是种群平均的产品生成速率除以种群平均的底物消耗速率。这提供了一个清晰的例子，说明理解和量化单细胞随机性对于优化和预测大规模生物过程的产出至关重要。

跨越生物体与生态系统：宏观尺度上的随机性

随机性的原理可以很好地扩展到更大的尺度，为生物体之间的相互作用和整个生态系统的结构提供了深刻的见解。即使是两个相邻细胞之间的通讯也是一个概率事件。在Notch-Delta信号通路中，一个细胞上“Delta”配体的表达可以激活其邻近细胞上的“Notch”受体，从而导致邻近细胞命运的改变。但这个信号链是充满噪声的：即使有配体存在，激活也可能失败；有时它也可能在没有配体的情况下自发发生。如果我们观察到一个细胞已经分化，我们能确定是它的邻居在向它发信号吗？不能。但使用贝叶斯推断的逻辑，我们可以计算出在我们的观察条件下，邻居表达Delta的更新后验概率。这表明了细胞和科学家都必须如何不断地从充满噪声、不完整的数据中推断隐藏的原因。

在单个复杂生物体内，随机性支配着其内部的物流。神经细胞的长轴突中充满了微管轨道，必需的货物由像驱动蛋白这样的马达蛋白沿着这些轨道运输。理想情况下，所有这些轨道都应指向同一方向，确保货物从细胞体移动到突触（顺向）。实际上，一小部分这些轨道不可避免地会方向错误。当一个驱动蛋白马达随机结合到一个轨道上开始一次“奔跑”时，它有一定的概率会落到这些反向轨道上，并朝着错误的方向移动。在一个简单而优雅的模型中，任何一次给定的奔跑是逆向的概率恰好等于方向错误的轨道的比例。这个漂亮的结果穿透了结合速率和奔跑时长的复杂性，展示了一个全局系统属性如何直接决定一个局部随机事件的概率。

也许随机性思维最大胆的应用是在生态学中。面对热带雨林惊人的生物多样性，人们可能会假设这是亿万年精细生态位分化的结果，每个物种都完美地适应其独特的角色。统一中性生物多样性理论提供了一个惊人简单而有力的替代方案。它假设，生物多样性的主要模式，如常见和稀有物种的分布，可能根本不需要复杂的基于生态位的解释。相反，它们可以从一个纯粹的随机过程中产生，在这个过程中，所有个体，无论物种，都遵循相同的简单规则：它们出生、死亡，并且极少数情况下，通过物种形成产生新物种。在这个模型中，物种的兴衰是由种群动态的偶然性驱动的“随机游走”。这样一个极简的假设集能够生成与真实世界数据非常匹配的模式，证明了随机过程在宏观尺度上的创造力。

这种随机的世界观具有深远的实际意义，尤其是在保护生物学中。在决定如何保护一个濒危物种时，我们面临着一个充满不确定性的世界。由于环境波动，种群的增长本身是随机的（过程变异性）；我们对动物的计数是不完美的（观测误差）；我们对该物种基本种群动态速率的知识是不完整的（参数不确定性）。层次贝叶斯模型为这一挑战提供了严谨的框架。通过将问题构建为一个状态空间模型，我们可以明确地分离这些不确定性的来源。然后，我们可以将所有这些不确定性向前传播到未来，以计算种群未来规模的完整后验预测分布，从而使我们能够估计灭绝的概率，同时坦诚我们知道什么和不知道什么。这是服务于在不确定性下做出理性的、生死攸关决策的随机生物学。

现代尾声：随机性与机器学习的交汇

我们的旅程在随机生物学与机器学习和人工智能现代革命的前沿地带结束。高通量数据，特别是来自单细胞基因组学的数据的爆炸性增长，为我们提供了前所未有的关于生物异质性的视角。深度学习模型，如人工神经网络（ANNs），是发现这些数据中模式的极其强大的工具。在训练这些网络时常用的一种技术是“dropout”，即在每个训练步骤中随机忽略网络的一部分。人们很容易，也常常会，将这种计算技巧与固有的生物噪声（如转录爆发或单细胞实验中的测量丢失）进行松散的类比。

然而，更深入、更具原则性的理解揭示了这种类比的缺陷。Dropout是一种旨在防止模型过拟合的正则化技术；其数学形式并不能忠实地复制转录爆发的复杂统计性质（用负二项分布描述更佳）或技术性测量噪声的过程。简单地将dropout等同于生物噪声，是把漫画当成了实物。这些领域的真正综合不在于浅薄的类比，而在于利用我们对随机生物学的知识来构建更好的机器学习模型——例如，通过设计一个其最终输出层使用能够准确反映真实数据生成过程的似然函数（如负二项分布）的网络。这才是前进的道路：一种由生物学原理指导构建更强大、更可解释的计算工具的伙伴关系。

从单个分子的闪烁到整个物种的命运，机遇的逻辑是贯穿生命结构的一条统一线索。通过拥抱这种随机的观点，我们不仅获得了对世界更准确的描述，也更深刻地欣赏了它的丰富性、韧性和内在的创造力。