
为了理解地球上生命波澜壮阔的历史,我们求助于记录在 DNA 中的遗传密码。然而,我们今天观察到的序列,仅仅是数百万年进化史书的最后一章。在此过程中发生的无数变化、逆转和平行突变都隐藏在视野之外,在我们的知识中造成了巨大的鸿沟。当我们简单地计算两个 DNA 序列之间的差异时,我们低估了真实进化变化的量,这就像测量两座城市之间的直线距离,却忽略了旅途的蜿蜒路径。这正是替代模型旨在解决的核心问题。它们如同一个数学“时间机器”,提供了一个统计框架,让我们能够穿透时间的迷雾,校正这些隐藏的进化事件。本文将揭开这些关键工具的神秘面纱。首先,在“原理与机制”部分,我们将探索替代模型背后的基本逻辑,从最简单的理想化模型构建到反映生物现实的复杂模型。接下来,“应用与跨学科联系”部分将揭示这些模型如何作为引擎,用于重建生命之树、检测自然选择,以及应对从流行病学到结构生物学等领域的挑战。
阅读以 DNA 语言写成的生命之书是一回事。而理解它的历史——数百万年来它是如何被复制、编辑和修订的——则是另一回事。我们今天在生物体中观察到的序列,仅仅是一个漫长而复杂故事的最终页。我们无法看到中间的草稿、划掉的词语,或是粘贴进去的段落。那么,我们如何重建这部壮丽的进化史诗呢?我们需要一种时间机器。在分子进化中,这种时间机器就是替代模型。它是一个数学透镜,让我们得以回望,穿透时间的迷雾,估算已经发生的真实进化变化程度。
想象两个朋友从同一个城市出发。多年后,你发现一个在东边 100 英里的小镇,另一个在西边 100 英里的小镇。他们之间的直线距离是 200 英里。但这能告诉你每个人实际走了多远吗?完全不能。一个人可能走了一条蜿蜒的风景路线,而另一个人可能在掉头之前朝错误的方向行驶了 500 英里。最终的位置隐藏了真实的旅程。
这正是我们在处理 DNA 序列时面临的问题。当我们比对两个物种的序列并计算差异——一种称为 p-距离的度量——我们只是在测量最终的“直线”距离。但进化并非沿直线进行。在漫长的时间里,一个基因中的单个位置可能会发生多次变化。例如,一个曾经是腺嘌呤 (A) 的位点可能会突变为鸟嘌呤 (G),之后,随后的突变又可能将其变回 A。从我们的角度来看,比较起点和终点,这个位点似乎根本没有发生任何变化!这是一种逆向替代。同样,一个位点可能在一个谱系中从 A 变为 G,而在另一个谱系中从 A 变为 C。我们观察到一个差异 (G vs. C),但实际上发生了两个独立的进化事件。
这些“多次替换”对于简单的计数来说是不可见的,并且随着物种在更长的时间尺度上分化而变得更加普遍。它们导致观察到的 p-距离越来越严重地低估了实际发生的变化数量。这种现象被称为替代饱和:最终,序列变得如此混乱,以至于观察到的差异数量不再反映真实的进化距离,就像天空最终充满了那么多雨滴,你再也无法数清落下了多少一样。替代模型是我们的统计工具,用于校正这些看不见的旅程,以估算真实的进化路径长度。它们计算出的数值,通常表示为 ,是我们在系统发育树上显示为分支长度的量。这个长度并不直接代表年份或代数;它的单位是每个位点的期望替代数——一种纯粹的遗传变化度量。
我们如何开始构建这样一个模型呢?像物理学家常做的那样,让我们从能想象的最简单的宇宙开始。这就是 Jukes-Cantor (JC69) 模型的宇宙,它由两条极其简单的对称规则支配。
首先,它假设相等的碱基频率。在这个宇宙中,对四种核苷酸(A、C、G、T)中的任何一种都没有偏好。每一种都期望以 的均等频率出现,就好像祖先的 DNA 是从一副完美洗牌的四张牌中抽取的一样。
其次,它假设相等的替代速率。任何变化的可能性都与其他任何变化相同。A 突变为 G 的概率与它突变为 C 或 T 变为 G 的概率完全相同。所有变化路径都被同等对待。
当然,这个完美对称的世界很少能与真实生物学的美丽混乱完美匹配。但它的力量在于其简单性。它提供了一个基线,一个我们可以从中构建更现实模型的零假设。它给了我们一个数学公式,,该公式利用观察到的差异比例 对其进行校正,以估算真实的进化距离 。这个方程中的对数函数正是校正的核心;它解释了随着观察到的差异累积,那些隐藏的多次替换的概率越来越大的情况。
在探索更复杂的模型之前,我们必须建立两个几乎适用于所有模型的基本原则。忽视这些原则不仅是一个小错误;它会使整个分析变得毫无意义。
首先,同源性就是一切。替代模型描述的是单个同源位点随时间变化的过程序。这意味着我们在不同序列中比较的位点必须共享一个共同的祖先。这就是为什么序列比对是不可协商的第一步。比对是通过在序列中插入空位来对齐被认为是同源的位置的过程。如果插入或缺失导致同源位点发生偏移,那么比较 ATCGT 的第四个字母和 [AGC](/sciencepedia/feynman/keyword/automatic_gain_control)TT 的第四个字母就毫无意义。这就像比较汽车的发动机和卡车的轮胎;它们都是车辆部件,但它们不共享相同的进化起源或功能。模型将会比较非同源的特征,违反了其最基本的假设。
其次,了解你的字母表。为四字母的 DNA 字母表构建的模型与构成蛋白质的二十字母的氨基酸字母表从根本上是不兼容的。试图将核苷酸模型应用于蛋白质比对是一个深层次的范畴错误。变化的规则完全不同。氨基酸替代受到遗传密码结构的限制(多个密码子可以编码同一个氨基酸),也受到自然选择的无情压力,自然选择偏爱生化性质相似的氨基酸之间的替代(例如,用一个小的疏水性残基替换另一个)。因此,蛋白质模型需要一个大得多的 替代速率矩阵,以捕捉这些复杂且非随机的模式。
Jukes-Cantor 宇宙及其完美的对称性是一个有用的起点,但生物学很少如此整洁。让我们开始打破那些简单的规则,以构建更能反映我们所见世界的模型。
如果核苷酸的“牌组”是有偏见的怎么办?例如,许多细菌基因组富含鸟嘌呤 (G) 和胞嘧啶 (C)。Felsenstein 1981 (F81) 模型放宽了碱基频率相等的假设。在此模型中,变为特定核苷酸的速率取决于该目标核苷酸的平衡频率。这引入了一个关键概念:稳态分布,用向量 表示。该分布代表了如果一个序列在一套恒定的突变压力下进化无限长的时间,最终会达到的平衡碱基频率。这是进入一个碱基的突变率与离开它的突变率相平衡的点。因此,F81 模型就是你假设所有替代都是同等“可交换”的,但最终的组成是有偏见时得到的模型。
接下来,我们可以质疑 JC69 的第二条规则:所有替代真的都同样可能吗?数十年的经验数据表明并非如此。由于多种生化原因,转换(同一化学类别内的替代,即嘌呤 A G 或嘧啶 C T)通常比颠换(类别之间的替代,例如 A C)频繁得多。Kimura 1980 (K80) 模型通过使用两个不同的速率参数来捕捉这一点:一个用于转换,一个用于颠换。
将这个逻辑推向极致,我们得到了通用时间可逆 (GTR) 模型。它是常见的、时间可逆模型中最通用的一个,允许不相等的碱基频率和每种替代对(例如,AC 的速率不同于 AG 等)都有一个独特的速率参数。
我们现在有了一个强大而灵活的模型,GTR。但即便如此,通常也还不够。进化的现实是一个狂野而复杂的过程,它总能找到方法来违反我们的简化假设。这正是系统发育学的前沿所在,即开发能够处理更多这种复杂性的模型。
跨位点和跨过程的异质性: 单一模型(即使是 GTR)也假设一个单一的过程支配着一个基因中的每个位点以及一个基因组中的每个基因。这很少是真的。蛋白质中的一些位点位于关键的活性位点,受到巨大的约束,而另一些位于表面的位点则可以自由变化。一个单一的基因具有统一的功能,但由数百个不同基因组成的大型比对是不同进化历史和压力的马赛克。为了处理这个问题,我们增加了更多的层次:
变化的景观(非稳态性): 我们的 GTR 模型假设稳态分布 在整个树上是恒定的。它假设“游戏规则”永不改变。但是,如果一个细菌谱系适应了高温环境,导致突变压力发生变化,偏向于 G 和 C 碱基呢?平衡组成本身已经改变。这被称为谱系间的成分异质性,它严重违反了模型的稳态性假设。当一个稳态模型被迫解释具有不同组成的序列时,它可能会被严重误导。它将由组成变化引起的差异误解为过量的替代,从而人为地夸大分支长度并高估分化时间。一个量化例子表明,这种影响可能是巨大的,可能将进化时间高估超过两倍。
纠缠的历史(重组和水平基因转移): 系统发育“树”的根本思想是假设一个序列的所有部分都共享相同的历史。但是,像有性重组和水平基因转移(在微生物中很常见)这样的过程可以创造出镶嵌基因组,其中不同的基因确实有不同的进化树。当我们用单一树模型分析包含这种冲突历史的比对时,我们就制造了一个悖论。模型试图通过“解释掉”它看到的奇怪模式来解决冲突。通常,它通过选择一个过于复杂的替代模型(例如 GTR+Γ+I)来做到这一点。这些额外的参数并非用于更准确地模拟替代过程,而是被用来吸收来自冲突树信号的未建模变异。
从 JC69 的简单优雅到今天使用的复杂多层模型,这段旅程是一个科学在行动的故事。我们从一个理想化开始,用数据来面对它,找出它的失败之处,然后构建一个更好、更细致、更能捕捉真相的模型。我们模型中增加的每一层复杂性,都揭示了生命密码在广阔的地质时间中实际演化的更深层次原理。
在探索了核苷酸替代模型复杂精密的机制之后,人们可能很容易将其视为专家专用的利基工具,一套只让进化生物学家感兴趣的齿轮和杠杆。但事实远非如此!这些模型并非道路的终点;它们是发现的引擎。它们是推理链中至关重要的第一步,使我们能够重建过去、理解现在,甚至预测生命本身的未来。它们是一副眼镜,让遗传密码模糊的文本变得清晰锐利,揭示出用 DNA 语言书写的冲突、创新和历史的故事。
几乎所有应用的核心都是一个深刻的问题:我们今天观察到的基因序列仅仅是快照,是一部长而复杂电影的最后一帧。当我们比较两个物种的 DNA 时,我们可以计算差异,但这个计数是对它们之间真实进化旅程的一种欺骗性且不完整的度量。想象两个旅行者从同一个城市出发,最终到达不同的城市。简单地在他们的最终位置之间画一条直线,并不能告诉你他们走过的蜿蜒道路、绕行的弯路、可能相遇的次数,甚至是否曾走过回头路。
在漫长的时间跨度里,一个基因中的单个核苷酸位点可能会发生多次改变。一个‘A’可能突变为‘G’,之后又突变回‘A’。或者,在两个独立的谱系中,同一个祖先‘C’可能独立地突变为‘T’。在这两种情况下,对最终序列的简单比较都显示没有差异,完全掩盖了已经发生的进化变化。这些“多次替换”导致我们系统性地低估了真实的进化量。替代模型就是我们的矫正镜片。通过模拟所有可能变化随时间发生的概率,它们使我们能够观察到的差异,并推断出发生过的总替代数,而不仅仅是我们今天看到的净变化。这个校正后的遗传距离是系统发育学的基本通货;它是我们构建生命之树的原材料。
一旦我们接受需要一个模型,一个问题立刻出现:选哪一个?自然界无限复杂,任何模型都是一种简化。一个简单的模型就足够好,还是我们需要更复杂的模型?这不是一个学术问题。模型的选择可以从根本上改变我们关于进化关系的结论。对数据使用过于简单的模型,就像试图用一张只显示主要公路的地图来导航复杂的山脉;你注定会迷路。对于高度分化的序列,像 Jukes-Cantor (JC69) 这样的简单模型,与像 HKY 这样考虑了核苷酸突变偏向性的更现实模型相比,可能会产生一个不同的、且很可能是错误的系统发育树。
那么我们如何选择呢?我们并非在任意选择的海洋中漂泊。统计学家给了我们优雅的工具,比如赤池信息准则 (AIC),来指导我们。AIC 提供了一种有原则的方法来平衡模型的复杂性与拟合优度。它提出了一个极其简单的问题:为我们的模型增加更多参数(使其更复杂)是否能显著更好地解释数据,还是仅仅增加了混乱?通过比较不同模型的 AIC 分数,我们可以选择代表“最佳平衡点”的模型——即能够捕捉进化过程基本特征的最简单模型。通常,这个过程揭示出现实比我们最简单的假设更复杂。基于更好的 AIC 分数,选择像 GTR+Γ+I 这样更复杂的模型而不是像 HKY 这样的简单模型,常常导致推断出更长的分支长度和更高的总替代事件数。我们发现,比简单模型所能揭示的,有更多的进化事件在隐藏中发生。
这种将模型与过程相匹配的原则甚至可以进一步扩展。一个基因,更不用说整个基因组,并不是一个统一进化的整体。有些部分受到强烈的功能约束,而其他部分则可以快速变化。考虑一个由编码蛋白质的外显子和非编码的内含子组成的基因。外显子承受着产生功能性蛋白质的压力,而内含子通常受到的约束要弱得多。为了模拟这一现实,我们可以使用分区分析,对每个区域应用不同的替代模型——一套规则用于外显子,另一套用于内含子。毫不奇怪,这种更细致的方法几乎总是能极大地改善与数据的拟合度,这同样可以由 AIC 等标准来证明。我们是让数据告诉我们它是如何进化的,而不是强行将其塞入一个不合适的单一框架中。
也许替代模型最惊人的应用是它们能够检测到自然选择本身的印记。为此,我们必须将思维从核苷酸的层面提升到密码子的层面——即指定氨基酸的遗传密码的三字母“单词”。这才是真正神奇之处。一些核苷酸变化是同义的;它们改变了密码子但没有改变其编码的氨基酸。这些变化在很大程度上对自然选择是不可见的,因此为我们提供了中性突变率的基线估计。其他变化是非同义的;它们改变了最终的氨基酸,因此对选择是可见的,选择可能会清除它们或偏爱它们。
通过构建复杂的*密码子替代模型*,我们可以在整个系统发育树上估计非同义替代的速率()和同义替代的速率()。这两个速率的比值,,成为我们的“选择探测器”:
有了这个工具,我们可以见证进化在行动。我们可以研究一种病毒的表面蛋白,并通过比较一个允许正选择的模型和一个不允许的模型,统计上证明特定位点正在以 的方式进化。这是进化军备竞赛的分子足迹,病毒正在迅速改变其外壳以逃避宿主的免疫系统。这是一个氨基酸水平的模型永远无法做出的发现,因为它无法区分同义和非同义变化。
这种方法的力量从微观延伸到宏观。我们可以研究进化中最宏大的问题,例如新身体计划的起源。在基因复制事件之后,一个拷贝可以自由地探索新功能。通过应用特殊的*分支-位点模型,我们可以扫描系统发育树并提问:在基因复制后,某个特定分支上是否发生了正选择的爆发?如果在该分支上发现某个关键发育基因(如 Hox 基因)的特定位点 ,就为新功能化*提供了强有力的证据——即可能促成重大进化创新的新功能的诞生。
替代模型的应用并不止于进化生物学的边界;它们在越来越多跨学科领域中成为必不可少的工具。
在进化结构生物学中,我们可以通过祖先序列重建 (ASR) 进行一种“分子考古学”。利用替代模型和系统发育树,我们可以推断出数百万年前已灭绝生物中蛋白质最可能的氨基酸序列。然后,这些“复活”的蛋白质可以在实验室中合成,以研究其特性。但在这里,模型也是关键。我们赋予某个特定祖先状态的似然性,关键取决于我们替代模型的假设,例如某些氨基酸之间的变化是否比其他变化更可能或更不可能。
这些模型的跨学科力量在系统动力学领域表现得最为明显,该领域位于流行病学、群体遗传学和分子进化的交叉点。想象一下追踪一场病毒爆发。通过对来自不同患者的病毒基因组进行测序,我们可以构建一个系统发育树。替代模型为我们提供了以替代数/位点为单位的分支长度。然后,*分子钟模型将这些遗传距离转换为真实时间,告诉我们不同谱系是何时分化的。最后,来自群体遗传学的溯祖模型*将这些分化模式与潜在的种群动态(如有效种群规模)联系起来。通过将这些模型编织在一起,我们可以利用一组病毒基因组来估算随时间变化的有效感染数量,直接从其遗传指纹中重建流行病的历史。
然而,这一宏伟的综合完全建立在替代模型的基础之上。如果这个基础有裂缝,整个结构就可能变得不稳定。如果我们在替代已经饱和的数据上使用一个错误指定、过于简单的替代模型,我们将系统性地低估树中深层分支的长度。这会压缩进化时间尺度。在随后的天际线图分析中,这种压缩使得古老的溯祖事件看起来比实际发生得更晚,且发生在更小的种群中。其结果可能是一个近期爆炸性种群增长的虚假信号,而这只不过是糟糕模型选择所造成的人为结果。
这是一个强有力且令人谦卑的最终教训。对进化历史、自然选择和疾病动态的最宏大洞见,都取决于第一步的正确性。替代模型不仅仅是一个技术细节;它是我们观察分子世界的透镜。我们的透镜越清晰,我们就能越深入、越准确地洞察生命那壮丽的故事。