同义替换与非同义替换：衡量自然选择

玻尔百科

定义

同义替换与非同义替换：衡量自然选择是进化生物学中一种通过区分不改变氨基酸的无义突变与改变蛋白质序列的突变来分析基因演化的方法。其核心原理是计算 dN/dS 比率，即通过非同义替换率与作为中性基准的同义替换率的对比，来衡量基因受到的选择压力。该指标被广泛用于识别净化选择、中性演化或正向选择，并作为校准分子钟以确定物种分化时间的工具。

核心要点

同义替换是一种“沉默”的DNA突变，它不会改变最终产生的氨基酸；而非同义替换则会改变氨基酸序列。
dN/dS比值 (ω) 是演化生物学中的一个关键指标，它比较了非同义替换率 (dN) 与作为中性基准的同义替换率 (dS)。
dN/dS的值表明了作用于基因的选择压力类型：比值小于1表示纯化选择，接近1表示中性演化，而大于1则预示着正选择。
该比值是一个多功能工具，可用于校准分子钟以追溯物种分歧时间、识别具有关键保守功能的基因，以及精确定位适应性演化的遗传标记。

引言

构成每个生物体基因组的DNA是一部历史文献，记载着数十亿年的演化历程。这套脚本不断被突变改写，但我们如何从单纯的笔误中分辨出有意义的改变？并非所有遗传变异都生而平等；有些改变了蛋白质的功能，而另一些则完全“沉默”。这种根本性的区别为演化生物学带来了一个核心挑战与机遇：开发一种方法，来衡量那股作用于生命密码本身的、无形的自然选择之力。

本文为破解这些演化故事提供了关键。在第一章“原理与机制”中，我们将深入探讨遗传密码的结构，以理解同义替换与非同义替换之间的区别。我们将探索如何超越简单的计数，计算出公允的演化速率（dN和dS），并将其比值dN/dS解读为衡量选择的强大“晴雨表”。第二章“应用与跨学科关联”将展示这一工具的实际应用，揭示它如何被用于校准生命的分子钟、识别处于强大选择压力下的基因，并揭示重大演化创新背后的具体遗传变异。

原理与机制

生命字母表及其奇特的冗余性

想象一下，你正试图写一条信息，但你只有四个字母可用。你将如何表示英语字母表中的26个字母？这正是生命必须解决的难题。基因的语言从DNA转录为信使RNA (mRNA)，它由一个仅包含四个“字母”或碱基的字母表写成：腺嘌呤 (A)、尿嘧啶 (U)、鸟嘌呤 (G) 和胞嘧啶 (C)。这条信息中的“单词”被称为密码子，它们随后被翻译成构成蛋白质基本单位的20种不同氨基酸。

一个密码子必须有多长？如果密码子只有一个字母长，你只能指定 $4^1 = 4$ 种东西，这不够。如果它们是两个字母长，你将有 $4^2 = 16$ 个可能的单词（如AA, AU, AG, AC, UA等）。这仍然不足以编码20种氨基酸外加一个结束信息的“终止”信号。最简单、最经济的解决方案是让单词长达三个字母。一个三联体密码提供了 $4^3 = 64$ 个可能的密码子。这足以指定所有20种氨基酸和必要的终止信号。

自然界本着节俭的原则，没有让这种富余被浪费。它没有为每种氨基酸分配一个独一无二的密码子，而是创造了一个简并性系统。这是一个源自物理学的绝妙术语，在这里它意味着大多数氨基酸由不止一个密码子指定。例如，GUU、GUC、GUA和GUG这四个密码子都代表同一种氨基酸：缬氨酸。这种冗余性不是一个缺陷，而是一个极其重要的特性。它就像一种语言中同一个词有多个同义词。这个内置的“缓冲垫”对演化在分子水平上如何展开具有深远的影响。

两种变化：沉默与喧哗

每当细胞分裂时，其遗传脚本都有微小的几率出现一个笔误——即突变。密码子中的一个字母可能会被改变。鉴于遗传密码的简并性，可能出现两种截然不同的结果。

同义替换是一种由于密码的冗余性而变得“沉默”的改变。它改变了密码子的核苷酸序列，但编码的氨基酸完全不变。例如，如果编码赖氨酸的密码子AAG突变为AAA，核糖体仍然会读作“赖氨酸”。蛋白质信息的含义得以保留。这就像在一个句子中将“quick”改为“fast”；整体意思保持不变。

另一方面，非同义替换是一种在蛋白质层面被“大声宣告”的改变。它以一种导致氨基酸改变的方式改变了密码子，甚至可能产生一个提前终止蛋白质合成的“终止”信号。例如，如果那个编码赖氨酸的AAA密码子突变为AAC，信息就变了。AAC编码的是天冬酰胺。由此产生的蛋白质在该位置将有一个不同的构件单元，这可能会改变其形状、稳定性或功能。一个更剧烈的非同义变化是从AAA突变为TAA，这是一个终止密码子，可能会产生一个被截短且无功能的蛋白质。

有趣的是，一个突变的后果完全依赖于上下文。同一个核苷酸转换在一个情境下可能是沉默的，而在另一个情境下则可能是有意义的。考虑一个密码子第三位上发生的G到A的突变。在密码子GAG（谷氨酸）中，这一变化导致GAA。由于GAA也编码谷氨酸，这个变化是同义的。但在密码子AUG（甲硫氨酸）中，第三位上同样的G到A的转换产生了AUA，它编码一个不同的氨基酸，异亮氨酸。这是一个非同义变化。遗传密码的结构意味着，一个单一突变事件的命运与其所处的环境息息相关。

从原始计数到公允速率：机会的科学

所以，我们有两种类型的变化。一个很自然的问题是：哪种类型更常发生？我们可以取两个相关物种的基因，比如人类和黑猩猩，比对它们的序列，然后简单地计算差异。我们可能会发现，例如，有18个非同义变化和6个同义变化。一个天真的结论是，非同义变化的发生频率是同义变化的三倍！

但这是一个典型的陷阱，一个将苹果与橘子作比较的错误。它混淆了变化的速率与变化的机会。对于突变来说，一个基因并非一个提供均等机会的雇主。由于遗传密码的特定结构，非同义突变的“靶标”数量远大于同义突变的“靶标”数量。一个典型的基因，其发生非同义改变的方式大约是同义改变的三倍。

为了进行公平的比较，我们必须将原始计数转换为速率。我们必须用可用“靶标”的数量来标准化观测到的“命中”次数。这要求我们为任何给定的基因计算两个关键数字：非同义位点 ( $N$ )的总数和同义位点 ( $S$ )的总数。这些不是简单的核苷酸计数；它们是经过仔细计算的值，代表了整个基因中每种类型变化的总机会。

一旦我们有了这些，我们就可以恰当地定义我们的速率：

非同义替换率， $d_N$ ，是每个非同义位点的非同义替换数。
同义替换率， $d_S$ ，是每个同义位点的同义替换数。

在我们之前的例子中，假设那个基因的非同义位点数是 $N=210$ ，同义位点数是 $S=90$ 。那么速率将是： $d_N = \frac{18}{210} \approx 0.086$ $d_S = \frac{6}{90} \approx 0.067$

现在故事完全不同了！每个位点的速率实际上非常相似。原始计数的比值具有误导性，因为非同义替换从一开始就有更多的发生机会。按机会进行标准化是必不可少的步骤，它使我们能够在一个公平的基础上比较这两个演化过程。

衡量选择的通用晴雨表

为什么要费这么大劲呢？因为这两个速率的比值，通常写作 $\omega = d_N/d_S$ ，提供了演化生物学中最强大的工具之一。它是一个晴雨表，衡量着作用于基因上的那股无形的自然选择压力。

要理解其原理，我们使用同义替换率 $d_S$ 作为我们的基准——一个中性标尺。同义突变很大程度上对自然选择是不可见的，因为它们不改变蛋白质。它们是“中性的”。它们的替换率被认为反映了潜在的背景突变率，只受到随机机会（遗传漂变）的筛选。然后，我们将非同义替换率 $d_N$ 与这个标尺进行比较。

纯化选择 ( $\omega < 1$ ): 大多数蛋白质都是经过精心打造的分子机器，是数十亿年演化完善的产物。对其氨基酸序列的多数随机改变很可能是有害的，就像往一台精密调校的发动机里随便扔一把扳手。自然选择通过移除这些有害突变来“纯化”基因库。因此，在群体中被固定的非同义替换的速率 ( $d_N$ ) 将远低于中性背景速率 ( $d_S$ )。像 $\omega = 0.18$ 这样的比值表明该基因处于强烈的纯化选择之下，意味着其功能高度保守且不可或缺。这是绝大多数基因最常见的状态。
中性演化 ( $\omega \approx 1$ ): 如果一个蛋白质序列不受任何特定约束，或者一个基因失去了其功能（成为“假基因”），那么非同义突变与同义突变相比，既没有更有害也没有更有利。两者实际上都是中性的。它们会以大致相同的速率被固定下来，由随机漂变驱动。在这种情况下， $d_N$ 将约等于 $d_S$ ，它们的比值 $\omega$ 将接近1。
正选择 ( $\omega > 1$ ): 这是最激动人心的信号——适应性演化和创新的明确迹象。在某些情景下，变化不仅被容忍，而且被积极地青睐。想象一下病毒与宿主免疫系统之间的分子“军备竞赛”。宿主蛋白质面临着巨大的压力，需要改变其氨基酸序列以躲避病毒。在这里，自然选择将青睐新的非同义突变，使它们席卷整个群体并以比中性背景速率更快的速率被固定下来。这导致 $d_N > d_S$ 且比值 $\omega > 1$ 。找到这样的信号就像抓住了演化创造新事物的现行。

观察的艺术：科学家如何真正测量演化

这一切听起来很美妙，但我们实际上如何从真实的序列数据中估计 $d_N$ 和 $d_S$ 呢？这正是统计建模的魅力所在。你不能仅仅看着两个序列就计算差异，因为单个位点可能已经改变了多次，后来的改变覆盖了早期的改变。这就是“多次命中”问题。

科学家使用密码子模型来解决这个问题。这些模型不把基因看作一串独立的核苷酸，而是把它当作一串密码子。模型的“状态空间”不是4种核苷酸，而是编码氨基酸的61个密码子。然后它定义了在演化时间内从一个密码子跳到另一个密码子的概率。关键是，模型“知道”遗传密码。当它定义从密码子GGC跳到GGT（均为甘氨酸）的速率时，它将此归类为同义跳跃。当它定义从GGC跳到[AGC](/sciencepedia/feynman/keyword/automatic_gain_control)（丝氨酸）的速率时，它将其归类为非同义跳跃。

然后， $\omega$ 比值作为参数直接构建到模型中。所有非同义跳跃的速率都乘以 $\omega$ 。这使得计算机能够分析一组相关序列，并找到能够最佳解释我们所看到的差异模式的 $\omega$ 值，同时自动校正多次命中和其他偏差。而一个更简单的、对密码子上下文“视而不见”的核苷酸模型，则根本无法做到这一点。它无法区分沉默的变化和喧哗的变化，因此也无法告诉我们任何关于 $d_N/d_S$ 的信息。

低语与警示：当简单故事变得复杂

$d_N/d_S$ 比值是一个强大的透镜，但像任何仪器一样，它有其局限性。真实世界总是比我们最简单的模型更丰富、更复杂。

一个主要的警示是饱和。同义位点由于受到的约束较少，通常演化得非常快。在漫长的演化时间尺度上，它们可能会被替换所饱和，就像一张完全曝光过度的照片。差异的数量随着时间的推移不再增加，因为新的突变使位点恢复到原始状态的可能性与将其改变为新状态的可能性一样大。我们的统计模型可能无法完全校正这一点，从而导致对真实 $d_S$ 的低估。由于 $d_S$ 在分母中，这可能会人为地抬高 $d_N/d_S$ 比值，可能产生正选择的假信号，尤其是在演化树的长枝上。

也许最微妙和深刻的警示来自突变与遗传密码本身的相互作用。标准的解释是 $\omega < 1$ 明确意味着纯化选择。但这总是真的吗？考虑一个假设情景，其中演化是完全中性的——所有突变都以相同的概率被固定。现在，加入一种常见的突变偏好，即某些核苷酸变化（转换）比其他变化（颠换）频繁得多。由于氨基酸在遗传密码中被分配给密码子的方式，事实证明，这种突变偏好可以被优先“汇集”到产生同义替换上，频率高于非同义替换。结果如何？即使完全没有选择作用，密码本身的结构，当与简单的突变偏好结合时，也可能产生一个显著小于1的预期 $d_N/d_S$ 比值。

这并没有使 $d_N/d_S$ 检验失效。相反，它加深了我们的理解。它提醒我们，科学中的每一次测量都是基于一个模型的推断，我们必须时刻准备质疑该模型的假设。遗传密码不仅仅是一本被动的词典；它是演化博弈中的一个积极参与者，塑造着我们用来破解生命历史的模式。正是在突变、选择和结构的复杂舞蹈中，我们发现了一个无穷而又微妙的美丽故事。

应用与跨学科关联

在上一章中，我们解剖了生命的语言本身，学会了区分DNA脚本中的两种拼写变化：同义变化，它默默地改变字母而不改变含义（氨基酸）；以及非同义变化，它重写了故事。这种区分可能看起来像是一个纯粹的学术操练，一种分子层面的迂腐之举。但事实远非如此。这个简单的划分是打开一个巨大演化故事库的钥匙。通过比较每个非同义位点的非同义替换率 ( $d_N$ ) 与每个同义位点的同义替换率 ( $d_S$ )，我们锻造了一把威力惊人的放大镜。比值 $\omega = d_N/d_S$ 不仅仅是一个数字；它是一位叙述者。它向我们讲述了关于斗争、适应、废弃和创新的故事，这些故事在数百万年的时间里上演，并被写入了我们周围以及构成我们的生命基因组中。现在，让我们使用这个工具，看看它能揭示什么。

校准生命之钟

生物学中最宏大的问题之一是：事件是在何时发生的？人类和黑猩猩何时分道扬镳？鲸的祖先何时重返海洋？化石记录为我们提供了英勇但零散的线索。我们能找到更连续的记录吗？答案就在基因中。同义突变在很大程度上对自然选择是不可见的。它们就像基因组背景中安静的滴答声，以大致稳定的速率累积。这种稳定的累积是“分子钟”的核心。

想象一下，我们有两个物种和一块化石，告诉我们它们的共同祖先生活在2000万年前。通过计算它们基因之间累积的同义差异数量，我们可以计算出这种滴答的速率。例如，我们可以确定每年、每个位点的同义替换数。一旦我们校准了这个时钟，我们就可以转向其他缺乏化石的物种对。通过测量它们的遗传分歧，我们现在可以估计它们已经独立演化了多长时间。突然之间，一串枯燥的A、C、G和T序列变成了一台时间机器，让我们能够勾勒出宏伟的生命之树，并为其无数分支标注日期。古生物学与遗传学的这种完美结合，为我们描绘了一幅比任何单一领域所能提供的都远为丰富的生命历史画卷。

选择的足迹：经典案例集

同义替换率 $d_S$ 为我们提供了基线，即时钟的中性滴答声。真正的戏剧性来自于将其与非同义替换率 $d_N$ 进行比较。比值 $\omega = d_N/d_S$ 告诉我们选择是如何作用于蛋白质本身的。我们可以将其讲述的故事分为三大类。

1. 纯化选择的铁腕 ( $\omega \lt 1$ )

对于大多数执行关键功能的基因来说，故事是关于深刻的保守主义。想想那些从头到尾布局动物身体蓝图的总设计师——Hox基因。或者考虑抗体的框架区，它必须折叠成一个精确、稳定的支架。对于这些蛋白质，几乎任何对氨基酸序列的改变都是一种倒退。一个突变可能会破坏一个关键的结构折叠或一个至关重要的活性位点。自然选择就像一个警惕的编辑，无情地清除这些非同义突变。而同义突变，因为是沉默的，得以躲过编辑的笔。结果呢？非同义变化的累积速度远慢于同义变化， $\omega$ 远小于1。这就是所谓的纯化选择或负选择。当我们看到一个低的 $\omega$ 值时，我们观察到的是保守的标志，一个功能极其重要、不容篡改的基因的足迹。

2. 中性演化的自由放任 ( $\omega \approx 1$ )

当一个基因的功能不再被需要时，会发生什么？想象一种灵长类动物演化为只在夜间活动。一个编码颜色视觉蛋白（视蛋白）的基因变得无用。选择不再“关心”该蛋白质的序列。一个曾经可能有害的非同义突变现在变得无关紧要。它在群体中持续存在的可能性与同义突变一样。随着选择的引导之手被移开，非同义替换以与同义替换相同的中性速率累积。结果是 $d_N$ 变得等于 $d_S$ ，比值 $\omega$ 接近1。这是中性演化的明确标志，是一个基因已成为“假基因”的标志——一个遗传化石，是基因组中的一座鬼城，像积尘一样收集着突变。通过寻找 $\omega \approx 1$ 的基因，我们可以识别这些演化遗迹，并了解一个生物体过去的功能和环境。

3. 正选择的蓬勃生机 ( $\omega > 1$ )

这是演化真正展现创造力的地方。有时，变化不仅被容忍，而且被积极地奖励。这是演化军备竞赛或新功能快速应用的标志。在这些情况下，碰巧改善蛋白质功能的非同义突变会迅速受到选择的青睐并在群体中传播。它们的累积速度甚至快于中性的同义突变，将比值 $\omega$ 推高到1以上。

最引人注目的例子每天都在你的身体里发生。你的免疫系统是一个巨大的演化实验室。当一种新的病毒或细菌入侵时，特化的B细胞开始增殖。编码其抗体的基因经历一个靶向高频突变的过程。在抗体中抓住入侵者的部分——互补决定区 (CDRs)——任何能改善抓握力的突变都会受到强烈青睐。对这些区域的分析持续发现 $\omega > 1$ ，这是正选择或多样化选择的明确标志。与此同时，同一抗体的结构框架区仍然处于强烈的纯化选择之下 ( $\omega \lt 1$ )。这种美丽的二元性向我们展示了演化最具活力的一面，一场在感染过程中上演的微观军备竞赛。

更深入的侦查工作

对 $\omega$ 的基本解读是一个强有力的开端，但演化的情节往往更为复杂。遗传侦探们已经开发出更精妙的方法来解读编码中的故事。

创新的伟大引擎之一是基因重复。偶尔，一段DNA会被意外复制，产生一个备用基因。原始基因可以继续其基本业务，受到纯化选择的制约。新的副本，即旁系同源基因，则摆脱了这种约束。它可能衰变为一个假基因 ( $\omega \approx 1$ )，或者一个随机突变可能赋予它一种微妙的、有用的新功能。通过追踪旁系同源基因中的 $d_N/d_S$ 比值，我们可以实时观察新基因和新能力的诞生，这是生物复杂性演化的一个基本过程。

另一项巧妙的技术，即McDonald-Kreitman检验，为我们的分析增加了一个新的维度。它不仅着眼于物种之间的固定差异，还考虑了物种内部的遗传变异（多态性）。在中性条件下，多态性和分歧的非同义与同义变化比率应该相同。与这一预期的偏离可以为正选择提供比单独的 $\omega$ 比值更强的证据，有助于区分真正的适应与其他种群统计学因素。

有了这些工具，我们可以放大视野，调查生命历史上最宏大的转变。第一批植物是如何在严酷、干燥的陆地上定居的？它们需要一层蜡质角质层来防止水分流失。我们可以检查负责构建这层角质层的基因，并在生命之树上发生这一转变的分支上测量 $d_N/d_S$ 比值。通过这种方式，分子法医学使我们能够将特定的遗传变化与塑造我们星球的关键宏观演化事件联系起来。

当规则本身也受到约束

正当我们以为已经掌握了规则时，生物学却以一个美丽的转折向我们展示了更深层次的优雅。我们的整个框架都建立在同义变化是沉默的这一观念之上。但这总是真的吗？

考虑一下病毒的紧凑基因组。为了节省空间，一些病毒演化出了重叠基因，即同一段DNA序列在两个不同的读码框中被读取，以产生两种不同的蛋白质。想象一个单核苷酸变化。在第一个读码框中，它可能是同义的，将密码子从（例如）GCT变为GCC（都编码丙氨酸）。但在第二个读码框中，同一个核苷酸可能是完全不同密码子的一部分，而从T到C的变化可能是非同义的，改变了一个蛋白质并可能破坏其功能。在这种情况下，一个“本应”是中性的突变，因为其在另一个读码框中的效应而突然处于强烈的纯化选择之下。这导致了一个令人惊讶的结果，即在这些重叠区域，同义替换率被严重压低。这是一个关于信息密度以及情境决定一切的惊人例子。

此外，我们一直假设存在一个单一的、通用的遗传密码。但即使是这个基本的“词典”也有方言。我们细胞中线粒体使用的遗传密码与“标准”核基因密码略有不同。一个在细胞核中意为“终止”的密码子，在线粒体中可能意为“色氨酸”。因此，正确的分析要求我们使用与所研究基因相对应的正确词典。这是一个至关重要的提醒：生物学的“规则”本身就是演化的产物，而非永恒不变的物理定律。

从一个简单的比值出发，我们构建了一套工具集，照亮了所有尺度的演化。同义与非同义替换的区别使我们能够校准生命之钟，见证纯化选择不屈的掌控、中性演化的悄然衰退以及正选择的创造性迸发。它将遗传学与古生物学、免疫学、发育生物学和地球历史联系起来。这是科学之美的一个证明：通过仔细观察最微小的细节，我们可以开始理解最宏大的故事——生命本身的故事，用一个四字母的字母表写就。