假基因

玻尔百科

定义

假基因是指基因的无功能拷贝，其通过基因重复后的突变或信使RNA的逆转录作用而形成。在进化生物学领域，这些序列因其稳定的中性突变速率而被用作精确的分子钟，用于推断深远的进化事件。不同物种中存在相同的特定失活假基因，为共同祖先学说提供了强有力的统计学证据，同时这些序列也是遗传多样性的重要储备。

核心要点

假基因是基因的无功能拷贝，通过基因重复及后续突变，或通过mRNA分子的反转录形成。
通过以稳定的中性速率积累突变，假基因可作为高度精确的“分子钟”，用于追溯深层进化事件的年代。
在不同物种中存在相同、特定的、已损坏的假基因，为其共同祖先提供了统计学上强有力的证据。
虽然常被认为是“垃圾DNA”，但假基因可能干扰遗传分析技术，并在某些生物体中作为遗传多样性的重要储存库。

引言

在基因组这座巨大的图书馆中，并非所有的书籍都完好无损。在数以千计的活性基因旁边，躺着它们破旧、无法阅读的亲属：假基因。这些遗传化石曾被认为是无意义的“垃圾DNA”，如今则被理解为生命历史的深刻记录。本文将层层揭开这些神秘序列的面纱，探讨从视其为基因组碎片到承认其为宝贵科学工具的观念转变。您将踏上一段穿越基因组墓地的旅程，首先探索创造和定义假基因的“原理与机制”，从使其沉默的突变到形成它们的独特途径。随后，“应用与跨学科联系”一章将揭示这些遗传幽灵远非沉默，它们是进化的确凿证据，对现代技术构成了独特的挑战，甚至在当今的生物学中扮演着积极的角色。

原理与机制

想象一下，你正穿过一个巨大的图书馆，在整洁、装订精美的书籍旁边，你发现了一些破旧、不完整的稿件。它们看起来像书，有书的结构，但墨迹已褪，书页撕裂，句子也逐渐变得不知所云。这些不仅仅是垃圾；它们是历史文物，每一件都在讲述其起源和衰败的故事。基因组就很像这个图书馆。在数以万计的活性、功能性基因——那些整洁的书籍——旁边，散落着它们已损坏的亲属。这些就是假基因，一个活跃遗传历史的回响与化石。

基因组的墓地：昔日基因的回响

乍一看，假基因与正常基因极其相似。它拥有的核苷酸序列与一个已知的功能基因惊人地相似。然而，它是一个沉默的遗迹，无法产生它曾经被设计来制造的蛋白质。究竟是哪里出了问题？这种损坏可能以多种形式出现。

以Venus flytrap（捕蝇草）为例。为了支持其肉食性的生活方式，它弱化了光合作用。其基因组反映了这一进化选择：它包含数千个与其植物亲属中的光合作用基因明显相关的序列，但这些序列充满了使其失去功能的突变。也许是一个单一的核苷酸变化产生了一个提前终止密码子，这是一个遗传上的句号，突然中止了蛋白质的构建过程。又或许是几个核苷酸的插入或删除导致了移码突变，就像一部剪辑拙劣的电影一样，扰乱了下游的整个遗传信息。在其他情况下，“基因”本身可能完好无损，但其关键的“开启开关”——即告诉细胞机器开始读取的DNA启动子区域——已经发生突变或完全丢失。没有启动子，即使是完美的基因也无人问津，保持沉默。

在生物信息学的语言中，这种功能丧失的记录通常十分明确。基因组数据库中的一个条目可能会用gene特征标记一个基因座，但会明确添加一个/pseudogene限定符。至关重要的是，它会缺少[CDS](/sciencepedia/feynman/keyword/credit_default_swap)（编码序列）特征，这是标记被翻译成蛋白质的确切区域的决定性注释。没有CDS是生物信息学家正式宣布该基因的开放阅读框已损坏，不再属于蛋白质编码世界的一部分的声明。这些便是假基因的基本特征：一个可辨识的过去和一个已失效的现在。

通往化石化的两条路径

如果假基因是化石，它们是如何形成的？事实证明，有两条主要的进化途径可以导致基因化石化，每条途径都会在DNA中留下独特的法医线索。

路径一：损坏的复印机（非加工假基因）

第一种机制在概念上很简单：复制过程中的一个错误。想象一下，你正在复印书中的一个章节，复印机不小心卡住了，把其中一页复印了两次。现在你复印的章节里多了一页。这类似于一个叫做不等交换的过程。在精子和卵细胞形成期间，成对的染色体会排列并交换部分片段。如果它们稍微错位，一条染色体最终可能会得到一段重复的DNA，而另一条则会发生缺失。

这会产生一个基因的两个拷贝，并排而坐。原始基因继续其必要的工作，但新的拷贝是多余的。在某种意义上，它对自然选择的压力是“不可见”的。一台不被使用的机器上坏掉的零件不会被注意到。数百万年来，这个备用拷贝可以自由地积累各种突变——终止密码子、移码突变、缺失——而不会对生物体产生任何影响。最终，它衰变为一个非加工假基因。

这种机制的关键线索是，该假基因是原始基因组DNA的直接拷贝，尽管发生了突变。这意味着它保留了原始的内含子-外显子结构。真核生物的基因并非连续的代码块；它们被非编码区域（称为内含子）打断，这些内含子在最终的信息传递中被剪接掉。一个非加工假基因，作为整个基因区域的拷贝，仍然会像其功能性亲本一样拥有这些内含子。

路径二：被劫持的信息（加工假基因）

第二种机制更具戏剧性，涉及一种引人入胜的分子“劫持”行为。遗传信息的正常流动，即中心法则，规定一个基因（DNA）首先被转录成一个信使RNA（mRNA）分子。这个mRNA充当移动蓝图。内含子被剪接掉，并添加一个保护性的帽子和一个长长的腺嘌呤碱基尾巴（poly-A尾）。这个成熟的mRNA随后前往细胞的蛋白质工厂——核糖体。

然而，我们的基因组中也存在着一些被称为反转录转座子的流氓遗传元件，它们是已经成为永久居民的古老病毒样实体。其中最常见的是LINE-1元件。这些元件含有编码一种名为反转录酶的酶的代码，该酶具有其名称所暗示的非凡能力：它读取一个RNA模板，并将其写回DNA。

偶尔，这个LINE-1机器会劫持细胞中一个随机的、成熟的mRNA分子。它将该mRNA反转录成一个DNA拷贝，称为互补DNA（cDNA）。这个cDNA拷贝随后被粘贴回基因组中一个全新的、通常是随机的位置。其结果就是一个加工假基因。

这个过程留下了一套独特的“指纹”：

没有内含子：模板是一个成熟的、经过剪接的mRNA，所以产生的假基因是一段连续的、曾经是编码序列的片段，完全没有其亲本基因的内含子。
Poly-A区段：反转录过程通常会复制mRNA的poly-A尾，在假基因的3'端留下一段可识别的腺嘌呤碱基序列。
新的家园：因为cDNA是随机插入的，加工假基因通常远离其亲本基因，常常位于完全不同的染色体上。
靶位点重复（TSDs）：插入新DNA的酶促机器通常会在靶位点进行交错切割。当这个切口被修复时，它会在新插入序列的两侧产生一段短的、正向重复的基因组DNA。找到这些侧翼的TSDs就像在犯罪现场找到了作案工具留下的痕迹。

从垃圾到宝藏：解读基因化石中的故事

几十年来，假基因被视为“垃圾DNA”，是进化的无意义碎屑。我们现在知道，这些“垃圾”是一个信息宝库。通过研究这些基因化石，我们可以揭示关于进化的深刻真理。

家族事务：假基因为旁系同源基因

一个基因和它的假基因之间是什么关系？它们是进化上的表亲。在遗传学中，同一基因组内由重复事件产生的两个基因被称为旁系同源基因。这个定义关乎历史，而非功能。无论重复的拷贝是保持功能、获得新功能，还是衰变为假基因，它与其亲本基因的历史关系都是永久的。因此，一个基因和它的假基因是旁系同源基因。认识到这种关系有助于我们重建基因家族的历史，描绘它们在进化时间长河中的诞生、重复和偶尔的消亡。

完美的时钟：以进化的速度滴答作响

想象一下，你试图用一块被修表匠不断调校的手表来计时——时而加快，时而减慢。这就像试图用一个功能性基因来衡量进化时间。“修表匠”就是自然选择。纯化选择会清除有害突变，减缓基因的进化。而正选择，为了应对新的环境挑战，可能导致一连串快速的变化，从而加速进化。速率是不稳定的。

现在，想象一块坏掉的手表，被扔进了抽屉。它不再受制于制表师的影响。它只是以一个缓慢、稳定、可预测的速率生锈和衰败。这就是假基因。因为它没有功能，它在很大程度上对自然选择是“不可见”的。在其中产生的突变是中性的；它们既无益也无害。它们只是以背景突变率累积。这使得假基因中的替换率 $k$ 近似恒定且等于突变率 $\mu$ 。这种可预测的衰变速率使假基因成为近乎完美的分子钟，让我们能够比使用功能性基因更有信心地追溯数亿年前的深层进化分歧。

共同历史的明确印记

也许假基因讲述的最深刻的故事，是关于我们共同祖先的故事。这是一个惊人地简单且具有强大统计学说服力的论证。

想象一位考古学家在两个不同且遥远的遗址中发现了两块古代陶罐的碎片。她注意到两块碎片都有完全相同、高度特定的裂纹图案。两种假说应运而生。一种是，两个完整的陶罐被分别放置在两个地方，然后由于一个离奇的巧合，两者都以完全相同的方式破碎。另一种假说是，一个陶罐先被打破，然后它的碎片被带到了两个不同的地方。当然，第二种解释要可信得多。

同样的逻辑也适用于人类和黑猩猩等物种之间共享的假基因。考虑一个在我们共同祖先中变成假基因的基因。假设它因两个特定的突变而失效：一个在精确位置 $p$ 的单碱基对缺失，和一个在密码子 $q$ 处的特定无义突变。在人类和黑猩猩的谱系分化后，两个物种都继承了这个已经损坏的基因。

现在，考虑另一种情况：这个基因在我们的共同祖先中是功能性的，在两个谱系分裂后各自独立地损坏。它纯粹偶然地以完全相同的两种方式损坏的概率是多少？假设对于这样一个大小的基因，有 $N_d = 1500$ 个不同的位置可能发生单碱基缺失并使基因失效，有 $N_{\text{stop}} = 45$ 个不同的单核苷酸变化可以产生终止密码子。偶然发生相同缺失的概率是 $\frac{1}{1500}$ ，偶然发生相同终止密码子的概率是 $\frac{1}{45}$ 。两个这种高度特定、完全相同的意外独立发生的概率是这些概率的乘积：

P(\text{independent match}) = \frac{1}{N_d} \times \frac{1}{N_{\text{stop}}} = \frac{1}{1500} \times \frac{1}{45} = \frac{1}{67500} \approx 1.5 \times 10^{-5}

这是一个极小的概率。相比之下，第一种假说——继承一个单一的、古老的破损——的可能性接近于1。支持共同起源的证据不仅是定性的；它是可量化的，并且是压倒性的。我们遗传密码中这些共同的“错误”，是进化最优雅、最强有力的证明之一。

假基因的故事是科学过程本身的完美典范：曾经被视为垃圾的东西，通过仔细观察和逻辑推导，被揭示为我们自身历史的深刻记录，用DNA的语言书写。而当我们学会更流利地阅读它时，我们发现，即使是机器中的幽灵也有故事要讲。

应用与跨学科联系

我们已经看到，假基因是曾经功能正常的基因的回响，因突变的无情累积而沉寂。人们可能因此倾向于将它们视为基因组的垃圾，是进化的化石碎片。这样做将错失一个信息的宝库。这些基因组的幽灵不仅是过去的沉默见证者；它们也是当下活跃的、有时甚至是麻烦的参与者。通过学习解读它们的故事，我们可以揭开深远的进化历史，克服现代技术障碍，甚至发现令人惊讶的生物功能新层次。让我们踏上一段旅程，探索这些“损坏”基因所揭示的非凡应用和跨学科联系。

分子考古学家：在破损代码中解读历史

假基因分析最深刻的应用，或许在于其作为进化生物学工具的强大力量。两个物种间共享一个功能性基因是共同祖先的有力证据，但共享一个已损坏的基因——并且带有完全相同的失活突变——则是一个名副其实的确凿证据。为什么？因为损坏一个基因的方式有无数种，而两个物种独立地获得完全相同的一组失活“拼写错误”的概率微乎其微。这就像在不同国家生产的两本千页大书中，碰巧都在第347页有完全相同的印刷错误。唯一合理的结论是，它们都是从同一个有缺陷的源头复制而来的。

我们自身无法产生维生素C的例子完美地说明了这一原理。大多数哺乳动物拥有一个功能性的GULOP基因，用于维生素C合成的最后一步。我们人类，以及我们的黑猩猩表亲，携带的是这个基因的失效版本——一个假基因。当我们检查导致这个基因损坏的突变时，发现它们在人类和黑猩猩中是完全相同的。这以近乎确定的方式告诉我们，这个基因是在我们共同的祖先中损坏的。有趣的是，豚鼠也无法制造维生素C，并且也有一个GULOP假基因，但使其基因失活的突变与我们的完全不同。这是一个典型的趋同进化案例：同样的功能丧失发生了，但通过独立的进化路径。假基因就像一个精确的历史标记，区分了共同起源和平行适应。

这些分子遗迹不仅能记录物种的分化，还能记录宏大的进化转变。例如，鸟类和爬行动物产下带有卵黄的蛋，卵黄的产生依赖于vitellogenin基因。哺乳动物随着胎盘和活产的进化，使得这个基因变得过时。果不其然，深埋在人类基因组中，我们发现了vitellogenin假基因的残骸。它没有任何作用，但它作为我们与产卵脊椎动物深层祖先联系的无可否认的分子胚胎学证据而存在。

假基因的故事不仅书写在物种之间，也体现在单个基因组的结构中。以人类性染色体为例。X和Y染色体被认为是从一对相同的常染色体进化而来的。随着时间的推移，Y染色体急剧退化，失去了大部分原始基因。Y染色体上存在大量假基因，而它们的功能对应物仍然存在于X染色体上，这一事实揭示了这一过程。这些Y连锁的假基因是X和Y染色体曾为匹配一对时期的遗迹，见证了伴随性染色体重组抑制而来的进化衰退。通过统计特定基因家族中功能基因与假基因的数量，我们甚至可以对一个物种的生活方式做出有根据的推测。例如，嗅觉受体家族中假基因的高比例强烈表明，该物种的进化方式使其对嗅觉的选择压力有所放松，可能是因为它适应了水生环境或变得更加依赖视觉。

基因组的幽灵：当假基因困扰现代技术

虽然假基因是进化生物学家的福音，但对于遗传学家和生物信息学家来说，它们可能是一场灾难。它们与功能基因高度的序列相似性意味着它们是基因组中的幽灵，会困扰我们最先进的分子工具，造成混淆并导致错误的结论。核心挑战很简单：当一个沉默的、几乎相同的回响就在旁边时，你如何检测到一个真实、活跃基因的信号？

答案通常在于利用一个关键的结构差异。许多假基因，被称为“加工假基因”，起源于一个被反转录回DNA的RNA信息。因为这个过程始于一个成熟的mRNA转录本，其内含子已被剪接掉，所以产生的假基因是不含内含子的。这提供了一种巧妙的方法来区分活跃基因及其幽灵。希望测量特定基因变体表达的分子生物学家可以设计一种检测方法（如RT-PCR），其引物特异性地跨越两个外显子之间的连接处。这种“外显子-外显子”连接只存在于功能基因的剪接后mRNA中，而不存在于基因组DNA中，并且关键的是，也不存在于连续的、无内含子的加工假基因中。这种巧妙的设计使得该检测方法不受假基因的干扰。

然而，这一技巧并非总是奏效，尤其是在大规模基因组测序兴起的背景下。下一代测序（NGS）技术将基因组粉碎成数百万个微小的短读段。然后，一个比对算法试图通过找到每个短读段在参考基因组中的最佳匹配位置来重新拼凑这个拼图。问题就在这里。一个源自假基因类外显子区域的短读段可能与真实基因的外显子非常相似，以至于比对算法无法区分，或者更糟的是，错误地将其放置在功能基因的位点上。如果假基因恰好在该位置携带一个不同的核苷酸，这些错位的读段会产生一个假信号，使得看起来该个体拥有一个实际上并不存在的遗传变异（等位基因）。这在医学遗传学中可能产生严重后果，因为一个假阳性变异检出可能导致错误的诊断。同样的问题还可能产生更复杂的“幻觉”，例如，来自无内含子假基因的分割读段被误解为亲本基因位点发生基因重复事件的证据。

幸运的是，带来问题的技术往往也能激发其解决方案。长读长测序技术的出现提供了一种强大的方法来驱除这些基因组幽灵。通过在单个长分子中读取整个mRNA转录本，我们可以一次性看到其完整结构。来自功能基因的长读段在与基因组比对时会清晰地显示出被剪接掉的内含子作为间隙。而来自加工假基因的读段则不会。这种明确的、全长的信息使我们能够确定地将来自基因及其讨厌的假基因对应物的转录本分离开来，使基因组分析重归清晰[@problem_-id:1501407]。

活生生的回响：当假基因做出回应

很长一段时间里，假基因的故事似乎就到此为止：它们要么是历史遗迹，要么是技术上的麻烦。但自然界很少如此简单。我们现在发现，一些假基因并非完全死亡。在某些情况下，这些回响可以“做出回应”，并以非凡的方式影响活的基因组。

在寄生虫Trypanosoma brucei（非洲昏睡病的病原体）的生命中，这一点表现得尤为戏剧化。这种寄生虫的生存依赖于它不断改变其蛋白质外壳以逃避宿主免疫系统的能力。它通过一个包含超过一千个VSG假基因的庞大沉默档案库来实现这一壮举。该寄生虫只有一个活跃位点，用于表达一个VSG基因。通过一种称为基因转换的过程，它可以从其沉默的假基因库中“复制和粘贴”片段到活跃位点，从而组装出一个新颖的、镶嵌式的VSG基因。就好像这种寄生虫有一个备件库，可以混合搭配以构建无穷多种新外壳。在这种情况下，这些假基因根本不是垃圾；它们是一个至关重要的、功能性的遗传信息库，对寄生虫的生存至关重要。

基因转换——一个DNA序列被另一个位点的同源序列所取代的现象——揭示了基因与其假基因亲属之间动态的相互作用，这种作用也可能发生在其他生物体中，包括我们自己。想象一个患有由功能基因突变引起的遗传病的人。现在，假设这个人也携带一个假基因，该假基因由于历史偶然，在该特定位置保留了原始的、健康的序列。从机理上讲，一个罕见的基因转换事件有可能利用这个假基因作为模板，在单个细胞内“修复”功能基因中的突变。虽然这类事件可能过于罕见，无法成为普遍的治疗方法，但它们阐明了一个深刻的原理：基因组不是一个由独立单元组成的静态集合。它是一个动态的、相互作用的网络，即使是沉默的、“死亡”的元件，有时也能伸出援手，改变生命体的命运。

从我们最深远过去的化石，到我们最先进技术中的幻影，再到基因组戏剧中的活跃角色，假基因已经证明它们远不止是进化的死胡同。它们是生命混乱、美丽和无穷创造力的证明，提醒我们，在基因组这本书中，没有哪个章节是真正被丢弃的。