首页插入和缺失（Indel）

插入和缺失（Indel）

玻尔百科

定义

插入和缺失（Indel）是指 DNA 序列中核苷酸碱基的增加或丢失，这一遗传突变过程如果导致非三倍数的长度变化，会引发破坏性的移码突变。Indel 突变由 DNA 聚合酶滑动或双链断裂的易错修复等机制产生，是生物技术中利用 CRISPR 进行基因敲除的核心机制。在遗传学和医学领域，插入和缺失（Indel）被广泛应用于临床诊断，例如作为癌症中微卫星不稳定性检测的诊断标志物。

核心要点

插入和缺失（indel）是遗传突变，其影响取决于大小和位置。在蛋白质编码区，长度不能被三整除的indel会导致破坏性的移码突变。
Indel由多种分子机制产生，包括重复序列中的DNA聚合酶滑移、非等位基因同源重组（NAHR）以及双链断裂的易错修复。
Indel知识在医学上被用作诊断标志物（如癌症中的微卫星不稳定性），在生物技术中作为使用CRISPR进行基因敲除的主要机制。
进化过程中，小片段缺失的偏好与转座子导致的大片段插入之间的拉锯战是解释物种间基因组大小巨大差异的关键因素。

引言

插入和缺失，统称为indel，是最基本的遗传变异类型之一，代表着基因组序列中DNA字母的简单增加或移除。尽管它们看似简单，其后果却深远而复杂。一个indel可能是一次导致遗传病的灾难性错误，也可能是驱动进化创新的关键动力，甚至可以成为科学家手中重写生命密码的精确工具。本文旨在连接indel的分子起源与其广泛影响之间的鸿沟，通过探索其内在逻辑和现实关联，试图回答这些微小的编辑如何能引发如此多样的结果。接下来的章节将引导你概览这一领域。首先，在原理和机制部分，我们将探讨控制indel的基本规则，包括遗传密码中的“三联体定律”，并揭示创造它们的细胞机制。随后，应用和跨学科联系章节将揭示indel如何作为诊断线索、工程工具以及整个基因组的宏伟建筑师。

原理和机制

想象一下，你和一位朋友正在比较一部非常长的古老文本的笔记。你发现一段你的副本上写着...THE OLD MAN...，而你朋友的副本上写着...THE ANCIENT OLD MAN...。你可能会说你朋友的副本中有一个ANCIENT的“插入”。但你的朋友同样可以声称你的副本中有一个“缺失”。谁是对的呢？如果没有第三份、甚至更古老的手稿作为决断的依据，这个问题是无法回答的。“插入”和“缺失”的标签完全取决于你的视角——即你选择的参照物。

这个简单的类比揭示了关于基因组的一个深刻真理。在遗传学中，我们所说的插入或缺失——统称为indel——本质上是两个DNA序列之间的比较。为了确定事件的真实“极性”，也就是说，为了知道在进化过程中核苷酸是真正增加了还是减少了，我们需要第三个参照点，即一个外群。通过将我们的两个相关序列与一个亲缘关系更远的物种进行比较，我们可以重建祖先序列，并以更高的可信度推断，是在一个谱系中发生了插入，还是在另一个谱系中发生了缺失。这个历史视角提醒我们，基因组并非静态的蓝图，而是一份动态的、不断演变的文件，在亿万年的时间里被反复书写和改写。

变化的词汇：定义我们的术语

在我们探索创造indel的精妙机制之前，我们必须首先使用共同的语言。并非所有的遗传变化都是等同的。最简单的是点突变，即单个“字母”——一个核苷酸碱基对——被替换为另一个。任何超出这个范围的变化都进入了indel及其更大变异类型的领域。

让我们像大自然一样精确。我们可以根据影响的核苷酸数量对这些变化进行分类：

点突变（或单核苷酸变异，SNV）：恰好替换 $1$ 个碱基对。
插入：增加一段连续的 $k$ 个新核苷酸，其中 $k \ge 1$ 。
缺失：移除一段连续的 $k$ 个核苷酸，其中 $k \ge 1$ 。
Indel：插入和缺失的总称。

还有一个尺度问题。虽然理论上indel可以是任何大小，从单个核苷酸到数千个，但遗传学家为那些真正巨大的事件设立了一个特殊类别。我们称之为结构变异（SVs）。界线有些武断，但一个常见的经验法则是，任何大于约 $50$ 个碱基对的indel都被视为SV。这个类别还包括完全不同类型的重排，如倒位（一段DNA反转）或易位（一条染色体的一段断裂并连接到另一条上）。在本文中，我们将专注于支配indel的原理，这些原理在每个尺度上都适用。

三的铁律：Indel与读码框

现在，我们对indel是什么有了坚实的理解。但它会做什么呢？要理解增加或减少DNA字母的后果，我们必须深入到细胞的蛋白质制造工厂的核心。在这里，遗传密码不是逐个字母读取的，而是以三个字母为一组的“词”——密码子——来读取的。

想象一个基因的编码序列是一句长长的、没有空格的句子，其中每个词都恰好有三个字母：THEFATCATATETHERAT。读取这句话的机器——核糖体——知道从头开始，并以三个字母为一组进行分组：THE FAT CAT ATE THE RAT。这种分组方式被称为读码框。

现在，如果我们引入一个indel会发生什么？让我们删除一个字母，‘FAT’中的‘F’：THEATCATAT[ETH](/sciencepedia/feynman/keyword/eigenstate_thermalization_hypothesis)ERAT。核糖体浑然不觉我们的编辑，从头开始以三个字母一组进行读取：THE ATC ATA TET HER AT...。这句话瞬间变得毫无意义。这种灾难性的结果被称为移码突变。

规则优雅而无情。这是一种“三的铁律”。在蛋白质编码区，一个长度为 $\ell$ 个核苷酸的插入或缺失，当且仅当其长度不是三的倍数时，才会引起移码。用数学术语来说，当 $\ell \pmod 3 \neq 0$ 时，会发生移码。

然而，如果indel的长度是三的倍数（例如，删除3、6或9个核苷酸），则在事件发生点下游的读码框保持完整。这种突变被称为框内indel。其结果是产生一个缺少一个或多个氨基酸（对于缺失而言）或具有额外氨基酸（对于插入而言）的蛋白质，但蛋白质序列的其余部分是正确的。这可能仍然具有破坏性，但通常远不如移码产生的完全无意义的序列来得严重。

这个系统的逻辑带来了一些奇妙的后果。想象一个由+1插入引起的移码突变。它可能被第二个附近的突变——一个-1缺失——所“拯救”！在两个突变都发生后，下游的读码框得以恢复，因为净变化为 $(+1) + (-1) = 0$ 。类似地，一个+4插入后跟一个-1缺失也会恢复读码框，因为净变化为+3，是三的完美倍数。两个indel之间的区域将被打乱，但蛋白质的其余部分可以被挽救。

Indel的诞生：基因组变化的三个故事

Indel并非仅仅是抽象的可能性；它们是由细胞内真实的物理过程产生的。让我们来探索它们是如何产生的三个引人入胜的故事。

机器的卡顿：聚合酶滑移

想象一台高速复印机——DNA聚合酶——正在复制基因组。大多数时候，这个过程非常精确。但有些序列是出了名地难以复制。这些是短串联重复序列（STRs），也称为微卫星——DNA片段中，像CA或GATA这样的短基序一遍又一遍地重复：CACACACACA...。

这些序列很“滑”。在复制过程中，新合成的链可能会短暂地从其模板上脱离。在正常序列中，在错误的位置重新附着几乎是不可能的。但在重复区域，有几十甚至上百个相同的“停靠点”。新链很容易错位，或者说“滑移”。接下来发生什么取决于哪条链发生了滑移：

插入：如果新生链向后滑移并形成一个环，聚合酶就会被欺骗，重新复制它已经合成过的一段。结果是在新链中产生了额外的重复单元——即一次插入。
缺失：如果模板链形成一个环，聚合酶就会直接跳过这个环状部分。新链合成出来的重复单元就变少了——即一次缺失。

这个机制的美妙之处在于，它解释了为什么这些indel的大小不是随机的。因为当重新对齐与重复单元对齐时最为稳定，所以产生的环几乎总是包含重复单元的整数倍。一个(CA)n重复序列中的滑移事件将产生2、4或6个碱基的indel，但很少产生1或3个碱基的indel。这个过程在复制滞后链上DNA复杂拼接过程中尤为活跃，使这些区域成为突变热点。

危险的联结：出错的重组

我们的第二个故事从微小的卡顿转向了大规模的结构剧变。人类基因组中散布着大量近乎相同的DNA片段，称为节段性重复或低拷贝重复序列（LCRs）。这些片段可以长达数千个碱基对。

在减数分裂——即创造精子和卵子的细胞分裂形式——期间，同源染色体配对并在一个称为同源重组或交换的过程中交换片段。这对于产生遗传多样性至关重要。细胞机制找到两条染色体上的相应区域，并精心安排一次精确的交换。

但如果这个机制出错了呢？如果它没有将两个真正对应的（等位基因的）区域配对，而是将两个不同但高度相似的LCRs配对了呢？这被称为非等位基因同源重组（NAHR），其后果是戏剧性的。

想象一下两条染色体，每条都有一个LCR1 - Unique_Gene - LCR2的结构，其中LCR1和LCR2是正向重复。如果在配对期间，第一条染色体上的LCR1与第二条染色体上的LCR2对齐，就产生了不等位对齐。此时发生的交换事件会产生两种相互异常的产物：

一条染色体将发生巨大的缺失，失去了那个独特的基因和其中一个LCR。
另一条染色体将发生巨大的重复（一次插入），最终拥有两个拷贝的独特基因和三个LCR。

这种错位和交换的单一、优雅机制是数十种已知的人类遗传病——即由整个基因的缺失或重复引起的“基因组病”——的根源。

修复的伤疤：双链断裂与末端连接

我们的最后一个故事将我们带到了现代生物技术的前沿。CRISPR、TALENs和锌指核酸酶等工具是“分子剪刀”，可以被编程在基因组的特定位点造成一个干净的切口——双链断裂（DSB）。

对于细胞来说，DSB是最高级别的警报。它必须立即被修复。细胞最快的应急响应团队是一个称为非同源末端连接（NHEJ）的通路。其主要目标是尽快将两个断裂的末端缝合在一起。这个过程通常是混乱且易错的，常常留下小的、随机的indel作为“疤痕组织”。

但还有一个更有趣的替代通路，称为微同源介导的末端连接（MMEJ）。在这里，细胞变得更有条理一些。修复酶会切回断裂的末端，暴露出短的单链尾巴。然后，细胞在这些尾巴中寻找被称为微同源序列的、仅有几个核苷酸长的微小相同序列片段。如果找到一对匹配的，它就用它们来对齐两个末端，修剪掉中间的DNA瓣，填补任何缺口，并将末端连接起来。

MMEJ不可避免的后果是，最初位于两个微同源片段之间的DNA片段发生缺失。这意味着由DSB产生的indel模式并非完全随机。局部DNA序列及其独特的微同源序列景观决定了哪些缺失产物最有可能形成。在目标位点，这种indel大小和频率的分布被称为indel谱，理解它对于设计有效的基因组编辑疗法至关重要。

基因组警察：在错误固定前捕获它们

鉴于这些产生indel的强大机制，你可能会想，为什么我们的基因组没有布满错误。答案是，细胞拥有一支精密的警察部队，专门负责发现和修复这些错误。

第一道防线是DNA聚合酶自身的校对能力。这个功能在捕捉错配的碱基对方面非常出色，但在识别由链滑移引起的环状结构扭曲方面却表现不佳。

为此，需要一个更专业的单位：错配修复（MMR）系统。这组蛋白质巡逻着新合成的DNA，寻找聚合酶遗漏的错误。在indel的世界里，MMR团队内部有着迷人的分工：

MutSα（MSH2-MSH6复合物）：这是“巡警”，负责处理最常见的问题——碱基-碱基错配和微小的、单核苷酸的环。
MutSβ（MSH2-MSH3复合物）：这是专门处理大案的“侦探”。它对在串联重复序列中滑移产生的特征性的大插入-缺失环（2个或更多核苷酸）有很高的亲和力。

当这个MMR系统功能正常时，它会捕获并纠正绝大多数由滑移引起的indel。但是当系统因MSH2或MSH3等基因突变而受损时，indel突变率就会飙升。这种“微卫星不稳定性”是某些癌症的一个标志，它鲜明地提醒我们，在我们的细胞内，创造突变的力量与不懈努力维护我们遗传密码完整性的系统之间，正在进行着一场持续的战斗。

应用和跨学科联系

什么是错误？在计算机清脆的数字世界里，一个翻转的比特可能是一场灾难。但在生物学那个绚烂而混乱的模拟世界里，“错误”常常只是机遇、新奇或信息的另一个名字。对于小小的插入和缺失——“indel”——来说，这一点尤为真实。Indel远非单纯的错误，它是基因组的塑造者、工程的工具、疾病的线索，以及生命源代码中的一个基本操作符。在理解了创造它们的机制之后，让我们现在来探索这些微小的增减如何对科学和医学产生深远影响的 myriad 方式。

Indel作为诊断特征

或许我们对indel知识最直接的应用是在诊断领域，在那里它们充当着潜在生物过程（无论是正常的还是病理的）的指示性特征。

想象一下两个歌手照着同一张乐谱唱歌。一切都很顺利，直到其中一人突然打了个嗝，跳过了一个词。从那一刻起，他们就无可救药地失去了同步。接下来的每一个音符都相互冲突，美妙的和声消解为混乱的杂音。这正是遗传学家在分析携带一个基因的两种不同版本（等位基因），其中之一包含一个indel的个体DNA时所观察到的情况。使用经典的Sanger测序，该过程会产生各种可能长度的DNA片段。在indel点之前，来自两个等位基因的片段是相同的，产生干净、清晰的信号。但在断点之后，两个片段的“阶梯”错开了相位。对于任何给定的长度，机器检测到两个具有不同末端碱基的不同片段，导致持续的、重叠的峰值混杂。这种特定的混乱是一个indel存在的明确标志。

现在，如果这不仅仅是一次性的失误呢？如果细胞自身的校对机制坏了呢？想象一个失去了精确计数能力的抄写员。在抄写包含“and on and on and on”这样重复短语的文本时，他几乎肯定会多写或少写一个“on”。一个具有缺陷的DNA错配修复（MMR）系统的细胞在复制过程中正是这样做的。我们基因组的某些区域，即所谓的微卫星，是由短小的、断续的重复序列组成的（如T-T-T-T-T-T-T-T或CA-CA-CA-CA-CA）。这些“光滑”的序列在DNA合成过程中容易发生链滑移，产生小的插入或缺失环。一个健康的MMR系统能有效纠正这些错误。但当MMR受损时——这在某些类型的癌症中是常见事件——这些错误会累积起来，基因组中微卫星的长度开始剧烈变化。这种状态，被称为微卫星不稳定性（MSI），是MMR缺陷如此可靠的“基因组疤痕”，以至于它已成为现代癌症诊断的基石。临床医生可以使用简单的DNA片段分析来检测MSI，或者通过新一代测序在更大尺度上看到其影响，后者揭示了重复区域中大量的单碱基indel负担。简单的indel成为了一个强大的生物标志物。

这种基因组“口吃”的后果是深远的。遗传密码是以三个字母为一组的“词”——即密码子——来读取的。插入或删除一个非三的倍数的碱基数会导致移码突变（）。句子 The big red cat ate the rat（这只大红猫吃了那只老鼠），如果移位一个空格，可能会变成 Th ebi gre dca tat eth era t——完全是胡言乱语。在细胞的蛋白质工厂里，这张损坏的蓝图仍然被翻译，但它产生的是一个奇怪的、乱码的蛋白质。这些新的蛋白质片段被称为“新抗原”。对于不断巡逻寻找任何看起来“外来”物质的免疫系统来说，这些新抗原就像从肿瘤细胞表面挥舞的巨大红旗。这里就藏着医学中一个美妙而矛盾的转折：正是那个帮助驱动癌症的遗传缺陷，也为其背部画上了一个靶子，使得这些MSI高的肿瘤对那些通过释放患者自身免疫系统来攻击癌症的免疫疗法具有独特的易感性。

Indel作为发现和工程的工具

除了作为被动的线索，indel还是科学家手中的主动工具，使我们能够探究生命的隐藏结构，甚至为了我们自己的目的来雕塑它。

DNA双螺旋是一个非常规则的结构，就像一个螺旋楼梯，大约有 $10.5$ 个碱基对构成一个完整的 $360^{\circ}$ 转弯。假设两个蛋白质，比如一个转录激活因子和RNA聚合酶，需要相互接触才能开启一个基因。为了实现这一点，它们在DNA上的结合位点必须位于同一个旋转面上。如果我们利用基因工程在它们之间插入 $5$ 个额外的碱基对会发生什么？我们刚刚将一个蛋白质旋转了大约 $180^{\circ}$ ，把它移到了DNA楼梯的对面，从而断开了连接。但如果我们插入 $10$ 或 $11$ 个碱基对呢？这几乎是一个完整的 $360^{\circ}$ 转弯，瞧！——蛋白质又回到了同一侧，连接得以恢复。这种现象，被称为螺旋相位，是分子生物学中的一个经典概念。通过系统地插入或删除少量碱基，并观察生物学功能时断时续，科学家可以推断出读取我们基因组的分子机器的精确几何要求。

这种雕塑的原则从DNA支架延伸到了蛋白质本身。要赋予一个酶新的能力，比如在酷热温度下生存，仅仅替换几个氨基酸（点突变）通常是不够的。有时，需要改变蛋白质的主干本身，也许可以通过缩短一个导致其不稳定的长而灵活的环来实现。这就是随机插入和缺失（RID）诱变等方法发挥作用的地方。通过随机向基因中添加或剪切掉整个密码子，研究人员不再仅仅是重新铺设蛋白质的表面；他们正在探索全新的结构可能性。这是一种在实验室中进行定向进化的强大方式，创造出能够执行自然界从未要求过的任务或在自然界从未有过的条件下生存的蛋白质。

这种工程的顶峰，当然是CRISPR-Cas9。通常被描绘为分子“剪刀”，标准CRISPR-Cas9切割最简单和最常见的结果并非一个干净、预先确定的编辑。相反，它通常是一个小的、随机的indel，这是当细胞匆忙且易错的修复团队，通过一个称为非同源末端连接（NHEJ）的过程，仓促地修补DNA断裂时产生的。对于那些想要“敲除”一个基因的科学家来说，这是完美的——产生移码的高概率有效地沉默了该基因。这让我们回到了起点。为了正确利用这一革命性工具的力量，我们必须能够准确地解读其结果。这需要复杂的生物信息学流程，能够筛选数百万个编辑过的细胞的测序数据，精确地量化indel和其他变化的谱系，并严格地区分真实的编辑事件与背景噪音和实验假象。创造性地编写基因组的能力与我们分析性地读取它的能力密不可分。

Indel作为基因组和进化的建筑师

最后，让我们将视野放大到最宏大的尺度：整个基因组在数百万年间的演化。在这里，indel从微小的编辑转变为基因组结构的主要建筑师。

在我们能够欣赏宏大的进化故事之前，我们必须首先学会准确地阅读分子文本。现代测序仪，尽管功能强大，也并非完美；它们有自己的“口音”。像Illumina这样的短读长技术倾向于产生替换错误——即弄错单个字母。相比之下，像Oxford Nanopore这样的更新的长读长技术，虽然能读取更长的DNA片段，但历史上其错误率更高，且主要由indel主导——即意外地添加或跳过一个字母。这种错误模式的根本差异给生物信息学家带来了完全不同的挑战。对于Illumina，难题是组装许多短小而准确的句子。对于Nanopore，你可能一次性得到整个段落，但你必须破译那些含糊不清的词语。

这种区别并非仅仅是学术性的。将测序错误误认为是真实的生物学事件可能导致极其错误的结论。考虑使用“分子钟”来确定两个物种分歧年代的任务。时钟随着时间的推移，通过取代的稳定积累而“滴答”作响。然而，基因组的某些区域天然是重复的，富含indel，这使得它们在物种间进行比对时极为困难。一个幼稚的比对算法很容易将一个缺口放错位置，导致两个非同源的碱基看起来是对齐的。如果这些碱基恰好不同，计算机会记下一个虚假的“取代”。如果这种情况反复发生，观察到的取代数量就会被夸大，分子钟就会走得过快，使得物种看起来比它们实际上更古老、亲缘关系更远。这是一个深刻的教训：对宏伟进化时间尺度的掌握，取决于对单个碱基比对的谦卑认识。

这引出了生物学中一个巨大的谜题：C值悖论。为什么有些基因组，比如我们自己的，庞大而杂乱，超过 $98\%$ 的DNA不编码蛋白质，而另一些，比如细菌的，却是效率的典范？答案的一个关键部分在于indel在亿万年间上演的一场宏大的拉锯战。一方面，存在着一种持续的、温和的小片段缺失压力，这是一种普遍的“突变偏见”，倾向于修剪掉任何非必需的DNA。另一方面，则是由被称为转座子的“跳跃基因”带来的戏剧性的、尽管较为罕见的大片段插入。这场基因组战争的胜者由自然选择裁定，其力量很大程度上由物种的有效种群大小（ $N_e$ ）决定。在拥有巨大种群的物种中，如大多数细菌，选择在清除转座子插入的轻微有害的垃圾DNA方面异常高效。缺失偏见获胜，基因组保持精简。在种群较小的物-种中，如许多脊椎动物，选择较弱，辨别力也较差。它不能有效地“看到”并移除携带额外DNA的轻微有害代价。在这里，转座子可以肆意横行，随进化时间使基因组膨胀。

从测序色谱图上的一个闪烁，到地质时期塑造DNA大陆的力量，插入和缺失远非一个简单的错误。它是一个线索、一个工具，也是一位建筑师——是生命持续动态故事中的一个基本操作符。