链终止法

玻尔百科

定义

链终止法是分子生物学中一种通过使用特殊的双脱氧核苷酸（ddNTPs）随机停止DNA合成，从而产生不同长度片段的测序技术。该方法利用电泳技术按大小对片段进行排序，并通过识别每个片段末端的荧光标记碱基来确定遗传序列。尽管其读长限制在800至1000个碱基左右，但因其极高的准确性，链终止法仍被视为验证基因数据、诊断遗传疾病和鉴定微生物物种的金标准。

核心要点

链终止法通过使用特殊的双脱氧核苷三磷酸（ddNTPs）来随机终止DNA合成，从而产生一系列涵盖所有可能长度的DNA片段。
这些片段通过电泳按大小进行分离，并通过按大小顺序识别每个片段末端的荧光标记碱基来读取序列。
尽管其读长被限制在约800-1000个碱基，但由于其高准确性，Sanger测序法被认为是验证遗传数据的“金标准”。
它在确认NGS发现、填补基因组组装缺口、诊断遗传病和鉴定微生物物种方面具有关键的现代应用。

引言

DNA序列是所有已知生命的基本指令手册，然而，阅读这段写在无形分子卷轴上、长达数十亿字母的密码，是生物学最巨大的挑战之一。科学家如何能破译一种他们看不见的语言？答案来自一种巧妙的生化策略，它“劫持”了细胞自身的复制机制。本文将阐明链终止法——由Frederick Sanger荣获诺贝尔奖的发现，这项发现首次让我们能够精确而准确地阅读生命之书。

我们将首先探讨这种巧妙方法的原理与机制，详细说明受控地中断DNA合成如何产生可读的序列。随后，在应用与跨学科联系部分，我们将回顾其无数用途，探索这项单一技术如何成为整个生物和医学科学领域中进行验证、发现和治疗不可或缺的工具。

原理与机制

想象一下，你发现了一个宏伟的古代图书馆。里面的卷轴记载着生命本身的秘密，用一种只有四个字母的语言书写： $A$ 、 $T$ 、 $C$ 和 $G$ 。这就是DNA。挑战是巨大的：你如何阅读一段长达数十亿字母、写在肉眼不可见的精细分子卷轴上的文本？你不能直接看。你需要一个诀窍，一种极其聪明的方式来诱使分子揭示其自身的序列。这就是那个诀窍的故事，由Frederick Sanger开发的链终止法，一个改变了生物学的生化逻辑杰作。

受控中断的艺术

Sanger测序法的核心是一个我们为己所用而“劫持”的自然过程：DNA复制。当细胞分裂时，一种称为DNA聚合酶的酶会一丝不苟地复制整个基因组。你可以把聚合酶想象成一个抄写员，沿着单链DNA（模板）滑动，并书写一条新的互补链。它拾取构建模块——脱氧核苷三磷酸，或dNTPs（dATP、dCTP、dGTP和dTTP）——并遵循 $A$ - $T$ 和 $C$ - $G$ 配对法则将它们逐一添加。这个过程快得惊人且准确无误，但对于测序，我们需要的不仅仅是制作一个完美的副本。我们需要知道每个字母在添加时的身份。

Sanger的绝妙洞见在于中断这位“抄写员”的工作。他设计了一种分子“破坏者”：双脱氧核苷三磷酸，或ddNTP。一个正常的dNTP在其3'（“三撇”）端有一个化学“钩子”，一个羟基（ $-OH$ ）基团，聚合酶用它来连接生长链中的下一个核苷酸。而ddNTP则是一个有缺陷的版本。它看起来与正常对应物几乎完全相同，聚合酶会很乐意地将它添加到链上，但它缺少那个关键的3'钩子。一旦一个ddNTP被掺入，链就“死”了。抄写员写下的这个字母所用的“墨水”无法再被覆盖；合成被永久终止。这就是该方法被称为链终止法的原因。

为了让这个方法奏效，你不能只使用ddNTPs，否则合成将在第一个碱基后就停止。你也不能只使用dNTPs，否则你只会得到一个全长的副本，没有任何序列信息。秘诀在于配方：你创建一个反应混合物，其中包含你想读取的模板DNA、一个称为引物的短起始序列、DNA聚合酶，以及大量所有四种正常的dNTPs。然后，你加入微量、经过仔细计量的所有四种ddNTPs。

现在，当聚合酶复制模板时，它主要拾取正常的dNTPs并继续前进。但偶尔，纯粹出于偶然，它会抓取一个ddNTP。当它添加一个ddGTP时，合成就在那个 $G$ 处停止。当它添加一个ddATP时，合成就在那个 $A$ 处停止。因为这同时发生在数百万个DNA分子上，所以反应变成了一场统计游戏。结果不是一条长DNA链，而是一个全面的片段文库。对于一个模板序列，你会得到一个在第一个碱基处停止的片段，一个在第二个碱基处停止的片段，第三个，以此类推，覆盖序列中的每一个位置。你成功地将读取序列的问题转化为了一个测量一组DNA片段长度的问题。

通过一个思想实验，我们可以轻易看出正常dNTPs的绝对必要性。如果你准备反应时忘记添加，比如说，dATP，会发生什么？合成将会开始，按需添加C、G和T。但当模板第一次需要添加一个 $A$ 时，聚合酶会徒劳地寻找所需的dATP。由于找不到，每一条链的合成都会在那个完全相同的位置永久停止。你不会得到一个片段阶梯，而只会得到一个单一的中止产物，序列仍然是个谜。该方法不仅仅是关于终止，它是关于延续与终止之间的微妙平衡。

这种通过受控合成产生片段的方法是一个重大的概念飞跃。当时与之竞争的技术，Maxam-Gilbert测序法，是通过获取完整的DNA链并使用刺激性化学物质在特定碱基处随机断裂它来工作的。Sanger的方法更温和、更高效，并最终更具可扩展性——它是构建而非破坏。

从凝胶阶梯到色彩队列

现在你有一管装满了精美DNA片段集合的试管，每个片段都以特定碱基结尾，并且长度上仅相差一个核苷酸。你如何对它们进行排序以读取信息？答案是凝胶电泳，一种按大小分离分子的技术。

在经典方法中，你会进行四个独立的反应，每个ddNTP一个（一个 $G$ 管，一个 $A$ 管，一个 $T$ 管和一个 $C$ 管）。这些片段通常用放射性标记物标记，然后被加载到薄凝胶上的四个平行泳道中。当施加电场时，带负电的DNA片段开始穿过凝胶网状的基质。较短的片段更灵活，穿过基质的速度远快于较长、较笨重的片段。这就像一场比赛，最小的选手跑得最快。

比赛结束后，凝胶上会显示出一系列条带，形成一个阶梯，每个梯级都是一个DNA片段。要读取序列，你只需从凝胶底部（跑得最远的最短片段）开始，向上读取。如果第一条带在 $G$ 泳道中，那么第一个碱基就是 $G$ 。如果上一条带在 $A$ 泳道中，那么下一个碱基就是 $A$ ，以此类推。通过从下到上读取泳道，你就可以逐个字母地重建新合成链的序列。

这种方法虽然具有革命性，但操作繁琐。现代的突破是将四个反应合并为一个，通过为四种ddNTPs使用不同的荧光染料：例如，绿色代表 $A$ ，蓝色代表 $C$ ，黄色代表 $G$ ，红色代表 $T$ 。现在，所有的片段都在一个试管中生成。这些片段不再在平板凝胶上奔跑，而是在一根充满凝胶的超细毛细管中竞赛——这个过程称为毛细管电泳。在毛细管的末端，一束激光激发染料，一个检测器记录下每个片段通过终点线时的颜色。

输出不再是物理的凝胶图像，而是一个数字化的电泳图，即一系列随时间变化的彩色峰。最小的片段最先飞速通过，其颜色被记录下来。然后是下一个，再下一个，形成一个按大小完美排序的队列。彩色峰的序列——黄、蓝、红、黄、蓝……——直接转化为DNA序列： $G$ 、 $C$ 、 $T$ 、 $G$ 、 $C$ ……自动化软件会进行这种“碱基识别”，甚至为每次识别分配一个质量分数。有时会出现一些假象，比如在最开始处有一团凌乱的“染料团”，或者由光谱噪声引起的微小杂峰，但训练有素的眼睛（或一个好的算法）可以轻易地将这些与真实信号区分开来。

完美的固有局限

Sanger测序法极其准确，但并非万无一失。它有源于该过程物理原理的根本局限性。一个主要限制是读长。虽然前几百个碱基的信号清晰无比，但电泳图上的峰不可避免地会变宽、变短并开始重叠，直到序列变得无法辨认。为什么？

原因在于电泳的物理原理。分离效果取决于长度为 $N$ 的片段和长度为 $N+1$ 的片段之间的相对大小差异。对于短片段，增加一个碱基是显著的尺寸分数增加，使得它们易于分离。一个21碱基的片段比一个20碱基的片段大约5%。但对于一个长片段，比如800个碱基，再增加一个碱基仅增加了约0.125%。这种微小的差异导致它们在凝胶中速度上的分离也微乎其微。同时，片段行进得越长，由于扩散作用，它就铺展得越宽。最终，峰变得如此宽且如此接近，以至于它们融合成一个无法分辨的凸起。这个物理分辨率极限是为什么单次Sanger测序通常最多只能产生约800-1000个高质量碱基的原因。

另一个更微妙的限制是灵敏度。如果你的样本不纯，而是含有95%的一种序列和5%的一种稀有变异（例如，在肿瘤中）的混合物，会怎么样？你希望在变异位置看到一个大的主峰和一个不同颜色的微小次峰。然而，检测系统存在噪音。一个重要的噪音来源是光谱重叠，即一种染料（比如，强烈的绿色 $A$ 峰）的荧光会“泄漏”到另一种染料（比如，蓝色的 $C$ ）的检测通道中。这在所有通道中产生了一个低水平的背景噪音。

为了能够自信地检测到稀有变异，其真实信号必须高于这个背景噪音基线。我们甚至可以对此建模：可检测的最小变异分数 $f_{\min}$ ，取决于光谱串扰量（ $\beta$ ）和随机电子噪声（ $\gamma$ ）。一个简化但强大的关系式表明 $f_{\min} \approx (\beta + z\gamma) / (1 + \beta)$ ，其中 $z$ 是我们的置信度阈值。代入典型的仪器值可以发现， $f_{\min}$ 大约在11-12%左右。这很好地解释了经验观察到的经验法则：Sanger测序法通常不适用于检测在样本中占比低于约15-20%的变异。这根“针”就在“草堆”的噪音中丢失了。

不朽的遗产：金标准

读长和通量的限制为下一代测序（NGS）铺平了道路。如果说Sanger测序像一位大师级抄写员精心书写几页完美的篇章，那么NGS就像一台印刷机，以大规模并行的方式产生数十亿个更短的“读段”。NGS用于发现——测序整个基因组或转录组——而Sanger则找到了其现代定位，即作为验证的“金标准”。在使用NGS发现一个潜在重要的突变后，研究人员几乎总会使用Sanger测序来确认它。

在棘手的序列环境中，它作为最终裁决者的角色最为清晰。例如，短读长NGS方法通常难以处理长段的单一碱基，称为均聚物（例如，TTTTTTTTT）。信号可能会变得饱和或失相，导致机器错误地计算碱基数量。相比之下，Sanger通过物理分离两个不同长度的片段来区分 $T_8$ 和 $T_9$ ，在这种特定情况下，这是一种更直接且更不容易出错的测量方法。如果一个NGS组装结果显示为 $T_8$ 重复，但一个Phred值为45（错误概率低于三万分之一）的高质量Sanger读段清楚地显示为 $T_9$ ，你会相信Sanger的读段。

从其受控中断的核心原理，到其现代化的荧光应用，再到其在基因组生态系统中的持久作用，Sanger方法是科学独创性的证明。它将一个看似不可能的问题转变为一个常规、优雅且美妙的程序，并继续作为理解生命语言不可或缺的工具。

应用与跨学科联系

要真正欣赏一项伟大的发现，我们必须超越其机制的优雅，去看看它让我们能做什么。链终止法不仅仅是一个巧妙的化学技巧；它是一把万能钥匙，开启了生物科学中无数扇大门。它提供了一种阅读生命基本指令手册的方法，这种能力重塑了整个研究领域。现在，让我们穿梭于其中一些领域，看看这个单一的想法——在恰当的时刻停止DNA合成——如何成为验证、发现和治疗不可或缺的工具。

“验证者”与“探索者”

在最根本的层面上，科学是关于确定地了解事物。在分子生物学中，我们操纵着无形的DNA密码，我们如何知道自己成功了？想象一下，你煞费苦心地试图在一个称为质粒的环状DNA中，将基因序列中的一个字母——鸟嘌呤（ $G$ ）——改变为腺嘌呤（ $A$ ）。你的实验成功了吗？Sanger测序提供了明确的答案。通过设计一个结合在目标位点附近的引物，你可以启动一个测序反应，读取经过编辑的区域。得到的色谱图就是最终的证据：如果你在曾经是黄色的峰（代表 $G$ ）的位置看到了一个绿色的峰（代表 $A$ ），你就得到了确认。这就如同分子生物学家将成品举到光下检查工艺一样。

但是，当光线揭示出意想不到的东西时会发生什么？假设你正在研究一种二倍体真菌，这种生物和我们一样，每个基因都携带两个拷贝。你对某个特定基因进行测序，在一个位置上，你看到的不是一个单一、尖锐的峰，而是两个不同颜色的重叠峰——比如说，一个代表 $G$ 的黄色峰和一个代表 $A$ 的绿色峰，两者高度大致相等。这不是一个错误。这是生物学在直接与你对话。这是杂合性的经典标志：这种真菌拥有该基因的两个不同版本，或称为等位基因。一个等位基因在这个位置上是 $G$ ，另一个是 $A$ 。链终止法不仅仅是读取一个序列；它揭示了一个个体生物在其所有美妙复杂性中的遗传构成。

从这个坚实的验证基础出发，我们可以成为探索者。想象一个已知的DNA片段，比如一个转座子或“跳跃基因”，已经将自己插入到细菌庞大染色体的某个地方。我们知道这个跳跃基因的序列，但我们不知道它“着陆”在哪里。我们如何找出答案？我们可以设计一个测序引物，它结合在已知转座子序列的边缘附近，方向朝向染色体的未知领域向外读取。测序反应将从已知区域开始，直接进入未知领域，揭示转座子中断原生序列的精确染色体位置。这就像使用地图上最后一个已知的地标来绘制超越其范围的荒野。

组装生命之书

在我们这个时代，被称为下一代测序（NGS）的新技术可以产生数十亿个短的DNA读段，就像将一百万本书撕成微小的、150个词的片段。虽然功能强大，但将这些片段重新组装成连贯的文本是一项巨大的计算挑战。这个过程常常在基因组中高度重复的区域停滞不前——这些区域是长串相同序列一遍又一遍地重复。这些比短读段更长的重复序列造成了歧义；组装软件不知道如何连接它们两侧的独特序列。这在我们的“生命之书”组装本中留下了缺口。

这就是“旧”的Sanger方法 triumphant 地回归的时刻。凭借其产生800-1000个碱基对的单一、连续读段的能力，Sanger测序可以跨越这些缺口。通过在缺口边缘的独特DNA中设计引物，单个Sanger读段可以穿越整个重复区域并连接到另一侧，提供缺失的环节，从而使基因组得以完整。它是一种完美的专业工具，提供了短读长霰弹法所缺乏的长程背景信息。

这种解析基因组结构的能力并不仅限于填补缺口。它还可以用来精确表征大规模重排，如缺失。假设基因组组装表明染色体上一个巨大的 $30,000$ 个碱基对的片段丢失了。这是一个深刻的变化，但初步证据是间接的。为了证实它并找到确切的“分子疤痕”，我们可以使用一种极其优雅的策略。我们设计一对PCR引物，它们位于推测的缺失区域的两侧，彼此相对。在正常的染色体中，这些引物相隔 $30,000$ 个碱基，对于标准的PCR酶来说太长而无法扩增。但在有缺失的染色体中，这两个引物现在被拉到了一起。突然之间，它们可以产生一个小而特定的DNA片段，这个片段只有在缺失存在时才能产生。这个片段就是确凿的证据。通过将这个片段用Sanger方法测序，我们可以读取新连接点的确切序列，将缺失的断点精确定位到单个碱基对。

现代医学的支柱

在临床医学中，获得正确的DNA序列的利害关系无与伦比。当患者的诊断和治疗悬而未决时，“可能”是远远不够的。高通量NGS方法非常适合筛选患者的整个外显子组或基因组以寻找致病变异，但它们有自己特有的错误模式。我们如何确保一个关键的发现不仅仅是技术假象？我们用一种“正交”方法来确认它——一种基于完全不同原理的技术。

Sanger测序是这种确认的“金标准”。因为它的链终止化学原理与NGS平台的化学原理根本不同，所以两种方法在同一位置犯同样错误的可能性极小。如果一个高影响力的变异，比如一个导致蛋白质提前终止的变异，被NGS发现，然后又被Sanger测序独立确认，我们就可以非常有信心地确定这个变异是真实的。这种正交确认的原则是现代临床遗传学的基石，确保改变人生的诊断是基于最可靠的证据。

这个过程对于揭示遗传病的起源至关重要。考虑一个患有严重显性遗传病的儿童，而其父母都健康。罪魁祸首很可能是一个de novo突变——一个在亲代生殖细胞中或在胚胎发育的最早阶段出现的新遗传变异。通过外显子组测序在孩子身上找到候选变异后，便会部署Sanger测序来确认两件事：首先，该变异确实存在于孩子体内；其次，它在父母双方的血液DNA中均不存在。这确认了突变的de novo状态，这对遗传咨询具有深远意义，有助于家庭了解病因以及未来子女再次发生该病的低风险。

除了遗传病，Sanger测序还是抗击癌症的关键工具。许多癌症是由特定的突变驱动的，例如产生新型“融合基因”的染色体易位。非小细胞肺癌中的EML4-ALK融合基因就是一个典型例子。这种融合基因的存在使癌细胞对特定的靶向药物敏感。可以设计一种称为多重RT-PCR的技术来一次性筛查几种已知的融合变异。当出现预期大小的产物时，Sanger测序提供最终的确认。通过对新的连接点进行测序，临床医生可以验证融合转录本的确切身份，从而确认诊断并为挽救生命的精准治疗扫清道路。

拓展前沿

链终止法的用途远远超出了人类基因组，触及了从生态学到表观遗传学的多个学科。试图鉴定一种新分离细菌的微生物学家通常会求助于一个特定的基因——16S核糖体RNA基因——作为生命的通用条形码。通过使用Sanger方法从纯细菌培养物中扩增和测序该基因，他们可以获得一个单一、干净、高质量的序列。这个序列可以与庞大的数据库进行比较，以鉴定该生物，通常可以精确到物种水平。这种方法提供了对单个个体的深入、明确的观察，与基于NGS的方法形成鲜明对比，后者通过调查环境样本（如土壤或水）中所有16S基因的混合物来对整个微生物群落进行普查。

最后，读取DNA序列的原理可以被巧妙地调整，以读取位于DNA序列之上的信息。这就是表观遗传学的领域，它研究DNA上的化学修饰，这些修饰在不改变序列的情况下调节基因表达。最重要的表观遗传标记之一是胞嘧啶碱基在称为 $CpG$ 位点的特定位置的甲基化。为了研究这一点，DNA首先用亚硫酸氢钠处理，这种化学物质将未甲基化的胞嘧啶转化为尿嘧啶（在PCR后被读取为胸腺嘧啶（ $T$ ）），同时保持甲基化的胞嘧啶不变。

经过这种处理后，一个原本同质的DNA序列在 $CpG$ 位点变成了胞嘧啶和胸腺嘧啶的混合体，反映了原始的甲基化模式。然后，一种专门的变体，亚硫酸氢盐Sanger测序，可以用来读取这个改变后的序列。通过观察每个CpG位点是 $C$ 还是 $T$ ，科学家可以确定那个确切位置的甲基化状态。这揭示了生物密码的另一层，展示了基因是如何被开启和关闭的。链终止法在这种情况下，不仅提供了一个窗口来了解基因组说了什么，还提供了一个窗口来了解它是如何被使用的。

从一个简单的实验室实验检查到整个基因组的组装，从疾病的诊断到地球生物多样性和表观遗传密码的探索，链终止法证明了一个单一、优雅思想的力量。它不仅仅是过去的一项技术，而是一个活生生的、持续推动科学前沿发现的工具。