边合成边测序

玻尔百科

核心要点

SBS的核心是使用荧光可逆终止核苷酸合成DNA的大规模并行过程，从而实现数百万个片段的同时测序。
SBS的主要局限性是每个循环中相位偏移错误的累积，这会降低信号质量并限制测序读长的实际长度。
SBS是现代生物学和医学的基石，其应用范围从量化基因表达（RNA-seq）到检测血液中的罕见癌症突变（液体活检）。
SBS的成功依赖于化学、物理学、工程学和计算机科学的跨学科融合，以克服分子和光学上的挑战。

引言

读取遗传密码的能力是现代科学最具变革性的进步之一，但几十年来，这个过程一直非常缓慢。挑战不仅在于读取DNA，还在于大规模地读取——快速且经济地破译整个基因组。这造成了严重的知识鸿沟，限制了生物学探究的范围和基因组医学的潜力。边合成边测序（SBS）作为革命性的答案应运而生，它将测序范式从串行的、一次一个的测序转变为能够在单次运行中产生数十亿条读长的大规模并行方法。本文深入探讨了这项驱动当今大多数基因组学发现的巧妙技术。在接下来的章节中，我们将首先在“原理与机制”中探索其复杂的化学和机械细节，从分子层面揭示SBS的工作原理。然后，我们将在“应用与跨学科联系”中拓宽视野，了解这种强大的方法如何应用于科学和医学领域，改变从基础研究到临床诊断的一切。

原理与机制

要理解边合成边测序（SBS）这场革命，我们必须首先认识到它旨在解决的艰巨任务。想象一下，你试图阅读一部百科全书，不是一卷，而是整个图书馆的藏书，并且你想在一天之内全部读完。由Frederick Sanger开创的经典DNA测序方法，类似于一次一丝不苟地阅读一页。它非常出色、精确，并赢得了诺贝尔奖，但它本质上是串行的。为了阅读基因组这本浩瀚的文库，我们需要一种新的策略——一种大规模并行的策略。如果我们不是一次读一页，而是能同时拍下图书馆里每一本书的每一页的第一个词的快照呢？然后再拍下第二个词的快照，依此类推。这就是SBS的核心理念。

同步合成的交响曲

“边合成边测序”这个名字几乎告诉你了所有你需要知道的事情。我们不只是读取DNA；我们合成一个全新的互补拷贝，并且我们观察自己完成这个过程，一次一个字母，或者说一个碱基。

想象一下，你有数百万条相同的、未知的插座串，每个插座可以是A、C、G、T四种类型之一。你的目标是确定这些插座的序列。在SBS方法中，你会执行一个循环步骤：

掺入： 你用四种特殊的、带颜色的灯泡混合物浸没这些插座串。A型灯泡（比如绿色）只适合A型插座，C型灯泡（蓝色）只适合C型插座，依此类推。关键在于，每个灯泡都有一个内置的“停止信号”，防止在它之后再有其他灯泡被添加到插座串的下游。因此，在这一步中，每条插座串的第一个可用插座上都恰好添加一个灯泡。
成像： 相机拍摄一张照片。由于所有的插座串都是相同的，并且是同步测序的，它们都会亮起相同的颜色。如果整个插座串区域发出绿光，你就知道每条串的第一个碱基是 $A$ 。你记录下这个观察结果。
切割： 你用一种化学物质清洗这些插座串，这种化学物质能做两件事：它剪掉灯泡的带色部分，使其变暗；同时移除“停止信号”。现在，这些插座串为下一个循环做好了准备，准备在第二个位置接受一个灯泡。

通过重复这个掺入-成像-切割循环数百次，你可以一次读取数百万条插座串的序列，每次一个位置。这就是最常见的新一代测序（NGS）技术背后那个优美、简单而强大的思想。

幕后的化学魔法

当然，DNA分子不是插座串，我们也不使用微型灯泡。这个想法在现实生活中的实现是分子工程的杰作。

舞台：接头与流动池

首先，我们需要准备我们的DNA。我们从样本中提取长链DNA，并将其打断成数百万个更短、更易于管理的片段。但是我们如何用一个标准化的过程来处理这些多样的片段呢？我们在每个片段的末端都连接上称为接头的短合成DNA片段。这些接头充当通用的“把手”。它们不关心所连接片段的序列；它们自身的序列是已知的，并作为将片段锚定到测序仪上以及启动合成过程的结合位点。

现在配备了“把手”的片段被冲洗过一个名为流动池的玻璃载片。流动池的表面是一片密集的寡核苷酸（短DNA链）草坪，这些寡核苷酸与接头互补。DNA片段会粘附到表面上。

放大器：桥式扩增

单个DNA分子太小，其信号太微弱，无法被检测到。为了解决这个问题，我们需要放大信号。在流动池上，每个被固定的片段被迫弯曲，与附近一个互补的寡核苷酸形成一个“桥”。然后，DNA聚合酶会创建一个拷贝，产生两条链。这个过程不断重复，形成一个由数千个相同DNA分子组成的局部克隆岛。这个岛被称为簇，现在它的集体信号足够亮，可以被测序仪的相机看到。

演员：可逆终止子

现在是主戏：合成。正如我们用灯泡想象的那样，我们需要在每个循环中精确地添加一个碱基。这是一个巨大的挑战，因为我们使用的酶——DNA聚合酶——效率极高。如果我们给它提供普通的DNA构建模块（dNTPs），它会在几秒钟内沿着模板飞速前进，添加数百个碱基，这对于我们逐一观察来说太快了。

解决方案是发明了可逆终止核苷酸。这些就是现实生活中的“特殊灯泡”。每一个都是一个核苷酸（A、C、G或T），带有两个关键修饰：

可切割的荧光基团：一个荧光分子（“颜色”）被连接到碱基上。每种碱基类型对应不同的颜色。
可逆的3'端阻断基团：DNA聚合酶通过将新核苷酸的5'端连接到前一个核苷酸的3'端来工作。这个阻断基团是一个放置在3'端的化学“帽子”，使得聚合酶无法添加另一个核苷酸。它作为一个临时的、但绝对的“停止信号”，保证了单个碱基的掺入。

在掺入步骤中，聚合酶将这些可逆终止子中的一个添加到每个簇中的每条链上。此时，整个流动池的合成过程暂停。然后成像步骤拍摄一张照片，记录下数百万个簇位置上每个位置的颜色——也就是碱基。

场景转换：切割步骤

成像后，切割步骤重置系统。一种化学清洗液流过流动池，同时执行两个操作：它切掉荧光染料，这样它的颜色就不会干扰下一个循环；同时移除3'端阻断基团，“解开”链的帽子。这会再生一个正常的3'-羟基末端，聚合酶现在准备好在下一个循环中添加下一个碱基。这一步至关重要；如果染料没有被切掉，它的信号会渗入到所有后续的循环中，使它们无法读取。

不可避免的缺陷：当交响曲失调时

在理想世界中，一个簇中的每一条链都会同步地进行数百个这样的循环。但化学反应并非完美。在每个循环中，簇中一小部分分子可能会失步，导致信号衰减。这种失同步是限制SBS读长的主要因素。主要有两种发生方式：

相位偏移（滞后链）： 在任何给定的循环中，对于某条特定的链，聚合酶有很小的概率未能掺入核苷酸。这可能是因为链的折叠方式奇特或酶脱落了。该链现在永久性地比主群体落后一步。这被称为不完全掺入。在下一个循环中，当簇的大多数成员在掺入第 $N$ 个碱基时，这条滞后的链正在掺入第 $N-1$ 个碱基。因此，它会发出前一个碱基的颜色，产生微弱的污染信号。
相位超前（超前链）： 相反的情况也可能发生。3'端阻断基团有很小的概率未能正确连接或过早被意外移除。聚合酶看到一个自由的3'端，可能会在同一个循环中添加第二个核苷酸。这条链现在永久性地比主群体领先一步。这被称为不完全终止。在下一个循环中，当主群体在掺入第 $N$ 个碱基时，这条领先的链正在掺入第 $N+1$ 个碱基，增加了另一个污染信号源。

这些错误是累积的。让我们把一个簇的信号想象成由数千名歌手发出的一个声音。开始时，他们完美地齐声唱着同一个音符。第一个循环后，少数歌手现在落后了一个音符，少数领先了一个音符。第二个循环后，更多的歌手失步，而那些已经失步的歌手可能会落后或领先得更远。完美“同相”的链的比例随着每个循环呈指数级衰减。在数学上，如果一条链在单个循环中失相的概率为 $\phi$ ，那么在 $n$ 个循环后，同相链的比例为 $(1 - \phi)^n$ 。

随着循环的进行，主要的、正确的信号（来自不断缩小的同相群体）变得越来越弱，而背景噪音（来自不断增长的异相群体）变得越来越大。第一个循环中优美清晰的音符，到后面的循环时会退化成嘈杂的低语。测序仪的软件必须尝试从这个嘈杂的背景中找出预期的音符，这项任务变得越来越困难。

终幕：读长的限制

这种不可避免的信号质量衰减对读长——即可以从单个片段中可靠测序的碱基数量——施加了根本性的限制。虽然SBS通过并行性实现了其巨大的能力，但它牺牲了Sanger测序的长而高质量的单个读长，换来了从头到尾质量不断下降的较短读长。

我们甚至可以计算出实际的限制。假设我们的质量标准要求一个簇中至少50%的链保持同相，并且一个读长的总准确率必须至少为90%。给定每个循环的相位偏移和碱基识别错误的概率，我们可以找到突破这些阈值之一的确切循环次数。超过这一点，比如对于许多标准运行来说大约是100到150个循环，数据质量就太低而无法信任了。运行仪器更多循环会增加运行时间，但不会产生更多高质量的数据，从而降低了有效的通量（产生有用碱基的速率）。

这种权衡是现代测序的伟大妥协。我们接受更短、不完美的读长，但作为回报，我们一次性获得数十亿条这样的读长，产生的数据洪流已经改变了生物学和医学。理解合成的优雅化学和其衰减的数学原理，是领会这项非凡技术的力量与局限的关键。

应用与跨学科联系

我们已经探索了边合成边测序（SBS）的美妙钟表机制，它如何将DNA的分子语言转化为闪光，并最终转化为数字字母。但是，这台宏伟的机器是为了什么？我们能从生命之书中读出什么故事，又需要什么才能正确地阅读它们？事实证明，SBS不仅仅是生物学家的工具。它是一个物理学家、化学家、计算机科学家和工程师汇聚的乐园。它的应用从最深层的进化问题延伸到最个人化的医学决策，揭示了科学领域间非凡的统一性。

基因组的语言：从光到字母

在我们能够阅读生物学故事之前，我们必须首先掌握它的语言和语法。SBS仪器的原始输出不是一个干净的文本文件，而是一个必须经过仔细处理的数据洪流。因此，SBS的第一个应用是计算性的：将原始信号转化为科学家可以使用的格式。

这个数字化的“罗塞塔石碑”最常见的是FASTQ格式。每个测序的DNA片段，即“读长”，由四行表示：一个标识读长的标题，碱基序列（ $A$ , $C$ , $G$ , $T$ ），一个占位符行，以及最关键的，一串相应的质量分数。这些分数被称为Phred分数，是机器内部统计数据的馈赠；它们以对数尺度表示对每个碱基识别的置信度。高分意味着高置信度；低分则在低语：“小心，我这里可能错了。”

现代实验是多路复用的奇迹，来自数百甚至数千个样本的DNA在一次运行中一起测序。这得益于“索引”序列，即附加到每个样本DNA上的短分子条形码。机器在专门的独立循环中读取这些条形码，让生物信息学家能够将庞大杂乱的读长分类归还给它们原始的样本。此外，像添加唯一分子标识符（UMIs）——在任何扩增之前附加到每个原始DNA分子上的随机条形码——这样的巧妙技术，使我们能够区分真实的生物分子和文库制备过程中产生的大量拷贝，这是纠错的关键步骤。

但即使是这样分类的数据也不是纯净的。为测序准备DNA的过程涉及到附加称为“接头”的合成DNA片段。这些接头包含了测序引物和将DNA绑定到流动池的锚点所必需的着陆位点。如果样本中的DNA片段比机器运行的循环数短，聚合酶就会读穿样本DNA并继续读入另一端的接头。这种“接头污染”就像在一本小说的页面中发现了出版商的印刷说明。因此，分析中至关重要的第一步是“接头修剪”，这是一个计算过程，用于识别并剪掉这些合成序列，留下我们着手要阅读的纯粹生物学信息。

完美读取的物理学与工程学

确保这一过程的保真度是一个位于物理学、工程学和化学交叉点的深刻挑战。SBS仪器是一种精细调校的光学和流体仪器，其性能取决于物理参数的微妙平衡。

考虑一下在现代高密度图案化流动池上进行“索引平衡”的挑战。仪器的软件通过观察所有四种碱基的荧光信号来为每个循环校准其“眼睛”。为了正确区分颜色——例如，建立一个校正染料之间光谱重叠的“颜色矩阵”——它需要在每个循环中看到流动池上A、C、G和T的健康混合。如果偶然情况下，流动池的某个区域包含的文库都以字母 $G$ 开头，那么机器就像一个只看绿色物体就想了解整个色谱的人。它将难以校准，导致数据质量不佳。这种物理限制催生了一种优美的实验设计应用：科学家必须仔细选择和混合他们的条形码样本，以确保机器在每个循环中都有“均衡的碱基食谱”。对于天然低多样性的样本，如单个基因的测序，必须添加一个已知序列的平衡文库（如PhiX病毒基因组这样的“内参”对照），为机器的光学系统提供必要的颜色多样性。

这种警惕性在运行完成后仍在继续，体现在质量控制（QC）的“侦探工作”中。通过分析数据，我们可以发现实验假象的蛛丝马迹。例如，用于切割和制备DNA文库的酶可能具有序列偏好，在读长的前几个循环的碱基组成中留下特有的“指纹”。k-mer分析——计算所有可能的短子序列的频率——提供了一个强大的诊断工具。对于来自像细菌这样的单倍体生物的干净数据集，我们期望在对应于平均测序深度的频率处看到一个大的k-mer峰值，以及由随机测序错误产生的长长的极低频率k-mer尾巴。任何偏差，如第二个峰值，都可能表示样本中的污染或其他异常。

即使是DNA分子本身在这个故事中也不是一个被动的角色。它是一个具有自身结构偏好的物理对象。在某些富含鸟嘌呤的区域，单链DNA可以自我折叠形成一种称为G-四链体的稳定四链结构。这种错综复杂的DNA结可以成为DNA聚合酶的物理路障，导致其暂停或从模板上脱落。结果是在测序数据中出现一个特有的“阴影”：成功穿过该区域的读长数量急剧、局部地下降。这是一个美丽的提醒，SBS是一个动态的物理过程，它产生的数据不仅可以揭示DNA的序列，还可以揭示其复杂的三维结构。

聆听细胞的交响曲：从基因到功能

有了干净、高质量的数据，我们终于可以开始提出生物学问题。SBS最强大的应用之一是转录组学——对RNA的研究。如果基因组是生物体的完整乐谱，那么转录组就是交响乐本身，是在特定细胞特定时刻演奏的音乐。它告诉我们哪些基因（乐器）是活跃的，以及它们演奏得有多响亮（它们的表达水平）。

RNA测序使我们能够捕捉到这场交响乐的快照。通过将细胞中的RNA转化为更稳定的互补DNA（cDNA）并用SBS进行测序，我们可以计算对应于每个基因的读长数量，从而获得其表达的定量测量。这彻底改变了生物学，使我们能够看到基因活动在发育过程中、对药物的反应中或在疾病进程中如何变化。在设计这样的实验时，科学家必须做出关键选择，平衡测序的读长数量（深度）和这些读长的长度。更深的测序为检测稀有转录本提供了更高的灵敏度，而更长的读长可以帮助区分高度相似的基因。

然而，这首音乐比仅仅音量要复杂得多。一个基因通常可以产生多种不同版本的蛋白质，就像小提琴用不同的措辞或装饰音演奏同一段落。这些变体，称为“亚型”，是通过可变剪接产生的，即基因RNA的不同片段（外显子）被拼接在一起。在这里，标准SBS的主要局限性变得明显：其读长相对较短。一个典型的150个碱基的读长可能只覆盖一两个外显子，这使得很难知道一个有许多外显子的长转录本的完整连接性。明确识别一个完整的亚型就像试图从一堆非常短的音乐片段中重建一首长而复杂的旋律。

这就是将SBS与其他技术进行比较如此具有启发性的地方。像PacBio HiFi和Oxford Nanopore这样的长读长测序平台可以在一次通过中从头到尾读取整个RNA分子。这为完整的亚型结构提供了清晰、明确的视图。然而，它们通常产生的读长远少于SBS。权衡是明确的：SBS凭借其巨大的深度和高准确性，是定量——精确测量基因丰度——无可争议的王者。对于发现和表征复杂亚型的完整结构，特别是对于之前研究不多的基因，长读长技术提供了决定性的优势。

医学前沿：诊断与发现

或许，边合成边测序在临床上产生了最深远的影响。它快速、廉价地读取DNA的能力改变了诊断学，并正在为精准医疗的新时代铺平道路。

考虑通过简单的血液检测来检测癌症的挑战，即所谓的“液体活检”。肿瘤将其微小的DNA片段（循环肿瘤DNA，或ctDNA）释放到血液中。要在其中找到这些大海捞针般的物质——在大量正常DNA的海洋中游泳的少数突变DNA分子——需要将SBS推向其绝对极限。首先，研究人员使用UMIs来数字计数每个原始DNA分子，滤除PCR扩增产生的噪音。然后是困难的部分：将一个真实的、罕见的突变与测序过程本身微小但非零的背景错误率区分开来。这需要对机器的错误特征有深入的了解。错误并非完全随机；它们在读长末端更常见（依赖于测序循环的错误），并且某些碱基替换比其他替换更有可能发生（替换偏好）。通过建立这个背景噪音的精确统计模型，生物信息学家可以计算出观察到的变异是真实生物信号而非机器假象的概率，从而能够检测到样本中存在率低于1%的变异。

在遗传病的诊断中，为工作选择正确的工具至关重要。SBS只是几种强大的测序技术之一，每种技术都有其独特的物理原理，因此也有独特的错误特征。Illumina SBS使用荧光；Ion Torrent测序测量碱基掺入时pH值的变化；Nanopore测序检测DNA链穿过微小孔隙时离子电流的变化。

这些差异至关重要。对于识别单字母拼写错误（单核苷酸变异，或SNV）或检测低水平的嵌合现象（其中突变仅存在于一个人部分细胞中），SBS极高的准确性通常是最佳选择。然而，对于怀疑有大型结构变异的患者——如一条染色体的一部分附着到另一条染色体上的易位——或重复DNA序列的大规模扩增，SBS的短读长可能无法看到全貌。在这些情况下，通常需要能够跨越整个结构变化的长读长技术才能做出明确的诊断 [@problem_-id:5100168]。

从单个DNA分子到改变生命的临床诊断的旅程，是跨学科科学力量的证明。这是一条由设计染料和酶的化学家、完善光学的物理学家、建造流体和硬件的工程师、编写算法的计算机科学家，以及应用这些知识来理解和治愈的生物学家和医生共同开辟的道路。边合成边测序不仅仅是一项技术；它是一个镜头，让我们能以前所未有的清晰度阅读生命之书，而我们才刚刚开始翻开书页。