测序伪影

玻尔百科

定义

测序伪影是指在基因组测序实验过程中产生的系统性非生物误差，这些误差往往会被误认为是真实的遗传变异。测序伪影源于福尔马林固定导致的 DNA 损伤或 GC 偏好性等物理化学因素，在医学诊断和进化研究中可能导致错误的结论。为了消除这些误差，研究人员通常采用唯一分子标识符（UMI）和双端测序（Duplex Sequencing）等高级校正方法来构建一致性序列。

核心要点

测序伪影是基因组数据中源于实验过程的系统性、非生物学错误，可能被误认为是真实的遗传变异。
这些伪影对研究和诊断构成重大风险，可能导致医学上的误诊和演化研究中的错误结论。
独特分子标识符（UMI）和双链测序等先进方法通过从原始DNA分子构建共有序列来校正错误。
理解伪影的化学和物理来源，例如GC偏好和福尔马林固定造成的DNA损伤，对于开发有效的错误校正策略至关重要。

引言

高通量测序彻底改变了生物学和医学，让我们能够前所未有地接触到“生命文库”。然而，这浩如烟海的遗传信息并非完美无瑕。用于读取DNA的过程本身会引入一系列错误，即所谓的测序伪影，这些错误可能掩盖生物学真相，导致错误的发现。对于现代科学家和临床医生来说，核心挑战不仅仅是生成数据，而是在这些技术幻象中辨别出真正的生物学信号。本文旨在为探索这一复杂领域提供指南。首先，在“原理与机制”部分，我们将深入探讨这些伪影的起源，探索从实验室化学到统计处理的每一个环节如何制造出“机器中的幽灵”。然后，在“应用与跨学科联系”部分，我们将审视这些伪影在现实世界中造成的深远影响，以及为克服它们而开发的巧妙方法，从而确保从癌症诊断到演化生物学等领域中各种发现的完整性。

原理与机制

想象一下，你发现了一个失落的图书馆，其中收藏了所有伟大的历史著作，但每本书都是由一位抄写员抄写的，他速度惊人，但又有点粗心，每千字就会出现一个笔误。要阅读这些书，你不会仅仅是转录它们，你得成为一名侦探。你会比较多个副本，了解抄写员常犯的错误，并制定规则来区分真实的历史事实和简单的笔误。这正是基因组科学家的世界。高通量测序为我们提供了生命文库，但它也带来了自己的抄写员——测序仪——以及它自己的笔误集合，我们称之为测序伪影。理解这些伪影不仅仅是为了清理数据；它是一次深入探索物理、化学以及支撑我们解读生命密码的美妙逻辑的旅程。

不完美的复印机

让我们从最简单的情况开始。一位微生物学家培养了一个纯粹的E. coli细菌克隆培养物，这意味着每个细胞都应该是彼此的遗传拷贝。在对基因组进行测序后，他们发现在一个特定位置，参考基因组上是腺嘌呤（A），而大约5%的测序读数却显示为鸟嘌呤（G）。这是烧瓶中快速演化的证据吗？难道5%的细菌发生了自发突变？这有可能，但远非最可能的解释。测序仪本身有一个已知的平均错误率，比如说0.5%。虽然5%高于0.5%，但更合理的情况是，基因组上的这个特定位点，由于某种原因，对于测序仪来说是一个难以读取的“棘手词”，导致了局部错误率的膨胀。这样的观察结果是我们的第一个线索，表明机器读取的并不总是生物学真相。这种差异，即测序数据中非生物学来源的变异，正是伪影的本质。

这些不仅仅是随机、不可预测的信号失常。最具挑战性也最有趣的伪影是系统性的。它们是机器中的幽灵，是源于我们用以测量的过程本身的幻象。它们会留下指纹，通过学会识别它们，我们就能开始区分幻象与现实。

机器中的幽灵：系统性伪影

系统性伪影可能源于测序实验的每一步：从生物样本的保存和制备方式，到复制DNA的化学反应，再到数据的最终分析。它们不是随机噪声；它们是可重现的偏差，如果我们不小心，可能会引导我们得出完全错误的结论。

流程的回响：批次效应

想象一项大型临床研究，旨在寻找导致某种特定疾病的基因。研究人员收集了一千名患者和一千名健康对照者的样本。由于工作量巨大，患者样本在一月份使用一批化学试剂进行处理，而对照组样本则在六月份使用另一批试剂进行处理。分析揭示了十几个仅存在于患者组中的“变异”——这是一项突破！但真的是吗？

这个场景描述了一种批次效应，这是最隐蔽的伪影类型之一。它指的是在同一批次或不同“批次”中一起处理的样本组之间存在的系统性差异。不同的试剂批号、一月和六月间实验室的温度波动，甚至不同的技术人员，都可能在每个批次的数据上留下独特的、非生物学的印记。这项研究发现的不是致病基因，而是一个“1号试剂批次”基因。生物学信号（患者 vs. 对照）已经与技术信号（批次1 vs. 批次2）无可救药地混淆了。

在任何严肃的分析中，检测这些批次效应都是至关重要的第一步。生物信息学家使用主成分分析（PCA）等统计技术来获得数据的鸟瞰图。如果数据中的主导模式是按处理日期而非疾病状态来区分样本，那么一个巨大的警报就已经拉响了。校正这些效应需要复杂的统计调整，或者在理想情况下，从一开始就通过在所有批次中随机分配样本来正确设计实验。

错误的物理与化学

要真正理解伪影，我们必须深入到分子层面。许多伪影并非抽象的统计模式，而是DNA及其读取设备的物理和化学性质的直接结果。

一个绝佳的例子是GC偏好。DNA双螺旋由其碱基之间的氢键维系。腺嘌呤（A）和胸腺嘧啶（T）配对共享两个氢键，而鸟嘌呤（G）和胞嘧啶（C）配对共享三个氢键。这意味着富含G和C的DNA区域比富含AT的区域更“粘”，需要更多能量才能解开。测序过程涉及反复解链DNA并复制它（一个称为PCR的过程）。一个为“平均”GC含量优化的固定实验室方案，在复制极端情况时效率会较低——GC含量极高的区域太难解链，而AT含量极高的区域可能太脆弱。结果是，最终的测序数据中，来自这些区域的读数会比应有的要少。这不是一个错误碱基被检出的“错误”；这是一个融入过程中的物理偏差，是基因组图景中的一种扭曲。

更引人注目的是由DNA分子本身化学损伤产生的伪影。几十年来，医生通过将组织样本固定在福尔马林中并包埋在石蜡中（FFPE）来保存它们。这些档案是宝贵的研究资源。但福尔马林是一种会损伤DNA的刺激性化学物质。最常见的损伤形式之一是胞嘧啶脱氨，即化学反应将胞嘧啶（C）碱基转变为尿嘧啶（U）碱基。在我们的细胞中，复杂的机制会修复这种损伤。但在试管中，当我们去测序这段DNA时，复制DNA的聚合酶会看到尿嘧啶并认为它是胸腺嘧啶（T），因为它们非常相似。在扩增过程中，它会忠实地在其对面插入一个腺嘌呤。结果是，原始的C:G配对在最终的测序数据中变成了T:A配对。一个充满这种损伤的样本会表现出大量的C到T突变风暴，而这些突变几乎全是伪影。

类似的故事也发生在氧化损伤中。仅仅是制备DNA样本的简单操作就可能使其暴露于氧气中，从而损伤碱基。鸟嘌呤尤其易受影响，会转变为一种叫做8-氧代鸟嘌呤（oxoG）的分子。当DNA聚合酶遇到一个oxoG时，它会感到困惑，并经常将其与腺嘌呤而非胞嘧啶配对。结果是在最终数据中出现一个表观的G到T突变。这些oxoG伪影在癌症基因组学中是一个臭名昭著的问题，研究人员正是在其中寻找真实的、低频率的体细胞突变。幸运的是，这些伪影留下了线索。因为损伤发生在DNA扩增前的单条链上，所以伪影性的T读数通常只出现在一个方向上（例如，都出现在配对读数的“正向”读数上，而“反向”读数上没有）。它们也倾向于聚集在DNA片段的末端，这些末端更容易受到化学攻击。通过综合这些证据，一个熟练的生物信息学家可以标记一个候选突变，认为它很可能是oxoG伪影，并将其排除。

单细胞的幻影

随着我们的技术变得越来越强大，它也引入了新型的幽灵。通过单细胞测序，我们可以分析单个细胞的遗传物质，但这种精细的分辨率也带来了其自身的挑战。在制备样本时，一些细胞不可避免地会裂解，将其内容物溢出，形成一种环境RNA的背景“汤”。实验中的每个微滴，包括那些未能捕获到细胞的“空”液滴，都会捕获一些这种环境RNA。这在整个实验中造成了一种低水平的污染谱。一个肝细胞可能看起来微弱地表达了一个脑特异性基因，不是因为它正在经历身份危机，而是因为它的液滴中含有几分子的来自环境汤的该基因。揭示这个幻影的关键是分析空液滴。它们的内容物直接测量了环境谱，然后可以从真实细胞中进行统计学上的扣除。

驯服幽灵：错误校正的艺术

这一系列伪影的“罪犯名录”可能看起来令人沮丧，仿佛我们正试图阅读用隐形墨水写成的文本。但测序的故事也是一个在克服这些挑战方面展现出惊人创造力的故事。我们不是被动的观察者；我们可以设计实验来智取这些伪影。

共识的力量：独特分子标识符（UMI）

现代测序中最强大的思想之一是独特分子标识符（UMI）。PCR扩增的核心问题在于它既复制了原始DNA分子，也复制了在复制过程中引入的任何错误。我们如何区分它们？解决方案简单而巧妙：在任何扩增开始之前，我们给每个原始DNA分子附上一个短的、随机的DNA碱基序列——一个独特的“狗牌”或条形码。

现在，测序后，我们可以使用这些UMI将所有读数分组到源自同一个起始分子的“家族”中。如果一个随机的测序错误在一个读数中造成了一个笔误，它将被同一家族中拥有正确碱基的数十个兄弟姐妹以投票方式否决。通过为每个家族构建一个共有序列，我们可以过滤掉随机测序错误和PCR过程中产生的错误。效果是惊人的。如果原始的单碱基错误率是 $p$ ，在一个仅有5个读数的家族中进行多数投票，可将错误率降低到至少3个读数偶然出错的概率，其数量级约为 $10p^3$ 。对于一个典型的原始错误率 $p = 10^{-3}$ ，共有序列的错误率骤降至约 $10^{-8}$ 。这不是微不足道的改进；这是准确性上的一次革命性飞跃，将一个充满噪声的测量转变为一个极其精确的测量。

终极检验：双链测序

我们可以更进一步。上面描述的基于UMI的共有序列方法通过比较DNA单链的多个副本来校正错误。但DNA当然是双螺旋结构。两条链携带互补的信息。一条链上真实的A到G突变意味着另一条链上发生了T到C的突变。一个随机的测序或PCR错误几乎永远不会在配对链上有一个相应的、互补的错误。

双链共有序列测序（DCS）是一项巧妙利用这一事实的技术。通过使用一种特殊类型的UMI，它可以独立标记原始分子的两条链，我们可以分别为“顶”链和“底”链重建共有序列。只有当预期的互补变化在两个共有序列中都观察到时，一个变异才被判定为真实的。作为一个单边事件的伪影，将在这种不匹配中被捕获。一个假阳性能够通过这个双重验证系统的概率是两个独立的、互补的错误在同一个分子的完全相同位置上发生的概率。这个概率大约是 $p^2$ 。错误率从 $10^{-3}$ 下降到令人难以置信的 $10^{-6}$ 。这是一种近乎完美的错误校正方法，其诞生直接源于对DNA分子基本而美丽结构的领悟。

除了计算上的巧妙，我们还可以使用分子技巧。回到福尔马林固定组织中C到T伪影的问题，我们可以在测序前用一种叫做尿嘧啶-DNA糖基化酶（UDG）的酶处理DNA。这种酶是一种分子专家，它在DNA上巡逻，找到伪影性的尿嘧啶碱基，并将它们剪切掉。由此产生的断裂DNA链无法被扩增，从而在受损分子被误读为突变之前，有效地将它们从池中移除。

从原始测序读数到生物学真相的路径是一个引人入胜的侦探故事。我们了解到我们的仪器是会犯错的，观察行为本身就可能产生幻象。一个孩子身上看似新生的突变可能是一个测序错误，也可能是一种微妙的亲代嵌合体形式。一个看似复杂、违反了“完美系统发育”简单规则的演化历史，可能是测序错误产生了不符合家族树的幽灵基因型的结果。然而，通过理解这些伪影的物理和化学起源，并通过设计出越来越巧妙的方法来利用分子生物学的基本原理，我们可以让机器中的幽灵沉寂。我们可以校正笔误，并以日益增长的信心，阅读生命之书的本来面目。

应用与跨学科联系

现在我们已经窥探了测序的机制，并见识了机器中的幽灵——那些伪影——你可能会忍不住问：“那又怎样？”这仅仅是生物信息学家的一个技术难题，一项繁琐的数字整理工作吗？答案是一个响亮的“不”，而我们的故事也正由此真正开始。理解这些幻象并非关乎清理数据，而是关乎在整个现代生物学和医学领域中各种发现的根本完整性。从单个病人的诊断到全球大流行的追踪，区分真实生物信号与技术海市蜃楼的能力至关重要。

医生的困境：诊断与治疗的精确性

让我们从这门科学产生最直接人类影响的地方开始：临床实验室。在这里，一个人的生命与健康可能取决于对几十亿个数据点的正确解读。

想象一位疑似患有β-地中海贫血（一种遗传性血液病）的病人。我们对他的β-珠蛋白（ $HBB$ ）基因进行测序，发现了一个候选突变——一个单字母插入，它会破坏最终产生的蛋白质。但问题在于，这个插入位于一个重复序列（即“均聚物”）旁边，而这种序列是出了名的会导致测序仪“口吃”，产生虚假的插入或缺失错误。这个突变是真实的，还是一个幽灵？为了做出判断，我们必须成为数字侦探。我们寻找线索：变异等位基因频率（VAF）是否徘徊在真正的杂合变异所预期的 $50\%$ 左右？支持该突变的读数质量高吗？它们是来自DNA的正向链和反向链，还是可疑地偏向于一边？在真实案例中，一个真正的致病变异会以接近 $0.50$ 的VAF、平衡的链支持度和无可挑剔的质量分数脱颖而出，与均聚物口吃所产生的低水平、低质量的噪音明显不同。没有这种仔细的证据权衡，病人可能会被误诊。

当我们从诊断已知疾病转向筛查健康个体是否为隐性遗传病携带者时，挑战成倍增加。在这里，错误的来源可能形成一个阴谋。在携带者筛查panel中，一个假阳性可能不是一个简单的测序错误。它可能是一个“比对错误”，即来自一个无害但外观相似的假基因的读数被错误地比对到了有临床意义的基因上，从而造成了突变的假象。或者它可能是一个“注释错误”，即一个良性变异因为我们参考文库中的一个错误而被错误地标记为致病性。一个顶级的实验室必须建立起一道防御堡垒：使用分子标签（独特分子标识符，或UMI）来抑制PCR和测序错误，采用能够识别假基因诱饵的复杂比对算法，并依赖于精心管理的基因模型以确保正确的注释。

在癌症基因组学领域，与伪影的斗争最为激烈。当肿瘤被活检时，它通常被保存在福尔马林中并嵌入石蜡（FFPE）。这个过程虽然对病理学至关重要，但会化学损伤DNA，最常见的是引起特定的 $C \to T$ 突变伪影。想象一下分析数百个这样的FFPE样本。你可能会发现一个 $C \to T$ 的变化在几十个肿瘤的相同位置反复出现，并宣告发现了一个新的癌症“热点”。然而，仔细观察可能会揭示出FFPE伪影的蛛丝马迹：这个“突变”只以非常低的分数被发现，它可疑地聚集在DNA片段的末端，并且显示出显著的链偏好。相比之下，一个真正的驱动突变，比如著名的BRAF V600E，将以与肿瘤纯度一致的高VAF出现，在FFPE和新鲜冷冻样本中都能找到，并且其支持读数将显示出所有真实生物事件的特征。像双链测序这样的技术的发展，能够读取原始DNA分子的两条链并要求两者一致，提供了一种强大的方法来看穿这层化学迷雾，确认真正的突变存在于两条链上，而单链损伤则作为伪影被拒绝。

这种警惕性不仅对于发现单个驱动突变至关重要，对于计算指导治疗的复杂生物标志物也同样关键。肿瘤突变负荷（TMB）——对肿瘤基因组中突变数量的简单计数——被用来预测患者是否会对免疫疗法产生反应。如果变异检出流程没有经过严格调整以拒绝伪影，这些幽灵突变将夸大TMB计数，可能导致患者接受一种他们不会从中受益的强效且昂贵的疗法。现代的变异检出工具使用复杂的概率模型，整合来自碱基质量、比对质量、链偏好和读数位置的证据，来计算一个变异是真实的可能性，就像一个自动化且高度敏锐的侦探一样。同样，在像林奇综合征这样的遗传性癌症中，其特征是“微卫星不稳定性”，即大量微小的插入和缺失。一个幼稚的流程可能会将这些误认为是伪影，或者更糟的是，试图将它们过滤掉而完全错过诊断。一个成功的分析需要一种细致入微的方法，既要接纳预期的生物信号，又要仔细过滤掉围绕它的技术噪音。

癌症治疗的终极前沿是检测微小残留病灶（MRD），即通过在血液中寻找癌细胞的DNA来发现治疗后隐藏在体内的最后几个癌细胞。这意味着我们必须检测到低于万分之一（ $VAF \lt 10^{-4}$ ）的变异等位基因频率。标准测序仪的背景错误率约为千分之一，高出一百倍。信号完全被噪音淹没了。正是在这里，对伪影产生的深刻理解带来了深远的创新。通过在任何扩增前用UMI标记每个原始DNA分子，我们可以将每个读数追溯到其亲本分子。这使我们能够使用双链共有序列方法，通过计算重建原始的双链DNA分子。随机的测序错误被投票否决。仅发生在两条链之一上的PCR错误，在两条互补链不一致时被揭示出来。结果是错误率惊人地降低到不到一亿分之一，创造了一个寂静的背景，使得残余癌症最微弱的耳语也能被听到[@problem_o_id:5133634]。

生物学家的编年史：解读生命与疾病的历史

区分信号与噪音的追求远远超出了临床范畴，延伸到对生命历史和疾病动态的基础探索。

设想一个公共卫生团队正在争分夺秒地遏制一场流行病。他们使用全基因组测序来构建病原体的家族树，追踪其在人与人之间的传播。但如果病原体基因组中的一个位点是个骗子呢？它可能是“超突变”的，一个热点，突变速度如此之快，以至于两个不相关的感染可以独立获得相同的突变（一种称为homoplasy的现象）。或者，该位点可能位于一个“低复杂度”区域，那里的测序过程本身就不可靠，并且系统地在不同样本中产生相同的错误。如果团队相信了这个骗人的位点，他们将在传播链中画出错误的连接，将不相关的病例联系起来，让接触者追踪人员白忙一场。为了构建一个可靠的系统发育树，这些有噪音的、同质性的或易产生伪影的位点必须被识别出来，并在分析中被降低权重或完全移除。

同样的原则也适用于更宏大尺度上的演化生物学。发现受自然选择塑造的基因的最强大工具之一是 $d_N/d_S$ 比率，它比较了改变蛋白质的突变（非同义突变， $d_N$ ）与沉默突变（同义突变， $d_S$ ）的速率。一个显著大于一的比率是正选择的确凿证据。但想象这样一种情景：测序伪影在多个相关物种的基因的单个密码子中聚集。这可能会人为地增加非同义突变的计数，导致一个虚高的 $d_N/d_S$ 比率。一位科学家可能会兴奋地宣布发现了适应性演化，而实际上他们发现的只是数据中的一个系统性缺陷。这是一个经典的I类错误——一个假阳性——完全是由未能解释伪影造成的。我们最基本的演化发现的完整性，建立在干净、无伪影的数据基础之上。

图书管理员的策略：管理人类之书

最后，让我们思考我们这个时代的伟大图书馆：像基因组聚合数据库（gnomAD）这样的大规模人口数据库，其中包含了数十万人的基因组信息。这些数据库对临床医生来说是无价的资源。一个常见的经验法则是，如果一个变异在普通人群中频繁出现，它就不太可能导致一种罕见的严重疾病。

然而，这些数据库并非神圣的文本；它们是测序数据的汇编，其中也包含了幽灵。一个变异在数据库中可能看起来很常见，但一个持怀疑态度的“基因组图书管理员”可能会决定检查原始证据。他们可能会发现，这个所谓的常见变异具有系统性伪影的所有特征：它位于一个难以测序的低复杂度区域，支持它的读数质量和比对分数都很低，并且杂合子中的等位基因平衡与预期的 $50\%$ 严重偏离。一个独立的、更高质量的数据集可能会显示该变异完全不存在。盲目相信数据库的汇总频率而不进行这种尽职调查，可能会导致临床医生将一个真实的、致病的突变误判为良性。正确应用这些强大的资源需要批判性的眼光和质疑数据的意愿，确保我们的临床判断不会被数据库中的幻象所误导。

从一个病人的单个碱基对，到横跨数千年的演化浪潮，故事都是一样的。理解测序伪影不是一项边缘任务。它是现代科学家和医生的核心、不可协商的技能。它是区分事实与虚构、将真实的生物学信号与我们不完美仪器的回声分开的纪律。它使我们能够满怀信心、清晰明了并最终充满智慧地阅读生命之书。