序列分析

玻尔百科

定义

序列分析是一种利用演化替代矩阵来衡量生物序列相似性的计算生物学方法。该领域通过比对序列来重建系统发育历史、识别功能关键的保守区域，并利用 dN/dS 比率量化选择压力。序列分析通过识别特定模式和基序来预测蛋白质的三维结构，在医学诊断和针对性药物设计等生物技术领域发挥着至关重要的作用。

核心要点

序列相似性是使用具有进化信息的替换矩阵来衡量的，该矩阵根据变化在自然界中观察到的频率（而不仅仅是基于一致性）进行评分。
序列比对使科学家能够重建系统发育历史，识别功能上至关重要的保守区域，并使用dN/dS比率量化选择压力。
序列中的特定模式和基序（例如锌指或疏水性片段）可以用来预测蛋白质的三维结构和生物学功能。
序列分析对医学和生物技术至关重要，它能够利用病原体与宿主之间的序列差异来设计高度特异性的诊断测试和靶向药物。

引言

生物体的基因组中蕴藏着以DNA、RNA和蛋白质语言编写的丰富信息。但我们如何阅读这些复杂的生物文本呢？这正是序列分析所要解决的核心挑战。该领域提供了破译这些分子序列中所编码的功能、结构和进化历史的工具。如果没有这些分析方法，一个新发现的基因或蛋白质只是一串无意义的字母，我们无法确定它与已知基因的关系、其潜在功能，也无法了解它如何被自然选择所塑造。

本文将带领读者全面深入地探索序列分析的世界。在第一章“原理与机制”中，我们将探讨让我们能够衡量相似性、重建进化故事以及检测自然选择印记的核心概念。我们将揭示如何从简单的序列一致性转向能够捕捉生物变化细微之处的复杂模型。随后，在“应用与跨学科联系”中，我们将看到这些原理的实际应用，考察序列分析如何彻底改变了从医学、生物技术到进化生物学等多个领域，以及它如何在生物学、计算机科学和统计学之间建立起深刻的联系。

原理与机制

要阅读生命之书，我们必须首先学习它的字母和语法。DNA、RNA和蛋白质的序列并非随机的字母串；它们是经过数十亿年进化磨砺而成的、精心制作的信息。序列分析的宏大挑战就是破译这些信息——解读其中编码的历史、功能和命运。在本章中，我们将从最简单的问题“这两个序列是否相关？”出发，直至对塑造生命本身的力量进行最深刻的探究。

生命的语言与相似性的度量

想象一下，你有两份用一种早已失传的语言写成的文本。如果它们以相同的顺序共享许多相同的词语，你自然会怀疑它们是相关的——也许其中一份是另一份的副本，或者它们都源自一份共同的手稿。在生物学中，我们做同样的事情。当我们比较两个蛋白质或DNA序列时，我们的首要目标通常是确定它们是否同源（homologous），即它们是否共享一个共同的进化祖先。

衡量相关性最直接的方法是序列一致性（sequence identity）：即字母相同的位点所占的百分比。如果两个蛋白质有90%的一致性，我们几乎可以肯定它们是同源的。但如果一致性较低呢？如果两种酶只有27%的一致性，它们是否相关，还是这种相似性仅仅是巧合？这就是序列分析中著名的“暮光区”（twilight zone）。大约20%到30%之间的一致性虽然诱人，但并不能得出确切结论。这是它们拥有共同过去的线索，但并非证据。为了确信这一点，我们需要的不仅仅是简单地计算匹配的字母数量；我们需要对“匹配”的真正含义有更深入的理解。我们需要理解进化的语法。

洞穿噪音：替换评分

自然界不像数字计算机，从0到1的变化与其他任何变化都同样重要。在蛋白质的世界里，某些氨基酸替换比其他替换更具破坏性。将一个小而油性的氨基酸换成另一个，可能对蛋白质的形状和功能影响甚微。但将其换成一个大而带电的氨基酸，则可能是灾难性的。进化深知这一点。在相关的蛋白质中，可容忍的替换很常见，而破坏性的替换则很罕见。

这就是替换矩阵（substitution matrices）背后美妙的思想。这些矩阵就像一块进化的罗塞塔石碑。它们不仅仅将替换评分为“匹配”或“不匹配”；它们根据特定替换在已知相关的同源蛋白质中被观察到的频率来赋分。这个分数， $S_{x,y}$ ，通常是一个对数奇数比（log-odds ratio）：

S_{x,y} = \log_b\left(\frac{p_{xy}}{q_x q_y}\right)

此处， $p_{xy}$ 是在相关序列中氨基酸 $x$ 和 $y$ 对齐的观察概率，而 $q_x$ 和 $q_y$ 仅仅是它们的背景频率。正分表示该替换的发生频率高于偶然预期，表明这是一种进化上可接受的变化。负分则表示其发生频率低于偶然预期，表明这是一种自然选择倾向于清除的有害变化。

这揭示了一个关于生物学奇妙而微妙的真理。你可能会认为，如果丙氨酸（Ala）替换甘氨酸（Gly）是有利的（ $S_{\text{Ala},\text{Gly}} > 0$ ），而甘氨酸替换丝氨酸（Ser）也是有利的（ $S_{\text{Gly},\text{Ser}} > 0$ ），那么丙氨酸替换丝氨酸也应该是有利的。但这不一定成立！分数是基于进化所允许的冷酷、确凿的经验数据。这里没有数学上的传递性规则。我们可能会发现，从丙氨酸直接转换到丝氨酸在结构上是破坏性的，因此得分为负。生物学中的相似性不是一个简单的、抽象的属性；它是在自然选择的熔炉中锻造出的复杂、依赖于背景的关系。

“并非所有变化都等价”这一原则也适用于DNA。核苷酸碱基分为两类：较大的嘌呤（腺嘌呤和鸟嘌呤，A和G）和较小的嘧啶（胞嘧啶和胸腺嘧啶，C和T）。转换（transition）是同一类内部的替换（例如，A ↔ G），而颠换（transversion）是不同类别之间的替换（例如，A ↔ C）。由于DNA复制和修复的底层生物化学机制，转换发生的可能性远大于颠换。因此，在构建进化树时，一次罕见的颠换是一个比一次常见的转换更为重要的事件——它是深层进化分歧的更有力证据。明智的分析会相应地对证据进行加权，为颠换分配更高的“成本”。

解读进化故事：比对与系统发育

有了评分系统，我们就可以超越单个字母，比对整个序列。但序列不仅仅会替换字母；它们还会获得或失去整个片段。这些事件被称为插入和删除（indels），在序列比对中表示为空位（gaps）。空位远非仅仅是麻烦，它们是故事的重要组成部分。想象一下，我们比对来自五个相关细菌物种的某种酶的序列。我们发现其中四个长约300个氨基酸且能完美比对，但第五个长380个氨基酸。在比对中，这表现为一个序列中连续的80个氨基酸的区块，对应于其他序列中一个80个字符的空位。最简约的解释不是四次独立的、相同的删除事件，而是一次单一的插入事件——某个特定谱系中获得了一个全新的功能域或一个大的调控环，这可能赋予了该物种一种新的、独特的能力。比对揭示了进化正在进行时。

多重序列比对（multiple sequence alignment）是构建系统发育树（phylogenetic tree）的基础，后者是关于一组生物或基因之间进化关系的图形化假说。但是，一棵未经修饰的树就像一张没有标签的家庭照片；你可以看到谁坐在谁旁边，但你不知道谁是祖父母。为了找到进化的“方向”，我们需要为树定根（root）。这通过包含一个外群（outgroup）来实现——根据其他证据，我们知道这个序列比我们感兴趣的任何序列（“内群”）彼此之间的关系都要远。例如，要为一次人类病毒爆发的树定根，我们可能会包含一个来自可疑动物宿主（如蝙蝠）的相关病毒序列。这个蝙蝠病毒分支与人类病毒主树连接的点代表了根，即这次爆发历史中最古老的分歧点。

然而，我们必须非常谨慎地解释这些树。如果一个生物群体包含一个共同祖先及其所有后代，则称其为单系群（monophyletic）（一个自然群体，或称支系）。有时，分类是基于一个可能具有误导性的共同性状。考虑这样一个情景：物种B、D和E都共享一种独特的、较短版本的酶，而它们的亲属A和C则拥有较长版本。人们很容易将{B, D, E}归为一组。但如果遗传分析显示，B、D和E的最近共同祖先也衍生出了C（拥有长酶）呢？又如果我们发现，短酶是由两次独立的基因突变事件产生的，一次发生在B的祖先中，另一次稍后发生在D和E的祖先中呢？这个共享性状是趋同进化（convergent evolution）的结果，而非共同遗传。群体{B, D, E}是多系群（polyphyletic）——这是一个基于某个性状的人为分组，该性状并未反映它们真实的、单一的进化历史。序列分析使我们能够区分这些类似（趋同性状）和真正同源的情况。

超越同源性：破译功能与选择

序列分析不仅能重建过去，还能揭示当今作用于基因的功能压力。在蛋白质编码基因中，一些核苷酸变化会改变最终的氨基酸（非同义替换，速率为 $d_N$ ），而另一些则不会（同义替换，速率为 $d_S$ ）。由于同义替换在很大程度上对自然选择是不可见的，它们的累积速率为我们提供了一个中性遗传漂变的基线。通过将非同义替换的速率与这个基线进行比较，我们得到了一个强有力的选择压力指标—— $d_N/d_S$ 比率。

如果 $d_N/d_S \lt 1$ ，则非同义替换正被选择所清除。这是纯化选择（purifying selection），是一个基因功能极其关键以至于大多数改变都有害的标志。对于像RuBisCO这样至关重要的光合作用酶来说， $d_N/d_S$ 比率为0.08清楚地表明进化正在激烈地保守其氨基酸序列。
如果 $d_N/d_S \approx 1$ ，蛋白质的改变似乎对生物体的适应性影响不大。这是中性进化（neutral evolution）。
如果 $d_N/d_S > 1$ ，则非同义替换正被主动偏好并在群体中固定下来。这是正选择（positive selection），是进化军备竞赛的标志，常见于适应新病原体的免疫系统基因。

当我们寻找最微妙的线索时，最终也是最美妙的分析层面便浮现出来。有时，没有可辨别相似性且功能完全不同的序列，可以折叠成完全相同的三维形状。例如，TIM桶是一种多功能的蛋白质结构，存在于数百种不相关的酶中。这是结构层面的趋同进化。TIM桶就是这样一种稳定且适应性强的支架，以至于进化一次又一次地独立“发现”了它，以解决无数的生物化学问题。

这个原理——功能决定形式，形式反过来在序列中留下痕迹——促成了生物信息学中最非凡的壮举之一：仅从序列预测结构。考虑一个RNA分子，它通过自身回折形成由碱基对（例如G与C配对）稳定的特定结构来发挥功能。如果碱基对中的一个位置发生突变（例如G变为A），结构就会失稳。这通常是有害的。然而，在配对位置发生的第二次补偿性突变（例如C变为U）可以恢复配对（现在是A-U）和结构。在进化过程中，这在比对中留下了一个统计指纹：序列中不相邻的两列似乎在同步进化。这就是协变（covariation）。

通过构建明确搜索这些协变对的统计模型，即协方差模型（covariance models），我们可以从多重序列比对中重建一个RNA家族的二级结构。这些模型如此强大，以至于我们可以接着扫描整个基因组，寻找新的、以前未知的功能性RNA，如核糖开关（riboswitches），并使用严格的统计方法来确保我们的发现不仅仅是侥幸的巧合。这是一个绝佳的例子，说明了一个深刻的功能约束——三维折叠——如何在一维的核苷酸串中留下可被检测到的回响，一个我们可以学会去聆听的回响。这段从简单的一致性到协变的微妙乐章的旅程，正是序列分析的精髓与魅力所在。

应用与跨学科联系

在探索了序列分析的基本原理之后，我们现在来到了旅程中最激动人心的部分：见证这些思想的实际应用。理解比对的机制或同源性的统计学是一回事，而亲眼目睹这些工具如何成为一把万能钥匙，解锁广阔生物学及更远领域的秘密，则完全是另一回事。对于物理学家来说，自然法则之美在于其普适性，从苹果的坠落到行星的轨道无不适用。本着同样的精神，序列分析的原理之所以深刻，是因为它们适用于生命存在的每一个角落，将分子、生物体和生态系统的故事编织在一起。

代表基因或蛋白质的字母串不仅仅是数据；它同时是一份内容丰富的历史文献、一张详细的蓝图和一个动态的脚本。学会阅读这份脚本彻底改变了我们处理生物学问题的方式，将许多领域从纯粹的观察科学转变为预测和工程学科。让我们来看看序列分析已成为不可或缺工具的几个领域。

破译蓝图：从序列到结构与功能

在最直接的层面上，蛋白质的氨基酸序列是一套关于其如何折叠成三维形状的指令。众所周知，在生物学中，结构决定功能。如果我们能正确解读序列，我们通常可以对蛋白质的功能及其作用位置做出惊人准确的预测。

想象一下，你发现了一个控制基因开启或关闭的新蛋白质。通过分析其序列，你可能会注意到一个重复的氨基酸模式——比如，一个半胱氨酸残基，后面跟着两个其他氨基酸，然后是另一个半胱氨酸，依此类推。对于训练有素的眼睛来说，这不仅仅是随机的重复。这个具有精确定位的半胱氨酸和组氨酸残基的特定基序，是“锌指”结构的标志，该结构利用一个锌离子（ $Zn^{2+}$ ）折叠成一个非常适合抓取DNA分子的形状。我们甚至无需亲眼看到这个蛋白质，仅通过阅读其序列，就推断出了它的三维折叠、对特定金属离子的依赖，以及其基本的生物化学任务：结合DNA。

这种预测能力延伸到了细胞本身的复杂结构。考虑一个注定要存在于细胞油性膜内的蛋白质。它的序列必须包含能在该环境中感到“舒适”的片段。通过扫描序列中富含疏水性（憎水）氨基酸的片段，我们可以生成一张“亲疏水性图”（hydropathy plot）。如果这张图显示出七个明显的疏水峰，每个长约20个氨基酸，我们就可以自信地预测我们正在观察一个七次跨膜蛋白——一条在膜上来回穿梭七次的分子巨蛇。这类蛋白质包括我们体内许多最重要的受体，负责检测从光到激素的各种信号。对一级序列的简单分析让我们直接窥见了蛋白质复杂的细胞拓扑结构。

阅读进化之书：揭示历史与选择压力

序列分析最深刻的应用或许是在进化生物学中。序列是活生生的历史记录。通过比较不同物种的同一个基因，我们可以在分子水平上观察进化的上演。其核心原理异常简单：如果序列的某一部分对关键功能至关重要，自然界将激烈地抵制对其的任何改变。该区域的突变将是有害的，并会被自然选择所淘汰。

这意味着，通过比对来自不同物种——比如人类、小鼠和酵母——的同源蛋白质，我们可以立即发现最重要的区域。如果一个蛋白质的前75个氨基酸在所有这些物种中几乎完全相同，而尾端则是一片混乱的变异，那么你就找到了该蛋白质的功能核心。保守的部分是引擎，执行着十亿年进化中不可或缺的核心任务。可变部分可能参与物种特异性适应，或者仅仅是对蛋白质主要工作不那么关键。

这种对历史的“解读”可以为生物学中一些最宏大的理论提供确凿的证据。内共生理论提出，我们的线粒体曾经是自由生活的细菌，这是一个绝妙的假说。但序列分析将其变成了公认的事实。如果你对复制线粒体DNA的机制进行测序，你会发现它与现代细菌的聚合酶的相似度，远高于与细胞核内聚合酶的相似度。线粒体的DNA序列，在某种意义上，是其古老细菌起源的自白。

我们甚至可以超越识别保守性，开始量化进化本身的力量。通过比较改变最终氨基酸的“非同义”突变率（ $d_N$ ）和不改变氨基酸的“同义”突变率（ $d_S$ ），我们得到了一个强大的比率： $d_N/d_S$ 。如果 $d_N/d_S \lt 1$ ，蛋白质正受到纯化选择的保守。如果 $d_N/d_S \approx 1$ ，它很可能在中性漂变。但如果 $d_N/d_S \gt 1$ ，那么就有趣了：蛋白质正在经历正选择，即改变被主动偏好。这使我们能够检验特定的进化假说。例如，如果你怀疑多配偶制物种中的精子竞争驱动了生殖蛋白的快速进化，你可以直接进行检验。你会预测——并且确实会发现——这些物种的精液基因的 $d_N/d_S$ 比率显著高于其单配偶制亲属，为性选择施加的适应性压力提供了定量证据。

行业工具：序列分析在医学和生物技术中的应用

阅读和比较序列的能力不仅是一项学术活动；它是现代医学和生物技术的基础。它使我们能够以惊人的精度构建分子工具。

考虑为一种致病菌设计诊断测试的挑战。你想使用聚合酶链式反应（PCR）来扩增一个特定的毒力基因。问题是，该细菌可能还含有一个无害的、已损坏的该基因副本——一个假基因（pseudogene）——其序列几乎完全相同。设计不佳的测试会同时扩增两者，导致假阳性。解决方案在于仔细的序列分析。通过比对基因和假基因，你可以找到少数几个不同的核苷酸。通过设计一个PCR引物，使其3'端——聚合酶的关键起始点——正好落在其中一个差异碱基上，你就可以创建一个只扩增真正毒力基因的测试，完全忽略其无害的“表亲”。这种等位基因特异性扩增的原理是分子诊断的基石。

同样的逻辑也支撑着现代药物设计的大部分工作。最好的抗生素是那些攻击病原体机制而对我们自身机制无害的药物。这怎么可能呢？因为必需基因的序列存在细微差异。核糖体，细胞的蛋白质制造工厂，是一个主要的抗生素靶点。像恶唑烷酮这样的抗生素可以结合到细菌核糖体的一个特定口袋中并将其关闭。它对我们无害，因为我们自己的胞质核糖体的序列在那个确切的位置上略有不同。细菌核糖体RNA中的一个关键鸟嘌呤（ $G$ ）在我们的核糖体中被一个腺嘌呤（ $A$ ）所取代。这个看似微小的变化移除了一个关键的氢键受体，使药物的结合力减弱到无关紧要的程度。序列分析揭示了这些“阿喀琉斯之踵”，让药物化学家能够设计出高选择性和高效的药物。

通往其他世界的桥梁：计算联系

最后，我们有必要停下来欣赏序列分析深刻的跨学科联系。在庞大的基因组中寻找基因，或在两个序列之间寻找最可能的比对，从根本上说是一个从噪音中解码隐藏信息的问题。为解决这个问题而开发的数学工具，如隐马尔可夫模型（Hidden Markov Models, HMMs），并非生物学独有。用于识别句子中词性（名词、动词、形容词）的同一类算法，可以被改造用于寻找基因组的“组成部分”（外显子、内含子、启动子）。Viterbi算法用于解码HMM中通过隐藏状态的最可能路径，它对生物信息学家来说，就像对计算语言学家或通信工程师一样至关重要。

这种趋同是一个美丽地提醒，展示了理性思维的统一性。让我们能够在十亿个DNA碱基对中找到一个基因的逻辑，与让手机能够理解我们口语的逻辑是同源的。因此，序列分析不仅仅是生物学的一个子领域。它是生物学、进化论、统计学、计算机科学和化学的一个充满活力的交叉点——证明了当我们用多维度的视角看待世界时，最深刻的洞见是如何产生的。从预测单个分子的功能，到重新绘制生命之树，再到设计拯救生命的药物，阅读自然密码的能力，现在是、将来也仍将是所有科学中最强大、最具启发性的事业之一。