远源同源性检测

玻尔百科

核心要点

有效的同源性检测依赖于像BLOSUM矩阵这样的评分系统，它反映了氨基酸替换的进化可能性，而不仅仅是简单的序列一致性。
基于谱的方法，如PSSM和HMM，通过创建一个蛋白质家族位置特异性保守模式的统计模型，提供了更高的灵敏度。
当序列相似性丢失时，蛋白质的三维结构，由于其高度保守性，成为共享进化起源的决定性证据。
检测远源同源体是生物学中的一项基础技术，对于功能注释、比较基因组学和重建生命之树至关重要。

引言

揭示被十亿年进化历程所分隔的两个蛋白质之间的进化联系，是计算生物学面临的最大挑战之一。随着物种的分化，其蛋白质序列会发生改变，往往以至于任何祖先的痕迹似乎都被抹去。这带来了一个重要问题：如果我们只寻找完全相同的序列，就会错过无数对理解生物学至关重要的深层关系。那么，当分子文本几乎被完全重写时，我们如何才能检测到共同的起源呢？

本文将探讨为寻找这些“远源同源体”而开发的复杂计算方法。它将追溯从简单的比较技术到能够捕捉到共享祖先最微弱信号的强大统计模型的演进历程。读者将对这些工具的工作原理及其为何如此重要有一个概念性的理解。在第一章“原理与机制”中，我们将剖析检测方法的演变，从理解蛋白质化学的评分矩阵，到捕捉蛋白质家族本质的基于谱的搜索，最后到同源性的最终仲裁者——结构比对。随后，“应用与跨学科联系”一章将展示这些强大的技术如何应用于整个生物学领域，以注释未知基因、重建进化树，并解决关于生命多样性起源的长期谜题。

原理与机制

想象一下，你是一位考古学家，刚刚发现了来自两个不同失落文明的古代文本残片。你想知道它们是否讲述了同一个故事。你的第一直觉可能是寻找相同的词语。但如果这两种语言虽然相关但并不相同呢？一个文本中关于“国王”的故事可能使用“rex”这个词，而另一个则使用“raja”。它们并不相同，但意思一样。如果只寻找完全匹配的词语，你将完全错过它们之间的联系。

同样深刻的挑战也存在于远源同源性检测的核心。我们寻找的是讲述相同“故事”的蛋白质——即执行相似功能或共享一个共同祖先——即使在十亿年的进化分歧已经重写了它们的分子文本之后。我们揭示这些隐藏联系的旅程，是一个从简单、朴素的想法，发展到越来越精妙、强大，能够聆听进化低语的方法的故事。

一致性的错觉

让我们从最直接的方法开始：比较两个蛋白质序列并计算相同氨基酸的数量。这似乎很合理。毕竟，如果两个蛋白质相关，它们应该相似，对吗？这种方法确实有效，但只适用于非常近的亲缘关系，比如比较人类蛋白质与其黑猩猩的对应物。当我们观察远亲——比如人类和酵母的蛋白质——这种方法就彻底失效了。

为什么呢？因为进化不仅仅保留一致性；它保留的是功能，而功能根植于化学性质。考虑两种氨基酸，亮氨酸（L）和异亮氨酸（I）。它们都是大小相似的油性非极性分子。在蛋白质的许多部分将其中一个换成另一个，可能对其结构或功能影响甚微。自然选择几乎不会注意到。现在，考虑将一个非极性的亮氨酸换成带负电荷的天冬氨酸（D）。这是一个剧烈的改变，就像用一块海绵替换一块防水砖。在蛋白质核心进行这样的替换很可能是灾难性的，会导致其错误折叠。

一个只对一致性给予加分，并对所有错配给予同等惩罚的简单评分方案，对这种关键区别是盲目的。它以同样严厉的惩罚对待温和的L-I替换和灾难性的L-D替换。对于一个可能只有 $20\%$ 氨基酸保持一致的远源同源体来说，来自大量非一致但生化上合理的替换所带来的压倒性惩罚，会淹没同源性的信号。总分会非常低，以至于我们错误地得出结论，认为这两个蛋白质不相关。我们需要一种更聪明的评分方法，一种能理解蛋白质化学语言的方法。

从历史中学习：替换矩阵的智慧

如果我们不能依赖简单的一致性分数，我们如何判断L到I的替换比L到D的替换“更好”？我们可以尝试从化学的第一性原理出发建立一个评分系统，但有一种更优雅、更强大的方法：我们可以让进化来教我们。

这就是BLOSUM（BLOcks SUbstitution Matrix）和PAM（Point Accepted Mutation）等替换矩阵背后的天才之处。科学家们没有去猜测，而是观察了数千个明确相关的蛋白质比对，并简单地统计了每种氨基酸被另一种氨基酸替换的频率。例如，他们发现色氨酸（W），一种庞大而复杂的氨基酸，很少被任何其他氨基酸替换，而丙氨酸（A），一种小而简单的氨基酸，则更“混杂”。

根据这些计数，他们基于一个优美的统计思想构建了一个评分矩阵：对数奇比率（log-odds ratio）。比对两种氨基酸（比如 $a$ 和 $b$ ）的分数本质上是：

S(a, b) = \log \left( \frac{\text{同源体中 } a \text{ 与 } b \text{ 比对的频率}}{\text{随机情况下 } a \text{ 与 } b \text{ 比对的频率}} \right)

正分意味着这种替换在相关蛋白质中出现的频率比你随机预期的要高，这表明它是一种功能上可接受的改变。负分意味着它比随机情况更少见，表明这是一种有害的突变。这不仅仅是一个分数；它是进化显著性的度量。

这种方法还揭示了另一层微妙之处：不存在一个单一、普适的“进化时钟”。替换的速率和模式取决于进化距离。要找到人类蛋白质在黑猩猩中的表亲，你会想要一个由非常相似的序列构建的矩阵。但要找到它在酵母中的远古祖先，你需要一个由高度分化的序列构建的矩阵，这种矩阵对亿万年来积累的替换更加宽容。

这就是为什么我们有一整套矩阵，如BLOSUM80、BLOSUM62和BLOSUM45。数字指的是用于构建矩阵的序列的最大一致性。对于近亲，你使用像BLOSUM80这样的“硬”矩阵，它对大多数变化给予重罚。对于远亲，你使用像BLOSUM45这样的“软”矩阵，它对更广泛的替换更加宽容。选择正确的矩阵就像调收音机：你必须调整接收器以适应你试图检测的信号频率。

家族之声：基于谱的搜索

替换矩阵是一个巨大的飞跃，但它们仍然有一个根本的局限性：它们是位置无关的。将W与苯丙氨酸（F）比对的分数是相同的，无论该位置是深埋在蛋白质核心，还是属于一个灵活的表面环区。但实际上，一个位置所受的进化约束完全取决于它的作用。一个活性位点的残基可能是绝对保守的，而一个环区的残基可能几乎可以容忍任何替换。

像BLOSUM62这样的通用矩阵，是通过对数千个不同蛋白质家族进行平均而构建的，无法捕捉这些家族特异性和位置特异性的约束。对于一个高度特化的家族，比如为了躲避免疫系统而迅速进化的病毒外壳蛋白，一个通用的矩阵可能非常不适用，导致有偏的分数和错失的同源体。

为了突破这一障碍，我们必须从比较单个序列转向将一个序列与整个蛋白质家族的集体智慧进行比较。这就是基于谱的方法（profile-based methods）的领域，使用像位置特异性评分矩阵（Position-Specific Scoring Matrices, PSSMs）和谱隐马尔可夫模型（Profile Hidden Markov Models, HMMs）这样的工具。

想象一下你有一个包含数百个锌指蛋白的多重比对。在某些位置，你几乎在每个序列中都会看到半胱氨酸（C）或组氨酸（H），因为这些是协调锌离子的残基。在其他位置，你会看到各种氨基酸的混合。一个谱（profile）捕捉了这些信息，创建了一个位置特异性的评分系统。它知道在第23位，期望出现一个C并给予高分，而在第45位，几乎任何氨基酸都可以。

此外，谱HMM更进一步，它还学习了插入和删除的信息。它了解到在两个螺旋之间的环区，看到不同长度的缺口是很常见的，因此它在那里应用较低的缺口罚分。在一个保守螺旋的中间，插入会造成破坏，它就学会了应用非常高的缺口罚分。

通过构建一个家族的统计学“本质”或“指纹”，谱搜索能够以惊人的灵敏度检测新成员。一个查询蛋白可以通过匹配家族谱的关键保守特征而获得高分，即使它与任何单个成员的整体一致性都微乎其微。这就是为什么一个寻找新型酶“Metallo-X”的搜索，用简单的BLAST搜索可能会失败，但用谱HMM却能成功，揭示了它与金属β-内酰胺酶超家族的隐藏关系。

谱的对话：挑战序列的极限

追求更高灵敏度的旅程并未就此结束。如果将一个序列与一个家族的谱进行比较如此强大，那么将一个家族的谱与另一个家族的谱进行比较又会如何呢？这就是谱-谱比对（profile-profile alignment）背后的原理，这是基于序列的搜索方法中最敏感的一类。

想象我们身处同源性的“午夜区”，两个蛋白质的序列一致性只有 $15\%$ 。谱-序列搜索可能会失败，因为查询序列的噪音太大、分化太严重，无法与目标谱令人信服地匹配。但通过谱-谱比对，我们首先为查询蛋白的家族构建一个谱，然后将其与一个包含已知家族预计算谱的数据库进行比较。

比较不再是“这个氨基酸是否符合这个位置的偏好？”而是“这个位置的偏好模式是否与那个位置的偏好模式相匹配？”例如，查询谱中的一个位置可能强烈偏好大的疏水性氨基酸（L、I、V、F），而目标谱中的一个位置显示出完全相同的偏好。即使两个位置最常见的氨基酸不同（比如一个是L，另一个是V），谱也会识别出共同的化学约束并给予强烈的匹配分数。我们正在比较进化压力本身。这种对称地使用来自比较双方的丰富统计信息，使我们能够发现那些原本完全不可见的关系。

最终的仲裁者：当序列沉默时，结构发声

最终，即使是最复杂的基于序列的方法也会遇到瓶颈。在巨大的进化时间尺度上，氨基酸序列可能会变得如此混乱，以至于其历史信号在噪音中消失。然而，蛋白质可能仍然折叠成相同的基本三维形状，因为形状决定了其功能。蛋白质的三维结构远比其一维序列更为保守。

这把我们引向了同源性的终极真理：共享的折叠（fold）。结构比对（structure alignment）算法的目标是在三维空间中叠加两个蛋白质结构，看它们是否匹配。但什么定义了“匹配”？

一个精彩的思想实验阐释了其核心原理。想象一下DALI算法，它的工作原理是比较两个蛋白质的内部距离矩阵。一个蛋白质的折叠由其所有α-碳原子（ $\mathrm{C}_{\alpha}$ ）之间的成对欧几里得距离矩阵唯一确定。这个矩阵是对形状的完整、与坐标无关的描述。现在，如果我们用一个存储沿着蛋白质主链行走的两个残基之间距离的矩阵来替换它会怎样？这个新矩阵只会告诉你两个残基在序列中的距离（ $|i-j|$ ），完全抹去了关于链如何折回自身以使远距离残基接触的所有信息。这样的算法对于比较折叠将毫无用处[@problem_l_id:2421952]。

这告诉我们，“结构”不是链的路径，而是空间接触的模式。正是这个长程相互作用的网络，在序列已经分化很久之后仍然得以保守。

结构的至高无上也帮助我们解决像环状置换（circular permutations）这样令人费解的进化难题。这指的是蛋白质的序列被重新“布线”，就好像基因在一个不同的位置被切断并重新连接。原来的N端和C端现在位于旧序列的中间，而旧的末端现在被连接起来。序列比对会完全失败，但一个聪明的、具有结构意识的算法可以检测到各个部分仍然组装成相同的整体折叠，只是穿线路径不同而已。

从计算一致性到比较形状，远源同源性检测的原理揭示了一个深刻的真理：进化是一个修补匠，而不是一个发明家。它不断地重塑、编辑和完善现有的部件。我们寻找这些古老关系的探索，迫使我们发展出越来越巧妙的方法来理解究竟什么被保守了下来——是字母、是单词、是语法，还是最终的故事本身。

应用与跨学科联系

在上一章中，我们探讨了计算生物学家为寻找基因的远亲而设计的巧妙机制。我们看到简单的搜索如何失败，以及更复杂的思想，如为一个基因家族构建“概率谱”，如何让我们在巨大的进化鸿沟中检测到共享祖先的微弱信号。但这提出了一个关键问题：为什么要费这么多功夫？这场搜寻的最终奖赏是什么？

答案是，找到一个远源同源体很少是故事的结局；它几乎总是开始。它是一把万能钥匙，不仅能打开理解单个基因的门，还能开启理解整个基因组、生物体发育乃至生命之树结构的门。检测远源同源性不仅仅是一项技术操作；它是一种思维方式，将生物学的不同角落连接成一个统一的整体。现在让我们来探索这把钥匙能打开的一些房间。

功能侦探：注释未知世界

想象一下，你是一位分子生物学家，刚刚发现了一种全新的蛋白质。你拥有它的序列，一长串字母，但你不知道它做什么。这在基因组学时代是一个常见的困境。你的第一个、最本能的反应是问：“我以前见过类似的东西吗？” 你扮演的是功能侦探的角色，而同源性是你的主要线索。

同源性检测最直接的应用是*功能注释*。如果你的未知蛋白质有一个同源体，其功能已在实验室中被精心表征，你可以合理地推断你的蛋白质做着类似的事情。但当线索中断时会发生什么？假设你正在研究脊椎动物中一个名为“Signalin”的蛋白质，你怀疑在一种生活在极端环境中的细菌中存在功能对应物。像 tBLASTn 这样的简单序列搜索结果为空。你是否走到了死胡同？

这正是远源同源性检测大显身手的地方。正如我们所见，进化通常会更强烈地保守蛋白质的功能核心——其活性位点或结合域——而不是其他部分。因此，诀窍在于停止寻找与整个蛋白质的完美匹配，转而搜索保守的域。通过使用我们的Signalin蛋白质查询已知功能域的数据库（如Pfam），我们可能会发现它包含，比如说，一个特定的“渗透压调节物结合域”。这个域可以不被表示为简单的序列，而被表示为一个丰富的统计模型——一个隐马尔可夫模型（HMM）或位置特异性评分矩阵（PSSM）。这个模型是一个远为灵敏的探针。它知道哪些位置是关键的、必须保守的，哪些位置可以容忍变异。当我们使用这个域模型搜索细菌基因组时，我们不再问“这个完整的蛋白质看起来像Signalin吗？”而是问“这里是否有任何蛋白质包含了Signalin的功能本质？”这种方法足够强大，可以找到一个仅共享少数几个关键残基，但执行相同基本任务的细菌蛋白质。

这一原理是现代大规模生物学的核心工具。当科学家对来自海洋或土壤的整个微生物群落进行测序——一个称为宏基因组学的领域——他们面临着海量的未知基因。通过使用灵敏的、基于谱的方法，他们可以为这些基因分配功能，并构建出群落集体代谢的图景，甚至无需在实验室中培养任何一个微生物。

阅读生命之书：进化与比较基因组学

同源性是进化的语言，用DNA和蛋白质的字母写成。通过学习阅读它，我们可以重建生命的历史。当我们比较整个基因组时，我们发现一些同源基因通过物种形成事件相关联——这些被称为直系同源物（orthologs）。它们是不同物种中的“相同”基因，比如人类和黑猩猩中的血红蛋白基因。其他同源物则源于单个谱系内的基因复制事件——这些被称为旁系同源物（paralogs）。它们代表了创新和分化，即一个基因的额外副本可以自由地进化出新的功能。

区分直系同源物和旁系同源物是比较基因组学的核心任务，它充满了挑战，需要我们最灵敏的工具。想象一下比较一个自由生活的细菌与其表亲——一个在宿主细胞内生活了数百万年的内共生体的基因组。内共生体的基因组很小；它失去了大部分基因，而剩下的基因进化得非常快。一个寻找直系同源物的简单方法，比如寻找“相互最佳匹配（Reciprocal Best Hits）”，在这种不对称的比较中很容易被误导。小基因组中一个快速进化的基因可能会错误地看起来是大基因组中一个不相关基因的最佳匹配，仅仅因为其真正的伙伴已经丢失了。需要更复杂的、考虑整个相似性网络的基于图的方法来解决这些复杂的历史。

也许这个领域最引人入胜的应用是解决“孤儿基因”之谜——这些基因在一个物种中被发现，但在其他任何地方都没有可识别的同源物。它们真的是从头（de novo）产生的，来自以前的非编码DNA吗？还是它们是古老家族的浪子，因快速进化而面目全非，以至于其外貌完全被伪装了？

远源同源性检测是这些基因的终极亲子鉴定。以一种果蝇 Drosophila erecta 为例，它拥有一个名为 OrfX 的孤儿基因。它在最亲近的亲属中缺失。一个de novo起源似乎是合理的。但当用一个高度灵敏的谱比较工具分析其蛋白质序列时，一个微弱但统计上显著的与谷胱甘肽S-转移酶（GST）家族的相似性出现了。序列一致性极差，为 $0.2$ ，但预测的三维结构毫无疑问是GST蛋白的结构。这一条线索改变了一切。最合理的故事不再是从无到有的奇迹诞生，而是一个更熟悉的进化故事：一个祖先GST基因被复制，新副本以惊人的速度进化，承担了新的角色，直到除了最敏锐的眼睛外，所有人都无法辨认。同样的逻辑也帮助我们应对巨大的“病毒暗物质”——巨型病毒基因组中大量的孤儿基因（ORFans），其功能和起源仍然是病毒学中最大的谜题之一。

超越序列：形态与发育中的同源性

同源性的概念比DNA的发现更古老。19世纪的解剖学家认识到，蝙蝠的翅膀、鲸鱼的鳍和人类的手臂都是一个共同主题的变体。它们是同源结构。我们现代的、基于序列的同源性理解如何与这种经典观点联系起来？

这种联系存在于进化发育生物学（evo-devo）领域。生物体的形态是由一个复杂的基因管弦乐队——一个基因调控网络（GRN）——在发育过程中的正确时间和地点开启和关闭基因来构建的。同源结构本质上是由同源的GRN构建的。

让我们看一个经典的例子：四足动物的呼吸空气的肺和鱼类用于浮力的充满气体的鱼鳔。它们是同源的吗？从表面上看，它们的功能不同。但深入研究会发现，这两种结构都源于胚胎中的相同组织（前肠内胚层），并且它们的发育由一套共享的核心转录因子（如 $TBX4$ ）和信号分子（如 $FGF10$ ）控制。为了严格检验这种同源性，现代生物学家会整合多条证据线：追踪细胞的发育谱系，识别共享的核心GRN，甚至在物种间交换调控DNA元件，看看鱼的增强子是否能在小鼠胚胎中驱动基因表达。在这种丰富的背景下，同源性变成了一个关于发育程序保守性的假说，这是一个比单纯的序列相似性深刻得多的概念。

生命之树的基石

最后，我们所有绘制基因和生物体之间关系的努力，都 culminate 于构建系统发育树。这些树是我们对进化历史最有力的总结。但它们是由什么构建的呢？它们是由多重序列比对构建的。而一个多重序列比对，无非是一个宏大的位置同源性假说。比对中的每一列都断言，该位置的氨基酸（或缺口）都可以追溯其祖先到一个共同祖先基因中的单个位置。

这是一个深刻的观点。系统发育树的基础本身就是一个关于同源性的陈述。但如果我们对这个陈述不确定怎么办？在有许多插入和删除的困难案例中，对于同一组序列可能存在几种不同的、合理的比对。传统方法是生成一个“最佳”比对，并将其视为完美数据。但这就像一个历史学家把他们的全部叙述建立在一份单一的、可能有缺陷的手稿上。

一种更复杂的方法，处于该领域的最前沿，是拥抱这种不确定性。可以使用统计方法对许多可能的比对进行抽样，然后将系统发育结果在它们上面进行“平均”。在一个引人入胜的案例研究中，我们可能会发现，单一的最佳比对（ $A_1$ ）支持一种树形拓扑（ $T_1$ ），而另一个合理的比对（ $A_2$ ）则强烈支持另一种拓扑（ $T_2$ ）。通过权衡来自两种比对的证据，我们可能会发现，总体支持实际上指向 $T_2$ 。承认我们对位置同源性的不确定性，会导向一个更稳健、且可能不同的关于生命之树的结论。这表明，成熟的科学不在于寻找确定性，而在于量化和管理不确定性。有时，最重要的一步是诚实地面对我们不知道的东西。

同样这种提炼我们同源性假说的精神，也驱动着其他创新，例如根据其物理化学性质（如疏水性、极性、带电）将20种氨基酸重新编码为一个更小的字母表。对于非常遥远的关系，这种粗粒化可以放大保守功能的微弱信号，使我们能够构建更好的比对，从而构建更好的树。

从识别单个蛋白质的功能到解析生命之树最深处的分支，寻找远源同源体的探索是贯穿整个生物学的一条统一线索。它是一个强大的透镜，让我们能够看透表面的差异，感知由数十亿年共享历史锻造的深层、内在的统一。