蛋白质序列分析

玻尔百科

定义

蛋白质序列分析是一门利用氨基酸一级序列来推断蛋白质功能、结构及演化历史的生物计算学科。该领域利用 BLOSUM 等计分矩阵衡量序列相似性，从而识别决定蛋白质空间折叠、细胞定位及寿命的特定模式（如信号肽或 PEST 序列）。蛋白质序列分析不仅能辅助鉴定致病基因，还能通过比对高度保守的蛋白质结构来重建远古演化关系，例如为恐龙与鸟类之间的联系提供分子证据。

核心要点

序列相似性使用像 BLOSUM 这样的评分矩阵，是比简单的序列一致性更具生物学意义的蛋白质关联性度量方法，因为它考虑了氨基酸的化学和进化可互换性。
蛋白质的一级序列包含特定模式，这些模式决定其三维结构（例如，双亲性螺旋）、在细胞中的位置（例如，信号肽）及其寿命（例如，PEST 序列）。
在进化过程中，蛋白质结构的保守性远高于序列，这使得科学家们即使在蛋白质序列已发生显著分化的情况下，仍能识别出它们之间的古老关系（直系同源物）。
序列分析是一种多功能的工具，可跨学科用于推断蛋白质功能、识别致病基因，甚至重建进化历史，例如为恐龙与鸟类之间的联系提供分子证据。

引言

蛋白质的一级序列，即其氨基酸的线性链，远不止是一串简单的字母。它是一段内容丰富、层次分明的文本，编码了蛋白质的形状、功能、细胞定位乃至其进化历史。理解这门复杂的语言是现代生物学的核心目标之一。然而，破译这些信息是一项重大挑战：我们如何将一维代码转化为具有特定作用和历史的三维功能机器？本文旨在作为一本解读蛋白质语言的指南。首先，我们将深入探讨“原理与机制”，探索序列如何决定结构、包含功能信号并反映进化过程。随后，我们将审视“应用与跨学科联系”，展示这些原理如何被用来预测蛋白质的身份与用途、定位其细胞地址，甚至穿越时空，重建生命本身的历史。

原理与机制

想象一下，你偶然发现了一个古老的图书馆，里面装满了用未知语言写成的书籍。你的首要任务可能只是比较字母。你可能会注意到两个句子有 50% 的字符是相同的。这是一个开始，但这是一种浅显的理解。如果你能破译语法、句法和意义呢？如果你意识到有些字母虽然不同，但扮演着相似的语法角色，而且整个句子结构在不同的书中重复出现，讲述着类似的故事，那又会怎样？

这正是我们即将对蛋白质序列进行的探索之旅。蛋白质的一级序列——氨基酸的线性链——远不止是一串简单的字母。它是一段内容丰富、层次分明的文本，编码了蛋白质的形状、其工作、其位置，甚至其进化历史。让我们一层一层地揭开这些面纱。

不仅仅是一串字母

比较两个序列时，我们的第一直觉是看有多少个位置完全匹配。这被称为序列一致性。这是一个有用且直接的数字，但它并不能说明全部问题。考虑两个短的蛋白质片段：W-Y-F-M 和 W-F-Y-L。在四个位置中，只有第一个色氨酸 (W) 是相同的。所以，它们的序列一致性为 $1/4$ ，即 $0.25$ 。这很简单。

但它们真的只有 25% 的相似度吗？让我们仔细看看。在第二个位置，我们有酪氨酸 (Y) 和苯丙氨酸 (F)。两者都是大的芳香族氨基酸；它们的化学性质非常相似。在第四个位置，我们有甲硫氨酸 (M) 和亮氨酸 (L)。两者都是大小相当的非极性、“油性”氨基酸。进化已经表明，交换这两对氨基酸通常对蛋白质的整体结构和功能影响甚微。它们不完全相同，但高度相似。

这就是序列相似性概念的用武之地。我们不再用简单的 0 或 1 来表示错配或匹配，而是使用一个评分系统，比如著名的 BLOSUM 矩阵，它为每一种可能的氨基酸对分配一个分数。这个分数反映了在已知的蛋白质总目中，一种氨基酸被另一种氨基酸取代的频率，这反过来又反映了该替换的化学相似性和进化容忍度。

对于我们的例子，比对分数不仅仅基于那一个匹配。我们将每一对的分数相加：W-W 匹配的高分，Y-F 相似性的正分，F-Y 的另一个正分，以及 M-L 对的又一个正分。总的“相似性得分”为我们提供了一个比单独的一致性更为细致和具有生物学意义的关系度量。这种复杂性正是蛋白质如此特别的部分原因。DNA 只有 4 个字母的字母表，在一个通用模型中导致 $4 \times 3 = 12$ 种可能的单向替换，而蛋白质则有 20 个字母的丰富字母表。这导致了惊人的 $20 \times 19 = 380$ 种可能的替换需要考虑，创造了一个远比 DNA 更复杂、信息更丰富的相似性景观。

编码在文本中的雕塑

一级序列中蕴含的最深奥的秘密是蛋白质三维结构的蓝图。这是分子生物学的核心奇迹：一维信息串自发地折叠成一个复杂的、功能性的机器。这是如何发生的呢？物理定律作用于氨基酸侧链的化学性质。

让我们来看一个优美的例子。想象一个蛋白质片段，其序列由交替的非极性（疏水）和极性（亲水）氨基酸组成，例如 Leucine-Aspartate-Isoleucine-Lysine-Valine-Glutamate。已知该片段会形成 β-链，一种类似于扁平、褶皱带状的结构。β-链的一个关键特征是相邻氨基酸的侧链从主链向相反方向伸出。

对于我们这个交替序列，这种几何结构会带来什么后果？所有的非极性侧链（Leucine、Isoleucine、Valine）都将从带状结构的一个面伸出，形成一个“油性”或疏水面。所有的极性侧链（Aspartate、Lysine、Glutamate）都将从相对的面伸出，形成一个亲水面。这种双面结构被称为双亲性。

现在，将这个双亲性带状结构放入主要由水组成的细胞中。蛋白质折叠的基本驱动力——疏水效应——开始发挥作用。自然界想要将油性的非极性面隐藏起来，远离水。最优雅的方式是将 β-链放置在蛋白质表面，其疏水面朝内，紧密地贴着蛋白质的非极性核心，而其亲水面朝外，愉快地与周围的水相互作用。序列本身，通过其字母的简单交替模式，不仅决定了其局部形状（一个 β-链），还决定了其在完全折叠的蛋白质中的最终位置。

序列中的模式决定结构的这一原则是普适的。另一个著名的例子是卷曲螺旋，这是一种两个或多个α-螺旋像绳索一样相互缠绕的结构。该结构由一个简单的、重复的七个氨基酸的模式——称为七肽重复序列——构建而成，其中特定位置始终是疏水的。像 COILS 程序这样的专门算法正是为了扫描序列中的这种特征性周期而设计的，用以预测这些重要结构基序的位置。

嵌入式指令：邮政编码与秒表

除宏伟的建筑蓝图外，一级序列中还充满了简短、特定的基序，它们就像给细胞机器的直接指令。这些指令与折叠无关，而与物流和调控有关。

想象一个大型、繁忙的公司。一份备忘录需要被送到正确的部门。如何做到？用地址标签。蛋白质也有同样的东西：靶向信号。这些是作为分子“邮政编码”的短氨基酸序列。例如，一个注定要从细胞中分泌或嵌入膜中的蛋白质，通常以一个 N-末端的信号肽开始——这是一段约 15-30 个氨基酸的序列，具有明显的疏水核心。当蛋白质被合成时，这个信号肽被一个细胞机器识别，该机器将整个蛋白质制造装置护送到“运输部门”——内质网 (ER)。其他的“邮政编码”，比如一小段带正电荷的氨基酸，可能会将蛋白质引导到细胞的“总部”——细胞核。没有这些信号，一个蛋白质注定会留在主要的“办公隔间”——细胞质中。

序列中还包含了蛋白质自我销毁的指令。许多蛋白质，特别是那些调节细胞分裂等关键过程的蛋白质，需要有较短的寿命。它们必须出现，完成工作，然后迅速消失。它们的序列中通常包含一个内置的“自毁”计时器，一种降解决定子 (degron)。其中最著名的例子之一是 PEST 序列，这是一个富含四种特定氨基酸的区域：脯氨酸 (Proline, P)、谷氨酸 (Glutamic Acid, E)、丝氨酸 (Serine, S) 和苏氨酸 (Threonine, T)。PEST 基序的存在就像一个旗帜，标记该蛋白质将被细胞的回收机器——蛋白酶体——快速降解。在一个新的蛋白质中发现 PEST 序列，是其可能是一种半衰期短的瞬时调节分子的有力线索。

双城记：进化的蓝图

当我们放眼生命之树，比较不同物种的序列时，我们揭示了或许是所有原理中最美妙的一个。让我们比较一下我们肌肉中储存氧气的肌红蛋白，和在大豆植物根瘤中执行类似功能的豆血红蛋白。这两种生命形式，人类和植物，在十亿多年前共享一个共同的祖先。如果你比对它们的蛋白质序列，一致性仅为区区 18%。这个数值如此之低，以至于仅凭序列，你可能不确定它们是否相关。

但当你观察它们的三维结构时，你会有一个惊人的发现。它们几乎完全相同。两者都由八个 α-螺旋束组成，围绕一个血红素基团，形成一种被称为珠蛋白折叠的特定排列。这种家族相似性是不可否认的。

这给我们上了一堂深刻的课：在进化中，蛋白质结构的保守性远高于蛋白质序列。三维折叠是功能性支架，是进化努力保留的核心发明。然而，确切的序列更具可塑性。经过亿万年的演变，突变积累，改变了许多氨基酸。但只要这些替换不破坏整体折叠——例如，用另一个小的疏水残基替换核心中的一个小的疏水残基——结构就保持不变。一个功能性折叠可以由许多不同但化学上兼容的氨基酸集合构建而成。

这一观察解释了结构生物学的一个核心谜题：为什么巨大且不断增长的蛋白质序列宇宙会塌缩成一个更小、有限的独特蛋白质折叠集合？。答案是趋异进化。在进化上，采用一个成功的、已有的折叠并“修补”其序列以创造新功能，比从头开始发明一个全新的折叠要更容易、更安全。因此，蛋白质组被组织成蛋白质家族和超家族，它们都共享一个共同的祖先折叠，即使它们的序列已经分化到无法辨认的程度。像 Pfam 这样的生物信息学数据库本质上就是这些古老、保守的结构域的百科全书，使用称为轮廓隐马尔可夫模型的强大统计模型来识别它们在新序列中微弱的、家族特有的信号。

但大自然是聪明的，并不局限于单一策略。共享的折叠总是意味着共享的祖先吗？不一定。考虑一下 TIM 桶，这是一种美丽且高度稳定的折叠结构，看起来像一个甜甜圈。它是自然界中最常见的折叠之一，被具有完全不相关功能的大量酶所使用。在某些情况下，两个具有 TIM 桶折叠的蛋白质没有显示出序列相似性，并且在远缘相关的生物体中催化不同的反应。这里最可能的解释不是共享祖先，而是趋同进化：这个特殊的折叠是如此稳定和多功能的酶构建支架，以至于进化独立地“发现”了它多次。这就像鸟类、蝙蝠和昆虫翅膀的独立进化——这是大自然不止一次地为解决飞行问题而得出的绝妙方案。

读取片段：推断的挑战

在这次对优雅原理的宏大巡礼之后，重要的是要回到实验室的现实中来。在现代蛋白质组学实验中，科学家通常不会从头到尾读取整个蛋白质序列。相反，他们将细胞中所有的蛋白质切成小的肽段，用质谱仪测量这些片段，然后用计算机拼凑出哪些肽段来自哪些蛋白质。

这个过程引入了一个有趣的难题，即蛋白质推断问题。想象一下，你的分析自信地识别出了一个序列为 ALQEKLQAAEDK 的肽段。你搜索人类蛋白质数据库，发现这个确切的序列存在于两种不同的蛋白质中，即 Tropomyosin-1 (TPM1) 和 Tropomyosin-3 (TPM3)，它们是密切相关的同工型。你有确凿的证据表明该肽段存在于你的样品中。但你无法确定它究竟是来自 TPM1、TPM3，还是两者的混合物。这种模糊性，即单一证据（一个肽段）可以指向多个来源（蛋白质），是一个根本性的挑战。它提醒我们，解读蛋白质的语言不仅仅是寻找匹配，还关乎管理不确定性，并像统计学家一样思考，以得出最可靠的结论。

从对相似字母的精妙评分到进化历史的宏大叙事，蛋白质序列分析是一段发现之旅。每个序列都是一本书，有了正确的原理和工具，我们正在学习阅读它们，不仅是为了它们的字符，更是为了它们所讲述的深刻而美丽的故事。

应用与跨学科联系

在熟悉了蛋白质序列分析的基本原理之后，我们现在就像是学会了一门新语言字母表的学徒。然而，真正的魔力始于我们开始阅读用该语言写成的故事。蛋白质的序列不仅仅是一份成分清单；它是一个丰富的叙述、一份详细的说明手册和一个历史记录的集合。通过学习解读这段文本，我们可以提出关于蛋白质用途、其在细胞中的位置及其进化传奇的深刻问题。这段解读之旅跨越了多个学科，将分子的微观世界与生命的宏大织锦联系起来，从医学到古生物学。

第一个问题：“你是谁？”

想象你是一位生物学家，正在探索一个独特的环境——也许是一个垃圾填埋场的土壤样本，那里顽固的塑料正在缓慢分解。你发现了一个新的基因，一个前所未见的 DNA 序列，你怀疑它可能编码一种能够降解塑料的蛋白质。你将这个基因翻译成其对应的蛋白质序列，一串氨基酸字母。现在怎么办？你手里拿着一条信息，但你不知道它说了什么。

最强大、最基础的第一步是问一个简单的问题：“以前有人见过这样的序列吗？”这并非向空中呐喊。相反，我们求助于巨大的数字图书馆——包含了世界各地科学家曾经编目的几乎所有蛋白质序列的公共数据库。使用像基本局部比对搜索工具 (BLAST) 这样的工具，我们可以在瞬间将我们的神秘序列与这个庞大的集合进行比较。BLAST 是生物学家的搜索引擎；它在我们的查询序列和已知的蛋白质宇宙之间寻找相似区域，即“同源性”。

如果我们从垃圾填埋场中得到的 degrad-X 蛋白质与一个名为酯酶的已知酶家族显示出强烈的相似性，我们就有了第一个主要线索。我们可以假设它的功能是切割酯键，而酯键正是连接 PET 塑料的化学键。这种基于同源性的推断原理——即相似的序列意味着相似的结构，并通常意味着相似的功能——是生物信息学的基石。

同样的逻辑也是现代医学和诊断的基石。考虑一个不同的情景，科学家们正在研究一种代谢性疾病。他们注意到患者体内缺少一种特定的蛋白质。利用复杂的实验室技术，他们从健康个体中分离出一小段相关的蛋白质，并确定其序列——也许只是一个像 Trp-His-Gly-Ile-Val-Ala 这样的短片段。这个小小的片段足够吗？绝对够。通过在数据库中搜索这个短肽序列，他们可以精确定位其来源：全长蛋白质以及编码它的基因。这个关键步骤将临床观察（疾病）直接与特定的分子罪魁祸首联系起来，为理解疾病机制和开发靶向疗法打开了大门。从凝胶上的一个斑点到一个命名的基因，序列分析提供了身份证明。

解读细则：细胞地址和功能基序

有时，故事不在于整体情节，而在于细节。蛋白质的功能可以由其序列中的小型、特定模式决定，就像一个关键短语可以定义一段文字的意义一样。这些模式被称为基序。

例如，一个调节基因的蛋白质通常需要直接与 DNA 结合。它如何“知道”该怎么做？答案通常写在它的序列中。研究人员可能会发现一个重复的模式，如 Cys-X₂-Cys-X₄-His-X₄-Cys，其中 Cys 是半胱氨酸，His 是组氨酸，而 X 是任何其他氨基酸。这不是随机的混乱；这是一个高度特异的信号。这个序列是构建一个“锌指”的配方，这是一个从蛋白质中伸出的小而稳定的结构。半胱氨酸和组氨酸残基充当精确的分子爪，抓住一个锌离子 ( $Zn^{2+}$ )。这个离子本身不参与作用，但充当一个关键的枢轴，将该基序固定成一个能完美嵌入 DNA 双螺旋沟槽的刚性形状。在一个新蛋白质中发现这个基序就像找到了一把钥匙——我们可以立即预测它被设计用来打开一个 DNA 形状的锁。

除了功能，序列还决定了蛋白质在细胞这个繁华都市中的“地址”。一个关键的目的地是细胞膜，这是将细胞与其环境分隔开的油性屏障。为了让蛋白质生活在该屏障中或穿过它，它必须有正确的“通行证”。这个通行证是一段约 20 个疏水（憎水）氨基酸的序列。当我们分析一个序列时，我们可以沿着其长度计算一个“疏水性指数”，绘制出氨基酸的亲水和疏水性质。

一个显示出跨越约 20 个残基的单一、强烈正峰的图谱是一个明确的标志：这个蛋白质是一个整合膜蛋白，其疏水片段作为一个α-螺旋，将其锚定在膜中。这个通行证的重要性是绝对的。一个将该区域中间的疏水残基（如亮氨酸）替换为带电的亲水残基（如天冬氨酸）的单点突变是灾难性的。这就像试图用作废的护照过境。细胞的质量控制机制会识别出这个无法正确插入膜中的错误折叠的蛋白质，并将其标记以进行销毁。

有些蛋白质会多次进行这种穿越。一个具有七个明显疏水峰的疏水性图谱讲述了一个更复杂的故事。这是一个七次跨膜蛋白的标志，这一类别包括庞大而至关重要的 G 蛋白偶联受体 (GPCRs) 家族，它们负责检测从光和气味到激素和神经递质的一切。通过添加其他线索——例如，知道糖链（糖基化）只在细胞外侧连接——我们甚至可以确定蛋白质的精确朝向或拓扑结构。如果 N-末端被糖基化，我们就知道它必须在细胞外。由于它穿过膜七次，我们可以推断其 C-末端必须最终位于细胞内部，即细胞质中，准备传递信号。一维序列，当被正确解读时，会折叠成一个位于特定细胞位置的三维功能机器。

时间之旅：分子古生物学

蛋白质序列中的故事不仅仅关乎此时此刻；它们也是关于祖先的史诗，可以追溯到数百万甚至数十亿年前。因为基因代代相传并发生突变，比较不同物种中同源蛋白质的序列使我们能够重建它们的家族树。两个序列越相似，它们共享共同祖先的时间就越近。

但是我们如何自信地识别出不同物种间的“相同”基因呢？这些对应的基因，被称为直系同源基因，是通过一种巧妙的计算策略找到的。对于两个基因，比如说来自人类的 Gene_A 和来自小鼠的 Gene_B，要被认为是直系同源基因，它们必须进行一次“相互最佳匹配”的握手。当我们用 Gene_A 搜索整个小鼠基因组时，最佳匹配必须是 Gene_B。而且，至关重要的是，当我们用 Gene_B 搜索整个人类基因组时，最佳匹配必须是 Gene_A。这种双向确认使我们相信我们正在观察同一个祖先基因的两个分支。

一旦我们能识别直系同源基因，我们就可以进行分子考古学。也许最令人震惊的例子并非来自活物，而是来自一个 6800 万年前的化石。科学家们成功地从一头霸王龙 (Tyrannosaurus rex) 的股骨中提取了微量的胶原蛋白片段。通过将这个远古巨兽的一个短肽与鸡和鳄鱼的相同蛋白质区域进行比较，他们可以简单地计算差异。霸王龙的序列与鸡的序列显示出的错配远少于与鳄鱼的。这一分子证据为古生物学家长期以来仅凭骨骼提出的一个假说提供了强有力的直接支持：鸟类是恐龙现存最近的亲戚。一串氨基酸跨越了 6800 万年，告诉我们，从一个非常真实的意义上说，鸡就是现代的恐龙。

序列分析能告诉我们的不仅仅是谁与谁有关；它还能揭示作用中的进化力量。我们可以测量改变氨基酸的突变率 ( $d_N$ ) 与不改变氨基酸的“沉默”突变率 ( $d_S$ )。这两个速率的比值， $\omega = d_N / d_S$ ，是衡量自然选择的有力晴雨表。

如果 $\omega \lt 1$ ，这意味着对蛋白质的改变正在被淘汰。这是“纯化选择”，它保留了必需蛋白质的功能。
如果 $\omega \approx 1$ ，改变是中性的，通过随机机会累积。
但是如果 $\omega \gt 1$ ，这意味着对蛋白质的改变正在被积极地偏好。这种“正选择”是适应的引擎，常见于进化军备竞赛中。例如，一个芋螺神经毒素基因的 $\omega$ 比率为 5.0，这清楚地表明自然选择正在迅速偏好该毒素的新版本，很可能是为了克服其猎物的防御。我们实际上是在分子水平上观察进化。

前沿：通过更深入的分析揭示复杂性

序列分析的复杂性使我们能够解决更微妙的生物学谜题。考虑一种生活在热液喷口附近沸水中的微生物。人们发现其基因组中 G 和 C 核苷酸的含量异常高。为什么？一种假设是，GC 碱基对具有三个氢键，使得 DNA 和 RNA 在高温下本质上更稳定（直接选择）。另一种假设是，高温偏好由某些氨基酸（如丙氨酸和精氨酸）构成的蛋白质，而这些氨基酸恰好由富含 GC 的密码子编码（间接选择）。

我们如何区分这两种情况？序列分析为一项优美的科学侦探工作提供了工具。我们可以观察基因组中不受其蛋白质产物选择压力的部分。首先，考虑同义密码子位置——即编码相同氨基酸的不同密码子。如果我们看到即使使用富含 GC 的密码子会产生完全相同的蛋白质，也存在强烈的偏好使用它们，这就排除了对蛋白质的选择，而指向了对核酸本身的选择。其次，我们可以检查非编码 RNA 的基因，如核糖体 RNA (rRNA)。这些分子对细胞的机器至关重要，但它们从未被翻译成蛋白质。如果在这种喜热微生物中，这些 rRNA 基因也极其富含 GC，这就为核酸稳定性的直接选择提供了强有力的、明确的证据。仔细解读序列，使我们能够理清多个相互交织的进化压力。

从简单的搜索到复杂的进化推断，这一旅程现在正被人工智能所加速。几十年来，科学家们根据我们推导出的规则设计算法，比如疏水性图谱。今天，我们可以训练机器学习模型，如卷积神经网络 (CNNs)，让它们自己发现规则。一维 CNN 在寻找蛋白质序列中的基序方面尤其出色。它的工作原理是沿着序列滑动一组小的“过滤器”。每个过滤器都可以学习识别一个特定的局部模式——一个结合位点、一个结构转角、一个切割信号。因为同一个过滤器被应用于所有位置（“参数共享”），所以无论基序出现在蛋白质的哪个位置，它都能找到。这种方法不仅强大，而且高效，反映了人类专家扫描文本以寻找关键词的方式。

从识别单个蛋白质到重建生命之树，再到探索自然选择的本质，蛋白质序列分析是现代生物学中一条贯穿始终的主线。它揭示了一维的氨基酸串是一篇深度几乎无限的文本，掌握着生物形态、功能和历史的秘密。随着我们分析的每一个新序列，我们学习以日益增长的流利度阅读这种生命语言，不断扩展我们对内在和外在世界的理解。