蛋白质接触预测

玻尔百科

定义

蛋白质接触预测是结构生物学中的一项计算任务，旨在生成反映蛋白质三维折叠中氨基酸残基物理临近关系的二维接触图。该领域利用深度学习和多序列比对的统计分析来识别协同进化信号，从而确定对定义蛋白质三级结构至关重要的长程接触。以 AlphaFold 为代表的现代方法利用这些预测来辅助精确构建蛋白质三维模型，并应用于蛋白质相互作用研究和新蛋白质设计。

核心要点

接触图是蛋白质三维折叠的二维蓝图，其中长程接触对于定义整体三级结构至关重要。
通过对深度多序列比对（MSA）进行统计分析检测到的共进化信号，为氨基酸之间的物理接触提供了有力证据。
像 AlphaFold 这样的现代方法利用深度学习将 MSA 转化为详细的距离预测（距离图），从而指导精确构建蛋白质三维模型。
接触预测被用于解决结构难题、模拟蛋白质-蛋白质相互作用，并为设计新蛋白质提供关键约束。

引言

分子生物学的核心谜题在于，一个线性的氨基酸序列如何折叠成一个精确且具有功能的三维蛋白质。仅从序列预测其最终结构，是一项被称为蛋白质折叠问题的巨大挑战。解决这一难题的一个关键突破在于重新构建问题：我们能否不直接预测原子坐标，而是先预测一种结构的中间蓝图？本文将探讨这种方法，重点关注进化史如何为创建这样一份蓝图提供了钥匙。

本文将引导您进入蛋白质接触预测的世界。在第一章 原理与机制 中，我们将探讨如何用二维接触图来表示蛋白质的折叠，以及隐藏在多序列比对中的共进化信号如何为构建此图提供数据。我们还将检视复杂的深度学习机制（如 AlphaFold 中的机制），它能将这些进化回响转化为高度精确的结构模型。第二章 应用与跨学科联系 将展示这一强大的方法如何用于解决现实世界中的生物学问题，从裁定结构假说、模拟细胞机器，到从头蛋白质设计这一雄心勃勃的前沿领域。

原理与机制

想象一下，你拿到一团长而乱的纱线——一根一维的线——然后被告知它总能、并且毫无例外地自行折叠成一个非常具体而复杂的三维雕塑。这正是蛋白质折叠的魔力与奥秘所在。这根一维的线是氨基酸序列，而最终的雕塑则是蛋白质的天然结构，是其生物学功能的关键。长久以来的巨大挑战就是仅通过观察这根线来预测最终的雕塑。要做到这一点，我们首先需要一种更好的方式来思考这个雕塑本身。

折叠的蓝图：原子的社交图

与其尝试指定每个原子的精确 $x, y, z$ 坐标——一项极其复杂的任务——我们可以从一个更简单、更强大的想法开始。让我们为蛋白质创建一个“社交图”。把氨基酸序列想象成一排手拉手的人，从 1 到 $L$ 编号。在最终的折叠结构中，一些在线上相距很远的人可能最终会站在一起交谈。我们的社交图，即我们所说的接触图（contact map），就是一个记录谁在和谁交谈的图表。它是一个二维网格，如果氨基酸 $i$ 和氨基酸 $j$ 在最终的三维结构中物理上很接近，我们就在位置 $(i, j)$ 做一个标记。

这个简单的网格不仅仅是一张图；它是折叠的蓝图。它代表了一组几何约束。如果你有一张准确的接触图，构建三维模型的任务就从一个毫无根据的猜测变成了一个可解的几何谜题。你不再迷失在无限的可能性空间中；你有了一套强有力的线索，告诉你链的哪些部分必须被拉到一起。因此，这个中间蓝图的准确性是决定最终结果的最关键因素。一张好的图能指引通往正确结构的道路；一张坏的图则会使构建过程误入歧途，无论构建工具多么先进。

长程连接的力量

现在，如果我们仔细观察我们的接触图，我们可能会问：所有这些连接都同等重要吗？答案是断然的“不”。我们可以根据两个相互作用的氨基酸在一维序列中的距离（我们可以称之为 $|i-j|$ ）来对接触进行分类。

短程接触（ $|i-j|$ 很小）发生在序列中本就是邻居的残基之间。这就像在最初的队伍中站得很近的人，在最终的雕塑中仍然彼此靠近。这些相互作用对于形成局部的、重复的模式至关重要，比如 $\alpha$ -螺旋 优雅的盘绕或 $\beta$ -折叠 整齐的褶皱。这些是蛋白质的二级结构。因为它们受局部规则的支配，所以相对容易预测。

然而，真正的宝藏在于长程接触（ $|i-j|$ 很大）。这些是出人意料的连接，是来自链的开头和结尾的残基最终成为亲密伴侣。这些接触是蛋白质整体形状的总设计师。它们是将链的遥远部分捆绑在一起的纽带，将螺旋和折叠排列成一个独特的、紧凑的全局折叠，即三级结构。

这一区别揭示了为什么预测三级结构比预测二级结构要困难得多。对于一个有 $L$ 个氨基酸的蛋白质，潜在的长程伙伴关系数量是巨大的，大约以 $L^2$ 的规模增长。这项任务变成了一个令人抓狂的组合难题：在浩如烟海的可能配对中，哪些是真实的？找到这组特定的长程相互作用是折叠问题的症结所在。

解读进化的罗塞塔石碑

那么，我们从哪里可以找到解决这个难题的信息呢？几十年来，答案一直难以捉摸。然后，一个植根于 Charles Darwin 思想的突破出现了。信息并不仅仅隐藏在复杂的物理学中；它以进化的语言书写。

想象一下，进化是一个巨大的、并行的实验，在数十亿年间跨越无数物种进行着。每个蛋白质都在不断地被修改、突变和测试以求生存。现在，假设两个氨基酸 $i$ 和 $j$ 在一个至关重要的酶中形成了一个关键的长程接触。一个随机突变可能会改变氨基酸 $i$ ，破坏这个接触并使酶失效。这个生物体就会死亡。但如果恰好在位置 $j$ 发生了第二个突变，并且这个位于 $j$ 的新氨基酸完美地补偿了 $i$ 处的变化，恢复了关键的相互作用呢？那个生物体就会存活下来，并传递下这一对突变。

这种现象，称为共进化（co-evolution），是关键所在。在进化过程中，三维空间中相互接触的位置倾向于协同突变。要看到这种模式，我们需要比较来自许多不同物种的同一种蛋白质的序列。我们通过创建一个多序列比对（Multiple Sequence Alignment, MSA）来做到这一点。一个 MSA 就像是把来自人类、小鼠、鱼和苍蝇的胰岛素配方拿来，逐行对齐，看看哪些地方改变了，哪些地方保持不变。

如果我们有一个“深度”的 MSA，包含数千个多样化的序列，我们就可以使用统计方法来检测这些微妙的相关性。比对中第 $i$ 列和第 $j$ 列之间强烈的共进化信号，是这两个残基在三维结构中接触的有力证据。这就是我们找到长程接触的方式。如果 MSA 是“浅层”的，序列太少，就没有足够的数据来区分真正的共进化信号和随机噪声，预测就会失败。

现代综合：从进化回响到三维艺术

现代预测方法，如革命性的 AlphaFold，是所有这些原理的美妙综合。它们创建了一个流程，能将进化回响转化为具有惊人准确性的实体结构。

这个过程就像一首分几个乐章的交响曲：

收集： 首先，系统会搜索巨大的序列数据库，为目标蛋白质组装出可能的最深、最多样化的 MSA。
进化窃听： 这个 MSA 被输入一个复杂的神经网络，一个“Evoformer”。这个模块不仅仅是逐个序列地看。它被专门设计用来关注整个比对，学习序列之间的关系，以及至关重要的，位置对之间的共进化关系。
概率蓝图： 该网络产生的不是一个简单的“是/否”接触图。它的输出要丰富得多。对于每一对残基 $(i, j)$ ，它会预测一个距离图（distogram）——一个关于它们之间距离可能是什么的完整概率分布。它可能会说：“它们相距 5 埃的可能性为 70%，相距 6 埃的可能性为 20%……”它还预测它们的相对方向。这份详尽的、概率性的蓝图比一个简单的接触图包含的信息要多得多。
数字雕塑家： 这份蓝图被传递给一个“结构模块”。把它想象成一个才华横溢的雕塑家，他得到了一套非常精确但有时是软性的规则。该模块以一种尊重已知化学定律的方式来表示蛋白质链——键长和键角几乎保持固定。然后，利用基于梯度的优化，它开始弯曲和折叠这条链，试图找到一个最能满足蓝图中预测的所有距离和方向概率的三维构象。它不断地摆动和调整结构，直到它稳定在一个低能量状态，此时进化的线索和物理的规则达到了和谐。

当神谕失误时：理解局限性

这个强大的机制并非魔法，理解它的失败和庆祝它的成功同样具有启发性。

一个主要的弱点是输入数据。如果 MSA 被来自具有不同折叠的相关蛋白质的序列“污染”了怎么办？共进化信号就会变成两种不同故事的混乱混合。网络听到了相互矛盾的指令。可能的结果是一个怪异的、“嵌合”结构，是两种折叠的混合体。有趣的是，系统通常能自我意识到它的困惑。它会用低置信度分数（一个名为 pLDDT 的指标）来标记这些结构上不连贯的区域，警告用户出了问题。

一个更深层次的局限是算法上的。考虑一个折叠成结（knot）的蛋白质，其中链会名副其实地穿过自身形成的一个环。即使有完美的 MSA，像 AlphaFold 这样的预测器也可能失败。为什么？“数字雕塑家”通过做一系列局部的、增量的调整来满足距离蓝图。这个过程非常适合稳定成一个复杂的形状，但它没有机制来进行将链的一部分穿过另一部分这样的大规模、全局性的操作。它可能会被困在一个更简单的、未打结的拓扑结构中，这个结构仍然能非常好地满足大多数局部距离约束。模型会自信地报告一个漂亮但拓扑上不正确的结构，对其错过的全局结视而不见。

最后，这些方法被设计用来读取写在单条链内部的共进化故事。预测两条独立的蛋白质链如何组合形成一个复合物（四级结构），需要找到两条蛋白质之间的共进化信号。这需要特别构建的“配对”MSA，其中相互作用的伙伴的序列在不同物种间被联系起来。没有这种链间信息，预测蛋白质组装仍然是一个前沿领域，是一个超越单链故事范围的挑战。

应用与跨学科联系

所以，我们发现了一个相当了不起的技巧。通过观察单个蛋白质的家族树——它在广阔生命谱系中的同源物——我们可以窃听到进化的对话。我们了解到，当蛋白质中的两个氨基酸需要协同工作时，进化会促使它们共进化。这种物理伙伴关系的统计回响使我们能够直接从一维序列数据生成一个接触图，一份空间邻近性的蓝图。

这是我们工具箱中一个强大的新工具。但一个工具的好坏取决于它能解决的问题。那么，我们能用这种将基因的线性文本翻译成三维约束集的能力来做什么呢？事实证明，能做的相当多。应用范围从解决简单的结构争论，到从零开始设计新生命形式的宏伟抱负，并且它们在生物学的不同角落之间建立了令人惊讶的联系。

首要应用：解决结构难题

让我们从接触图最直接、也许最常见的用途开始：在相互冲突的结构假说之间充当仲裁者。想象一下，你是一名计算生物学家，面对一段蛋白质短片段，两个不同的预测算法给了你两幅完全不同的形状图。一个说它是一个简单的、连续的 $\alpha$ -螺旋，像一个螺旋楼梯。另一个则声称它是一个 $\beta$ -发夹，其中蛋白质链折回自身，形成梯子的两个平行梯级。

哪个是对的？在我们有接触预测之前，这可能需要一个漫长而艰苦的实验。但现在，我们可以求助于共进化。我们为该蛋白质生成一个预测的接触图。我们期望看到什么？

在一个 $\alpha$ -螺旋中，接触几乎都是局部的。位于位置 $i$ 的残基会与其序列中的邻居，如 $i+3$ 和 $i+4$ 靠近，这是由于螺旋的转角造成的。在序列中相距很远的残基之间，比如 $i$ 和 $i+15$ ，没有接触。然而，在一个 $\beta$ -发夹中，情况恰恰相反。其关键点就在于链的两个遥远片段被拉到了一起。我们会期望看到一个清晰的长程接触模式，连接来自发夹两条链的残基。

如果我们的预测接触图显示出，例如，残基 $25$ 和 $44$ 之间，以及 $27$ 和 $42$ 之间有强烈的耦合，那么案件就了结了。这些正是在反平行 $\beta$ -折叠中我们期望看到的精确的长程、配对的残基，而在一个单一、笔直的 $\alpha$ -螺旋中，它们在几何上是不可能的。接触图，纯粹从序列数据中得出，让我们得以“看到”蛋白质的折叠，并自信地裁决这场争论。

构建机器：从单链到细胞复合物

这个原理可以很好地扩展。蛋白质不仅仅是孤立的结构域；它们通常是庞大而复杂的机器。例如，一个膜转运蛋白，是一项工程奇迹，它在细胞膜上来回穿梭，形成一个通道或门。其功能关键取决于这些跨膜螺旋如何堆积在一起。通过应用共进化分析，我们可以预测哪些螺旋是邻居，甚至可以预测哪些特定残基形成了关键的螺旋-螺旋界面，从而为我们提供了整个转运蛋白组装的蓝图。

这个想法甚至不必止步于单条蛋白质链的边界。那么，两个不同的蛋白质结合在一起执行功能的情况呢？考虑一个蛋白激酶，一种将磷酸基团附加到其他蛋白质上的酶，以及它的底物。这种识别是细胞中巨大信号网络的基础。激酶如何“知道”要修饰哪个蛋白质？它识别并与底物上的特定基序对接。我们能预测这个对接位点吗？

是的，我们可以。通过分析一个激酶家族与其相应底物之间的共进化，我们可以找到激酶中残基与底物基序中残基之间的统计耦合。这些预测的分子间接触揭示了对接界面，向我们展示了这两个分子是如何握手的。我们已经从预测一个蛋白质的内部结构，发展到预测一个细胞通路的相互作用图谱。

终极测试：设计自然界未曾有之物

理解自然是一回事；创造新事物是另一回事。这引导我们走向科学中最激动人心的前沿之一：从头蛋白质设计。目标是设计一个具有全新序列的蛋白质，它将折叠成一个特定的、期望的形状，并执行一种新功能。

多肽链可能构象的数量是天文数字般的巨大，这个难题被称为 Levinthal 悖论。盲目搜索折叠结构是毫无希望的。但如果我们有一套指令呢？这就是我们的接触预测发挥作用的地方。得分最高的共进化配对可以用作距离约束——一种分子脚手架。在计算搜索稳定结构的过程中，我们可以对任何使这些预测配对相距太远的构象施加能量惩罚。这极大地修剪了搜索空间，使结果偏向于一个与进化蓝图一致的折叠。

但在这里，我们必须保持谨慎和学术上的谦逊。这种方法的力量完全取决于我们数据的质量——多序列比对（MSA）。与任何统计方法一样，对于粗心的人来说，这里有陷阱。

浅层比对的危险：一个成对模型有大量的参数需要拟合，对于一个长度为 $L$ 、由 $q$ 种氨基酸组成的蛋白质，参数数量级约为 $p \sim \frac{L(L-1)}{2}(q-1)^2$ 。如果我们的有效序列数 $N_{\text{eff}}$ 远小于 $p$ ，我们的推断就是严重欠定的。我们处于数据匮乏的状态。我们捕捉到的最强信号可能是统计噪声或系统发育假象，而不是真正的接触。使用这些错误的预测作为设计的硬性约束是灾难的根源，会将蛋白质锁定在一个不正确且非物理的折叠中。
混合状态的混淆：如果我们的 MSA 包含了一部分以单体形式存在的蛋白质，和另一部分形成二聚体或其他寡聚体的蛋白质，那会怎样？简单的共进化分析无法知道这一点。它只会简单地将信号叠加。强烈的耦合可能来自二聚体界面的接触。如果我们天真地使用这些分子间信号作为分子内约束来设计一个单体，我们就是在要求这个可怜的蛋白质进行一种物理上不可能的扭曲，注定设计会失败。
多种构象的幽灵：许多蛋白质不是静态结构，而是动态机器，它们采用多种形状来发挥功能。对这样一个家族的 MSA 进行共进化分析，将会平均来自所有功能状态的约束。使用这个叠加的接触图来设计一个单一的、静态的结构，可能会导致一个能量上“受挫”的分子，其崎岖的能量景观使其永远无法找到一个稳定的折叠。

承认这些挑战不是软弱的标志；这是良好科学的标志。它告诉我们哪里需要更加小心，哪里需要更好的数据，以及哪里需要更复杂的模型。

跨学科协同：一个通用工具

一个基本原理的美妙之处在于，其影响很少局限于单一领域。接触预测也是如此。我们发现它的逻辑在计算生物学的其他领域中回响，并为之做出贡献。

考虑一下首先创建一份好的多序列比对的任务。标准算法通过一维比较序列来工作。但这可能导致错误，特别是对于高度分化的蛋白质。现在，我们发现自己可以创建一个美妙的反馈循环。我们使用 MSA 来预测接触图。那么，如果我们再用那个接触图来精炼比对呢？这就是基于一致性的比对方法的思想。如果我们正在考虑将残基 $A_i$ 与 $B_j$ 对齐，如果它们各自的接触伙伴也对齐了，我们可以给这个匹配一个加分。匹配 $(i, j)$ 的得分会因其结构邻域中所有其他匹配对 $(k, \ell)$ 的一致证据而得到提升。我们正在使用三维空间的逻辑来纠正我们对生命文本的一维解读。

这种整合精神或许在一次真实的科学研究中看得最清楚。想象一个微生物学家团队在一个超热喷口发现了一种奇异的新病毒。他们设法测序了其基因组，并鉴定出了其主要衣壳蛋白（MCP）的基因，但他们不知道它长什么样，也不知道它是如何组装的。这不再是一个无法克服的问题。一个现代的结构生物信息学流程会立即启动。首先，对序列进行清理和基本属性分析。然后，为其同源物构建一个深度 MSA。从这个比对出发，走两条平行的路径。一条路径使用折叠识别来查看该蛋白质是否与任何已知的病毒蛋白折叠相似。另一条路径使用共进化来构建一个从头三维模型和一个接触图。如果这两个独立的预测一致，对该折叠身份的信心就会大增。但接触图提供了更多信息。通过仔细区分在单体模型中得到满足的接触和那些未满足的接触，我们可以生成一个候选分子间接触的列表。这些是维系病毒外壳的接触。然后我们可以测试哪种寡聚对称性——三聚体、五聚体、六聚体？——最能满足这些预测的界面接触。就这样，仅凭序列，我们就为一种新型病毒提出了一个完整的结构假说，准备进行实验验证。

生物学的罗塞塔石碑

这段旅程非同寻常。我们从一个关于比对序列中相关突变的简单观察开始。我们已经看到，这个单一的想法如何让我们解决结构上的模糊性，拼凑出分子机器及其相互作用的结构，涉足设计新蛋白质的创造性行为，并增强序列分析工具本身。

预测的接触图已经成为分子生物学的一种罗塞塔石碑。它提供了一条关键的联系，一把翻译的钥匙，连接着基因组序列的一维世界和折叠的、相互作用的蛋白质的三维功能世界。它证明了生命的深刻统一性：一个蛋白质的进化史就是其结构的故事，通过学习阅读那段历史，我们正在学习理解并书写生命之书本身。