同源建模

玻尔百科

定义

同源建模是指一种通过利用进化相关蛋白质的已知实验结构作为模板，来预测目标蛋白质三维结构的计算方法。该方法基于蛋白质结构在进化上比氨基酸序列更为保守的原理，被广泛应用于药物设计、功能研究及基因组注释等领域。尽管同源建模在多个学科中具有重要价值，但其在处理模板缺失的环区域时存在挑战，且通常不适用于本质无序蛋白。

核心要点

同源建模通过使用一个进化相关蛋白质的实验解析结构作为模板来预测蛋白质的三维结构。
该方法的有效性植根于一个进化原则：蛋白质的结构远比其氨基酸序列更为保守。
主要误差来源包括精确模拟模板中缺失的环区，以及该技术从根本上不适用于内在无序蛋白质。
关键应用范围从理性药物设计和理解蛋白质功能，到模拟大分子复合物和对新测序基因组进行大规模注释。

引言

从线性氨基酸序列确定蛋白质三维结构的能力是现代生物学中最重大的挑战之一。正如Anfinsen的热力学假说所述，尽管序列包含了折叠所需的所有信息，但从第一性原理预测这种最终形状——即蛋白质折叠问题——在计算上仍然极其艰巨。本文探讨了一种绕过此问题的优雅而强大的捷径：同源建模。它通过利用进化的力量，解决了在缺乏直接实验数据时对结构信息的关键需求。

本文将引导您进入同源建模的世界。第一章“原理与机制”深入探讨了使该方法奏效的基本概念，探索了其成功的进化基础，将其与穿线法和从头建模法等其他结构预测技术进行比较，并逐步讲解了构建和评估模型的实际步骤。第二章“应用与跨学科联系”展示了该技术如何应用于不同的科学领域，从设计拯救生命的药物、理解蛋白质相互作用，到注释整个基因组，甚至模拟RNA等其他生物分子的结构。

原理与机制

从简单的一维氨基酸链到复杂、三维、赋予生命的机器，是自然界最深奥的奇迹之一。分子生物学的中心信条，通常被称为Anfinsen的热力学假说，告诉我们这个过程是预先确定的：仅序列本身就包含了指定最终折叠结构所需的所有信息。虽然这是一个深刻的真理，但它也带来了惊人的挑战。从第一性原理预测这种最终形状——即所谓的蛋白质折叠问题——是一座计算上的珠穆朗玛峰，一项复杂度天文数字般的任务。那么，作为科学家，我们如何在不花费数十年计算时间或数年湿实验的情况下，一窥蛋白质的结构呢？我们“作弊”。我们寻找一条捷径。这条捷径就是同源建模这个优雅而强大的思想。

信念的飞跃：这为何能行得通？

想象一下，你是一位考古学家，发现了一份未知古代机器的零件清单。从零开始组装它几乎是不可能的。但如果在附近的废墟中，你发现了一台几乎相同、完全组装好的机器呢？突然之间，你的任务变得易于管理。你可以使用现有的机器作为蓝图或模板，来构建你自己的模型。这就是同源建模的精髓。

这种方法基于一个简单而深刻的关于进化的观察。事实证明，蛋白质结构在进化中的保守性远高于其氨基酸序列。

考虑两种功能相似但在截然不同的生物体中的蛋白质：一种来自喜热细菌的酶和它在北极鱼中的同源物。尽管在极端相反的环境中运作，它们的核心三维结构通常保持得非常完好。即使它们的序列已经分化到只有40%的一致性，这通常也足以利用其中一个的已知结构来构建另一个的高度精确模型。

进化是一位了不起的修补匠。它并不总是从零开始发明新机器。更多时候，它会采用一个现有且成功的设计——一个蛋白质折叠——并通过对活性部分进行一些关键改变来将其重新用于新任务，这很像更换多功能工具上的工具头而不重新设计手柄。这一原则是使同源建模不仅可行，而且非常有效的基础。

蛋白质世界徒步指南：通往结构的三条路径

同源建模是我们最值得信赖的路径，但它不是唯一的路径。选择正确的方法就像选择正确的方式来探索新景观。你拥有的信息量决定了你所走的路径。

同源建模（详细地图）： 当你有一个已知结构的近亲时，你会选择这条路径。如果你的蛋白质（“目标”）与一个结构已解析的蛋白质（“模板”）具有高序列一致性（通常高于30%-40%），你基本上就拥有了一张详细地图。对于一个与已知结构有80%一致性的蛋白质来说，这是显而易见且最可靠的选择。
蛋白质穿线法或折叠识别（指南针和地形识别）： 如果你的蛋白质只有一个远亲，比如序列一致性只有20%怎么办？这个相似性区域，通常被称为“暮色区”，非常棘手。在这个水平上，序列相似性可能是一个共享祖先和折叠的真实信号，也可能完全是巧合。依赖单一、可疑的比对是有风险的。相反，你可以使用一种叫做穿线法的方法。在这里，你将目标序列尝试“穿”过结构库中所有已知的蛋白质折叠。你不是依赖于直接的序列匹配，而是依赖于一个更根本的问题：“我的序列是否能以一种能量上合理的方式适配这个折叠？”这就像没有地图导航，但使用指南针并识别周围山脉和山谷的大致形状。
从头建模法（第一性原理导航）： 如果你的蛋白质是一个真正的先驱，没有已知的亲属，并且具有一个全新的折叠呢？此时，你没有地图，也没有熟悉的地形。你必须回归到物理和化学的基本定律。这种“从头开始”的方法试图通过模拟折叠过程来找到最低能量状态。这就像被空投到一个外星世界，必须通过总是走下坡路并避开无法逾越的悬崖来找到最低的山谷。这种方法计算量极大，通常是最后的手段。

这三种方法也可以通过一个更形式化、概率性的视角来理解。Ab initio方法试图解决这个宏大的问题：给定序列，某个特定结构的概率是多少，即 $P(\text{structure} | \text{sequence})$ ？另一方面，穿线法问的是相反的问题：这个序列采用某个给定已知结构的概率是多少，即 $P(\text{sequence} | \text{structure})$ ？同源建模是一个特殊的、更受约束的情况。它不问所有可能的结构；它问的是 $P(\text{structure} | \text{sequence, template, alignment})$ ，利用了给定的模板和比对提供巨大先发优势这一强大假设。近年来，像AlphaFold这样的深度学习方法已经改变了这一领域，它们从已知结构的整个数据库中学习折叠规则。它们即使在没有紧密模板的情况下也能出色地预测新颖的折叠，这实质上是通过将穿线法的“指南针和地形识别”技能学习到了前所未有的程度。

建模者的工具箱：从序列到结构

让我们逐步了解科学家构建同源模型的实际步骤。

步骤1：寻找蓝图

第一步就像一个侦探故事。你有了你的目标序列——我们称之为“Fibrillin-X”——你的目标是找到一个合适的模板。你不仅仅是搜索已知三维结构的文库Protein Data Bank (PDB)。为什么？因为PDB相对较小。相反，你首先将你的序列与一个庞大的所有已知蛋白质序列的数据库（如UniProt或GenBank）进行比对。这使你能够为你的蛋白质构建一个家族树，不仅识别出近亲，还能识别出远亲。有了这些家族信息，你就可以对PDB进行更灵敏的搜索。目标是找到一个其结构已被实验测定的家族成员。

步骤2：选择最佳蓝图

通常，你会找到不止一个潜在的模板。此时，建模的艺术和科学才真正开始。你必须权衡几个因素来选择最好的一个，而且并非所有因素都同等重要。

序列一致性和覆盖度： 这是最重要的。更高的一致性意味着零件清单更相似，从而得到更精确的模型。高“覆盖度”意味着模板匹配了你蛋白质的大部分长度，最大限度地减少了你需要从头构建的结构部分。
生物学状态： 这是一个微妙但绝对关键的因素。你的蛋白质是以二聚体（两个拷贝协同工作）的形式活跃吗？那么一个单体（单个拷贝）的模板就是一个糟糕的选择，因为两个拷贝之间的界面对其形状和功能可能至关重要。你的蛋白质需要一个辅因子（如 $\text{NAD}^+$ ）才能工作吗？如果是，那么处于“全酶”状态（与辅因子结合）的模板要远优于处于“脱辅基”状态（空的）的模板，因为结合可以诱导活性位点发生关键的构象变化。
实验质量： 这指的是诸如X射线晶体结构分辨率之类的指标。一个更清晰、更高分辨率的蓝图比一个模糊的要好。然而，这是主要标准中最不重要的一个。拥有一个处于正确工作状态的正确机器的稍显模糊的蓝图，远比拥有一张错误机器的晶莹剔透的蓝图要好。

步骤3：构建模型

一旦你选择了最佳模板，你就会对目标序列和模板序列进行仔细的比对。这是构建的总蓝图。对于比对得很好的区域，模型的骨架直接从模板的坐标复制而来。

真正的挑战来自比对中的空位——插入和缺失（indel）。

你的目标序列中的缺失意味着模板中有一个你的蛋白质所没有的环区。这相对容易建模：你只需切除该环区并将两端缝合在一起。
然而，插入要困难得多。这对应于一个你的蛋白质有而模板没有的环区。对于这部分，你没有蓝图。你必须de novo（从头）构建它。模拟这个新环区是一个小型的ab initio预测问题，存在大量的可能构象。这是许多同源模型中最大的误差来源。

地图的边界：同源建模何时失效

如同任何工具一样，同源建模也有其局限性。知道什么时候不使用它和知道如何使用它同样重要。

情况1：变形者

同源建模的核心假设是你的蛋白质会折叠成一个单一、稳定的结构。但如果它不呢？许多蛋白质或蛋白质的区域是内在无序的（IDR）。它们不是刚性机器，而是动态、柔性的链条，以构象系综的形式存在。它们是蛋白质世界里的煮熟的意大利面。试图为IDR构建一个单一的同源模型，就像试图用一个水晶花瓶的蓝图来描述一滩水——这从根本上误解了它的本质。这些区域通常具有可识别的序列特征：低比例的“油性”疏水残基（将蛋白质粘合在一起的胶水）和高比例的带电残基，其相互排斥阻止了塌缩成紧凑的结构。对于这些区域，同源建模根本就是错误的工具。

情况2：“改进”的危险

构建原始模型后，人们很想用能量最小化来“精修”它，这是一种通过微调原子位置来寻找更低能量状态的模拟。这里存在一个奇妙的悖论。想象一下，你在真空中进行简单的能量最小化，基于物理的势能下降了。你的模型应该变得更好了，对吧？不一定。实际上，它可能会变得更糟 [@problem_-id:2434260]。

原因在于，思考蛋白质的“能量”有两种不同的方式。最小化中使用的分子力学力场是基于真空中的物理学。它喜欢让正负电荷粘在一起，并且不考虑水的关键影响。而像ProSA分数这样的基于知识的势能，其智慧来自不同的来源：它分析了数千个真实的、实验解析的结构。它知道一个“类蛋白质”结构在其自然的含水环境中应该是什么样子。

当你在真空中进行最小化时，模型可能会为了最大化其静电相互作用而塌缩成一个过度紧凑、不符合物理现实的小球。基于物理的能量分数提高了，但结构不再像自然界中发现的任何东西。基于知识的分数则直线下降。这是一个很好的教训：模拟并非现实，盲目优化一个简化的模型可能会让你离真相越来越远。理解你工具背后的假设，是迈向科学智慧的第一步。

应用与跨学科联系

掌握了同源建模的原理后，我们现在踏上一段旅程，看看这个非凡的工具将我们带向何方。对物理学家来说，一个新原理可能是一把能打开无数扇门的钥匙。蛋白质结构比序列更保守这一原理正是这样一把钥匙，它开启了通往现代生物学和医学几乎每个角落的大门。我们不再局限于研究那些我们在实验室里费尽心力确定了结构的少数蛋白质；我们现在可以对其无数亲属的结构做出有根据的猜测。在某种意义上，我们成为了结构侦探，从家族相似性的最微弱线索中揭开生命分子机器的蓝图。

这种方法不仅仅是一种懒惰的捷径；它是对进化效率的深刻陈述。自然是一位了不起的修补匠，而不是每次都从零开始的发明家。它发现一个好的设计——一个稳定的折叠，一个催化口袋——然后重复使用它、修改它，并使其适应新的用途。通过使用同源建模，我们只是在追寻进化自身的书面记录。

工作机器的蓝图

也许同源建模最引人注目的应用是在医学和药物发现领域。想象一种由流氓蛋白质引起的疾病，一个过度工作的酶或一个发送错误信号的受体。为了阻止它，我们想设计一个小分子——一种药物——能够完美地嵌入该蛋白质的关键口袋中，像一把断在锁里的钥匙一样阻断其作用。但要设计钥匙，我们必须首先知道锁的形状。如果从未有人解析过我们目标蛋白质的结构怎么办？

这就是同源建模大放异彩的地方。如果我们能找到一个其结构已知的相关蛋白质，即使是来自另一个物种的远亲，我们也能构建一个可用的模型。这是一个常见的挑战，例如，对于G蛋白偶联受体（GPCRs）——一个庞大的膜蛋白家族，是现代药物中很大一部分的目标。通过找到一个已知的GPCR模板，我们可以构建我们特定目标的模型。

但这并非简单的复制粘贴工作。这是一项专家级的手艺。我们必须细致地比对序列以确保功能重要部分匹配，小心地构建与模板不同的环区，然后煞费苦心地排列新的侧链，使它们以物理上合理的方式堆积在一起。最终的模型，既是进化信息的产物，也是生物物理精修的结果，成为我们设计和测试潜在药物的虚拟实验室。

当我们意识到蛋白质不仅仅是简单的氨基酸链时，情节就变得更加复杂了。它们常常通过一种称为翻译后修饰（PTM）的过程被其他化学基团修饰。例如，一个蛋白质的功能可能会通过添加一个磷酸基团而被开启或关闭。如果我们的模板结构是“关闭”状态，但我们需要模拟带有磷酸基团的“开启”状态怎么办？一个幼稚的模型将毫无用处。在这里，计算生物学家必须成为化学家，将磷酸基团添加到模型中，然后使用基于物理的模拟，让这个新的带电基团及其周围环境稳定下来，形成一个稳定、真实的构象。这说明同源建模不是一个黑箱，而是一个复杂的框架，我们可以用其他科学知识流来增强它，以应对日益复杂的生物学现实。

构建嵌合体与探索未知

自然并不总是那么仁慈，能为我们提供整个蛋白质的模板。我们经常遇到嵌合体蛋白质——由不同进化历史的片段拼接而成。想象一种来自北极细菌的新蛋白质。序列分析可能会揭示其前半部分与一个已知的抗冻蛋白家族明确相关，但其后半部分则完全是个谜，与任何已知的东西都不同。

我们能做什么？我们采用“分而治之”的策略。对于前半部分，我们使用我们熟悉并信任的工具：同源建模。我们基于其已知亲属构建一个可靠的模型。对于神秘的后半部分，由于没有模板存在，我们必须求助于其他方法。在过去，这意味着ab initio（“从第一性原理”）预测，一种仅基于物理学来折叠蛋白质的、计算上极其残酷的尝试。今天，我们很可能会求助于人工智能预测器的惊人力量。

最后一步是将这些分别建模的片段组装成一幅完整的图景。这种混合方法展示了科学探究的真正精神：为正确的工作使用正确的工具。它也完美地展示了同源建模如何融入一个更大的计算工具生态系统，协同工作，以照亮蛋白质宇宙最黑暗的角落。

蛋白质的社会生活与进化的回响

蛋白质和人一样，很少单独工作。它们形成复杂的相互作用网络，组装成复杂的机器来执行任务。理解单个蛋白质是一回事；理解它如何与它的伙伴们组合在一起是另一回事。同源建模能在这方面帮助我们吗？

确实可以。假设我们想模拟一个由两个相互作用的蛋白质， $X$ 和 $Y$ 组成的复合物。我们可以分别对它们进行建模，然后尝试预测它们如何对接在一起。但如果我们可以找到一个同源复合物（比如 $X':Y'$ ）的模板结构，就存在一个更优雅的解决方案。通过使用整个复合物作为我们的模板，我们不仅模拟了单个折叠，还继承了关于它们相对方向和将它们粘合在一起的界面的关键信息。

这把我们引向了进化与结构交叉点上最美丽的思想之一。当两个蛋白质作为一个结合对共同进化时，它们被锁定在一场分子舞蹈中。蛋白质 $X$ 中一个可能破坏界面的突变，可以被蛋白质 $Y$ 中一个相应的突变所补偿。如果我们分析数百个不同物种中这对蛋白质的序列，我们实际上可以检测到这些相关突变。看到两个位置协同突变是一个强有力的线索，表明它们在最终的三维结构中直接物理接触。这种共进化信号提供了一条独立的证据线，一组可以指导和验证我们对蛋白质-蛋白质界面建模的约束——这是一个进化历史如何阐明当今分子结构的绝佳例子。

一种普适逻辑：从蛋白质到RNA

这个强大的思想——保守的序列意味着保守的结构——难道只局限于蛋白质吗？绝对不是。这个逻辑是普适的。它适用于任何由其序列决定并折叠成特定结构的生物聚合物。一个典型的例子是核糖核酸（RNA）。虽然我们可能认为RNA只是一个简单的信使分子，但它也能够折叠成令人惊叹的复杂三维形状，可以像蛋白质酶一样催化化学反应。这些RNA酶被称为核酶。

如果我们希望了解一个新发现的核酶的结构，我们可以应用完全相同的策略。如果我们能找到一个其结构已解析的相关核酶，我们就可以用它作为模板。我们必须使用尊重RNA独特二级结构（其碱基配对模式）的比对，de novo构建可变环区，甚至仔细放置必需的金属离子，如镁，它们通常对核酶的催化功能至关重要。同样的核心理念适用于化学性质如此不同的分子，这一事实揭示了一个深刻、统一的生物物理学原理：序列和折叠的语言是普适的。

从工作台到百科全书

到目前为止，我们考虑的是一次建模一个蛋白质。但现代生物学是在惊人的规模上运作的。一个宏基因组学项目可能会对一份土壤或海水样本中的所有DNA进行测序，一次性揭示数十万个新的蛋白质序列。通过实验研究所有这些序列是不可能的。我们如何对它们的功能有一个初步的了解？

这是一个分类 triage 的问题，而同源建模是完成这项工作的完美工具。我们可以创建一个高通量的计算流程。第一步总是最便宜和最可靠的：对所有10万个序列在Protein Data Bank (PDB)——所有已知结构的公共文库——中进行快速序列搜索。对于成千上万个获得良好“匹配”（一个具有显著序列一致性的模板）的序列，我们可以使用同源建模快速有效地生成一个可靠的结构模型。对于剩下的没有明显亲属的序列，我们就可以部署计算成本更高的方法，如折叠识别或AI预测。因此，同源建模充当了广泛、有效的第一道过滤器，使我们能够注释新基因组或蛋白质组的很大一部分，并将我们的资源集中在真正新颖的序列上。

新时代：与人工智能的伙伴关系

结构生物学领域已被像AlphaFold这样的深度学习方法彻底改变。这些AI预测器即使在没有任何模板的情况下，似乎仅凭序列就能产生惊人准确的模型。这是否意味着同源建模现在已成为过去的遗物？

远非如此。最有见地的观点是伙伴关系。要理解为什么，让我们考虑一个来自像Plasmodium falciparum（疟疾的病原体）这样的寄生虫的复杂蛋白质。这类蛋白质通常是具有挑战性的目标，不仅包含稳定的球状结构域，还包含长的、重复的、低复杂度的区域和跨越细胞膜的片段。

对于稳定的球状结构域，AI预测器可能会产生一个高置信度、高精度的模型。但对于低复杂度区域，AI将报告一个非常低的置信度分数。这不是失败；这是对无序的正确预测。AI在告诉我们，这部分蛋白质没有单一、稳定的结构。它是内在无序的，一条扭动的、柔性的链。

对于跨膜片段，两种方法都面临挑战。同源建模需要一个相似膜蛋白的模板，而这类模板很稀有。AI预测器主要是在PDB中大量可溶性蛋白质上进行训练的，它们通常难以正确排列多个跨膜螺旋的相对位置，因为它们没有明确模拟脂质双分子层的物理特性。

在这里，角色分工变得清晰。当有好的模板可用时，同源建模仍然是黄金标准。它快速、可靠，并直接将模型建立在已知的进化和实验背景之上。当没有模板存在时，AI预测器提供了我们最好的假设。未来在于智能地结合这些方法，使用AI的置信度分数来指导我们的信任，并在进化为我们留下了清晰的线索时，回归到同源建模的既定原则。理解生命机器结构的旅程远未结束，同源建模仍然是一个不可或缺的指南针。