Rosetta：计算蛋白质建模的原理与应用

玻尔百科

核心要点

Rosetta的打分函数不计算真实的物理能量，而是使用基于物理和基于知识的混合项，以有效地区分天然样蛋白质结构与不正确的“诱饵”结构。
该软件采用强大的两阶段搜索策略，首先使用简化的粗粒度模型探索全局拓扑，然后切换到详细的全原子模型进行高分辨率精修。
Rosetta的搜索由蒙特卡洛框架内的片段插入驱动，使其能够高效地探索真实的局部结构，并通过模拟退火逃离能量陷阱。
该框架的应用非常广泛，从预测蛋白质相互作用、将模型拟合到冷冻电镜数据，到从头设计治疗药物、共价抑制剂和新颖酶。

引言

预测一条线性氨基酸链如何折叠成复杂、有功能的三维形状，是现代生物学中的重大挑战之一。可能构象的数量极其庞大，使得暴力破解的方法变得不可能，这在蛋白质序列知识与其结构和功能理解之间造成了巨大的知识鸿沟。本文深入探讨Rosetta软件套件，这是一个为探索这一复杂领域而设计的强大计算工具包。通过探索Rosetta，读者将深入了解计算蛋白质建模与设计的核心策略。第一章“原理与机制”将剖析Rosetta的精妙机制，解释其独特的打分函数和智能搜索算法。随后，“应用与跨学科联系”一章将展示这些原理如何应用于解决医学、工程学和基础生物学研究中的现实问题。

原理与机制

想象一下，你蒙着眼睛，试图折叠一个极其复杂的折纸。你有一张长长的纸条——蛋白质的氨基酸序列——你的目标是将其折叠成一个单一、独特而复杂的形状。说明书是用物理学的语言写成的，这是一种关于吸引、排斥以及原子在水中微妙舞蹈的语言。你该如何开始呢？这正是预测和设计蛋白质结构所面临的巨大挑战。可能的错误折叠数量比宇宙中原子的数量还要大得惊人。盲目的随机搜索注定会失败。

Rosetta软件套件是探索这个迷宫的大师级工具。它并非依靠暴力破解。相反，它采用了一种巧妙的两部分策略，如同一次探索之旅：首先，它定义了什么样的折叠是“好”的（打分问题），其次，它开发了一种智能的方法来找到那个折叠（搜索问题）。让我们逐层揭开，看看这个精妙的机制是如何工作的。

蛋白质的度量：是分数，而非能量

是什么让蛋白质的天然结构如此特别？在现实世界中，它是占据吉布斯自由能（ $G$ ）最低状态的结构。这个能量涵盖了一切：蛋白质键的内能、其与周围水分子的相互作用，以及熵这个极其复杂的概念。从第一性原理计算出这个真实的自由能，目前在计算上是不可能的。

Rosetta的精妙之处在于它甚至不去尝试。它不计算真实的物理能量，而是计算一个分数。把它想象成跳水比赛的裁判。裁判不会用牛顿定律来计算跳水运动员的势能和轨迹。相反，他们使用一套久经磨练的标准——水花大小、身体姿态、旋转速度——来给出一个分数，这个分数能可靠地分清金牌跳水和腹部拍水。

同样，Rosetta打分函数的设计主要用于一个目的：从大量不正确的“诱饵”（decoy）结构中区分出天然样、稳定的蛋白质结构。该分数以Rosetta能量单位（REU）报告，这是一种任意的内部单位。-300 REU的分数并不意味着-300千卡/摩尔；它只是一个数字，比一个更差结构的-100 REU分数要低。绝对值没有意义，相对差异才是一切。这是Rosetta无法预测绝对折叠自由能 $\Delta G$ 的一个根本原因。打分函数是一个用于排序的复杂工具，而不是一个绝对的物理测量。

那么，这个“裁判记分卡”里包含了什么呢？它是两种哲学的巧妙融合：借鉴物理学和学习自然。

物理定律（简化版）： 打分函数包含近似真实物理力的项。原子不能同时处于同一位置，因此有一个强大的短程排斥项（Lennard-Jones势的一部分）来防止空间位阻。还有静电相互作用的项，以及至关重要的，水分子的影响。蛋白质在拥挤的水生环境中生存和折叠。Rosetta不模拟数十亿个独立的水分子（这在计算上是毁灭性的），而是使用隐式溶剂模型。一个很好的例子是Lazaridis-Karplus模型 (lk_sol)，它计算“去溶剂化罚分”。它估算了一个原子在被埋入蛋白质核心时与水接触的能量成本。这巧妙地捕捉了疏水效应——蛋白质的油性部分倾向于躲避水——这是折叠的主要驱动力之一。
自然的智慧（提炼版）： 自然是终极的蛋白质设计师。数十亿年来，进化已将成千上万个成功折叠的例子填充到蛋白质数据库（PDB）中。Rosetta利用这个巨大的数据库来推导基于知识的或统计势。其思想简单而深刻：普遍存在的即是稳定的。如果某个几何特征在已知蛋白质中反复出现，那么它在能量上可能是有利的。rama_prepro打分项完美地诠释了这一原则。它根据二面角 $\phi$ 和 $\psi$ 对局部主链构象进行打分。通过分析数千个结构，我们可以创建一个图谱——Ramachandran图——显示哪些 $(\phi, \psi)$ 组合是常见的，哪些是罕见的。rama_prepro项为常见组合（如 $\alpha$ -螺旋和 $\beta$ -折叠中的组合）赋予低分，并惩罚罕见组合。该项甚至足够复杂，可以为特殊的氨基酸如甘氨酸（Glycine，因其微小的侧链而特别灵活）和脯氨酸（Proline，因其独特的环状结构而刚性）使用独立的统计图谱，它们在图谱上有自己独特的“允许”区域。

最终，Rosetta的总分是数十个此类基于物理和基于知识的项的加权和。这些权重本身经过精心调整或“训练”，以最大化天然结构和诱饵结构之间的分数差距。这是一个经验主义的杰作，一个知道好蛋白质长什么样的工程化函数。

搜索的艺术：在构象迷宫中导航

知道一个好结构是什么样子只是成功的一半。在一个比国债数额还庞大的构象空间里，你如何找到它？Rosetta的搜索策略是“分而治之”的大师级课程。

粗粒度技巧：从卫星地图到徒步小径

想象一下，你蒙着眼睛，试图在一个巨大、崎岖的山脉中找到最低点。如果你从一个随机地点开始，并且只向下走，你很快就会陷入你发现的第一个小沟里。蛋白质的全原子能量景观正是如此：由于原子间陡峭的排斥力，它极其崎岖，充满了局部极小值（小沟）。用一个完整、详细的原子模型开始模拟，注定会立即陷入困境。

Rosetta的解决方案是首先查看一张简化的地图。这就是质心（centroid）阶段。侧链的复杂原子细节被剥离，每个侧链被一个单一、大的伪原子或“质心”所取代。这带来了两个惊人的好处。首先，它极大地降低了问题的复杂性和维度。其次，它允许使用一个“更平滑”、基于知识的能量函数，这个函数没有全原子势那种尖锐、崎岖的特征。

在这个平滑的景观上，模拟可以采取大胆的大步，探索蛋白质的整体形状和拓扑结构——螺旋和链如何排列——而不会陷入原子堆积的细节中。这就像在系好登山鞋之前，先用卫星地图确定最有希望的山谷。只有在找到一个看似合理的全局折叠后，Rosetta才会切换到全原子表示进行高分辨率精修。

移动策略：有引导的随机行走

搜索本身是一种称为蒙特卡洛（MC）搜索的有引导的随机行走。在每一步，算法都会对结构提出一个小的改变——一个“移动”——然后决定是否接受它。这个决定遵循Metropolis准则：

如果移动降低了分数（能量上的下坡步骤），则总是接受。
如果移动增加了分数（上坡步骤），则以一个概率接受它，该概率取决于增加的幅度和一个我们称为“温度”的参数。

这种偶尔能够走上坡路的能力是逃离那些局部小沟的秘诀。搜索的行为由一个温度方案控制，这是一种称为模拟退火的策略。模拟开始时“很热”，这意味着它有很高的概率接受即使是很大的上坡移动。这使得它能够广泛地探索景观，越过障碍，发现不同的能量盆地，从而生成一套多样化的候选结构。随着模拟的进行，温度慢慢降低。搜索变得更加保守，倾向于下坡移动，并稳定在它所发现的最深的能量盆地中。复杂的方案甚至可能包括周期性的“重新加热”，以给搜索另一次机会逃离陷阱并进一步探索。

但这些“移动”是什么？它们不仅仅是对原子的随机踢动。它们是智能的、有针对性的扰动。

最强大的移动是片段插入。Rosetta使用一个从PDB中高分辨率结构中提取的短的3残基和9残基主链片段库。在每一步，它将一个随机选择的片段的主链角度拼接到正在增长的蛋白质链中。这是折叠的主要引擎。它使搜索偏向于那些已知在物理上是现实的局部构象。这种偏向的力量是巨大的：如果你尝试使用一个仅由 $\alpha$ -螺旋蛋白构建的片段库来折叠一个全 $\beta$ -折叠的蛋白质，模拟几乎肯定会失败，产生一团糟的螺旋结构和糟糕的分数，因为它根本没有被给予正确的“构建模块”。
为了精修结构，会使用更小的移动。一个SmallMover可能会扰动单个 $\phi$ 或 $\psi$ 角，这对于探索非结构化环区的灵活性非常有用。一个ShearMover会对两个相邻的角度（ $\psi_i$ 和 $\phi_{i+1}$ ）进行相关的改变，这允许主链在保持整体几何形状的同时轻微移动，使其在对 $\alpha$ -螺旋或 $\beta$ -折叠的规则结构进行微调时非常有效。

最后，Rosetta是如何在不破坏分子的情况下进行所有这些键角改变的呢？它使用一种称为FoldTree的内部坐标系。FoldTree不是将蛋白质存储为每个原子的3D坐标列表，而是将其表示为一个运动学链，就像一个机械臂。结构由一组键长、键角和二面角定义。当一个移动改变了一个二面角时，所有下游原子的位置都会自动重新计算，完美地保持了共价几何。FoldTree甚至可以包含称为Jumps的虚拟连接，它定义了模型中不相连部分之间的刚体关系（6个自由度：3个平移，3个旋转），比如蛋白质的两个结构域或复合物中的两条独立链。正是这种优雅的表示法让Rosetta能够以令人难以置信的效率执行复杂且物理上有效的构象移动。

从全局到局部：精修与设计

一旦粗粒度的质心搜索找到了一个有希望的全局拓扑，模拟就会切换到全原子表示，进行最后关键的精修阶段。现在，能量景观的崎岖性成了一个优点而不是缺点，它有助于引导模型进入一个精确的、低能量的状态。

这个阶段的一个关键部分是侧链堆积。在主链固定的情况下，Rosetta必须找到所有侧链的最佳排列方式。即使对于一个小蛋白质，这也是一个令人难以置信的组合难题。Rosetta通过将每个侧链的构象表示为一组从库中提取的称为旋转异构体（rotamer）的离散低能态来解决这个问题。问题就变成了找到使总能量最小化的旋转异构体组合。通过增加“额外的”旋转异构体（例如，使用--ex1和--ex2标志）来增加采样密度，可以通过减少这种离散化带来的误差来提高准确性，但这会带来显著的计算成本。这是速度和准确性之间的经典权衡。

一个完整的精修协议，比如relax，是离散优化和连续优化之间的一场优美舞蹈。它会在PackRotamersMover（进行侧链构象的大幅度、离散跳跃）和MinMover（进行基于梯度的最小化）之间交替进行。MinMover会平滑地将整个结构——主链和侧链——沿着局部能量梯度向下滑动，缓解小的空间位阻并优化键角。没有这个连续最小化步骤，结构将被困在一个具有更高张力和更差分数的状态，无法进行获得真正松弛构象所需的微调[@problem_-id:2381438]。

物理学家与语言学家：对现实的最终检验

在经历了整个过程——一个由混合打分函数引导、使用运动学表示的多阶段搜索——之后，Rosetta可能会呈现一个具有极低分数的最终设计。它在自己的能量图上找到了一个深度的极小值。它应该是一个稳定、折叠良好的蛋白质。但它真的是吗？

在这里，我们进入了一个新的验证时代。我们可以将我们设计的氨基酸序列展示给另一种专家：一个像AlphaFold这样的深度学习模型。这些AI模型几乎接受了所有已知蛋白质结构的训练。它们没有学习物理学；它们学习了蛋白质的语言——进化所青睐的统计模式、序列基序和结构架构。

如果我们从AI模型中为我们的低能Rosetta设计得到了一个低置信度分数（比如低的pLDDT），这是一个引人注目的警示信号。这并不意味着Rosetta的分数是“错的”。这个设计可能具有出色的局部堆积并且没有空间位阻。相反，这意味着其整体的全局拓扑，即折叠的基本架构，是自然界中从未见过的。虽然根据Rosetta的模型，它在物理上可能是合理的，但对于数据训练的AI来说，它是“非蛋白质样”的。

这种差异揭示了计算结构生物学核心的美丽而复杂的真相。Rosetta扮演着物理学家的角色，确保我们的设计遵守化学和堆积的基本规则。AlphaFold则像一位语言学家，检查它是否讲自然蛋白质的语言。一个真正成功的设计必须两者都满足。这种基于物理的建模与人工智能之间的协同作用，正在推动我们理解和创造生命中非凡分子机器的能力的前沿。

应用与跨学科联系

既然我们已经探索了Rosetta的核心——它那近似物理现实的能量函数和探索分子形状浩瀚空间的搜索算法的双重引擎——我们可以提出最令人兴奋的问题：我们能用它来做什么？答案是，我们为自己建造了一个普适的分子实验室。它是一个计算显微镜，不仅让我们看到自然界创造了什么，还给了我们工具去建造自然界从未梦想过的东西。我们学到的原理不仅仅是抽象的规则；它们是解开生物学、医学和工程学领域问题的钥匙。让我们踏上一段旅程，穿越一些迷人的应用领域，看看一套一致的思想如何应用于各种各样精彩的问题。

分子之舞：预测自然的组装体

从本质上讲，生物学的很大部分都与相互作用有关：蛋白质与蛋白质、肽、DNA结合，共同编排着生命复杂的交响乐。Rosetta为这场分子之舞的编排提供了一个强大的平台。

想象一下，试图模拟一个短而柔性的肽——一条松散的氨基酸链——如何在一个大型、结构化的蛋白质上找到其特定的结合口袋。肽的可能形状和位置的数量是天文数字。暴力破解的全原子搜索将毫无希望地迷失方向。相反，Rosetta采用了一种巧妙的两阶段策略，让人联想到艺术家的创作过程。首先，它进行广泛的、粗粒度的搜索，以简化的centroid表示法处理分子。这就像用铅笔勾勒出大致的姿态，快速探索多种可能性，而不会陷入原子细节的泥潭。一旦找到有希望的“草图”，系统就会切换到高分辨率的全原子表示法，进行精修阶段。在这里，侧链被仔细放置，整个界面被最小化，“描绘”出相互作用最终的、精确的细节。

自然界作为一位节俭的工程师，经常利用对称性从相同的重复单元构建出大型、优雅的结构。想象一下病毒衣壳或一个简单的二聚体酶。Rosetta巧妙地利用了这一点。在模拟一个对称复合物时，例如一个具有二重旋转对称性的同源二聚体，将两条蛋白质链都视为独立的将是浪费的。相反，我们只需要模拟一个“主”亚基的位置和方向。然后通过应用对称操作自动生成“从”亚基。对主亚基所做的每一个移动——旋转、平移、侧链翻转——都会在伙伴亚基中镜像反映。这极大地降低了搜索问题的维度。我们不是独立地驾驭两个舞者，而是教给一个舞者舞步，让其伙伴完美地模仿，确保最终的结构拥有正确、优雅的对称性。

但如果其中一个舞者一开始就没有确定的形状呢？这就是内在无序蛋白（IDPs）这个奇特而迷人的世界。这些蛋白质以扭动、柔性的结构系综形式存在，直到它们遇到结合伴侣，此时它们可以折叠成一个稳定的构象。模拟这种“结合诱导折叠”事件是一个前沿挑战。一个成功的协议需要多种技术的复杂融合：使用基于片段的采样生成大量的可能IDP构象系综，将此搜索锚定在受体上可疑的结合位点附近，并允许IDP和受体表面的灵活性以模拟“诱导契合”。稀疏的实验数据，例如来自交联实验的距离限制，可以不用作刚性命令，而是作为温和的引导或“软偏向”，将搜索推向正确的方向。最终结果不是一个单一的答案，而是一个低能可能性的系综，反映了系统本身的动态性质。

这种力量并非没有局限，理解这些局限与庆祝其成功同样具有启发性。考虑一个主链被打成结（如三叶结）的蛋白质。这类蛋白质确实存在，给折叠带来了巨大的难题。如果我们运行一个标准的Rosetta ab initio折叠模拟，我们几乎肯定无法产生正确的打结拓扑。其原因深刻，并位于搜索过程的核心。能量函数强烈奖励紧凑性，导致模拟的蛋白质链在模拟早期迅速塌缩成一个球状体。采样算法依赖于局部的“片段插入”移动，这就像试图通过只被允许摆动一小段绳子来给绳子打结。一旦绳子塌缩成一个球，形成结所需的大尺度穿线运动在动力学上是不可及的——能量壁垒太高了。模拟被“动力学捕获”在一个对应于紧凑但未打结形状的深能量阱中，这生动地说明了在复杂能量景观中导航的挑战。

从像素到蛋白质：整合实验数据

我们的计算实验室并非存在于真空中。当它与探测真实分子世界的实验技术协同工作时，其威力最大。这种协同作用最壮观的例子之一是在冷冻电子显微镜（cryo-EM）领域。

想象你有一张模糊的、低分辨率的雕像照片。你可以看出大致的轮廓，但脸部和手部的细节却不清晰。这类似于一张冷冻电镜密度图。它提供了一个实验性的电子密度“云”，显示了分子的形状，但分辨率通常太低，无法确定单个原子的位置。这时Rosetta就派上用场了。该协议始于一个物理上合理的、全原子的蛋白质模型，即我们的“雕像”。挑战在于将这个模型拟合到实验密度图中。为此，我们在Rosetta能量函数中增加了一个新项。该项从原子模型计算出一个理论密度图，并将其与实验图进行比较。随着两个图谱变得越来越相似，分数也变得更有利。关键是，这个分数项是可微的；它产生力，将每个原子拉向实验密度较高的区域。其结果是一个精修过程，其中Rosetta能量函数的物理化学约束确保模型保持正确的键长和键角，而冷冻电镜分数项则引导模型以最佳方式拟合实验数据。这就像一位雕塑家利用模糊的照片来引导他的凿子，最终创作出一座既有艺术连贯性又忠于主题的雕像。

分子机械车间：工程未来

也许最激动人心的前沿不仅仅是理解自然，而是重新设计它——构建具有新功能的新型蛋白质。Rosetta是蛋白质设计领域的首要工具。

在我们能制造更好的机器之前，我们必须了解原始机器是如何工作的。考虑两个蛋白质结合在一起。在界面的数百个氨基酸中，哪些对相互作用最为关键？为了回答这个问题，我们可以进行“计算丙氨酸扫描”。丙氨酸是一种侧链非常小的氨基酸，只有一个甲基。通过计算上将每个界面残基逐一突变为丙氨酸，我们实际上切除了它的侧链。对于每次突变，我们让周围的残基松弛，然后计算结合能的变化，即 $\Delta \Delta G_{\mathrm{bind}}$ 。一个大的、不利的变化告诉我们，原始残基是一个“热点”，是蛋白质-蛋白质界面拱门中的一个关键基石。这个虚拟实验使我们能够描绘出相互作用的能量景观，并为未来的工程努力提供宝贵的指导。

这种分析和设计的力量在医学和药物发现中找到了其最具影响力的应用。寻找一种新药就像在一个装有数百万把不同钥匙的仓库中寻找一把能配特定锁的钥匙。Rosetta的RosettaLigand应用提供了一个“虚拟筛选”流程来加速这一搜索。对于数百万个候选小分子中的每一个，该协议会迅速将它们对接到目标蛋白质的活性位点，采样它们的柔性和蛋白质侧链的诱导契合，并估计一个结合能。这个计算漏斗允许研究人员将一个庞大的库筛选到几千个——甚至几百个——最有希望的候选者，以进行昂贵且耗时的实验验证。

有些药物被设计成不仅要装入锁中，还要形成一个永久的共价键——实际上是把钥匙折断在里面。模拟这些共价抑制剂需要更高水平的化学复杂性。协议必须超越简单的对接。它必须明确定义蛋白质和药物之间的一个新的共价键，创建一个单一、统一的化学实体。Rosetta的框架强大到足以处理这个问题，使用特殊的化学定义（LINK记录或补丁）来更新分子拓扑。然后，搜索和打分在这个新的加合物上进行，从而能够设计出高度特异性和强效的抑制剂。

这种模拟非标准化学的能力不仅限于药物设计。同样的机制可以用来模拟对细胞生物学至关重要的复杂翻译后修饰（PTMs）。例如，我们可以模拟一个与泛素共价连接的蛋白质，泛素是一个标记其降解或改变其功能的小蛋白质标签。通过定义底物上一个赖氨酸与泛素C末端之间的异肽键，Rosetta可以将整个组装体视为一个单一分子，并探索其构象景观。我们甚至可以完全跳出自然界的标准工具箱。绝大多数生命使用L-氨基酸，但如果我们想设计一个含有其镜像对应物D-氨基酸的蛋白质呢？因为Rosetta的能量函数是基于第一性原理构建的，并且其统计势是可识别手性的，所以我们只需将一个残基指定为D-对映异构体。Rosetta将自动应用正确的D-特异性Ramachandran图和旋转异构体库，从而能够设计出能抵抗天然蛋白酶的新型生物材料和治疗药物。

我们的旅程在蛋白质设计的顶峰结束：从头设计一种新酶。一个幼稚的方法是设计一个与起始化学物质（底物）完全互补的活性位点口袋。但这是一个根本性的错误！一个完美地包裹底物的口袋会稳定它，从而增加反应的能量壁垒。它会成为一个抑制剂，而不是催化剂。真正的秘密，一个来自物理化学的美妙洞见，是设计一个与反应中最不稳定、最短暂的瞬间——过渡态——最大程度互补的口袋。这个高能量、瞬态的物种只存在一瞬间，但它是催化的关键。通过构建一个优先结合并稳定过渡态的活性位点，酶降低了总的活化能，将反应速度加快了几个数量级。Rosetta能力的巅峰是其酶设计框架，它采用一个理论上由量子力学推导的这个虚构过渡态的模型，并在其周围构建一个真实的、稳定的蛋白质支架。它在无数的氨基酸和主链构象组合中搜索，以创建一个与这个短暂状态具有完美形状和静电互补性的口袋，将一个化学假设转变为一个功能性催化剂。

从预测天然蛋白质的结构到设计新型酶，Rosetta的应用证明了一个简单、统一思想的力量：通过将物理能量函数与强大的搜索算法相结合，可以理解和改造复杂的生物大分子世界。这场冒险才刚刚开始。