
从氨基酸序列预测蛋白质的三维结构是生物学中的重大挑战之一。主流的热力学假说认为,蛋白质的功能性天然结构对应于其自由能最低的状态。这形成了一个巨大的“能量漏斗”,其中无数非天然构象具有更高的能量,引导蛋白质达到其最稳定的状态。因此,核心问题是如何在计算上遍历这个复杂的能量景观,以找到那个最深的谷底。Rosetta 能量函数就是我们的向导——一个用于评估蛋白质结构的精密计算“高度计”。
本文阐明了 Rosetta 能量函数的原理和威力。它探讨了该函数是如何构建的,以及是什么使其在区分可行的蛋白质结构与不可行的结构方面如此有效。读者将对这一蛋白质工程的基石获得全面的理解。在第一章“原理与机制”中,我们将剖析这个能量函数,探索其作为基础物理学和数据驱动统计学混合体的双重性质。随后,“应用与跨学科联系”一章将展示这一强大工具如何应用于现实世界的问题,从重新设计天然蛋白质到从头创造全新的蛋白质,并与前沿的实验和人工智能技术相结合。
想象一下,你正站在一片广阔、群山连绵的地区之巅,四周笼罩着浓雾。你的任务是在这整个山脉中找到唯一最深的峡谷。你有一个特殊的高度计,但在再次检查高度之前,你一次只能走几步。你会如何行动?你很可能会采取一个简单的策略:每走一步,都朝着下坡的方向移动。如果你持续向下走,你很有可能最终到达一个深谷,并希望那是所有峡谷中最深的一个。
这正是预测蛋白质结构所面临的挑战,而 Rosetta 能量函数 就是我们那个特殊的高度计。蛋白质是一长串氨基酸链,理论上可以折叠成天文数字般多的形状。它在自然界中采取的形态,即其天然结构,是使其能够执行其功能的结构。主流观点,即热力学假说,认为这种天然结构对应于最低自由能的状态。所有可能的蛋白质形态的景观就是我们的山脉,而天然结构就位于一个深邃的“能量漏斗”的底部。
我们如何知道我们的高度计——我们的能量函数——是否好用呢?我们对它进行测试。科学家们为一种已知真实结构的蛋白质生成数百万个假设的蛋白质结构,称为诱饵(decoys)。一个好的诱饵集包括一些与天然结构非常接近的结构,以及许多与天然结构截然不同的结构。然后,我们使用我们的能量函数为每一个诱饵计算一个分数。
如果能量函数有效,能量分数与“天然性”(诱饵与真实结构的相似程度)的图应该看起来像一个漏斗。远离天然结构的诱饵应该具有高的、不利的能量分数——它们是高耸的山峰和高原。随着诱饵在结构上越来越接近天然状态,它们的分数应该逐渐降低,引导我们沿着漏斗的斜坡走向底部。天然结构本身应该位于或接近能量最低点。
这个“能量漏斗”概念是最重要的单一原则。它将一个不可能的搜索任务转变为一个可控的下坡行走。当我们从头设计一个新蛋白质时,我们没有已知的结构可以比较。我们唯一的向导就是能量分数。我们生成成千上万种可能性,并将赌注押在分数最低的那一个上,相信因为它位于计算预测的能量井的底部,当我们在实验室中合成它时,它将是稳定的并能正确折叠。
现在,我们必须非常小心地使用我们的类比。当物理学家谈论能量时,他们通常指的是一个精确的、绝对的量,单位是焦耳或千卡/摩尔。那么,以Rosetta 能量单位(REU)计量的 Rosetta 分数,是蛋白质真实的物理自由能吗?答案是一个响亮的否定。
Rosetta 分数是一个出色而实用的近似值——一种有效能量。它不是真正的吉布斯自由能 ,原因有几个基本方面。首先,真正的折叠自由能 是折叠态与所有可能的未折叠态的巨大、混乱系综之间的差异。Rosetta 在其标准用法中,只对折叠结构进行评分;它没有明确地模拟未折叠链的无序混乱状态。其次,该分数函数仅粗略地近似了熵的巨大贡献,特别是水分子围绕蛋白质组织的复杂方式。
那么,Rosetta 能量单位是什么?它们是内部的、任意的单位,其唯一目的是排序不同的构象。-250 REU 的分数优于 -120 REU,而这两者都远优于 +15 REU。但这些绝对数字没有直接的物理意义。整个系统都是根据经验进行调整的,其唯一目标是:创建一个可靠的能量漏斗。它是一个混合的杰作,一部分是物理学,一部分是统计学,旨在将好的折叠与坏的折叠区分开来。
Rosetta 分数函数的前半部分建立在物理学和化学的基石之上,应用了支配原子如何相互作用的基本规则。这是一个由推、拉和精确几何排列构成的微观世界。
想象一下,如果原子像幽灵一样,能够相互穿过,会发生什么?吸引力会将它们全部拉到一个无限小的点上。蛋白质将坍缩成物质的黑洞!当然,这不会发生,因为有一条名为 Pauli 不相容原理的量子力学规则,该规则规定两个电子不能占据相同的状态。这产生了一种强大的、短程的排斥力——一种“离我远点”的力量。
在 Rosetta 中,这由 fa_rep(全原子排斥)项建模。这是一个简单但严酷的势能,当两个非键合的原子靠得太近时,它会飙升至正无穷大。它是一堵不可逾越的墙,赋予每个原子其体积。如果你在模拟中关闭这一项,结果将是灾难性的。吸引力将在所有距离上占主导地位,整个蛋白质将内爆成一团物理上不可能的、过度堆积的重叠原子。这个简单的思想实验揭示了这个排斥项的深远重要性:它是物质稳定并占据空间的主要原因。
排斥力使原子保持距离,而吸引力则将它们聚集在一起形成稳定的结构。生物学中最重要的“胶水”之一是氢键。它是一种弱静电吸引力,存在于一个氢原子(共价键合于如氮或氧的供体)和另一个电负性原子(受体)之间。
但氢键并非一种仅取决于距离的简单磁性吸引。它具有高度的方向性,是一种具有精妙几何特异性的相互作用。可以把它想象成锁和钥匙。为了使键达到其全部强度,原子间的距离必须恰到好处,但供体、氢和受体之间的角度也必须恰到好处。如果几何结构哪怕有轻微的扭曲——如果角度偏离了几度——键的强度就会急剧下降。Rosetta 的能量函数通过依赖于角度的项来捕捉这一点,严厉惩罚那些不处于其理想的、近线性排列的氢键。这种几何上的完美是蛋白质结构,特别是 -螺旋和 -折叠核心如此规整和明确的原因。
为什么油和水会分离?这并不是因为油分子特别喜欢彼此,而是因为水分子为了彼此形成氢键,有效地将油分子“推开”。这就是疏水效应,它可以说是蛋白质折叠中最强大的单一驱动力。
Rosetta 用其溶剂化能项 fa_sol 来模拟这一点。对于每个原子,它根据其埋藏在内部或暴露于水溶剂的程度来计算一个分数。
这一项完美地引导蛋白质折叠成具有油腻的疏水核心和极性的、带电的表面的结构,正如我们在无数天然蛋白质中看到的那样。
仅靠物理学无法有效地解决问题。Rosetta 分数函数的后半部分建立在一种不同的哲学之上:从自然的成功中学习。经过数十亿年的演化,生命探索了大量的蛋白质结构。那些有效的结构被保存了下来。通过分析数千个实验解析的蛋白质结构数据库——蛋白质数据库(PDB)——我们可以提取出统计上的偏好。
蛋白质的骨架不能随意扭转。原子间的空间位阻严重限制了其主要扭转角,即 和 的可能组合。这些允许角度的图被称为 Ramachandran 图,它充当了有效骨架构象的蓝图。
Rosetta 的 rama_prepro 项是一个直接从这些图中派生出的统计势。它为在自然界中常见的 角度组合(如在螺旋和折叠中发现的那些)赋予有利的分数,并对那些罕见的组合施加惩罚。该模型甚至足够复杂,可以为特殊情况的氨基酸使用不同的“蓝图”。甘氨酸,其侧链只有一个微小的氢原子,非常灵活,可以进入图中其他氨基酸被禁止的区域。脯氨酸,其独特的侧链回环并与其自身骨架键合,极其刚性,将其 角锁定在一个狭窄的范围内。能量函数知道这些规则,引导蛋白质链采取“类蛋白质”的扭转和转角。
这些基于知识的势非常强大。它们含蓄地捕捉了各种复杂的量子力学和熵效应,而这些效应很难从第一性原理进行建模。它们为设计施加“蛋白质特性”提供了一种廉价而有效的方法。
然而,它们也有局限性。它们天生就受到训练数据的偏见影响。如果某种类型的折叠在自然界中从未出现过,基于知识的势可能会不公平地惩罚它,从而扼杀发现真正新颖事物的可能性。此外,将这些统计项与基于物理的项结合起来是一种微妙的平衡行为,因为它们有时可能会“重复计算”相同的效应,一次从物理学的角度,一次从统计学的角度。因此,Rosetta 能量函数是一种精心调制的鸡尾酒,其中每一项的权重都经过优化,以产生尽可能最佳的结果。
蛋白质的天然、功能性状态总是绝对最低自由能的状态吗?对于许多蛋白质来说,这似乎是正确的。但自然界比我们最简单的模型更聪明、更微妙。存在一些有趣的例外,其中蛋白质的功能形式并非最稳定的形式。
一些蛋白质,如 serpins(丝氨酸蛋白酶抑制剂),存在于一种高能量的、“蓄势待发”的亚稳态。这种状态是功能性的,但不是最稳定的。它与真正的、能量更低的基态之间被一个巨大的活化能垒隔开。蛋白质被动力学捕获,就像一块巨石停在山腰的一个小洼地里,有能力一直滚到山底,但需要一次推动。当目标分子提供了那次推动时,serpin 会迅速转变为其超稳定但无功能的状态,在此过程中捕获目标。
其他被称为天然无序蛋白质(IDPs)的蛋白质,在单独存在时根本没有单一的稳定结构。它们的最低能量状态是许多不同构象的动态集合。它们只有在与特定伙伴结合时才会折叠成稳定结构,这是功能从环境中涌现的美丽范例。这些例子并没有打破我们的模型,而是丰富了它,提醒我们生物世界受动力学和环境的支配,而不仅仅是静态的能量最小值。
几十年来,Rosetta 能量函数一直是蛋白质工程师的主要工具。如今,一个新的参与者登上了舞台:像 AlphaFold 这样的深度学习模型。这些人工智能系统在整个 PDB 上进行了训练,并以惊人的准确性“学习”了蛋白质结构的模式。
这引发了一场引人入胜的对话。当我们的基于物理的模型和新的人工智能模型意见不一时,会发生什么?想象一下,我们设计了一种蛋白质,它的 Rosetta 分数极好、很低,但人工智能模型预测其结构的置信度非常低。
这种差异非常有价值。它表明设计者可能创造了一个具有完美局部化学性质但具有真正新颖全局折叠的结构——这可能是自然界尚未发现的。这种基于物理原理的模型和基于学习数据的模型之间的新对话,正在推动可能性的边界,使我们不仅能设计模仿自然的东西,还能设计自然本身从未见过的事物。通往漏斗底部的旅程仍在继续,但现在我们有了多个独立的向导来照亮前路。
在探寻了 Rosetta 能量函数的原理和机制之后,我们可能感觉自己像是学会了一门新语言的语法和词汇。我们理解了规则——吸引与排斥,溶剂化的纠缠,氢键的精妙诗篇。但语言不仅仅是一套规则;它是一种用于交流、创造和发现的工具。所以现在,让我们提出最激动人心的问题:我们能用这门语言做什么?我们能讲述什么样的故事,能建造什么样的机器,能解开什么样的谜团?
正是在这里,能量函数的抽象之美绽放出绚丽多彩的现实世界应用。它成为我们观察分子世界的镜头,雕刻它的凿子,以及在其中穿梭的向导。我们将看到,通过寻找这个单一、优雅函数的最小值,我们可以做任何事,从加固自然界现有的分子机器到从头设计全新的机器。
也许我们能量函数最直观的应用是,取一个自然界已经构建好的蛋白质,然后让它……变得更好。蛋白质,尽管经过了演化的精炼,但并不总是完全符合我们的目的。它们可能在高温下解体,或者缺乏我们特定任务所需的精确亲和力。利用 Rosetta,我们可以进行一种分子手术。
想象一个蛋白质是一座建造精美的建筑。这座建筑的稳定性在很大程度上取决于它的基础——紧密堆积、排斥水分的“疏水核心”。如果我们想让蛋白质更坚固,比如说,为了能承受更高的温度,我们可以使用 Rosetta 来重新设计这个核心。这个任务变成了一个优化问题:哪种氨基酸组合在被塞进核心时,会产生尽可能低的能量?该协议包括在计算上将核心中的残基“突变”为不同的疏水类型,采样它们可能的侧链构象(旋转异构体),并使用能量函数评估哪种新排布能产生最佳、最稳定的堆积。在此过程中,我们可以对蛋白质的骨架进行谐波约束,以确保我们的“翻新”不会导致整个建筑改变其形状。其结果是一个超稳定的变体,通过对其能量原理的深刻理解而设计出来。
这种分析能力超越了单个蛋白质,延伸到它们的相互作用。当两个蛋白质结合时,它们形成一个界面。但并非界面上的所有残基都同等重要。一些残基形成了关键的“热点”,贡献了大部分结合能,就像几次关键的握手敲定了一笔交易。识别这些热点对于理解疾病和设计药物至关重要。在这里,Rosetta 允许我们进行计算机模拟的丙氨酸扫描。我们通过计算将每个界面残基突变为丙氨酸——一种侧链微小的氨基酸——并计算结合自由能的变化,。突变后出现大的、不利的变化表明原始残基是一个热点。有意义计算的关键在于,突变后,我们必须允许周围的侧链甚至局部骨架进行弛豫,找到它们新的最低能量构象。没有这种弛豫,我们评估的将是一个物理上不现实、有冲突的结构。这个过程精确地模拟了一个热力学循环,为我们提供了对每个残基对相互作用重要性的有原则的估计。
如果我们能修改现有的蛋白质,我们能否敢于梦想得更大?我们能设计一种前所未有的蛋白质吗?这是从头蛋白质设计的宏大挑战,也正是在这里,Rosetta 能量函数展现了其真正的创造力。
假设我们对一个全新的蛋白质架构——一种新颖的折叠——有了一个想法。我们的任务是找到一个氨基酸序列,当它被合成时,会自我折叠成那个确切的形状。这比重新设计一个已知蛋白质要困难得多。仅仅找到一个在目标折叠中能量低的序列是不够的(这被称为“正向设计”)。我们还必须确保同一个序列在所有其他可能的折叠中能量都高(“负向设计”)。换句话说,这个序列不仅要喜欢它预定的家;它还必须觉得所有其他的家都不舒服。这是创造一个“漏斗状”能量景观的唯一方法,在这个景观中,期望的结构是无可争议的全局能量最低点。一个成功的协议涉及序列设计和结构弛豫之间的迭代舞蹈,通常会明确惩罚那些被预测在其他非目标构象中稳定的序列。这甚至能够实现,本身就是对能量函数准确性的惊人证明。
我们可以将这一雄心推向更高层次,不仅设计一个静态结构,还要设计一个功能性酶。根据 Linus Pauling 的著名理论,酶之所以能发挥其魔力,是通过稳定化学反应的高能过渡态。酶是一台形状完美的机器,它能结合并托住一个分子,不是分子本身的样子,而是它正在变化的样子。因此,要设计一种新酶,我们从反应过渡态的化学模型开始。这成为我们的蓝图。然后,Rosetta 协议搜索能够形成一个与这个短暂过渡态在形状和静电特性上完美互补的活性位点的氨基酸序列和骨架构象。它使用几何约束来定位催化残基,以便与过渡态模型中正在形成和断裂的化学键进行最佳相互作用。整个搜索过程都由能量函数引导,以找到一个能比结合基态底物更紧密地结合过渡态的蛋白质,从而降低活化能,将反应速率提高几个数量级。这是有机化学、物理学和计算机科学的美妙交响曲。
生命是一个相互作用的网络,而 Rosetta 能量函数是理解分子如何聚集在一起的绝佳工具。
一个基础性问题是蛋白质-蛋白质对接:预测两个蛋白质如何结合形成复合物。一个引人入胜且常见的案例是形成对称的寡聚体,例如具有二重()旋转对称性的同源二聚体。我们可以利用对称性,而不是将其视为一个有两个独立运动物体的复杂问题。我们将一个亚基定义为“主”亚基,并通过对称操作生成其伙伴亚基。寻找正确对接排列的搜索过程因此被大大简化,因为我们只需要采样主亚基相对于对称轴的位置和方向。在每一步中,都会计算整个对称组件的能量,确保评分在物理上是正确的。这种对对称性的巧妙运用使一个计算上困难的问题变得易于处理。
分子相互作用的世界并非总是如此有序。许多蛋白质是“天然无序的”(IDPs),在遇到它们的结合伙伴之前,它们以一种扭动的构象集合形式存在。结合后,它们会折叠成一个稳定的结构。这种“结合诱导折叠”是构象选择和诱导契合的美妙舞蹈。模拟这样一个过程是一个艰巨的挑战,需要采样巨大的构象空间。Rosetta 通过强大的分层协议来解决这个问题。粗粒度搜索首先在结合位点附近探索大量可能的肽构象,然后进行全原子精修,允许柔性肽和受体蛋白的界面相互调整。这类复杂的建模任务展示了在能量函数引导下 Rosetta 采样算法的强大能力。
这些相互作用建模的原则直接与医学相关。在药物发现中,一个核心任务是找到能与目标酶或受体紧密且特异性结合的小分子。Rosetta 可以进行虚拟筛选,即通过计算将数千个候选分子的库“对接”到目标的结合口袋中。一个成功的协议必须考虑配体的柔韧性和蛋白质侧链的诱导契合,并且必须使用物理上现实的全原子能量函数来对姿态进行评分并对候选物进行排序。类似的逻辑也适用于免疫学,我们需要了解抗体如何识别其目标抗原。对一个抗体和一个带电表位之间的界面进行评分,需要一个复杂的能量函数,该函数不仅能正确模拟形状互补性,还能正确模拟在水环境中支配结合的复杂静电和去溶剂化惩罚。
也许 Rosetta 框架最强大的方面是它并非孤立存在。它在与实验数据的动态互动中蓬勃发展,创造出一种整体大于部分之和的协同效应。
一个壮观的例子是它与冷冻电子显微镜(cryo-EM)的整合,这是一种产生大分子三维“阴影”或密度图的技术。这些图通常很模糊,分辨率不足以看清单个原子。我们如何从一幅模糊的图像中构建一个精确的原子级模型呢?我们使用 Rosetta。一个源于似然估计的新能量项被添加到标准的 Rosetta 分数中。该项衡量原子模型在模糊到与实验相同的分辨率时,与实验密度图的拟合程度。总能量函数于是成为物理能量(来自 Rosetta 的标准项)和数据一致性能量的总和。在精修过程中,模型同时试图满足物理和化学定律(良好的键长、无冲突)并拟合实验数据。这使我们能够将低分辨率图转化为高分辨率的原子杰作,揭示以前只是模糊形状的分子机器的秘密。
这种整合哲学的最终体现,是 Rosetta 的基于物理的势与深度学习(DL)革命性力量的融合。像 AlphaFold 这样的模型可以通过从已知蛋白质结构数据库中学习模式,以惊人的准确性预测蛋白质的结构。这些预测通常以残基间距离的概率分布形式出现。这些信息可以直接转化为一个新的、可微的能量项,并添加到 Rosetta 分数函数中。一个构象的能量现在由其物理合理性(Rosetta)和其与深度学习预测的一致性共同决定。深度学习模型提供了一个强大的、长程的指导,告诉搜索应该在哪里寻找,而基于物理的 Rosetta 能量函数则确保最终模型在立体化学上是正确的,并处于一个真正的能量最低点。这种人工智能与第一性原理生物物理学的结合代表了当前结构生物学的前沿,而 Rosetta 能量函数的灵活性和可扩展性使其成为可能。
从巩固蛋白质的核心到设计新型催化剂,从预测药物结合到解读我们最先进实验的数据,Rosetta 能量函数远不止是一个简单的方程式。它是一个统一的原则,一个多功能的工具,以及通往理解和工程化蛋白质这个错综复杂、美丽而功能强大的世界的大门。