try ai
科普
编辑
分享
反馈
  • 构象搜索

构象搜索

SciencePedia玻尔百科
核心要点
  • 分子的形状由其在高维势能面(PES)上的位置决定,寻找其最稳定的结构是一个巨大的搜索问题。
  • 莱文塔尔悖论强调,蛋白质无法通过随机搜索找到其折叠状态,这表明其氨基酸序列中编码了一个有导向的过程。
  • 计算方法通过使用旋转异构体库和片段组装等技术来模仿自然界的捷径,使搜索在计算上变得可行。
  • 构象搜索是药物设计、蛋白质结构预测以及解释实验光谱数据的一项基本原则。

引言

分子并非教科书中看到的僵硬、静态的球棍模型;它们是动态的实体,不断扭曲和弯曲成多种不同的形状,即构象。在浩如烟海的可能性中找到最稳定、能量最低的单一构象,是贯穿化学、生物学和医学的一项根本挑战。这个过程被称为构象搜索,其复杂性在于一个惊人的规模问题:单个分子可能拥有的潜在形状数量可达超天文数字级别,使得穷举搜索成为不可能。那么,蛋白质是如何在几秒钟内折叠成其正确形状的?科学家又如何期望设计出能完美契合其生物靶点的药物呢?本文将探讨这个深刻的问题。第一章“原理与机制”将引导您了解这个问题的概念图景,从势能面到著名的莱文塔尔悖论,揭示自然界用以解决此问题的精妙算法。随后的“应用与跨学科联系”一章将展示,掌握这一挑战对于宏大的科学事业至关重要,包括蛋白质结构预测、现代药物发现乃至对进化本身的理解。

原理与机制

想象一下,您正站在一个尺度真正达到宇宙级别的山脉上。但这不是由岩石和冰构成的山脉,而是一片纯粹的能量景观。这片景观上的每一点都代表了分子可以采取的一种可能形状——一种​​构象​​。任何一点的海拔高度对应其势能;深谷是稳定的低能形状,而高峰和山脊则是不稳定的高能形状。您的任务——如果您选择接受——就是在这整个景观中找到那个最深的谷底:​​全局最小能量构象(GMEC)​​,即分子能拥有的最稳定形状。

这就是构象搜索的核心挑战。我们正在探索的“地图”被称为​​势能面(PES)​​。寻找一个分子(无论它是一条简单的碳原子链还是赋予生命的蛋白质)的最稳定结构,就等同于在这个极其复杂的高维地图上找到最低点。

广阔而崎岖的可能性景观

对于像正己烷(一条六个碳原子的链)这样简单的柔性分子,其势能面就已经蕴含着意外。分子的形状主要由其中心碳-碳键的扭转,即​​扭转​​所决定。这些扭转可以稳定在舒适的低能排布(anti 和 gauche)上,这些排布对应于势能面上的小山谷。但这样的组合有很多种。你可以有一个全anti构象的链(全局最小值),或者带有一个gauche扭转的链,或者两个,以此类推。这些稳定的排布中的每一种都是一个​​局部最小值​​——一个你无法仅通过向坡下滚动而逃离的山谷。要从一个山谷到达另一个,你必须翻越一个​​能垒​​,这是一个对应于原子相互碰撞的笨拙重叠构象的山脊。

这意味着,如果你将一个球随机放置在这片景观的某处,它会滚到最近山谷的底部并被困住。一个只沿着能量梯度向下的简单计算机算法——一种“贪心”方法——做的也是完全一样的事情。它会找到一个最小值,但几乎肯定不是全局最小值。它被困在了一个局部的吸引盆中。

现在,让我们扩大规模。如果一条六碳链已经是一个丘陵地带,那么像十二烷这样的十二碳链简直就是一片山脉。十二烷的骨架上有九个关键的可旋转键。如果每个键大约有三种偏好的状态(一个trans,两个gauche),那么可能的构象异构体数量就会发生组合爆炸。我们不只是在增加可能性,而是在将它们相乘。局部最小值的数量大致按mNτm^{N_{\tau}}mNτ​的规律增长,其中mmm是每个键的状态数,NτN_{\tau}Nτ​是可旋转键的数量。对于十二烷,这给了我们大约39≈20,0003^9 \approx 20,00039≈20,000个局部最小值。对于一个有数百个此类键的蛋白质,这个数字就变得超乎天文。这片景观不仅广阔,而且崎岖得难以想象,充满了无数的山谷,其中大部分对于一个天真的搜索者来说都是陷阱。

莱文塔尔悖论:一场宇宙级的交通堵塞

这就把我们带到了生物学中最美妙的谜题之一:蛋白质折叠。蛋白质是由氨基酸组成的长链,为了发挥功能,它们必须折叠成精确的三维结构。它们以惊人的速度完成这一过程,通常在微秒到秒的时间尺度内。但这是如何做到的呢?

1969年,一位名叫 Cyrus Levinthal 的分子生物学家进行了一次著名的粗略估算,揭示了这项任务的极端不可能性。让我们用一个假设的由101个氨基酸组成的蛋白质来跟随他的逻辑。非常宽松地假设,每个氨基酸的骨架只能处于三种可能的状态之一。那么总的构象数量将是 31013^{101}3101。分子“尝试”一个新构象的最快速度受限于原子键的振动速度,约为10−1310^{-13}10−13秒。如果该蛋白质必须通过尝试每一种可能性来找到其正确的折叠形状,那么所需总时间将约为3101×10−133^{101} \times 10^{-13}3101×10−13秒。

数字31013^{101}3101大到超乎直觉。计算出的搜索时间大约是宇宙年龄的3.55×10173.55 \times 10^{17}3.55×1017倍。不是3.55×10173.55 \times 10^{17}3.55×1017秒,而是3.55×10173.55 \times 10^{17}3.55×1017倍整个宇宙的寿命。即使对于一个只有60个残基的小蛋白质,随机搜索也需要数百万倍于宇宙年龄的时间。

然而,蛋白质在几秒钟内就能折叠。这种惊人的差异就是​​莱文塔尔悖论​​。当然,这不是一个真正的悖论。悖论只表明你的某个初始假设错得离谱。在这种情况下,错误的假设正是随机、穷举搜索这一想法本身。蛋白质的折叠过程并非像试遍一串宇宙级钥匙链上的每一把钥匙,直到找到能开锁的那一把。

生命的秘密算法

这个悖论的解决方案与其问题本身一样优雅:​​蛋白质折叠是一个有导向的过程​​。氨基酸的一级序列不仅编码了最终结构,它还编码了一种高效找到该结构的*算法*。折叠过程更像是在一个漏斗中定向滑下,而不是在平原上随机行走。邻近氨基酸之间的相互作用产生局部偏好,引导折叠中的链朝向能量逐渐降低的状态。这个景观不是被随机搜索的,而是被导航的。

我们可以对这个美妙的想法进行建模。想象一个“纯随机”搜索,其折叠时间与CNC^{N}CN成正比,其中CCC是每个残基的状态数,NNN是链的长度。现在,考虑一个“有导向的”搜索。也许一小段关键的由nnn个残基组成的部分——一个​​折叠核​​——必须首先形成。这仍然需要一个随机搜索,花费的时间与CnC^{n}Cn成正比。但一旦那个核“咔哒”一声就位,它就起到了模板的作用。剩下的N−nN-nN−n个残基的构象可能性现在受到了严重限制,比如说,减少到一个小得多的数目ccc。链的其余部分会迅速就位,花费的时间与cN−nc^{N-n}cN−n成正比。总时间现在与(Cn+cN−n)(C^{n} + c^{N-n})(Cn+cN−n)成正比,这个数字比CNC^{N}CN小了天文数字级别。少量正确的局部结构的形成提供了一条巨大的捷径,剪除了构象搜索树中大量无用的分支。

另一种思考方式是通过​​分层模型​​。自然界通过将大问题分解成更小、可管理的小问题来解决它。也许蛋白质链首先会形成几个稳定的、独立的模块或“折叠单元”(foldons)。然后,搜索任务就简化为寻找这些预折叠模块的正确排列方式。蛋白质可能不再需要搜索CNC^{N}CN个状态,而只需探索每个模块有限的状态,外加最终模块的排列方式,这是一个易于处理得多的任务。对于一个非随机的折叠过程,所需时间可以比随机搜索小几个数量级。一项假设计算表明,一条有导向的路径可能比随机路径快104310^{43}1043倍,将一项不可能的任务转变为一个常规的细胞事件。

计算模拟:驯服组合爆炸这头猛兽

理解这些原理不仅对生物学,对计算科学也具有革命性的意义。在药物设计和蛋白质工程等领域,科学家面临着同样的挑战:如何在数量庞大到不可能的构象中进行搜索。事实证明,解决方案在于借鉴自然界的策略。

一个关键策略是简化,或称​​离散化​​搜索空间。原则上,蛋白质侧链可以扭转成无限多个连续的角度。如果通过对每个角度进行采样来天真地建模,将是毫无希望的。相反,我们可以利用知识。通过分析数千个已知的蛋白质结构,科学家发现侧链并不会使用所有可能的角度。它们绝大多数倾向于一小组特定的低能构象,称为​​旋转异构体​​。​​骨架依赖的旋转异构体库​​是一个目录,它记录了在给定蛋白质骨架局部形状的情况下,每种氨基酸最可能出现的旋转异构体。计算机现在可以执行离散搜索,从这个小的、预先批准的列表中尝试各种组合,而不是进行连续搜索。仅此一招就可以将搜索空间缩小万亿倍,使问题在计算上变得可行。

另一个直接受分层折叠启发的强大思想是​​片段组装​​。像Rosetta这样的开创性程序就使用了这种方法,它不是一次一个原子或一个残基来构建新蛋白质,而是通过拼接小的、预先存在的结构片段(例如,3-9个残基长)来构建。这些片段是从所有已知蛋白质结构的数据库中提取的,并且保证是低能量的稳定形状。算法不再问“这个9残基片段的393^939种可能构象是什么?”,而是问“在这25个已知的稳定片段中,哪个最适合这里?”对于单个片段,这将局部搜索空间从近20,000种可能性减少到仅几十种,减少了近800倍。通过用这些经过验证的“乐高积木”来组装蛋白质,该算法利用了自然界积累的智慧来导航构象景观。

从蛋白质折叠这个不可能的谜题到新药的设计,其道理是相通的。构象宇宙太过广阔,无法用蛮力去探索。发现之路不在于尝试一切,而在于找到巧妙的捷径、指导原则和隐藏的算法,将无限的景观转变为可通航的路径。

应用与跨学科联系

在我们之前的讨论中,我们进入了一个分子的“构象空间”的抽象世界——一个由分子所有可能形状构成的广阔、高维的景观。我们看到,分子不是一个静态的雕塑,而是一个动态的舞者,不断地探索这片领域。你可能会倾向于认为这只是一个古雅的理论奇谈,是数学家和计算理论家的问题。事实远非如此。构象搜索的挑战并非科学的脚注,而是生命故事本身的核心篇章,解决这一问题是现代医学、化学和生物学的核心。让我们来探索这个单一、基本的问题如何在不同学科中引起共鸣,从破译生命的蓝图到设计未来的药物。

宏大挑战:预测生命机器

构象搜索问题最著名的体现或许就是“蛋白质折叠问题”。蛋白质是细胞的劳作者,是由氨基酸组成的长链,必须折叠成复杂、特定的三维形状才能发挥功能。氨基酸序列是蓝图,但折叠后的结构才是工作的机器。一个漂浮在细胞液中的蛋白质,是如何在多到超乎想象的可能性中找到其唯一正确、有功能的形状的?这就是我们已经谈及的莱文塔尔悖论。自然界在微秒到秒的时间内解决了这个搜索问题。而对于我们来说,仅从蛋白质序列来预测其结构——一种称为ab initio(从头)预测的方法——是计算生物学的宏大挑战之一。

其难度巨大的原因现在我们已经很清楚了:ab initio方法必须从第一性原理出发,对整个天文数字般巨大的景观进行构象搜索。相比之下,同源建模和蛋白质穿针等其他方法则走了捷径。它们基于一个绝妙的观察:自然是保守的;进化常常重复使用成功的蛋白质折叠模式。这些方法找到一个序列相似且结构已知的蛋白质,并将其用作模板或“支架”。这极大地将搜索空间从一个充满可能性的宇宙缩小到一个小的、可管理的邻域。这些方法在计算成本上的巨大差异,并非源于微小的算法细节,而是所探索的构象空间大小的直接结果。ab initio的探索无异于试图重走自然界自身的史诗级构象搜索之路。

环中的宇宙:细节决定成败

即使在单个蛋白质内部,构象搜索问题也不是均一的。某些区域,如α-螺旋紧密缠绕的线圈或β-折叠清晰的片层,结构上是刚性的。它们的原子被一个明确的氢键网络锁定在位。而另一些被恰当地命名为“柔性环”的区域,则另当别论。这些环通常连接着较为刚性的结构元件,由于缺乏规则结构,它们可以自由地摆动和扭动。

为了体会这种差异,想象一个包含12个残基的蛋白质片段的简单玩具模型。对于一个锁定在α-螺旋中的片段,每个氨基酸可能只有​​一种​​稳定构象。总的形状数量微不足道:112=11^{12} = 1112=1。现在考虑一个12个残基的柔性环。如果这个环中的每个残基可以合理地采取​​三种​​不同的局部形状,那么该环可能的构象总数将爆炸式增长到312=531,4413^{12} = 531,441312=531,441。局部自由度的微小增加导致了全局复杂度的组合爆炸。

这不仅仅是一个数字上的奇观。这些柔性环常常是蛋白质中功能最重要的部分。它们经常形成活性位点的“下颚”,用于抓住其他分子,或者充当允许蛋白质改变形状的铰链。讽刺的是,正是它们的柔性,意味着像X射线晶体学这样的实验方法有时无法解析其结构,在我们的蛋白质图像中留下一个“缺口”。为了创建一个完整且功能性的模型(例如,用于药物设计),计算生物学家必须显式地运行构象搜索来为那个缺失的环构建模型。实验上最难看到的部分,往往是计算建模中最重要的部分。

为柔性锁设计钥匙:新药的探索

经典的药物作用“锁和钥匙”模型是一个有用的起点,但现实更为复杂。它更像是一把柔性的钥匙装入一把不断晃动的柔性锁中。这就是基于结构的药物设计的世界,而构象搜索是其核心操作原则。当我们进行“分子对接”时,我们实际上是在计算上尝试将一个潜在的药物分子装入目标蛋白质的结合位点。这不仅涉及搜索药物的位置和方向(平移和旋转),还涉及其内部形状(其构象)。

这个搜索的难度极大地取决于药物分子自身的柔性。对于一个常规的、相对刚性的小分子药物,搜索可能是可控的。但医学的前沿正在向更复杂的分子迈进,如肽(小段蛋白质)和大环化合物(含有大环的分子)。这些分子通常高度柔性。一个简单的网格搜索模型揭示了挑战的规模:一个典型的10个残基的治疗性肽的构象空间,可能比一个标准的小分子药物的构象空间大得惊人,达到103810^{38}1038倍。“维度灾难”的威力尽显无遗。对于一个采样固定数量构象的对接算法来说,找到唯一“正确”结合姿态的概率,可能从对小分子近乎确定,下降到对一个大的柔性分子几乎为零。

这意味着我们必须开发更智能的、针对特定分子的搜索策略。例如,对于大环化合物,随机搜索效率低下。算法的设计必须专门强制执行环闭合的几何约束,确保它只探索分子实际可以采纳的形状,同时优先考虑那些能量上可行的形状。为这些下一代疗法驯服构象这头猛兽,是计算化学的一个主要前沿领域。

驯服猛兽的策略:算法与工程

那么,如果构象空间如此浩瀚,我们何以成功?我们取巧。我们开发巧妙的算法和工程策略,使搜索变得易于处理。在高通量虚拟筛选的世界里,需要评估数百万种化合物,为每个分子“实时”生成构象速度太慢。一个常见的策略是为一个数据库中的每个分子预先计算一个具有代表性的低能构象库。这是一项巨大的前期计算投资,但一旦完成,筛选速度就会快得多。这是一个经典的权衡:预计算的库可能不包含确切的生物活性构象,这可能会降低准确性(召回率),但它允许对庞大的化学库进行快速筛选。在实时生成和预计算库之间的选择,是一个复杂的工程决策,它在多个项目中平衡了速度、准确性和成本。

然而,即使是最出色的搜索算法,如果它探索景观时用的是一张错误的地图,也是无用的。在我们的例子中,“地图”是能量函数或打分函数,它告诉算法某个特定构象的好坏程度。一个搜索的好坏取决于它评估其发现的能力。例如,在研究像细胞色素P450这样的酶如何处理多种不同底物时,仅仅对不同的结合姿态进行采样是不够的。能量计算必须在物理上准确。一个使用“机械嵌入”的简化QM/MM模型也许能捕捉到底物的空间位阻匹配,但由于忽略了周围蛋白质电场对活性位点的极化作用,它错过了支配化学反应的关键物理学部分。一个完整的理解需要详尽的构象搜索和准确的能量模型。

超越预测:诠释真实世界

到目前为止,我们讨论了构象搜索作为一种工具,用于预测我们未知的事物,如蛋白质结构或药物结合模式。但它还有另一个同样深刻的作用:帮助我们诠释我们在现实世界中看到的东西。

当化学家测量溶液中分子的性质时,比如其电子圆二色性(ECD)谱,测量结果并非来自单一、静态的结构。它是对热平衡状态下存在的所有构象系综的宏观平均。最终的光谱是所有单个形状光谱的模糊叠加,每个形状都根据其热力学概率(其玻尔兹曼布居)加权。为了解开这个谜团,我们必须求助于计算。一个科学严谨的工作流程包括进行彻底的构象搜索,为每个单独的低能构象异构体计算性质(如旋转强度和激发能),然后根据其计算出的布居进行加权平均。只有通过从部分重建整体,我们才能生成一个理论光谱来与实验光谱进行比较。这种强大的协同作用使我们能够完成一些了不起的事情,比如确定一个新合成的手性分子的绝对构型。在这里,构象搜索是连接单个分子形状的微观世界和我们在实验室中测量的宏观数据之间不可或缺的桥梁。

统一思想:从分子到进化

在一个广阔的景观中搜索有利状态的概念是如此强大和基本,以至于它远远超出了单个分子的范畴。思考一下像流感或艾滋病病毒这样的病毒在试图逃避人类免疫系统时的进化过程。抗体识别并结合病毒蛋白表面的特定形状。为了逃脱,病毒必须发生突变,改变其蛋白质序列,从而改变其形状。

我们可以将这个免疫逃逸过程构建为一个宏大的蒙特卡洛搜索。“构象空间”现在是可能的基因突变的广阔空间。“打分函数”不再是结合能,而是病毒的适应度——它在避免抗体结合的同时进行复制的能力。一个成功的逃逸突变体是找到了一个与抗体结合很差的新形状(一个高的“对接分数”)。进化过程,通过随机突变(提议步骤)和自然选择(接受/拒绝步骤),实际上是在这个适应度景观上运行一个搜索算法。我们用来模拟一个药物在蛋白质活性位点中摆动的数学原理,通过类比,同样可以用来理解病毒与我们免疫系统之间的致命博弈。

从肽的瞬息万变的形状到进化的宏伟画卷,原理始终如一。可能形式的宇宙是巨大的,找到正确的形式——或避免错误的形式——是在一个复杂而崎岖的景观中导航的问题。对构象搜索的研究,就是我们进行这场必要旅程的地图和指南针。