构象采样：从蛋白质折叠到基因组组织

玻尔百科

定义

构象采样：从蛋白质折叠到基因组组织是生物物理与计算生物学中的基础概念，旨在通过探索能量景观来寻找生物分子的稳定结构状态。该过程利用模拟退火和交换复制等算法模拟自然界的折叠机制，通过环境约束和共翻译折叠等策略高效缩小构象搜索空间。这一研究领域在蛋白质结构预测、新型药物与酶的设计以及理解基因组三维动态结构方面具有重要应用价值。

核心要点

Levinthal 悖论揭示了蛋白质不能通过随机搜索进行折叠，而是在漏斗状能量景观的引导下朝其天然状态折叠。
模拟退火和副本交换等计算算法通过有效探索模型能量景观以寻找低能结构，从而模仿自然界的折叠过程。
自然界通过环境约束和共翻译折叠等策略，剪除巨大的构象可能性之树，将问题分解为更小、更易于处理的步骤。
构象采样是一个具有广泛应用的基础概念，包括预测蛋白质结构、设计新型药物和酶，以及理解基因组的动态三维结构。

引言

生物学的核心并非静态结构的世界，而是一个永不停息的运动世界。蛋白质、RNA，乃至整个基因组都不是刚性物体，而是不断扭动、折叠和相互作用的动态实体。这些分子是如何在天文数字般的可行构型中，找到生命所需的唯一功能性构型？这是分子科学中最基本的问题之一，一个挑战我们对效率和复杂性理解的谜题。

本文探讨构象采样的概念，即分子探索其广阔的可能结构景观的过程。我们将从一个令人困惑的生物学悖论出发，到为模拟和理解这一过程而开发的复杂计算工具。第一章“原理与机制”将揭示其理论基础，从 Levinthal 悖论的危机到漏斗状能量景观的优雅解决方案，并介绍我们用来导航该景观的算法，或称“数字炼金术”。接下来的“应用与跨学科联系”一章将展示这些知识如何被应用，从而改变我们理解蛋白质折叠、设计新型药物和酶，甚至破译我们染色体宏伟结构的能力。

原理与机制

无限选择的危机：Levinthal 悖论

让我们从一个谜题开始，一个深刻到足以动摇我们对生命运作方式理解的悖论。想象一个小的蛋白质，一条仅由 101 个氨基酸组成的普通链。这条链中的化学键是灵活的，允许旋转，从而使每个氨基酸有几种优先的取向。让我们宽泛一点，假设链中的每个连接只有三种稳定构型。如果蛋白质必须找到其唯一的、特定的、功能性的折叠结构，它是如何做到的呢？

一个天真但合乎逻辑的初步猜测可能是，它会尝试每一种可能性，直到偶然发现正确的那一种。第一个氨基酸是固定的锚点，但接下来的 100 个氨基酸中的每一个都可以处于三种状态之一。总的组合数是一个惊人的 $3^{100}$ ，大约是 $5 \times 10^{47}$ 。那么，蛋白质从一个构象跳到另一个构象的速度有多快？最快的分子运动，即化学键的振动，发生在飞秒到皮秒（ $10^{-15}$ 到 $10^{-12}$ 秒）的尺度上。让我们假设每次尝试的时间尺度为 $10^{-13}$ 秒。探索每一种构型所需的总时间将达到 $10^{34}$ 秒的量级。为了让大家有个概念，宇宙的年龄大约是 $10^{17}$ 秒。蛋白质需要比宇宙年龄长一百万亿倍的时间才能通过随机搜索找到其构型。

然而，在我们的身体里，蛋白质在微秒到秒的时间内完成折叠。这个惊人的差异就是Levinthal 悖论。当然，这不是一个真正的悖论，但它是一个绝妙的推理，告诉我们最初的假设必定是灾难性地错误。蛋白质并非在进行盲目的随机搜索。

实际情况甚至比这个简单模型所揭示的更具挑战性。多肽链并非在真空中摆动，而是被一片混乱、嘈杂的水分子海洋所包围。为了让链改变其形状，其水合壳中的水分子也必须重新排列。蛋白质与其溶剂之间的这种动态耦合为该过程增加了一种“摩擦力”，减慢了每一个单独的步骤。单个转变的有效时间不仅仅是内在的键旋转时间 $\tau_0$ ，还因溶剂弛豫时间 $\tau_{\text{solv}}$ 而增加，后者大致上依赖于局部黏度 $\eta$ 和温度 $T$ ，关系为 $\tau_{\text{solv}} \propto \eta/T$ 。这种溶剂阻力使得穷举搜索变得更加不可能。因此，这个悖论的解决方案必须在于一个足够强大的原理，以克服组合爆炸和环境的物理摩擦。

自然的秘密：漏斗状景观

秘密在于，搜索并非随机，而是有引导的。氨基酸之间的力——吸引与排斥、氢键、疏水效应——创造了一个复杂的势能景观。至关重要的是，对于一个可折叠的蛋白质来说，这个景观并非一个平坦、毫无特征的平原，上面藏着一个深洞。相反，它的形状像一个崎岖的漏斗。漏斗的宽阔边缘代表了无数未折叠的高能构象。当蛋白质开始折叠时，任何形成有利的、类天然相互作用的步骤都会引导它“下坡”，朝向漏斗的底部，那里代表着独特、稳定、低能的天然状态。

这个过程并非一帆风顺；漏斗表面布满了小的凸起和凹陷（局部能量极小值），这些可以暂时捕获蛋白质。但总体的、全局的梯度总是指向天然结构。蛋白质不需要对所有构象进行采样；它只需要沿着向下的斜坡前进。这种漏斗状景观极大地减少了有效的搜索空间，将一个不可能完成的任务转变为一个必然的结果。

剪除可能性之树

自然界并不满足于仅仅依赖漏斗。它采用巧妙的策略来进一步剪除巨大的构象可能性之树。

其中一个最强大的策略是利用环境约束。想象一个含有 25 个氨基酸的蛋白质片段。在细胞质的水性三维世界中，它有巨大的运动自由度。我们用每个氨基酸有 $k_{cyto} = 8$ 个可能的局部状态来建模。构象数为 $8^{24}$ 。现在，我们将这同一个 25 氨基酸的片段嵌入细胞膜中。脂质双分子层的油性、准二维环境对蛋白质中任何非疏水的部分都极其不利。这种约束强烈地促进了像 $\alpha$ -螺旋这样简单、规则的结构的形成。每个残基可用的状态数急剧下降，也许降至 $k_{mem} = 3$ 。在细胞质中与在膜中，蛋白质所需搜索时间的比值为 $(k_{cyto}/k_{mem})^{N-1} = (8/3)^{24}$ ，大约是 $1.7 \times 10^{10}$ 。仅仅通过改变环境，自然界就使搜索问题变得容易了超过一百亿倍。环境扮演了一个强大的编辑角色，砍掉了构象搜索树的整个分支。

另一个绝妙的技巧是共翻译折叠。蛋白质合成过程并非等整个多肽链合成完毕后才释放出来让其折叠，而是常常在蛋白质仍在核糖体上制造时就开始了。当链段从核糖体出口通道中逐段出现时，N-末端部分（最先合成的部分）可以在 C-末端部分甚至还未合成时就折叠成一个稳定的结构域。这种“分而治之”的方法防止了链中相距遥远部分之间的非生产性相互作用，并确保局部结构首先形成，为最终的结构创造了稳定的构件。它按顺序限制了搜索空间，解决了一系列更小、更易于处理的折叠问题，而不是一个巨大的问题。

数字炼金术士的探索

受到自然界成功的启发，我们希望在计算机上复制这一过程。但这引入了一系列新问题。我们到底想实现什么？我们的算法将要探索的景观“地图”又是什么？

寻找唯一解还是了解全部？

首先，我们必须明确我们的目标。我们是在寻求圣杯——那个单一的、能量最低的构象吗？这是一个全局优化问题。目标是找到最小化能量函数 $E(x)$ 的那个状态 $x^{\star}$ 。一个理想的优化算法，一旦找到 $x^{\star}$ ，就会停留在那里。从长远来看，在任何其他状态找到它的概率为零。

或者，我们是想成为分子的社会学家，了解在给定温度下蛋白质所占据的整个构象群落？这是一个构象采样问题。目标是根据构象的热力学可能性生成一个代表性的状态集合，其可能性由玻尔兹曼分布给出， $\pi(x) \propto \exp(-\beta E(x))$ ，其中 $\beta = 1/(k_B T)$ 。在这种情况下，即使是能量较高的状态 $x_B$ 也会被访问，只是频率低于能量较低的状态 $x_A$ 。它们布居数的比值恰好是 $N_B/N_A = \exp(-\beta (E(x_B) - E(x_A)))$ 。这与优化的目标有着根本的不同。了解你的目标——是优化还是采样——是选择正确工具的第一步。

地图并非疆域

其次，我们必须认识到，我们的计算机算法所看到的“能量”是现实的一个简化模型。在一个真实的生物系统中，一个构象 $\mathbf{x}$ 的稳定性由其亥姆霍兹自由能 $F(\mathbf{x})$ 决定。这个量，也被称为平均力势 (PMF)，不仅考虑了蛋白质的内部势能，还考虑了周围溶剂分子的所有复杂的能量和熵效应。它通过对所有可能的溶剂构型 $\mathbf{y}$ 进行平均来正式定义： $F(\mathbf{x}) = -k_{\mathrm{B}}T \ln \int d\mathbf{y} \, \exp\left[-\beta U_{\mathrm{tot}}(\mathbf{x},\mathbf{y})\right] + C$ 在模拟的每一步都计算这个积分在计算上是不可行的。因此，大多数构象搜索算法都在一个简单得多的势能函数 $U(\mathbf{x})$ 上运行，该函数通常表示真空中的蛋白质或使用高度简化的“隐式”溶剂模型。这个 $U(\mathbf{x})$ 就是我们的“地图”。它是对由 $F(\mathbf{x})$ 描述的真实热力学“疆域”的近似。计算化学的关键挑战和艺术在于设计出既足够简单以便快速探索，又足够精确以引导我们到达正确目的地的地图。

导航迷宫的算法

有了一张地图 ( $U(\mathbf{x})$ ) 和一个目标（优化或采样），我们就可以部署巧妙的算法来导航构象迷宫。

冷却系统：模拟退火

最古老、最直观的优化算法之一是模拟退火 (SA)。它模仿冶金学中的退火过程，即金属被加热到高温然后缓慢冷却，使其原子能够沉降到一个高度有序的、低能的晶体状态。

在计算上，一个 SA 算法从一个高的“算法温度” $T_{\text{alg}}$ 开始。它提出一个随机移动，例如通过扰动蛋白质骨架或侧链中的几个二面角。如果这个移动降低了能量，它总是被接受。如果移动使能量增加了 $\Delta U$ ，它会以 Metropolis 准则给出的概率被接受， $p_{\text{acc}} = \exp(-\Delta U / k_B T_{\text{alg}})$ 。在高温下，即使是大的能量增加也经常被接受，使得搜索能够“跳出”局部极小值并广泛地探索景观。然后，根据一个冷却方案缓慢降低温度。随着 $T_{\text{alg}}$ 的降低，向上移动的接受概率下降，搜索变得更加贪婪，沉降到越来越深的能量阱中。

SA 的主要目标是优化。如果冷却是对数级缓慢的，理论上 SA 保证能找到全局能量最小值。然而，在实践中，我们使用更快的冷却方案。如果冷却过快，系统可能会被动力学捕获在一个次优的局部极小值中，就像淬火一块金属会将其冻结在一个无序的、玻璃态中一样。

平行世界与增强采样

当我们的目标不仅仅是找到底部，而是要绘制整个漏斗——实现真正的平衡采样时，我们需要更强大的技术。

一个绝妙的方法是副本交换 (RE)，或称并行退火。在这里，我们不是模拟一个，而是同时模拟我们的蛋白质的许多副本（副本），每个副本都在其自己的“平行宇宙”中，处于不同的温度。高温下的副本可以轻易跨越能垒，但对低能结构的视野不佳。低温下的副本能详细探索重要的低能状态，但容易被困住。RE 的魔力在于我们周期性地尝试在相邻温度的副本之间交换坐标。一个被困的、低温的构象可能会被交换到一个高温的宇宙中，在那里它可以逃脱陷阱、探索，然后最终交换回低温继续其精细化过程。这种方法在每个温度下都保持了正确的玻尔兹曼分布，同时极大地加速了探索。为了使 RE 高效，必须仔细选择温度，以便相邻副本的能量分布重叠，从而允许合理的交换接受率。

在像Wang-Landau 采样这样的方法中，可以找到一种更激进的方法。这个算法改变了游戏规则本身。Wang-Landau 不是根据玻尔兹曼概率（偏爱低能区域）来采样状态，而是试图生成一个能量上完全平坦的直方图。该算法维护一个态密度 $g(E)$ 的估计值，即具有能量 $E$ 的构象数量。然后它使用一个与 $\hat{g}(E_{\text{old}})/\hat{g}(E_{\text{new}})$ 成正比的接受概率。每当访问一个能量为 $E$ 的状态时， $\hat{g}(E)$ 中的对应条目就会乘以一个修正因子 $f > 1$ 。这会建立一个暂时的“墙”，阻止模拟重新访问该能级，从而推动随机行走去探索其他访问较少的能量。结果是一个在所有能级上花费相等时间的模拟，迫使其轻松地攀越能垒、穿越山谷。它直接消除了困扰正则采样的高能态的指数抑制，使其成为克服最崎岖景观的强大工具。

进度的真正衡量标准

最后，我们如何判断我们的构象采样的成功与否？人们很容易认为最快的模拟就是最好的。但是，生成十亿张蛋白质在一个能量阱底部抖动的快照是没有用的。效率的真正衡量标准是模拟在每小时的计算机时间内生成了多少个统计独立的构象。

我们可以使用一个缓慢变化的变量（如一个关键的二面角）的积分自相关时间 $\tau_{\text{int}}$ 来衡量这一点。这个值告诉我们，平均需要等待多长时间，模拟才能生成一个关于蛋白质构象的新的、“不相关”的想法。一个真正高效的模拟不仅运行速度快，而且具有非常短的“记忆”，即小的 $\tau_{\text{int}}$ 。采样效率的最终度量标准 $\mathcal{E}$ 结合了每纳秒的计算成本 $c$ 和自相关时间： $\mathcal{E} \propto 1/(c \cdot \tau_{\text{int}})$ 。选择正确的算法、正确的参数和正确的模拟设置本身就是一项科学研究，需要仔细验证，以确保我们的数字炼金术产生的不只是数据，而是真正的物理洞见。

应用与跨学科联系

在经历了构象采样的原理和机制之旅后，我们基本上学会了一种新语言的词汇和语法——分子运动的语言。但是，知道一门语言的规则是一回事；看它被用来写诗、讲故事、构建论点则完全是另一回事。现在，我们就来做这件事。我们将探索这种采样广阔可能性景观的概念，如何不仅仅是一个计算上的抽象，而是一个自然界用来实现其最非凡功绩的基本原理。我们将看到，通过理解这一原理，我们可以开始阅读，甚至书写我们自己的分子故事。这正是科学的真正美和统一性显现之处，它将从单个蛋白质的折叠到我们整个基因组的结构的一切都联系起来。

单个蛋白质之舞

想象一个刚合成的蛋白质，如同一根长长的、毫无特征的绳子。这根绳子是如何扭曲成能够催化反应或传递信号的复杂、精确的机器？这就是蛋白质折叠的奇迹。而我们观察这一过程的窗口，我们用来观看它发生的计算显微镜，正是建立在构象采样的思想之上。

当我们对一个蛋白质进行分子动力学模拟时，我们本质上是在让它探索其能量景观。一种常见的跟踪这种探索的方法是测量与已知稳定结构的均方根偏差 (RMSD)。我们经常看到的是一个初始的剧烈变化时期，此时 RMSD 值迅速攀升。但随后，奇妙的事情发生了：该值趋于平稳，进入一个稳定的平台期。它并没有冻结；它继续抖动和振动，但在一个稳定的平均值周围波动。这个平台期不是失败或计算故障的标志，而是成功的标志！它告诉我们蛋白质已经找到了它的家，一个在能量景观上的低能盆地。它不再迷失和徘徊；它正在表演其天然的、功能性的舞蹈，动态地采样一系列密切相关、稳定的构象。它已经达到了热平衡。

我们可以用另一种方式来可视化一个折叠的、功能性的蛋白质和一个变性的、随机的链之间的区别。想想蛋白质的骨架，一条肽单元链。每个单元有两个主要的旋转“铰链”，其角度我们称为 $\phi$ 和 $\psi$ 。并非所有这些角度的组合都是可能的；原子会相互碰撞。允许的角度组合图被称为 Ramachandran 图。对于一个精美折叠的、富含如 $\alpha$ -螺旋和 $\beta$ -折叠等规则结构的蛋白质，观察到的 $(\phi, \psi)$ 角度并非随机散布在允许的区域。相反，它们紧密地聚集在对应于那些特定结构的几个“热点”中。这就像一个训练有素的芭蕾舞演员，其动作精确且局限于编舞。但是如果我们使蛋白质变性，导致其展开，它的 Ramachandran 图会发生巨大变化。这些点会散开，探索允许区域中更广阔的领地。芭蕾舞演员迷失在拥挤的人群中，每个人都在自由移动，但仍然避免相互碰撞。采样变得宽泛而无方向。

这引出了一个被称为 Levinthal 悖论的深刻问题。即使是一个小蛋白质，其可能的构象数量也是天文数字，远大于宇宙寿命内能够随机采样的数量。然而，蛋白质在微秒内就能折叠。这是如何做到的？自然界并非一个蛮力搜索者。答案在于分层搜索。让我们考虑一个简单的模型来把握这个解决方案的巨大规模。如果一个 60 个残基的链每个残基只有九种可能的状态，总的构象数将是 $9^{60}$ ，一个大到无法想象的数字。然而，如果该蛋白质首先迅速形成局部结构——比如说，几个螺旋和一个发夹结构，将其中 36 个残基锁定在一个单一状态——剩余的构象数将骤降至 $9^{24}$ 。这些简单的、局部的“构件”的形成，将搜索空间的大小减小了 $9^{36}$ 倍，超过了 34 个数量级！这不仅仅是一个数字游戏；这是对自然如何通过将其分解为更小、更易于处理的步骤来解决不可能的搜索问题的深刻洞见。

作为编舞家的科学家

如果说自然是一位编舞大师，那么计算生物学家就是其有抱负的学生。通过理解构象采样的原理，我们不仅可以构建工具来观察舞蹈，还可以指导它，甚至创造全新的编舞。

模拟复杂分子的一个核心挑战是在准确性与计算成本之间取得平衡。一个完整的、全原子的模型在物理上是现实的，但模拟起来极其缓慢。一个简化的、“粗粒化”的模型速度快，但缺乏细节。现代方法的精妙之处，例如广泛使用的 Rosetta 软件，在于将两者结合起来。这个策略可以很优美地比作创作一件艺术品。首先，艺术家画一张“铅笔素描”，使用粗粒化模型，其中整个氨基酸侧链被简化为一个伪原子。在这种简化的表示中，能量景观更平滑，维度更低，从而使算法能够快速采样广阔的构象空间，以找到有前景的整体形状。这是广泛探索阶段。一旦找到有前景的“素描”，算法就切换到“油画”。它恢复所有原子，揭示一个更加崎岖和详细的能量景观。在这种全原子模式下，凭借其更高的维度和物理上精确的评分，算法执行局部优化，仔细堆积侧链并优化氢键，以找到真正的、低能的最小值。这种从素描到油画的分层方法，是征服复杂搜索空间的强大而通用的策略。

这种掌握的最终体现，不仅仅是预测一个现有蛋白质如何折叠，而是设计一个全新的蛋白质序列，使其折叠成一个新颖的、预定的形状。这就是从头蛋白质设计。仅仅找到一个在目标形状中稳定的序列是不够的（这被称为“正向设计”）。还必须确保同一序列在所有其他可能的竞争形状中都是不稳定的（“负向设计”）。目标是设计一个能量景观，其漏斗深邃且唯一地导向所需结构。一个成功的方案包括序列和结构之间的迭代舞蹈，其中骨架被允许松弛以适应新的突变，并使用多状态设计来明确地“去稳定化”替代构象。最终的计算证明是，取所设计的序列，从一个展开的链开始，从头预测其结构。如果它能持续地找到回到预期目标的路径，那么设计就是成功的。

这些工具对医学有着深远的影响。设计药物通常是关于找到一个能紧密契合目标蛋白质结合口袋的小分子。但“锁”并非刚性；它是一个动态的、呼吸的实体。将药物对接到一个单一、静态的蛋白质结构上，就像试图将一把钥匙插入一张锁的照片中。一个更强大的方法是考虑受体的柔性。我们可以使用像各向异性网络模型 (ANM) 这样的方法来识别蛋白质“最软”的运动模式——其自然的摆动和抖动。通过沿着这些功能相关的模式采样，生成一个受体构象的系综，我们可以对一整套结构进行对接，从而极大地增加我们找到能有效结合到动态、活体蛋白质上的药物的机会。

要理解酶如何施展其化学魔力，我们通常必须进一步放大，将构象采样的经典世界与化学反应的量子世界结合起来。考虑一种多功能的酶，如细胞色素 P450，它可以代谢多种不同的药物分子。要理解这种混杂性，我们不仅必须采样底物在活性位点中结合的多种方式，还必须在每种姿态下准确计算化学反应的能垒。这需要一种混合的 QM/MM (量子力学/分子力学) 方法。反应本身——键的断裂和形成——是一个量子过程，必须用 QM 处理。蛋白质环境的其余部分，通过其形状和电场影响反应，可以用 MM 经典地处理。至关重要的是，如何选择这两个区域的通信方式是首要的。一个简单的“机械嵌入”模型，只考虑空间冲突，忽略了周围蛋白质对活性位点的关键静电极化作用。要真正捕捉化学过程，需要更复杂的“静电嵌入”。这展示了一个美丽的跨学科联系：一个完整的理解需要采样经典构象，并对每一个构象，在那个特定环境的背景下解薛定谔方程。

生命的交响乐

构象采样的原理远远超出了单个蛋白质的范畴，它还指挥着整个细胞系统的复杂动态。

考虑核糖开关，这是一种非凡的遗传机器，其中一个 RNA 分子直接感知一个小分子，并作为响应，调节一个基因的表达。这整个过程发生在RNA 正在合成时——它是共转录的。RNA 聚合酶沿着 DNA 模板前进，吐出新生的 RNA 链。当适体域（传感器）出现时，它有一个非常短的时间窗口来正确折叠并决定是否结合其配体。这个决定决定了下游是形成终止子还是抗终止子结构。在这里，系统在与时间赛跑。结果不仅由哪个状态最稳定（热力学）决定，还由哪个事件发生得最快（动力学）决定。如果适体折叠并结合其配体的速度快于聚合酶移动到最终决定点的速度，就会发生一种结果。如果不是，则会发生另一种结果。而且至关重要的是，如果不同 RNA 折叠结构之间重排的速率远慢于这个决定窗口，那么最初形成的结构就成为一个“动力学陷阱”，决定了调控的命运。这是生命如何利用构象采样的动力学进行控制的一个绝佳例子。

最后，让我们放大到最宏大的尺度：整个基因组的组织。我们的 DNA 在细胞核中并非一团乱麻；它被组织成一个复杂的、动态的三维结构。像 Hi-C 和 Micro-C 这样的技术使我们能够创建“接触图”，显示基因组的哪些部分在空间上平均而言是彼此接近的。但是，我们在这些美丽的地图中真正看到的是什么？它是一个统计快照，一个宏大的系综平均。每张地图都是由数百万个细胞的信号聚合而成的。在每个细胞内，染色质纤维都是一个动态的聚合物，由于热能而不断扭动和波动。这些地图显示的不是单一的、静态的结构，而是接触的概率，在时间和整个群体上取平均。Hi-C 图上的一个亮点，表示一个“环”，可能并不代表一个永久的、固定的锚点。相反，如果它对应于一个动态过程，其强度可能反映了环的“占空比”——它实际存在的时间分数。理解这一点至关重要。3D 基因组不是晶体；它是一个活生生的、呼吸的、波动的实体。它的结构与其动力学密不可分，而那种活力的语言就是构象采样的语言。

从单个酶的微妙颤动到染色体的全局结构，我们看到了同样的基本思想在起作用。生命就是运动。而这种运动是对可能性景观的探索，是一支由物理定律和进化压力编排的舞蹈。通过学习理解和应用构象采样的原理，我们对生命世界的优雅、高效和深刻的统一性获得了日益深入的欣赏。