生物分子建模

玻尔百科

核心要点

生物分子建模使用经典力场（将分子表示为“小球和弹簧”）来基于势能函数模拟其运动和相互作用。
模拟遵循统计力学原理，其中分子行为由最小化自由能的趋势所驱动，以平衡低能和高熵状态。
Born-Oppenheimer近似通过分离快电子和慢原子核的运动，为经典模拟提供了量子力学上的合理解释。
增强采样方法和高效算法对于克服计算时间和采样限制至关重要，使得研究稀有但重要的生物学事件成为可能。
建模的应用跨越了从原子到生物体的尺度，影响着个性化医疗（药物基因组学）乃至材料设计等不同领域。

引言

生物分子建模提供了一个“计算显微镜”，让我们能够观察构成生命基础的分子那充满活力、错综复杂的舞蹈。虽然不可能追踪复杂生物系统中每一次的量子涨落，但我们可以创建简化而物理上稳健的模型，以捕捉蛋白质、DNA和其他重要分子的基本行为。本文旨在解决一个根本性挑战：我们如何构建和使用这些模型来产生有意义的科学见解，从而在理论物理与实体生物学之间架起一座桥梁。

本文的结构旨在引导您从基础理论走向其强大的应用。在第一章“原理与机制”中，我们将解构经典力场，探索诸如将键视为弹簧、将原子视为带电球体等简单概念如何能产生像氢键这样复杂的现象。我们还将深入探讨这种经典方法的量子力学依据以及支配模拟的统计学规则。随后，“应用与跨学科联系”一章将展示这些原理如何付诸实践。您将学习如何设置模拟，如何利用先进技术克服计算挑战，以及建模如何在从个性化医疗到材料科学等领域提供关键见解，揭示物理原理在看似迥异的系统中所具有的深刻统一性。

原理与机制

为了模拟生命分子错综复杂的舞蹈，我们不需要——实际上也无法——重现每个电子和原子核的每一次量子扰动。相反，我们进行一种科学的艺术创作：我们建立一个模型。模型是对现实的简化但功能强大的表述。我们的目标是捕捉支配分子行为的基本物理学原理，创建一个计算世界，在其中我们可以观察蛋白质折叠、药物结合和DNA解旋。这个世界的原理与机制是一幅由经典力学、量子见解和统计学真理交织而成的美丽织锦。

一个小球与弹簧的世界：经典力场

想象一下，一个蛋白质不是一团模糊的量子概率云，而是一个复杂的机械玩具。每个原子是一个彩色小球。将它们连接在一起的共价键不是牢不可破的量子实体，而是简单的弹簧。这些键之间的角度就像具有首选开度的铰链，而围绕键的扭转运动则由扭转弹簧控制。这种“小球-弹簧”的观点是经典力场的核心。

简单来说，力场是一个数学函数 $U(\vec{r})$ ，它告诉我们分子系统在任何给定原子“小球”排列下的势能。其妙处在于，一旦我们知道了能量景观，我们就知道了力。作用在任何原子上的力就是能量景观的负梯度——即下坡方向的斜率。有了力，我们就可以使用牛顿定律（ $F=ma$ ）来计算原子如何随时间运动。这就是分子动力学（MD）模拟的本质。

能量函数本身是几个简单部分的总和：

键合项： 这些项描述了在分子化学结构中直接相连的原子。键伸缩和角弯曲通常被建模为谐振子势，例如 $U_{\text{bond}} = k_b(r - r_e)^2$ 。这个简单的公式表明，将键拉伸或压缩偏离其理想平衡长度 $r_e$ 需要耗费能量。这个模型很优雅，但它带来了一个深刻的局限性：成键网络，即拓扑结构，是固定的。弹簧可以伸缩，但永远不能断裂，新的弹簧也永远不能形成。这就是为什么标准力场无法模拟化学反应的原因，因为化学反应的本质就是键的形成与断裂。
非键项： 这些是未直接成键的原子之间的力，它们负责形成生物分子所采纳的复杂而特定的形状。真正的精妙之处就在于此。这种相互作用是两种力的故事：近距离排斥和远距离吸引。

这通常由著名的Lennard-Jones势来描述。它有两部分：一个与 $1/r^{12}$ 成正比的强排斥项，防止原子相互碰撞（这是空间位阻排斥）；以及一个与 $1/r^{6}$ 成正比的较温和的吸引项。但是，这种神秘的吸引力从何而来？它不是引力，而且这些原子甚至可能没有净电荷。

答案是量子力学最美妙的推论之一：伦敦色散力。即使在一个完全中性的原子中，电子云也不是静态的。它在不断涨落。在某个瞬间，电子可能略微偏向原子核的一侧，从而产生一个微小的瞬时偶极矩。这个偶极子产生一个电场，该电场又在邻近的原子中感生出一个互补的偶极子。这些量子相关的、同步涨落之间的相互作用总是吸引性的。这不是猜测；它源于对原子量子态的二阶微扰理论处理的严格推导。这种吸引力并非随意的选择，而是物质量子性质的深刻结果。

另一个主要的非键相互作用是大家所熟知的、分配给每个原子的部分电荷之间的静电或库仑相互作用。虽然生物分子中的原子形式上是中性的，但电子并非平均共享，导致不同原子上带有微小的正电荷或负电荷。这些电荷之间的相互作用以 $1/r$ 的形式缓慢衰减，是“力场的长臂”，决定了蛋白质遥远部分如何相互作用，以及整个分子如何与周围的水和离子相互作用。

有了静电和范德华力这两个要素，一个非凡的现象应运而生：氢键。在现代力场中，没有专门针对氢键的项。相反，这种至关重要的相互作用——将DNA双螺旋和蛋白质二级结构粘合在一起的胶水——是从标准非键合力的相互作用中自然产生的。当一个与供体（如氮或氧）共价连接的带正电的氢原子靠近一个带负电的受体（如另一个氧）时，所产生的相互作用不仅仅是两点之间的简单吸引。三个原子——供体、氢和受体——的特定空间排列创造了一种高度方向性的吸引力。近乎线性的排列远强于弯曲的排列，这一特征是仅靠重原子之间的简单各向同性相互作用无法捕捉的。氢键是一个精心构建的物理模型的*涌现性质*。

经典机器中的量子魅影

这个小球和弹簧的经典图景非常有效，但感觉有点像作弊。我们知道世界是量子的。那么，我们凭什么将原子核视为在光滑能量景观上运动的经典物体呢？

其合理解释是化学的基石之一：Born-Oppenheimer近似。核心思想是电子和原子核之间巨大的质量差异。电子比原子核轻数千倍，因此运动得快得多。对于任何给定的、缓慢笨重的原子核的冻结排列，可以假设电子已经瞬间稳定在其最低能量的量子态。

因此，我们可以针对固定的原子核几何构型（ $\mathbf{q}$ ）求解电子量子问题，以找到电子能量 $E_i(\mathbf{q})$ 。如果对所有可能的原子核几何构型重复此过程，我们就能描绘出一个景观——势能面（PES）。正是这个曲面 $E_i(\mathbf{q})$ ，在我们的经典模拟中充当了原子核运动的势能函数。我们原子“小球”所受的力，无非就是这个由量子力学推导出的景观的斜率， $\mathbf{F}(\mathbf{q}) = -\nabla_{\mathbf{q}} E_i(\mathbf{q})$ 。

这又引出了另一个问题：索引 $i$ 意味着不只有一个PES，而是一整个家族——一个基态（ $i=0$ ）、一个第一激发态（ $i=1$ ）等等。我们该用哪一个？对于大多数生物分子模拟，我们自信地将自己限制在单一的、能量最低的基态势能面 $E_0(\mathbf{q})$ 上。原因是统计性的。在室温下，可用的热能，由 $k_B T$ 给出，非常微小——大约是 $0.026$ eV。然而，一个典型分子到第一电子激发态的能隙，对应于吸收一个可见光或紫外光光子，其能量为几电子伏特。一个分子通过热冲击自发跃迁到激发态的概率与 $\exp(-\Delta E / k_B T)$ 成正比，这个数字小到天文数字级别，几乎为零。

因此，对于在黑暗中发生的过程，如蛋白质折叠或配体结合，完全生活在基态PES上是一个极好的近似。正是这种简化行为使得经典MD变得可行。然而，我们必须保持谦逊，并认识到我们所放弃的东西。我们忽略了电子态之间跃迁的可能性，而这正是所有光化学的基础。在不同PES彼此靠近甚至交叉的区域（即所谓的锥形交叉点），Born-Oppenheimer近似本身会失效，需要更丰富、更复杂的量子描述。

模拟引擎及其幽灵伴侣

有了定义能量景观的力场和准备移动的原子，我们就可以开始模拟了。但在真空中模拟一个孤立的分子（一个粒子数、体积和能量恒定的微正则系综或NVE系综）并不十分现实。一个真实的生物分子沉浸在细胞繁忙的环境中，不断与周围的水交换能量，维持着一个或多或少恒定的温度。

这对应于一个不同的统计系综：正则系综，或NVT，其中粒子数、体积和温度是恒定的。为了在模拟中模仿这一点，我们需要一种控制温度的方法。我们使用恒温器。恒温器不是一个物理设备，而是一种巧妙的数学算法，它修改运动方程。它就像一只幽灵之手，通过增加或移除原子的动能来确保系统的平均温度保持在期望值。像郎之万动力学或Nosé-Hoover链这样的算法被设计用来使系统从该温度下正确的概率分布中抽样状态。

那么这个概率分布是什么呢？它是统计力学的主导规则：玻尔兹曼分布。它告诉我们，系统处于任何能量为 $E$ 的特定状态的概率与玻尔兹曼因子 $e^{-E/k_B T}$ 成正比。这个因子偏爱低能量状态。但这并非全部。许多不同的原子微观排列（微观态）可以具有相同的总能量。这种排列的数量称为简并度， $g(E)$ 。简并度高的状态在熵上是有利的。

观察到某一能量的真实概率是这两个竞争因素的乘积： $p(E) \propto g(E) e^{-E/k_B T}$ 。我们可以通过使用熵的定义 $S(E) = k_B \ln g(E)$ ，以一种极具洞察力的方式重写它。概率于是变为与 $p(E) \propto \exp[-(E - TS)/k_B T]$ 成正比。系统不仅仅寻求最小化其能量 $E$ ；它寻求最小化亥姆霍兹自由能， $F = E - TS$ 。这是支配所有分子行为的基本权衡。蛋白质折叠成一个紧凑的、低能量的状态，要对抗如此有序所带来的巨大熵罚。它在高温下展开，因为 $TS$ 项最终获胜，偏爱大量可用的无序构象。

驯服无限

一个主要的实践障碍依然存在。非键相互作用，特别是长程静电作用，在计算上非常昂贵。在一个有 $N$ 个原子的系统中，大约有 $N^2/2$ 对需要考虑。对于一个有一百万个原子的系统，这在每一个时间步长中就是五千亿次计算！

一个简单的解决方案是只使用截断：忽略所有距离超过某个特定值（比如1纳米）的原子之间的相互作用。对于快速衰减的Lennard-Jones力，这通常是一个合理但不完美的近似。但对于 $1/r$ 的库仑相互作用，这是一个灾难性的错误。因为相互作用范围很长，截断它会引入严重的、非物理的人为效应。它会扭曲水的结构，造成分子的人为有序化，并完全破坏对重要热力学性质的预测。

由Paul Peter Ewald首创的解决方案是计算科学中最优雅的技巧之一。埃瓦尔德求和方法将困难的 $1/r$ 计算分成两个可管理的部分：

一个短程部分，直接在实空间中计算。因为它衰减得非常快，所以可以在一个截断距离处安全地截断，并使用邻近列表（预先计算的附近原子列表）高效地计算。
一个长程部分，平滑且变化缓慢。我们不直接在实空间计算这一部分，而是将问题转换到傅里叶空间或倒易空间。实空间中的平滑函数在倒易空间中变成一个快速衰减的函数，同样可以被高效地求和。

这个思想的现代体现是粒子网格埃瓦尔德（PME）方法，它使用快速傅里叶变换（FFT）算法以惊人的效率执行倒易空间计算，其计算复杂度为 $O(N \log N)$ 而不是 $O(N^2)$ 。这种物理思想（分解势能）和强大算法（FFT）的结合，使得对大型生物分子系统进行精确模拟成为可能。

前沿：超越固定电荷

最后，我们必须承认我们标准模型中剩下的最大近似：固定的部分电荷。实际上，分子的电子云不是刚性的；它是一种可变形、可极化的介质。当一个分子被置于电场中——例如，来自邻近水分子的电场——它的电子云会发生畸变。这会产生一个诱导偶极矩，这种效应被称为极化率。这是一个多体效应：每个诱导偶极子又会产生自己的场，从而影响其所有邻居。

捕捉这种物理现象是可极化力场的目标。其中最直观的模型之一是Drude振子。在这个模型中，我们在每个可极化原子（带电荷 $+q$ ）上通过一个谐振弹簧连接一个带电荷 $-q$ 的微小虚构“Drude粒子”。当施加电场 $\mathbf{E}$ 时，它会推动Drude粒子，拉伸弹簧。系统会在电力与弹簧恢复力平衡的点上稳定下来。这种电荷分离产生了一个诱导偶极子。值得注意的是，这个简单的力学模型产生的诱导偶极子与电场成正比， $\boldsymbol{\mu}_{\text{ind}} = (q^2/k) \mathbf{E}$ ，这使我们能够将模型的力学参数（ $q$ 和 $k$ ）直接映射到物理上可测量的极化率 $\alpha$ 。

在模拟中，这些Drude粒子被赋予一个微小的质量，并使用一个独立的恒温器维持在非常低的温度下。这是一种算法技巧，以确保它们运动得非常快，并且对于重原子当前的排列总是处于其最低能量状态，从而有效地模仿了真实电子的绝热响应。通过让这些Drude振子相互作用，该模型可以捕捉凝聚相中极化的复杂多体性质。这就是经典模拟的前沿：不断完善我们的模型，用更复杂的物理学取代简单的近似，并向着一个真正预测性的分子世界模型不断迈进。

应用与跨学科联系

既然我们已经探索了生物分子建模的基础原理，我们可能会问：“这一切都是为了什么？”拥有一套理论、一组描述原子世界的方程是一回事；让那个世界舞动起来，告诉我们一些关于自然的全新而深刻的东西，则完全是另一回事。这才是真正冒险的开始。把我们的模拟想象成一个“计算显微镜”，它不仅能让我们看到分子的静态结构，还能看到它们活生生的动态——那种构成所有生命基础的、狂热而有目的的运动。

在本章中，我们将学习如何使用这个显微镜。我们将看到，建模的艺术是物理学、化学、计算机科学乃至一点创造性工程学的美妙结合。我们将发现，我们不仅可以观察分子，还可以在计算机的范围内推动它们、加热它们、给它们施压，以解锁那些连最强大的物理仪器也无法揭示的秘密。

模拟的艺术：构建虚拟世界

任何模拟的第一步都是定义游戏规则——我们的原子将要遵守的虚拟物理定律。这些都封装在*力场*中。力场并非凭空而来；它是一个模型，由量子力学计算、实验数据和丰富的化学智慧精心打造而成。

想象一下，你需要模拟一个经过化学修饰（例如磷酸化）的蛋白质，这种修饰对其功能至关重要，但你的力场库中没有这个修饰残基的预存参数。计算化学家不会就此放弃。相反，他们会像一位手艺精湛的工匠，通过类比构建新的参数，从现有的分子模板中借鉴部分。新残基的芳香族骨架可能会继承标准酪氨酸的性质，而新颖的磷酸基团则从库中其他地方的磷酸化丝氨酸那里借用其参数。这种做法是可移植性原则的绝佳应用——即相似的化学基团在不同分子环境中行为相似的深刻物理直觉。我们所模拟的力在其核心上常常惊人地简单，就像带正电的药物和其靶蛋白中带负电的口袋之间的静电引力一样。这种相互作用遵循的库仑定律与描述静电吸附的定律相同，只是按比例缩小到了原子领域，并受到局部环境屏蔽电荷能力的调节。

一旦我们有了物理定律，就必须将我们的虚拟实验置于正确的“实验室”中。活细胞中的蛋白质并非漂浮在真空中；它被水分子推挤和包围，其广阔的环境使其保持在近乎恒定的温度和压力下。为了模拟这一点，我们将模拟置于一个特定的统计框架中，最常见的是等温等压（ $NPT$ ）系综，它允许系统的体积和能量在一个隐含定义的热源和压力源的作用下自然波动。

但我们如何强制执行这些条件呢？我们无法在计算机中模拟一个字面意义上的无限大的热源。取而代之，我们使用巧妙的算法作为恒温器和恒压器。例如，恒温器不仅仅是设定温度；它巧妙地引导系统。它可以通过周期性地重新缩放原子速度来实现，或者采用更具物理细微性的方法，如郎之万恒温器，通过给每个原子增加微量的粘性阻力和相应的随机“踢力”来实现。如何将我们的系统与这个虚拟热浴耦合的强度选择是一门精巧的艺术。耦合太弱，温度会失控。耦合太强，我们又会扼杀原子们自然而复杂的舞蹈。最佳点通常位于一个摩擦体系中，其中原子速度在大约一皮秒（ $10^{-12}$ s）的时间尺度上“忘记”它们的方向，这代表了在稳健的温度控制和高保真物理动力学之间一个美妙而必要的折衷。

拓展边界：应对复杂问题的先进技术

分子模拟的一大挑战是巨大的计算成本。一个中等大小的蛋白质在一段短暂时间内的单次模拟，可能需要一台个人电脑运行数周或数月。因此，该领域的大部分工作都在不断追求速度。主要的速限是由系统中最快的运动设定的，通常是与较重原子键合的轻氢原子的闪电般快速的振动。因为我们的数值积分器必须采用飞秒级（ $10^{-15}$ s）的步长来精确追踪这些快速运动，整个模拟的速度都被拖慢了。

如果我们能把氢原子的速度……减慢呢？这就是氢原子质量重分配（HMR）背后那个巧妙甚至近乎“取巧”的想法。我们在模拟中人为地增加氢原子的质量，比如说增加到其自然质量的三倍，方法是从与它键合的重原子那里“窃取”这些质量。分子的总质量保持不变，并且由于分子的平衡结构仅取决于我们未改变的势能函数，我们系统的静态结构性质奇迹般地得以保留。然而，由于振动最快的原子现在变得更迟缓了，我们可以安全地增大大积分时间步长，从而加速整个模拟。其他强大的技术包括将问题分解为快慢两部分，对刚性的局部作用力使用微小而频繁的时间步长，而对变化缓慢的长程作用力使用较大且不那么频繁的时间步长——这种策略被称为多时间步长算法。

速度不是唯一的挑战。另一个是臭名昭著的“采样问题”。一个蛋白质可能需要毫秒甚至秒级的时间来折叠，但我们的模拟通常只能达到纳秒或微秒。分子几乎所有的时间都在其能量景观的一个低能谷中振荡，很少能费力地翻越高能垒到达一个新的构象。为了见证这些稀有但生物学上至关重要的事件，我们需要作弊。

增强采样方法就是用于这种“合法”作弊的工具。在温度副本交换分子动力学（T-REMD）中，我们同时模拟我们系统的许多不相互作用的副本（ replicas），每个副本处于不同的温度。高温副本可以轻松越过能垒，而低温副本则能精细地探索低能谷。通过周期性地允许相邻温度的副本尝试交换它们的空间构型，低温的、具有物理意义的模拟可以借助其高温邻居的帮助，“传送”过一个能垒。但如果你的系统是一个巨大的蛋白质在一个巨大的水盒子中呢？加热整个系统意味着你浪费了大部分计算力只是为了让水分子更快地抖动。一个更优雅的解决方案是溶质回火副本交换（REST），你只“加热”溶质——蛋白质本身——而保持溶剂冷却。通过将计算力集中在系统最重要的部分，REST显著减少了跨越相同有效温度范围所需的副本数量，使得探索大型分子机器成为可能。

从原子到生物体：连接尺度与学科

有了这些强大的工具，我们能发现什么？我们能建立的最深刻的联系之一是弥合微观模拟与宏观实验室热力学世界之间的鸿沟。我们可以观察到一个蛋白质在两种不同形状之间自发切换，比如“开放”和“关闭”状态。这实际上是单分子水平上的相变。通过对两种状态分别进行模拟，我们可以直接测量伴随这一转变的平均焓变（ $\Delta H$ ）和平均体积变化（ $\Delta V$ ）。正如著名的克拉佩龙方程描述冰的熔点如何随压力变化一样，我们可以将这些模拟值用于一个类似的方程，来预测如果我们施加压力或改变温度，开放和关闭状态之间的平衡将如何在一个真实的实验中移动。我们实质上是从其原子组分的第一性原理来预测物质的宏观行为。

这种预测能力在现代医学中找到了其最重要的应用之一，特别是在药物基因组学中。我们个体的基因构成可以深刻影响我们对药物的反应。我们DNA中一个单字母的改变就能改变一个酶，使其代谢药物的效率降低，从而导致危险的副作用。生物分子建模在理解为什么会这样方面扮演着关键角色。当在患者身上发现一个可疑的基因变异时，建模可以提供第一个机理上的线索。通过构建突变蛋白的3D模型，我们可以假设氨基酸的改变可能如何破坏一个关键的相互作用，破坏结构稳定，或阻断活性位点。这个*计算机模拟（in silico）*的假设随后指导有针对性的实验室实验——例如测量酶活性的分析——来定量地确认功能的丧失。这整个工作流程，从患者的DNA序列到计算模型再到生化测量，形成了一个强大的推断链，有助于建立基因型与药物反应之间的因果联系，为真正实现个性化医疗铺平了道路 [@problem-di:4471444]。

原理的统一性：超越生物学

也许这个整个领域最美妙的方面是其核心思想的普适性。我们所发展的框架——通过其自由度定义一个系统，用一个势能函数描述其相互作用，并使用统计力学的机制探索其可能的状态——并不仅限于生物分子。它是理解复杂系统行为的通用范式。

想象一下试图理解一个折纸图案的折叠过程。这似乎与蛋白质折叠相去甚远，但真的如此吗？我们可以将纸张建模为由柔性铰链连接的刚性面的集合。自由度不是氨基酸链的键旋转，而是沿着纸张折痕线的二面角。势能函数会包括偏好某些折叠角度的项（“设计”）、阻止纸张拉伸的强惩罚项，以及防止纸张自我穿透的排斥性空间位阻项。而且，由于可能的折叠景观广阔而崎岖，有无数错误的“陷阱”，我们很可能需要一种增强采样方法，如副本交换，来找到正确折叠的状态。语言是不同的——面和铰链代替了原子和键——但基本概念是相同的。我们正在使用完全相同的智力机制来模拟蛋白质的折叠和纸鹤的折叠。

这揭示了一个深刻而令人满意的真理。生物分子建模的工具，其核心是统计物理的工具。它们使我们能够对任何其行为源于其众多部分集体相互作用的系统进行推理。从细胞中酶的复杂舞蹈到一张纸的优雅折叠，同样的基本原理适用，揭示了物理世界深刻的统一性和美感。