基于结构的虚拟筛选

玻尔百科

定义

基于结构的虚拟筛选是一种计算机辅助药物发现技术，通过计算手段从海量分子库中筛选出可能与特定蛋白靶点结合的候选药物。该领域的核心机制是分子对接，用于预测小分子在蛋白质活性位点内的取向和结合亲和力，并利用系综对接等技术模拟蛋白质的柔性。随着 AlphaFold 等人工智能预测蛋白质结构的整合，该技术能够应用于更多潜在的药物靶点，并通过富集因子等指标验证筛选的有效性。

核心要点

基于结构的虚拟筛选（SBVS）通过计算方式筛选庞大的分子库，以识别可能与特定蛋白质靶点结合的候选分子，从而加速药物发现。
其核心机制是分子对接，该技术预测小分子在蛋白质活性位点内的方向（姿势）和结合亲和力（得分）。
诸如集合对接等先进技术对于解释蛋白质柔性至关重要，这是真实结合事件中的一个关键因素。
整合AI预测的蛋白质结构（例如来自AlphaFold的结构）极大地扩展了SBVS可触及的潜在药物靶标数量。
有效的筛选需要严格的验证和过滤，使用富集因子等指标并移除已知的假象，以便将真实的命中与假阳性区分开来。

引言

在现代药物发现的广阔领域中，从数百万分子的海洋中识别出一个有效的分子是一项巨大的挑战，好比为一把复杂的锁找到一把独特的钥匙。手动测试每一个可能的钥匙慢得令人望而却步且成本高昂。那么，我们如何才能有效地 navigating 这个化学宇宙以寻找有前景的候选药物呢？答案在于一种强大的计算策略：基于结构的虚拟筛选（SBVS）。这种方法利用已知的生物靶标（一种对疾病至关重要的蛋白质）的三维结构，以数字方式测试其与数百万潜在药物化合物的相互作用，从而极大地加速新药的寻找过程。本文将探讨SBVS的世界，从其基本概念到其前沿应用。首先，在“原理与机制”部分，我们将深入探讨分子对接的核心过程、打分函数背后的物理学，以及准备分子和筛选结果的关键步骤。随后，“应用与跨学科联系”部分将展示SBVS如何在真实世界场景中应用，从发现新型抑制剂到其与AI驱动的结构预测及其他先进药物设计策略的协同作用。

原理与机制

想象一下，你正试图为一把新发现的独特锁找到那把唯一的钥匙。但你面对的不是几把钥匙，而是一个存放着数百万把钥匙的仓库，每一把都略有不同。一把一把地测试它们会耗费一生。这就是现代药物发现的巨大挑战。“锁”是一个生物靶标，通常是一种对疾病至关ude要的蛋白质，而“钥匙”则是一个庞大的小分子宇宙。我们如何才能在不 exhaustive 地测试每一个分子的情况下，找到那把正确的钥匙——未来的药物？

这就是基于结构的虚拟筛选（structure-based virtual screening, SBVS）的精妙之处。我们不是物理上测试数百万种化合物，而是在计算机内部完成。其主要目标不是一次性找到完美的药物，而是智能地筛选一个庞大的数字库，并识别出一个小而可控的、预计能与我们的靶标结合的有前景的候选子集。这些“命中”分子随后可以被优先用于真实世界的实验测试，从而节省大量的时间和金钱。这种计算预筛选是高通量筛选（High-Throughput Screening, HTS）这种蛮力实验方法的强大替代方案，后者在物理实验室中测试每一种化合物。虽然HTS提供直接的实验结果，但它极其昂贵且缓慢。虚拟筛选在速度和规模上提供了惊人的优势，使我们能够评估包含数百万甚至数十亿化合物的库。然而，这种能力也带来一个关键的警告：我们的计算机模型是对现实的近似，这意味着它们可能被欺骗，导致一定数量的“假阳性”，需要仔细的实验验证来剔除。

蓝图与钥匙环：开始前我们需要什么

要开始我们的虚拟搜索，我们需要两个基本信息。这也是SBVS与其近亲基于配体的虚拟筛选（Ligand-Based Virtual Screening, LBVS）的区别所在。如果你有几把已知能打开锁的钥匙，但你没有锁本身，你就可以使用LBVS。它基于相似性原理：看起来相似的分子可能具有相似的作用。你只需在你的库中搜索其他与你已知有效的钥匙相似的钥匙即可。

但在SBVS中，我们的策略是基于了解锁本身。我们拥有靶标蛋白的三维原子结构。这使我们能够直接测试每把潜在的钥匙可能有多适合。因此，SBVS的输入是：

锁的蓝图： 这是我们靶标蛋白的三维结构，通常通过X射线晶体学等技术确定。这些信息以标准格式存储，即蛋白质数据库（PDB）文件。可以把PDB文件想象成一份详细的建筑蓝图，包含了蛋白质中每个原子的精确三维坐标（ $x, y, z$ ），以及其他结构元数据。
钥匙的目录： 这是我们想要测试的小分子的数字库。这些分子以结构数据文件（SDF）等格式存储，该文件可以容纳数百万个不同化合物的信息。与详细描述单个大分子的大PDB文件不同，SDF文件就像一个巨大的钥匙环，包含了每个潜在药物分子的结构以及任何相关数据[@problemid:2150142]。

有了我们锁的蓝图和无数钥匙的目录，我们就可以开始SBVS的核心虚拟实验：分子对接。

虚拟实验：对接的艺术与科学

分子对接是将一把钥匙（配体）装入一把锁（受体）的计算过程。这是一个分为两部分的过程：首先，生成配体在结合位点中可能的方向，称为“姿势”；其次，用打分函数评估每个姿势，以预测相互作用的有利程度。这个看似简单的想法充满了优美而复杂的物理学。

准备参与者：分子不是静态物体

在我们进行对接之前，必须准备好我们的数字分子。一个简单的分子二维图是不够的。

溶液中的配体是一个动态实体。在生理pH值下，它可以以不同的质子化状态存在，或者以称为互变异构体的不同结构异构体形式存在。此外，如果分子是手性的，它可以以不可重叠的镜像形式存在，称为立体异构体。蛋白质的结合位点也是手性的，几乎肯定会偏爱一种立体异构体而非另一种。为了最大化我们成功的机会，我们必须经常枚举并测试每个分子的所有可能状态。这增加了找到真正活性分子的概率（提高召回率），但它也成倍增加了计算成本，并可能通过给非活性分子更多机会获得随机高分来增加假警报的数量。

我们的锁，即蛋白质，也不是一个刚性的、静态的物体。它会呼吸、弯曲和改变形状。一些蛋白质处于动态平衡中，不断在不同构象之间闪烁，其中之一可能是“结合能力”状态。配体可能只是“选择”这个预先存在的形状，这一机制被称为构象选择。在其他情况下，配体本身的结合迫使蛋白质改变其形状以实现紧密贴合，这一过程称为诱导契合。通过分析实验数据，如报告原子运动的X射线B因子或NMR序参数，我们可以推断哪种机制更有可能。如果构象选择占主导地位，一个强大的策略是集合对接，即我们将库与代表蛋白质自然柔性的一系列不同受体快照进行对接。这是一种比假设锁冻结在单一位置远为现实的方法。

即使是结合位点的环境也至关重要。通常，高度保守的水分子被发现是“锁”的一个组成部分，形成一个连接蛋白质和配体的氢键网络。简单地移除所有水分子（一个常见的默认操作）可能会破坏我们试图寻找的相互作用。一个有 discerning 的科学家必须识别出一个水分子何时不仅仅是背景溶剂的一部分，而是一个关键的结构组分，并选择在对接模拟中将其作为受体的一部分包含进来。

打分函数：窥探结合物理学

一旦我们得到了配体在蛋白质活性位点中的一个潜在姿势，我们如何给它“打分”？最终的裁判是热力学。一个稳定的结合事件对应于自由能（ $\Delta G$ ）的有利变化。打分函数是我们试图快速而准确地估算这个值的尝试。

在这里，我们面临着一个巨大的计算挑战。真正的结合自由能不仅由蛋白质和配体决定，还由它们与数百万周围水分子的相互作用决定。显式地模拟这整个系统对于筛选数百万种化合物来说太慢了。

为了克服这一点，我们使用了一个源于统计力学的巧妙近似：隐式溶剂模型。我们不是对每个水分子进行建模，而是用一个代表其平均效应的连续介质来替代它们。我们想象我们的蛋白质和配体是从代表水的均匀、高介电常数材料中雕刻出来的。这使我们能够估算结合的静电贡献以及将分子从水中移除的能量成本。这是一个近似，一个平均力势，它引入了一些误差（模型偏差），但使计算速度快了几个数量级。正是这种美丽的妥协——牺牲一些物理上的完美以换取巨大的实际速度——使得大规模虚拟筛选成为可能[@problemid:5279990]。这些模型虽然强大，但也有局限性。它们在紧密受限的口袋或高度带电的基团周围可能会遇到困难，因为在这些地方，水的特定、离散结构至关重要。

筛选之后：去伪存真

对接运行的输出是一长串按得分排序的分子列表。但我们必须持绝对怀疑的态度。许多排名靠前的化合物可能是出于错误原因而成为“命中”的。在投入昂贵的实验室工作之前，过滤这个列表以移除可能的假象是过程中的一个关键部分。

这种过滤发生在两个阶段。首先，甚至在对接之前，我们可以使用预筛选过滤器来清理我们的起始库。这些是移除具有不良性质的分子的经验法则。其中最著名的是Lipinski五原则，它为分子量和“油腻度”（ $\log P$ ）等属性设定了简单的阈值，以优先考虑那些更有可能成为口服药物的化合物。其他过滤器，如REOS（Rapid Elimination of Swill），则移除具有已知反应性或不稳定化学基团的分子。

其次，在我们得到排序列表后，我们应用后筛选过滤器来标记可疑分子。有些分子是实验室分析中臭名昭著的“频繁命中者”。它们不是真正的结合物，而是通过非特异性机制干扰分析的作弊者。我们使用子结构过滤器来识别这些已知的捣乱分子，通常称为PAINS（Pan-Assay INterference compoundS）。另一类骗子是聚集体，这些化合物会聚集在一起形成胶体，非特异性地抑制酶。标记这些化合物以便进行额外审查，有助于我们将精力集中在真正的、特异性的结合物上。

最后，我们如何判断整个虚拟筛选活动是否成功？一个关键指标是富集因子（Enrichment Factor, EF）。它回答了一个简单而实际的问题：“我们比随机选择做得好多少？”例如， $\text{EF}_{1\%}$ 告诉我们，与简单地从库中随机挑选1%的化合物所期望找到的活性分子数量相比，我们在排序列表的前1%中多找到了多少个真正的活性分子。在药物发现的世界里，资源稀缺，只有列表最顶端的化合物才会被研究，这种“早期富集”通常比评估整个排序列表的其他全局指标（如ROC-AUC）更有意义地衡量成功。富集因子直接反映了筛选的实际价值：它将“针”集中在“大海捞针”的顶部。

应用与跨学科联系

现在我们已经探讨了基于结构的虚拟筛选背后的原理，我们可以提出最激动人心的问题：我们能用它做什么？能够通过计算“看到”一个小分子如何融入蛋白质复杂机器，这不仅仅是一项技术壮举；它是一扇通往理解和操纵生命最基本层面的大门。就像一位工程师终于获得了复杂引擎的详细蓝图，我们现在准备好设计定制工具——药物、探针和诊断工具——来与之互动。这段从蓝图到功能的旅程不是一条简单的线性路径，而是一幅由生物学、化学、物理学和计算机科学交织而成的丰富画卷。

基础探索：为新锁寻找钥匙

想象你是一位探险家，刚刚发现了一种新的细菌酶，一种对危险病原体生存至关重要的蛋白质。你的团队不知疲倦地工作，利用X射线晶体学技术，成功地获得了这种酶的高分辨率三维图像。你看到了它美丽而复杂的形状，在其内部有一个深邃的口袋——活性位点，酶在这里进行化学工作。你假设用一个小分子堵住这个口袋可以使酶失效并杀死细菌。问题是，你有锁，但没有钥匙。从来没有人发现过能与它结合的分子。你该怎么办？

这是基于结构的虚拟筛选最经典、最基础的应用。手握靶标的三维结构，却对任何活性分子一无所知，你可以求助于计算机进行分子对接。你取一个庞大的数字库，可能包含数百万种多样化的、类药性的化合物，然后让计算机尝试将每一个化合物逐一装入蛋白质的活性位点。算法将每个虚拟分子以数千种不同的方向放入该口袋，扭转并翻转它，并计算出一个“分数”来估算它可能结合得有多好。这是一种蛮力搜索，但却非常有效。从这浩瀚的可能性中，计算机会给你一个简短、可管理的列表，包含几百个“命中”——最有希望购买并在真实实验室中测试的候选钥匙。这几乎是所有现代基于结构的药物发现项目的起点。

从蓝图到现实：结构生物学中的AI革命

几十年来，这个过程中最大的瓶颈是首先获得蛋白质的三维结构。像X射线晶体学和冷冻电子显微镜这样的实验方法虽然强大，但对于某些蛋白质来说可能缓慢、困难，有时甚至是不可能的。但如果我们能仅从其基因序列预测结构呢？

这正是像AlphaFold和RoseTTAFold这样的深度学习工具带来的革命。通过在大量实验已知的蛋白质结构数据库上进行训练，这些人工智能系统以惊人的准确性学会了蛋白质折叠的基本“规则”。现在，对于许多曾经结构未知的蛋白质，我们只需点击一个按钮就能生成一个高置信度的三维模型。

对我们而言，最直接和最具变革性的应用是，这个预测模型成为虚拟筛选活动的直接输入。预测的坐标使我们能够识别推定的活性位点，并为我们的对接算法定义搜索空间。突然之间，“不可成药”靶标的整个版图——那些没有可用结构的蛋白质——被完全打开了。AI驱动的结构预测与基于结构的药物设计之间的协同作用代表了一次巨大的飞跃，为无数疾病的初期发现阶段按下了加速键。

锁并非刚性：拥抱蛋白质动力学的舞蹈

我们关于刚性锁和钥匙的简单类比，虽然有用，但在我们仔细观察时就开始失效。蛋白质不是静态、固体的物体。它们是动态、柔性的机器，会呼吸、摆动和改变形状。承认这种动态性不仅仅是细节问题；它对于找到有效的药物至关重要。

在许多情况下，我们很幸运地拥有一个蛋白质的多个实验“快照”，也许是与不同配体共结晶的。每个结构都揭示了蛋白质处于一个略微不同的构象，侧链重新排列，口袋也微妙地重塑。一种天真的方法可能是挑选“最佳”的单一结构而忽略其余。一个更强大的策略是通过集合对接来拥抱这种多样性。在这里，我们不是将库与一个刚性结构对接，而是与一整套结构对接。这使得潜在的药物能够找到它偏爱的特定蛋白质构象，这个过程被称为“构象选择”。此外，通过分析在所有结构中保守的特征——如特定的相互作用或策略性放置的水分子——我们可以构建更稳健的药效团模型，捕捉结合真正必要的需求。

但最富挑战性的情况呢？如果一个结合口袋在蛋白质最稳定、基态构象中根本不存在怎么办？一些蛋白质拥有“隐蔽口袋”——这些位点是隐藏的，仅因蛋白质的自然热波动而短暂开放。对闭合结构进行标准的对接筛选将完全无法发现这些机会。

为了寻找这些隐藏的宝石，我们必须更深入地探索生物物理学的世界。蛋白质必须付出热力学代价，即一个能量惩罚（ $\Delta G_{\mathrm{conf}}$ ），才能采取罕见的“开放”状态。与这个隐蔽口袋结合的配体不仅必须对该口袋有很强的内在亲和力，还必须足够有效，以克服这个能量障碍并稳定开放构象。这解释了为什么这样的命中往往较弱且难以找到。为了甚至知道去哪里寻找，科学家们采用了英勇的计算方法，例如运行微秒级或更长时间的分子动力学模拟，以原子细节观察蛋白质的舞蹈，并捕捉隐蔽口袋瞬时形成的一瞥。靶向这些位点是药物发现的前沿，使我们能够找到调节蛋白质功能的新方法。

构建更好的指南针：精炼我们的预测

一次虚拟筛选活动可以产生一个包含数千种化合物的排序列表，但对接分数毕竟是一个近似值。我们如何增加对排名靠前的分子确实是最佳选择的信心？科学家们已经开发出一系列技术来精炼和改进他们的预测。

一个非常简单但强大的想法是共识打分。不同的对接程序使用不同的算法和打分函数——它们就像提供自己意见的独立专家。如果一个程序将某个分子排名很高，这可能是一个侥幸。但如果三四个不同的、独立的程序都将同一个分子排在前面，我们对该预测的信心就会大大增加。通过综合证据，我们可以消除任何单一方法的错误。

另一种策略是使用计算成本更高但物理上更严谨的重打分方法。在初步的快速对接筛选确定了几千个有希望的候选物之后，我们可以使用像MM/GBSA（分子力学/广义波恩表面积）这样的方法重新评估它们。这种方法使用更复杂的溶剂（水）隐式模型来更好地估算结合自由能。虽然仍然是一个近似值，远非对 $\Delta G_{\mathrm{bind}}$ 的完美预测，但它提供了一个宝贵的第二道过滤器，有助于在投入昂贵的化学合成和生物测试之前去粗取精。

学科的交响曲：从片段到直系同源物

基于结构的筛选不是一项独立的技术，而是药物发现策略这支大型管弦乐队中的核心乐器。

其中最优雅的策略之一是基于片段的药物发现（FBDD）。FBDD不是一次性寻找一个大而复杂且高效力的药物分子，而是采用“分而治之”的方法。人们筛选一个由非常小、简单的分子——“片段”——组成的库。这些片段的结合亲和力非常低，但它们的结合就其所形成的相互作用而言通常非常高效。SBVS在这里的威力不仅在于识别一个片段，而且可能识别两三个结合在蛋白质口袋中相邻位点的片段。然后，有了每个片段如何放置的结构知识，药物化学家可以巧妙地将它们连接起来，创造一个更大、更有效的先导分子。一次成功的虚拟FBDD活动需要一套复杂的级联方法，从全面的集合对接到确保找到所有结合模式，再到严格的统计误差控制（如错误发现率分析），以确保弱片段的命中在统计上是显著的。

基于结构的设计原则也与进化生物学完美结合。想象你为人类激酶开发了一个药效团模型。你能否用它来寻找一种致病菌中相应激酶（其直系同源物）的抑制剂？答案是“可以，但要极其小心”。尽管这两种蛋白质从共同祖先进化而来，可能具有很高的序列一致性，但即使是结合位点中的一个氨基酸突变也可能极大地改变其形状、大小和化学性质[@problemid:2414172]。例如，一个常见的变异是在控制进入疏水性背袋的“门控”残基上。人类蛋白质中的一个小小的苏氨酸可能在细菌中被一个庞大的甲硫氨酸所取代。为人类口袋设计的药物根本无法装入细菌的口袋。通过仔细比较结构，我们可以智能地修改我们的药效团——例如，通过添加排除体积来考虑更大的细菌侧链——以专门搜索那些能打击细菌靶标但放过我们自身人类蛋白质的分子。这正是设计选择性药物的本质，也是对抗抗生素耐药性的基石。

最终的裁判：我们如何知道没有自欺欺人？

Richard Feynman有句名言：“首要原则是，你绝不能欺骗自己——而你自己是最容易被欺骗的人。”在计算科学中，美丽而复杂的模型可以产生无尽的预测，这一警告至关重要。我们如何知道我们的虚拟筛选方法是否真的有效？

答案在于严格的、定量的验证。我们不能简单地看对接分数的绝对值，因为它不是结合能的真实度量。相反，我们必须问一个更实际的问题：与随机机会相比，我们的方法在大型库中找到少数活性分子的能力有多强？这就引出了富集因子（EF）的概念。如果一个包含50,000个化合物的库中有100个活性物（命中率为0.2%），那么随机选择前1%（500个化合物）预计只能找到一个活性物。如果我们的虚拟筛选反而在那前1%中找到了35个活性物，我们的富集因子就是惊人的35。这是一个真实、有意义的性能衡量标准。

这种严谨的思维方式延伸到过程的每个部分。当我们构建像QSAR这样的预测模型时，我们必须警惕不要用不恰当的验证方法欺骗自己，比如对高度相似的分子进行随机交叉验证。一个更严峻、更诚实的测试是时间分割或骨架分割验证，这能更好地模拟预测全新化合物活性的真实世界挑战。最终，所有的计算预测都是假设。它们在真实世界实验的熔炉中找到最终的验证。计算预测与实验测试之间持续、迭代的对话是驱动现代药物发现的引擎，将寻找新药的艺术转变为一门真正的科学。