基于配体的虚拟筛选

玻尔百科

定义

基于配体的虚拟筛选是一种基于相似性原理的计算药物发现方法，该原理认为具有相似结构和理化特征的分子往往表现出相似的生物活性。该技术利用2D指纹、3D药效团模型以及定量构效关系（QSAR）等机器学习模型，从大规模化学库中识别潜在的先导化合物。在实际应用中，这种筛选过程通常采用多级漏斗机制，通过林匹斯基五规则等过滤器对数百万个化合物进行高效筛选。

核心要点

基于配体的虚拟筛选遵循“相似性原理”，该原理假定具有相似结构和物理化学特征的分子往往表现出相似的生物活性。
分子相似性通过多种方法进行量化，包括二维指纹（如 ECFP）、三维形状比较以及描绘关键相互作用特征的抽象三维药效团模型。
现代 LBVS 严重依赖机器学习，特别是 QSAR 模型。这些模型需要通过交叉验证和 Y-随机化等技术进行严格验证，以防止过拟合。
一次实用的虚拟筛选活动会采用一个多阶段漏斗模型，以高效地筛选数百万种化合物，其中会使用 Lipinski 规则等过滤器，并移除已知的分析干扰化合物 (PAINS)。

引言

在广阔而复杂的药物发现世界里，要找到一个能与生物靶点精确相互作用以治愈疾病的新分子，就像在数十亿把钥匙中为一把特定的锁寻找那把唯一的钥匙。当科学家拥有靶点蛋白——也就是“锁”——的详细蓝图时，他们可以通过计算来设计与之匹配的“钥匙”。但如果锁的结构是个谜，而我们手中只有一把能用的钥匙时，该怎么办呢？这种常见的情景正是基于配体的虚拟筛选 (Ligand-Based Virtual Screening, LBVS) 成为一种强大且不可或缺的策略的用武之地。它通过利用已知活性分子中编码的信息，解决了靶点结构未知的关键知识鸿沟。

本文对 LBVS 的理论与实践进行了全面概述。通过了解其核心组成部分，您将对化学家和计算机科学家如何协作以加速新药发现过程建立起坚实的理解。

我们的旅程始于 原理与机制，在这里我们将揭示其基础性的“相似性原理”。我们将探索计算机如何被教会“看见”分子，将它们转化为二维指纹和三维形状，以及如何利用药效团和机器学习等概念来构建预测模型。随后，应用与跨学科联系 将从理论转向实践。我们将审视筛选活动中涉及的真实世界战略决策，从探索化学空间到寻找高度特异性和新颖候选药物的先进技术，展示这些计算方法如何应用于解决现代药物化学中的实际问题。

原理与机制

想象一下，你找到了一把能打开一扇非常重要门锁的特殊钥匙。你对锁的内部机制一无所知，但你迫切需要找到其他也能用的钥匙。你会怎么做？你不会从测试你所能找到的每一块随机的金属片开始。你的直觉告诉你，应该去寻找那些看起来像你手中那把钥匙的钥匙。它们应该有相似的形状、相似的凹槽和相似的大小。这个简单而强大的想法正是 基于配体的虚拟筛选 (LBVS) 的核心。在药物发现的世界里，“配体”是与生物靶点（通常是蛋白质，即我们的“锁”）结合的分子（我们的“钥匙”），而“已知活性物”是我们已确认可以打开这把锁的配体。

LBVS 是一门通过利用我们对现有药物的知识来发现新药的艺术和科学。它基于一个单一的基本前提，即 相似性原理：结构和物理化学特征相似的分子，其生物活性也趋于相似。这与 基于结构的虚拟筛选 (SBVS) 的“锁匠方法”形成对比，在 SBVS 中，科学家拥有蛋白质锁的详细三维蓝图，可以通过计算测试不同钥匙的契合度。当我们缺乏可靠的锁的蓝图，但拥有一把或多把好钥匙时，LBVS 是首选策略。选择哪种策略是一个重大的决定，取决于我们现有信息的质量。如果我们有几把多样且高效的“钥匙”，但只有一张模糊、低分辨率的“锁”的图片，我们最好的选择就是相信这些钥匙。

但这引出了一个问题：两个分子“相似”到底意味着什么？回答这个问题将带领我们踏上一段奇妙的旅程，从简单的二维蓝图到复杂、动态的三维形状和量子化学世界。

分子的语言：指纹与相似性

为了教会计算机识别相似性，我们首先需要一种语言来描述分子的基本特征。最基本的表示是其二维结构或分子图——一个由键连接原子的简单图示，就像一张化学蓝图。从这张蓝图中，我们可以开始构建定量的描述。

最简单的描述符只是计数：有多少个碳原子？有多少个环？一个稍微高级点的想法是创建 分子指纹，你可以把它想象成一个特征清单。有一个苯环吗？有。有一个羟基吗？有。每个分子都被转换成一个由 1 和 0 组成的长串（位串），其中字符串中的每个位置对应一个特定的结构特征。例如，著名的 MACCS 密钥 就是一个预定义的包含 166 个常见化学基序的清单，一个分子要么拥有这些基序，要么没有。

扩展连接性指纹 (ECFP) 采用了一种更复杂的方法。ECFP 不是使用预定义的列表，而是系统地编码分子中每个原子周围的环境。对于每个原子，它首先识别原子本身，然后是其直接邻居，再然后是邻居的邻居，以此类推，直到一个特定的半径。这些分层的邻域随后被数学上“哈希”成一个指纹。其结果是对分子局部拓扑结构的高度详细和独特的描述。

一旦我们有了两个分子（比如分子 $A$ 和分子 $B$ ）的指纹清单，我们该如何比较它们呢？最常用的方法是 Tanimoto 系数， $T_c$ 。这是一个极其简单的度量标准，捕捉了共享身份的精髓。如果 $a$ 是分子 $A$ 中存在的特征数量， $b$ 是分子 $B$ 中存在的特征数量， $c$ 是它们共有的特征数量，那么 Tanimoto 相似度为：

T_c = \frac{c}{a + b - c}

注意分母：它是任一分子中存在的独特特征的总数。因此，Tanimoto 系数不仅仅是关于它们有多少共同点，而是关于它们共同点相对于其组合复杂性的比例。分数范围从 0（无相似性）到 1（完全相同）。例如，如果两个指纹分别有 $a=83$ 个特征和 $b=76$ 个特征，且它们共享其中 $c=47$ 个特征，那么它们的 Tanimoto 相似度为 $47 / (83 + 76 - 47) = 47 / 112 \approx 0.42$ 。这个单一的数字为我们提供了一个强大、量化的工具来处理“相似性”这个模糊的概念。

超越蓝图：三维空间的丰富性

虽然二维指纹非常有用且速度快，但它们忽略了现实的一个关键方面：分子不是平面的图纸。它们是三维物体，在一个三维世界中生存、呼吸和相互作用。一把钥匙之所以能用，不是因为它的二维轮廓，而是因为它错综复杂的三维形状。

镜像问题：手性

分子最深刻、最美丽的特性之一是手性。就像你的左手和右手一样，有些分子以一对无法相互叠加的镜像形式存在。这些镜像异构体被称为 对映异构体。在一个对称的、非生命的环境中，对映异构体具有相同的物理性质。但在蛋白质 exquisitely sculpted 的手性口袋中，它们的行为可能完全不同。一个对映异构体可能是一种有效的药物，而其镜像体可能没有活性，甚至有害。

因此，对于任何三维筛选方法，了解确切的 立体化学——手性中心原子的绝对三维排列——是不可协商的。科学家使用一套规则，即 Cahn-Ingold-Prelog (CIP) 规则，来明确地将一个立体中心标记为 $R$ 或 $S$ 。忽略分子身份的这一基本方面，就像试图开锁却不知道该如何握住钥匙一样。

构象之舞

此外，分子并非僵硬的雕像。它们是柔性的实体，不断围绕其单键扭转和旋转，探索着一个由不同形状或构象组成的广阔领域。一个分子在真空中漂浮时最稳定的构象（其最低能量状态）通常不是它与蛋白质结合时所采取的形状。结合事件本身可以诱导分子进入一个能量更高的“生物活性构象”。

一个成功的三维筛选活动不能依赖于单一、静态的结构。相反，它必须考虑一个 热力学可及的构象系综。我们使用由 玻尔兹曼分布 控制的统计力学原理来理解，能量较低的构象更可能出现，但能量较高的形状仍然存在，并可能在结合中扮演关键角色。通过评估这些形状的集合，我们大大增加了发现与蛋白质靶点完美互补的那个构象的机会。

万能钥匙：药效团模型

在对三维结构有了恰当的认识后，我们可以设计出更强大的筛选方法。我们可以简单地尝试叠加分子并测量它们的三维形状相似性。但一个更强大的概念是 药效团。

药效团将一个分子简化为其生物活性的最基本要素。把它想象成一把“万能钥匙”。万能钥匙并不模仿原钥匙的完整形状，它只包含触发锁芯所需的关键凸起和凹槽。药效团是分子识别所必需的抽象特征的三维排列。这些特征不是原子，而是相互作用类型：

氢键供体/受体： 分子可以形成关键氢键的点。
疏水中心： 可以嵌入蛋白质疏水性口袋的油性质、非极性区域。
芳香环： 可以与蛋白质中类似环堆叠的扁平、富电子环。
可离子化的正/负电荷中心： 带有形式电荷并能形成强静电相互作用的中心。

为了构建一个药效团模型，药物化学家会分析一组已知的多样性活性分子。他们识别出共同的相互作用特征，并至关重要地，绘制出它们之间的空间关系——特征之间的距离和角度。其结果是一个三维的特征“星座图”。虚拟筛选过程随后就变成了在一个大型化合物库中搜索其他分子，这些分子能够采取一种构象，将其自身的功能基团置于这张星图上。

从经验中学习：机器学习的力量

当我们不仅有少数几个活性分子，而是有几十个甚至几百个，并且测量了它们从高效到弱效的活性范围时，我们就可以超越简单的相似性搜索。我们可以让计算机学习结构与活性之间的关系。这就是 定量构效关系 (QSAR) 模型的领域。

在现代 QSAR 研究中，我们再次使用数值描述符 ( $\mathbf{x}$ ) 来表示我们的分子，这些描述符可以从简单的二维属性到复杂的三维场。然后，我们使用监督式机器学习算法构建一个数学模型 $f$ ，该模型根据描述符预测活性 $y$ ： $y \approx f(\mathbf{x})$ 。

这种方法非常强大，但也充满风险。构建一个在其训练数据上表现完美，但在测试新的、未见过的分子时却 spectacularly 失败的模型是极其容易的。这被称为 过拟合，防止过拟合需要极大的科学纪律。

为了构建一个稳健而诚实的模型，我们必须遵循严格的验证协议。首先，我们必须将可用数据分成一个 训练集（用于构建模型）和一个完全独立的 测试集（被锁起来，只在最后使用一次，以获得对模型预测能力的无偏估计）。在模型开发期间，我们可以使用 k 折交叉验证 等技术在训练集上调整模型参数，而无需“偷看”测试集。此外，我们必须进行合理性检查。其中最重要的一项是 Y-随机化，即我们随机打乱训练数据的活性值 ( $y$ )。然后，我们尝试用这些打乱的数据构建一个模型。如果模型仍然似乎找到了强相关性，我们就知道自己被愚弄了；我们的模型很可能抓住了数据中的虚假模式，而不是真正的构效关系。

为了使我们的测试更加严格，我们精心构建基准数据集。一个常见的陷阱是，来自药物发现项目的活性分子通常比典型的化合物库化合物更大、更油腻。一个“懒惰”的算法可能仅仅通过学会挑选出大而油腻的分子就能获得高性能。为了防止这种情况，我们用 性质匹配的诱饵分子 来构建我们的测试集——这些被认为是无活性的分子是经过特意挑选的，以使其具有与真实活性物相同的宏观性质（如分子量、电荷和亲脂性）分布。这迫使算法去学习那些真正赋予活性的微妙、特定的结构特征，而不是依赖于微不足道的差异。

筛选漏斗：从数百万到少数几个

在真实的药物发现项目中，这些原理和机制被组装成一个多阶段的 虚拟筛选漏斗。目标是高效地从一个包含数百万化合物的庞大库中筛选出几百个有希望进行实验室测试的候选物。

化合物库的准备： 该过程始于过滤初始库以去除不良化合物。这包括应用“类药性”的经验法则，如 Lipinski 五规则，该规则对分子量和亲脂性等属性设定了软性限制，以偏好那些更有可能具有良好药代动力学性质的分子。像 REOS (快速排除劣质化合物) 这样的过滤器会移除含有已知反应性或不稳定化学基团的分子。
初步筛选： 清理后的化合物库随后被送入主要的 LBVS 引擎。这可能是一个非常快速的二维指纹相似性搜索、一个更精细的三维药效团筛选，或一个 QSAR 模型，具体取决于可用的数据和项目目标。这一步对整个库进行排名，并产生一个包含前几千个候选物的“命中列表”。
命中物筛选与后处理： 然后对命中列表进行更仔细的审查。在这里，我们寻找危险信号。我们使用过滤器来识别 PAINS (泛分析干扰化合物)，这些是臭名昭著的“作弊者”，它们通过非特异性机制（如氧化还原循环或荧光干扰）在许多不同的分析中显示为命中物。我们还会标记潜在的 聚集体，这些化合物在分析缓冲液中形成微小的胶体颗粒，并以非特异性方式抑制酶。在筛选后识别这些可能的假阳性，使我们能够优先考虑最有希望的命中物进行实验后续研究。

通过这个精心策划的级联过程，分子相似性的抽象原理被转化为一个具体、强大的引擎，用于发现未来的药物。这是化学家直觉的证明，通过计算的力量和对科学诚信的严格承诺而得到放大和提炼。

应用与跨学科联系

我们已经花了一些时间探讨基于配体的虚拟筛选背后的原理——即“相似物结合相似物”的理念。在纸面上，这似乎足够简单。但正如科学中常有的情况一样，真正的乐趣始于我们将这些原理带出教科书，并将其应用于混乱、复杂而又美丽的现实世界。我们究竟如何利用这个理念来寻找新药？当我们的假设不成立时会发生什么？我们能将这个概念推向多远？正是在这里，药物发现的艺术与科学才真正焕发生机。这是一段旅程，它将我们从高层战略和统计推理一直带到化学和人工智能的前沿。

宏大的搜索：利用与探索

想象一下，你正在一个广阔、未知的岛屿上寻找宝藏。这个岛屿就是“化学空间”，即所有可能的类药性分子的不可思议的集合，估计数量超过 $10^{60}$ 。你不可能在每个地方都挖掘。你有一张藏宝图，但它并不完整。它只标记了一枚金币的位置——一个已知的活性分子。你的策略是什么？

你是在那第一枚金币的附近疯狂挖掘，希望能找到一个埋藏的宝箱吗？这便是利用 (exploitation) 的策略。你将资源集中在一个小范围、高概率的区域。在药物发现中，这意味着创建一个 靶点聚焦库 (TFL)，这是一个由与你已知活性物非常相似的分子组成的集合。这是最大化你找到更多同类物质、提高效价和微调性质的机会的好方法。

或者，你采取另一种方法？也许你认为那枚金币只是一个幸运的、孤立的发现，而真正的大宝藏在岛的另一边，在一种完全不同类型的地形中。所以，你派出侦察兵广泛取样——海滩上取一点，丛林里取一点，山里取一点。这便是探索 (exploration) 的策略。你牺牲了小胜利的高概率，来换取一次巨大的、改变游戏规则的发现的小概率。这类似于使用 多样性导向库 (DOL)，该库旨在覆盖尽可能广泛的化学景观。

这两种策略之间的选择是一个深刻的决定，取决于我们掌握的信息量。如果我们的“地图”非常可靠（我们有许多看起来相似的已知活性物，或者对靶点有非常清晰的认识），那么使用 TFL 进行利用是明智的。如果我们的地图模糊不清（我们只有一个弱效、奇特的活性物，或者不知道靶点蛋白识别什么特征），那么使用 DOL 进行探索对于避免陷入化学空间的局部、无前景区域至关重要。整个虚拟筛选的实践始于这个基本的战略决策。

选择正确的镜头：形状 vs. 药效团

假设我们已经选择了搜索策略。现在我们需要定义“相似”的实际含义。我们如何看待一个分子并将其与另一个分子进行比较？我们有两个主要的“镜头”来完成这项任务，而选择正确的镜头取决于我们试图模仿的相互作用的物理性质。

一个镜头是形状。想象一下试图将一把钥匙插入一把锁。最重要的是钥匙的整体三维形态，它的凸起和凹槽。一些分子主要通过这种空间和疏水性互补性与靶点结合——这与其说是一种特定的化学握手，不如说是一种紧密的、形式贴合的拥抱。在这些情况下，结合主要由我们所谓的非方向性力主导。对于这类靶点，基于形状的筛选方法，即优先寻找具有相似体积和表面的分子，是最强大的工具。

另一个镜头是 药效团。这个镜头不关注整体形状，而是聚焦于几个关键的相互作用点——化学“热点”。这就像不是通过轮廓，而是通过眼睛、鼻子和嘴的精确排列来认出一位朋友。药效团模型是一个基本特征的三维图谱：一个必须有氢键供体的位置，另一个需要正电荷的位置，第三个需要一个庞大、油腻（疏水）基团的位置，所有这些特征之间都有特定的距离和角度。当结合由强烈的、方向性的相互作用（如氢键和盐桥）主导时，这种方法是理想的。

形状和药效团之间的决定是一个物理学上的决定。结合能是来自于表面接触的温和、累积效应，还是来自于少数几个强大的、几何精确的连接？一个熟练的药物化学家利用他们对靶点蛋白的知识来做出这个判断，选择最能捕捉分子识别事件精髓的镜头。

骨架跃迁的艺术：寻找创造性的模拟物

通常，我们的目标不是找到一个与起始化合物几乎完全相同的分子。我们可能希望找到一种具有完全不同化学骨架（或称“骨架”）的物质，它能向靶点呈现相同的关键相互作用特征。这被称为 骨架跃迁，它是一种发现全新类别药物的方法，这些药物可能具有更好的性质，如更少的副作用或更容易合成。

要做到这一点，我们需要一种更细致的方式来衡量相似性。一个强大的方法是结合我们的两个镜头——形状和药效团。我们可以将分子的形状表示为一个由高斯函数构成的平滑、云状的体积，并对其药效团特征做同样的处理。然后，我们可以使用一个称为 Tanimoto 系数 的巧妙度量来测量两个分子之间的重叠，该度量基本上是交集的体积除以并集的体积。

我们可以计算形状 Tanimoto ( $S_T$ ) 和药效团特征的“颜色” Tanimoto ( $C_T$ )。一种非常简单而有效的方法是将它们相加： $T_{\text{combo}} = S_T + C_T$ 。这个复合分数范围从 0 到 2，它给我们一个单一的数字，告诉我们两个分子在形状和化学性质上的相似程度。对于骨架跃迁，我们在一个“金发姑娘”区域寻找分子——不太相似，也不太不同。一个广泛使用的经验法则是搜索 $T_{\text{combo}}$ 分数在 1.4 左右或更高的化合物。这确保了关键的三维特征得以保留，同时允许底层骨架是新颖的。

数量中的力量：驾驭偶然性与联合力量

任何单一的计算方法都是不完美的。它会犯错，漏掉真正的活性物（假阴性），并标记出非活性分子（假阳性）。我们如何提高我们的信心？科学中一个强大的策略是使用两种不同的、独立的方法来测量同一事物。

想象一下，我们进行了一次基于配体的筛选，并得到了一份潜在命中物的列表。现在，我们将这份简短的列表通过一种完全不同的方法进行处理：基于结构的对接，该方法试图将分子物理地装入蛋白质结合口袋的三维模型中。一个被两种方法都标记为命中物的化合物，是一个更有希望的候选者。这两种方法充当了正交过滤器。

在两种方法的误差是独立的理想假设下，将它们结合可以显著提高“命中率”，即我们所选化合物中真实活性物的比例。在一些 plausible 的情景中，增加一个基于结构的第二过滤器可以将真阳性的比例富集 10 倍或更多。

然而，我们必须始终质疑我们的假设。这些方法真的独立吗？通常它们不是。基于配体和基于结构的方法都可能被同类型的“棘手”分子所欺骗——例如，那些倾向于粘附在任何东西上的大而油腻的化合物。这种共同的弱点在它们的误差中产生了正相关，这意味着在现实世界中，结合方法所带来的改进通常低于理想化计算所建议的。理解这些细微差别是区分新手与专家的关键。

航行于险恶水域：高级挑战与创新解决方案

药物发现的真实世界充满了复杂而有趣的挑战，要求我们调整和扩展我们的基本工具。

混合结合模式的陷阱

构建药效团模型的一个基石是“共同结合模式假设”——我们假设训练集中的所有已知活性分子都以相同的方式与靶点结合。但如果其中一个是“叛徒”，以完全不同的方向结合呢？如果我们不知不觉地包含了这个异常值，我们的模型构建算法会试图找到一个能容纳所有分子的“共识”。结果将是一场灾难。药效团变得模糊、非特异性的平均值，具有巨大的空间容差或缺失的特征。这就像试图通过将其特征与自行车的特征取平均来描述一辆汽车。这种低特异性的模型随后会在虚拟筛选中匹配数千个无用的分子，导致假阳性泛滥和性能灾难性下降。这凸显了精心策划的输入数据集的至关重要性。

寻找共价结合物

大多数药物与其靶点可逆地结合，但有些药物形成强大、永久的共价键。这些共价抑制剂可能非常有效，但找到它们需要一种不同的思维方式。一个标准的、专注于非共价相互作用的药效团，对于化学反应的要求是完全盲目的。要找到一个共价抑制剂，我们必须增强我们的模型。我们需要告诉它不仅要寻找一个良好的非共价契合，还要寻找一个带有亲电“弹头”的分子，该弹头的位置在几何上必须完美，以便与蛋白质上的亲核体（如半胱氨酸残基）发生反应。这意味着要为反应所需的特定距离和攻击角度增加新的约束，这种几何形状有时用 Bürgi–Dunitz 轨迹来描述。我们甚至可以添加一个评分项来估计弹头本身的化学反应性。这是虚拟筛选如何弥合分子识别和化学反应动力学之间差距的一个美丽例子。

变构调节和选择性的精妙之处

有时，控制蛋白质的最佳方法不是阻断其主要的“活性位点”，而是结合到一个次要的“变构”位点，该位点像一个秘密的控制旋钮。找到这些变构调节剂是一个重大挑战。一个绝妙的策略是使用 反向筛选。我们可以设计一个工作流程，首先将一个化合物库对接到推定的变构位点。然后，我们取该筛选的命中物，并将它们对接到主活性位点。我们只对那些能很好地结合到变构位点但与活性位点结合很差的分子感兴趣。这种“负向设计”原则是一种在计算上选择特异性的极其强大的方法。

当靶向除蛋白质以外的分子时，同样的想法也至关重要。例如，如果我们想找到一种药物，它能与一种称为 G-四链体（在端粒中发现）的独特 DNA 结构结合，但忽略细胞中大量的正常双链 DNA，我们就必须采用反向筛选。我们的虚拟筛选工作流程必须奖励与 G-四链体靶标的结合，同时惩罚与双链 DNA 模型的结合。没有这个明确的选择性步骤，我们最终只会找到通用的 DNA 结合分子。

前沿：从筛选到创造

到目前为止，我们已经将虚拟筛选视为一个从预先存在的分子列表中进行筛选的过程。但是，如果我们能教会计算机不仅去寻找，而且去创造呢？这就是从头药物设计的领域。

根本的区别在于：虚拟筛选是对一个有限的、已列举的库进行选择的行为。从头设计是在一个广阔的、隐含的化学空间内进行构建的行为。我们不是从经销商的停车场挑选最好的汽车，而是给人工智能一箱零件和一套规则，让它从头开始建造完美的汽车。这些生成模型可以利用化学规则和优化算法，通过一个评分函数引导，逐个原子或逐个片段地“生长”或“进化”分子，该评分函数告诉它离期望的特性有多近。

连接这两个世界的一座美丽的桥梁是 基于片段的设计。在这里，我们首先筛选一个由非常小的分子或“片段”组成的库，以寻找弱效但高效的结合物。然后，利用计算工具，我们可以智能地将这些片段生长成更大、更有效的分子，或者将两个不同的片段连接在一起。这种将片段组装成一个新颖整体的构建过程是从头设计的一种强大形式。

从“相似物寻找相似物”这个简单的原则出发，我们经历了一段涵盖宏大战略、物理原理、统计严谨性和高级应用的旅程，最终抵达了计算创造力的前沿。基于配体的筛选及其衍生技术不仅仅是计算工具；它们是我们探索理解分子相互作用语言，并利用该知识设计一个更美好、更健康世界的追求的体现。