定量构效关系（QSAR）模型

玻尔百科

定义

定量构效关系（QSAR）模型是一种通过数学方式将分子的化学结构与其生物活性联系起来的计算方法，用于预测未测试化合物的理化性质。该模型在药物研发和环境科学中具有重要应用，能够辅助评估药物效力、选择性以及环境毒性。为了确保预测结果的可靠性，模型必须经过严谨的统计验证，并明确其适用范围，以防止在不确定的化学空间内进行外推。

核心要点

QSAR模型以数学方式将分子的结构与其生物活性联系起来，从而能够对未经测试的新化合物的性质进行计算预测。
通过测试集分离、交叉验证和Y-随机化等方法进行严格验证至关重要，以确保模型具有预测性，而不仅仅是统计上的巧合。
适用域（AD）的概念至关重要，它定义了模型预测可信的化学空间，并防止危险的外推。
QSAR是一种多功能工具，在环境科学中用于毒性评估，在药物发现中用于优化效力、选择性以及预测副作用，具有重要应用。

引言

在广阔的化学宇宙中，可能存在的分子数量几乎是无限的，然而用于合成和测试它们的资源却是有限的。这给寻求发现新药或评估环境化学品安全性的科学家带来了巨大的挑战。我们如何才能有效地驾驭这个巨大的化学空间，找到少数具有所需特性的分子呢？答案在于一种强大的计算方法，即定量构效关系（QSAR）建模。基于相似结构通常表现出相似活性的原理，QSAR将这种直觉转化为一种预测性的数学工具。本文旨在弥合这一简单理念与构建可靠模型的复杂现实之间的差距。

这段旅程将分为两大章节展开。在“原理与机制”中，我们将探讨QSAR的核心概念，从将分子结构转化为数值描述符，到构建回归和分类模型。我们将特别强调模型验证中不可或缺的规则，这些规则是信任任何预测的基石。随后，“应用与跨学科联系”章节将展示这些模型如何在现实世界中应用，从保护我们的环境免受有毒物质的侵害，到加速高效、高选择性药物的理性设计。读完本文，您将理解QSAR如何成为现代分子科学不可或缺的指南。

原理与机制

核心思想：相似性的交响乐

自然界在其所有的复杂性中，往往遵循着一个优美而简单的原则。以音乐为例。C大调和弦听起来悦耳而稳定，G大调和弦也是如此。它们虽然不同，但共享一种结构关系，一种音程模式，赋予了它们相似的特性。只需稍微改变一个音符，特性就会以可预测的方式发生变化。同样优雅的逻辑也支配着分子的世界。

QSAR建模的核心在于一个强大而直观的理念，通常被称为构效关系（SAR）原理：结构相似的分子很可能以相似的方式行事。一个成功阻断某种酶以治疗疾病的分子，就像一把能配特定锁的钥匙。一把略有不同的钥匙，也许其头部或某个齿有微小变化，很可能以类似的方式适配这把锁——可能效果稍好，也可能稍差，但不太可能以一种全新的、迥异的方式作用。定量构效关系（QSAR）建模的目标正是将这一直观原理转化为一种精确的数学工具，能够基于分子的结构来预测其生物活性。

我们不只是说“相似产生相似”；我们试图构建一个函数，一种分子占卜机，其形式如下：

\text{活性} = f(\text{结构})

如果我们能定义这个函数 $f$ ，我们就能计算预测新的、尚未合成的分子的活性，从而引导化学家将他们宝贵的时间和资源集中在最有希望的候选分子上。从定性的直觉到定量的预测，这一过程正是QSAR的精髓所在。

分子的语言：从结构到数字

在构建函数之前，我们面临一个根本性挑战：如何用计算机能理解的语言来描述分子的“结构”？我们不能只给它一张图。我们需要数字。这就是分子描述符的用武之地。它们是我们定量语言的词汇，是捕捉分子结构和物理化学性质不同方面的数值。

我们选择的“语言”可以有不同的“方言”，从而产生不同类型的QSAR模型。一个主要的区别在于二维和三维方法。

2D-QSAR：蓝图方法

想象你有一份房子的建筑蓝图。你可以看到有多少个房间、它们如何连接、总建筑面积以及窗户的数量。这类似于2D-QSAR。它使用从分子图——即显示哪些原子与哪些原子相连的“蓝图”——中派生出的描述符。这些描述符与分子在空间中的扭曲或朝向无关。它们包括：

组成描述符： 简单的计数，如碳原子、氧原子或环的数量。
拓扑指数： 精心设计的数字，用于捕捉分子在二维意义上的大小、分支和整体形状信息。
片段计数： 特定亚结构（如苯环或羧基）出现的次数。

这种方法快速而直接，但有其固有的局限性。正如蓝图不能确切告诉你家具如何摆放或身处房间的真实感受一样，2D-QSAR忽略了分子特定的三维构象。它通常无法区分对映异构体——即分子与其不可重叠的镜像（就像你的左手和右手），而它们可能具有截然不同的生物效应。

3D-QSAR：物理模型方法

为了捕捉分子的完整现实，我们需要从三维角度思考。3D-QSAR正是这样做的。它不把分子看作平面的蓝图，而是看作一个具有特定形状和周围物理力场分布的三维物体。为此，我们必须：

选择一个构象： 一个柔性分子可以采取多种形状。我们需要确定一种或多种具有生物学相关性的姿态。
对齐分子： 数据集中的所有分子必须以一致的方式叠加，就像我们把不同的钥匙排成一行来比较它们的齿一样。

对齐后，计算机可以在一个三维网格上采样分子周围的空间（尺寸/形状）场和静电（正/负电荷）场。这些场值就成为描述符。3D-QSAR能够捕捉形状互补性的细微细节，这对于分子如何与蛋白质的结合位点适配至关重要，使其在理解和优化相互作用方面极为强大。

占卜机：构建模型

有了我们建立的分子语言——一组描述符（ $X$ ）——和测得的生物效应——终点（ $Y$ ）——我们就可以构建模型了。任务是找到一个数学函数 $f$ ，能最好地将描述符映射到活性，通常表示为 $Y = f(X) + \varepsilon$ ，其中 $\varepsilon$ 代表实验噪音和模型误差。这是一个经典的监督学习问题。

在这里，区分我们预测的是什么至关重要。QSAR中的“A”代表活性（Activity），指的是分子与复杂生物系统（蛋白质、细胞、生物体）的相互作用。相比之下，定量构性关系（QSPR）模型预测的是分子固有的物理化学性质（Property），如其沸点或在水中的溶解度。QSAR是生物学家的工具；QSPR是物理学家或化学家的工具。

终点 $Y$ 的性质决定了我们执行的建模类型：

回归： 当活性是一个连续值时，我们的目标是回归。例如，我们可能想预测某种药物使酶抑制一半的确切浓度（ $pIC_{50}$ ）或其致死剂量（ $\log \mathrm{LD}_{50}$ ）。模型的输出是一个连续尺度上的数值。
分类： 当活性是一个分类标签时，我们的目标是分类。例如，我们可能想预测一个化合物是“有毒”还是“无毒”，或者它是否阻断一个关键的心脏通道（如hERG通道）。模型的输出是一个离散的类别标签。

预言的局限：信任，但要验证

我们已经造好了机器。我们输入一个分子的结构，它就能吐出一个预测的活性。但是，我们应该对这个预测有多大的信心呢？一个在构建它的数据上表现出色的模型，在处理新数据时可能会错得离谱。这就是泛化的问题。就像一个学生记住了去年考试的答案，模型可以在没有任何真正理解的情况下获得高分。要信任我们的模型，我们必须严格地测试它。这个过程称为验证。

QSAR模型的验证可以说比其构建更为重要。为了确保模型不只是一个统计上的幻象，科学界建立了一套最佳实践，其中最著名的是由经济合作与发展组织（OECD）制定的原则。这些原则为构建透明、可复现和可靠的模型提供了一个框架。让我们来了解一下这个验证过程的精神。

黄金法则：测试集的神圣性

模型验证中最重要的单一规则是严格地将数据分为训练集和测试集。训练集用于构建和调整模型。测试集是一组保留数据——一组模型从未见过的分子。它只在过程的最后使用一次，以获得模型在现实世界中表现的最终、无偏估计。在模型开发过程中任何对测试集的使用——无论是用于特征选择还是超参数调整——都构成“作弊”或数据泄露，并使结果无效。这场期末考试必须是真正未见过的。

内部检查：交叉验证

虽然我们将测试集留到期末考试，但我们仍然需要一种方法来调整模型并避免“过拟合”（即记住训练数据）。一个强大的技术是 $k$ -折交叉验证。在这里，训练集被分成，比如说， $k=5$ 个更小的子集或“折”。然后，模型在其中四个折上进行训练，并在被留出的那个折上进行测试。这个过程重复五次，每个折都有一次机会作为临时的测试集。这五次运行的平均性能给出了模型在新数据上性能的稳健估计，而无需触及真正的外部测试集。交叉验证中的高性能（通常用一个名为 $Q^2$ 的指标来衡量）是一个好迹象，但它并非成功的保证，因为如果模型构建不当，它可能会有乐观的偏差。

现实检验：Y-随机化

这是一个绝佳的合理性检查。如果结构和活性之间的表观关系纯属巧合呢？为了检验这一点，我们可以进行Y-随机化（或响应置换）。我们取我们的数据集，保持分子结构（ $X$ 值）不变，但完全打乱活性值（ $Y$ 值）。然后，我们尝试用这个毫无意义的、被打乱的数据来构建一个QSAR模型。一个合法的模型应该完全无法找到任何预测关系。如果模型通过某种黑暗魔法仍然表现良好，那这就是一个巨大的危险信号。这意味着我们的建模过程存在缺陷，它在随机噪声中找到了模式。

“此处有恶龙”：适用域

在所有验证原则中，对于QSAR模型的用户来说，最关键的也许是适用域（AD）的概念。一个QSAR模型就像一张你已经探索过的国家的详细地图。在这张地图的边界内导航非常有用。但如果你试图用这张地图来导航一个新的、未被探索的大陆，它就会变得毫无价值且危险。AD就是QSAR模型的“已知世界”的边界。

对一个与训练集中的分子在结构上非常不同的分子进行预测，就是外推。为什么这如此危险？有两个深层次的原因：

统计学失效： 模型的统计保证是基于新数据将来自与训练数据相同的分布这一假设。当我们转向一类新的分子时，这个假设就被违反了——这个问题被称为协变量偏移。模型学到的规则可能根本不适用。
物理学可能改变： 考虑一个专门针对COX-2抑制剂（如药物celecoxib的类似物）训练的模型。这个模型可能会学到，在某个位置添加一个庞大的基团可以提高活性。但是，当我们测试一个具有完全不同化学骨架的分子时，我们可能会发现它与酶的整个结合模式都不同。模型为celecoxib系列学到的“规则”不再相关，因为底层的物理相互作用已经改变。

因此，一个负责任的QSAR模型必须附带对其AD的明确定义。对一个新分子的预测应该伴随着一个警告，如果该分子位于域外，本质上是告诉用户：“此处有恶龙。”

最后的告诫

人们很容易被一个报告了高准确率的模型所诱惑，尤其是一个简单的模型。想象一个毒性模型，仅使用一个描述符，如亲脂性（分子的“油腻”程度），就获得了很高的 $R^2$ 。这看起来非常简单且易于解释。然而，这样的模型可能是一个危险的陷阱。这种相关性可能是虚假的，只对训练它所用的那组特定化学品成立。在一个更大、更多样化的分子集合中，这种简单的关系可能会瓦解，导致模型系统性地将安全的化合物标记为有毒，或者更糟，将有毒的化合物标记为安全。

QSAR模型不是水晶球。它们是用于生成假设的复杂工具。它们帮助我们用数据驱动的地图在浩瀚的分子宇宙中导航，但它们不能取代化学直觉、实验验证和批判性思维。当明智地使用它们，在它们的适用域内，并充分理解其验证过程时，它们是现代探索新药和更安全化学品过程中不可或" "一部分。

应用与跨学科联系

既然我们已经熟悉了定量构效关系（QSAR）的原理，我们就可以开始一次更宏大的旅程。让我们来探索这个卓越的工具将我们带向何方。一个科学原理的真正美妙之处，不在于其抽象的表述，而在于它连接不同领域、解决实际问题、并开启我们过去只能想象的世界大门的力量。QSAR不仅仅是一种统计练习；它是一个镜头，通过它我们可以感知连接分子形式与功能的隐藏交响乐，一个指南针，引导我们在广阔而复杂的化学、生物学和医学景观中前行。

那么，让我们开始我们的旅程，从我们喝的水到我们服用的药物，看看将结构与活性相关联这个简单的想法如何绽放成为现代科学家不可或缺的多功能工具。

守护我们的世界：环境科学与毒理学

QSAR最直接、最具影响力的用途之一是保护我们自己和我们的环境。每年都有成千上万种新的化学品被合成用于工业、农业和商业。我们是否需要对每一种化学品都在活体生物上进行测试，以确定其是否危险？这将是一项西西弗斯式的任务——成本高昂、速度缓慢，且在伦理上充满争议。在这里，QSAR提供了一条更理性的路径。

想象一下，我们想知道一种新的工业溶剂是否可能对鱼类有毒。关于这个分子，我们能问的最基本的问题是什么？也许是，它“喜欢”水，还是“喜欢”油？这种简单的偏好可以通过辛醇-水分配系数（ $K_{ow}$ ）来量化。一个相比于水更喜欢油性环境（辛醇）的分子，更有可能离开水生环境并在生物体的脂肪组织中积累。理所当然地，这种生物累积的趋势可能与其毒性有关。

事实上，对于许多类别的化学品，一个优美而简单的QSAR模型应运而生：毒性的对数与 $K_{ow}$ 的对数呈线性关系。仅仅通过测量一种化学品的溶解度——一种基本的物理性质——我们就能对其潜在危害做出合理的预测，从而让监管机构能够优先对最令人担忧的化学品进行进一步测试，并在此过程中拯救无数动物的生命。

当然，自然界往往更为微妙。有些化学品不是通过简单的积累造成伤害，而是通过精巧地破坏生命精密的机器。考虑一下内分泌干扰物（EDCs），它们可以模仿或阻断激素，对发育造成严重破坏。要预测这种特定的效应，比如与甲状腺激素受体的结合，仅靠疏水性这样的单一描述符是不够的。我们需要一个更详细的分子“性格档案”。用于此目的的QSAR模型可能不仅包括其亲脂性（ $\log P$ ），还包括其极性表面积（其“面部”能与水相互作用的面积）和其柔性（可旋转键的数量）。通过结合这些特征，模型学习到了一种更细致的分子“冒名顶替者”的特征，使我们能够筛选大量的化合物库，以发现这些隐藏的危险。

药物发现的艺术：从效力到精准

在医学领域，对理性设计的追求从未如此热切。发现一种新药的过程长期以来充满了偶然发现和暴力筛选的故事。QSAR帮助将这门艺术转变为一门科学。

追求效力与选择性

药物设计的第一个挑战是找到一个能与疾病相关靶点——一种蛋白质——紧密结合的分子。对于某些靶点，比如两个蛋白质相遇并引发问题的巨大、平坦的界面（蛋白质-蛋白质相互作用，或PPI），这 notoriamente 困难。QSAR可以通过使用专门的描述符来指明方向，例如分子表面疏水部分的比例，或其与蛋白质表面已知“热点”的计算相互作用能。该模型帮助化学家理解需要什么样的分子形状和“粘性”来破坏这些具有挑战性的靶点。

但效力还不够。一种能与所有东西结合的药物不是药，而是毒药。第二个，也常常是更难的挑战是选择性。我们希望我们的药物是针对一把锁的万能钥匙，而不是一把大锤。QSAR也可以巧妙地用于此任务。我们可以建立一个模型来预测我们预期靶点和已知脱靶之间效力的比率，而不是预测单个靶点的效力。目标变成最大化这个比率，而QSAR模型告诉我们哪些分子修饰可能会提高选择性，引导化学家走向不仅强大而且精准的化合物。

未见的危险：预测脱靶效应

这引导我们进入一个关键的应用：预测候选药物的阴暗面。为什么有些分子是“混杂的”，不加选择地与许多蛋白质结合，并引起不必要的副作用？为预测脱靶风险而建立的QSAR模型为我们提供了一个迷人的视角，让我们了解捣蛋鬼分子的物理化学特性。

这些模型使用丰富的描述符调色板，描绘出一幅完整的画面：

亲脂性（ $\log P$ 和 $\log D_{7.4}$ ）： 分子的“油腻”程度。高度油腻的分子倾向于非特异性地粘附在许多蛋白质上，就像油会粘在任何东西上一样。 $\log D$ 甚至更聪明，因为它考虑了分子在生理pH下的电荷，从而更准确地反映其在体内的行为。
电离态（ $\mathrm{p}K_a$ ）： 这决定了一个分子在细胞不同部位是否带电荷。一个碱性分子在血液中（ $\mathrm{pH} \approx 7.4$ ）可能是中性的，可以轻易滑入细胞。但如果它进入像溶酶体这样的酸性隔室（ $\mathrm{pH} \approx 4.5$ ），Henderson-Hasselbalch关系告诉我们它会带电并被困住。这种浓缩会显著增加其引起局部毒性的机会。
形状、大小和极性（分子量、tPSA、 $F_{\mathrm{sp}^3}$ ）： 大、扁平、刚性的分子有时可以像万能钥匙一样，适配许多不同的锁。相比之下，更小、更具三维性、“多刺”的分子（ $F_{\mathrm{sp}^3}$ 是三维特征的度量）通常更具特异性。

通过学习数千种化合物的模式，这些QSAR模型充当了早期预警系统，早在动物或人体测试之前就标记出那些具有“混杂”药物“外观和感觉”的分子。

前沿：QSAR与更深层物理学的交汇

当QSAR由对系统底层物理和生物学的深刻理解引导时，其最深远的应用便产生了。在这里，模型超越了单纯的统计相关性，成为科学理论的体现。

倾听过渡态的声音

也许这种协同作用最美丽的例子来自酶抑制剂的设计。酶是自然的催化剂，能将反应速率提高数百万甚至数十亿倍。它们是如何施展这种魔法的呢？根据过渡态理论，它们通过创造一个与反应的短暂、高能量过渡态——反应物和产物之间的不稳定中间态——精巧互补的活性位点来做到这一点。与这个过渡态的结合自由能 $\Delta G^{\ddagger}$ ，决定了反应速率。

现在，假设我们想要设计最有效的抑制剂。我们应该设计一个模仿稳定起始物（底物）的分子吗？不！酶并非与底物结合最紧密；它与过渡态结合最紧密。因此，一个完美的抑制剂应该是一个看起来像不稳定过渡态的稳定分子——一个过渡态类似物（TSA）。

这一深刻的物理见解对QSAR有直接影响。如果我们试图使用TSA稳定的基态结构的描述符来建立一个预测其效力的模型，该模型将惨败。它问错了问题！模型没有关于决定抑制剂效力的那个关键属性的信息：它的“TS-相似性”。然而，如果我们使用从过渡态的量子力学计算中得出的特征——它的几何构型、电荷分布、与酶电场的相互作用能——来构建模型，该模型可以变得非常具有预测性。这是一个强有力的教训：我们的模型的好坏取决于它们所体现的物理学。

分子开关与设计师药物

QSAR的多功能性在光药理学等前沿应用中也大放异彩。想象一下一种可以用一束光来开启和关闭的药物。这就是光开关分子（如偶氮苯）的希望所在，它们在暴露于不同波长的光时可以在两种形状（顺式和反式）之间翻转。挑战在于设计分子，使其一种形状是活性的，而另一种是无活性的。

这是一个非常适合QSAR的问题。目标是最大化两种异构体之间活性的差异。一种非常优雅的方法是建立一个QSAR模型，直接从两种异构体描述符的差异（例如，偶极矩的变化 $\Delta\mu$ 或形状的变化）来预测活性的这种差异 $\Delta \log(1/C)$ 。这种“差值”方法将模型集中在对切换生物效应至关重要的确切结构变化上，从而实现了光控药物的理性设计。

科学家的指南针：构建值得信赖的模型

拥有如此强大的力量也伴随着巨大的责任。一个预测模型是一个强大的工具，但一个有缺陷的模型是危险的。我们如何确保我们的QSAR模型不仅仅是数学幻想，而是通往现实的可靠向导？QSAR社区为此制定了一套严格的原则。

首先，模型的预测能力必须在它从未见过的数据上进行测试。但即便如此，也可能存在陷阱。假设我们的训练数据包含许多共享相同核心结构或“骨架”的分子，仅在次要修饰上有所不同。如果我们的测试集也包含具有相同骨架的分子，模型可能会表现良好，不是因为它学到了一个通用原则，而是因为它仅仅记住了那个骨架的样子。这被称为“同源序列泄漏”。为了真正测试一个模型是否能够泛化和创新——看它是否能够进行“骨架跃迁”到一个新的化学系列——我们必须使用基于骨架的划分进行验证，即属于给定骨架的所有分子要么都在训练集中，要么都在测试集中，但绝不同时存在于两者中。这就像测试学生全新的问题类型，而不仅仅是重述家庭作业的问题。

其次，也是最重要的，每个模型都有其局限性。QSAR模型就像一张特定国家的详细地图——由其训练集定义的化学空间。在该国境内，其预测是可靠的。但如果你让它预测一个来自完全不同大陆的分子——一个在结构或物理化学性质上与它训练过的任何东西都大相径庭的分子——的属性，你就“超出了地图范围”，预测就不可信了。这就是适用域（AD）的概念。

现代QSAR不仅包括做出预测，还包括陈述该预测的置信度。我们使用数学工具，如分子的“杠杆值”，来确定它是否是落在模型专业领域之外的异常值。一个完整、稳健的QSAR研究涉及一整套验证检查：内部交叉验证（ $q^2$ ）、在测试集上的外部验证（ $R_{\mathrm{ext}}^2$ ），甚至Y-随机化（打乱数据以确保原始相关性不只是侥幸）。

归根结底，QSAR模型不是水晶球。它是一种以数学形式呈现的科学假设。其发展和应用横跨从毒理学到酶学的各个领域，代表了化学、生物学、统计学和物理学的美妙融合。当以严谨的态度和对其局限性的诚实评估来使用时，这些模型便成为我们在广阔而奇妙的分子世界中航行的不可或缺的指南针。