自动化结构解析

玻尔百科

定义

自动化结构解析是分析化学领域的一种两阶段计算方法，通过生成所有化学上合理的候选结构并根据实验证据对其进行评分。该技术利用概率框架（通常基于贝叶斯定理）整合质谱和核磁共振波谱数据，从而确定元素分子式并映射原子连接性。现代系统结合了图神经网络等人工智能技术来预测光谱，并能够处理复杂分子组合中的不确定性。

核心要点

自动化结构解析是一个两阶段过程：首先生成所有化学上合理的候选结构，然后根据实验证据对每个结构进行评分。
该方法依赖于整合多种光谱数据类型，主要使用质谱确定元素组成，并使用核磁共振波谱绘制原子连接性。
一个通常使用贝叶斯定理的概率框架是该过程的核心，它允许定量比较每个候选结构对观测数据的解释程度。
现代系统利用人工智能和机器学习（如图神经网络）来预测波谱，并处理可能分子的巨大组合复杂性。
该方法的一个关键优势是其报告模糊性的能力，即提供一组可信的可能结构，而不是一个单一的、可能具有误导性的答案。

引言

鉴定未知分子的精确结构是化学中最基本但最具挑战性的任务之一。传统上，这种“结构解析”是一个艰苦的手动数据解读过程，类似于利用各种波谱技术提供的线索来解决一个复杂的谜题。然而，现代研究中庞大的数据量和分子异构现象的微妙性要求一种更系统、更具可扩展性的方法。本文通过深入探讨自动化结构解析的世界来满足这一需求，这是一种强大的计算方法，将这种解谜过程转变为一门严谨的概率科学。在接下来的章节中，您将探索这项技术的基础支柱，从支配分子生成的逻辑规则到用于评分的统计方法。这段旅程始于“原理与机制”，在这里我们将揭示计算机如何被教授化学，以及它如何根据光谱证据审视候选结构。之后，“应用与跨学科联系”将展示这一过程的实际应用，展示一个完整的工作流程，并突出其与人工智能、大数据和统计学的融合，以解决现实世界中的化学谜题。

原理与机制

想象一位侦探面对一个复杂的犯罪现场。现场有指纹、脚印、一种神秘粉末和一张神秘的字条。侦探的工作不仅仅是确定一个嫌疑人，而是将所有这些零散的线索编织成一个连贯的叙述，以理解什么是确定的，什么是可能的，以及什么是未知的。自动化结构解析是化学界的宏大侦探故事，在计算机内部上演。未知分子是罪魁祸首，而来自我们光谱仪的数据流就是线索。目标不仅仅是命名一个结构，而是描绘出化学可能性的整个图景，并在旅程的每一步报告我们的置信度。这段旅程建立在两大支柱之上：首先，生成一个完整且唯一的、包含所有可能嫌疑人（候选结构）的列表；其次，系统而严谨地根据证据审问每个嫌疑人（概率评分）。

教计算机学习化学

在计算机能够解决化学难题之前，我们必须首先教会它化学的语言。这比表面上看起来要深刻得多。我们将分子视为美丽的三维物体，但计算机只看到数据。

什么是分子（对计算机而言）？

对计算机而言，分子不是一幅画，而是一个数学对象——一个化学图。在这个图中，原子表示为节点，连接它们的化学键表示为边。但仅仅是节点和边的集合并不是一个分子。它缺乏支配化学世界的基本规则。人类化学家凭直觉知道碳原子通常形成四个键，而不是三个或五个。计算机则必须被明确地教授这一点。

这是通过施加一套严格的约束来实现的，将构建分子的任务变成一个巨大的逻辑谜题。这些不仅仅是建议；它们是转化为代码的不可侵犯的自然法则。系统必须遵守化合价规则——即每种类型的原子允许形成的化学键数量。它必须进行电子记账以正确分配形式电荷。它甚至必须理解芳香性的微妙之处，即像苯这样的环状体系的特殊稳定性，它遵循其自身的量子力学规则。通过将这些规则表述为约束满足问题 (CSP)，计算机可以系统地生成代表化学上有效的分子的图，并在任何不符合化学基本定律的假设排列完全构建之前就将其丢弃。这是一个受约束的想象过程，确保我们名单上的每个嫌疑人至少都是一个合理的化学实体。

第一个线索：权衡证据

游戏规则确立后，我们侦探的第一个硬性证据通常来自质谱仪。质谱仪是一种精度惊人的分子天平。当一个分子进入高分辨率仪器时，它的重量被精确测量，以至于我们通常可以确定其确切的元素组成。

这个过程是一个优美的逻辑推导。仪器可能会报告一个单一、精确的数字：分子离子的质荷比（ $m/z$ ），比如说 $129.04260$ 。这条单一的线索异常强大。因为我们知道每种元素的同位素（碳-12、氢-1、氮-14等）的精确质量，精确到许多小数位，所以我们可以让计算机找出C、H、N和O原子的所有组合，使其总质量在测量值的极小容差窗口内（可能为百万分之几）。

但我们还有更多线索。氮规则，化学智慧的瑰宝，指出标称质量为奇数的分子必须含有奇数个氮原子。这个简单的规则极大地减少了可能的化学式数量。我们还可以为每个潜在的化学式计算双键当量 (DBE)。DBE是分子中环和多重键（双键或三键）数量的计数。DBE为0意味着分子是饱和的，没有环或 $\pi$ 键；DBE为4可能暗示存在一个苯环。对于我们假设的质量 $129.04260$ ，这个推导过程可能会将无限多的可能性缩小到唯一的元素组成： $\mathrm{C_5H_7NO_3}$ ，DBE为3。我们刚刚利用一个数据点确定了我们未知物的确切原子构件。

当然，现实更为复杂。用于此推导的干净峰列表本身就是一个关键预处理步骤的产物。来自质谱仪的原始信号是一个连续、嘈杂的剖面。将此转换为离散的峰列表——一个称为质心化和峰提取的过程——需要仔细选择参数。过于激进的滤波器可能会抹去低丰度同位素微弱但至关重要的峰，而过于宽松的滤波器则可能引入噪声。这是一个微妙的平衡；所有后续分析的保真度都取决于这第一步的质量。

蓝图：生成候选结构

知道元素组成就像知道一所房子是由一堆特定的砖、木和玻璃建造的。接下来的问题是：你能建造多少种不同的房子？原子可以连接形成有效分子的方式数量——即构造异构体的数量——随着原子数量的增加而以惊人的速度增长。对于像 $\mathrm{C_{10}H_{22}}$ 这样的简单化学式，有75种异构体。对于 $\mathrm{C_{20}H_{42}}$ ，有超过30万种。这就是组合爆炸，它代表了我们侦探必须导航的广阔搜索空间。计算机的任务是为每一种可能性生成蓝图。

避免冗余：异构体、互变异构体和共振

在这个生成过程中，系统必须足够聪明，以避免多次计算同一事物。它必须区分真正不同的分子和仅仅是符号上的巧合。

构造异构体是具有不同原子连接性的真正独特的分子。它们是必须保持独立的独特嫌疑人。
共振结构，比如在苯环中绘制双键的不同方式，根本就不是不同的分子。它们只是单一、离域电子现实的替代性路易斯结构表示。一个复杂的系统必须识别所有共振形式为描述同一实体，并将它们合并为单一表示。
互变异构体是一个有趣的中间案例。它们是快速相互转化的不同异构体，通常通过一个质子和一个双键的移动（如酮的酮式和烯醇式）。为了生成唯一的候选列表，它们通常被归为一类。然而，因为它们是处于平衡状态的真实、独特的物种，在预测光谱时可能需要单独考虑，因为它们各自的信号可能是可观察的。

为了管理这种复杂性，化学信息学家发展了规范表示法的概念。使用一种算法为每个分子图生成一个唯一的文本字符串——一个规范标识符，如 InChI 字符串。无论原子如何编号或共振结构如何绘制，该分子的规范标识符将永远相同。这确保了我们的嫌疑人列表精确地包含每种独特的构造异构体一次，从而驯服了组合爆炸，并防止了对冗余结构的徒劳追逐。

审问：根据证据为候选结构评分

我们现在有了一个干净的嫌疑人名单（候选结构）和一整文件夹的线索（光谱数据）。自动化平台的核心是审问：一个严谨、定量的过程，以确定每个候选结构对观测证据的解释程度。

概率的语言

我们如何形式化“一个结构对数据的解释程度”？优雅而强大的答案在于概率的语言。对于每个候选结构，我们问一个简单的问题：“假设这个结构是正确的，我们观测到我们确实得到的实验光谱的概率是多少？”这个概率被称为似然。那些使我们的观测数据看起来很可能的候选结构会得到高似然分数；那些使其看起来不可能的则会得到低分。

然后，这个似然性与先验概率（我们对该结构可能性的初始信念，或许基于其化学稳定性）使用贝叶斯定理相结合。结果是后验概率——我们在看到证据后对该结构的更新信念。后验概率最高的候选结构是我们的最佳猜测。

这种概率方法不仅仅是任意选择；它在数学上是有原则的。我们用来为候选结构评分的函数，即对数似然，是一种所谓的恰当评分规则。它具有一个优美的特性，即它唯一地奖励一个模型报告“真相”——也就是说，产生与现实完美校准的概率估计。最大化似然不仅能找到一个好的答案；它激励整个系统成为一个更诚实、更准确的化学现实预测器。

解读核磁共振蓝图

如果说质谱告诉我们构件，那么核磁共振（NMR）波谱学则告诉我们它们是如何连接的。它是分子的建筑蓝图。系统通过预测候选结构的NMR谱并将其与实验谱进行比较来对其进行评分。

这个过程是分层建模的杰作。对于一维核磁共振，计算机预测候选结构中每个原子的化学位移。然后将这些预测与观测到的峰进行比较。但是哪个预测的位移对应于哪个观测到的峰呢？这是指认问题，一个谜中之谜。一个稳健的系统不会只确定一种指认；它会考虑所有合理的映射，并对这种不确定性进行边缘化。此外，软件的预测从不完美。系统必须学会根据已知数据集校准预测的位移及其不确定性，了解预测器是否存在系统性偏差或过于自信。

对于像HMBC这样的二维NMR实验，它揭示了相隔两到三个键的原子之间的相关性，建模变得更加复杂。对于候选结构中每个预期的相关性，模型计算实际观测到它的概率。这个概率取决于NMR实验的复杂物理过程——磁相互作用的强度（耦合常数）、实验的持续时间以及核自旋失去其相干性的速率（弛豫）。至关重要的是，模型还必须考虑一个不完美的世界。它包括假阴性（一个真实但太弱而无法检测到的相关性）和假阳性（由噪声产生的伪峰）的概率。NMR数据的最终似然是所有这些单个概率的乘积——一个单一、强大的数字，量化了候选结构提出的连接性与观测到的相关性网络之间的一致性。[@problem-id:3694001]

使用串联质谱进行解构

另一种强大的审问技术是串联质谱（MS/MS）。在这里，分子被故意打碎，并测量所得碎片的质量。这种裂解模式是分子结构的丰富指纹。

为了给候选结构评分，系统预测它可能如何断裂，并生成一个可能的碎片质量列表。然后它面临另一个指认问题：将观测到的碎片峰列表与预测的列表进行匹配。这被解决为一个优化问题。每个潜在的匹配都有一个基于质量匹配程度的成本。对于未解释的峰——无论是没有相应碎片的观测峰，还是没有相应峰的预测碎片——都有惩罚。系统找到成本最低的指认，这代表了对裂解模式最合理的解释。

但如果证据本身被污染了呢？如果在实验过程中，仪器意外地同时分离并打碎了两个不同的分子呢？由此产生的嵌合谱图将是来自两个不同母体的碎片的混乱混合物，会误导任何评分算法。一个真正智能的系统会包含一个质量控制检查。在查看碎片之前，它会仔细审查被选择进行裂解的母离子的同位素模式。通过将此模式拟合到一个统计模型，它可以执行似然比检验来提问：“这个信号是由一种纯物质更好地解释，还是由两种物质的混合物更好地解释？”如果数据被标记为嵌合的，它可以被降权或丢弃，防止我们的侦探被受污染的证据误导。

结论：如实报告

在生成了数千个候选结构并根据大量数据对每个结构进行评分后，系统按其后验概率对它们进行排名。但故事并不仅仅以宣布获胜者而告终。事实上，这个过程中最重要的部分是以科学的诚实来传达结果。

通常，实验数据是欠定的——也就是说，多个不同的结构与证据一致，并最终得到非常相似的高后验概率。例如，数据可能强烈表明存在一个酯基，但对分子另一端的长烷基链的排列完全不敏感。在这种情况下，许多异构体将具有几乎相同的分数。

简单地报告得分最高的单一结构（最大后验或 MAP 估计）将是危险的误导。它会在不存在确定性的地方制造一种确定性的幻觉。一个真正稳健和诚实的平台会做一些更有价值的事情：它量化并报告这种模糊性。

它提供的不是单一结构，而是一份结构化的后验报告。它给出关键结构特征的边缘概率：“我们有99%的把握确定该分子含有一个酯基，85%的把握确定它含有一个芳香环。”它将高分候选结构分组为共享共同结构基元的等价类。最重要的是，它呈现一个可信集——一个超过特定概率阈值的所有结构的列表——而不仅仅是一个。这不仅告诉化学家“答案是什么”，而且告诉他们“我们知道什么，我们不知道什么，以及我们对每一部分的信心有多大。”这是科学方法最终也是最深刻的表达：一份关于我们知识状态的完整而透明的说明。

应用与跨学科联系

要真正领会自动化结构解析的力量与美感，我们必须亲眼见证它的运作。在探索了构成其基础的原理与机制之后，我们现在踏上一段旅程，去见证这些抽象概念如何变为现实。我们将看到这个领域并非化学的孤岛，而是一个繁华的十字路口，物理学、计算机科学、统计学和工程学在此交汇，共同解决科学最基本的谜题之一：鉴定未知物。

把一个未知分子想象成一个犯罪现场。我们这些分子侦探到达现场，发现了一系列神秘的线索——光谱数据。我们的任务是根据这些线索重建“嫌疑人”。一个自动化平台就是我们整个法医实验室、我们的超级计算机和我们的资深专家三位一体。它不只是遵循一个食谱；它会思考、推理、预测，甚至质疑自己的确定性。让我们跟随这位非凡侦探的工作流程。

侦探的工作流程：从原始线索到验证结构

在对一个全新的分子展开全面调查之前，一个好的侦探首先会问一个简单的问题：“我以前见过这个吗？”在每天可能筛选数千种化合物的高通量分析世界里，这一步不仅仅是好的做法——它是必不可少的。这种快速识别和过滤已知化合物的过程称为去重复。自动化系统以惊人的速度执行这种分类。它获取我们未知分子的“指纹”——其精确质量及其串联质谱（MS/MS）的裂解模式——并在一个巨大的已知化合物库中进行搜索。匹配并非简单的“是”或“否”；它是一种复杂的比较，通常使用光谱向量之间的余弦相似度等度量。如果质量在百万分之几的误差内匹配，并且裂解谱图与库中条目几乎相同，系统会标记一个“命中”，然后继续前进，将其最强大的分析工具留给真正新颖的谜题。

但如果我们的化合物不在库中呢？真正的侦探工作开始了。第一个问题是：它是由什么构成的？它的元素组成是什么？在这里，我们求助于自然界一个极其优雅的技巧。大多数元素并非单一存在；它们有更重、更稀有的同位素。作为生命骨架的碳，有一个稳定的重同位素，碳-13 ( $^{\text{13}}\text{C}$ )，约占所有碳原子的1.1%。高分辨率质谱仪非常灵敏，它不仅能测量主分子（仅含 $^{12}\text{C}$ 原子）的质量，还能“看到”含有恰好一个 $^{\text{13}}\text{C}$ 原子、或两个等等的分子的微弱信号。

这种“精细同位素结构”是一份礼物。找到一个恰好含有一个 $^{\text{13}}\text{C}$ 原子的分子的概率取决于碳原子的总数 $n$ 和 $^{\text{13}}\text{C}$ 的自然丰度。通过简单地测量这个“重一个单位”峰的相对强度，我们可以利用统计学，特别是最大似然估计，反向推算出我们分子中最可能的碳原子数。借助现代仪器和复杂的算法，我们基本上可以以惊人的精度“数出”原子，从而得到分子式——构成我们未知结构的砖块。

一旦我们知道了原子，就必须弄清楚它们是如何连接的。这是我们组装分子骨架的地方，而我们的首要工具是核磁共振（NMR）波谱学。如果说质谱告诉我们构件的重量，那么NMR则告诉我们它们是如何排列的。不同的NMR实验提供不同的视角。一维 $^{1}\text{H}$ 谱告诉我们氢原子的化学环境及其近邻。但真正的威力来自二维实验，如COSY（相关谱）。COSY谱就像一张质子的社交网络图：两个质子之间的交叉峰告诉我们它们在相互“交谈”，通过几个化学键耦合。

一个自动化平台可以用图论的形式化优雅来处理这个问题。每个不同的质子信号是图中的一个节点。如果两个节点之间有显著的耦合或COSY交叉峰连接，就在它们之间画一条边。这个图的不连通部分的数量——即连通分量——揭示了分子中独立“自旋体系”或碎片的数量，例如一个乙基 ( $-\text{CH}_2\text{CH}_3$ ) 或一个苯环。通过将这种连接性信息与来自 $^{\text{13}}\text{C}$ NMR的数据相结合（它告诉我们碳骨架的信息，区分 $\text{CH}_3$ 、 $\text{CH}_2$ 、 $\text{CH}$ 和季碳），该平台可以解开这个谜题，将碎片组装成一个一致的构造框架。

然而，即使是一张完整的二维蓝图也不是全部。分子存在于三维空间中，它们的3D形状对其功能往往至关重要。这就是立体化学的挑战。考虑一个有两个手性中心的分子；它可以以四种不同的形式（非对映异构体）存在，每种形式具有相同的原子连接性但不同的3D排列。我们如何区分它们？NMR再次提供了一把尺子。核奥弗豪泽效应（NOE）是一种现象，其中空间上接近的质子——无论它们是否通过化学键连接——都可以相互影响。在NOESY实验中测量的这种效应的强度对它们之间的距离极其敏感，与 $r_{ij}^{-6}$ 成比例。

这给了我们一套强大的约束。通过测量NOE交叉峰，我们可以推导出关键质子之间距离的上限。但分子不是静态的；它们是灵活的，不断摆动和旋转成不同的形状（构象异构体）。观测到的NOE是整个构象系综的平均值。一个复杂的平台通过为每个候选非对映异构体生成一个合理的构象系综，计算玻尔兹曼加权平均距离（具体为 $\langle r^{-6} \rangle^{-1/6}$ ），然后检查哪个非对映异构体的系综与实验测量的距离约束兼容来解决这个问题。这是统计力学、量子力学和计算搜索的美妙结合。

立体化学的最后前沿是确定绝对构型——我们的分子是“左手”还是“右手”版本（对映异构体）？由于对映异构体具有相同的能量和大多数物理性质，它们是众所周知的难以区分。在这里，我们需要一种本身就是手性的技术：手性光谱学，如电子圆二色谱（ECD）或振动圆二色谱（VCD），它测量对左旋和右旋圆偏振光的不同吸收。

其美妙之处在于，由于基本的对称性，一个对映异构体的谱图是另一个的镜像。挑战在于，从第一性原理预测这些谱图是一项艰巨的任务，需要含时密度泛函理论（TDDFT），这是一种带有自身不确定性的量子力学计算。因此，自动化平台必须充当一个明智的仲裁者，将嘈杂的实验谱图与两个对映异构体的不确定理论预测进行比较。这是一个贝叶斯决策理论的问题。系统计算给定每个理论模型的实验数据的似然性，同时包含理论和实验误差。然后它选择最可能的结构，并且至关重要的是，如果证据不足以做出自信的判断，它甚至可以决定弃权，使用像贝叶斯因子这样的统计度量来量化证据的强度。

现代武器库：人工智能、大数据与物理学的交汇

我们刚刚描述的工作流程是逻辑推导的奇迹。但使其真正具有革命性的是它与计算机科学和人工智能前沿工具的融合。

几十年来，光谱预测是人类专家的领域，他们记忆裂解规则。今天，我们正在教机器从数据中学习这些规则。图神经网络（GNNs）是一种非常适合分子结构的深度学习形式，可以在包含大量已知分子及其谱图的库上进行训练。GNN学会将分子图直接映射到预测的质谱。这不仅涉及预测峰的位置，还涉及它们的相对强度，需要复杂的多任务损失函数来平衡峰存在的分类任务和强度预测的回归任务，同时还要遵守归一化等物理约束。这使我们能够为从未被合成或测量过的候选结构生成假设的光谱，从而极大地扩展了我们的搜索空间。

这种生成和搜索数百万个候选结构的能力带来了新的挑战：速度。暴力搜索，即每个候选结构都与数据进行严格比较，在计算上是不可行的。在这里，自动化平台借鉴了大数据世界的绝妙思想。混合搜索系统是这方面的一个完美例子。它采用两层方法。首先，一种快速但近似的方法，如对谱嵌入进行近似最近邻（ANN）搜索，从数百万的库中迅速创建一个包含几百个最有希望的候选结构的短名单。这就像快速浏览以排除不可能的选项。然后，也只有到那时，才会部署重型武器：使用更慢、更准确的基于物理的裂解模型来重新排序这个短名单，找到最佳匹配。这种策略在准确性上只有微小、可量化的权衡，却带来了巨大的速度提升，使棘手的问题变得易于处理。

科学家的良知：严谨性、可靠性与可重复性

拥有如此强大的力量也伴随着巨大的责任。一个以高置信度给出错误答案的自动化系统比没有系统更糟糕。最后，也许也是最深刻的跨学科联系，是与统计学原理和科学方法本身的联系。我们如何确保我们的结果是可靠的？

当我们从库搜索中得到一个高分匹配时，我们必须问：“这是否可能偶然发生？”为了回答这个问题，平台采用了优雅的靶-诱饵策略。对于每个“靶”（真实）库，都会构建一个“诱饵”库，里面装满了化学上合理（例如，相同化学式）但不正确的结构。通过用我们的数据同时搜索这两个库，我们可以看到从诱饵集中得到了多少高分命中。这为我们提供了零分布的经验估计——即我们期望从随机机会中得到的分数。由此，我们可以计算出假发现率（FDR），为我们结果的整体质量提供统计保证。这是一种巧妙的内部控制，使我们能够充满信心地大规模操作。

此外，我们的平台整合了多种类型的数据——MS1、MS/MS、NMR、CCS等等。每一份数据都同样有价值吗？我们可以使用消融研究来回答这个问题，这是一个从机器学习中借来的概念。我们系统地“消融”或一次移除一种数据类型，并测量平台的性能下降了多少。利用信息论中的概念，如交叉熵的变化，我们可以量化每种模态提供的“信息增益”。这告诉我们哪些实验最关键，并揭示了组合它们所产生的强大协同效应。

最后，为了确保该领域的进步，我们必须能够公平地比较不同的自动化方法。这需要严格的基准测试协议。一个常见的陷阱是“信息泄露”，即机器学习模型在训练期间无意中看到了测试数据。这就像让学生提前看到考试题目一样。一个恰当的协议涉及在独特分子结构的层面上仔细分割数据集，确保没有分子，甚至其近亲化学类似物，同时出现在训练集和测试集中。这保证了我们正在测试一个模型对新化学物质的真正泛化能力，从而在人工智能时代维护了科学过程的完整性。

最终，对自动化结构解析的追求是现代科学的一个完美缩影。它是一次宏大的综合，将支配分子行为的量子力学规则、解释嘈杂数据所需的统计逻辑，以及探索广阔得难以想象的化学空间的算法和人工智能的计算能力编织在一起。它是一个赋予人类创造力的工具，将科学家从繁琐的分析中解放出来，专注于下一个伟大的发现，推动我们对分子世界认知的边界。