
现代科学面临着一个严峻的挑战:潜在的新分子和新材料的数量是天文数字,远远超出了我们物理合成和测试的能力。在这个巨大的可能性“干草堆”中,隐藏着解决我们最紧迫问题的钥匙,从治愈疾病到开发下一代能源技术。传统的实验筛选方法过于缓慢和昂贵,无法有效地探索这个空间。这就造成了一个关键的知识鸿沟:我们如何才能以前所未有的规模,高效地寻找新颖、高性能的化合物?
本文探讨了高通量计算筛选,这是一种革命性的范式,通过将搜索工作从实验室平台转移到超级计算机上来应对这一挑战。您将了解到这种虚拟方法如何让科学家们能够以物理实验的一小部分成本和时间评估数十亿个候选物。在接下来的章节中,我们将剖析使这一切成为可能的核心思想。“原理与机制”一章将揭示各种计算策略,从多阶段筛选漏斗和分子对接到能够从结果中学习的、复杂的人工智能驱动的智能体。随后,“应用与跨学科联系”一章将展示这些方法如何改变材料科学、医学和生物学领域的真实世界研究,推动一个自动化和加速发现的新时代。
想象一下,您正在为一把非常重要的锁寻找钥匙。这不是一把普通的钥匙,它是一个能够阻止疾病的独特分子,或者是一种能够彻底改变能源技术的新型晶体结构。问题在于,可能的分子或材料数量如同一个巨大的干草堆,这是一个天文学级别的候选空间,其规模之大远超我们物理合成和测试的希望。我们该如何开始寻找那百亿亿分之一的钥匙呢?这正是高通量计算筛选旨在解决的宏大挑战。
传统上,人们可能会手工搜索这个干草堆,这个过程被称为实验性高通量筛选(HTS)。这涉及实验室中成群的机器人,一个接一个地物理测试成千上万甚至数百万个化合物。这种方法直接而明确——如果一个化合物有效,你就能看到它的效果。但它也极其昂贵、缓慢,并且受限于你碰巧拥有的实体化合物库。
计算筛选提供了一种革命性的替代方案。我们不再物理测试分子,而是在计算机内部进行测试。这就是虚拟筛选(VS)。其核心优势在于规模和速度的巨大转变。我们能够以一小部分成本和时间,评估数十亿甚至数万亿个数字候选结构,这个化学宇宙远比任何实体化合物库都更为广阔。然而,这种能力伴随着一个重要的警告。虚拟筛选是一种模拟,是对现实的近似。它的预测并非金科玉律。用于预测一个分子是否为“命中物”的评分方法并不完美,常常导致大量的假阳性——即那些在计算机上看起来不错但在实验室中失败的化合物。计算筛选的艺术与科学在于管理这种权衡:利用巨大的速度优势,同时智能地滤除噪音,以找到真正的宝藏。
虚拟筛选最直接的方法可称为“暴力”法。它就像一个巨大的筛子或一个多阶段的漏斗,旨在快速丢弃没有前途的候选物,并将计算能力集中在最有可能成功的候选物上。
该过程始于一个庞大的数字库,可能包含数百万种化合物。对每一个化合物都运行复杂的模拟仍然太慢。因此,第一步是一个粗略的、计算成本低廉的过滤器。在药物发现中,一个经典的例子是应用一套指导原则,如Lipinski的五规则。这些规则并不预测分子是否会与靶蛋白结合。相反,它们检查的是基本的“类药”属性,如分子大小和溶解度,这些是药物被人体吸收所必需的。通过剔除那些(例如)太大或太油腻而无法成为口服药物的分子,我们可以在不运行任何昂贵模拟的情况下,大幅削减候选池的规模。这是一个务实的选择,旨在将资源集中在那些有机会在成为真正药物的整个过程中存活下来的化合物上。
只有通过了这场初步筛选的幸存者才能进入主要环节:计算密集型模拟,例如分子对接。在对接中,目标是预测小分子(配体)如何适配到靶蛋白上的特定口袋中——即其“结合构象”——并估算这种相互作用的强度。要对数百万个化合物(每个都有无数可能的朝向)完成这项工作,需要计算上的天才之举。对于每一种可能的构象,直接计算每个配体原子与每个蛋白质原子之间的相互作用能,其速度会慢得令人望而却步。
相反,许多程序采用了一种巧妙的优化方法。在筛选开始之前,它们进行一次性、密集的计算,为蛋白质的结合位点创建一张“藏宝图”。它们在位点上叠加一个三维网格,并为不同类型的“探针”原子(如碳原子、氧原子等)预先计算每个网格点上的势能。这样就生成了一组势能场。现在,当对接一个新配体时,程序不再需要重新计算与整个蛋白质的相互作用。它只需将配体的原子放置在网格上,并从预先计算的图中查找相应的能量值。这将一个极其复杂的计算转变为一系列闪电般的查表操作,极大地减少了为每个候选物评分所需的时间,使得筛选数百万个化合物成为可能。
这个过程的输出是一个分数,它是结合自由能 的估计值。在热力学中,该能量由两部分组成:与“适配度”(如氢键和静电吸引力)相关的焓项(),以及与系统无序度变化相关的熵项()。精确计算熵变——它解释了分子被锁定到位时自由度的损失以及周围水分子的复杂重排——是计算化学中最困难的问题之一。这需要巨大的计算能力。因此,为了保持速度,高通量筛选中使用的大多数评分函数都集中在焓项上,并对熵使用非常粗略的近似,甚至完全忽略它。这是一个根本性的妥协,是为速度而牺牲准确性,也是评分函数产生假阳性的一个主要原因。
面对数百万个按分数排序的化合物,我们如何知道筛选是否成功?我们无法对所有化合物进行实验测试。一种常见的做法是,从列表的最顶端取一小部分——比如前1%——在实验室中进行测试。为了衡量我们的成功,我们使用一个称为富集因子(EF)的指标。富集因子比较了在我们排名靠前的子集中发现的“命中率”(活性化合物的比例)与整个库中的总命中率。例如,富集因子为20意味着,在我们选择的部分中发现的命中物数量是随机挑选的20倍。它是一个量化指标,衡量了我们的计算筛在区分良莠方面的效果。
到目前为止,我们讨论的是为单个“锁”找到一把“钥匙”——即优化单个属性。但现实世界的设计问题几乎从不如此简单。考虑一下寻找透明导电氧化物(TCO)的过程,这是一种用于太阳能电池和触摸屏的材料。TCO必须满足两个相互冲突的要求:它必须导电(需要可移动的载流子),并且必须光学透明(需要宽的电子带隙以避免吸收可见光)。好的导体通常不透明,而透明的材料通常是绝缘体。
这是一个多目标优化问题。很可能没有单一材料在所有方面都是“最好”的。相反,存在一组最优的权衡,被称为帕累托前沿。想象一个图表,一个轴是透明度,另一个轴是导电性。帕累托前沿是可能性边界,它是一组候选物的集合,对于这些候选物,如果不牺牲另一个属性,就无法改善其中一个属性。这个前沿上的一个材料可能比它的邻居导电性稍好但透明度稍差,而它的邻居则透明度稍好但导电性稍差。两者都以各自的方式是“最优”的。一个成功的针对TCOs这类问题的筛选工作流必须识别出能够推动这一前沿的候选物,并基于一整套物理描述符(如带隙、电子有效质量和可掺杂性)进行筛选。关键是,像加权和这样简单的目标组合方法可能会失败。帕累托前沿上一些最有趣的解可能隐藏在“非凸”区域,使得它们在这种简单方法下不可见,需要更复杂的搜索策略才能被发现。
多阶段漏斗是一种强大但静态的、暴力的方法。如果我们的搜索能更智能呢?如果我们不是筛选整个库,而是有一个“专家”来指导我们,根据我们之前的发现告诉我们接下来该看哪里呢?这是从高通量筛选到加速材料筛选(AMS)的范式转变,这是一个由人工智能驱动的过程。
把它想象成一个序贯的、自适应的游戏。一个AI智能体开始时对广阔的化学空间知之甚少。它选择一个候选物并运行模拟。它获取结果,从中学习,并更新其内部的世界“地图”。然后,它面临一个关键决定:是应该利用其当前知识,测试其地图上显示非常有前途的候选物,还是应该探索地图上充满不确定性的区域,那里可能潜藏着伟大的发现?这种智能的平衡行为是AMS的核心。目标不再是仅仅测试很多东西,而是通过让每一次计算都发挥作用,最大限度地减少达到首次发现的成本和时间。
为了让AI完成这一壮举,它首先需要一种“看”和“理解”分子的方法。我们不能简单地给它一个原子坐标列表。一个分子的性质不会因为我们旋转它、移动它或重新标记其相同的原子而改变。它的数学表示,即特征化,必须尊重这些基本的物理不变性。这是一个横跨物理学和计算机科学的深刻挑战,催生了优雅的解决方案,例如使用分子库仑矩阵的特征值或其他在平移、旋转和置换下具有內在不变性的描述符。通过将这些对称性构建到特征化中,我们在AI开始学习之前就教会了它物理学的基本语法。
最后,最复杂的搜索代理具有自我意识。它们不仅提供预测,还报告自身的不确定性。这种不确定性有两种。第一种是偶然不确定性,这是系统中固有的噪音或随机性,比如在有限温度下原子的随机抖动或实验测量中的噪音。这是一种模型无法消除的、不可简化的“迷雾”。第二种是认知不确定性,这是模型自身知识的缺乏。在模型几乎或完全没有见过数据的化学空间区域,这种不确定性很高。
智能体利用这种自我认知来指导其策略。它可以选择探索认知不确定性高的区域,以快速扩展其知识并改进其内部地图。或者,如果一个候选物看起来非常有前途且不确定性低,它可以选择利用该知识来确认一个潜在的命中物。通过对这两种不确定性进行显式建模和分解,AI在每一步都做出经过计算的决策,以远超任何暴力搜索的目的性和智能性,在巨大的可能性干草堆中导航。这就是计算发现的前沿,物理学、统计学和计算机科学的原理在此联合,加速我们寻找将塑造未来的材料和分子。
既然我们已经探讨了高通量计算筛选的基本原理,我们可以开始一段旅程,看看这些思想如何在现实世界中开花结果。您将看到,这不仅仅是一种巧妙的计算技巧,而是一种革命性的范式,正在重塑一系列惊人学科的科研方式。这是一种新的思维方式,一种在广阔、未知的可能性领域中航行以寻找隐藏宝藏的方法。
我们从逐一发现的缓慢、艰辛过程——就像一个孤独的探矿者在一条小溪中淘金——转变为指挥一支能够勘测整个大陆的自主无人机舰队。这就是高通量筛选的力量。
也许高通量筛选最天然的用武之地是在材料科学。将周期表中的元素组合成新化合物的方式数量惊人地庞大,这是一种“组合爆炸”,使我们手动合成和测试的能力相形见绌。那么,我们如何找到一种具有恰当性质的新材料呢?
第一步是停止思考最终属性本身,转而思考那些能够预测它的线索——即更简单、可计算的特征。想象一下,您正在为喷气发动机涡轮叶片寻找一种新的超强合金。与其尝试计算每种可能金属组合的极限抗拉强度(这极其困难),您可能会建立一套经验法则或“描述符”。例如,您可以要求合金中的原子大小相似,以避免在晶格中产生过多应变。您可能还要求元素具有特定数量的价电子,这一性质已知与某些晶体结构的稳定性相关。
这正是用于发现新型难熔高熵合金(RHEAs)的方法。通过计算少量描述符——例如平均熔点 、原子尺寸失配度 、混合焓 和价电子浓度(VEC)——研究人员可以对庞大的虚拟组分库应用一系列过滤器。平均熔点是否足够高以达到“难熔”标准?尺寸失配度是否足够小以形成稳定的固溶体?混合焓是否落在有利于形成而非分离的范围内?通过提出这些简单的问题,我们可以在计算上剔除数百万个死胡同,并将我们宝贵的实验资源集中在几十个真正有前途的候选物上。
当然,生活很少像通过一系列独立的过滤器那么简单。我们常常面临一种平衡。思考一下寻找新型太阳能电池板材料的探索。理想的材料必须是极佳的光吸收体,其电子带隙要完美地调谐到太阳光谱。但如果性能最佳的材料是由有毒或稀有元素(如铅或碲)制成的怎么办?这就提出了一个多目标优化问题。我们希望在最大化性能的同时,最小化环境影响和成本。
在这里,我们可以定义一个“品质因数”——一个在数学上结合这些竞争目标的单一分数。例如,在寻找无铅钙钛矿的过程中,人们可以设计一个适应度分数,当材料的带隙接近理想值 eV 时,该分数会很高,但如果材料含有已知对水生生物有毒的元素,则会受到惩罚。通过为数千个候选物计算这个综合分数,我们可以识别出代表最佳整体折衷的材料,在复杂的权衡景观中找到一个“甜蜜点”。
这种漏斗策略——从宽泛开始,用越来越精细的标准逐步缩小搜索范围——是现代材料发现的核心。对于真正复杂的性质,比如离子在固体中快速移动的能力(这是更好电池的关键要求),这个漏斗可以变得异常复杂。一次对超离子导体的尖端搜索可能会从对数千个候选物进行基本热力学和结构稳定性的计算筛选开始。对于幸存者,一个代理模型——一种在少量昂贵的量子力学计算上训练的机器学习算法——被用来预测离子跳跃的能垒,这是一个关键但计算成本高昂的参数。只有那些预测具有低能垒的候选物才会被进行全面、严格的计算。这种分层工作流确保了最昂贵的计算只用于最顶尖的候选物,将一个不可能的搜索变成一个可管理的搜索。
指导寻找新合金和电池的相同原理,也正在改变药物发现和合成生物学的面貌。在这里,“干草堆”是可能的类药分子的巨大空间,“针”则是一种能与特定致病蛋白紧密结合而不会引起有害副作用的化合物。
最关键的挑战之一是避免“脱靶”效应。一个新设计的酶或药物可能完美地执行其预定功能,但如果它也恰好与细胞中成千上万种其他必需蛋白质或代谢物之一结合,结果可能是灾难性的。高通量筛选提供了一个强大的工具来预见这些问题。通过将候选药物与细胞中最丰富分子的数字库进行计算“对接”,我们可以预测哪些可能是问题结合物。这个过程本质上是统计性的;我们设定一个阈值来定义什么是“可疑地”强的相互作用,并以此在分子被合成之前很久就标记出潜在问题。
此外,筛选方法必须具有化学智能。标准的对接模拟将药物和蛋白质视为通过经典力相互作用的两个固体物体,当化学过程更复杂时,这是不够的。许多现代药物被设计成与靶标形成永久性的共价键。为了筛选这些药物,计算工作流本身必须进行调整。一个多步骤的“共价对接”协议首先找到一个合理的非共价构象,然后以编程方式模拟化学反应以形成新键,最后使用一个理解新形成键的物理原理的评分函数对所得复合物重新评分。这表明筛选工具正变得越来越复杂,并根据所提出的具体化学问题进行定制。
所有这些计算能力都是有代价的——既有电力成本,更重要的是时间成本。一次对药物与蛋白质结合的高精度模拟可能需要数百甚至数千个CPU小时。如果你的库里有一百万个候选物,暴力方法是完全不可行的。
解决方案再次是分层策略。为什么要对每个候选物都使用你最昂贵的工具呢?相反,你可以进行一次快速、低分辨率的初步筛选,以丢弃绝大多数没有前途的选项。想象一下,你正在筛选一个肽库,以找到一个能够抑制特定蛋白质-蛋白质相互作用的肽。你可以先对所有一百万个肽进行非常快速的“粗粒度”模拟,其中原子组被集总成单个珠子以加速计算。这每个肽可能只需要几分钟。如果这种快速而粗略的筛选能让你淘汰99.5%的候选物,那么你只剩下5000个有希望的命中物。现在,你就可以负担得起在这个小得多的集合上运行你的高保真、全原子模拟了。这种多尺度工作流带来的整体“加速因子”可能是巨大的,将一项需要数十年才能完成的任务缩短到几周内完成。
但即使有这些巧妙的策略,高通量活动的巨大规模也提出了一个巨大的工程挑战。我们不是在谈论在笔记本电脑上运行一个程序;我们是在谈论在拥有数千个CPU和GPU的大型、异构的超级计算集群上管理数百万个独立任务。这将我们带入了运筹学和计算机科学的领域。哪个任务应该在哪台机器上运行?你如何调度工作流以确保没有资源闲置?问题变成了识别和缓解瓶颈。瓶颈是最初的、CPU密集型的过滤阶段,还是最后的、GPU密集型的分子动力学阶段?回答这些问题并优化通过计算管道的工作流程,与底层的物理或化学同样关键。
到目前为止,我们谈论的筛选是作为一种过滤预先存在的候选列表的方法。但如果计算机能做得更多呢?如果它能从结果中学习并智能地决定下一步要测试什么呢?这就是高通量筛选的前沿,它与人工智能融合,创造出一个真正自适应的发现引擎。
这种方法,被称为“主动学习”或“贝叶斯优化”,是一个游戏规则的改变者。想象我们正在寻找一种新的电池材料,它在高电压下不会释放危险的氧气。我们首先进行几次昂贵的DFT计算,计算氧[空位形成能](@entry_id:142642)——我们稳定性的关键描述符。然后,我们将一个机器学习模型,如高斯过程,拟合到这些初始数据上。这个模型的美妙之处在于,它不仅对一种新的、未经测试的材料给出预测,还提供了它对该预测的不确定性的度量。
主动学习算法利用这种不确定性来指导搜索。它可以选择查询一个它预测会非常好的点(利用),或者它可以选择查询一个其不确定性最高的点,以便学到最多并改进其模型(探索)。一个更聪明的策略是查询位于关键决策边界附近的高不确定性点——在这种情况下,即氧气释放的能量阈值。这使得算法能够将其精力集中在化学空间中最模糊和信息量最大的区域,用最少数量的昂贵计算快速锁定“好”与“坏”材料之间的边界。
这使我们看到了一个宏伟的愿景:“闭环”或“自动驾驶”的实验室。想象一个由人工智能驱动的系统,控制着整个实验工作流程。人工智能利用复杂的物理模型和自身的不确定性,提出一种它预测将具有最佳性能的新催化剂组分。它将指令发送到一个机器人合成平台,该平台制造出这种材料。然后,另一个自动化系统将催化剂放入反应器中,在真实操作条件下测量其转换频率和选择性,并将结果反馈给人工智能。人工智能用这个新数据点更新其内部模型,并在数小时内设计出下一个实验。
这不再是科幻小说。这样的自动化平台如今正在建设中,创造了一个预测、合成、表征和学习的良性循环,能够以前所未有的速度在复杂的设计空间中导航。它代表了高通量计算、机器人技术和人工智能的终极融合,将科学发现的本质从一系列离散的、由人驱动的步骤转变为一个连续的、自主的探究过程。从简单的过滤器到这些智能发现机器的旅程,展示了规模化思维深刻且不断扩大的影响。