
在现代科学领域,我们面临着从发现新材料到设计拯救生命的药物等一系列惊人复杂的挑战。其可能性空间通常过于广阔,无法仅通过传统的实验或模拟来探索。正是在这种背景下,机器学习模型应运而生,它并非要取代科学探究,而是成为一个强大的新伙伴。它们通过直接从数据中学习,揭示能够加速发现的模式,为我们驾驭这种复杂性提供了一条途径。但这些模型是如何“学习”的?支配它们使用的规则又是什么?本文旨在揭开机器学习模型的神秘面纱,层层剖析其内部工作原理及其变革性影响。我们将首先探索定义模型如何从数据中学习的基本原理,然后踏上征途,遍历其多样化的应用和跨学科联系,看它们如何重塑研究、提出新问题并驱动科学的未来。
那么,我们已经打开了这扇通往迷人世界的大门,在这里我们可以教会机器去发现和设计。但它究竟是如何工作的呢?机器“学习”又意味着什么?它既不是魔法,也不是某种深不可测的外星智能。机器学习的核心在于从数据中寻找模式——这个过程非常直观,如果从正确的角度看,甚至可以说相当优美。让我们层层剖析,探究这场革命的引擎。
想象一下,你正试图教一位朋友区分不同类型的材料。你不会只是递给他一块金属然后说“这个很硬”。你会给他一些线索。你可能会说:“看,这个有一定的光泽度,感觉很重,而且它能导电。”这些线索——光泽度、密度、导电性——就是我们所说的特征(features)。它们是描述性属性,是我们输入到模型中的变量。在一个真实的材料发现项目中,科学家可能会使用诸如组成原子的平均原子半径、价电子数或电负性等特征来描述一种新化合物。
现在,对于每一组特征,都有一个我们想要预测的结果。也许我们想知道材料的维氏硬度(Vickers hardness),或是由杨氏模量(Young's modulus)这一属性衡量的刚度。这个我们试图预测的结果,被称为目标属性(target property)或标签(label)。
监督学习的基本设置异常简单:我们为机器提供大量样本。每个样本都是一个配对:一组特征(线索)和一个目标(答案)。机器的任务是学习连接线索与答案之间的关系,即隐藏的模式。从本质上讲,它是在通过实例学习,正如我们人类一样。
一个机器学习模型就像一个极其勤奋但又非常刻板的学生。它相信你告诉它的一切。它不像我们人类那样拥有直觉或背景知识来质疑它的教科书。这就引出了机器学习中一个深刻且不容置疑的真理:你的模型的好坏取决于你提供给它的数据。这通常被概括为一句古老的格言:“垃圾进,垃圾出”(garbage in, garbage out)。
让我们设想一个场景:我们想训练一个模型来预测材料的电子带隙,这是太阳能电池的一个关键属性。我们有两个可供学习的“教科书”。一个是包含50000种材料的庞大数据集,其中所有带隙都是用同一种一致的计算方法(如密度泛函理论,即DFT)计算出来的。另一个是较小的数据集,包含5000种材料,是从数十年来发表的科学论文中精心收集的,其中的带隙是通过实验测量的。
哪一个更好?人们很容易说实验数据是“真实”的,因此更优越。但请像那个刻板的学生一样思考。实验数据来自数千个不同的实验室,使用不同的技术,在不同的条件下进行,报告的精度也各不相同。这就像一本由数千人组成的委员会编写的教科书,每个人都有自己的偏见和风格。它充满噪声且不一致。另一方面,由DFT计算的数据集则像一本由单一作者编写的教科书。虽然这位作者可能有系统性偏差(例如,众所周知DFT会系统性地低估带隙),但其内部逻辑是完全一致的。对于一个试图学习材料结构与其带隙之间基本关系的模型来说,这个干净、一致尽管可能存在偏差的数据集,通常是更好的老师。它让模型能够学习潜在的模式,而不会被混杂在实验数据中的随机噪声和系统性变异所迷惑。
这又引出了另一个关键点。要学习一个概念,你不能只看它“是”什么的例子,你还必须看它“不是”什么的例子。想象一下,你训练一个模型来设计功能性基因电路,但只给它看那些能正常工作的电路。模型可能会学到包含特定DNA序列的电路是功能性的。但这可能是一种伪相关性。也许你数据集中的所有电路都恰好因为无关的原因而含有那个序列。模型作为一个刻板的学生,会得出结论说这个序列就是成功的秘诀。它将成为一个极度乐观但毫无用处的预测器,因为它从未被教过如何识别失败。为了真正学习成功与失败之间的界限,模型必须在负样本(negative examples)上进行训练——那些被正确构建但未能正常工作的电路。只有通过看到硬币的两面,模型才能学会辨别,画出那条至关重要的、分隔成功与失败的决策边界(decision boundary)。
那么,模型究竟是如何利用特征来进行预测的呢?让我们来一窥最简单、最直观的模型类型之一:决策树(decision tree)。决策树通过提出一系列简单问题来做预测,就像玩“20个问题”游戏一样。
想象一下,我们正在将元素分类为“金属”或“绝缘体”。我们的特征可能是价电子数、电负性和原子半径。决策树算法可能会查看所有特征,并发现最好的起始问题是:“价电子数是否小于3?”如果答案是肯定的,它可能会将该元素放入一个主要由金属组成的箱子中。如果是否定的,它会问另一个问题,依此类推。模型选择“价电子数”作为其树根部的第一个问题,这一事实告诉我们一些深刻的道理。这意味着,在所有可用特征中,这单一属性为数据集中区分金属和绝缘体提供了最有效的初始分割,即最大的“信息增益”(information gain)。模型并未学习能带理论,但它纯粹从数据中发现了一个反映深层物理真理的统计模式。
更复杂的模型,比如我们常听说的“黑箱”神经网络,可以被看作是这种模式的极其复杂的版本。它们学会识别的不仅仅是简单规则,而是层级模式以及成千上万甚至数百万特征之间复杂的非线性相互作用。
任何模型的最终目标都不是成为其已见数据的优秀历史学家,而是成为其未见数据的优秀预言家。在新的、未见过的数据上表现良好的能力称为泛化(generalization)。一个仅仅记忆其训练数据的模型,就像一个通过背诵练习题答案来应付考试的学生。如果考题完全相同,他们可能会得满分,但如果考题是新的,他们就会一败涂地。这种泛化失败是机器学习中的一个首要大忌,而且它可能以微妙的方式发生。
设想一个团队正在训练一个模型,根据酶的氨基酸序列来预测其活性。他们用800种酶进行训练,并在一个包含200种酶的“留出”测试集上进行测试,取得了惊人的98%的准确率。值得庆祝吗?别急。仔细一看就会发现,测试集中的每一种酶都与训练集中的某一种酶有99%的相同性。这不是一个公平的泛化能力测试!这就像让学生去考那些只是对练习题稍作改写的题目。模型并没有真正学到序列与功能之间的复杂关系;它很可能只是学会了识别和在非常相似的样本之间进行插值。其高准确率给它预测真正新颖酶功能的能力带来了一种危险而虚假的信心。
这引出了一个更深层次的挑战。如果“新”数据遵循一套完全不同的规则怎么办?想象一个模型,经过精心训练,可以预测细菌E. coli中某个基因部件(RBS)的强度。它取得了极好的准确率。现在,我们尝试用同一个模型来预测酵母中的同一任务。模型惨败。为什么?因为原核生物(E. coli)和真核生物(酵母)中翻译起始的基本生物学机制是不同的。E. coli使用Shine-Dalgarno序列,而酵母则使用一种涉及“扫描”核糖体的不同机制。这个完全在E. coli数据上训练的模型,已经学会了原核生物学的“语言”和“语法”。要求它在酵母中进行预测,就像要求它理解一门完全不同的语言。这不是模型的错;这是一个领域偏移(domain shift)的问题。上下文已经改变,它所学的模式不再适用。
最后,即使我们有一个好的模型,我们也必须对其性能保持谦虚。一位研究人员构建了一个复杂的深度学习模型来分类RBS强度,并获得了74%的准确率。这听起来相当不错!但是,如果我们将其与一个甚至不看序列、而总是猜测最常见类别(“弱”)的“傻瓜”基线模型相比呢?在给定的数据集中,这个简单的策略有60%的几率是正确的。我们那个花哨模型的74%准确率虽然仍有提升,但相对于基线来说,只是一个较为温和的23%的相对改进。与基线(baseline)进行比较是一个至关重要的健全性检查,它能让我们对期望有清醒的认识,并真实地衡量我们模型所增加的价值。
一个能准确预测将要发生什么的模型非常有用。但科学的最终目标不仅仅是预测,更是理解为什么会发生。在这里,机器学习可以成为科学方法中一个强大的新伙伴。
一位生态学家可能会构建一个复杂的“黑箱”模型,该模型能准确预测一种珍稀高山植物的生长地点。在分析模型时,他们发现了一个奇怪的模式:这种植物在凉爽、湿润的条件和温暖、干燥的条件下生长旺盛,但在温暖、湿润的条件下却会死亡。这是一个反直觉的谜题。模型没有解释“为什么”,但它做了一件了不起的事:它生成了一个引人入胜的、可检验的假设。下一步不是构建一个更大的模型,而是进入实验室。科学家可以设计一个受控实验,在一个可以操纵温度和湿度的生长室中,测试可能的机制。是因为某种在温暖、湿润条件下繁殖的土壤病原体吗?还是一个新陈代谢问题?机器学习模型为科学家指出了有趣科学之所在,将一个预测工具转变成了发现的引擎。
这把我们引向一个最终的、宏大的区别。想象两种预测基因电路行为的方法。一种是我们的黑箱机器学习模型,在数千个样本上训练而成。另一种是机理模型(mechanistic model),它是根据物理和化学的第一性原理构建的。该模型使用热力学方程来计算分子间的结合能。
黑箱模型就像一个跟随大师学艺多年的学徒。它培养出了惊人的直觉,对于熟悉的任务能够完美地复制大师的作品。机理模型则像一位研究了蓝图和物理定律的工程师。
现在,让我们来测试它们。我们要求它们预测与它们见过序列相似的新序列的表达。拥有丰富经验的黑箱模型甚至可能更准确。但现在,我们改变规则。我们降低温度。我们改变细胞中核糖体的浓度。我们将整个系统转移到一个关键蛋白形状略有不同的新生物体中。
黑箱学徒迷失了方向。它从未见过这些情况。它的直觉建立在一个已不复存在的背景之上。但是,掌握了第一性原理的工程师可以做出调整。热力学模型在其方程中有一个明确的温度项 。它可以计算结合能如何变化。它知道浓度如何影响反应速率。它可以用新蛋白质的形状进行更新。它可以外推(extrapolate)到其原始数据范围之外,因为它不仅知道发生了什么,它还有一个关于为什么发生的模型。
这就是前沿。我们正在学习融合这两种方法:利用机器学习强大的模式发现能力来筛选海量数据集并生成新假设,然后利用机理模型和靶向实验的解释能力来揭示支配我们世界的那些基本的、优美的和普适的法则。
现在我们已经窥探了机器学习模型的内部构造,并了解了其工作原理,我们可能会以为故事到此结束。但这就像学会了国际象棋的规则却从未下过一盘棋。这些模型的真正魅力、其力量的真实衡量标准,并非体现在其构造的抽象数学中,而是体现在它们重塑我们周围世界的无数方式上。它们不仅仅是复杂的计算器;它们正在成为科学事业中新型的伙伴、自然世界不知疲倦的观察者,甚至是复杂的预言家,其提出的问题与给出的答案一样多。让我们踏上征途,探索其中一些引人入胜的应用,看看我们研究过的齿轮和杠杆是如何被投入使用的。
科学中的许多重大挑战,从设计新药到发现新材料,本质上都是搜索问题。可能的药物分子或晶体结构的数量是天文数字般巨大,以至于即使使用我们最快的计算机逐一测试,所需时间也比宇宙的年龄还长。几十年来,我们的主要工具一直是高保真模拟——强大的量子化学或分子动力学计算,它们能给我们一个准确的、“基准真相”的答案。问题在于,这种准确性伴随着惊人的计算成本。
想象一下,你是一位材料科学家,拥有一个包含10000种假想晶体结构的库,正在寻找一种具有极高导热性的材料。一次完整的基于物理的模拟可能需要200个CPU小时才能处理一个结构。要测试所有10000个结构,就需要200万个CPU小时——这是超级计算中心才能完成的任务,而非一个本地研究小组所能承担。正是在这里,机器学习模型作为“代理模型”(surrogate)登场了。我们不再运行完整、昂贵的模拟,而是使用一个经过训练的模型,该模型已经学会了材料结构与其属性之间的复杂关系。这种方法的魔力在于模拟(simulation)与推断(inference)之间的根本区别。一次完整的模拟必须计算无数粒子在许多时间步长内的相互作用,其成本随系统的大小和持续时间而扩展,可能为。相比之下,一个训练好的模型执行的是一组固定的、单一的计算——一次通过其网络的前向传播。一旦训练完成,它进行一次预测的成本是恒定的,即,无论其所代表的底层物理复杂性如何。它在训练期间已经完成了“艰苦的工作”。
这并不意味着基于物理的模拟变得过时了。模型是一个专业的猜测者,而不是无所不知的存在。它会犯错。因此,我们采用一种混合策略,集二者之长。首先,我们使用快速的机器学习模型筛选所有10000个结构,这个过程可能只需要几百个CPU小时。模型充当了一个智能过滤器,标记出几百个“有希望的”候选者。只有在这之后,我们才对这个规模小得多、经过富集的集合部署昂贵、高精度的模拟。我们不再是在茫茫沙漠中寻找一根针;机器学习模型已经为我们指出了那一堆干草。这个过程的效率可以通过我们称之为“发现产出率”的指标来量化——即我们昂贵的模拟中,确认一个真正有用材料的比例。通过智能地过滤掉绝大多数无趣的候选者,机器学习可以将这个产出率从百分之零点几提升到接近50%,从而改变了发现的经济学。
除了加速模拟,机器学习也在彻底改变观察行为本身。许多科学进步的瓶颈在于需要训练有素的人类专家来执行繁琐、通常是主观的任务。考虑一下在临床实验室中,从包含数百万细胞的流式细胞术样本中识别一个罕见的“衰老相关T细胞”(Senescence-Associated T-cells)群体的挑战。传统上,一名熟练的技术人员会 painstakingly 在标记物表达的二维图上 painstakingly 绘制门(gates)——这个过程缓慢、易于疲劳,且因人而异。一个监督式机器学习模型可以在专家设门的样本上进行训练,以自动、客观地执行这种分类,速度可达每分钟数百万个细胞。
但在现实世界中部署这样的模型揭示了一个关键教训:世界是混乱的。一个在A设施的仪器数据上训练的模型,在分析B设施的数据时,其性能可能会急剧下降。仪器校准、温度或试剂批次中微小、不可避免的变化——统称为“批次效应”(batch effects)——可以微妙地改变数据,从而迷惑模型。我们可能会看到其F1分数(F1-score,一种稳健的准确性度量)显著下降,这表明其预测不再可靠。
同样的挑战出现在一个完全不同的领域:保护生物学。想象一下,要在一个广阔的景观中调查一种神秘的、夜行性的蟋蟀物种。人类专家不可能无处不在。取而代之,我们可以部署一支由自动化生物声学监测器组成的军队。一个在蟋蟀独特叫声上训练的机器学习分类器可以进行24/7的全天候监听。但是,模型在茂密森林中的一次阳性检测与在开阔草原上的一次阳性检测是等同的吗?当然不是。声音传播的方式和背景噪声的性质完全不同。模型在安静的草原上可能更敏感(更高的真阳性率),但在嘈杂的森林中也更容易出错(更高的假阳性率)[@problem_tackle_id:1770001]。对模型检测结果的简单计数会给出一个极具误导性的物种种群估计。解决方案是校准。通过在一个小的“基准真相”数据集上仔细测量模型在不同栖息地下的错误率,我们可以创建一个校正因子。我们学会将模型的输出不视为最终答案,而是视为需要调整的有偏见的证据,从而使我们能够生成一张远为准确的真实景观尺度占有率地图。这一步——理解并纠正我们工具的偏见——是成熟科学实践的标志,对于机器学习模型来说,它与对于显微镜或望远镜同样至关重要。
到目前为止,我们已经看到了进行筛选和观察的模型。但最激动人心的前沿是模型成为设计过程中的积极参与者。这就是“主动学习”(active learning)的范式,或称为闭环的设计-构建-测试-学习(Design-Build-Test-Learn, DBTL)循环。
让我们回到生物学,但这次是合成生物学。一个团队想要设计一种微生物来生产一种有价值的药物。这涉及到从一个巨大的组件库(启动子、核糖体结合位点等)中设计一个基因电路。这个“设计空间”再次大到无法穷尽探索。DBTL循环的工作方式如下:
然后循环再次开始,此时更智能的模型会提出下一组实验。这不是高通量筛选;这是智能通量筛选。AI是一个创造性的伙伴,以一种远比随机搜索或甚至固定的人类直觉更有效的方式引导发现之路。
当然,要让这种伙伴关系奏效,我们必须说AI的语言。我们不能简单地给模型输入像A-TGC-G这样的DNA序列。模型理解的是数字,而不是字母。更重要的是,它理解数学关系。如果我们天真地将A=1, C=2, G=3, T=4进行编码,我们就是在告诉模型G比C“多”,并且G和A之间的“距离”是C和A之间距离的两倍——这是一个没有生物学意义的人为设定。取而代之,我们使用一种巧妙的技术,称为独热编码(one-hot encoding)。每个核苷酸由一个二进制向量表示,其中只有一个'1'在唯一的位置上(例如,A=[1,0,0,0], C=[0,1,0,0]等)。这告诉模型,四个碱基是不同的类别,彼此之间的差异是相等的,同时完美地保留了哪个碱基在序列中哪个位置的关键信息。正是这种从生物学语言到线性代数语言的仔细翻译,才使创造性的伙伴关系成为可能。
随着这些模型变得越来越强大,它们开始从工具转变为预言家。它们在数据中发现的模式是如此复杂,以至于无人能及,但其方式往往是不透明的——一个“黑箱”。这带来了深刻的新挑战,推动了科学、政策和哲学的边界。
例如,在基因组学中,传统统计方法如全基因组关联研究(GWAS)使用简单的线性模型来寻找单个遗传变异与疾病之间的联系。其输出是 beautifully 可解释的效应大小和-value。一个更强大的机器学习模型,如随机森林(Random Forest),可以一次性在整个基因组上进行训练。它可以捕捉到线性模型会错过的多个基因之间的复杂、非加性相互作用(上位效应,epistasis)。但它给我们的不是一个简单的致病变异列表,而是一个“特征重要性”分数,这是一个模糊的预测贡献度量,缺乏-value那样清晰的统计基础。这就带来了一个两难选择:我们是偏爱一个简单、清晰但可能不完整的真理,还是一个复杂、不透明但预测能力更强的真理?通常,答案是一种混合方法,使用传统模型建立一个基线,然后部署机器学习来探索剩余的谜团。
当赌注从科学好奇心上升到公共卫生时,这种紧张关系就会爆发。想象一个公共卫生机构使用一个黑箱模型来分析数十年的健康和消费者数据。模型标记出一种常见的食品防腐剂Nitrosol-K与一种罕见出生缺陷的轻微增加之间存在相关性。这一发现纯粹是相关性的,并且与多年来严格的动物实验结果相矛盾,后者发现该防腐剂是安全的。该机构应该怎么做?基于预防原则立即发布禁令?还是以非因果关系为由驳回这一发现?最审慎的路径往往是一种微妙的平衡:为最脆弱的人群(例如,孕妇)发布临时建议,同时委托新的、由假设驱动的研究来证实或驳斥因果联系。AI的发现不是最终定论;它是一个新的、紧迫的科学问题的开端。
也许最深刻的问题出现在这些预测模型触及我们之所以为我们的本质之时。考虑一位杰出的生物信息学家,他一生致力于创建一个“数字孪生”(digital twin)——一个在他完整的基因组、表观基因组和终生健康数据上训练的AI模型,能够预测他的健康轨迹。在他的遗嘱中,他要求销毁该模型以保护他的“死后基因隐私”。但他的子女,与他共享50%的基因,认为该模型是一种独特的、不可替代的可遗传资产,对他们自己的预防性医疗至关重要。正确的做法是什么?这不再是一个技术问题。它将个人自主的基本原则与同样具有说服力的生物伦理原则——家族受益(familial benefit)——对立起来。后者的理念是,由于遗传信息本质上是共享的,因此对于亲属可能存在关于可遗传风险的“警告义务”或“知情权”。
这个由硅和代码创造的AI模型,迫使我们直面关于我们生物遗传本质的最深层问题。正如我们所见,应用机器学习的旅程是一个范围不断扩大的旅程:从加速一次计算,到自动化一个实验室,到引导发现,最终,到挑战我们关于法律、伦理和身份的框架。这项技术的真正影响,将不仅取决于它解决了什么问题,更取决于它迫使我们提出的那些全新的、至关重要的问题。