try ai
科普
编辑
分享
反馈
  • 机器学习模型:原理、应用与科学融合

机器学习模型:原理、应用与科学融合

SciencePedia玻尔百科
核心要点
  • 机器学习模型通过发现数值数据中的模式来创建决策边界,这一过程由最小化量化预测误差的“损失函数”驱动。
  • 在透明的、基于规则的机理模型与灵活的、适应性强的数据驱动模型之间存在一种根本性的权衡,而强大的混合方法则结合了二者的优点。
  • 模型的性能严重依赖于数据质量和表示方式(特征工程),并且容易因采样偏见和分布偏移等问题而失效。
  • 在科学领域,机器学习扮演着一个强大的合作伙伴角色,它通过增强物理理论和提高实验方法的严谨性来加速发现,而非取而代之。

引言

机器学习模型正迅速成为整个科学领域不可或缺的工具,推动着从药物开发到材料科学的各项发现。然而,对许多人来说,它们仍然是一个“黑箱”——一个通过看似神奇的方式产生预测的复杂而不透明的系统。这种缺乏透明度的情况可能会为模型的采纳制造障碍,并导致人们对其强大能力和局限性产生误解。本文旨在打开这个盒子,为机器学习的世界提供一份清晰直观的指南。我们将首先探讨其基本原理和机制,解释机器如何从数据中学习、特征工程的重要性以及不同建模理念之间的权衡。随后,我们将审视这些模型的不同应用和跨学科联系,展示它们如何作为一种新型科学仪器,增强而非取代传统的理论和实验。读毕本文,读者将拥有一个稳健的概念框架,以理解机器学习模型是什么、它们如何工作,以及它们在现代科学中的变革性作用。

原理与机制

对于门外汉而言,机器学习模型似乎是一个神秘的预言家,一个能以某种方式将原始数据转化为惊人准确预测的“黑箱”。但如果我们敢于打开那个盒子,会发现其中并非深不可测的魔法,而是一套优美且出人意料的直观原理。其核心在于,机器学习不过是一种强大而系统化的从经验中学习的方式——这是我们人类每天都在做的事情。让我们踏上一段旅程,从简单的划线动作而非复杂的数学开始,去理解机器是如何学习的。

划线之艺

想象一下,你是一位试图寻找高硬度新材料的科学家。你已经进行了一些实验,并收集了一小批化合物。对于每一种化合物,你都知道一些基本元素属性——比如,其原子的平均原子半径和平均价电子数。你将这些数据绘制在一张图上:一个轴是原子半径,另一个轴是价电子数。现在,对于图上的每一个点,你根据其测得的硬度为其着色——或许红色代表非常硬,蓝色代表非常软。

接下来,你会本能地尝试寻找一种模式。你可能会注意到红点倾向于聚集在图表的某个特定区域。你甚至可能会尝试画一条直线或曲线,将“硬”的区域与“软”的区域分开。恭喜你——你刚刚创建了一个基础模型!

用机器学习的语言来说,你绘制的那些输入属性——原子半径和价电子数——被称为​​特征 (features)​​。它们是模型用以做出决策的线索。你试图预测的属性——硬度——被称为​​标签 (label)​​ 或目标。那你画的那条线呢?它就是​​模型 (model)​​ 本身。它是一条数学规则,一个​​决策边界 (decision boundary)​​,将充满可能性的世界划分到不同的类别中。

机器学习中的“学习”部分,就是寻找最佳可能直线或边界的过程。给定一组已知标签的示例点(我们的训练数据),机器的任务就是调整其内部的数学函数,直到它绘制的边界能尽可能准确地将不同标签分开。

犯错的重要性

机器如何知道怎样“调整”它的线呢?它的学习方式和我们一样:通过试错。它做出一个猜测,核对答案,如果错了,就调整其策略。

想象一下,你正在尝试设计一个功能性遗传环路。你提出了一个设计,模型预测“它会成功!”但是,如果你只给模型展示过成功的环路案例,会发生什么?模型可能会学到一个非常简单但无用的规则:“所有环路都是功能性环路!”它会成为一个永远的乐观主义者,无法提供任何真正的指导,因为它没有失败的概念。

为了学习到一个有用的边界,模型不仅需要看到成功的案例,还需要看到不成功的案例。它需要​​负样本 (negative examples)​​。通过向模型提供成功的设计(正样本)和正确组装但无法正常工作的设计(负样本),我们迫使它学习两者之间的细微差别。它学会识别导致失败的模式,并加以规避。

这个过程通过一种叫做​​损失函数 (loss function)​​ 的东西被形式化,它只是一种衡量模型预测“错得有多离谱”的数学方法。整个训练过程就是一场优化博弈:调整模型的内部参数,使损失函数的值尽可能小。犯错,并量化这种错误,正是学习的引擎。

使用数字的语言

机器学习模型不理解“来自乳腺癌肿瘤的细胞系”或“一种原核细菌”。它只理解一样东西:数字。构建模型的一个关键部分,是将我们世界中丰富多彩的描述性特征转化为数值格式。这被称为​​特征工程 (feature engineering)​​。

假设我们的一个特征是实验中使用的细胞系类型,比如‘A549’、‘HeLa’或‘MCF7’。我们不能直接把这些词代入方程式。一种天真的方法可能是给它们分配数字:A549=1,HeLa=2,MCF7=3。但这是个糟糕的主意!它给数据强加了一种虚假的关系。它暗示着‘HeLa’在某种程度上“大于”‘A549’,而且1和2之间的“距离”与2和3之间的“距离”是相同的。

一个优雅得多的解决方案叫做​​独热编码 (one-hot encoding)​​。我们为每个可能的类别创建一个新列。然后,一个样本就由一个包含多个0和一个1的向量表示。如果我们类别的字母顺序是 (‘A549’, ‘HeLa’, ‘MCF7’),那么:

  • 一个‘A549’样本变成向量 (100)\begin{pmatrix} 1 0 0 \end{pmatrix}(100​)。
  • 一个‘HeLa’样本变成 (010)\begin{pmatrix} 0 1 0 \end{pmatrix}(010​)。
  • 一个‘MCF7’样本变成 (001)\begin{pmatrix} 0 0 1 \end{pmatrix}(001​)。

这种表示法将每个类别视为一个独立的实体。没有被人为设定的排序或大小关系。我们已经将定性知识转化成了机器能够理解的、干净无偏的数值语言。

两种理念的故事:机理与数据

机器学习并非构建模型的唯一方式。几个世纪以来,科学依赖于一种不同的方法。比较这两种理念是很有用的。

一方面,我们有​​机理模型 (mechanistic models)​​。这些模型是基于物理和化学的“第一性原理”建立的。如果我们想模拟肿瘤生长,我们可能会写下一个偏微分方程,比如 ∂c∂t=∇⋅(D∇c)−R\frac{\partial c}{\partial t} = \nabla \cdot (D \nabla c) - R∂t∂c​=∇⋅(D∇c)−R,它描述了药物浓度 ccc 如何在组织中随时间 ttt 扩散 (DDD) 和反应 (RRR)。这个模型体现了我们对物理定律的基本理解。它的巨大优势在于其参数具有现实世界的意义,使其具有可解释性并植根于现实。它强制执行物理约束,比如质量守恒。

另一方面,我们有​​数据驱动模型 (data-driven models)​​,比如机器学习模型。这些模型不从物理定律出发。它们从数据开始,寻找模式,实际上是“自上而下”地工作。一个数据驱动模型可能不知道什么是扩散方程,但通过观察数千个例子,它可以学到特征A和B与结果C相关。

这种区别也以更简单的形式出现。考虑一个​​基于规则的系统 (rule-based system)​​,比如用于批准医疗程序的自动清单。它遵循一套明确的、由人编写的规则:“如果诊断为X且手术为Y,则批准。”这个系统是完全​​透明​​的;你可以将每一个决策追溯到一条具体规则。然而,它很僵化。如果临床实践发生变化,必须由人来手动更新规则。它不具备​​适应性 (adaptable)​​。

相比之下,机器学习模型就像一位经验丰富的医生,通过成千上万个病例培养出了直觉。它可以非常具有​​适应性​​,在接收更多数据时学习到新的、微妙的模式。但这可能以牺牲​​透明度​​为代价。可能很难问模型究竟为什么它批准了第7892号案例却拒绝了第7893号案例。这就是著名的“黑箱”问题。这两种方法代表了可解释性与灵活性之间的根本权衡。

两全其美:混合模型

激动人心的前沿在于,我们不必在这两种理念之间做出选择。最强大的方法通常是将它们结合成​​混合模型 (hybrid models)​​。

想象一下,你是一位材料科学家,正在一个包含10000种假想晶体的数据库中寻找一种具有高导热性的晶体。你有一个高度精确的物理模拟程序,但对单个晶体运行一次需要200个CPU小时。筛选所有10000种晶体将耗费惊人的200万CPU小时。这根本不可行。但你也有一个快速的机器学习模型,它可以在一瞬间做出预测。这个机器学习模型并非完美,但它很擅长识别有潜力的候选者。

这种混合策略的简单之处彰显了其高明之处:首先,使用快速的机器学习模型筛选所有10000个结构,创建一个包含(比如说)900个最有希望的结构的“候选名单”。然后,也只有到这时,才对这个小得多的集合运行昂贵的、高保真度的物理模拟。这个两步过程可能会将总计算成本降低90%以上,将一个不可能完成的项目变成一个周末就能完成的工作。在这里,机器学习模型并没有取代严谨的科学;它扮演着一个强大的放大器,让我们能够将我们最好的科学工具应用在最重要的地方。

这种协同作用甚至可以更深入。在我们的肿瘤学例子中,我们有一个优美的、基于物理的肿瘤生长方程,但它的参数(如药物扩散和反应速率)对每一位患者都不同。我们如何个性化这个模型呢?我们可以用一个机器学习模型来读取患者的医学扫描和基因数据,并让它预测该个体肿瘤的特定参数值。机器学习部分学习从患者数据到物理参数的复杂映射,这些参数随后被输入到机理模型中。结果就是一个个性化的、具有物理意识的预测。

风险与陷阱:模型为何会失败

模型是一个绝佳的工具,但像任何工具一样,必须以智慧和对其局限性的认识来使用。机器学习中没有比“垃圾进,垃圾出”更重要的规则了。一个模型从根本上受限于它所训练的数据。

首先,存在​​可扩展性 (scalability)​​ 的实际问题。一个训练时间与数据集大小的立方成正比(即 T(n)∝n3T(n) \propto n^3T(n)∝n3)的算法,对于一千个数据点可能运行得很好。但当你尝试在一个包含一百万个点的“大数据”集上运行它时,你可能会发现完成它所需的时间比你的寿命还长。一个具有更优扩展性(比如 T(n)∝nlog⁡nT(n) \propto n \log nT(n)∝nlogn)的算法,在大型数据集上将远远优越,即使它在小型数据集上的性能由于常数因子的原因最初可能更差。渐近复杂度不仅仅是一个抽象的数学概念;它是在计算上可能实现的硬性物理限制。

更微妙的是​​偏见 (bias)​​ 问题。想象一下,你使用一个从几十年科学文献中汇编的数据库来训练一个模型,以发现新的聚合物。这个模型在你的测试数据上似乎表现出色。但当你用它来预测真正新颖的、理论上设计的聚合物的性质时,它的预测变得毫无价值。哪里出错了?训练数据库很可能是​​采样偏见 (sampling bias)​​ 的受害者。科学家们不会发表关于乏味无用聚合物的论文。他们发表的是关于那些成功制备并具有有趣性质的聚合物的论文。你的模型并非在一个具有代表性的“所有可能聚合物”样本上训练;它是在一个经过高度筛选、带有偏见的“所有有趣聚合物”样本上训练的。它学会了化学世界中一个被深入探索的小角落里的规则,当被要求 venturing outside of it 时,它就迷失了方向。

这是一个​​分布偏移 (distribution shift)​​ 的案例。模型训练所用的数据来自与它将被应用的数据不同的概率分布。一个更鲜明的例子来自生物学。假设你训练一个模型来预测细菌*大肠杆菌 (E. coli)*中的基因表达。它学习了原核生物中翻译起始的规则,比如Shine-Dalgarno序列的重要性。现在,你试图用这个相同的模型来为酵母(一种真核生物)设计基因。模型完全失败了。为什么?因为根本的生物学机制不同!酵母核糖体在结构上是不同的,并且使用完全不同的机制(帽子依赖性扫描和Kozak序列)来启动翻译。这个模型从未见过来自真核系统的数据,它学到的规则在这个新情境下根本无效。这凸显了一个关键教训:模型学习的是相关性,而非基本真理。除非我们明确地将其构建进去,否则它对生物学或物理学没有根本的理解。

动态模型:从实验室到现实世界

创建一个模型并非故事的结局。对于许多应用,尤其是在医学等领域,模型必须在现实世界中存在并安全地运行。这引出了最后一个引人入胜的问题:一个模型应该是静态的,还是应该持续学习?

一个​​锁定算法 (locked algorithm)​​ 就像一本教科书:它的参数在发布时就已固定。它的性能已经过彻底验证,是稳定且可预测的。对一个锁定的医疗设备模型进行任何重大更新,都需要新一轮的监管批准,以确保其安全性和有效性得以维持。

另一方面,一个​​自适应算法 (adaptive algorithm)​​ 被设计为在部署后根据它遇到的新数据不断更新其参数。它是一个“活的模型”。这是一个极其强大的想法。模型可以适应临床实践或患者群体的变化,从而可能随时间推移提高其性能。然而,这也引入了风险。如果它从嘈杂的真实世界数据中学到了错误的模式怎么办?我们如何确保其性能不会下降?

这一挑战催生了新的监管概念,如​​预定变更控制计划 (Predetermined Change Control Plan, PCCP)​​。这是开发者提交给监管机构的一份“学习规则手册”。它规定了模型被允许进行自适应的“护栏”——它可以从哪些类型的数据中学习,多久可以改变一次,以及至关重要的是,一个持续监控的协议,以确保其性能永远不会低于经过临床验证的基线。

这让我们回到了起点。我们看到,一个机器学习模型不是一次性的创造物,而是一个生命周期。它始于对数据的精心策划,通过最小化误差的优雅学习过程进行,最终在安全、有效和治理原则的指导下,在现实世界中动态存在。“黑箱”根本不是一个盒子;它是一扇通往一种全新的、强大的科学研究方式的窗户。

应用与跨学科联系

几个世纪以来,科学事业一直建立在两大支柱之上:理论和实验。我们构建一个世界的理论模型,一个对其规则的优美抽象,然后我们用实验来检验它,观察自然的回应。今天,一个新的元素加入了这场舞蹈,它不是要取代这些支柱,而是作为一个强大、灵活的脚手架,连接并加固它们。机器学习正在成为一种新型的科学仪器——一个在纷繁复杂中发现模式的计算透镜,一个完善我们物理理论的伙伴,以及一块磨砺发现逻辑本身的磨刀石。

一种新型显微镜

科学上一些最伟大的飞跃来自于新的观察方式。显微镜揭示了细胞;望远镜揭示了宇宙。机器学习提供了类似的飞跃,但它的领域不是空间,而是数据。它是一种显微镜,用于在浩瀚、高维的数据集中发现隐藏的结构,否则这些数据集将是一片无法穿透的迷雾。

思考一下现代基因组学面临的挑战。我们拥有生命之书——DNA序列,但它是用一种我们几乎不理解的语言写成的。使用像CRISPR-Cas9这样的工具进行基因编辑时,一个核心任务是预测分子机器可能在何处进行切割。这取决于由遗传“字母”{A, C, G, T}组成的短序列。我们如何教机器“阅读”这个序列并预测其行为?一种天真的方法可能是分配数字:A=1,C=2,G=3,T=4A=1, C=2, G=3, T=4A=1,C=2,G=3,T=4。但这是一个可怕的错误!它强加了一种人为的顺序,向机器暗示‘G’在某种程度上是‘A’的三倍。突破来自于视角的转变。我们使用一种称为独热编码的方法,其中每个字母由一个仅表示“该字母存在”的向量表示。例如,A变成[1,0,0,0][1, 0, 0, 0][1,0,0,0],C变成[0,1,0,0][0, 1, 0, 0][0,1,0,0]。它们现在是不同但平等的,就像不同颜色的弹珠。这个看似简单的技巧尊重了数据的真实分类性质,是构建能够成功学习基因组微妙语法并以惊人准确性预测脱靶效应的机器学习模型的关键第一步。

这种寻找正确表示方式的原则从基因的线性序列延伸到蛋白质辉煌的三维结构。多年来,预测蛋白质如何折叠一直是生物学最宏大的挑战之一。以AlphaFold等模型为代表的巨大突破,并非来自于直接预测每个原子的最终三维坐标,而是来自于预测一些更基本的东西:每对氨基酸之间的距离。由此产生的图,称为距离图 (distogram),包含了最终形状的蓝图。这种方法的优美之处在于,成对距离在旋转和平移下是不变的。模型从蛋白质在空间中的位置以及它朝向哪个方向这个分散注意力且无关紧要的问题中解放出来;它可以完全专注于蛋白质的内在几何结构。这就像通过指定每对点之间的距离来描述如何建造一个雕塑,而不是给出一套脆弱的绝对坐标。

这种新型显微镜不仅向我们展示了那里有什么;它还可以成为实验室的合作伙伴。在合成生物学中,科学家遵循“设计-构建-测试-学习”的循环来构建新的遗传环路。在使用像Gibson assembly这样的技术多次尝试构建一个环路后,一个实验室可能会积累大量成功和失败的数据集,以及每次实验的参数。然后,机器学习模型可以进入“学习”阶段。但在这里,原始的预测能力可能不是最重要的。一个高度可解释的模型,比如决策树,可以生成简单的、人类可读的规则:“当DNA片段数量大于6且最小片段小于250个碱基对时,组装似乎更有可能失败。”这不仅仅是一个预测;它是可行的见解。模型成为一个合作者,提供指导,帮助科学家在下一轮循环中设计更好的实验。

与物理定律的伙伴关系

对机器学习一个常见且简单化的看法是,它只是“无脑的曲线拟合”,一种与作为物理学标志的第一性原理、基于定律的宇宙理解相悖的方法。现实远比这更优美和有趣。机器学习在物理科学中最深刻和稳健的应用,并非源于忽视物理定律,而是通过与它们建立深厚的伙伴关系。

例如,在量子化学中,从头计算分子的性质由薛定谔方程决定,但精确求解它在计算上是毁灭性的。我们有更廉价、近似的方法,能让我们八九不离十,但它们会漏掉一些电子相关性的微妙但重要的效应。在这里,机器学习可以扮演一个绝妙的角色。我们不必试图从数据中学习所有的量子力学,而是可以训练一个模型只学习修正项——即廉价近似与昂贵、精确现实之间的差异。这是一种被称为Δ\DeltaΔ-learning的策略。机器学习模型站在我们现有物理理论的肩膀上,提供了谜题中最后、最困难的一块。它学习一个更小、更平滑、更良态的函数,从而能够通过一次廉价的计算,惊人准确地预测诸如完全基组 (CBS) 能量等性质。

这种伙伴关系可以更深地融入模型的结构中。在预测药物分子如何与蛋白质受体结合时,静电相互作用是关键。这种相互作用由静电学定律决定,通过多极展开来描述。我们不必给机器学习模型输入原始的原子坐标,让它自己去发现库仑定律,而是可以构建已经遵循相关物理学的特征。我们可以从配体和蛋白质的多极矩构建特征,这些特征在设计上对整个复合物的旋转和平移是不变的。此外,我们可以内置知识,即这些力会随着距离的特定幂次衰减。我们不仅仅是给模型数据;我们是在给它一个已经精通物理学语言的词汇表。这种“归纳偏置”使模型效率大大提高,其预测也更可靠,构成了现代基于物理的机器学习用于药物发现的核心。

这种协同作用在数字孪生和网络物理系统的工程世界中得到了终极体现。考虑一架高性能无人机 (UAV)。其飞行动态由我们熟知的空气动力学方程控制。但现实世界是混乱的;有阵风、湍流涡旋以及我们模型未能完美捕捉的其他效应。“混合孪生”可以用一个机器学习组件来增强核心的基于物理的模型,该组件实时学习这些未建模的“残余”力。然而,这种伙伴关系必须建立在信任和安全的基础上。机器学习模型不能被赋予完全的自由。它的预测可以受到物理定律的约束,例如,通过确保它建议的任何校正力不违反能量守恒原则。这创造了一个既自适应又稳健的系统——机器学习模型提供精细的调整,而物理模型确保稳定性和安全性。

磨砺科学的工具

除了揭示新现象和加速计算,机器学习也将其镜头向内,迫使我们在自己的科学方法中变得更加严谨。它正在磨砺我们用来测量、推断和交流我们发现的工具本身。

在环境科学中,我们经常面临数据融合的挑战。例如,我们可能有两个来源的地球表面卫星图像:一个空间分辨率高但覆盖频率低(如Landsat),另一个每天覆盖但图像模糊、分辨率粗糙(如MODIS)。目标是融合它们以取长补短:为每一天都获得一张清晰的图像。可以训练机器学习模型来做到这一点,使用清晰图像作为“地面实况”。但我们如何诚实地评估我们的模型效果如何?如果我们只是随机抽样像素进行训练和测试,我们就是在作弊,因为测试像素会紧挨着训练像素,它们的值在空间和时间上高度相关。模型的性能会看起来被人为地拔高了。因此,正确的科学方法要求更严格的验证方案,例如时空分块交叉验证。这涉及到为测试保留整个地理区域和时间段,确保模型在它真正从未见过的数据上进行评估。机器学习所要求的严谨性因此正在提高我们在科学领域中统计验证的标准 [@problem_-id:3851808]。

也许最微妙和深刻的应用之一在于循证医学的核心:随机对照试验 (RCT)。在RCT中,随机化被用来创建两个可比较的组(例如,一组接受新药,另一组接受安慰剂),这样我们就可以对药物的效果做出因果论断。机器学习在这里可能扮演什么角色呢?答案不是取代随机化,而是使其更强大。即使有随机化,患者的结局也会因其基线特征——年龄、体重、遗传等——而异。这种患者间的变异性为我们测量治疗效果增加了“噪音”。机器学习模型可用于“协变量调整”,基于每个患者的基线特征,对他们的结局进行精确的、数据驱动的预测。通过减去这种可预测的变异,我们可以显著减少噪音,并获得对真实治疗效果的更精确估计。像目标最大似然估计 (TMLE) 这样的先进方法被设计用来以稳健的方式完成这项工作,允许灵活的机器学习在不引入偏见的情况下提高精确度。这是一个绝佳的例子,说明机器学习不仅是作为预测工具,更是作为一种仪器,来增强我们最严谨的因果推断方法的精确性。与此相辅相成的是机器学习在风险分层中的更直接临床应用,即模型预测个体患者结局以指导临床决策,这项任务带来了其自身的一系列权衡,即复杂模型的预测准确性与更简单的加权评分系统的透明性之间的权衡。

然而,这种新的力量伴随着新的责任。一个经典的统计模型可能在论文中用一行字就能描述。而一个机器学习模型通常是一个复杂的软件制品,依赖于特定的代码库、数据预处理步骤和超参数调整协议。为了使科学可信,它必须是可复现的。这推动了新的报告标准的出现,例如TRIPOD-ML指南。仅仅说出算法的名称已经不够了。为了确保透明度并允许独立审计,研究人员现在必须细致地记录整个建模流程:确切的代码版本、完整的特征工程过程以及全部的超参数调整策略。机器学习不仅仅在改变我们的发现;它正在从根本上改变科学的社会契约以及我们对分享发现意味着什么的准则。

归根结底,机器学习不是一根魔法棒。它是一种强大的新语言,一套从数据中学习的原则,它连接了各个学科,并能随着我们问题的复杂性而扩展。当以洞察力、创造力以及对物理定律和统计严谨性的深切尊重来使用时,它在科学发现的无尽旅程中扮演着强大的伙伴角色,加深了我们对世界的理解,从分子的量子闪烁到生命错综复杂的织锦。