
我们如何从经验中学习?科学家、医生或人工智能系统如何对从未见过的情况做出可靠的预测?答案在于一个基础却常被忽视的过程:归纳学习。它是从具体示例到一般规则、从已知到未知的宏大飞跃的艺术与科学。这个过程并非完美的逻辑推演,而是一种经过计算的猜测,一种支撑着所有科学发现和智能行为的信念飞跃。但我们如何确保这一飞跃能落在坚实的地面上,而不是坠入错误的深渊?本文将剖析使可靠泛化成为可能的机制。
接下来的章节将引导您穿越这片引人入胜的领域。首先,在“原则与机制”中,我们将剖析归纳的理论引擎,探索偏置的关键作用、将学习形式化为风险管理的数学方法,以及预测的深远理论极限。我们将看到,像“结构风险最小化”这样的概念如何让我们能够构建学习真实模式而非仅仅记忆噪声的模型。然后,在“应用与跨学科联系”中,我们将看到这些原则在一系列惊人的领域中实际应用,发现驱动医疗人工智能的逻辑同样也驱动着科学发现、塑造着我们自身的认知过程,甚至引导着进化的方向。
所有的科学、所有的学习,乃至我们日常生活的大部分,都建立在一个巨大的信念飞跃之上。这是从已知到未知、从已观察到未观察的飞跃。哲学家 David Hume 是最早清楚阐述这个难题的人之一,现在这被称为归纳问题。你一生中每天都看到太阳升起。这在逻辑上能否证明明天太阳还会升起?不。尽管可能性很小,但宇宙完全有可能在明天表现出不同的行为。我们的期望是一种归纳推理,一种基于过去规律的泛化,而非演绎上的确定性。
这不仅仅是哲学家的游戏。这是任何学习系统,无论是生物的还是人工的,都必须面对的根本挑战。当一项临床试验证明一种新药在10,000名患者样本中有效时,是什么给了我们信心将其开给第10,001名患者以及后续数百万名患者?当我们用一百万张标记图像训练一个机器学习模型时,我们为什么相信它能正确分类一张新的图像?在这两种情况下,我们都是从一个有限的示例集泛化到一个可能无限的未来可能性集合。这种从样本到总体的飞跃,就是归纳学习的精髓。
如果我们不能依靠纯粹的逻辑来进行归纳飞跃,我们如何避免陷入随机猜测的深渊?答案或许令人惊讶,那就是偏置(bias)。在日常语言中,偏置是一个贬义词。但在归纳学习的世界里,它不仅是必需的,更是使学习成为可能的东西。
归纳偏置是学习者用来从有限数据进行泛化的一套假设。没有任何假设,一组给定的数据点可以由无限多种假说来解释。想象一下连接页面上的十几个点;你可以画一条简单的线、一个圆,或者一条穿过所有点的极其复杂的曲线。哪一个是“正确”的?你无法确切知道,但你可能偏向于更简单、更平滑的曲线。
机器学习算法充满了这样的偏置:
这种偏置就是我们的指南针。它不保证我们总能找到正确的答案,但它提供了一种有原则的方法,来驾驭无限的可能性海洋,并选择一种泛化方式而不是另一种。
我们如何将这种带有偏置的泛化过程形式化?现代机器学习提供了一个强大的框架:将学习视为一种风险管理。
假设我们正在训练一个模型。我们有训练数据,即我们已经看到的世界。我们的模型在这份数据上犯的错误被称为经验风险(empirical risk)。一个天真的学习者可能会认为其唯一的工作就是将这个经验风险降至零。这就是经验风险最小化(ERM)的原则。但这是一个陷阱。一个完美记忆了训练数据,包括每一个怪癖和随机噪声的模型,虽然实现了零经验风险,但当它看到一个新数据时,很可能会惨败。这就是过拟合。这就像一个学生,记住了过去考试的答案,却对科目没有真正的理解。
真正的目标是最小化真实风险(true risk)或称总体风险(population risk)——即模型在来自真实世界的所有可能数据上预期会犯的错误。由于我们无法看到所有可能的数据,我们必须估算这个风险。这引出了一个更复杂的思想:结构风险最小化(SRM)。
SRM 是奥卡姆剃刀的数学体现。它指出,一个模型的真实风险的最佳估计不仅取决于它在训练数据上的误差,还取决于它的训练误差加上一个对其复杂度的惩罚。
想象一下,我们正在训练两个不同的神经网络来预测败血症,一个简单的和一个非常深、复杂的。复杂的模型更灵活,几乎完美地拟合了训练数据,达到了 的经验风险(错误率)。简单的模型无法捕捉所有细微差别,最终经验风险更高,为 。ERM 会告诉我们选择复杂的模型。
但 SRM 告诉我们要等等。我们测量它们的复杂度(使用像 Rademacher 复杂度这样的概念),发现简单模型的复杂度惩罚是 ,而复杂模型的惩罚是 。现在让我们计算它们的总结构风险:
突然之间,简单的模型成了明显的赢家!它在训练数据上稍差的拟合度,被其低得多的复杂度所弥补,这让我们更有信心它学到的是一个真实的潜在模式,而不仅仅是记忆了噪声。它在偏置和方差之间找到了更好的权衡,并且更有可能对新患者有很好的泛化能力。
那么,机器是如何以这种方式“学习”的呢?这个过程由两种不同的设置来引导:参数和超参数。
模型参数是学习算法在训练期间自动调整的旋钮。可以想象成深度神经网络中数以百万计的权重。这些是风险最小化问题中的变量。算法(通常使用像梯度下降这样的优化方法)会反复调整这些旋钮,试图找到最小化结构风险的设置。
另一方面,超参数是我们在训练开始前就做出的选择。它们定义了学习环境和模型本身的架构。它们是学习机器的蓝图。例子包括:
本质上,超参数是我们归纳偏置的具体体现。通过选择它们,我们定义了模型可以搜索的假设空间以及它应该具有的偏好。选择超参数与其说是一门科学,不如说是一门艺术,通常由经验、实验和对问题领域的深刻理解来指导。
还有一种更专门的归纳形式叫做直推学习(transductive learning),它不是为所有未来数据学习一个通用规则,而是专注于为一组特定的、已知的未标记数据点进行预测。通过预先知道我们需要回答的特定“问题”,我们可以更精确地定制我们的归纳偏置,通常能为该固定集合带来更准确的预测。
归纳推理,就其本质而言,是概率性的,而非确定性的。一个使用人工智能来诊断病人的医生得到的不是一个明确的“是”或“否”。他得到的是一个概率。基于病人的症状和实验室结果,人工智能可能会得出结论:“重症败血症的更新概率约为56%” [@problem-id:4397008]。这是一个经典的归纳更新:一个先验信念(人群中败血症的基础发病率)被新证据更新,从而得出一个后验信念。
这种固有的不确定性意味着错误是不可避免的。在现实世界中,这些错误会带来后果。这就引出了归纳风险(inductive risk)的概念。这不是我们之前讨论的统计风险,而是在存在现实世界、非认知利害关系时,基于归纳推理做出错误决策的伦理风险。
考虑一个用于体外受精(IVF)中筛选胚胎以排除严重遗传病的AI。AI输出一个概率。诊所必须设定一个阈值:高于此概率,胚胎将被丢弃。设定这个阈值并非一个纯粹的技术或统计决策。
这个阈值的选择是一个价值判断。它迫使我们权衡假阳性的危害与假阴性的危害。科学可以给我们概率,但它不能告诉我们风险的“正确”平衡点在哪里。这是一个关乎伦理、政策和社会的问题。归纳风险提醒我们,在我们“智能”系统的内部,嵌入了其创造者的价值观和优先级。
我们已经看到,归纳学习是一个带有偏置的泛化过程,一种风险与复杂度的精妙平衡。这引出了一个诱人的问题:是否存在一个完美的归纳学习者?一个能够学习任何模式的、单一的、普适的方法?
惊人的答案是,理论上存在。这个概念被称为所罗门诺夫归纳推理理论。它是所有科学中最美丽、最深刻的思想之一。
这个思想植根于一个叫做柯尔莫哥洛夫复杂度的概念,它将一段数据的复杂度定义为能够生成它的最短计算机程序的长度。字符串 "0101010101010101" 很简单;它最短的程序类似于“打印 '01' 8次”。一个看起来随机的字符串具有高复杂度;它最短的程序基本上是“打印 '...'”后跟字符串本身。
所罗门诺夫的普适预测器设想了一台通用图灵机,并考虑所有可能的计算机程序。它根据每个程序的长度对其加权(较短的程序获得较高的权重,这是奥卡姆剃刀的完美实现),并通过将所有产生该序列的程序的权重相加来计算序列的概率。为了预测下一个比特,它只需比较所有以 '0' 结尾的序列的总概率与所有以 '1' 结尾的序列的总概率。
这种方法被证明是最佳的。它是一个主贝叶斯模型,如果存在一个真实的潜在概率分布,它会比任何其他单一可计算的预测器更快地收敛到该分布。它是归纳的理论黄金标准。
而宏伟的结局是:它是不可计算的。
要实际计算所罗门诺夫先验,你必须运行所有可能的程序,看看它们输出什么。但正如 Alan Turing 所证明的,没有通用的方法可以知道一个任意程序是否会停止运行,还是会永远循环下去(停机问题)。完美的归纳机器在逻辑上是可设想的,但在物理上是不可能构建的。
这不是一个失败;这是对知识本质的深刻洞见。它告诉我们,虽然一个“完美”的答案在柏拉图式的数学意义上存在,但学习的实践艺术将永远是近似的艺术,是巧妙启发法的艺术,是向未知领域做出有根据、有偏置的飞跃的艺术。我们所有现实世界的算法,从简单到复杂,都只是洞穴墙壁上的影子,试图捕捉这个美丽而遥不可及的理想的一小部分。
我们已经探索了归纳学习的机制——这种泛化的艺术,既美丽又时而危险,是从具体到一般的宏大飞跃。我们看到,这一飞跃从不是在真空中完成的;它总是由一个*归纳偏置*引导,一种先入之见或偏好的模式,塑造着我们的猜测。
现在,让我们问:这个想法将我们引向何方?它仅仅是计算机科学家的一个聪明技巧,一种制造能够分类猫狗图片的新机器的方法吗?你可能不会惊讶地发现,答案是响亮的“不”。这种带有偏置的猜测过程并非什么新奇的发明。它是宇宙中最古老、最深刻的主题之一,一根贯穿科学结构、我们心智架构以及生命宏伟织锦的线索。让我们来一探究竟。
我们是如何知道事物的?我们是如何发现某种发烧是天花而不是麻疹,或者持续的咳嗽和带血的痰可能指向肺部的损伤?远在我们拥有疾病的细菌理论或先进的成像技术之前,我们拥有一个简单而强大的工具:观察。但观察本身只是集邮。当观察与归纳相结合时,魔法就发生了。
思考一下历史上的伟大医生。当10世纪的 Abu Bakr al-Razi 试图区分天花和麻疹时,他不仅仅是看一个病人。他汇集了数十甚至数百个病例的经验。实际上,他是在自己的脑海中运行一个算法。他寻找模式——那些持续与一种结果相关联但与另一种结果无关的特征。这种皮疹在发烧前出现,那种在发烧后出现。这种伴随着卡他性感冒,那种则不伴随。这种跨病例的比较归纳过程是鉴别诊断的核心。
几个世纪后,在1761年,Giovanni Battista Morgagni 用同样的逻辑奠定了现代病理学的基础。通过系统地将他病人生前的临床症状与死后的解剖发现相关联,他试图定位“疾病的位置和原因”。当他看到那些死于咯血史的病人肺部总是有空洞性病变,而那些死于突发创伤的病人则没有时,他正在运用一种强大的归纳方法。他结合了哲学家 John Stuart Mill 后来形式化的求同法(所有有症状的病例都有病变)和求异法(没有症状的病例没有病变)。Morgagni 的天才不仅在于相关性,还在于提出了一个机理故事——肺组织的破坏必定侵蚀了血管。这种模式匹配与合乎情理的物理故事的结合,正是科学发现的灵魂。
这让我们对归纳偏置有了深刻的洞察。有时,我们的偏置很弱;我们只是在寻找任何模式。但通常,我们最好的科学工作是在我们应用源自先验知识的强归纳偏置时完成的。想象一下,你正在实验室里追踪一种微生物的生长。你可以尝试用一些通用的、灵活的函数(如三次多项式)来拟合数据点。但如果你的物理学和生物学知识让你强烈地预感到生长是指数性的——即生长速率与当前种群数量成正比,——你就可以将这个约束构建到你的模型中。通过强制你的学习算法只考虑遵守这条物理定律的解,你提供了一个强大而正确的归纳偏置。结果呢?你可以用少得多的数据找到一个近乎完美的模型,一个不仅拟合你所见过的点,而且能准确外推到你未见过的点的模型。你不仅仅是拟合了一条曲线;你编码了科学的智慧。
这种在灵活的数据驱动模式匹配和知识驱动偏置之间的对话,正是现代人工智能的核心戏剧。让我们回到21世纪的医学领域。一个AI的任务是查看医学扫描图像,以预测肿瘤是否为恶性。我们应该如何设计它?
一种方法是成为古典科学家:一位专家放射科医生可以告诉机器要寻找什么。“测量肿瘤的纹理、其锯齿状程度、其强度。”这被称为手工特征工程。我们施加了一个强大的归纳偏置,它建立在数十年的人类医学知识之上。这通常效果非常好,尤其是在我们没有成千上万张扫描图像可供学习时。
另一种方法是深度学习。我们向机器展示原始像素,然后简单地说:“你自己想办法。”我们施加一个非常弱的归纳偏置(也许只是附近的像素是相关的,这是卷积神经网络的偏置)。机器有巨大的自由度去发现人类从未注意到的模式。但巨大的自由伴随着巨大的责任——以及对数据的巨大需求。没有强大的指导性偏置,模型需要看到海量的例子来学习区分有意义的生物信号和无意义的伪相关,比如扫描仪镜头上的一个污点。
所以我们面临一个权衡:注入更多的人类知识作为偏置,需要的数据就更少;或者使用更少的偏置,但需要海洋般的数据。但如果我们能进行一场对话呢?这就是人在回路(human-in-the-loop)AI的前沿。想象一位临床医生与一个AI并肩工作。AI做出预测,临床医生可以提供一个提示:“不,那不可能是对的,这个病人的风险应该更高,”或者“病人A的风险绝对比病人B高。”这些提示不是僵化的规则;它们是软约束,是转化为数学语言的专家直觉。它们充当一种温和的归纳偏置,将学习过程推向更合理的轨道,改善泛化并建立信任,尤其是在标记数据稀缺时。
当然,最终目标是构建一个能够自己成为真正科学家的AI。在一个医院训练的模型部署到另一个医院时常常失败,因为它抓住了第一个医院特有的“伪相关”——MRI机器的品牌、当地的编码习惯。挑战在于教会AI忽略这些环境怪癖,只学习代表真实、因果生物学关系的不变关系。这就是不变风险最小化(Invariant Risk Minimization, IRM)等领域所追求的目标:找到一种数据表示,使得最优预测规则在任何地方都相同,因为它基于真实和普遍的东西,而非局部和偶然的东西。
这个从经验中学习、区分普遍与偶然的宏伟工程,并非我们为机器发明的。它本身就是生命的基本事业。
看看你自己的思想就知道了。我们如何学会克服恐惧?认知行为疗法的原则可以被看作是一个应用得非常优美的归纳学习过程。一个有恐惧症的人持有一个世界模型,例如,“公开演讲是危险的”。治疗提供了一种进行实验以收集与此模型矛盾的新数据的方法。一次暴露练习——在一个安全的环境中发表简短演讲——就是一个数据点。治疗师的角色是充当归纳的向导。通过布置家庭作业——在不同情境下练习并间隔这些练习——治疗师利用了学习的两个核心原则。多变性确保了新的学习(“公开演讲是安全的”)能够泛化到治疗师办公室之外。间隔练习创造了“合意的困难”,迫使大脑更努力地进行提取,从而巩固新的记忆并使其持久。在非常真实的意义上,我们正在调试我们自己内部的世界模型。
这种学习不是一个被动的过程。我们不仅仅是等待数据被倒入的桶。我们是主动的行动者。每一刻,我们都面临一个关键选择:探索与利用的权衡。你是在餐馆点你最喜欢的、可靠的菜(利用),还是尝试一些新的东西(探索)?利用是基于你当前的知识最大化你即时的预期回报。探索是一种认知行为——一种主要为了获取信息而采取的行动。你牺牲了一个已知的、确定的回报,来换取未来找到更好回报的机会,这个未来因你知识的改变而成为可能。每个生物,从觅食花蜜的蜜蜂到选择职业的人类,都在不断地解决这个问题,平衡着利用已知知识获利的需求和学习更多的需求。
这种学习不仅改变了学习者;它还改变了世界。一只蜜蜂学会了某种花卉图案预示着丰富的花蜜。这使得蜜蜂的神经系统成为环境中的一种选择力量。一个不提供花蜜的兰花物种,如果它碰巧进化出一种模仿有回报物种信号的花朵,就能被访问——并被授粉。这株兰花正在劫持蜜蜂学到的世界模型。蜜蜂的归纳学习算法现在直接对兰花的基因施加压力,驱动了欺骗行为的进化 [@problem-id:2549346]。
这把我们带到了最后一个令人惊叹的联系。个体的学习能否影响其整个物种的基因进化?很长一段时间里,人们认为答案是严格的“不”,以免我们陷入拉马克主义的谬误。但答案更为微妙。想象一下,环境变化使得一种新行为,比如躲在石头下,突然对生存至关重要。一个种群中的一些个体可能在基因上就倾向于这样做,但许多个体并非如此。然而,那些不倾向于此的个体中,有些可能很聪明;它们可能学会躲藏。这种学习能力——一种表型可塑性——可以使种群免于灭绝。它搭建了一座桥梁。既然种群通过学习得以生存,就有了一个新的、稳定的选择压力:任何能使躲藏行为更容易、更快,甚至成为天性的随机基因突变,都将受到强烈的青睐。经过许多代,曾经是学习而来的行为可以成为根深蒂固的本能。祖先的学习为基因进化指明了道路。这就是著名的*鲍德温效应*。单个生命中的归纳飞跃,经过进化时间的推移,可以被铭刻到一个物种的基因组中。
从古巴格达的一位医生到现代医院里的人工智能,从一个克服恐惧症的病人到一株欺骗蜜蜂的兰花,从一种动物的聪明技巧到其远方后代的先天本能,我们看到了同一个原则在起作用。一个由偏置引导的猜测。一个被世界更新的模型。这是在一个充满无尽复杂性和不完整信息宇宙中,把事情做对——或者至少做得足够对以生存——的艺术。这便是归纳学习的真正范畴。