回合式训练

玻尔百科

核心要点

回合式训练通过将学习过程构建为一系列离散的问题来防止过拟合，从而迫使模型学习可泛化的技能，而非记忆特定的解决方案。
该方法受到人脑将程序性记忆（技能）与情景记忆（事件）分离的启发，旨在教会人工智能学习“学习”这一程序性技能本身。
它是元学习的基石，使人工智能能够在计算机视觉和强化学习等领域，通过极少的样本快速“学会学习”并适应新任务。
回合式思维方式是一种多功能工具，适用于各种挑战，包括稳定网络训练、确保人工智能安全和自动化科学发现。

引言

人工智能系统常常面临一个致命缺陷：它们精于记忆，却非真正的学习者。一个在某项任务上训练到完美的智能体，在面对一个略有不同的新问题时可能会完全失败，这种现象被称为过拟合。记忆与泛化之间的鸿沟，是创造真正智能系统的根本障碍。我们如何才能教会模型不仅记忆，而且理解和适应？答案或许在于一种强大的训练范式，其灵感正源于我们大脑自身的学习方式。

本文探讨的是回合式训练，一种重塑学习过程的方法。学习不再是连续的数据流，而是被分解为一系列离散的、自成一体的“回合”课程。通过应对大量此类微型问题，人工智能被迫去发现底层原理并发展通用技能。我们将首先深入探讨其原理与机制，探索这种方法的神经科学基础及其在少样本学习和强化学习中的具体实现。随后，我们将遍览其多样化的应用与跨学科联系，展示这一理念如何能教会人工智能探索新世界、学习新技能，甚至成为科学发现的伙伴。

原理与机制

完美记忆的危害

想象一下，你着手建造一个聪明的机器人，一个迷宫大师。你找到了一个复杂的迷宫，并开始训练机器人。它会撞墙、走错路，挣扎不已。但每一次尝试，它都会有所进步。经过数千次试验，它变得效率惊人，能够毫无多余动作地从头到尾飞速穿过迷宫。你激动万分，因为你创造了一个解决迷宫的天才。

现在，你把你的杰作带到一个新的、略有不同的迷宫。入口被移动了，一条走廊被加宽了，一个死胡同被缩短了。你放出机器人，期待着又一次完美的表现。然而，它却无可救药地迷路了。它重复着对于旧迷宫来说完美无缺，但在这里却毫无意义的移动模式。它撞上墙壁，漫无目的地打转。究竟是哪里出了问题？

你的机器人并非天才，而是一只学舌的鹦鹉。它没有学会解决迷宫的原则——比如“沿着左墙走”或“不要重复访问交叉路口”。它只是对一条特定路径达成了完美的、僵化的记忆。这就是我们称之为过拟合问题的本质。我们在人工智能智能体中也观察到完全相同的行为。在一个场景中，一个在固定的程序生成的视频游戏关卡集上训练的 AI 智能体取得了惊人的 92% 成功率。但是，当在来自同一生成器的全新、未见过的关卡上进行测试时，其表现骤降至 56%。它在熟悉问题和新问题上的表现之间存在巨大的、统计上显著的差距，这表明该智能体并未学会通用技能；它只是记住了训练集的解决方案。要构建真正智能的系统，我们必须教会它们如何泛化，而不仅仅是如何记忆。我们该怎么做呢？我们可以从一个远比之复杂精密的学习机器——人脑——中寻找线索。

两种记忆的故事

在神经科学的史册中，有一些关于因特定脑损伤而对学习与记忆的本质提供深刻见解的患者的迷人记述。思考一个经典案例，一名患者的海马体（大脑深处的一个结构）严重受损。你可以坐下来教这个人一项新的复杂运动技能，比如只通过镜子看自己的手来描摹一个星星的形状。第一天，他们的表现笨拙而缓慢。第二天，你问他们：“你以前做过这个吗？”他们几乎肯定会以完全确信的口吻说没有。他们对前一天的训练毫无记忆。然而，当他们拿起笔时，他们的手却移动得更加自信和准确。到第十天，他们可能已经能以近乎完美的技巧描摹星星，同时一直坚称自己是第一次执行这项任务的完全新手。

这种显著的分离现象揭示了“学习”并非一个单一、整体的过程。大脑至少维持着两种根本不同类型的记忆：

程序性记忆：这是“如何做”的记忆。它是骑自行车、弹钢琴或在镜子中描摹星星的技能。这种类型的学习是渐进的，通过练习建立，并且不依赖于海马体。患者的双手学会了这项技能。
情景记忆：这是关于“何事、何地、何时”的记忆。它是关于特定自传性事件的记忆，比如“昨天，我坐在这把椅子上，一位研究员让我描摹星星”。这种形式的记忆严重依赖于海马体。患者的大脑无法形成关于学习经历的记忆。

这种生物学上的分离为我们提供了有力的启示。如果我们能设计人工智能的训练来模仿这一点呢？如果我们不采用一个模型可能会简单记忆的漫长、连续的“经验”，而是将训练构建为一系列离散的回合呢？目标将不再是掌握任何单个回合的内容，而是学习学习本身的程序性技能。通过接触数千个不同的、自成一体的学习问题，智能体被迫发展出解决新问题的通用策略。这就是回合式训练背后的核心思想。

学会学习，一次一回合

回合式训练范式重塑了学习目标。我们不再试图在单个巨大的数据集上最小化误差，而是致力于构建一个模型，当它面对一个小的、新的学习问题（一个回合）时，能够高效地适应和解决它。模型的优化目标不是其性能，而是其学习潜力。让我们看看这个抽象概念是如何具体化的。

用于少样本视觉的回合

想象一下，你想构建一个人工智能，它能仅凭几张图片就识别出一种新的鸟类——这项任务被称为少样本学习。在数百万张标记图像上进行训练的传统方法行不通，因为我们只有少数几张。相反，我们可以使用回合式训练来教会模型从少量样本中学习的技能。

在训练期间，我们创建一系列模拟的少样本问题，即回合。以下是我们如何根据中的原则构建一个“5-way, 1-shot”回合：

采样类别：从一个包含许多不同动物类别的大型数据集中，我们随机选择 $C=5$ 个类别（例如，‘麻雀’、‘知更鸟’、‘鹰’、‘鸵鸟’、‘企鹅’）。
创建支持集：对于这 5 个类别中的每一个，我们随机选择 $k=1$ 张示例图像。这 $C \times k = 5$ 张带标签的图像集合就是支持集。它是这个特定回合的“学习指南”。
创建查询集：然后我们从相同的 5 个类别中采样一些不同的图像。这就是查询集，它充当“突击测验”。

模型在单个回合中的任务是利用支持集中的信息来正确分类查询集中的图像。模型的误差仅在此查询集上计算，其内部参数会更新，使其更擅长这种“先学习后测验”的游戏。然后，我们丢弃这个回合，生成一个全新的回合，包含不同的类别、不同的图像以及新的支持集和查询集。

经过数千个此类回合的训练，模型并没有成为麻雀或企鹅的专家，而是成为了从少量标记样本到构建一个功能性分类器这一过程的专家。它学会了学习。

这种方法揭示了美妙的精妙之处。例如，如果你只在 5-way 分类问题上训练模型，然后在 20-way 问题上测试它，会发生什么？模型的性能通常会下降。内部的“置信度”计算（通常由 softmax 函数执行）对竞争类别的数量很敏感。从 5 个选项中选出正确答案的难度与从 20 个选项中选出是不同的。这种“类别数量不匹配” (way-mismatch) 突显了一个深刻的原则：训练回合必须忠实地反映你最终想要解决的问题的结构。

用于快速强化学习的回合

同样的回合式哲学可以赋予强化学习智能体以惊人速度适应的能力。想象一个需要解决各种导航任务的智能体，每个任务都有不同的目标位置。为每个目标从头开始训练一个单独的策略会极其低效。相反，我们可以使用元学习来找到一个单一的、最佳的起点。

这就是像模型无关元学习（MAML）这类算法背后的原理。目标是找到一组初始网络参数，我们称之为 $\theta_{\text{meta}}$ ，这组参数对于任何单个任务都不是完美的，但却为快速适应做好了绝佳的准备。如等问题中详述的训练过程，是按回合展开的，每个回合对应一个不同的强化学习任务（例如，一个不同的目标）。

对于一个给定的任务回合，智能体从 $\theta_{\text{meta}}$ 开始。
它执行几步标准的策略梯度更新，专门为该任务调整其参数。这会产生一个特定于任务的策略 $\theta'$ 。
评估智能体使用 $\theta'$ 的性能。
关键的是，元学习更新随后会朝着能使适应后的策略 $\theta'$ 表现更好的方向调整原始参数 $\theta_{\text{meta}}$ 。

经过许多任务回合， $\theta_{\text{meta}}$ 被塑造成一个神奇的初始化。从 $\theta_{\text{meta}}$ 开始的智能体只需几步就能学会一个新的相关任务，而从随机初始化开始的智能体可能需要数千步。这是学习获取新策略的“程序性技能”的一个强有力的例证。

其他方法采取了不同但相关的方式。与其学习一个用于适应的最佳起点，不如学习一个初始的 Q 表，它代表了所有训练任务最优策略的一个良好“平均值”。这提供了一个强大的“先验”，让智能体占得先机，即使其哲学更多是关于拥有一个坚实的、平均化的基础，而不是快速的基于梯度的微调。

回合式思维的统一力量

一旦你开始用回合的思维方式思考，你就会发现它优雅的解决方案出现在最意想不到的地方。它不仅仅是一种训练技巧，更是一种处理世界复杂性和非平稳性的范式。

考虑强化学习中批量归一化的挑战。这个标准的神经网络工具有助于稳定训练，它通过将每层的输入归一化为零均值和单位方差来实现。为此，它维持着所见数据均值和方差的运行平均值。但在强化学习中，智能体的策略在不断改进，这意味着它访问的状态分布也在不断变化——它是非平稳的。一千步前，当策略还很原始时，那些运行平均值对于归一化今天更复杂策略所产生的数据是无关且具有污染性的。批量归一化的核心假设被打破了。解决方案是什么？一种回合式思维。我们可以在每个回合内计算归一化所需的统计数据，而不是维护一个全局的运行平均值。这承认了每个回合，由略有不同的策略版本生成，都是其自身的统计微气候。这个受回合式思维启发的简单改变，优雅地解决了这个问题。

这种思维方式甚至延伸到构建更安全的人工智能。在先进的机器人技术中，控制器可能会使用一个学习到的世界模型来做决策。这个模型可以在收集新数据时“按回合”更新。我们可以设计一个系统，主动监控其自身模型的置信度。当控制器发现自己处于安全约束即将被激活的情况下——意味着模型被推向其极限，其不确定性很高——它可以触发一个新的、有针对性的数据收集“回合”，以在最需要的地方精确地改进模型。

最后，回合式视角可以丰富我们对成功的定义。在许多强化学习任务中，一个回合是一次“试验”，可能以奖励结束，也可能不会。一个因时间限制而在找到奖励前结束的回合，在某种程度上是一个不完整的观察。这与医学统计中删失数据的问题完全相同，在医学统计中，临床试验可能在患者经历目标事件之前就结束了。通过这种方式构建强化学习的回合，我们可以借鉴生存分析的强大工具来提出更细致的问题。我们不仅可以估计最终获得奖励的概率，还可以估计整个生存函数 $\widehat{S}(t)$ ——即在时间 $t$ 之前“存活”而未获得奖励的概率。这使我们不仅能根据策略是否成功来排名，还能根据它们成功得多快来排名，从而提供一幅远为丰富的性能图景。

从避免记忆的陷阱到从人类记忆的结构中汲取灵感，回合式范式为我们如何处理机器学习提供了一次深刻的转变。通过将连续的经验流分解为离散学习问题的课程，我们迫使模型超越任何单一任务的细节，去发现学习本身的普适性、程序性技能。

应用与跨学科联系

理解了回合式训练的原理后，你可能会问：“它有什么用？”这永远是最重要的问题。答案是，其应用惊人地广泛，并揭示了看似不相关的领域之间深层的统一性。回合式训练的真正力量不仅仅在于教会机器解决单个特定问题。那就像记住从你家到某个特定商店的确切路线。虽然有用，但如果道路封闭或者你想去别的地方，你就会迷路。回合式训练是关于教机器如何读地图。通过在一整套不同的“回合”——每个都是一个自成一体的问题或旅程——上进行训练，智能体被迫学习其所处世界的底层原理。它学会了一种通用技能，一种智慧，使其能够以惊人的能力驾驭新的、未见过的情境。

让我们来探索这段旅程，从学习导航简单的世界到成为科学发现的伙伴。

学习导航真实与抽象的世界

想象一个智能体试图学习如何走出迷宫。如果你只在一个特定的迷宫上训练它，它可能只会记住转弯的顺序：左、右、右、直走……但这种“策略”是脆弱的。它在任何其他迷宫中都会惨败。然而，如果我们以回合式的方式在数千个不同的迷宫上训练这个智能体，它就不能再依赖记忆了。它被迫学习一些关于“迷宫特性”的更根本的东西。它学会了诸如“目标在那边，所以我通常应该朝那个方向移动”和“撞墙是无效的”之类的通用概念。

这正是迷宫导航模型中所探索的洞见。一个在各种迷宫上进行回合式训练的智能体，学会了其世界的一种可泛化的表征。它学会识别普遍有用的特征——比如到目标的相对方向或路径是否被阻塞——并将这些特征与好或坏的行动联系起来。这与一种表格法形成鲜明对比，后者只是简单地记住特定迷宫中每个特定网格单元里每个行动的价值，这种策略完全无法迁移任何知识。

这种导航“世界”的想法远不止于物理迷宫。考虑一下抽象而动荡的金融市场世界。智能体能否学到一种通用的交易策略？同样，在单一历史价格图表上进行训练几乎没有用处；市场永远不会完全重复自己。但我们可以将市场建模为具有不同的“状态”——牛市、熊市、震荡市——并将每个交易日或周视为一个回合。通过在许多这样的回合中训练一个智能体，从不同的条件开始，它可以学到一个稳健的策略，比如知道在牛市中应用动量策略，在震荡市中应用均值回归策略。

我们甚至可以放大到市场的微观“物理学”：限价订单簿。在这里，智能体必须学会放置、取消和执行订单的精妙艺术，以在不过多等待的情况下获得最佳价格。每次购买股票的尝试都可以被构建成一个短暂的回合，最终以成功购买或超时结束。通过数千次这样的模拟高频回合，智能体学会了市场微观结构的复杂战术——何时该有耐心并下达限价单，何时该激进并以市价单跨越买卖价差。在宏观和微观的金融世界中，回合式方法都让智能体能够从多样化的具体旅程集合中提炼出一种通用的、读图般的技能。

学会学习本身：元学习的黎明

到目前为止，我们的智能体通过观察许多例子学会了一项单一的技能，比如读地图。但如果我们能教它一些更深层次的东西呢？比如如何更快地学习新技能？这就是元学习的核心思想，也是回合式训练大放异彩的最激动人心的前沿之一。

想象你是一位研究了一辈子动物的生物学家。你知道哪些特征——胡须、羽毛、鳞片、口鼻——对于区分一个物种与另一个物种很重要。当你遇到一种你从未见过的新动物，比如水豚，你不需要看到成千上万只。只看了一两只之后，你就能迅速形成“水豚特性”的概念，并可靠地识别其他水豚。你已经学会了如何学习。

我们可以为机器创造一种类似的情境。在一个典型的少样本学习回合中，我们首先在一个大的“基础类别”集合上训练一个模型，比如狗、猫和鸟的图像。然后，我们在一个“新颖回合”中测试它，在这个回合里，它只被给予它从未见过的新类别（比如水豚和鸭嘴兽）的少数几个例子（“支持集”），并被要求对新图像（“查询”）进行分类。

仅仅测量像素级的原始相似度的幼稚方法将会失败。神奇之处在于，当基础类别上的训练被用来学习一个更好的相似性概念时。模型学习一个“度量”，扭曲其特征空间，沿着对分类重要的维度拉伸它，并沿着不相关的维度收缩它。一个极好的例子是学习马氏距离度量。通过分析基础类别内部和之间的统计变异，模型可以估计一个共享的协方差矩阵。这个矩阵的逆矩阵充当度量，有效地告诉智能体：“这个方向上的差异非常重要，而那个方向上的差异可能只是噪音。”有了这种对世界结构的习得理解，智能体只需看一两个水豚的例子，就能立即抓住其本质特征，其表现远超将所有特征维度同等对待的模型。这是回合式训练最深刻的体现：这些回合不仅仅是练习，它们是关于认识论的课程。

从学习到创造：探索的引擎

我们旅程的最后、也是最激动人心的一步，是将这种学习范式向外延伸，从一个理解世界的工具，转变为一个在世界中创造事物的工具。

在机器能够发现任何东西之前，人类科学家必须首先用机器能理解的语言来构建问题。这种建模行为本身就是一项深刻的智力挑战。例如，你如何教机器执行多序列比对（MSA），这是生物信息学的基石？你必须将任务定义为一个马尔可夫决策过程（MDP）：一个回合是逐步构建一个比对，一次一列。“状态”不仅必须包括每个序列中下一个待对齐的字符，还必须包括前一列是否包含空位的记忆，这对于正确计算现代评分方案至关重要。“行动”是智能体可以构建的可能列，而“奖励”是每个新列的得分。这种精心的构想将一个生物学难题转化为一个可解的强化学习问题。

一旦舞台搭建好，智能体就可以接管。考虑管理现代云计算数据中心的艰巨任务。成千上万的服务器必须动态地扩容或缩容以满足波动的用户需求，同时还要最小化成本并确保响应时间保持在严格的服务水平目标（SLO）之内。这是一个极其复杂的控制问题。使用回合式训练，我们可以模拟无数个“运营日”，每个都有不同的负载模式。一个行动者-评论家（actor-critic）智能体可以在这些回合中生存，体验其扩缩容决策的后果。随着时间的推移，它学会了一种复杂的策略，能够巧妙地平衡延迟和成本，甚至发现在可预测的负载高峰到来之前主动扩容。智能体变成了一个专家级的、不知疲倦的系统管理员。

也许最鼓舞人心的应用在于纯粹的科学发现。聚合酶链式反应（PCR）是分子生物学中的一项主力技术，但要找到最佳的温度循环方案以最大化目标 DNA 序列的产量，同时最小化不需要的副产品，可能是一个繁琐的试错过程。通过创建一个简化但生物物理上合理的 PCR 过程模拟器，我们可以释放一个强化学习智能体来为我们找到最佳方案。每个“回合”都是一个完整的、模拟的 PCR 实验，采用特定的温度方案。智能体在结束时根据最终的产量和特异性获得奖励。经过数千次这样的自动化实验，智能体探索了广阔的设计空间，并收敛于一种新颖、高效的温度策略——这是机器发现的一项新科学知识。

从简单的迷宫到自动化的实验室，原理始终如一。回合式训练使我们的算法能够跨越广泛情境积累经验，提炼问题的本质，学习的不仅仅是解决方案，而是一种策略。正是这种泛化能力，这种学会“读地图”而非记忆“路线”的能力，使其成为现代人工智能中最强大、最有前途的思想之一。