持续激励

玻尔百科

核心要点

持续激励是指输入信号必须在内容上足够“丰富”，以确保系统的所有未知参数都能被唯一地辨识。
辨识参数的能力由信息矩阵决定，该矩阵必须是可逆的；这只有通过持续激励的输入信号才能实现。
在自适应控制中，实现完美控制可能悖论性地消除必要的激励，导致学习中止、参数漂移和潜在的不稳定性。
该原则统一了不同领域的学习过程，将系统辨识、对偶控制以及强化学习中的探索-利用权衡联系在一起。

引言

在科学与工程领域，我们不断面临理解和控制内部运作机制未知的系统——即所谓的“黑箱”——的挑战。一个根本性的问题随之产生：我们如何与这样的系统互动，以保证揭示其所有秘密？仅仅观察是不够的，我们必须主动探测它。本文探讨了成功学习所需的一个关键条件，即“持续激励”。它解决了如何设计实验和控制策略，以确保持续和准确的学习，防止估计器被沉寂所误导。读者将首先在“原理与机制”一章中深入探讨其核心概念和数学基础。随后，“应用与跨学科联系”一章将揭示这一基本原则如何应用于从自适应控制到现代强化学习的各个领域，突显其在技术领域的统一作用。

原理与机制

想象一下，你面前有一个神秘的黑箱，上面有几个你可以转动的旋钮（输入）和几个会随之响应的仪表盘（输出）。箱子内部是齿轮和杠杆的复杂组合，即系统的内部参数，你的任务是弄清楚它们究竟是如何连接的。你会怎么做？你不会只是盯着它看。你需要“探测”它。你会以各种组合方式转动旋钮，并仔细记录仪表盘的反应。

如果你只来回摆弄一个旋钮，你将只能了解到与该特定旋钮相连的齿轮。机器其余部分的秘密将仍然隐藏。为了绘制出整个内部机制，你需要有策略。你必须以一种足够丰富和多样的方式激励系统，使其内部的每一个齿轮和杠杆都运动起来，从而揭示其功能。这个简单而直观的想法，正是工程师和科学家们所称的持续激励的核心。这是一门提出正确问题以使系统揭示其秘密的艺术。

发现的记账员：信息矩阵

让我们从一个机械盒子转向一个数学盒子。假设我们有一个由线性模型描述的简单系统，这是科学和工程中一个常见的起点。在某个时间 $k$ 的输出 $y_k$ 是一些已知信号的线性组合（收集在一个向量 $\phi_k$ 中），由一组我们称之为 $\theta$ 的未知参数加权。用数学简写表示为：

y_k = \phi_k^{\top}\theta + v_k

这里， $\phi_k$ 是我们在时间 $k$ 的“探测”或“探针”，称为回归向量。向量 $\theta$ 包含我们迫切想要找出的未知内部参数。项 $v_k$ 是一些不可预测的噪声，是我们无法控制但必须考虑的“机器中的幽灵”。

为了找到 $\theta$ ，我们收集从 $k=1$ 到 $N$ 的一系列测量数据。我们想找到能最好地解释我们所见数据的参数向量 $\theta$ 。一种经典的方法是最小二乘法，我们寻找使模型预测与实际测量值之间误差平方和最小的 $\theta$ 。

我们是否能为 $\theta$ 找到一个唯一解的关键，在于一个非凡的数学对象，称为信息矩阵（或格拉姆矩阵）。对于一组 $N$ 次测量，它定义为：

S_N = \sum_{k=1}^{N} \phi_k \phi_k^{\top}

这个矩阵就是我们的“记账员”。每次我们用回归向量 $\phi_k$ 探测系统时，我们就将该次探测的“信息”以其外积 $\phi_k \phi_k^{\top}$ 的形式添加到我们的“账本” $S_N$ 中。这个矩阵总结了我们整个实验的历史。

为了能够唯一地确定一个具有 $p$ 个未知参数的向量 $\theta$ ，这个 $p \times p$ 的信息矩阵 $S_N$ 必须是可逆的。用线性代数的语言来说，这等同于说它必须满秩（秩为 $p$ ）或正定。如果 $S_N$ 是奇异的（不可逆），这意味着我们的实验存在盲点。对于我们所使用的“探测”方法，某些参数的组合是完全无法区分的。再高明的统计魔法也无法解决这种模糊性；信息根本就不存在于数据中。噪声也无济于事——它只会使本已无法区分的输出变得模糊不清，更难看清。从简单的最小二乘法到更高级的 LMS 和 RLS 算法，许多估计算法的成功都取决于这个矩阵是良态且可逆的。

什么是“丰富”的信号？

这就引出了我们故事的主角。如果一个信号足够“丰富”，能够保证在一个移动时间窗口内累积的信息矩阵保持一致正定，那么这个信号就被认为是持续激励的。它确保我们能持续地、在所有正确的“方向”上收集到足够的信息，以辨识所有的未知参数。

那么，什么使信号变得“丰富”呢？让我们考虑一个简单的例子。假设我们想辨识一个有3个未知参数（ $M=3$ ）的系统，我们决定用一个简单的正弦波 $x_n = \sin(\omega_0 n)$ 来探测它。正弦波是一个不断变化的信号，所以它似乎是一个不错的选择。但它具有欺骗性的简单。回归向量将是 $\boldsymbol{\phi}_n = [x_n, x_{n-1}, x_{n-2}]^{\top}$ 。运用一点三角学知识，我们发现任何延迟的正弦波，如 $x_{n-1}$ 或 $x_{n-2}$ ，都可以写成仅 $\sin(\omega_0 n)$ 和 $\cos(\omega_0 n)$ 的线性组合。这意味着无论时间过去多久，我们的三维回归向量 $\boldsymbol{\phi}_n$ 始终被限制在一个二维子空间内。这就像试图探索一个三维房间，却只被允许在一个平面上行走。你永远无法获得理解房间高度所需的信息。因此，信息矩阵的秩最多为2。它将永远是奇异的，我们永远无法辨识所有3个参数。单个正弦波只是2阶持续激励的。

为了辨识更多参数，我们需要一个具有更丰富频率成分的信号。系统辨识中的一个著名结果指出，要辨识一个常见的n阶ARX模型的 $2n$ 个参数，输入信号必须至少包含 $n$ 个不同的正弦频率。每个频率分量就像一个新的、独立的探针，帮助照亮系统未知参数空间的另一个维度。当然，终极的丰富信号是理论上的白噪声，它包含每一种频率的一点点成分，对于抖出系统的所有秘密非常有效。

完美控制的悖论

现在我们来到了一个位于学习与控制交汇处的美妙而深刻的悖论。许多先进系统，从飞机自动驾驶仪到化工厂过程控制器，都是自适应的。它们被设计用来同时执行两个任务：

辨识：学习它们试图控制的系统的未知参数。
控制：使用当前的参数估计来引导系统输出 $y(t)$ 跟踪一个期望的参考轨迹 $r(t)$ 。

想象一个自校正调节器 (STR)，其工作是使系统输出跟踪一个参考信号。如果参考信号非常简单——例如，一个常数值，甚至只是零——会发生什么？一个设计良好的自适应控制器会出色地完成其工作。它将迅速调整其控制作用，使系统输出 $y(t)$ 完美地匹配这个乏味的参考信号，跟踪误差 $e(t) = y(t) - r(t)$ 趋于零。控制目标实现了。系统表现得非常完美。我们应该庆祝吗？

别高兴得太早。如果参考信号 $r(t)$ 是零，而输出 $y(t)$ 也被驱动到零，那么控制输入 $u(t)$ 会发生什么？要使一个稳定系统保持零输出，需要零输入。突然之间，我们闭环系统中的所有信号—— $y(t)$ 和 $u(t)$ ——都逐渐消失了。我们的回归向量 $\phi(t)$ 正是由这些信号构成的，它也随之消失。

控制器在追求完美控制的过程中，无意中切断了自己的信息供给。它停止了对系统的“探测”。学习所需的丰富、激励的信号被致命的沉寂所取代。持续激励条件被违反了。控制器成了自己成功的受害者。

当沉寂是致命的：协方差爆炸和参数漂移

当信息流停止时会发生什么？估计器正在盲目飞行。如果估计算法，比如带有“遗忘因子” $\lambda 1$ 的流行递推最小二乘 (RLS) 方法，被设计为持续自适应，它就会进入一个危险状态。这个遗忘因子旨在让算法忘记旧数据以跟踪变化的参数。但是，当新数据没有信息时（因为回归向量为零），算法内部代表其对参数不确定性的“协方差矩阵” $P_k$ 开始指数级地增长。这是因为在没有新的、有信息的数据来替代的情况下，忘记旧的、无信息的数据会使算法越来越不确定。这种病态行为被称为协方差爆炸。

随着协方差急剧膨胀，估计器变得极其敏感。它开始将最轻微的测量噪声声息解读为重要的信息。参数估计不再有真实数据作为锚定，开始在随机噪声的驱动下漫无目的地漂移。这被称为参数漂移。

这不仅仅是一个理论上的麻烦。一个根据这些漂移的、无意义的参数估计来行动的控制器可能会做出灾难性的错误决策。在一个戏剧性的例子中，一个最初稳定的自校正调节器可能正是由于这种机制而被推向不稳定。漂移的参数导致控制增益趋向于无穷大，而系统在被控制器最初的成功所营造的虚假安全感麻痹后，突然变得不稳定。同样的危险也潜伏在其他高级估计器中，如扩展卡尔曼滤波器 (EKF)。缺乏激励（在那里称为缺乏可观测性）会导致滤波器的协方差膨胀，放大模型误差的影响，并可能导致滤波器完全发散。

因此，持续激励原则不是一个抽象的数学奇谈。它是学习的一个基本而实用的条件。它教会我们关于控制与辨识之间权衡的深刻教训：有时，为了长期保持鲁棒的控制，我们必须愿意牺牲一点短期性能，并有意地“激励”我们的系统，以保持信息渠道的畅通。从本质上讲，我们必须不断提出问题，以免被沉寂所愚弄。

应用与跨学科联系

在经历了持续激励的原理与机制之旅后，你可能会产生一种类似于学会了国际象棋规则的感觉。你知道棋子如何移动，但你尚未见证大师对弈的惊人魅力。这个概念究竟有何用处？它在现实世界中扮演什么角色？事实证明，这个简单的想法——需要“提出足够多的问题”以获得完整答案——不仅仅是一个数学注脚；它是一个深刻而统一的原则，回响在工程、控制理论乃至人工智能领域。它正是从交互中学习的灵魂。

现在，让我们来探索这场“对弈”，看看持续激励如何成为解开科学技术中一些最迷人、最具挑战性问题的钥匙。

学习的基石：系统辨识

想象一下，你面前有一个神秘的黑箱。你有可以转动的旋钮（输入）和可以读取的仪表盘（输出）。你的任务是弄清楚里面是什么——建立一个描述其行为的数学模型。这就是系统辨识的艺术，也是持续激励最直接、最基本的应用。

你可能天真地认为，只要稍微摆弄一下，任何输入都可以。但宇宙比那要微妙得多。你提出问题的质量决定了你得到答案的质量。如果你的输入信号不是“持续激励的”，你的模型就会有缺陷，不是因为你的理论错误，而是因为你的实验不完整。

考虑一种现代而强大的技术，称为子空间辨识。它是一种从一大块数据中确定系统复杂度（或“阶”， $n$ ）的巧妙方法。事实证明，你的输入所需的“丰富度”不仅取决于系统自身的复杂度 $n$ ，还取决于你为分析选择的数据窗口大小 $i$ 。为了得到一个可靠的答案，你的输入必须是至少 $i+n$ 阶的持续激励。这告诉我们一些深刻的道理：我们的分析方法决定了我们实验的严谨性。一个更复杂的问题需要一个更复杂的探究路线。

现在，如果我们的黑箱有多个旋钮呢？假设我们有两个输入旋钮 $u_1$ 和 $u_2$ 。我们可能会努力确保每个输入本身都是一个丰富、复杂的信号。但如果我们无意中使第二个旋钮与第一个完全同步地转动，以至于 $u_2(t)$ 总是等于 $u_1(t)$ 的两倍，那会怎样？我们问了两个独立的问题吗？当然没有。我们问了同一个问题，只是“声音更大”了一点。系统无法分辨其响应的哪一部分来自 $u_1$ ，哪一部分来自 $u_2$ 。要辨识一个多输入系统，所有输入的集合必须是联合持续激励的。这些信号不能是共线的；它们必须在输入空间中探索独立的方向。这就好比一组调查员提出独特的问题与一个合唱团重复同一个问题之间的区别。

控制的交响乐：反馈与自适应

世界很少像一个等待被辨识的被动黑箱那样简单。更多时候，我们关心的系统已经处于一个反馈回路中。我们不仅在辨识它们，还在积极地试图控制它们。这正是事情变得非常有趣的地方，因为控制行为可能会干扰学习行为。

想象一下，在一个充满回声的房间里试图进行清晰的对话。你自己的话语会反弹回来，与对方的话语混杂在一起，造成一团混乱。这就是闭环辨识的挑战。控制输入 $u(t)$ 是根据系统输出 $y(t)$ 计算的。但输出本身又受到噪声和扰动的影响。结果是输入与噪声变得相关，这可能会彻底迷惑我们的辨识算法。为了打破这个循环，我们必须注入一个独立于反馈回路内部嘈杂声的外部信号——一个参考或激励信号。这个外部信号还必须在环路中存活下来。反馈控制器在努力稳定系统时，起到了一个滤波器的作用。它可能会抑制我们激励信号中那些我们正需要用来提问的频率！因此，一个成功的闭环实验不仅需要一个激励性的外部信号，还需要仔细分析以确保反馈机制不会在我们希望理解的系统部分“湮灭”该信号。

这就引出了工程学中最美妙的悖论之一：“对偶控制”问题，它位于所有自适应系统的核心。考虑一个自校正调节器，一个试图学习它所控制的对象的模型并即时改善其性能的控制器。它有两个工作：调节和学习。要成为一个完美的调节器，它应该使系统输出保持绝对稳定，消除任何偏差。但一个完全稳定的系统不会产生任何新信息！输入和输出变为常数，回归信号平直化，持续激励就丧失了。控制器由于其调节工作做得太好而停止了学习。它成了自己成功的受害者。

这不仅仅是一个抽象的概念。想想你的降噪耳机。它们使用一个自适应滤波器来为“次级路径”——耳机内的小扬声器与你的耳鼓之间的声学空间——建模，以产生完美的抗噪声信号。假设你只在听一个纯粹的 60 Hz 嗡嗡声。你的耳机会变得非常擅长消除那个 60 Hz 的嗡嗡声。但当一个宽频的嘶嘶声出现时会发生什么？耳机不知道该怎么办。它们只学习了系统在一个频率上的响应。用于自适应的回归信号是一个纯正弦波，其秩最多为2，不能用于辨识具有数十个参数的复杂声学路径。为了学习完整的路径，系统需要宽带激励。这就是为什么一些自适应系统会有意注入一种微小的、听不见的“抖动”或探测噪声。它们牺牲了微不足道的性能来不断地提出问题，确保它们永远不会停止学习。这就是持续激励在你的耳朵里的实际应用。在这些系统中，我们知道如果回归向量是持续激励的，算法的参数估计将收敛到它们的真值，从而将一个好的算法变成一个正确的算法。

超越地平线：现代前沿与统一原则

持续激励原则是如此基础，以至于它出现在最现代、最前沿的研究领域，有时甚至以伪装的形式出现。

以确保复杂机械安全的问题为例。在主动故障检测与隔离 (FDI) 中，我们不仅想知道发生了什么问题，还想精确地知道具体是什么问题。想象一下飞机飞行控制系统中的两种不同的潜在故障。如果我们正在平直飞行，这两种故障对飞机运动的影响可能完全相同。它们是无法区分的。为了区分它们，飞行员——或一个自动化系统——可能需要执行一个特定的机动动作，一个“主动”输入。这个机动被设计成一个对受两种故障不同影响的动力学特性具有持续激励作用的信号，使其特征信号发散，从而可以隔离出故障部件。在这里，PE 是诊断和安全的工具。

一个更现代的前沿是数据驱动控制。一个封装在 Willems 基本引理中的革命性思想表明，我们可能根本不需要建立一个显式的数学模型。相反，我们可以仅使用一段足够长的系统过去输入输出数据记录来控制它。但什么才构成“足够”的数据呢？你现在可能已经猜到答案了。该引理成立的充要条件是，记录数据中的输入信号是足够高阶的持续激励。如果数据不够丰富，参数化就是不完整的，我们无法保证可以合成系统的所有可能行为。PE 矗立着，成为通往这种新的、无模型控制范式的守门人。

最后，让我们看看那个俘获了全世界想象力的领域：强化学习 (RL)。RL 的一个核心挑战是探索-利用权衡。一个 RL 智能体——比如说，一个学习走路的机器人——可以利用其现有知识来迈出它认为最好的步伐，或者它也可以通过尝试新的、可能笨拙的动作来探索，以更多地了解自身的动力学和环境。如果它只利用，它的步态将永远无法超越其最初的猜测。如果它只探索，它将不停地乱动，永远无法实现连贯的运动。

这恰恰，而且深刻地，与对偶控制问题是同一个问题。利用就是调节。探索就是激励。一个使用确定性策略且没有扰动的 RL 智能体，就像我们的自校正调节器一样，将收敛到一个不再学习任何新东西的状态。为了能够学习，智能体必须在其行动中注入一个探索性信号——通常是随机噪声。这个噪声充当了一个持续激励信号，确保收集到的数据足够丰富，可以学习到系统真实的动力学或价值函数。控制理论家们半个多世纪以来所称的“持续激励”，与人工智能研究者现在所称的“探索”，是同一个普适性学习需求的体现。

从为黑箱建模，到控制自适应系统，再到诊断喷气发动机的故障，以及教机器人走路，同一个简单而优雅的原则始终成立。要学习，你必须提出问题。要完全学习，你必须提出足够多的不同问题。这就是持续激励经久不衰的遗产——一条连接着学习系统过去、现在和未来的金线。