递归最小二乘法 (RLS)

玻尔百科

定义

递归最小二乘法 (RLS) 是一种自适应滤波算法，通过引入遗忘因子为近期数据赋予更高权重，从而实现对模型参数的递归更新。该算法在信号处理和控制领域中通过近似牛顿法来提高收敛速度，使其能够有效追踪随时间变化的系统。递归最小二乘法 (RLS) 在理论上等同于卡尔曼滤波的一种特殊情况，但在缺乏信息输入时可能面临协方差膨胀导致的数值不稳定问题。

核心要点

RLS 是一种自适应算法，它通过“遗忘因子”对近期数据赋予更高权重来递归更新模型参数，以跟踪时变系统。
其收敛速度优于 LMS 等简单方法，因为它近似于牛顿法，使用一个演化矩阵来有效调整学习步长。
RLS 具有深厚的理论联系，它等同于卡尔曼滤波器的特定情况，并可在贝叶斯信念更新框架内进行解释。
一个关键的实践弱点是“协方差膨胀”，即在自适应系统中，缺乏信息丰富的输入（持续激励）可能导致估计器不稳定。

引言

在一个从变化的市场动态到演进的工业过程等不断变化的世界里，我们如何才能创建出能够实时学习和适应的数学模型？传统方法，如批处理最小二乘法，虽然强大但很刻板；它们分析一个固定的数据集以找到唯一的“最佳”模型，这个过程不适用于定义了大多数真实世界系统的连续信息流。这一挑战需要一种更动态的方法——一种能够随着每条新数据的出现而更新其理解的算法。递归最小二乘 (RLS) 算法应运而生，它是自适应信号处理和控制理论的基石。

本文深入探讨 RLS 的精妙世界，为工程师、科学家和学生提供一份全面的指南。以下章节将剖析该算法的引擎并展示其强大功能。“原理与机制”一节将探讨 RLS 如何通过“遗忘因子”等概念及其与最优估计理论的深厚联系，实现其卓越的速度和适应性。接着，“应用与跨学科联系”一节将展示 RLS 的实际应用，揭示它如何在从自适应控制到天文成像等领域将原始数据转化为可操作的知识。

原理与机制

想象一下，你正在尝试为一个复杂系统建立模型，比如预测明天的天气或管理一个化学反应器的温度。你收集数据，建立一个数学模型，并找到最能拟合数据的模型参数。实现这一目标的经典方法称为最小二乘法——你调整参数，直到你的模型预测与实际数据之间的平方差之和尽可能小。这就像为你的所有数据拍一张快照，然后为这整个集合找到唯一的最佳模型。

但如果世界不是静态的呢？如果你正在建模的系统在不断变化，哪怕是轻微的变化呢？如果数据不是一个固定的集合，而是一条永无止境的连续数据流呢？每当有新数据到来时都重新运行一次大规模的批处理计算，即使不是不可能，也是极其低效的。我们需要一种更智能的方式，一种能够动态更新我们模型的方法，在每次新体验发生时从中学习。这就是递归估计的世界，而递归最小二乘 (RLS) 是其中最优雅和最强大的成员之一。

问题的核心：带记忆的误差

RLS 算法的核心是一个复杂的学习者。与批处理最小二乘法一样，它也试图最小化平方误差之和。但它的做法有一个关键的转折：它并不平等地对待所有过去的数据。它基于一个指数加权最小二乘代价函数。可以这样想象：算法有记忆，但它的记忆会随着时间消退。最近的误差——它刚刚犯的错误——被赋予最大的权重。上一步的误差权重稍小一些，再前一步的更小，以此类推，旧数据的影响会随着时间的推移呈指数级衰减。

这种“衰减记忆”由一个单一的关键参数控制：遗忘因子，用希腊字母 $\lambda$ (lambda) 表示。它是一个介于 0 和 1 之间的数字。

如果 $\lambda = 1$ ，那么任何事情都不会被遗忘。算法拥有完美的记忆，它变得等同于批处理最小二乘法的标准递归实现，从一开始就对所有数据点给予同等权重。这对于你确定是完全稳定和不变的系统来说是理想的。

但真正的魔力发生在你选择 $\lambda 1$ 时。现在，算法变得具有自适应性。它可以跟踪随时间漂移的参数，比如反应器中催化剂效率的缓慢下降，或者飞行中飞机动态特性的变化。

敏捷性与稳定性的权衡

$\lambda$ 的选择是敏捷性与稳定性之间的一个根本性权衡。可以认为算法的有效“记忆长度”大致与 $\frac{1}{1-\lambda}$ 成正比。

一个小的 $\lambda$ （例如 $0.90$ ）意味着记忆短暂。算法很敏捷，能迅速忘记过去。这使它能够快速适应系统参数的突然变化。如果真实系统参数发生跳变，一个记忆短暂的估计器会很快跟上。然而，这种敏捷性是有代价的：参数估计对随机测量噪声变得高度敏感。估计值可能会显得“跳跃”或不稳定，因为算法对数据中的每一个微小波动都反应过度。这是一种低偏差、高方差的策略。
一个大的 $\lambda$ （例如 $0.999$ ）意味着记忆非常长。算法很稳定，它会根据长期的历史数据平滑其估计值。这使得它对测量噪声非常鲁棒，能够产生干净、稳定的参数估计。缺点是它对系统实际变化的响应会变慢。它具有很高的“惯性”，会滞后于漂移的参数。这是一种低方差、高偏差（对于变化系统而言）的策略。

因此，选择正确的 $\lambda$ 是一门艺术，需要根据你对系统的了解来决定。你是在跟踪一个缓慢漂移的过程吗？一个接近 1 的 $\lambda$ 可能最合适。你是在预期突变吗？可能需要一个较小的 $\lambda$ ，但你必须为更嘈杂的估计做好准备。问题中的测试案例完美地展示了这一点：当参数发生跳变时，一个 $\lambda=1$ 的估计器无法适应，而一个 $\lambda=0.95$ 的估计器则成功跟踪了新参数，尽管存在一些瞬态误差。

引擎室：深入了解其内部构造

那么 RLS 究竟是如何利用每条新数据来更新其估计的呢？基本思想非常直观：

\text{新估计值} = \text{旧估计值} + (\text{增益}) \times (\text{预测误差})

让我们来分解一下。在每个时间步 $n$ ，我们有当前的参数估计值 $\mathbf{w}(n-1)$ 。我们得到一个新的输入向量 $\mathbf{u}(n)$ 和一个新的期望输出 $d(n)$ 。

我们首先使用旧的估计值进行预测： $\hat{d}(n) = \mathbf{u}^{\top}(n)\mathbf{w}(n-1)$ 。
我们计算预测误差，即实际发生的情况与我们预测的情况之间的差异： $e(n) = d(n) - \hat{d}(n)$ 。这个误差是新的信息，是告诉我们算法需要学习的“意外”。
我们更新我们的估计值： $\mathbf{w}(n) = \mathbf{w}(n-1) + \mathbf{k}(n)e(n)$ 。

RLS 的真正天才之处在于增益向量 $\mathbf{k}(n)$ 。与使用小的固定标量步长的简单算法不同，RLS 在每一步都计算一个复杂的向量增益。这个增益取决于两件事：新的输入数据 $\mathbf{u}(n)$ 和一个神秘的 $M \times M$ 矩阵 $\mathbf{P}(n)$ ，该矩阵也在每一步进行更新。这个矩阵是算法强大功能的秘诀。

秘密武器：协方差矩阵 $P$ 与误差的几何学

为什么 RLS 在收敛速度和精度上比最小均方 (LMS) 等简单算法快得多？答案在于问题的几何结构。

想象一下代价函数 $J(\mathbf{w})$ ——即均方误差——是一个地形景观。我们的目标是找到这个景观中的最低点，即“谷底”，它对应于最优参数集 $\mathbf{w}_{\mathrm{o}}$ 。这个景观的形状或曲率由我们输入数据的统计特性决定，具体来说是输入协方差矩阵 $R = \mathbb{E}[\mathbf{u}(n)\mathbf{u}(n)^{\top}]$ 。

如果我们的输入信号不相关且具有相同的方差，那么误差景观就是一个漂亮的、对称的碗。在这种情况下，最速下降方向（负梯度， $-\nabla J$ ）直接指向最小值。像 LMS 这样遵循最速下降的算法会工作得非常好。

然而，在现实世界中，输入信号几乎总是相关的。这会扭曲误差景观，将对称的碗变成一个长而窄的椭圆峡谷。现在，最速下降方向不再指向谷底，而是几乎垂直于椭圆的长轴。LMS 算法盲目地沿着这个方向前进，将会在谷壁上走出一条缓慢、低效的之字形路径，朝着真正的最小值前进得异常缓慢。

这就是 RLS 的闪光之处。它是一种更强大的优化技术——牛顿法的近似。牛顿法不仅看梯度；它还使用二阶导数（描述曲率的海森矩阵）来找到一条更直接通往最小值的路径。牛顿法的更新公式是 $\mathbf{w}_{k+1} = \mathbf{w}_k - H_J^{-1} \nabla J$ 。它用海森矩阵的逆来预处理梯度。这在几何上起到了“解扭曲”椭圆峡谷的作用，将其变回一个梯度直接指向最小值的圆形碗。对于一个完美的二次曲面，牛顿法只需一步就能找到最小值！

RLS 算法中神秘的矩阵 $\mathbf{P}(n)$ 正是输入协方差矩阵的逆 $R^{-1}$ 的一个演化的、递归的估计！通过将 $\mathbf{P}(n)$ 纳入其增益计算，RLS 有效地估计了误差曲面的曲率，并用它来重新调整每一步的更新。它沿着误差峡谷的平缓维度迈出大步，沿着陡峭的维度迈出小步，从而以一条更直接、更快的路径到达最小值。这就是其传奇收敛速度的来源。

更深层的统一：贝叶斯先验与卡尔曼滤波器

RLS 算法不仅仅是巧妙的代数操作。它与更广阔的统计估计世界有着深刻而优美的联系。一种看待它的方式是通过贝叶斯推断的视角。

在这种观点下，初始参数估计 $\hat{\mathbf{\theta}}_0$ 是我们关于参数的先验信念。初始矩阵 $P_0$ 代表我们先验信念的协方差——它量化了我们的不确定性。

如果我们用一个非常大的数 $\alpha$ 初始化 $P_0 = \alpha I$ ，我们表达的是对初始猜测 $\hat{\mathbf{\theta}}_0$ 的信心非常低。这就像告诉算法：“我不知道参数是什么，所以请尽快从新数据中学习。” 这会导致较大的初始增益和快速的初始适应。
如果我们选择一个小的 $P_0$ ，我们表达的是对初始猜测的高度信心。算法会更加保守，更相信其先验信念，并根据早期数据进行较小的调整。

这个框架将 RLS 从一个单纯的算法转变为一个面对新证据时进行理性信念更新的过程。

这种联系甚至更深。RLS 算法在特定假设下，数学上等同于著名的卡尔曼滤波器。卡尔曼滤波器是现代估计理论的基石，用于从航天器导航到导弹制导的各种应用。这种等价性表明，RLS 可以被看作一个卡尔曼滤波器，它估计一个系统的状态，其中“状态”是未知参数向量 $\mathbf{\theta}_k$ ，并且我们假设这个状态演化为随机游走： $\mathbf{\theta}_k = \mathbf{\theta}_{k-1} + \mathbf{w}_{k-1}$ 。遗忘因子 $\lambda$ 与过程噪声 $\mathbf{w}_{k-1}$ 的假定方差直接相关——它衡量了我们相信真实参数从一步到下一步自身变化的程度。这个惊人的结果将 RLS 与更宏大的最优状态估计理论统一起来，揭示了学习和跟踪原理中优美的统一性。

实践警告：持续激励的风险

尽管 RLS 功能强大，但它有一个致命弱点，尤其是在反馈控制系统中使用遗忘因子 $\lambda 1$ 时。该算法需要被“喂食”信息丰富的数据才能正常工作。这个要求被称为持续激励。

想象一个自校正调节器正在控制一个熔炉的温度。它的工作非常出色，以至于温度变得完全恒定。结果，控制器的输出也变得几乎恒定。作为 RLS 估计器输入的回归量向量 $\mathbf{\phi}_k$ 停止了变化。算法不再接收到覆盖系统所有不同模式的“激励性”新信息。

如果 $\lambda=1$ ，这不是一个大问题；估计值只是停止更新。但如果 $\lambda 1$ ，就会发生一种称为协方差膨胀的危险现象。算法被不断告知要忘记过去（因为 $\lambda 1$ ），但它没有学到任何新东西（由于缺乏激励）。矩阵 $P_k$ ——我们不确定性的度量——开始在未受激励的方向上无界增长。

依赖于 $P_k$ 的估计器增益变得巨大。系统现在成了一颗定时炸弹。一旦发生重大扰动（例如，一扇门被打开，改变了热负荷），就会产生一个非零误差。这个误差乘以现在巨大的增益，导致参数估计发生剧烈、猛烈的“爆发”。控制器突然被喂给一个完全错误的系统模型，可能会变得不稳定，导致剧烈振荡或灾难性故障。这是任何自适应控制实际应用的一个关键教训：你必须确保系统保持充分激励，有时甚至需要故意注入一个小的探测信号（抖动信号）来保持估计器的活力和健康。

强大功能的代价：计算成本

最后，我们必须承认这种强大功能所带来的实际成本。RLS 的卓越收敛性是以显著的计算代价为代价的。

简单的 LMS 算法计算成本低廉。其操作和内存需求与参数数量 $M$ 呈线性关系。复杂度为 $O(M)$ 。
传统的 RLS 算法，需要更新和存储 $M \times M$ 矩阵 $P_k$ ，其复杂度呈二次方增长。计算和内存均为 $O(M^2)$ 。

对于一个小模型，这种差异可能微不足道。但对于一个有数百或数千个参数的滤波器， $M^2$ 因子可能使 RLS 的成本高得令人望而却步。性能与复杂性之间的这种权衡是信号处理中的一个中心主题，它推动了人们寻找试图在两者之间取得平衡的其他算法，但 RLS 算法的优雅和原始力量使其成为工程师和科学家工具箱中一个永恒且必不可少的工具。

应用与跨学科联系

既然我们已经深入研究了递归最小二乘算法的引擎并理解了其内部工作原理，现在是时候驾驶它上路了。这个奇妙的数学机器究竟能带我们去哪里？你会发现它的应用并不仅限于一个狭窄的领域；相反，RLS 就像一种数据语言的通用翻译器，让我们能够与科学和工程领域的各种系统对话。它真正的美不仅体现在其方程的优雅上，更在于它作为一种发现和控制工具的深远效用。

学习游戏规则：系统辨识

RLS 的核心是系统辨识的大师。想象一下，你正试图在没有教科书的情况下理解一个物体的物理特性。你可以戳它，测量它的反应，并试图推断出其基本规则。RLS 自动化了这个推导过程。

考虑一下让电动汽车尽可能高效的挑战。电机的大部分能量消耗在克服两个力上：轮胎在路面上的滚动阻力和穿过空气时的空气动力学阻力。滚动阻力或多或少是恒定的，但空气阻力会随着速度急剧增加——大约与其平方 $v^2$ 成正比。我们可以写出一个简单的力学模型，但滚动阻力系数 $c_r$ 和空气动力学阻力系数 $c_a$ 的确切值取决于具体的汽车、其轮胎，甚至天气。

汽车的车载计算机可以不进行昂贵的风洞测试，而是使用 RLS。通过在每个时刻测量电机施加的力、汽车的速度及其加速度，RLS 算法可以不断完善其对 $c_r$ 和 $c_a$ 的估计。它在汽车行驶过程中动态地学习这些物理参数。这不仅仅是一个巧妙的技巧；它允许车辆的控制系统根据一个已经为汽车在当前条件下量身定制的模型，做出更智能的能源使用决策。这一原理远远超出了汽车的范畴，适用于任何其行为可以用一组带有未知常数的方程来描述的系统。

从知到行：自适应控制的艺术

学习一个系统的规则是一回事；利用这些知识来控制它则是下一个巨大的飞跃。这是自适应控制的领域，RLS 通常充当操作的“大脑”。

想象一下，你正试图维持一个大桶中化学混合物的 pH 值，这是从制造业到制药业都常见的任务。你可以添加中和剂来控制 pH 值，但流入桶中的化学物质的性质可能会随时间变化，使你的控制任务成为一个移动的目标。一个为特定条件设计的固定控制器会很快失效。

然而，一个自校正调节器则能应对这种不确定性。它使用 RLS 不断建立一个关于 pH 值如何响应中和剂的简单模型。随着 RLS 算法更新其模型参数的估计值——比如在一个简单模型 $y(k+1) = a y(k) + b u(k)$ 中的 $\hat{a}$ 和 $\hat{b}$ ——控制器会立即使用这些新的估计值重新计算自己的策略。如果过程变得不那么灵敏，控制器会学习到这一点并加大力度；如果过程变得更敏感，控制器则会减弱力度。这是估计与行动之间优美的协同，创造了一个即使周围世界变化也能自我调整以达到最佳性能的系统。

在设计这些系统时，工程师甚至有选择的余地。他们可以像我们刚才描述的那样，使用 RLS 学习一个被控对象的模型，然后计算控制器设置——这是一种显式方法。或者，通过对问题进行巧妙的重新参数化，他们可以让 RLS 算法直接估计控制器参数，完全绕过被控对象模型的估计步骤。这被称为隐式自校正调节器，证明了该框架的数学灵活性。

机器中的侦探：RLS 用于更深层的洞察

或许 RLS 最深刻的应用是那些它不仅仅充当估计器，而是作为一名诊断侦探，为我们提供关于系统性质乃至我们自身假设有效性的更深层洞察。

一个科学模型，其核心是一个假设。如果我们的假设是错误的呢？假设我们认为一个热过程是一个简单的一阶系统，但实际上，它的动态更复杂（例如，二阶）。如果我们应用 RLS 来辨识我们错误的一阶模型的参数，会发生一些有趣的事情：参数估计将拒绝稳定下来。它们会漂移和游走，因为算法徒劳地试图将形状错误的钉子敲入数据的圆孔中。这种不收敛不是 RLS 的缺陷；它是一条信息。算法在告诉我们：“你对世界的模型不太对；回去重新思考你的假设。” RLS 成为了模型验证的工具，一种对我们科学直觉的计算检验。

现实世界的系统也很混乱。它们受到持续不断的扰动和物理限制。在这里，RLS 也显示了其多功能性。如果一个生物反应器对环境有稳定的、未知的热量损失，我们可以简单地在模型中添加一个常数项。RLS 算法通过在其回归量向量中增加一个简单的‘1’，不仅能估计系统的动态参数，还能自行发现这个恒定偏移的大小。它为我们找到了“隐藏”的变量。

此外，算法不能命令不可能的事情。控制器可能会要求执行器提供比其能提供的更多的功率。如果 RLS 估计器被输入的是指令输入而不是实际（饱和）输入，它就会被误导。它可能会得出结论，认为系统突然变得不那么灵敏了，而实际上执行器只是达到了其物理极限。一个设计良好的自适应系统必须对其学习组件诚实，始终向其提供实际执行的真实情况，而不是期望的情况。这可以防止估计器“膨胀”并产生荒谬的结果。

最后，RLS 产生的预测误差不是要丢弃的废物；它们是信息的宝库。误差序列 $\epsilon(k)$ 告诉我们系统有多么不可预测。通过对平方误差应用一个简单的平滑滤波器，我们可以递归地估计系统噪声的方差， $\hat{\sigma}_e^2(k)$ 。跟踪这个值可以成为一个强大的诊断工具。如果估计的噪声方差突然飙升，这可能是一个传感器正在失灵或物理组件正在损坏的早期预警。

前沿及未来：智能自适应

RLS 的故事仍在书写中，研究人员正将其能力推向更令人印象深刻的领域。其中最惊人的例子之一是用于大型望远镜的自适应光学。星星的闪烁，对肉眼来说如此浪漫，对天文学家来说却是由大气湍流引起的令人沮沮丧的畸变。为了抵消这一点，可以使用一个前馈控制系统。一个传感器测量传入的大气抖动，一个 RLS 算法实时建立这个扰动的动态模型。然后，该模型用于预测下一瞬间的畸变，并命令一个可变形镜弯曲成完全相反的形状，从而有效地消除闪烁，产生一幅清晰的天体图像。

即使是核心算法也可以变得更智能。标准的“遗忘因子” $\lambda$ 是一个粗糙的工具；它导致算法平等地逐渐忘记所有过去的信息。但如果发生故障，导致单个参数突然改变怎么办？我们不希望丢弃我们辛辛苦苦获得的所有关于其他未变参数的知识。这就是方向性遗忘等先进技术的用武之地。当一个大的预测误差预示着变化时，算法可以利用协方差矩阵的结构，仅在可疑参数的“方向”上应用遗忘。这使得它能够快速重新学习那个改变了的东西，同时保留其他所有参数的稳定估计。这是完全抹除记忆与精准的外科手术式编辑之间的区别。

从平凡到天文，递归最小二乘算法展示了将数字流转化为知识的非凡能力。它扮演着建模者、控制器、侦探和自适应代理的角色。它是一个绝佳的例子，说明一个相对简单的递归思想如何能够产生复杂的智能行为，使我们的技术能够学习、适应并与一个不断变化的世界互动。

递归最小二乘法 (RLS)

引言

原理与机制

问题的核心：带记忆的误差

敏捷性与稳定性的权衡

引擎室：深入了解其内部构造

秘密武器：协方差矩阵 PPP 与误差的几何学

更深层的统一：贝叶斯先验与卡尔曼滤波器

实践警告：持续激励的风险

强大功能的代价：计算成本

应用与跨学科联系

学习游戏规则：系统辨识

从知到行：自适应控制的艺术

机器中的侦探：RLS 用于更深层的洞察

前沿及未来：智能自适应

递归最小二乘法 (RLS)

引言

原理与机制

问题的核心：带记忆的误差

敏捷性与稳定性的权衡

引擎室：深入了解其内部构造

秘密武器：协方差矩阵 PPP 与误差的几何学

更深层的统一：贝叶斯先验与卡尔曼滤波器

实践警告：持续激励的风险

强大功能的代价：计算成本

应用与跨学科联系

学习游戏规则：系统辨识

从知到行：自适应控制的艺术

机器中的侦探：RLS 用于更深层的洞察

前沿及未来：智能自适应

秘密武器：协方差矩阵 $P$ 与误差的几何学

秘密武器：协方差矩阵 $P$ 与误差的几何学