递归最小二乘（RLS）算法

玻尔百科

核心要点

RLS算法使用遗忘因子（ $\lambda$ ）来平衡记忆和适应性，这在抗噪声能力和跟踪速度之间形成了一个根本性的权衡。
与更简单的LMS算法不同，RLS作为一种准牛顿法，通过考虑误差曲面的曲率，实现了明显更快的收敛速度。
RLS是自适应系统的基石，应用于自校正调节器和自适应光学等领域，以实时辨识和跟踪变化的系统参数。
关键的实际挑战包括其高计算复杂度（ $O(M^2)$ ）以及在输入信号缺乏持续激励时可能出现的“睡眠估计器”问题。

引言

在许多科学和工程领域，我们都面临着理解和控制那些内部工作机制成谜的系统的挑战。从调整工业控制器到消除通信设备中的回声，核心任务都是一种侦探工作：仅根据“黑箱”的输入和输出来为其建立一个精确的模型。虽然存在一些简单的方法，但它们往往难以跟上随时间变化的系统。这种知识上的差距要求我们采用一种更强大、更具适应性的方法。

递归最小二乘（RLS）算法是解决这一问题的一个极其优雅且有效的方案。它提供了一种以惊人的速度和精度持续学习和优化一个系统模型的方法。本文将深入RLS的世界，对这一关键算法进行全面探索。我们将首先在原理与机制部分揭示其基本概念，剖析RLS如何智能地运用记忆、管理不确定性并实现其快速收敛。随后，我们将在应用与跨学科联系部分探讨其在现实世界中的影响，发现RLS如何从汽车工程到天文学无处不在，以及它如何与估计理论中的深刻思想相联系。

原理与机制

想象一下，你面对一个神秘的黑箱。你可以向其输入信号并观察输出的信号，但你对其内部发生的事情一无所知。你的任务是建立一个模型，一个该黑箱的复制品，使其行为方式完全相同。这就是经典的系统辨识问题，它无处不在，从化工厂控制器的调试到手机中消除回声的音频均衡器。

递归最小二乘（RLS）算法是为这类侦探工作而发明的最优雅、最强大的工具之一。它是一种持续优化你对黑箱模型的方法，每当有新数据到来时，都会让你的猜测变得更智能、更准确。但与那些可能小步慢行的简单方法不同，RLS采取的是大胆而智能的飞跃。它不仅仅是一个算法；它是一个美丽的例证，展示了如何融合记忆、不确定性和几何洞察力，以惊人的速度进行学习。

记忆旋钮：跟踪、遗忘与重大权衡

RLS算法的核心在于“最小二乘”这一简单思想——我们希望找到这样一个模型，其输出平均而言与真实系统的输出尽可能接近。我们通过对误差的平方求和来衡量这种“接近度”。但RLS加入了一个绝妙的转折：并非所有过去的误差都被同等对待。来自久远过去的数据被赋予的权重低于近期数据。

这由一个至关重要的参数控制：遗忘因子，用 $\lambda$ 表示。这个数字通常在0和1之间，扮演着算法的“记忆旋钮”的角色。对于 $k$ 步前的数据，其权重与 $\lambda^{k}$ 成正比。

如果 $\lambda = 1$ ，则数据永不被遗忘。算法拥有完美、无限的记忆。
如果 $\lambda < 1$ ，旧数据的影响会呈指数级衰减。 $\lambda$ 越接近0，算法遗忘过去的速度就越快。

这个简单的旋钮为我们提供了一种直观的方式来思考算法的记忆。实际上，我们可以用一个有效数据窗口长度来量化它，这个长度大致告诉我们算法正在“关注”多少过去的样本。一个常用且有用的近似公式是 $N_{\mathrm{eq}} \approx \frac{1}{1-\lambda}$ 。

让我们看看这意味着什么。如果一位工程师设置 $\lambda = 0.99$ ，有效记忆大约是 $100$ 个样本。如果她将其设置为 $\lambda = 0.95$ ，记忆则缩短到仅 $20$ 个样本。这一选择并非任意；它代表了所有自适应系统中的一个根本性困境：跟踪能力与噪声抑制之间的权衡。

长记忆（大 $\lambda$ ）： 拥有长记忆（如 $N_{\mathrm{eq}}=100$ ）时，算法非常擅长平均掉随机的、瞬时的波动，即噪声。它就像一位稳重、智慧的老者，不为每个小道消息所动摇。然而，这也使得它在系统本身确实发生变化时反应迟钝。它具有很高的抗噪声能力，但跟踪能力较差。
短记忆（小 $\lambda$ ）： 拥有短记忆（如 $N_{\mathrm{eq}}=20$ ）时，算法敏捷灵活。它可以迅速适应和跟踪一个属性随时间漂移的系统。但这种敏捷性是有代价的：算法反应剧烈，容易被随机噪声干扰，导致估计结果不够精确。

因此，选择 $\lambda$ 是一种平衡艺术。如果你正在为一个嘈杂环境中的稳定系统建模，你会希望 $\lambda$ 接近1。如果你正在跟踪一个快速变化的系统，你就需要一个较小的 $\lambda$ ，即使这会让你的估计值变得更加不稳定。

深入引擎：RLS更新之旅

那么，RLS算法究竟是如何更新其猜测的呢？让我们深入其内部一探究竟。该算法是一个递归过程，意味着在每个时钟节拍（我们称之为时间 $n$ ），它会利用其先前的状态和新数据来计算其新状态。这个过程是几个关键数学对象之间精心编排的舞蹈。

权重向量 $\mathbf{w}(n)$ ：这个向量保存了我们当前对黑箱参数的最佳猜测。它是我们模型的“状态”。
先验误差 $e_{\mathrm{pr}}(n)$ ：在更新我们的猜测之前，我们首先看看我们的旧模型 $\mathbf{w}(n-1)$ 对新数据的预测效果如何。期望输出 $d(n)$ 与我们预测值之间的差异就是“a priori”或“先验”误差。它是我们即时意外程度的度量。
逆协方差矩阵 $\mathbf{P}(n)$ ：这是整个操作的大脑。它是一个 $M \times M$ 矩阵（其中 $M$ 是我们猜测的参数数量），编码了算法对其自身权重向量的不确定性。可以将其视为一种置信度的度量。如果 $\mathbf{P}(n)$ 中的条目很大，意味着算法对其当前猜测非常不确定。如果它们很小，则意味着算法相当自信。
增益向量 $\mathbf{k}(n)$ ：这个向量是利用不确定性矩阵 $\mathbf{P}(n-1)$ 和新的输入数据计算得出的。它充当一个“修正增益”，决定了我们应该在多大程度上信任新的误差信号。如果我们的不确定性 $\mathbf{P}(n-1)$ 很高，增益 $\mathbf{k}(n)$ 就会很大。这告诉算法：“你之前对自己不太确定，所以这个新误差是重要信息。进行一次大的修正吧！”

完整的更新过程如下： $\mathbf{w}(n) = \mathbf{w}(n-1) + \mathbf{k}(n) e_{\mathrm{pr}}(n)$ 新的猜测等于旧的猜测加上一个修正项。修正的方向由增益向量 $\mathbf{k}(n)$ 决定，其大小与我们的意外程度 $e_{\mathrm{pr}}(n)$ 成正比。

这个视角帮助我们理解使用RLS时最重要的一个实际步骤：初始化。如何开始呢？通常，你会将权重向量 $\mathbf{w}(0)$ 初始化为全零（一种表示极度无知的猜测），并将不确定性矩阵 $\mathbf{P}(0)$ 初始化为一个对角线上有非常大数值的对角矩阵，例如 $\mathbf{P}(0) = 1000 \cdot \mathbf{I}$ 。为什么？因为在最开始，你没有任何信息。你对初始的“全零”猜测的置信度为零。通过将 $\mathbf{P}(0)$ 设置得巨大，你是在告诉算法初始增益要非常高，这样它看到的前几个数据点就会引起权重的巨大、快速变化。算法基本上会抛弃其初始的坏猜测，并抓住来自第一个真实数据的信息，从而学习得非常快。

速度的秘密：为何RLS是伪装的牛顿法

任何使用过自适应算法的人都知道，与它更简单的近亲——最小均方（LMS）算法相比，RLS的收敛速度快得惊人。LMS通常已足够好用，但当输入信号具有复杂结构时，LMS会变得极其缓慢。而RLS似乎几乎不受影响。为什么呢？

答案是信号处理中最美的联系之一。LMS和RLS之间的区别，就像一个盲人徒步者和一个手持地形图的地球物理学家之间的区别。

想象一下我们的目标是在一个山谷中找到最低点。这个“地貌”是我们的误差曲面，一个数学曲面，其中高度代表我们猜测的误差，坐标代表我们权重向量 $\mathbf{w}$ 的可能值。最低点对应于完美的权重集。

LMS徒步者： LMS算法是一种梯度下降法。它就像一个盲人徒步者，只能感觉到脚下地面的坡度。因此，他会朝着最陡的下坡方向迈出一小步。如果山谷是一个完美的圆形碗，这方法很有效。但如果山谷是一个非常长、窄且陡峭的峡谷呢？最陡峭的方向几乎直接指向峡谷壁。徒步者迈出一步，撞到另一侧，感觉到新的最陡方向，然后又退回来。他们将花费大量时间在狭窄的峡谷底部来回之字形移动，朝着真正的谷底前进得极其缓慢。当输入信号高度“着色”——即其统计特性导致误差曲面具有很大的特征值分布，意味着它在某些方向上比其他方向陡峭得多时，LMS就会遇到这种情况。
RLS地球物理学家： RLS不仅仅是一种梯度法；它是一种准牛顿法。它不仅知道坡度；它还拥有一张山谷曲率的地图。这张地图就是逆协方差矩阵 $\mathbf{P}(n)$ ，它是误差曲面曲率矩阵（海森矩阵）的逆的一个运行估计。通过使用这个矩阵来计算其增益，RLS执行了一种“坐标变换”。它在数学上将那个又长又窄的峡谷扭曲成一个可爱的、圆形的碗。在这个新的、预处理过的空间里，最陡的下坡方向直接指向谷底。

这就是RLS强大力量的秘密。它主动测量并抵消误差曲面的扭曲曲率。因此，其收敛速度在很大程度上与输入信号的特征值分布无关，使其能够在LMS可能需要数千次迭代的情况下，在几十次迭代内找到解。

强大的代价：复杂算法的成本与诅咒

这种令人难以置信的性能并非没有代价。RLS的强大能力伴随着高昂的成本和一些每个工程师都必须尊重的棘手怪癖。

首先是计算成本。LMS徒步者轻装上阵，每一步只需存储当前位置（ $\mathbf{w}$ 向量）并执行大约 $2M$ 次乘法。这是一个复杂度为 $O(M)$ 的算法。然而，RLS地球物理学家必须携带并更新他那完整的地形图—— $M \times M$ 矩阵 $\mathbf{P}(n)$ 。这需要存储 $O(M^2)$ 个数字，并且每一步执行 $O(M^2)$ 次乘法。如果你的滤波器有10个抽头（ $M=10$ ），差异尚可管理。如果它有1000个抽头，RLS就变成了一个计算怪兽，每一步需要比LMS多一百万倍的工作量。RLS是F1赛车；LMS是可靠的家用轿车。

其次，存在一个微妙但危险的诅咒：睡眠估计器。想象一下一座化工厂里的自校正调节器，它使用RLS来建模反应堆。连续几周，工厂在完全稳定的状态下运行。控制信号是恒定的，温度也是恒定的。RLS算法看到了什么？它看到的是非常、非常重复的数据。随着每一个新的、信息量不足的数据点出现，算法对其模型的信心不断增长。不确定性矩阵 $\mathbf{P}(n)$ 稳步缩小。增益 $\mathbf{k}(n)$ 趋近于零。算法实际上“睡着了”，确信自己已经完美地了解了一切。这种情况发生在输入缺乏持续激励——即缺乏足够的丰富度和变化来探索系统的所有模式时。现在，如果突然引入一批性质不同的新化学品，会发生什么？反应堆的真实动态发生了变化，但RLS算法正在打盹。它的增益为零，所以它完全忽略了新的、不断增加的误差。控制器使用一个危险过时的模型工作，可能会变得不稳定，导致灾难性的振荡。

为了防止这种情况，我们必须阻止算法变得过于自信。一种方法是始终使用一个小于1的遗忘因子 $\lambda < 1$ ，这确保了旧数据不断被丢弃，防止 $\mathbf{P}(n)$ 缩小到零。一种更直接的方法称为协方差膨胀或抖动。在每一步，我们可以向 $\mathbf{P}(n)$ 矩阵中加回少量固定的不确定性。这就像轻轻地推一下睡着的估计器，低声说：“别太安逸了；世界可能已经变了。”

最后，在物理硬件上实现这一算法的现实引入了另一层复杂性。优美的理论假设精度无限。在真实的计算机上，微小的舍入误差会累积。本应始终完美对称和正定的 $\mathbf{P}(n)$ 矩阵可能会失去这些属性。这种正定性的丧失会导致增益计算中的分母变为负数，整个算法会灾难性地崩溃。因此，稳健的实现通常充满了实际的修正措施，比如周期性地强制矩阵对称，或者在其对角线上添加一个小的“抖动”以保持其特征值安全地为正。这是连接优雅理论方程与现实世界稳健工作系统之间必要但并不光鲜的桥梁。

应用与跨学科联系

我们已经探索了递归最小二乘算法优雅的数学机制，看到了它如何巧妙地根据每一条新证据更新其信念。但一个美丽的理论只有在触及现实世界时才真正强大。这个算法存在于何处，发挥着怎样的作用？它解决了哪些问题？你可能会惊讶地发现，它的印记无处不在，从你驾驶的汽车到凝视遥远星辰的望远镜，它的根深深扎根于现代科学的基本原理之中。让我们踏上旅程，去发现RLS应用的广阔图景。

系统辨识：学习游戏规则

想象一下，你是一名工程师，任务是让一辆电动汽车尽可能高效。能源消耗的一大部分来自于对抗两种力：轮胎在路面上的滚动阻力和空气推向汽车的空气动力学阻力。这些力由系数决定， $c_r$ 用于滚动阻力， $c_a$ 用于空气阻力。总阻力大致为 $F_{\text{drag}} = c_r + c_a v^2$ 。问题是，这些“常数”并非真正恒定。它们会随着胎压、路面、温度甚至车辆的具体载荷而变化。

汽车的控制系统如何实时了解这些值呢？它无法从书中查到。它必须学习这些值。这正是RLS的完美用武之地。汽车的计算机可以测量电机产生的总力（ $F_{net}$ ）、汽车的速度（ $v$ ）和它的加速度（ $a$ ）。通过重新排列运动定律，我们可以建立起RLS钟爱的参数线性形式。算法接收连续的数据流——力、速度、加速度——并且随着每一个新的测量值，它都会优化其对 $c_r$ 和 $c_a$ 真实当前值的估计。这就是系统辨识的实践：利用数据动态地为物理过程建立数学模型。

这个原理的通用性极强。“系统”不一定是一辆车。考虑一个我们需要维持精确温度的生物反应器。加热器的效果可能我们很清楚，但是热量不断缓慢地流失到周围环境中的情况呢？这种热量损失就像一个持续的扰动。我们可以巧妙地扩展我们的模型，加入一个常数偏移项 $c$ ，并让RLS算法在估计主要系统参数的同时也估计它。通过在其输入向量中添加一个“1”，算法不仅能学习系统如何响应我们的命令，还能学习到那个看不见的、神秘的能量消耗的大小。RLS的美妙之处在于它是一个通用学习器，准备好揭示任何我们可以用其线性结构描述的过程中的隐藏参数。

自适应控制：在游戏中改变规则

辨识一个系统通常只是第一步。下一步是控制它。如果系统本身在变化，一个固定的、静态的控制器注定会失败。如果由于逆风导致车辆的阻力增加，巡航控制逻辑需要进行调整。这就是自适应控制的领域。

最优雅的自适应控制方案之一是自校正调节器（STR）。其名自明：一个能自我调节的控制器。大多数STR都以一种优美的两步舞方式运作。首先是“辨识”步骤：控制器使用RLS为其试图控制的设备建立一个显式模型，不断更新其对设备当前“特性”的理解。其次是“设计”步骤：有了这个全新的模型，它会立即重新计算出实现期望性能所需的最佳控制器设置。

想象一下控制一个化学混合罐中的pH值，这是一个经典的过程控制挑战。反应动力学可能会随着化学进料成分的变化而改变。一个STR会使用RLS来持续估计一个简单模型的参数，比如 $\hat{a}$ 和 $\hat{b}$ ，该模型关联了pH值与中和剂的流量。然后，使用像极点配置这样的控制律，它会根据刚更新的 $\hat{a}$ 和 $\hat{b}$ 立即计算出维持闭环系统稳定和响应性所需的新控制器增益 $K_c$ 。这个“先学习，后行动”的循环永无止境，使得控制器能够优雅地处理其所管理过程中的缓慢漂移和变化。

但现实世界是复杂的。如果我们命令pH中和泵达到一个高流量，但它已经达到了其物理极限，会发生什么？这被称为执行器饱和。一个天真的RLS算法，看到命令的输入并未产生预期的pH值变化，可能会错误地断定过程参数已经改变。它可能会认为系统突然变得不那么灵敏了。一个聪明的自适应控制器则不然。它必须被设计成在其计算中使用传递给系统的实际输入，而不是它仅仅命令的输入。这阐明了一个深刻的控制原理：要了解世界，你必须倾听它实际做了什么，而不仅仅是你告诉它做什么。

RLS的真正优势在于其跟踪这些变化的能力，而关键是*遗忘因子* $\lambda$ 。当 $\lambda = 1$ 时，算法拥有无限的记忆，将旧数据与新数据同等重要地对待。这对于一个静态系统来说很棒。但对于参数正在变化的系统，我们需要告诉算法逐渐遗忘遥远的过去。通过设置 $\lambda 1$ ，我们给予近期测量值更大的权重。这使得估计器能够“放手”旧信息，跟踪新的现实，这对于任何必须在不断变化的世界中生存的自适应系统都是至关重要的。

超越控制：预测与抵消

学习模型的能力不只局限于反馈控制。有时，目标是预测一个扰动并在它有机会影响我们的系统之前就将其抵消掉。这被称为*前馈控制*。

一个惊人的例子是现代地基望远镜中使用的自适应光学系统。当星光穿过地球大气层时，具有不同温度和密度的随机气团会使光线弯曲，导致星星“闪烁”。对于高功率望远镜来说，这种闪烁会将图像模糊成一团无用的涂抹。为了解决这个问题，自适应光学系统使用一个每秒可以改变数百次形状的可变形镜。但它如何知道如何变形呢？

该系统向上空发射一束激光，创造一个人工“导星”。一个传感器测量这颗导星的光线如何被大气抖动所扭曲。这就是RLS发挥作用的地方。它在一个高速循环中运行，接收传感器数据，并建立一个动态模型，预测抖动在未来一小部分时间内的影响。这个预测模型然后命令可变形镜创造出与即将到来的扭曲完全相反的形状。结果是神奇的：大气模糊被实时抵消，望远镜看到了宇宙清晰、锐利的图像。在这里，RLS不是在控制星星；它是在学习扰动的特性，并悄悄告诉镜子如何消除它。

作为诊断工具的RLS：当地图与实际不符时

到目前为止，我们一直假设我们选择的模型结构是正确的，我们只需要RLS来找到参数。但如果我们对系统结构的基本假设是错误的呢？如果我们为一个实际上是更复杂的二阶系统的过程假设了一个简单的一阶模型，会发生什么？

这时RLS揭示了它的另一个更微妙的能力：它可以成为一个诊断工具。如果你将一个二阶系统的数据输入到一个为一阶模型配置的RLS估计器中，会发生一些有趣的事情。参数估计值不会收敛到“错误”的值。相反，它们常常根本无法稳定下来。它们会漂移和游荡，因为算法不断尝试将复杂的现实塞进你提供的简单盒子里，却屡屡失败。

这不是算法的失败。这是一个信号——一个求助的呼声！参数估计值的不稳定行为是算法在告诉你，你的模型本身是不充分的。你画的地图与你正在探索的地域不符。通过这种方式，RLS体现了科学方法的核心原则：它挑战我们的假设，并揭示我们对世界的理解何时是不完整的。

更深层的联系：科学中的统一线索

这段旅程并不止于工程应用。RLS的数学结构与估计理论和概率论中一些最深刻的思想产生共鸣。

也许最深刻的联系是RLS与著名的卡尔曼滤波器之间的联系。卡尔曼滤波器是现代估计理论的基石，以其在航天器导航和导弹制导中的应用而闻名。它是一个更通用的工具，作用于一个明确包含噪声的模型。它可能看起来比RLS复杂得多。然而，其中隐藏着统一性。可以证明，RLS算法实际上是卡尔曼滤波器的一个特例。RLS中的“遗忘因子” $\lambda$ 与卡尔曼滤波器框架中的“过程噪声” $Q$ 具有完全相同的数学目的。两者都是注入受控剂量不确定性的机制，告诉滤波器不要对其过去的估计过于自信，因为底层的真实情况可能已经发生了漂移。RLS表达式 $Q = \frac{(1-\lambda)^2}{\lambda} R$ 提供了在这两个世界之间进行翻译的正式词典，揭示了看似两种不同的算法，实际上只是同一种递归估计深层语言的两种不同方言。

这种理论基础甚至更深，触及了现代概率论的核心。在某些条件下，RLS算法的估计误差形成一个称为鞅（martingale）的随机变量序列。这个术语源于博弈策略；一个鞅代表一个“公平的游戏”，即你对下一个值的最佳预测就是你当前持有的值。因为RLS误差过程具有这种优美的数学性质，我们可以利用鞅理论的全部威力来分析其行为。像Doob极大不等式这样的强大结果，使我们能够计算出算法性能的严格概率界限。我们可以回答诸如“我的估计误差曾经超过这个临界阈值的概率是多少？”这样的问题。这将一个实用的工程工具与随机过程的优雅抽象世界联系起来，向我们保证RLS不仅仅是一个聪明的启发式方法；它建立在严谨数学的基石之上。

从建造更智能的汽车到澄清我们对宇宙的视野，再到与概率论的根基相连，递归最小二乘算法远不止是一组方程。它是从经验中学习这一原则的强大而优雅的体现，是一条贯穿无数科学和工程领域的统一线索。