状态空间模型 (SSM)

玻尔百科

定义

状态空间模型 (SSM) 是一个广泛应用于工程控制、金融建模以及 Mamba 等现代人工智能架构的数学框架。该模型利用一组最小的状态变量来完整总结系统的历史信息，从而决定其未来的演化过程。该框架的核心在于可控性和可观测性，这两个关键属性决定了系统的内部状态是否可以被输入操控或通过输出进行推断。

核心要点

系统的状态是确定其未来演化所需的最少变量集合，构成了对系统过去的完整总结。
能控性和能观性是关键属性，分别决定了系统的内部状态是否能被输入操控，或能否从输出中推断。
虽然内部状态表示不唯一，但对于同一系统，不同有效模型间的输入输出行为保持一致。
从工程控制、金融建模到像 Mamba 这样的现代 AI 架构，状态空间模型 (SSM) 是一个跨学科的通用框架。

引言

在对动态系统——从无人机的飞行到股票市场的波动——的研究中，一个核心挑战是找到一种描述变化的通用语言。我们如何能够以一种既数学严谨又直观清晰的方式，捕捉系统行为的本质？状态空间模型 (SSM) 提供了一个强有力的答案，它提供了一个结构化框架，超越了复杂、纠缠的微分方程，揭示了其核心的动态机制。本文旨在通过探索 SSM 的理论与应用，满足对统一系统建模方法的需求。

在接下来的章节中，您将对这一通用工具有一个全面的理解。第一章“原理与机制”将揭示核心概念的神秘面纱，解释什么定义了系统的“状态”，这些模型是如何构建的，以及能控性和能观性这些关键属性。在这一理论基础之后，“应用与跨学科联系”一章将展示 SSM 非凡的应用广度，演示其在经典控制工程、金融估计、生物建模，乃至人工智能前沿领域的应用。让我们首先从探索赋予状态空间模型力量的基本原理开始。

原理与机制

想象一下，你想描述一个移动的台球。为了预测它未来的全部轨迹（假设你知道将作用于其上的所有力），你需要知道关于它的最少信息是什么？你需要它的位置和速度。不是它过去的位置，也不是它的加速度。仅仅是它当前的位置和速度。这一组必要的数字——这个系统的“快照”——就是我们所说的状态。这个概念的奇妙之处在于，状态的未来演化仅取决于当前状态和任何外部输入。过去已被封装于现在之中。这就是状态空间模型的核心。

系统的灵魂：何为“状态”？

让我们把这个想法具体化。状态空间模型用一个简单而强大的方程来描述一个系统的演化：

\dot{\mathbf{x}}(t) = \mathbf{f}(\mathbf{x}(t), \mathbf{u}(t), t)

这里， $\mathbf{x}(t)$ 是状态向量——我们那一系列必要的数字。 $\mathbf{u}(t)$ 是输入向量，代表外部力量或指令。函数 $\mathbf{f}$ 是演化规则；它告诉我们状态如何随时间变化（即其导数 $\dot{\mathbf{x}}$ ）。关键属性是 $\mathbf{f}$ 仅取决于当前状态 $\mathbf{x}$ 、当前输入 $\mathbf{u}$ 和当前时间 $t$ 。

这个约束不仅仅是数学上的讲究；它正是状态的定义。假设我们正在为一个由牛顿第二定律 $y''(t) = f(y(t))$ 描述的简单机械系统建模，其中 $y$ 是位置。一个幼稚的尝试可能是将状态定义为 $\mathbf{v} = \begin{pmatrix} y \\ y'' \end{pmatrix}$ 。但要找出这个状态如何变化，我们需要它的导数 $\mathbf{v}' = \begin{pmatrix} y' \\ y''' \end{pmatrix}$ 。问题在于， $y'$ ，即速度，并不属于我们选择的状态 $\mathbf{v}$ 。我们无法仅用 $y$ 和 $y''$ 来表示 $y'$ 。我们提议的状态是不完整的；它没有关于自身运动的记忆。系统不是“闭合”的。

正确的选择，正如你可能从我们的台球类比中猜到的那样，是位置和速度对： $\mathbf{x} = \begin{pmatrix} y \\ y' \end{pmatrix}$ 。让我们看看这是否可行。其导数为 $\dot{\mathbf{x}} = \begin{pmatrix} y' \\ y'' \end{pmatrix}$ 。第一个分量 $y'$ ，正是我方状态向量 $\mathbf{x}$ 的第二个分量。第二个分量 $y''$ ，由原始方程给出为 $f(y)$ ，它是我方状态第一个分量的函数。所以我们可以写出：

\dot{\mathbf{x}}(t) = \begin{pmatrix} x_2(t) \\ f(x_1(t)) \end{pmatrix}

这个方程完美地符合了所需的形式。状态的变化率仅取决于状态本身。我们找到了一个有效的状态表示。状态 $\mathbf{x}(t) = \begin{pmatrix} y(t) \\ y'(t) \end{pmatrix}$ 是系统的“灵魂”——一个足以确定其未来的、对其过去的完整总结。对于我们遇到的大多数系统，特别是线性系统，演化规则采用一种更简单的形式：

\dot{\mathbf{x}}(t) = A \mathbf{x}(t) + B \mathbf{u}(t)

\mathbf{y}(t) = C \mathbf{x}(t) + D \mathbf{u}(t)

在这里，系统的动态由常数矩阵 $A, B, C$ 和 $D$ 捕获。矩阵 $A$ 控制内部动态（状态如何自行演化）， $B$ 描述输入如何影响状态， $C$ 决定内部状态如何转化为可测量的输出 $\mathbf{y}(t)$ ，而 $D$ 允许从输入到输出的直接“前馈”。

让我们通过一个简单的电子电路——一个串联的电阻 $R$ 和电容 $C$ ——来实际看看。如果我们施加一个输入电压 $u(t)$ 并测量电容器两端的输出电压 $y(t)$ ，其物理过程由一个一阶微分方程描述。很自然地，我们选择电容器的电压作为我们唯一的的状态变量，即 $x(t) = y(t)$ 。物理定律直接导出了状态空间矩阵：

A = \begin{pmatrix} -\frac{1}{RC} \end{pmatrix}, \quad B = \begin{pmatrix} \frac{1}{RC} \end{pmatrix}, \quad C = \begin{pmatrix} 1 \end{pmatrix}, \quad D = 0

这些不仅仅是抽象的数字。 $A$ 告诉我们状态以 $RC$ 的时间常数指数衰减。 $B$ 告诉我们输入电压如何驱动这个衰减。 $C$ 简单地表示我们测量的输出就是状态。抽象的数学结构完美地反映了物理现实。

作为抽象的状态：同一系统的多副面孔

一个有趣的问题出现了：状态变量的选择是唯一的吗？如果你和我为同一个系统建模，我们必须得出相同的状态向量和相同的矩阵 $A, B, C$ 吗？令人惊讶的答案是：否。

状态是一种内部描述。对于外部观察者来说，重要的是你输入什么 ( $u(t)$ ) 和你得到什么 ( $y(t)$ ) 之间的关系。这种外部行为完全由系统的传递函数（通常表示为 $G(s)$ ）捕获。状态空间模型的一个深刻性质是，状态空间中的任何“坐标变换”都不会改变传递函数。如果我们通过对原始状态应用一个可逆矩阵变换 $T$ 来定义一个新的状态向量 $\tilde{\mathbf{x}}$ ，使得 $\tilde{\mathbf{x}} = T\mathbf{x}$ ，那么该系统可以用新的矩阵来描述：

\tilde{A} = T A T^{-1}, \quad \tilde{B} = T B, \quad \tilde{C} = C T^{-1}

虽然这些矩阵看起来完全不同，但它们描述了完全相同的输入输出行为。这意味着对于任何给定的系统，都存在一个无限的状态空间表示族，它们都通过这些相似变换相关联。状态不是一个唯一的物理量，而是一个“状态空间”中的抽象向量，我们可以自由选择任何基（坐标系）来描述它。

虽然这种自由度很优雅，但如果我们想要一个唯一的模型，例如在训练机器学习模型时，它可能会带来不便。为了解决这个问题，我们可以强制采用一种规范型，这就像是商定一个标准的坐标系。例如，能控规范型将 $A$ 和 $B$ 矩阵强制为一种特定的、固定的结构，从而消除了模糊性，并为任何给定的传递函数提供了唯一的表示。

见不可见，控不可控

内部状态和外部观测之间的这种区别引出了现代工程中两个最重要的概念：能控性和能观性。

能控性提问：我们能否利用输入将系统的状态引导到任何期望的配置？一辆汽车是能控的，因为你可以使用方向盘和踏板将它停在任何位置。而轨道上的火车则不是；它的状态被限制在线路上。

能观性提问：我们能否仅通过观察其输出来推断出系统的完整内部状态？你无法仅通过看汽车的速度就知道其发动机的精确温度。但是，如果仪表盘上有温度计（一个输出），你就可以。

这些属性并非必然具备。有时，系统内部动态的某些部分对输入或输出是“隐藏”的。一个很好的例子是极零点对消。想象一个传递函数为 $G(s) = \frac{s+2}{(s+2)(s+3)}$ 的系统。在数学上，这可以简化为 $G(s) = \frac{1}{s+3}$ 。与项 $(s+2)$ 相关联的动态模式（对应于指数衰减 $e^{-2t}$ ）消失了！原始未对消传递函数的状态空间模型将揭示，这个模式要么是不可控的，要么是不可观的。输入无法“激励”系统动态的这一部分，或者输出传感器对其“视而不见”。这是机器中的幽灵。

更微妙的是，当我们组合行为完全正常的系统时，也可能失去这些属性。如果我们将两个系统并联，它们的输出相加，它们的动态可能会相互干扰，以至于某个模式在组合输出中变得不可观。这就像两个人唱出的音符完美地相互抵消，结果是寂静。

动态的构建模块：组合系统

当我们用更简单的组件构建复杂系统时，状态空间方法的真正威力就显现出来了。我们无需与巨大、纠缠的微分方程作斗争，只需以一种优雅的、模块化的方式组合各部分的状态空间模型即可。

如果我们将两个系统级联连接，其中第一个系统的输出成为第二个系统的输入，那么新的状态向量就是各个状态向量的简单拼接。新的系统矩阵形成一个更大的分块矩阵，它清晰地展示了每个子系统的内部动态以及它们之间的连接。

一个更强大的例子是反馈回路，这是现代控制理论的基石。在这里，控制器监控“被控对象”（被控制的系统）的输出，并调整被控对象的输入以实现期望的行为。状态空间建模为这场错综复杂的舞蹈提供了一幅惊人清晰的图景。通过定义一个包含被控对象和控制器状态的复合状态向量，我们可以推导出一个单一的闭环状态空间模型。由此产生的状态矩阵 $A_{cl}$ ，巧妙地将各个动态（ $A_p, A_c$ ）和反馈路径组装成一个单一实体，使我们能够一次性分析整个系统的稳定性和性能。

A_{cl}=\begin{pmatrix} A_{p}-B_{p}D_{c}C_{p} B_{p}C_{c} \\ -B_{c}C_{p} A_{c} \end{pmatrix}

系统的脉搏：稳定性与离散化

一旦我们有了模型，最紧迫的问题是：它稳定吗？一个小的扰动是会消失，还是会增长直到系统崩溃？对于在计算机上实现的离散时间系统，稳定性取决于状态转移矩阵 $A$ 的特征值。

内部稳定性：如果 $A$ 的所有特征值都在复平面的单位圆内（即谱半径 $\rho(A) 1$ ），那么在没有外部输入的情况下，任何初始状态都将衰减到零。系统是内禀稳定的。
有界输入，有界输出 (BIBO) 稳定性：如果我们施加任何有界输入，输出会保持有界吗？这是一个实用的、外部的稳定性定义。

内部稳定性保证了 BIBO 稳定性。然而，如果一个系统的非稳定模式是“隐藏”的（不可控或不可观），那么它可以在不是内部稳定的情况下实现 BIBO 稳定。

此外，从物理学推导出的模型是时间连续的，但计算机以离散的步长运行。我们需要一个方法将连续模型（ $\dot{\mathbf{x}} = A\mathbf{x} + B\mathbf{u}$ ）转换为离散模型（ $\mathbf{x}_{k+1} = A_d \mathbf{x}_k + B_d \mathbf{u}_k$ ）。诸如零阶保持器 (ZOH) 和双线性变换等方法正是为此而生。它们是从连续世界通往数字计算的离散世界的数学桥梁。至关重要的是，这些方法被设计用来保持稳定性：一个稳定的连续系统将产生一个稳定的离散系统。然而，这种转换并非完美。例如，双线性变换会引入一种奇特的非线性失真，称为频率畸变，其中连续系统的频率被压缩到离散系统可用的范围内。

超越线性：非线性世界一瞥

我们的大部分讨论都集中在线性系统上，其中控制矩阵是恒定的。但现实世界充满了非线性。状态空间框架为进入这个更复杂的世界提供了一条美丽的跑道。考虑一个双线性模型，它在线性状态方程中增加了一个简单的项：

x_{k+1} = A x_k + \sum_{i=1}^{m} u_{k,i} N_i x_k + B u_k

新项 $\sum u_{k,i} N_i x_k$ 代表输入 $u$ 和状态 $x$ 之间的乘性相互作用。输入不再仅仅通过 $B$ 矩阵“推动”状态；它正在主动地修改系统的内部动态，有效地动态改变 $A$ 矩阵。这个看似微小的增加使得模型能够捕捉到更丰富的行为，包括任何纯线性系统都无法复制的二次效应。它代表了一个其基本属性可以被其输入调制的系统——这是理解从生物学到现代人工智能等领域中看到的自适应和复杂动态的垫脚石，在这些领域，这些原理构成了强大的神经状态空间模型的基础。

应用与跨学科联系

在了解了状态空间模型的原理之后，我们可能会倾向于将它们视为一种纯粹的数学抽象，一种巧妙的动态记账方法。但这样做将是只见树木，不见森林。状态空间表示的真正威力不在于其优雅，而在于其非凡的通用性。它是一种描述变化的通用语言，一个在科学和工程最不相关的角落都找到了归宿的概念工具包。它让我们能够在无人机的飞行、金融市场的起伏、我们免疫细胞的秘密生活，甚至人工智能的架构中看到共同的结构。

现在，让我们开始一次对这些应用的巡礼。我们将看到这同一个理念——一个隐藏状态驱动可观测输出的概念——如何提供一个统一的视角，来审视纷繁多样的现象。

经典领域：工程与控制

状态空间模型诞生并成长于控制工程领域，该领域的主要挑战是让事物按我们的意愿行事。想象一下保持一架四旋翼飞行器完美水平的任务。它的运动——它的高度和垂直速度——构成了这个物理系统（即“被控对象”）的“状态”。我们可以写下一个状态空间模型来描述这个状态如何根据螺旋桨的推力演化。

但我们不只想描述它的运动；我们想控制它。我们引入一个控制器，也许是一个经典的比例-积分-微分 (PID) 控制器，它根据期望高度与实际高度之间的误差来计算所需的推力。状态空间方法的绝妙之处在于，控制器本身也有一个内部状态（例如，积分项的累积误差）。我们可以简单地扩充我们原始的状态向量，将被控对象的状态与控制器的状态合并成一个单一的、更大的状态向量。整个闭环系统——四旋翼飞行器加控制器——现在由一个单一的、更大的状态空间模型来描述。我们四旋翼飞行器的稳定性和性能现在完全取决于这个新的、组合的状态矩阵 $A_{cl}$ 的属性。通过分析这个矩阵，工程师可以在螺旋桨转动之前，就确定系统是会稳定还是会失控。

这种为系统模式建模的思想可以扩展到更复杂的场景。考虑一个现代电子设备，如 DC-DC 升降压变换器，它在从笔记本电脑到电动汽车的各种设备中高效地改变电压水平。这个电路通过快速地开关一个开关来工作。当开关闭合时，电路以一种方式运行；当开关断开时，它以另一种方式运行。状态空间框架以优美的简洁性处理了这个问题。我们只需为开关的每种模式定义两个不同的状态空间模型， $(A_{on}, B_{on})$ 和 $(A_{off}, B_{off})$ 。系统的整体演化是这两套规则之间的一场舞蹈，这是一个“切换系统”的典型例子。通过分析每个矩阵的属性，我们可以理解能量在设备中错综复杂的流动。

窥探无形：估计与滤波

在工程学中，状态通常是像位置和速度这样有形的东西。但真正的概念飞跃发生在科学家们意识到状态可以是某种隐藏的、我们永远无法直接观察但只能从带噪声的测量中推断出来的潜在量时。

以金融世界为例。一个核心概念是短期利率，但在任何给定时刻这个利率是什么呢？它不是一个单一的、被完美测量的数字；它是一个受无数市场力量冲击的潜在过程。像 Vasicek 模型这样的模型将其演化描述为一个随机微分方程。为了使其有用，我们可以将这个连续过程离散化为状态空间形式，其中潜在状态 $r_t$ 是时间 $t$ 的“真实”利率。我们的观测值，即我们在市场上读到的利率，是带噪声的测量值 $y_t = r_t + \varepsilon_t$ 。现在，状态空间模型有两个随机性来源：利率过程本身的固有波动性（过程噪声）和我们测量中的误差（观测噪声）。这就是卡尔曼滤波器的用武之地。它是一个递归算法，接收我们一系列带噪声的观测值，并产生对隐藏状态 $r_t$ 的最佳估计。它让我们能够穿透测量误差的迷雾，看到底层的过程。此外，同样的框架也允许我们通过最大化我们实际观测到的数据的似然，来估计模型的基本参数——如均值回归速度 $\kappa$ 和波动率 $\sigma$ 。

这种将过程噪声与观测噪声分离的强大思想是现代科学方法的基石。一位研究野生动物种群的生态学家面临同样的问题。动物的真实数量 $N_t$ 由于出生、死亡和环境因素而年复一年地波动——这是过程方差。当生态学家去计数时，他们不可避免地会漏掉一些并产生误差——这是观测方差。简单地对观测到的数量随时间进行回归，会混淆这两个根本不同的不确定性来源。通过将问题表述为状态空间模型，其中真实的对数种群规模是潜在状态，而对数计数是带噪声的观测值，我们可以严格地将它们分离开来。我们可以估计出真实种群的潜在增长率和波动性，并将其与我们调查能力的不确定性分开。

这个概念可以被进一步推广，直至细胞生物学的核心。思考“训练免疫”现象，即一个先天免疫细胞，如巨噬细胞，可以被一种刺激“启动”，从而对后来的第二种刺激产生更强的反应。这意味着一种细胞记忆形式，据信编码在其染色质——其 DNA 的包装结构——的化学修饰中。这个“表观遗传状态”就是隐藏变量。我们无法轻易地实时观察染色质状态的演变。我们可以测量的是细胞的输出：它在受到挑战后产生的细胞因子的时间进程。我们可以建立一个状态空间模型，其中潜在状态向量 $z_t$ 代表抽象的染色质状态，而观测到的细胞因子水平 $y_t$ 是这个状态的带噪声的读出。利用期望最大化 (EM) 算法与卡尔曼平滑器等工具，我们可以使用可观测的细胞因子数据来推断隐藏的表观遗传记忆的动态，从而将一个定性的生物学假设转变为一个定量的、可检验的模型。

复杂动态建模：结构与诠释

除了估计之外，状态矩阵 $A$ 的数学结构本身就能揭示关于系统行为的深刻真理。在宏观经济学中，经济学家构建整个经济的复杂模型，当这些模型在稳态附近线性化时，就呈现出状态空间系统的形式。有时，得到的状态矩阵 $A$ 具有重复的特征值。如果该矩阵同时是“亏损的”（意味着它缺少一组完整的特征向量），它就拥有一个称为若尔当块的结构。

这听起来可能像一个晦涩的数学细节，但其经济学解释却非常引人注目。具有若尔当块的系统对冲击的响应方式是独特的。一些变量不会简单地指数衰减回到均衡状态，而是会表现出一种“驼峰形”响应，即与均衡的偏离在衰减之前会先增大。这是因为动态不仅由像 $\lambda^t$ 这样的项描述，还由像 $t\lambda^t$ 这样的项描述。这种确切的动态特征在货币或财政政策冲击后的真实经济数据中经常被观察到，而状态空间框架为此提供了直接的机理级解释。

状态空间模型的可解释性也使其成为强大的分析工具。一位研究城市公园人为噪声的生态学家可以使用像 ARIMA 这样的标准时间序列模型来预测噪声水平。或者，他们可以构建一个“结构化”状态空间模型。这个模型可能包含代表基线噪声水平（一个“局部水平”）的潜在状态分量，以及代表周循环（一个“随机季节性”项）的另一个分量。虽然两种模型都可能产生预测，但状态空间模型提供了将噪声分解为可解释部分的能力。它不仅告诉我们噪声水平将是什么，还告诉我们为什么——将缓慢漂移的趋势与可预测的每周节律分离开来。这种清晰性，加上该模型处理传感器故障导致的数据缺失的天然能力，通常使其成为根据像 AIC 这样的形式化模型选择标准判断的更优越的选择。

AI 时代的复兴：新前沿

几十年来，状态空间模型一直是工程学和计量经济学的中流砥柱。但近年来，它们在人工智能的最前沿经历了一场惊人的复兴，挑战了深度学习的主流范式。

用于序列（如文本或音频）的现代深度学习一直由两种架构主导：卷积神经网络 (CNN) 和 Transformer。从信号处理的视角深入探究它们的原理，可以揭示其固有的偏好。CNN 本质上是一个局部算子；其在给定时间的输出是一小块有限输入窗口的函数。用信号处理的术语来说，它实现了一个有限冲激响应 (FIR) 滤波器。而 SSM 则是循环的。它的状态 $x_t$ 包含了对整个输入历史的压缩总结。它实现了一个无限冲激响应 (IIR) 滤波器，这使其天然适合于建模长程依赖。

与 Transformer 的比较更为深刻。Transformer 核心的自注意力机制是置换等变的：如果你打乱输入词的顺序，你得到的输出向量集合也是相同的，只是顺序被打乱了。它将输入视为一个无序的项目集合。为了使其适用于序列，必须明确添加“位置编码”来告知模型每个词的位置。而 SSM 本质上是一个时序机器。它的循环关系 $x_{t+1} = A x_t + B u_t$ 在时间上是根本有序的。它不需要被告知输入的顺序；顺序已经融入其结构之中。

利用这些洞见，研究人员设计了一类基于状态空间概念的新型深度学习模型，例如作为 Mamba 等架构基础的选择性状态空间模型 (S6)。这些模型采用了经典的线性 SSM，并用输入依赖的“门控”机制来增强它，这在精神上类似于 LSTM 中的门控。这使得模型能够根据输入内容选择性地记忆或遗忘信息。一个门控变量 $g$ 可能会像这样调节状态更新： $x_{t+1} = ((1-g)I + gA) x_t + g B u_t$ 。这个简单的修改使得动态表达能力大大增强。通过将这种表达能力与计算长卷积的高度优化的并行算法相结合，这些新的基于 SSM 的架构在一系列广泛的任务上取得了最先进的性能，从语言建模到基因组学，其计算效率通常优于 Transformer。

从经典控制的齿轮到现代 AI 的神经元，状态空间模型已被证明是一个具有持久生命力和惊人广度的思想。它证明了一个深刻而简单的抽象是我们理解世界最强大的工具之一，揭示了隐藏在现实复杂织锦之下的统一性。