系统不确定性科学：从工程学到生物学

玻尔百科

关键要点

系统不确定性可以通过熵进行数学量化，并大致分为不可简化的随机性（偶然不确定性）和可简化的知识缺乏（认知不确定性）。
工程师使用反馈控制、M-Δ 框架和结构化奇异值 (μ) 等强大技术来设计鲁棒系统，使其在存在不确定性的情况下仍保持稳定。
匹配不确定性与非匹配不确定性之间的区别，定义了控制器抵消干扰能力的根本限制。
不确定性和信息论的原理不仅限于工程学，它们也是生物学中的基本运作原则，从胚胎发育到适应性免疫系统均有体现。
正如量子力学和热力学所描述的，不确定性交织在现实的结构之中，将信息、能量以及变化的可能性本身联系在一起。

引言

不确定性并非我们对世界感知的缺陷，而是世界的一个基本特征。从股票市场的随机波动到粒子的不可预测路径，我们不断面临着其行为无法被我们完美预测的系统。对于科学家和工程师而言，挑战不在于消除这种不确定性——这通常是不可能的——而在于理解它、量化它，并构建能够在不确定性存在时保持韧性的系统。本文旨在解决如何正式处理不确定性这一核心知识鸿沟，将其从一个模糊的麻烦转变为一个我们可以分析和为之设计的有形量。

这段探索之旅将分两个关键章节展开。首先，我们将探讨不确定性的“原理与机制”。我们将使用熵的概念在数学上定义它，学会区分不同类型的无知——偶然不确定性和认知不确定性——并发现用于驯服它的基础工程策略，例如反馈控制和 M-Δ 框架。随后，在“应用与跨学科联系”中，我们将看到这些强大的思想如何超越其工程学起源，为生物系统的逻辑提供关键见解，从胚胎的发育到我们免疫系统的功能，甚至与物理学的基本定律相联系。

原理与机制

我们所体验的世界，是一首规律与惊喜交织的交响曲。太阳升起，潮汐涨落，但股市却难以预测地波动，没有两片雪花是真正相同的。我们理解和改造世界的探索，在很大程度上，就是一场理解和管理这个永恒伴侣——不确定性——的探索。但究竟什么是不确定性？我们能测量它吗？我们能对它分类吗？最重要的是，我们能否制造出不仅是其奇想的奴隶，而且在其存在时依然具有韧性和鲁棒性的东西？

什么是不确定性？一种对惊喜的度量

让我们从一个简单的游戏开始。假设一位神经科学家告诉我们，单个神经元可以处于三种状态之一：静息、放电或恢复。如果我们没有其他任何信息，我们能对每种状态的概率做出最诚实的猜测是什么？如果我们要对观察到的下一个状态下注，我们没有理由偏爱其中任何一种。我们的不确定性达到了最大值。直观上，我们会为每种状态分配 $1/3$ 的概率。

这个简单的直觉是我们如何数学化定义不确定性的核心。伟大的物理学家和信息理论家 Claude Shannon 对此问题深感兴趣。他想找到一种方法来衡量一个事件提供的“惊喜”或“信息”量。如果你知道一枚硬币是两面都是正面，那么看到它正面朝上就毫无惊喜可言。但如果抛掷一枚公平的硬币，结果是不确定的，而得知结果会给你提供信息。Shannon 的答案是他称之为熵的一个量。对于一个有 $N$ 种可能结果的系统，每种结果的概率为 $p_i$ ，其熵 $S$ 由以下公式给出：

$S = -\sum_{i=1}^{N} p_i \ln(p_i)$

负号的存在是因为概率（一个0到1之间的数）的对数是负数，而我们希望不确定性的度量是一个正数。当我们将其应用于我们的三态神经元时，我们发现熵 $S$ 恰好在概率相等时达到最大值： $p_R = p_F = p_H = 1/3$ 。在这种最大无知的状态下，不确定性恰好是 $\ln(3)$ “奈特”（一种基于自然对数的信息单位）。这是一个深刻的结果：代表最无偏知识状态的均匀分布，也对应着可能的最大不确定性。因此，熵不仅仅是一个公式，它是对我们自身无知程度的严格度量。

无知的两面：偶然不确定性 vs 认知不确定性

现在我们有了度量不确定性的工具，我们很快发现并非所有无知都是生而平等的。想象一下你是一名研究机械系统（如弹簧上的简单质量块）的工程师。你注意到了两种不确定性的来源。首先，驱动系统的力来自空气湍流，它时时刻刻都在随机波动。即使你拥有一个完美的系统模型，你也永远无法预测下一次实验中这个力的确切值。这就是偶然不确定性（aleatoric uncertainty），源自拉丁语 alea，意为“骰子”。它是世界固有的、不可简化的随机性。它是系统本身的属性，是宇宙掷出的一次骰子。我们用概率分布来对其建模，承认其根本上的随机性。

但还有第二个问题。你不知道弹簧的确切刚度 $k$ 。制造商的手册给出了一个标称值，但你手头的这个具体弹簧可能略有不同。这就是认知不确定性（epistemic uncertainty），源自希腊语 episteme，意为“知识”。这种不确定性源于我们对系统缺乏知识。关键在于，它是可以简化的。原则上，我们可以进行更精确的实验，进行更多测量，将 $k$ 的真实值缩小到任何期望的精度。这种不确定性不是弹簧的属性，而是我们关于弹簧的有限信息的属性。

这种区分不仅仅是哲学上的，它还具有优美的数学结构。在贝叶斯框架中，我们可以将系统的总不确定性看作是我们对模型参数的不确定性（我们应该使用哪个模型？）和该模型预测的数据所固有的随机性的组合。熵的链式法则使我们能够将这两者清晰地分开。模型参数 $\theta$ 和新数据点 $x_{new}$ 的总联合不确定性可以写成：

$H(\theta, x_{new}) = H(\theta) + H(x_{new}|\theta)$

在这里， $H(\theta)$ 是我们关于模型参数的信念的熵——我们的认知不确定性。 $H(x_{new}|\theta)$ 是给定特定模型下结果的期望熵——在所有可能模型上的平均偶然不确定性。我们面临的总不确定性，就是我们对世界规则的未知（认知不确定性）与游戏本身固有的随机性（偶然不确定性）之和。

驯服野兽：不确定性的工程学方法

知道不确定性是什么以及如何分类是一回事；构建能够在不确定性面前可靠运行的系统则是另一回事。这就是鲁棒工程的领域。

我们武器库中最简单也最强大的工具是反馈。考虑控制一个电机的速度。前馈方法是建立一个完美的电机模型，并计算达到目标速度所需的确切电压。这就像精确地遵循一份食谱。但如果电机在升温时其内部摩擦力发生变化怎么办？模型现在出错了，最终速度也会有偏差。前馈控制器依赖其内部地图盲目飞行，无法知道或纠正这一点。

相比之下，反馈控制器就像一位品尝汤的厨师。它测量电机的实际速度，将其与期望速度进行比较，并根据误差调整电压。如果摩擦力增加导致电机减速，反馈控制器会看到误差并增加电压进行补偿。它不需要一个完美的模型；它对实际发生的情况做出反应。“测量、比较、行动”这个简单的原则是抵御不确定性的第一道防线。对于系统中的微小变化，与前馈方法相比，反馈可以显著减少误差。

对于更复杂的系统，工程师们开发了一种极其巧妙的策略来系统地分析不确定性：他们将其隔离。想象你有一台复杂的机器，你怀疑里面有个小妖怪在捣乱某个组件。与其在小妖怪肆虐的情况下分析整个机器，不如在概念上围绕这个小妖怪画一个框。这个框被称为不确定性模块，用 $\Delta$ 表示。机器的其余部分，现在是完全已知的，被称为标称系统， $M$ 。游戏就变成了理解 $M$ 和 $\Delta$ 之间的反馈回路。系统 $M$ 产生一个信号 $z$ 输入到小妖怪的框里，而小妖怪的恶作剧 $w$ 则从框里出来，扰动系统。这就是所谓的M-Δ 框架。

这种强大的抽象使我们能以统一的方式处理多种不同类型的不确定性。这个“小妖怪”可能是一个我们不精确知道的物理参数，比如一个机械结构中的阻尼系数。它也可能是一个执行器的不可预测行为，其动作不完全符合控制器的指令。或者，它可能是传感器中未建模的动态特性，导致其在高频下给出错误的读数。在每种情况下，我们都可以通过代数操作“抽出”未知部分 $\Delta$ ，留下一个已知的、更大的系统 $M$ 供我们分析。我们甚至通过为 $\Delta$ 模块定义一个特定的结构来记录我们不确定性的具体性质——无论它们是单个实数、复变量，还是整个未知动态矩阵。

稳定性裕度：我们能处理多大的“小妖怪”？

M-Δ 框架不仅仅是一个简洁的图表。它为最重要的问题提供了一个具体、量化的答案：我们的系统在崩溃前能容忍多大的不确定性？

回答这个问题的工具是结构化奇异值，或称μ (mu)。本质上，μ 衡量了在给定频率下，最坏情况“小妖怪” $\Delta$ 的放大因子。我们可以将来自不确定性模块的信号 $w$ 视为一种扰动。它进入系统 $M$ ，在其动态中循环，然后以信号 $z$ 的形式出现，再反馈到不确定性模块中。μ 的值告诉我们这个回路的最大可能增益 $|z|/|w|$ ，同时考虑了我们不确定性 $\Delta$ 的特定结构。

通过计算每个频率下的 μ 值，我们可以创建一个 μ-图。该图的峰值 $\mu_{peak}$ 告诉我们所有频率下的绝对最坏情况。关键在于：只要我们不确定性的“大小” $\|\Delta\|$ 小于峰值 μ 的倒数，系统就保证稳定。

$\text{稳定性裕度} = \frac{1}{\mu_{peak}}$

如果一个工程师分析一个机械臂并发现 $\mu_{peak} = 2.5$ ，他们立刻就知道，对于任何大小小于 $1/2.5 = 0.4$ 的组合不确定性，系统都保证是稳定的。这个单一的数字是一份强大的鲁棒性证书。它精确地告诉我们系统在可能变得不稳定之前能处理多大的“小妖怪”。

更深层次的审视：当控制器束手无策时

那么，反馈是解决所有不确定性的万能药吗？不尽然。一个控制器，无论多么巧妙，都只能影响它所连接的系统部分。这就引出了匹配不确定性与非匹配不确定性之间的关键区别。

想象你在驾驶一艘船。船舵是你的控制输入。如果一个不确定性通过与你的控制相同的通道进入系统，那么它就是“匹配的”。例如，如果发动机功率波动，这是对船前进运动的干扰，但你可以用船舵来抵消它（通过轻微改变船的方向来调整其路径）。扰动和控制是“匹配的”。

但如果有一股强劲的侧风将船向侧面推呢？这是一种“非匹配”不确定性。船舵主要影响船的航向（偏航），而不是其侧向运动（摇摆）。你可以用船舵使船完美地指向目的地，但风仍然会将你吹离航线。控制器的作用没有在正确的“方向”上直接对抗扰动。

这是一个根本性的限制。即使是像滑模控制这样高度鲁棒的控制器，也能够完美地抑制巨大的匹配不确定性，迫使系统遵循期望的路径。但当面对非匹配不确定性时，这些同样的控制器可能无能为力。它们可以将系统保持在其设计的“滑模面”上，但这个滑模面本身正被扰动推来推去，阻止系统最终达到其目标。了解不确定性从何处进入系统，与知道它的存在同样重要。它告诉我们，我们与之的斗争将会是一场英勇的胜利，还是一场崇高但最终徒劳的挣扎。

应用与跨学科联系

我们花了一些时间发展一种数学语言来讨论不确定性，赋予它形状和大小。你可能会认为这只是一种形式上的练习，是工程师和科学家为他们的无知赋予一个数字的方式。但那样就完全错失了重点。不确定性的概念并非自然之书中的一个脚注；它是一个反复出现的角色，一个在迥然不同的学科中回响的核心主题。理解它就像找到一把秘密钥匙，能打开你甚至不知道是相互连接的门。让我们开始一次巡游，看看这把钥匙能带我们走多远。

为一个不安分的世界进行工程设计

我们的第一站是工程世界，在那里，事物被建造出来是为了工作。 “工作”是什么意思？它意味着不仅在纸上、在理想化的世界里工作，而且在真实世界中，带着其所有的混乱和不可预测性工作。

想象一下，你被赋予设计一架自主无人机飞行控制器的任务。你可以根据其质量、螺旋桨推力和空气动力学写下优美的运动方程。这是你的“标称模型”。但是当一阵突如其来的狂风袭来时会发生什么？或者当电池电量耗尽，改变了无人机的总质量和重心时呢？这些都是对你完美模型的偏离——它们是不确定性。你的控制器必须是鲁棒的；它必须不顾这些不可预见的影响而保持稳定。

这就是鲁棒控制理论的核心挑战。诀窍在于描述不确定性的“大小”。我们无法确切知道扰动会是什么，但我们通常可以为其设定一个界限。例如，我们可能知道无人机电机未建模的高频动态在每个频率上永远不会超过某个幅度。工程师们用一个“加权函数”来表示这个界限。然后，系统的稳定性可以通过一个名为小增益定理的极其简单而强大的思想来保证。它基本上说，如果反馈系统的环路增益——包括通过不确定性的路径——总是小于一，系统就不会变得不稳定。不确定性无法在环路中自我放大直到失控。这个原则使得工程师能够为从无人机到化工厂的各种系统构建控制器，即使它们的数学模型不完全精确，也能保证稳定。

这种对不确定性建模的想法不仅适用于外部扰动。有时，不确定性是系统本身的一个内在部分。考虑为计算机芯片生长完美硅晶体的过程，这是一种称为切克劳斯基法的方法。晶体的质量关键取决于熔融硅和固态晶体之间边界处的温度。但这个边界并非完全静止；它会抖动和波动。位置上这个微小的物理波动 $z$ ，改变了系统的热特性。系统的增益——即对于给定的加热器功率变化，温度会改变多少——是这个位置 $z$ 的函数。通过描述这种波动的范围，我们可以描述一整族可能的系统行为，并将其建模为乘性不确定性。这使得工程师能够设计一个单一的温度控制器，在所有可能的界面位置范围内可靠工作，从而每次都确保获得高质量的晶体。

当然，有时我们的控制策略本身会引入对不确定性的新敏感性。一种常见的技术是使用“观测器”来估计我们无法直接测量的系统内部状态，然后将这个估计值反馈给我们的控制器。在一个完美的世界里，控制器和观测器的设计是两个独立的问题——这是一个被称为分离原理的优美结果。但在存在模型不确定性的情况下，这种分离就不成立了！观测器使用的模型中的一个错误可以通过控制器反馈回来，使整个系统失稳。分析这个问题需要我们将被控对象、控制器和观测器视为一个相互连接的系统，与现在将它们耦合在一起的不确定性作斗争。数学可能会变得更复杂，但核心思想依然不变：量化不确定性，并确保其影响不会失控。为了保证这一点，数学家们已经开发出强大的工具，例如分析系统矩阵在所有可能扰动下的“最坏情况”特征值，为系统性能提供一个硬边界。

不确定性不仅源于我们的模型，它也内在于我们的测量之中。假设你正在管理一个有两根平行管道的灌溉系统。你测量每根管道的流速，但每次测量都有不确定性，即一点“正负误差”。如果你用这些流速来计算另一个量，比如系统两端的压降（水头损失），你测量中的不确定性如何传播到你最终的计算结果中？这是数据分析中的一个经典问题。测量流速 $Q$ 中的一个小小不确定性，可能会导致水头损失中一个更大的不确定性，因为水头损失通常依赖于 $Q^2$ 。但这里有一个巧妙的转折：如果你可以从两根管道的测量值计算水头损失，你就有了对同一数量的两个独立估计。通过智能地组合它们——给予不确定性较小的估计更大的权重——你可以得出一个比任何单个估计都更精确的最终值。我们利用不确定性，不是为了承认失败，而是为了提炼我们的知识。

生命的逻辑：不确定性作为一种创造力

现在让我们把目光从我们建造的机器转向所有机器中最复杂的：生命有机体。你可能认为，生物学以其表面的混乱，与精确的工程世界关系不大。但你错了。大自然是终极的鲁棒工程师。

思考一下发育中的胚胎是如何创造形态的。在一排生长的细胞中，一个细胞如何“知道”它应该成为头部的一部分还是尾部的一部分？它通过称为形态发生素的信号分子的浓度来获知自己的位置。胚胎一端的一个源头释放形态发生素，形成一个平滑的浓度梯度。细胞感知局部浓度，并基于此开启或关闭某些基因，从而决定其命运。

从细胞的角度思考这个问题。在测量形态发生素之前，它对自己的位置是“不确定的”。通过感知浓度，它获得了信息。我们可以使用信息论的语言来精确地量化这一点。如果形态发生素梯度被划分为四个不同的浓度水平，指定四个不同的区域，一个能完美识别其水平的细胞恰好获得了关于其位置的两比特信息，将其初始不确定性减少了四倍。

但大自然的巧思不止于此。基因表达是一个内在充满噪声的随机过程。当底层的分子机制如此“抖动”时，胚胎如何形成一个清晰、精确的边界——比如说，在苍蝇的翅膀和身体之间？它进化出了一种巧妙的技巧：协同性。目标基因对形态发生素的响应通常不是线性的，而是开关状的，可以用“希尔函数”来描述。更高程度的协同性（即更大的希尔系数 $n$ ）使开关更加陡峭。一个简单的计算表明，边界的位置不确定性 $\sigma_x$ 与这种协同性成反比，即 $\sigma_x \propto 1/n$ 。通过进化出协同结合机制，大自然主动抑制了噪声的影响，确保了清晰、可靠的模式能够从嘈杂的生化汤中涌现。这是增强位置精度的生物工程杰作。

也许生物学中最令人惊叹的信息处理例子是我们自身的适应性免疫系统。你的身体是如何识别并对抗它从未见过的病毒的？该系统首先通过一个称为 V(D)J 重组的随机基因重排过程，创造出数量惊人的多样化免疫细胞受体。这创造了一个包含数十亿种不同 T 细胞受体的库。从信息论的角度来看，这个初始状态是最大熵或最大不确定性的状态。系统不知道它将面临何种病原体，因此它为每一种可以想象的可能性做好了准备。

当病毒入侵时，其抗原被呈递给这个庞大的 T 细胞库。通过一个称为克隆选择的过程，恰好能与病毒抗原结合的一个或少数几个细胞被选中，并被指令进行大规模增殖。一次观察被完成：这个受体是有效的。这种选择行为是信息的一次巨大增益。系统关于入侵者身份的不确定性急剧下降。我们甚至可以计算以比特为单位获得的信息量，其结果是可能受体总数的对数除以能够识别单个抗原的受体数量。这是对系统“学习”了多少关于敌人的直接度量。免疫系统是一台学习机器，而不确定性正是它用来学习的资源。

现实的基本结构

到目前为止，我们一直将不确定性视为复杂系统的一个特征，无论是工程系统还是生物系统。但它远不止于此。不确定性被编织进物理定律的结构之中。

我们都听说过海森堡不确定性原理，它指出我们不能同时知道一个粒子的精确位置和动量。但这个原理还有另一个同样深刻的版本，称为 Mandelstam-Tamm 关系。它将系统能量的不确定性 $\Delta E$ 与任何其他可观测量 $\hat{A}$ 的期望值发生显著变化所需的特征时间 $\tau_A$ 联系起来。该关系为 $\Delta E \cdot \tau_A \ge \hbar/2$ 。

这是什么意思？这意味着在量子世界中，演化存在一个基本的“速度极限”，而这个速度极限受系统能量分布的宽窄所支配。一个能量完全确定（ $\Delta E = 0$ ）的系统是一个定态——它被冻结在时间中，其任何性质都不会改变。要让某件事发生，要让系统的任何属性演化，其能量必须存在不确定性。只有通过不确定性，变化才成为可能。

测量、不确定性和基本物理量之间的这种联系无处不在。想象一下你是一位实验物理学家，正在研究一个可以存在于三个能级的单个囚禁离子。你测量了发现该离子处于能级1和能级2的概率，每次测量都带有一定的实验不确定性。由于所有概率之和必须为一，这两次测量也决定了其处于能级3的概率。从这些概率出发，你想计算系统的热力学熵，这是对其无序程度的度量。你原始测量中的不确定性将通过统计力学的方程传播，最终导致你计算出的熵也存在不确定性。我们对部分缺乏完美知识，直接转化为对整个系统基本属性的可量化不确定性。

这就把我们带到了最宏大的联系：热力学熵与信息论熵之间的联系。事实上，它们是同一个概念。考虑一个装有气体颗粒的盒子。最初，一个隔板将它们全部限制在左半边。观察者知道这一点，所以可能的排列方式（微观状态）只有一种。“信息熵”为零。现在，我们移开隔板。颗粒扩散开来，充满了整个盒子。热力学熵增加了。从观察者的角度来看，他们失去了对颗粒的追踪；现在，大量排列中的任何一种都成为可能。信息熵——观察者的不确定性——也增加了完全相同的量。

如果一个乐于助人的“妖精”观察系统并报告每个颗粒的确切位置会怎样？对观察者来说，不确定性将坍缩回零。信息熵会减少。这是否违反了热力学第二定律？不。因为测量行为本身——获取和存储该信息——具有不可避免的物理代价，这个代价会使妖精或其环境的熵增加，其增加量至少与系统熵的减少量相等。信息是物理的。热力学定律在其最深层次上，是关于什么可以被知晓以及什么必须保持不确定的定律。

从你后院的无人机，到构成你身体的细胞，再到宇宙的量子之舞，故事都是一样的。不确定性不是一个值得悲叹的障碍。它是宇宙的一个基本属性，是演化的驱动力，是学习的资源，也是变化本身的源泉。在很大程度上，理解世界就是理解其不确定性。