
当一个问题呈现给我们的未知数多于独立信息时,会发生什么?我们就进入了欠定系统的奇妙领域,在这里,单一、唯一的答案被一个充满可能性的宇宙所取代。这种解的丰富性远非数学上的失败,反而是科学、工程和经济学中的一个共同特征,反映了现实世界中固有的复杂性和模糊性。于是,核心挑战不再是找到一个解,而是从无穷集合中选择最好或最有意义的解。本文将通过探索那些能让我们化模糊为洞见的指导原则来应对这一挑战。
第一部分“原理与机制”将深入探讨欠定系统的数学结构,为后续内容奠定基础。我们将运用几何直觉和秩-零度定理等代数概念来理解无穷解为何出现及其结构。该部分将介绍两种选择唯一解的强大哲学:寻求最“节能”答案的最小范数原理,以及偏爱最简单解释的稀疏性原理。随后,“应用与跨学科联系”部分将展示这些抽象原理如何应用于解决具体问题。我们将看到,选择正确的解如何催生了更快的核磁共振成像(MRI)扫描等技术,为金融资产定价提供了信息,并揭示了科学测量的局限性,从而将一个数学难题转变为一个强大的发现框架。
想象你正站在一片广阔平坦的沙漠中。你的一位在卫星上的朋友告诉你:“你距离绿洲正好5公里。”这单一的信息不足以告诉你绿洲在何处。它可能在你周围半径为5公里的圆圈上的任何地方。你只有一个方程(你的距离),但有两个未知数(绿洲的南北和东西坐标)。你有无穷多种可能性。现在,假设另一位在另一颗卫星上的朋友给了你另一条信息,不幸的是,这只是对第一条信息的另一种说法。你仍然被困在无穷的可能性中。简而言之,这就是欠定系统带来的令人愉快的困境。它是一个无法提供足够独立信息来锁定单一、唯一答案的系统。相反,它为我们提供了整个宇宙的有效解。
让我们从沙漠转向代数和几何的抽象世界。一个包含三个变量的线性方程,如 ,可以在三维空间中被看作一个平面。那么,一个由两个此类方程组成的系统,就对应于两个平面。该系统的解是同时位于两个平面上的所有点的集合——也就是它们的交集。
那么,当你在三维空间中让两个平面相交时会发生什么?想一想。如果这两个平面不平行,它们必然会相交于一条直线。一条直线包含无穷多个点。如果这两个平面恰好平行且不重合,它们永不相交,也就没有解。如果它们是同一个平面(只是伪装成两个不同的方程),它们的“交集”就是整个平面本身——同样,有无穷多个解。在任何情况下,两个平面都不会相交于一个单一、唯一的点。要在三维空间中锁定一个点,你至少需要三个平面相交,就像在二维平面中定义一个点至少需要两条不同的直线一样。
这个几何图像揭示了一个基本事实。一个变量()多于独立方程()的系统,无法锁定一个唯一的解。从代数上讲,这可以用秩-零度定理来解释。对于一个写成 的系统,其中 是一个 的系数矩阵,该定理指出,矩阵的秩(独立方程的数量)加上其零空间的维度,必须等于变量的数量 。零空间是所有满足 的向量 的集合。它们是产生零输出的“幽灵”解。
当我们方程少于变量时(), 的秩最多为 。这迫使零空间的维度至少为 ,即大于零。维度大于零的零空间包含无穷多个向量。现在,如果我们找到一个满足 的特解,我们称之为 ,我们可以将零空间中的任何向量 加到它上面,结果仍然是一个有效解:。因此,一个解的存在自动意味着一族解的存在,它们都位于一条直线、一个平面或一个更高维的等价结构——称为仿射子空间上。
让我们把这个概念具体化。考虑以下系统:
这是一个包含两个方程()和三个变量()的系统。我们可以看到 和 受到了约束,但我们在 上有一定的自由度。让我们称 为我们的“自由参数”,并将其设置为我们喜欢的任何值,比如 。那么我们立即得到 和 。完整的解集可以写成一个依赖于 的向量:
我们可以重写它来揭示其结构:
这是三维空间中一条直线的方程。向量 是一个特解(当 时得到),而向量 是一维零空间的一个基。 的任何倍数都可以加到 上而不改变结果。所有可能解的集合就是这条线,向两个方向无限延伸。
拥有无穷多的答案既是幸事也是诅咒。系统给了我们一个充满可能性的空间,但现在我们面临一个新问题:我们该选择哪一个?在科学和工程领域,这不是一个无足轻重的问题。解的选择往往反映了一个潜在的物理原理或一个期望的性质。我们需要一个额外的标准,一盏指路明灯,来引导我们在无穷的解海中航行,并挑选出那个最“有意义”的解。两个最强大和广泛使用的指导原则是最小范数原理和稀疏性原理。
一个非常自然且优雅的想法是选择在某种意义上“最小”的解。这通常受到物理上的“最小能量原理”的启发,即解向量的大小对应于我们希望最小化的某种成本或能量。衡量向量 “大小”的最常用方法是其标准欧几里得长度,或称-范数,定义为 。最小化这个范数等同于在解的直线(或平面)上找到离原点最近的点。
这里有一个美妙的几何洞见。从原点到一条直线或一个平面且长度最短的向量,必须与该直线或平面垂直(正交)。我们的解集是 ,其中 是来自零空间的任意向量。零空间定义了解的直线/平面的“方向”。因此,最小范数解必须与零空间中的每一个向量正交。
这导出了一个深刻的结论。 中的任何向量都可以被唯一地分解为两部分:一部分位于矩阵 的行空间(由其行向量张成的空间),另一部分位于其零空间。这两个空间是正交补。我们的最小范数解,由于必须与零空间正交,因此它必须是那个完全位于 的行空间内的解。它没有来自零空间的“幽灵”分量。
这个洞见为我们提供了一个直接找到这个特殊解的方法。最小范数解,通常表示为 ,由以下公式给出:
这个公式使用了所谓的 的Moore-Penrose伪逆,可能看起来令人生畏,但它只是一个寻找存在于 的行空间中的那个唯一解的机器。这种方法在控制理论、机器人学以及将模型拟合到数据等应用中非常强大,因为在这些应用中我们想要最平滑或最高效的解。
如果我们对“最佳”解的看法不是关于“小”,而是关于简单呢?想象你是一名侦探,试图解释一桩罪案。一个只涉及单个罪犯的理论比一个涉及十人复杂阴谋的理论更简单。这就是奥卡姆剃刀原理:倾向于与事实相符的最简单解释。
在许多现代问题中,从医学成像到机器学习,我们相信底层的信号或模型是稀疏的——意味着它的大多数分量都是零。例如,大脑扫描可能只显示少数局部区域的活动。神经活动的真实向量大部分是零。当我们的测量给出一个欠定系统时,我们希望恢复那个具有最多零元素的解。
直接计算非零元素的数量在计算上是困难的。因此,我们使用一个巧妙的替代方法:-范数,定义为 。在约束 下最小化 -范数的过程被称为基追踪(Basis Pursuit)。事实证明,这种方法具有惊人的倾向,能够产生具有许多零项的解。
让我们用一个简单的一方程、两变量系统来看看这两种方法的实际效果:。其解在 - 平面上形成一条直线。这条线上的哪一点是“最佳”的?
L2(最小范数)方法:如果我们寻求最小化 的解,我们就是在寻找直线 上离原点最近的点。解被发现是 。注意,两个分量都是非零的。-范数的作用是民主的,它将“负担”分散到所有分量上,以保持它们都很小。这是Tikhonov正则化的典型特征,它产生平滑、稠密的解。
L1(稀疏性)方法:如果我们寻求最小化 的解,几何形状就不同了。恒定 -范数的“圆”是位于原点的菱形。为了找到解,我们扩大这个菱形,直到它刚好接触到解线。由于菱形在坐标轴上有尖角,这第一次接触很可能发生在其中一个角上。对于我们的直线,最小 -范数在点 处达到,此时 恰好为零。这就是为什么LASSO和其他基于 的方法能产生稀疏结果的本质。它们偏爱那些尽可能多地将分量推向零的解。
所以,我们有两种截然不同的哲学来驾驭无穷解。最小-范数寻求一个均衡、平滑和“低能量”的解。最小-范数寻求一个稀疏、简单、“简约”的解。它们之间的选择不在于哪一个在数学上更优越,而在于我们相信我们正在寻找的解的本质是什么。它是一个平滑的场,还是一系列孤立的点?线性代数的美妙之处在于它为我们提供了精确的工具,来找到我们想要的任何一种解。
在我们的欠定系统原理之旅结束后,你可能会感到一丝好奇。我们有一个优美的数学结构,一个充满无穷解的空间,但这有什么用呢?一个有太多答案的情境,感觉更像是一个谜题,而不是一个解决方案。但正是在这种模糊性中,在这种选择的自由中,才蕴含着这个概念真正的力量与美。自然界、工程学,甚至我们的经济体系,都充满了未知数多于确定规则的情形。欠定系统不是数学的失败,而是对我们世界的一种诚实描述。
伟大的物理学家 Richard Feynman 曾说:“我玩的游戏非常有趣。它是在一件紧身衣里的想象力。”这件“紧身衣”就是描述我们所知事物的方程组——我们的测量,我们的观察。“想象力”则是我们如何从符合这件紧身衣的无穷可能性中进行选择。应用欠定系统的艺术与科学,就在于选择一个原则,一种哲学,来指导这个选择。让我们来探索一些这样的指导原则,看看它们将我们引向何方。
也许我们能应用的最直观的原则是效率原则。如果一个系统能以多种方式满足我们的约束,哪种方式是“最简单”的?对简单的一个优美定义是使用最少的努力。在向量的语言中,“努力”或“能量”可以用解向量的长度,即其欧几里得范数 来衡量。找到具有最小欧几里得范数的解,就像在一条直线或一个平面上找到离原点最近的点。它是最紧凑、最居中、“能量最低”的解。
对于任何相容的欠定系统 ,都存在一个比所有其他解都短的唯一解。这个“最小范数”解不仅仅是一个数学上的奇物;它通常对应于一个具有物理意义的状态。想象一根被固定成某种形状的柔性金属丝;它的默认位置通常是使其总势能最小化的位置。这个原则在一个曾经存在无穷可能性的地方,给了我们一个确定、唯一的答案。这是解决模糊性的一种极其直接而优美的方式。
但如果“最短”并非我们所指的“最简单”呢?如果我们的直觉对简单的理解指向了不同的方向呢?
考虑一种不同的简单性,这种简单性由哲学家奥卡姆的威廉(William of Ockham)所倡导:“如无必要,勿增实体。”用现代的话说,最简单的解释往往是最好的。对于一个向量解来说,这意味着什么呢?这可能意味着,底层的现象仅由少数几个重要因素引起,而不是由所有因素都贡献一点点。在这种观点下,最简单的解是零元素最多的解。这就是稀疏性原理。
我们如何从数学上寻找一个零元素最多的解呢?事实证明,最小化欧几里得范数(范数)会产生相反的效果——它倾向于将“能量”分散开来,给许多分量赋予小的非零值。我们需要一把不同的尺子。这把尺子就是 范数,定义为各分量绝对值之和,。
最小化 范数有点像魔法。它有一种不可思议的能力,能产生其中大多数分量恰好为零的解。这个被称为基追踪(basis pursuit)的思想,是过去二十年最重要的技术革命之一——压缩感知(compressed sensing)——背后的引擎。
想象一下进行一次CT扫描。目标是根据一系列X射线投影(一个更小的测量向量 )来重建人体详细的三维图像(一个具有数百万像素值的向量 )。这是一个大规模的欠定问题。如果我们要求最小 范数解,我们会得到一幅模糊、不清晰的图像。算法将其拥有的信息分散到所有像素上。但如果我们假设图像主要由大片均匀的组织(骨骼、肌肉、空气)组成,那么相邻像素之间的差异应该大部分为零。图像“在其梯度上是稀疏的”。通过要求机器找到满足测量条件且具有最小 范数的解,我们是在告诉它:“请为我找出能够产生这些数据的最清晰的图像。”结果惊人地清晰。正是这个原理使得MRI机器能够运行得更快,辐射剂量更低,因为它们需要更少的测量来构建高质量的图像。
在 (最小能量)和 (稀疏性)之间的选择,是关于我们正在寻找的信号基本性质的选择。但我们可以更加精细。在统计学和机器学习中,我们通常对未知数有先验信念。也许我们期望某些变量比其他变量更大,或者我们知道它们之间存在相关性。
我们可以将这种先验知识编码到一个定制的度量中。我们不是最小化简单的平方和 ,而是最小化一个加权和,比如 ,其中矩阵 包含了我们关于 各分量预期方差和协方差的知识。这与马氏距离(Mahalanobis distance)有关。找到最小化此量的解,等价于在给定我们先验统计模型的情况下找到“最可能”的解。这种强大的技术弥合了纯线性代数与统计推断的微妙世界之间的鸿沟,在从投资组合优化到天气预报的各个领域都有应用。
欠定系统的影响并不仅限于物理科学。考虑一下金融世界。资产定价基本定理指出,在一个没有套利(无风险利润)的市场中,必须存在一组能够为所有资产定价的“状态价格”。如果我们拥有的未来世界可能状态比我们交易的资产更多,这个市场就被称为不完备市场。
当我们建立方程来寻找这些状态价格时,我们得到了什么?一个欠定系统!。没有单一、独特的一组状态价格。相反,存在着一整族与已交易资产的观察价格相符的有效价格体系。
这对我们希望定价的一种新的、奇异的金融衍生品意味着什么?这意味着没有单一的“正确”价格。相反,存在一个可能存在的无套利价格的范围,一个对应于状态价格向量不同可能解的区间。欠定系统的模糊性直接转化为金融现实:一个新产品的买卖价差,部分反映了这种基本的不确定性。数学没有给出单一答案,因为市场本身没有提供足够的信息来这样做。
最后,让我们思考一下唯一确定系统和欠定系统之间那个引人入胜的灰色地带。想象一下,你正在进行一个实验来确定两个量,但你的两次测量几乎完全相同——例如,晶体X射线衍射图样中两个重叠的峰。在数学上,你的系统矩阵 的列向量几乎是线性相关的。该矩阵是可逆的,所以理论上存在一个唯一解。但这个矩阵是病态的。
一个病态系统表现得像一个欠定系统的病态表亲。它的条件数——衡量输入误差在输出中被放大的程度——变得巨大。任何真实实验中都不可避免的微小测量噪声,都可能导致计算出的解剧烈摆动,变得毫无意义。系统在告诉我们一些深刻的东西:尽管你有两个方程求解两个未知数,但你没有两份独立的信息。你的实验设计很差,无法区分你试图测量的两种效应。在这里,挑战不是从一个无穷集合中选择一个解,而是认识到你得到的那个唯一解是建立在沙滩上的。
从重建我们身体内部的图像到为金融工具定价,再到理解科学测量的极限,欠定系统无处不在。它们代表了一个基本真理:我们的数据,我们的测量,往往只是一个更复杂现实的影子。解的空间不是一个需要解决的问题,而是一片有待探索的景观。通过选择一个指导原则——最小能量、最大稀疏性、统计可能性——我们将自己关于世界的假设注入到数学中。通过这样做,我们化模糊为洞见,将无穷的可能性转化为一个单一而有力的故事。