最佳逼近

玻尔百科

定义

最佳逼近是一个基于正交性原理的数学概念，要求对象与其近似值之间的误差垂直于近似子空间。该理论属于线性代数和信号处理等领域，通过选择不同的范数来确定最佳解的定义及其唯一性。在数据压缩等实际应用中，奇异值分解（SVD）被用于提供矩阵的理论最优低秩逼近。

核心要点

最佳逼近原理由正交性定义，即目标与其逼近之间的误差必须垂直于逼近子空间。
范数的选择（例如， $L_2$ 用于最小二乘， $L_\infty$ 用于极小化极大）从根本上改变了“最佳”的定义，并影响解的唯一性和计算成本。
在线性代数中，奇异值分解 (SVD) 为矩阵提供了理论上最优的低秩逼近，这是现代数据压缩的基石。
最佳逼近作为一个统一的概念，将量子力学、信号处理和控制理论等不同领域的问题构建为几何投影问题。

引言

在几乎所有研究领域，我们都面临一个共同的挑战：现实极其复杂，而我们的模型必须足够简单才能使用。我们如何在不失其本质特征的情况下，用一个更易于处理的替代品来取代一个复杂的函数、一个充满噪声的数据集或一个庞大的矩阵？这引出了一个关键问题：什么样的逼近才是“最佳”的？最佳逼近理论提供了一个强大而优雅的答案，它建立了一个通用的几何框架，用于在给定约束条件下寻找一个对象的最优表示。本文揭示了这一基本原理，展示了一个单一思想如何将抽象数学与科学技术中的实际问题联系起来。第一章“原理与机制”将奠定理论基础，介绍正交性的核心概念，并探讨不同的误差度量方式如何导向不同类型的“最佳”解。随后，“应用与跨学科联系”将展示该理论惊人的应用广度，说明它如何被用于压缩数字图像、在噪声数据中寻找信号，甚至描述量子力学的定律。

原理与机制

想象一下，你正站在一片广阔的平地上，头顶上空有一只鸟在盘旋。地面上正对着鸟下方的点在哪里？你会本能地丢下一颗石子，看它落在何处。石子从鸟到地面的下落轨迹是最短的路径。简而言之，它与地面垂直。这个简单直观的想法——从一个点到平面的最短距离涉及一条垂线——正是我们所说的“最佳逼近”的核心。这是一个具有深远美感和力量的概念，其应用远远超出了简单的几何学，延伸到函数、数据乃至物理定律的抽象世界。

正交性的力量

让我们将直觉形式化。地面是一个平面，即一个“子空间”。鸟是该子空间外的一个点。地面上离鸟最近的点是它的正交投影。其关键特征在于，“误差”——连接鸟与其在地面上投影的线段——与你能在地面上画出的每一条可能的线都垂直，即正交。如果不是这样，你总可以将地面上的点稍微移动一下，离鸟更近一点，那么它就不再是“最佳”逼近了。

这个正交性原理是万能钥匙。但我们如何将其应用于更复杂的问题，比如用一个更简单的函数来逼近一个复杂的函数？例如，我们如何用一条直线来逼近 $f(x) = x^2$ 的优美曲线？或者如何仅用一个常数值来逼近函数 $h(x) = \sqrt{x}$ ？

为此，我们需要一种方法来讨论函数间的“垂直”。我们需要将用于几何向量的点积概念推广到函数世界。这种推广称为内积。对于在某个区间（比如从 0 到 1）上定义的两个函数 $f(x)$ 和 $g(x)$ ，一个非常常见的内积由以下积分定义：

\langle f, g \rangle = \int_0^1 f(x)g(x) \, dx

这可能看起来有些抽象，但想法很简单。我们不是将对应的分量相乘再相加（像点积那样），而是在每个点 $x$ 上将函数值相乘，然后用积分“将它们全部加起来”。有了这个工具，我们现在可以说两个函数 $f$ 和 $g$ 是“正交的”，如果它们的内积为零： $\langle f, g \rangle = 0$ 。函数的“长度”或范数变为 $\|f\| = \sqrt{\langle f, f \rangle} = \sqrt{\int_0^1 f(x)^2 \, dx}$ 。最小化两个函数之间的距离 $\|f - g\|$ 现在等同于最小化这个误差平方的积分，因此得名“最小二乘”逼近。

现在，让我们回到用常数函数 $g(x)=c$ 逼近 $h(x)=\sqrt{x}$ 的问题。我们正在寻找最佳的常数 $c$ 。所有常数函数的空间是我们的“子空间”（一条简单的一维直线）。根据正交性原理，误差 $e(x) = \sqrt{x} - c$ 必须与我们的整个子空间正交。由于该子空间由单个函数 $u(x)=1$ 张成，这仅意味着误差必须与 $u(x)=1$ 正交。

\langle \sqrt{x} - c, 1 \rangle = 0 \implies \int_0^1 (\sqrt{x} - c)(1) \, dx = 0

解这个简单的方程得到 $c = \int_0^1 \sqrt{x} \, dx = \frac{2}{3}$ 。这是一个优美的结果！在这种“最小二乘”意义下，一个函数的最佳常数逼近就是它在该区间上的平均值。你已将丰富、弯曲的函数 $\sqrt{x}$ 投影到了常数空间上，而它的投影就是其平均值。

当我们想用一个更复杂的子空间，比如所有线性函数 $p(x) = a_0 + a_1x$ 的空间，来逼近像 $f(x)=x^2$ 这样的函数时，原理保持不变。误差 $x^2 - (a_0 + a_1x)$ 必须与线性子空间中的每个函数都正交。由于该子空间由基函数 $\{1, x\}$ 张成，我们只需让误差分别与每个基函数正交即可：

\langle x^2 - (a_0 + a_1x), 1 \rangle = 0

\langle x^2 - (a_0 + a_1x), x \rangle = 0

这些被称为正规方程组。它们为我们提供了一个关于两个未知系数 $a_0$ 和 $a_1$ 的二元线性方程组。解出它们即可得到唯一的最佳线性逼近。对于在 $[0,1]$ 上的 $f(x)=x^2$ ，这个最佳线性逼近结果是直线 $p^*(x) = x - \frac{1}{6}$ 。这个正交性条件是在内积空间中任何最佳逼近的通用要求，无论你为子空间选择何种基。

品味问题：哪种“最佳”是最好的？

到目前为止，我们一直使用一种特定的距离度量方式，即源于积分内积的 $L_2$ 范数。这个范数非常出色，因为它创造了一个“严格凸”的空间；它的“单位球”像篮球一样完全是圆的，没有平坦的部分或棱角。这个几何性质保证了对于任何函数，在给定的（闭）子空间中，总存在一个且仅一个最佳逼近。

但是，最小化平均平方误差总是我们想要的吗？如果我们正在设计一个机器零件，而我们最关心的是最坏情况下的误差呢？我们不希望零件在其最薄弱的点失效，即使误差在其他地方都很小。在这种情况下，我们会希望最小化最大绝对误差。这产生了另一种度量距离的方式，即 $L_\infty$ 范数（或一致范数）：

\|f - g\|_\infty = \sup_{x} |f(x) - g(x)|

这完全改变了游戏规则。 $L_\infty$ 空间中的“单位球”根本不是一个球体，而是一个超立方体。它有平坦的面和尖锐的角。由于这些平坦部分，一个函数可能存在多个，甚至无限多个最佳逼近！例如，当用偶函数逼近在 $[-1, 1]$ 上的奇函数 $f(t)=4t$ 时，不仅零函数是一个最佳逼近，而且一系列帐篷形状的函数也能达到相同的最小最坏情况误差。我们在 $L_2$ 中认为理所当然的唯一性，在这里不再有保证。

范数的选择不仅仅是数学上的好奇心；它可能由问题的物理性质决定。在固体力学和热传导等领域，问题通常通过最小化一个称为“能量”的量来描述。这自然地定义了一个能量范数。对于一根振动的弦或一块受热的板，大自然的解——即实际的物理状态——就是使这个能量最小化的那一个。值得注意的是，用于解决这些问题的数学技巧，即 Galerkin 方法，会自动地在这个特定的能量范数中找到最佳逼近。Galerkin 正交性条件 $a(u - u_h, v_h) = 0$ 是我们核心原理的重述，其中 $a(\cdot, \cdot)$ 是能量内积。这导出了一个优美的、类似勾股定理的能量范数恒等式：

\|u - w_h\|_a^2 = \|u - u_h\|_a^2 + \|u_h - w_h\|_a^2

这个方程因对称性和 Galerkin 正交性而成立，它完美清晰地表明，当逼近为 $u_h$ 时，误差 $\|u - u_h\|_a$ 被最小化。在一种范数下的最佳逼近通常与在另一种范数下的不同。一个具体的计算表明，对于函数 $u(x)=x(1-x)$ ，使用分段线性函数的最佳逼近，会因我们是用 $L_2$ 范数还是能量 ( $H^1$ ) 范数来衡量“最佳”而有所不同。“最佳”答案完全取决于你提出的问题。

从理论到现实：寻找并保证最佳

现在来看实际问题。我们总能找到最佳逼近吗？它是唯一的吗？投影定理提供了理论基石。在一个完备的内积空间（希尔伯特空间）中，对于任何点和任何闭子空间，都保证存在唯一的最佳逼近。幸运的是，我们在大多数计算工作中使用的有限维子空间，比如某个次数以下的多项式空间，总是闭的。

但找到这个逼近是另一回事。 $L_2$ 范数的美妙之处在于，正规方程组为我们提供了一个直接的线性代数系统来求解。对于一个 $n$ 次多项式，这通常是一个 $(n+1) \times (n+1)$ 的系统。我们可以在与 $n^3$ 成比例的步数内直接求解它。

寻找 $L_\infty$ （极小化极大）逼近要棘手得多。没有简单的方程组可解。相反，像 Remez 算法这样的算法必须迭代地“搜寻”解，不断调整估计，直到误差在特定数量的点上达到其最大值的平衡状态。这个过程更复杂，其成本不仅取决于次数 $n$ ，还取决于所需的精度。范数的选择对计算成本有深远的影响。

最后，当问题变得极其庞大——比如分析一个来自互联网公司用户数据的、拥有数十亿条目的矩阵——以至于连“直接”的 $L_2$ 计算都慢得无法实现时，该怎么办？Eckart-Young-Mirsky 定理告诉我们，一个矩阵的绝对最佳秩- $k$ 逼近，可以通过计算其奇异值分解 (SVD) 并进行截断来找到。这是理论上的黄金标准。但计算完整的 SVD 是数值计算中最昂贵的任务之一。

这正是现代逼近精神的闪光之处。SVD 的随机算法 (rSVD) 采用了一条聪明的捷径。它们不是处理整个庞大的矩阵，而是利用随机性来获取其一个小的、智能的“速写”。这个速写是一个小得多的矩阵，它有很高的概率捕捉到原始矩阵的基本作用。然后我们可以对这个微小的速写执行昂贵的 SVD，以获得一个低秩逼近。它是最优的吗？不是。但该理论的目标是证明，它可被证明地接近最优解，且概率很高，同时计算速度要快上几个数量级。在这里我们看到了终极的工程权衡：为了在速度上获得巨大提升，牺牲微小但可控的最优性。这就是 21 世纪逼近的艺术与科学——找到一个不仅在理论上是最佳的，而且在实践中也是最佳的答案。

应用与跨学科联系

我们花了一些时间探索最佳逼近的优雅几何学——即寻找一个向量在子空间上的“投影”，其中连接向量与其投影的线段与该子空间本身完全垂直。正如我们所见，这个正交性原理保证了该投影是子空间中唯一的最近点。这似乎是一个巧妙的数学技巧，一种聪明的几何学方法。但惊人的事实是，这一个简单的思想回响在几乎所有科学和工程的分支中。它是一把万能钥匙，解锁了种类繁多的问题，从数字图像的像素化世界到量子力学模糊的概率领域。现在，让我们踏上一段旅程，看看这个“最佳猜测”的概念能带我们走多远。

数字画布：压缩现实

在我们的现代世界，我们被数据所包围。你屏幕上的一幅图像、一段音乐或一段视频流，其核心都是一个庞大的数字矩阵。例如，一张高分辨率的彩色照片可以轻易包含数百万个值，代表每个像素的红、绿、蓝亮度。传输或存储这个完整的矩阵通常不切实际。我们需要一种方法来捕捉其精髓，而无需保留每一个数字。我们如何创建一个尺寸小得多但“足够好”的图像版本？

这是一个最佳逼近问题。奇异值分解 (SVD) 提供了一个极其有效的工具。它告诉我们，任何矩阵——任何图像——都可以写成一系列简单的“秩一”矩阵之和。你可以将这些秩一矩阵想象成图像的基本笔Stroke，每一个都贡献一个基本模式。更重要的是，SVD 根据重要性顺序排列这些笔触，这个层级由称为奇异值的数字决定。与最大奇异值相关的第一项捕捉了图像最主要的特征；第二项添加了次要的特征，依此类推。

我们图像的最佳秩- $k$ 逼近，就是简单地保留前 $k$ 个最重要的笔触并丢弃其余的。神奇之处在于，对于大多数自然图像，奇异值下降得非常快。通常，少数几项就足以创建出一幅在视觉上与原始图像无法区分的图像，即使存储它可能只需要一小部分数据。这是许多数据压缩技术背后的基本原理。我们实际上是将高维、复杂的原始图像投影到一个由其最重要特征张成的、维度低得多的子空间上。而且该理论不仅告诉我们这样做有效；它还提供了对成本的精确衡量。我们逼近的误差——我们引入了多少“模糊性”——与我们选择丢弃的奇异值的大小直接相关。

实验者的困境：在噪声中寻找信号

科学很少像教科书那样为我们提供干净、完美的数据。当电气工程师测量给定电流下电阻器的电压时，这些点绝不会像欧姆定律（ $V=IR$ ）所预示的那样完美地落在一条直线上。测量设备有噪声，实验有波动。我们得到的是一团似乎暗示着某种趋势的数据点。那么，“真实”的电阻 $R$ 是什么？

著名的“最小二乘法”就是答案，它无非是我们最佳逼近原理的伪装。想象一下，我们的 $n$ 次电压测量构成了一个 $n$ 维空间中向量 $\mathbf{v}$ 的一个分量。我们的模型 $V=IR$ 将可能的“完美”结果限制在该空间中的一条直线上——由电流向量 $\mathbf{i}$ 定义的直线。充满噪声的数据向量 $\mathbf{v}$ 不会在这条线上。电阻 $R$ 的最佳估计值，是那个在直线上定义了一个点（ $R\mathbf{i}$ ），且该点离我们的数据向量 $\mathbf{v}$ 最近的值。这正是数据向量在模型定义的直线上的正交投影。从这个几何图像中得出的简单公式，与科学家和数据分析师每天用来拟合噪声数据的公式完全相同。

这个思想远远超出了简单的直线。在材料科学中，人们可能会用一个矩阵来模拟增强复合材料的刚度。同样，我们可以利用最佳逼近原理找到一个更简单的秩一矩阵，它捕捉了材料最重要的单一方向刚度，从而提供一个计算上廉价且富有洞察力的物理模型。在所有这些情况下，我们都是将复杂、混乱的测量现实投影到一个由我们的科学理论定义的、简化的理想子空间上。这个投影为我们提供了根据数据得出的理论的最佳版本。

无穷领域：从向量到函数

现在，让我们进行一次想象力的飞跃。如果我们的“向量”不是只有三个或一百万个分量，而是有无穷多个分量呢？这就是函数的世界。像 $f(x) = \exp(x)$ 这样的函数可以被看作是无穷维空间中的一个点，其“坐标”是它在每一个点 $x$ 上的值。我们还能谈论投影和最佳逼近吗？

当然可以。我们用来定义向量正交性的内积，可以通过积分推广到函数。在一个由更简单函数组成的子空间（比如所有线性多项式 $p(x) = a+bx$ 的空间）中，一个复杂函数的最佳逼近，是通过完全相同的原理找到的：将复杂函数投影到那个子空间上。这构成了逼近论的基础，我们用多项式或三角级数（如傅里叶级数）等易于处理的函数来逼近令人困惑的函数。

有时，这种投影会揭示出一种令人惊讶且优美的结构。考虑在区间 $[-1, 1]$ 上仅使用偶函数（即满足 $g(-t) = g(t)$ 的函数）来逼近函数 $f(t) = \exp(t)$ 。所有偶函数的空间是所有函数这个更大空间的一个子空间。 $\exp(t)$ 在这个子空间上的投影是什么？答案异常简单。任何函数都可以唯一地分解为一个偶部和一个奇部： $f(t) = f_{\text{even}}(t) + f_{\text{odd}}(t)$ 。事实证明，偶部和奇部是相互正交的！因此， $f(t)$ 在偶子空间上的投影就是它的偶部，对于 $\exp(t)$ 来说，就是双曲余弦 $\cosh(t) = (\exp(t) + \exp(-t))/2$ 。令人生畏的投影理论机器，优雅地简化为简单的对称化操作。

一条共同的主线：统一各个领域

这单一的几何概念如同一条强有力的主线，将不同领域的思想编织在一起。

量子力学： 在量子世界中，一个粒子的状态由一个“波函数”描述，它是无穷维希尔伯特空间中的一个向量。对于现实世界中的原子和分子，基础的薛定谔方程通常无法精确求解。量子化学的一个基石是将真实的、复杂的波函数逼近为一些已知的、更简单的解的组合，例如简单的“箱中粒子”的波函数。寻找最佳逼近就相当于将真实状态投影到由这些更简单的基函数张成的子空间上。给出基态最佳能量估计的组合系数，就是通过计算这些投影得到的。

概率与金融： 考虑到我们今天拥有的所有信息，对明天股价的最佳预测是什么？这个预测和滤波的问题，从计量经济学到信号处理等领域都是核心问题。用概率论的语言来说，对于未来随机结果的“最佳猜测”，在给定当前知识的情况下，被称为条件期望。它最小化了预测的均方误差。令人惊讶的是，在随机变量的希尔伯特空间中，条件期望正是一个正交投影。估计未来就是将一个未来的随机变量投影到代表所有今日可用信息的子空间上。

控制理论： 一位为飞机设计飞行控制器的工程师，可能有一个关于系统应如何响应的“理想”数学模型。然而，这种理想响应可能是非因果的——它可能需要对事件发生前做出反应，这在物理上是不可能的。工程师的任务是设计一个现实世界中的、因果的控制器，以尽可能地模仿这种理想行为。这被构建为在所有稳定的、物理上可实现的系统空间内，寻找对理想（但不可实现）系统的最佳逼近。该理论不仅提供了最优设计，还告诉我们可能的最小误差。这个值代表了一个基本的性能极限，一个由因果律设定的硬边界，任何巧妙的工程设计都无法逾越。

从拍摄数码照片的平凡行为到预测量子态的深奥挑战，最佳逼近原理证明了几何直觉的力量。它告诉我们，在一个极其复杂的世界里，我们能做的最好的事——而且这已经是一个非常出色的“最好”——往往是在一个更简单、更易于处理的现实中，找到真理的投影。