try ai
科普
编辑
分享
反馈
  • 最佳逼近问题

最佳逼近问题

SciencePedia玻尔百科
核心要点
  • 某个元素在子空间内的最佳逼近是其正交投影,这确保了逼近误差与该子空间垂直。
  • 这一几何原理通过从简单向量扩展到内积空间中的抽象函数,统一了不同领域的问题。
  • 范数的选择(例如,用于最小二乘的 L2L_2L2​ 范数与用于一致逼近的 L∞L_\inftyL∞​ 范数)从根本上改变了“最佳”的含义,从而导致了不同的方法论和解。

引言

我们如何为复杂事物找到唯一的“最佳”表示?无论是用一条简单的直线拟合离散的数据点,还是用一个恒定值来模拟一个动态信号,我们都在处理最佳逼近问题。本文旨在揭开这一基本概念的神秘面纱,它并非一系列互不相干的技术集合,而是一个统一、优美的几何原理,其应用范围从简单的三维空间延伸到无限维函数的抽象领域。它致力于解决如何将这一直观的几何思想与贯穿科学和工程领域的强大计算工具联系起来的挑战。

在接下来的章节中,您将踏上一段从直觉到应用的旅程。第一章​​“原理与机制”​​奠定了基础,确立了正交投影作为寻找“最近”或“最佳”拟合的关键概念,并通过内积将这一思想从向量扩展到函数。第二章​​“应用与跨学科联系”​​展示了这一原理的非凡力量,阐明了它在数据分析、信号处理、图像压缩以及解决大规模计算问题等不同领域中的核心作用。

原理与机制

某物是“最佳”拟合,这意味着什么?想象一下,你是一位工程师,试图用一个简单的恒定电压来模拟一个复杂、波动的信号。或者,你是一位数据科学家,凝视着一团数据点,试图画出一条最能捕捉其潜在趋势的直线。在这两种情况下,你都在与一个基本的数学问题作斗争:​​最佳逼近问题​​。这个概念表面上看起来很简单,但当我们层层揭开它时,将会发现一幅由几何直觉和分析力量构成的壮丽图景,它将从简单向量到无限维函数空间的抽象世界的一切都联系在一起。

“最近”的几何学

让我们从一个我们能轻易可视化的世界开始:我们熟悉的三维空间。假设空间中有一个点,我们称之为 v2v_2v2​,还有一条穿过原点的直线。直线上哪一点离 v2v_2v2​ 最近?你可能对此有很强的直觉。你会从点 v2v_2v2​ 向这条直线作一条垂线。垂足所在的位置,我们称之为 v^\hat{v}v^,就是最近的点。这个点 v^\hat{v}v^ 就是 v2v_2v2​ 在该直线上的​​正交投影​​。

我们逼近的“误差”是连接我们的逼近点 v^\hat{v}v^ 与原始点 v2v_2v2​ 的向量。这个向量是 e=v2−v^e = v_2 - \hat{v}e=v2​−v^。那么这个误差向量最重要的性质是什么?根据我们构造它的方式,它与直线本身是​​正交​​(垂直)的。

考虑一个具体的例子。假设在 R3\mathbb{R}^3R3 中我们有两个向量,v1=(1,2,2)v_1 = (1, 2, 2)v1​=(1,2,2) 和 v2=(1,1,0)v_2 = (1, 1, 0)v2​=(1,1,0)。我们想在由 v1v_1v1​ 张成的子空间中找到 v2v_2v2​ 的最佳逼近——也就是穿过原点和 v1v_1v1​ 的那条直线。最佳逼近 v^\hat{v}v^ 就是 v2v_2v2​ 在由 v1v_1v1​ 定义的直线上的投影。使用标准的投影公式,我们得到 v^=(13,23,23)\hat{v} = (\frac{1}{3}, \frac{2}{3}, \frac{2}{3})v^=(31​,32​,32​)。误差向量就是 e=v2−v^=(23,13,−23)e = v_2 - \hat{v} = (\frac{2}{3}, \frac{1}{3}, -\frac{2}{3})e=v2​−v^=(32​,31​,−32​)。现在,来验证一个非凡的事实:如果你计算误差向量 eee 和原始方向向量 v1v_1v1​ 的点积,你会得到零。它们是完全正交的。

这并非偶然。这个几何原理是问题的绝对核心:​​一个向量 vvv 在子空间 WWW 中的最佳逼近是它在 WWW 上的正交投影,并且产生的误差向量与 WWW 中的每一个向量都正交​​。这一个简单而优美的思想是我们解锁更广阔问题世界的钥匙。

从向量到函数:一次想象力的飞跃

现在,让我们来做一个大胆的尝试。如果我们不把一个函数,比如说 f(t)=exp⁡(t)f(t) = \exp(t)f(t)=exp(t),看作图上的一条曲线,而是看作一个向量,会怎么样?乍一看,这似乎很荒谬。R3\mathbb{R}^3R3 中的一个向量有三个分量。而一个函数在其定义域中的每一个点 ttt 都有一个值——有无穷多个值!所以,让我们把函数想象成一个无限维空间中的向量。

如果函数是向量,我们如何定义‘长度’和‘角度’这样的概念?具体来说,我们如何定义内积,即点积的推广?两个向量 vvv 和 www 的点积是它们对应分量乘积的和,即 ∑viwi\sum v_i w_i∑vi​wi​。对于函数 f(t)f(t)f(t) 和 g(t)g(t)g(t),“所有分量的和”就变成了一个积分。我们可以为一个区间(比如 [0,1][0, 1][0,1])上的函数定义一个自然的​​内积​​: ⟨f,g⟩=∫01f(t)g(t)dt\langle f, g \rangle = \int_0^1 f(t)g(t) dt⟨f,g⟩=∫01​f(t)g(t)dt 有了这个定义,两个函数之间“距离”的平方就变成 ∥f−g∥2=⟨f−g,f−g⟩=∫01(f(t)−g(t))2dt\| f - g \|^2 = \langle f-g, f-g \rangle = \int_0^1 (f(t) - g(t))^2 dt∥f−g∥2=⟨f−g,f−g⟩=∫01​(f(t)−g(t))2dt。这恰恰是​​最小二乘误差​​!

突然间,我们最初的简单问题有了新的含义。假设我们想在区间 [0,1][0,1][0,1] 上为信号 V(t)=exp⁡(t)V(t) = \exp(t)V(t)=exp(t) 找到最佳常数逼近 ccc。这不再仅仅是一个最小化积分的微积分问题。这是一个几何问题:我们将“向量” exp⁡(t)\exp(t)exp(t) 投影到由“向量” u(t)=1u(t)=1u(t)=1 张成的一维子空间上。

我们的几何原理立即告诉我们答案。最佳逼近 c⋅u(t)c \cdot u(t)c⋅u(t)就是那个投影。系数 ccc 由投影公式给出: c=⟨V,u⟩⟨u,u⟩=∫01exp⁡(t)⋅1 dt∫011⋅1 dtc = \frac{\langle V, u \rangle}{\langle u, u \rangle} = \frac{\int_0^1 \exp(t) \cdot 1 \, dt}{\int_0^1 1 \cdot 1 \, dt}c=⟨u,u⟩⟨V,u⟩​=∫01​1⋅1dt∫01​exp(t)⋅1dt​ 分子就是函数的积分,而分母是区间的长度。所以,最小二乘意义下的最佳常数逼近不过是函数在该区间上的​​平均值​​!一个曾经是常规的微积分练习,现在被揭示为一个普适几何原理的实例。这就是数学之美和统一性所在。在三维空间中寻找直线上最近点的同一个思想,也告诉我们逼近指数信号的最佳恒定电压是多少。

使用更复杂的工具进行逼近

为什么要止步于常数呢?我们可以用一套更复杂的工具来逼近一个函数,比如用线性多项式、二次多项式或任何其他函数族。用我们的新语言来说,这意味着我们不再是投影到一条直线上,而是投影到一个更大的子空间上。

例如,假设我们想在区间 [0,1][0,1][0,1] 上找到函数 p(t)=t2p(t) = t^2p(t)=t2 的最佳线性逼近 q(t)=at+bq(t) = at + bq(t)=at+b。所有线性多项式的集合构成一个二维子空间,由“基向量” u1(t)=1u_1(t) = 1u1​(t)=1 和 u2(t)=tu_2(t) = tu2​(t)=t 张成。

我们信赖的几何原理依然成立:误差向量 p(t)−q(t)p(t) - q(t)p(t)−q(t) 必须与线性多项式的整个子空间正交。仅仅与一个向量正交是不够的,它必须与子空间中的每一个向量都正交。幸运的是,我们只需要检查它与我们的基向量正交即可。这给了我们两个条件: ⟨p−q,u1⟩=∫01(t2−(at+b))⋅1 dt=0\langle p - q, u_1 \rangle = \int_0^1 (t^2 - (at+b)) \cdot 1 \, dt = 0⟨p−q,u1​⟩=∫01​(t2−(at+b))⋅1dt=0 ⟨p−q,u2⟩=∫01(t2−(at+b))⋅t dt=0\langle p - q, u_2 \rangle = \int_0^1 (t^2 - (at+b)) \cdot t \, dt = 0⟨p−q,u2​⟩=∫01​(t2−(at+b))⋅tdt=0 这两个方程,通常称为​​法方程​​ (normal equations),为我们提供了求解两个未知系数 aaa 和 bbb 的一个二元线性方程组。解出它们可以发现,最佳线性逼近是 q(t)=t−16q(t) = t - \frac{1}{6}q(t)=t−61​ 。同样的逻辑也适用于我们想要求解 exp⁡(x)\exp(x)exp(x) 的最佳二次逼近或在不同区间上求解 exp⁡(x)\exp(x)exp(x) 的最佳线性逼近。过程总是一样的:设置误差向量与你的逼近子空间的每个基向量正交,然后解出系数。微积分中复杂的计算,都是由一个简单而坚定的几何罗盘所指引。

“最小二乘”是唯一的“最佳”吗?

到目前为止,我们一直专门使用从内积导出的距离,即 L2L_2L2​ 范数,它导出了最小二乘逼近。这个范数很特别,因为它伴随着优美的正交几何。但它是衡量“最佳”的唯一方式吗?

让我们想象一个教学场景:将一个传感器放置在轨道上以监测一个目标。“成本”是传感器到目标的距离。我们可以用不同的方式定义这个成本。

  • ​​L2L_2L2​ 范数​​(欧几里得距离)是我们熟知的:Δx2+Δy2\sqrt{\Delta x^2 + \Delta y^2}Δx2+Δy2​。与原点保持恒定 L2L_2L2​ 距离的点构成一个圆。
  • ​​L1L_1L1​ 范数​​(“曼哈顿”距离)是 ∣Δx∣+∣Δy∣|\Delta x| + |\Delta y|∣Δx∣+∣Δy∣。这是你在城市网格中行进的距离。与原点保持恒定 L1L_1L1​ 距离的点构成一个菱形。
  • ​​L∞L_\inftyL∞​ 范数​​(切比雪夫距离)是 max⁡(∣Δx∣,∣Δy∣)\max(|\Delta x|, |\Delta y|)max(∣Δx∣,∣Δy∣)。与原点保持恒定 L∞L_\inftyL∞​ 距离的点构成一个正方形。

当我们试图通过最小化这些不同的成本函数来找到“最佳”传感器位置时,我们得到了不同的答案!对于这个问题中的 L2L_2L2​ 和 L1L_1L1​ 范数,存在一个唯一的最佳位置。但对于 L∞L_\inftyL∞​ 范数,我们发现一整段轨道都是同样“最佳”的。

这给我们上了一堂深刻的课。​​范数​​——即我们对距离的定义——的选择,从根本上改变了逼近问题的性质。最佳逼近的唯一性是 L2L_2L2​ 世界的一个特殊特征,是其严格几何结构的直接结果。其他范数也完全有效,但它们遵循不同的规则,并可能导致非唯一的解。

平衡误差的艺术

让我们更仔细地看看 L∞L_\inftyL∞​ 范数,它旨在最小化最大可能误差。这被称为​​一致逼近​​。在这里,指导原则不再是正交性,而是完全不同的东西。

考虑在区间 [−1,1][-1, 1][−1,1] 上用线性多项式 p(x)=ax+bp(x) = ax+bp(x)=ax+b 来逼近 f(x)=x2f(x) = x^2f(x)=x2。我们的目标是最小化 max⁡x∈[−1,1]∣x2−(ax+b)∣\max_{x \in [-1,1]} |x^2 - (ax+b)|maxx∈[−1,1]​∣x2−(ax+b)∣。最小二乘法会给出一个答案,但一致逼近给出的答案是另一个:p(x)=12p(x) = \frac{1}{2}p(x)=21​(即 a=0,b=1/2a=0, b=1/2a=0,b=1/2)。

为什么这是最佳的?让我们看看误差函数 E(x)=x2−12E(x) = x^2 - \frac{1}{2}E(x)=x2−21​。在 x=0x=0x=0 处,误差是 −12-\frac{1}{2}−21​。在 x=1x=1x=1 和 x=−1x=-1x=−1 处,误差是 1−12=+121-\frac{1}{2} = +\frac{1}{2}1−21​=+21​。误差在三个不同的点上达到了其最大可能的大小(12\frac{1}{2}21​),并且误差的符号交替出现:(+,−,+)(+, -, +)(+,−,+) 或 (−,+,−)(-, +, -)(−,+,−)。这并非巧合。这种现象被称为​​交错振荡​​ (equioscillation),是最佳一致逼近的标志,这一结果由优美的​​交错定理​​ (Alternation Theorem) 所形式化。这里的图景不再是投影,而是一个完美平衡的系统,其中一个地方的误差被压下去,结果只会在另一个地方以同样的大小弹起来。

最后一个关键问题:“最佳”是否总存在?

我们一直在讨论寻找最佳逼近,并假设它总是存在的。但它真的存在吗?让我们考虑在平面上逼近点 v=(2,3)v = (\sqrt{2}, \sqrt{3})v=(2​,3​),但我们的逼近点被限制在集合 S=Q2S = \mathbb{Q}^2S=Q2 中,即只包含有理数坐标的点的集合。

有理数在实数中是稠密的,这意味着我们可以找到任意接近 2\sqrt{2}2​ 和 3\sqrt{3}3​ 的有理数。这意味着我们可以在 SSS 中找到一个极其接近 vvv 的点。事实上,距离的下确界(最大下界)是零。我们可以任意地接近,但我们能达到零距离吗?不能。要使距离为零,我们的逼近点必须就是 vvv。但 vvv 的坐标是无理数,所以它不在我们的集合 SSS 中。下确界是零,但永远无法达到。在集合 SSS 中不存在“最佳”逼近。

这说明了为什么数学家们在所谓的​​完备空间​​(如希尔伯特空间,L2L^2L2 就是这样一个空间)中工作。这些空间保证了不会有我们刚才看到的那种“洞”。在一个完备的凸集设定中,正交投影的优美几何框架成立,并且我们能保证我们所寻求的最佳逼近确实存在。寻找“最佳”不仅仅是一个实用的工具,它也是一次深入我们所栖居的数学空间本身结构的旅程。

应用与跨学科联系

我们花了一些时间来发展内积、正交性和投影的数学机制。乍一看,这似乎只是在无限维空间中进行的一场相当抽象的游戏。但事实要壮观得多。这套机制并非某种深奥的纯数学,而是一把万能钥匙,它在众多科学和工程学科中解锁了深刻的见解和强大的技术。在子空间中寻找“最近”点——即投下一个影子——这个简单直观的想法,是整个定量科学中最富有成果的概念之一。让我们踏上旅程,看看这个想法在哪些地方施展了它的魔力。

伪造的艺术:函数逼近

你的电脑或计算器是如何生成 cos⁡(x)\cos(x)cos(x) 的值的?它当然没有记住所有可能的值!在那小小的芯片内部,它实际上只能进行简单的算术运算:加、减、乘、除。其他一切,从三角函数到对数,都必须由这些基本运算构建而成。它们必须被逼近。用于这种伪造的工具就是多项式。

这个游戏的目标是在给定区间上,找到一个简单的多项式,比如一条直线 p(x)=ax+bp(x) = ax+bp(x)=ax+b,使其行为尽可能地像一个更复杂的函数,比如 f(x)=x2f(x)=x^2f(x)=x2。“尽可能地像”是什么意思?这正是我们的内积空间发挥作用的地方!我们可以将两个函数之间的“不一致”或“误差”定义为在区间上积分的总平方差。这恰好是它们差值的范数的平方,即 ∥f−p∥2=∫(f(x)−p(x))2dx\|f-p\|^2 = \int (f(x)-p(x))^2 dx∥f−p∥2=∫(f(x)−p(x))2dx。寻找“最佳”逼近现在就变成了我们熟悉的问题:将函数 fff 投影到所有线性多项式构成的子空间上。解就是那个多项式 ppp,它使得误差向量 f−pf-pf−p 与整个线性多项式子空间正交。同样的原理也让我们能够找到对极其复杂的函数的最佳二次、三次或任意次多项式逼近,为我们提供了一种系统地创造高质量“伪造品”的方法。

当然,在现实世界中,我们通常没有一个函数的完美公式。取而代之的是,我们拥有一组来自实验的离散数据点——行星位置的测量值、股票随时间的价格,或患者对药物的反应。我们仍然希望找到一条最能拟合这些点的简单曲线。原理是完全相同的。我们现在处于一个有限维向量空间中,内积变成了一个和而不是积分。我们寻求最小化每个数据点处平方误差的总和。这就是著名的最小二乘法,它无非是将我们的数据点向量投影到由我们选择的模型函数(无论是多项式、指数函数还是其他函数)在测量位置求值后张成的子空间上。这种方法是数据分析的绝对主力,是任何实验科学家在他们的嘈杂数据中寻找趋势时做的第一件事。

但为什么要止步于多项式呢?大自然充满了振动、波和周期性现象。对于这些现象,用正弦和余弦来构建我们的逼近要自然得多。这就是傅里叶分析的基础。问题依然不变:将一个复杂的信号投影到由少数几个简单的正弦和余弦波张成的子空间上。这个投影的系数就是著名的傅里叶系数!有时,我们可能更关心某个区域的误差而不是其他区域。我们可以通过在内积积分中引入一个*权函数*来解决这个问题,⟨f,g⟩w=∫f(x)g(x)w(x)dx\langle f, g \rangle_w = \int f(x)g(x)w(x)dx⟨f,g⟩w​=∫f(x)g(x)w(x)dx。这就像告诉我们的逼近算法:“在这里要格外注意!” 这在信号处理和通信系统中至关重要,因为在这些系统中,滤除特定频段的噪声是首要任务。

最后,现实世界的设计常常带有约束条件。也许我们的逼近桥梁支座必须在某一点固定在地面上,p(c)=y0p(c)=y_0p(c)=y0​;或者一条轨迹必须有一个特定的初始速度,p′(0)=v0p'(0)=v_0p′(0)=v0​。这并不会破坏我们的框架,只是对其进行了细化。我们不再是投影到整个多项式子空间上,而是投影到满足我们约束条件的那些多项式的更小子集上。同样的正交几何原理仍然引导我们找到唯一的最佳约束逼近。

数据的精髓:将世界压缩成矩阵

现在让我们从函数转向另一种对象:矩阵。一个大矩阵可以表示一张图片、一个庞大的客户偏好数据库、一个社交网络中的连接,或者一个量子系统的状态。通常,这些庞大的数字数组是高度冗余的。一张图片有大片相似的颜色;一个电影推荐矩阵中有品味相似的用户群体。“大数据”时代的核心挑战就是穿透这种冗余,提取出本质信息。这是一个逼近问题。

解决这个问题的最强大工具是奇异值分解 (Singular Value Decomposition, SVD),我们可以把它看作是为矩阵空间找到最“自然”基的一种方式。SVD告诉我们,任何矩阵都可以写成一系列简单的秩一矩阵的和,每个矩阵都由一个表示其重要性的“奇异值”加权。著名的 Eckart-Young-Mirsky 定理随后给出了一个优美的结果:矩阵 MMM 的最佳秩 kkk 逼近(在最小化“距离” ∥M−Mk∥\|M - M_k\|∥M−Mk​∥ 的意义上)可以通过简单地从 SVD 的和中取出前 kkk 项并丢弃其余部分来找到!。这本质上是将矩阵 MMM 投影到所有秩 kkk 矩阵构成的(非线性)空间上。这一个思想是用于降维的主成分分析 (PCA)、用于理解文本的潜在语义分析以及用于图像和视频的压缩算法背后的引擎。我们正在剔除噪声,以揭示其下的真实形态。

有时,我们先验地知道我们的数据应该具有某种数学结构。例如,仅依赖于时间差的过程产生的数据通常会导致托普利茨 (Toeplitz) 矩阵,其对角线上的值是恒定的。如果我们的测量给出了一个混乱、无结构的矩阵,我们可能会问:与我们的数据*最接近的托普利茨矩阵*是什么?这是一个在尊重已知物理或统计规律的同时清理噪声的问题。答案,再一次,是投影。我们可以将我们混乱的数据矩阵投影到所有托普利茨矩阵构成的线性子空间上,以找到最佳的结构化拟合。

机器中的幽灵:求解方程与系统建模

也许最令人惊讶的应用是,最佳逼近原理不仅仅是描述一个静态对象,而是主动驱动一个动态过程。考虑求解线性方程组 Ax=bAx=bAx=b 的艰巨任务,其中 AAA 可能是一个包含数百万或数十亿个条目的矩阵,它源于天气模式、流体动力学或结构力学的模拟。直接求解在计算上是不可能的。

取而代之的是,我们使用像广义最小残差法 (GMRES) 这样的迭代方法,这些方法从一个猜测开始,并逐步改进它。这里隐藏着一种美:在每一步,GMRES 算法都在秘密地解决一个微小的最佳逼近问题!该算法构造一个残差序列,每个新的残差 rkr_krk​ 都是通过将多项式 pk(A)p_k(A)pk​(A) 应用于初始残差 r0r_0r0​ 而得到的。GMRES 的天才之处在于,它能找到给定阶数的最佳多项式 pkp_kpk​(在约束条件 pk(0)=1p_k(0)=1pk​(0)=1 下),以最小化所得残差的范数 ∥pk(A)r0∥\|p_k(A)r_0\|∥pk​(A)r0​∥。这变成了一个极其优美的数学思想:该算法实际上是在试图找到一个在矩阵 AAA 的谱上最佳逼近函数 f(z)=1/zf(z)=1/zf(z)=1/z 的多项式!。我们能让一个多项式在矩阵特征值附近“扼杀”函数 1/z1/z1/z 的速度越快,算法收敛的速度就越快。

用更简单的动力学来逼近复杂的动力学这一主题是现代控制理论的核心。想象一下为一架波音747客机或一个庞大的化工厂设计控制器。真实的动力学由数千个变量描述。控制器不可能处理那种复杂性。我们需要一个*降阶模型。目标是找到一个简单得多的系统,其输入-输出行为尽可能接近完整的复杂系统。实现这一目标的最强大方法之一是通过最优汉克尔 (Hankel) 范数逼近。这涉及到用一个(可能是无限维的)汉克尔算子来表示系统的动力学,并找到它的最佳低秩逼近。Adamjan-Arov-Krein (AAK) 理论提供了一个惊人而完整的答案:最小可能误差恰好*等于你丢弃的第一个算子的奇异值 σr+1\sigma_{r+1}σr+1​。再一次,投影到简单性的子空间上提供了最优解。

机会的形态:量化随机性

我们的最后一段旅程将进入概率论和统计学的领域。一个基本任务是比较概率分布。我们经济模型中的财富分布是否接近现实世界的分布?我们的机器学习生成器的输出在统计上是否与训练数据相似?

一个强大的工具是瓦瑟斯坦 (Wasserstein) 距离,它直观地衡量了将一个分布转换为另一个分布所需的最小“功”。对于实线上的分布,一个奇迹发生了:2-瓦瑟斯坦距离的平方可以计算为两个分布的*分位数函数*之间的简单 L2L^2L2 距离:W22(μ,ν)=∫01(Fμ−1(q)−Fν−1(q))2dqW_2^2(\mu, \nu) = \int_0^1 (F_\mu^{-1}(q) - F_\nu^{-1}(q))^2 dqW22​(μ,ν)=∫01​(Fμ−1​(q)−Fν−1​(q))2dq。突然之间,一个概率论中的问题被转化为了一个函数空间中的最佳逼近问题!例如,如果我们想找到逼近标准正态分布的最佳两点离散分布,我们就是在求解使该积分最小化的点的位置。这个领域,被称为“最优量化”,对于数据压缩和机器学习的理论基础至关重要。

从拟合曲线和分析数据,到压缩图像、求解庞大方程组、控制复杂机器,以及理解随机性的本质形态,贯穿所有这些的线索,就是通过正交投影寻找最佳逼近这个简单、深刻的几何思想。影子可能不是物体本身,但它常常揭示了我们真正需要知道的一切。