非线性方程组

玻尔百科

核心要点

牛顿法通过在每次猜测时使用雅可比矩阵对系统进行迭代线性化，并求解得到的线性系统，来解非线性方程组。
该方法的有效性可能会因奇异雅可比矩阵或不良的初始猜测而受损，因此需要采用如回溯线搜索等全局化策略来确保收敛。
拟牛顿法（如布罗伊登法）通过近似雅可比矩阵提供了一种计算成本更低的替代方案，实现了超线性的收敛速率。
求解非线性系统是在力学、生物学和金融学等不同领域中寻找平衡态、最优构型和稳态解的基础。

引言

从行星轨道到市场动态，自然界和工程世界中的大多数现象都由非线性关系所支配。与它们更简单的线性对应物不同，这些系统由复杂的曲线函数描述。由此带来的核心挑战是找到一个平衡点或均衡状态——一个同时满足多个非线性条件的解。这类似于在一张地图上找到几条弯曲路径的精确交点，这项任务需要的工具远比简单的代数要复杂得多。

本文对用于探索和解决这些复杂系统的方法进行了全面探讨，揭示了构成现代计算科学与工程基石的强大算法的神秘面纱。通过两章的内容，您不仅将深入了解这些方法的工作原理，还将了解它们的应用领域。第一章“原理与机制”，深入探讨了牛顿法精妙的机制、其对雅可比矩阵的依赖，以及像拟牛顿法这样使其变得实用的巧妙改进。随后的“应用与跨学科联系”一章将带您游览各个科学学科，揭示这些数学工具如何被用来寻找机械结构中的平衡、模拟种群动态、分析金融网络，甚至设计更好的技术。

原理与机制

世界很少像一条直线那么简单。从行星的轨道到化学反应的平衡，自然法则由丰富而复杂的非线性关系编织而成。求解非线性方程组就像试图在一张藏宝图上找到几条弯曲小径交叉的特定隐藏位置。与线性代数那个整洁有序、路径笔直、交叉点可以轻松找到的世界不同，在这里我们必须更加巧妙。我们需要一种策略，一种能够在这弯曲的地形中导航并锁定宝藏的算法。这些策略中最强大的，是一个被称为牛顿法的优美思想。

近似的艺术：用切平面思考

让我们从一个简单的想法开始，这是所有科学中最深刻的思想之一：如果你对任何平滑曲线放大得足够近，它开始看起来像一条直线。如果你对任何平滑曲面放大，它开始看起来像一个平面。这是微积分的核心，也是驯服非线性系统的关键。

想象你只有一个单变量方程 $f(x) = 0$ 。你正在寻找函数 $f(x)$ 的图像与 x 轴相交的点。你做一个猜测 $x_0$ 。它很可能是错的，意味着 $f(x_0)$ 不为零。你该怎么办？在曲线上点 $(x_0, f(x_0))$ 处，你画出切线——即在该点最能近似曲线的直线。现在，你不再问复杂的曲线在哪里与轴相交，而是问一个简单得多的问题：这条简单的切线在哪里与轴相交？答案会给你一个新的、而且几乎总是更好的猜测 $x_1$ 。你重复这个过程：在 $x_1$ 处找到曲线上的点，画一条新的切线，找到它与轴相交的地方得到 $x_2$ ，依此类推。每一步都让你越来越接近真实的根。

现在，让我们进入更高维度。假设我们正在寻找平面上两条曲线的交点，比如一个圆和一条抛物线。这等价于找到一个点 $(x, y)$ ，它同时满足两个非线性方程：

\begin{cases} f_1(x, y) = x^2 + y^2 - R^2 = 0 \\ f_2(x, y) = y - ax^2 - b = 0 \end{cases}

我们可以将 $f_1(x,y)$ 和 $f_2(x,y)$ 想象成两个曲面。方程 $f_1=0$ 和 $f_2=0$ 代表了这些曲面切割零高度平面时形成的等高线（圆和抛物线）。我们正在寻找这两条等高线相交的点。

和之前一样，我们先做一个猜测 $(x_0, y_0)$ 。在平面上的这个点，我们可以用它们的切平面来近似我们复杂的曲面 $f_1$ 和 $f_2$ 。因此，我们将一个困难的问题——寻找两条复杂曲线的交点——替换为一个简单的问题：寻找两个简单切平面的交点。两个不平行的平面的交集是一条直线，找到这条直线的位置就能给我们下一个、更好的猜测 $(x_1, y_1)$ 。这就是牛顿法在多维空间中的几何精髓。我们通过一系列简单的线性问题来迭代地替换一个困难的非线性问题。

雅可比矩阵：多维指南针

我们如何用数学方式描述这些“切平面”？对于单变量函数，切线的斜率由导数给出。对于多变量的函数系统，导数的类似物是一个称为雅可比矩阵的矩阵。

对于我们的系统 $\mathbf{F}(\mathbf{x}) = \begin{pmatrix} f_1(\mathbf{x}) \\ f_2(\mathbf{x}) \end{pmatrix}$ ，其中 $\mathbf{x} = \begin{pmatrix} x \\ y \end{pmatrix}$ ，雅可比矩阵 $J(\mathbf{x})$ 是所有一阶偏导数的集合，整齐地排列在一个包中：

J(x, y) = \begin{pmatrix} \frac{\partial f_1}{\partial x} & \frac{\partial f_1}{\partial y} \\ \frac{\partial f_2}{\partial x} & \frac{\partial f_2}{\partial y} \end{pmatrix}

这个矩阵是我们的多维指南针。它告诉我们，当我们从点 $\mathbf{x}$ 向任何方向迈出一小步时，函数 $\mathbf{F}$ 的向量输出会如何变化。它包含了定义我们函数在该点处的切平面所需的所有信息。对于圆和抛物线的交点，雅可比矩阵可以很容易地求得：

J(x, y) = \begin{pmatrix} 2x & 2y \\ -2ax & 1 \end{pmatrix}

有了雅可比矩阵，我们就可以正式地陈述牛顿法。切平面近似只是一阶泰勒展开：

\mathbf{F}(\mathbf{x}_{k+1}) \approx \mathbf{F}(\mathbf{x}_k) + J(\mathbf{x}_k) (\mathbf{x}_{k+1} - \mathbf{x}_k)

我们正在寻找下一个点 $\mathbf{x}_{k+1}$ ，使得我们的近似值为零。因此，我们将左侧设为 $\mathbf{0}$ ，并求解步长 $\Delta \mathbf{x}_k = \mathbf{x}_{k+1} - \mathbf{x}_k$ 。这就得到了在牛顿法每次迭代中都必须求解的著名线性系统：

J(\mathbf{x}_k) \Delta \mathbf{x}_k = -\mathbf{F}(\mathbf{x}_k)

我们求解这个方程得到步长 $\Delta \mathbf{x}_k$ ，更新我们的猜测 $\mathbf{x}_{k+1} = \mathbf{x}_k + \Delta \mathbf{x}_k$ ，然后重复这个过程直到我们满意为止。

这个强大的机制可以应用于广泛的问题。我们可以通过将复杂凸轮轮廓和线性从动件的描述转换到共同的坐标系中，并应用牛顿法，来找到它们之间的接触点。更深刻的是，我们可以用它来寻找函数的最小值或最大值。一个函数 $f(x,y)$ 的临界点出现在其梯度为零的地方，即 $\nabla f = \mathbf{0}$ 。这本身就是一个非线性方程组，我们可以用牛顿法求解它，以找到任何复杂地貌的峰、谷和鞍点。

当指南针失灵：奇异性的危险

如果我们精美的机器坏了会发生什么？每个牛顿步骤的核心是求解线性系统 $J \Delta \mathbf{x} = -F$ 。线性代数告诉我们，只有当矩阵 $J$ 是可逆的，这个系统才有唯一解，这等同于说它的行列式不为零。如果 $\det(J) = 0$ ，雅可比矩阵就是奇异的。

这在几何上意味着什么？这意味着我们的切平面是平行的！如果它们平行且不重合，它们就永远不会相交，我们的方法也就无法提供步长。如果它们是同一个平面，那么步长有无限多个解，我们的方法不知道该选择哪个方向。无论哪种情况，指南针都会疯狂旋转，算法也就失败了。

这不仅仅是理论上的好奇心。我们可以轻易构造出发生这种情况的系统。考虑这个简单的系统：

\begin{cases} f_1(x, y) = xy = 0 \\ f_2(x, y) = x + y = 0 \end{cases}

雅可比矩阵是 $J(x,y) = \begin{pmatrix} y & x \\ 1 & 1 \end{pmatrix}$ ，其行列式是 $\det(J) = y - x$ 。注意一个有趣的现象：在直线 $y=x$ 上的任何地方，行列式都为零。如果我们的算法在迭代中落到这条线上的任何一点（原点除外），雅可比矩阵就会变得奇异，方法就会崩溃。这凸显了一个根本性的脆弱点：该方法的成功与否可能关键性地取决于迭代所走的路径。

驯服野兽：全局化与线搜索

对于一个足够接近解的初始猜测，牛顿法会以惊人的速度收敛（这被称为二次收敛）。但如果猜测很差，完整的牛顿步长 $\Delta \mathbf{x}$ 可能会非常大，将下一次猜测抛到很远的地方，导致迭代疯狂发散。这就像在浓雾中试图下山，你根据脚下看起来最陡峭的方向迈出一大步；你可能会安全着陆，也可能直接跳下悬崖。

为了使方法变得稳健，或称全局化，我们需要更加谨慎。我们需要确保我们迈出的每一步都确实在向解前进。在中探讨的绝妙想法是将求根问题 $F(\mathbf{x}) = \mathbf{0}$ 重新表述为一个最小化问题。我们定义一个评价函数（merit function），它只是衡量误差大小的一种度量。一个标准的选择是残差的平方和：

\phi(\mathbf{x}) = \frac{1}{2} \|F(\mathbf{x})\|_2^2

这个函数总是非负的，并且只有在我们寻求的解处才为零。我们现在的目标是找到 $\phi$ 的最小值。牛顿方向是一个极好的搜索方向候选，因为它是一个下降方向——它在 $\phi$ 的曲面上指向“下坡”。

然而，我们不是盲目地迈出完整的一步，而是引入一个步长 $\alpha_k$ 并更新为 $\mathbf{x}_{k+1} = \mathbf{x}_k + \alpha_k \Delta \mathbf{x}_k$ 。我们首先尝试完整的步长（ $\alpha_k=1$ ）。然后我们检查这一步是否在我们的评价函数上提供了“充分下降”。一个常见的标准是 Armijo 条件，它确保我们的步长不会小得可怜，同时也防止我们接受那些没有取得实际进展的步长。如果完整的步长过于激进而未能通过检查，我们就“回溯”——我们通过尝试 $\alpha_k=0.5$ ，然后是 $\alpha_k=0.25$ 等来减小步长，直到找到一个被接受的步长。这种回溯线搜索就像一个安全带，防止方法发散，并极大地扩展了其收敛范围。

思维的经济学：拟牛顿法思想

牛顿法，即使加上了全局化策略，还有一个最后的实际缺点：在每一步，我们都必须计算所有的偏导数来构成雅可比矩阵 $J$ ，然后求解一个完整的线性系统。对于大型复杂系统，这可能成本高得令人望而却步。这就提出了一个自然的问题：我们能否通过近似雅可比矩阵来解决问题？

这就是拟牛顿法背后的动机。回想一下一维情况。割线法是牛顿法的一个近亲，它避免了计算导数 $f'(x)$ 。取而代之的是，它用穿过最后两个点 $(x_k, f(x_k))$ 和 $(x_{k-1}, f(x_{k-1}))$ 的割线来近似切线。这样做成本更低，但代价是收敛速度稍慢。

在多维空间中，我们可以做同样的事情。我们维持一个雅可比矩阵的近似，称之为 $B_k$ 。在我们迈出一步 $s_k = x_{k+1} - x_k$ 并观察到函数产生的相应变化 $y_k = F(x_{k+1}) - F(x_k)$ 之后，我们应该用这个新信息来更新我们的近似。对我们的新近似 $B_{k+1}$ 施加的最自然条件是，它必须与我们刚刚采取的步骤相一致。它应该将步长向量映射到观察到的变化向量。这就引出了割线方程：

B_{k+1} s_k = y_k

布罗伊登法（Broyden's method）是最著名的拟牛顿法。它提供了一种巧妙且计算成本低廉的方式来更新 $B_k$ ，得到一个新矩阵 $B_{k+1}$ ，该矩阵满足割线方程，同时与 $B_k$ 相比变化尽可能小。我们得到了一个在每一步都避免了昂贵的雅可比矩阵计算的方法。

这种计算上的节俭要付出什么代价呢？收敛速度不再是二次的。对于一维割线法，收敛阶著名地是黄金比例， $p = \frac{1+\sqrt{5}}{2} \approx 1.618$ 。值得注意的是，作为其多维类似物的布罗伊登法，通常也能达到这种超线性的收敛速度。这比牛顿法的二次（ $p=2$ ）收敛慢，但远优于更简单方法的线性（ $p=1$ ）收敛。在计算的现实世界中，每一次计算都有成本，这种权衡常常能达到最佳平衡点，使得拟牛顿法成为解决各种现实世界非线性问题的主力军。

应用与跨学科联系

在上一章中，我们就像学习一种新型强大引擎——求解非线性方程组的方法——奥秘的机械师。我们摆弄雅可比矩阵，执行牛顿步骤，感受这套机制是如何工作的。但是，只有当你看到一个引擎投入实际应用，驱动着从小船到巨型机车的一切时，你才能真正理解它。现在，我们的任务是离开车间，去看看这个强大的引擎能做什么。在科学和工程的广阔领域中，这些方程组出现在哪里？它们又帮助我们揭示了哪些深刻的真理？

你将会看到，答案是无处不在。世界，以其美丽而错综复杂的形态，绝大多数是非线性的。从微风中抛出的小球划出的优美弧线，到天气模式的混沌之舞，简单的线性关系是例外，而不是常规。每当我们试图在任何足够复杂的系统中找到一种平衡状态、一个平衡点或一个稳定模式时，我们几乎总是会面对一个非线性方程组。我们的旅程将带领我们从机械结构的静态稳定性到生命种群的动态变化，从恒星的内部运作到我们金融系统的无形架构。在每一个新的地方，我们都将看到同样的基本数学结构浮现出来，这是物理和数学原理统一力量的美丽证明。

平衡原理：静止的自然

或许最直观的起点是平衡这个简单的概念。一个系统何时处于“静止”状态？在物理学中，我们有一个非常优雅的答案：当一个系统的势能 $U$ 处于最小值时，它处于稳定平衡状态。想象一个球在碗底静止下来。它找到了它能达到的最低点，一个作用在它上面的合力为零的地方。找到这个能量最低点不仅仅是一个定性的想法；它是一个精确的数学指令。要找到一个多变量函数——比如描述系统构型的坐标 $(\theta_1, \theta_2, \dots)$ ——的最小值，我们必须找到函数在各个方向上斜率都为零的点。也就是说，我们必须求解由势能梯度为零给出的方程组： $\nabla U = \mathbf{0}$ 。

考虑一个机械结构复杂的奇迹，一个双摆。想象两根杆，一根悬挂在天花板上，另一根悬挂在第一根杆的末端，它们的末端都有质量。现在，我们在关节处加入抗弯曲的扭转弹簧，并施加一些外部扭转力。这个装置会在哪里静止下来？为了找到它的静态平衡角 $(\theta_1, \theta_2)$ ，我们不需要 painstakingly 地逐一平衡所有的力和力矩。我们可以采取一个更宏大的视角：我们写下系统的总势能——质量的引力能、储存在弹簧中的弹性势能，以及来自外部力矩的势能。这给了我们一个函数 $U(\theta_1, \theta_2)$ 。平衡状态就是方程组 $\frac{\partial U}{\partial \theta_1} = 0$ 和 $\frac{\partial U}{\partial \theta_2} = 0$ 的解。我们得到的方程涉及角度的正弦和余弦，使它们变得优美而顽固地非线性。

这个“最小能量原理”是一条将力学与一个更广阔的领域——优化——联系起来的线索。通常，我们不只是分析一个系统，而是试图找到配置它的“最佳”方式。什么是最短路径？最强的设计？最有利可图的策略？这些都是优化问题。其中数量惊人的问题可以通过将它们转化为一个方程组来解决。例如，想象你需要在一个复杂的曲面上——比如说一个由方程 $g(x, y, z) = 0$ 定义的奇形怪状的山丘——找到离你所在原点最近的点。你试图最小化距离函数 $f(x, y, z) = x^2 + y^2 + z^2$ ，同时受到必须停留在曲面上的约束。巧妙的拉格朗日乘数法将这个寻找最优点的问题转化为求解一个关于坐标 $(x, y, z)$ 和一个辅助变量 $\lambda$ （乘数本身）的方程组。解是这样一个点，在该点距离函数的梯度与约束曲面的梯度完全对齐——这是一种几何平衡的条件，再次以非线性方程组的形式表达出来。

运动中的世界：离散化的艺术

到目前为止，我们一直在观察静止的系统。但宇宙是一个动态、演变的地方。变化的语言是微分方程的语言。那么，代数方程组在这个运动的世界中是如何发挥作用的呢？答案在于连接微积分的连续世界和计算机的有限世界的一座关键桥梁：离散化。计算机不能以无穷小的概念思考。要数值求解一个微分方程，我们必须将时间和空间分解成一系列小的、有限的步骤。而在每一步中，往往都会出现一个非线性方程组。

让我们探访数学生物学的世界。著名的 Lotka-Volterra 方程描述了捕食者和猎物种群的周期性兴衰。猎物种群的变化率取决于其当前数量和捕食它的捕食者数量，反之亦然。这是一个描述种群随时间流动的常微分方程(ODE)系统。要在计算机上模拟这个过程，我们无法计算每一瞬间的种群数量。相反，我们选择一个很小的时间步长 $h$ ，并制定一个规则，将当前时刻的种群 $(x_n, y_n)$ 与下一步的种群 $(x_{n+1}, y_{n+1})$ 联系起来。如果我们使用隐式方法（这通常是为了稳定性所必需的），那么下一步的状态是根据同一未来时刻的变化率来定义的。这种自引用的陈述产生了一个非线性代数方程组，仅仅为了让模拟前进一个时钟滴答，就必须求解这个方程组。为了描绘生态系统的整个历史，我们必须成千上万次地反复求解这样的系统。

同样的想法从时间延伸到空间。自然界中许多最重要的定律都以偏微分方程（PDE）的形式表达，支配着热流、流体动力学和量子力学等现象。为了求解这些方程，我们在空间域上铺设一个网格，就像一张坐标纸。然后，我们用有限差分替换导数，这些差分将一个网格点上的解值与其直接邻居的值联系起来。如果底层的偏微分方程是非线性的——就像描述化学反应和扩散的模型，或者像 Bratu 问题那样描述燃烧过程的方程——这个离散化过程会将单个优雅的偏微分方程转化为一个巨大的耦合非线性代数方程组。网格上的每个点都有一个方程！一个简单的一维问题可能会产生数百个方程。一个二维问题可以轻易地导致数万个方程，而三维模拟可能涉及数百万个同时成立的非线性方程。正是在处理这些庞大、结构化的系统时，前一章中数值方法的真正力量和必要性才变得显而易见。

相互关联之网：从星辰、细胞到市场

微分方程并非这些系统的唯一来源。有时，非线性源于系统连接的错综复杂、整体性的方式，其中任何一个部分的状态都同时取决于所有其他部分的状态。

让我们仰望星辰。在天体物理学中，为了理解光是如何穿过恒星大气或星云传播的，我们需要解决辐射转移问题。一个关键量，即 Chandrasekhar H-函数，描述了散射光的角分布。该函数的定义方程不是一个微分方程，而是一个非线性积分方程。函数 $H$ 在特定方向 $\mu$ 的值取决于 $H$ 在所有其他方向 $\mu'$ 上的积分。可以这样想：你通过一片雾朝一个方向看去的亮度，取决于从所有其他方向散射到你视线中的光。当我们为了数值求解而离散化这个积分时，我们再次得到一个方程组。但与有限差分法产生的稀疏系统（其中一个网格点只关心其直接邻居）不同，这里产生的雅可比矩阵是稠密的。每个未知数都与所有其他未知数直接相连。这是一个由全局而非局部相互连接的网络定义的系统。

这种密集互联网络的主题将我们带到了生命本身的核心。一个活细胞是一个熙熙攘攘的化学反应大都市，一个代谢网络，其中成千上万的代谢物通过酶相互转化。这些酶促反应的速率通常是非线性的，常由 Michaelis-Menten 饱和曲线描述。要找到这样一个网络的稳态——即每种代谢物的产生速度与消耗速度相等的状态——我们必须将每种代谢物的净变化率设为零。这产生了一个庞大的非线性方程组，描述了整个细胞工厂的精妙平衡。在这里，一个深刻的生物学见解从数学中浮现：这样的系统可以有多个解。这意味着同一个网络，在相同的酶和外部条件下，可以存在于几个不同的稳定稳态中。这种“双稳态”是细胞开关的分子基础，允许细胞响应一个瞬时信号而处于“开”或“关”的状态，构成了细胞层面决策和记忆的基础。

支配细胞的自引用和互联互通原则同样可以在人造系统中看到。考虑一个金融机构网络，其中每家银行都欠其他银行的钱。在一次冲击之后，系统能否“清算”？也就是说，每家银行实际上能偿还多少债务？一家银行的偿付能力取决于它从其债务人那里收到的付款。但它们的偿付能力又取决于从它们的债务人那里收到的付款，而这些债务人中可能包括最初的那家银行！这种负债的循环逻辑定义了一个不动点问题，这等价于求解一个关于“清算向量”——即每家银行实际支付的款项——的非线性方程组。这里的非线性特别尖锐：一家银行支付的款项是其所欠款项和其所拥有资产的最小值。这个 min 函数代表了破产的硬性限制，这是一个非光滑的特性，使得这些系统在分析上特别有趣和具有挑战性。找到这个系统的解可能意味着金融稳定与连锁崩溃之间的天壤之别。

从分析到设计：塑造我们的世界

在我们的整个旅程中，我们使用非线性方程组来分析世界本来的样子——寻找摆的平衡点，细胞的稳态，市场的稳定性。但是，理解的最终表现是创造。我们可以将整个过程颠倒过来，不仅将这些方法用于分析，还用于设计。

这把我们带到了工程领域。一位空气动力学家可能会从一个翼型形状开始，使用（非线性的）流体动力学方程来计算它产生的升力。但真正的工程问题往往是反过来的：“我需要一个 0.6 的升力系数和 45 的升阻比。我的翼型形状应该是什么样的？” 未知数不再是流体速度或压力，而是定义物体本身的参数，例如其弯度和厚度。我们可以将这个设计问题表述为一个方程组。一个方程可以陈述计算出的升力必须等于目标升力。第二个方程可以陈述计算出的升阻比必须等于目标比率。然后我们求解这个关于形状参数的系统。这就是计算设计与优化的精髓。我们告诉数学我们期望的结果，而它告诉我们实现它所需的物理形式。

从一个机械系统的自然平衡到一个飞机机翼的工程优化，我们看到了同样的故事在上演。当一个系统的状态由一个相互依赖的网络、一个平衡条件或对最优解的寻求所决定时，非线性方程组几乎肯定是我们需要的工具。它是描述复杂性与平衡的通用语言，证明了一个单一的数学思想如何能够照亮世界的运作方式，从微观到宏观，从自然到人造。