首页迭代线性求解器：从核心原理到现代应用

迭代线性求解器：从核心原理到现代应用

玻尔百科

定义

迭代线性求解器：从核心原理到现代应用是数值线性代数领域中的一个重要计算框架，其核心原理是通过逐步优化的方式为大型稀疏线性系统提供近似解，从而避免了直接求逆的高昂计算成本。该技术主要依赖于共轭梯度法和 GMRES 等 Krylov 子空间方法，并结合预处理技术来显著提升求解效率。在现代应用中，这些迭代方法已成为处理特征值问题的移位迭代法以及求解非线性方程的 Newton-Krylov 法等复杂算法的关键组成部分。

核心要点

迭代求解器通过逐步精确化的方式逼近大型稀疏线性系统（ $Ax=b$ ）的解，从而避免了直接求逆所带来的高昂计算成本。
像共轭梯度法（CG）和广义最小残差法（GMRES）这样的Krylov子空间方法，通过利用与系统矩阵交互的历史信息来构建最优解，从而实现更快的收敛速度。
预处理是一种强大的技术，它将一个困难的、病态的问题转化为一个更易于求解的问题，从而显著提升求解器的性能。
除了求解单个系统，迭代方法还是更复杂算法中的关键组成部分，例如用于特征值问题的移位-反演法和用于非线性方程组的Newton-Krylov方法。

引言

从模拟构造板块的应力到计算国家电网的电压，科学与工程中的许多复杂问题都可以用庞大的线性方程组来描述。当这些系统涉及数百万甚至数十亿个变量时，传统的求解方法（如计算矩阵的逆）由于内存限制和巨大的计算量而变得不切实际。这在我们对世界的数学模型与我们从中提取实际预测的能力之间造成了巨大的鸿沟。

本文将深入探讨迭代线性求解器这一优雅而强大的技术，正是它弥合了这一鸿沟。这些方法并非试图进行一次性、大到不可能的计算，而是从一个猜测值开始，逐步对其进行修正，一步步收敛到真实解。您将了解到这些求解器工作的核心思想，以及它们在哪些不同领域已成为不可或缺的工具。第一章 “原理与机制” 将解析其基本算法，从简单的定常方法到复杂的Krylov子空间技术，并探讨使其高效的关键技术——预处理。随后的 “应用与交叉学科联系” 一章将展示这些方法如何应用于从结构力学到量子物理学的各个领域，将抽象的数学理论转化为具体的科学洞见。

原理与机制

想象一下，您正在尝试绘制一块大型金属板上的温度分布图，该金属板在某些点被加热，而在另一些点被冷却。或者，您正在模拟一个覆盖全国的电网中错综复杂的电压水平，或是在构造压力下地质构造内部的应力模式。在所有这些情况下，物理定律都为我们提供了一个由相互关联的方程组成的庞大网络。一个点的温度取决于其邻近点的温度；一个变电站的电压受到所有与之相连的其他变电站的影响。在数学上，这个网络构成一个巨大的线性系统，可以简洁地写为 $A x = b$ 。

在这里， $x$ 是我们渴望求得的所有未知数值的向量——温度、电压、位移。向量 $b$ 代表外部影响——加热器、发电机、地质力。而矩阵 $A$ 则是系统的核心；它是一张“连接图”，编码了每个未知值如何与其他所有值相关联。即使对于一个中等详细程度的模拟，这个系统也可能涉及数百万甚至数十亿个方程。

现在，您可能从代数知识中回忆起，解就是 $x = A^{-1}b$ 。那么，为什么不直接计算 $A$ 的逆矩阵，然后就大功告成了呢？问题在于，对于这些庞大的系统，直接计算 $A^{-1}$ 是一项极其艰巨、甚至不可能完成的任务。矩阵 $A$ 通常是稀疏的，这意味着它的大部分元素为零，这反映了一个点只与其直接邻居相连的事实。但它的逆矩阵 $A^{-1}$ 几乎总是完全稠密的——一个庞大到地球上任何计算机内存都无法容纳的矩阵。直接求逆是条死路。我们需要一种更巧妙的方法，一种无需写出逆矩阵就能求得解的方法。这就是迭代求解器的世界。

与方程组的对话

迭代方法的理念非常简单：“猜测、检验、修正。”我们从一个解的初始猜测值 $x^{(0)}$ （通常只是一个零向量）开始，然后逐步改进它，一步一步地进行，直到足够接近真实解。问题是，我们如何做出一个更好的猜测？答案在于与方程组本身进行“对话”。

让我们从系统中数百万个方程中挑选一个，比如第 $i$ 个： $a_{i1}x_1 + a_{i2}x_2 + \dots + a_{ii}x_i + \dots + a_{in}x_n = b_i$ 这个方程告诉我们值 $x_i$ 是如何与其他所有值相关联的。最自然的做法就是用这个方程本身作为更新我们对 $x_i$ 猜测值的准则。我们可以重新整理它来求解 $x_i$ ： $x_i = \frac{1}{a_{ii}} \left( b_i - \sum_{j \neq i} a_{ij}x_j \right)$ 这给了我们一个清晰的更新规则。为了得到 $x_i$ 的下一个猜测值，我们称之为 $x_i^{(k+1)}$ ，我们可以将当前猜测值 $x^{(k)}$ 中的所有值代入右侧。

这个简单的想法催生了最基本的迭代方法。

Jacobi方法以最直接的方式应用了这一逻辑。想象一个工人团队，每个工人负责一个变量 $x_i$ 。在每一轮工作中，每个工人都只使用团队在上一轮结束时的值来计算他们的新值。他们都同时（或至少是独立地）计算更新量，然后在下一轮中一次性全部更新他们的值。这是一种“非原地”更新；一个全新的向量 $x^{(k+1)}$ 是从旧向量 $x^{(k)}$ 计算得出的。

但你可能会在这里感到一丝低效。如果工人 $i$ 正在计算他的新值，而工人 $i-1$ 刚刚计算出了一个全新的、可能更好的 $x_{i-1}$ 值，为什么工人 $i$ 还要使用上一轮的旧值呢？为什么不使用可用的最新信息呢？

这正是Gauss-Seidel方法背后的思想。更新按顺序进行，每次计算都会立即使用在同一轮中早些时候计算出的任何新值。这是一种“原地”更新，解向量在计算过程中被不断覆盖。这就像一个链式反应，新信息在单次迭代中就能即时地在系统中传播。

我们的直觉表明，Gauss-Seidel方法更“聪明”，应该总是比Jacobi方法快。对于许多源于物理模型（如扩散问题）的问题，这确实是真的。然而，矩阵的世界充满了意外。我们可以构造出这样的系统：Jacobi方法的收敛速度实际上比Gauss-Seidel方法更快，或者其中一种方法收敛而另一种方法发散到无穷大。这给我们一个宝贵的教训：虽然物理直觉是一个很好的向导，但底层的数学结构决定了实际的行为。与Jacobi不同，Gauss-Seidel的收敛性甚至可能取决于我们书写方程的顺序！

游戏规则：收敛性与稳定性

这就引出了一个关键问题：这些迭代过程什么时候才能真正引导我们得到正确的答案？有时，这个过程是不稳定的，我们的猜测会越来越差，以致疯狂地发散。我们需要一种方法来预测迭代是否会收敛。

任何定常方法的更新规则都可以写成一个通用形式： $x^{(k+1)} = B x^{(k)} + c$ ，其中 $B$ 被称为迭代矩阵。误差 $e^{(k)} = x^{(k)} - x_{\text{true}}$ 则遵循一个简单的规则： $e^{(k+1)} = B e^{(k)}$ 。为了使误差收缩到零，迭代矩阵 $B$ 必须是“收缩的”。这意味着当我们对任何向量重复应用它时，该向量会变小。

其条件是数值分析的一块基石： $B$ 的谱半径，记为 $\rho(B)$ ，必须小于1。谱半径是矩阵所有特征值中模最大的那个。迭代矩阵的特征值充当了误差不同分量的放大因子。如果所有这些因子的模都小于1，那么误差的每个分量都会衰减，方法就会收敛。

这为科学和工程其他领域的稳定性概念提供了一个绝佳的类比。就像在微分方程的研究中一样，我们可以为我们的迭代求解器定义一个“稳定域”。这个区域就是复平面上的单位开圆盘： $\{\mu \in \mathbb{C} : |\mu| < 1\}$ 。如果迭代矩阵 $B$ 的所有特征值都位于这个圆盘内部，那么我们的方法就是稳定的，并且会收敛。

我们能否仅通过观察原始系统矩阵 $A$ 就判断一个方法是否收敛？对于某些良态系统，我们是可以的。其中一个性质就是严格对角占优。如果一个矩阵的每一行中，对角元素的绝对值都大于该行所有其他元素绝对值之和，那么这个矩阵就具有该性质。如果一个矩阵是严格对角占优的，那么Jacobi和Gauss-Seidel方法都保证收敛。这个条件经常出现在物理模型中，其中一个点的状态受其自身影响最大，这为我们求解器的可靠性提供了一个有力的检验。

更智能的搜索：Krylov子空间的世界

定常方法很直观，但它们的“记性很差”，只使用前一步的信息。为了实现更快的收敛，我们需要一种更“智能”的方法，它能够利用整个迭代历史的信息。这就是Krylov子空间方法的领域。

让我们再次从初始猜测值 $x_0$ 和相应的残差 $r_0 = b - A x_0$ 开始。这个残差向量非常宝贵；它不仅仅是误差的度量，它还是一个方向。它告诉我们应该朝哪个方向移动来修正我们的解。如果我们不仅考虑 $r_0$ ，还考虑系统对这个残差的作用， $A r_0$ 呢？以及对那个的作用， $A (A r_0) = A^2 r_0$ 呢？

由向量序列 $\{r_0, A r_0, A^2 r_0, \dots, A^{m-1} r_0\}$ 张成的空间被称为Krylov子空间，记为 $\mathcal{K}_m(A, r_0)$ 。这个子空间代表了与系统矩阵 $A$ 进行 $m$ 次交互后收集到的“知识”。Krylov方法不是采取一个简单的、预先定义的步长，而是在仿射空间 $x_0 + \mathcal{K}_m(A, r_0)$ 内寻找最佳的近似解。

这种方法的天才之处在于如何定义“最佳”，这取决于矩阵 $A$ 的性质。

如果 $A$ 是对称正定（SPD）的——这是一个常见且性质非常“好”的情况，通常对应于物理系统中能量的最小化——那么最强大的方法是共轭梯度（CG）算法。在这里，“最佳”意味着在搜索空间中找到使“误差能量”最小化的点。CG通过选择一系列相对于系统“能量”相互独立的搜索方向来实现这一点，这个性质被称为A-正交性。这可以防止算法抵消在先前步骤中取得的进展，从而实现非常快的收敛速度。

如果 $A$ 是一个普通、非对称的矩阵，能量景观的舒适图景就不复存在了。CG方法不再适用。因此，我们改变对“最佳”的定义。广义最小残差（GMRES）方法在搜索空间中寻找近似解 $x_m$ ，使得残差向量的长度 $\|r_m\|_2 = \|b - A x_m\|_2$ 尽可能小。这是一个实用的选择，适用于非常广泛的一类问题。

对于非对称系统，其他方法如双共轭梯度（BiCG）试图通过同时对伴随矩阵 $A^H$ 运行一个过程来模仿CG的结构。然而，这种优雅伴随着脆弱性。对于某些系统，该算法可能因除以零而崩溃，这是CG或GMRES不会遇到的问题。这表明，当我们偏离对称矩阵的良态世界时，我们必须在一个更险恶的环境中航行。

变换的艺术：预处理

即使是最强大的Krylov方法，如果矩阵 $A$ 是病态的，也可能会遇到困难。一个病态矩阵就像哈哈镜；它会极大地扭曲空间，在某些方向上对向量的拉伸远大于其他方向。对于迭代求解器来说，在这样一个扭曲的空间中导航是困难且缓慢的。达到解所需的迭代次数在很大程度上取决于条件数 $\kappa(A)$ ，它是矩阵最大奇异值与最小奇异值之比（对于SPD矩阵，则是最大与最小特征值的模之比）。大的条件数意味着收敛缓慢。

这就是迭代方法中最强大、最具艺术性的思想发挥作用的地方：预处理。其核心思想是变换问题。我们不再求解困难的系统 $A x = b$ ，而是求解一个具有相同解的更容易、等价的系统。

我们找到一个矩阵 $M$ ，即预处理器，并对我们的系统进行变换。例如，对于左预处理，我们求解 $(M^{-1}A) x = M^{-1}b$ 。目标是选择一个 $M$ 来满足两个相互竞争的目标：

$M$ 应该是 $A$ 的一个良好近似，使得新矩阵 $M^{-1}A$ 接近理想的单位矩阵，其条件数为完美的1。
涉及 $M$ 的系统求解，如求解 $M z = r$ ，必须非常快速且成本低廉。

寻找一个好的预处理器通常更像一门艺术而非科学，与问题的起源紧密相连。应用它的方式有多种——左预处理、右预处理和分裂预处理——每种都有其自身的细微差别。例如，一个分裂预处理器 $M = \tilde{L}\tilde{U}$ 将系统转换为一个三步过程：用 $\tilde{L}$ 求解一次，对核心预处理系统进行迭代求解，最后用 $\tilde{U}$ 求解一次。

当处理SPD系统的强大共轭梯度法时，我们必须小心。一个任意的预处理器 $M$ 可能会使新的系统矩阵 $M^{-1}A$ 变为非对称，从而破坏了CG方法得以工作的基本属性。解决方案异常优雅：对称预处理。如果 $M$ 也是SPD的，我们可以将我们的系统变换为 $(M^{-1/2} A M^{-1/2}) z = M^{-1/2} b$ 。这个新矩阵保证是SPD的，所以我们可以愉快地对其应用CG方法！。我们已经将问题塑造成适合我们最佳工具的形态，在加速收敛的同时保留了其基本结构。

一个好的预处理器的影响可能是惊人的。对于许多问题，例如来自有限元方法的问题，人们可以设计出与 $A$ 谱等价的预处理器。这意味着预处理后系统的条件数被一个小的常数所界定，无论问题变得多大或多详细。结果如何？即使我们将模拟的未知数从一百万增加到十亿，求解所需的迭代次数也几乎不增加。正是这种强大的Krylov方法与预处理艺术的结合，使得模拟庞大、复杂的物理系统成为可能。

应用与交叉学科联系

我们花了一些时间拆解迭代求解器这个优雅的引擎，审视了Krylov子空间、收敛性和预处理的齿轮与活塞。现在，让我们走出工作室，看看这些卓越的引擎在哪些领域发挥作用。您可能会惊讶地发现，它们在现代科学与工程的各个领域中默默运行——从预测地壳内的应力，到设计您计算机中的电路，甚至窥探量子力学中奇异、无序的世界。

这些方法远不止是数学上的奇珍；它们是不可或缺的桥梁，连接着通常以微分或积分方程表达的自然基本定律与我们赖以生存的具体、可计算的预测。在很大程度上，它们是将物理学转化为远见的机器。

建筑师与工程师的工具箱：模拟物理世界

想象一下，您是一位正在设计桥梁、飞机机翼或摩天大楼的工程师，或者是一位正在模拟构造板块缓慢而强大变形的地质物理学家。其支配定律——无论是弹性力学、流体力学还是热传导方程——都是连续的。为了在计算机上求解它们，我们必须首先进行剖分。我们将连续的物体切分成由离散点或微小体积组成的精细网格，这个过程称为离散化。在每个点上，平滑的微分方程变成了一个简单的代数关系，将该点与其直接邻居联系起来。

当我们将数百万（或数十亿）个点的所有方程组合在一起时，我们就得到了一个巨大的线性方程组，可以简洁地写成 $A x = b$ 。矩阵 $A$ 代表我们网格中各点之间的物理耦合，向量 $b$ 代表施加的力（如风、重力或热量），而解向量 $x$ 则包含我们寻求的答案——每个点的位移、压力或温度。

现在，有人可能会问，为什么不直接使用我们在学校学到的简单方法，比如高斯消元法，来求 $A$ 的逆矩阵并求解 $x$ 呢？答案在于一个被称为“维度灾难”的巨大问题。对于一个三维物体，将网格分辨率加倍会使未知变量的数量增加八倍。矩阵 $A$ 虽然大部分元素为零（因为每个点只与其直接邻居相连），但其规模会以惊人的速度增长。更糟糕的是，尝试使用直接方法计算其逆矩阵会导致一种称为“填充”（fill-in）的灾难性效应，即矩阵中原本为空的、充满零的区域被非零数值填充。存储这些新数值所需的内存很容易超过世界上最大的超级计算机的内存。对于许多现实世界的三维问题，直接求解不仅慢，而且物理上不可能。

这就是迭代求解器大显身手的地方。对于非常大、稀疏且性质良好的系统——例如许多结构力学问题中出现的对称正定（SPD）矩阵——一个经过良好预处理的迭代方法通常是唯一可行的途径。像共轭梯度（CG）法这样与强大的预处理器（如代数多重网格法，AMG）相结合的方法，可以求解拥有数亿未知数的系统，其内存和计算时间几乎与变量数量成线性关系。这是一个惊人的成就，将不可能的问题变成了可管理的问题。

当然，选择并非总是如此简单。对于较小的问题，或者对于使用恒定矩阵 $A$ 进行多个时间步长的模拟，直接法分解一次性的高成本可以通过多次廉价的后续求解来“分摊”，有时使其总体上更快。然而，即使在这种情况下，随着网格的细化，直接法超线性的内存增长最终会成为限制因素。在直接法和迭代法之间的选择是一门关于权衡的艺术，是在鲁棒性、内存和速度之间进行的精妙平衡，并由手头问题的具体性质所引导。

但为什么其中一些系统从一开始就如此难以求解呢？矩阵 $A$ 的“病态性”或说“难解性”并不仅仅是一个抽象的数值属性；它通常是底层物理的直接反映。考虑在地质力学中建模的近不可压缩材料（如橡胶）的行为。当泊松比 $\nu$ 接近其不可压缩极限0.5时，材料强烈抵抗任何体积变化，同时仍允许改变形状的剪切变形。这种物理上的二分性完美地反映在刚度矩阵 $K$ 的谱中。其特征值分裂成两个不同的簇：一个对应于“软”的剪切模态，另一个更大，对应于“刚”的体积模态。随着 $\nu \to 0.5$ ，这些簇之间的分离急剧扩大，导致条件数 $\kappa(K)$ 爆炸性增长。一个未经预处理的迭代求解器在试图导航这样的景观时会陷入困境，需要无数个微小的步骤来解析解的软、硬分量。求解器的减速是材料物理特性的直接回响，这是物理学与数值计算之间一种美丽而时而令人沮丧的联系。

超越A到B：作为发现工具的求解器

到目前为止，我们一直将求解 $Ax=b$ 视为最终目标。但在许多科学学科中，这仅仅是一个更宏大算法探索中的一个关键步骤。

考虑寻找一个结构的固有振动频率或一个量子系统的允许能级问题。这些都是特征值问题： $Ax = \lambda x$ 。标准的迭代方法，如Lanczos算法，非常擅长寻找极端特征值——即最大或最小的那些。但如果我们对谱中间的某个频率感兴趣呢？

在这里，我们可以使用一个称为移位-反演法的巧妙技巧。假设我们正在寻找某个目标值 $\sigma$ 附近的一个特征值 $\lambda$ 。我们不解原始问题，而是将我们的迭代特征求解器应用于变换后的矩阵 $(A - \sigma I)^{-1}$ 。一些代数运算表明，这个新矩阵与 $A$ 具有完全相同的特征向量，但其特征值由 $1/(\lambda - \sigma)$ 给出。想一想这会带来什么效果！如果我们原始的特征值 $\lambda$ 非常接近我们的移位值 $\sigma$ ，那么分母 $(\lambda - \sigma)$ 就很小，这使得新的特征值 $1/(\lambda - \sigma)$ 变得巨大。我们在谱中间寻找的那个特征值，被神奇地转换成了新系统中最大、最显著的特征值，我们的特征求解器现在可以轻松找到它。这就像调收音机的旋钮；我们将兴趣转移到特定频率 $\sigma$ ，而反演操作使得那个电台的信号变得响亮而清晰。

但这种魔法带来了一个有趣的挑战。为了将算子 $(A - \sigma I)^{-1}$ 应用于一个向量，我们必须求解一个线性系统。而我们的移位值 $\sigma$ 越接近我们所寻求的特征值 $\lambda$ ——这正是使谱变换如此有效的条件——矩阵 $(A - \sigma I)$ 就变得越奇异，或说越病态！这就提出了一个深刻的两难境地。迭代线性求解器可能在外部特征值算法最需要它的时候陷入困境或无法收敛。另一方面，一个鲁棒的直接求解器可以处理这种近奇异性，返回一个大范数向量，该向量诱人地指向所期望的特征向量。这种相互作用是现代计算方法的核心，用于寻找从机械共振到量子多体系统奇异性质的各种问题。

线性求解嵌套在另一个进程中的主题，延伸到了广阔的非线性现象世界。在模拟刚性化学反应或复杂流体动力学时，其底层方程不再是线性的。一个常见的策略是使用牛顿法，它将一个困难的非线性问题转化为一系列“更简单”的线性问题。在每一步，我们都必须求解一个涉及雅可比矩阵的线性系统。对于大规模问题，显式地构建这个雅可比矩阵是不可能的。取而代之，我们使用Newton-Krylov方法。“Krylov”部分指的是使用像GMRES这样的迭代线性求解器。“Newton”部分是外部的非线性循环。这里还有另一个神奇之处：Krylov方法不需要矩阵本身；它们只需要知道矩阵对一个向量做什么。这个“矩阵-向量积”可以用非线性函数的有限差分来近似，这种技术使我们能够以“无矩阵”的方式求解牛顿步。因此，我们正在使用一个迭代求解器来导航一个我们只在需要时才探测其轮廓的景观，这是一种解决科学中一些最复杂问题的非常有效的方法。

隐藏的结构与Fourier的魔杖

科学中一些最重要的矩阵并非来自在网格上离散化微分方程。考虑计算光如何从周期性结构（如晶体或纳米光子器件）散射的问题。其物理学由一个积分方程描述。当离散化后，这个方程会产生一个通常完全稠密的矩阵。每个点都与所有其他点相互作用。直接求解的成本是 $O(N^3)$ 次操作，即使是标准的迭代方法每次迭代也需要 $O(N^2)$ 次操作，这两种方法的计算成本都高得令人望而却步。

情况似乎毫无希望。但其中隐藏着一种结构。如果底层介质是均匀的，且几何结构是周期性的，那么两点之间的相互作用仅取决于它们的相对分离，而不是它们的绝对位置。这是卷积的标志。由此产生的矩阵，虽然稠密，但不仅仅是任何一个稠密矩阵；它是一个高度结构化的块循环-循环块（BCCB）矩阵。

在这里，我们可以像变魔术一样，借助Jean-Baptiste Joseph Fourier的理论解决问题。傅里叶变换具有一个非凡的性质，它能将卷积转化为简单的逐点乘积。用线性代数的语言来说，离散傅里叶变换（DFT）可以对角化任何循环矩阵。这意味着昂贵的 $O(N^2)$ 矩阵-向量积可以被三个简单的步骤所取代：对输入向量进行快速傅里叶变换（FFT），与矩阵的（预先计算好的）特征值进行逐点相乘，以及进行逆FFT以获得结果。得益于FFT算法的卓越效率，整个操作仅需 $O(N \log N)$ 次运算。

通过将这个技巧嵌入到Krylov子空间求解器中，我们可以解决那些否则完全无法处理的巨大的稠密系统。这种迭代方法与傅里叶分析的融合是计算电磁学、声学以及许多其他处理波现象领域的基石。它证明了物理学和数学中的一个深刻原理：在一个基底下困难的问题，在另一个基底下可能会变得异常简单。

前沿：教计算机找到捷径

我们已经一再看到，使迭代求解器真正强大的秘诀在于找到一个好的预处理器 $M$ ，它充当逆矩阵 $A^{-1}$ 的粗略近似。几十年来，预处理器的设计一直像是一种艺术形式，是由经验丰富的数值分析家实践的一门手艺，他们利用自己的专业知识来利用问题的特定结构。

但是，如果我们能教计算机自己发现这门艺术呢？这就是数值线性代数与机器学习相遇的激动人心的前沿领域。

想象一下，你面对的不是一个问题，而是一整族问题，可能源于相同的物理模拟，但具有不同的材料参数或几何形状。机器学习模型能否学会为这个族中的任何问题生成一个近乎最优的预处理器？事实证明，答案是肯定的。

一种特别优雅的策略涉及“展开”迭代过程本身。我们可以构建一个神经网络，其参数 $\phi$ 定义了一个预处理器 $M_{\phi}$ 。然后，我们向它提供一批样本问题 $(A, b)$ ，运行我们的预处理共轭梯度（PCG）算法固定的小步数，并基于最终迭代的误差定义一个损失函数。由于PCG的每一步都是一个可微操作，我们可以利用反向传播的机制来计算最终误差相对于预处理器参数 $\phi$ 的梯度。然后，学习过程会自动调整 $\phi$ ，以创建一个为加速这类特定问题的收敛而量身定制的预处理器。

这是一个深刻的视角转变。我们不只是用计算机来执行人类设计的算法；我们正在利用优化和学习的原理，让计算机改进算法本身。这种经典数值方法与现代机器学习的结合，正在为解决以前不可能的问题开辟新途径，推动我们能够模拟、预测和发现的边界。看来，这个看似普通的迭代求解器，还藏着更多的惊喜。