Karcher均值：在弯曲空间中寻找中心

玻尔百科

定义

Karcher均值：在弯曲空间中寻找中心是算术平均值在黎曼流形（弯曲空间）上的推广，其通过最小化到所有数据点的测地线距离平方和来确定中心点。该定义遵循 Karcher 方程所表达的平衡法则，即从均值指向各数据点的切向量之和为零。在医学影像、机器人学和统计形状分析等领域，该方法对于计算旋转或张量等非欧几里得数据的几何中心至关重要。

核心要点

Karcher均值将我们熟悉的算术平均推广到弯曲空间（黎曼流形），其方法是确定一个点，该点到所有数据点的测地距离平方和最小。
它在数学上由Karcher方程定义，该方程表达了一种“平衡法则”：从均值指向每个数据点的切向量之和为零。
由于Karcher方程是隐式的，其均值通常通过迭代算法（如梯度下降法）来求解，这些算法在流形上逐步逼近几何中心。
在医学成像（用于扩散张量）、机器人学（用于旋转）和数据科学（用于统计形状分析）等领域，Karcher均值对于计算有意义的平均值至关重要。

引言

找出一组点的“平均值”意味着什么？在我们熟悉的平坦世界里，答案很简单。但如果你的数据不在一条直线或一个平面上，而是散布在像球面这样的曲面上，或者存在于更抽象的空间中，比如机器人臂的构型或量子系统的状态，那该怎么办？在这些情况下，传统的算术平均值会失效，常常产生无意义的结果。本文旨在填补这一根本性空白，介绍Karcher均值——对于存在于被称为黎曼流形的弯曲空间中的数据，它是平均值的真正几何推广。在接下来的章节中，我们将首先探索核心的“原理与机制”，深入研究Karcher均值如何通过测地距离及其优雅的“平衡法则”来定义。随后，在“应用与跨学科联系”中，我们将遍览这一强大概念提供关键见解的各个领域，从医学成像、工程学到数据科学等等。

原理与机制

从平面平均到曲面均值

一组数的“平均值”是什么？你可能会很快回答：“把它们加起来，然后除以它们的个数。”这个我们熟悉的算术平均值，对于一列数 $x_1, x_2, \dots, x_n$ ，由 $\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i$ 给出。这个概念在我们脑中根深蒂固，以至于我们很少停下来问它到底代表什么。让我们从另一个角度来看。如果你把这些数看作直线上的点，它们的平均值是唯一一个能使到所有其他点的距离平方和最小的点。也就是说， $\bar{x}$ 是使 $\sum_{i=1}^n (x - x_i)^2$ 尽可能小的点 $x$ 。从非常真实的意义上说，它是数据的质心。

这个“质心”思想非常强大，因为它不依赖于这些数是否在一条简单的直线上。我们可以对平面上或三维空间中的点做同样的事情。平均位置向量 $\mathbf{\bar{x}} = \frac{1}{n} \sum \mathbf{x}_i$ 正是使欧氏距离平方和 $\sum_i \|\mathbf{x} - \mathbf{x}_i\|^2$ 最小的点。

但是当我们的世界不是平坦的时候会发生什么？如果我们的数据点不在一张纸上，而是散布在地球的曲面上呢？或者更抽象地说，如果它们代表机器人臂的构型、量子系统中的状态或复杂的大脑扫描图像呢？在这些弯曲的空间中——数学家称之为黎曼流形——我们用来测量距离的直线概念根本不存在。那么，我们如何找到“中心”呢？

测地质心

第一步是用它们在弯曲流形上的自然推广来代替“直线”：测地线。测地线是两点之间保持在曲面上的最短路径。对于生活在球面上的生物来说，测地线就是大圆弧——飞机为了节省燃料会飞行的路径。

有了这个新的距离概念，平均值的定义就变得异常清晰。一组点 $\{p_1, \dots, p_n\}$ 的Karcher均值，也称为Fréchet均值，是流形上使测地距离平方和最小的点 $x$ ：

\text{Karcher Mean} = \underset{x \in \text{Manifold}}{\arg\min} \sum_{i=1}^n d(x, p_i)^2

其中 $d(x, p_i)$ 是 $x$ 和 $p_i$ 之间的测地距离。我们仍然在寻找质心，但我们尊重了我们所在空间的内在几何结构。

想象一下，在单位球面上（可以想象它们位于赤道上经度为 $0^\circ$ 和 $90^\circ$ 的位置，以及北极点），你有三个卫星地面站，位置分别为 $P_1 = (1,0,0)$ 、 $P_2 = (0,1,0)$ 和 $P_3 = (0,0,1)$ 。你会把中央通信枢纽放在哪里，以最小化到这三者的总平方距离？你的直觉可能会告诉你，要找到一个与它们三者等距的点。通过对称性，北半球的点 $M = (\frac{1}{\sqrt{3}}, \frac{1}{\sqrt{3}}, \frac{1}{\sqrt{3}})$ 是一个完美的候选。事实上，这正是Karcher均值。它是这三个位置的真正几何平均值，一个仅仅通过相加和除以它们的坐标永远无法捕捉到的概念。

平衡法则：Karcher方程

那么，我们如何确定我们找到了真正的最小值呢？在平坦的欧氏空间中，平均值 $\mathbf{\bar{x}}$ 是完美平衡的点；从它指向所有其他数据点的向量之和为零： $\sum_i (\mathbf{x}_i - \mathbf{\bar{x}}) = 0$ 。你可以把它想象成一场拔河比赛，中心点因为所有拉力相互抵消而纹丝不动。

这个优雅的“平衡法则”在弯曲世界中有一个完美的对应物。为了推广它，我们需要一个与向量 $(\mathbf{x}_i - \mathbf{\bar{x}})$ 等价的东西。这正是黎曼对数映射的作用，记为 $\log_x(p)$ 。这个映射取流形上的两个点 $x$ 和 $p$ ，然后返回一个在 $x$ 处的切向量——一个小箭头——它“笔直”地指向 $p$ 。如果你从 $x$ 沿着这个向量的方向行走一个单位时间，你将恰好到达 $p$ 。

Karcher均值 $\bar{x}$ 则是这样一个点，所有这些对数向量（代表每个数据点的“拉力”）的总和在此处完美平衡为零：

\sum_{i=1}^n \log_{\bar{x}}(p_i) = 0

这就是著名的Karcher方程。它是几何均值的基本条件，是其数学灵魂。

这种力平衡的思想在像度量树这样的空间中变得非常具体——一个没有环路的路网。在这里，Karcher均值是沿分支的“拉力”处于平衡状态的点。如果朝向一个分支的拉力比所有其他拉力的总和都强，那么质心必定位于该分支的某个地方，我们可以通过解一个简单的二次方程来找到它的确切位置。即使在高度抽象的空间中，例如在医学成像和统计学中使用的对称正定（SPD）矩阵流形，这一原则也成立。在那里，Karcher方程具有优美而紧凑的形式 $\sum_{i=1}^N \log(S^{-1/2} S_i S^{-1/2}) = 0$ ，其中 $S$ 是我们寻求的矩阵均值。

寻找中心：迭代求解过程

Karcher方程是一种所谓的隐式方程——未知的均值 $x$ 被困在对数映射本身内部，而对数映射又依赖于 $x$ 。这个鸡生蛋还是蛋生鸡的问题意味着我们通常不能用简单的代数方法解出 $x$ 。相反，我们必须通过迭代来找到它，踏上一段逐渐接近真正中心的旅程。

该算法是一种优美的几何之舞，就像一个蒙着眼睛的人试图通过感受脚下的坡度并朝下坡方向迈步来找到山谷的最低点。

从一个初始猜测 $x_k$ 开始。一个常见的选择是取这些点在其嵌入空间中的欧氏平均值，然后将其投影回流形上。
从你当前的位置 $x_k$ ，计算到所有数据点的平均“方向”。这仅仅是对数向量的平均值： $\bar{v}_k = \frac{1}{N} \sum_i \log_{x_k}(p_i)$ 。
如果这个平均向量 $\bar{v}_k$ 是零向量，恭喜你！你正处于完美平衡的点；你已经找到了Karcher均值。
如果不是，从 $x_k$ 沿着那个平均方向迈出一步。在流形上，“沿着切向量迈出一步”是通过黎曼指数映射 $\exp_{x_k}(\cdot)$ 来完成的，它是对数映射的逆。我们新的、改进的猜测是 $x_{k+1} = \exp_{x_k}(\bar{v}_k)$ 。
从步骤2开始重复。每次迭代，我们都在距离平方的景观上“向下滑动”，在适当的条件下，这个过程会收敛到唯一的最小值。

这种迭代方案是梯度下降法的一种形式，其机制可以在寻找球面上均值或平均一组矩阵的过程中看到。为了实现更快的收敛，可以使用更高级的“二阶”技术，如黎曼牛顿法。这些方法就像拥有一张山谷曲率（Hessian矩阵）的地图，可以让你更直接、更智能地走向谷底。

何为有意义的均值？

为什么要费这么大劲呢？因为Karcher均值不仅仅是一个数学上的奇趣之物；它拥有我们期望任何好的“平均”概念所应具备的深刻而理想的性质。

单调性：如果你有两组数据点 $\{A_i\}$ 和 $\{B_i\}$ ，其中每个 $B_i$ 都比其对应的 $A_i$ “更大”（以对流形有意义的方式，比如矩阵的Löwner序），那么你会期望 $B_i$ 的均值比 $A_i$ 的均值更大。Karcher均值尊重这一基本性质，确保其行为方式可预测且直观。
与凸性的联系：Karcher均值与凸性的概念有着深刻的联系。概率论的基石之一，詹森不等式，指出对于一个凸函数 $f$ ，在均值处求得的函数值小于或等于函数值的均值： $f(\text{mean of } x) \le \text{mean of } f(x)$ 。这个强大的不等式在许多重要的弯曲空间中对Karcher均值同样成立。这一结果巩固了Karcher均值作为平均值的真正几何推广的地位，并为流形上的统计分析提供了至关重要的定量稳定性估计。

中心失效时：细微差异与陷阱

进入弯曲空间的旅程并非没有惊喜。平坦世界平均值的优雅简洁有时会让位于迷人的新细微之处。

均值总是唯一的吗？ 考虑圆上的两个点。只要它们不完全相对，它们之间就有一条单一的最短路径，其中点是唯一的Karcher均值。但是当这些点变得完全对径时，比如地球上的伦敦和新西兰附近的一个点，会发生什么？突然之间，有两条等长的最短路径，以相反的方向环绕地球。第一条路径的中点可能在北大西洋，而第二条路径的中点在南太平洋。两者都是同样有效的“均值”！当点接近这种对径配置时，均值的集合可以突然从一个单点跳跃成一对点。这揭示了均值的唯一性是一种奢侈，只有在像非正曲率空间这样的“良好”空间中才能保证，但并非普遍适用。
世界的边缘：我们使用的迭代算法虽然强大，但也可能很脆弱。例如，SPD矩阵流形有一个由不可逆的奇异矩阵组成的“边界”。如果我们的算法在一次迭代中落点太靠近这个边界，定义几何所需的计算——通常涉及矩阵求逆——可能会变得数值不稳定。更新步长的大小可能会爆炸，将下一个猜测值发送到一个计算上的荒野，可能永远无法恢复。这个实际的陷阱鲜明地提醒我们，虽然原理是优美的，但它们在有限精度计算的现实世界中的应用既需要谨慎也需要技巧。

因此，Karcher均值不仅仅是一个公式。它是一个概念，带领我们穿越现代几何、优化和数据科学的核心，既揭示了数学思想的深刻统一性，也展示了当我们超越平坦世界的直觉时出现的优美复杂性。

应用与跨学科联系

我们花了一些时间来理解Karcher均值的“是什么”和“如何做”。我们已经看到，它是我们熟悉的平均值的一个优美推广，一个用于寻找点云中心的原则，无论它们所处的空间如何奇特地弯曲。现在，我们来到了旅程中最激动人心的部分：“为什么”。为什么这个概念如此重要？它出现在哪里？

你可能会感到惊讶。在弯曲流形上寻找“质心”并非某种抽象的数学游戏。事实证明，大自然以其无穷的多样性，时时刻刻都向我们呈现生活在弯曲世界中的数据。从我们自己大脑中的组织到我们机器中的材料，从亚原子粒子的舞蹈到概率的本质结构，Karcher均值都作为一个统一的原则出现，一个用于理解复杂数据的工具。让我们来参观一下这些非凡的世界。

形变的世界：工程学与医学

想象你是一位研究新型复合材料的工程师。你拉伸和扭转它的样本，并希望描述其平均刚度。或者，你是一位研究病人大脑的神经科学家。你正在观察水分子如何通过神经纤维扩散。在这两种情况下，你在每个点测量的基本对象不是一个简单的数字，而是一个张量——一个描述诸如拉伸、剪切和扩散等既有大小又有方向的属性的数学对象。

这些张量，在力学中称为柯西-格林形变张量，或在医学成像中称为扩散张量，共享一个关键属性：它们必须是对称正定（SPD）矩阵。此属性确保了，例如，形变是物理上可能的，并且扩散是向外流动的。所有这些SPD矩阵的集合形成了一个奇妙的景观——一个具有其独特几何结构的黎曼流形。

现在，如果你有一系列来自不同材料样本或不同病人的张量，你如何找到平均值？你可能会想简单地对矩阵中的数字逐元素求平均。但这种简单的算术平均是一个灾难性的选择！这种平均的结果可能不是正定的，从而产生一个无意义的、物理上不可能的“平均”张量。两个有效形变的平均值可能不是一个有效的形变。

在这里，配备了一种称为仿射不变度量的特殊几何的Karcher均值，应运而生。它提供了唯一真实的、物理上有意义的平均值。一个优美的例证出现在平均两个对角张量的简单情况中，这可能代表沿坐标轴的纯拉伸或扩散。Karcher均值不是它们分量的算术平均值，而是几何平均值。这确保了结果仍然是一个有效的物理张量。

在扩散张量成像（DTI）等领域，这并非学术上的奇趣；它是现代临床分析的基础。通过计算一组健康受试者的扩散张量的Karcher均值，医生可以建立一个基准的“平均大脑图谱”。然后，他们可以将新病人的大脑与这个平均值进行比较，识别出白质束中的细微异常，这些异常可能预示着中风、多发性硬化症或阿尔茨海默病。用于找到这个均值的算法是几何思维的完美典范：它从一个猜测开始，在张量的弯曲流形上迭代地“滚下山坡”，直到它停在山谷的底部——即到所有数据点的平均距离最小的点。

方向的世界：机器人学与运动学

想象一颗在太空中翻滚的卫星，一个定位工具的机器人手臂，或者一个折叠成其功能形状的蛋白质。这些物体中每一个的状态都由其姿态来描述，我们可以用特殊正交群 $SO(3)$ 中的一个旋转矩阵来表示。这个空间——所有可能的三维旋转的集合——是另一个著名的弯曲流形。

假设你对一颗卫星的姿态有多次测量，并希望找到其平均姿态以滤除噪声。再次地，逐元素平均矩阵会彻底失败；结果几乎肯定不会是一个旋转矩阵。解决方案是在流形 $SO(3)$ 上找到Fréchet均值。这为你提供了最“中心”的旋转，最能代表整组观测到的姿态。这在航空航天工程、计算机图形学和机器人学中，对于轨迹平滑和传感器融合等任务是不可或缺的。

形状与子空间的世界：数据科学与视觉

Karcher均值的威力延伸到了数据本身的抽象世界。考虑“形状”问题。人手的平均形状是什么，鸟的翅膀或特定蛋白质的平均形状又是什么？在一个称为统计形状分析的领域，物体由一组对应的标志点来表示。在对齐这些点云以消除位置和方向上的无关差异后，我们得到它们的本质形状，这些形状生活在一个高维弯曲流形上。这些点的Fréchet均值是典型的“平均形状”，这是一个在生物学、人类学和计算机视觉中使用的强大概念。

这个想法甚至适用于平均更抽象的东西，比如方向或子空间。在机器学习中，主成分分析（PCA）是寻找数据集中最重要方向（一个一维子空间）的基石技术。如果你对几个相关的数据集执行PCA，你可能会得到几个不同的“最重要”方向。你如何找到平均方向？这些方向可以看作是球面上的点，或者更一般地，格拉斯曼流形上的点。Fréchet均值提供了一种找到它们平均值的方法，这个任务归结为找到一个特殊构造的矩阵的主特征向量。

更深层次的统一：从最优输运到量子信息

一个伟大的科学思想最深刻的方面之一是它连接看似不同领域的能力。Karcher均值在这方面做得非常漂亮。

考虑现代的最优输运领域，它研究将一种质量分布变形为另一种的最有效方式。所有概率分布的空间本身可以被看作是一个无限维流形，其距离（瓦瑟斯坦距离）测量了输运的“成本”。然后人们可以问：几个概率分布的重心是什么？这个“瓦瑟斯坦重心”是一个在某种意义上是它们之间最中心的折衷的分布。它在图像融合、机器学习和经济学中找到了惊人的应用。

当我们考虑高斯（钟形曲线）分布时，这种联系变得明确而令人惊叹。事实证明，一组高斯分布的瓦瑟斯坦重心本身就是一个高斯分布。而定义这个平均高斯分布协方差矩阵的方程，正是我们已经见过的输入协方差矩阵的Karcher均值方程！。一个抽象概率空间中的问题，优雅地简化为我们已经看到的矩阵几何问题。

这种矩阵几何在量子世界中也有回响。量子系统的状态通常由一个称为密度矩阵的正半定埃尔米特矩阵来描述。使用与量子信息论相关的度量对这些矩阵进行平均的过程，通常会导致类似Karcher均值的问题。寻找一组量子操作或测量的平均值可能涉及寻找一组特殊矩阵的Karcher均值，揭示了量子统计学背后深层的几何结构。

我们有多确定？弯曲世界中平均值的不确定性

在科学中，找到一个平均值只是战斗的一半。另一半是问：“我们对这个平均值有多确定？”如果我们再取一个样本，我们的平均值会改变多少？在欧氏空间的平坦世界里，著名的中心极限定理（CLT）给出了答案：对于大样本，样本均值的分布总是一个高斯钟形曲线。这个定理是现代统计学的基石。

令人难以置信的是，这个统计学的基石在弯曲流形上有一个直接的类比。一个Fréchet均值的中心极限定理指出，如果你在流形上取一个大的随机点样本并计算它们的均值，这个均值的分布，当在真实总体均值的切空间中近距离观察时，会变成一个高斯分布。你的样本均值会以一种可预测的、钟形的方式围绕真实均值“摆动”。

这使我们能够为球面、旋转空间或张量空间上的数据构建置信区域和进行假设检验。例如，我们可以确定记录在古岩石中的磁极平均方向的95%置信锥，或者计算我们对“平均”三维旋转估计的不确定性 [@problemid:852467]。当这种不确定性的理论公式过于复杂时，统计学家甚至可以使用像自助法(bootstrap)这样的计算方法，通过重采样他们的数据来直接在切空间中模拟Fréchet均值的变异性。

从具体到抽象，从临床到宇宙，Karcher均值远不止一个数学公式。它是中心性的一个基本原则，是几何思维力量的证明，也是一条将工程、医学、统计和物理等不同世界编织在一起的美丽丝线。它告诉我们，即使当我们的数据将我们引向最奇异的弯曲景观时，也有一种清晰、有原则且优美的方法来找到这一切的中心。