von Mises 分布

玻尔百科

定义

von Mises 分布是圆周数据分析中一种重要的连续概率分布，在统计学领域常被视为正态分布在圆周上的等价形式。该分布由平均方向和集中度两个关键参数定义，广泛应用于生物迁徙、物理信号相位以及神经科学等方向性数据的建模。当集中度参数较高时，其特性趋近于方差为 1/κ 的高斯分布。

核心要点

von Mises 分布是循环数据的天然“钟形曲线”，由其平均方向 (μ) 和集中度 (κ) 定义。
它充当了线性统计学和循环统计学之间的桥梁，在高集中度下近似于高斯分布，此时方差约为 1/κ。
关键参数通过对数据进行矢量平均来估计，其中合矢量的方向是平均值，其长度衡量集中度。
它在建模方向性现象方面有广泛应用，从物理学中的信号相位、生物学中的动物迁徙，到方向的神经表征。

引言

在许多科学和工程领域，数据不是线性的，而是循环的：例如鸟的飞行方向、无线电波的相位，或神经元放电的朝向。为数轴设计的标准统计工具，如高斯钟形曲线，不适用于这些周期性现象。这一差距需要一种不同的方法，一种尊重圆的内在几何特性的方法。解决方案就是 von Mises 分布，这是一个基础而优雅的概率模型，可作为真正的“圆上钟形曲线”。本文将全面探讨这一强大工具。第一部分“原理与机制”深入探讨了该分布的核心，解释了其直观的参数、与高斯分布的深刻联系，以及用于分析循环数据的基于矢量的方法。紧随其后，“应用与跨学科联系”部分将带领读者跨越多个科学领域，揭示 von Mises 分布如何为理解物理学、生物学和计算神经科学中的现象提供一种通用语言，从含噪信号到大脑内方向的编码机制本身。

原理与机制

想象一下你正在追踪一只信鸽的飞行。它的方向不是无限直线上的一个数字，而是罗盘上的一个角度。或者，你是一位神经科学家，正在研究一个当实验动物朝向北方时就会放电的脑细胞。又或者，你正在分析风的模式或无线电波的相位。在所有这些情况下，数据都不存在于数轴上，而是存在于一个圆上。

那么，我们如何描述这些方向的概率呢？我们不能简单地将熟悉的钟形曲线——即高斯分布——包裹在一个圆上。虽然这是一个不错的初步猜测，但自然界有一个更优雅的解决方案。对于循环数据，最基本、最自然的分布就是 von Mises 分布。从非常深刻的意义上说，它才是真正的“圆上钟形曲线”。

循环定律的剖析

乍一看，von Mises 分布的公式可能有点吓人，但它是由简单、直观的思想构建的。观测到角度 $\theta$ 的概率由下式给出：

f(\theta; \mu, \kappa) = \frac{\exp(\kappa \cos(\theta - \mu))}{2\pi I_0(\kappa)}

让我们来分解它。问题的核心在于 $\exp(\kappa \cos(\theta - \mu))$ 这一项。

$\theta - \mu$ 这一项仅仅是我们正在观察的角度 $\theta$ 与分布的平均方向 $\mu$ 之间的角距离。这就是我们循环钟形曲线的“中心”。这个距离的余弦值 $\cos(\theta - \mu)$ 在 $\theta$ 与 $\mu$ 完全相等时达到最大值 $1$ ，而在 $\theta$ 位于圆的另一侧（ $\theta = \mu \pm \pi$ ）时降至最小值 $-1$ 。

参数 $\kappa$ (kappa) 是集中参数。它是一个非负数，告诉我们分布的“峰值”有多高或多“确定”。

如果 $\kappa = 0$ ，整个 $\cos$ 项消失，所有角度的概率都变得相同。这就是均匀分布，代表着对方向完全不确定。
随着 $\kappa$ 的增加，平均方向 $\mu$ 周围的峰值变得越来越尖锐和明显。大的 $\kappa$ 意味着我们非常确定角度接近于 $\mu$ 。你可以把 $\kappa$ 想象成一个“确定性旋钮”。

最后，分母中的项 $2\pi I_0(\kappa)$ 是归一化常数。它的作用只是确保当我们把所有可能角度的概率加起来时，总和正好是 $1$ 。函数 $I_0(\kappa)$ 是一个特殊函数，称为第一类修正贝塞尔函数。你不需要担心它的细节，只需知道它是使数学计算完美成立所需的一个特定值。

通往熟悉的桥梁：伪装的高斯分布

那么，von Mises 分布真的与高斯钟形曲线有关吗？答案是肯定的，而且这种联系非常优美。当集中度 $\kappa$ 很大时，概率仅在非常接近平均值 $\mu$ 的角度 $\theta$ 处才显著。在这片小小的圆弧上，空间的弯曲特性变得不那么重要；它看起来几乎像一条直线。

对于小的角度偏差，我们称之为 $\delta = \theta - \mu$ ，我们可以使用一个著名的余弦函数近似： $\cos(\delta) \approx 1 - \frac{\delta^2}{2}$ 。如果我们将这个近似代入 von Mises 公式的核心部分，神奇的事情发生了：

\exp(\kappa \cos(\delta)) \approx \exp\left(\kappa \left(1 - \frac{\delta^2}{2}\right)\right) = \exp(\kappa) \exp\left(-\frac{\kappa \delta^2}{2}\right)

$\exp(\kappa)$ 这一项只是一个常数，会被吸收到归一化过程中。剩下的是 $\exp\left(-\frac{\kappa \delta^2}{2}\right)$ ，这是偏差 $\delta$ 的高斯分布明确无误的形状！这告诉我们，对于高度集中的数据，von Mises 分布在局部上与高斯分布是无法区分的。

这个近似揭示了参数之间深刻的联系。高斯分布的方差通常写为 $\sigma^2$ 。将我们的结果与标准高斯形式 $\exp\left(-\frac{\delta^2}{2\sigma^2}\right)$ 进行比较，我们发现我们的近似高斯分布的方差是 $\sigma^2 \approx 1/\kappa$ 。这是一个非常直观的结果：高集中度（ $\kappa$ ）意味着低方差（ $\sigma^2$ ），反之亦然。von Mises 分布优雅地统一了圆上的集中度概念和直线上的方差概念。

角度的质心

假设我们有一个观测到的方向列表：例如，十只鸽子的飞行路径。我们如何找到平均方向？简单地平均这些角度（例如 $(1^\circ + 359^\circ)/2 = 180^\circ$ ）会得到无意义的结果。正确的方法是像物理学家一样思考。

想象一下，我们观测到的 $n$ 个角度 $\theta_i$ 中的每一个都是半径为 1 的轮子边缘上的一个点。我们可以用一个从轮心到该点的矢量来表示每个点。这个矢量的坐标是 $(\cos \theta_i, \sin \theta_i)$ 。为了求平均值，我们只需像处理矢量一样：将它们全部相加，然后除以它们的数量 $n$ 。这就得到了平均矢量，也就是我们数据点在圆上的“质心”。

\bar{\mathbf{v}} = \left( \frac{1}{n}\sum_{i=1}^{n}\cos \theta_{i}, \frac{1}{n}\sum_{i=1}^{n}\sin \theta_{i} \right)

这个合矢量 $\bar{\mathbf{v}}$ 的方向为我们提供了一个对平均方向 $\mu$ 的合理估计。但它的长度呢？这个长度，记为 $\bar{R}$ ，被称为样本平均合矢量长度。它告诉我们数据的聚集程度。

如果我们所有观测到的角度都相同，所有的矢量都会指向同一个方向，它们的平均值将是一个长度为 $\bar{R}=1$ 的矢量。
如果我们的角度均匀地散布在整个圆周上，这些矢量会指向四面八方，很大程度上相互抵消，它们的平均矢量会非常短， $\bar{R} \approx 0$ 。

因此， $\bar{R}$ 是一个直接、直观的集中度度量，范围从 $0$ （完全分散）到 $1$ （完全集中）。

用两个数字概括数据精华

这种矢量平均法不仅仅是一个巧妙的技巧；它捕捉了数据的本质。在统计学中，充分统计量是数据的一个摘要，它保留了关于底层分布未知参数的所有信息。原始数据中的任何其他细节对于确定参数都是无关紧要的。

对于 von Mises 分布，事实证明，在除以 $n$ 之前的矢量总和的两个分量，构成了对平均方向 $\mu$ 和集中度 $\kappa$ 两者的充分统计量：

\mathbf{T} = \begin{pmatrix} \sum_{i=1}^{n}\cos(\theta_{i}) \sum_{i=1}^{n}\sin(\theta_{i}) \end{pmatrix}

这是一个非凡的事实。这意味着如果你有百万个数据点，你不需要存储全部一百万个角度。你的数据所提供的关于底层 von Mises 分布的所有证据都完美地封装在这两个数字中！这有力地证明了一个好的模型如何在不损失任何信息的情况下实现巨大的数据压缩。

从观测到估计

现在我们可以将理论与实践联系起来。我们有一个观测到的集中度度量，即样本平均合矢量长度 $\bar{R}$ 。我们也知道，对于一个理论上的 von Mises 分布，总体平均合矢量长度是集中参数的一个特定函数，由 $R(\kappa) = I_1(\kappa)/I_0(\kappa)$ 给出。

从我们的数据中估计未知集中度 $\kappa$ 最自然的方法是找到一个值，我们称之为 $\hat{\kappa}$ ，使得理论集中度与我们观测到的集中度相匹配。也就是说，我们解这个方程：

\bar{R} = \frac{I_1(\hat{\kappa})}{I_0(\hat{\kappa})}

这个过程被称为矩估计法，而对于 von Mises 分布，它恰好也是著名的最大似然估计 (MLE)。它能找到使我们观测到的数据最可能出现的参数值。虽然这个方程涉及贝塞尔函数且必须通过数值方法求解，但其原理简单而强大：我们正在调整模型的“确定性旋钮” $\kappa$ ，直到其理论属性与我们在现实世界中看到的情况相匹配。

随机转向的算术

如果我们组合随机方向会发生什么？假设一个机器人试图按照 von Mises 分布给出的方向移动，但它的轮子打滑，增加了另一个也遵循 von Mises 分布的微小随机误差。它的最终方向的分布是什么？

这个操作是卷积。在直线上，两个独立的高斯变量相加会产生另一个更宽的高斯分布。在圆上，情况更为微妙。两个 von Mises 变量的和通常不是另一个 von Mises 分布。然而，我们可以使用一种类似于傅里葉级数的强大数学工具——特征函数，或称三角矩——来分析它。

一个循环分布的 $n$ 阶三角矩是 $e^{in\theta}$ 的期望值。圆上的卷积定理指出，独立随机角度之和的矩就是它们各自矩的乘积。对于 von Mises 分布，一阶矩的模长恰好是平均合矢量长度 $R = I_1(\kappa)/I_0(\kappa)$ 。因此，如果我们对两个合矢量长度分别为 $R_1$ 和 $R_2$ 的 von Mises 分布进行卷积，它们和的合矢量长度就是 $R_{sum} = R_1 \times R_2$ 。由于 $R$ 总是小于 1，乘积将总是小于任何一个单独的 $R$ 。这优美地展示了不确定性是如何累积的：每一次随机转向都使最终方向变得更不确定。

用模块构建：建模复杂模式

自然界并不总是那么简单，只有一个概率峰值。想想大脑视觉系统中一个对水平线反应强烈的神经元。由于 $0^\circ$ 的线与 $180^\circ$ 的线是相同的，它的调谐曲线将有两个峰，正好在圆上相对。

我们可以通过创建von Mises 分布的混合来模拟这种复杂的模式。对于双峰方向调谐，我们可以简单地将两个相同的 von Mises 分布相加，一个以 $\mu_1$ 为中心，另一个在相反的方向 $\mu_2 = \mu_1 + \pi$ ：

p(\theta) = \frac{1}{2} p_{VM}(\theta; \mu_1, \kappa) + \frac{1}{2} p_{VM}(\theta; \mu_1+\pi, \kappa)

这个简单的构造产生了一个具有两个相同峰值的分布。我们的基于矢量的统计量会发生什么变化？如果我们计算平均矢量（一阶三角矩），来自 $\mu_1$ 处峰值的拉力会被来自 $\mu_1+\pi$ 处峰值的拉力完美抵消。合矢量为零！

这并不意味着数据是均匀的。这只意味着我们的一阶“质心”不再提供信息。我们必须更深入地研究高阶结构。如果我们检查二阶三角矩 $E[e^{i 2\theta}]$ ，它对应于在平均之前将圆自身缠绕两次，我们发现它不为零。它完美地捕捉了双峰分布的潜在二重对称性。这是一个绝佳的例子，说明了不同的数学“探针”（三角矩）如何能够揭示隐藏在数据中的不同层次的结构。

方向性信息的内蕴几何

作为最后的思考，我们可以退一步，将所有可能 $\mu$ 和 $\kappa$ 值的整个 von Mises 分布族视为一个单一的对象：一个二维曲面，或称统计流形。这个曲面上的每一点都是一个独特的概率分布。

这个曲面的“距离”或几何结构由 Fisher 信息度量来描述。该度量量化了两个邻近分布的可区分性。例如，参数 $\kappa$ 的 Fisher 信息告诉我们单个数据点能提供多少关于真实集中度的信息。信息量越大，我们就能越精确地估计参数。

von Mises 流形最优雅的特性之一是参数 $\mu$ 和 $\kappa$ 是“正交的”。这意味着数据提供的关于平均方向 $\mu$ 的信息与它提供的关于集中度 $\kappa$ 的信息是完全分离的。了解其中一个不会混淆我们对另一个的认知。这种内在的分离简化了统计推断，也证明了方向数据分析背后优美的数学结构。另一种衡量此流形上两点之间“距离”的方法是 Kullback-Leibler (KL) 散度，这是一个源于信息论的概念，用于量化用一个分布去近似另一个分布时所损失的信息。这些高级概念揭示了描述方向这个看似简单的任务，实际上是由一个丰富而深刻的几何学所支配的。

应用与跨学科联系

掌握了 von Mises 分布的原理后，我们现在就像装备了一种新型罗盘的探险家。这个罗盘不指向北方，而是指向理解，揭示了科学版图上各种现象背后隐藏的统一性。对于任何具有优先方向但易受随机误差影响的事物——无论是醉酒水手的行走、在磁极周围抖动的旋转罗盘指针，还是行星轻微摇晃的轨道——它都是自然法则。让我们踏上一段旅程，看看这个罗盘将我们引向何方，从信号和光的无形世界，到生命的复杂机制，再到我们头脑中的思想本身。

从信号到光：物理世界

我们的旅程始于工程和物理领域，在这里，von Mises 分布的出现并非出于刻意的模型选择，而是基本过程的必然结果。思考一下现代通信面临的挑战。信息通常被编码在波的相位中——无论是无线电波、Wi-Fi 信号，还是光纤中的光。相位是一个角度，是圆上的一个点。你发送一个具有精确相位 $\theta$ 的信号，但宇宙是一个充满噪声的地方。当我们接收到信号时，它已经被无数微小的随机干扰所破坏，我们可以将其建模为复高斯噪声。

当我们将 Bayes 推断的逻辑应用于此问题时，一件非凡的事情发生了。如果我们开始时对原始相位没有任何偏好（均匀先验），然后接收到单个含噪测量值，我们对真实相位的更新信念就不再是均匀的。它会锐化成一个 von Mises 分布。这个分布的平均值指向我们对相位的最佳猜测，而其集中参数 $\kappa$ 则告诉我们有多确定。一个强而清晰的信号会产生一个高 $\kappa$ ；我们非常自信。一个埋藏在噪声中的微弱信号则导致一个低 $\kappa$ ；我们的信念在圆周上分布得很宽。观察一个含噪方向信号的行为，自然而然地就从以太中变幻出了一个 von Mises 分布。

同样地，这个原理也优美地延伸到了光学世界。想象一束光，其偏振角不是完全稳定，而是在一个平均方向周围随机抖动，这种波动可以完美地用 von Mises 分布来描述。现在，我们让这束光通过一个固定的偏振片，就像你太阳镜的镜片一样。根据 Malus 定律，透过的光量取决于光的偏振方向与偏振片轴线之间夹角的余弦平方。由于输入角度是随机的，输出強度将会波动。我们测量的平均强度是多少？

通过对所有可能的角度进行加权平均（权重为 von Mises 概率），我们得出了一个非常优雅的结果。平均透射强度取决于平均角度、偏振片的角度，以及至关重要的，光偏振抖动的集中度 $\kappa$ 。当 $\kappa$ 为零（完全随机）时，恰好一半的光透过。当 $\kappa$ 趋于无穷大（完全稳定）时，我们恢复了熟悉的、确定性的 Malus 定律。von Mises 分布在两个极端之间提供了一座无缝的桥梁，将微观的统计描述与宏观的、可测量的结果联系起来。

生命的蓝图：生物学与生物力学

看来，自然界在我们之前很久就发现了 von Mises 分布的效用。它被写入了动物的行为以及它们身体的结构之中。

思考一下动物迁徙的壮观景象。一只鸟是如何导航数千英里的？它有一个内部罗盘，但和任何现实世界的仪器一样，它并非完美。我们可以将鸟群的飞行方向建模为从一个 von Mises 分布中抽取的样本，其中平均值 $\mu$ 是它们预期的航向，而集中度 $\kappa$ 则衡量它们的导航精度。这不仅仅是一种描述上的便利；它是一个强大的科学发现工具。生物学家可以用它来检验关于动物使用何种线索进行导航的假设。例如，通过在实验室环境中操纵磁场，他们可以检查鸟类定向尝试的平均方向是否按可预测的方式移动。我们甚至可以设计最强大的统计检验来区分相互竞争的理论——例如，根据少数几次观测，判断鸟类是试图向北飞还是向西飞。

描述鸟类飞行的数学同样也描述了我们自己身体内静止的结构。看看肌腱或韧带。它是一种纤维增强的复合材料，由无数微小的胶原纤维构成。为了提供纵向强度，这些纤维必须高度对齐。但自然界的制造过程从不完美；总会存在一些离散。任何给定纤维的取向都可以建模为三维空间中的一个随机方向，集中在肌腱的主轴周围。这由我们的分布在三维空间中的类似物，即 von Mises-Fisher 分布来描述。在这里，集中参数 $\kappa$ 不再仅仅是一个统计抽象；它是组织结构完整性的直接度量，并决定其宏观力学性能。高的 $\kappa$ 意味着一个组织良好、刚性的组织，而低的 $\kappa$ 则表示一个更柔韧或无序的结构。

这种联系在再生医学领域成为希望的灯塔。脊髓损伤后，一个主要挑战是促使被切斷的神经细胞（轴突）重新生长穿过受损区域并重新连接。一种有前景的策略是植入含有微小、对齐通道或纤维的生物相容性支架。其思想是为再生的轴突提供物理引导。我们如何知道它是否有效？我们可以测量再生轴突相对于支架轴线的角度。如果治疗成功，这些角度将遵循一个具有高集中度 $\kappa$ 的 von Mises 分布。该分布的循环方差，一个由 $V = 1 - A(\kappa)$ （其中 $A(\kappa) = I_1(\kappa)/I_0(\kappa)$ ）给出的角展量度，为治疗的有效性提供了一份直接、定量的成绩单。更小的方差（因此更大的 $\kappa$ ）意味着更好的引导和更大的功能恢复机会。

大脑的内部罗盘：计算神经科学

也许 von Mises 分布最深刻的应用在于人类大脑这个三磅重的宇宙中。似乎大脑本身就是用这种循环语言进行思考的。

在20世纪80年代，研究人员在大鼠大脑中发现了“头朝向细胞”。这些神经元仅在动物头部指向特定方向时才剧烈放电。总的来说，这些细胞的放电模式形成了一个内部罗盘，代表了大脑对其当前朝向的信念。这个信念不是一个单一、确定的角度，而是一个概率分布——一个 von Mises 分布。当动物接收到新的感官信息——例如，来自其眼睛的信息——它会使用不是别人，正是 Bayes 定理来更新其信念。这种“信念更新”的行为在数学上对应于将先验的 von Mises 分布与新证据（同样也建模为 von Mises 分布）相结合。结果是一个新的后验分布，它再一次是 von Mises 分布。它的新平均值是先验方向和感官方向的加权平均，权重分别是它们各自的集中度或确定性。看来，大脑是一个 Bayes 推理引擎，而 von Mises 分布是它用于推理方向的母语。

这种方向性语言也物理地铭刻在大脑的布线中。像扩散磁共振成像 (diffusion MRI) 这样的技术使我们能够通过测量白质束（连接不同大脑区域的巨大神经高速公路）的取向来绘制大脑的“连接组”。在任何给定点，尤其是在通路交叉的地方，纤维取向不是单一方向，而是一个分布，通常建模为 von Mises-Fisher 分布的混合。通过计算模拟概率性地遵循这些局部方向线索的路径——一个称为纤维束追踪的过程——神经科学家可以重建构成所有认知基础的复杂连接网络。

更深层次的联系与计算

von Mises 分布的影响范围甚至更广，在不同领域之间建立了令人惊讶的联系，并促成了我们用来探索其能力的模拟本身。

在信号处理中，工程师使用“窗函数”来分析信号的有限片段。最常见的之一是 Hann 窗，其循环形式有一个简单的形状，与 $1-\cos(\theta)$ 成正比。这看起来与 von Mises 分布惊人地相似——它具有周期性，并且有一个单峰和单谷。但它究竟是不是呢？仔细检查后发现它不是； $\cos(\theta)$ 的线性函数永远不可能等于 $\cos(\theta)$ 的指数函数。然而，我们可以提出一个更复杂的问题：近似 Hann 窗的最佳 von Mises 分布是什么？通过强制它们的一阶三角矩（一个关键的循环形状度量）相等，我们可以找到一个独特的 von Mises 分布，作为最接近的替代品。这教给我们一个宝贵的建模教训：即使两个概念不完全相同，我们也可以通过匹配它们最基本的属性来在它们之间建立桥梁。

最后，有了所有这些精彩的模型，我们如何在计算机上实际应用它们呢？我们如何生成遵循 von Mises 分布的随机数？一种优雅的技术是拒绝采样。想象一下，你想从一个复杂的形状（我们的目标 von Mises 密度）中采样点，但你只知道如何在一个包含它的更简单、更大的形状（一个提议分布，如包裹柯西分布）内均匀生成点。方法很简单：在简单形状中生成一个随机点。如果它恰好落在复杂的目标形状内部，你就保留它。如果不是，你就拒绝它并再试一次。该方法的艺术和科学在于选择一个尽可能紧密“拥抱”目标的提议形状，以最大限度地减少拒绝次数。这种对计算效率的追求本身就成了一个优美的优化问题，是使这些理论模型在实践中有用的一个隐藏的优雅层次。

从无线电波的相位到肌腱中的纤维，从鸟的飞行到大脑的布线，von Mises 分布一次又一次地出现。这是数学统一力量的证明，一个单一、简单的思想为纷繁多样的自然现象合唱提供了通用语言。