
在数学和科学的世界里,概率遵循着严格的规则:它们必须是正数,并且总和为一。然而,现代计算中最强大的工具之一,却是一个看似打破了这条规则的概念:未归一化概率。这是一种能够正确捕捉事件相对机会,但其总和不为一的度量,代表了一种“非正常”的分布。虽然它看起来可能只是通往真实概率的一个踏脚石,但直接使用这些未归一化的形式往往是唯一可行的前进道路。
将这些相对权重转换为有效概率分布的主要障碍,在于计算一个单一的值——归一化常数,通常用 表示。对于物理学、统计学和机器学习中许多复杂的高维问题,计算这个常数在分析上或计算上都是不可能完成的任务。本文旨在解决一个核心问题:如果我们甚至无法计算真实概率,我们如何能进行有意义的推断和模拟?
本文将引导您了解这个迷人而强大的概念。第一章“原理与机制”将揭开未归一化概率的神秘面纱,解释其与归一化常数的关系,并介绍无需它即可工作的马尔可夫链蒙特卡洛(MCMC)方法的计算魔力。第二章“应用与跨学科联系”将展示其变革性的影响,探索这个单一思想如何解锁从统计力学、免疫学、网络科学甚至到宇宙学等不同领域的问题。
想象你正在一个赛马场。你不知道任何一匹马获胜的确切概率,但一位老手告诉你:“马A获胜的可能性是马B的两倍,而马C的可能性是马B的三倍。”你没有概率,因为概率必须是介于0和1之间且总和为1的数字。你所拥有的是一组相对权重:如果我们给马B分配权重1,那么A的权重为2,C的权重为3。这个小小的数字集合————就是我们所说的未归一化概率分布的核心。它完美地捕捉了相对机会,但它还不是一个“正常”的概率分布。
本章将带领我们探究为何科学家和数学家如此钟爱这些“非正常”分布。我们将看到,在科学中许多最深刻、计算最密集的问题中,从理解原子的行为到追踪金融市场,使用未归一化概率不仅是一种便利——它更是解锁解决方案的关键。
一个概率分布,我们称之为 (对于某个结果 ),有一条严格的规则:如果你将所有可能结果的概率相加,你必须得到1。即 。我们的赛马权重 未能通过这个测试;它们的和是6。
那么我们如何将这些权重转化为真实的概率呢?方法非常简单。你只需将每个权重除以它们的总和。这个总和,即“使一切变得正确”的值,被称为归一化常数,通常用字母 表示。对于我们的马,。因此,真实的概率是马A为 ,马B为 ,马C为 。请注意,它们现在正确地加起来等于1了。
我们可以将其写成一个通用规则。如果我们有一个未归一化概率 ,那么真实概率是:
对于连续变量,求和变成积分:。
这个想法不仅仅是一个数学游戏;它处于统计力学的核心。当物理学家研究一个处于热平衡状态的系统,比如一团气体粒子时,他们发现系统处于具有能量 和粒子数 的特定微观状态的概率,与一个简单而优雅的表达式成正比,这个表达式称为玻尔兹曼因子。对于一个能量为 且被 个玻色子占据的单一量子能级,这个“统计权重”是一个未归一化概率,由 给出,其中 是温度, 是化学势。所有基础物理——能量与熵之间的权衡——都体现在这个指数项中。为了得到实际概率,必须将这些权重在所有可能的占据数 上求和,以找到归一化常数,物理学家们著名地称之为配分函数 。但通常,最重要的物理见解仅仅来自观察这些未归一化权重的比率,而根本无需费心去计算 。
让我们从物理学转向数据和推断的世界。想象你是一位试图破案的侦探。你从一个预感(先验信念)开始,然后随着你收集证据(数据),你更新了你对所发生事件的信念(后验信念)。这就是贝叶斯推断的精髓,数学上由贝叶斯定理捕获:
分母中的项 是观测到该证据的总概率,是对所有可能假设平均后的结果。它通常是一个极其复杂的积分或求和,其唯一目的就是作为一个归一化常数,确保后验概率的总和为1。
这正是未归一化分布大放异彩的地方。我们可以直接忽略分母,写成:
这表明后验概率与似然乘以先验概率成正比。右侧的这个乘积给了我们一个未归一化的后验分布。在许多情况下,这已足够我们使用。
思考一个来自贝叶斯统计的实际例子。假设我们想估计一个速率参数 。我们从一个关于 的先验信念(一个 Gamma 分布)开始,然后我们收集两份数据:一个计数 (来自泊松过程)和一个时间测量 (来自指数过程)。先验和数据的似然都带有它们自己看起来很杂乱的常数。但是当我们把它们相乘以求 的后验时,我们可以愉快地偷个懒,直接丢掉每一个不涉及 的项。我们发现未归一化的后验与 成正比。我们对 的信念被数据塑造的所有信息,都包含在那个简单的函数形式里。所有其他的常数都被扫进了总的归一化常数 这个“地毯”下面。
你可能会说:“好吧,我们有了这个奇妙的未归一化分布。但如果我真的需要归一化的概率呢?或者如果我想计算某个量的平均值呢?”
要做到这一点,我们需要归一化常数 。而在这里我们撞上了一堵墙。对于许多,如果不是大多数,现实世界的问题,积分 在解析上是无法处理的。想象一下尝试解决像 这样的积分,或者更糟的是,像计算经济学中的 。这些都没有简单的公式。
在这种情况下,我们必须求助于计算机并进行数值积分。我们通过将曲线 下的面积切成大量微小的梯形或其他简单形状,并对它们的面积求和来近似该面积。这给了我们一个 的近似值,然后我们可以用它来归一化我们的分布或计算期望值。例如,要找到具有未归一化密度 的分布的方差,我们需要计算积分的比率,比如 。注意到归一化常数 会出现在每一项的分母中,但计算仍然需要评估这些困难的积分。
这个计算负担,尤其是在具有许多变量(高维度)的问题中,可能是巨大的。我们似乎陷入了困境。我们有了景观的形状,但我们无法测量它的总体积,这似乎阻止了我们去适当地探索它。真的是这样吗?
这里我们来到了现代计算科学中最杰出的思想之一。如果我们能够在不计算归一化常数 的情况下,探索我们的概率景观并从中抽取样本,那会怎么样?这听起来像魔术,但它是一类名为马尔可夫链蒙特卡洛(MCMC)算法背后的原理,而Metropolis-Hastings 算法是其中最著名的成员。
让我们回到我们那个山丘景观的比喻,其中任何一点 的高度由我们的未归一化概率 给出。我们希望以这样一种方式在这片景观中漫步,即我们在任何区域停留的时间与其高度(其概率)成正比。Metropolis-Hastings 算法为我们提供了一个实现这种“智能”随机游走的简单秘诀。
假设我们的“步行者”当前在位置 。
提议一个移动: 我们随机选择一个附近的位置跳跃过去,称之为 。这个提议是根据某个提议分布 做出的。
决定是否接受: 现在,戏法来了。我们不是自动跳跃。我们根据一个计算出的接受概率 来做决定。这个计算的核心是一个比率:
仔细看!这个比率涉及 除以 。如果我们用它们的“正常”形式写出来,它们会是 和 。但是那个讨厌的归一化常数 同时出现在分子和分母中,所以它完美地抵消了!
我们仅需知道未归一化的分布就可以计算这个比率。这就是魔术所在。该算法对概率空间的总“体积”一无所知,但它仍然可以做出局部正确的决定。
完整的接受概率是 。我们总是接受移动到“更高”(更可能)的位置。我们可能会以一定的概率接受移动到“更低”的位置,这使得步行者能够探索整个景观,而不仅仅是卡在最高的山峰上。min(1, ...) 部分的精妙之处在于确保我们的接受概率是一个介于0和1之间的有效概率。一个简单的实现,如果只使用比率,可能会计算出一个大于1的值,这作为概率是毫无意义的。
这个简单的原理极其强大。无论是模拟分子状态 还是从统计模型中抽样,该算法都只需要问:“这个新位置相比我现在的位置,可能性是高多少还是低多少?”这个未归一化概率的比率就是它导航最复杂分布所需的全部信息。提议的选择至关重要;一个糟糕的提议方案可能会建议一些总是被拒绝的移动,因为它落在了概率近乎为零的区域,使得探索异常缓慢。但基本原则依然存在:比率,而非绝对值,才是关键。
这个概念——将分布的基本“形状”与其归一化分离开来——是计算科学中伟大的统一思想之一。它从我们简单的三匹马赛跑,延伸到随机微积分的前沿。
在信号处理和金融工程等高级领域,一个核心问题是滤波:从一连串嘈杂的观测数据(如 GPS 信号,)中估计一个隐藏的、演变的状态(如卫星的真实位置,)。目标是找到在给定直到时间 的所有观测数据的情况下, 的概率分布。这就是*归一化滤波器*,记为 。
解决这个问题的现代理论,通过所谓的 Zakai 方程,遵循了一条熟悉的路径。理论不是直接处理归一化滤波器 ,而是首先引入一个更简单的对象:未归一化滤波器 。这个对象根据一个更易于管理的方程演变。你认为 和 是如何关联的呢?你猜对了。真实的、归一化的分布是通过将未归一化的版本除以其总质量来找到的:
在这里, 代表将未归一化密度在 的所有可能状态上积分。这与我们之前看到的归一化常数 是同一个东西,只是现在出现在一个远为复杂、无限维的背景下。原理依然成立。从离散状态到连续路径,核心思想是相同的:首先,找到描述你感兴趣事物形状的相对权重,然后——只有在必须时——才去操心将它们全部加起来以变成正常概率的繁琐任务。真正的美,和真正的工作,都在未归一化的世界里。
在上一章中,我们认识了一个奇特而强大的角色:未归一化概率。我们发现了无需知道归一化常数——那个臭名昭著的配分函数 ——所带来的令人振奋的自由,它常常是计算中不可逾越的障碍。你可能会认为这只是一个聪明的数学捷径,一个为陷入困境的物理学家准备的小众技巧。但事实远非如此。
这种自由不仅仅是一种便利;它是一种深刻的解放。它是解锁广阔计算科学领域的钥匙,是模拟复杂现象的新语言,也是解决物理学中一些最深层问题的概念工具。因此,现在让我们踏上一段旅程。我们将从原子之心走到宇宙边缘,我们将看到这一个简单的思想—— 的力量——如何将一条统一的线索贯穿于科学丰富而奇妙的织锦之中。
首先,让我们亲自动手。假设你有一个理论模型,它为你提供了某个系统的未归一化概率分布。它可能是蛋白质的能量景观、金融市场的配置,或是量子系统的状态。这个分布可能是一个百万维空间中极其复杂的函数。你如何可能“理解”它?你无法绘制它。你无法对它积分。你能做什么呢?
答案既简单又深刻:你向它提问。你通过生成样本——根据该概率抽取的系统代表性快照——来做到这一点。如果你能得到大量的这些样本,你几乎可以计算任何你关心的平均属性。这就是蒙特卡洛方法的核心。当然,挑战在于,当分布是一个我们只知道到一个常数的奇怪形状时,如何抽取样本。
最早、最直观的想法之一是拒绝抽样。想象画布上画了一个形状,但画布被窗帘遮住了。你不知道这个形状的面积(),但有人告诉了你它可能的最大高度。你现在可以向一个你知道能完全包围这个形状的矩形背板上随机投掷飞镖。对于每一个落下的飞镖,你问窗帘后面的朋友,它是否击中了形状。通过只收集击中形状的飞镖,你得到了一组完全按照隐藏形状的面积分布的点。你在不知道其总面积的情况下,对分布进行了抽样!正是这项技术让物理学家能够模拟像核 β 衰变这样的过程。发射电子能量的未归一化概率密度 可能形式复杂,但通过使用拒绝抽样,我们可以生成一组忠实的模拟衰变事件,并研究它们的统计特性。
拒绝抽样很巧妙,但如果形状非常“尖锐”,它的效率可能会非常低。一种更强大、更广泛的技术是马尔可夫链蒙特卡洛(MCMC)。MCMC 背后的思想不同。我们不是每次都从头开始投掷飞镖,而是在可能性的空间中进行一次“醉汉游走”。但这是一种特殊的游走:它有偏向地在概率更高的区域花费更多时间。
它是如何工作的呢?从你当前的位置 ,你提议一个随机的邻近步骤到一个新位置 。你应该接受它吗?魔术就在这里。接受这一步的决策规则通常只取决于未归一化概率的比率,。注意发生了什么!未知的常数 同时出现在分子和分母中,所以它完全抵消了。我们不需要知道它!
想象一个机器漫游车在一颗火星卫星的网格上探索,试图在科学价值更高的区域花费更多时间。它的“价值地图”是一个未归一化的概率分布,可能给予网格中心更高的权重。从当前位置,它随机选择一个相邻的方格移动。如果新方格有更高的价值,它总是移动。如果价值更低,它以等于价值比率的概率移动到那里。如果它“拒绝”了这次移动,它只是在原地停留片刻,然后再试一次。一段时间后,你会发现漫游车的路径已经勾勒出了高价值区域。其位置列表构成了一组来自目标分布的样本。
这不仅仅适用于漫游车。一旦我们有了这个样本链,我们就可以回答具体的物理问题。假设我们有一种复杂的材料,其处于某个微观状态 的概率由某个棘手的未归一化密度 给出。我们还知道温度 如何依赖于该状态。那么整个材料的平均温度是多少?我们只需运行我们的 MCMC 模拟,生成一个长长的状态列表 ,然后计算所有这些样本上 的平均值。现代计算科学的这个奇迹——通过巧妙的加权随机抽样来估计棘手的积分——完全建立在未归一化概率的基础之上。这个思想的更复杂版本,比如 Griddy-Gibbs 采样器,甚至允许我们通过在网格上近似它们,并处理每个网格点上的未归一化概率质量,来处理奇异的、非标准的分布。
未归一化概率的用途远不止是作为一种计算工具。在科学的许多分支中,它是描述世界最自然的语言。
这个思想的最初发源地是统计力学。一个在温度 下的物理系统处于能量为 的状态的概率,与玻尔兹曼因子 成正比。这是一个未归一化概率。臭名昭著的配分函数 是这个因子在所有可能状态上的和(或积分)。虽然计算 是统计力学的核心任务,且常常是不可能的,但大量的物理学仅从玻尔兹曼因子本身就可以被理解。
考虑一条长而柔韧的聚合物链,比如一条DNA链或一种合成塑料。它的统计特性可以用路径积分来描述,其中任何给定的扭曲构象的“未归一化概率”与 成正比,这里 是链的“作用量”或弯曲能量。现在,想象我们把这条聚合物的一端固定在一堵墙上,并用第二堵墙在短距离 之外限制它。链条扭动、翻滚,探索着所有对它可用的构象。通过这样做,这条单一的微观链对限制它的墙壁施加了一个真实的、可测量的向外的力。这种熵力与传统的推拉无关;它的产生纯粹是因为链条试图最大化其可用状态的数量,这种偏好被编码在其未归一化的概率分布中。我们可以计算这个力,并且我们发现它关键性地依赖于链条随机游走的统计特性,所有这些都是在从未计算完整配分函数的情况下推导出来的。
同样的逻辑也位于贝叶斯推断的核心,这是现代不确定性下推理的框架。在贝叶斯观点中,给定一些数据 的假设 的后验概率由著名的规则给出:。用白话说:“后验概率正比于似然乘以先验概率。”这是一个关于未归一化概率的陈述!左边是未归一化的后验信念。右边是似然(模型对数据的预测)和先验(我们在看到数据前的信念)的乘积。归一化常数 通常是一个极其困难的积分。
但很多时候,我们并不需要它。假设一位生物学家试图根据一个嘈杂的测量值 来估计细胞上某种蛋白质的丰度 。她可能会测试两种关于测量噪声性质的不同假设——比如,一个高斯模型与一个对数正态模型。每个假设对应于不同的似然函数, 和 。通过简单地计算这两种模型的未归一化后验的比率,她可以直接比较在测量点上哪个模型得到数据的更好支持。这就是科学建模的实践。
这种方法也可以做出强大的定量预测。一位免疫学家可能对 B 细胞分化进行建模,其中一个细胞必须在成为 IgE 型或 IgG1 型抗体产生细胞之间做出“选择”。这个选择受到化学信号的影响。模型可能陈述,转换为 IgE 的未归一化概率 和转换为 IgG1 的 以不同的方式依赖于信号强度。选择 IgE 命运的细胞的实际分数将是 。通过在一组条件下测量这个分数,我们可以确定模型中内在常数的比率。然后,我们可以以惊人的准确性预测,当信号环境改变时结果会是什么。这是一个美丽的例子,说明一个关于竞争的、未归一化倾向的简单模型如何能解释复杂的生物调节。
我们已经看到,未归一化概率可以用来模拟和建模。但它们的触角延伸得更远,触及数学最抽象的角落和存在的最深刻问题。
你看,概率不一定只存在于数轴上。我们可以在更抽象的空间上定义概率分布。考虑一个卫星、一架无人机或一个分子在空间中的朝向。任何朝向都可以用一个旋转矩阵来描述,所有这些矩阵的集合构成了一个称为 SO(3) 的数学空间。我们可以在这个空间上定义一个未归一化的概率密度,例如,一个在某个“基准”朝向周围达到峰值的分布。这不仅仅是一个数学上的好奇心;它是最先进的跟踪系统的基础。在一个隐马尔可夫模型中,一个物体的朝向可以随时间被跟踪,其中看到特定传感器读数的似然,以及从一个朝向转换到下一个朝向的概率,都是由这个旋转空间上的未归一化分布指定的。
这种思维方式也阐明了复杂性如何从简单的规则中产生。许多真实世界的网络,从互联网到社交网络再到蛋白质相互作用网络,都是“无标度”的,这意味着它们有少数高度连接的枢纽和许多连接很少的节点。这种结构从何而来?最成功的模型之一,优先连接,就是基于一个未归一化概率。随着网络的增长,新节点以与其“吸引力” 成正比的概率连接到现有节点 。这个吸引力本身可能是节点当前连接数 和其他一些属性(比如它的“财富” )的函数。事实证明,这个简单的局部规则——根据一个未归一化的分数进行连接——足以生成我们在真实世界中随处可见的复杂的、全局性的、无标度的架构。
最后,让我们把目光投向宇宙。现代物理学中最深的谜团之一是宇宙学常数 的值,即真空的能量密度。它的测量值非常小,比理论预测小很多个数量级。为什么?因果熵原理提供了一个推测性的但引人入胜的解释,其根植于弦理论提出的“多重宇宙”概念。其思想是:可能存在一个由可能宇宙组成的广阔“景观”,每个宇宙都有不同的 值。一个宇宙具有某个值的先验概率可能遵循某个分布,比如 。
然而,我们只能存在于一个允许观察者演化的宇宙中。一个宇宙能创造的观察者数量可能取决于 本身——太多,结构形成会被撕裂;太少,其他地方会出问题。这给了我们一个“人择加权因子” ,它与像恒星这样的东西产生的总熵成正比。我们观察到一个值 的(未归一化)概率就是这个乘积:。通过为这两个未归一化因子写下简单的模型,并找到使它们的乘积最大化的 值,物理学家可以对我们应该看到的宇宙学常数的值做出预测。这一惊人的推理思路,利用未归一化概率的逻辑来处理一个关于我们宇宙本质的问题。
从一个计算技巧到一个宇宙学原理,这段旅程完成了。贯穿始终的主线是相对比较的力量,它使我们从对绝对标度的苛求(这种要求常常分散注意力且无法实现)中解放出来。在模拟粒子衰变、预测免疫细胞的命运、计算聚合物的推力、跟踪卫星、生长网络或权衡宇宙的概率时,谦逊的未归一化概率证明了一个深刻的科学真理:有时候,理解事物之间的关系,就是解锁整体秘密所需要的一切。