try ai
科普
编辑
分享
反馈
  • 转移概率

转移概率

SciencePedia玻尔百科
核心要点
  • 转移概率基于未来仅取决于现在(马尔可夫性质)的原理,量化了从一个状态转移到另一个状态的可能性。
  • 这些概率可以通过计算转移频率,直接从观测数据中估算得出,这种方法被称为最大似然估计。
  • 随着时间的推移,许多受转移概率支配的系统会达到一种称为平稳分布的稳定平衡状态,其中处于任何状态的概率都保持不变。
  • 隐马尔可夫模型(HMMs)扩展了此框架,用于从间接、带噪声的数据中推断不可观测的系统状态,在遗传学和神经科学等领域有着深远的应用。
  • 这一概念提供了一种统一的语言来描述不同学科中的变化,从 DNA 的演化到量子通信的安全。

引言

我们如何为变化建模?从股票市场的波动到量子点的闪烁,系统处于不断变化之中。通常,系统如何达到当前状态的复杂历史与其下一步的预测无关;重要的是“现在”。这个核心思想,即马尔可夫性质,为理解变化提供了一个强大而简单的框架。然而,仅有原理是不够的。我们需要一种方法来量化这种变化——为从一个状态转移到另一个状态的机会赋予一个数值。这就是转移概率的作用。本文是对这一基本概念的全面指南。在第一章“原理与机制”中,我们将深入探讨其数学机制,探索如何定义和估计转移概率,如何将它们链接起来以预测未来,以及如何理解系统的长期平衡。接下来,“应用与跨学科联系”一章将展示这一简单思想如何成为贯穿科学的统一工具,使我们能够解码神经元受体的隐藏状态、追溯生命之树,甚至保障量子通信的安全。

原理与机制

想象一下你在观看一盘西洋跳棋。要预测下一步棋,你需要知道整盘棋的全部历史——每一次跳棋、每一次成王、每一次被吃掉的棋子吗?还是你只需要知道棋盘上当前的棋子布局?在科学和生活中的许多情况下,后者是正确的。未来只取决于现在的状态,而不是导致这一状态的复杂路径。这个极其简单的思想被称为​​马尔可夫性质​​(Markov Property),它是开启一种强大的思考变化方式的钥匙。

但仅仅说未来取决于现在还不够。我们需要知道如何取决于现在。这个“如何”由​​转移概率​​(transition probabilities)来量化。转移概率就是在一个步骤中从一个状态转移到另一个状态的机会。它是变化的规则手册。

“现在”的规则:什么是转移概率?

让我们动手实践一下。假设我们是观察沙漠狐狸的生物学家,并将其生活简化为三种状态:睡觉(S)、觅食(F)和狩猎(H)。我们观察狐狸 24 小时,并每小时记录一次其状态。我们如何计算一只正在睡觉的狐狸在下一小时开始觅食的概率呢?

最直接的方法就是计数。我们翻阅笔记,找出狐狸每次睡觉的时间点。假设我们找到了 8 个这样的实例。然后,我们查看在这些情况下,狐狸在接下来的一个小时里做了什么。假设在其中 5 个实例中,它开始觅食。我们对从睡觉到觅食的转移概率的最佳猜测,即​​最大似然估计​​(maximum likelihood estimate),就是观测到的频率:58\frac{5}{8}85​。

这是一个极其重要的原理。最直观的答案——基于我们所见计数的答案——也正是被严格的统计学理论所证实的答案。如果我们有一个系统可以是“活动”或“被动”状态,并且我们观察到在所有从“活动”状态开始的 N11+N12N_{11} + N_{12}N11​+N12​ 次转移中,有 N12N_{12}N12​ 次从活动状态转移到被动状态,那么我们对转移概率的最佳估计正是你所想的那样:p^=N12N11+N12\hat{p} = \frac{N_{12}}{N_{11} + N_{12}}p^​=N11​+N12​N12​​。

我们可以将所有这些概率组织成一个网格,即​​转移矩阵​​(transition matrix)。每一行对应一个起始状态,每一列对应一个结束状态。第 iii 行第 jjj 列的数字是从状态 iii 到状态 jjj 一步转移的概率。这个矩阵是系统动力学的完整 DNA;它告诉我们关于其单步行为的一切。

窥探未来:概率链

知道单步规则很好,但我们常常希望预测更远的未来。如果今年的经济处于‘增长’阶段,那么两年后它处于‘增长’阶段的概率是多少?

要回答这个问题,我们必须考虑所有可能发生的方式。经济可能在第一年保持‘增长’,然后在第二年继续保持‘增长’。或者,它可能在第一年陷入‘停滞’,然后在第二年回升至‘增长’。在两年内以‘增长’开始并以‘增长’结束,没有其他方式。总概率是这两条不同路径的概率之和:

P(Growth→Growth in 2 steps)=P(Growth→Growth)×P(Growth→Growth)+P(Growth→Stagnation)×P(Stagnation→Growth)P(\text{Growth} \to \text{Growth in 2 steps}) = P(\text{Growth} \to \text{Growth}) \times P(\text{Growth} \to \text{Growth}) + P(\text{Growth} \to \text{Stagnation}) \times P(\text{Stagnation} \to \text{Growth})P(Growth→Growth in 2 steps)=P(Growth→Growth)×P(Growth→Growth)+P(Growth→Stagnation)×P(Stagnation→Growth)

这种对所有可能中间状态求和的逻辑是 ​​Chapman-Kolmogorov 方程​​的核心。这是一个结构化常识的正式名称。这正是你将转移矩阵与自身相乘时发生的情况。平方矩阵中从状态 iii 到状态 jjj 的两步转移项 (P2)ij(P^2)_{ij}(P2)ij​,恰好是所有可能路径的总和。这是一个优美的数学工具,为我们处理各种可能性的簿记工作。无论我们是为经济建模,还是为计算机中的热存储位状态建模,这个原理都允许我们将概率链接起来,以展望更远的未来。

长远视角:寻找平衡

如果我们让系统运行很长很长时间,会发生什么?它会永远不可预测地跳动吗?还是会稳定下来,形成某种节奏?对于许多系统,一种优美的稳定性会出现。经过足够长的时间后,发现系统处于任何给定状态的概率变得恒定。这组长期概率被称为​​平稳分布​​(stationary distribution)。

想象一个在 IDLE(空闲)、COMPUTE(计算)和 STORE(存储)状态之间循环的计算机处理器。一开始,它的状态可能变化剧烈。但经过数百万个时间步长后,系统会达到一种平衡。流入每个状态的概率恰好等于流出该状态的概率。处于 IDLE 状态的概率 πIDLE\pi_{\text{IDLE}}πIDLE​ 变得恒定,因为系统从 STORE 状态进入 IDLE 状态的速率与它离开 IDLE 状态进入 COMPUTE 状态的速率完全平衡。

在数学上,这意味着如果我们的平稳概率向量是 π\boldsymbol{\pi}π,那么应用转移矩阵 PPP 不会改变它:πP=π\boldsymbol{\pi} P = \boldsymbol{\pi}πP=π。平稳分布是一个特殊的向量,它在一步时间变换后保持不变。它是整个过程的平衡点。

然而,并非所有系统都具有这种良好、稳定、长期的行为。为了存在唯一的平稳分布并保证系统会收敛到该分布,系统必须是​​遍历的​​(ergodic)。这个词包含了两个重要的思想:

  1. 链必须是​​不可约的​​(irreducible):你必须能够最终从任何状态到达任何其他状态。状态空间中没有不可逃脱的陷阱或完全隔离的孤岛。
  2. 链必须是​​非周期的​​(aperiodic):系统不应被强制进入一个固定的、确定性的循环(例如,必须从 A 到 B,然后 B 到 C,再回到 A,周期为 3)。自环(停留在同一状态的概率不为零)的存在是保证非周期性的一个简单方法。

一个遍历的系统是“行为良好”的。它会探索其所有可能的状态,并且不会陷入循环,确保从长远来看,它在任何状态花费的时间会收敛到一个可预测的平均值。

连续运动的世界:速率与概率

到目前为止,我们都是以离散的步长来思考:一小时、一年、一个时钟周期。但对于那些在时间上连续展开的过程,比如原子的放射性衰变或服务器下线,我们该如何思考?对于这些情况,我们考虑的不是跳跃的概率,而是跳跃的​​速率​​(rates)。

转移速率,记为 qijq_{ij}qij​,是系统从状态 iii 跳跃到状态 jjj 的“倾向性”。在一个微小的时间段 Δt\Delta tΔt 内,发生该特定跳跃的概率近似为 qijΔtq_{ij} \Delta tqij​Δt。因为这必须是一个概率,它告诉我们一些基本的东西:所有非对角线速率 qijq_{ij}qij​(其中 i≠ji \neq ji=j)必须是非负的。负速率意味着负概率,这违反了我们宇宙的基本公理。这是对我们如何为物理世界建模的一个简单而强大的约束。

这种连续时间的图像与离散时间的图像有着美妙的联系。想象一下,你正在观察一个在连续时间内演化的系统。你可以选择忽略它在每个状态中等待了多长时间,只写下它访问的状态序列。这个序列是一个离散时间的马尔可夫链,称为​​嵌入式跳跃链​​(embedded jump chain)。

这个嵌入链的跳跃概率与底层的连续时间速率有何关系?这非常直观。假设一个系统处于状态 iii,可以以速率 qijq_{ij}qij​ 跳到状态 jjj,或者以速率 qikq_{ik}qik​ 跳到状态 kkk。那么下一次跳跃到状态 jjj 的概率,就是流向 jjj 的速率占总“出口速率”的比例。也就是说,pij=qijqij+qikp_{ij} = \frac{q_{ij}}{q_{ij} + q_{ik}}pij​=qij​+qik​qij​​。如果系统在离开状态 0 后跳到状态 1 或状态 2 的可能性相同,这意味着这些转移的底层速率必须相等:q01=q02q_{01} = q_{02}q01​=q02​。一次跳跃会发生什么的概率,是由底层速率的相对强度决定的。

观察者的盲点:为什么我们低估了现实

这里我们来到了最后一点,一个微妙之处。我们的理论很美,但我们的工具并不完美。想象一下,我们正在观察一个可以在两种形状 A 和 B 之间翻转的单个分子。我们无法连续观察它;我们有一台相机,每隔 Δt\Delta tΔt 秒拍摄一张快照。

如果当我们拍照时分子处于状态 A,它迅速翻转到 B,然后在我们下一次快照前又翻转回 A,会发生什么?对我们观察者来说,什么也没发生。分子之前是 A,现在仍然是 A。我们完全错过了这次往返过程。

这不是一个无足轻重的问题。由于这些错过的事件,我们测量到的转移速率(我们的“表观”速率)将总是低于真实的底层速率。分子翻转得越快,我们的相机拍摄得越慢,我们错过的事件就越多,我们对系统真实动态性的低估就越严重。这种偏差总是负的;我们受时间限制的测量,描绘了一个比实际情况更“懒惰”的世界。

这是一个深刻的教训。观察行为,特别是离散观察,会过滤现实。理解转移概率和速率不仅使我们能够建立世界模型,还使我们能够理解自身测量的局限性,并纠正作为观察者所固有的盲点。从计算狐狸行为到努力理解量子测量的极限,理解转移概率的旅程就是一场深入探索变化本质及其感知的旅程。

应用与跨学科联系

我们已经花了一些时间来了解转移概率的机制,学习如何描述系统的逐步演化。但这不仅仅是一项数学练习。事实上,这个机制是科学家工具箱中最通用的工具之一。它是我们用来描述变化的语言,从活细胞的内部运作到量子设备的细微波动。现在,让我们踏上穿越科学领域的旅程,看看这个简单的思想能带我们走多远。我们会发现它提供了一条统一的线索,将看似迥异的领域编织成一幅美丽而连贯的织锦。

世界即马尔可夫链:直接观察

有时,我们很幸运。我们可以观察一个系统,清楚地看到其状态变化。在这些情况下,我们的概率模型直接反映了我们所观察到的。例如,想象一位物理学家正在研究一个“量子点”,这是一种可以发光的微小晶体。这个点可以“闪烁”,在明亮的‘ON’状态和暗淡的‘OFF’状态之间切换。如果我们长时间观察这个点,我们可以简单地计算它在(比如说)一千个时间步长内从‘ON’翻转到‘OFF’以及从‘OFF’翻转到‘ON’的次数。如果它在 100 次‘ON’状态开始的情况下,有 30 次翻转到了‘OFF’状态,那么我们对转移概率 P(ON→OFF)P(\text{ON} \to \text{OFF})P(ON→OFF) 的最佳猜测就是观测到的频率,即 0.3。

这种极其直接的方法,被称为最大似然估计,非常强大。它告诉我们,最“可能”的模型是与我们实际看到的数据最匹配的模型。同样的逻辑现在是材料科学前沿研究的核心。想象一个“自驾实验室”,它能自主进行实验以发现新材料。这个机器人可能会探索一系列不同的化学合成条件,我们可以将其视为系统的“状态”。通过记录它尝试的条件序列,我们可以构建其探索策略的马尔可夫模型。从一组条件转移到另一组条件的概率,比如 PabP_{ab}Pab​,可以通过计算它实际进行该转移的次数 nabn_{ab}nab​,再除以它从条件 aaa 开始的总次数来估计。转移概率的最优估计就是这个经验频率:P^ab=nab∑jnaj\hat{P}_{ab} = \frac{n_{ab}}{\sum_{j} n_{aj}}P^ab​=∑j​naj​nab​​。无论我们是为在‘空闲’和‘处理中’状态之间切换的简单服务器建模,还是为一个复杂的自动化化学家建模,同样的原理都适用。如果你能看到状态,你就能学会规则。

窥探幕后:隐马尔可夫模型

但是,当底层机制被隐藏起来时会发生什么?如果系统的真实状态是不可观测的,而我们所能看到的只是它们带噪声的、间接的影响,那该怎么办?汽车发动机可能处于‘健康’或‘故障’状态,但我们听到的只是一些奇怪的噪音。股票市场可能处于‘牛市’或‘熊市’状态,但我们看到的只是每日的涨跌。这就是真正神奇之处的开始,它源于我们框架的一个巧妙扩展,称为隐马尔可夫模型(Hidden Markov Model, HMM)。

HMM 的基本思想是将底层过程与其产生的观测分离开来。存在一个隐藏的状态序列——比如发动机的真实健康状况——它遵循一个良好、有序的马尔可夫链演化。我们看不到这些状态。相反,在每一步,隐藏状态会以一定的概率发射一个观测——一阵嘎嘎声、一次股价跳动。关键的见解是,我们收集到的观测序列通常不具备马尔可夫性质。我们今天听到的噪音取决于发动机今天的真实状态,但要推断那个真实状态,我们可能需要考虑我们听到的所有声音的历史。HMM 为我们提供了数学工具,让我们能够从可观测的结果逆向推导到隐藏的原因。

这个框架已经彻底改变了无数领域。例如,在遗传学中,它是基因定位的基石。隐藏的状态是一个孩子沿染色体遗传的亲本染色体序列(比如,来自母亲或父亲)。我们无法直接看到这个序列。我们能观察到的是特定位置的遗传标记。HMM 允许我们计算观察到特定标记模式的可能性,并由此推断出最可能的潜在遗传片段序列。更有甚者,我们可以建立复杂的模型来解释生物学的现实情况,比如“交换干涉”,即一个区域的重组事件(亲本染色体之间的切换)会使得邻近区域发生第二次重组事件的可能性降低。这意味着转移概率本身取决于前一次的转移——这超越了最简单的马尔可夫模型,但 HMMs 能够优雅地处理这种情况。

这种从噪声数据中推断隐藏动态的能力在神经科学中同样具有变革性。假设我们正在追踪神经元表面的一个受体分子。它可以处于“突触”状态(参与通讯)或“突触外”状态。我们无法确定它处于哪个状态,但我们可以通过显微镜看到它模糊的位置。使用 HMM 的连续时间版本,我们可以利用这些带噪声的位置轨迹,估算出受体跳入和跳出突触的底层速率 kESk_{ES}kES​ 和 kSEk_{SE}kSE​。这使得神经科学家能够测量这些运输动力学在学习和记忆形成过程中的变化,将分子运动的统计数据与认知的基础联系起来。

一旦我们有了一个模型,无论其参数是估计的还是给定的,我们都可以对系统的长期行为提出深刻的问题。在一个基因表达模型中,基因可以处于‘关闭’、‘低表达’或‘高表达’状态,我们可以计算出基因一旦处于‘高表达’状态,经历其他状态并首次返回‘高表达’状态所需的平均时间。这个“平均返回时间”就是该状态平稳概率的倒数——一个将微观转移规则与宏观时间尺度联系起来的极其简单的结果。在金融领域,给定长期的股票市场数据历史,我们可以使用像 Baum-Welch 算法这样的算法来找到最能解释观测历史的 HMM 参数,从而有效地从数据本身“发现”隐藏的‘牛市’和‘熊市’动态。

从生命之树到量子秘密

转移概率的影响范围甚至更广,延伸到生命的结构本身和物理学最深层的谜题。

思考一下生命之树,这张展示所有物种间进化关系的庞大分支图。DNA 序列中单个位点的演化可以被建模为一个马尔可夫过程。当我们从一个祖先追溯到一个谱系的后代时,该位点的核苷酸(A、C、G 或 T)可能会发生突变,或转移到另一个。在一定的进化时间(分支长度)内发生这种变化的概率就是一个转移概率。为了计算我们今天在不同物种中看到的 DNA 序列的可能性,我们必须考虑它们早已灭绝的共同祖先中所有可能存在的序列。这涉及到对沿树所有可能进化路径的概率求和——这是将我们的核心思想应用于一个不是在简单线上,而是在复杂分支树上展开的马尔可夫过程的宏伟应用。

转移概率也为我们提供了一种量化科学中最基本概念之一的方法:信息。对于任何平稳的马尔可夫过程,我们都可以计算其*熵率*。这个量由平稳概率和转移概率构建而成,告诉我们该过程在每一步上不可简化的、基本的不确定性。它是每个新状态带来的“惊奇”的平均量。对于一个在两个状态之间随机翻转的系统,熵率由其转移不确定性的加权平均值给出:H=π0Hb(p01)+π1Hb(p10)\mathcal{H} = \pi_0 H_b(p_{01}) + \pi_1 H_b(p_{10})H=π0​Hb​(p01​)+π1​Hb​(p10​)。这个数字代表了我们能将来自该源的数据压缩到何种程度的绝对极限。这是系统动力学与其信息内容之间的深刻联系。

最后,让我们看看量子世界。人们可能认为这些经典的概率模型在这里没什么可说的。但它们是不可或缺的。考虑一个量子密钥分发协议,其中两方 Alice 和 Bob 试图通过共享纠缠粒子来创建一个密钥。他们的密钥的安全性取决于他们的测量结果在多大程度上违反了贝尔不等式,这个程度由一个值 SSS 来量化。在理想世界中,他们会使用一个完美纠缠粒子的源。但在现实世界中,源是有缺陷的。其质量可能会波动,这一刻产生具有“好”保真度 FGF_GFG​ 的状态,下一刻产生“差”保真度 FBF_BFB​ 的状态。我们可以将源的质量建模为一个两状态马尔可夫链!转移概率,P(G→B)P(G \to B)P(G→B) 等,甚至可能取决于 Alice 和 Bob 选择执行的测量。通过为源的缺陷建立马尔可夫模型,物理学家可以计算其量子协议的预期长期性能,并在一个现实的、“设备无关”的场景中严格评估其安全性。

从闪烁的量子点到生命之树,从我们大脑中分子的运动到量子通信的安全,转移概率的概念是一个不变的伴侣。它是一个简单而深刻的思想,为我们提供了一种语言来描述、预测和理解一个不断变化的世界。它揭示了自然运作中隐藏的统一性,向我们展示了相同的概率规则如何既能支配分子的舞蹈,又能主导演化的宏伟进程。