传递熵

玻尔百科

定义

传递熵是一种有向的信息论度量方法，通过评估源序列的历史信息在多大程度上降低了目标序列未来的不确定性，从而量化从源到目标的信息流。作为一种无模型方法，它能够捕捉系统生物学、神经科学和生态学等领域中复杂的非线性相互作用。尽管传递熵在逆向工程复杂网络方面具有广泛应用，但其有效性常受限于未观测到的共同原因以及有限样本下的统计估算难度。

核心要点

传递熵通过衡量源的过去在多大程度上减少了关于目标未来的不确定性（超越目标自身历史信息），来量化从源到目标的有向信息流。
作为一种无模型方法，传递熵可以检测到线性方法（如相关性或标准格兰杰因果关系）会遗漏的复杂、非线性相互作用。
它在逆向工程复杂网络方面有广泛应用，从系统生物学中的基因调控、神经科学中的脑-身通讯，到生态学中的信息网络。
传递熵的实际应用受到未观测到的共同原因（混淆变量）、无法捕捉瞬时效应以及从有限数据中进行估计的统计困难的限制。

引言

在探索复杂系统的过程中，一个根本性的挑战在于超越简单的相关性，以识别真正的因果影响。虽然观察到两个事件同时发生很容易，但判断一个事件是否真正引导了另一个事件，则是一个简单统计关联无法解决的深层次问题。在生物学和经济学等领域，这种知识鸿沟尤为巨大，因为在这些领域中，相互作用 rarely 是线性的，并且常常隐藏在嘈杂的动态环境中。我们如何才能严格地检测到贯穿这些系统的有向信息流呢？

本文介绍了传递熵，一个源自信息论的强大而普适的概念，旨在精确回答这一问题。它为衡量预测性信息传递提供了一个形式化的框架，为传统方法提供了一个稳健的替代方案。读者将学习到这种无模型方法如何揭示其他方法所忽略的隐藏联系。本文首先探讨传递熵的核心“原理与机制”，详细说明其定义方式以及为何在简单模型失效之处取得成功。随后，“应用与跨学科联系”一章将展示这一强大工具如何革新物理学、神经科学、生态学等领域的研究，让科学家能够描绘出支配我们世界的无形影响网络。

原理与机制

在我们理解世界的征程中，我们不断地寻找联系。我们观察到一件事发生，接着另一件事随之而来。但我们如何知道第一个事件是否真正影响了第二个？古老的智慧告诫我们，相关性不意味着因果关系。冰淇淋的日销量可能与鲨鱼袭击的数量密切相关，但认为其中一个导致了另一个是愚蠢的。它们都是由一个隐藏的第三方驱动的：温暖的夏日天气。那么，我们如何才能超越简单的相关性，找到贯穿自然画卷的真正影响之线呢？

从预测到信息流

让我们从一个更 refined 的想法开始。如果一个过程，我们称之为 $X$ ，真正影响了另一个过程 $Y$ ，那么了解 $X$ 的历史应该能帮助我们更好地预测 $Y$ 的未来。这是一个飞躍。我们不再仅仅关注两件事同时发生；我们正在利用一个过程的过去来预测另一个过程。这正是现代时间序列分析的基石——格兰杰因果关系概念的精髓。

但这个想法虽然强大，却有一个微妙的缺陷。想象一下，你正在尝试预测旧金山（ $Y$ ）的天气。你注意到它的天气模式非常持久；如果今天有雾，明天也很可能有雾。现在，邻近城市奥克兰（ $X$ ）的一位朋友提出要给你发送他们的天气历史。你可能会发现奥克兰的过去天气也能很好地预测旧金山的未来天气，仅仅因为两个城市的天气相似，并且都受到相同的大尺度大气系统驱动。奥克兰的天气是真正影响了旧金山，还是仅仅在回响旧金山自身历史已经提供的信息？

为了分離出真正的影响，我们必须提出一个更尖锐的问题： $X$ 的历史是否为我们提供了关于 $Y$ 未来的任何新信息，而这些信息是我们无法仅从 $Y$ 自身历史中获得的？这是关键的一步。我们正在寻找一种信息传递。这正是传递熵旨在回答的问题。

传递熵由物理学家 Thomas Schreiber 构思，它用信息论的语言重新阐述了预测性影响的问题，信息论是由 Claude Shannon 为量化通信而开创的领域。让我们将信息视为“不确定性的减少”，或者通俗地讲，是“惊喜”。

想象我们在离散的时间点 $t$ 观察一个系统。我们对于目标系统 $Y$ 在下一个时刻 $Y_t$ 的状态的不确定性， given that we know its entire past history, $Y_{t^-} = \{Y_{t-1}, Y_{t-2}, \dots \}$ ，可以写成一个条件熵， $H(Y_t \mid Y_{t^-})$ 。这个项代表了即使在我们用 $Y$ 自身的历史来预测它之后， $Y$ 中仍然存在的内在不可预测性或“惊喜”。

现在，假设我们也被给予了潜在源系统 $X$ 的过去历史， $X_{t^-} = \{X_{t-1}, X_{t-2}, \dots \}$ 。我们对 $Y_t$ 的不确定性，given both histories，现在是 $H(Y_t \mid Y_{t^-}, X_{t^-})$ 。

从 $X$ 到 $Y$ 的传递熵，记为 $T_{X \to Y}$ ，就是我们不确定性的减少量：

T_{X \to Y} = H(Y_t \mid Y_{t^-}) - H(Y_t \mid Y_{t^-}, X_{t^-})

根据定义，这个量是一个条件互信息， $I(X_{t^-}; Y_t \mid Y_{t^-})$ 。它精确地衡量了我们最初要找的东西：源的过去 $X_{t^-}$ 为目标的现在 $Y_t$ 提供了多少信息，而这些信息是不存在于目标自身的过去 $Y_{t^-}$ 中的。如果了解 $X$ 的历史在预测 $Y$ 时没有给我们带来任何新的优势，那么 $T_{X \to Y}$ 为零。如果有帮助， $T_{X \to Y}$ 则为正。它是一个内在有向且不对称的度量；从 $X$ 到 $Y$ 的信息流通常与从 $Y$ 到 $X$ 的信息流不同。

看待这个问题的另一个优美方式是将其视为对数似然比的平均值：

T_{X \to Y} = \mathbb{E}\left[\log \frac{p(y_t \mid y_{t^-}, x_{t^-})}{p(y_t \mid y_{t^-})}\right]

这个比率比较了两个概率：在给定 $Y$ 自身过去和 $X$ 的过去的情况下观察到 $Y$ 的下一个状态的概率，与仅给定 $Y$ 自身过去的情况下的概率。平均而言，传递熵告诉我们，来自 $X$ 的新信息使我们对 $Y$ 的结果的信心增加了多少。

无模型方法的威力

传递熵真正的优雅之处在于其通用性。它不对相互作用的性质做任何假设。与依赖特定模型的方法（如线性相关性或标准格兰杰因果关系）相比，这是一个深远的优势。

考虑一个简单的基因调控网络，其中基因 $Y$ 的活性由前一个时间步的转录因子 $X$ 浓度的平方驱动，关系类似于 $Y_t = b X_{t-1}^2 + \text{noise}$ 。如果你去计算 $X_{t-1}$ 和 $Y_t$ 之间的简单线性相关性，你会发现它为零！线性模型对二次关系是盲目的。标准的线性格兰杰因果关系同样会失效，结论是没有影响。然而，传递熵会检测到一个强大的、正向的信息流。它不在乎关系是线性的、二次的，还是更复杂的；它只问知道 $X_{t-1}$ 是否减少了关于 $Y_t$ 的不确定性。如果是，就存在信息传递。

这种“无模型”的特性使得传递熵特别适用于生物学、神经科学和经济学等复杂、非线性的世界。此外，传递熵拥有一个优美的不变性。如果你测量一个变量 $X$ ，然后对其应用任何可逆的一对一变换（例如，取其对数或立方根），计算出的到另一个变量 $Y$ 的传递熵保持不变。这是因为潜在的信息内容被保留了下来。线性方法不具备这种稳健性；它们的结果会根据测量尺度或单位的不同而发生巨大变化。

这种通用性并不意味着传递熵与旧方法相对立。事实上，它统一了它们。对于那些真正线性且具有简单高斯噪声的系统——这是线性格兰杰因果关系效果最好的理想世界——传递熵给出的结果与格兰杰因果关系度量成正比。这是一个绝佳的例子，说明了一个更普适的理论在适当的极限下如何优雅地简化为一个更简单、已确立的理论，就像 Einstein 的相对论在低速下简化为 Newton 定律一样。

面对复杂性时的谦卑

尽管传递熵功能强大，但它并非能够仅凭观测数据就明确揭示所有因果联系的魔杖。明智地使用它需要对其局限性有所 appreciation。

首先是古老的未观测到的混淆变量问题。如果一个未测量的过程 $Z$ （如夏日的太阳）同时驱动我们测量的过程 $X$ （冰淇淋销售）和 $Y$ （鲨魚襲擊），双变量分析仍然可能发现一个虚假的信息流 $T_{X \to Y} > 0$ 。以 $Y$ 的过去为条件会有所帮助，但它无法完全消除来自隐藏共同原因的混淆。我们可以将该方法扩展为多变量形式，计算以其他观测到的变量为条件的部分传递熵，但未观测到的混淆变量的幽灵总是存在。

其次，传递熵的标准定义衡量的是从过去到现在的信息流。如果一个效应是瞬时的，发生的速度快于我们的采样间隔怎么办？想象一下自动化交易系统中的两只股票，其中一只的变化在微秒内引发另一只的变化。如果我们只每秒采样一次它们的价格，这个效应看起来会像是同时发生的（在零延迟时）。标准的传递熵依赖于严格的过去信息，它将对这种影响视而不见。我们的工具和我们的定义塑造了我们所能看到的东西。

最后，存在巨大的实践估计挑战。为了计算熵，必须从数据中估计概率分布。这是众所周知的困难，需要大量数据，特别是当我们考虑的“过去”涉及许多变量或长时间滞后时——这个问题被称为维度灾难。对于有限的数据，我们对传递熵的估计不可避免地是嘈杂的，并且可能存在系统性偏差。选择正确的方式来表示系统的“过去”——一个称为状态空间重构的过程——本身就是一门精细的艺术，需要仔细的方法来选择正确的时间延迟和嵌入维度，以“展开”系统的动力学，而不引入人为 artifacts。此外，某些数据类型，如基因组学中常見的 compositional data，其中相对频率之和必须为一，在应用这些工具之前需要特殊的变换，以免我们将数学约束误认为生物相互作用。

总之，传递熵提供了一种严谨而 beautifully general 的方法来量化有向信息流。它将我们从相关性的模糊世界带入到 predictive information 的更有纪律的领域。它为我们提供了一个镜头，以窥探支配复杂系统（从神经元的放电到金融市场的波动）的错综复杂的影响网络。但它是一个镜头，而不是神谕。使用它时必须理解其假设，意识到其局限性，并保持所有优秀科学核心的坚定不移的怀疑精神。

应用与跨学科联系

既然我们已经掌握了传递熵的原理，我们可以提出任何科学工具最重要的问题：它有什么用？它能带我们去向何方？乐趣从此开始。传递熵不仅仅是一个抽象的公式；它是一个强大的放大镜，一个通用的探针，用以揭示编织我们世界 fabric 的隐藏影响之线。它让我们能够观察一个系统隨時間的演變，并以数学的严谨性提问：“谁在和谁说话？”答案可谓是革命性的，从物理学的最深处延伸到生命本身的 sprawling 复杂性。

从耦合时钟到嘈杂细胞

让我们从物理学家那干净、理想化的世界开始。想象两个摆锤，或两个电子线路，或任何两个振荡的系统。如果我们把它们耦合起来，即使是微弱的耦合，它们也会开始相互影响。传递熵为我们提供了一种精确测量这种对话强度的方法。例如，在确定性的、钟表般精密的耦合混沌映射宇宙中，从源系统 $Y$ 到目标系统 $X$ 的传递熵率 $T_{Y \to X}$ 可以直接与耦合强度 $\epsilon$ 相关联。对于某些简单系统，它呈現出一种优雅的形式，如 $T_{Y \to X} = -\ln(1-\epsilon)$ ，优美地展示了信息流如何随着耦合增强而增长。即使在更简单的概率模型中，我们也可以看到传递熵值随着耦合参数 $\alpha$ 的增加而膨胀，量化了系统一部分对另一部分日益增长的影响。

但真实世界很少如此干净。它是嘈杂的。想象一个细胞中的分子，被热涨落所 jostle，或一个随机跳动的股价。一个很好的模型是奥恩斯坦-乌len贝克过程，你可以把它想象成一个在糖浆碗里的弹珠，不断被推回中心，同时被随机的震颤所摇晃。如果我们有两个这样的碗，第一个碗里弹珠的位置给第二个碗里的弹珠一点推动力怎么办？在这里，传递熵真正闪耀。即使在无情的随机摇晃中，它也能剖析系统并计算出有向信息流的精确速率，精确显示耦合强度 $c$ 如何让第一个弹珠“通知”第二个，尽管存在噪音 [@problemid:137773]。这对于理解从化学反应到金融市场的一切事物都有深远的意义，在这些领域，有向影响必须与仅仅的相关性或随机 chance 区分开来。

逆向工程生命之网

如果说传递熵在相对简单的物理学世界中有用，那么在令人眼花缭亂的复杂生物学世界中，它更是不可或缺。系统生物学的核心是一项逆向工程工作。我们可以测量成千上万个基因、蛋白质和代谢物的波动浓度，但它们是如何连接在一起的？谁调节谁？

传递熵为这一宏伟挑战提供了一种直接的、无模型的方法。想象你有一个合成生物电路中三种振荡化学物质的时间序列数据，我们称之为 X、Y 和 Z。通过计算所有六个可能的有向对（ $T_{X \to Y}$ , $T_{Y \to X}$ 等）的传递熵，因果结构的图景便浮现出来。例如，如果我们发现 $T_{Z \to Y}$ 很大而 $T_{Y \to Z}$ 几乎为零，我们就找到了一个 directed causal link 的确凿证据：Z 影响 Y。通过将这些不对称性拼接在一起，我们可以重构底层的信息流网络，或许会发现一个像 $Z \to Y \to X$ 这样的因果链。这就像窃听细胞的私人对话，并绘制出其社交网络图。

同样的原理也适用于更大规模的神经科学领域。考虑“肠-脑轴”，即我们消化系统与大脑之间神秘而至关重要的通讯渠道。研究人员可以同时记录脑电波（EEG）和结肠的蠕动。它们之间在交流吗？如果是，是大脑告诉肠道该做什么，还是肠道的状况影响了大脑活动？回答这个问题需要巧妙地运用我们的工具。我们不能简单地计算一个数字。我们必须首先考慮信号截然不同的时间尺度。我们必须将数据切成小的、准静态的窗口，因为身体从未处于真正的稳态。最重要的是，我们必须考慮到共同驱动因素。大脑和肠道的活动都受到呼吸和心率的影响。如果我们不从数学上“排除”这些混淆因素，我们可能会发现肠道和大脑之间存在一个 spurious link，而这实际上只是心脏跳动的回声。一种有原则的分析，仔细控制这些因素，使我们能够分離出真正的有向信息流，揭示我们身体内部隐藏的对话。

解码生态系统与集体行为

传递熵的力量超越了微观层面，让我们能够对整个生态系统和动物社会提出同样类型的问题。

在生态学中，我们熟悉食物网的概念，它追溯能量的流动：草被兔子吃，兔子被狐狸吃。传递熵让我们能够构建一种不同类型的网络：信息流网络。这张图显示了谁影响谁。这两个网络并不总是一样的！例如，顶级捕食者（D）可能不吃初级生产者（A），所以没有能量联系。然而，捕食者的狩猎行为可能受到该生产者丰度的严重影响，因为该生产者是捕食者猎物的主要食物。在这种情况下，我们会发现一个显著的传递熵 $T_{A \to D}$ ，揭示了一个信息联系。这向我们表明，生态系统不仅受卡路里流动的支配，还受一个复杂的、动态的信息网络的支配，该网络调节行为和种群动态。

这种信息流的思想在集体行为的研究中找到了其最引人注目的应用之一。当你看到一群椋鸟进行其惊心动魄的群舞（murmuration），或一群角马作为一个整体转弯时，一个自然的问题就出现了：是有一个单一的领导者，还是这种惊人的协调是简单局部规则的涌现属性？传递熵为我们提供了一种回答这个问题的方法。通过在兽群中的动物身上放置 GPS 追踪器，我们可以收集它们运动的时间序列数据。然后我们可以定义一个“领导力指数”，一个巧妙的量，它比较了从指定领导者流向所有追随者的信息与从每个动物最近邻居流来的信息。如果该指数为正，则表明存在自上而下的领导；如果为负，则指向涌现的自组织。这是将一个关于领导力的哲学问题转化为一个可检验的、量化假设的优美方法。

超越显而易见：探究更深层次的因果结构

随着我们工具的 refinement，我们能提出的问题也越来越 refined。从 A到B 的显著传递熵是因果联系的有力证据，但该联系的性质是什么？是直接影响， $A \to B$ ？还是有一个隐藏的共同驱动因素 $C$ 影响了两者？或者 A 只是一个更长链条中的中继， $D \to A \to B$ ？

区分这些情景需要更 subtle 的分析。在这里，我们可以将传递熵与其他信息论度量结合起来。其中一个度量是活性信息存储（AIS），它量化了一个系统自身的过去在多大程度上预测其未来——这是对其记忆或自我可预测性的度量。现在考虑间接链 $D \to A \to B$ 。我们会期望从 A 到 B 有一个大的传递熵。但如果 A 主要充当来自 D 的信息的被动中继，它可能没有太多自己的“记忆”。它的状态可能主要由它刚从 D 收到的输入决定，而不是它自己之前的状态。这将导致一个低的 $AIS_A$ 值。这种高 $T_{A \to B}$ 和低 $AIS_A$ 的组合是 A 作为中继节点的强大特征，让我们能够推断出简单配对分析所看不到的因果 motif。我们还了解到，诸如反馈回路或目标系统中强大的自我记忆之类的东西会使情况复杂化，有时即使存在强大的因果联系，也会隐藏或减少测得的传递熵。

从最小的尺度到最大的尺度，从嘈杂的细胞到盘旋的鸟群，传递熵为我们提供了一种单一、统一的语言来描述影响和因果关系。这证明了这样一个思想：在其最深层次，宇宙不仅仅是由力支配的物体的集合，而是一个 buzzing with a constant, directed flow of information 的网络。通过学习测量这种流动，我们学会了阅读世界如何运作的故事。