交互信息

玻尔百科

定义

交互信息是指信息论中衡量第三个变量如何影响另外两个变量之间关系的量化指标，用于揭示变量间的协同效应或冗余效应。该指标在密码学和细胞逻辑等领域具有重要作用，能够识别变量组合是产生了新的信息还是包含重复的重叠信息。在协同系统中，负向交互信息表明原本相互独立的变量在结合时才具有预测性，这体现了信息结构深层且复杂的本质。

核心要点

交互信息量化了第三个变量如何影响另外两个变量之间的关系，揭示了协同（由组合创造的信息）或冗余（重叠的信息）。
负交互信息表示协同，即成对独立的变量在组合后变得具有预测性，这是密码学和细胞逻辑学的基本原理。
正交互信息表示冗余，即变量提供了重叠的信息，这是自然界用来创建稳健的生物安全网的一种机制。
协同系统中的“负信息”悖论表明，信息并非一种简单的物质，它打破了维恩图的比喻，揭示了一个更深层、更结构化的现实。

引言

科学研究通常从检验成对关系开始，使用互信息等工具来量化一个变量能告诉我们多少关于另一个变量的信息。然而，真实世界是一个由多路交互构成的复杂网络。当第三个变量进入系统时，它能从根本上改变现有的关系，要么通过协同创造新信息，要么通过冗余增强现有信息。这种复杂性带来了一个巨大的知识鸿沟：我们如何才能精确地测量和区分这些高阶效应？

本文通过引入信息论中的一个强大概念——交互信息，来应对这一挑战。在接下来的章节中，您将全面了解这一衡量复杂性的通用指标。“原理与机制”一章将剖析交互信息的数学定义，解释其符号如何区分协同与冗余，并探讨负信息的深刻悖论。随后，“应用与跨学科联系”一章将展示其非凡的通用性，揭示这个单一概念如何为密码学、计算生物学、统计学和量子力学等不同领域提供关键见解。

原理与机制

在我们理解世界的旅程中，我们通常从观察成对事物开始。温度变化如何影响压力？多学习与好成绩有何关系？科学中充满了这种双变量关系，我们有一个绝佳的工具叫做互信息，记作 $I(X;Y)$ ，它能精确地告诉我们一个变量 $X$ 揭示了多少关于另一个变量 $Y$ 的信息。你可以把它看作是它们知识重叠部分的大小，也就是通过了解 $Y$ 而消除的关于 $X$ 的不确定性。这是一个优美而强大的概念。

但真实世界很少如此简单。它是一场由无数相互作用部分组成的宏大而混乱的舞蹈。当第三个参与者，我们称之为 $Z$ ，与 $X$ 和 $Y$ 一同登上舞池时，会发生什么？动态可能会完全改变。 $Z$ 是增加了清晰度，还是制造了混乱？它是否揭示了 $X$ 和 $Y$ 之间的秘密联系，还是仅仅重复了它们已经说过的话？我们的故事就从这里真正开始。

协同与冗余：交互的两面性

想象一下，两个朋友 Alice ( $X$ ) 和 Bob ( $Y$ ) 正在交谈。互信息 $I(X;Y)$ 衡量的是仅通过听 Bob 的话，你能理解多少 Alice 的信息，反之亦然。现在，第三个人 Carol ( $Z$ )加入了他们。她的出现可以通过两种基本方式之一改变他们的对话。

首先，想象 Alice 和 Bob 只是在互相重复同样的事实。如果 Carol 过来也说了完全相同的话，她的贡献就是冗余的。她没有增加任何新东西，只是在强化已经分享的信息。知道 Carol 说了什么，实际上会让 Alice 和 Bob 之间的私密对话显得不那么特别，因为信息现在变得更普遍了。在这种情况下，在我们已知 $Z$ 的条件下， $X$ 和 $Y$ 之间共享的信息，我们记作 $I(X;Y|Z)$ ，会小于原始的共享信息 $I(X;Y)$ 。这就是冗余：由于贡献重叠，整体小于部分之和。

但如果 Alice 和 Bob 是在用一种复杂的密码交谈呢？对于局外人来说，他们的话似乎是随机的胡言乱语。单独来看，它们不传递任何信息。但现在，假设 Carol ( $Z$ ) 掌握着他们密码的密钥。没有她， $I(X;Y)$ 为零。但有了她，你就能突然解码他们的全部对话。 $X$ 和 $Y$ 之间共享的信息仅在 $Z$ 的背景下才爆炸式地出现。在这里， $I(X;Y|Z)$ 远大于 $I(X;Y)$ 。这就是协同：一种神奇的情况，整体变得大于部分之和。信息是由交互本身创造的。

交互的度量

为了精确描述这一点，我们需要一个数字——一种衡量这种效应的方法。我们可以定义一个量，称为交互信息，记作 $I(X;Y;Z)$ ，它恰好捕捉了这一思想。它被定义为当我们获知 $Z$ 时， $X$ 和 $Y$ 之间信息的变化：

I(X;Y;Z) = I(X;Y) - I(X;Y|Z)

让我们看看这个定义。

如果 $I(X;Y;Z) > 0$ ，意味着 $I(X;Y) > I(X;Y|Z)$ 。获知 $Z$ 减少了 $X$ 和 $Y$ 之间的共享信息。这就是我们所说的冗余情况。 $Z$ 中的信息与 $X$ 和 $Y$ 之间共享的信息重叠。
如果 $I(X;Y;Z) < 0$ ，意味着 $I(X;Y) < I(X;Y|Z)$ 。获知 $Z$ 增加了共享信息。这就是我们所说的协同情况。 $Z$ 充当了密钥或催化剂的角色。

这个定义真正优雅之处在于，它可以被重写成一个对所有三个变量都完全对称的形式：

I(X;Y;Z) = H(X) + H(Y) + H(Z) - H(X,Y) - H(X,Z) - H(Y,Z) + H(X,Y,Z)

这里， $H(\cdot)$ 表示一个或一组变量的熵，即总不确定性。这个方程看起来很像集合论中的容斥原理，该原理告诉你如何计算三个集合并集的大小。这表明我们或许能够可视化这些信息量。

眼见为实？信息图

一种流行的可视化多个变量熵的方法是使用“信息图”，它看起来像一个维恩图。 $X$ 的圆圈面积代表其总熵 $H(X)$ 。 $X$ 和 $Y$ 圆圈之间的重叠区域代表它们的互信息 $I(X;Y)$ 。

遵循这个类比，所有三个圆圈重叠的中心区域将代表交互信息 $I(X;Y;Z)$ 。这似乎是一个完美、直观的图像。让我们用我们的两个场景来检验这个图像：冗余和协同。

冗余：自我重复的信息

让我们考虑一个来自工程学的实际例子。想象一个信号 $X$ 通过两个不同的信道广播，产生两个接收到的信号 $Y$ 和 $Z$ 。两个信道都是有噪声的，所以 $Y$ 是 $X$ 的一个含噪版本， $Z$ 是 $X$ 的另一个独立的含噪版本。

直观地看， $Y$ 和 $Z$ 是关于 $X$ 的冗余信息源。如果你已经分析了信号 $Y$ ，你对 $X$ 是什么已经有了一个相当不错的概念。当你随后接收到信号 $Z$ 时，它仍然能帮助你修正对 $X$ 的估计，但效果不如你在没有任何先验知识的情况下接收 $Z$ 。 $Z$ 中关于 $X$ 的部分信息是旧闻，因为你已经从 $Y$ 中学到了。

用信息论的语言来说，这意味着当 $Y$ 已知时， $Z$ 提供关于 $X$ 的信息会减少： $I(X;Z|Y) < I(X;Z)$ 。根据我们的定义，这意味着一个正的交互信息， $I(X;Y;Z) > 0$ 。在我们的信息图中，这对应于中心重叠部分的一个正面积。到目前为止，一切似乎都是一致的。

协同：大于部分之和

现在来看一个魔术。让我们考虑一个可以想象到的最简单却又最深刻的系统之一。让 $X$ 和 $Y$ 是两次独立的、公平的硬币投掷（0或1）的结果。由于它们是独立的，它们之间完全不共享任何信息。 $I(X;Y) = 0$ 。

现在，让我们使用异或（XOR）运算创建一个第三个变量 $Z$ ： $Z = X \oplus Y$ 。这意味着如果 $X$ 和 $Y$ 不同， $Z$ 就是1，如果它们相同， $Z$ 就是0。快速检查表明， $Z$ 也是一次公平的硬币投掷，并且它独立于 $X$ 且独立于 $Y$ 。所以， $I(X;Z)=0$ 且 $I(Y;Z)=0$ 。看起来这些变量在成对时彼此一无所知。

但看看当你拥有其中两个时会发生什么。如果你知道 $X$ 和 $Z$ ，你就可以完美地计算出 $Y$ ： $Y = X \oplus Z$ 。关于 $Y$ 的不确定性完全消失了！在我们已知 $X$ 的条件下， $Z$ 提供关于 $Y$ 的信息是完全的。我们有 $I(Y;Z|X) = H(Y) = 1$ 比特。

让我们计算交互信息：

I(X;Y;Z) = I(Y;Z) - I(Y;Z|X) = 0 - 1 = -1 \text{ bit}.

交互信息是负的！这是纯粹协同的数学标志。这些变量成对独立，但当组合在一起时，它们就完美地交织在一起。单独的 $X$ 或 $Y$ 都不能告诉你任何关于 $Z$ 的信息，但它们一起却能告诉你一切关于 $Z$ 的信息。这是许多密码学和纠错方案的基础。两个单独无用的密钥在组合时可以解开一个秘密。

当图像说谎时：负信息的悖论

我们美丽的信息图对此有何说法？对于异或的例子，代表 $I(X;Y;Z)$ 的三向重叠必须等于-1。但一个面积怎么可能是负的呢？。

在这里，我们简单直观的重叠区域类比彻底失效了。而这种失效极具启发性。它告诉我们，信息不是一种只能以正量存在的简单流体状物质。多个变量之间的关系更加微妙和结构化。协同在成对层面上表现为一种“反信息”，这种“反信息”在三元组的高阶层面上得到解决。

为了挽救视觉类比，我们必须升级我们的思维。这个图不能是基于面积的简单维恩图。它必须是一个表示有符号测度的图，其中区域可以有负值。对于协同系统，中心重叠区域的负面积代表了联合信息 $I(X,Y;Z)$ 大于单个信息之和 $I(X;Z) + I(Y;Z)$ 这一事实。“负重叠”是使容斥原理成立所需的数学粘合剂。

一个简单的问题——三个事物如何相互作用——引导我们发现一个区分冗余和协同关系的优美数学结构。在此过程中，它迫使我们放弃最简单的直觉，拥抱一种对“信息”真正含义的更深层、更抽象，并最终更强大的理解。

应用与跨学科联系

我们已经花了一些时间来理解信息论的机制，探讨了熵和互信息等概念。这些思想很强大，但它们主要告诉我们两个变量之间的关系，即A和B之间的对话。但我们所知的世界，很少如此简单。自然是一支宏大、嘈杂的管弦乐队，而不是一系列二重奏。当第三个参与者C加入A和B的对话时，会发生什么？它的存在是放大了它们的信息，创造出比单个音符更丰富的和谐？还是仅仅重复已经说过的话，产生一种冗余感？

这不是一个哲学问题，而是一个深刻的科学问题，它有一个精确的数学答案：交互信息。正如我们所见，交互信息 $I(X; Y; Z)$ 精确地度量了这种三向效应。它是我们解开多元依赖复杂网络的那根线。负值表示协同，此时整体确实大于部分之和。正值表示冗余，一种信息上的重叠或安全网。

现在，让我们踏上一段穿越科学领域的旅程，看看这个单一思想的实际应用。你会被它的多功能性所震惊。它是一把通用钥匙，能解开密码学中的秘密，破译我们自身细胞的逻辑，甚至探测量子现实的诡异本质。

协同：组合的魔力

也许交互信息最惊人、最美丽的体现就是协同。它是那种不存在于单个部分中，仅当它们被组合在一起时才涌现出来的信息。

一个完美、近乎神奇的例子来自密码学领域。想象一个我们想要保护的秘密 $X$ 。我们可以将这个秘密分成两个“份额”， $Y$ 和 $Z$ 。这个方案被设计得非常完美：如果你只持有份额 $Y$ ，你对秘密一无所知， $I(X; Y)=0$ 。如果你只持有份额 $Z$ ，情况也是如此， $I(X; Z)=0$ 。但如果你将两个份额放在一起，你就可以完美地重构秘密， $I(X; Y, Z) = H(X)$ 。信息从何而来？它不在 $Y$ 或 $Z$ 中，而在于它们的组合。在这种情况下，交互信息 $I(X; Y; Z)$ 恰好等于 $-H(X)$ ，这看起来很矛盾，但换一种方式看就明白了： $Y$ 和 $Z$ 协同地提供关于 $X$ 的信息，正是秘密的全部 $H(X)$ 比特。

这种同样的逻辑，在计算机科学中被称为异或（XOR）门，是计算的基本构件，而且似乎大自然很久以前就发现了它。在计算生物学中，我们可以模拟蛋白质或基因不同部分之间的相互作用。考虑一个由三个残基组成的系统，其中第三个残基的状态 ( $X_3$ ) 由前两个的奇偶性决定 ( $X_3 = X_1 \oplus X_2$ )。在这里，就像秘密共享方案一样，单独的 $X_1$ 或 $X_2$ 都不能告诉你任何关于 $X_3$ 的信息。它们各自的互信息为零。但它们一起，却能告诉你一切。这是一个纯粹协同的例子，此时交互信息达到了其可能的最大值。

这不仅仅是理论上的好奇心。它是生命的语言。帮助控制基因表达的“组蛋白密码”就是一个典型的例子。基因可以被各种化学标签或组蛋白标记所修饰。单个标记，比如一个“激活”标签 ( $M_A$ )，可能只是基因是否开启的一个弱预测因子。但是，那个激活标记与“抑制”标记 ( $M_B$ ) 的缺失的组合，可以成为细胞机器开始转录的强大而明确的信号。通过计算交互信息，我们可以定量地表明，标记的组合比最好的单个标记提供了显著更多的关于基因表达的预测能力，揭示了硬编码在我们染色体中的组合逻辑。类似地，一个活细胞可能会整合来自不同通路的信号来做出事关生死的决定，而交互信息使我们能够识别细胞何时正在对这些信号执行“类异或”计算，以产生一种复杂的协同响应。

冗余：自然的安全网

如果说协同是创造新信息，那么冗余就是强化信息。当交互信息 $I(X; Y; Z)$ 为正值时，它告诉我们 $X$ 和 $Y$ 提供了关于 $Z$ 的重叠信息。了解 $Y$ 会使 $X$ 成为一个价值较低的信息源，因为你已经听过它故事的一部分。

最简单的情况是一个“复制”系统，其中 $X_1=X_2=X_3$ 。如果你想知道 $X_3$ 的状态，知道 $X_1$ 就能告诉你一切。之后再了解 $X_2$ 的状态则完全没有增加任何新信息。信息是完全冗余的。

这个原理对于生物系统的稳健性至关重要。考虑两个调节目标基因 G 的转录因子 A 和 B。如果它们都通过相似的机制起作用，它们的效果将在很大程度上是冗余的。如果转录因子 A 已经存在并激活了基因，额外出现的转录因子 B 可能不会进一步增加表达量。它们提供的关于基因状态的信息是重叠的。对它们对基因表达的联合效应进行分析，会揭示出一个正的交互信息，从而量化了这种冗余性。

自然界为何要在其回路中构建这样的冗余？为了稳健性。这是一个安全网。如果一个突变使一个基因或通路失效，一个冗余的基因或通路可以接管，确保生物体的生存。这一见解对合成生物学具有深远的影响。如果我们想为一个可预测、稳定的环境（如化学恒化器）设计一个极简的细菌基因组，我们就不需要这些冗余的安全网。通过使用信息论，我们可以量化细胞在该环境中运作所需的总信息，并测量其基因组中编码的冗余信息。这个计算可以指导一个真实的工程项目，告诉我们生物体 DNA 中究竟有多少是多余的，可以被移除，从而为一个生物技术应用创建一个更高效的“底盘”。

更深层的联系：统计学与量子世界

交互信息的力量超越了这些离散的、逻辑的例子，延伸到统计学的连续世界和量子力学的奇异领域。

在材料科学或机器学习等领域，我们经常处理相互关联的连续变量。想象我们有一个材料的两个特征 $X_1$ 和 $X_2$ ，我们想预测一个目标属性 $Y$ 。我们可以将这三个变量建模为具有联合高斯分布，其特征由它们的方差和它们之间的相关性（ $\rho_{12}, \rho_{1y}, \rho_{2y}$ ）来描述。交互信息 $I(X_1; X_2; Y)$ 可以直接从这些熟悉的相关系数中计算出来。它告诉我们一些微妙的事情：它量化了两个特征（ $X_1$ 和 $X_2$ ）之间的关系如何影响我们预测目标 $Y$ 的能力。这对特征选择至关重要：两个特征是提供了对我们模型至关重要的协同信息，还是它们在很大程度上是冗余的，意味着我们可能只需要其中一个？一些先进的框架，如部分信息分解（Partial Information Decomposition），使用同样的原理将预测能力分解为唯一、冗余和协同的组成部分。正确地提出这些问题至关重要；仅仅注意到单个特征具有信息量是不够的。必须问它们的组合是否具有协同性，而交互信息正是回答这个问题的完美工具。

最后，我们转向量子世界。在这里，信息和物理现实密不可分，交互信息揭示了纠缠的一些最深层方面。考虑三量子比特的W态，这是三个纠缠粒子的一个基本状态。如果我们计算三个量子比特之间的交互信息，我们会发现它是负的。这表示协同。但这是一种非常奇怪的协同。如果你能接触到量子比特C，那么量子比特A和量子比特B之间的相关性就会减弱。事实上，如果你测量量子比特C并发现它处于某个特定状态，A和B之间的纠缠会完全被破坏！它们共享命运的信息不仅仅位于A和B之间；它分布在所有三个粒子中。扰动系统的任何一部分都会对其他部分产生深远的非局域性后果。

一种描述复杂性的通用语言

从我们基因的逻辑到我们计算机的逻辑，从设计一个极简生物体到量子时空的结构，交互信息提供了一种统一的语言。它让我们能够超越简单的成对对话，开始理解支配我们宇宙的复杂的多路会话。它为我们提供了一个镜头，用以区分真正的和谐与简单的重复，在组合中发现隐藏的魔力，并欣赏冗余设计的优雅稳健性。世界不是一组孤立的事实，而是一个相互关联的关系网。而有了交互信息，我们找到了一个强大的工具来开始追溯它的脉络。