try ai
科普
编辑
分享
反馈
  • 信息熵

信息熵

SciencePedia玻尔百科
核心要点
  • 信息熵由 Claude Shannon 首创,是一种衡量随机变量所固有的不确定性或“惊奇”程度的数学度量。
  • 香农熵公式通过将每个可能结果的惊奇程度按其出现概率进行加权,来计算平均期望信息量。
  • 当所有结果等可能时,熵达到最大值;而获取关于系统的新信息总是会导致其熵的减少。
  • 将熵视为“缺失信息”的概念,作为一个统一的原则,连接了热力学、遗传学、混沌理论和数据科学等不同领域。

引言

信息是什么?它是一句话背后的含义,还是更基本的东西?从核心上讲,信息是消除不确定性的东西。这个简单而深刻的想法在20世纪中叶由 Claude Shannon 正式提出,催生了信息论及其核心概念:熵。在 Shannon 之前,没有严谨的方法来衡量一条消息中的信息“量”,这在我们分析和优化通信的能力上造成了巨大差距。本文将探讨这一基本概念,全面概述信息熵。

我们将通过两大章节展开探索。在“原理与机制”中,我们将从头开始解构该理论,通过简单的思想实验建立直观理解。我们将探讨香农熵的数学公式、其关键性质,以及它与相关概念柯尔莫哥洛夫复杂度的区别。在这一理论基础之上,“应用与跨学科联系”将揭示熵惊人的通用性。我们将看到,这一个概念如何为物理学、生物学、复杂系统和数据科学提供了通用语言,将气体的行为与我们 DNA 的秘密在一个强大的框架下联系起来。

原理与机制

想象一下,你正在等朋友告诉你一场足球比赛的结果。如果他说:“今天早上太阳升起来了。”你收到了一条消息,但并没有真正的信息。你几乎可以百分之百地确定这件事。但如果他告诉你,一支不被看好的球队爆冷获胜,你会感到一阵惊喜。你学到了重要的东西。这种简单的惊喜感正是我们所说的信息的核心。信息是消除不确定性的东西。你越不确定,当不确定性被消除时,你获得的信息就越多。

在20世纪中叶,杰出的工程师兼数学家 Claude Shannon 决定将这个直观的想法发展成一个严谨的数学理论。他关心的不是消息的含义——无论是一首情诗还是一笔股市交易——而是量化和传输它的基本问题。其结果就是信息论,而其核心概念就是​​熵​​。

二十个问题的游戏:量化不确定性

我们来玩个游戏。我正在想一个宝藏可能藏匿的八个地点之一。你的任务是通过问“是/否”问题来找到它。最有效的策略是什么?你不会问:“它在1号位置吗?”然后问:“它在2号位置吗?”。更好的方法是分而治之。“地点在前四个位置中吗?”如果我回答“是”,你一下子就排除了一半的可能性。你再问:“它在前两个位置中吗?”最后,最后一个问题就能精确定位。通过三个精心选择的是/否问题,你总能在八个可能性中找到宝藏。

这个小游戏是 Shannon 本人曾使用过的一个思想实验的简化版,该实验涉及一只在有八个等可能出口的迷宫中的机械鼠。其核心洞见是:一个具有 MMM 个等可能结果的情况下的不确定性量,可以通过确定具体结果所需的“是/否”问题数量来衡量。这个数字恰好是 log⁡2(M)\log_2(M)log2​(M)。对于我们有8个出口的迷宫,不确定性是 log⁡2(8)=3\log_2(8) = 3log2​(8)=3。Shannon 将这种不确定性的度量称为​​熵​​,当我们使用以2为底的对数时,我们用一种叫做​​比特​​(bits)的单位来衡量它。一个“比特”本质上是对一个完美的、高效的是/否问题的回答。

当然,选择以2为底的对数是一种惯例,源于数字计算机的二进制特性。我们同样可以使用自然对数(以 eee 为底),在这种情况下,熵的单位被称为​​奈特​​(nat)。它们之间的关系只是一个简单的转换因子,就像将英里转换为公里一样。对于一次简单的公平硬币投掷(两种等可能的结果),其熵为 log⁡2(2)=1\log_2(2) = 1log2​(2)=1 比特,等价于 ln⁡(2)\ln(2)ln(2) 奈特。

当结果并非等可能时:概率的力量

世界很少像公平的硬币或八面骰子那样整齐。当结果并非等可能时会发生什么?想象一枚被严重加权的硬币,它有99%的时间正面朝上。你对下一次投掷的结果会很不确定吗?并不会。出现“正面”是预料之中的,几乎不提供任何惊奇。但那罕见的“反面”结果——那才是一个巨大的惊奇!它包含了更多的信息。

Shannon 的天才之处在于将这一点融入了他的定义中。他将概率为 ppp 的单个结果的“惊奇”或信息内容定义为 −log⁡2(p)-\log_2(p)−log2​(p)。为什么是负号?因为概率 ppp 是一个介于0和1之间的数,其对数是负数。负号使得信息成为一个正量,这更符合直觉。对于我们那枚有偏的硬币,出现“正面”结果(p=0.99p=0.99p=0.99)的信息量非常小:−log⁡2(0.99)≈0.014-\log_2(0.99) \approx 0.014−log2​(0.99)≈0.014 比特。而出现“反面”结果(p=0.01p=0.01p=0.01)的信息量则大得多:−log⁡2(0.01)≈6.64-\log_2(0.01) \approx 6.64−log2​(0.01)≈6.64 比特。

​​香农熵​​(通常用 HHH 表示)不是单个结果的信息量,而是你在多次试验中期望从该信息源获得的平均信息量。为了求得这个平均值,我们将每个结果的信息量按其发生的频率——即其概率——进行加权。这就得到了著名的公式:

H=−∑i=1Npilog⁡2(pi)H = -\sum_{i=1}^{N} p_i \log_2(p_i)H=−i=1∑N​pi​log2​(pi​)

其中,求和遍历所有 NNN 个可能的结果。对于任何概率为 pi=0p_i=0pi​=0 的事件 iii,我们定义其贡献 0log⁡2(0)0 \log_2(0)0log2​(0) 为0,因为一个永远不会发生的事件不提供任何不确定性。

对于一个只有两个结果的简单过程(“成功”概率为 ppp,“失败”概率为 1−p1-p1−p),该公式变为​​二元熵函数​​:H(p)=−plog⁡2(p)−(1−p)log⁡2(1−p)H(p) = -p \log_2(p) - (1-p) \log_2(1-p)H(p)=−plog2​(p)−(1−p)log2​(1−p)。这个函数是理解任何二元选择中不确定性的基石。

游戏规则:熵的基本性质

这个公式不仅仅是一个随意的数学构造;它的行为方式完全符合我们对信息和不确定性的直觉要求。

首先,​​熵在均匀分布时达到最大​​。我们何时对一个事件的结果最不确定?当每个结果都等可能时。如果你在分析一个二元系统,比如一个可能是“1”或“0”的数据位,当“1”的概率恰好是 p=0.5p=0.5p=0.5 时,你的不确定性最大。任何偏离这种50/50的分布都意味着存在某种可预测性,某种内在结构,这会减少总体的不确定性。最大可能熵(对于 NNN 个结果是 log⁡2N\log_2 Nlog2​N)与系统实际熵之间的差异,是其​​信息冗余度​​的度量——它量化了系统所拥有的结构或可预测性的程度。

其次,​​信息减少熵​​。这也许是最关键的性质。让我们回到那个游戏,但这次用一副标准的52张扑克牌。在抽牌之前,我们对这个系统的不确定性处于最大值:Hinitial=log⁡2(52)H_{\text{initial}} = \log_2(52)Hinitial​=log2​(52)。52张牌中的每一张都是一个等可能的结果。现在,有人偷看了一眼牌并告诉你:“这是一张黑桃。”瞬间,你的可能性世界缩小了。你现在知道这张牌必定是13张黑桃中的一张。你新的不确定性是 Hfinal=log⁡2(13)H_{\text{final}} = \log_2(13)Hfinal​=log2​(13)。熵减少了,这正是因为你接收到了信息。你获得的信息量就是你不确定性的减少量:Hinitial−Hfinal=log⁡2(52)−log⁡2(13)=log⁡2(52/13)=log⁡2(4)=2H_{\text{initial}} - H_{\text{final}} = \log_2(52) - \log_2(13) = \log_2(52/13) = \log_2(4) = 2Hinitial​−Hfinal​=log2​(52)−log2​(13)=log2​(52/13)=log2​(4)=2 比特。这个优美的结果完美地捕捉了信息和熵之间的反比关系。

第三,​​对于独立信源,熵是可加的​​。如果你有两个独立的实验——比如,投掷一枚硬币和滚动一个四面骰子——组合结果的总不确定性就是各个不确定性之和。这个性质,即对于独立的 XXX 和 YYY,H(X,Y)=H(X)+H(Y)H(X, Y) = H(X) + H(Y)H(X,Y)=H(X)+H(Y),是至关重要的。它允许我们通过将复杂系统分解成更简单的独立部分来分析它们。这也暗示了与物理学更深层次的联系。在热力学中,两个独立系统的熵也是可加的。通过将一条长消息看作是由许多单个符号组成的系统,我们发现总信息熵与消息的长度 NNN 成正比。这使得信息熵成为一个​​广延​​属性,就像物理学中的体积或能量一样,加强了信息的抽象世界与物理世界之间的桥梁。

最后,熵是​​对称的​​。它只关心概率的集合,而不关心哪个结果与哪个概率相关联。一个结果概率为 (0.5,0.2,0.3)(0.5, 0.2, 0.3)(0.5,0.2,0.3) 的系统,与一个概率为 (0.3,0.5,0.2)(0.3, 0.5, 0.2)(0.3,0.5,0.2) 的系统具有完全相同的熵。不确定性是概率分布本身的属性,而不是我们赋予事件的标签。

信息与复杂度:两种随机性的故事

我们已经确定,熵度量不确定性,我们常常将其等同于随机性。由公平硬币源生成的序列具有高熵,并且看起来是随机的。但数字 π\piπ 的各位数呢?序列 3.14159265...3.14159265...3.14159265... 似乎没有可辨别的模式;它的数字看起来完全像是一个10面骰子反复投掷的结果。这个序列有高熵吗?

这个问题迫使我们做出一个深刻的区分。香农熵是信息来源——即潜在的概率过程——的一个特征。它告诉我们关于下一个要生成的符号的平均不确定性。

但是,还有另一种由 Andrei Kolmogorov 发展的复杂度概念,称为​​算法复杂度​​(或柯尔莫哥洛夫复杂度)。它不适用于信源,而是适用于单个特定的对象,比如一串数字。一个字符串的​​柯尔莫哥洛夫复杂度​​是能够产生该字符串作为输出的最短计算机程序的长度。

对于一个真正的随机字符串,比如由一系列硬币投掷生成的字符串,没有比直接写下整个字符串更短的描述方法了。它是不可压缩的。它的柯尔莫哥洛夫复杂度约等于其自身长度。

但 π\piπ 的前一百万位数字呢?一个生成它们的程序可能看起来像这样:“实现 Gauss–Legendre 算法并打印 π\piπ 的前一百万位数字。”这个程序非常短,远短于一百万位数字!因此,π\piπ 的数字具有非常低的柯尔莫哥洛夫复杂度,尽管它们看起来是随机的,并且会通过许多随机性统计检验。

这揭示了一个深刻的真理:香non熵衡量的是信源的不可预测性,而柯尔莫哥洛夫复杂度衡量的是成品的描述复杂度。一个序列可以是完全确定性的、易于描述的(低柯尔莫哥洛夫复杂度),同时在统计上看起来是随机的。真正的算法随机性意味着一个字符串是不可压缩的,这是香农理论自身无法捕捉的概念,因为香农理论是对信源所有可能输出进行平均。这是一个绝佳的例子,说明了不同的科学思想如何从不同且互补的角度阐明同一个概念——随机性。

应用与跨学科联系

在我们完成了对信息熵基本原理的探索之后,你可能会产生一种与 Claude Shannon 本人相似的感觉。杰出的数学家 John von Neumann 曾有名地告诉 Shannon,他应该把自己这个新的不确定性度量称为“熵”,不仅因为它的数学形式与统计力学中使用的形式相同,更带点嘲讽意味的是,因为“没人真正知道熵是什么,所以在辩论中你总能占上风。”

然而,这个玩笑最终却促成了现代科学中最深刻的统一之一。熵作为“缺失信息”的概念已经从其最初的通信理论容器中“泄漏”出来,渗透到几乎所有科学探究领域。它已经成为一种谈论不确定性、复杂性和信息本身的通用语言。在本章中,我们将探索这一思想的惊人传播,看看同一个方程如何帮助我们理解气体的行为、我们DNA的秘密、混沌的本质以及科学发现的艺术。

信息的物理核心:热力学与统计力学

最自然,也许也是最令人震惊的联系,存在于信息论与物理学之间。你在热力学课堂上可能学到的吉布斯熵,S=−kB∑ipiln⁡piS = -k_B \sum_i p_i \ln p_iS=−kB​∑i​pi​lnpi​,看起来与香农的公式惊人地相似。在这里,pip_ipi​ 是一个粒子系统处于特定微观排列或“微观状态”的概率。这两个公式实际上在讲述同一个故事。它们是成正比的,通过一个简单的常数联系在一起:S=(kBln⁡2)HS = (k_B \ln 2) HS=(kB​ln2)H,其中 HHH 是以比特为单位的香农熵。

这意味着什么?这意味着一个系统的热力学熵——一个支配着热流、发动机效率和时间之矢方向的量——不过是我们对该系统真实微观状态缺失信息的度量。玻尔兹曼常数 kBk_BkB​ 只是一个转换因子,将抽象的“比特”单位转换为对物理学家来说方便的物理单位——能量/温度(焦耳/开尔文)。这并不比英寸和厘米之间的转换因子更神秘;长度这个基本概念是相同的。

让我们把这个概念具体化。想象一个中间有隔板的盒子。一边是气体A,另一边是气体B。我们确定地知道,左边的任何粒子都是A,右边的任何粒子都是B。我们关于随机选择一个粒子的身份的香农熵为零。现在,我们移开隔板。气体混合在一起。如果我们现在从盒子中随机挑选一个粒子,我们不再确定它的身份。它可能是A或B。我们的不确定性——我们的香农熵——增加了。同时,物理学家会告诉你,热力学的“混合熵”也增加了。深刻的洞见在于,这并非两个独立的现象;它们是对同一事件的两种描述。物理熵的增加恰好与我们对系统信息损失的量成正比。看来,宇宙厌恶完全确知的状态,就像人们常说它厌恶真空一样。

生命的蓝图:生物学和遗传学中的信息

如果说物理学为信息熵提供了最深的根基,那么生物学则为其提供了最肥沃的土壤。毕竟,生命就是一场信息的博弈——存储信息、复制信息和执行信息。

在最基本的层面上,我们可以用熵来量化生命分子的结构复杂性。考虑一个由一组单体单元构成的长聚合物链,如DNA或蛋白质。一个不断重复相同单元的链,AAAAA...,是完全有序和可预测的;它的熵为零。而一个其中单元以不同频率出现的链,则具有一定的结构随机性,其非零的熵可以量化其复杂性。

当我们审视细胞内的动态过程时,这个概念变得异常强大。我们DNA中的单个基因通常可以通过一种称为可变剪接的过程产生多种不同的蛋白质。通过选择将基因转录本的哪些部分拼接在一起,细胞可以从一个单一的蓝图创造出各种分子工具。产生每个版本的概率是可以测量的。根据这些概率,我们可以计算剪接过程的香农熵。这个以比特为单位的数字告诉我们,该基因的调控中编码了多少“选择”或“灵活性”。一个高熵基因是一件多功能工具,而一个低熵基因则是一个专职专家。

从更大的尺度看,信息熵已成为生物信息学中不可或缺的工具,用于通过比较不同物种的基因和蛋白质来解码其功能。当我们比对来自人类、小鼠、鱼类和果蝇的某种蛋白质序列时,我们发现氨基酸链中的某些位置在每个物种中几乎都是相同的。这些是高度保守的位点。其他位置则五花八门,出现了许多不同的氨基酸。保守位点的熵非常低;自然界通过数十亿年的进化,消除了这些位置的不确定性,因为确切的氨基酸对于蛋白质的功能至关重要。相比之下,高熵位点对突变更具耐受性。通过计算每个位置的熵,我们可以创建蛋白质功能景观图,突出其工作中最重要的区域,而无需实际观察蛋白质的活动。信息含量,定义为从完全随机序列中熵的减少量,直接指向了生物学上的重要性。

最后,我们可以将这些思想应用于整个生物系统。你的免疫系统维持着一个庞大而多样化的T细胞“库”,每个T细胞都有一个独特的受体,准备识别特定的病原体。免疫系统的健康状况取决于这个库的多样性。利用高通量测序,免疫学家可以计算不同类型的T细胞受体及其频率,将这个库视为一个概率分布。然后他们可以计算其香农熵,以及相关的多样性指标,如丰富度和均匀度。这为免疫健康提供了量化指标。众所周知,衰老或免疫衰老的一个特征是这种多样性的下降。细胞库被少数几个扩增的细胞克隆所主导,导致丰富度和均匀度降低,从而导致熵值降低。因此,抽象的熵概念成为了衡量人类衰老过程中一个基本方面的具体生物标志物。

从混沌中见秩序,从噪声中见语言:复杂系统中的熵

熵也为观察迷人的复杂和混沌系统世界提供了一个新的视角。20世纪最惊人的发现之一是,简单的、确定性的数学规则可以产生实际上是随机的行为。

考虑著名的逻辑斯蒂映射,一个常用于模拟种群动态的简单迭代方程。对于某些参数值,其行为是完全混沌的。如果你绘制它生成的数值序列,它们似乎在不可预测地跳动,从不安定下来。虽然生成下一个值的规则是完全已知的,但你无法预测遥远未来的值。这个系统是一个“随机性生成器”。我们可以计算这些值分布的香农熵,并得到一个正数。这个熵量化了系统固有的不可预测性;它是系统在每个时间步长上产生新信息的速率,从而消除了我们进行长期预测的能力。在这种情况下,熵是混沌的代价。

许多现实世界的系统,从天气到股市再到语言,并不仅仅是独立事件的序列。现在发生的事情取决于之前发生的事情。对于这类可以建模为马尔可夫过程的系统,我们使用一个相关的概念,称为​​熵率​​。它衡量的是在给定系统历史的情况下,每一步的平均不确定性或信息内容。这是当你看到句子中的下一个词或旋律中的下一个音符时感到的平均“惊奇”度。例如,英语的熵率远低于随机字母序列的熵,因为语法和上下文的规则限制了我们的选择,但它远非零,这就是为什么语言可以传达新信息。有趣的是,对于一些具有无限词汇的理想化语言模型,整个语言的总熵可以是无限的,但熵率仍然是一个有限且有意义的量,表征了其结构和效率。

提问的艺术:工程学和数据科学中的熵

信息熵最实用、最现代的应用或许在于从数据中学习的科学。每一次实验,从对金属棒进行的简单拉伸测试到复杂的临床试验,都是为了减少我们对世界的不确定性。但我们应该进行哪项实验呢?

信息论通过贝叶斯推断的框架,给了我们一个极为优雅的答案。想象一位工程师试图通过拉伸一根杆并测量其变形量来确定材料的刚度(杨氏模量,EEE)。在实验之前,她对 EEE 的了解由一个“先验”概率分布描述,该分布具有一定的香农熵 h(E)h(E)h(E)。在她收集了一些数据 Y\mathbf{Y}Y 之后,她将自己的知识更新为一个“后验”分布 p(E∣Y)p(E|\mathbf{Y})p(E∣Y),这个分布有望更窄,并且具有更低的熵 h(E∣Y)h(E|\mathbf{Y})h(E∣Y)。对于该特定实验,不确定性的减少量是 h(E)−h(E∣Y)h(E) - h(E|\mathbf{Y})h(E)−h(E∣Y)。

但如果她还没有进行实验,而是在决定如何进行实验呢?她应该使用更精确的传感器吗?还是不同的载荷?她应该选择她*期望*能产生最大熵减少的实验设计。这个量——期望的不确定性减少量——有一个名字:未知参数与数据之间的​​互信息​​,I(E;Y)I(E;\mathbf{Y})I(E;Y)。它被定义为 I(E;Y)=h(E)−h(E∣Y)I(E;\mathbf{Y}) = h(E) - h(E|\mathbf{Y})I(E;Y)=h(E)−h(E∣Y)。这将实验设计从一门基于直觉的艺术转变为一门定量科学。我们可以使用计算机模拟来计算数十种潜在实验设置的互信息,并选择在数学上保证信息量最大的那一个。这一原则,被称为贝叶斯实验设计,正在从材料科学、机器学习到医学诊断等领域引发革命。

统一的观点

我们的旅程结束了。我们看到同一个数学概念,时而是支配宇宙的物理定律,时而是破译生命密码的工具,时而是衡量混沌不可预测性的尺度,时而是科学发现的指导原则。Von Neumann 的俏皮话最终既对又错。我们现在对熵是什么有了更清晰的认识:它是一种关于不确定性、选择和缺失信息的普适度量。但在某种程度上,他说得也对,它确实能在任何辩论中给人带来优势,因为它是迄今为止被构想出的最强大、最具统一性的概念之一,提供了一种通用语言来描述从原子到星系、从基因到大脑的世界运作方式。