熵作为缺失信息

玻尔百科

定义

熵作为缺失信息是由克劳德·香农定义的数学度量，用于量化在观察系统状态之前所面临的不确定性或信息缺失。这一观点确立了热力学熵与信息熵在物理上的等效性，说明系统的无序度直接反映了人类对微观状态的无知程度。根据兰道尔原理，信息具有物理属性，这一信息论视角已成为基因组学、人工智能和生态学中衡量多样性与指导算法的重要工具。

核心要点

由克劳德·香农 (Claude Shannon) 定义的熵，是对系统在观测前其状态的不确定性或“缺失信息”的数学度量。
物理学中的热力学熵在物理上等同于信息熵，这表明“无序”是衡量我们对系统微观态无知的直接尺度。
兰道尔原理（Landauer's Principle）揭示了信息的物理性，它证明了擦除信息需要一个最小的能量成本，从而将计算与热力学从根本上联系起来。
这种信息论的观点在生态学、基因组学和人工智能等领域中，成为一个量化多样性、遗传重要性以及指导学习算法的强大工具。

引言

“熵”这个词常常让人联想到衰变、无序以及宇宙不可避免地走向混沌。虽然这种普遍看法并非不正确，但它忽略了一个由克劳德·香农 (Claude Shannon) 开创的更精确、更强大的解释：熵是我们自身不确定性，或“缺失信息”的一种度量。这一视角将熵从一个模糊的混乱概念，转变为一个具体、可量化的工具，几乎可以应用于任何受概率支配的系统，从抛硬币到人类基因组的复杂性。但是，这样一个诞生于通信信号研究的抽象概念，如何能具有如此深刻的物理意义和实际效用呢？

本文旨在弥合这一差距。它将踏上一段解密熵的旅程，将其定义为我们所“不知道”之事的度量。第一部分原理与机制将通过探索香农对信息的正式定义，将其与物理学的热力学熵直接联系起来，并介绍支配信息流动和处理的基本规则，从而奠定基础。随后，在应用部分将展示这一单一思想如何提供一个统一的视角，用以理解和改造世界，从量化生态系统中的生物多样性到设计更智能的人工智能系统。

原理与机制

想象一下，你正在等待一位出了名不守时的朋友。如果他准时到达，你会非常惊讶。如果他迟到二十分钟，你一点也不惊讶。在那惊讶的瞬间，你获得了信息。事件越令人惊讶，你收到的信息就越多。这个简单直观的想法正是我们所说的“信息”的核心，而克劳德·香农的天才之处在于他意识到这个概念可以被精确地数学化。他告诉我们，熵仅仅是对我们不确定性，或我们对一个系统的“缺失信息”的度量。

到底什么是“信息”？一个正式定义

让我们从迟到的朋友转向更简单的事情：一次抛硬币。如果你知道这枚硬币两面都是正面，那么结果总是“正面”。没有惊讶，没有不确定性。你的“缺失信息”为零。但如果硬币是公平的，你就完全不确定。结果可能是正面或反面，概率相等。在这里，你的不确定性达到了最大值。

香农给了我们一个优美的公式来量化这种不确定性，他称之为熵，用 $H$ 表示：

$H(X) = - \sum_{i} p_i \log_{2}(p_i)$

在这里， $X$ 代表所有可能结果的集合（如{正面，反面}）， $p_i$ 是第 $i$ 个结果的概率。负号的存在是因为概率小于或等于一，所以它们的对数是负数或零；这使得总熵成为一个正数。为什么要用对数？因为它有一个奇妙的性质：它使信息具有可加性。两个独立事件的信息是它们各自信息的总和。

为什么是 $\log_2$ ？这是一种约定。使用以 2 为底的对数，熵的单位是比特（bits）。你可以将一“比特”的熵看作是通过一个答案同样可能的“是/否”问题所解决的不确定性。

让我们将此应用于一个简单的两态系统，比如一个量子比特（qubit），它可能以概率 $p$ 处于基态，或以概率 $1-p$ 处于激发态。其熵为 $S(p) = - [p \ln(p) + (1-p)\ln(1-p)]$ （物理学家通常使用自然对数和一个玻尔兹曼常数因子 $k_B$ ，所以严格来说熵是 $S=-k_B \sum p_i \ln p_i$ ，但核心思想是相同的）。我们对这个量子比特的不确定性何时最大？你可能已经猜到，那就是当我们没有理由偏好任何一种状态时——即当 $p = 1/2$ 时。对于 50/50 的机会，香农熵为 $H = -[0.5 \log_2(0.5) + 0.5 \log_2(0.5)] = 1$ 比特。我们的不确定性恰好是“一比特”。如果我们确切知道状态（例如， $p=1$ ），那么 $H = -[1 \log_2(1) + 0 \log_2(0)] = 0$ 。没有不确定性，也就没有缺失的信息。

信息的特性

熵的一个关键特征是，它完全不关心我们给结果赋予的标签。想象一个天气传感器报告“晴”、“多云”或“雨”，概率分别为 $0.5, 0.25, 0.25$ 。一位工程师可能设计一个系统，将这些状态编码为数字 $\{0, 1, 2\}$ ，而另一位工程师可能使用 $\{10, 20, 30\}$ 。第二个系统因为数字更大而包含更多“信息”吗？当然不是。关于天气的基础不确定性是完全相同的。香农的公式证实了这一点：由于概率相同，两种情况下的熵 $H$ 完全一样。熵关乎概率分布，而不是我们赋予结果的意义或价值。

当所有结果等可能时，我们的不确定性最大。考虑一个可以存在于四种状态之一的纳米级比特。如果每个状态的概率都是 $1/4$ ，那么熵将是 $H = \log_2(4) = 2$ 比特。我们平均需要两个是/否问题来确定其状态。但如果测量告诉我们实际概率是 $\{1/2, 1/4, 1/8, 1/8\}$ 呢？将这些代入公式，得到的熵为 $H = 1.75$ 比特。熵变低了！为什么？因为我们现在有了一条信息：第一种状态是最有可能的。这个系统不再是一个完全的谜，我们的不确定性也相应地减少了。

连接两个世界的桥梁：信息与物理

到目前为止，熵似乎只是对人类无知的一种主观度量。但科学中最深刻的发现之一是，这并非故事的全部。让我们拿一副洗过的扑克牌。可能的排列顺序有 $52!$ （52的阶乘）种，这是一个天文数字。如果每种顺序都等可能，那么熵——我们对具体顺序的无知——是巨大的： $H = \log_2(52!) \approx 225.6$ 比特。当我们整理好这副牌时，我们将状态减少到一个单一的、已知的构型。我们关于这副牌知识的熵降至零，因为我们获得了 $225.6$ 比特的信息。

现在是关键的飞跃。考虑一个物理存储比特，以微小磁畴的磁取向（“上”或“下”）来存储。如果我们对其状态一无所知，概率就是 $p_{\text{上}}=1/2$ 和 $p_{\text{下}}=1/2$ 。信息熵是 1 比特。物理学家早就有了他们自己的熵概念，与无序和热有关，由路德维希·玻尔兹曼 (Ludwig Boltzmann) 和约西亚·威拉德·吉布斯 (J. Willard Gibbs) 定义。对于同一个磁比特，吉布斯熵计算为 $S = k_B \ln(2)$ 。

仔细看看这两个结果。香农的熵是 $H = \log_2(2)$ 。吉布斯的熵是 $S = k_B \ln(2)$ 。它们描述的是完全相同的物理情境，其公式在数学上是等价的，仅相差一个常数因子： $S = (k_B \ln 2) \times H$ 。玻尔兹曼常数 $k_B$ 不再仅仅是气体物理学中的一个常数；它揭示了自己是信息单位（比特）和热力学单位（焦耳/开尔文）之间的基本转换因子。这是一个惊人的启示：热力学熵就是缺失信息。一个盒子中气体的“无序”程度，直接衡量了我们对其中每个粒子精确状态的无知程度。

知识的流动

信息不是静态的；它随着我们与世界的互动而流动和变化。当我们进行观察时，我们学到东西，我们的不确定性就会减少。想象你正在测试一个行为像有偏硬币的电子元件。你知道它出现“正面”的概率要么是 $p=0.25$ ，要么是 $p=0.75$ ，但你不知道是哪一种。最初，你假设两种偏倚的可能性相等，所以你对硬币真实性质的不确定性是 $H(\text{偏倚}) = 1$ 比特。然后，你进行一次测试，观察到“正面”。这个新的数据点让你能够使用贝叶斯定理更新你的信念。现在，硬币是 $p=0.75$ 的那种可能性更大了。如果你用这些新的概率重新计算熵，你会发现你的不确定性已经降至大约 $H(\text{偏倚}|\text{正面}) \approx 0.811$ 比特。你已经获得了 $1 - 0.811 = 0.189$ 比特关于该元件的信息。这就是学习的数学描述。

如果学习减少了熵，那么你能反过来做吗？你能仅通过处理信息就凭空创造信息吗？答案是响亮的“不”。假设一个信源发送 8 个可能符号中的一个（ $H(X) = \log_2(8) = 3$ 比特的不确定性）。你构建了一个廉价的探测器，它不能识别符号，只能告诉你其索引是“偶数”还是“奇数”（ $H(Y) = \log_2(2) = 1$ 比特的不确定性）。你处理了原始数据 $X$ 得到了一个摘要 $Y$ 。在此过程中，你丢失了信息。输出的熵必然小于（或在特殊情况下等于）输入的熵： $H(Y) \leq H(X)$ 。这是一个被称为数据处理不等式（Data Processing Inequality）的基本规则。它指出，对一段数据进行的任何计算或转换，都不能增加其包含的关于其原始来源的信息量。

宏大原理的运作

这些概念在科学中两个最强大的原理中达到顶峰。

首先是最大熵原理（Principle of Maximum Entropy）。当我们对一个系统的信息不完整时，我们应该如何为其可能的状态分配概率？该原理指出，我们应该选择与我们已知信息一致，但对其他一切都最大化我们的熵（我们的无知）的概率分布。这是对我们知识最诚实、最无偏见的表述。例如，如果我们有一组自旋为1的粒子，而我们唯一知道的是它们平均测得的自旋值，这个原理唯一地确定了在三种可能的自旋态中找到一个粒子的概率。这并非均匀分布；平均值的约束以一种非常特定的方式偏置了结果，遵循一种指数形式，这在物理学中被称为著名的玻尔兹曼分布。这个原理是统计力学的基石，也是现代机器学习和数据分析中的重要工具。

其次是兰道尔原理（Landauer's Principle），它揭示了遗忘的物理代价。我们看到，获取信息在抽象意义上是免费的。但擦除它不是。考虑将一个可能处于状态“0”或“1”的存储比特重置为一个确定的“0”状态。你正在通过销毁一比特信息来减少系统的熵。热力学第二定律规定，宇宙的总熵不能减少。所以，如果比特的熵下降，其他东西的熵必须上升。那个“其他东西”就是环境。被擦除的信息被转换成热量并耗散掉。这个过程需要对系统做最小量的功，由 $W_{\text{min}} = k_B T \ln(2)$ 给出，对应于从最大不确定性状态擦除一比特信息。这为计算的能效设定了一个基本的物理极限。事实证明，信息不仅仅是一个抽象概念；它是物理上真实存在的，操纵它会产生现实世界中的后果。

最后，我们可以看到这些思想如何为即使是复杂的现代领域提供清晰的思路。例如，在贝叶斯机器学习中，我们区分两种不确定性。一种是我们对世界模型的认知不确定性（epistemic uncertainty），我们可以通过收集更多数据来减少它。另一种是世界本身固有的偶然不确定性（aleatoric uncertainty），再多的数据也无法消除。熵的链式法则使我们能够将总不确定性分解为这两个不同的部分： $H(\text{模型}, \text{数据}) = H(\text{模型}) + H(\text{数据}|\text{模型})$ 。因此，信息论为我们提供了精确的语言，来区分我们所不知道的和根本不可知的，这对于任何科学家或工程师来说都是一个真正深刻的区分。

应用与跨学科联系

既然我们已经深入探讨了熵作为“缺失信息”这一奇特思想，一个问题可能会在你脑海中萦绕：它有什么用？这仅仅是一段迷人的数学哲学，一个可以收藏起来的巧妙定义，还是一个我们能实际使用的工具？答案是，它是一个非常强大的工具，这也是科学如此激动人心的一点。这就像得到了一副奇特的新眼镜。当你透过它看世界时，你突然会看到一个隐藏的统一性，一条深刻的联系贯穿于你以为相隔万里的不同研究领域。让我们戴上这副眼镜，来一场旅行，从一个生命生态系统的宏伟画卷，一直到我们自身DNA的亚微观舞蹈，甚至进入人工智能的抽象世界。

生物学家的工具箱：量化生命模式

也许最直观的起点是在广阔的户外。想象一下，你是一位生态学家，走在两种不同的地景中。第一处是一个巨大的商业农场，一种单一栽培的作物以完美、可预测的行列绵延数英里。第二处是一个生机勃勃的野生草地，充满了混乱交织的草、花、昆虫和鸟类。如果你闭上眼睛，伸手抓一只昆虫，在哪一处你会对抓到什么更不确定？

答案是显而易见的。在单一栽培的农场里，你会有很好的猜测；它很可能是适应那种作物的少数物种之一。在草地里，它可能是任何东西！你的“缺失信息”要大得多。生态学家给这起了一个正式的名称：香农多样性指数（Shannon Diversity Index）。它就是我们一直在研究的熵公式，应用于一个群落中不同物种的比例。高熵意味着高多样性，一个充满惊喜的丰富而复杂的系统。低熵则意味着一个简单、通常脆弱的系统。这一个源于信息思维的数字，为我们提供了一种衡量生态系统健康和复杂性的强大方法。

让我们把视线从一个田野的尺度缩小到一个细胞的尺度。我们的身体由编码在DNA中的信息库来运作。这些信息由蛋白质读取，蛋白质必须找到并结合到特定的DNA短序列上，以开启或关闭基因。但这些结合位点并非完全相同，存在着变异。我们如何可视化结合位点中每个位置的“重要性”？信息论为我们提供了完美的工具：序列标识图（sequence logo）。

在结合位点的每个位置，我们可以计算熵。如果某个位置的核苷酸总是，比如说，一个‘A’，那么就完全没有不确定性。熵为零。我们对那里应该是什么有完美的信息。然而，如果这个位置同样可能是A、C、G或T，那么不确定性就最大。一个位置的“信息含量”被定义为最大可能熵减去我们观察到的实际熵。一个高度保守——总是同一个字母——的位置，熵很低，因此信息含量很高。它是信息中的关键部分。一个变化多端的位置，熵很高，信息含量很低；它就像句子中一个含糊不清的词。序列标识图就是这一点的精美图示，其中每个字母堆叠的高度显示了该位置的总信息量。我们简直是在可视化基因组中的信息！

这种精确与模糊的理念延伸到了读取基因这一行为本身。转录过程并不总是在完全相同的DNA字母处开始。一些基因有“尖锐”的启动子，转录以极高的精确度起始。另一些则有“宽泛”的启动子，可以在一个更宽的区域内开始。通过测量这些转录起始位点的分布，我们可以计算其熵。一个尖锐的启动子有一个低熵分布，集中在一个地方。一个宽泛的启动子有一个高熵分布，分散且不确定性更高。这不仅仅是一个学术细节；这种由熵衡量的“不确定性的形状”，对基因如何被调控有着深远的影响。

信息的流动不仅塑造了细胞的即时功能，也塑造了整个生物体的构建。在发育过程中，一个生长中胚胎里的细胞如何“知道”它应该成为手指的一部分还是肩膀的一部分？答案通常在于称为形态发生素（morphogens）的分子梯度。想象一条细胞链，一端有一个形态发生素源。浓度在源头附近很高，并随距离减弱。细胞不需要测量精确的浓度；它们只需要知道它是“高”、“中”还是“低”。通过感知它落入哪个浓度区间，细胞可以确定其位置。在感知形态发生素之前，细胞可能在任何地方——其位置不确定性很高。通过进行测量，它减少了这种不确定性。它获得的信息量正是熵的减少量。宏伟而复杂的发育过程，通过我们的新眼镜来看，可以被视为细胞获取信息以解决其命运不确定性的过程。同样的基本计算可以量化任何具有一组概率性结果的生物过程的不确定性，例如病毒是会摧毁细胞还是会与其基因组融合。

工程师的罗盘：为信息而设计

熵作为缺失信息的思想不仅仅用于描述世界；它也是改变世界的基本原则。对于试图在不确定性的迷雾中做出最佳决策的工程师、医生和科学家来说，它是一个罗盘。

考虑一位试图诊断病人的医生。有许多可能的检查和问题可以问。在时间和资源有限的情况下，应该从哪里开始？你应该从平均而言能告诉你关于最终诊断最多信息的检查或症状开始。但“告诉你最多”是什么意思？它意味着能让你对疾病的不确定性减少最多的观察。这被称为互信息（mutual information）。它是你知道症状之前的诊断熵，减去你知道症状之后的平均熵。通过根据症状与疾病的互信息对症状进行排序，可以设计出最高效的诊断系统，总是先问最“有信息量”的问题。

这个原则是绝对基础的。想一想一个试图执行精细任务的机械臂。它使用传感器来测量其位置。传感器是有噪声的；它不会给出完美的读数。只有当测量能给机器人的控制系统一些关于其真实状态的信息时，它才有用。这意味着真实状态（ $X$ ）和传感器测量（ $Y$ ）之间的互信息必须大于零。互信息的一个显著性质，即信息的非负性，是 $I(X; Y) \ge 0$ 。这是一个数学上的保证，平均而言，进行一次观察绝不会让你更不确定。这可能看起来很明显，但这是关于知识本质的一个深刻陈述。一次测量，即使是有噪声的，最坏的情况也只是无用（ $I(X;Y)=0$ ）；它不会系统性地误导你。

这种思维方式是现代机器学习和人工智能的核心。当我们使用像t-SNE这样的算法来可视化巨大、高维的数据集——比如成千上万个单细胞的基因表达——我们面临一个问题。对于每个细胞，哪些其他细胞是它的“真正”邻居？t-SNE通过使用一个名为“困惑度”（perplexity）的参数来解决这个问题。这是一个用户定义的值，与熵直接相关。事实上，困惑度就是 $2^{H}$ ，其中 $H$ 是一个细胞邻居概率分布的熵。它为一个复杂过程提供了一个惊人直观的控制手段：困惑度是算法应为每个点考虑的“有效邻居数”。通过设置困惑度，你是在告诉算法它应该对每个点的邻域感到多“惊讶”。

也许这个思想最前沿的应用是在科学发现过程本身。想象你正试图用人工智能发明一种具有特定性质的新材料。你的AI模型可以推荐候选材料，但你只能合成和测试少数几个。你应该选择哪一个？你认为最可能是答案的那个？不一定！一个更好的策略可能是测试你的模型最不确定的那个候选材料。为什么？因为那个实验的结果，无论成功与否，都会给你的模型带来最多的学习。这就是一种称为BALD（Bayesian Active Learning by Disagreement，基于分歧的贝叶斯主动学习）的主动学习策略背后的思想。该策略是始终选择下一个能最大化实验结果与你自身模型参数之间互信息的实验。你是在主动寻求减少你自己知识中的“缺失信息”。这是对科学好奇心的一种优美的形式化。

更深层次的统一：混沌边缘的熵

所以我们看到这一个思想贯穿于生物学、医学和人工智能。但它的触角甚至更广，触及物理学和数学中一些最深刻的问题。考虑一个随机网络，比如社会中的友谊网络或互联网的物理链接。如果你从一组不相连的节点开始，并随机添加链接，网络在某个时刻会突然连接成一个单一的巨型组件。这是一种“相变”，就像水结成冰。

现在，问一个简单的问题：对于给定的链接密度，网络是连通的还是不连通的？这是一个是/否问题。我们可以为此定义一个二元变量并计算其熵。这个熵衡量了我们对网络连通性的不确定性。你认为这种不确定性在哪里达到顶峰？它恰好在相变的临界点处达到最大，就在网络处于分散和连通之间的“临界点”上。这是一个普遍而深刻的结果。最大熵——最大的不确定性，最大的惊奇潜力——常常出现在这个“混沌边缘”，即有序与无序之间最有趣、最动态的边界。

从计算田野里的物种数量，到构建智能机器，再到理解复杂系统的基本结构，熵作为缺失信息的概念都是我们的指南。它量化惊奇，它指导我们的提问，它让我们能够可视化模式，并揭示最有趣的行动发生在哪里。这是一个单一、统一的思想照亮世界的惊人力量的证明。