熵的性质

玻尔百科

定义

熵的性质是热力学和信息论中衡量不确定性的基本准则，由对称性、凹性和热力学第三定律确定的普遍零点等核心特征所定义。这些性质涵盖了针对相关系统的次可加性以及链式法则，为理解信息流动和不确定性的动态变化提供了理论框架。熵的性质在实践中设定了热力学的物理极限，并用于定义信息论中的信道容量以及量化生物系统中的信息。

核心要点

熵是衡量不确定性的基本度量，由对称性、凹性等核心性质以及热力学第三定律确立的普适零点共同定义。
对于独立系统，熵的可加性成立；但对于相关系统，该性质不再成立，此时更普适的次可加性原理成立，而互信息则量化了这种相关性。
诸如链式法则和强次可加性等动态规则，为理解信息如何流动以及在获得知识时不确定性如何变化提供了一个框架。
熵的原理具有具体的应用，例如在热力学中设定物理极限，在信息论中定义信道容量，以及在复杂的生物系统中量化信息。

引言

虽然许多人认为熵是衡量无序或随机性的尺度，但其真正的力量在于一组决定其在所有科学领域中行为的基本性质。要理解熵，就需要超越其著名的公式，去把握支配它的那些优雅而直观的规则。这种更深层次的理解揭示了为何熵不仅是一个热力学上的奇特概念，更是一种量化不确定性和信息的通用语言。

本文旨在弥合“知道熵的方程”与“领会其为何呈现此形式”之间的鸿沟，通过探索构成其根基的原理，来建立对其特性的直观感受。

我们将从“原理与机制”一节开始这段旅程，在该节中，我们将剖析熵必须遵循的核心性质，如对称性、凹性、可加性，以及支配相互作用系统的更微妙的规则。随后，“应用与跨学科联系”一节将展示这些抽象原理如何在物理学、通信和生物学等截然不同的领域中产生深远而实际的影响。这次初步的探索将是我们与这一概念的初次接触，为更深入的理解奠定基础。

原理与机制

如果说引言部分是我们与熵的初次接触，那么本章就是我们坐下来深入了解其特性的地方。熵不仅仅是一个你计算出的数字；它是一个具有独特个性的概念，受一套出人意料地直观而优雅的规则支配。要真正理解熵，我们必须理解它的行为——它如何增长、缩小、组合和划分。我们将对其基本性质进行一次巡礼，读完本章，你会发现著名的熵公式并非凭空创造，而是这些常识性原则的必然结果。

不确定性的形态

我们讨论的核心是著名的香农-吉布斯熵公式，用于描述一个具有一组可能状态的系统，其中每个状态的概率为 $p_i$ ：

$S = -k \sum_{i} p_i \ln(p_i)$

常数 $k$ （在物理学中如玻尔兹曼常数 $k_B$ ，在信息论中则为1）设定了单位，但真正的魔力在于求和项。每一项 $-p_i \ln(p_i)$ 代表了结果 $i$ 的“意外程度”乘以其出现的可能性。让我们看看这个公式告诉我们什么。

首先，熵是民主的。它不关心我们给结果贴上什么标签，只关心它们的概率。想象两种古代语言，其中三种最常见的句子结构的概率为 $\{0.5, 0.3, 0.2\}$ 。在 Alpha 语言中，结构 S1 最常见；而在 Beta 语言中，S2 最常见。这会改变不确定性吗？完全不会。熵的计算涉及对 $0.5 \ln(0.5)$ 、 $0.3 \ln(0.3)$ 和 $0.2 \ln(0.2)$ 这几项求和。由于加法与顺序无关，两种语言的总熵是完全相同的。这个性质被称为对称性：熵仅取决于概率的集合，而不取决于哪个结果被赋予了哪个概率。它是一个纯粹的统计量度，对状态的“意义”视而不见。

其次，我们的不确定性何时最大？答案是当我们最没有理由偏好某个结果时——也就是说，当所有结果等可能时。考虑一个可以处于状态 '0' 或 '1' 的简单存储比特。如果我们知道这个比特几乎总是处于状态 '0'（比如，概率为 $(0.9, 0.1)$ ），我们的不确定性就很低，没什么惊喜。如果概率更接近，比如 $(0.7, 0.3)$ ，系统就更难预测。不确定性的顶峰，即最大熵，出现在概率完全均衡于 $(0.5, 0.5)$ 时。任何偏离这种均匀分布的情况都会降低熵，因为它引入了某种可预测性。

这个原则被凹性这一数学性质所捕捉。如果你将一个二元系统的熵 $S(p) = -p \ln(p) - (1-p) \ln(1-p)$ 作为概率 $p$ 的函数绘制出来，你得到的不是一个“V”形，而是一个宽阔、平滑的穹顶，在 $p=1/2$ 处达到峰值。这不仅仅是一个数学注脚；它解释了为什么混合通常会增加熵。当你混合两种独立的物质时，你正在从高确定性状态（例如，这个分子肯定在容器 A 中）转向更高不确定性的状态（该分子可能在合并体积的任何地方）。熵函数的凹形保证了混合物的熵大于分离各部分的平均熵。

普适的基石

要使一个量真正成为基础量，拥有一个明确定义的零点会很有帮助。熵的底线在哪里？什么时候不确定性绝对为零？这发生在我们百分之百确定系统状态的时候。一个状态的概率为 $p=1$ ，而所有其他状态的概率为 $p=0$ 。熵公式给出 $S = -k (1 \ln(1) + 0 \ln(0) + \dots) = 0$ 。（表达式 $0 \ln(0)$ 被视为零，因为概率为零的状态对不确定性的贡献为零）。

这不仅仅是一种理论上的可能性。热力学第三定律为这个绝对零点提供了一个物理锚点。它假设，当任何纯净、完美的晶体物质的温度接近绝对零度（ $0$ 开尔文）时，其熵也趋近于零。在这种极致的寒冷中，系统稳定在一个单一、独特的基态。不再有热随机性；所有的不确定性都消失了。

这个普适且具有物理意义的零点是熵的特权。像内能或焓这样的量没有自然法则定义的天然零点。我们只能测量能量的变化，所以我们必须人为设定一个参考点（如“标准生成焓”）来建立一个标度。但对于熵，大自然提供了参考。这就是为什么化学家可以自信地为物质的绝对熵制表，而这是他们无法对能量做到的。

合而为一，或分或合

当我们同时考虑两个系统 A 和 B 时，会发生什么？如果这两个系统完全独立——就像两个密封、绝热的气体容器——我们的直觉告诉我们，“无序”或“不确定性”的总量应该只是各个量的总和。我们的直觉是正确的。对于独立系统，总熵是各部分之和： $S_{AB} = S_A + S_B$ 。这个性质被称为可加性，它与熵是一个广延性质密切相关：如果你将一个均匀系统的尺寸加倍，它的熵也会加倍。

但如果系统不是独立的呢？如果它们是相关的呢？想象一下两个朋友，Alice 和 Bob，他们关系非常亲密，常常能接上对方的话。如果你只听 Alice 说话，她接下来会说什么存在一些不确定性 $H(\text{Alice})$ 。如果你只听 Bob 说话，也存在不确定性 $H(\text{Bob})$ 。但是如果你同时听他们说话，总的不确定性是 $H(\text{Alice}) + H(\text{Bob})$ 吗？不，会更少。因为 Bob 的话与 Alice 的话是相关的，一旦你听到 Alice 说的，你就能更好地猜测 Bob 会说什么。他们共同讲述的故事的意外性小于他们各自意外性的总和。

这就是次可加性原理：一个整体系统的熵小于或等于其各部分熵的总和。

$H(X,Y) \le H(X) + H(Y)$

这可以用维恩图完美地形象化，其中每个圆的面积代表一个变量的熵。两个圆覆盖的总面积，即它们的并集，代表联合熵 $H(X,Y)$ 。根据初等几何，我们知道并集的面积是单个面积之和减去它们的重叠面积。这个重叠区域，即两个系统之间的共享信息，是信息论的基石：互信息， $I(X;Y)$ 。这引出了熵最重要的恒等式之一：

$H(X,Y) = H(X) + H(Y) - I(X;Y)$

由于信息不能为负（ $I(X;Y) \ge 0$ ），次可加性不等式总是成立。我们开始时谈到的简单可加性只是独立系统（其中重叠为零， $I(X;Y) = 0$ ）的特例。在现实世界中，几乎所有相互作用的系统——从被短程力束缚的分子到被引力束缚的星系——都是相关的。这意味着熵的严格可加性是一种理想化。真实的关系是次可加的，而差额 $k_B I(A;B)$ 精确地量化了各部分之间的相关性。

发现的逻辑

除了作为一种静态度量，熵还遵循动态规则，这些规则支配着信息如何流动以及我们学习时不确定性如何变化。其中最基本的是链式法则。它告诉我们如何分解一个复杂系统的不确定性。对于两个变量，它表述为：

$H(X,Y) = H(X) + H(Y|X)$

用通俗的话说： $X$ 和 $Y$ 的总不确定性是 $X$ 的不确定性，加上在你已经知道 $X$ 的值之后 $Y$ 的剩余不确定性。这是信息的一个基本核算原则。

让我们看一个纠错码的例子。一条消息 $K$ 通过附加一些直接由 $K$ 计算出的奇偶校验位 $P$ 来编码。如果我们只截获了奇偶校验位 $P$ ，我们对消息 $K$ 的不确定性是多少？链式法则给出了答案。我们可以用两种方式写出联合熵： $H(K,P) = H(K) + H(P|K)$ 和 $H(K,P) = H(P) + H(K|P)$ 。由于 $P$ 是 $K$ 的一个确定性函数，知道 $K$ 后关于 $P$ 的不确定性为零，所以 $H(P|K)=0$ 。这意味着 $H(K,P) = H(K)$ 。将两个表达式相等并重新整理，我们发现：

$H(K|P) = H(K) - H(P)$

这个结果非常直观：关于消息的剩余不确定性是原始不确定性减去打包到奇偶校验位中的信息。

最后，我们来到了所有性质中最深刻、最微妙的一个：强次可加性。在其原始形式 $H(A,B,C) + H(B) \le H(A,B) + H(B,C)$ 中，它似乎难以理解。但它等价于一个关于互信息的惊人简单的陈述：

$I(A:C|B) \ge 0$

这可以解读为：在已知 $B$ 的条件下， $A$ 和 $C$ 之间的互信息是非负的。这意味着知识不能创造相关性。平均而言，揭示第三方 $B$ 的状态不会使 $A$ 和 $C$ 看起来比它们实际上更相关。由 $B$ 提供的上下文可以揭示 $A$ 和 $C$ 之间看似的关联只是一个巧合（从而减少它们的互信息），或者它可以揭示一个隐藏的依赖关系，但它永远不能凭空创造出一个共享的秘密。这是对任何物理系统（无论是经典的还是量子的）中相关性结构的一个基本约束。

从对称性和凹性到可加性及其微妙的违背，所有这些性质都源于熵的简单数学形式。而这个形式本身也并非偶然；它是满足关于不确定性度量应如何表现的几个基本公理的唯一函数。这一切以深刻而令人满意的一致性结合在一起，揭示了熵不仅仅是一个公式，而是物理学、信息和现实本身故事中的一个核心角色。

应用与跨学科联系

我们花了一些时间来了解熵，这个奇特的量究竟衡量的是什么？是无序？是不确定性？还是信息的缺失？我们将看到，令人惊奇的答案是，它是所有这些以及更多。现在，让我们把这个概念及其所有独特的性质带到现实世界中去检验。我们将发现，我们所揭示的那些抽象规则——它的对数性质、它作为状态函数的作用、它与不确定性的深刻联系——不仅仅是数学上的奇趣。它们是理解我们宇宙如何运作的关键，从冰箱的嗡嗡声到密码的设计，甚至到生命本身的蓝图。我们的旅程将表明，熵是科学伟大的统一思想之一，将物理学、通信和生物学的织物缝合在一起。

热力学宇宙：从蒸汽机到时空

熵诞生于热力学，所以我们从这里开始是理所当然的。关于理想气体熵，你首先学到的事情之一是它与体积的对数存在一种奇怪的依赖关系，其形式类似于 $N k_B \ln V$ 。为什么是对数？这不是一个任意的选择；它是我们计数方式的直接结果。

想象一下，一个体积为 $V$ 的盒子中有一个粒子。它可以存在的“位置”数量与 $V$ 成正比。如果你有两个独立的粒子，它们可以占据的组合位置数量是 $V \times V = V^2$ 。对于 $N$ 个独立粒子，可用的位置排列或微观状态数（ $\Omega$ ）与 $V^N$ 成正比。现在，回想一下 Boltzmann 发现的基本联系：熵是方式数量的对数， $S = k_B \ln \Omega$ 。当我们对位置状态取对数时，指数 $N$ 就被提了下来，我们得到一个形如 $\ln(V^N) = N \ln V$ 的项。熵公式中的对数将组合概率的乘法性质转化为了熵的加法性质。这个简单而优美的见解解释了为什么将体积加倍并不会使熵加倍——它只是给熵增加了一个固定的量。

熵的另一个深刻性质是它是一个状态函数。这意味着它不关心过程，只关心终点。起始状态和结束状态之间的熵变总是相同的，无论它们之间采取了什么路径。考虑一种超导体，这种材料在低于某个临界温度和磁场时具有零电阻导电的非凡能力。如果你在恒温下将其从正常状态转变为超导状态，你可以用不同的方式来做。你可以缓慢而小心地降低磁场，引导它平缓地通过相变。或者，你可以突然关掉磁场，让材料自行稳定到新的超导状态。一条路径是可逆且受控的；另一条是不可逆且混乱的。然而，由于熵是状态函数，超导体本身的熵变在这两种情况下是完全相同的。这个性质使得热力学如此强大；它允许我们计算状态之间的变化，而无需了解过程的繁杂细节。

熵的性质也决定了终极的物理极限。例如，热力学第三定律告诉我们，达到绝对零度（ $T=0$ K）是不可能的。为什么？我们可以用一个冷却循环的逻辑来思考这个问题。要冷却某物，你需要提取它的熵。你可以通过，比如说，在恒温下改变磁场来做到这一点，这将熵倾倒到一个热库中。然后，你隔离系统，让它绝热冷却（熵恒定）。问题是，当你越来越接近绝对零度时，系统所有可能状态的熵都收敛到同一个最小值。你试图在保持熵不变的情况下向下迈出一步，但楼梯在到达地面之前就结束了。没有更低熵的台阶可以让你踏上去，从而精确地达到零度。宇宙通过熵的规则，使绝对零度成为一个无法企及的目的地。

你可能认为这样的定律仅限于实验室。但是热力学第二定律——孤立系统的总熵永不减少——是如此基本，以至于它甚至在爱因斯坦的相对论语言中也必须成立。为了使该定律对所有观察者都有效，无论他们移动得多快，物理学家们用一种“协变”形式来表达它。他们定义了一个熵四流 $S^{\mu}$ ，这是四维时空中的一个矢量，描述了熵的流动。第二定律于是呈现出优雅而紧凑的形式： $\partial_{\mu} S^{\mu} \ge 0$ 。这个方程表明，熵流的散度总是非负的。简单来说，熵可以在时空的任何一点被创造，但永远不能被摧毁。这是一个普适的、与观察者无关的陈述，将第二定律从蒸汽机的原理提升为时空本身的一个基本特征。

信息时代：从比特到生物学

在20世纪中叶，Claude Shannon 有了一个革命性的洞见：为描述热和无序而发展的熵的数学，是量化信息的完美语言。这一思想开启了数字时代。

毕竟，信息是什么？它是对不确定性的消解。而不确定性的度量就是熵。考虑一个随机吐出符号（如字母表中的字母）的信源。如果每个符号都是独立的并且来自相同的分布（一个“独立同分布信源”），那么长消息的总熵就是单个符号的熵乘以消息的长度。这意味着每个符号的平均信息，或熵率，就是单个符号的熵。这种针对独立事件的可加性是信息论建立的基础。

当然，现实世界是充满噪声的。当你通过一个有故障的信道（如“二进制对称信道”，其中比特可能以某个概率 $p$ 翻转）发送消息时会发生什么？信道的容量——你能可靠发送信息的最大速率——由著名的公式 $C = 1 - H_b(p)$ 给出，其中 $H_b(p)$ 是二进制熵函数。在这里， $1$ 代表每个比特可能的最大信息量，而 $H_b(p)$ 是因信道噪声而损失的信息。熵是信道“混淆度”的直接度量。但这里有一个奇妙的转折。熵函数是对称的： $H_b(p) = H_b(1-p)$ 。这意味着一个以 $0.8$ 的概率翻转比特的信道与一个以 $0.2$ 的概率翻转比特的信道具有相同的容量。为什么？因为一个可预测地出错的信道和一个可预测地正确的信道同样有用！如果你知道它有80%的时间会翻转比特，你就可以对其进行纠正。真正的敌人不是错误，而是关于错误的不确定性，而这正是熵所量化的。

这种量化不确定性的能力使熵成为密码学的基石。想象一下，你想通过将一个秘密 $S$ 分成 $n$ 份来分享它，使得任何 $t$ 份都可以重建它，但任何少于 $t$ 份的组合都不能泄露任何信息。这被称为门限秘密共享方案。“不泄露任何信息”这个条件在熵的语言中有精确的含义：秘密与这些份额之间的互信息为零， $I(S; S_1, \dots, S_{k}) = 0$ for $k \lt t$ 。这等价于说条件熵等于原始熵， $H(S | S_1, \dots, S_{k}) = H(S)$ 。知道这些份额对秘密完全没有提供任何新信息；你的不确定性保持在最大值。利用这些性质，人们可以推导出优美的关系，比如在某些理想条件下，两个份额的联合熵是秘密本身熵的两倍， $H(S_i, S_j) = 2H(S)$ 。

熵与知识之间的联系被诸如法诺不等式之类的强有力的定理正式化。它为你能多好地猜测或估计一个信号设定了一个基本限制。该不等式将出错的概率 $P_e$ 与条件熵 $H(X|\hat{X})$ 联系起来，后者衡量即使在你已经知道你的估计 $\hat{X}$ 之后，关于真实信号 $X$ 仍然存在多少不确定性。一个直接的推论是，如果你有一个零错误的“完美”估计算法，那么条件熵必须为零： $H(X|\hat{X})=0$ 。如果你的估计对原始消息没有留下任何残余的不确定性，那么且仅当那时，你的估计才能是无错误的。

现代工具箱：机器学习与生命本身

熵的力量已经远远超出了它的起源，成为处理数据、复杂性和信息的领域中的一个实用工具。

在机器学习和计算经济学的世界里，算法在不断地做决策。考虑一个随机森林（Random Forest），这是一种构建数百个“决策树”来分类数据的算法——例如，预测消费者是否会购买某个产品。在树的每个分支点，算法必须提出最好的问题来分割数据。什么样的问题是“最好”的？一个能创造出最“纯粹”群组的问题，能尽可能干净地将“购买者”与“非购买者”分开。不纯度，或者说混乱程度的度量，就是熵。在实践中，程序员通常使用一个密切相关的量，称为基尼不纯度（Gini impurity），不是因为它在理论上更好，而是因为它避免了计算对数，因此计算速度更快。对于海量数据集，这种加速至关重要。在这里，熵不是深刻的自然法则，而是一个实用的设计选择，因其能以有用的方式量化无序而被选中。

也许这些思想最令人叹为观止的应用是在生物学中。一个发育中的胚胎是信息处理的奇迹。一个单细胞增殖并分化，每个新细胞都需要知道“我在哪里？”来决定“我应该成为什么？”。在果蝇 Drosophila 中，答案来自一种名为 Dorsal 的蛋白质的浓度梯度。浓度在一侧（腹侧）高，而在另一侧（背侧）低，提供了一个化学坐标系统。但这个信号是有噪声的。一个细胞能从这个模糊的梯度中足够准确地读取它的位置吗？

信息论提供了一个惊人的答案。通过对梯度和噪声进行建模，我们可以计算细胞真实位置与其测量的蛋白质浓度之间的互信息， $I(\text{Position}; \text{Concentration})$ 。这个以比特为单位的值，精确地告诉我们细胞可以从梯度中提取多少位置信息。例如，要指定沿轴的三个不同区域，系统需要提供至少 $\log_2(3) \approx 1.58$ 比特的信息。通过计算 Dorsal 梯度的实际信息含量，生物学家可以确定该系统原则上是否有能力做出如此精细的区分。

这种视角甚至可以延伸到我们的感官。我们对味觉的感知可以被看作是一个通信信道，将食物中分子的信息传递给大脑。五种基本味觉——甜、酸、咸、苦和鲜——由不同的受体检测。在一个完美的“标记线路”系统中，每种味觉只会触发其专用的神经通路。但系统是有噪声的；一种苦味化合物可能会微弱地激活一个甜味受体，这种现象称为交叉反应性。我们可以用一个噪声信道来模拟这个过程，其中参数 $\epsilon$ 代表脱靶激活的概率。互信息 $I(\text{Stimulus}; \text{Response})$ 于是量化了我们味觉感知的保真度。随着交叉反应性 $\epsilon$ 的增加，条件熵 $H(\text{Response}|\text{Stimulus})$ ——大脑在已知味觉下对反应的不确定性——会上升，而互信息会下降。熵的数学使我们能够精确地描述“信息的味道”是如何被分子噪声降解的。

从发动机中不可避免的热量损失，到互联网的终极速度极限，从计算机算法的冷酷逻辑，到塑造胚胎的精妙过程，熵的指纹无处不在。这个概念始于19世纪蒸汽机的肮脏世界，如今已绽放成为一种描述不确定性、秩序和信息的通用语言。它的旅程证明了科学深刻的统一性，揭示了相同的数学思想可以支配恒星的命运和神经元的放电。熵的故事，在很多方面，就是我们探索物理世界以及我们在其中位置的极限与可能性的故事。