try ai
科普
编辑
分享
反馈
  • 熵:不可预测性的通用度量

熵:不可预测性的通用度量

SciencePedia玻尔百科
核心要点
  • 由 Claude Shannon 定义的熵,通过根据所有可能结果的概率对其进行加权,来衡量不确定性或缺失的信息。
  • 最大熵原理指出,当所有可能的结果都等可能时,系统的不确定性最大,对其的描述也最“诚实”。
  • 由 Ludwig Boltzmann 描述的热力学熵,类似于信息熵,代表了对应于单一宏观状态的微观排列数量的对数值。
  • 在动力系统中,柯尔莫哥洛夫-西奈(KS)熵通过测量系统随时间产生新信息或失去可预测性的速率来量化混沌。
  • 物理和化学过程的自发性,从声音的消散到DNA的形成,都由能量(焓)和熵之间的平衡决定。

引言

一个可预测的事件和一个真正的惊喜之间有什么区别?我们如何量化新的、不可预测的信息的价值?这个基本问题位于我们的数字世界、物理定律,乃至混沌本质的交叉点。答案是一个单一而强大的概念:熵,一个衡量不确定性、无序和信息缺失的通用度量。本文通过探索熵丰富的历史和多面性,来应对定义和测量不可预测性这一挑战。我们将从它在信息论中的起源,一路追溯到它在物理世界中的深远影响。第一章“原理与机制”将奠定基础,剖析 Shannon 和 Boltzmann 等先驱的公式,并揭示信息、热力学和混沌动力学之间的深层联系。随后的“应用与跨学科联系”一章将展示这单一概念如何解释从化学反应、生物结构到不可逆变化本质的各种现象。首先,我们必须问:如何给“惊喜”赋予一个数值?

原理与机制

想象你收到一条秘密消息。如果消息是“明天太阳会升起”,你几乎什么都没学到。这是可预测的。但如果消息是“中奖彩票号码是17, 23, 42...”,你就收到了大量有价值的、不可预测的信息。这种“信息”、“不可预测性”究竟是什么,我们又该如何衡量它?这个问题引导我们走上一条连接我们的数字世界、工业革命的蒸汽机以及混沌本质的道路。统一这些领域的单一概念就是​​熵​​。在其核心,熵是对我们不确定性的一种度量,或者换一种说法,是在我们进行观察之前所缺失的信息量。

从计数到加权:量化惊喜

让我们从最简单的不确定性开始。假设一位朋友从一副标准的52张扑克牌中抽出一张。你需要多少信息才能知道他们拿的是哪张牌?由于52张牌中的每一张都是等可能被选中的,不确定性就简单地与可能性的数量有关。在信息论的早期,Ralph Hartley 提出了一种直接的测量方法:信息内容是可能结果数 NNN 的对数。我们将其写为 H0=log⁡2(N)H_0 = \log_{2}(N)H0​=log2​(N),其中以2为底意味着我们用“比特”来衡量信息——也就是你平均需要问多少个“是/否”问题才能确定结果。对于我们的这副牌,有 N=52N=52N=52 种可能性,所以熵是 log⁡2(52)≈5.7\log_{2}(52) \approx 5.7log2​(52)≈5.7 比特。可能性越多,熵就越高,我们的不确定性就越大。

但如果这个游戏是被操纵的呢?如果你面对的不是一副公平的牌,而是一枚有偏向的硬币,它有90%的概率正面朝上,只有10%的概率反面朝上呢?Hartley 的方法就不够用了,因为它没有考虑概率。这时,Claude Shannon 的天才之处就显现出来了。他意识到,一个真正通用的信息度量必须根据可能性发生的概率来对其进行加权。

Shannon 用一个自此成为科学基石的公式来定义熵:

H=−∑ipilog⁡b(pi)H = - \sum_{i} p_i \log_b(p_i)H=−∑i​pi​logb​(pi​)

这里,pip_ipi​ 是第 iii 个结果的概率,求和遍及所有可能的结果。对数底 bbb 的选择决定了单位;我们通常使用以2为底的比特,或以 eee 为底的自然对数(单位是“奈特”)。让我们来剖析这个优雅的表达式。一个高概率事件(pi≈1p_i \approx 1pi​≈1)的 log⁡(pi)\log(p_i)log(pi​) 值接近于零,对总熵的贡献很小。这很合理:一个几乎肯定会发生的事件不会让我们感到惊讶,所以观察到它提供的新信息很少。相反,一个非常罕见的事件(pi≈0p_i \approx 0pi​≈0)有一个巨大的负对数值,代表着巨大的惊喜。然而,它被自身微小的概率 pip_ipi​ 相乘,所以其总贡献 pilog⁡(pi)p_i \log(p_i)pi​log(pi​) 也趋近于零。对不确定性贡献最大的是那些既不确定也不可能的事件。

最大无知原理

那么,对于给定数量的结果,哪种概率分布能得到最高的熵?我们什么时候最不确定?直觉告诉我们,当我们没有理由偏爱任何一个结果时——也就是说,当所有结果都是等可能的。Shannon 的公式完美地证实了这一点。对于任何有 NNN 个可能状态的系统,当所有 iii 的 pi=1/Np_i = 1/Npi​=1/N 时,熵 HHH 达到最大值。在这种特殊情况下,Shannon 熵优雅地简化为 Hartley 熵:H=−∑i=1N1Nlog⁡2(1N)=−N(1Nlog⁡2(1N))=−log⁡2(1N)=log⁡2(N)H = -\sum_{i=1}^{N} \frac{1}{N} \log_2(\frac{1}{N}) = -N(\frac{1}{N}\log_2(\frac{1}{N})) = -\log_2(\frac{1}{N}) = \log_2(N)H=−∑i=1N​N1​log2​(N1​)=−N(N1​log2​(N1​))=−log2​(N1​)=log2​(N)。

这个​​最大熵原理​​是一个强大的工具。它告诉我们,在给定某些约束条件下,对一个系统最“诚实”的描述是那个最大化我们对未知事物无知程度(熵)的描述。例如,考虑一个可以处于状态“0”或“1”的存储位的三种设计。模型A的概率是 (0.7,0.3)(0.7, 0.3)(0.7,0.3),模型B是 (0.9,0.1)(0.9, 0.1)(0.9,0.1),模型C是 (0.55,0.45)(0.55, 0.45)(0.55,0.45)。哪个系统最不可预测?无需计算,我们可以说是模型C。它的概率分布最接近均匀分布 (0.5,0.5)(0.5, 0.5)(0.5,0.5),即最大无知状态。模型B最为倾斜,因此最可预测,熵也最低。最大的不确定性对应于最大的熵。一枚完美平衡的硬币,其中 p0=p1=0.5p_0 = p_1 = 0.5p0​=p1​=0.5,代表了二元系统不可预测性的顶峰,其熵为 ln⁡(2)≈0.6931\ln(2) \approx 0.6931ln(2)≈0.6931 奈特。

从比特到原子:物理世界中的熵

故事在这里发生了惊人的转折。在19世纪,研究气体性质的 Ludwig Boltzmann 提出了一个惊人相似的想法。他设想,一个物理系统的任何宏观状态——我们测量到的温度、压力和体积——都对应着其原子在微观层面上的巨大数量的可能排列方式,记为 Ω\OmegaΩ。一个盒子里的热气体,其原子有无数种排列方式(位置和速度),而宏观上看起来仍然是同样的热气体。Boltzmann 假设,热力学熵 SSS 就是这个微观状态数的对数:S=kBln⁡(Ω)S = k_B \ln(\Omega)S=kB​ln(Ω),其中 kBk_BkB​ 是一个基本自然常数(现在称为玻尔兹曼常数),它将能量尺度与温度联系起来。

这与信息熵是完全相同的思想!Shannon 的缺失信息就是 Boltzmann 的隐藏排列计数。

考虑一个被困在分为 N1N_1N1​ 个单元的盒子里的单个粒子。假设它在任何单元中的可能性都相等,其位置的“信息熵”为 Iinitial=ln⁡(N1)I_{initial} = \ln(N_1)Iinitial​=ln(N1​)。现在,我们移开一个隔板,粒子可以进入 N2=kN1N_2 = k N_1N2​=kN1​ 个单元。新的熵是 Ifinal=ln⁡(kN1)I_{final} = \ln(kN_1)Ifinal​=ln(kN1​)。熵的变化量就是 ΔI=Ifinal−Iinitial=ln⁡(kN1)−ln⁡(N1)=ln⁡(k)\Delta I = I_{final} - I_{initial} = \ln(kN_1) - \ln(N_1) = \ln(k)ΔI=Ifinal​−Iinitial​=ln(kN1​)−ln(N1​)=ln(k)。这完美地类比了气体自由膨胀以填充更大体积的热力学过程。膨胀时热力学熵的增加,无非就是我们对气体分子位置不确定性的增加。

这种联系为熵的标度提供了一个自然的锚点。根据​​热力学第三定律​​,在绝对零度(000 开尔文)下,一种完美、纯净的晶体物质的熵为零。为什么?因为在绝对零度时,系统会稳定在其唯一的、最低能量的基态。原子只有一种排列方式(Ω=1\Omega = 1Ω=1),所以我们的不确定性消失了:S=kBln⁡(1)=0S = k_B \ln(1) = 0S=kB​ln(1)=0。这给了我们一个通用的、非任意的起点。然后,我们可以通过小心地累加从绝对零度加热到任意温度 TTT 时所获得的熵,来计算物质在该温度下的绝对熵。能量或焓没有这样的通用零点,这就是为什么我们只能谈论它们的变化量,或者相对于某个任意约定来定义它们。

混沌的节奏:运动中的熵

到目前为止,我们讨论的是系统在某一时刻状态的不确定性。但它的未来的不确定性又如何呢?它的演化有多不可预测?这把我们带入了​​动力系统​​和混沌的领域。

一个混沌系统的特点是“对初始条件的敏感依赖性”——著名的蝴蝶效应。两个几乎相同的起点,其轨迹将以指数速度迅速分离。​​柯尔莫哥洛夫-西奈(KS)熵​​量化了这一点。它衡量了系统在演化过程中产生新信息的速率。可以把它想象成,为了以给定的精度持续追踪系统状态,你每秒需要记录的比特数。一个KS熵为零的系统是规则且可预测的;它的未来包含在它的现在之中。一个KS熵为正的系统是混沌的;它不断地产生惊喜。

一个称为​​变分原理​​的深刻结果,将一个系统的整体混沌潜力(其*拓扑熵)与在特定统计条件下观察到的混沌(度量熵*)联系起来。如果一个系统的拓扑熵为零——意味着它缺乏指数复杂性的基本能力——那么无论你如何看待它,其观测到的信息生成率,即度量熵,也必须为零。

然而,对于一个真正的混沌系统,一个迷人的微妙之处出现了。最复杂的可能行为和最可能的行为之间通常存在差异。前者由一个特殊的“最大熵测度”来描述。但如果你随机选择一个起点,然后观察系统演化,你所看到的长期统计数据通常由另一个不同的测度来描述,即​​西奈-吕埃勒-鲍恩(SRB)测度​​。这个“物理测度”告诉我们,在实验中我们实际上可能观察到什么。

在一个宏大的、统一的综合中,事实证明,对于像气体这样由大量相互作用的粒子组成的系统,这种混沌的动力学度量——KS熵——的行为方式与 Boltzmann 和 Shannon 的热力学熵完全一样。它是一个​​广延量​​。这意味着,如果你有一个由 NNN 个混沌粒子组成的系统,其总信息产生率 hKSh_{KS}hKS​ 与 NNN 成正比。一个两倍大的系统,在非常真实的意义上,“混沌程度是两倍”。整体的不可预测性是其各部分不可预测性的总和。这揭示了一种深刻的统一性:关于原子在空间中排列的统计不确定性(热力学熵)和关于它们在时间中演化的动态不确定性(KS熵),是同一个基本概念的两个方面——一个衡量我们对世界不知道,或许也无法知道的东西的度量。

应用与跨学科联系

现在我们已经理解了熵作为无序、可能性和信息度量的基本性质,我们可以开始一段旅程。我们将看到,这绝非一个仅限于蒸汽机物理或理想化气体的抽象概念。相反,熵是一条金线,贯穿于整个科学的织锦,从平凡到壮丽,将钻石的结构与我们DNA的结构、化学反应的展开与混沌系统的演化联系在一起。它是自然界最深刻、最统一的原则之一,一旦你学会了看它,你就会发现它无处不在。

让我们从一个极其简单的行为开始:你在一个安静的房间里,你拍了拍手。一道尖锐的声波,一种由空气分子协同运动形成的美妙有序的压缩波,向外冲去。但它不会持久。片刻之后,声音消退,房间又恢复了寂静。那道相干波的能量已经消散,转化为空气分子随机、抖动的热运动,使房间的温度升高了微不足道的一点。为什么会这样?更重要的是,为什么反向过程从未发生?为什么我们从未目睹空气分子的随机抖动自发地串通起来,形成一道向内传播并推开你双手的声波?

答案并非某个微观定律禁止碰撞过程逆转;在基本层面上,这些碰撞是完全时间可逆的。答案仅仅是一个概率上的压倒性优势问题。声波的能量是有序的;它包含在一个特定的、相关的运动模式中。最终的热能是无序的;它随机地分布在无数个分子中,每个分子都以自己的方式运动。能量以随机方式分布的方式,比它以那种单一、有组织的声波形式存在的方式要多得难以想象。宇宙在对可能性的不懈探索中,将不可避免地偶然进入最可能的状态——熵最大的状态。拍手声的消散是一个不可逆过程,不是因为它被禁止逆转,而是因为它在统计上是不可能的。这是热力学第二定律在起作用的直接而明显的后果。

这种排列与熵之间的联系,深深地延伸到化学和材料的世界。考虑两种纯碳的形式:钻石和石墨。钻石是一个单一的、巨大的分子,一个刚性的三维晶格,其中每个原子都与其邻居紧密地锁在一个四面体结构中。它是秩序与永恒的写照。而石墨则由扁平的、六边形的碳片组成。虽然每个碳片内的原子键合很强,但这些碳片像一副扑克牌一样堆叠在一起,由弱得多的力维系。

哪一个的熵更高?从外观上看,人们可能会猜测深色、片状的石墨更“无序”。但熵衡量的是原子尺度上的运动自由度。在钻石的刚性笼状结构中,原子只能在其固定位置周围以有限的方式振动。在石墨中,不仅原子在其碳片内振动,而且碳片本身也可以相对于彼此滑动和振动。这种额外的自由度,这些额外的运动模式,代表了大量新的可能微观状态。因此,尽管由完全相同的原子构成,石墨的标准摩尔熵比钻石更高。它的结构为其原子提供了更多的可能性,更多的“晃动”,而熵正是衡量这种自由度的标准。

这种秩序与无序之间的拉锯战是驱动化学变化的引擎。考虑驱动氢燃料电池的反应:两个氢气分子和一个氧气分子结合形成两个液态水分子。在这里,我们正在将三摩尔极度混乱的气体约束成两摩尔更为平静的液体。这是系统熵的急剧减少;我们正在创造局部秩序。这样一个过程怎么能自发发生呢?因为水分子中强键的形成会以热量的形式释放大量能量(ΔH<0\Delta H < 0ΔH<0),这些能量会散布到周围环境中,并在那里制造出更大的无序。

一个反应的命运通常由能量(焓,ΔH\Delta HΔH)和熵(ΔS\Delta SΔS)之间的一场微妙战斗决定,而这场战斗的裁判是温度(TTT)。这在吉布斯自由能方程 ΔG=ΔH−TΔS\Delta G = \Delta H - T\Delta SΔG=ΔH−TΔS 中得到了精美的体现,该方程决定了自发性。一个有趣的例子是狄尔斯-阿尔德反应(Diels-Alder reaction),这是有机化学中的一个主要反应,其中两个较小的分子连接形成一个较大的环状结构。这是熵的减少,因为两个独立的实体变成了一个。该反应由稳定键的形成(负的 ΔH\Delta HΔH)向前驱动。但如果我们提高温度会发生什么?通过增加 TTT,我们放大了熵项的影响。最终,−TΔS-T\Delta S−TΔS 项(它是正的,不利的)可能会压倒有利的 ΔH\Delta HΔH。反应停止,甚至可以逆向进行,单个分子分裂开来,以重新获得作为两个独立分子的熵自由度。热量让熵在辩论中有了更大的发言权。我们在著名的“热冰”演示中也看到了同样的原理,其中醋酸钠的过饱和溶液自发结晶成有序的固体——熵的减少!——同时释放大量热量。这个过程是由巨大的、有利的焓变驱动的,这足以支付熵的代价。

也许这个原理最惊人的应用就是生命本身。一个生命有机体是低熵组织的奇迹。如此复杂的秩序如何能够存在并维持自身?因为有机体不是一个孤立的系统。它通过摄入有序的能量(食物)并向其环境输出无序(热量和废物)来维持其内部秩序,从而增加了宇宙的总熵。

这种熵之舞在我们身体的分子水平上演绎着。胶原蛋白,这种赋予我们皮肤和骨骼结构的蛋白质,是一种刚性的三螺旋结构——一种低熵的、绳索状的结构。当你烹饪一块坚韧的肉时,你施加的热量会导致胶原蛋白变性。三螺旋解开并分离成三条柔韧、无序的随机线圈。这种构象熵的大幅增加,正是将坚韧的软骨变成柔嫩的明胶的原因。

更为根本的是我们遗传密码的故事。DNA以两条长的、柔韧的单链形式存在,它们自发地找到互补链并拉链结合,形成标志性的、高度有序的双螺旋结构。这个退火过程涉及两个分子变成一个,以及一个柔韧的线圈变成一个刚性结构——这显然是熵的减少。那么它为什么会发生呢?因为碱基对之间氢键的形成和碱基的堆叠在能量上非常有利(一个大的负 ΔH\Delta HΔH)。在我们细胞的温度下,这种能量上的好处超过了熵的成本,从而实现了构建和运行一个生命体所需的所有信息的稳定、低熵存储。

随着我们收集海量数据的能力的增强,熵作为一种概念的力量也随之爆发。在现代生物学中,我们可以使用 Shannon 的信息熵来分析我们基因组的语言。例如,当一个基因被“读取”时,转录过程始于一个称为启动子的特定位置。通过绘制给定基因的所有起始位点,我们可以计算它们分布的熵。一些基因有一个单一、精确的起始位点——一个低熵、集中的启动子,就像一个明确的命令。另一些则在一个广泛的区域使用大量的起始位点——一个高熵、分散的启动子,更像一个模糊的建议。这个熵值不仅仅是一个奇闻;它是一个强大的分类器,告诉我们我们正在看的是哪种基因以及它可能如何被调控。熵已成为发现的实用工具。

熵的影响范围甚至更广,延伸到数学和经济学的抽象领域。在混沌研究中,我们遇到一些系统,尽管受确定性定律支配,其未来行为却从根本上是不可预测的。我们如何量化这种不可预测性?用熵!一个动力系统的柯尔莫哥洛夫-西奈熵衡量了关于其状态的信息随时间流逝的指数速率。一个可预测的系统,如轨道上的行星,熵为零。一个混沌系统,其中邻近的起点呈指数发散,具有正熵。描述咖啡冷却的同一个概念,现在量化了混沌的本质。

最后,一句忠告,因为一个强大的思想可能是一个诱人被滥用的工具。考虑金融。一家公司的现金流或多或少是可预测的。直觉上似乎,一个现金流高度可预测、熵低的公司会比一个现金流波动大、熵高的公司更安全,因此也更有价值。这听起来合乎逻辑,但可能大错特错。想象一家公司,其现金流是高熵的,因为它在经济衰退期间支付很多,而在经济繁荣期间支付很少。这家公司,尽管其“不可预测”,却起到了某种保险的作用。它恰好在你最需要钱的时候付给你。在金融世界里,决定一项资产价值的不是其独立的不可预测性(熵),而是其与整体经济的*协方差*——即它是在好光景还是坏光景时带来回报。一个能够对冲风险的高熵资产,可能比一个完全可预测的零熵资产更有价值,因此可以要求更低的贴现率。这是科学推理微妙之处的一个绝佳教训:一个概念的力量取决于运用它的智慧。

从声波的消散到股票的定价,熵揭示了自己是一种可能性的通用货币。它是自发变化的驱动力,是能量与秩序之争的仲裁者,是我们无知的度量,也是混沌的量化器。理解熵,就是对支配我们世界的复杂而相互关联的逻辑获得更深的欣赏。