try ai
科普
编辑
分享
反馈
  • 信息增益

信息增益

SciencePedia玻尔百科
核心要点
  • 信息增益是指观测到新数据时,不确定性发生的可度量的减少,其量化方式是香农熵的降低。
  • 在机器学习中,最大化信息增益是构建决策树的核心原则,通过选择信息最丰富的特征来分割数据。
  • 信息是一个与热力学熵有根本联系的物理量,这意味着获取知识需要消耗能量并存在物理极限。
  • 贝叶斯最优实验设计利用最大化期望信息增益的原则,通过选择信息量最丰富的实验来指导科学发现。

引言

我们如何衡量学习?虽然我们通常将其理解为获取事实,但一个更根本的定义是减少不确定性。每当我们做出一个消除模糊性的观察——从抛硬币到进行复杂的科学实验——我们都在获取信息。这个简单而深刻的思想为知识提供了一种通用货币,将能量的物理定律与计算的逻辑以及发现过程本身联系起来。然而,核心挑战在于如何将这一概念从直观的认知转变为可用于做出最优决策的量化工具。

本文全面概述了信息增益——这一用于衡量不确定性减少的正式方法。在接下来的章节中,我们将首先探讨信息增益的​​原理与机制​​,揭示其与热力学熵的深层联系,并从 Claude Shannon 的信息论视角对其进行定义。然后,我们将遍历其多样的​​应用与跨学科联系​​,揭示最大化信息增益这一单一原则如何赋能机器学习算法、指导前沿科学研究,甚至解释从混乱中创造秩序的生物过程。

原理与机制

真正学会某件事意味着什么?我们可能会说这是关于获取新知识,但更深层次的思考方式是将其视为不确定性的减少。在你抛硬币之前,你对结果是不确定的。硬币落地后,你的不确定性消失了。你获得了信息。这个看似简单的想法是现代科学中最深刻的概念之一,它将热与能量的物理学与计算机的逻辑以及发现的本质联系在一起。它是我们衡量知识本身的标尺。

知识的货币:什么是信息?

让我们从最简单的情况开始。想象一位实验物理学家有一个非偏振光源和一个可以测量单个光子并确定其偏振是“水平”还是“垂直”的设备。在测量之前,两种结果的概率各为50/50。这是一种最大不确定性的状态。测量之后,结果是确定的——比如说,“水平”。不确定性消失了。在这个过程中,我们获得了信息论学者所说的一​​比特​​信息。

这不仅仅是一个哲学上的说法。在20世纪60年代,物理学家 Rolf Landauer 证明了获取信息具有真实的物理后果。他指出,在计算系统中擦除一比特信息,至少必须以热量的形式向环境中耗散一定量的能量。反过来看,获取一比特信息对应于存储该信息的记忆系统的热力学熵可能达到的最小减小量。对于我们物理学家的探测器来说,成功记录光子状态会使其记忆体的熵减少 kBln⁡2k_{B}\ln 2kB​ln2,其中 kBk_BkB​ 是连接原子微观世界与温度宏观世界的著名玻尔兹曼常数。事实证明,信息是物理的。

这个基本单位——比特——产生于一个有两种等可能结果的情境。如果有更多可能呢?假设一个未来的纳米级设备通过将一个粒子定位到20个可能状态之一来存储信息。在写入操作之前,粒子可能以相等的概率处于20个状态中的任何一个。通过将其强制置于一个特定状态,我们消除了这种不确定性。我们获得了多少信息?

信息量是通过可能性的数量的对数来衡量的。对数的底数仅仅定义了我们使用的单位,就像我们可以用米或英尺来测量长度一样。

  • 如果我们使用以2为底的对数,信息以​​比特​​(bits)为单位:I=log⁡2(20)I = \log_{2}(20)I=log2​(20) 比特。
  • 如果我们使用自然对数(以 eee 为底),单位是​​奈特​​(nats):I=ln⁡(20)I = \ln(20)I=ln(20) 奈特。
  • 如果我们使用以10为底的对数,单位是​​哈特利​​(hartleys):I=log⁡10(20)I = \log_{10}(20)I=log10​(20) 哈特。

“奈特”是与物理学联系的自然单位。热力学熵减少 ΔS\Delta SΔS 对应于信息增益 Inats=ΔS/kBI_{\text{nats}} = \Delta S / k_BInats​=ΔS/kB​。因此,对于我们这个有20个状态的设备,ln⁡(20)\ln(20)ln(20) 奈特的信息增益对应于 kBln⁡(20)k_B \ln(20)kB​ln(20) 的热力学熵减少。原理是相同的:我们消除的可能性越多,我们获得的信息就越多。

发现的引擎:作为不确定性减少的信息增益

在现实世界中,我们很少一步就从完全不确定走向绝对确定。更多时候,我们是逐渐减少我们的无知。一次观察会使某些可能性变得更小,而另一些可能性变得更大。这种不确定性的减少就是我们所说的​​信息增益​​。

为了量化这一点,我们需要一种衡量不确定性本身的方法。这个工具就是​​香农熵​​,用字母 HHH 表示。以“信息论之父” Claude Shannon 的名字命名,熵是一个捕捉概率分布中固有的不可预测性或“惊奇”程度的数字。对于一个可以取不同状态的变量,如果所有状态或多或少都等可能,那么熵就高。如果某个状态的概率非常高,而其他状态的可能性很小,那么熵就很低。例如,一枚99%时间正面朝上的不均匀硬币的熵,远低于一枚均匀硬币的熵。

有了这个工具,我们得出了核心定义:

​​信息增益 = 观察前的熵 – 观察后的熵​​

这个定义是贝叶斯推断的引擎,这是一个根据新证据更新我们信念的正式框架。想象一下,科学家们正在研究一个复杂的环境系统,比如一个河流集水区。他们有一个包含某些未知参数 θ\thetaθ(例如,土壤属性)的模型。他们对这些参数的初始信念由一个​​先验概率分布​​ p(θ)p(\theta)p(θ) 描述,该分布具有一定的熵 H(θ)H(\theta)H(θ)。这个熵代表了他们最初的不确定性。

然后,他们收集一些数据 yyy——比如说,河流流量测量值。利用贝叶斯规则,他们将信念更新为一个​​后验概率分布​​ p(θ∣y)p(\theta \mid y)p(θ∣y),这个分布现在有了一个新的、希望是更小的熵 H(θ∣y)H(\theta \mid y)H(θ∣y)。从这个特定观察 yyy 中获得的信息增益就是熵的减少量:ΔH=H(θ)−H(θ∣y)\Delta H = H(\theta) - H(\theta \mid y)ΔH=H(θ)−H(θ∣y)。

这里出现了一个有趣的微妙之处。一次观察有没有可能增加我们的不确定性?令人惊讶的是,答案是肯定的!假设你几乎确定你的朋友在家。你关于他们位置的先验熵非常低。然后,你收到一条来自他们的奇怪、乱码的短信,似乎暗示他们可能去了另一个国家旅行。这个“令人惊讶”的观察可能会粉碎你的信心,迫使你考虑更多的可能性。你关于他们位置的后验分布会变得宽泛得多,你的熵实际上会增加。

然而,虽然单个数据点可能具有误导性,但收集数据的过程平均而言不会让我们变得更无知。在一个实验可能产生的所有可能结果上取平均,期望信息增益总是大于或等于零。这个期望增益是一个具有根本重要性的量,被称为​​互信息​​,I(θ;Y)I(\theta; Y)I(θ;Y)。它表示我们通过观察 YYY 获得的关于 θ\thetaθ 的平均不确定性减少量。它也具有优美的对称性:它同样也是我们通过知道 θ\thetaθ 获得的关于 YYY 的平均不确定性减少量。它量化了两个变量共享的信息量。

将信息付诸实践:从分类器到实验

最大化信息增益的概念不仅仅是一个理论上的精巧构思;它是一个强大而实用的工具,用于做出最优决策。

提出正确问题的艺术(决策树)

考虑一个金融机构,试图建立一个简单的模型来预测新申请人是否会拖欠贷款。他们有一个包含过去客户的大型数据集,包括他们的财务细节(特征)和他们最终是否违约(类别标签)。目标是创建一个流程图——一个​​决策树​​——通过一系列简单的问题来引导预测。

它应该先问哪个问题?“申请人的收入是否大于50,000美元?”还是“申请人是否有现有抵押贷款?”最好的问题是那个信息最丰富的问题——即那个本身最能区分违约者和非违约者的问题。换句话说,我们应该选择那个能提供关于类别标签的最大​​信息增益​​的问题。

其工作原理如下:

  1. 我们从树的“根”节点开始,使用整个数据集。我们计算类别标签(违约 vs. 非违约)的香农熵。这是我们初始的不确定性。
  2. 对于一个候选问题,比如“收入 > 5万美元?”,我们将数据集分成两组:“是”和“否”。
  3. 我们分别为每个组计算熵。
  4. 分割后的最终熵是两个子组熵的加权平均值。
  5. 这个问题的信息增益是初始熵减去这个最终的加权平均熵。
  6. 我们对所有可能的问题重复这个过程,并选择信息增益最高的那一个。然后在每个新节点上递归地重复这个过程,从而构建树。

在实践中,决策树通常使用熵的一个近亲,称为​​基尼不纯度​​。基尼不纯度有一个很好的概率解释:如果你从一个节点中随机选择两项,它们具有不同标签的概率。像熵一样,它衡量一个节点的“混乱”程度,目标是选择能最大化其减少量的分割。

这种方法还必须应对现实世界数据的缺陷。在高能物理等领域,数据集可能存在严重的类别不平衡(例如,每有一个潜在的信号事件,就有数百万个背景事件),并且必须对事件进行加权以反映其重要性。在其他情况下,训练数据中的标签可能有噪声或不正确。有趣的是,基尼不纯度和熵的数学特性使它们在这些棘手情况下的行为略有不同。例如,基尼不纯度受对称标签噪声影响的方式是一个简单的缩放,这意味着最佳分割的选择保持不变。而对于熵,影响更为复杂,原则上可以改变最优分割,揭示了度量选择与学习算法鲁棒性之间的深层联系。

智能实验的科学

最大化信息增益的力量远远超出了构建分类器的范畴。它甚至可以告诉我们首先应该进行哪些实验。这就是​​贝叶斯最优实验设计​​的领域。

假设我们有一个带有未知参数 θ\thetaθ 的科学模型,并且我们想设计一个实验 ddd 来了解它们。“设计”可以是我们控制的任何东西:温度、压力、我们采样的位置或我们施加的电压。不同的设计将产生不同的数据,其中一些会比其他的信息丰富得多。我们甚至在进行实验之前如何选择最佳设计呢?

我们选择我们期望能给我们最多信息的设计。也就是说,我们选择最大化​​期望信息增益 (EIG)​​ 的设计,这只是互信息 I(θ;Y∣d)I(\theta; Y \mid d)I(θ;Y∣d) 的另一个名称。

这个框架对两种不确定性做了关键区分:

  • ​​认知不确定性​​:这是我们对模型参数 θ\thetaθ 真实值缺乏了解。这是我们想要减少的不确定性。
  • ​​偶然不确定性​​:这是系统中固有的、不可简化的随机性或测量噪声。

信息增益是认知不确定性减少的度量。进行更好的实验有助于我们了解 θ\thetaθ。然而,它并不能改变宇宙的基本噪声水平。事实上,在更嘈杂的环境中进行实验(增加偶然不确定性)自然会减少我们希望获得的关于参数的信息量。这与我们的直觉完全吻合。该框架也尊重常识:如果我们已经完全了解一个参数(先验不确定性为零),或者如果我们的实验结果与该参数完全无关,则期望信息增益为零。

知识的基本极限

这段旅程将我们带到了一个统一这些思想的、美丽的终点。我们已经看到,信息是物理的。它是通过减少不确定性获得的,我们可以优化这个过程来做出决策和设计实验。但是,我们能知道多少,是否存在基本限制?

考虑一个受麦克斯韦著名妖精启发的思想实验。这个纳米级引擎观察气体粒子以获取其速度信息。但让我们想象一下,引擎的记忆是不完美的。它无法以无限精度记录真实速度 vvv;它只能存储一个表示 v^\hat{v}v^,其精确度受限于某个平均均方误差,或称​​失真​​,DDD。

气体中粒子的速度遵循钟形曲线(高斯)分布,具有一定的方差 σ2\sigma^2σ2 代表初始不确定性。考虑到其测量受到失真 DDD 的限制,妖精最多能获得关于粒子速度的多少信息?

答案来自一个名为率失真理论的领域,而且非常优雅。可能的最大信息增益(以奈特为单位)是:

Imax=12ln⁡(σ2D)I_{\text{max}} = \frac{1}{2} \ln\left(\frac{\sigma^2}{D}\right)Imax​=21​ln(Dσ2​)

热力学熵的减少量就是这个值乘以 kBk_BkB​。这个单一的方程讲述了一个深刻的故事。信息增益取决于我们初始不确定性(σ2\sigma^2σ2)与最终测量误差(DDD)的比率。如果我们的测量非常精确(DDD 很小),我们可以获得大量信息。如果我们的初始不确定性非常高(σ2\sigma^2σ2 很大),信息增益的潜力也很大。但要获得完美的知识(D→0D \to 0D→0)将需要获得无限量的信息,这在物理上是不可能的。

知识不是免费的。它是一种有限的资源,需要在精确度之间权衡,并受物理世界的约束。信息增益的概念为这种权衡提供了货币。它给了我们一种通用语言来描述学习的过程,从单个神经元的放电到庞大粒子加速器的建造,揭示了我们探求理解世界过程中深刻而优雅的统一性。

应用与跨学科联系

在我们经历了信息与熵原理的旅程之后,人们可能会倾向于将这些思想视为抽象的数学奇谈。但事实远非如此。信息增益的概念不仅仅是一个公式;它是一个在众多领域指导学习和决策的普适原则。它为一个我们都不断面对的问题提供了一个清晰、量化的答案:“在我下一步可以问或看的所有事物中,哪一个能让我学到最多?”现在让我们来探索这个单一、优雅的思想是如何贯穿医学、机器学习、科学前沿,甚至生命本身的结构。

提出正确问题的艺术

也许信息增益最直观的应用在于沟通本身的艺术。我们如何有效地减少他人和我们自己的不确定性?

考虑一位临床医生首次接诊病人。可能的诊断范围是巨大的。最好的开场问题是什么?是像“您有胸痛吗?”这样高度具体、封闭式的问题,还是像“告诉我最近发生了什么?”这样宽泛、开放式的问题?我们的直觉可能倾向于开放式的方法,而信息论精确地告诉我们为什么这种直觉通常是正确的。当先验不确定性达到最大时——即所有可能性看起来都同样可能时——一个开放式的问题允许更多样化的回答。如果每个回答主题都强烈指向一个不同的诊断类别,那么答案可以极大地减少我们的不确定性,远比对一个甚至可能不相关问题的简单“是”或“否”要多得多。通过对诊断过程建模,我们可以证明开放式提问通常会产生更高的期望信息增益,使临床医生能更有效地锁定真正的问题。

这一原则超越了一对一的访谈,延伸至整个团队。在医院这样复杂、高风险的环境中,一次沟通失误可能带来可怕的后果。像SBAR(情境-背景-评估-建议)这样的结构化沟通框架就是为了防止这种情况而设计的。从信息论的角度来看,它们的功能很明确:传递一个具有尽可能高信息增益的信息包。想象一个医疗团队最初对一个病人有八种合理的诊断。初始不确定性,或熵,是 Hinitial=log⁡2(8)=3H_{\text{initial}} = \log_2(8) = 3Hinitial​=log2​(8)=3 比特。在一名护士传递了一个结构良好的SBAR信息后,团队共同排除了六种可能性,只剩下两种。最终的不确定性是 Hfinal=log⁡2(2)=1H_{\text{final}} = \log_2(2) = 1Hfinal​=log2​(2)=1 比特。那一次沟通事件的信息增益足足有 222 比特。SBAR不仅仅是提供了“清晰度”;它将问题空间缩小了四倍,使团队能够以更高的效率集中其认知能量和资源。

这种量化线索价值的能力也是密码分析的基石。一种语言并非一串随机的字母;它具有结构和统计规律性。知道字母“Q”已经出现,几乎可以肯定下一个字母是“U”。观察一个字符所获得的关于下一个字符的信息是一个可测量的量,是任何简单替换密码盔甲上的一个裂缝,密码破解者可以利用它来解开整个信息。

教机器思考

临床医生用来缩小诊断范围或密码分析师用来破解密码的逻辑,同样也让计算机能够从数据中学习。构建决策树——机器学习中的基础模型之一——的过程,本质上是算法与数据集玩的一场“二十个问题”游戏。

想象我们有一个包含各种实验室结果和二元结果(是否患上某种疾病)的患者数据集。算法必须构建一个问题流程图来预测这个结果。在每一步,它都有许多可能的问题可供选择,比如,“患者的乳酸水平是否大于 2.62.62.6?”或“他们的白细胞计数是否低于 4.04.04.0?”它应该先问哪个问题?答案简单而优雅:它应该选择那个能提供关于结果的最高​​信息增益​​的问题。通过根据该问题的答案分割数据,得到的子组在结果方面变得更“纯粹”——不确定性更低。算法递归地重复这个过程,总是选择信息量最大的分割,直到构建出一个强大的预测模型。这正是像ID3这样的开创性算法的核心。

当然,自然是微妙的,对一个强大思想的幼稚应用可能会让你陷入陷阱。如果我们的一个“特征”是患者的唯一ID号怎么办?基于这个特征的分割会产生完美的、每个只包含一个患者的纯子组,从而产生巨大但完全无用的信息增益。模型只会“记住”数据,而没有学到可推广的模式。这就是偏向高基数属性的问题。为了构建更智能的机器,这个概念必须进化。像C4.5这样的算法用一种名为​​增益率​​的归一化版本取代了纯信息增益,它会对这类琐碎的、过拟合的分割进行惩罚。当处理复杂的现实世界数据时,例如包含连续光谱数据和像传感器瓦片标识符这样的高基数分类标签的遥感影像时,这种改进至关重要。

指引科学前沿

也许信息增益最令人兴奋的应用是在指导科学发现本身方面的作用。到目前为止,我们讨论的是从静态数据集中学习。但如果数据还不存在,而收集数据又昂贵且耗时呢?这就是药物发现、材料科学和基础物理学中的现实。你无法承担进行所有可能实验的成本。你必须选择下一个实验,使其信息量尽可能大。这就是主动学习或贝叶斯实验设计的领域。

想象一个药物化学家团队试图开发一种新药。他们有一个计算模型,可以根据药物的分子特征预测其效力,但这个模型是不确定的。他们可以合成并测试数千种可能的类似物分子,但每次测试都耗费时间和金钱。他们下一步应该制造哪种分子?信息论提供的答案是,测试那个预期能最大程度减少他们模型参数不确定性(即熵)的类似物。通过总是选择信息最丰富的实验,他们可以比随机选择或简单启发式方法快得多地收敛到最优的候选药物。

同样的原则正在彻底改变自动化科学。

  • 在​​材料科学​​中,一个设计新型电池正极材料的AI平台必须决定下一步要模拟哪种配方。它不只是随机选择一个;它选择那个能最大化其底层性能模型期望信息增益的配方。
  • 在​​核物理​​中,对一个原子核进行一次高保真度模拟可能需要在超级计算机上花费数天时间,研究人员使用高斯过程模拟器来近似复杂的现实。为了改进他们的模拟器,他们必须决定下一步模拟哪个原子核。最优的选择是那个能最大化模拟器在所有感兴趣的原子核上期望不确定性减少量的原子核——这个量直接作为信息增益来计算。

在所有这些前沿领域,信息增益为最优探索策略提供了正式的基础。它甚至告诉我们何时应该停止。一个理性的人类或机器科学家应该在下一次实验的期望信息增益不再值得其边际成本时停止实验。这精美地将一个来自信息论的抽象概念与研发的真实世界经济学联系起来。

信息、能量与秩序的代价

我们的巡礼在最深刻的联系处达到高潮:信息、熵与我们宇宙物理定律之间的联系。热力学第二定律告诉我们,在一个孤立系统中,无序——即物理熵——总是增加的。一杯热咖啡会变凉;一个整洁的房间会变得凌乱。然而,生命却公然违抗这一趋势。一个活细胞从一锅无序的简单分子汤中,构建出极其复杂和有序的结构。这怎么可能?

让我们看看核糖体,细胞的蛋白质构建纳米机器。它从一个包含20种类型的随机池中挑选出特定的氨基酸,并按照信使RNA(mRNA)分子指定的精确序列将它们连接在一起。这一创造行为代表了局部构型熵的惊人减少。这在物理上等同于从一锅充分搅拌的字母汤中,取出一个特定的、预先确定的字母序列。

这个看似神奇的壮举并没有违反第二定律。核糖体充当了一个“麦克斯韦妖”,利用信息来创造秩序。这个信息就是编码在mRNA中的蓝图。但这个过程不是免费的。创造秩序需要做功,而这个功必须用能量来支付。每向链中添加一个氨基酸,核糖体就消耗GTP分子,这是一种细胞燃料来源。GTP的水解释放出大量的自由能,这些能量以热的形式辐射到细胞中,从而使宇宙的总熵增加量远大于蛋白质组装所局部减少的熵。

我们甚至可以计算这个过程的“热力学效率”。在一个序列中创造一个氨基酸的秩序所需的最小能量由 TΔST \Delta STΔS 给出,其中 ΔS\Delta SΔS 是构型熵的变化。我们可以将此与从GTP水解中实际消耗的化学能进行比较。我们发现,大自然愿意为信息支付高昂的能量代价。消耗的能量比仅由信息成本所要求的最小值大一个数量级。这表明信息不仅仅是一个抽象的概念;它是一个物理量,与能量和熵密不可分。创造生命有序、功能性机器的成本,是通过消耗能量来“购买”指导其组装的信息来支付的。

从医生的诊室到原子的核心,再到生命的核心机制,信息增益展现了其作为一个深刻而统一的原则。它量化了提出正确问题的力量,为智能机器提供了逻辑,指引我们探寻新知识,并阐明了在一个混乱宇宙中秩序的物理代价。简而言之,它是学习的货币。