信息论中的输入概率分布

玻尔百科

核心要点

输入概率分布 $p(x)$ 代表了发送方的策略，是一个可以通过控制来优化固定有噪信道通信的关键变量。
主要目标是找到一个特定的输入分布，该分布能够最大化输入与输出之间的互信息，从而达到信道的绝对性能极限，即信道容量。
虽然均匀输入分布对于对称信道是最优的，但非对称信道需要一个量身定制的、通常为非均匀的分布才能达到容量，这可以通过优化方法找到。
互信息是输入分布的凹函数，这一关键性质保证了优化过程将找到一个单一的全局最大值（即容量），而不会陷入局部最大值。
有效的通信策略有时会有意限制所使用的输入符号集，只专注于那些能够最可靠传输的符号，以最大化整体信息速率。

引言

在任何通信行为中，无论是简单的对话还是全球数据传输，都存在着要发送的消息、承载消息的媒介，以及随时可能破坏消息的噪声威胁。信息论提供了一个数学框架来理解和掌握这一过程。该框架的核心是一个强大但常被忽视的策略选择：输入概率分布。这不仅仅是对信源的描述，更是一个可以调整的杠杆，用以从通信系统中榨取最大的性能。

本文旨在解决通信理论中的一个基本问题：给定一个有噪、不完美的信道，我们应如何构造输入信号以最有效地传输信息？我们将探讨如何有意识地选择输入信号的统计特性，以对抗噪声并达到信道的最终速度极限——其容量。

在接下来的章节中，您将深入理解这一核心概念。我们首先将深入探讨原理与机制，剖析输入、信道和输出分布之间的关系。我们将看到为什么找到最优输入分布等同于找到信道容量，并探索使这种搜索成为可能的优美数学性质。之后，我们将进入应用与跨学科联系，揭示这一理论原则如何成为现代通信工程、网络设计的基石，甚至成为密码学和博弈论等领域的战略工具。

原理与机制

想象一下，你正试图在一家熙熙攘攘、嘈杂的咖啡馆里与朋友交谈。你说什么、环境噪音如何扭曲你的话语，以及你的朋友最终听到什么，这是你试图沟通的三个截然不同但又紧密相连的部分。在信息论的世界里，我们将这个简单的场景形式化为一个强大的框架，使我们能够理解并最终征服通信的极限。这个框架建立在三个概率支柱之上：输入分布、信道转移和输出分布。

通信的三大支柱：输入、信道和输出

让我们来剖析这个过程。首先是输入分布，记为 $p(x)$ 。这描述了你作为发送方的选择。你说“是”的可能性比说“否”更大吗？你是否从成千上万个不同的词汇中进行选择，如果是，你使用每个词的频率是多少？输入分布是对发送方策略的完整描述——即为输入字母表 $\mathcal{X}$ 中每个可能的符号 $x$ 分配的概率。

接下来，我们面临问题的核心：信道本身。信道并非一个有意图的行动者，而是一个由固定规则支配的过程。我们使用信道转移概率 $p(y|x)$ 来描述这些规则。这是在给定发送了符号 $x$ 的情况下，接收到来自输出字母表 $\mathcal{Y}$ 的特定符号 $y$ 的概率。在我们嘈杂的咖啡馆里， $p(\text{听到 'no'} | \text{说了 'yes'})$ 代表你的“是”被误听为“否”的几率。对于所有可能的输入和输出，这组完整的条件概率构成一个矩阵，这是信道的基本指纹。

最后，我们有输出分布 $p(y)$ 。这代表了接收方实际观察到的各种符号的概率。它是你意图传达的消息经过有噪信道过滤后的最终结果。这三大支柱是如何关联的？通过一条优美而基本的规则，称为全概率定律。听到某个特定词 'y' 的概率是所有可能产生它的方式的概率之和：你说了 'x1' 且被听成 'y'，加上你说了 'x2' 且被听成 'y'，依此类推。在数学上，这个优美的联系表示为：

p(y) = \sum_{x \in \mathcal{X}} p(x, y) = \sum_{x \in \mathcal{X}} p(x) p(y|x)

这个公式是驱动一切的引擎。它告诉我们，听到的内容分布 $p(y)$ 是我们发送策略 $p(x)$ 和信道噪声特性 $p(y|x)$ 的直接结果。这意味着，如果我们知道发送和接收的完整情况——即联合分布 $p(x, y)$ ——我们就可以反向推断出发送方的原始策略 $p(x)$ 和信道的特性 $p(y|x)$ 。

理想世界：通过完美信道进行通信

在我们与噪声搏斗之前，让我们想象一个完美的世界：一个无噪信道。这可能是一条无瑕的光纤电缆，或者只是在安静的图书馆里与你的朋友交谈。在这种理想场景下，你发送的任何内容都与接收到的完全一致。没有错误。对于每个输入 $x$ ，只有一个且仅有一个输出 $y$ 可能产生。

这对我们的分布意味着什么？这意味着信道矩阵 $p(y|x)$ 变得极其简单。它充满了零和一。对于任何给定的输入 $x_i$ ，接收到相应输出 $y_i$ 的概率为 1，而接收到任何其他输出的概率为 0。因此，任何符号的输出概率都与其对应信源符号的输入概率相同， $p(y_i) = p(x_i)$ 。输出概率集只是输入概率集的一个镜像（或者如果信道对符号进行了置换，则是一个重新排序）。如果你知道从一个完美信道输出的统计数据，你就知道输入的统计数据。

选择的艺术：寻找最佳输入分布

完美信道是一个有用的起点，但真实世界是充满噪声的。这才是真正乐趣的开始。如果我们有一个给定的有噪信道，我们无法改变其固有属性——我们不能简单地让咖啡馆变得更安静。但我们通常可以控制一个关键要素：输入分布 $p(x)$ 。我们可以选择我们的发送策略。

这就引出了一个深刻的问题：什么是最佳策略？什么样的输入分布 $p(x)$ 能够通过给定的有噪信道挤压出最多的信息？“信息量”由一个称为互信息的量度 $I(X;Y)$ 来衡量，它告诉我们通过观察输出 $Y$ ，我们对输入 $X$ 的不确定性减少了多少。最终目标是找到一个输入分布，我们称之为 $p^*(x)$ ，它能使这个值最大化。这个互信息的最大可能值是一个极其重要的数字，它定义了该信道通信的根本极限。我们称之为信道容量， $C$ 。

C = \max_{p(x)} I(X;Y)

Shannon 著名定理中随机编码论证的全部意义就在于证明，我们可以以低于这个容量 $C$ 的任何速率进行可靠通信。而解锁这个最高可能速率的关键，正是使用那个特殊的、达到容量的输入分布 $p^*(x)$ 来生成我们的码字。找到这个最优分布不仅仅是一个学术练习；它是掌握通信信道的艺术。

对称性与简单性：均匀分布的优势

那么我们如何找到这个神奇的 $p^*(x)$ 呢？答案在很大程度上取决于信道噪声的“形状”。考虑一种特别“公平”的信道：对称信道。在这种信道中，噪声对每个输入符号的处理方式都是相同的。例如，在一个 q 元对称信道中，任何传输的符号有 $1-p_e$ 的概率被正确接收，如果发生错误，它同样可能被转换为其他 $q-1$ 个符号中的任何一个。

如果信道如此优美地对称，那么直觉上我们的最佳策略也应该是对称的。我们不应该偏袒任何符号。我们应该以相同的频率使用每个输入符号。事实上，这个直觉是正确的。对于任何对称信道，容量都是通过均匀输入分布实现的，其中对于所有符号 $x$ ，都有 $p(x) = 1/|\mathcal{X}|$ 。原因很优雅：在对称信道中，条件熵 $H(Y|X)$ （衡量当已知 $X$ 时 $Y$ 的剩余不确定性）变成了一个与输入分布无关的常数。为了最大化 $I(X;Y) = H(Y) - H(Y|X)$ ，我们只需要最大化输出熵 $H(Y)$ 。而使输出尽可能随机（最大化其熵）的方法就是使输入分布均匀。

但自然界并非总是如此公平。如果信道是非对称的呢？考虑一个“Z信道”，其中发送'0'总能完美地被接收为'0'，但发送'1'有一定概率被错误地接收为'0'。现在，简单的均匀策略不再能保证是最优的。问题变成了一个真正的优化任务。我们必须写出互信息作为我们输入概率（例如， $p(X=1) = \alpha$ ）的函数表达式，并使用微积分来找到使之最大化的 $\alpha$ 值。最优策略变成了一种精妙的权衡，其答案很少像 $1/2$ 那么简单。

攀登之美：凹性与对容量的探索

寻找最优输入分布的过程可能看起来像是在一个广阔的可能性景观中进行一次令人生畏的跋涉。如果这里有许多山峰和山谷怎么办？如果我们爬上了一座互信息的“小山”，却发现它只是一个局部最大值，而真正的顶峰——信道容量——在别处，该怎么办？

在这里，数学提供了一个绝佳的保证。对于一个固定的信道，互信息 $I(X;Y)$ 是输入分布 $p(x)$ 的一个凹函数。想象一个倒置的碗。无论你从它的表面何处开始，只要你总是向上走，你都保证能到达唯一的最高点。没有虚假的峰顶，没有局部最大值来困住你。

凹性的这个性质意味着混合策略总是有益的（或者至少，永远不会有害）。如果你有两个不同的输入分布 $p_1(x)$ 和 $p_2(x)$ ，它们的任何概率性混合 $p_\lambda(x) = \lambda p_1(x) + (1-\lambda) p_2(x)$ ，将产生一个至少与相应个体信息值的混合一样高的互信息。这种“混合增益”是凹性的直接结果，并确保了容量的优化问题是良态的。我们对 $p^*(x)$ 的搜索是在一座定义明确、单一的山峰上攀登，其顶峰就是信道容量。

少即是多的惊人力量：为何你不需要所有信号

让我们以该理论一个最令人惊讶且具有实际用途的推论来结束。想象一下，你正在设计一个复杂的系统，比如一个高通量药物筛选平台，你可以测试1024种不同的化合物，结果是8种可能的细胞反应之一。为了最大化你从实验中获得的信息，你需要设计一个使用所有1024种化合物的方案吗？

答案惊人地是：不需要。一个基本定理指出，要达到信道容量，你使用的输入符号数量永远不需要超过输出符号的数量。在我们的例子中，即使有1024种化合物可用，一个最优策略总是可以找到，它最多只使用其中的8种。

这是一个深刻的“少即是多”的原则，其根源在于问题空间的几何形状（一个与 Carathéodory 定理相关的结果）。直观地说，输出端可区分的响应数量限制了可以被有效利用的输入信号的数量。增加超出信道输出复杂度的输入信号并不会为信息流动创造更多“空间”；它只会产生冗余。这个优美的结果告诉我们，我们可以集中精力，简化我们的编码策略，而不会牺牲信道最终潜力的任何一点。这证明了深刻的理论原则如何能够引出强大的实践见解。

应用与跨学科联系

我们花了一些时间拆解信息论的引擎，审视了熵、互信息和信道容量的齿轮与杠杆。我们已经确定，要通过有噪信道发送最多的信息，我们必须仔细选择输入符号的概率，这个分布我们称之为 $p(x)$ 。但是，所有这些机制究竟是为了什么？这个“优化输入分布”的抽象概念在现实世界中究竟体现在哪里？

你可能会感到惊讶。这不仅仅是为构建更好的Wi-Fi路由器而存在的一个理论上的好奇心。塑造输入以最大化通过不完美媒介传输内容，这是一个深刻而统一的思想。它回响在我们全球通信网络的设计中，在我们于不安全世界中寻求安全的过程中，甚至为我们提供了一种描述处理不确定性策略的语言。让我们踏上旅程，看看这个思想将我们引向何方。

可能性之艺：定义边界

在建造之前，我们必须了解地貌。通信的基本极限是什么？优化 $p(x)$ 的原则给了我们直接、直观的答案。

首先，想象一个“信道”，其输出与输入完全无关。无论你发送什么，输出都由某个完全独立的过程生成。如果你对着飓风大喊一条信息，你听到的回声是风的声音，而不是你声音的回响。在这种情况下，联合概率仅仅是个体概率的乘积， $p(x, y) = p(x)p(y)$ 。当我们将此代入互信息公式时，我们发现 $I(X;Y) = 0$ ，永远如此。无论我们如何选择输入分布 $p(x)$ ，我们都无法在一个不存在连接的地方创造连接。容量为零。这是我们的底层：如果没有相关性，就无法传输信息。

现在，让我们走向另一个极端：一个完美的、无噪的信道。想象有一组电报键，每个键对应你 $M$ 种可能消息中的一种。每个键按下时，都会确定性地触发另一端面板上一个唯一的、对应的灯。在这里，输出完美地揭示了输入。给定输入后，关于输出的不确定性为零。我们的互信息简化为仅仅是输入的熵， $I(X;Y) = H(X)$ 。为了最大化它，我们只需使所有输入符号等可能，从而达到 $H(X) = \log_{2}(M)$ 的最大可能熵。这是天花板，是所能做到的绝对最好情况。容量仅仅是我们能发送的消息种类的度量。

这两个极端——完全损坏和完全清晰——完美地框定了我们的问题。整个通信工程的游戏，都是在这个零的底层和 $\log_{2}(M)$ 的天花板之间的广阔、嘈杂的空间中进行的。

工程师的工具箱：塑造信号

世界的大部分既不是完全损坏也不是完全清晰。它只是……混乱。这正是优化输入分布的真正力量得以体现的地方。它不是被动的测量；它是一种主动的策略。

考虑一个简单的数据处理器，其中不同的输入符号被分组在一起。例如，输入'A'和'B'都产生输出'0'，而输入'C'产生'1'。这是一个确定性信道，但它不是一对一的，所以信息会丢失。我们无法判断一个输出'0'是来自'A'还是'B'。但它的容量是多少？我们不能改变硬件，但我们可以改变软件——我们对 $p(x)$ 的选择。我们可以决定发送'A'、'B'和'C'的频率。通过调整这些输入频率，我们可以控制输出'0'和'1'的频率。为了最大化信息流，我们应该调整 $p(x)$ ，使输出变得尽可能不可预测，即它们的熵 $H(Y)$ 被最大化。对于二进制输出，当'0'和'1'以相等的概率出现时，这种情况就会发生。我们实际上是反向工程出了最优的输入统计数据，以完美平衡输出的使用。

这个思想可以推广到有噪信道。对于一个简单的对称信道，其中'0'翻转成'1'的可能性与'1'翻转成'0'的可能性相同，最好的策略通常是最简单的：以相等的频率发送'0'和'1'。但大多数真实信道并非如此客气。例如，一个'Z信道'可能是对一个光学系统的建模，其中一个光脉冲（'1'）可能被漏掉并被记录为黑暗（'0'），但黑暗永远不会被误认为是光脉冲。这种不对称性意味着均匀输入不再是最优的。为了对抗这种特定类型的噪声，我们可能需要或多或少地更频繁地发送'1'。找到这个“最佳点”需要一点微积分，而对于更复杂的信道，我们依赖于像 Blahut-Arimoto 算法这样的优雅迭代过程。这个算法就像一个计算探险家，从对 $p(x)$ 的一个猜测开始，并迭代地向互信息景观的真正顶峰攀登。我们可以确信它能找到真正的顶峰，而不仅仅是一个局部的山脚，因为一个优美的数学性质：互信息是 $p(x)$ 的凹函数。这保证了任何局部最大值都是唯一的全局最大值。

这个原则从离散的比特扩展到连续的模拟信号世界。考虑将这篇文章传输到你设备的无线电波。它们受到加性高斯白噪声（AWGN）的困扰，这是一种随机的静电干扰，是每个通信工程师的祸根。如果我们有一个有限的功率预算——我们不能只是越来越大声地喊——我们的输入信号概率分布的最佳形状是什么？ Shannon 发现的答案是深刻的：要对抗高斯噪声，应该使用高斯信号。一个振幅遵循经典钟形曲线的信号，在某种深刻的意义上，是给定功率下“最随机”的可能信号。通过使我们的信号看起来尽可能像噪声，我们矛盾地使其与噪声最大程度地区分开来，从而实现最高可能的数据速率。

战略信息：从蛮力到巧技

优化输入分布并不总是意味着使用你所拥有的一切。有时，最好的策略包含着惊人程度的巧技。

想象一个有多个命令选项的控制系统，但一些命令通过比其他命令干净得多的信道传输。也许有两个命令以非常低的错误率传输，而另外两个命令容易被混淆。操作这个系统的最佳方式是什么？天真的答案可能是使用所有四个命令。正确的答案则更为微妙。为了最大化信息速率，最优策略通常是完全忽略不可靠的命令。通过将我们的输入字母表限制为仅包含“好”的输入，我们确保发送的信号是高度可区分和可解码的。我们牺牲了输入的多样性，以换取输出的确定性。这是优化中的一个强大教训：有时，少即是多。

这种整合资源的想法引出了另一个关键应用。如果我们有多条并行的通信线路怎么办？例如，两个独立的二进制删除信道，每个信道都丢失其比特的不同部分。只要信道上的噪声是独立的，组合系统的总容量就是各个容量的总和。这个原则是现代通信技术如5G和Wi-Fi中使用的MIMO（多输入多输出）的基石，其中多个天线同时发送和接收信号，创建并行的空间信道，从而累加成惊人的数据速率。

超越信道：信息作为统一概念

最引人入胜的应用出现在我们意识到“信道”只是任何将输入转换为相关但不确定输出过程的隐喻之时。这个概念将我们带到远超工程的领域。

让我们进入间谍活动的秘密世界。Alice 想给 Bob 发送一条秘密消息，但她知道 Eve 正在窃听。Alice 到 Bob 的信道是有噪声的，但 Eve 的信道噪声更大——也许她离得更远或者设备更差。Alice 可以利用这一点。她可以设计一个针对这种情况的编码方案和输入分布 $p(x)$ 。目标是最大化 Bob 接收到的信息，同时最小化 Eve 能获取的信息。安全通信的最大速率，即保密容量，结果是 Bob 和 Eve 信道容量之差。如果 Eve 的信道比 Bob 的差（ $C_{Eve} \lt C_{Bob}$ ），那么正的保密性是可能的。这就是物理层安全——一种密码学形式，其中秘密不是由数学密钥隐藏的，而是对物理上处于劣势的窃听者来说，“消失在噪声中”。

最后，如果我们甚至不确定我们正在使用哪个信道呢？想象你正在设计一个卫星链路，在天气好的日子里它可能是一个清晰的信道，但在太阳耀斑期间则是一个嘈杂的信道。你需要选择一种单一的传输策略，无论“自然”决定给你哪个信道，它都能稳健地工作，保证一定的最低数据速率。这就是复合信道的问题。在这里找到最优的 $p(x)$ 不再仅仅是一个最大化问题；它是一个极小化极大问题，直接来源于博弈论的世界。我们正在与一个敌对的自然进行一场博弈，我们寻求能够给我们带来最佳最坏情况性能的输入分布。

从选择发送'0'或'1'频率的简单行为开始，我们穿越了全球通信网络的设计，学习了关于资源分配的战略课程，甚至触及了安全和鲁棒设计的基础。输入概率分布 $p(x)$ 远不止是一个数学形式。它是我们用来掌握信息在不确定世界中流动的杠杆。从本质上讲，它是被理解的科学。