经典典型性、弱典型集与强典型集

玻尔百科

定义

经典典型性、弱典型集与强典型集 是信息论与统计物理学中的核心概念，用于根据长随机序列的统计属性是否符合源分布特征对其进行分类。弱典型性基于渐近等分性，要求序列的样本熵接近源的真实熵，而强典型性则要求序列中符号出现的频率与源概率分布一致。这一理论不仅为无损数据压缩提供了基础，还通过大偏差理论量化了非典型序列的稀缺性，从而连接了物理学中的微观与宏观状态。

关键要点

渐近均分特性（AEP）指出，绝大多数长序列都属于一个由信源熵决定的、规模小但概率集中的典型集。
强典型性约束了序列中各符号的经验频率，而弱典型性则关注整个序列的样本熵是否接近信源的真实熵。
典型性原理是无损数据压缩和信道编码的理论基石，并深刻联系着信息论与统计物理学。
萨诺夫定理通过KL散度定量描述了观测到非典型分布的概率，为分析罕见事件提供了数学工具。

引言

在信息论的宏伟蓝图中，“典型性”（typicality）是一个连接直觉与严谨数学的核心基石。它试图回答一个基本问题：在一次随机实验产生的无数种可能结果中，哪些结果才是“名副其实”的代表，是我们最有可能观测到的？尽管在抛掷硬币的例子中，任何一个特定的长序列出现的概率都微乎其微且完全相同，但我们的直觉强烈地告诉我们，一个正反面数量各占一半的“杂乱”序列，远比一个“全正面”的序列更加“典型”。本文旨在为这种直觉提供坚实的理论基础，量化并区分“典型”与“非典型”序列。

为此，我们将分三个章节展开探索。首先，在“原则与机理”中，我们将深入剖析弱典型集与强典型集的数学定义，并揭示其背后的基本定律——渐近均分特性（AEP）。接着，在“典型性的无处不在：从数据压缩到生命密码”中，我们将见证典型性如何成为数据压缩、噪声信道编码、统计物理学乃至生命科学的理论支柱。最后，“动手实践”部分将通过具体计算问题，帮助你巩固所学知识。

让我们首先进入第一章，从最基本的原则出发，为“典型”这一概念精确画像。

原则与机理

在我们潜入量子世界之前，让我们先在经典信息的沃土上扎下坚实的根基。正如我们要想领会一部交响乐，必先熟悉其中的主旋律，理解“典型性”（typicality）的概念，便是开启信息论宏伟篇章的钥匙。这个概念初看可能有些抽象，但它却蕴含着深刻的物理直觉，其影响力从数据压缩一直延伸到统计物理学的根基。

一场关于“平均”的幻觉

想象一下，我们来玩一个游戏：抛掷一枚完美的硬币1000次。现在，我让你写出一个“典型”的抛掷结果序列。你会写下什么？

是“正正正……（1000个正）”吗？显然不是。虽然这个序列出现的可能性和任何其他特定序列完全相同——都是 $(\frac{1}{2})^{1000}$ ——但我们的直觉告诉我们，它太“特殊”了，一点也不“典型”。那么“正反正反……”这样的序列呢？同样不典型，因为它太“有序”了。

一个真正“典型”的序列，应该是那种看起来“杂乱无章”的序列，就像“正反正正反……反正正”。但“杂乱无章”究竟意味着什么？伟大的物理学家 Ludwig Boltzmann 在一个多世纪前就给了我们启示：一个宏观状态的“典型性”或“概率”，取决于与之对应的微观状态的数量。在我们的硬币游戏中，这意味着一个典型的序列，其宏观属性——也就是正反面的数量——应该与概率分布所预言的相符。对于一枚完美的硬幣，这意味着正面和反面的数量都应该“大约”是500个。

这正是大数定律（Law of Large Numbers）的精髓。当序列长度 $n$ 趋于无穷时，序列中某个符号出现的经验频率（empirical frequency）几乎必然会收敛于其真实的概率。因此，尽管所有特定序列的出现概率都极小，但概率之神似乎格外偏爱那些“长得像”概率分布本身的序列。这些受偏爱的序列，就构成了所谓的典型集（typical set）。

为“典型”画像：两种定义，一个核心

信息论的先驱 Claude Shannon 用数学的语言为这种直觉精确地描绘了两幅肖像：强典型集和弱典型集。

强典型性：所见即所得

强典型性（strong typicality）是最符合我们直觉的定义。一个序列被称为强典型的，如果其中每个符号出现的频率都非常接近其真实的概率。

让我们更正式一点。想象一个信息源，它从字母表 $\mathcal{X}$ 中吐出符号。对于一个长度为 $n$ 的序列 $x^n = (x_1, \dots, x_n)$ ，我们可以统计每个符号 $a \in \mathcal{X}$ 出现的次数 $N(a|x^n)$ 。这个序列的类型（type），或称经验概率分布 $P_{x^n}$ ，就是由这些频率 $P_{x^n}(a) = \frac{N(a|x^n)}{n}$ 构成的。一个类型为 $P$ 的所有序列的集合被称为类型类（type class） $T(P)$ ，其大小可以通过多项式系数计算得出。

现在，强 $\delta$ -典型集 $T_\delta^{(n)}$ 就是所有那些其“类型”与信息源的真实分布 $p$ 相差不超过一个很小的容差 $\delta$ 的序列的集合。也就是说，对于序列中的每一个符号 $a$ ，都满足： $\left| \frac{N(a|x^n)}{n} - p(a) \right| \le \delta$ 这个定义就像一个严格的质检员，逐一检查序列的每个组分，确保它的“成分配比”与出厂设置相符。例如，对于一个均匀的 $K$ 元信息源（即每个符号概率都是 $1/K$ ），当我们把容差 $\delta$ 设得非常小（比如小于 $1/n$ ）时，强典型集里就只剩下一种序列：每个符号都不多不少，正好出现 $n/K$ 次的序列。

弱典型性：熵的低语

相比之下，弱典型性（weak typicality）则从一个更全局、更具信息论特色的角度来定义“典型”。它不关心每个符号的单独计数，而是关心整个序列所蕴含的“意外程度”或信息量。

一个序列 $x^n$ 出现的概率是 $p(x^n) = \prod p(x_i)$ 。它的自信息（self-information）是 $-\log_2 p(x^n)$ ，表示我们看到这个特定序列时所获得的“惊讶程度”。我们将这个值平均到每个符号上，得到所谓的样本熵（sample entropy）： $-\frac{1}{n}\log_2 p(x^n)$ 。

弱 $\epsilon$ -典型集 $A_\epsilon^{(n)}$ 就包含了所有那些样本熵与信息源的真实香农熵（Shannon entropy） $H(X)$ 相差不超过容差 $\epsilon$ 的序列： $A_\epsilon^{(n)} = \left\{ x^n \in \mathcal{X}^n : \left| -\frac{1}{n} \log_2 p(x^n) - H(X) \right| \le \epsilon \right\}$ 其中 $H(X) = -\sum_{x \in \mathcal{X}} p(x) \log_2 p(x)$ 。熵是信息源平均不确定性的度量。因此，弱典型性要求序列的“经验不确定性”要与信息源的“理论不确定性”相匹配。

有趣的是，这两个定义虽然出发点不同，但最终殊途同归。一个简单的计算就能揭示，对于一个二元信源，弱典型性的条件最终也约束了序列中0和1的个数比例必须在一个小范围内波动，这与强典型性的要求不谋而合。

渐近均分割特性（AEP）：信息世界的宪法

如果说典型集是信息世界的“上流社会”，那么渐近均分割特性（Asymptotic Equipartition Property, AEP）就是这个社会的宪法。它由几条惊人而优美的定律构成：

概率集中定律：当序列长度 $n$ 足够大时，典型集的总概率趋近于1。换句话说，你从信息源中随机抽取一个长序列，它几乎肯定是一个典型序列。非典型序列虽然数量众多，但它们的总概率小到可以忽略不计。正如在一个具体的计算中，即便序列长度只有4，典型集就已经占据了绝大部分的概率。
典型序列数量定律：典型集 $A_\epsilon^{(n)}$ 中大约有 $2^{nH(X)}$ 个序列。
等概率定律：典型集中的每一个序列，其出现的概率都约等于 $2^{-nH(X)}$ 。

这三条定律合在一起，描绘了一幅令人震撼的图景。宇宙中所有可能序列的总数是 $|\mathcal{X}|^n$ ，这是一个巨大的数字。然而，大自然在掷骰子时，几乎总是从一个规模小得多的“典型”子集中挑选结果。这个子集的大小约为 $2^{nH(X)}$ 。更神奇的是，在这个“典型俱乐部”内部，所有成员都近乎“机会均等”。

这就是数据压缩的理论基石。我们为什么能压缩文件？因为我们不需要为所有 $|\mathcal{X}|^n$ 种可能都准备一个编码。我们只需要关注那 $2^{nH(X)}$ 个典型序列就够了，因为其他的几乎永远不会出现！我们给这 $2^{nH(X)}$ 个序列分别贴上长度约为 $nH(X)$ 比特的标签，就能唯一地表示它们。这就是Shannon无损压缩定理的直观核心。

AEP的美妙之处还在于它的几何想象。对于连续信息源，比如高斯分布，典型集是什么样的？它不再是离散的点集，而是在 $n$ 维空间中的一个区域。计算表明，这个区域并非一个实心球，而是一个非常薄的球壳！想象一下，在一个高维空间中，几乎所有的“体积”（在这里是概率）都集中在一个薄薄的表面上，这是多么违反直觉而又优美的画面！

强弱之辨与超越独立

对于独立同分布（i.i.d.）信源，强典型性是一个比弱典型性更强的条件。也就是说，一个强典型序列必定是弱典型的，但反之不尽然。我们可以构造出一些序列，它们整体的样本熵符合要求（弱典型），但其内部某个符号的频率却偏离了正常值（非强典型）。这说明强典型集是弱典型集的一个子集，它施加了更精细的约束。通过巧妙地设置容差，我们甚至可以利用典型集的嵌套结构来精确地分离出具有特定统计特性的序列子集。

然而，真实世界的信息往往不是独立同分布的。语言中的字母、音乐中的音符、股票市场的价格，都充满了记忆和关联。对这类信源，典型性的概念需要推广。以马尔可夫信源（Markov source）为例，下一个符号的出现概率依赖于当前符号。此时，一个序列是否“典型”，不仅取决于单个符号的频率，更取决于符号对（pair）的转换频率。

一个序列被称为马尔可夫意义下的强典型序列，如果其中每一种“ $i \to j$ ”转换的经验频率都接近于其理论值 $\pi_i P_{ij}$ （其中 $\pi$ 是稳态分布， $P$ 是转移矩阵）。一个深刻的结论是：马尔可夫典型集渐近地成为一个以其稳态分布定义的i.i.d.信源的典型集的子集。这意味着，记忆和结构进一步缩小了“典型”的范围。这种结构性的冗余，使得这类信源的熵率（entropy rate）——即每个符号带来的平均信息量——变得更低，从而允许更高程度的压缩。

非典型之域：大偏差的魅力

AEP告诉我们非典型序列的概率可以忽略，但“可以忽略”究竟是多小？假如我们非要等待一个非典型事件发生，比如在掷一百万次硬币时看到超过六十万个正面，我们要等多久？大偏差理论（Large Deviation Theory）和萨诺夫定理（Sanov's Theorem）给出了定量的回答。

萨诺夫定理是一个的“定量版的大数定律”。它指出，观测到一个经验分布 $Q$ （而非真实的分布 $P$ ）的概率，会随着序列长度 $n$ 的增加而指数级衰减，其衰减速率由库尔贝克-莱布勒散度（Kullback-Leibler (KL) divergence） $D(Q||P)$ 决定： $\text{Pr}(P_{x^n} \approx Q) \approx 2^{-nD(Q||P)}$ KL散度 $D(Q||P)$ 可以直观地理解为用分布 $P$ 来描述一个真实分布为 $Q$ 的事件时，我们所付出的“额外惊讶”或“信息损失”的度量。它不是一个真正的距离，因为它不对称（ $D(Q||P) \neq D(P||Q)$ ），但它完美地量化了两个概率分布之间的“差异性”。

萨诺夫定理的美妙之处在于其“信息投影”原理。如果我们想计算经验分布落入某个非典型分布集合 $E$ 的概率，我们不需要对 $E$ 中所有分布求和。我们只需要在 $E$ 中找到一个离真实分布 $P$ “最近”（KL散度最小）的分布 $Q^*$ ，整个集合的概率就由这个“最不非典型”的分布 $Q^*$ 的概率所主导。这为我们分析罕见事件和进行统计推断（例如，判断一个未知序列更可能来自信源P还是信源Q）提供了强有力的数学武器。

深入渐近：二阶的奥秘

AEP描述的是 $n \to \infty$ 时的主导行为，但故事并未就此结束。就像在物理学中我们不断追求更高阶的修正项一样，信息论也探索着典型集的更精细结构。人们发现，典型集大小的对数 $\log_2|A_\epsilon^{(n)}|$ 的渐近展开中，除了主项 $nH(p)$ ，还存在一个 $\log_2 n$ 的修正项。更有趣的是，KL散度、样本熵的涨落以及一个被称为信息方差（information variance）的量之间，存在着深刻的二阶关系。这些更高阶的理论，如中偏差（moderate deviations）理论，将我们从大数定律的确定性王国引向中心极限定理的涨落世界，揭示了统计规律在有限样本下的丰富细节。

从简单的硬币抛掷，到高维空间的几何形态，再到复杂系统的结构与记忆，典型性的概念如同一条金线，将概率论、信息论和统计物理学优美地串联在一起。它不仅告诉我们世界在宏观尺度上为何如此“有序”和“可预测”，也为我们如何高效地描述和传输信息指明了方向。这正是科学之美——从一个简单而深刻的原理出发，构建起一座宏伟、统一且实用的理论大厦。

典型性的无处不在：从数据压缩到生命密码

在我们之前的讨论中，我们已经深入了解了典型集和渐近均分特性（AEP）的数学原理。你可能会觉得这些概念有些抽象，充满了对数和概率。但科学的美妙之处在于，最深刻的抽象往往在现实世界中有着最广泛、最令人惊讶的应用。AEP正是这样一个例子。毫不夸张地说，这个单一的、看似简单的想法——即在大量可能性中，几乎所有实际发生的都是“典型”的——是我们理解和驾驭这个复杂世界的黄金钥匙。

现在，让我们一同踏上一段旅程，去看看这把钥匙能打开哪些大门。我们将从工程师的工具箱出发，穿越物理学的殿堂，最终抵达生命科学的核心。你将会看到，从如何压缩一个文件，到恒星的演化，再到我们自身的基因密码，背后都回响着“典型性”的旋律。

挤压信息的艺术：数据压缩与通信

我们生活在一个信息爆炸的时代。每天，海量的数据通过互联网、手机和卫星在全球穿梭。如何高效地存储和传输这些数据？答案的核心，就是典型性。

想象一下，你正在写一封很长的电子邮件。你使用的字母和单词并不是完全随机的。比如，在英语中，字母'e'比'z'用得多得多。从信息论的角度看，你写的任何一篇足够长的文章，其统计特性（比如各个字母的出现频率）都会无限接近于该语言的平均统计特性。换句话说，你写出的几乎总是“典型”的文本序列。

渐近均分特性告诉我们，对于一个信息源，所有可能产生的长序列中，绝大多数都属于一个体积小得惊人的“典型集”。这个集合中的每个序列都具有几乎相同的概率，约等于 $2^{-nH(X)}$ ，其中 $H(X)$ 是信息源的熵。那么，一个天才的想法诞生了：我们为什么需要为所有可能的序列都设计一个独一无二的编码呢？我们完全可以只为那些“典型”的序列设计短的、高效的编码，而为那些极度罕见的“非典型”序列使用长一些的编码。

这就是典型集编码的精髓。一个简单的实现方式是，我们在编码前加一个比特位：用'0'表示接下来是一个典型序列的短索引，用'1'表示接下来是一个非典型序列的原始、未经压缩的表示。因为非典型序列出现的概率随着序列长度 $n$ 的增加而趋向于零，所以我们几乎总是在使用高效的短编码。这就像是为一本巨大的字典建立索引，我们只为常用词汇（典型序列）制作简洁的索引页，而把那些几百年才用一次的生僻词（非典型序列）直接完整地附在字典末尾。虽然这样做有极小的可能性——即我们恰好遇到了一个“无法翻译”的非典型序列——但AEP保证了，只要我们的序列足够长，这种“失败”的概率可以忽略不计。我们日常使用的ZIP、JPG等压缩算法，其背后都蕴含着这一深刻原理。

信息压缩解决了存储问题，但传输信息还面临着另一个挑战：噪声。无论是手机通话中的静电噪音，还是从火星探测器传回的微弱信号，噪声似乎是通信中不可避免的敌人。典型性再一次为我们指明了方向。

这次我们引入“联合典型性”的概念。假设我们发送了一个典型的输入序列 $x^n$ ，经过一个有噪声的信道，我们收到了一个输出序列 $y^n$ 。信道的噪声本身也是一个随机过程，因此在大多数情况下，它引入的“错误模式”也是典型的。结果就是，收到的序列 $y^n$ 和发送的序列 $x^n$ 作为一个整体，几乎必然是“联合典型”的。

这意味着什么呢？想象一下，在经典的二进制对称信道（BSC）中，每个比特有 $p$ 的概率被翻转。那么，一个长度为 $n$ 的典型输入序列经过信道后，产生的输出序列中，错误比特的数量会非常接近 $np$ 。所有满足这个条件的输出序列形成了一个以输入序列为中心的“典型球”，其“半径”由信道的噪声水平决定。解码器的任务就变得异常简单：在所有可能的输入序列中，找到唯一一个，其“典型球”包含了我们实际接收到的序列。香农的噪声信道编码定理告诉我们，只要我们的通信速率低于一个叫做“信道容量”的极限，我们总能找到一种编码方式，使得这些“典型球”之间互不重叠，从而实现几乎无差错的通信。

这个原理的威力远不止于此。无论是经过多个阶段、噪声层层叠加的信道，还是信道本身状况会随时间变化的、具有记忆性的信道（如受天气影响的无线信道）[@problem_id:56755, @problem_id:56800]，甚至是复杂的通信网络，比如一个节点需要帮助另外两个节点传递信息的中继信道，典型性的思想都同样适用。我们总能定义出一个“典型行为”的集合，其数量由相应的（条件）熵率决定，从而为设计高效可靠的通信系统提供了理论基石。现代通信的奇迹，从5G网络到深空探测，都建立在对典型性这一概念的深刻理解之上。

信息的物理学：统计力学与混沌

我们刚刚看到典型性在工程领域的巨大成功。现在，让我们进行一次大胆的思维跳跃：这个源于比特和字节世界的想法，是否能对物理世界的基本规律有所启发？答案是肯定的。实际上，这正是思想的源头。

想象一个封闭容器中的气体。容器里有数以万亿计的分子，每个分子都有自己的位置和速度。所有可能的微观状态（所有分子的位置和速度的组合）构成了一个难以想象的巨大空间。然而，无论我们何时观察，气体总是处于一种宏观的“平衡态”——温度、压强均匀分布。为什么？

答案就是典型性。在所有可能的微观状态中，绝大多数都对应着同一个宏观状态，即平衡态。这些状态就是“典型”的。系统的演化就像一个在这些典型状态中随机漫步的醉汉，因为典型状态的数量是如此之多，以至于它几乎永远都停留在其中。我们所感知的宏观平衡，正是系统被困在庞大的典型集中的表现。

这个思想 beautifully 统一了统计力学中的两大系综：微正则系综和正则系综。微正则系综描述一个孤立系统，其总能量是固定的。而正则系综描述一个与大热源接触的系统，其能量可以有起伏，但平均能量由温度 $T$ 决定。这两个看似不同的描述为何在宏观上等价？典型性给出了答案。对于一个给定的总能量 $E_{tot}$ ，总存在一个特定的温度 $T$ ，使得正则系综中能量的平均值恰好等于 $E_{tot}$ 。在这个温度下，正则系综的典型能量集——即系统最有可能处于的能量状态集合——的大小，恰好等于微正则系综所允许的所有状态数。温度，这个我们日常感受到的宏观量，从信息论的角度看，不过是那个使得两种描述下的“典型”概念相匹配的参数。这种思想的连接是如此深刻，以至于我们可以利用它来分析各种物理模型，从磁铁的相变到晶格上的复杂组合问题（如二聚物覆盖问题）。计算一个物理系统中有多少种可能的“典型”构型，本质上就是在计算它的熵。

从原子的有序舞蹈，让我们转向混沌的无常世界。混沌系统，如天气系统或湍流，其特点是对初始条件的极端敏感性——所谓的“蝴蝶效应”。这使得长期精确预测变得不可能。然而，典型性再次为我们提供了一把统计的钥匙。

一个混沌系统的演化轨迹，虽然在细节上不可预测，但其长期行为的统计特性却非常有规律。我们可以将系统在不同时刻访问的状态序列，看作一个信息源产生的序列。动力学系统的“遍历性”假设，其物理本质就是AEP的体现：几乎所有从随机初始点出发的轨迹，在足够长的时间后，都会是“典型”的。这意味着，这条轨迹访问空间中不同区域的频率，会精确地符合系统的不变测度（即平衡态的概率分布）。

更进一步，在许多混沌和无序系统中，一个关键的量是李雅普诺夫指数，它描述了微小扰动的指数级增长率。这个增长率本身，也是在一个由典型序列构成的集合上平均得到的结果。我们可以将那些其增长率接近李雅普诺夫指数的演化路径定义为“典型”的路径，并利用熵函数来计算这个典型集的大小。这个深刻的联系，是现代动力系统和无序物理研究的核心，它帮助我们理解从星系演化到金融市场波动的各种复杂现象。

生命的蓝图：遗传学与演化

支配比特和原子的法则具有普适性。现在，让我们在已知的最复杂的系统中——生命本身——寻找它们的踪迹。

演化是一个在广阔的基因序列空间中探索的过程。面对几乎无穷的可能性，生命是如何演化出今天的多样性的？我们能对可能的演化路径说些什么吗？

典型性的思想为我们提供了一种强大的分析工具。我们可以将一个物种的繁衍过程建模为分支过程（Galton-Watson过程）。AEP告诉我们，尽管任何一次具体的演化历史都充满了随机性，但所有“幸存”下来的演化树（即没有灭绝的谱系），其“数量”（用熵来衡量）是可以通过计算得出的。我们可以估算出构成生命历史的“典型”演化路径的数量级，从而量化演化过程中的多样性。

这个想法在群体遗传学中有着更为具体的应用。在一个种群中，等位基因的频率随时间的变化是一个随机过程，这正是著名的Wright-Fisher模型所描述的。一个物种的演化历史，就对应于这个随机过程的一条长轨迹。哪些历史是“可能”的？答案是：那些“典型”的历史。AEP允许我们计算出与某个物种的稳定状态相对应的所有典型演化轨迹的“体积”，这个体积的大小由该过程的熵率决定。这个看似抽象的计算，对于我们理解和解释当今的基因组数据，以重构物种的演化历史、推断种群的动态变化，具有至关重要的意义。

结论：随机性中的统一

我们的旅程从一个非常实际的问题——如何压缩一个文件——开始，最终触及了生命的起源和混沌的本质。贯穿始终的红线，就是“典型性”。

它是大数定律的具体化身，是随机世界中秩序的来源。它告诉我们，在任何由概率主导的复杂系统中，无论是通信信道、气体分子、混沌吸引子，还是演化的种群，一种宏观的确定性和可预测性都会从微观的随机性中浮现出来。系统绝大多数时候的行为，都局限在一个由熵决定的、规模虽小却包含了绝大多数概率的“典型集”内。

世界看起来无穷无尽地复杂，但在其表象之下，往往隐藏着少数几个简单而强大的思想。典型性的概念就是其中之一。它是一把金钥匙，为我们打开了从工程到物理，再到生物学等众多科学领域的秘密大门，展现了自然法则惊人的统一与和谐之美。

动手实践

练习 1

典型集的概念是信息论的基石，它将高概率序列与低概率序列区分开来。本练习将引导你动手计算弱典型集的大小，通过一个具体的有偏二元信源例子，将序列的经验熵与信源的真实熵联系起来。这个实践有助于你深入理解渐近均分特性（Asymptotic Equipartition Property, AEP）的实际含义，并掌握如何根据定义来识别和量化典型序列。

问题: 一个独立同分布 (i.i.d.) 的离散无记忆信源由定义在有限字母表 $\mathcal{X}$ 上的一个随机变量 $X$ 来表征，其概率质量函数为 $p(x) = \text{Pr}(X=x)$ 。该信源发出的一个长度为 $n$ 的符号序列记为 $x^n = (x_1, x_2, \ldots, x_n)$ ，其概率由 $p(x^n) = \prod_{i=1}^n p(x_i)$ 给出。

该信源的香农熵（使用以 2 为底的对数）定义为： $H(X) = -\sum_{x \in \mathcal{X}} p(x) \log_2 p(x)$

对于给定的序列长度 $n$ 和容差参数 $\epsilon > 0$ ，弱典型集 $A_\epsilon^{(n)}$ 是指所有样本熵与信源真实熵相近的序列 $x^n$ 的集合。形式上，其定义为： $A_\epsilon^{(n)} = \left\{ x^n \in \mathcal{X}^n : \left| -\frac{1}{n} \log_2 p(x^n) - H(X) \right| \le \epsilon \right\}$

考虑一个二进制无记忆信源，其字母表为 $\mathcal{X} = \{0, 1\}$ ，概率为 $p(1) = p$ 和 $p(0) = 1-p$ 。对于该信源的一个特定实例，其概率 $p=1/3$ ，序列长度 $n=9$ ，容差 $\epsilon=1/6$ ，请计算弱典型集中的序列总数，即求集合 $|A_\epsilon^{(n)}|$ 的大小。

显示求解过程

练习 2

类型法（Method of Types）是分析长序列性质的强大组合技术，也是理解强典型性的关键。本练习要求你计算一个给定类型的“类”（type class）的大小，即所有具有相同经验概率分布的序列所构成的集合。通过这个计算，你将熟悉多项式系数在信息论中的应用，并为后续理解强典型集和信源编码定理建立重要的直观认识。

问题: 在经典信息论中，类型方法是一种分析长随机变量序列性质的强大技术。它是证明 Shannon 信道编码定理的基础，并在量子信息论中也有对应，例如 Schumacher 压缩。

设 $\mathcal{X}$ 是一个有限字母表。一个长度为 $n$ 的序列，记为 $x^n = (x_1, x_2, \dots, x_n)$ ，是符号的有序集合，其中每个 $x_i \in \mathcal{X}$ 。序列 $x^n$ 的类型（或经验概率分布）是定义在 $\mathcal{X}$ 上的一个概率分布 $P_{x^n}$ ，其对于每个符号 $a \in \mathcal{X}$ 的值是该符号在序列中出现的相对频率。也就是说， $P_{x^n}(a) = \frac{N(a|x^n)}{n}$ 其中 $N(a|x^n)$ 是符号 $a$ 在序列 $x^n$ 中出现的次数。

在 $\mathcal{X}$ 上的概率分布 $P$ 的类型类，记为 $T(P)$ ，是所有类型为 $P$ 的长度为 $n$ 的序列的集合。 $T(P) = \{x^n \in \mathcal{X}^n : P_{x^n} = P \}$

考虑一个系统，该系统从三元字母表 $\mathcal{X} = \{0, 1, 2\}$ 中生成长度为 $n$ 的序列。长度 $n$ 是一个正整数，并且是 12 的倍数。我们关心一个由概率分布 $P$ 定义的特定类型类 $T(P)$ ，其中 $P(0) = 1/4$ ， $P(1) = 1/3$ ， $P(2) = 5/12$ 。

您的任务是计算这个类型类的大小 $|T(P)|$ 的精确值，并将其表示为序列长度 $n$ 的函数。

显示求解过程

练习 3

弱典型性和强典型性是描述典型序列的两种不同方式，理解它们的区别至关重要。本练习通过一个具体问题，要求你计算那些“弱典型”但“非强典型”的序列的总概率。这个过程将迫使你精确应用两种定义，从而深刻地揭示它们在有限序列长度下的微妙差异。

问题: 考虑一个信息源，它产生一个符号序列 $x_1, x_2, \ldots, x_n$ 。这些符号是根据一个定义在有限字母表 $\mathcal{X}$ 上的概率质量函数 $p(x)$ 进行独立同分布 (i.i.d.) 的。

相对于一个容差 $\epsilon > 0$ ，弱典型集 $A_\epsilon^{(n)}$ 是所有序列 $x^n = (x_1, \ldots, x_n)$ 的集合，这些序列的样本熵接近于该信源的香农熵 $H(X)$ ： $A_\epsilon^{(n)} = \left\{ x^n \in \mathcal{X}^n : \left| -\frac{1}{n} \log_2 p(x^n) - H(X) \right| \le \epsilon \right\}$ 其中 $p(x^n) = \prod_{i=1}^n p(x_i)$ 且 $H(X) = -\sum_{x \in \mathcal{X}} p(x) \log_2 p(x)$ 。

相对于一个容差 $\delta > 0$ ，强典型集 $T_\delta^{(n)}$ 是所有序列 $x^n$ 的集合，对于这些序列，每个符号的经验频率都接近其真实概率。设 $N(x|x^n)$ 是符号 $x$ 在序列 $x^n$ 中出现的次数。那么： $T_\delta^{(n)} = \left\{ x^n \in \mathcal{X}^n : \left| \frac{N(x|x^n)}{n} - p(x) \right| \le \delta \text{ 对于所有 } x \in \mathcal{X}, \text{ 且 } N(x|x^n)=0 \text{ 若 } p(x)=0 \right\}$

现在，考虑一个特定的三元信源，其字母表为 $\mathcal{X} = \{0, 1, 2\}$ ，概率为 $p(0) = p_0$ ， $p(1) = p_1$ 和 $p(2) = p_2$ 。对于 $p_0=1/2$ ， $p_1=1/4$ ， $p_2=1/4$ 的特定情况，以及序列长度 $n=4$ 、容差 $\epsilon = 3/10$ 和 $\delta = 3/10$ 的条件，计算所有弱典型但非强典型序列的总概率。也就是说，计算 $P(A_\epsilon^{(n)} \setminus T_\delta^{(n)})$ 。

显示求解过程