伪随机数生成器 (PRNG)

玻尔百科

定义

伪随机数生成器 (PRNG) 指的是一种通过称为“种子”的初始值产生可重现数字序列的确定性算法。作为蒙特卡罗模拟、人工智能训练和网络安全领域的基础工具，该算法必须具备长周期和高维均匀性以确保随机性的质量。伪随机数生成器通常分为用于模拟的快速统计型和用于安全应用且具有不可预测性的加密型。

核心要点

PRNG 是一种确定性算法，它从一个称为“种子”的初始值生成可复现的数字序列，从而营造出高质量的随机性假象。
一个稳健的统计性 PRNG 必须具备极长的周期，并表现出高维均匀性（equidistribution），以防止在模拟中产生有偏见的结果。
为模拟设计的快速统计性 PRNG 与安全应用所需的较慢且不可预测的密码学 PRNG 之间存在着关键区别。
在并行计算中有效使用 PRNG 需要专门的方案，以确保不同的处理器接收到统计上独立的随机数流。
PRNG 是多个领域的基础工具，为蒙特卡洛模拟提供动力，通过随机梯度下降实现人工智能训练，并构成现代网络安全的基础。

引言

计算机，一个建立在纯粹逻辑和可预测性之上的机器，如何能生成像掷骰子一样混沌的东西？这个问题揭示了数字随机性的核心悖论，并将我们引向计算机领域最巧妙的工具之一：伪随机数生成器（PRNG）。这些算法是驱动科学模拟、人工智能和数字安全的隐藏引擎，通过一个完全确定的过程，营造出一种精心构建的偶然性假象。然而，这种假象的质量至关重要；一个有缺陷的生成器可能会使科学结果无效，危及安全性，并以微妙而危险的方式削弱高性能系统。

本文将深入探讨伪随机数的“钟表宇宙”。首先，我们将探讨支配 PRNG 工作方式的核心“原理与机制”，了解是什么使它们在统计上“随机”，以及区分优劣生成器的关键属性。随后，在“应用与跨学科联系”部分，我们将漫游于这些生成器应用的广阔领域，从模拟物种进化、训练神经网络，到保护虚拟机安全、分析 CERN 的粒子碰撞。

原理与机制

想象一下，你想模拟天气、气体中分子的碰撞，或是星系间错综复杂的舞蹈。所有这些系统都充满了看似随机的现象。要建立一个计算机模型，你需要一种方法来生成“随机”数，而且是大量的随机数。但是，计算机，一个具有完美逻辑和确定性的机器，如何能做出像掷骰子一样狂野和不可预测的事情呢？这就是伪随机数生成器（PRNGs）的核心悖论。

随机性的钟表宇宙

让我们来看一个谜题。两名学生 Chloe 和 David，在完全相同的计算机上，获得了完全相同的物理模拟程序。他们运行模拟后发现，最终答案却不相同。这似乎不足为奇，毕竟这是一个随机模拟。但转折在于：每当 Chloe 重新运行她的程序时，她都会得到完全相同的答案，精确到最后一位小数。David 的情况也是如此。他们各自的结果都是完全可复现的，但又彼此不同。

这不是侥幸。它揭示了 PRNG 的根本性质。PRNG 不是一个充满混沌的魔法盒子，而是一个确定性有限状态机——一个巨大而复杂的钟表装置。在其内部，有一组数字定义了其内部状态。当你请求一个随机数时，生成器会对其当前状态执行一个固定的数学运算，以产生一个新数字并更新其状态。从你设置机器初始状态的那一刻起，整个无穷无尽的数字序列就完全确定了。这个初始状态被称为种子。

Chloe 和 David 得到不同结果，是因为他们的程序以不同的种子开始。因为他们每个人在自己的每次运行中都使用了相同的种子，所以他们的“随机”模拟每次都以完全相同的方式展开。这种可复现性是一个至关重要的特性，而不是一个缺陷。它使科学家能够调试代码、验证结果，并充满信心地在彼此工作的基础上继续发展。如果你想复现一个实验，你只需要程序和种子。

因此，从理论角度来看，PRNG 是一个纯粹的确定性离散时间系统。一旦给定种子，未来不仅是可知的，而且是早已写就的。

机器中的幽灵：“随机”是什么？

如果数字序列是完全预先确定的，那么它在何种意义上算是“随机”的呢？这里就体现出一种美妙的二元性。虽然机器内部是确定性的，但我们作为外部观察者，通常对其初始状态一无所知。种子可能是根据系统时钟的精确微秒数来选择的，这是一个我们不知道的值。从这个实践角度看，其输出看起来是一个随机过程。这个序列是如此复杂，内部状态如此庞大，以至于在不知道种子的情况下，我们毫无希望预测下一个数字。

PRNG 的“随机性”是一种假象，但它是一种非常高质量、功能性的假象。从信息论的角度来看，如果你知道种子，那么数字流就不包含任何新信息——其条件香农熵为零。一个真正的随机源，比如放射性衰变的时间，每个事件都会产生新的信息。相比之下，PRNG 就像一个上紧了发条的音乐盒；它只是在播放一首非常长的、预先录制好的曲子。

PRNG 设计的艺术和科学就在于，让这首曲子变得如此复杂和丰富，以至于在统计上与一首真正随机的交响乐无法区分。

怎样才算一个好的“冒名者”？

要在科学模拟中很好地冒充真正的随机性，PRNG 必须通过一系列严格的测试。仅仅“看起来”随机是远远不够的。

最长的旅程：周期

因为 PRNG 是一个有限状态机，它最终必然会回到一个它曾经访问过的状态。一旦发生这种情况，数字序列就会进入一个循环重复。这个循环的长度被称为周期。短周期是灾难性的。想象一个蒙特卡洛模拟，其目的是探索一个系统的所有可能构型，这一性质被称为遍历性（ergodicity）。如果 PRNG 的周期太短，它可能会迫使模拟进入一个微小的、重复的循环，只访问了它本应访问的状态的一小部分。模拟将不再探索所有可能性的完整“宇宙”。从这样的运行中计算出的平均值将会系统性地出错，即存在偏差。

这并非理论上的担忧。一个周期短的有缺陷的 PRNG，可能导致一个设计精美、理论上保证有效的算法在实践中失败。基本法则是，周期 $P$ 必须远远地、超乎想象地大于你的模拟所需要的随机变量总数 $N$ 。对于现代模拟而言，这意味着像 $2^{19937}-1$ （著名的梅森旋转算法（Mersenne Twister）的周期）这样量级的周期并非小题大做，而是一种必需。

填充空间的艺术：均匀分布

长周期是必要的，但远非充分条件。在一个周期内的数字也必须均匀分布。这一性质被称为均匀分布（equidistribution）。在一维空间中，这意味着如果你将区间 $[0,1)$ 分成若干个小区间，每个小区间都应该接收到公平份额的数字。

但这正是许多早期生成器惨败的地方。大多数模拟并非一次只需要一个随机数，而是需要一组数字向量来定义空间中的一个点、一个速度或一组参数。这就要求 PRNG 在更高维度上表现良好。我们需要由 $k$ -元组 $(U_n, U_{n+1}, \dots, U_{n+k-1})$ 构成的序列在 $k$ 维超立方体中均匀分布。这就是 $k$ 维均匀分布。

一个在一维空间中表现出完美均匀性的生成器，在更高维度上可能具有可怕的结构。例如，臭名昭著的 RANDU 生成器，其在三维空间中生成的点都落在少数几个平面上。想象一下，你试图模拟一个盒子里的气体，但你的“随机”位置只能落在盒子里的 15 个平板玻璃上。你将完全错失大部分的物理过程。这种可以通过谱检验等工具诊断出来的潜在晶格结构，是一个致命的缺陷。一个用于科学研究的高质量 PRNG 必须在高维度上表现出卓越的均匀性，至少要达到应用所使用的维度 [@problem_id:2653238, 3531145]。

实践中的随机性：陷阱与最佳实践

掌握了这些原则，我们就可以应对使用 PRNGs 的实践挑战了。

两种随机性的故事：统计性 vs. 密码学

到目前为止，我们一直关注统计质量。但对随机性还有另一种完全不同的需求：安全性。假设你需要生成一个密码或加密密钥。在这里，首要标准不是均匀性，而是不可预测性。一个对手在观察了你的一长串“随机”数后，绝不能够猜出下一个数。

这导致了 PRNG 世界的深刻分野。

统计性 PRNG，如梅森旋转算法（Mersenne Twister, MT19937），为速度和良好的统计特性（长周期、高维均匀性）而设计。它们是蒙特卡洛模拟的主力。
密码学安全 PRNG（CSPRNG）为不可预测性而设计。它们由块密码或哈希函数等密码学原语构建，即使是坚决的对手也难以预测。

这种安全性是有代价的：CSPRNG 通常比其统计性对应物慢得多。MT19937 速度极快，但它有一个致命的密码学缺陷：由于其结构基于线性代数，一个对手只需观察其 624 个输出，就可以重建整个内部状态，并完美预测未来的每一个数字。对于安全性来说，长周期是完全无关紧要的。教训很明确：你必须为工作选择正确的工具。将统计性 PRNG 用于密码学是一场安全灾难，而将缓慢的 CSPRNG 用于大规模模拟则可能造成不必要的性能瓶颈。

并行计算的风险

现代科学运行在并行超级计算机上，成千上万的处理器协同工作于单个模拟。这就提出了一个棘手的问题：如何为每个处理器提供其自己独立的随机数流？

一个诱人但又极其错误的方法是，简单地给相邻的处理器分配相邻的种子（例如，工作单元 1 得到种子 1000，工作单元 2 得到种子 1001，等等）。对于许多生成器来说，由相近种子产生的序列并非相互独立；它们可能高度相关，甚至重叠。这种隐藏的相关性违反了模拟的假设，并可能导致“系统性乐观”的误差估计——你的结果看起来比实际更精确，这是一种危险的错觉。

安全地生成并行随机数流需要有原则的并行化方案，这些方案基于生成器的数学结构，确保每个处理器的流是可证明不相交且统计上独立的。人们不能只是寄望于好运。

伪随机数的世界是深奥数学与实用工程如何结合的一个美丽典范。从一个确定性种子的简单想法出发，我们经历了均匀性和遍历性的抽象要求，并直面安全性和并行计算的严峻挑战。这个诞生于逻辑的钟表宇宙，为我们探索周围真正随机的世界提供了燃料。

应用与跨学科联系

既然我们已经窥探了伪随机数生成器内部精密的钟表装置，我们可能会问：这个奇特的确定性机器在何处找到其用武之地？答案既出人意料又意味深长：无处不在。精心构建的随机性假象是现代科学技术中最强大、最通用的工具之一。它让我们能够建立数字实验室来研究宇宙，教机器如何学习，保护我们的通信，甚至让我们的计算机运行得更快。PRNG 的故事是一次穿越现代思想景观的旅程，揭示了物理学、生物学、计算机科学乃至金融学之间意想不到的联系。

盒子里的宇宙：作为数字实验室的模拟

也许 PRNG 最直观的用途是为自然“掷骰子”。许多自然过程受机遇支配，为了理解它们，我们必须建立包含这种内在随机性的模型。PRNG 就是我们的数字骰子，让我们能够在计算机内部创造无数个微型宇宙，每个宇宙都有略微不同的历史，从而可以研究它们的集体行为。

例如，想象一种多孔材料，如海绵或咖啡滤纸。我们可以将其建模为一个简单的网格，其中每个位点以一定的概率 $p$ “开放”或“关闭”。水会从一端流到另一端吗？这是一个逾渗问题。通过使用 PRNG 来决定每个位点的状态，我们可以模拟这个过程。当我们改变概率 $p$ 时，我们发现了一个非凡的现象：在一个特定的临界值，系统会突然从阻塞状态转变为可渗透状态。这是一种相变，就像水结成冰一样。但问题在于：我们的 PRNG 的质量至关重要。一个带有隐藏空间相关性的劣质生成器可能会无意中创建出“开放”位点的模式，系统性地改变观测到的临界点，从而为我们所构建的宇宙的一个基本属性给出错误答案。我们的模拟的可信度取决于我们提供给它的随机性。

这个原理远不止适用于简单的网格。在群体遗传学中，随机性是进化的一个驱动力。Wright-Fisher 模型描述了在一个有限群体中，等位基因频率如何因“遗传漂变”——一系列偶然事件——而随世代变化。我们可以通过使用 PRNG 来决定哪些个体将其基因传递给下一代来模拟这一过程。但如果我们的 PRNG 周期很短会怎样？想象一个生成器在几千个数字后就重复其序列。我们模拟的种群，将不是探索广阔的进化可能性空间，而是被困在一个确定性的循环中。这可能导致某个等位基因似乎过早地在群体中“固定”下来，使我们得出完全错误的生物学结论。模拟的钟表装置被其随机数来源的有缺陷的钟表装置所背叛。

这些以著名赌场命名的“蒙特卡洛”方法，是解决那些因过于复杂而无法直接进行数学分析问题的通用工具。一个绝妙的例子是 Metropolis-Hastings 算法，它是计算物理学和贝叶斯统计学的基石。它允许我们通过随机游走的方式，探索广阔、高维的可能性“景观”——比如一个复杂分子的可能构型或一个宇宙学模型的合理参数。在每一步，一个 PRNG 被用来提议一个随机移动，然后，根据一个巧妙计算出的概率，用第二次 PRNG 掷骰来决定是否接受该移动。这个过程使我们能够从那些复杂到甚至无法用闭合形式写出的概率分布中生成代表性样本。正是这项技术，通过模拟攻击者与诚实网络进展的随机游走，使我们能够估算诸如对区块链成功的双花攻击等罕见但灾难性事件的风险。

在所有这些模拟中，都有一个至关重要的潜在假设。当我们为随时间连续演变的过程建模时，比如流体中粒子的抖动或股票价格的波动，我们通常用随机微分方程来描述它们。随机部分由“白噪声”表示——一种在所有频率上都含有相等功率的信号。为了模拟这一点，我们的 PRNG 必须产生不仅均匀分布而且完全不相关的数字。如果我们的生成器有任何微小的序列依赖性，它产生的噪声将不再是白色的，而会带有“颜色”。这种有色噪声将系统性地扭曲我们模拟系统的行为，导致有偏差的结果，而这些结果若不经过对随机数本身的仔细统计检验，可能根本不会被注意到。数字实验室必须小心翼翼地清除这类隐藏的偏见。

现代机器中的幽灵：人工智能、安全与架构

虽然模拟涉及对外部世界的建模，但 PRNGs 也在我们的技术内部扮演着基础性角色，其方式通常对用户不可见，但对机器的功能至关重要。

考虑现代人工智能的引擎：随机梯度下降（SGD）。当我们训练一个神经网络时，我们实际上是在调整数百万个参数，以最小化一个衡量模型误差的“损失”函数。在整个数据集上计算这个函数的真实梯度在计算上是不可行的。相反，SGD 巧妙地使用一个随机选择的数据子集，即一个“小批量”（mini-batch），来估计梯度。这种随机性从何而来？当然是 PRNG，它被用来在每个训练周期（epoch）之前打乱整个数据集。这种随机性不是一个缺陷，而是一个特性！它引入的噪声有助于优化算法逃离局部最小值，找到更好的解决方案。从这个意义上说，PRNG 扮演了学习算法的创造性伙伴，推动它沿着一条更有成果的发现之路前进。

如果说随机性是人工智能的引擎，那么它就是网络安全的基石。用于安全通信、数字签名和身份验证的密码系统都依赖于必须不可预测的密钥和秘密。为此目的使用的 PRNG——即密码学安全 PRNG（CSPRNG）——必须是最高质量的。当这个基础出现裂缝时会发生什么？考虑一个现代数据中心，成千上万的虚拟机（VM）都是从一个主镜像克隆而来的。当这些相同的克隆体首次启动时，它们必须生成自己独特的密钥，例如，用于管理员连接的 SSH 服务的密钥。在启动的确切时刻，虚拟机是一个无菌环境，几乎没有物理活动来提供熵——即真正的随机性——来为其 CSPRNG 提供种子。如果所有克隆体都从一个相同的状态、使用一个相同的低熵种子开始，CSPRNG 的确定性将导致每一个克隆体生成完全相同的“随机”密钥。

这是一场灾难性的失败。一个攻破一台机器的攻击者可能可以访问所有机器。这种冲突的风险可以通过著名的生日悖论来理解。即使只有少量熵，比如 $H=12$ 比特，可能的种子空间也只有 $2^{12} = 4096$ 。如果我们只启动 $m=120$ 个克隆体，其中至少有两个选择相同种子并生成相同密钥的概率超过 80%！。这种现实世界的威胁催生了巧妙的工程解决方案，例如虚拟硬件设备（[virtio](/sciencepedia/feynman/keyword/virtio)-rng）和云初始化工具（cloud-init），它们专门设计用于在客户虚拟机诞生之时，将高质量的随机性从主机输送到客户机，确保每一个都有独特的命运。

PRNG 的触角甚至延伸到计算机体系结构和操作系统的最深层次。现代计算机有许多处理器（CPU），它们都共享相同的内存。假设操作系统需要为运行在不同 CPU 上的许多不同任务提供随机数。“显而易见”的解决方案——一个由锁保护的单一、全局 PRNG 状态——结果却是一场性能灾难。每当一个 CPU 需要一个随机数时，它必须获取锁，迫使所有其他 CPU 等待。更糟糕的是，这导致包含 PRNG 状态的内存位置（一个“缓存行”）在 CPU 之间疯狂地来回传递，这种现象被称为缓存一致性争用，它会使机器的性能降至冰点。一个快得多的设计是为每个 CPU 提供其自己的私有 PRNG 实例。但这又引出了一个熟悉的统计学幽灵：我们如何确保这些每个 CPU 的生成器流是独立的？简单地给它们分配相邻的种子（种子 1、种子 2、种子 3...）是制造高度相关流的著名配方。解决方案需要综合各种思想：使用一个稳健的播种方案，可能涉及密码学哈希，并选择一个具有特定数学结构的 PRNG，该结构允许人们可证明地将其序列划分为不相交、独立的子流。在这里，我们看到硬件架构、操作系统设计和数论被迫进行了一场紧密而优美的合作。

这种深刻的联系对于现代科学的巨擘至关重要，比如在 CERN 用于高能物理学的事件生成器。为了分析大型强子对撞机的数据，物理学家必须模拟数万亿次的粒子碰撞，这项任务分布在全球计算机网络上。每个模拟事件都必须统计上独立，并且至关重要的是，可复现。事件 #1,337,452 的随机数必须是相同的，无论它今天是生成于一台笔记本电脑上，还是明年生成于一台拥有不同数量处理器的超级计算机上。这要求 PRNG 具有非凡的特性。解决方案在于先进的设计，例如基于计数器的 PRNG，其中随机数是事件索引和粒子索引的直接数学函数（例如，“给我事件 #1,337,452 的第 5 个随机数”），或者是具有可证明的向前跳转（skip-ahead）特性的生成器，它们可以瞬间在其序列中向前跳跃数万亿步，为每个并行进程划分出一个独特的、巨大的数字块。

从一个简单的随机数到成熟的模拟或安全系统，这段旅程充满了微妙而迷人的挑战。我们看到，PRNG 有序、可预测的钟表装置，矛盾地，成为了我们窥探机遇世界的最佳窗口。在掌握这些确定性机器的过程中，我们不仅学习了数字的结构和计算的本质，还了解了我们宇宙模型中隐藏的假设和潜在的陷阱。