伪随机化

玻尔百科

定义

伪随机化是一种在科学计算和实验设计中使用的确定性过程，旨在生成具有随机特征但可重复的数字序列。该方法通过固定随机种子来确保计算过程和试验顺序的可追溯性与可审计性，这对于调试程序和验证模拟结果至关重要。高质量的伪随机生成器具有极长的周期和多维均匀分布特征，能够有效消除可能导致实验偏差的隐藏模式。

核心要点

伪随机性是一个确定性过程，它能创建可复现的数字序列，这是调试和验证科学计算的关键特性。
高质量的生成器具有极大的周期和在多维空间中的均匀分布，这能防止可能使模拟失效的隐藏模式。
固定随机种子是实现计算可复现性的基本实践，它使科学分析可追溯、可审计且可信。
在实验设计中，伪随机化用于创建平衡且受约束的试验顺序，在消除潜在偏差的同时保持表观上的随机性。

引言

像计算机这样完全逻辑化的机器，如何能产生像掷硬币一样不可预测的东西？答案在于一种被称为伪随机化的精密幻象，它是现代科学与工程的基石。虽然生成和正确使用“随机”数看似一项简单的任务，但其中充满了微妙的陷阱，这些陷阱可能导致复杂的模拟失效，甚至破坏科学研究。本文旨在通过全面概述伪随机性来应对这一挑战。在“原理与机制”一节中，我们将拆解伪随机数生成器的内部构造，探索支配它们的确定性规则、定义其质量的统计特性，以及导致灾难的常见错误。随后，“应用与跨学科联系”一节将展示这种受控的随机性并非缺陷，而是一种特性，它使得物理学和生物学等领域能够实现可复现的模拟，并构成了可审计、可信的计算科学的基石。

原理与机制

计算机的核心是一个充满坚定逻辑的世界，在这里，每一个动作都是前一个动作直接且可重复的结果。那么，这样一台可预测的机器如何能产生像随机性一样狂野不羁的东西？它如何能模拟掷骰子、股票价格的波动，或气体中粒子的混乱舞蹈？答案是一个美丽的悖论，是整个计算科学中最优雅的骗局之一：它伪造了随机性。这种精心构建的幻象被称为伪随机性。

机会的钟表机制

想象一个极其复杂的钟表机构。它有成千上万个奇形怪状的齿轮，以一种极为错综复杂的方式相互连接。当你转动曲柄时，机器不只是向前滴答作响；它的指针在表盘上以一种极其复杂、看似完全无规律的序列跳动。这就是伪随机数生成器（PRNG）的本质。

形式上，一个PRNG不过是一个确定性状态机。它有一个内部状态，我们可以称之为 $x_t$ ，代表其所有齿轮的当前位置。它还有一个规则，一个函数 $f$ ，告诉你如何从当前状态转移到下一个状态： $x_{t+1} = f(x_t)$ 。为了从中获取一个数，另一个函数 $g$ 会读取状态并产生一个输出： $y_t = g(x_t)$ 。

你通过将其齿轮设置为一个特定的初始配置——即种子——来启动这台机器。一旦种子被设定，这台机器的整个未来——它将访问的每一个状态，它将产生的每一个数字——就完全被确定了。如果你转动曲柄一千次，记下数字序列，将机器重置为完全相同的种子，然后再次转动曲柄，你将得到完全相同的一千个数字。

这个特性，即可复现性，并非一个缺陷；它是伪随机性在科学中最重要的单一特性。它将一个变幻莫测的概率游戏变成了一个可靠的科学仪器。如果你在一个复杂的模拟中发现了一个错误，你可以用相同的种子重新启动它，并确信你正在重新追踪完全相同的计算路径。这使得调试、验证和确认成为可能。没有它，计算科学将迷失在真正随机、无法重复的结果的迷雾之中。

但这引出了一个关键点。为了使可复现性在两台不同的计算机之间成立，其“钟表机制”的每一个微小细节都必须完全相同。仅仅使用相同的抽象公式，比如说 $x_{t+1} = (a x_t + c) \pmod m$ ，是远远不够的。实现也必须相同，具体到用于存储数字的位数以及当计算溢出时所遵循的精确规则。如果一台计算机使用32位的齿轮而另一台使用64位的齿轮，即使它们从相同的种子开始，它们的“随机”路径也可能从第一步开始就分道扬镳。

一个好的伪随机序列的剖析

所以，我们有了一个能产生可复现序列的确定性机器。但这个序列“足够随机”吗？什么才算是一个好的伪随机序列？一个高质量的PRNG必须具备几个特性，使其输出能够令人信服地模仿一个真正的随机过程。

马拉松选手：巨大的周期

由于我们的机器只有有限数量的可能状态，其状态序列最终必然会重复。一旦某个状态重复出现，生成器就进入一个循环，其产生的数字序列将永远循环下去。这个循环的长度被称为周期。对于任何严肃的PRNG来说，一个基本要求是其周期必须是天文数字级别的——远大于任何给定模拟所需的随机数数量。现代生成器的周期可达 $2^{19937}-1$ 之类，这是一个如此巨大的数字，以至于如果你从宇宙大爆炸开始到现在，每秒生成一万亿个数字，你也只是触及了该序列的皮毛。

公平的发牌员：均匀性

我们期望的最基本特性是数字应该均匀分布。如果我们的生成器产生在区间 $[0,1)$ 内的数字，那么在一个长序列中，落入任何子区间（例如 $[0.1, 0.2)$ ）的数字比例应该等于该子区间的长度（在此例中为 $0.1$ ）。这个特性被称为等分布性（equidistribution）。这意味着生成器对其输出范围的任何部分都没有偏爱。

维度的诅咒：随机性的真正考验

在这里，我们遇到了一个更深层、更危险的微妙之处。一个生成器可能在一维上是完全均匀的，但在更高维度上却隐藏着灾难性的、非随机的结构。想象一下，你将生成的数字绘制在一条线上；它们可能看起来完全是散乱的。但如果你将连续的数字对 $(u_t, u_{t+1})$ 作为二维正方形上的点来绘制呢？你可能会惊恐地发现，所有的点都落在了少数几条直线上，使得正方形的大片区域完全是空的。

这并非一个假设性的担忧。臭名昭著的RANDU生成器，曾在科学计算中被使用了数十年，就存在这个缺陷。在三维空间中，它生成的“随机”点全都仅落在15个平行的平面上。使用这个生成器来模拟三维盒子中粒子的模拟将是一场骗局，因为粒子永远只能存在于这几个平面上。

这就是为什么衡量一个生成器质量的真正标准是其k维等分布性。我们需要知道，对于相当大的 $k$ 值，连续的数字元组 $(u_t, u_{t+1}, \dots, u_{t+k-1})$ 在 $k$ 维超立方体中是均匀分布的。这个特性是我们所渴望的统计独立性的一个强有力的替代指标。像谱检验这样的测试就是专门为探测某些类型生成器（如线性同余生成器，LCGs）中这些隐藏的几何相关性而设计的，它能揭示其底层的格点结构，并量化其输出在更高维度中的“空隙”程度。

至关重要的是要理解，用于科学模拟的PRNG的目标是达到这种统计质量。这与密码学安全PRNG不同，后者的主要目标是对于聪明的对手而言具有不可预测性。对于科学应用，算法是公开的；我们只需要它能产生一个在所有统计意图和目的上都表现得像真正随机序列一样的序列。

灾难处方：如何误用随机性

即使有一个完美的PRNG，灾难也可能仅因一个糟糕的实现选择而降临。我们使用随机数的方式与数字本身同样关键。

考虑一个简单的任务：洗一副牌（或者更一般地，随机置换一个数组）。正确的算法，即Fisher-Yates洗牌算法，是优雅的典范。对于每个位置，它从所有尚未放置的元素中随机选择一个元素放在那里。这保证了完全均匀的置换。一种天真的方法可能是遍历数组，对于每个位置 $i$ ，将其元素与从整个数组中随机抽取的某个位置 $j$ 的元素进行交换。这个看似微小的改动完全破坏了均匀性。

当这个有缺陷的算法与一个有缺陷的PRNG配对时，情况就变成了灾难。想象一个老旧的生成器，它只能产生最大为32767的整数，而你正试图对一个包含100,000个项目的数组进行洗牌。这种天真的洗牌算法将永远只会在数组的前半部分元素之间进行交换。数组后半部分的元素只会被前半部分的元素换入，但永远不会在它们内部之间进行交换。结果是对随机洗牌的怪诞嘲弄，最终的排列是高度结构化和可预测的。

在并行计算中也会出现类似的一类错误。假设你有数千个处理器来运行一个大规模的蒙特卡洛模拟。每个处理器都需要自己独立的随机数流。

最明显的错误是给每个处理器相同的种子。你得到的不是数千个独立的模拟；你得到的是一个模拟结果被复制了数千次。这会导致一个极度过分自信且错误的答案。
一个更微妙的错误是给处理器 $i$ 赋予种子 $s_0+i$ 。对于许多生成器，特别是LCGs，相邻的种子会产生高度相关的随机数流。这些处理器可能看起来在独立工作，但它们的“随机”游走几乎是步调一致的，这再次破坏了实验的统计基础。

正确的方法是将PRNG的庞大序列视为单一资源。我们必须给每个处理器这个序列中一个唯一的、不重叠的块。这可以通过数学上可靠的技术来实现，例如“跳跃”（skip-ahead）方法，它使用模幂运算来瞬间在序列中向前跳转数百万步；或者使用鲁棒的哈希函数将连续的处理器ID转换为在生成器状态空间中相距很远的起始种子。

驯服骰子：实验设计中的随机性

“伪随机化”这个术语也用来描述一个不同但相关的概念，用于实验设计中，特别是在心理学和神经科学等领域。在这里，目标不是生成一个数字序列，而是确定实验试验的顺序（例如，在什么时间向受试者展示哪种刺激）。

人们可能认为，最“随机”的方法是简单地、独立地从帽子里抽取每种试验类型。但对于一个有限的实验来说，这种纯粹的随机性可能会带来问题。纯粹由于偶然，你可能最终得到一长串相同的刺激，这可能导致受试者的大脑适应，从而混淆结果。或者，你可能会得到各种试验类型在数量上的显著不平衡，从而降低你的统计功效。

在这里，我们使用约束随机化。我们生成一个对受试者来说显得随机的序列，但这个序列经过精心设计，以满足特定的约束。例如，我们可以强制执行：

完美平衡： 每种类型的试验都有精确的数量。
连续次数限制： 同一类型的试验连续出现不超过三次。
转换平衡： 从刺激A切换到B的频率与从A切换到C的频率大致相同。

这是对我们之前目标的一次美妙逆转。我们不再试图完美模仿真正的随机性，而是有意识地以一种受控的方式偏离它，以消除已知的实验误差和偏见来源。我们正在构建一个“足够随机”以防止受试者预测接下来会发生什么的序列，但又“足够结构化”以给我们提供最干净的数据。

被记录的幽灵：调和随机性与可复现性

这让我们回到了随机性与可复现性之间核心张力的原点。我们已经将我们的科学世界建立在确定性、可复现的伪随机性的基础之上。但如果我们怀疑即使是最好的PRNG也存在微妙的缺陷该怎么办？一些科学家选择从硬件源——从热噪声或大气现象中收集的随机性——向他们的模拟中注入“真”熵，以打破任何潜在的远程相关性。

这带来了一个深刻的困境。如果模拟的路径被来自外部世界的一阵不可预测的风所推动，我们如何能期望重放它？

解决方案既简单又深刻：你必须记录下这个幽灵。为了保持可复现性，从外部源注入的每一比特熵都必须被记录下来。这样，模拟就可以被完美地重放，因为它的完整输入集不仅仅是初始种子，而是种子加上影响其过程的每一个外部随机事件的完整日志文件。

确定性得以保留。计算过程仍然是一个透明、可验证的过程。“随机性”，无论它来自钟表般的算法还是混乱的量子世界，都被当作科学配方中一个被精确控制和完整记录的成分。这就是伪随机化的最终胜利：它给了我们机会的力量，但是以我们自己的、可重复的方式。

应用与跨学科联系

在我们之前的讨论中，我们深入研究了伪随机性的机制，揭示了其核心的那个令人愉悦的悖论：一系列看起来完全杂乱无章的数字，却源于一个像钟表一样可预测的过程。人们可能倾向于认为这只是一种巧妙的伪造，仅仅是对“真实”随机性的模仿。但这样做就完全错过了重点。伪随机数的确定性、可复现的本质并非缺陷，而是它们最强大的特性。它将变幻莫测的机会转化为一种具有无与伦比的精确度和范围的工具，这种工具在整个科学和工程领域已变得不可或缺。

在本章中，我们将穿越这一领域。我们将看到这种“被驯服”的随机性如何让我们在计算机中构建和探索整个宇宙，它如何构成了可信赖和可验证的现代科学的基石，以及它如何被编织进我们逻辑和实验框架的结构之中。

盒子里的世界：模拟与建模

从最根本的层面来说，科学就是建立世界的模型。但当你想研究的世界受偶然性支配时，你该怎么办？想象你是一位神，但却是一位懒惰的神。你不想决定宇宙中每一次骰子的结果；你只想设定规则，然后观察会发生什么。这就是随机模拟的精髓，而伪随机数生成器（PRNG）正是驱动它的引擎。

以经济学中一个简单而深刻的例子为例：两家公司之间的研发竞赛。每个月，公司A有 $p_A$ 的小概率取得突破，公司B则有 $p_B$ 的概率。谁会赢？我们可以通过从 $0$ 到 $1$ 的均匀分布中抽取一个随机数 $U$ 来模拟这个过程。如果 $U \lt p_A$ ，公司A成功。我们用第二个独立的随机数为公司B做同样的事情。通过使用我们PRNG的确定性数字序列，月复一月地重复这个过程，我们就可以完整地演绎这场竞赛。因为序列是确定性的，我们可以精确地回放和重演这段历史，这使我们能够调试模型或测试改变概率 $p_A$ 和 $p_B$ 会如何影响结果。

这个简单的想法——使用从PRNG中抽取的数字来做一个概率性选择——可以扩展到令人惊叹的复杂系统中。在计算生物学中，研究人员构建基于代理的模型来模拟免疫系统的复杂舞蹈。数以万计的单个细胞——即代理——根据概率规则移动、结合和发信号。为确保模拟是一次忠实且可复现的实验，每个代理的每一个动作都必须获得一个对其自身及该动作而言独一无二的随机数，无论当时是数千个计算机处理器中的哪一个在处理它。解决方案不是为所有细胞设置一个单一、混乱的抽奖，而是给每个代理自己私有的、确定性的随机数流，并与其唯一身份绑定。代理在其自身的、预先确定的伪随机序列中携带其命运。

同样的原理将我们带到了基础物理学的前沿。当科学家寻找暗物质时，他们必须了解一个假设的WIMP（弱相互作用大质量粒子）信号在他们的探测器中会是什么样子。他们不能只是等着一个WIMP出现。取而代之的是，他们构建了整个过程的详细蒙特卡洛模拟。他们使用PRNG来抽样WIMP可能沉积的能量，模拟探测器对该能量的概率响应，并对随后的物理事件级联进行建模。通过运行数百万次这样的模拟历史，他们构建出WIMP信号的图像，这是一个可以用来与真实数据进行比较的模板。这不仅仅是一个卡通化的描述；这是一个使用马尔可夫链蒙特卡洛等复杂技术进行的严谨模拟，所有这些都由PRNG的可预测进程驱动。这种对概率事件链进行建模的能力在金融等领域也至关重要，在这些领域，资产价格可能由随机微分方程描述，其行为可以通过蒙特卡洛路径来探索。

生成式模拟的力量不仅限于模仿物理现实。我们还可以用它来探索抽象的逻辑结构。通过定义一个简单的语法——一种语言的规则——我们可以使用PRNG来随机生成句子。在每个存在选择的步骤（例如，“选择一个名词”），我们使用一个伪随机数根据指定的概率来挑选一个。这展示了受控随机性的创造性、建构性力量，这一原则在从生成艺术到视频游戏中的程序化内容生成等领域都有回响。

现代科学的基石：可复现性与验证

在我们用模拟构建的世界里，伪随机性的确定性是出于方便和控制的需要。而在现实科学发现的世界里，它关乎诚信。科学方法的核心原则是结果必须是可验证的。如果另一位科学家无法复现你的实验，你的发现就处于悬而未决的状态。在计算科学时代，“实验”是在强大计算机上运行的复杂软件流程，这意味着要实现计算可复现性。

想象一个临床药理学团队正在开发一种新药。他们使用一种复杂的算法，如随机近似期望最大化（SAEM）算法，来模拟药物在人群中的行为。一位合作者试图重新运行他们的分析，但得到了略有不同的数字。是模型错了吗？是合作者犯了错吗？还是这种差异只是无意义的噪音？没有完美的可复现性，就不可能知道答案。问题在于，现代软件是组件令人眼花缭乱的堆栈——操作系统、编译器、数值库——而模拟本身也涉及随机步骤。

解决方案是认识到，一个计算结果是其所有输入的确定性函数：数据、模型代码、算法设置、软件环境，以及至关重要的，随机数序列。可复现性的关键是控制或记录所有这些输入。这正是伪随机性大放异彩的地方。通过固定PRNG算法及其初始种子，我们可以使计算的整个随机部分变得完全确定。

这一要求引发了科学最佳实践的一场革命。对于像使用自助法（bootstrapping）计算置信区间的神经科学研究或指导数十亿美元基础设施投资的能源系统模型这样的高风险分析，一个“黄金标准”工作流程已经出现。该工作流程包括：

控制随机性：使用现代的、并行安全的PRNG，它们可以为每个并行进程提供独立的、确定性的“子流”，确保结果不会因为处理器数量的改变而改变。从逻辑任务到其随机数的映射必须独立于处理器调度。
为所有内容提供版本控制：使用版本控制系统（如Git）来锁定分析代码的确切版本，并通过一个不可变的密码学哈希来识别。
捕获数据：记录输入数据的确切版本，通常通过存储其密码学校验和来实现。
容器化环境：将整个软件栈——操作系统、库和分析软件——打包到一个“容器”（如Docker或Singularity）中，该容器可以在任何机器上运行，从而保证环境完全相同。

通过创建一个记录所有这些组件的详细清单，分析就变成了一个完全指定、确定性的配方。复现结果就像重新运行这个配方一样简单。这使得科学研究变得可追溯、可审计和可信。

机会的语言：将随机性融入逻辑

旅程并未在模拟和可复现性这里结束。随着我们将伪随机性整合到我们科学工具和方法的逻辑本身中，其最深刻的应用正在涌现。

考虑为概率模型编写软件的挑战。从历史上看，这是一个临时的过程。但如果编程语言本身能理解随机性呢？这就是概率编程背后的思想。这类语言的编译器现在被设计为将随机抽取视为一种一等（first-class）效应，就像两个数相加或写入内存一样。编译器的分析阶段会识别代码中每一个抽取随机数的位置，并理解其逻辑上下文（例如，“这是第3个时间步中第5个粒子的抽取”）。然后，合成阶段会自动插入机制，为该确切上下文生成一个唯一的、确定性的、独立的随机数。随机性不再是一个混乱的副作用，而是程序逻辑状态的一个纯粹的、引用透明的函数。这使得编译器可以大胆地优化和并行化代码，而不必担心破坏底层的概率语义。

也许设计与分析最优雅的融合来自临床试验领域。测试一种新医疗疗法的“黄金标准”是随机对照试验。但如果纯粹由于偶然，随机分配把所有病情最重的病人都分到了治疗组怎么办？这可能会使结果产生偏差。为了防止这种情况，统计学家们发展出了像“约束随机化”这样的技术。在这里，他们生成数千个可能的随机分配方案，并且只接受那些在组间平衡方面满足某些预设标准（例如，两组的平均年龄相似）的方案。

其美妙之处在于分析。基于随机化的推断的基本原则是，分析必须反映设计。为了得到一个p值——即在治疗无效的情况下，观察到与你所观察到的结果一样极端或更极端的结果的概率——你必须将你的结果与你实际使用的随机化程序所生成的参考分布进行比较，而不是与一个标准的统计分布比较。多亏了伪随机化，你可以做到这一点。你可以重新运行你的约束随机化程序数千次，对于每一个有效的分配方案，你都可以计算出你本会看到的检验统计量。这就创建了真实的、基于设计的参考分布，为你的发现提供了严谨而诚实的评估。在这里，PRNG不仅仅是模拟的工具；它是实验和推断逻辑的一个基本组成部分。

最后的思考

从简单的数字硬币投掷到编译器的逻辑基础，伪随机性是一条连接了众多学科的线索。它的力量并非来自真正的随机，而是来自完全的可预测性。它给了我们一个控制机会的杠杆，让我们能够重放它、构造它，并用它来创造。它让我们能够构建复杂的模拟世界，确保我们的计算科学建立在坚如磐石的信任基础上，并设计出更稳健的实验和更诚实的分析。事实证明，这种“假的”随机性，是我们拥有的发现真实真理最强大的工具之一。