上界筛法

玻尔百科

核心要点

塞尔伯格筛法通过用一个恒为非负的权重平方和代替一个复杂的计数函数，提供了一个强大的上界。
该方法将一个计数难题转化为一个优化问题，即通过调整筛权重来寻求一个二次型的最小值。
一个称为“奇偶性问题”的根本性限制，使得筛法无法区分拥有奇数个素因子与偶数个素因子的数。
尽管存在局限，该筛法与解析工具相结合，成功证明了殆素数的存在性，这对于像陈氏定理这样的里程碑式结果至关重要。

引言

探寻素数的计数是数学中最古老的问题之一。虽然古老的埃拉托斯特尼筛法提供了一种寻找素数的方法，但其直接的计数对应物——容斥原理，很快就变得异常复杂。这就产生了一个知识鸿沟：我们如何才能准确估计在筛法过程中幸存下来的整数数量，而又不陷入指数级数量的计算泥潭？本文将探讨一个对该问题强有力且优雅的回答：上界筛法。我们将追随 Atle Selberg 的开创性思想，他彻底革新了这一领域。第一章原理与机制将揭示利用平方和来创造一个易于计算的上界的简单而绝妙的技巧，并展示这如何将一个计数问题转变为优化问题。接下来，关于应用与跨学科联系的章节将展示筛法的深远影响，从证明“殆素数”的存在，到其在解决传奇猜想中的作用，以及它与深刻的“奇偶性问题”的最终对决。

原理与机制

想象你是一位探矿者，但你寻找的不是黄金，而是素数。你的领地是一片广阔的整数区域，比如说从 1 到某个巨大的数 $X$ 。这些整数中的大多数都不是素数；它们是合数，充满了像 2、3、5 等因子。你如何才能找到素数呢？

古老的方法，即埃拉托斯特尼筛法，给了我们线索。你从所有数字开始。首先，你划掉所有 2 的倍数（除了 2 本身）。然后，划掉所有 3 的倍数。再然后是所有 5 的倍数。你系统地筛掉合数，剩下的就是素数。这听起来足够简单。但如果我们想计算在 $X$ 以下还剩下多少素数，而不必将它们全部列出呢？

我们可以尝试更形式化的方法。不被 2、3 或 5 整除的整数数量是总数，减去能被 2 整除的，减去能被 3 整除的，减去能被 5 整除的。但等等，这样就多减去了能被 $2 \times 3 = 6$ 、 $2 \times 5 = 10$ 和 $3 \times 5 = 15$ 整除的数，所以我们必须把它们加回来。但现在对于能被 $2 \times 3 \times 5 = 30$ 整除的数，我们又调整过度了，所以我们必须再次减去它们……这就是容斥原理。它很精确，但却是一场噩梦。随着我们加入更多的筛素数，需要加减的项数呈指数级爆炸。计算变成了一个怪物。一个世纪以来，这个问题似乎都难以解决。然后，在 1940 年代，Atle Selberg 提出了一个极其简单而强大的想法。

Selberg 惊人简单的想法：平方的力量

Selberg 的洞见在于停止追求完美。他没有去计算幸存者的确切数量，而是问道：“我们能找到一个可靠的上界吗？”我们能否找到一个简单的函数，它至少和我们所寻求的数字数量一样大，并且计算起来容易得多？

技巧如下。假设我们正在筛掉能被小于某个数 $z$ 的任何素数 $p$ 整除的数。我们将所有这些筛素数的乘积表示为 $P(z) = \prod_{p<z} p$ 。我们想计算我们集合 $\mathcal{A}$ 中与 $P(z)$ 互素的数 $a$ 的数量，即 $(a, P(z)) = 1$ 。

我们可以用一个指示函数 $1_{(a, P(z))=1}$ 来表示这个“互素条件”，如果条件为真，则其值为 1，否则为 0。我们想要的总数就是 $\sum_{a \in \mathcal{A}} 1_{(a, P(z))=1}$ 。Selberg 建议用一个简单而巧妙的替代品来替换这个复杂的指示函数。他为每个无平方因子数 $d$ （其素因子都小于 $z$ ）引入了一组实数，即我们的“筛权重” $\lambda_d$ 。这些权重是我们用来调整的旋钮。我们稍后会讨论如何调整它们，但首先，他施加了一个简单的条件：我们必须设置 $\lambda_1 = 1$ 。

现在，考虑对于任何数 $a$ 的以下表达式： $\left( \sum_{d | (a, P(z))} \lambda_d \right)^2$

让我们看看这个表达式在两种可能情况下的取值：

数 $a$ 在筛法中幸存： 如果 $(a, P(z)) = 1$ ，那么 $a$ 和 $P(z)$ 共享的唯一因子 $d$ 就是 $d=1$ 。括号内的和简化为单项： $\lambda_1$ 。因为我们巧妙地设置了 $\lambda_1 = 1$ ，整个表达式就是 $1^2 = 1$ 。在这种情况下，我们的表达式完美匹配指示函数 $1_{(a, P(z))=1}$ 。
数 $a$ 被筛掉： 如果 $(a, P(z)) > 1$ ，那么指示函数 $1_{(a, P(z))=1}$ 为 0。我们的表达式是什么呢？和 $\sum_{d | (a, P(z))} \lambda_d$ 是某个实数。任何实数的平方要么是正数，要么是零。它永远不可能是负数。所以，我们有 $0 \le (\text{某个数})^2$ 。

这就是天才之举。对于任何整数 $a$ ，我们都有这个美妙的不等式： $1_{(a, P(z))=1} \le \left( \sum_{d | (a, P(z))} \lambda_d \right)^2$ 我们找到了我们的简单替代品！它永远是一个有效的上界，而我们是通过用一个平方的简单、保证非负的结构，替换了剧烈振荡的莫比乌斯函数，从而实现了这一点。

调旋钮：从不等式到优化

这个不等式对每一个数 $a$ 都成立。所以，我们可以对整个集合 $\mathcal{A}$ 求和，得到我们总数的上界： $|S(\mathcal{A}, \mathcal{P}, z)| = \sum_{a \in \mathcal{A}} 1_{(a, P(z))=1} \le \sum_{a \in \mathcal{A}} \left( \sum_{d | (a, P(z))} \lambda_d \right)^2$ 右边给了我们一个上界，但它的值取决于我们对权重 $\lambda_d$ 的选择。因为我们想要最好（即最小）的上界，我们的任务现在很明确：我们必须选择权重 $\lambda_d$ 来最小化这个和的值。我们已经将一个计数问题转化为了一个优化问题！

让我们看看我们要最小化的是什么。通过展开平方并交换求和顺序——这是数学家工具箱中的一个标准技巧——右边变成了一个关于我们的权重 $\lambda_d$ 的“二次型”： $Q(\lambda) = \sum_{d_1 | P(z)} \sum_{d_2 | P(z)} \lambda_{d_1} \lambda_{d_2} |\mathcal{A}_{[d_1, d_2]}|$ 这里， $|\mathcal{A}_k|$ 代表我们集合 $\mathcal{A}$ 中能被 $k$ 整除的元素数量，而 $[d_1, d_2]$ 是 $d_1$ 和 $d_2$ 的最小公倍数。为了得到最好的筛法界，我们需要找到使这个二次表达式 $Q(\lambda)$ 尽可能小的 $\lambda_d$ 值（在 $\lambda_1=1$ 的条件下）。

筛法的“物理学”：一个宇宙模型

为了最小化 $Q(\lambda)$ ，我们需要知道许多不同 $k$ 对应的 $|\mathcal{A}_k|$ 的值。精确计算这些值仍然可能很困难。所以，我们做一个近似——我们为我们的集合 $\mathcal{A}$ 创建一个简单的“模型”。

我们假设能被 $d$ 整除的元素数量可以用一个简单的规则来近似： $|\mathcal{A}_d| \approx X \, g(d)$ 这里， $X$ 是我们集合 $\mathcal{A}$ 的总大小，而 $g(d)$ 是一个“密度函数”，表示能被 $d$ 整除的数的比例。对于许多自然集合，这个函数 $g(d)$ 是积性的，意味着当 $m$ 和 $n$ 互素时， $g(mn) = g(m)g(n)$ 。这反映了一个直观的想法：能被 2 整除和能被 3 整除是“独立事件”。典型的例子是筛集合 $\mathcal{A}=\{1, 2, \dots, N\}$ 。这里，我们可以取 $X=N$ ，而能被 $d$ 整除的数的密度就是 $g(d) = 1/d$ 。

当然，我们的模型并不完美。真实的计数 $|\mathcal{A}_d|$ 会与模型的预测 $Xg(d)$ 有所不同。我们称这个差异为误差项，或余项： $|\mathcal{A}_d| = X g(d) + R_d$ 将此代入我们的二次型 $Q(\lambda)$ ，会将其分为两部分： $Q(\lambda) = X \underbrace{\left( \sum_{d_1, d_2} \lambda_{d_1} \lambda_{d_2} g([d_1, d_2]) \right)}_{Q_g(\lambda)} + \underbrace{\left( \sum_{d_1, d_2} \lambda_{d_1} \lambda_{d_2} R_{[d_1, d_2]} \right)}_{Q_R(\lambda)}$ 我们有一个与 $X$ 成正比、由我们优美的模型 $g(d)$ 驱动的清晰的“主项”，以及一个汇集了所有误差的杂乱的“余项”。塞尔伯格筛法的大策略是选择我们的参数，使得总余项与主项相比很小。这要求我们的模型“在平均意义上”是准确的，这是一个技术条件，被称为具有足够大的分布水平。如果我们能控制误差，我们的主要任务就简化为最小化清晰的二次型 $Q_g(\lambda)$ 。

解谜：一个具体例子

最小化 $Q_g(\lambda)$ 可能仍然显得抽象。让我们用一个小例子使其具体化。假设我们要筛去直到 $X$ 的整数（为简单起见，设 $X$ 是 6 的倍数），只使用素数 2 和 3。所以 $z=4$ 且 $P(z) = 2 \times 3 = 6$ 。因子是 $d \in \{1, 2, 3, 6\}$ 。我们的模型是 $|\mathcal{A}_d| = X/d$ 。我们需要最小化： $Q(\lambda) = X \sum_{d_1, d_2 | 6} \frac{\lambda_{d_1} \lambda_{d_2}}{[d_1, d_2]}$ 约束条件是 $\lambda_1=1$ 。这是一个微积分问题：在一个约束条件下最小化一个多变量函数（ $\lambda_2, \lambda_3, \lambda_6$ ）。通过一个漂亮的变量代换（一种对角化），最小化问题变得简单得多。对于这个特例，可以计算出最优的权重。当我们代入这些最优权重时，我们发现二次型的最小值给出了一个上界。对于我们的集合 $\mathcal{A}=\{1, ..., X\}$ ，与 6 互素的元素数量大约是 $\phi(6)/6 \times X = (1/3)X$ 。事实证明，在这种简单情况下，塞尔伯格筛法给出的上界恰好是 $X/3$ ，与真实密度相符。但这是一种特殊情况；通常，该方法提供的是一个严格的上界，而非精确值。

这说明了一个普遍原理。二次型的最小化是一个线性代数中定义明确的问题，并且有唯一解。由此产生的最优权重 $\lambda_d^\star$ 并非随机。它们具有明确的结构：它们的大小倾向于在 $d$ 较小时最大，并随着 $d$ 的增大而衰减。这种衰减的速度与我们的密度函数 $g(d)$ 的性质密切相关，由一个称为筛维度的单一数字所捕捉。

天才的极限：奇偶性问题

我们建立了一个强大而优雅的机器。通过找到最优权重，塞尔伯格筛法给出的上界被证明优于像布朗筛法这样更朴素的方法。但它到底有多强大？例如，它能分离出素数吗？

在这里，我们遇到了一个深刻而根本的障碍，称为奇偶性问题。塞尔伯格筛法力量的源泉也正是其最大局限的源泉。该方法建立在不等式 $1_{(a, P(z))=1} \le (\sum \dots)^2$ 之上。右边是一个平方；它总是非负的。

考虑两个可能在我们的筛法中幸存的数（即它们没有小的素因子）：一个大素数 $p$ 和一个数 $p_1 p_2$ ，它是两个大素数的乘积。素数有一个素因子（ $\Omega(p)=1$ ，奇数）。半素数有两个（ $\Omega(p_1 p_2)=2$ ，偶数）。我们的筛法能区分它们吗？

不能。因为筛函数是非负的，它为任何幸存下来的数赋予一个正的“分数”。它无法产生那种精巧的抵消，来区分拥有奇数个素因子的数和拥有偶数个素因子的数。它对素因子数量的奇偶性是“盲”的。最初的容斥原理，使用莫比乌斯函数 $\mu(d)=(-1)^{\omega(d)}$ ，在其交替的符号中确实包含了这种奇偶性信息。但塞尔伯格的方法，在用一个可处理的优化问题取代一个棘手的求和时，不可逆转地抛弃了那个符号。

这就是奇偶性问题。仅使用我们密度模型 $g(d)$ 中可用的那种“局部”信息，像塞尔伯格筛法这样的筛法方法，本身无法证明素数的存在。它们可以证明“殆素数”的存在——那些素因子数量有界且很少的数（如陈氏定理，证明了每个大偶数是一个素数与一个至多有两个素因子的殆素数之和）。但要打破奇偶性壁垒并分离出素数本身，则需要全新类型的信息，这远远超出了上界筛法这个美丽而自足的世界。

应用与跨学科联系

在我们迄今的旅程中，我们已经窥探了筛法的内部，理解了其逻辑齿轮和嵌齿。我们已将其视为一台由容斥原理构建、经提炼和优化而成的、具有惊人力量的优雅机器。但一台机器的好坏取决于它能建造什么。现在，我们将看到这台特殊的机器建造了哪些奇迹。我们将开始一次对其应用的巡礼，这次巡礼将我们从简单的计数练习带到数学研究的最前沿，在那里，筛法是攻击一些最古老、最深刻的数论问题的主要武器。

筛法的触及范围：我们能捕捉什么？

筛法，其核心是捕捉数字的工具。就像任何猎人的网一样，其有效性取决于其网眼的大小。我们筛法中的“网眼大小”是参数 $z$ ，即我们筛掉所有素因子的阈值。我们“捕捉”到的是没有小于 $z$ 的素因子的数。一个简单而深刻的问题是：通过调整我们的网眼，我们可以可靠地捕捉到哪种猎物？

想象一下，我们正在筛选所有直到一个大数 $x$ 的整数。一个优美而初等的观察是，如果我们选择筛分极限 $z$ 大于 $\sqrt{x}$ ，那么任何合数都不可能通过筛网。为什么？因为任何合数 $n \le x$ 必然至少有一个素因子小于或等于 $\sqrt{n}$ ，而 $\sqrt{n}$ 本身小于或等于 $\sqrt{x}$ 。由于我们的筛法移除了所有素因子小于 $z$ 的数，并且 $z \gt \sqrt{x}$ ，所以每一个合数都被筛掉了。唯一的幸存者是数字 $1$ 和那些大于 $z$ 的素数本身。我们以一种优雅的方式，分离出了素数！

这个原理可以推广。假设我们想找的数不一定是素数，而是“殆素数”——即至多有一定数量素因子的数。一个至多有 $r$ 个素因子的整数被称为 $P_r$ 数。我们可以通过调整 $z$ 来寻找这些数。如果我们把筛分极限 $z$ 设置为大于 $x^{1/(r+1)}$ ，那么任何在筛法中幸存下来的数 $n \le x$ 都不能有超过 $r$ 个素因子。如果它有，那它将是至少 $r+1$ 个素数的乘积，每个素数都大于 $z$ ，使得 $n \gt z^{r+1} \gt (x^{1/(r+1)})^{r+1} = x$ ，这是一个矛盾。因此，通过巧妙地选择 $z$ ，我们可以保证我们的捕获物完全由 $P_r$ 数组成。。这种计算“殆素数”的能力不仅仅是一种好奇心；它是筛法许多最著名成功中的核心策略。使用一种更精炼的塞尔伯格筛法（称为 beta-筛法），可以获得区间内 $P_r$ 数数量的一个非常精确的上界，这个结果优美地展示了这些方法的定量威力。

超越整数：在代数景观中筛选

筛法的灵活性是其最显著的特征之一。它不局限于筛选简单的整数序列 $1, 2, 3, \dots, x$ 。我们可以将其应用于更奇特的序列，比如由多项式生成的值。例如，考虑那个著名且未解的问题：是否存在无穷多个形如 $n^2+1$ 的素数。虽然我们无法证明这一点，但筛法允许我们问一个相关的问题：对于 $1 \le n \le x$ ，有多少形如 $n^2+1$ 的数没有小的素因子？

要做到这一点，我们只需调整筛法的逻辑。我们不再问“ $n$ 是否能被素数 $p$ 整除？”，而是问“ $f(n)=n^2+1$ 是否能被 $p$ 整除？”这等价于同余式 $n^2+1 \equiv 0 \pmod{p}$ ，或 $n^2 \equiv -1 \pmod{p}$ 。对于一个给定的素数 $p$ ，这个同余式的解的个数，我们称之为 $\rho_f(p)$ ，告诉我们模 $p$ 有多少个剩余类是“坏的”。这个值 $\rho_f(p)$ 简单地替换了标准筛法机器中的默认值 1。然后整个塞尔伯格筛法就可以用这些新的局部密度来运行，将一个数论问题与多项式同余的代数理论联系起来。这个强大的思想适用于任何不可约多项式，表明筛法是解析世界和代数世界之间的一座桥梁。

巨大的障碍：奇偶性问题

拥有如此强大的力量，似乎数论中那些伟大的未解问题，如孪生素数猜想或哥德巴赫猜想，应该很容易被解决。为了攻击孪生素数猜想（该猜想陈述存在无穷多对素数 $(p, p+2)$ ），我们可以尝试筛选移位素数序列 $\mathcal{A} = \{p+2 : p \le x\}$ 。为了攻击哥德巴赫猜想（即每个偶数 $N$ 都是两个素数的和），我们可以筛选序列 $\mathcal{A} = \{N-p : p \le x\}$ 。如果我们能证明这些序列中有正数数量的元素在筛法中幸存并且本身是素数，那么这些猜想就将被证明。

将筛法应用于这些序列本身就是一个引人入胜的挑战。底层的集合不再是所有整数，而是稀疏且具有算术结构的素数集合。这改变了基本的密度；一个随机素数满足同余式的概率与一个随机整数不同。例如，素数在模 $p$ 的一个剩余类中的密度大约是 $1/(p-1)$ ，而不是 $1/p$ 。

但即使在这些调整之后，一个巨大而美丽的障碍出现了：奇偶性问题。一个建立在容斥原理之上、通过追踪被不同素数整除的情况来工作的筛法，从根本上对一个幸存数有多少个素因子是“盲”的。它无法区分一个有一个素因子的数（素数）和一个有三个或五个素因子的数。同样，它也无法区分一个有两个素因子的数和一个有四个素因子的数。一个标准的筛法所能做的最好的事情，就是为孪生素数或哥德巴赫配对的数量提供一个上界。它本身永远无法得出一个正的下界，因为就筛法所知，每一个幸存者都可能有偶数个素因子，而不是我们正在寻找的一个素因子。这不是我们当前技术的失败；这是组合方法本身的一个根本限制。

筛法的盟友：一个解析定理联盟

筛法并非孤军奋战。筛法的成功应用，尤其是在解决深层问题时，需要筛法的组合机制与解析数论的重武器之间进行合作。筛法本身提供了估计的主项——幸存者的期望数量。但总有一个余项，一个“噪声”基底，它解释了数并非完美随机分布的事实。为了使筛法的结果有意义，这个总误差必须小于主项。

这时，关于素数分布的深刻定理就发挥了作用。现代筛法理论最重要的盟友是邦别里-维诺格拉多夫定理。本质上，该定理告诉我们，虽然素数在任何单个算术级数中的分布可能是杂乱无章的，但它们在许多不同级数间的平均分布是极其规则的。它保证了筛法中的误差项在求和后足够小，以使主项占主导地位。该定理给了我们一个 $\theta = 1/2$ 的“分布水平”，基本上告诉我们，对于模数大约到 $\sqrt{x}$ 的情况，我们可以信任我们的概率模型，这是一个极其强大的信息。邦别里-维诺格拉多夫定理本身是另一个深层工具——大筛法不等式——的推论，揭示了一个美丽而相互关联的思想网络。对于超出此平均结果范围的特定模数，需要其他工具，如布朗-蒂奇马什不等式——其本身也是筛法理论的产物——来控制误差。

智胜奇偶性：陈氏定理的天才之处

如果奇偶性问题是一堵无法逾越的墙，那么中国数学家陈景润是如何在 1973 年证明每个足够大的偶数 $N$ 都是一个素数和一个 $P_2$ （一个至多有两个素因子的数）之和的呢？他没有打破这堵墙；他找到了一个聪明的绕行方式。

陈景润的证明是策略的杰作，说明了数学的进步常常来自于以巧妙的方式组合不同的工具。他的方法可以看作是一种“双重筛法”。

首先，必须认识到并非所有筛法都是平等的。优雅的塞尔伯格筛法是产生精确上界的大师。但要证明存在性，需要一个下界。为此，一个不同的工具，线性筛，更为适用。线性筛虽然可能不那么优雅，但其构造方式使得在有足够解析信息（如邦别里-维诺格拉多夫定理）的情况下，可以在某些情况下保证幸存者数量有一个正的下界。

陈景润的策略是结合这两种优势：

他首先使用一个下界筛法，证明了存在大量正数的素数 $p$ ，使得 $N-p$ 没有小于 $N^{1/10}$ 的素因子。我们称这些 $N-p$ 值的集合为我们的“候选者”。
根据我们之前看到的逻辑，这些候选者不能有太多的素因子。它们可能是素数（ $P_1$ ）、半素数（ $P_2$ ）或三个素数的乘积（ $P_3$ ）等。奇偶性问题使我们无法知道其中有多少是素数。
陈景润的天才之处在于，他接着反过来使用一个*上界筛法*（一个加权版的塞尔伯格筛法）来计算“不受欢迎”的候选者的数量——特别是那些形如 $N-p = p_1 p_2 p_3$ 的候选者。
他能够证明这些“坏”的 $P_3$ 数的数量的上界严格小于候选者总数的下界。因此，如果你从总数中减去坏的那些，剩下的候选者数量仍然是正数。剩下的必须是“好”的：那些 $N-p$ 要么是素数，要么是半素数。因此， $N=p+P_2$ 必须有解。

这个优美的论证，在一个“减法”策略中结合了下界筛法和上界筛法，是一项里程碑式的成就，展示了如何在不直接解决奇偶性问题的情况下绕过它。

走向知识的边缘（及更远）

筛法的故事完美地说明了数学进步的方式。我们筛法的威力直接与我们的解析“盟友”的实力相关。如果那些盟友更强大呢？数论学家在埃利奥特-哈伯斯坦猜想中推测，素数的真实分布水平不是 $1/2$ ，而是 $1$ 。如果这是真的，我们控制误差项的能力将大大增强。我们可以将我们的筛法水平 $D$ 一直推到接近 $x$ 。

有了这种假设的力量，陈氏定理的证明将几乎变得微不足道。我们可以用如此精细的网眼进行筛选，以至于序列 $\{N-p\}$ 中的任何幸存数几乎都被迫成为 $P_2$ 数。

然而，这里是筛法最终的、令人谦卑的一课。即使埃利奥特-哈伯斯坦猜想明天被证明，赋予我们近乎完美的素数分布知识，奇偶性问题仍然存在。筛法的组合“色盲”是其结构所固有的。我们仍然无法仅用这些方法证明孪生素数或哥德巴赫猜想。筛法，尽管它拥有所有的力量和荣耀，却向我们精确地展示了我们当前方法的边界所在，并指明了需要全新思想才能实现下一次伟大飞跃的方向。