全程序优化

玻尔百科

定义

全程序优化是一种通过中间表示为优化器提供程序全局视图，从而克服独立编译局限性的编译器技术。该技术通过跨模块内联、虚函数消除和激进的死代码删除等核心机制，能够生成运行速度更快且体积更小的可执行文件。尽管这种全局优化可能涉及复杂的安全边界问题，但 ThinLTO 等现代技术已使其在大型项目的并行和增量构建中变得切实可行。

核心要点

全程序优化通过中间表示为优化器提供了程序的全局视图，从而克服了分別编译的局限性。
WPO 解锁的关键优化包括跨模块内联、去虚拟化和激进的死代码消除，从而生成更快、更小的可执行文件。
像 ThinLTO 这样的现代技术通过实现增量和并行优化，避免了单体构建过程，使得 WPO 在大规模项目中变得切实可行。
WPO 的强大能力可能无意中破坏安全边界，因此需要采用一种协同设计方法，让编译器能够感知到安全域等系统级概念。

引言

在软件开发的世界里，对性能的追求永无止境。当程序员设计出巧妙的算法时，一个沉默的伙伴——编译器——在将人类逻辑转化为高效机器码的过程中扮演着至关重要的角色。然而，传统上，这个伙伴一直戴着眼罩工作，在隔离的环境中优化每个源文件，无法看到全局图景。这个被称为“分別编译”的过程迫使编译器做出保守的假设，导致大量潜在的优化机会白白流失，并创造出比应有状态更慢、更大的程序。本文将探讨一种打破这些限制的革命性方法：全程序优化（Whole-Program Optimization, WPO）。

首先，在“原理与机制”部分，我们将推倒传统编译的高墙，揭示链接时优化（Link-Time Optimization, LTO）等技术如何为编译器提供上帝般、覆盖整个代码库的全局视图。我们将审视其核心机制，从通用中间表示（Intermediate Representation, IR）的使用到像 ThinLTO 这类可扩展方法的演进。随后，“应用与跨学科联系”部分将探讨这种全局视角带来的深远影响。我们将看到 WPO 不仅能实现更快、更精简的代码，还能穿透复杂的软件抽象，统一来自不同编程语言的代码，甚至在编译器和计算机安全的交叉领域创造出新的挑战与机遇。

原理与机制

为了真正领会全程序优化的精妙之处，让我们首先走进它旨在超越的世界。想象一个由杰出工程师组成的团队，他们每个人都在自己孤立的车间里，任务是建造一辆革命性的新车。一个工程师制造发动机，另一个制造变速箱，第三个制造底盘，依此类推。这就是分別编译的世界。

分別编译的世界：一个关于眼罩与蓝图的故事

在传统的软件开发过程中，编译器就像这些在隔离环境中工作的工程师之一。当你编译一个跨越多个源文件（例如 engine.c、transmission.c 和 main.c）的程序时，编译器会逐个处理每个文件。在处理 main.c 时，编译器完全不知道 engine.c 里面的代码到底是什么样的。它戴着一副眼罩，其视野一次仅限于单个翻译单元。

那么，事情是如何完成的呢？编译器依赖于承诺和蓝图。这些蓝图就是头文件（.h 文件），其中包含函数声明。一个像 int get_engine_rpm(); 这样的声明是程序其余部分作出的一个承诺：“相信我，在某个地方有一个名为 get_engine_rpm 的函数，它不接受任何参数并返回一个整数。”

由于被迫戴着眼罩工作，编译器必须极度悲观。它必须做出保守的假设，以确保最终程序能够正确工作，无论那些隐藏的代码实际上做了什么。当它看到对 get_engine_rpm() 的调用时，它必须假设最坏的情况：

也许 get_engine_rpm() 是一个庞大而缓慢的函数。编译器当然不能用函数的实际代码替换这个调用——这是一项名为内联的关键优化——因为它看不到代码。
也许 get_engine_rpm() 有副作用，比如修改全局变量或向屏幕打印信息。所以，编译器不能重排序或优化掉对它的调用。

在每个源文件被编译成本机目标文件后，一个名为链接器的独立程序便登场了。传统的链接器就像一个工头，他擅长通过匹配标签来连接电线，但对电气工程一窍不通。它接收所有的目标文件，看到 main.c 需要一个名为 get_engine_rpm 的函数，在 engine.c 中找到它，然后将它们拼接在一起。它解析符号，但并不优化代码。结果是一个可以工作的程序，但充满了错失的优化机会，这一切都是因为流程中没有任何一个部分曾看到过全局图景。

动态链接的玻璃墙

在共享库（或动态共享对象，DSO；Linux 上的 .so 文件，Windows 上的 .dll 文件）的现代世界中，情况变得更加复杂。你可能不会自己制造引擎，而是从供应商那里购买一个预制的。这就是动态链接。你的主程序在编译时就知道，在运行时，操作系统的动态链接器将加载必要的库并连接各个部分。

这为优化器制造了一道几乎无法穿透的玻璃墙，这道墙由库的应用程序编程接口（API）所定义。问题不仅在于编译器在编译时看不到库的代码；更在于它可能看到的code可能不是实际运行的code。

这归因于动态链接器一个强大且有时危险的特性，称为符号介入。在许多系统上，你可以告诉动态链接器在所有其他库之前加载你自己的特殊库（例如，在 Linux 上使用 [LD_PRELOAD](/sciencepedia/feynman/keyword/ld_preload)）。如果你的特殊库包含一个与标准库中函数同名的函数——比如 get_engine_rpm——动态链接器将为整个程序使用你的版本！

这意味着编译器不能相信库函数应该返回的任何“常量”值。想象一个库 libconfig.so 有一个函数 get_version()，它应该返回整数 3。如果你的编译器在你主程序中将对 get_version() 的调用替换为常量值 3，用户稍后可以用一个返回 4 的新版本来介入该函数，而你“优化过”的程序现在就会行为不正确。由于介入的存在，动态链接库的 API 是一条硬边界。编译器必须假设任何跨越它的函数或数据都是未知的，并且可能改变。

为了使这种动态连接成为可能，编译器会生成位置无关代码（PIC），它使用诸如全局偏移表（GOT）和过程链接表（PLT）之类的机制。你可以将 GOT 看作一本地址“电话簿”，将 PLT 看作一个“总机”，它查找号码并接通电话。这种间接性允许代码无论加载到内存的哪个位置都能运行，但它为每次外部函数调用和数据访问都增加了一点性能成本。

推倒高墙：全局视图的力量

如果我们能给编译器一个上帝般的、覆盖整个程序的视图，就在最终代码生成之前，会怎么样？这就是全程序优化（WPO）背后的革命性思想，最常见的实现是链接时优化（LTO）。

诀窍在于改变编译器的产物。编译器不再为每个源文件输出本机机器码，而是生成一种高级的、通用的蓝图，称为中间表示（IR）。然后，这个 IR 被存储在目标文件中。

在链接时，传统的“拼接工”链接器被一个远为智能的系统所取代。它从所有目标文件中收集 IR，并将它们合并成一个单一的、巨大的、代表整个程序的表示形式。这一次，眼罩被摘掉了。优化器被释放在这个完整的程序视图上，其结果是变革性的：

跨模块内联： 优化器现在可以看到在其他文件中定义的函数体。如果 main.c 中的一个函数调用了 utils.c 中的一个小辅助函数，优化器可以直接用该辅助函数的代码替换这次调用，从而消除函数调用的开销。这是 WPO 解锁的最强大的优化之一。
真正的常量传播： 如果 config.c 中的一个全局变量被初始化为一个常量值且从未被修改，优化器可以通过扫描整个程序来发现这一点。然后，它可以在整个代码库中将该变量的每次使用替换为其实际值，从而简化计算并启用进一步的优化。[@problemid:3656754]
去虚拟化： 在像 C++ 这样的面向对象语言中，对虚函数的调用通常是缓慢的间接调用。通过对整个程序的视图，优化器或许能够证明某个特定的虚调用永远只能解析为一个特定的函数。然后，它可以将缓慢的间接调用转换为快速的直接调用，甚至可能将其内联。
激进的死代码消除： 当只看一个文件时，一个函数可能看起来是有用的，但有了全局视图，优化器可能会发现，它实际上从未被最终程序的任何部分调用。WPO 可以自信地删除这些死代码，从而缩小最终可执行文件的大小。

知识上的差异是显著的。没有 WPO，编译器基于保守假设进行操作。有了 WPO，它基于全局知识进行操作。

可能性的艺术：驾驭链接与可见性

这种“上帝般的视图”并非总是绝对的。游戏规则——尤其是动态链接的玻璃墙——仍然适用。

当使用 LTO 构建共享库（如 libX.so）时，“整个程序”仅指库本身。优化器对构成 libX.so 的所有源文件有完整的视图，但它对将要使用它的最终可执行文件一无所知。因此，对于通过库的公共 API 导出的任何函数（那些具有默认可见性的函数），它仍然必须保持保守。由于符号介入的威胁，它不能在内部调用点内联这些公共函数，因为在运行时可能会换入一个不同的版本。

这时，程序员可以给编译器一个关键的提示。通过使用 static（在 C 语言中）或hidden 可见性来标记内部辅助函数，我们向编译器做出承诺：“这个函数仅供我们内部使用。它永远不会成为公共 API 的一部分，也不能被介入。”这给了优化器一张可以尽情发挥的许可证。它现在可以安全地在库内的模块边界之间内联这些内部函数，因为它知道这种绑定是最终的。

当构建静态链接的可执行文件时，情况则完全不同。在这里，所有的代码——从你的 main 函数到最深层的库实用工具——都被合并到一个单一的、自包含的文件中。没有动态链接器，也没有介入的可能性。这是一个真正的封闭世界。在这种情况下，LTO 甚至可以像对待内部函数一样对待具有 default 可见性的函数，从而在整个应用程序中实现最激进、最强大的优化。

现代 WPO：鱼与熊掌兼得

尽管传统 WPO 功能强大，但它有一个主要缺点：构建时间。一次性分析和优化整个程序可能非常缓慢。单个文件中一行的更改就可能触发对整个项目的漫长而单体的重新优化。对于大型软件来说，这通常是不可接受的。

于是，下一次进化应运而生：ThinLTO。这种巧妙的方法让我们两全其美：既获得了 WPO 的大部分好处，又拥有了增量、并行构建的速度。

ThinLTO 不采用单一、庞大而缓慢的优化步骤，而是分两个阶段工作：

摘要生成： 在正常的并行编译阶段，当每个源文件被编译成 IR 时，编译器还会为该文件生成一个微小的摘要。这个摘要列出了它包含的函数、它们调用了谁以及用于优化的关键属性（例如，“函数 bar 很小并且返回一个常量”）。
轻量级全局分析与后端调用： 在链接时，一个中央进程会快速收集并合并所有这些轻量级摘要。它扫描这个全局索引以寻找优化机会。例如，它可能会看到 A.c 中的 foo() 调用了 B.c 中的 bar()，而 bar() 的摘要表明它是一个很好的内联候选者。链接器随后会重新调用 A.c 的后端编译器，告诉它从 B.c 的目标文件中“导入” bar() 的完整 IR 并执行内联。

关键在于，这种后端工作是以一种集中的、并行的方式进行的。只有那些能从跨模块优化中受益的代码才会被重新优化，而不是整个程序。这种可扩展的方法，特别是与像 C++20 模块这样能创建更清晰依赖图的现代语言特性相结合时，使得大型项目能够在不牺牲开发者生产力的情况下从全程序优化中受益。这是一个美妙的综合体，将曾经是蛮力的全局视图思想转变为现代软件工程中一个精准、高效且不可或缺的工具。

应用与跨学科联系

在我们之前的讨论中，我们探讨了全程序优化的原理。我们视其为一种视角的转变，从狭窄的、逐文件的视图，转变为宏大的、俯瞰整个软件版图的全景。这就像单个音乐家独自练习自己的部分与指挥家听到整个管弦乐队合奏之间的区别。指挥家凭借这种全局视野，可以做出单个演奏者无法察觉的调整，将最终的演奏塑造成一个连贯而有力的整体。

现在，让我们踏上一段旅程，看看这种新视角到底带来了什么。当编译器最终被授予指挥棒时，会发生什么？其结果不仅仅是渐进式的改进；它们是变革性的，触及我们设计、构建乃至保障现代软件安全的根本方式。

显而易见的胜利：更快、更精简的代码

看到整个程序最直接的好处也许是最直观的。编译器现在可以执行一些简单的、常识性的优化，而这些优化以前被源文件之间的人为壁垒所禁止。

想象一个小的、被频繁调用的辅助函数——也许它只是简单地将一个数字乘以一个常量。在传统构建中，每当另一个文件调用这个函数时，程序都必须执行完整的函数调用仪式：保存当前状态，跳转到内存中的一个新位置，执行几条指令，然后再跳回来。对于一个简单的任务来说，这是大量的过程性开销。有了全程序视图，编译器可以简单地说：“这太傻了。”它跨越文件边界，抓取那个微小函数的主体，并将其直接粘贴到调用者的代码中，这个过程我们称之为内联。开销消失了。更妙的是，如果那个函数做的是乘以八，编译器现在可能会看到这个常量，并将乘法替换为快得多的位移操作。这就是强度削减，一个经典的技巧，现在因其新获得的全局触及能力而得到极大增强。

这种全局视图也使得编译器成为一个异常无情的整理者。现代软件通常是带着无数的配置选项和功能标志构建的。一个代码库可能被用来构建一个产品的十几个不同版本。开发者可能会在一个配置文件中设置一个标志，const bool USE_FANCY_FEATURE = false;。没有全程序优化，编译器在另一个文件中看到 if (USE_FANCY_FEATURE) 检查时，由于对其真实值一无所知，必须保守地编译那个“花哨功能”的所有代码，以防万一。最终的程序会因包含永远不会运行的代码而变得臃肿。

凭借其全局视角，链接时优化器看到了标志的定义及其用法。它知道这个条件永远为假。它不仅仅是跳过 if 块；它会外科手术般地将其移除。然后它注意到，那些仅从该块中调用的函数现在变得不可达。它也移除了它们。这个级联效应持续下去，编译器有条不紊地追踪那个单一 false 标志的后果，并剪除整个程序中每一个死分支、未使用的函数和未被引用的数据片段。结果是一个为特定配置量身定做的精简、定制的可执行文件，只包含实际需要的代码。这不仅节省了空间，还可能减少程序的潜在攻击面——我们稍后会回到这个安全效益。

更深层次的魔法：刺破抽象的面纱

当全程序优化开始推理我们代码的结构和意图时，它真正深远的应用便浮现出来。它开始刺破我们程序员为管理复杂性而创造的抽象本身。

考虑面向对象编程。我们使用抽象接口和虚函数构建了优美、灵活的系统，允许使用“插件”架构，可以换入不同的具体实现。一个媒体播放器可能有一个 IAudioDecoder 接口，并为 MP3、FLAC 和 AAC 提供独立的插件。主程序调用 decoder->play()，一个称为虚派发的机制在运行时确定要执行哪个具体的 play 方法。这很强大，但它有代价：虚调用是一个间接跳转，是处理器的一个不确定性时刻，比直接的、硬编码的调用要慢。

现在，假设你构建了一个只包含 MP3 解码器的产品版本。有了全程序视图，优化器扫描所有代码并发现一个了不起的事实：尽管代码被编写为可以处理任何解码器，但链接到这个特定程序中的唯一具体实现是 MP3Decoder。可能的运行时类型集合，我们可以称之为 $\mathcal{T}$ ，只有一个成员： $|\mathcal{T}| = 1$ 。优化器现在可以执行一次“去虚拟化”。它用一个直接、快速的调用 MP3Decoder::play() 替换了那个灵活但缓慢的间接调用。对程序员非常有用的抽象，被编译成了具体、高效的机器码。程序获得了两全其美：优雅的设计和原始的速度。

这种看透抽象的能力延伸到了优化中最困难的问题之一：指针别名。想象你有一个函数，它操作由指针 a 和 b 指向的两个数组。为了加快速度，你很想一次性处理多个元素（一种称为向量化的技术），但有个陷阱。如果 a 和 b 指向重叠的内存区域怎么办？对 a[i] 的写入可能会改变你即将从 b[i] 读取的值。这种依赖性迫使处理器顺序工作，一步一个脚印。编译器由于无法证明指针是不同的，必须保守地假设最坏的情况。

全程序优化可以扮演一个侦探大师的角色。它可以将指针 a 和 b 追溯到它们的源头，即使跨越了不同的文件。它可能会发现 a 来自一个文件中定义的全局数组 A，而 b 是来自另一个文件的全局数组 B。由于 A 和 B 是程序内存映射中的不同对象，它们不可能重叠。有了这个非别名的铁证，编译器就可以自由地 unleashing 强大的向量化优化，因为它知道这些操作是真正独立的。

同样深刻的推理能力允许出现一系列看似智能的优化链。考虑一个循环，它调用另一个模块的辅助函数来计算数组索引。该辅助函数被防御性地编写，确保它返回的索引总是在数组的安全边界内。主循环出于偏执，接收到索引后在使用前又执行了另一次边界检查。没有全局视图，这种偏执是必要的。但链接时优化器看到了整个数据流。它分析辅助函数，证明其输出 x 将永远在有效范围 $0 \leq x N$ 内，并得出结论：主循环中的第二次边界检查是多余的。它移除了这次检查。循环体的这种简化——移除了一个条件分支——往往是解锁我们刚才讨论的向量化优化的关键。

扩展的宇宙：一种统一的力量

全程序优化的影响超出了单个程序的代码库，连接到更广泛的软件开发生态系统，甚至计算机安全领域。

代码的“巴别鱼”

我们生活在一个多语言的世界。一个单一的应用程序可能由用 C、C++、Rust 和 Fortran 编写的组件构建，每种语言都因其优势而被选中。这些不同的部分如何作为一个整体进行优化？答案在于一种通用语言，不是为人类，而是为编译器准备的。像 LLVM 这样的现代编译器基础设施使用一种通用的中间表示（IR）。像 Clang（用于 C/C++）和 rustc（用于 Rust）这样的语言充当翻译器，将它们各自的源代码转换为这种共享的 LLVM IR。

全程序优化操作于此 IR 之上。它是语言无关的。这带来了一个惊人的结果：优化可以跨越语言边界。优化器可以获取一个为内存安全而定义的 Rust 函数，并将其直接内联到一个 C 函数中以提高性能。它可以将一个 C 文件中的常量传播到 Rust 函数内部以消除一个死分支。LTO 成为代码的“巴别鱼”，一个通用的优化器，使我们能够用现有最好的组件构建健壮、高性能的系统，而不管它们的母语是什么。

一把双刃剑：安全性与协同设计

能力越大，责任越大。在整个程序中移动代码的能力是一个强大的工具，但是如果程序中存在不仅仅是为了组织，而是为了安全的边界呢？

考虑一个微内核操作系统，它在非特权用户域 $d_U$ 和特权内核域 $d_K$ 之间实施严格的隔离。内核中的一个函数，我们称之为 $f_K$ ，可能包含一条执行特权操作的指令。系统的安全性依赖于这样一个事实： $f_K$ 只能在经过适当的、有门控的转换后，在内核域 $d_K$ 中执行。

现在，支持 LTO 的编译器登场了，它幸福地对这些安全域一无所知。它看到一个用户函数 $g_U$ 对内核函数 $f_K$ 的调用，并在其不懈追求性能的过程中，决定将 $f_K$ 内联到 $g_U$ 中。结果是一场安全灾难。来自内核的特权指令被逐字复制并粘贴到用户域的代码区域中。编译器在试图提供帮助时，却直接在系统的主隔离边界上打了一个洞。

从传统意义上讲，这不是一个编译器错误；这是一个深刻的语义不匹配。编译器的世界模型中不包含安全域的概念。解决方案不是放弃优化，而是丰富系统设计者与编译器之间的对话。这开辟了编译器与操作系统协同设计的新前沿，我们在这里发明方法来教编译器关于安全性的知识。通过向代码添加新的注解——例如，domain($d_K$)——我们可以告知编译器某个函数属于特定域，并且域之间的边界是代码移动优化不可侵犯的神圣屏障。

这让我们回到了原点。全程序优化将编译器从一个简单的翻译器提升为一个深度推理引擎和系统设计中的关键合作伙伴。然而，它也要求我们，作为程序员和系统架构师，更清楚地表达我们的意图。WPO 看到我们程序“全部真相”的强大能力，迫使我们确保它看到的真相不仅包括逻辑和算法，还包括支撑我们所构建的一切的抽象、安全和安保原则。指挥棒是强大的，但必须明智地挥舞。

还有一个最后的限制，一个实际的限制。分析一个数百万行代码的整个程序在计算上是昂贵的。这就是优化故事与动态链接故事相遇的地方。在一个动态链接的程序中，部分代码（共享库）直到运行时才为人所知。这种稍后可能出现新未知代码的可能性迫使优化器保持保守。例如，如果一个新插件可以在运行时加载，它就不能去虚拟化一个调用；它也不能内联一个来自共享库的函数，因为那个库可能被用户用不同版本换掉。“整个程序”不再是一个封闭世界，优化器的全知性受到了未来不可预测性的制约。这种编译时知识和运行时灵活性之间的张力是现代软件工程中最引人入胜的权衡之一。