去虚拟化技术

玻尔百科

定义

去虚拟化技术是编译器中的一种优化手段，其核心原理是将运行时解析的虚拟方法调用替换为编译时确定的直接函数调用。该技术在闭环环境中使用类层次结构分析等静态策略，或在即时编译环境中使用动态推测方法。去虚拟化技术是关键的门户优化，能够进一步触发函数内联、常量传播和死代码消除，显著提升系统性能并降低能耗。

核心要点

去虚拟化是一种编译器优化，它将昂贵的、在运行时解析的虚方法调用替换为廉价的、在编译时已知的直接函数调用。
编译器在封闭世界场景中使用静态技术（如类层次结构分析），而在开放世界环境中使用动态的、推测性的技术（如 JIT 中的守卫调用）。
去虚拟化是一种关键的“门户优化”，它能解锁更强大的转换，包括函数内联、常量传播和死代码消除。
去虚拟化不仅影响性能，还影响着操作系统的设计、软件安全策略，甚至硬件的功耗。

引言

在软件开发领域，追求代码的优雅与高效是一个持续的挑战。面向对象编程提供了强大的抽象，如多态性，使开发者能够编写灵活且可维护的代码。然而，这种灵活性也带来了性能成本，其机制称为虚分派，即要执行的确切函数只有在运行时才能确定。这种虽小但持续存在的开销在性能关键型应用中可能成为严重的瓶颈。

本文探讨了抽象与性能之间的根本性张力，深入研究了去虚拟化——一系列旨在消除虚调用开销的复杂编译器优化技术。这是编译器将运行时的不确定性转化为编译时确定性的一门艺术。在接下来的章节中，您将深入了解这一关键过程。“原理与机制”一节将剖析其核心策略，从提前编译器使用的静态分析，到即时编译器所做的动态、推测性赌注。随后，“应用与跨学科联系”一节将揭示去虚拟化不仅是一种小众优化，更是一个基础性概念，对从 Web 服务器、操作系统到软件安全和硬件效率等方方面面都具有深远影响。

原理与机制

现代面向对象编程的核心是一个优美而强大的思想：多态。它允许我们编写能够操作不同类型对象的代码，只要这些对象都遵循一个共同的接口。你可以创建一个 Shape 对象列表，当你对每个对象调用 draw() 方法时，Circle 会将自己绘制成圆形，而 Square 则会绘制成正方形。这种灵活性并非魔法，而是由一种称为动态分派的机制驱动的。

灵活性的代价：虚分派

当编译器看到像 shape.draw() 这样的调用时，它在编译时通常不知道该对象的确切类型。shape 是 Circle 还是 Square？或是其他类型？为了解开这个谜题，程序必须等到运行时。在运行时，程序会查找对象的实际类型，并找到要执行的正确 draw() 方法。这个查找过程被称为虚方法调用，或虚分派。

这就像你的手机通讯录里有一个标记为“水管工”的联系人。每次你需要水管工时，你都会查找这个条目，今天它可能指向 Bob 的号码，明天可能指向 Alice 的号码。这很灵活，但每次查找都有少量开销。在计算中，这种开销虽然微小，但当虚调用位于一个执行数十亿次的紧凑循环中时，其影响就可能变得非常显著。查找过程通常涉及至少一次指针追踪，指向一个“虚函数表”（或 vtable），这是一个与对象类关联的隐藏函数指针表。这种间接性会妨碍其他关键优化，并降低处理器速度。

这正是去虚拟化艺术的用武之地。它是编译器用廉价的直接函数调用替换昂贵、灵活的虚调用的探索过程。这就像编译器意识到你总是给水管工 Bob 打电话，于是它就直接硬编码了他的号码，为你省去了查找的步骤。这个看似简单的替换是现代编译器中至关重要的优化之一，不仅因为它节省了查找开销，更因为它能引发一系列其他优化的连锁反应。

静态侦探：在执行前证明唯一性

一个“提前”（AOT）工作的编译器如何能证明一个虚调用永远只有一个目标呢？它必须化身为一名侦探，从程序的源代码中搜集线索，以建立一个单一且无可辩驳的事实。

最直接的线索直接来自程序员。在许多语言中，类或方法可以被声明为 final（或 sealed），这是一个承诺，表示它不能被子类化或重写。如果一个虚调用的接收者静态类型是 final 类，编译器就能确定该对象的运行时类型必定是这个确切的类。案件告破，调用可以被去虚拟化。这个简单的关键字非常强大，以至于引发了一个有趣的语言设计问题：类应该默认是可扩展的（open），还是默认是 final 的？一个默认 final 的语言为编译器提供了更多的去虚拟化机会，可能带来全面的显著性能提升。

但如果类不是 final 的呢？如果编译器可以访问整个程序——这种状态被称为封闭世界假设——它就可以执行全程序分析。最简单的此类分析是类层次结构分析（CHA）。编译器会构建程序中所有类的“家谱”。对于虚调用 v.m()，它会查看 v 的静态类型（比如 S），并找出整个程序中存在的所有 S 的子类。然后，它会检查这些类中每一个对 m 的实现。如果每一个实现最终都解析到相同的方法体（也许它们都从 S 继承而未重写），那么这个调用就可以被去虚拟化。

然而，CHA 可能很天真。它考虑了所有子类，但如果有些子类从未被实际使用过呢？一种更智能的分析方法，快速类型分析（RTA），对此进行了改进。RTA 从程序的入口点（main 函数）开始，追踪代码以确定哪些类被实际实例化。它构建了一个“存活”类的集合。然后，虚调用的可能目标集会被过滤，只包括来自这些存活类的实现。如果一个类 C 实现了一个接口，但在任何可达的代码路径中从未被实例化，RTA 会正确地断定 C 的方法不可能是目标，从而精简了可能性，增加了找到单一目标的几率。

我们还可以做到更精确。CHA 和 RTA 都是“流不敏感”的；它们确定了一个全局的可能类型集，但并不追踪哪些特定类型可以流向某个特定变量。指针分析是一种更强大、流敏感的技术。对于每个变量，它试图确定其可能指向的对象集合，这些对象来自于哪些分配点（new C()）。这就像不仅知道镇上所有的水管工，而且知道你手机里的“水管工”联系人只可能被设置为 Bob 或 Alice，因为你只给他们两人打过电话。这种细粒度的追踪通常比 CHA 或 RTA 更精确。然而，其精度依赖于其他分析，如别名分析。如果编译器出错，认为两个变量可能指向同一个对象而实际上它们不能，它就可能不得不合并它们的可能类型集，这可能会使目标集变大，从而导致去虚拟化失败。

这些静态技术非常强大，但它们本质上是保守的。它们必须 100% 正确。此外，它们通常依赖于“封闭世界”，而动态类加载或本地代码等特性会破坏这一假设，因为这些特性可以在运行时引入新的、未见过的类型。

动态赌徒：即时优化

“即时”（JIT）编译器与程序一同运行，它采用了一种不同且更具冒险精神的方法。它是一个动态的赌徒。它观察程序的运行情况，并对未来的行为做出乐观的赌注。

JIT 去虚拟化的核心理念是：“假设常见情况，并准备好备用计划。”这被称为推测性去虚拟化。JIT 会对一个虚调用点进行分析，观察实际出现的类型。如果它发现 99% 的情况下接收者是 Circle，它就会生成一个该代码的特化版本。这个版本以一个快速的守卫开始：一个检查，内容是“接收者的类型是 Circle 吗？”。如果检查通过，它就执行对 Circle.draw() 的直接调用。如果守卫失败，它会触发去优化，这是一个非凡的过程，JIT 会优雅地将执行从特化的快速路径转移到一个通用的慢速路径，该路径可以处理任何类型。这种方法在许多“提前”（AOT）编译环境中是不可能的，尤其是在硬实时系统中，因为这类运行时检查和旁路出口是被禁止的。

为了管理多个常见类型，JIT 编译器会构建一个多态内联缓存（PIC）。PIC 本质上是一系列守卫。它根据“预热”阶段的类型反馈，为最常见的类型安排检查顺序。例如，如果一个调用点 60% 的时间看到类型 A，30% 的时间看到类型 B，PIC 将生成如下代码：

类型是 A 吗？如果是，直接调用 A.m()。
类型是 B 吗？如果是，直接调用 B.m()。
如果都不是，则回退到完整的虚分派。

这种策略将一个高概率的虚调用转换成一系列廉价的检查和一个直接调用。预期的加速效果可以通过权衡缓存“命中”的成本与“未命中”的成本来精确计算。预期的节省时间 $\Delta T$ 是基准虚调用成本 $C_v$ 与优化版本预期成本之间的差值，后者根据其概率对快速路径（命中）和慢速路径（未命中）的成本进行平均。

JIT 编译器可以更加聪明。如果一个虚调用位于循环内部，并且接收者对象在循环执行期间不发生改变，那么在每次迭代中都检查其类型就是一种浪费。相反，JIT 可以执行守卫提升。它将类型检查移到循环开始之前。如果检查通过，程序将进入一个特化版本的循环，其中调用已经被去虚拟化。对于一个运行 $t$ 次的循环，其收益 $B(t)$ 是用直接调用替换虚调用所节省的总时间，减去提升后守卫的一次性成本： $B(t) = t(c_v - c_d) - c_g$ ，其中 $c_v$ 和 $c_d$ 分别是虚调用和直接调用的成本，而 $c_g$ 是守卫的成本。只要循环运行的次数足以覆盖初始的守卫成本，这个优化就是值得的。

宏大级联：去虚拟化的真正力量

在函数调用上节省几纳秒固然不错，但去虚拟化的真正价值在于它是一种门户优化。它能解锁一系列此前不可能实现的、甚至更强大的转换。

其中最重要的是函数内联。编译器无法内联虚调用，因为它不知道要复制哪个函数体。但一旦调用被去虚拟化为直接调用，目标就已知了。编译器随后可以用目标函数本身的主体替换该调用。

一旦函数被内联，其代码就会暴露在其调用者的上下文中，从而可能发生一连串的简化。想象一个场景：客户端调用一个对象上的虚方法，该对象恰好是 A 类型。A 类中的方法 m_A 包含一个对有副作用的过程 S() 的条件调用，该调用基于一个全局调试标志 D，而 D 在编译时已知为 0。另一个类 B 有一个方法 m_B，它总是调用 S()。在没有去虚拟化和内联的情况下，编译器必须假设 m_A 和 m_B 都可能被调用，因此 S() 肯定是可以到达的。

但通过更激进的优化流水线，会发生一个漂亮的简化过程。编译器可能首先将客户端函数内联到其调用者 top 中，在 top 中已知对象是 new A()。这一信息使得常量传播能够证明类型测试总是为真，从而使针对类型 B 的分支成为死代码。在内联的 m_A 代码内部，编译器看到条件 if (D) 变成了 if (0)，这使得该分支也成为死代码。突然之间，对过程 S() 的每一次调用都被证明是不可达的！全局死代码消除随后不仅可以移除所有对 S() 的引用，还可以从最终程序中移除整个 S() 过程，甚至包括未使用的类 B。

这种级联效应是深远的。去虚拟化可以消除边界检查这一常见的开销来源。考虑一个客户端，它对一个已知为 Small 类型的集合中的元素求和，该类型具有固定的长度 4。集合上的 get(i) 方法会执行边界检查。通过去虚拟化，编译器发现虚 len() 调用返回一个常量 4。常量传播将这个值送入循环边界，然后范围分析证明循环索引 i 将始终在范围 $[0, 3]$ 内。这个证明恰好是表明 get() 方法内部的边界检查是多余的所需要的，因此它可以被完全消除。一个虚调用阻碍了证明一个基本安全属性的道路，而去虚拟化则一脚踹开了这扇门。

现代优雅：再探静态与动态多态

静态性能与动态灵活性之间的张力与编程本身一样古老。现代语言从数十年的编译器研究中汲取了经验，通常提供优雅的工具来管理这种权衡。

像 C++ 和 Rust 这样的语言提供了泛型，这是一种静态多态的形式。当你编写一个泛型函数时，你实际上是在创建一个模板。编译器使用一个称为单态化的过程，为每个使用它的具体类型生成该函数的特化、非虚版本。如果你有一个操作实现了 Foo 的 T 的泛型函数，并用 Circle 和 Square 来调用它，编译器会创建两个独立的函数，一个用于 Circle，一个用于 Square。这些特化函数内部的所有方法调用都是直接的静态调用。没有虚函数表，没有运行时查找，也没有性能开销。这是一种真正的“零成本抽象”。

但是，如果你确实需要运行时灵活性，比如一个同时包含 Circle 和 Square 的异构列表呢？为此，Rust 提供了 trait 对象（dyn Foo）。trait 对象是动态分派的体现，它使用一个胖指针（一个数据指针和一个虚函数表指针）来实现虚调用。你付出了虚分派的代价，但获得了泛型无法提供的灵活性。

故事并未就此结束。现代编译器借助链接时优化（LTO）获得全程序视角，仍然可以努力去虚拟化这些调用。程序员可以通过使用封闭 trait 等特性来提供帮助，这些特性向编译器承诺，在当前包（crate）之外不会出现该 trait 的新实现。这重新建立了一个封闭世界假设，使得优化器能够分析所有可能的实现。如果数据流分析随后能够证明，在某个特定的调用点，trait 对象中只可能出现一种具体类型，它将再次用直接调用替换虚调用，从而让你两全其美：编写灵活的代码，其运行速度却能与静态等价物相媲美。

去虚拟化的历程揭示了语言设计、编译器分析和运行时行为之间深刻而优美的相互作用。这是一个将不确定性转化为确定性的故事，一个层层剥开抽象以发现其下简单、快速真相的故事，也是一个关于不懈的创造力如何使我们的代码既优雅又高效的故事。

应用与跨学科联系

在理解了去虚拟化的原理和机制之后，人们可能会将其归为编译器工程师的一种巧妙但小众的技巧。事实远非如此。去虚拟化不仅仅是一种优化，它是抽象的关键促成因素，是解锁我们周围系统中性能的关键，其方式常常出人意料且优美。它代表了程序员的意图与机器物理现实之间的基本对话。让我们一起探索其中的一些应用，从驱动互联网的繁忙数据中心，到你掌中静默高效的处理器，看看这个思想是如何在不同学科中回响的。

速度的基石：核心软件系统

面向对象编程的核心是通过抽象来管理复杂性。我们定义接口——关于一个对象能做什么的契约——而不用担心它如何做。这对程序员来说是一种解放，但却给计算机制造了一个难题：可怕的虚调用。每次程序运行时，机器都必须停下来问：“这次我到底应该运行哪个版本的方法？”去虚拟化是编译器给出的绝妙答案：“我已经提前思考过了，所以你不需要再想了。”

在高速的即时（JIT）编译器世界里，这一点尤为关键，这些编译器是 Java、C# 和 JavaScript 等语言的引擎。想象一个处理数百万请求的大型 Web 服务器。每个请求可能由不同的“处理器”对象处理，它们都实现一个共同的接口。一个天真的实现会对每个请求进行虚调用。但一个聪明的 JIT 编译器，就像一个经验丰富的交通分析师，会观察流量。它发现大部分流量都流向少数几个“热”端点。

利用这些分析信息，编译器可以动态地重写代码。它插入一个快速检查：“这个请求是针对常见的‘主页’处理器吗？如果是，直接调用其代码。如果不是，回退到较慢的、通用的虚分派。”这种技术，被称为守卫或推测性去虚拟化，巧妙地利用了现实世界中的模式。它对最可能的结果下注，并为其构建一条快速路径，同时为意外情况保留一个安全网。特定于应用的知识，如路由元数据，可以为编译器提供做出这些赌注所需的提示，从而在性能增益和守卫本身的成本之间进行仔细权衡。

在像 Java 这样的现代语言中，这种博弈变得更加错综复杂。例如，接口中 default 方法的引入，为分派难题增加了另一层。一个调用可能解析到对象类中的方法，或其某个接口中的默认方法，甚至是子接口中更具体的默认方法。对于一个随时可能加载新类的 JIT 编译器来说，做出一个明确的决定似乎是不可能的。解决方案是分析和依赖跟踪的完美结合。编译器可以进行推测性优化——例如，直接调用一个默认方法——但它必须向运行时系统注册一个“依赖”。如果之后加载了一个覆盖该默认方法的新类，运行时系统会将优化的代码标记为无效，强制“去优化”回退到安全的、未优化的版本。这在确保正确性的同时，为程序的常见、稳定状态提供了速度。

当然，并非所有编译器都是 JIT。提前（AOT）编译器在程序运行前编译所有内容，它们面临着自己的挑战，尤其是在处理像反射这样似乎违背静态分析的语言特性时。如果一个程序可以根据从文本文件中读取的类名来创建对象，编译器怎么可能知道会发生什么？答案是采取务实的做法，将世界划分开来。编译器可以识别反射的“安全子集”，例如当类名是固定的字符串字面量时，并在编译时完美地解析这些调用。对于真正不可预测的情况，它会建立一个“保守屏障”，假设任何符合代码逻辑的对象都可能被创建，但关键是，它将这种不确定性隔离开来。这可以防止程序一部分的“未知”污染另一部分的“已知”，从而允许去虚拟化在数据流清晰直接的地方安全地进行。

可靠性的基石：操作系统与嵌入式世界

从快节奏的 Web 服务器世界转向操作系统和嵌入式设备领域，重点从纯粹的速度转向性能、可预测性和正确性的三位一体。在这里，去虚拟化不仅仅是一种优化，它是构建稳健高效系统的工具。

考虑一个支持来自不同供应商的可加载驱动程序的操作系统内核。这种模块化对于灵活性来说非常棒，但它创造了一个“开放世界”，内核无法提前知道它可能会运行哪些驱动程序代码。一种激进的、无条件的去虚拟化将是灾难的根源。如果内核编译了一个对 NvidiaDriver::HandleInterrupt() 的直接调用，那么当用户安装 AmdDriver 时会发生什么？系统会崩溃。解决方案在于策略。内核供应商可以强制执行一个“封闭世界”：只允许与内核一同编译和分发的驱动程序。这为编译器提供了所有可能代码的完整视图，从而实现安全且高效的全程序去虚拟化。或者，为了保持灵活性，内核可以采用我们前面看到的相同的守卫去虚拟化，为已知的、常见的驱动程序创建快速路径，同时为所有其他驱动程序保留一个安全的虚分派机制。

在高可靠性微内核或安全关键的嵌入式系统中，这一原则被推向其逻辑极致。在一个所有组件在启动时固定且无法更改的系统中，世界是真正“封闭”的。编译器可以对整个代码库执行完整的类层次结构分析（CHA）。如果它发现某个特定接口只由单个类实现，那么通过该接口的每个虚调用都可以被替换为直接调用，这是无条件的，也无需守卫。为了保证这个假设成立，系统可以在启动时执行验证步骤，确保编译后代码的世界观与现实相符。这以绝对的确定性剥离了抽象的开销，这在每一微秒和每一分可靠性都至关重要的系统中是至高无上的,。

魔鬼在细节：特定语言的复杂性

去虚拟化的一般原则——用直接调用替换间接调用——很简单。然而，它的真正魅力在于它必须如何适应特定编程语言复杂甚至古怪的规则。为了保证正确，编译器必须是一个精通语言语义契约的侦探大师。

以 C++ 为例，这门语言以其强大和复杂而著称。通过基类指针使用虚析构函数删除对象是一种常见模式。如果编译器证明对象的真实类型是，比如说，类 D，它能直接调用 D 的析构函数吗？没那么快。如果 D 继承自多个基类呢？编译器拥有的指针可能并不指向 D 对象的开头，而是指向其内部某个 B 子对象。为了调用 D 的析构函数，编译器必须首先执行“this-adjustment”，计算出正确的起始地址。此外，析构函数运行后工作还未结束。内存必须被释放。C++ 标准规定，必须使用最终派生类（本例中为 D）的 operator delete 函数。因此，去虚拟化后的代码不仅要用正确的指针调用正确的析构函数，还必须确保调用正确的释放函数，如果编译器知道对象的精确大小，甚至可能是一个特殊的“带大小”的版本。这表明去虚拟化远不止是调用替换，它是用简单、直接的步骤重建一个复杂的语义之舞。

另一个有趣的案例是“双分派”模式，常用于物理引擎中处理不同形状之间的碰撞。像 shape1.collide(shape2) 这样的调用涉及两次虚查找，一次针对 shape1 的类型，另一次针对 shape2 的类型。这可以通过去虚拟化被优雅地扁平化。编译器可以构建一个二维函数指针矩阵，其中每个条目 (ShapeTypeA, ShapeTypeB) 指向一个特化的、非虚的碰撞例程。在可能加载新形状的开放世界设置中，这会被一个守卫包裹起来。更妙的是，通过利用物理对称性，如交换律——Circle 与 Box 碰撞的结果与 Box 与 Circle 碰撞相同——编译器只需为该矩阵的上（或下）三角生成例程，从而将所需函数的数量减少近一半。这是一个将动态编程模式转变为静态、高效的表查找的奇妙转换。

惊人的联系：安全与功耗

一个概念重要性的最有说服力的证明，莫过于它超越了其原有领域。去虚拟化不仅仅关乎性能，它的触角延伸到了软件安全和硬件能效的世界。

在网络安全领域，软件编写者与试图逆向工程的人之间存在着持续的军备竞赛。一种常见的混淆技术是“基于虚拟化的保护”，即将敏感代码转换为自定义字节码，并在一个微小的嵌入式解释器上运行。该解释器的核心是一个间接分派循环。对于逆向工程师来说，去虚拟化这个循环——弄清楚字节码处理器之间的直接控制流——是理解受保护代码的关键。在这里，去虚拟化是一种武器。那么，混淆者的目标就是挫败这种武器。他们可能会让下一个操作码依赖于一个静态分析器无法预测的 volatile 内存位置，迫使分析器假设任何情况都有可能（在格理论中为 $T$ ）。或者，更直接地，他们可以在代码中嵌入元数据，明确告诉合作的编译器：“不要内联或去虚拟化此函数。”这使我们的优化沦为一场复杂的猫鼠游戏中的一枚棋子。

最后，让我们考虑一下你口袋里的手机。每个 CPU 周期都会消耗能量并耗尽电池。去虚拟化通过消除虚调用的开销，减少了执行任务所需的周期数，从而节省了能源。但这其中存在一个微妙的权衡。为了进行去虚拟化，编译器通常必须创建特化的代码副本或内联函数，这可能会增加程序的总体积。一个更大的程序有更大的指令足迹，这可能导致 CPU 指令缓存（I-cache）的未命中次数增加。I-cache 未命中是一个代价高昂的事件，它迫使 CPU 等待从较慢的主存中获取代码——这个过程会消耗大量能量。因此，净能量增益是一个微妙的平衡：执行更少周期所节省的能量，与因额外的 I-cache 未命中而消耗的能量之间的权衡。编译器决定是否进行去虚拟化，可以直接影响你设备的电池续航时间，这是从高级软件抽象到功耗和能量物理定律的切实联系。

从云的宏伟架构，到编程语言的复杂规则，再到硅芯片的物理约束，去虚拟化是一条将它们全部联系在一起的线索。它是对性能不懈追求的证明，是抽象思想世界与具体物理执行世界之间持续协商的产物。