哈佛架构

玻尔百科

核心要点

哈佛架构通过为指令和数据使用独立的内存和总线来提升性能，允许同时访问，从而克服冯·诺依曼瓶颈。
其代码和数据的物理分离提供了一种强大的、由硬件强制执行的安全特性（写异或执行，Write XOR Execute），可抵御代码注入攻击。
现代CPU实现了改进型哈佛架构，它使用独立的L1缓存以提高速度，但使用统一的L2缓存和主内存以恢复灵活性。
该架构不仅是DSP的基础，也是现代AI加速器的基础，后者借鉴此原理来分离权重和输入等不同的数据流。

引言

在对计算速度不懈的追求中，很少有思想能像哈佛架构那样既基础又持久。其核心设计理念旨在解决一个限制了早期简单计算机性能的根本性交通拥堵问题。这个被称为“冯·诺依曼瓶颈”的限制源于程序指令和它们所操作的数据共用单一通道，迫使处理器等待。哈佛架构提出了一个优雅的解决方案：为指令和数据创建独立的并行路径，使系统能够同时做两件事。

本文将深入探讨这一架构原理的核心。在第一章“原理与机制”中，我们将探索分离内存这一简单而强大的思想，分析由此带来的性能增益，并审视在速度、安全性和灵活性之间的关键权衡。随后，“应用与跨学科联系”一章将揭示这一核心概念如何在各个领域产生深远影响，从驱动数字信号处理器和现代AI加速器的引擎，到提供一层无形的网络安全保护，从根本上塑造了我们日常使用的硬件和软件。

原理与机制

要真正理解科学或工程领域的任何伟大思想，我们必须将其剥离至最基本的组成部分，并观察它们如何协同运作。哈佛架构也不例外。其核心是一个关于流动、分离以及对速度永恒追求的故事。它始于一个简单而优雅的解决方案，用以解决困扰最早计算机的根本问题。

两个储藏室的故事

想象一下，你是一位繁忙厨房里的主厨，你的大脑就是中央处理器（CPU）。要做任何菜，你需要两样东西：食谱，它告诉你该做什么（即指令），以及你要操作的食材（即数据）。

现在，考虑一下你的储藏室设计。在由天才John von Neumann构思的最早的计算机设计中，食谱和食材都存放在一个巨大的单一储藏室——主内存中。要做任何事，你（主厨）都必须通过一扇门进入这个储藏室。首先，你走到储藏室去取一张食谱卡。你走回来，读它。上面写着：“加一杯面粉。”你再走回同一个储藏室，通过同一扇门，去取面粉。你走回来。然后你再通过同一扇门去取下一条指令。你看到问题了吗？储藏室门口出现了交通堵塞。这条用于指令和数据的单一路径，就是著名的冯·诺依曼瓶颈。

哈佛架构提出了一个绝妙简单、近乎显而易见的解决方案。如果我们有两个储藏室会怎么样？一个储藏室专门放食谱书（指令内存），另一个独立的储藏室放所有食材（数据内存）。关键在于，每个储藏室都有自己专用的门和通向它的独立走廊（独立的总线）。

现在，工作流程被彻底改变了。你可以派你的助手走一条走廊去取食谱的下一步，而你同时可以走另一条走廊去拿当前步骤所需的食材。这两个动作并行发生，不再有单一的瓶颈。这，在本质上，就是哈佛架构的灵魂：通过物理上分离指令和数据的内存及访问路径，以实现同时访问。

速度与平衡的物理学

这不仅仅是一个有趣的类比，它直接反映了信息流动的物理学。“储藏室门的宽度”对应于内存带宽（ $BW$ ），即字节可以移动的速率。让我们像物理学家分析一个系统一样，更仔细地审视这一点。

假设在一个程序循环中，我们需要获取 $B_I$ 字节的指令，并访问 $B_D$ 字节的数据。

在一台冯·诺依曼机器中，由于只有一个带宽为 $BW$ 的总线，我们必须顺序传输所有内容。需要移动的总字节数为 $B_{vN} = B_I + B_D$ 。所需时间与这个总和成正比： $T_{vN} \propto \frac{B_I + B_D}{BW}$

在一台哈佛机器中，我们有两个独立的总线，每个带宽都是 $BW$ 。指令获取需要时间 $t_I \propto B_I / BW$ ，数据访问需要时间 $t_D \propto B_D / BW$ 。由于它们并行发生，循环的总时间不是它们的和，而是两个操作中较长的那个的时间。厨房在当前步骤的食谱和食材都准备好之前，无法进入下一个主要步骤。 $T_H \propto \max(t_I, t_D) \propto \frac{\max(B_I, B_D)}{BW}$

加速比是时间的比率， $S = T_{vN} / T_H$ 。正如你通过简单计算可以看到的，这导出了一个非常清晰的结果： $S = \frac{B_I + B_D}{\max(B_I, B_D)}$

这个小小的方程告诉了我们全部的故事。性能增益是总工作量与瓶颈任务的比率。如果工作负载完美平衡（ $B_I = B_D$ ），那么 $S = (B_I + B_I) / B_I = 2$ 。我们获得了理论上2倍的加速！

但自然界很少如此完美。如果我们的程序包含一个处理大量数据的非常简单的循环呢？比如说， $B_D$ 比 $B_I$ 大十倍。那么加速比就是 $S = (B_I + 10B_I) / (10B_I) = 1.1$ 。增益要小得多。指令总线很快完成它的工作，然后闲置下来，等待数据总线完成其长得多的任务。这就引入了重叠效率的概念。哈佛架构的真正好处取决于指令和数据工作负载的平衡程度。不平衡意味着其中一条并行路径未被充分利用，从而限制了整体增益。

分离的刚性：一把双刃剑

这道在指令和数据之间建立的、为追求速度而生的严格物理隔离墙，带来了深刻且有时出人意料的后果。这是一个典型的工程权衡。

优点：代码的堡垒

严格的哈佛架构最优雅的副作用之一，是其巨大的、內建的安全优势。现代计算机安全的一个核心原则是写异或执行（ $W \oplus X$ ）。这意味着内存的一个区域要么是可写的，要么是可执行的，但绝不能同时两者都是。这可以防止一种常见的攻击，即攻击者将恶意代码（“写”操作）注入数据区，然后欺骗处理器运行它（“执行”操作）。

一个严格的哈佛机器在硬件层面、无意中就强制执行了这一原则！。处理所有store（写）指令的数据路径，物理上只连接到数据内存总线。它没有电线、没有通路连接到指令内存。程序试图写入指令内存中的地址，就像试图把信寄到一个你街上不存在的房子——邮政服务（硬件）根本无法投递。这种物理隔离使得这类代码注入攻击变得不可能，这是一个强大的安全保证，它并非源于复杂的软件规则，而是来自机器的基本架构。

缺点：禁断之桥与被浪费的车道

但这种僵化的分离也可能成为一种束缚。如果你有正当理由需要跨越这条鸿沟呢？

考虑自修改代码，即程序在运行时改变自己的指令。在严格的哈佛机器中，这是不可能的。一条STR（存储）指令是一个数据操作；它将一个地址放在数据总线上，并且只能写入数据内存。它无法触及指令内存来修改它。

即使是更简单的任务，比如读取与指令一起存储在程序内存中的常量值，也成了一个挑战。普通的load指令使用数据总线，而数据总线看不到指令内存。为了解决这个问题，必须发明一种特殊的指令，比如我们思想实验中的假设性指令FETCHDATA。实现这样的指令很棘手。它必须使用指令总线，这意味着它将与正常的指令获取过程竞争，迫使流水线停顿。它还需要仔细的安全检查，以确保它只从内存的有效、可执行部分读取。这展示了纯粹模型的僵化性。

此外，我们之前看到的不平衡问题可能成为一个严重的缺点。想象一个程序，它在一个非常紧凑的循环中对一小组数据进行密集计算——这是科学计算中的常见场景。指令需求（ $F_i$ ）非常低，也许每个周期一两个字，但数据需求（ $F_d$ ）非常高。在具有同等强大总线的哈佛设计中，指令总线将几乎完全空闲，而数据总线则完全饱和并成为瓶颈。指令总线大量未使用的带宽被浪费了；它无法借给挣扎中的数据路径。一个具有相同总带宽的统一冯·诺依曼总线在这里会更有效率，因为它可以动态地将其几乎所有容量用于满足压倒性的数据需求。这个“不平衡度量”量化了为资源刚性划分所付出的性能代价。

现代的妥协：改进型哈佛架构

因此，我们面临一个两难的境地。冯·诺依曼设计灵活但可能较慢。严格的哈佛设计快速但僵化且有时浪费。正如工程中常有的情况一样，解决方案是一个巧妙的折衷：改进型哈佛架构。这正是驱动大多数现代高性能处理器的设计哲学。

其核心思想是取两家之长。在最接近CPU执行引擎的层级，我们为了速度保持了类似哈佛架构的分离。CPU拥有独立的、专用的端口和L1缓存，分别用于指令（I-cache）和数据（D-cache）。这为最常见的操作提供了并行访问的性能优势。

然而，在内存层次结构的更深处，这些独立的路径会合并。L1 I-cache和L1 D-cache都由一个单一的、统一的L2缓存和一个统一的主内存支持。现在有了一个单一的地址空间，并且在数据和指令世界之间存在一条路径——尽管是一条更迂回的路径。

这种设计给了我们失去的灵活性。自修改代码现在成为可能。程序可以使用store指令将新指令写入内存。写入将通过D-cache路径到达统一的L2/主内存。然而，这重新引入了复杂性。CPU的I-cache可能仍然持有旧的、过时的指令版本！为防止灾难，软件现在必须明确地管理这个过程。它必须发出特殊的缓存维护操作来“清理”D-cache中的新指令（将其推送到主内存）并“无效化”I-cache中的旧指令（强制重新获取）。最后，还需要一个指令同步屏障来刷新处理器的流水线，确保它获取新的、正确的指令。这就是灵活性的代价：简单的硬件保证被复杂的软件责任所取代。

这种分层的混合方法引入了其他微妙的权衡。由于共享L2缓存，指令和数据路径可能再次相互干扰。例如，一个激进的指令预取器可能会用指令行填满共享的L2缓存，从而驱逐有用的数据行，减慢数据路径的速度。设计者还必须决定如何划分共享资源。给定一个总的L2缓存大小，应该为指令与数据隐式分配多少？最佳分割取决于工作负载，可以通过最小化指令和数据未命中造成的总停顿周期来找到。即使是在共享总线上物理实现这些分离但统一的地址空间，也需要精心设计以避免电气故障，有时需要在不同内存区域之间设置未使用的地址“保护带”。

从简单的冯·诺依曼机器到今天复杂的改进型哈佛架构的演进，是工程演化的一个完美例子。这是一个识别根本瓶颈，提出一个清晰而强大的解决方案，然后通过妥协和增加复杂性来逐步完善该解决方案，以满足速度、灵活性和安全性这些相互竞争的需求的故事。

应用与跨学科联系

在我们之前的讨论中，我们揭示了哈佛架构的基本原理：为指令和数据设计优雅的分离路径。在纸面上，这似乎是一个简单、几乎微不足道的组织技巧。但如果仅止于此，就好比将一部宏伟的交响乐描述为仅仅是“音符的集合”。哈佛架构的真正魅力，如同任何深刻的科学思想一样，在于其简单核心所引发的丰富且常常令人惊讶的连锁反应。

这种分离不仅仅是在图表上画出不同的线条；它是一种深刻的设计选择，从根本上塑造了系统的性能、安全性，甚至是赋予其生命的软件本身。现在，让我们踏上一段旅程，探索这些深远的联系，看看这一个思想如何开花结果，催生出从信号处理的主力到人工智能的先锋，再到网络安全的沉默哨兵等多种多样的应用。

速度引擎：攻克冯·诺依曼瓶颈

哈佛架构最直接、最著名的优点当然是速度。一台建立在冯·诺依曼模型上的计算机，其代码和数据共用一个单一的共享内存，永远被交通堵塞所困扰。想象一下，一条狭窄的走廊，读指令的人和搬运数据的人都必须挤着通过。处理器在不断等待，因为那条单一的总线——那条走廊——一次只能为一个请求服务。这就是臭名昭著的“冯·诺依曼瓶颈”。

哈佛架构通过提供两条独立的并行路径来摧毁这个瓶颈。这就像建造了第二条走廊：一条专门用于告诉处理器做什么的指令，另一条专门用于处理器处理的数据。现在，处理器可以同时获取下一条指令和当前指令所需的数据，而不会发生冲突。

这种并行性不仅仅是一个理论上的优势；它是整个领域的命脉。考虑一下数字信号处理（DSP）的世界。这些是您手机、汽车音响系统和医疗成像设备内部的专用芯片，不知疲倦地执行着像乘法累加（MAC）这样的重复性数学运算。一个运行简单循环的DSP可能需要在每个周期获取一条指令、读取两个操作数并写入一个结果。在冯·诺依曼机器上，获取这四个项目的总需求可能会超过单一总线在一个周期内所能提供的，迫使处理器等待，从而使其性能 фактически减半。而一台拥有独立指令和数据总线的哈佛机器，可以并行处理这些请求，使其能够达到每周期一次操作，全速运行。

这种分离原则是如此强大，以至于我们甚至在处理器设计的最深层也能看到它的回响。在许多复杂的CPU中，主处理器本身由一个更小、更快的“大脑”控制，这个大脑运行着一种称为微码的底层程序。在这里，设计者也面临同样的选择。当需要从其特殊内存（微码ROM）中获取一条微指令，同时又需要从一个数据表中读取一个常量时，统一的总线会迫使这些操作一个接一个地发生，从而减慢每一个微周期的速度。通过在微观层面应用哈佛原则——给予微码自己独立于其数据的访问路径——设计者可以挤出宝贵的纳秒，从而获得一个整体上明显更快的处理器。

当然，在现实世界中，情况要复杂一些。靠近处理器核心的独立指令和数据路径通常会在更下游汇合，以访问一个共享的主内存控制器。这就构成了一个更复杂的性能谜题。系统的真正速度不再仅仅取决于单个路径，而是受限于整个链条中最紧张的瓶颈：数据路径、指令路径，或是为它们两者服务的共享控制器。分析这样的系统变成了一个有趣的练习，即识别哪种资源会首先耗尽其容量。

现代复兴：从DSP到AI加速器

曾有一段时间，随着具有复杂缓存的通用CPU占据主导地位，哈佛架构常被视为一种专业工具，局限于像DSP这样的利基市场。但一件美妙的事情发生了：机器学习的爆炸式发展为这个经典思想带来了一场壮观的现代复兴。

驱动现代AI的庞大神经网络对计算能力极为渴求，需要万亿次的操作。为了喂饱这些计算巨兽，一类新的硬件——张量处理单元（TPU）或AI加速器——应运而生。当工程师们寻找设计它们的最有效方式时，他们重新发现了哈佛原则的智慧，尽管是以一种巧妙的新形式。

这些加速器不是分离“指令”和“数据”，而是分离不同种类的数据。神经网络计算的核心，是将来激活（activations）的数据流与学习到的参数（weights）的数据流相乘。一个具有类哈佛设计的AI加速器，为激活值和权重专设了独立的内存缓冲区和路径。这使得通常排列成称为脉动阵列的巨大并行结构的计算单元，能够同时被喂以海量且不间断的两种数据流。这是对原始概念的绝妙再利用：哲学上的划分不再是“代码”和“数据”之间，而是“参数”和“输入”之间。这证明了该架构模式的永恒性：无论何时，当你拥有需要一起处理的、不同的、大容量的信息流时，分离它们的路径就是一种制胜策略。

无形守护者：架构即安全特性

也许哈佛架构最优雅和最被低估的后果不在于性能，而在于安全性。代码和数据内存的物理分离，为一整类危险的软件错误和安全漏洞提供了强大的内置防御。

在冯·诺依曼系统中，代码和数据位于同一地址空间，像“缓冲区溢出”这样的错误可能是灾难性的。程序可能会意外地将数据写到数组末尾之外，覆盖并损坏相邻的程序指令。攻击者可以故意利用这一点，将恶意代码注入程序内存，然后欺骗处理器执行它。

在严格的哈佛机器上，这种攻击在物理上是不可能的。指令内存根本没有连接到执行数据store指令的硬件。如果一个程序试图将数据写入一个位于指令空间内的地址，该命令无法完成。硬件本身会束手无策并触发一个异常，从而在源头上阻止恶意行为。这免费提供了一种硬件强制的“写异或执行”（ $W \oplus X$ ），这是一项基本的安全策略。这是一个美丽的例子，说明一个简单的架构选择如何在编写任何一行软件之前就消除了整个类别的漏洞。

这种固有的鲁棒性也使得复杂的安全协议成为可能。考虑一个负责关键任务的安全微控制器。我们如何能确定其软件没有被篡改？一种常见的技术是定期计算内存中代码的加密哈希值，并将其与一个已知的良好参考哈希值进行比较。在哈佛机器上，这个过程既高效又无干扰。处理器可以从指令内存中将代码流式传输到哈希引擎，同时从数据内存中获取参考哈希值。由于两个内存系统是独立的，这项至关重要的完整性检查可以在后台运行，性能影响极小，从而提供了一个持续、警惕的防篡改保护。

涟漪效应：塑造软件与系统

像内存模型这样基础的架构选择并非孤立存在。它的影响远远超出了芯片本身，塑造了我们用来编写软件的工具和管理硬件的操作系统。

如果硬件有一个“分裂的大脑”，那么软件工具链——编译器、汇编器和链接器——也必须学会以这种方式思考。当程序员为基于哈佛架构的微控制器编写代码时，编译器不能简单地将所有指针一视同仁。一个函数指针，它持有指令内存中的地址，与一个数据指针，它持有数据内存中的地址，是两种不同的东西。工具链必须生成具有明确分离的代码、只读常量和可变数据节的对象文件。负责将最终程序放置到设备上的加载器，必须一丝不苟地遵守这些区别，将代码刷写到指令内存，并为数据内存准备初始值。整个软件生态系统都是按照底层硬件的形象构建的。

这种涟漪效应继续向上传递到操作系统（OS）。在一个具有虚拟内存的复杂系统中，操作系统和内存管理单元（MMU）为每个程序提供了其自己私有地址空间的错觉。在支持这一功能的哈佛机器上，这种分离仍然存在：系统必须维护两套独立的页表，一套用于指令空间，一套用于数据空间。这种重复增加了一些内存开销，但它也意味着对指令物理地址的搜索（指令TLB未命中）不会干扰数据地址的缓存，导致系统在响应内存访问模式时存在微妙但重要的性能差异。

但是，没有任何设计选择是没有权衡的。正是这种赋予哈佛架构性能和安全优势的分离，在程序真正需要将代码视为数据时，却成了一个障碍。即时（JIT）编译器就是这种情况，它在运行时动态生成机器码然后执行。在严格的哈佛机器上，这很困难。一种巧妙但有些笨拙的变通方法是将数据直接嵌入指令流中，并使用分支来“执行”一系列指令，其唯一目的是将嵌入的比特加载到寄存器中。虽然这行得通，但效率极低。这种开销，或者说“拥塞因子”，可能相当可观，每传递一个有用的数据比特，可能需要消耗掉好几个获取来的指令比特 [@problem_lim:3646951]。这提醒我们一个至关重要的工程教训：每个设计都是一种妥协，其优雅之处在于为手头的问题做出正确的妥协。

从微控制器核心的纳秒级时序到AI超级计算机的宏伟架构，从原始速度到内置安全，从编译器设计到操作系统内部——分离指令和数据的简单思想在计算世界留下了不可磨灭的印记。它完美地阐释了一个清晰的概念如何向外辐射，统一不同的领域，并揭示我们构建的硬件与我们创造的软件之间深刻而复杂的联系。