芯粒架构

玻尔百科

核心要点

芯粒架构通过将大型单片芯片划分为更小的高良率模块，克服了其制造和良率限制。
在解决良率问题的同时，芯粒引入了功耗和延迟方面的“通信税”，需要 UCIe 等标准化互连来管理数据传输。
这种模块化方法实现了异构集成，能够结合来自不同工艺技术的芯粒，创造出功能强大的专用“封装上系统”。
芯粒的物理布局通过非一致性内存访问 (NUMA) 效应直接影响软件性能，使得对架构的认知至关重要。

引言

数十年来，半导体设计的巅峰是单片系统级芯片 (SoC)——一块集成了所有系统功能的完美硅片。然而，随着计算需求的急剧增长，这种方法在制造尺寸和生产良率方面遇到了根本性的障碍，使得更大、更强的芯片在经济上和物理上都变得不切实际。这带来了一个严峻的挑战：业界如何才能在超越单个裸片极限的情况下继续扩展性能？

本文探讨了革命性的答案：芯粒架构。我们将解构这种“分而治之”的策略，它将庞大的处理器分解为更小的、相互连接的模块。在接下来的章节中，您将对这一范式转变获得全面的理解。第一章“原理与机制”深入探讨了核心驱动因素和工程解决方案，解释了芯粒如何克服良率问题、它们引入的通信挑战以及使其成为可能的标准化协议。第二章“应用与跨学科联系”揭示了这项技术更广泛的影响，探索了它如何重塑系统性能、实现复杂的异构集成，并为从热力学到硬件安全等领域引入了新的考量。

原理与机制

要真正領略芯粒革命的意義，我們必須先了解它所要取代的世界。數十年來，半導體設計的聖杯是單片系統級晶片 (SoC)。想像一塊完美無瑕的矽片，一個微型都市，其中所有組件——處理器、記憶體、圖形單元、無線電——都完美和諧地並存。這座城市的街道精細得令人難以想像，讓資訊以驚人的速度和極低的能耗在各區域間穿梭。這就是單片設計的夢想：極致整合、巔峰效能和卓越的功率效率。它是一個美麗、自成一體的宇宙。

但隨著我們的雄心壯志日益增長，對功能更強大晶片的需求不断攀升，这个美丽的梦想开始撞上物理现实的坚硬壁垒。

尺寸与缺陷的暴政

第一道壁垒是一个简单的制造限制。将复杂电路“印刷”到硅晶圆上的光刻工艺使用一种称为光掩模 (reticle) 的模板。这个光掩模有最大尺寸限制。可以把它想象成试图用标准尺寸的纸张作为模板来绘制一幅巨大的壁画。你根本无法一次性创建出比模板还大的图像。对于现代芯片制造而言，这个光掩模的极限大约是 $850\ \mathrm{mm}^2$ 。然而，当今人工智能和高性能计算的计算需求已经催生了需要远超此 monolithic 面积的设计，有些甚至接近 $1100\ \mathrm{mm}^2$ 或更大。这样的芯片，坦白说，用标准技术是无法制造的。

第二道更微妙也更深远的壁垒是缺陷的暴政。一块硅晶圆，尽管我们技术先进，却永远不会完美。微观缺陷——一个 stray dust particle, a tiny flaw in the crystal structure——可能随机出现在其表面。如果这样一个缺陷落在芯片电路的关键部分，整个芯片就会报废。

现在，让我们思考一下概率。想象你在烤一块完美无瑕的圆形曲奇。如果配方中每平方英寸出现缺陷的概率是固定的，那么当你尝试烤越来越大的曲奇时会发生什么？你的曲奇上出现至少一个缺陷的概率会增加。对于一块真正巨大的曲奇来说，出现缺陷几乎是必然的。

这背后的数学原理既优雅又无情。如果缺陷密度为 $D$ ，芯片面积为 $A$ ，那么芯片完美无瑕的概率——即其良率 (yield)——可以用泊松良率模型来描述：

$Y = \exp(-DA)$

良率随面积 $A$ 指数级下降。面积翻倍并不会使良率减半，而是使其平方。对于我们渴望的那些巨大的、达到光掩模尺寸极限的芯片，良率可能 plummet to catastrophically low numbers。一块假设面积为 $700\ \mathrm{mm}^2$ 的芯片，其良率可能只有 $12\%$ ，这意味着 $88\%$ 的制成硅片都被丢弃了。对于晶圆尺寸的芯片，良率实际上为零。我们正在与一个指数级的敌人作战，而这场战斗我们无法通过简单地做大来取胜。

乐高原则：分而治之

如果我们无法制造一个巨大而完美的物体，我们能做什么呢？答案既简单又具革命性：我们制造许多小的、完美的物体，然后将它们组装在一起。我们不再烤一块巨大且不可能成功的曲奇，而是烤一批一口大小的曲奇。可能会有几块烤焦了，但我们可以把那些扔掉，然后端上一盘漂亮的完好曲奇。这就是芯粒架构的精髓。

这种方法同时打破了两种暴政。

首先，每个小芯粒都远小于光掩模尺寸的限制，解决了制造问题。其次，良率问题得到了转变。一个小芯粒的良率比一个大的单片裸片要指数级地高。例如，如果我们那个 $700\ \mathrm{mm}^2$ 的单片芯片有 $12\%$ 的良率，将其分割成四个 $180\ \mathrm{mm}^2$ 的芯粒，每个独立芯粒的良率可能接近 $60\%$ 。

这催生了一种强大的经济策略，称为已知良好裸片 (Known-Good-Die, KGD) 筛选。我们可以在晶圆上测试所有的小芯粒，并将它们分类。只有那些经过测试并确认为完好的芯粒，才会进入昂贵的组装阶段，最终成为产品。我们不再因为一个微小的瑕疵而扔掉一整块巨大而昂贵的单片芯片。相反，我们正在高效地收获晶圆上的功能区域。

从单片晶圆上获得的功能系统数量的总体提升是巨大的。一个简化的模型精美地捕捉了这一优势的本质。从一块晶圆上你预期能得到的基于芯粒的系统数量与单片系统数量之比，称为改进因子 $I$ ，可以表示为：

$I = y^L \exp\left(DA\left(1 - \frac{1}{N}\right)\right)$

这里， $N$ 是我们将设计分割成的芯粒数量，而 $y^L$ 代表组装过程本身的良率。指数项显示了分割面积带来的巨大收益—— $N$ 越大，括号中的项就越接近 $1$ ，从而最大化良率效益。当然，组装过程并非完美无瑕 ( $y^L 1$ )，这会对此有所削弱，但对于现代制造业而言，克服缺陷所带来的指数级增益远 outweighs the linear cost of assembly。

通信税：解构的代价

当然，物理学里没有免费的午餐。我们解决了尺寸和良率的问题，但又制造了一个新问题：通信。在我们单片设计的城市里，信号在 pristine 的片上“超级高速公路”上传输。在我们这个由组装芯粒构成的新世界里，信号现在必须跨越从一个芯粒到另一个芯粒的边界。这段旅程更加 arduous and costly。

功耗成本是直接的。在两个芯粒之间传输的信号所消耗的能量大约是在单个芯片内部传输相同逻辑距离的能量的十倍。例如，片上通信可能每比特消耗 $0.05$ 皮焦耳，而裸片间通信则消耗 $0.5$ 皮焦耳。这种“通信税”可能成为系统总功耗预算的重要组成部分，特别是对于那些需要在芯粒之间交换大量数据的应用。

此外，通信的总量，即带宽 (bandwidth)，在物理上是受限的。系统两半之间的总带宽被称为其对半带宽 (bisection bandwidth)。在一个芯粒系统中，这主要受两个因素限制。首先是芯片边缘物理连接点，即微凸块 (microbumps) 的密度——就像通往桥梁的入口匝道数量。其次是连接芯粒的封装或中介层 (interposer) 的布线密度——就像桥梁本身的车道数量。最终可实现的带宽取决于这两者中的瓶颈。因此，设计一个芯粒系统是一项精细的平衡工作：分割系统以最大化良率和功能，同时确保通信税和带宽瓶颈不会削弱其性能。

通用语言：互连标准的兴起

如果我們要建立一个充满活力的生态系统，让来自不同设计师和制造商的芯粒能够像乐高积木一样混合搭配，那么它们必须都说同一种语言。这推动了标准化裸片间互连协议的发展。

目前已出现了几种标准，各有不同的理念：

高级接口总线 (AIB) 和一束线 (BoW) 就像是巨大的并行高速公路。它们使用大量简单的单端导线，在一个宽阔的、同步的总线上发送数据，并伴随一个时钟信号。它们为极短距离、低延迟的连接（例如在硅中介层上）进行了优化。
通用芯粒互连技术 (UCIe) 是这些标准中最具雄心的。在广泛的行业领导者联盟的支持下，UCIe 旨在成为芯粒的通用“USB”。它不仅定义了物理导线，还定义了一个完整的协议栈。它可以像 AIB/BoW 那样以简单的并行模式运行，用于短距离连接，但也定义了一种使用 SerDes（串行器-解串器）技术的高速串行模式，用于在成本较低的有机封装上实现更长距离的连接。至关重要的是，UCIe 被设计为能够原生传输其他高级别行业协议。

从比特到思想：分层协议的魔力

这就引出了谜题的最后一块，也许也是最美的一块。互连不仅仅是移动比特，它关乎传达意义。像 UCIe 这样的现代互连技术是分层组织的，很像人类的交流。

物理层 (Physical Layer): 这是信号传输的原始物理学——沿导线传播的电脉冲。它相当于声音的声波。
链路层 (Link Layer): 这一层确保发送的内容就是接收的内容。它将比特打包成帧，并添加循环冗余校验 (CRC)，这是一种数学签名，用于检测传输过程中是否有任何比特损坏。如果检测到错误，它会触发重传。对于有噪声的信道，它还可以采用前向纠错 (FEC) 来即时纠正微小的错误 [@problemid:4259594]。这就像语法和句法，确保单词正确构成并被理解。
传输层 (Transport Layer): 这一层管理流量，确保数据以正确的顺序到达正确的目的地。它使用虚拟通道和信用机制等来防止交通拥堵和优先处理重要消息。这就像将句子和段落组织成连贯论证的艺术。
协议层 (Protocol Layer): 这是最高层，定义了消息的最终意义。对于芯粒系统，最重要的协议之一是缓存一致性 (cache coherence) 协议，例如 Compute Express Link (CXL)。

想象一个 CPU 芯粒和一个 AI 加速器芯粒协同工作。它们需要共享内存中的数据，就好像它们是大脑的两个部分一样，确保当一个修改了一块数据时，另一个能立即看到更新后的版本。这就是缓存一致性。像 CXL.cache 这样的协议定义了实现这一目标的复杂消息交互——窺探、失效、数据传输。UCIe 充当可靠、有序的传输工具，承载这种复杂的 CXL 对话，使得两个独立的硅片能够像一个单一、一致的计算实体一样运作。

这是芯粒原则的最终胜利。通过拥抱分割，我们不仅克服了制造业的物理限制，而且通过巧妙的分层通信，将 disparate parts 重新整合得如此彻底，以至于它们超越了个体的界限，再次表现为一个美丽、统一的整体。

应用与跨学科联系

在深入了解芯粒架构的基本原理后，我们可能会觉得这是一种优雅但抽象的工程。但一个伟大思想的真正魔力不在于其 pristine 的理论，而在于它如何荡漾开来，解决旧难题，创造新问题，连接起看似遥远的科学技术领域。从单片硅片到互连芯粒的转变正是这样一个思想。它不仅仅是构建计算机的一种新方法；它是一块计算艺术的新画布，迫使我们重新思考性能、系统设计，甚至我们对硬件信任的定义。这是一个美丽的悖论：通过将事物分解，我们正在学习构建比以往任何时候都更强大、更多样化、更统一的系统。

性能新规则：重塑光速

几十年来，对性能的追求是一个不断缩小的故事，即在单片完美的硅片上塞进更多、更小、更快的晶体管。芯粒架构改变了剧情。我们仍然想要更多，但现在我们通过组装、通过连接来获得。然而，这种连接行为并非没有代价。它在我们的性能故事中引入了一个新角色：互连。

想象一下，你把一个繁华的城市（一个单片处理器）分成了两个独立的行政区（芯粒）。虽然这可能让每个行政区都能以它以前无法做到的方式 specialization and grow，但有一个问题：市民现在必须过桥才能从一边到另一边。这座桥就是裸片间互连。每当一块数据需要从一个芯粒上的处理器核心传输到另一个芯粒上的内存控制器时，它都必须支付“延迟代价 (latency toll)”。这个代价是数据序列化所需时间、物理 attraversamento 导线所需时间（这段旅程由介质中的光速决定）以及任何交通拥堵造成的延迟的组合。

工程师现在必须成为 meticulous 的城市规划师。他们必须决定这座桥要建多宽——也就是说，互连带宽应该是多少。如果桥太窄，就会出现数据交通堵塞。需要复杂的工具，有时借鉴自电信和运籌學（如排队论），来模拟这种流量，并确定必要的带宽，以确保基于芯粒的系统最终不會比它本应取代的老式单片系统更慢。

这种划分也创造了一个 fascinating 的优化难题。随着摩尔定律持续为我们提供不断增长的晶体管预算，我们可以构建拥有惊人数量核心的处理器。借助芯粒，我们可以组装一个 128 核的处理器，不是在一块巨大且难以制造的裸片上，而是跨越几个更小、更易于管理的芯粒。但我们应该如何排列它们呢？想象一下，你有 48 个核心要分布在三个芯粒上。为了最大限度地减少在芯粒间通信上浪费的时间，你必须仔细考虑核心的分配方式。目标是尽可能地将需要通信的伙伴保持在同一个芯粒上。这变成了一个组合优化中的深层次问题，系统的物理布局直接影响在其上运行的软件的性能。

对于用户或程序员来说，这些架构决策不仅仅是抽象的细节；它们具有非常实际的后果。你是否曾想过，为什么在现代高端工作站上，当你给一个程序更多处理器核心时，它反而可能会 inexplicably 运行得更慢？部分答案就在于这些 CPU 的基于芯粒的特性。如果一个工作站有，比如说，16 个核心分布在两个芯粒上（每个 8 核），一个只使用 8 个线程的程序可能完全在一个芯粒上运行，享受对其本地内存的快速访问。但当程序扩展到 16 个线程时，它现在跨越了两个芯粒。突然之间，一个芯粒上的线程需要访问存储在另一个芯粒内存中的数据。这种“远程”内存访问速度较慢，需要跨越芯粒间的桥梁，并产生所谓的非一致性内存访问 (NUMA) 效应。这与其他效应（如饱和总内存带宽或共享缓存竞争加剧）相结合，可能导致“更多核心等于更低速度”这一违反直觉的结果。因此，理解芯粒架构对于编写高效的并行软件至关重要。

系统集成的艺术：硅的交响乐

也许芯粒架构最深远的影响在于它能够通过混合搭配技术来创建“封装上系统 (system on a package)”。并非所有的半导体功能都生而平等。敏感模拟传感器所需的精密、高精度晶体管，最好采用与数字 CPU 的密集、快如闪电的晶体管截然不同、通常更旧的制造工艺来生产。单片方法迫使人们做出 unhappy 的妥协，但芯粒则让每个功能都能在其理想的环境中诞生。

这为构建极其复杂的异构系统打开了大门。想象一个包含三个芯粒的封装：一个是用于接收无线电信号的敏感模数转换器 (ADC)，另一个是用于处理这些信号的强大数字计算引擎，第三个是高密度 DRAM 内存裸片。这种模块化是一项胜利，但它也带来了一个新的、微妙的挑战：噪声。计算芯粒中每秒翻转的数百万个数字开关会产生一场电磁噪声风暴。如果这种“数字喋喋不休”通过共享的电源或基板泄漏出去，就可能破坏 ADC 正在测量的 delicate 模拟信号，使其变得无用。

因此，设计这样一个系统是一门深度跨学科的艺术形式。它不仅需要数字架构师，还需要模拟电路设计师和电磁学专家协同工作。他们必须 meticulous 地设计封装，创建“保护环 (guard rings)”和专用的电源域来屏蔽模拟芯粒，几乎就像在封装内部建造一个隔音室。每一个设计选择，从互连通道的数量到所用屏蔽的类型，都成为性能（带宽和延迟）与信号完整性（噪声）之间的权衡，所有这些都受到电磁学和电路理论基本定律的支配。

此外，随着我们将越来越多、越来越强大的芯粒封装进狭小的空间，我们面临着另一个根本性挑战：热量。一个高性能计算芯粒可以在邮票大小的面积内产生数百瓦的热量，其功率密度可与核反应堆媲美。我们习以为常的风冷风扇根本无法跟上。这促使我们进入先进热力学和热传递领域。我们必须转向更 exotic 的解决方案，例如液体冷却，即通过泵将流体泵送到附着在芯粒上的“冷板 (cold plate)”中，以带走热量。

这引入了一系列新的权衡。一个液体冷却系统，连同其泵和通常用于冷却液体的制冷机（冷却器），本身就消耗大量电力。从纯粹的热力学效率角度——用一个名为火用 (exergy) 的概念来衡量，它考虑了能量的“质量”——这样的系统可能看起来比简单的风扇效率低。然而，它为芯粒实现了更低且更稳定的工作温度，这对其生存和性能至关重要。因此，芯粒革命也是热工程创新的催化剂，推动了系统散热能力的极限。

信任问题：模块化世界中的安全

当你从单一公司购买处理器时，存在一条隐式的信任链。但当一个系统是由来自多个相互竞争的供应商的芯粒组装而成时，会发生什么？封装集成商——以及最终的用户——面临一个难题：我如何确定每个芯粒都是真品且未被篡改？这种“零信任”环境是硬件安全的新前沿。

一种方法是借鉴密码学的方法。每个芯粒都可以配备一个硬件信任根 (HRoT)——一个微型的、超安全的“处理器中的处理器”，它持有一个秘密的加密密钥，就像一份数字出生证明。通过质询-响应协议，验证者可以“请求”芯粒通过使用其密钥进行计算来证明其身份。这是一种强大且数学上严谨的认证方法。

但芯粒开启了一种更 fascinating、更根本的安全机制：物理层指纹识别。没有两个制造出来的物体是完全相同的。制造过程中微小的、随机的变化赋予了每个芯片独特的模拟“指纹”。互连导线的精确阻抗，或者电压脉冲上升和下降的精确形状，对于该设备都是独一无二的。通过测量这些微妙的模拟特性，验证者可以确定该芯粒是否是其早先注册的完全相同的物理对象，还是一个仿冒品。这就像使用人类指纹的独特 whorls 进行身份识别。

这将曾经被视为制造麻烦——工艺变化——轉變成一個強大的安全特性。这种方法的美妙之处在于，指纹是一种固有的物理属性，而不是可以被盗取的存储秘密。最强大的系统可能会结合这两种方法。一个仿冒设备成功欺骗加密质询和物理指纹测试的概率变得微乎其微，这表明了如何将密码学和统计物理学的原理结合起来，创造一个安全的整体。

一个由碎片构建的统一未来

探索芯粒世界的旅程揭示了关于现代科学与工程的一个美丽真理。它表明，进步不再仅仅是在单一、狭窄的学科中向前推进。它关乎于建立桥梁。芯粒架构是一个 nexus point，一个计算机体系结构、热力学、材料科学、电磁学和硬件安全在此交汇互动的地方。它证明了这样一个理念：通过理解不同知识领域之间错综复杂的联系，我们可以学会将简单、易于理解的部件组装成具有惊人复杂性和强大功能的系统。计算的未来不是一个单一、完美的 monolith，而是一个充满活力、相互连接的生态系统——一个真正大于其各部分之和的整体。