
几十年来,计算技术的发展一直是摩尔定律和制造密度越来越高的单片系统级芯片 (SoC) 的同义词。然而,我们现在正面临着“大尺寸的困境”,即制造巨大、无瑕疵芯片在经济和物理上的不现实性,正威胁着阻碍技术进步。随着芯片尺寸的增加,制造良率急剧下降,使得这种单片方法难以为继。优雅的解决方案是模块化:将大型系统分解为更小的、高良率的“Chiplet (小芯片)”,然后将它们组装在一起。然而,这一转变引入了一个关键的新挑战——这些分离的硅片如何能像一个整体一样进行通信?
本文探讨了晶粒间互连的世界,正是这些使能技术让 Chiplet 革命成为可能。在第一部分“原理与机制”中,我们将探索从有机基板上的并排布局到采用硅通孔和混合键合的革命性 3D 堆叠等一系列连接技术,并审视其底层的物理学和工程权衡。随后,在“应用与跨学科联系”中,我们将发现这些技术不仅仅是一种制造上的补救措施,更是一种强大的新工具,它为超级计算开启了新颖的架构,实现了复杂的软硬件协同设计,并为人工大脑和智能机器人系统铺平了道路。
几十年来,计算能力的故事一直很简单:将晶体管做得更小,在单片硅上集成更多晶体管,然后见证奇迹的发生。这一由摩尔定律所描绘的无情进程,为我们带来了单片奇迹——单个芯片或系统级芯片 (SoC),它们包含数十亿个晶体管,充当设备的完整大脑。但一个根本性的问题一直在酝酿,一个关乎经济学和概率论的问题。
想象一下,你是一位烘焙巨大、超薄硅“披萨”的师傅,每个“披萨”都将被切割成数百个相同的“芯片”。制造过程极其精密;一个 stray 尘埃颗粒就可能毁掉一个芯片,使其报废。现在,假设你的客户需要更大、更强大的芯片。你必须把切片做得更大。问题在于,随机缺陷——即尘埃颗粒——的密度大致保持不变。随着芯片面积 的增加,其被缺陷击中的概率也随之增加。功能良率遵循类似 的模型,其中 是缺陷密度,对于更大的芯片,良率会呈指数级骤降。制造一个餐盘大小的巨型单片芯片在经济上变得不可能;几乎所有的芯片都会是次品。
这就是“大”之困境。解决方案在概念上异常简单,那就是停止尝试构建一个巨大的单片芯片。取而代之的是,我们可以将所需功能分解为一系列更小、独立的芯片,称为 Chiplet。由于每个 Chiplet 更小,其良率显著提高。我们可以对它们进行单独测试,收集一箱已知合格晶粒 (KGD),然后像搭高科技乐高积木一样将它们组装起来,创造出最终强大的系统。
当然,这个解决方案立即带来了一个新挑战。这些曾经是无缝整体一部分的 Chiplet,现在必须跨越物理间隙相互通信。这种通信的质量——我们乐高积木之间的“粘合剂”——至关重要。整个晶粒间互连领域就是一场追求,旨在使这种粘合剂尽可能地“隐形”,让 Chiplet 们误以为自己仍是那个快乐的单片大家庭的一员。这场追求催生了一系列引人入胜的技术,每种技术都在性能、密度和成本之间有着各自的权衡。
让我们来探索连接 Chiplet 的主要方式,从最传统的方法开始,逐步走向真正奇异的技术。我们关心的关键指标是带宽密度(在给定面积或边缘上可以传输多少数据)和延迟(信号从一个 Chiplet 到达另一个 Chiplet 所需的时间)。
最直接的方法是将 Chiplet 并排安装在传统的印刷电路板上,该电路板通常由有机层压板制成。这类似于将一个城市建造成由高速公路连接的一系列郊区小镇。连接是通过微小的焊球实现的,但“微小”是相对的。这些连接之间的间距或节距相当大,约为 。此外,信号必须传输的物理距离很长,通常有几厘米。
物理学告诉我们,这是导致低性能的根源。电信号在导线上的延迟大致与其长度的平方 () 成正比。长导线还具有高电容,意味着发送每一位数据都需要更多能量。因此,在所有晶粒间互连选项中,这种方法的带宽密度最低,延迟和能耗最高。它简单且便宜,但这就像强迫你大脑的不同部分通过邮政服务发送手写信件进行交流。
为了改善通信,我们需要缩短导线并更紧密地封装它们。这就是 2.5D 集成背后的思想。Chiplet 不再放置在粗糙的有机板上,而是并排放在一个称为中介层的特殊硅片上。这个硅中介层充当了一个微型、超高密度的电路板。因为它采用与芯片本身相同的制造技术,所以其中的布线可以做得非常精细和密集。
从 Chiplet 到中介层的连接使用微凸块,其节距要小得多——大约为 或更小。穿过中介层的导线更短,也许只有一厘米长。结果如何?带宽密度急剧增加,延迟和发送每比特数据所需的能量也大幅降低。我们已经将郊区小镇搬到了一个建在高速网格上的密集市中心。 “2.5D”这个名称反映了我们并没有真正在第三维度上堆叠,但我们使用了一个比普通 2D 板更复杂的层。
缩短两点之间距离的最革命性方法是垂直发展。这就是 3D 堆叠的原理。我们不是将 Chiplet 并排摆放,而是将它们直接堆叠在一起。但是,如何让信号穿过一块固态硅呢?答案是硅通孔 (TSV)。
TSV 是一条直接穿透硅晶粒的微观垂直导线,就像贯穿摩天大楼的电梯井。一个典型的 TSV 直径可能为 ,穿过一个被减薄到约 的晶粒。这是一个并行过程:晶粒被分开制造,然后对齐并键合在一起。
性能提升是惊人的。互连长度不再以毫米计量,而是以微米计量——即晶粒本身的厚度。由于延迟与长度的平方成比例,将长度从 (在中介层上)减少到 (一个 TSV),长度减少了 200 倍,从而使与长度相关的延迟项减少了 40,000 倍。此外,连接不再局限于晶粒的边缘;TSV 可以放置在任何地方,形成一个巨大的连接面阵。对于垂直连接,带宽密度与 成比例,因而呈爆炸式增长。对于 的 TSV 节距,我们可以在一平方毫米内容纳数千个连接。这是连接分离硅片上大型功能块的最短、最快、最节能的方式。
我们还能做得更好吗?是的。基于 TSV 的 3D 堆叠中的连接仍然依赖于微凸块,这为连接节距设定了下限。混合键合则完全消除了这些凸块。在这种技术中,两个晶圆被制造出来,其顶层是嵌入在电介质中的完美平坦的铜焊盘。然后,这些晶圆在洁净环境中被合在一起,铜焊盘直接相互键合,周围的电介质表面也是如此。这使得节距可以达到极小的尺寸,缩小到只有几微米甚至更小。连接密度比 TSV 还要高出几个数量级,有望实现堆叠晶粒之间的真正无缝集成。
这使我们达到了概念上的终点:单片 3D 集成 (M3D)。M3D 不是将晶粒分开制造然后堆叠,而是在单个晶圆上顺序构建多层晶体管。在第一层晶体管及其布线完成后,沉积一层新的硅,然后在顶部直接制造第二层晶体管。这里的关键挑战是热量:制造高质量晶体管所需的高温会破坏下面一层精密的布线。M3D 依赖于新颖的低温制造工艺(低于 )来制造上层。
这种方案中的垂直连接,称为单片层间通孔 (MIV),不像 TSV 那样需要蚀穿硅。它们只是普通的布线通孔,就像普通芯片中金属层之间使用的那些一样,但被用来连接两个不同的晶体管层。它们的节距可以达到数百甚至几十纳米。这实现了终极梦想:在不同层之间连接单个晶体管或逻辑门,就好像它们并排在一起一样。这不仅仅是堆叠 Chiplet;这是在编织一个单一的 3D 计算织物。
这场追求更高密度和性能的旅程并非没有陷阱。进入第三维度解决了通信问题,但却在热量和力学方面引入了深远的新挑战。
在传统的平面芯片中,晶体管产生的热量有一条短而直接的路径向下传到散热器。但在 3D 堆叠中,顶部的芯片处于热学上的危险位置。它们产生的热量必须向下穿过整个堆叠才能被移除。这条路径充满了障碍。晶粒之间的键合层,即使有导热的 TSV,通常也由导热性很差的聚合物或氧化物材料制成——它们就像一层绝缘层,将热量困住。此外,在不同材料的每个界面处,都存在一种称为热边界电阻 (TBR) 的现象,它会造成温度的突然跃升,进一步阻碍热流。
结果是,堆叠中的上层晶粒可能会变得非常热,从而限制性能并威胁可靠性。这个问题被一个恶性循环所加剧:TSV 本身承载着用于供电和数据传输的大电流,产生自身的焦耳热。随着温度升高,铜 TSV 的电阻增加,导致它们产生更多的热量——这是一个电热正反馈回路,必须通过复杂的协同仿真和设计来仔细管理。
3D 堆叠中的材料——硅、铜、二氧化硅——在温度变化时都会有不同程度的膨胀和收缩。在制造过程中,芯片从高温沉积温度降至室温。这种差异性收缩在堆叠内部产生了巨大的热机械应力。
这种应力不仅是机械故障(如开裂或分层)的担忧。它还有一种更微妙和有趣的影响。硅是一种压阻性材料,意味着当它被挤压或拉伸时,其电阻会发生变化。来自 3D 堆叠的应力可能非常大,以至于它会物理上使下方晶粒的晶体管沟道中的硅晶格变形。这种变形改变了硅的量子力学能带结构,进而改变了载流子迁移率——即电子在沟道中移动的难易程度。
对于给定的应力,其影响高度依赖于硅的晶体取向和电流方向。例如,在 n 型晶体管中,沿特定晶体方向 () 施加 200 MPa 的拉伸应力可以使电子迁移率提高超过 6%,从而直接提升其性能。而压缩应力可能会产生相反的效果。这意味着晶体管的性能不再仅仅由其设计决定,还取决于它在一个复杂的、受应力的 3D 组件中的物理位置。预测和解释这些效应需要复杂的模型,将机械应力场与电子输运的量子物理学相结合。
向晶粒间互连,特别是向第三维度的迈进,完美地诠释了工程中物理学的统一性。一个始于制造良率的经济问题,引领我们踏上了一段穿越电气工程、材料科学、传热学和量子力学的旅程。性能上的每一步前进都揭示出一个新的、更复杂的挑战,促使我们去理解这些基本原理之间美妙而错综复杂的相互作用。
在深入了解了晶粒间互连的基本原理之后,我们现在面临一个激动人心的问题:我们能用它们来做什么?要理解其影响,我们必须首先理解单片芯片带来的巨大困境。几十年来,计算的故事就是将越来越多的晶体管塞进一片完美的硅片中。但我们正在接近这条路的尽头。制造餐盘大小、完美无瑕的芯片所带来的巨大成本和物理困难正变得令人望而却步。就连光速本身,这个决定信号穿越巨大芯片所需时间的因素,也正在成为一个瓶颈。
解决方案,正如在自然界和工程学中经常出现的那样,是模块化。我们不再构建一个巨大的单片怪兽,而是用一系列更小、专门化的硅“Chiplet”来构建我们的系统。这就是 Chiplet 革命。但是,这种“乐高式”的处理器构建方法只有在你拥有一种极好的方式将这些模块拼接在一起时才可能实现。这就是晶粒间互连的作用。它们是高科技的“粘合剂”,是导电的“超级胶水”,让 Chiplet 联盟能够像一个单一、内聚且强大的大脑一样运作。让我们来探索这个新范式所开启的新世界。
Chiplet 革命最直接和最显著的影响体现在驱动我们数字世界(从数据中心到超级计算机)的处理器设计上。考虑构建一个拥有数百个核心的处理器的挑战。随着每一代晶体管预算的翻倍,工程师面临一个选择:是尝试构建一个巨大的、单片的 128 核处理器,还是用几个更小的 Chiplet 来构建它——比如说,四个各含 32 个核心的 Chiplet。
单片方法充满了风险。复杂的制造过程中一个单一的缺陷就可能使整个昂贵的芯片报废。此外,在广阔的硅片海洋上,连接遥远核心的导线变得极长,引入了显著的信号延迟。而 Chiplet 方法则巧妙地回避了制造良率问题;生产更小、完美的 Chiplet 要容易得多。但它引入了一个新挑战:Chiplet 之间的通信延迟。
从一个 Chiplet 上的核心到另一个 Chiplet 上的核心的消息现在必须穿越一个晶粒间互连。这段旅程增加了一个固定的时间代价,一个“过境”费用 。整个多 Chiplet 处理器的性能现在取决于这个互连的质量。如果 D2D 链接速度慢,Chiplet 设计的优势就会荡然无存。一条消息传输的总时间是在片上行程和这个新的芯片间代价的组合。架构师必须进行精细的平衡。他们必须权衡增加更多 Chiplet 带来的延迟成本与收益,找到一个平衡点,使得分区系统性能超越其单片前身。这种权衡是现代 CPU 和 GPU 设计的核心。
这种分区原则的应用远远超出了通用处理器。想象一下,你是一名工程师,正在为数字信号处理 (DSP) 设计一个专用系统。你有一个复杂的逻辑设计。你是将它实现在一个单一、大型且昂贵的现场可编程门阵列 (FPGA) 上,还是可以将其分割到两个更小、更经济的设备上?
这不仅仅是成本问题,也是性能问题。一个大型 FPGA 可能看起来更简单,但自动化的“布局布线”软件可能难以找到所有内部连线的有效路径,导致决定芯片最高时钟速度的关键路径上出现意想不到的长且不可预测的延迟。
将设计划分到两个较小的芯片上可以简化每个芯片内部的逻辑,从而实现更短、更快、更可预测的内部时序。然而,你现在必须为任何需要跨越边界的信号付出代价。信号必须离开第一个芯片,穿过电路板(或硅中介层),然后进入第二个芯片。这个芯片间的旅程————是直接加到你关键路径上的一个新延迟。
有趣的部分来了:有时,分区设计实际上可能更快。如果芯片间互连足够快,且内部分区的简化足够显著,那么总延迟可能会小于单个大芯片内部 sprawling、不可预测的布线延迟。因此,晶粒间互连不仅仅是一种妥协;它们是工程师优化工具箱中的一个强大工具,开启了一门新的系统分区艺术。
一旦我们决定用多个互连的 Chiplet 网格来构建系统,一个深刻的新问题便浮出水面,它模糊了硬件和软件之间的界限。我们有一组需要相互通信的计算任务。我们应该把每个任务放在物理 Chiplet 网格的哪个位置?
这就是“拓扑感知映射”问题。它是软硬件协同设计的一个绝佳例证。如果两个软件模块通信非常频繁(它们有很高的流量,),那么将它们放置在物理上相邻的 Chiplet 上是合乎逻辑的。将它们放在系统的对角,会迫使其消息经过多个“跳数”,穿越众多的芯片间链接和路由器,在每一步都累积延迟并消耗网络带宽。
一个忽略物理拓扑的幼稚映射会严重影响性能,即使有最快的互连也是如此。只有当软件的通信图被智能地映射到硬件的物理图上时,才能实现最佳性能。量化最优映射相对于幼稚映射的性能增益,揭示了这种协同设计的巨大价值。总通信成本是所有通信对的流量与其物理距离乘积的总和。最小化这个总和是一个复杂的优化问题(二次分配问题的一个变体),但其原理是直观的:让话痨的邻居们靠得近些。这揭示了 Chiplet 范式要求一种更全面的系统设计观,软件架构师必须像城市规划师一样思考,布局他们的应用程序以最大限度地减少“硅高速公路”上的交通拥堵。
也许晶粒间互连最激动人心和跨学科的应用,在于构建模仿大脑的计算机的探索。神经拟态计算旨在通过构建硅神经元和突触系统来复制大脑惊人的效率和并行性。人脑拥有约 860 亿个神经元和数万亿个连接,是终极的大规模并行、互连系统。要模拟它,我们需要以前所未有的规模进行构建。
这种扩展从根本上说是一个资源管理问题,受三个支柱的制约:计算(你能在芯片上容纳多少神经元,),内存(你能存储多少突触,),以及通信(你能在芯片间多快地发送脉冲消息,)。当我们试图构建更大、更复杂的大脑模型时,瓶颈总是通信。你能模拟的大脑的最大规模往往不是受限于处理能力或内存,而是受限于晶粒间互连的原始带宽。每个需要传输到另一个芯片的脉冲,被编码成一个事件包,都会消耗掉这个有限带宽预算的一部分。
为了应对这一通信挑战,神经拟态架构师们开发了巧妙的策略。许多系统,如 SpiNNaker 和 Intel 的 Loihi,使用具有一种称为多播的巧妙功能的分组交换网络。在大脑中,一个神经元通常连接到数千个其他神经元。源神经元不是发送数千个单独的数据包(一种称为单播的技术),而是注入一个带有特殊密钥的单个数据包。当这个数据包在路由器网络中传播时,每个路由器会查找该密钥,并将数据包复制到必要的出站链路上,形成一个信息流的树状结构。这极大地减轻了源神经元及其附近网络链接的负担,节省了宝贵的带宽。
BrainScaleS 项目采取了更为激进的方法:晶圆级集成。他们不是将完成的硅晶圆切割成单个芯片,而是保留整个晶圆完整,并在顶部添加额外的金属层来直接将芯片连接在一起。这创造了一个极其密集、高带宽的通信结构。这使他们能够以加速的速度运行其模拟神经元电路,通常比生物实时快数千倍。但这引入了一个源于基础物理学的奇妙新约束。在这个加速世界中,由铜中光速决定的信号穿越晶圆所需的时间 ,与加速后神经元动力学的时间尺度 相比,可能变得不可忽略。为了确保仿真的因果正确性,通信延迟必须远小于计算时间尺度 (),这直接将爱因斯坦的相对论与人工大脑的架构联系起来。
最后,晶粒间互连对于那些必须与我们的物理世界实时交互的系统至关重要,例如机器人和自动驾驶汽车。考虑一个需要跟踪移动物体的机械臂。这是一个“闭环控制”问题:系统感知世界,计算响应,并对世界采取行动,以高速不断重复这个循环。
这样一个系统的稳定性关键取决于这个环路的总延迟。如果从感知到行动的时间太长或太不可预测,机器人的动作可能会变得摇晃、不准确或极度不稳定。这个总环路延迟是所有贡献延迟的总和:感知、计算、通信和驱动。如果机器人的“大脑”是建立在 Chiplet 架构上的,那么晶粒间通信延迟 就成为这个环路延迟的一个直接且关键的组成部分。
对于这些实时应用,互连的品质因数不仅仅是峰值带宽,而是保证的低延迟和低抖动(可预测性)。一个意外延迟的消息就可能是灾难性的。这就是为什么将整个时间关键型控制环路放在单个 Chiplet 内是一种常见的设计模式——它最大限度地减少了通信延迟及其变异性。不同的神经拟态架构在这里显示出不同的优势。像 Loihi 这样的平台,其低片上延迟非常适合于此,而像 TrueNorth 这样的系统,其固定的 1 毫秒时间刻度对其反应时间施加了根本性的量化,使得亚毫秒控制变得具有挑战性。SpiNNaker 的灵活但“尽力而为”的网络则需要仔细管理以确保实时保证。这表明,在机器人和控制的世界里,互连性能不仅仅是追求更快——而是要准时,每一次都准时。
从构建下一代超级计算机到工程化人工大脑和敏捷机器人,这些应用既多样又深刻。晶粒间互连远不止是简单的导线;它们是打破单一芯片局限的使能技术,为工程师和科学家们开启了一片新的画布。未来的计算将不仅通过缩小晶体管来构建,更将通过以日益创新和强大的方式连接它们来构建。