高能效人工智能：原理与应用

玻尔百科

关键要点

人工智能的能源成本是功率、时间和数据中心开销的函数，这使得硬件和算法的优化都至关重要。
屋顶线模型揭示了性能是受限于数据移动（内存受限）还是处理速度（计算受限），从而为能效优化工作提供指导。
高效算法通过避免冗余计算（例如，利用稀疏性）和采用混合精度、分块等技术来适应硬件，从而提升性能。
通过充当复杂物理定律的快速代理，高能效人工智能模型在量子化学和气候科学等领域加速了科学发现。

引言

人工智能正在迅速改变我们的世界，但这场革命也带来了巨大且日益增长的能源足迹。随着人工智能模型变得越来越大、能力越来越强，其计算需求急剧增加，消耗大量电力，对可持续技术进步构成了挑战。这就提出了一个关键问题：我们如何才能在不产生不可持续的环境和经济成本的情况下，利用人工智能的力量？答案在于发展高能效人工智能——一个致力于理解和优化计算根本基础的领域。

本文对这项至关重要的事业进行了全面概述。我们将从单个计算的基本物理学原理出发，一直探讨到高效人工智能系统的全球影响。在第一章原理与机制中，我们将剖析计算的“成本”，探索支配能源使用的硬件瓶颈和算法策略。在第二章应用与跨学科联系中，我们将见证这些原理如何在科学和工业领域开辟新前沿，从模拟分子相互作用到优化全球物流。读完本文，您不仅会理解能效为何重要，还将了解如何实现能效以及它能带来哪些可能性。

原理与机制

想象一下，您想烤一个蛋糕。总“成本”不仅仅是烤箱消耗的电量，它还综合了您使用的原料、食谱的复杂程度、您花费的时间，以及运行整个厨房所需的能源——灯光、空调，甚至可能还有背景中播放的收音机。在人工智能的世界里，计算一项任务的成本与此惊人地相似，只是规模要复杂和耗能得多。理解这种成本不仅仅是一项算术练习；它是一场探索计算基本原理的旅程，揭示了抽象算法与物理硬件之间隐藏的共舞。

计算成本的剖析

从本质上讲，任何计算的能源成本都是简单的物理学：能量等于功率乘以时间。为了让 AI 更高效，我们必须减少其中一个或两个量。

功率部分更为直观。它是计算机硬件，特别是作为现代 AI 主力军的强大图形处理单元（GPU），消耗电力的速率。一个高性能 GPU 可以消耗数百瓦的功率，相当于几个明亮的白炽灯泡。但故事并未就此结束。就像我们的厨房一样，容纳这些 GPU 的大型数据中心也有其自身的开销。GPU 用于计算的每瓦功率，都需要额外的电力用于冷却系统、网络和照明。这种开销由一个名为电源使用效率（PUE）的指标来衡量。 $1.4$ 的 PUE 意味着计算硬件每消耗 $1$ 千瓦时（kWh）的电能，数据中心设施本身就要额外使用 $0.4$ kWh。因此，总能耗和由此产生的碳足迹，在很大程度上取决于数据中心的效率及其电力来源的碳强度。

时间部分则真正引人入胜。训练一个 AI 模型所需的时间取决于需要完成的总“工作量”以及执行该工作的“速度”。“工作量”由算法和数据决定。例如，在训练一个生成式 AI 模型来创建图像时，计算量可能与图像分辨率的平方成正比。将图像的宽度和高度加倍，可能会使每一步的计算工作量增加四倍。总训练时间就是这个单步工作量乘以计算重复的数百万或数十亿次。这就是我们的“食谱”——AI 模型的复杂性及其学习数据的丰富性。

但什么决定了“速度”呢？不仅仅是处理器的时钟频率，它是由机器的物理瓶颈决定的。

两大瓶颈：计算与通信

想象一个顶尖的工厂。它可能有一条速度惊人的装配线，每小时能组装数千件产品。这是工厂的峰值计算速率，即其峰值 FLOPS（每秒浮点运算次数）。然而，这些产品的零件储存在仓库中，必须被运送到装配线上。这种运送的速度就是内存带宽。无论装配线多快，如果它总是在等待零件，整体产量就会很慢。

这就是现代计算的核心矛盾。每种算法都有一个特有的计算量与数据移动量的比率，这一属性被称为算术强度（ $I$ ），以每字节浮点运算次数（flops per byte）为单位。它提出了一个简单的问题：“我从仓库（内存）中每取一个字节的数据，能在装配线上进行多少次计算？”

如果一个算法具有高算术强度，它会对每一份数据执行大量计算。此时，装配线是瓶颈。我们称该过程为计算受限（compute-bound）。工厂的产出受其装配速度的限制。
如果一个算法具有低算术强度，它对每一份数据执行的计算很少。装配线上的工人大部分时间都在等待零件。此时，从仓库运送零件是瓶颈。我们称该过程为内存受限（memory-bound）。

这个概念被屋顶线模型（roofline model）完美地捕捉到，该模型告诉我们，算法可实现的性能是机器峰值计算性能与其带宽限制性能（ $I \times \text{Bandwidth}$ ）中的最小值。为了提高能效，我们首先需要知道我们处于哪种状态。我们是受限于计算能力，还是受限于数据通信能力？对于许多涉及移动巨大矩阵和张量的大型 AI 模型而言，答案往往是后者。它们是深度内存受限的，追求能效就变成了设法降低高昂的数据移动成本的探索。

巧妙计算的艺术：算法效率

一旦我们理解了硬件的物理约束，我们就可以设计巧妙的策略来在这些约束下工作。目标是设计出不仅在数学上正确，而且与机器的物理特性相协调的算法。

不计算非必要之项

最优化的最强形式是首先就避免做功。最快、最节能的计算是那个你从未执行的计算。这并非懒惰，而是外科手术般的精准。

思考一下在量子化学中模拟分子的巨大挑战。精确解需要探索一个随分子大小呈指数级增长的可能性空间——这个任务足以压垮地球上所有的计算机。然而，描述这个问题的哈密顿矩阵，虽然大到天文数字，但也极其稀疏；其大部分元素都是零。此外，在所有非零的可能性中，只有极小一部分对于描述化学现实是真正重要的。

选择性组态相互作用（Selected Configuration Interaction, SCI）方法，如 Heat-Bath CI (HCI) 和 Adaptive Sampling CI (ASCI)，是这种“智能搜索”原则的绝佳范例。它们并非进行暴力计算，而是从一个小的、合理的解的猜测开始。然后，利用微扰理论的原理，它们估计所有尚未查看的组态的重要性。接着，它们只将最重要的新组态加入到它们的猜测中，并重复此过程。这就像用手电筒在一个巨大、黑暗的图书馆中导航。你不是阅读每一本书，而是先读一本，然后根据它的参考文献决定下一本要读什么，从而迭代地构建一幅仅包含相关知识的图景。

用于此选择的数学标准可以非常简单。例如，在 HCI 中，如果一个新的组态 $|D_a\rangle$ 与我们猜测中已有的任何重要组态 $|D_i\rangle$ 强相关，那么它就会被添加进来，其规则是 $\max_i |H_{ai} c_i| > \epsilon$ ，其中 $H_{ai}$ 是耦合项， $c_i$ 是当前组态的重要性，而 $\epsilon$ 是一个很小的阈值。这使得算法能够修剪一个大到不可能的搜索空间，仅专注于重要的部分，将一个棘手的问题转化为一个可解的问题。这不仅仅是一个技巧；它是在面对指数级复杂性时实现效率的深刻算法原理。

从每次计算中榨取更多价值

除了避免工作，我们还可以使每次必要的计算更便宜、更快速。这通常涉及根据硬件的特定特性来定制算法。

一个强大的技术是使用混合精度（mixed-precision）算术。科学和工程领域的计算传统上使用 64 位或 32 位“浮点”数来表示数值。然而，AI 算法的许多部分，尤其是在深度学习中，对较低的精度表现出惊人的容忍度。使用 16 位数，甚至 8 位整数，有三重好处：这些数字占用更少的内存，意味着需要从仓库移动的数据更少；现代 GPU 拥有专门的硬件（如 NVIDIA 的张量核心），能以更高的速率处理这些较小的数字；并且这些操作本身消耗的功率更少。这就像你意识到可以用杯子粗略地量面粉来烤一个足够好的蛋糕，而不必精确到毫克，从而节省了时间和精力。

另一个关键策略是设计硬件感知算法（hardware-aware algorithms），其明确目标是提高算术强度。如果我们知道自己是内存受限的，我们的目标就必须是尽可能多地重用数据。一种经典技术是分块（tiling）。我们不是将整个庞大的数据集加载到内存中来执行一个操作，而是将它的一个小“块”加载到 GPU 极其快速的片上共享内存中——我们的本地工作台。然后，我们对那个小块执行所有可能的计算，之后再丢弃它并加载下一个块。这最大化了从慢速主内存传输的每字节数据所对应的计算次数，从而极大地提高了效率。

甚至我们在内存中组织数据的方式也很重要。将三维位置数据排列为“数组结构”（Structure of Arrays，即所有 x 坐标在一起，然后是所有 y 坐标，然后是所有 z 坐标），而不是“结构数组”（Array of Structures，即 x1, y1, z1，然后是 x2, y2, z2, ...），可以让 GPU 在一次事务中抓取一大块它需要的连续数据——即合并内存访问（coalesced memory access）。这种数据布局上的简单改变，可以通过迎合硬件的物理设计而对性能产生深远影响。

宏观视角：并行性及其局限

现代效率的提升几乎是并行性（parallelism）的同义词。我们不再使用一个强大的处理器，而是利用数千个较小的核心协同工作。对于某些问题，即所谓的易于并行（embarrassingly parallel）问题，工作可以完美地分割，而工作单元之间无需任何通信。模拟数千种独立的候选药物，或者像在量子输运模拟中看到的那样，为数千个独立的能量和动量点求解，都是这种理想情况的典型例子。

然而，大多数有趣的问题并非如此简单。它们包含固有的串行部分。想象一个油漆工团队粉刷一所房子。大部分工作——粉刷墙壁——可以并行完成。但必须有一个人先去买油漆，也必须有一个人做最后的检查。无论你雇佣多少油漆工，总时间永远不会短于这些串行任务的总和。

这个基本事实被 Amdahl's Law 形式化，该定律指出，用 $p$ 个处理器可实现的最大加速比（ $S$ ）受限于代码中串行部分的比例（ $1-f$ ）： $S(p) = \frac{1}{(1-f) + f/p}$ 如果一个程序只有 5% 是串行的（ $1-f=0.05$ ），那么即使有无限数量的处理器，你所能实现的最大加速比也只有 20 倍。这对算法设计来说是一个发人深省但至关重要的教训：真正的可扩展性需要对程序的串行部分进行不懈的优化，因为它们最终将主导运行时间和能源成本。

不可避免的权衡：效率与质量

最后，我们必须承认，在人工智能的世界里，效率很少是免费的。我们讨论过的技术——减小模型尺寸、使用较低精度、采取算法捷径——通常都伴随着代价：最终结果质量的下降。

例如，在训练一个生成式模型时，为了节省能源而降低模型的容量，可能会导致生成的图像不那么逼真，这种退化可以用 Fréchet Inception Distance (FID) 等指标来衡量。采用像“延迟正则化”（lazy regularization）这样的策略可以加速训练，但代价是 FID 分数会稍差一些。

这给 AI 从业者带来了终极挑战：在计算成本和模型性能之间复杂的、多维的权衡空间中导航。没有单一的“最佳”解决方案。最优选择取决于具体的应用。对于自动驾驶汽车的感知系统，准确性至关重要。而对于一个生成邮件草稿的系统，为了大幅节省能源而牺牲一点精度，可能是一个完全可以接受的妥协。

因此，对高能效人工智能的追求不仅仅是一个工程或环保问题。它迫使我们思考关于问题本质和解决方案价值的更深层次的问题。它推动了计算机体系结构的根本创新，催生了更优雅的算法，并促使我们更深刻地理解信息、计算与物理世界之间的关系。

应用与跨学科联系

既然我们已经探讨了构建精简、高效人工智能的原理，现在让我们踏上一段旅程，去看看这项事业的真正目的。追求高能效人工智能不仅仅是一项节省瓦特或减少计算时间的学术练习；它是一把钥匙，开启了横跨整个科学技术领域的全新可能性。它让我们能够提出更大的问题，解决更难的难题，并以一种新的视角看待世界——从原子的舞蹈到我们星球气候的宏大芭蕾。我们将看到，这些应用不仅是实用的，而且是深刻的，常常揭示出解决看似无关挑战的方法中存在着美妙的统一性。

宏伟棋局：优化我们的世界

让我们从一些熟悉的事物开始：将货物运送到世界各地的庞大而复杂的物流网络。每天，数以百万计的卡车、轮船和飞机将货物从工厂运送到仓库，再送到您的家门口。优化这个庞大的系统是一个极其复杂的问题，就像一场多维度的国际象棋，棋子总是在移动。几十年来，我们一直使用人类的智慧和经典算法来管理这一切，但我们始终知道存在效率低下的地方——半空运行的卡车、走次优路线的轮船、存储效率低下的仓库。

这是人工智能的完美试验场。一个人工智能系统可以同时看到整个“棋盘”，感知到人类操作员或传统程序无法看到的供应、需求、交通和天气模式。通过这样做，它可以指挥一场更高效的芭蕾，减少燃料消耗、行驶里程和时间浪费。这是一种直接、实在的好处。

然而，一位深思熟虑的物理学家或工程师接着必须提出一个关键问题：净效应是什么？人工智能本身并非一个神奇、虚无的大脑；它是一个在数据中心运行的服务器物理系统。这些服务器消耗电力，其制造过程也有其自身的“内含”环境成本。一个真正“高能效”的解决方案必须考虑到自身的开销。正如对物流系统的分析中所探讨的那样，我们必须仔细地绘制一份资产负债表。一方面，我们通过优化整个货运部门获得了巨大的能源节省。另一方面，我们付出了运行人工智能的能源成本及其硬件的摊销足迹。

这种视角的美妙之处在于它迫使我们进行整体性思考。目标不仅仅是优化一个卡车车队，而是优化整个系统，包括优化器本身。这是一个发人深省的提醒：天下没有免费的午餐。然而，它也是一个鼓舞人心的挑战：通过设计更节能的人工智能模型，我们改变了这种平衡，使得在解决更大规模问题的同时，能确保解决方案本身不会变成比它旨在解决的问题更大的问题。

计算显微镜：学习自然法则

现在让我们从宏观的物流世界转向微观的原子和分子领域。在这里，挑战不是协调，而是预测。这个尺度的宇宙受制于极其复杂而美丽的量子力学定律。如果我们想设计一种新药，发明一种更好的电池材料，或者创造一种更高效的催化剂，我们就需要理解原子将如何排列和相互作用。

此领域的“黄金标准”是从第一性原理出发求解量子力学方程。但有一个问题：这些计算的成本惊人地高昂。模拟一个微小蛋白质仅仅扭动一瞬间，就可能让一台超级计算机运行数天。几十年来，这种“计算成本”一直是科学发现的根本障碍。

在这里，高能效人工智能带来的不仅仅是改进，而是一场革命。我们不必每次都求解完整、复杂的量子方程，而是可以走一条聪明的捷径。我们只对少数几种原子排列进行几次昂贵的计算。然后，我们将结果——原子间的力、系统的能量——展示给人工智能。人工智能的任务是学习其潜在的模式，找到一个能将原子位置映射到作用于其上的力的函数。

从本质上讲，我们正在训练人工智能成为一个“物理学预言机”。它学习一个近似但速度极快的物理定律版本。这种由人工智能驱动的模型，通常被称为“机器学习势”，其计算速度可以比它模仿的量子力学现实快数百万倍。这不仅仅是数量上的加速；它是一个质的飞跃。这就像用超级计算机取代了手摇计算器。曾经被认为不可能的问题，比如模拟一个病毒的整个生命周期或筛选数百万种候选材料以制造新的太阳能电池，现在正变得可以处理。

当然，这不是魔法。正如其底层数学所示，构建这样的模型需要非常小心，以确保它尊重物理学的基本原理，如电荷和能量守恒。但回报是巨大的。通过使用人工智能作为自然法则的计算高效代理，我们实际上正在构建一种新型的计算显微镜，它让我们能够以前所未有的规模和速度探索分子世界。

缝合数字地球

从广阔的全球贸易网络到无穷小的原子之舞，我们现在将视角放大到整个地球的尺度。我们这个时代最伟大的科学挑战之一是理解和预测地球的气候。气候模型不是一个单一、庞大的代码。它是一个由专业模型组成的联合体：一个用于大气，一个用于海洋，一个用于海冰，还有一个用于覆盖格陵兰和南极洲的巨大冰盖。

一个巨大的挑战在于让这些不同的组件相互“对话”。大气模型可能将世界看作一个粗糙的经纬度方格网格，而冰盖模型则使用一个高度详细、非结构化的网格来追踪冰川错综复杂的流动。当大气模型想告诉冰盖模型降了多少雪时，信息必须从一张“地图”转换到另一张“地图”。

这个过程，被称为“重映射”（remapping）或“耦合”（coupling），充满了风险。如果处理不慎，它可能会无中生有地创造或毁灭能量或水，违反了基本的守恒定律。用于这种转换的传统方法通常是准确性、计算成本和严格执行守恒定律之间的折衷。它们是必不可少的，但在现代地球系统模型中构成了显著的计算瓶颈。

再一次，高能效人工智能提供了一条优雅的前进道路。我们可以训练一个神经网络充当不同模型网格之间的“通用翻译器”。通过向它展示来自两个网格的数据示例，人工智能以一种既高度准确又（通过巧妙设计）完全守恒的方式，学习了插值的微妙、非线性艺术。它学会了在不洒漏任何内容的情况下传递信息。

这种由人工智能驱动的耦合使我们能够构建更逼真的地球“数字孪生”。节省下来的计算资源可以被重新投入，以更高分辨率运行模型，从而更真实地捕捉飓风和大气河流等关键现象。或者，我们可以运行大量的模拟“集成”，以更好地描绘我们未来气候预测中的不确定性。通过用一个精简、可学习的组件替换一个僵化、昂贵的算法组件，我们正在磨砺我们应对未来挑战的最重要工具之一。

从优化供应链到加速材料发现，再到完善我们对全球气候的认识，故事都是一样的。高能效人工智能是一种催化剂，一个让我们能够更明智、更广泛地利用计算力量的工具。其深远影响来自于它学习复杂系统的高效、准确表示的非凡能力，为科学和工程领域一些最紧迫、最引人入胜的问题提供了统一的解决途径。