try ai
科普
编辑
分享
反馈
  • Transformer

Transformer

SciencePedia玻尔百科
核心要点
  • 经典电气变压器通过电磁感应在电路之间传递能量,其电压改变能力由线圈的匝数比决定。
  • 现代人工智能Transformer使用自注意力机制处理信息,使其能够捕捉数据中对于旧模型难以处理的长程依赖关系。
  • 两种Transformer都通过巧妙地引导影响和管理内部关系,将输入(能量或数据)转换为更有用的输出来发挥作用。
  • 这些技术的应用范围广泛,从为日常电子设备供电,到解码基因组学中的“生命语言”,再到为复杂的物理系统建模。

引言

“Transformer”一词在现代科技中具有独特的双重含义。一个多世纪以来,它一直描述着电气工程的基石——一种由铁和铜构成的装置,通过操纵能量为我们的世界供电。然而,最近,一个革命性的人工智能架构采用了同样的名字,它通过操纵信息,重新定义了从自然语言处理到基因组学等多个领域。尽管这两种创造物源于完全不同的学科,但它们共享一个深刻的概念核心:将输入优雅地转换为结构更清晰、更有用的输出。本文旨在弥合这两个世界之间的鸿沟,探索转换能量与转换数据之间惊人的相似之处。

在接下来的章节中,我们将踏上一段旅程,探索这两种技术奇迹。第一章“原理与机制”将首先通过电磁感应揭开经典变压器操作的神秘面纱,然后剖析驱动现代人工智能Transformer的革命性自注意力机制。随后,“应用与跨学科联系”一章将展示这些原理如何被应用,从电子学中阻抗匹配的实际任务,到利用人工智能解码DNA语言的前沿应用,揭示了一种连接工业革命与信息时代的共同创新精神。

原理与机制

经典变压器:场与铁的交响曲

从本质上讲,经典变压器是物理学中最优美、最对称的思想之一的证明:变化的电场产生磁场,而变化的磁场则产生电场。正是这种由James Clerk Maxwell精心构建、并由Michael Faraday首次以实用形式展示的优雅互动,使得变压器能够施展其魔力。

想象两个独立的线圈,即​​初级线圈​​和​​次级线圈​​,缠绕在一个共同的铁芯上。当我们向初级线圈发送交流电(AC)时,我们不仅仅是在来回推动电子。我们正在产生一个不断增强、减弱和反转方向的磁场。铁芯是一种具有高​​磁导率​​的材料,它就像一条高速公路,收集并集中这种波动的磁通量,并将其几乎全部引导通过次级线圈。

现在,从次级线圈的角度来看,它正沐浴在一个不断变化的磁场中。正如Faraday所发现的,自然界厌恶磁通量的变化。为了抵消这种变化,线圈会产生自己的电压——一种电动势——来驱动电流。通过这种方式,能量从初级线圈传递到次级线圈,而没有任何直接的电气连接。这是一种完全由磁场介导的、幽灵般的超距作用。

功率的比率

那么,变压器是如何改变电压的呢?答案异常简单:关键在于匝数。在铁芯中,每一单圈导线感应出的电压是相同的。因此,一个线圈的总电压就是单圈电压乘以匝数。这就引出了理想变压器的黄金法则:电压之比等于匝数之比。

VsVp=NsNp\frac{V_s}{V_p} = \frac{N_s}{N_p}Vp​Vs​​=Np​Ns​​

在这里,VVV代表电压,NNN代表匝数,下标ppp和sss分别表示初级线圈和次级线圈。如果你想降低电压(​​降压​​),你就让次级线圈的匝数少于初级线圈。如果你想提高电压(​​升压​​),你就给次级线圈更多的匝数。

这个原理是我们整个电网的基石。但它对于我们日常使用的无数电子设备也至关重要。考虑一个电子爱好者正在为一个敏感的音频放大器构建电源。墙壁插座提供120120120伏的电压,但放大器需要一个低得多的15.015.015.0伏的峰值电压。通过仔细选择一个具有正确匝数比的变压器——在这种情况下,大约是每111个次级匝数对应10.310.310.3个初级匝数——高市电电压就可以安全高效地转换为所需的精确低电压。计算甚至必须考虑到二极管等其他元件上的微小电压降,这展示了这一简单原理所能达到的精度。

无法避免的损耗现实

当然,世界并非理想,没有完美的变压器。优雅的能量转换总是伴随着损耗,这些损耗主要以热量的形式表现出来。理解这些损耗是设计高效、可靠变压器的关键。

首先是​​铜损​​。通常由铜制成的绕组导线本身具有微小但非零的电阻。当电流流过它们时,一部分电能不可避免地会根据我们熟悉的P=I2RP = I^2 RP=I2R定律转换成热量。一个更真实的变压器模型会考虑这些​​绕组电阻​​,表明要向负载提供一定量的功率,一个真实变压器必须比理想变压器消耗更多的输入功率。额外的功率,由Is2RsI_s^2 R_sIs2​Rs​和Ip2RpI_p^2 R_pIp2​Rp​等项给出,就是为加热导线而付出的能量“税”。

其次,我们有​​铁损​​,这更为微妙。铁芯不仅仅是一个被动的管道;它是磁场互动中的一个积极参与者。

  • ​​磁滞损耗​​:磁化一种材料需要能量。当交流电每秒数百次地反转方向时,铁芯内的磁畴被迫迅速重新取向。这个过程并非完全流畅;存在一种内部摩擦。克服这种改变的“阻力”所消耗的能量以热量形式损失掉了。这种现象由材料的​​磁滞回线​​(磁通量密度BBB对磁场强度HHH的图)来描述。该回线所包围的面积代表每个周期、每单位体积损失的能量。为了最小化这种损耗,变压器铁芯由具有非常窄磁滞回线的“软”铁磁材料制成,这些材料磁化和退磁所需的能量很少。

  • ​​涡流​​:在次级线圈中感应出电压的那个变化的磁通量,同样也在铁芯内部感应出电压。这些电压在铁芯内部驱动着旋转的电流,就像溪流中的漩涡。这些​​涡流​​没有任何用处;它们只是加热铁芯并浪费能量。解决这个问题的巧妙方法是,不使用整块铁来构造铁芯,而是使用一叠被称为​​叠片​​的薄绝缘钢片。这些绝缘层打断了大涡流的路径,从而显著减少了这种损耗源。

最后,还有一种可听见的损耗:特有的​​变压器嗡鸣声​​。这种声音并非像人们可能猜测的那样,来自电流本身。相反,它是一种物理的、机械的振动。造成这种现象的机制被称为​​磁致伸缩​​:铁磁材料在施加磁场时其形状和尺寸会轻微改变的趋势。当铁芯中的磁场以线路频率(例如,606060赫兹)振荡时,铁芯本身会膨胀和收缩,从而振动并产生两倍于线路频率(120120120赫兹)的声波。这就是为什么一个安静的变压器需要一个由磁致伸缩非常低的合金制成的铁芯。

现代Transformer:数据与注意力的交响曲

几十年来,“transformer”这个词只有一个意思。但在2017年,一篇题为“Attention Is All You Need”的革命性论文介绍了一种新型的Transformer——一种深度学习架构,此后重新定义了人工智能。从表面上看,这两者截然不同。一个是操纵能量的铜铁物理设备;另一个是操纵信息的抽象数学结构。然而,它们之间存在一个优美的概念联系:两者都是通过巧妙地引导影响,将输入转换为更有用的输出的设备。

旧方法:循环的束缚

要理解Transformer的突破,我们必须首先理解它解决的问题。多年来,处理序列——如文本句子或时间序列中的步骤——的主流模型是​​循环神经网络(RNNs)​​。RNN的工作方式是顺序的,就像一个人一次读一个词地读书。它读取第一个词并形成一个“记忆”(一个隐藏状态向量)。然后它读取第二个词,并根据新词和它对第一个词的记忆来更新它的记忆。

这种逐步处理的过程有一个根本性的缺陷。为了让模型理解一个长段落末尾的词与开头词之间的关系,来自第一个词的信息必须在一长串连续的记忆更新中存活下来。但通常情况下,它并不能。其影响会逐渐消失,这个问题被称为​​梯度消失问题​​。用微积分的语言来说,学习所需的信号——梯度——是作为一长串矩阵的乘积计算的,时间序列中的每一步都有一个矩阵。这个乘积趋向于缩小到零,使得学习长程依赖关系变得不可能。

革命:自注意力

Transformer架构提出了一个激进的替代方案。如果模型不是逐字处理一个句子,而是能够同时查看每个词,并自行决定哪些其他词对于理解它最相关呢?这就是​​自注意力​​的核心机制。

想象一下句子中的每个词都广播三个向量:一个​​查询(Query)​​(我正在寻找什么)、一个​​键(Key)​​(我包含什么)和一个​​值(Value)​​(我实际上是关于什么)。为了确定一个给定词的上下文,它的查询向量会与句子中每个其他词的键向量进行比较。这种比较会生成一个“相关性”或“注意力”分数。然后,这些分数被用来创建句子中所有值向量的加权平均值。结果是该词的一个新表示,这个表示被其最相关的伙伴(无论它们相距多远)丰富地告知。

  • ​​直接路径​​:关键的洞见在于,这种机制在序列中的任意两个词之间创建了一条直接的计算路径。信息传播的路径长度始终为一步,即O(1)\mathcal{O}(1)O(1),与词之间的距离无关。这打破了RNN的顺序瓶颈,RNN的路径长度与距离成正比,为O(L)\mathcal{O}(L)O(L)。通过提供这些跨越序列的“虫洞”,自注意力使得梯度能够自由流动,使其在捕捉​​长程依赖关系​​方面表现出色。这不仅仅是对语言翻译的福音。它在生物信息学中也至关重要,因为一个蛋白质的功能可能取决于在线性链上相隔数百个位置、但在最终三维结构中彼此靠近的氨基酸之间的相互作用。Transformer可以“看到”这些非连续的连接,而纯粹的循环模型则会丢失这些连接。

  • ​​多重视角​​:单一的关系通常是不够的。在句子“The animal didn't cross the street because it was too tired”中,“it”指的是“the animal”。这是一种共指关系。但“tired”与“it”有一种描述性关系。为了捕捉这些多样的依赖关系,Transformer使用​​多头自注意力​​。模型并行运行多个注意力机制,每个机制都有自己的一套查询、键和值变换。每个“头”都可以学会专注于不同类型的关系——句法的、语义的或其他——从而使模型能够对序列建立一个更丰富、多层面的理解。

一场革命的细则

这种强大的机制也带来了其自身的挑战和微妙之处,而其解决方案与核心思想本身一样优雅。

  • ​​二次方成本​​:自注意力的“全体对全体”比较并非没有代价。对于长度为TTT的序列,模型必须计算T×TT \times TT×T个注意力分数。这意味着计算和内存成本以二次方形式增长,即O(T2)\mathcal{O}(T^2)O(T2)。相比之下,RNN的成本是线性增长的,为O(T)\mathcal{O}(T)O(T)。这就产生了一个权衡。对于非常长的序列,Transformer的二次方成本可能会变得令人望而却步。存在一个序列长度TwinT_{win}Twin​,当序列长度超过它时,RNN在时间和内存方面都变得更有效率。这个阈值取决于具体架构的常数,但它的存在表明没有一个“最好”的模型能适用于所有问题。

  • ​​位置感​​:一个简单的自注意力机制将序列视为一个无序的词“袋”。它是​​置换等变的​​:如果你打乱输入词的顺序,输出仅仅是原始输出的打乱版本。它没有固有的词序感。句子“狗咬人”和“人咬狗”看起来会危险地相似。解决方案非常简单:我们必须明确地给模型关于每个词位置的信息。这是通过向每个词的输入表示中添加一个​​位置编码​​向量来完成的。这些编码给了模型一种“第一”、“第二”、“相邻”等感觉,打破了对称性,使其能够将语言作为其本来的有序序列来处理。

  • ​​保持稳定​​:构建非常深层的这些注意力层堆栈带来了一个工程挑战:如何保持训练过程的稳定?深度学习中一个常用的技术是批量归一化(Batch Normalization, BN),它根据整个数据批次的统计数据来归一化激活值。然而,这对于Transformer来说并不适用。对于小批量数据,统计数据是有噪声的,而且该方法在处理语言任务中常见的可变序列长度时存在问题。取而代之的是,Transformer使用​​层归一化(Layer Normalization, LN)​​。LN为每个序列元素独立地在其自身的特征维度上计算归一化统计数据。这使得该过程独立于批量大小和其他序列元素,为训练正在改变我们世界的庞大语言模型提供了所需的稳定性。

从一卷转换电压的线圈,到一个转换意义的代码块,其原理始终保持着一种深刻的优雅:通过理解输入内部的关系来创造更丰富的输出。

应用与跨学科联系

“transformer”这个词存在着一种奇妙而美妙的双重性。一方面,它让人联想到嗡嗡作响的变电站和为我们文明供电的广阔电网。它是工业世界的基石,是电能的主宰。另一方面,对于新一代的科学家和工程师来说,同一个词让人联想到人工智能,想到能够写诗、翻译语言和破译生命密码的机器。它是信息革命的基石,是数据的主宰。

这两种transformer有关联吗?并非源于血脉,而是源于精神。两者从根本上都关乎转换的行为:将某物从一种形式变为另一种形式,使其更有用。经典变压器将高压低电流的电能转换为低压高电流的电能,反之亦然。现代人工智能Transformer将原始、非结构化的数据转换为结构化的表示,富含上下文和意义。本章将带领我们游历两者的应用,揭示一个贯穿各学科的、优雅而强大的转换主题。

能量的主宰:经典变压器

我们的旅程始于一个我们几乎注意不到的无处不在的设备:你笔记本电脑或手机上那个不起眼的电源适配器。如果你打开这些小盒子中的一个,你会发现其中最先也是最重要的元件之一就是变压器。我们墙上的电源插座提供高电压的交流电(AC)——可能是120120120或240240240伏——这对于我们设备中精密的电路来说过于强大和危险。变压器的首要且最关键的工作就是将这个电压“降压”到一个更安全、更易于管理的水平,比如555或121212伏。它用令人惊叹的简单方式完成这一任务,仅使用缠绕在铁芯上的两个线圈。线圈匝数的比率精确地决定了输出电压与输入电压的比率。这个简单的设备是电网的原始电力与电子产品的精细世界之间的门户,构成了几乎所有将墙壁交流电转换为电子设备正常工作所需的直流电(DC)的电源的第一级。

但变压器的天才之处远不止于简单的电压转换。它拥有一种更微妙、更深刻的能力:优化能量的流动。想象一下,你正试图通过一个扬声器播放放大器里的音乐。目标是将最大量的信号功率(音乐)传输到扬声器,同时不将放大器的能量作为无用的热量浪费掉。这是一个经典的​​阻抗匹配​​问题。

一个简单的放大器设计可能仅在待机时就浪费超过四分之三的功率!为什么?因为同一个电路路径必须同时处理来自电源的恒定直流电和音乐的快速变化的交流信号。这两个角色常常相互冲突。在这里,变压器施展了一个真正优雅的技巧。变压器的初级绕组对直流电的电阻非常低。这意味着当放大器处于待机状态时,很少有直流功率在输出级作为热量浪费掉。然而,对于音乐信号的交流电,变压器呈现出一个高得多的“交流电阻”,即阻抗。通过仔细选择变压器的匝数比,我们可以使扬声器的阻抗看起来与放大器希望看到的完全匹配。

这就是问题的核心:变压器为直流和交流分量创造了两个不同的世界。它为直流偏置电流提供了一条简单、低损耗的路径,使放大器的晶体管能够在其最有效的范围内工作,同时为交流信号创建了一条完美匹配的路径,使其能高效地流向负载。正是这种双重特性,使得变压器耦合放大器能够达到理论上50%50\%50%的最大效率,这恰好是没有变压器的简单设计的两倍。这是一个简单的物理设备如何解开一个复杂问题的优美例证。这种阻抗匹配原理不仅适用于音响发烧友;它在无线电工程中连接天线与发射器,以及在电力公用事业网中确保能量长距离高效传输方面,都至关重要。

信息的主宰:人工智能Transformer

在电气变压器重塑我们世界几十年后,一项源于计算机科学的新发明赢得了同样的名字。这个Transformer不操纵电磁场,而是操纵抽象的信息场。其革命性的洞见在于一种理解上下文的新方式,通过一种名为​​自注意力​​的机制。

想象一下阅读这个句子:“The bee landed on the flower because it had nectar.”(蜜蜂落在花上,因为它有花蜜。)“it”指的是什么?蜜蜂还是花?对我们来说,答案是显而易见的。由“nectar”提供的上下文清楚地表明“it”是花。在Transformer出现之前,计算机模型在处理这种长程依赖关系时举步维艰。自注意力给了它们一种方法,可以权衡序列中每个词相对于其他所有词的重要性,从而在遥远但相关的概念之间建立直接、动态的联系。这种捕捉上下文的能力已被证明无异于一种超能力,在远超自然语言的领域中解锁了各种应用。

解码生命语言

人工智能Transformer最惊人的应用或许是在基因组学和合成生物学中,它被用来阅读和解释DNA的语言。一个基因是由一个四字母表(A,C,G,TA, C, G, TA,C,G,T)书写的长序列文本。在这段文本中隐藏着各种指令,比如“从这里开始编码蛋白质”和“在这里停止”。一些最关键的指令,称为剪接位点,可能被数千个字母的非编码DNA(称为内含子)隔开。生物学家知道,这些遥远的位点必须在功能上相互“沟通”,基因才能被正确处理,但对这种相互作用进行建模是一个巨大的挑战。

于是Transformer登场了。当科学家们用海量的基因组数据训练一个Transformer模型时,他们发现了非同寻常的事情。通过可视化模型的内部自注意力权重,他们可以亲眼看到它学习到长程的生物学相互作用。模型会自发地在一个内含子开头的特定“供体”位点和数千个字母之外其对应的“分支点”位点之间建立强大的注意力连接。这个人工智能,在没有被明确教授任何生物学知识的情况下,重新发现了基因表达的一个基本机制。注意力图成为一种新型显微镜,让我们能够看到基因组的功能性架构。

其复杂性不止于此。遗传密码具有冗余性;几个不同的三字母“词”(密码子)可以指定同一种氨基酸。使用人工智能的生物学家早期的一个设计选择是,应该给模型最终的氨基酸还是原始的密码子。通过选择使用密码子,Transformer可以学习到“同义”密码子使用中微妙但至关重要的模式。这种“密码子偏好”是一种真实的生物学信号,可以影响蛋白质生产的速度和效率。一个在更高层次的氨基酸上训练的模型将完全看不到这些信息。然而,一个在更低层次的密码子上训练的Transformer,可以学习这些遗传语言的方言,从而在合成生物学中实现更精细的设计[@problem_-id:2749071]。

科学的通用罗塞塔石碑

Transformer架构的真正革命不仅仅是为单个任务构建单个模型,而是​​预训练和微调​​的范式。科学家们现在可以构建巨大的模型,如“DNA-BERT”,并在来自数千个物种的几乎所有已知基因组序列数据上进行训练。这种无监督的预训练就像要求一个学生阅读一个巨大图书馆里的每一本书,不是为了通过某个特定的考试,而仅仅是为了学习语言本身的基本语法和结构。

这样的模型对“生命语言”产生了深刻的、内在的理解。然后,这个预训练的模型可以被给予一个小的、特定的数据集——例如,几百个启动子(基因的“开启”开关)的序列——并为该任务进行“微调”。结果令人震惊。模型可以从非常少的数据中学到以惊人的准确性识别启动子,因为它不是从零开始。它正在利用其庞大、已有的知识。这种迁移学习方法作为一个强大的正则化器,引导模型走向与一般生物学原理一致的解决方案,并且它使数据有限的实验室也能使用强大的人工智能,从而实现了AI应用的民主化。

驾驭复杂性与开拓新前沿

当然,这种能力是有代价的。自注意力机制的原始形式,其计算复杂度随序列长度呈二次方增长(O(L2)O(L^2)O(L2))。这使得它在处理非常长的序列(如整个文档或高分辨率图像)时成本过高。然而,创造性的工程再次提供了优雅的解决方案:​​分层Transformer​​。这种架构不是将整本书作为一个巨大的序列来处理,而是首先阅读和总结单个段落,然后阅读这些摘要的序列来理解整本书。通过将问题分解,它显著减少了计算和内存负担,使得将注意力的力量应用于更大规模的问题成为可能。

这段旅程在或许是所有跨学科联系中最深刻的一点上达到高潮:使用人工智能Transformer来帮助建模物理世界本身。考虑预测移动流体中温度如何演变的问题,该过程受平流-扩散方程支配。系统的物理特性为我们需要什么样的“记忆”提供了关键线索。一个以扩散为主的系统(热量在静止介质中散开)具有短暂的、局部的记忆;一个点的温度主要受其近期周围环境的影响。一个以平流为主的系统(一缕热染料被河流携带)具有长程的、非局部的记忆;远在下游的温度取决于很久以前远在上游发生的事情。

这种物理洞见可以直接指导我们选择人工智能架构。对于短记忆的扩散系统,像ConvLSTM这样的循环模型,由于其擅长建模局部的、顺序的依赖关系,可能就足够了。但对于长记忆的平流系统,Transformer是更优越的工具。它的自注意力机制可以跨越巨大的时间跨度创建直接的指针,完美地适用于捕捉平流中固有的长滞后因果关系。这不仅仅是把人工智能当作一个黑箱来使用;这是经典物理学和现代机器学习之间一场美丽的对话,其中一方的结构为另一方的设计提供了信息。

从构建我们现代世界的铁与铜线圈,到正在定义我们未来的硅与软件,转换的概念始终是一个深刻而统一的原则。一个转换能量,另一个转换信息,但两者都为我们提供了一个强大的镜头,通过它我们可以理解、操纵和发现编织我们宇宙的隐藏联系。