
在人工智能领域,词嵌入代表了一次巨大的飞跃,它将词语从孤立的符号转变为丰富几何空间中的点。这项创新使计算机能够掌握语义关系,实现诸如著名的“国王 - 男性 + 女性 ≈ 女王”之类的类比推理。然而,这种强大的能力也伴随着一个隐藏的弱点。让模型学习意义的过程,也迫使它们学习偏见。人类语言中充满社会偏见和刻板印象的统计模式,不仅被模型复刻,还常常被放大并固化到模型的基础结构中。本文旨在解决一个关键问题:抽象的偏见是如何具体化为几何结构的?其深远影响又是什么?
为了回答这个问题,我们将首先探讨词嵌入的“原理与机制”,深入研究分布假说如何创建一幅语言地图,以及这幅地图又如何不可避免地继承了其源数据的缺陷。我们将揭示社会刻板印象如何演变为几何方向,以及词频等统计特性如何产生其自身的偏见形式。随后,“应用与跨学科联系”一章将展示这些带偏见的嵌入在现实世界中的影响,追溯它们在医学、金融和电子商务等领域的作用,并揭示偏见的几何学如何在现代人工智能系统中造成可预测的脆弱性。
想象一下,语言是一座广阔而杂乱的城市,每个词都是一个地点。有些地方,比如“国王”和“女王”,同在皇家区;另一些地方,比如“走”和“跑”,则是运动区的近邻。计算机怎么可能绘制出这样一幅地图呢?在很长一段时间里,这是不可能的。词语仅仅是任意的符号,就像没有地图连接的街道名称一样。
词嵌入改变了一切。它们就是地图。在这幅地图上,每个词都不是二维平面上的一个点,而是高维空间中的一个点——一个向量。这不仅仅是一个巧妙的归档系统,更是一个几何宇宙,词语之间的关系在这里具有了意义。“猫”和“狗”之间的距离很小;从“法国”到“巴黎”的方向与从“意大利”到“罗马”的方向惊人地相似。这就引出了看似神奇的著名“向量算术”:
从“男性”移动到“国王”定义了一个代表“王权”的向量。如果我们将这同一个王权向量加到“女性”上,我们就会稳稳地落在“女王”的邻近区域。这就是词嵌入的美妙与力量所在。但计算机究竟是如何学会绘制这样一幅地图的呢?如果地图的绘制者——数据本身——存在缺陷,又会发生什么?
这个秘密源于语言学家J.R. Firth提出的一个简单而深刻的观点,即分布假说。它指出:“观其伴,知其义(You shall know a word by the company it keeps)。”一个词的意义并非其固有属性,而是由其周围出现的词语所定义。计算机无法抽象地理解“正义”,但它可以阅读数十亿个句子,并注意到“正义”经常与“法庭”、“法律”、“公平”和“真相”等词语一同出现。它也注意到“正义”很少与“煎饼”或“粒子加速器”搭配。
像Word2Vec这样的模型本质上是这些共现关系的不懈记账员。它们在浩如烟海的文本上滑动一个小窗口,并学着将共享相似上下文的词语放置在嵌入空间中的相近位置。那些出现在“政府”和“首都”语境中的词语(如“巴黎”和“罗马”)将被推向空间中的相似区域。
这个简单的原则效果惊人,但它有一个关键的弱点。模型没有常识,只知道它所见过的东西。如果一个短语是习语,其意义具有非组合性,模型就很容易被迷惑。以短语“spill the beans”(意为“泄露秘密”)为例。模型见过“spill”(洒)与“coffee”(咖啡)和“water”(水)搭配,也见过“beans”(豆子)与“eat”(吃)和“grow”(生长)搭配。基于这些纯粹的分布事实,它可能会得出结论,认为“spill the beans”是一个字面上的物理动作。模型对局部词语上下文的依赖可能导致其只见树木,不见森林,无法领会整个短语的意义并非其各部分之和。这是我们得到的第一个线索:这些模型并非在“思考”,而是在为其所接收的文本中的统计模式创建一个几何镜像。
如果地图反映了其所描绘的疆域,而这疆域就是我们书写的文本,那么地图将继承我们语言中所有的怪癖、刻板印象和偏见。这就是词嵌入中偏见的根源。如果我们的历史文本更频繁地将“医生”一词与男性代词关联,将“护士”与女性代词关联,模型就会勤勉地学习这种模式。由此产生的几何结构将编码这种关联。
我们实际上可以将其可视化。想象一下,在嵌入空间中确定一个“性别方向”,即一个向量 ,它从一组与女性相关的词(如“她”、“女人”)的平均位置指向其男性对应词(“他”、“男人”)的平均位置。这个向量并非偶然,而是模型从数据中提炼出的一个切实的意义维度。
当我们取一个像“医生”这样本应“中立”的词,并测量它与这个性别方向的对齐程度时,会发生什么?我们可以用一个简单的点积来计算,。如果这个值为正,则“医生”的向量偏向该轴的“男性”一侧;如果为负,则偏向“女性”一侧。在许多标准的、现成的嵌入模型中,我们发现像“程序员”、“工程师”和“医生”等词的向量带有男性化倾向,而“家庭主妇”、“接待员”和“护士”则带有女性化倾向。社会刻板印象已经被固化到了意义的几何结构之中。我们集体偏见的幽灵,如今在机器中挥之不去。
但模型仅仅是一面被动的镜子,忠实地反映文本的统计数据吗?还是它可能让情况变得更糟?这就引出了一个更微妙、更令人不安的问题:偏见放大。假设原始文本数据显示,男性代词与“程序员”共现的倾向性很小。我们可以测量这一点。然后,我们可以在最终的嵌入空间中测量“他”和“程序员”的几何接近度。如果几何关联性比原始文本统计数据所显示的更强,那么模型就放大了偏见。它将一个微小、不易察觉的模式转变为一个更显著的几何特征。这种情况确实会发生。一种量化此现象的巧妙方法是比较模型几何邻域的差异与原始共现数据的差异,这个概念被称为公平性放大(Fairness Amplification)。模型不仅仅是一面镜子;有时,它是一面哈哈镜,会夸大它所反映的世界的缺陷。
并非所有偏见都像社会偏见那样显而易见。有些是学习过程本身的统计产物。其中最重要的之一是频率偏见。
想一个非常常见的词,比如“is”或“go”。它出现在数百万种不同的上下文中。在训练期间,每当它出现时,其向量都会得到一次微小的调整。由于它如此常见,它会不断地被各种不同的邻居词调整。这往往会使其向量的长度(即范数)增加。相比之下,像“古生物学家”这样的罕见词被更新的频率要低得多。
那么,我们如何衡量两个词的“相似性”呢?我们主要有两个选择。我们可以使用点积,。这个指标对向量之间的夹角和它们的长度都很敏感。一个范数非常大的向量,即使其夹角不是完美匹配,也可能获得很高的点积得分。或者,我们可以使用余弦相似度,即点积除以范数的乘积:。这个指标完全忽略长度,只考虑向量之间的夹角。
陷阱就在于此。如果高频词具有较大的范数,那么在相似性任务中使用点积会偏向于选择高频词作为答案,仅仅因为它们的向量更长。模型可能会偏爱一个常见但不太精确的词,而不是一个罕见但完美匹配的词。
有趣的是,这些模型的设计者意识到了这种“频率的暴政”。他们内置了一种巧妙的防御机制:子采样。在训练过程中,算法会随机丢弃一部分非常高频词的出现。这看起来很浪费,但却是一个绝妙的技巧。它有意地使训练过程产生偏向,实际上是在告诉模型:“‘the’这个词我已经见过一百万次了,别再那么关注它了,多听听那些罕见词。”这有助于防止高频词的范数失控增长,并给那些更罕见、语义更具体的词语一个机会来发展出更好的表示。
即便是模型架构的“螺丝钉”也能在区分信号和噪声方面发挥作用。考虑一个简单的线性模型,它建立在词嵌入之上进行预测:。这里, 是词嵌入, 是一个权重向量,而 是一个简单的标量偏置项。人们很容易将 忽略为只是一个次要的调整参数。
但它扮演着一个优美而深刻的角色。如果我们对嵌入进行预处理,使其均值为零(一种称为均值中心化的常用技术),就会发生一件奇妙的事情。偏置项 会学会捕捉我们试图预测的事件的整体、与上下文无关的基准率。例如,如果我们要预测一个句子是否表达积极情绪,并且数据中70%的句子是积极的,那么偏置项 会自行调整,以产生一个0.7的基线预测。这样一来,权重向量 就被解放出来,只需专注于学习 中的特定词语特征如何导致情绪偏离该基线。架构本身提供了一种自然的方式来解开全局频率偏见(由 捕捉)与特定语义信号(由 捕捉)。
如果偏见被编码为几何方向,我们难道不能通过一些几何手术来移除它吗?这是许多去偏见算法的核心思想。
让我们回到“性别方向”向量 。对于任何词向量,比如 ,我们可以将其分解为两部分:一个沿着性别方向的分量,以及一个与之垂直的分量。去偏见的过程在概念上很简单:只需切掉向量在偏见方向上的投影部分。新的、“去偏见”的向量 就是剩下的部分:
这个过程被称为零空间投影,它优雅且高效。经过这次手术后,新的“医生”向量在性别轴上的投影为零。性别化的关联被手术般地移除了。在某些情况下,我们可以使用主成分分析(PCA)等技术自动识别出这个主导的偏见方向,该技术能够找到数据中变化的主要轴线。
但手术从来没有无风险的。语言是一个错综复杂的关联网络。编码“医生是男性”的几何关系,可能也与有用的、无偏见的语义信息交织在一起。当我们切除偏见时,我们是否也损害了地图解决有用类比的能力?答案往往是肯定的。我们经常面临一个权衡:减少偏见可能会以在其他语义任务上性能轻微下降为代价。这揭示了一个深刻的真理:“修复”偏见不是一个简单的技术问题。它是一种复杂的平衡行为,迫使我们决定我们希望模型保留哪些方面的意义,以及我们愿意为创造一个更公平的世界表征付出什么样的代价。
在前面的讨论中,我们深入探讨了词嵌入的核心,探索了如何将生动、混乱的语言世界提炼成一个结构化的几何空间。我们看到,词语不再仅仅是符号,而是高维景观中的点,其中邻近性代表着意义。这是一个极其优美的思想,一首数学的诗篇。但正如所有强大的思想一样,它的真实本性只有在离开纯粹的理论世界,进入纷繁复杂的现实应用中时才会显现。
当这些意义的几何地图被用来做决策——诊断疾病、批准贷款、推荐产品或翻译语言时,会发生什么?我们即将开启一段跨越医学、金融到计算机视觉等多个学科的旅程,见证这一概念惊人的效用。但我们也会发现,在这段旅程中,一个幽灵般的同伴如影随形:偏见。捕捉意义的过程也同样捕捉了偏见,嵌入空间优雅的几何结构变成了一面镜子,反映出其诞生数据中那些微妙的、往往不受欢迎的模式。
让我们从一个利害关系极高的领域开始:医学。想象一位医生试图根据数千份临床笔记来诊断病人。对人类来说,这是一项艰巨的任务,但对于配备了词嵌入的计算机来说,这变成了一个导航问题。一个复杂的系统可能会提取临床笔记中的所有词语,将它们转换为向量表示,然后计算整个文档的聚合“重心”,或许还会给予信息量更大的词语更高的权重。这个代表了笔记精髓的单一向量,随后被送入一个分类器,以做出预测,例如患糖尿病的可能性。
这是一项非凡的能力。但偏见是如何悄然而至的呢?嵌入是从大量的过往临床笔记档案中学习的。如果在那些历史数据中,某些描述性词语——或许与生活方式、社会经济地位甚至种族有关——在统计上与糖尿病诊断相关联,那么嵌入将忠实地学习这种关联。“糖尿病”的向量将在几何空间中向这些其他词语的向量靠拢。系统没有任何现实世界的理解,只是学习模式。它建立的世界模型并非基于因果医学科学,而是基于其训练数据中的统计幽灵。其结果可能是一个在平均水平上准确,但对某些人群系统性地存在偏见的模型,将历史上的不平等固化到未来的临床决策中。
将“世界观”编码为向量的这一过程,在金融界表现得更为清晰。想象一下,构建一个系统来标记公司年报的欺诈风险。我们可以相当明确地设计一个有偏见的系统。我们可以自己定义嵌入,决定像“重述”、“调查”和“罚款”这样的词,其向量应指向“高风险”方向,而像“增长”、“盈利能力”和“合规”这样的词则指向“良性”方向。当一份新报告进来时,系统会计算其词语的平均方向。如果平均向量更偏向风险一侧,就会触发警报。这在本质上是对嵌入如何从数据中学习的一种夸张描绘:如果像“调查”这样的词语持续出现在关于欺诈公司的文件中,训练过程会自动将它们的嵌入推向空间中的“风险”区域。偏见并非魔法,它只是词语出现语境的反映。
然而,嵌入的真正力量在于它们不仅限于语言。其核心原则——共现即相似——是普适的。这使我们能够为几乎任何事物创建嵌入,只要我们能定义一个“上下文”的概念。
思考一下广阔的电子商务和推荐系统世界。如果我们将产品视为“词语”,将用户的购物车视为“句子”呢?如果两种产品经常被一起购买,我们就可以说它们“共现”。利用这个类比,我们可以为目录中的每一种产品训练嵌入。其结果是一个“品味空间”,相似的产品被放置在彼此附近。当你购买一件产品时,推荐系统会查看它在这个空间中的位置,并推荐它的邻居。这就是驱动现代零售业如此大份额的“你可能也喜欢……”功能背后的引擎。
但在这里,偏见的镜子也同样出现。这些系统制造了过滤气泡(信息茧房)。如果过往数据显示,购买科幻小说的顾客也倾向于购买奇幻小说,系统就会忠实地向每一位新的科幻读者推荐奇幻小说,可能永远不会向他们展示他们或许会喜爱的精彩历史小说。这里的偏见是趋同和同质化。当购买模式与人口统计特征相关联时,问题变得更加有害。如果系统得知某种化妆品主要由某个种族的人购买,它可能就不再向其他种族的人推荐,从而限制了发现,并沿人口统计界线强化了市场分割。这种偏见甚至可以通过网络传播。更高级的基于图的推荐器会从用户的“朋友”或相似用户那里传播信息。一个与有偏见群体相连的新的“冷启动”用户,会立即继承他们带有偏见的推荐,在做出任何选择之前就被拉入了一个过滤气泡。
这一普适原则甚至超越了离散的物品,延伸到了连续的视觉世界。想象一下,将一幅图像分割成一个由小块组成的网格。我们可以将每种独特的图像块类型视为一个“词语”,并说两个图像块如果空间上相邻就“共现”。通过在这些共现关系上训练嵌入,系统可以学到,对应于“毛皮”纹理的图像块通常与其他“毛皮”块相邻,并且“毛皮”块通常靠近“眼睛”块。它学习了一种视觉语法。这在图像识别和生成方面有革命性的应用。但它也学习了视觉上的刻板印象。如果训练数据主要由医生是男性、护士是女性的照片组成,那么“听诊器”图像块的嵌入,平均而言,会比“女性面部”图像块的嵌入更接近“男性面部”图像块的嵌入。模型构建了一个有偏见的视觉世界,然后可能难以正确识别男性护士或女性工程师,这并非出于任何恶意,而是因为它忠实地再现了它所“看到”的世界的偏见。
到目前为止,我们已将偏见视为一个关乎公平和代表性的问题。但嵌入的几何性质揭示了一些更深层次的东西:偏见也是脆弱性的来源。赋予嵌入空间意义的结构,同时也创造了可预测的弱点。
考虑嵌入空间中的一个语义轴,例如,从“悲伤”一词指向“快乐”一词的向量。这个方向编码了情感的概念。现在,想象一个分类器,其决策边界——划分“积极”和“消极”预测的线——与这个语义轴紧密对齐。要改变模型的预测,并不需要随机的、蛮力的攻击。只需沿着这个预定义的 sentimental 方向,对输入嵌入进行轻微的推动。这意味着,模型的偏见创造了高脆弱性的方向。一个学习了性别与职业之间强烈关联的系统,其预测可能会因为一个沿着“男性-女性”轴的、极微小的、对抗性选择的扰动,而从“工程师”翻转为“家庭主妇”。事实证明,公平性与鲁棒性是同一枚几何硬币的两面。
这就把我们带到了最现代、最强大的人工智能系统:大型语言模型(LLM)。这些模型在几乎整个互联网上进行了预训练,其内部的嵌入空间是一幅关于人类语言和文化的巨大、复杂且充满偏见的地图。我们通过“提示词”与它们互动。当我们要求模型通过完成句子“这条评论是[MASK]”来对一条评论进行分类时,我们是在要求它预测填补空白最有可能的词。为了得到情感,我们可能会检查“好”和“很棒”的概率是否高于“坏”和“糟糕”的概率。
但如果我们选择的是“不错”而不是“很棒”呢?由于词语之间微妙的几何关系,这个微小的改变有时会翻转最终的分类结果。对“言语化词”(verbalizer)的选择,就像我们用来观察模型内部世界的不同透镜。这表明偏见不仅仅是模型的一个静态属性;它会被我们选择与之互动的方式所激活,甚至放大。
这幅图景可能看起来黯淡,仿佛偏见是不可避免的诅咒。但重要的是要记住,并非所有偏见都是坏的。“归纳偏置”在机器学习中指的是模型为了从有限数据中泛化而做出的一系列假设。一个没有归纳偏置的模型根本无法学习任何东西。关键在于区分有害的、社会习得的偏见和有益的、有原则的架构偏见。
让我们看看机器翻译任务。由于语法和词序重排,逐字翻译通常毫无意义。注意力机制必须学会在生成每个目标词时,应该关注哪个源词。当源句子包含重复的词时,模型可能会感到困惑。例如,在对齐“the black cat sat on the black mat”(黑猫坐在黑垫子上)时,源句中的哪个“black”对应翻译中的哪个“black”?一个简单的基于内容的模型无法知道。
在这里,我们可以引入一个有益的架构偏见。我们可以设计模型,使其“偏好”局部对齐——即假设翻译中的第五个词很可能与源句中第五个词附近的词有关。这是一种“相对位置偏置”,一种鼓励模型在附近查找的温和推动。这个小小的、内置的偏好可能恰好足以打破僵局,使模型能够正确地将第一个“black”与第一个“black”对齐,第二个与第二个对齐。我们正在使用一个关于翻译本质的“好”偏见来克服一个“坏”的歧义。这个思想——即我们可以设计具有关于结构(如词序)的原则性偏见的架构,以使其更鲁棒,更不易受数据统计偶然性的影响——是人工智能研究中最激动人心的前沿之一。
我们的旅程表明,将意义表示为空间中的一个点这一简单思想,是现代科学技术中影响最深远的概念之一。它统一了医学、金融和视觉等截然不同领域的问题。但这块统一的透镜也是一面镜子,反映了它所看到的世界。未来的挑战不是要建造一面能展示虚构的、无偏见世界的镜子,而是要成为更优秀的工匠。我们必须学会理解我们看到的映像,测量它们的扭曲,并巧妙地打磨我们模型的透镜,用有原则的、有益的偏见来塑造它们,使它们不仅反映世界的现状,也反映我们所希望它成为的样子。