学习偏好

玻尔百科

核心要点

心智并非一块“白板”，而是经过演化“预备”好的，它带有的学习偏好使得获取某些类型的信息比其他信息更容易。
在从众和声望等偏好的引导下，社会学习创造了一个文化继承系统，该系统与遗传演化并行，实现了快速适应。
学习偏好是驱动复杂社会现象（包括大规模合作、社会规范的形成和配偶选择）的基本机制。
学习偏好的概念具有普遍性，它在细胞层面影响记忆的形成，并在人工智能中充当关键的设计原则（归纳偏置）。

引言

心智是一块任由经验书写的“白板”，还是生来便具有预设的结构？对于这个由来已久的问题，科学正给出日益清晰的答案：我们的心智并非空空如也的容器。相反，它们是经过演化精细调校的工具，带有“学习偏好”——即一种先天的倾向，引导我们更容易地学习某些事物。这些演化而来的经验法则并非缺陷，而是让我们得以在复杂世界中游刃有余的关键捷径，它们构成了生物系统和人工智能系统中智能的基础。本文将探讨这些偏好如何不仅仅是心理上的怪癖，而是行为、文化乃至技术的核心构建者。

本次探索分为两部分。首先，在“原理与机制”一章中，我们将揭示学习偏好背后的演化逻辑，考察它们如何通过遗传适应等过程产生，并如何通过双重继承理论等框架运作。我们会将它们分为不同的类别——基于内容、基于频率和基于模型的偏好——以理解塑造信息流动的各种趋势。随后，“应用与跨学科联系”一章将展示这些原则的深远影响，从塑造动物的审美和社会合作，到影响大脑中记忆的形成，再到指导更有效的人工智能的设计。

原理与机制

想象一下，你正在尝试学习一项新技能，也许是一款高难度的电子游戏、一门新语言，或是一道复杂菜肴的烹饪方法。你的心智是一块“白板”，一个能完美注入新知识的空容器吗？几个世纪以来，哲学家和科学家们一直在争论这个问题。如今，生物学、心理学和人类学的交叉研究正给出越来越明确的答案：绝非如此。你的心智远非一块白板。它是一个经过数百万年演化精心准备的工具，被调整得更容易学习某些事物。这种先天的调整便是学习偏好的精髓。它们是演化赋予我们的内置“经验法则”，让我们在复杂的环境中无需从零开始摸索一切。

在本章中，我们将深入探究这些偏好的核心。我们不仅会列举它们，更会试图理解它们的逻辑、演化起源，以及它们如何催生出人类文化这一极其复杂而独特的现象。

预备好的大脑：超越白板

让我们从一个动物王国的谜题开始。想象一个虚构的物种——蓝冠园丁鸟。雄鸟会建造一个精致的结构，即“凉亭”，并用蓝色物体进行装饰。但他并非简单地将它们堆积起来，而是将它们排列成完美的渐变色，从前面的浅天蓝色到后面的深海军蓝色。这种惊人的行为是纯粹的、与生俱来的本能，还是后天习得的？

一系列巧妙的假设性实验可以解开这个谜团。如果我们打乱一只筑巢大师的凉亭中的物体，他会不辞辛劳地重建出完美的渐变。这说明这种模式是稳固的。如果我们引入一颗鲜红色的珠子，他会立即将其扔掉，这揭示了他对蓝色的先天偏好。但关键部分在于：一只在隔离环境中长大、从未见过成年园丁鸟凉亭的幼鸟，只会建造一个粗糙的结构并收集蓝色物体，但他永远无法正确排列出渐变。他的布置是杂乱无章的。然而，如果另一只幼鸟被允许通过单向镜仅仅观察一位专家，他就能学会建造完美的渐变凉亭。

这告诉我们什么？园丁鸟的大脑并非一块白板。它生来就“预备”好了一系列偏好：一种建造的动力，一种对蓝色的偏好。但它也不是一台被完全编程好的机器。最终完美的技能并非与生俱来，而是必须通过观察他人来学习。演化并没有让鸟类的基因承担起详细规定每一步的任务。相反，它做了一件更聪明的事：它塑造了鸟类的大脑，使其成为一个在非常特定的学科——凉亭设计——方面异常出色的学生。这是一个基本原则：学习并非一个通用过程，而是由演化而来的倾向所引导的。

但这种倾向最初是如何演化出来的呢？让我们再来看看另一种非凡的鸟类，现实世界中加拉帕戈斯群岛的啄木地雀，它会用树枝作为工具从树皮中撬出昆虫。这是一项习得的技能。一个合理的演化故事并非是某个“工具使用基因”突然出现，而是其祖先在地雀在更简单的行为上存在着自然的、可遗传的变异。有些天生更好奇，更喜欢啄东西，或者更擅长用喙操控物体。在一个食物藏在缝隙中的环境里，这些看似微不足道的倾向给了某些个体微弱的优势。他们更有可能偶然发现获取幼虫的方法。

自然选择经过漫长岁月的筛选，会偏爱这些有益倾向的遗传基础。种群会逐渐由这样的个体组成：他们并非生来就知道如何使用工具，而是生来就有更高的学习使用工具的倾向。这种后天习得的行为可以引导遗传演化路径的美妙相互作用，被称为遗传适应（genetic accommodation）或鲍德温效应（Baldwin Effect）。这表明，学习不仅仅是生物体生命中一个灵活的附加功能，它本身就可以成为遗传演化上演的舞台。选择可以偏爱一个修饰等位基因，该基因使发育偏向一个局部最优解，即使学习过程本身带有成本，因为它能减少发育错误，使生物体更接近一个适应性高峰。

第二继承系统：文化如何改写规则

这种社会学习的能力，即向他人学习的能力，在人类中如此强大，以至于它已成为第二个并行的继承渠道。这就是双重继承理论（Dual Inheritance Theory, DIT）的核心思想。我们之所以成为我们，是因为有两条信息流经世代相传：一条是遗传的，一条是文化的。

思考一下这两个系统之间的区别：

遗传继承是垂直传递的，由父母传给后代。其保真度极高——复制错误或突变很罕见。而且这些突变相对于其有用性而言是随机的，或称“无定向的”。这是一个缓慢、有条不紊且可靠的信息传递系统。
文化继承则更为复杂。信息可以垂直传递（从父母），也可以倾斜传递（从老师或长辈），还可以水平传递（从朋友和同辈）。其保真度可高可低。最深刻的是，它的“突变”——创新或学习中的错误——通常不是随机的。当你试图改进一个食谱或一个计算机程序时，你的改动是由一个目标引导的。这就是所谓的引导变异（guided variation），它使得文化变迁比遗传演化快得多，也更具方向性。

有人可能会提出异议：如果文化复制如此混乱且充满“突变”，它怎么可能导致复杂、适应性的技术和制度的积累？它如何能造出像独木舟或宪法这样的东西？答案在于，我们需认识到文化不必像基因那样成为一个完美的复制子（replicator）。其秘诀不在于完美的复制，而在于有偏好的传播。一个文化特质在群体中的总体变化可以被理解为两种力量的总和：作用于现有变异的选择（就像在遗传学中一样），以及传播过程本身的系统性偏好。即使复制是充满噪音的，只要“噪音”在一个适应性方向上存在偏好——例如，人们总是试图让工具更锋利而不是更钝，或者让故事更容易被记住而不是更难——那么文化就能够并且确实会积累适应性。这种转变性而非复制性的本质，正是文化最大的优势。

文化之流：偏好实地指南

如果说文化是一条信息汇成的浩瀚奔流的江河，那么学习偏好就是引导其路径的无形水流和漩涡。我们可以将这些偏好分为三大类。

1. 基于内容的偏好：观念的“粘性”

有些观念就是比其他观念更好。它们可能更有用，更容易记住，或者更能引起情感共鸣。文化变体本身的这些内在属性创造了内容偏好。我们甚至可以创建简单的模型来捕捉这一点。想象一个观念的“吸引力” $S_i$ 是其效用( $U_i$ )、其可记忆性（随复杂性 $\ell_i$ 而降低）以及它所施加的认知负荷( $c_i$ )的乘积。吸引力得分越高的观念自然传播得越快。这就是为什么一个简单而强大的生存技能（“不要吃红色的浆果”）能像野火一样蔓延，而一个复杂、效用低的信息则可能消失。这就是作用于我们观念内容的选择。

2. 频率依赖偏好：群体的拉力

通常，我们并不根据观念本身的优劣来评判它。相反，我们观察他人在做什么。这导致了频率依赖偏好。

从众偏好：其中最强大的是模仿大多数人的倾向。想象一位企业分析师正在选择一款新的软件工具。他们不了解其功能，但看到部门里几乎所有人都已经转换了。他们的推理是：“既然大家都在用，那这样做肯定没错。”这就是从众偏好的实际作用。这是一种极好的“快速而节俭”的启发式方法。它让个体能够快速采纳局部适应性的行为，而无需对所有可能的选项进行成本高昂的评估。
负频率依赖偏好：当然，有时我们想做的恰恰相反。想想时尚潮流。某种款式的运动鞋在只有少数人穿时很酷。但一旦它变得太普遍，潮流引领者就会主动避免它，并去寻找更稀有的款式。这就是反从众或负频率依赖偏好。它驱动创新，助长时尚循环，并让个体能够塑造独特的社会身份。

3. 基于模型的偏好：信息来源的影响

第三类偏好与观念的内容或其流行度无关，而与谁在推广它有关。我们偏向于向成功人士（成功偏好）、地位高的人（声望偏好）或与我们相似的人（相似性偏好）学习。如果一位著名运动员代言某个品牌，或一位诺贝尔奖得主提出一种理论，我们更可能去关注，而不管观念本身的内在内容如何。这些偏好利用了社会景观作为筛选潜在有用信息的过滤器。

创新者的困境：学习心智的共同演化

有了所有这些获取信息的方式，一个根本性的张力出现了：你应该投入时间和精力自己摸索（个体学习），还是仅仅复制他人的做法（社会学习）？这是一个经典的演化权衡，答案取决于环境。

个体学习是所有新知识的最终来源，是创新的引擎。但它的成本很高——需要时间、精力，并承担失败的风险。相比之下，社会学习通常要便宜得多。你可以用相对较低的成本，通过仔细观察和实践，获得一个历经数代才发展出来的复杂技能，比如如何生火。

那么，什么时候成为一个社会学习者是值得的呢？一个简单的模型揭示了其中的逻辑。当社会学习的成本（1）低于个体学习的成本，且（2）文化中存在大量可供复制的、有用的、高质量的信息时，社会学习就是一个好策略。一个社会学习者能否成功，直接取决于其学习的保真度 $\mu$ 和在他们之前的个体学习者所积累的知识量 $K_t$ 。

这就创造了一个美妙的共同演化反馈循环。个体学习者创造了文化“公共产品”，使得社会学习成为一种可行的策略。但如果每个人都成为社会学习者，创新就会停止，文化知识的存量就可能衰退。因此，自然选择塑造了群体，使其拥有一个由创新者和模仿者组成的动态组合，不断地在这个根本困境中进行权衡。它雕琢了我们的基因，产生了不仅是个体学习者或社会学习者，更是策略性学习者的心智，他们配备了一套偏好来决定如何学、学什么以及向谁学。

尾声：从心智到社会

这些学习偏好不仅仅是个人心理的怪癖。它们是在数百万个体中经过数千代人的演绎后，构建起人类社会宏观世界的微观规则。例如，从众偏好不仅仅是帮助你选择一个流行的软件。通过使群体成员变得更加相似，它减少了群体内部的变异，同时有助于维持群体之间的独特性。

这为一个被称为文化群体选择的过程创造了完美的条件。那些在合作、公平或治理方面的文化规范胜过其他群体的群体，将会看到他们的规范得以传播。这个过程比其遗传对应物要迅速和有效得多，因为诸如惩罚、声誉和规范内化等文化机制，能够以“自私基因”很难实现的方式，将个体激励与群体层面的成功统一起来。正是我们第二继承系统的这一独特特征，建立在演化而来的学习偏好基础上，为我们物种标志性的超大规模合作提供了最有力的解释之一。事实证明，简单的学习规则，正是文明的构建者。

应用与跨学科联系

如果说知识是一片广阔的风景，那么学习就是我们探索它的路径。但这条路很少是笔直的。我们的心智，以及所有学习系统的心智，都不是等待被填满的空白地图。它们带有预设的轮廓，有由演化和经验雕刻而成的山谷和丘陵，指引着我们的每一步。这些就是“学习偏好”——那些或微妙或显著的、影响我们发现过程的倾向。在前一章中，我们探讨了这些偏好是“什么”以及“为什么”存在。现在，让我们踏上征程，去看看它们“在哪里”——去见证这些基本原则如何在生命与科技的宇宙中发挥作用，从鸟类的求偶到硅基大脑的计算。

演化的雕琢之手

演化是学习的大师，但它的学习过程横跨万古与世代。它灌输给生物的偏好并非随意的，而是经过时间考验的启发式方法，解决了生存和繁衍的古老问题。

生存美学：感官偏好

动物认为“美丽”或“有吸引力”的东西，通常并非纯粹的品味问题，而是为生存而磨练出的感官系统的副产品。对某种颜色、形状或声音的偏好，可能在任何配偶展示该特征之前早已存在，仅仅因为动物的大脑为了其他原因（如寻找食物或躲避捕食者）已经对其进行了调整。这就是预存感官偏好的本质。

思考一下花朵与其传粉者之间错综复杂的舞蹈。蜜蜂被带有紫外线图案的花朵吸引，并非因为它是一位艺术评论家，而是因为它的视觉系统在一个绿色叶片背景下，能鲜明地凸显出这类图案的环境中演化而来。一种因幸运突变而产生此类图案的植物，有效地利用了这种预存的感官渠道。它在争夺传粉者注意力的竞争中获得了优势，即使它的花蜜奖励并不比邻居更好。在演化史上，这个过程可以导致我们在自然界中看到的令人惊叹的“传粉综合征”多样性，其中花朵精致地适应了其伙伴的感官世界。

同样的原则也支配着高风险的配偶选择游戏。想象一种小型鱼类，其主要食物来源是一种微小的红色甲壳类动物。它的视觉系统会高度优化以探测红色斑点。如果该物种的雄性碰巧在鳍上长出了一个红点，雌性可能会对他表现出偏爱。这种偏爱不一定是因为红点是其健康或遗传质量的诚实信号；他可能只是在“破解”她对红色物体的预存感官偏好。当然，要证明这一因果链——即偏好在特征出现之前就已存在并驱动了其演化——需要极高的科学严谨性，包括对未经世事的动物进行精心实验、对相关物种进行系统发育分析，以及对数十项研究进行元分析。但证据表明，动物王国中耀眼的美丽，其根源可能就在于这些平凡而强大的感知偏好。

一见钟情：学习爱上谁

并非所有偏好都是与生俱来的。动物世界中最强大的学习偏好之一是性印记。它遵循一个绝妙而简单的规则：“学习你的父母或照料者的特征，长大后，寻找具有相似特征的配偶。”

这似乎是寻找合适伴侣的简单法则，但其后果可能非常深远。在两个亲缘关系很近的鸟类物种共存的地区，性印记可以成为阻止杂交的有效屏障。由同类抚养长大的幼鸟学会偏爱自己的同类，有效地建立了一道无形的行为藩篱，阻止了种群之间的基因流动。这种交配前隔离是新物种形成的关键一步。像交叉抚养——将一个物种的蛋放在另一个物种的巢中——这样的实验完美地证明了这一点。当鸟类由不同物种的养父母抚养长大时，它们长大后通常会偏爱长得像养父母的配偶，完全颠覆了它们“天生”的偏好。这揭示了它们的配偶选择并非写在基因里，而是通过根深蒂固的印记偏好习得的。

社会的架构

除了塑造个体的身体和行为，学习偏好还是我们社会世界的无形建筑师。它们提供了认知捷径，使得像无亲缘关系个体间的大规模合作这样的复杂现象得以涌现。

陌生人的善意：构建合作的偏好

利他主义的演化长期以来一直是个谜。为什么一个个体要以牺牲自身为代价去帮助另一个体？亲缘选择理论给出了部分答案，其著名总结是 Hamilton 规则：如果受益者获得的好处( $b$ )，乘以行动者与受益者之间的遗传相关度( $r$ )，超过了行动者付出的成本( $c$ )，那么利他主义就能演化。即 $b r \gt c$ 。这解释了为什么我们在家庭成员中看到如此多的合作。

但是，在人类社会中，无亲缘关系的陌生人之间非凡的合作又该如何解释呢？在这里，学习偏好登上了舞台。事实证明，简单的、通过社会学习得来的规则可以为合作创造必要条件，有效地用一种文化相关性取代了遗传相关性。

考虑一种简单的“复制偏好”：一种采纳与你互动的人的行为的倾向。如果一个利他主义者与一个中立的个体互动，中立的一方有可能学会利他行为。这会形成合作者的集群——一种在数学上类似于亲缘关系所产生的遗传分类的“表型分类”。令人惊讶的是，形式化模型表明，利他主义演化的条件可以变成 $b \ell \gt c$ ，其中学习偏好 $\ell$ （复制伙伴行为的概率）取代了遗传相关度 $r$ 。一个基本的社会过程可以模仿一个基本的遗传过程的效果，为没有亲缘关系的合作提供了一条强有力的途径。

其他的学习偏好为这一架构增添了更多层次。一种“从众偏好”——即采纳群体中最普遍行为的倾向——是一种强大的经验法则。在一个大多数个体都合作的群体中，从众可以通过向少数背叛者施压，迫使其转变策略，来稳定这种合作。它可以将一个个人动机总是倾向于背叛的、有风险的公共物品博弈，转变为一个协调博弈，其中每个人都最好锁定在合作均衡上。

在人类中，通过“规范内化”，这一点得到了进一步发展。文化不仅教我们做什么，它还影响我们的根本动机。通过社会学习，我们将内在奖励——一种自豪感或满足感——与遵循合作规范联系起来，而将内在惩罚——内疚或羞耻——与违反规范联系起来。这种心理偏好从根本上改变了社会互动的收益矩阵，使得合作即使在物质上是昂贵的，也让人感觉是正确和最好的选择。

机器中的幽灵：大脑和计算机中的偏好

学习偏好的原则如此基本，以至于它们超越了血肉与硅基之间的界限。它们存在于我们神经元的运作机制中，并且是人工智能设计中的一个核心课题。

记忆的烙印：一种细胞偏好

这种“暗中施加的影响”存在于大脑的哪个部位？线索来自记忆本身的细胞基础。当我们学习某样东西时，特定神经元之间的连接——即突触——会得到加强。主流理论认为，这个过程会产生一个“突触印迹”，即记忆的物理痕迹。

至关重要的是，这个物理痕迹不仅仅是过去的被动记录，它还是对未来的主动偏好。突触可塑性模型表明，加强突触的行为本身会“标记”它，使其更容易捕获未来使其变得更强的必要分子资源（我们称之为“可塑性蛋白”）。这创造了一个正反馈循环，一种细胞层面的“富者愈富”机制。这是一种加强已知知识的偏好，是记忆巩固和专业知识发展的潜在机制。一起放电的神经元不仅会连接在一起，而且会产生未来更强力地连接在一起的偏好。

数字直觉：人工智能中的固有偏好

我们的人工创造物能摆脱这种偏好吗？远非如此。事实证明，我们最强大的学习算法有其自身独特的、固有的偏好。一个显著的例子是深度神经网络中的“谱偏置”。当使用标准方法进行训练时，这些网络在学习复杂、高频细节之前，会表现出对学习数据中简单、低频模式的强烈偏好。就像吉他弦倾向于以其低频基音振动一样，神经网络将首先用一个平滑、简单的函数来逼近数据集，只有在大量训练后才不情愿地拟合更精细的细节。这不是一个缺陷，而是其学习动态的内在属性。对于试图模拟具有快速变化或复杂纹理的复杂物理系统的工程师来说，这种谱偏置是必须理解和克服的一大挑战。

工程智慧：设计归纳偏置

这引出了最后一个强大的思想。如果学习偏好是智能不可避免的特征，我们能否为了自身利益而刻意设计它们？答案是肯定的，这代表了人工智能最激动人心的前沿之一。这就是“归纳偏置”的概念。

我们不是从一块完全的白板开始训练一个“黑箱”模型，而是可以将我们关于世界的先验知识构建为指导原则。例如，在创建一个机器学习模型来预测纳米级压痕实验中的力时，我们可以设计模型的架构，使其明确遵守物理学的基本定律，如能量守恒和著名的接触力学标度律。我们实质上是在告诉模型：“你正在寻找的答案必须存在于这个受物理约束的函数空间内。”这极大地缩小了搜索空间，使学习效率大大提高，并且至关重要的是，让模型能够泛化并对其训练经验之外的情况做出准确预测。这就像在考试前给人工智能一本物理教科书。

我们还可以通过精心塑造学习目标本身来设计偏好。在训练一个神经网络来模拟用于药物发现的分子复杂能量时，我们可能会发现它难以处理像氢键这样微妙但至关重要的相互作用。标准的损失函数对所有误差一视同仁。但我们可以设计一个更复杂的损失函数，它像一个聚光灯，选择性地惩罚那些定义氢键的特定几何特征上的误差。我们正在创造性地修改学习景观，开凿新的山谷，以引导学习过程走向我们认为重要的解决方案。

结论

我们的旅程至此结束。我们已经看到，学习偏好并非需要消除的缺陷，而是任何学习系统（无论是生物的还是人工的）中基本而强大的特征。它们是帮助动物寻找配偶的演化捷径，是使合作在自私世界中蓬勃发展的社会粘合剂，是巩固我们大脑中记忆的物理机制，也是构建更智能、更可靠的人工智能的关键工程工具。

从因配偶的偏好之眼而形成的蝴蝶翅膀上的虹彩，到因我们从众和复制的偏好而得以建造城市的合作，再到被赋予了物理定律偏好的人工智能所加速的新科学发现——学习的织机总在不停运转。理解它的丝线、它的模式及其固有的偏好，不仅揭示了智能的秘密，还赋予我们力量去编织一个更美好、更深刻的未来。