习惯的形成

玻尔百科

定义

习惯的形成是指行为在稳定的情境中不断重复，从而在触发线索与自动反应之间建立起牢固心理联系的过程。这一机制涉及大脑控制权从目标导向的背侧内侧纹状体向自动化导向的背侧外侧纹状体的转移，并受到多巴胺信号和奖励预测误差的驱动。持久的行为改变通常需要通过管理环境中的线索和奖励来实现，而非仅仅依靠有意识的意志力来克服自动化的常规。

核心要点

当一个行为在稳定的情境中被持续重复时，习惯便会形成，从而在线索和自动反应之间建立起强大的心理联系。
大脑通过奖励预测误差（RPEs）来学习将哪些行为自动化，其中神经递质多巴胺发出意外信号，以强化或削弱神经通路。
习惯的形成涉及大脑控制权从目标导向的背内侧纹状体（DMS）到自动的、由线索驱动的背外侧纹状体（DLS）的物理转移。
持久的行为改变需要通过操控线索和奖励来设计环境，而非仅仅依靠有意识的意志力来克服自动化程序。

引言

人类心智通过两个系统运作：一个缓慢、深思熟虑的思考者和一个快速、自动的驾驶员。习惯是已从有意识的思考者移交给这位自动驾驶员的例行程序，这是为新挑战释放脑力资源的关键策略。但是，这种从费力的行动到毫不费力的本能的转换是如何发生的呢？支配我们行为这一基本方面的底层机制是什么？本文通过剖析习惯形成的科学来解决这一问题。

在接下来的章节中，您将深入理解这一过程。在“原理与机制”中，我们将探讨习惯形成的核心秘诀——在稳定情境中重复——并揭示其背后的神经机制，从大脑中的学习信号到控制我们自动化行为的特定区域。随后，在“应用与跨学科联系”中，我们将见证这些基础原则如何在医学、心理学和公共卫生等不同领域得到应用，展示理解习惯如何为释放人类潜能和设计积极改变提供一把万能钥匙。

原理与机制

你是否曾沿着熟悉的路线下班回家，驶入车道后，突然意识到自己完全不记得最后几分钟的旅程？你的双手在转动方向盘，双脚在操作踏板，但你的思绪却在别处——回味一段对话、计划晚餐、沉浸在白日梦中。就好像一个“自动驾驶员”接管了一切。然而，你肯定记得学车时的情景：高度集中、手心冒汗，以及协调一举一动时那种刻意而痛苦的缓慢过程。

这种常见的经历揭示了关于人类心智的一个深刻真理。我们通过两个截然不同的系统运作，这一概念是理解习惯的基石。一个是深思熟虑的、有意识的思考者——那个学开车、苦苦思索新数学题，或用心决定开始新节食计划的“你”。这个系统费力、缓慢且灵活。另一个是自动驾驶员——在你思绪游离时引导你汽车的系统。这个系统快速、毫不费力且高效，但它依据预设程序运行。一个习惯，从科学意义上讲，不过是从有意识的思考者移交给自动驾驶员的例行程序。

这种移交不仅仅是为了方便，它是一种关键的生存策略。通过卸载日常任务，我们为新挑战、为创造力、为应对意外情况释放了宝贵的脑力带宽。那么，问题是，这种非凡的转换是如何发生的？将一个困难、刻意的行动转变为毫不费力、自动的行动的秘诀是什么？

重复与情境的炼金术

有人可能会猜想，关键因素仅仅是重复。毕竟，熟能生巧。但这只说对了一半。想象一下，一家医院希望员工更频繁地使用洗手液。他们尝试了两种方法。在一个病区，他们只是发送电子邮件提醒，并就卫生重要性进行宣讲。在另一个病区，他们采取了更巧妙的措施：他们将每一个洗手液分配器都安装在完全相同的位置，紧挨着每间病房的门把手。

两组员工执行该行为的次数相近。然而，当提醒被移除后，第一组的依从性迅速下降。而第二组则继续以高得多的比率消毒双手。为什么？第二项政策不仅鼓励了重复，它鼓励了在稳定情境中的重复。

这就是神奇的公式：习惯 = 重复 + 稳定情境。习惯不仅仅是一种行为，它是线索（情境）与反应（行为）之间习得的心理联系。在成功的医院政策中，门把手成了一个可靠的线索，自动触发了消毒的动作。而在另一个病区，线索不一致——分配器位置各不相同，每次都需要片刻的有意识思考和寻找。这种行为从未有机会变得自动化。

我们甚至可以衡量这种向自动化的过渡。在医院的场景中，研究人员可以测量反应时间——即从跨过门口到开始消毒之间的微小延迟。对于有稳定线索的那组，这个时间显著减少，这是一个明确的迹象，表明该行动是由快速的、自动的系统发起的。而对于另一组，这个时间几乎没有变化，表明缓慢的、深思熟虑的系统仍在主导。这就是为什么你坚持一项计划——无论是用药还是锻炼——的历史，是未来成功如此有力的预测指标。它直接衡量了你潜在的习惯强度和自我调节能力。

大脑的记账员：从意外中学习

所以，大脑在“线索”和“反应”之间建立了联系。但它如何知道要建立哪些联系呢？它如何决定“看到门把手”应该导致“使用洗手液”，或者“早晨咖啡”应该导致“打开报纸”？大脑通过扮演一个一丝不苟的记账员来做到这一点，它不断尝试预测其行动的价值，并从意外中获得最深刻的学习。

这种“意外”在神经科学中有一个正式名称：奖励预测误差（Reward Prediction Error, RPE）。这是一个极其简单的概念，可以用一个方程式来概括：

$\delta = (\text{what you got}) - (\text{what you expected})$

一个正的 $\delta$ 意味着结果比预期的好——一个惊喜。一个负的 $\delta$ 意味着结果比预期的差——一次失望。正是这个误差信号，这种意外的闪现，驱动了所有的学习。

让我们用一个反直觉的例子来探讨这一点：养成服用一种有不愉快副作用（如苦味）的日常药物的习惯。表面上看，这似乎是我们应该学会避免而不是自动去做的事情。即时奖励是负面的。但大脑的计算更为复杂。完整的预测误差方程如下：

$\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)$

让我们来分解一下。 $\delta_t$ 是在时间 $t$ 的预测误差。 $r_t$ 是即时奖励（比如苦味，我们假设其值为 -0.2）。 $V(s_t)$ 是在你行动之前，你的大脑对当前情境预测的价值。那么 $\gamma V(s_{t+1})$ 呢？这是关键部分。 $V(s_{t+1})$ 是对下一个状态的预测价值——在这个例子中，是你明天改善的健康状况。希腊字母 gamma， $γ$ ，是一个折扣因子，一个介于 $0$ 和 $1$ 之间的数字，它捕捉了我们固有的不耐烦。未来的奖励被“打折”，或被视为不如即时奖励有价值。一个拥有较高 $γ$ 值的人更“有耐心”，更看重未来。

在你第一次服药的那天，你的大脑并没有太多期望，所以 $V(s_t)$ 是零。你服下药。你体验到即时的负面奖励（ $r_t = -0.2$ ），但你知道它会带来未来的健康（我们假设 $V(s_{t+1}) = 1.0$ ）。假设折扣因子为 $\gamma = 0.9$ ，那么预测误差是：

$\delta_t = -0.2 + (0.9 \times 1.0) - 0 = +0.7$

结果是一个正向的惊喜！打折后的长期利益（ $+0.9$ ）远远超过了即时的不快（ $-0.2$ ）。这个正的 $\delta_t$ 是一个强有力的“再做一次！”的信号。这个信号在物理上由神经递质多巴胺在大脑中传递。每当你服药并且长期利益被含蓄地再次确认时，一次多巴胺的爆发就会强化该行动的神经通路，缓慢但坚定地为习惯铺平道路。随着时间的推移，当你的大脑学会预期这种净正向结果时，惊喜感会消退，但铺好的路——习惯——依然存在。

习惯的地理学：双纹状体传奇

这个学习过程并非在大脑的任何地方随机发生。它有特定的地理位置。在我们大脑深处的核心，有一组称为基底节的结构，它们是选择和启动行动的中心枢纽。在这个枢纽内，一个名为纹状体的区域是习惯形成的“原爆点”。即使在这里，我们也发现了两个不同“社区”之间显著的劳动分工。

第一个是背内侧纹状体（DMS）。可以把它想象成大脑的“目标追踪器”。它与我们有意识思考和规划的中心——前额叶皮层——紧密相连。DMS学习行动与其结果之间的关系。它灵活且目标导向。如果你学会了按下一个杠杆可以得到美味的食物，那么DMS就在起作用。如果你随后发现食物有毒，DMS会迅速更新其策略并告诉你停止按杠杆。

第二个社区是背外侧纹状体（DLS）。这是“习惯引擎”。它与控制运动的大脑部分——感觉运动皮层——相连。DLS不那么关心最终目标；它专门负责固化简单的“线索-反应”联系。经过大量训练，杠杆按压行为的控制权逐渐从追踪目标的DMS转移到驱动习惯的DLS。现在，这个行动是自动的了。关键部分在于：由于DLS与追踪目标的前额叶皮层脱节，它对结果的变化是僵化和不敏感的。如果在习惯于DLS中形成之后食物变得有毒，你会发现自己出于纯粹的习惯力量继续按压杠杆，即使这违背了你更好的判断。这种优雅但有时令人恼火的劳动分工解释了为什么坏习惯如此难以戒除。

突触总机：执行与禁止

一个多巴胺“意外”信号是如何在物理上重塑纹状体以创造习惯的呢？答案在于单个神经元及其连接——突触的层面。纹状体包含两种主要类型的神经元，它们形成对立的回路：一个直接通路，像“执行”信号一样，促进动作；以及一个间接通路，像“禁止”信号一样，抑制动作。

这两种通路以其拥有的多巴胺受体类型来区分。“执行”通路的神经元拥有D1受体，而“禁止”通路的神经元拥有D2受体。多巴胺对它们产生相反的效果，为塑造行为创造了一个完美的推拉系统。

想象一个正向的预测误差——由于一个行动带来了出乎意料的好结果，多巴胺爆发了。

这次多巴胺爆发冲击D1“执行”神经元并增强它们的连接，使它们将来更容易兴奋。这就像调高了该行动的“执行”信号的音量。
同时，同样的多巴胺爆发冲击D2“禁止”神经元并削弱它们的连接。这就像调低了“禁止”信号的音量。

相反，一个负向的预测误差（多巴胺水平下降）则会产生完全相反的效果：它削弱“执行”通路并增强“禁止”通路。经过多次试验，这种优雅的拮抗机制确保了导致积极意外的行动变得更有可能、更自动化，而导致失望的行动则被抑制。这就是锻造习惯的突触炼金术。

机器中的幽灵：当线索接管一切

这个谜题还有最后一块，近乎神奇的拼图。当一个习惯变得根深蒂固时，结果就不再令人意外了。奖励时刻的多巴胺爆发逐渐减少至无。但信号并没有消失。它向时间上后移，附着在能够预测奖励的最早可靠线索上。

最初，多巴胺爆发发生在你品尝巧克力的时候。几次重复之后，它发生在你打开包装纸的时候。最终，它发生在你看到柜台上饼干罐的那一刻。线索本身已经变得具有奖励性。它现在直接向你的习惯引擎——DLS——发送“执行”信号，在你那有意识的、追踪目标的头脑还没来得及权衡之前，就触发了伸手拿饼干的自动程序。

这就是一个完全形成的习惯的本质。行为已经从有意识的意图中解脱出来，现在由环境驱动。这就是为什么我们的环境在塑造我们行为方面如此强大，以及为什么强大的习惯会感觉像是拥有自己的意志。这也阐明了我们自动自我和深思熟虑自我之间的复杂关系。当习惯强度高时，我们有意识的意图对我们行为的影响会急剧减弱。自动驾驶员现在正在驾驶飞机。

理解这一机制揭示了为什么改变习惯如此具有挑战性。仅仅“决定”停止通常是不够的。消退——在没有奖励的情况下反复遇到线索——可以削弱这种联系，但这通常是脆弱且容易复发的。一个更强大的策略是反条件作用：有意识地建立一个新的、更可取的习惯，由同一个线索触发，为自动驾驶员创造一个新的程序来运行。这也警示我们不要尝试那些天真的行为改变方法。一个通过奖励你积分来鼓励锻炼的“游戏化”应用，可能只会建立起“查看应用以获取积分”的习惯。当积分被移除时，动力可能会崩溃，有时甚至让你比开始时更糟——这种现象被称为过度理由效应[@problem-id:4722504]。持久的改变并非来自短暂的奖励，而是来自深思熟虑地设计我们的环境，并将我们期望的行为与稳定的线索和内在价值联系起来，从而有效地教导我们的自动驾驶员一种更好的飞行方式。

应用与跨学科联系

一位完美演奏奏鸣曲的音乐会钢琴家，与一位挣扎于每日服药的病人有何共同之处？一个患有精神障碍的人的强迫性仪式，与一家医院旨在减少医疗差错的项目之间有何联系？答案是行为科学中最深刻、最统一的原则之一：习惯的形成。大脑在其对效率的不懈追求中，将我们对世界的反应自动化，在情境、行动和结果之间锻造出持久的联系。在上一章中，我们探讨了这一机制的“如何”——线索、惯例和奖励的神经之舞。现在，我们将踏上一段旅程，去观察这一原则的实际应用，见证这一基本的舞蹈如何在医学、心理学乃至我们社会结构的广阔图景中上演。我们将看到，理解习惯不仅仅是一项学术活动；它是握住一把万能钥匙，一把能够解锁人类潜能、治愈心灵、构建更优系统的钥匙。

设计更健康的生活：建立良好习惯

也许习惯科学最强大的应用在于健康和医学领域。我们许多长期的健康结果并非源于戏剧性的、一次性的决定，而是成千上万个微小的日常行动的悄然累积。挑战在于，最有益的行动往往带有即时成本，而其回报却是抽象且遥远的。行为科学提供了一个工具包来弥合这一差距。

以口腔卫生这样平凡的事情为例。虽然我们都“知道”应该刷牙和使用牙线，但持续坚持是一项挑战。一个成功的牙菌斑控制计划不仅仅是关于指导；它是关于建立一个不可动摇的习惯。线索必须可靠——将刷牙与另一个稳固的习惯联系起来，比如早晨喝咖啡。惯例必须有效。但神奇的成分往往是奖励。最终的奖励——避免牙周病——太过遥远。相反，我们可以引入即时的、有形的奖励。例如，使用牙菌斑显示剂可以改变这项任务：惯例不再仅仅是“刷牙”，而是“刷到颜色消失为止”。奖励是看到干净结果的即时、可见的满足感，这是一个小小的胜利，巩固了第二天的行为。

在慢性病中，这种管理阻力和奖励的原则变得更加关键。想象一位患有特应性皮炎的病人，必须每天两次涂抹外用药膏。付出的努力成本，或称阻力，是显著的——寻找药膏、油腻的感觉、花费的时间。而奖励，即瘙痒缓解，可能在数小时甚至数天之后。这里我们遇到了时间折扣的专制：我们压倒性地偏好较小的、即时的奖励，而不是较大的、延迟的奖励。为了设计依从性，我们必须攻克阻力并缩短奖励时间线。我们可以通过使用放置在显眼处、需要时触手可及的简易泵式分配器来减少阻力。我们可以将这个习惯“叠加”到一个现有的习惯上，比如刷牙。我们还可以创造即时奖励：使用清凉润肤剂提供即时的感官舒缓，一个简单的移动应用可以为每日打卡提供“连胜纪录”，将过程游戏化，并提供延迟的治疗效果所不能给予的满足感。

当主要障碍不是阻力，而是缺乏内在动力时，该怎么办？这在重度抑郁症中很常见。此时，选择的工具是执行意图。在精力和动力低下时，像“多做运动”这样的指令是失败的处方。而一个执行意图，一个具体的“如果-那么”计划，就像为大脑预先编写的一段代码。一个像“如果我喝完早晨的咖啡，那么我将走到计步器显示1000步”这样的计划，将决策外包给了环境。“如果”部分是线索，“那么”部分是惯例。它消除了当下权衡的需要，使得行动更有可能发生。再配上分级目标和一个小的即时奖励，这种结构化的方法可以建立动力并创造积极的强化循环，这正是行为激活疗法的精髓。

有时，新习惯不仅费力，而且是主动厌恶的。对于患有阻塞性睡眠呼吸暂停的病人来说，使用持续正压通气（PAP）机可能会感到幽闭恐惧和不适。在这里，习惯形成是一场双线作战：我们不仅要建立新的惯例，还必须消除与之相关的条件性焦虑。纯粹基于“意志力”的方法注定失败。相反，需要一种多管齐下的策略来转动习惯的“飞轮”。动机性访谈可以加强最初的意图（“为什么”）。面罩适应，即在白天练习使用设备，可以降低最初的焦虑高墙。而脱敏技术则有助于在每次成功使用后消除恐惧反应。这些干预措施协同作用，帮助用户度过最初关键的几个夜晚，启动一个积极的反馈循环：每次使用都会稍微加强习惯并稍微减少焦虑，使下一次使用变得更容易一些，直到行为变得自动化并产生益处[@problem-id:5053525]。

从宏观上看，这些相同的原则可以为大规模的公共卫生项目提供信息。针对结核病的全程督导治疗策略（DOTS）就是一个强有力的例子。这似乎有些家长式作风：为什么医护人员必须看着病人服药？答案在于行为经济学。我们在某种程度上都是“偏好当下”的。我们高估了即时成本（服药）而低估了遥远的利益（治愈一种致命疾病）。DOTS通过重构即时回报，巧妙地利用了这一认知缺陷。观察者的存在引入了即时的社会责任感和积极强化，同时减少了记忆的阻力。它改变了每日的决策，使依从性成为阻力最小的路径，并确保完成一个拯救生命的疗程。

机器中的幽灵：当习惯出错时

大脑的习惯形成机制是一个公正的引擎。它不区分“好”与“坏”的行为；它只是自动化那些被重复和奖励的行为。当奖励机制强大且即时时，这个系统可以锻造出难以打破的强迫性锁链。

一个温和但常见的例子是过度使用局部鼻腔减充血剂。一个感冒的人使用喷雾剂，鼻塞立刻得到缓解——这是一个强大、即时的奖励。线索是鼻塞，惯例是喷雾，奖励是自由呼吸。问题在于，过度使用会导致反弹性充血，从而创造一个更强的线索。使用者现在被困在一个功能完美但适应不良的习惯循环中。要摆脱它，不能简单地“停止”。必须重写这个习惯。这包括扰乱线索（将喷雾剂从床头柜移开），替换惯例（改用盐水冲洗），以及在更高级的治疗中，让大脑自身的学习过程变得有意识。通过让病人明确记录他们预测的缓解程度与实际的缓解程度，他们可以看到其中的不匹配——即奖励预测误差——并认识到旧习惯已不再为他们服务，从而加速其消退。

在最极端的形式中，习惯形成的这种“阴暗面”是严重精神疾病的核心。以躯体变形障碍（BDD）为例，患者因自己外貌上的感知缺陷而备受折磨。神经影像学研究表明，在BDD中，大脑的错误检测回路，特别是眶额皮层和前扣带皮层的回路，处于过度活跃状态。它们对皮肤或面部完全正常的变异发出强烈、痛苦的“错误信号”。这些信号就是侵入性的强迫观念。大脑为纠正这些“错误”而拼命启动一个强迫性行为——一种仪式，如照镜子或抠皮肤。在短暂的一瞬间，这种仪式缓解了焦虑风暴。这种缓解是一种强大的负强化，它将“缺陷”的感知与仪式之间的联系深深烙印下来。随着每一次重复，行为从有意识的、目标导向的行动转变为由背外侧纹状体控制的僵化、自动的习惯。仪式变成了一种无意识的强迫行为，一个机器中的幽灵，即使当事人逻辑上知道缺陷是虚幻的，它仍然存在。这是一个悲剧性的、深刻的例子，说明大脑的效率引擎如何反噬自身，建造了一座自动化的监狱。

集体的习惯：从个体到系统

习惯形成的原则可以超越个体。它们可以被用来理解和塑造群体、组织乃至整个社会的行为，通过精心设计我们所处的环境。

一个组织，比如一个医院单元，是相互作用的个体的集合。要可靠地减少医疗差错，仅仅举办一次性的培训项目是不够的。组织本身必须养成安全的“习惯”。精益日常管理系统（LDMS）正是如此：一个建立集体习惯的引擎。“标准作业”定义了理想的惯例。“可视化数据板”提供了关于系统性能的持续、显著的线索。每日团队站会提供了奖励循环——一个即时解决问题和给予社会认可的论坛。这整个结构就像一个负反馈循环，不断引导团队的集体行为朝向目标。它创造了一种文化，在这种文化中，对问题的习惯性反应不是指责，而是系统性探究和改进。这是行为科学在整个系统规模上的应用。

环境本身或许是我们习惯最强大却最被忽视的塑造者。对于患有季节性情感障碍（SAD）的人来说，每日早晨的强光疗法可以改变生活，但依从性出了名的困难。解决方案往往不在于增强意志力，而在于环境重构。通过做一些一次性的改变——将光疗箱放置在一个永久、方便的位置；将其插入一个能自动开启的智能定时器；将其使用与早晨喝咖啡的现有习惯明确联系起来——我们重新设计了选择架构。期望的行为变成了默认选项，阻力最小的路径。这是一个深刻的视角转变：我们不再进行每日的意志力斗争，而是进行一次性的智能设计，从而日复一日地获得回报。

内在的建筑师

回顾过去，我们甚至可以在历史中看到这些原则在起作用。19世纪早期精神病院的“道德治疗”运动，用结构化的日常活动和赢得的特权取代了锁链和强迫，可以被视为行为科学的一种直观、早期的应用。详细的每日时间表提供了持续的线索和重复，而分级特权系统则提供了依条件的、人道的强化。像 Philippe Pinel 和 William Tuke 这样的改革者理解一个基本真理：通过构建一个人的环境，我们可以帮助他们重建健康心智的习惯。

习惯形成的科学为我们递上了一份关于我们自身行为机制的蓝图。习惯是我们生活中无形的架构，是那股能将我们推向目标或将我们锁在过去的力量。这份知识赋予我们力量。它教导我们，改变与其说是自我控制的英雄壮举，不如说是对我们日常惯例和我们所处世界进行智能设计的结果。我们不仅仅是我们根深蒂固模式的傀儡。通过理解线索、惯例和奖励之舞，我们可以介入并改变这支舞的编排。我们可以成为自己习惯的建筑师，并在此过程中，成为我们自己的建筑师。