公共政策评估的艺术与科学

玻尔百科

定义

公共政策评估的艺术与科学是公共管理领域中的一个多维度框架，要求将经验性的事实与规范性的价值判断严格区分。该学科的核心在于权衡风险与收益并制定政策选择，通过风险对等的明智监管策略来避免抑制创新。它通过审议民主等包容性程序将公众价值与技术分析相结合，从而确保政策的合法性。

核心要点

有效的公共政策评估要求严格区分经验可检验的事实与规范性价值判断。
政策选择的核心涉及风险与效益之间的权衡，其中风险的定义决定了适当的管理策略。
明智的监管是与风险相称且分层的，仅对最高风险的活动实施最严格的控制，以避免扼杀创新。
政策的合法性通过协商民主等包容性过程来实现，这些过程确保了公众价值与技术分析的结合。

引言

在一个充满从大流行病到气候变化等复杂挑战的世界里，制定有效的公共政策比以往任何时候都更为关键。然而，仅有善意是不够的；政策制定者需要一个结构化和理性的框架来驾驭艰难的选择，权衡相互竞争的价值观，并向公众证明其决策的合理性。核心问题在于如何以一种科学严谨、伦理上合理且民主上合法的方式来评估潜在的政策。若没有明确的方法论，决策可能会陷入政治僵局、直觉反应或错误的假设之中，从而导致无效甚至有害的结果。

本文介绍了公共政策评估的艺术与科学，为思考社会选择提供了一套全面的思维机器。第一章“原则与机制”将通过探讨事实与价值的关键区别、风险与效益这一通用衡量标准，以及设计明智、相称规则的策略，为全文奠定基础。第二章“应用与跨学科联系”将接着展示这些原则如何应用于公共卫生、科学研究和环境管理中的现实困境，揭示理论与实践之间的动态相互作用。

原则与机制

那么，我们生活在一个混乱复杂的世界，并希望让它变得更好。我们想要更清洁的空气、更安全的药品、更强健的经济。我们将这项事业称为“公共政策”。但我们该如何做到呢？我们如何决定是禁止一种化学品、资助一项新技术，还是强制接种一种疫苗？仅有善意是不够的。善意若与模糊的思维相结合，可能会铺就一条非常不愉快的道路。我们需要的是一台思维的机器——一套用于做出明智选择的原则和机制。这就是公共政策评估的艺术与科学。

它不是一套能吐出唯一完美答案的魔法公式。大自然远比那微妙得多。相反，它是一种看待世界的方式，一种将极其复杂的问题分解为我们能理解并采取行动的若干部分的方法。它关乎诚实地面对我们所知的、我们所不知的，以及我们所珍视的。

巨大的鸿沟：事实与价值

让我们从游戏最重要的规则开始，这是我们在迈出下一步之前必须划下的一条界线。这就是“实然”（what is）世界与“应然”（what ought to be）世界之间的区别。这是事实与价值之间的巨大鸿沟。

想象一个市议会正在辩论一项禁止一次性塑料袋的法案。你会听到各种各样的陈述。有人可能会说：“这项禁令将在两年内使我们海岸线上可见的垃圾减少 $40\%$ 。”这是一个关于世界的断言。它是一个预测。它可能是对的，也可能是错的，但它在原则上是经验可检验的。我们可以出去计算禁令前后的垃圾数量。我们可以将我们的城市与一个未实施禁令的类似城市进行比较。这是科学的领域。

然后，另一个人可能会说：“一次性文化在道德上是有害的，因为它助长了对自然的不尊重。”现在，这是一种不同类型的陈述。你无法在一个城市上安装一个“道德伤害”测量仪。这是一个规范性承诺，一个关于什么是好或坏、对或错的陈述。它是一种价值观的宣告。

政策评估中第一个也是最灾难性的错误就是混淆这两者。一个经验可检验的断言不由投票来决定。一个规范性承诺不由实验室实验来决定。好的政策评估将它们分开，但又巧妙地将它们联系起来。我们使用最严谨的科学来检验我们的事实性断言——如果我们做X，将会发生什么？然后，我们使用结构化、透明的伦理推理来辩论我们的价值观——考虑到可能的后果，我们应该做X吗？整个事业都建立在尊重这一区别之上。

选择的通货：风险与效益

一旦我们掌握了事实——或者至少是我们对事实的最佳猜测——我们就面临一个选择。而每一个选择都涉及权衡。这种权衡的通用货币就是风险与效益。

回想一下天花肆虐的可怕岁月。在18世纪，一种称为人痘接种术的做法很普遍。医生会从天花病患身上取下脓液，然后将其注入一个健康人体内。目的是诱发一种轻微的疾病，从而赋予终身免疫力。这是一种权衡。自然感染天花可能会导致 $30\%$ 甚至更多的患者死亡。人痘接种术要安全得多，但其死亡率仍在 $2\%$ 到 $3\%$ 左右。

现在，思考一下这里的伦理问题。你能强迫某人接受一个有四十分之一几率致死的程序吗？当然不能。这是一种非常私人的赌博，是个人在权衡自己对疾病的恐惧与对疗法的风险后做出的选择。

然后，Edward Jenner和疫苗接种出现了。通过使用温和得多的牛痘病毒，他创造了一种能够赋予天花免疫力的程序，其死亡风险几乎为零。突然间，整个伦理格局发生了变化。该程序的个体风险被极大地降低，以至于对社区的益处——我们现在称之为群体免疫的现象——成为了主导性的考量。现在，国家在伦理上可以设想说：“这个程序如此安全，其集体效益如此之大，我们将强制推行它。”风险与效益的演算正是驱动政策的引擎。改变了风险，你就能改变伦理上的可能性。

并非所有风险都生而平等：意外与对手

但仅仅问“它有多大风险？”是不够的。我们必须问：“这是哪种风险？”这是一个虽细微却至关重要的点。让我们看一个高科技生物实验室。有两种根本不同的方式可能导致严重问题。

首先，是生物安全（biosafety）。这是关于预防意外。一个科学家可能会不小心被针扎到自己。一个试管可能会掉落。通风系统可能会失效。这些都是概率性事件。我们通过安全设备、严谨的程序和培训来管理它们。我们用失效率和概率来思考。这是一场对抗熵和人为错误的斗争。

其次，是生物安保（biosecurity）。这是关于预防蓄意滥用。它关乎一个对手——一个恐怖分子、一个罪犯、一个内部人员——想要窃取一种危险的病原体并将其用作武器。这不是一个概率游戏，而是一个策略游戏。你的对手是智能的。他们在寻找你安全链中最薄弱的环节。

将这两者混为一谈是灾难的根源。一个只追踪意外实验室感染的仪表盘，并不能告诉你是否有人在从你的冰箱里偷窃试管。你用来预防事故的工具与你用来阻止小偷的工具是不同的。生物安全控制措施可能包括更好的手套和经过认证的安全柜。生物安保控制措施则涉及人员背景调查、危险材料的严格库存控制以及冰箱上的警报器。你无法管理一个你没有正确定性的风险。你不能通过挂一个“地湿路滑”的牌子来阻止窃贼。

可能性的艺术：设计明智、相称的规则

所以我们需要规则来管理这些风险。但在这里我们面临一个两难的境地。规则会产生负担。如果我们把规则定得太宽泛或太笨拙，我们可能会瘫痪我们试图保障其安全的活动本身。这就是寒蝉效应，即过度监管会抑制有益的创新和研究。

想象一下，我们正试图管理“两用”研究——那些既可用于善途也可用于恶途的生物学研究。一个简单、幼稚的方法可能是：“任何可能被滥用的研究都必须经过严格、耗时的安全审查。”听起来很明智，对吧？

错了。这将是灾难性的。仔细的分析表明，这样一个宽泛的规则会将绝大部分完全合法、有益的生命科学研究标记为“潜在可疑”。系统将被假阳性淹没。科学家们面对无休止的延误和官僚障碍，只会放弃重要的工作。我们将以巨大的科学进步为代价，换取一点点安全感。

那么，更明智的方式是什么？我们设计一个与风险相称的分层系统。你利用你对风险的理解来构建一个更精巧的机器。对于绝大多数只有微小、假设性风险的项目，你什么也不做。对于一小部分引起一些警示的项目，你提供低成本、保密的咨询服务。“嘿，看起来你正在一个敏感领域工作。让我们谈谈如何安全地进行。”这是一种温和的接触。只有对那一小部分真正高风险的项目——比如说，让一种大流行病毒更具传播性——你才动用强制性安全审查的重锤。

这就是明智监管的艺术。它将最大的阻力施加在最大的风险上。这是要成为一名雕塑家，而不是一台推土机，用最小的必要力量来塑造人类活动。

穿越迷雾：当科学尚无定论时如何决策

这一切听起来很美妙，但它假设我们掌握了事实。在现实世界中，当科学往往不确定、相互矛盾并备受争议时，会发生什么？这正是政策评估真正才华闪耀之处。它不是关于拥有完美的知识，而是关于在不确定性的迷雾中做出最明智的决策。

思考我们时代最深刻的困境之一：使用像CRISPR这样的工具进行人类生殖系编辑。我们是否应该允许科学家编辑胚胎的DNA以预防遗传性疾病？潜在的益处是巨大的。潜在的风险——脱靶效应、对后代不可预见的后果——是可怕的且基本上是未知的。

一种粗糙的方法就是简单地说“是”或“否”。一种更复杂的方法综合了多种伦理框架。一个后果主义者看待不确定的结果，然后说：“不可逆转的伤害潜力如此之大，我们必须谨慎。”一个道义论者看待我们的义务，然后说：“我们有义务保护那些无法对这些风险表示同意的未来之人。”两种推理路线都指向同一个结论：暂停。一个延缓期（moratorium）。

但是，延缓期不应是一个死胡同。它必须是一条负责任的前进道路。政策变成：“我们暂时搁置此事，只有在一系列明确的条件得到满足时，我们才会解除搁置。”这些条件将是政策设计的杰作：

科学：我们需要独立的证据表明该技术是安全有效的，达到预先设定的基准。
伦理：我们需要证明没有更安全、更好的替代方案，并且需要有保障措施来确保公平获取。
治理：我们需要广泛、包容的公众协商和一个跨代监测结果的长期计划。

这将辩论从一场口水战转变为一个合作的研究项目。

现在，让我们来看一个更棘手的案例：一场环境冲突。一个激进组织称，一种名为AZX的化学品正在摧毁当地的野生动物，并引用了他们自己的实地研究。但是，一项对所有现有研究进行的庞大科学荟萃分析发现，其影响微乎其微，甚至没有影响，这表明激进组织的发现可能是由其他混杂因素造成的。社区很担心，但证据的分量很弱。监管者该怎么办？

以下是在不确定性下决策的大师级方案：首先，严谨、透明地综合证据。不要选择性地采纳研究。使用最好的统计工具来评估整个证据体系，包括其偏见和弱点。其次，将事实与价值分开。科学任务是估计AZX造成伤害的概率和程度。基于价值的任务是决定我们对不同类型错误的关心程度。如果我们未能监管一种有害化学品，后果有多糟？（假阴性）。如果我们不必要地禁止了一种有用的化学品，后果有多糟？（假阳性）。这些价值判断可以在一个损失函数中被形式化。第三，使用决策理论。将来自科学的概率与来自你价值观的损失函数结合起来。选择能最小化你预期损失的行动。这是预防原则的理性应用。它不意味着采取最极端的行动；它意味着在给定你所知和你所关心的情况下，采取最明智的行动。最后，实践适应性管理。你的决定不是最终的。你实施一个临时的、可逆的政策（或许是定向监测而非全面禁止），并设计一个研究项目来减少关键的不确定性。你设定明确的规则：“如果我们看到X，我们将收紧监管。如果我们看到Y，我们将放宽监管。”政策变成了一个动态的学习过程。

社会契约：谁来决定以及如何决定？

我们现在已经建立了一个强大的决策机器。但这台机器中有一个幽灵：“价值”。我们讨论了损失函数、伦理框架和权衡。谁来定义这些？如果公众不相信选择这些价值的过程是公平的，那么整个事业都将失败。世界上最好的技术分析，如果缺乏合法性，也是无用的。

那么，我们如何获得合法性？它不是来自简单的民意调查，那只捕捉了直觉反应。它不是来自一个闭门造车的专家小组，公众理所当然地不信任他们。答案在于一个称为协商民主的过程。

想象一下召开一个公民大会。你随机选择一群人，他们是你社区真实的人口横断面。你给他们提供来自一系列专家的均衡的简报材料。你提供一个中立的主持人。你给他们时间——几周，甚至几个月——去学习、倾听彼此的意见并进行审议。他们的任务不是投票，而是提出一套合乎情理的建议。至关重要的是，政府机构有义务公开回应每一条建议，解释将如何采纳，或者给出不采纳的充分理由。

这个过程建立信任。它为最终的政策赋予了“社会许可”，因为人们可以看到他们的价值观在一个公平、理性的过程中被听到并被认真对待。

这让我们回到了原点。一个成熟而稳健的政策评估框架将所有这些部分整合在一起。在一条轨道上，科学家们做他们的工作：他们制作一个包含不确定性的生物物理指标“仪表盘”。在另一条平行的轨道上，一个协商性的公众过程引出社区的价值观、权衡和优先事项。最终的决策透明地展示了不同的政策选项在科学事实和经过审议的社会价值观两方面的表现。它将“实然”和“应然”分开，但又以一种负责、适应性强且合法的方式将它们优雅地联系在一起。这就是一个社会能够以清晰、智慧和共同的目标感，而非恐惧或一厢情愿，来审视其复杂问题的机制。

应用与跨学科联系

在深入探讨了公共政策评估的核心原则之后，我们现在来到了旅程中最激动人心的部分。学习像国际象棋这样的游戏的规则，通过研究棋子的走法是一回事。而目睹这些规则在特级大师手中鲜活起来，驾驭真实对局中无限的复杂性，则是另一回事。评估的原则是我们的棋子，而现实世界——及其所有混乱、相互关联和美丽的挑战——是我们的棋盘。

这里就是理论联系实际的地方。我们将看到，政策评估不是在象牙塔里进行的枯燥的学术活动。它是一个运转正常的社会的嗡嗡作响的引擎室，一个塑造我们世界的集体选择的动态过程，其方式数不胜数，从我们能获得的药品，到我们呼吸的空气，再到我们为子孙后代正在建设的未来。让我们走出去，看看这些原则在实践中是如何运作的。

经典困境：在相互竞争的利益间进行权衡

或许政策评估最常见、最直观的作用是帮助我们在无法兼顾所有事情时决定该怎么做。我们生活在一个资源有限的世界，但我们的欲望和需求却是巨大的。这迫使我们做出选择，而每一个选择都有成本——不仅是金钱上的，还有我们放弃的机会。

思考一下一个预算有限的公共卫生服务机构所面临的艰难决策。想象一下，它必须决定是否为想要组建家庭的公民提供体外受精（IVF）的资金。现在，如果数据显示某些生活方式因素，如吸烟或肥胖，与该手术的较低成功率有关呢？一个委员会可能会提出一项政策，拒绝向具有这些风险因素的个人提供资金，并从功利主义的角度论证：为了用有限的资金获得最大的“健康效益”，我们应该将有限的资金投向成功概率最高的地方，从而为公众的金钱最大化地增加健康婴儿的出生数量。这似乎是理性的，一个直接的优化问题。

但另一个声音立刻加入了对话，说着正义和公平的语言。这个声音问道，根据成瘾或体重等状况来剥夺一种深刻的人类体验——拥有孩子的机会——这是否正确？这些状况受到遗传、社会经济地位和环境等复杂网络的共同影响，而不仅仅是“错误选择”的问题。这种观点认为，一个公正的社会应该以同等的关怀和尊重对待其成员，不应因人们的处境而惩罚他们，尤其是在涉及生命的基本方面时。在这里，我们看到两个强大的伦理框架直接冲突。功利主义旨在最大化总体利益，而基于正义的框架则寻求确保利益分配的公平性。没有简单的公式可以解决这种紧张关系。政策评估的目的不是提供一个“正确”的答案，而是使潜在的价值观、权衡和伦理假设变得透明，以便社会能够进行一场诚实的辩论。

这种价值观的冲突出现在许多领域。想想管理科学研究的政策。一家著名期刊的编辑可能会倡导一项规则，要求所有科学家公布其完整的、原始的、匿名的研究数据，认为这能促进透明度并加速所有人的进步——这是一个经典的为了更大利益的功利主义论点。然而，一位研究人员或患者权益倡导者可能会提出道义论的反驳。即使移除了姓名，丰富的基因数据集仍然存在被“重新识别”的风险，即与其他信息拼凑在一起以揭示特定个人。这将科学进步这一值得称赞的目标与保护患者机密性的基本责任对立起来，而后者是在收集数据时做出的承诺。从道义论的角度来看，这一责任可能是绝对的，是即使为了一个好的理由也不能打破的规则。再次说明，评估并非要找到一个神奇的数字，而是在我们道德承诺的深水中航行。

超越金钱：评估风险、注意力及无形之物

随着我们对这个话题越来越熟悉，我们可以看到，我们计算中的“成本”和“效益”通常不是可以轻易买卖的东西。公共政策评估一些最重要的应用涉及展望未来，并试图权衡预防一个尚未发生的伤害的价值。

新兴技术是这种思维方式的沃土。想象一个研究项目，旨在使一种常见的细菌完全抵抗所有捕食它的病毒，目标是让工业过程更可靠。一个崇高的目标。但是，像“值得关切的两用研究”（DURC）这样的政策框架迫使我们问另一个问题：这些知识会被滥用吗？例如，如果这项技术被应用于一种致病细菌，使其对未来使用病毒抗击感染的“噬菌体疗法”免疫，那该怎么办？这项研究突然带有了一种风险，即可能使一种有前途的未来医疗手段失效。这里的评估不是关于盈利和亏损；它是一种对风险的定性评估，试图在有形的当前利益与潜在但灾难性的未来伤害之间进行权衡。这是一种社会保险的形式。

“成本”的概念可以非常微妙。让我们考虑一下“物种复活”这一激动人心的前景——利用基因技术让像塔斯马尼亚虎这样的已灭绝物种重获新生。一位科技亿万富翁可能会为这样一个项目投入数亿“新增”美元，这些钱以前并未用于保育。这感觉像是一顿免费的午餐，一个纯粹的胜利。但真的是这样吗？一个成熟的政策评估不仅会将机会成本的概念应用于金钱，还会应用于另外两种极其稀缺的资源：公众注意力和政治意愿。

一个高调的物种复活项目可能会吸引全世界的想象力，占据新闻头条和议会讨论。这种“注意力转移”可能会无意中使那些不那么光鲜但更为关键的保育项目——比如为几十个受威胁物种保护重要的栖息地走廊——失去它们生存所需的捐款和政治支持。复活一个魅力物种的真正机会成本可能是许多其他物种的悄然、最终的灭绝。即使该项目是私人资助的，它也不是存在于真空中；它对整个保育生态系统施加了成本。这教导我们要寻找一项政策所产生的、远超其直接资产负债表的无形涟漪。

系统性视角：从意外后果到整合设计

最好的物理学家会培养出一种能够一次性看到全局的直觉。他们明白，如果不考虑单个粒子所处的整个场，就无法理解其运动。政策评估也是如此。一项政策不是投入静水池中的一颗石子；它是对一张巨大、相互关联的网络中一根丝线的拉扯。忽视网络的其余部分是灾难的根源。

没有比“绿色绅士化”现象更能说明这一点的了。一个市政府，出于最好的意图，可能会投资修复一条河流，在一个历史上投资不足的低收入社区创建美丽的公园和步道。环境价值是不可否认的。但接下来会发生什么？新的绿色设施使这个社区成为一个更理想的居住地。住房需求急剧上升。由于住房供应在短期内是固定的，租金和房产价值飞涨。很快，最初的居民——正是这个项目本应惠及的人群——被高昂的房价挤出，被更富裕的新来者取代。一项善意的环境政策，通过一个可预测的经济连锁反应，变成了一个社会不平等的引擎。

这是系统性思维的失败。仅仅根据其环境价值来评估这项政策，而忽略其对住房市场的影响，是一个严重的错误。那么，我们如何做得更好？我们需要能迫使我们看到整个系统的框架。对此，最强大的现代工具之一是“甜甜圈经济学”模型。它提出，一个社会的目标是在一个“社会基础”（良好生活的最低标准，如住房和食物）和一个“生态天花板”（我们绝不能跨越的地球边界，如气候变化和生物多样性丧失）之间的“安全与公正的空间”中运作。

以这个模型为指导，我们可以重新评估我们的城市政策。与其只是创建一个公园，如果城市同时实施一项政策，在公共交通附近建造经济适用、高密度的住房呢？现在看看系统性效应。通过向上而非向外建设，我们减少了城市扩张的压力，有助于保持在土地转化的生态天花板之内。通过将其设置在交通枢纽附近，我们减少了人均排放。而通过使其价格可负担，我们通过提供安全的住房直接加强了社会基础。这一项综合性政策同时解决了环境和社会挑战，将城市带入了甜甜圈的安全与公正空间。这就是复杂政策设计的精髓：创造能在整个系统中产生连锁积极效应的干预措施。

深远未来与我们讲述的故事

我们现在到达了前沿。当我们面对“深度不确定性”——当未来不仅有风险，而且是真正未知的时候，我们该怎么办？当我们的行动后果不可逆转并将影响数代人时，我们该怎么办？

思考一下是否要将“基因驱动”释放到野外的重大决定——这是一种旨在通过整个物种传播的基因改造，也许是为了消灭携带疾病的蚊子。这种技术是自我传播且可能不可逆转的。在我们甚至开始权衡其巨大的潜在益处（终结登革热！）与未知的生态风险之前，我们必须问一个更基本的问题。谁拥有做出一个将永久改变所有现在和未来世代共享的环境公域的决定的合法权威？这是一个程序正义的问题。评估过程本身——谁有发言权，如何给予同意——成为首要需要解决的伦理问题，甚至在我们开始风险-效益分析之前。

为了在这些不确定的未来中航行，我们需要新的工具。我们无法预测未来，但我们可以为此做准备。这就是诸如地平线扫描（系统地搜索未来变化的“微弱信号”）和情景规划（构建多个、可信的、不同的未来）等方法的作用。目标不是押注于单一结果，而是设计出稳健和适应性强的政策，无论哪种未来展开，都能表现得相当好。这就像建造一艘能应对任何天气的船，而不是一艘只为风平浪静而设计的船。在这些适应性框架内，我们可以明确地嵌入我们的价值观。例如，在评估一种昂贵的新基因疗法时，我们可以内置一个量化的公平性约束，一个规定该政策只有在不恶化社会中最弱势群体的健康前景的情况下才是可接受的规则，即使考虑了该项目的机会成本。

最后，我们必须面对所有公共政策评估中最微妙、也许也是最强大的力量：我们讲述的故事。我们建构一项技术的方式塑造了我们如何评估它。合成生物学是“扮演上帝”还是“编写生命”？这不仅仅是措辞的问题。将其建构为“扮演上帝”，会唤起一个充满傲慢、道德越轨和超出我们控制的复杂系统的世界。这种建构自然会导致对预防、延缓和严格监管的呼吁。另一方面，将其建构为“编写生命”，则会唤起一个理性工程、可预测模块和可控系统的世界。这种建构自然会导致对鼓励创新、适应性监管和允许建设的呼吁。这些相互竞争的叙事不仅仅是装饰；它们正是我们用以定义问题、解释事实和评估结果的透镜。

我们从简单的权衡到深度不确定性的治理之旅揭示了一个惊人的真理。公共政策评估，在其核心，是我们作为社区和社会，如何审议、选择和创造我们未来的故事。这是一项极其困难、深刻人性化且永无止境的迷人事业。它是我们对世界的理解与我们对世界的期望相遇的地方。