try ai
科普
编辑
分享
反馈
  • 基于分数的方法:贯穿科学与人工智能的统一概念

基于分数的方法:贯穿科学与人工智能的统一概念

SciencePedia玻尔百科
核心要点
  • 基于分数的方法提供了一个统一的框架,用于量化证据、质量或合理性,将复杂数据转化为一个单一的、可操作的数字。
  • 在现代机器学习中,“分数”被定义为对数概率的梯度,这是一个指导生成过程(如从噪声中创建逼真图像)的向量。
  • 应用遍及多个领域,包括计算遗传病风险(PRS)、指导癌症治疗(HRD评分)以及实现虚拟药物筛选。
  • 任何分数的可靠性都严重依赖于其底层模型的准确性和所基于数据的完整性。
  • 这一概念从简单的加权和演变为一种复杂的指导力量,用于优化、因果发现,并通过不确定性量化确保人工智能模型的安全性。

引言

在探索世界的过程中,科学不断寻求将复杂证据转化为清晰、果断判断的方法。从评估科学假说到预测患者的疾病风险,我们需要一种正式的方法来权衡信息并得出结论。基于分数的方法提供了一个强大且出人意料的普适性答案。这种以赋予数值分数来表示质量、可能性或拟合度的核心方法,如同一条统一的线索,将从基因组学、医学到人工智能前沿等看似毫无关联的领域联系在一起。然而,评分表面上的简单性掩盖了其丰富的理论基础和从业者必须理解的一系列关键局限性。

本文旨在探索基于分数的方法这个多姿多彩的世界。本文旨在弥合分数的直观概念与其在现代研究和技术中的复杂应用之间的鸿沟。首先,“原理与机制”一章将解构其核心思想,从遗传学中使用的直观加权和开始,逐步深入到机器学习中将分数作为指导性向量场的深刻概念。在这一理论基础之上,“应用与跨学科联系”一章将带领读者穿越科学的广阔图景,展示评分如何在基因编辑、癌症诊断、药物发现和生成式人工智能的创造中推动发现,从而彰显这一单一、优雅思想的非凡力量。

原理与机制

科学的核心是理解世界的过程。我们收集证据,形成假说,并决定哪些假说比其他假说更可信。但我们如何形式化这个“决定”的过程呢?我们如何将堆积如山的的杂乱数据转化为清晰的判断?答案常常是:我们发明一个​​分数​​。分数是我们分配给一个数据、一个假说或一个候选解决方案的数字或等级,它根据某些标准告诉我们它有多“好”。​​基于分数的方法​​的美妙之处在于,这个简单的想法,在经过提炼和推广后,成为现代科学技术中最强大、最具统一性的概念之一,将从遗传预测到人工图像生成的一切联系起来。

简单而强大的加权分数思想

让我们从一个非常人性化的问题开始:我们患某种疾病或拥有某种性状的遗传风险是什么?对于许多复杂性状而言,这并非由单个基因决定,而是由成百上千个遗传变异,即 ​​SNP​​ 共同作用的结果,每个变异的贡献都很小。创建一个风险分数最简单的方法就是计算一个人拥有多少“风险”变异。但这种方法有一个根本缺陷:它假设每个变异的重要性都相同。

想象一个委员会投票,每个成员都有一票,无论他们对该议题的专业知识如何。你可能不会信任投票结果。一个更好的系统会给予专家的投票更大的权重。这正是现代​​多基因风险评分 (Polygenic Risk Score, PRS)​​ 背后的原理。PRS 不是一个简单的计数,而是一个加权和。个体携带的每个风险变异都乘以一个代表其测量出的重要性的权重——其​​效应量​​,通常源自大规模遗传学研究中该变异的比值比(odds ratio)的对数。一个显著增加风险的变异获得较大的权重,而效应微小的变异则获得较小的权重。

其结果是,一个仅带有一个高影响力风险变异的个体,其风险评分可能远高于一个带有数个弱风险变异的个体。分数不再仅仅是一个计数;它是一个复杂的证据摘要,其中每一份证据都按其效力进行了加权。从计数到加权求和的这个简单转变,是理解评分艺术的第一个关键步骤。

从为个体评分到为思想评分

评分的思想可以从评估个体的性状提升到评估科学假说。想象你是一位系统生物学家,试图弄清楚少数几个基因如何相互调控。你有一个庞大的基因表达水平数据集,并且想推断其潜在的连接网络。你如何决定哪个网络图是“最佳”的?

你可以采用两种截然不同的哲学,这恰好说明了基于分数的方法的独特性。

一种称为​​基于约束的方法​​,就像侦探一样。你会从假设所有基因都相互连接开始,然后使用统计检验来检查条件独立性。例如,你可能会问:“如果我们已经知道基因Y的水平,基因X和基因Z是否统计上独立?”如果答案是肯定的,你就会得出结论:X和Z之间的任何相关性都只是由Y介导的假象,你就可以抹去它们之间的直接联系。你基于一系列局部的、逻辑的规则,一步步地构建你的网络。

​​基于分数的方法​​ 不太像侦探,而更像陪审员。它不孤立地关注单个连接,而是着眼于全局。对于每个可能的网络图,它计算一个单一的全局分数,该分数回答了这样一个问题:“这个被提出的完整网络结构在多大程度上解释了我观察到的所有数据?”这个分数通常基于统计似然性,但有一个关键的转折——对复杂度的惩罚。这是奥卡姆剃刀定律的数学体现:一个能合理解释数据且更简单的网络,会比一个仅能稍微更好地解释数据的复杂网络得到更高的分数。“最佳”网络就是使这个全局分数最大化的网络。

当然,挑战在于可能的网络数量可能大到天文数字,随着基因数量的增加呈超指数增长。寻找得分最高的图是一项巨大的计算任务。但原理是清晰的:我们不再使用局部规则,而是使用全局判断,用一个单一的数字来权衡整个思想的拟合优度。

分数的更深层身份:通往更高处的地图

到目前为止,我们都将分数视为我们计算出来用于排序的数字。但在物理学和现代机器学习中,“分数”具有更深、更玄妙的身份。它不仅仅是一个数字,它是一个方向,一个向量。

想象一个概率分布 p(x)p(\mathbf{x})p(x),它就像一种地形景观。对于任何可能的数据点 x\mathbf{x}x(可以是一幅图像的像素值或一个盒子中粒子的位置),p(x)p(\mathbf{x})p(x) 给出其概率。我们可以把它看作一个“信念景观”,高概率区域形成山丘和山脉,低概率区域形成山谷。现在,假设你处于这个景观上的一个特定点 x\mathbf{x}x。你可能会问:“我应该朝哪个方向走才能最快地增加概率?”这个问题的答案由概率的对数的梯度给出。这个向量就是统计学家所称的​​分数​​:

s(x)=∇xlog⁡p(x)s(\mathbf{x}) = \nabla_{\mathbf{x}} \log p(\mathbf{x})s(x)=∇x​logp(x)

在任何一点 x\mathbf{x}x 上的分数都是一个向量,指向对数概率景观上最陡峭的上升方向。它是一个局部向导,告诉你如何变得更“合理”。这个概念非常强大。例如,在粒子物理学中,当我们试图从一些观测数据 x\mathbf{x}x 中确定一个理论的参数 θ\thetaθ 时,分数 t(x;θ)=∇θlog⁡p(x∣θ)t(\mathbf{x}; \theta) = \nabla_{\theta} \log p(\mathbf{x}|\theta)t(x;θ)=∇θ​logp(x∣θ) 告诉我们,我们对理论的信念(其对数似然)对其参数的微小调整有多敏感。它构成了所有局部统计推断的基础,使我们能够估计参数及其不确定性。

作为引擎的分数:引导动态与解决问题

如果分数是一个指向更高概率的向量场,我们就可以用它作为引擎来驱动各种过程。这是人工智能领域一些最激动人心的新近进展背后的关键思想。

​​基于分数的生成模型​​,也称为扩散模型,就是一个完美的例子。你如何教计算机生成一张全新的、逼真的猫的图像?你可以从一张纯粹是随机噪声的图像开始——就像电视屏幕上的雪花。这对应于像素这个超高维空间中的一个随机点。然后,你使用一个经过训练的神经网络来估计真实猫图像分布的分数函数 s(x)s(\mathbf{x})s(x)。在每一步,算法都会查阅分数,并朝着它指向的方向迈出一小步。这就像一个在浓雾中的徒步者,拥有一个永远指向上坡方向的神奇指南针。通过反复跟随分数,随机噪声被逐步雕琢,一步步变成一只连贯而逼真的猫的图像。这个由分数引导的过程,从无到有地创造了事物。

同样的原理可以用来解决极其困难的反问题,比如对照片进行去模糊处理。目标是找到一张清晰的图像,当它经过数学上的模糊处理后,能与我们手中的模糊照片相匹配。现代算法通过从一个猜测开始并迭代地改进它来解决这个问题。但是什么能阻止算法产生一张清晰但毫无意义的图像呢?答案是一个正则化项,一种引导解决方案朝向“自然”样貌的向导。一个名为​​即插即用 (PnP)​​ 先验的革命性思想使用预训练的图像去噪器作为这种引导。这为什么能行得通?因为一个好的去噪器已经隐式地学习了自然图像的分数函数!事实证明,去噪图像的行为在数学上与沿着分数方向迈出一步有关。因此,通过“插入”一个去噪器,我们正在使用一个学习到的分数来指导优化过程,使其远离无意义的输出,朝向一个合理、清晰的图像。

保持健康的怀疑态度:分数何时会骗人

基于分数的方法威力巨大,但它并非魔法。一个分数终究是其计算所用数据和其所假设模型的反映。如果数据有误导性或模型是错误的,分数可能成为一个强大的幻象。

  • ​​模型必须稳健。​​ 在生物学中,BLAST 算法对两条基因序列的相似性进行评分。这个分数的统计显著性是通过一个优美的理论(Karlin-Altschul 统计)计算的,该理论依赖于一个关键假设:对齐两个随机残基的期望分数必须为负。如果由于评分系统设计不当,期望分数为正,那么整个统计框架就会崩溃。一个比对的分数会随着其长度不断增长,高分也就变得在统计上毫无意义。分数本身只是一个数字;其解释完全取决于其底层统计模型的有效性。

  • ​​数据可能说谎。​​ 有时,大自然会设下一个完美的陷阱。在一个基因网络中,一个基因可能激活一个靶标,而来自同一源头的另一条通路则抑制它。如果这两种效应完美地相互抵消,数据将显示源和目标之间零相关。一个基于分数(或基于约束)的方法在分析这些观测数据时,会高置信度地得出结论:两者之间没有联系。它会选择一个更简单但错误的模型,这个模型能完美拟合误导性的数据,因为最大化分数就是这么指导它的。分数忠实地描述了数据,但数据本身却隐藏了真相。

  • ​​世界是复杂的。​​ 我们最简单的分数通常假设一个干净、简单的世界。在质谱分析中,我们使用余弦相似度将实验谱图与纯化合物库进行比对评分。但如果我们的实验样品被污染,产生一个由两种不同化合物混合而成的嵌合谱图呢?一个简单的余弦分数可能会被欺骗,对两种纯化合物都给出高分,从而导致错误的鉴定。类似地,在基因集富集分析(GSEA)中,一个朴素的运行总和分数可能会被少数几个甚至不属于被测试生物通路的离群基因急剧抬高。分数报告了不存在的显著性,因为它对世界的简单模型被违背了。

这里的教训是深刻的。评分的艺术不仅仅在于优化的数学或计算的能力,而在于构建反映现实模型的深刻科学工作。当一个简单的分数失败时,解决方案不是放弃评分,而是构建一个更好的分数——一个能考虑混合物、对离群值进行归一化、并基于稳健统计理论的分数。从简单的加权和到指导性向量场的演变过程,展示了一个单一思想如何能够统一不同领域并推动发现。但它的局限性提醒我们,我们的分数,无论多么复杂,其优劣最终取决于我们对它们试图衡量的世界的理解程度。

应用与跨学科联系

在走过基于分数的方法的基础原理之旅后,我们现在站在一个激动人心的制高点。从这里,我们可以俯瞰现代科学的广阔图景,看到这个看似简单的概念——赋予数值以代表证据、质量或潜力的行为——如何成为一个强大而统一的发现引擎。它是一条金线,将遗传学、临床医学、药物发现和人工智能等迥然不同的领域编织在一起。让我们开始一次对这些应用的巡礼,这不仅仅是一份目录,更是一次欣赏这一思想在实践中内在之美与统一性的旅程。

解码生命之书:从基因到功能

想象一下,基因组是一个巨大的古代图书馆,收藏着一个文明的全部著作,用四字母的字母表写成。大部分文本似乎是胡言乱语,但其中隐藏着诗歌、法律和历史——那些编排生命的 функциональные элементы。我们如何找到这些有意义的段落?

最优雅的答案之一来自倾听进化的回声。大自然亿万年来一直在进行终极实验。如果一段DNA序列对生存至关重要,它将在不同物种间被严格地保护,免于改变。因此,我们可以根据每个基因组字母的保守程度对其进行评分。像 phyloP 和 GERP 这样的计算方法正是这样做的。它们查看来自许多物种的基因组序列——一个多重序列比对——并利用一个进化关系模型,为每个位点计算一个分数。高的保守性分数意味着“意外”:考虑到已经过去的进化时间,我们本应期望通过随机机会发生更多的变化。这种变化的缺失是净化选择的标志,是该序列具有功能的有力线索。其他方法,如 phastCons,更进一步,使用概率模型,用一个分数来“描绘”基因组,该分数代表任何给定区域属于“保守”状态与“中性”状态的可能性。通过追寻这些分数,我们可以在广阔的基因组非编码区域中揭示隐藏的调控开关和其他功能性宝藏。

从遥远的进化历史,我们转向今天。我们个体基因组中的细微变异如何影响我们的性状和疾病风险?这是全基因组关联研究(GWAS)的领域,它梳理成千上万人的DNA。对于数百万个遗传变异中的每一个,GWAS都会计算一个分数——通常是一个效应量(β^\hat{\beta}β^​)和相应的 ppp-值或 zzz-分数——量化其与特定性状的统计联系。真正的魔力在于接下来的事情。这些汇总统计数据,这些分数列表,通常就是后续大量科学研究所需的全部。研究人员可以在元分析中结合来自许多不同研究的分数以增加统计功效。他们可以利用一个变异的关联分数与其局部遗传相关性(其“LD分数”)之间的关系来估计一个性状的变异有多少是由于遗传因素造成的。他们还可以使用这些分数,连同遗传相关性图谱,进行统计精细定位,解开相邻变异的影响,从而放大到可能的致病元凶上。这种“基于汇总统计的”科学,得益于分数的充分性,使得大规模的全球合作成为可能,而无需共享敏感的个体层面遗传数据。

学会了阅读生命之书后,我们现在正在学习如何在其中书写。CRISPR-Cas9 革命为我们提供了一种以前所未有的简便性编辑DNA的工具。但随之而来的是对精确性的重大责任。我们如何确保我们的基因“笔”不会在错误的页面上留下错误的标记——即“脱靶”编辑?我们再次求助于评分。在进行实验之前,计算生物学家可以扫描细胞的整个基因组,寻找与预期靶点相似的位点。每个潜在的脱靶位点都会被赋予一个分数,预测其被意外切割的可能性。这些不是简单的错配计数器。复杂的模型,如CFD和MIT特异性分数,融入了CRISPR系统的生物物理学。它们知道,在PAM序列附近的关键“种子”区域发生错配,其破坏性远大于在远端发生的错配。它们甚至考虑了错配碱基的具体身份,因为G-A配对与G-T配对具有不同的能量学特性。通过根据这些分数为潜在的脱靶位点排序,科学家可以重新设计他们的实验或集中验证工作,使得整个基因编辑事业更安全、更可靠。

细胞作为一个宇宙:量化生物状态

现在让我们从基因组放大到单个细胞内动态、繁华的宇宙。这个微观城市居住着数百万分子公民——蛋白质、代谢物和RNA转录本——它们都在复杂的舞蹈中相互作用。为了理解健康与疾病,我们必须能够对这些分子进行普查,并描述细胞的整体“状态”。

进行这种分子普查的一项关键技术是质谱分析。在串联质谱仪中,我们可以分离一种特定类型的分子,用能量将其击碎,并测量所得碎片的质量。这种碎片模式,即谱图,可作为独特的指纹。为了识别未知分子,我们将其实验指纹与已知分子的库进行比较。这种匹配的质量,当然,就是一个分数。这可以是一个简单的几何度量,比如两个谱向量之间的余弦相似度,也可以是一个更精细的概率分数。一个有趣的挑战是,指纹会根据用于碎片的能量大小而变化。低能量碰撞可能会打断一个大片段,而高能量碰撞则将分子粉碎成许多小碎片。为了提高鉴定率,我们可以采用阶梯式碰撞能量来生成更丰富、更复合的指纹图谱,其中包含来自多个通路的碎片。这需要同样巧妙的评分策略:要么将我们的复合谱图与类似构建的复合库谱图进行比较,要么独立地对每个能量级的数据进行评分并结合证据。实验设计与计算评分之间的这种舞蹈是现代分析化学、蛋白质组学和代谢组学的核心。

除了简单地识别细胞的组成部分,我们还想了解其集体行为。思考上皮-间质转化(EMT),这是一个非凡的过程,其中静止、紧密连接的细胞转变为可迁移的、个体化的细胞。这个过程对胚胎发育至关重要,并且臭名昭著地被癌细胞劫持以进行转移。一个细胞并非简单地是“上皮”或“间质”;它可以存在于一个混合状态的连续谱中。利用单细胞RNA测序,我们可以测量单个细胞中数千个基因的活性。从这些数据中,我们可以计算一个“EMT分数”。这可能是一个简单的线性分数——间质基因的平均表达量减去上皮基因的平均表达量——或者是一个更稳健的、基于排序的分数,对技术噪声不那么敏感。通过为每个细胞评分,我们可以将其置于EMT连续谱上,揭示群体的结构,并识别可能是疾病关键驱动因素的罕见中间状态。这些分数使我们能够超越离散的标签,量化生物学的连续性 [@problem-id:2635819]。

在临床上,评分的影响最为直接。在许多癌症中,一个名为同源重组的关键DNA修复通路被破坏,这种状态被称为同源重组缺陷(HRD)。这种缺陷是一个弱点;它使癌细胞对一类名为PARP抑制剂的药物异常敏感。为了指导治疗,我们需要知道哪些患者的肿瘤存在这种弱点。答案在于对有缺陷的DNA修复留下的基因组“疤痕”进行评分。这些疤痕是横跨染色体可见的大规模等位基因不平衡模式。通过统计这些事件来计算“HRD分数”。高分将患者标记为可能对PARP抑制剂有反应者。问题 阐明了一个关键原则:如何评分至关重要。一种仅基于DNA总量变化的评分方法,如果HRD是由拷贝数中性事件引起的,就可能完全错过HRD特征,导致假阴性结果。一个更复杂的评分,源于能够同时看到哪个亲本等位基因存在的技术,能够正确识别这些疤痕,并进而识别出将从挽救生命的治疗中受益的患者。这是一个强有力的证明,说明评分原则具有生死攸关的后果。

数字炼金术士:从数据到发现

我们的旅程现在转向,从使用分数来观察和测量自然,到使用它们作为计算发现中的创造性力量,将数据转化为洞察力甚至行动。

思考发现新药这项艰巨的任务。制药公司的化合物库包含数百万种潜在的药物分子。在实验室中测试每一种都是不可行的。这时虚拟筛选就派上用场了。使用计算机模拟,我们可以将每个数字分子“对接”到目标蛋白质的结构中,预测其结合的好坏。每次对接运行都会产生一个分数。然而,没有哪个单一的模拟程序是完美的。一个绝妙的策略是采用“共识评分”。我们不依赖单一的意见,而是运行几个不同的对接程序并结合它们的输出。通过将每个程序的原始分数转换到一个共同的、无单位的尺度上(例如,基于它们的秩次),然后计算加权平均值,我们可以产生一个最终的共识分数,这个分数通常比任何单一方法都更可靠。这种数据融合方法使我们能够“提升”在多个模型中表现良好的候选分子,提高虚拟筛选的命中率,并加速新药的寻找过程。

我们能把这个想法推得更远吗?一个计算智能体能自己学会如何进行实验吗?想象一下,试图绘制一个复杂系统(如基因调控网络)的因果网络。我们可以进行干预——打开或关闭一个基因——看看会发生什么。但有数千个基因,可能的实验数量是天文数字。我们下一步应该做哪个实验?我们可以将其构建为一个强化学习问题。一个“智能体”选择一个实验(一次干预)。它的“奖励”不是金钱或分数,而是一个量化它刚刚获得的信息价值的分数。在因果发现中,这可能是D-最优性分数,它衡量了我们对网络结构确定性的增加程度。通过不断选择它预测将最大化其未来累积分数的行动,智能体学习到一种最优的实验策略,自动发现揭示系统因果线路的最具信息量的实验序列。

这把我们带到了机器学习的前沿,在这里“分数”的概念具有了迄今为止最深刻的含义。在现代人工智能中,分数函数被定义为数据对数概率密度的梯度,即 ∇log⁡p(x)\nabla \log p(\mathbf{x})∇logp(x)。这个向量通过指向通往更高概率区域的最陡峭上升方向来“评价”空间中的每一点。这个思想是强大的基于分数的生成模型的基础。假设你想解决一个困难的反问题,比如从模糊、嘈杂的扫描图像中重建出清晰的医学影像。你可以使用一个在数千张清晰图像上训练过的深度生成网络作为“先验”,它封装了合理的医学图像应该是什么样子。给定你的模糊扫描,你可以计算生成器潜在空间中后验分布的分数 ∇zlog⁡p(z∣y)\nabla_z \log p(z \mid y)∇z​logp(z∣y)。这个分数告诉你如何调整你的潜在代码 zzz,以使生成的图像 G(z)G(z)G(z) 既更逼真(根据先验)又与你的观测更一致。通过沿着分数方向迈出小步(一个称为朗之万动力学的过程),你可以有效地从所有可能产生你损坏数据的高质量图像空间中进行采样,达到顶尖水平的结果。

最后,当我们构建这些极其强大的人工智能模型时,一个极其重要的问题出现了:我们如何知道何时该信任它们?一个图神经网络可能被训练来以超人的准确度分类细胞类型,但当它遇到一个来自它从未见过的全新状态的细胞——一个“分布外”样本时,会发生什么?在医疗环境中,一个错误的预测可能是灾难性的。解决方案是让模型对自身的不确定性进行评分。一个自信的预测对应于一个在可能类别上尖锐的、低熵的概率分布。一个困惑或不确定的预测则产生一个平坦的、高熵的分布。我们还可以计算一个从模型的原始输出(logits)派生出的“能量分数”。通过对这个不确定性分数设定一个阈值,我们可以赋予模型做一些非常明智的事情的能力:当它的不确定性太高时,它可以放弃做出预测,并将样本标记出来以供人工审查。这种“知道自己不知道什么”的能力不仅仅是一个技术特性;它是在科学和社会中安全、合乎伦理且可靠地部署人工智能的先决条件。

从病床边到基础物理学的前沿,评分这个简单的行为是一个具有惊人通用性和力量的概念。它是从复杂性中寻找意义的透镜,是量化不可量化之物的语言,是智能行动的指南,也是安全创新的护栏。它是一个美丽的证明,展示了一个单一的数学思想如何能够照亮和改变我们的世界。