
在一个数据丰富的世界里,机器学习领域的一个根本挑战是如何有效地整合来自多样化和异构来源的信息。医生在诊断病人时,可能会参考临床图表、MRI 扫描和基因报告——每一种都提供了不同的视角。算法如何能同时从这些不同的输入中学习?答案在于算法如何感知关系,这一概念被“核”(kernels)所形式化,核函数充当了复杂的相似性函数。但是,如果存在多种有效的相似性度量方法,我们应该选择哪一种呢?
多核学习(MKL)提供了一个优雅的解决方案,它提出我们不必做出选择。相反,MKL 提供了一个有原则的框架来组合多个核,根据每个视角与当前任务的相关性来学习其权重。本文探讨了 MKL 框架,从其数学基础到实际应用。通过阅读,您将深入理解如何构建更强大、更具可解释性的模型,这些模型能够综合来自多种来源的知识。
接下来的章节将引导您了解这个强大的框架。在“原理与机制”一章中,我们将剖析 MKL 的数学基础,探讨核函数是如何组合的,它们的权重是如何通过对齐和联合优化等策略学习得到的,以及稀疏性如何揭示最重要的数据源。随后,“应用与跨学科联系”一章将展示 MKL 在现实世界中的影响,展示其在解决从生物学、医学到工程学等领域复杂问题方面的能力。
让我们从一个简单而深刻的问题开始我们的旅程:两个事物“相似”意味着什么?想象一下,你是一位试图了解病人病情的医生。你可以查看他们的临床图表,上面有血压和胆固醇的数值。这是一个视角。你可以查看他们的 MRI 扫描,那是一幅包含丰富解剖信息的织锦。这是另一个视角。或者你可以分析他们的基因表达数据,那是他们生物学状况的一个高维快照。这是第三个视角。每个视角都提供了一种不同的相似性度量。两个病人在临床数据上可能相似,但在遗传学上却可能大相径庭。
在机器学习的世界里,能够度量相似性的算法被称为核(kernel)。你可以把核看作一个“媒人”。给定任意两个项目——无论是病人、图像还是分子——核函数(我们称之为 )会返回一个数字,告诉我们它们有多相似。如果我们对数据集中的每对项目都这样做,我们就可以构建一个大表,即格拉姆矩阵(Gram matrix),其中条目 表示项目 和项目 之间的相似度。
妙处就在于此:对于一大类强大的算法,如支持向量机(Support Vector Machine, SVM),这个相似性表格是它们唯一需要看到的东西。它们不关心原始数据中混乱、高维的细节;它们完全在由核函数编码的关系语言中工作。这种抽象能力非常强大。它允许我们仅通过定义一个合适的相似性概念,就能将为简单几何问题设计的算法应用于极其复杂的数据。
这就引出了多核学习(MKL)的核心思想。如果我们有几种不同且合理的相似性度量方法,我们应该选择哪一种?为什么我们非要选择不可?为什么不让它们都发表意见呢?MKL 将我们收集的核函数看作一个议会。每个核代表一个不同的视角(例如,形状特征、纹理特征、遗传数据),都可以投一票。我们通过加权和将它们组合成一个更丰富的单一相似性概念:
在这里,每个 是来自第 个视角的相似性表格,而权重 代表分配给该视角的重要性,或者说“投票权”。
当然,我们不能随意组合。有一条至关重要的规则:组合后的相似性度量本身必须是有效的。直观地说,这意味着它必须是自洽的。例如,核函数不能说“A 与 B 完全相同,B 与 C 完全相同,但 A 与 C 完全不同”。这种一致性的数学形式化是一个称为半正定性(positive semidefiniteness)的性质。一个核是有效的,当且仅当它产生的格拉姆矩阵是半正定的。
而这正是一段真正优雅的数学发挥作用的地方。所有有效的半正定矩阵的集合构成一个被称为凸锥(convex cone)的结构。这听起来可能很抽象,但它有一个非常简单的推论:如果你取任意数量的半正定矩阵,并用非负权重()将它们相加,结果保证是另一个半正定矩阵。 这个简单而优美的性质是使多核学习成为可能的数学基石。它向我们保证,我们的“议会式”核组合始终是一种合法的、自洽的相似性度量。
所以,我们的 MKL 框架可以组合不同的视角。但它如何决定权重呢?我们如何进行“选举”来确定哪些核最重要?这就是多核学习中“学习”一词的由来。实现这一点主要有两种理念。
一种直接的方法是为我们的任务定义一个“理想”的相似性矩阵应该是什么样子,然后找到权重,使我们组合的核尽可能地与之匹配。对于一个分类问题,理想的核可能会表明,所有对药物有反应的病人都彼此高度相似,并且与所有没有反应的病人高度不相似。我们可以创建一个目标核(target kernel),通常简单到就是标签向量的外积(),它捕捉了这种期望的结构。目标就变成了找到权重 来最大化核-目标对齐(kernel-target alignment),这是我们组合核与目标核之间相似度的一种度量(弗罗贝尼乌斯内积,)。
当然,我们不能无限制地最大化对齐度;那会导致权重无限大。所以,我们添加一个正则化项来惩罚过于复杂的核,从而得到一个平衡的目标函数,如:
\text{maximize} \quad \operatorname{tr}(K_{combined} Y) - \text{regularization_penalty}(K_{combined})
这将问题转化为一个可以求解以找到最佳权重的良定义优化问题。这是一个简单直观的两步过程:首先,为观察数据找到最佳的透镜(组合核);其次,使用该透镜来训练你的最终分类器。
一种更复杂、更强大的策略是在我们训练最终模型(如 SVM)的同时学习权重。这创造了一种有趣的动态,最好地描述为一个 min-max 博弈。
想象一个 SVM,其目标是找到一条线(或在高维空间中,一个超平面),以尽可能大的间隔或“安全间隙”来分离两类数据。这个间隔的大小完全取决于你给它的核。MKL 算法和 SVM 现在共同参与一个博弈:
这导致了一个联合优化问题,我们同时在寻找最佳的核权重和与这些权重相对应的最佳分类器。 这种整体方法通常能带来更好的性能,因为核是精确地根据将要使用它的分类器的需求而量身定制的。
当我们整合来自多个来源的数据时——比如,来自医学扫描的十几种不同类型的放射组学特征——它们不可能对我们的预测任务都同样有用。许多可能纯粹是噪声。如果我们的 MKL 算法不仅能分配权重,还能找出哪些核是无用的,并给它们分配一个恰好为零的权重,那岂不是很好?
这个特性被称为稀疏性(sparsity),它是现代 MKL 最强大的特性之一。它能自动进行特征选择,但作用于整个数据模态的层面。这种魔力是如何发生的?它自然地源于优化的数学原理。
一些 MKL 算法被设计成交替过程:首先,固定核权重并训练 SVM;然后,固定 SVM 的解并更新核权重。当执行权重更新步骤时,问题通常简化为一个非常简单的选择:找到那个单独与当前 SVM 解配合得最好的单一核,并将所有权重()都放在那个核上。所有其他核的权重都为零。这种“赢家通吃”的策略本质上是稀疏的。经过多次迭代,算法可能会转移其焦点,但它总是倾向于少数几个活跃的核。
更一般地,可以通过向优化问题添加一种特定类型的惩罚来鼓励稀疏性,这种惩罚被称为 正则化器( regularizer)。该惩罚与权重的绝对值之和 成正比。这在数学上等同于给算法一个固定的权重“预算”,迫使它明智地将预算仅用于最有希望的核。在一个展现科学统一性的优美例子中,事实证明几种不同的 MKL 公式在数学上等同于这种被称为组套索(group LASSO)的正则化。 这种深刻的联系表明,MKL 选择相关数据源的能力并非一种临时技巧,而是它与其他强大统计方法共享的一个基本原则。
这与其他类型的正则化形成鲜明对比,例如 惩罚(与 成正比),它不喜欢大的权重,但乐于保留所有核并赋予它们较小的权重。这导致了“稠密”的组合,如果许多核是不相关的,这种组合的可解释性会较差,也更容易过拟合。
这个优雅的数学框架转化为强大的现实世界优势,但也伴随着我们必须尊重的微妙之处。
MKL 最实际的好处之一是它能够处理异构数据(heterogeneous data)——来自不同来源、具有不同尺度和单位的数据。考虑整合来自 CT 扫描的形状特征(以毫米为单位)和纹理特征(无单位的统计量)。一个标准的核函数会被数值较大的特征类型所主导。MKL 优雅地回避了这个问题。通过为每个特征组分配一个独立的核,我们可以将核自身的参数(如高斯核的带宽 )调整到该数据的自然尺度。这个过程在组合各个原始数据源之前,就隐式地将它们映射到一个共同的、行为良好的“相似性空间”中。MKL 提供了一种有原则的、数据驱动的方式来实现归一化,而无需手动猜测。
得益于 风格 MKL 的稀疏诱导特性,模型的复杂度随核数量 的增长非常缓慢——仅为对数级增长。这意味着我们可以大胆一些。我们可以创建成百上千个候选核,每个核代表关于数据的一种不同假设,并相信 MKL 算法能够筛选这个“核爆炸”,找到真正重要的少数几个核,而没有很高的过拟合风险。相比之下, 风格 MKL 的复杂度随核数量线性增长,在这种情况下将面临严重的过拟合危险。
然而,存在一个危险。如果我们给 MKL 算法一组高度冗余的核会发生什么?想象一下,两个图核都用略微不同的方式测量网络中三角形的密度。它们本质上在讲述同一个故事。这就创建了一个“回音室”。MKL 优化问题变得不适定(ill-posed);它无法决定如何在两个几乎相同的核之间分配投票权。权重向量 可能会得到与 或 相同的结果。学习到的权重变得不稳定,并失去了作为“重要性”度量的意义。
幸运的是,我们可以诊断这个问题。通过测量我们基础核之间的相似性(使用像中心核对齐(centered kernel alignment)或希尔伯特-施密特独立性准则(Hilbert-Schmidt Independence Criterion)这样的工具),我们可以为我们的核构建一个“相关矩阵”。如果这个矩阵显示出高度的冗余,那就说明我们的议会中有太多的成员在说同样的话。另一个强大的诊断方法是检查学习到的权重在数据微小扰动下(如通过自举法 bootstrapping)的稳定性。如果权重剧烈波动,这清楚地表明存在这种可识别性问题。识别并诊断这种风险是有效且可解释地使用 MKL 的关键。
既然我们已经探讨了多核学习(MKL)的原理,您可能会想,“这套机制有什么用呢?”我想,您会发现答案相当令人愉悦。MKL 的真正美妙之处不仅在于其数学上的优雅,更在于其非凡的通用性。它是一个统一的框架,一种通用的智能适配器,使我们能够解决那些信息来自多种不同来源、说着多种不同语言的复杂问题。让我们踏上一段旅程,探索其中的一些应用,从我们细胞内生命错综复杂的舞蹈,到驱动我们世界的技术设计。
也许没有任何领域比现代生物学和医学更能体现整合多样化信息的挑战了。我们被各种各样的数据所淹没,每种数据都为一个极其复杂的系统提供了独特但不完整的画面。MKL 就像一位总指挥,学习倾听管弦乐队的每个声部,以聆听完整的交响乐。
想象一下,你是一位生物学家,试图理解癌细胞与健康细胞的区别。你手头有一个“多组学”数据的宝库。从一台机器上,你得到基因表达水平(每个基因的活跃程度),它们是连续的数值。从另一台机器上,你得到 DNA 甲基化模式,这是另一组数字,像基因上的开关一样。而从第三台机器上,你拥有原始的 DNA 序列本身——一长串由字母 A、C、G 和 T 组成的字符串。
这些是根本不同类型的信息。数字不是字母。一个简单的算法可能难以将它们结合起来。但是有了 MKL,我们不必强行将它们统一成一种单一、笨拙的格式。相反,我们采取一种更微妙、更强大的策略:我们为每种数据类型设计一个专门的“相似性函数”——一个核。对于数值型的基因表达数据,一个简单的线性核可能就足够了。对于甲基化数据,也许更灵活的高斯核更合适。对于 DNA 序列,我们可以使用“字符串核”,它计算共享的遗传密码片段。
每个核都提供了一个关于两个病人有多相似的独特视角。MKL 框架随后承担起学习这些视角的最佳组合的宏大任务。它为每个核学习一组权重 ,有效地决定了每种数据类型在最终决策中应有多少“发言权”。如果对于某种特定的癌症,基因表达模式具有压倒性的预测能力,算法将为表达核学习一个大的权重,而为其他核学习小的权重。它自动发现了最相关的信息来源。
这个过程是所谓的*早期融合(early fusion)*的一个美妙例子。我们不是训练独立的模型,然后在最后对它们的投票进行平均(后期融合 late fusion)。相反,MKL 从一开始就通过混合基础核来创建一个新的、更丰富的相似性表示,从而允许一个统一的分类器从这个丰富的视图中学习。
当然,要让管弦乐队听起来和谐,一个关键的细节是适当的调音。如果一个核的“音量”任意地比其他核大(也许是因为原始数据的单位或尺度),它就会淹没其他一切。因此,任何 MKL 应用中的一个关键步骤是归一化基础核——例如,通过缩放它们使其具有相同的总自相似性(或“迹 trace”)——确保学习到的权重反映的是真实的信息内容,而不是任意的尺度。
同样的原则也从分子领域延伸到病人的床边。医生的诊断依赖于整合截然不同的信息来源。
考虑一位放射科医生正在检查一张医学扫描图。他们可能会用与其形状、内部纹理和像素强度相关的特征来描述一个肿瘤。我们可以为这些特征集中的每一个设计一个单独的核。然后 MKL 可以学习这些核的加权组合,创建一个模仿放射科医生整体判断的分类器,通过学习哪些类型的特征最能指示恶性肿瘤。我们甚至可以通过测量每个核与临床结果的“对齐”程度,快速、初步地了解哪些特征是重要的,这项技术为初始化学习过程提供了一种有原则的方法。
但为什么要止步于此呢?我们可以将放射科医生的见解与病理科医生的见解结合起来。想象一下,我们既有影像数据,又有实验室血液测试的结果(例如,血液学和临床化学检测组合)。这两者就像苹果和橙子。然而,通过 MKL,我们可以定义一个图像核和一个实验室测试核,并学习如何对它们进行加权。算法可能会发现,例如,对于某种疾病,血液化学几乎是唯一重要的因素,给它分配接近 的权重,而给血液学检测组合分配接近 的权重。这不仅仅是数据融合;这是在整个模态尺度上的自动化、数据驱动的特征选择。在不同的临床环境中,算法可能会发现图像和实验室测试的组合是最佳的,学习它们之间的平衡以实现最佳的预测能力。
这种理念也帮助我们理解基因本身的功能。为了猜测一个新发现的基因的作用,生物学家可能会查看几条证据线索:它在不同物种间的进化史(系统发育学)、它在哪些组织中活跃(表达),以及它与其他哪些蛋白质相互作用。这些都可以被编码在一个核中,而 MKL 可以学习权衡来自这些不同生物学故事的证据,以做出最准确的功能注释。
如果认为 MKL 仅仅是生物学家的工具,那就错了。学习组合不同相似性概念的原理是普适的。
让我们进入工程领域,特别是电池设计。一个关键目标是预测电池容量衰减的速度——即它的“衰减率”。工程师有多种方法来探查电池的健康状况。他们可以使用电化学阻抗谱(EIS),它测量电池在不同频率下对电信号的响应;或者他们可以研究其在充电和放电过程中的电压和电流曲线(恒电流循环)。这两种方法产生的数据类型截然不同。MKL 提供了一个自然的框架,将基于 EIS 特征的核与基于循环特征的核结合起来。通过联合学习这些核的权重和回归模型,我们可以构建比单独使用任一数据源更准确的电池寿命预测器。
也许 MKL 最深刻的应用不在于组合不同类型的数据,而在于组合对相同数据的不同视角。
考虑流行的径向基函数(RBF)核,。参数 就像镜头上的焦距调节旋钮。一个小的 提供“广角”对焦,只看到数据中缓慢、大尺度的模式。一个大的 提供“窄焦”对焦,能够看到精细、高频的细节。
现在,假设你试图模拟一个既有大尺度趋势又有小尺度波动的函数。 的“正确”值是什么?根本没有!任何单一的 选择都将是一种妥协。
这就是 MKL 提供真正优雅解决方案的地方。与其选择一个核,为什么不混合几个呢?我们可以创建一组基础 RBF 核,每个都有不同的 ——一个用于广角对焦,一个用于中焦,一个用于锐利对焦。然后 MKL 为这个混合体学习一组权重。如果底层函数确实复杂,具有多尺度的模式,MKL 将学会组合不同的“镜头”,创建一个完全适应问题的复合“可变焦距”核。通过这样做,MKL 将选择单一完美超参数的困难问题转化为一个更灵活、更强大的学习问题。
在这段旅程中,我们看到 MKL 远不止是一个聪明的技巧。它是构建知识的一项深刻原则。它不仅教机器从数据中学习,还教机器如何学习——如何权衡证据、如何融合视角,以及如何根据手头的问题调整其自身的相似性概念。它体现了这样一种思想:在一个复杂的世界里,最丰富的理解往往不是来自单一、完美的观点,而是来自对多种观点的深思熟虑的综合。