
在当今世界,数据科学是驱动无数创新的引擎,从人工智能发现新药的头条新闻,到我们数字体验的精妙个性化。然而,要真正领会其力量,我们必须超越最终结果,去理解其赖以建立的严谨基础。在数据科学所感知的魔力与使其运作的统计学、计算和科学诚信等核心原则之间,常常存在着知识鸿沟。本文旨在通过清晰地概述这些基本概念,并展示它们在整个科学领域的变革性影响,来弥合这一鸿沟。
本文的探索分为两部分。首先,“原理与机制”一章将探讨可靠数据分析的基石。我们将讨论可验证性的至关重要性、处理混乱的缺失数据现实的正确方法、可视化高维世界的艺术,以及建立诚实的数学模型所需的警觉心态。随后,“应用与跨学科联系”一章将展示这些原理的实际应用。我们将看到数据科学方法如何用于为复杂系统建模、分类生物学发现以及加速实验室研究,从而揭示这些技术在不同研究领域之间建立的深刻而往往令人惊讶的联系。
想象一场伟大的交响乐。最终的演出是一个辉煌、统一的整体,但它建立在基本原理之上:声音的物理学、和声的规则、每位音乐家的刻苦练习以及指挥的诠释。数据科学也与此非常相似。关于“人工智能发现新药”的醒目标题是交响乐的终曲,但它们依赖于同样优美且更为根本的原理与机制。要真正欣赏音乐,你必须理解乐谱。本章就是我们对那份乐谱的审视。
科学不是事实的集合,而是建立可靠知识的过程。而这个过程中绝对不可或缺的基石是可验证性。如果你提出一个主张,另一个人必须能够核查你的工作。就这么简单,也这么深刻。在计算科学时代,这一原则被赋予了新的、更严格的含义。
想象一个学生团队正在进行一个生物学项目,旨在改造细菌,使其在污染物存在时发光。团队成员 Alex 报告了绝佳的结果:“传感器反应非常灵敏!”但数周以来,所有的原始数据、详细的实验步骤和分析脚本都锁在他个人的笔记本电脑里。其他团队成员被迫根据这些口头声明来设计他们各自的项目部分。这不仅仅是不便,它触及了科学事业的核心。他们的工作建立在沙堡之上,因为从科学上讲,Alex 的说法只是故事。它们无法被独立验证、复现或批判性地分析。这不是个人信任的问题,而是程序完整性的问题。
这就引出了现代科学中一个至关重要的区别。假设一个研究小组发表了一项关于癌症通路的引人入胜的发现,并附上了他们的数据和分析代码。
如果另一位科学家下载同样的数据并运行同样的代码得到同样的图表,他们就复现 (reproduced) 了这项分析。这是一种计算上的核查,确保原始分析流程中没有错误。这是验证的第一步。
但如果另一个小组进入他们自己的实验室,培养他们自己的细胞,收集新的数据,并发现这些数据支持同样的整体科学结论,他们就重复 (replicated) 了这项发现。这是黄金标准。它告诉我们,这项发现不仅仅是某个特定数据集或实验的产物,而是自然界的一个稳健特征。
为了实现这一点,我们需要的不仅仅是一份最终结果清单,而是完整的故事。在免疫学等复杂领域,科学家们现在提倡“最低信息标准”,这是一种花哨的说法,意思是:“为了让我们能理解和重用你的工作,你需要告诉我们的绝对最少信息是什么?”。这不仅包括原始数据文件,还包括各种琐碎的细节:所用软件的确切版本、质谱仪的设置、用于捕获分子的特定抗体。为什么要如此执着于细节?因为这些因素中的任何一个都可能微妙地影响结果。没有这些丰富的元数据 (metadata),数据就像在真空中奏响的一个优美音符——我们听到了它,但不知道是哪件乐器、以什么调、作为哪段旋律的一部分演奏的。数据变得无法用于构建更宏大的理论,就像一块砖头如果不知道其尺寸、重量和材料特性就毫无用处一样。
一个完整、标注完美的理想数据集固然美好,但现实却是混乱的。调查问卷有未回答的问题,试管会掉落,传感器会失灵。数据总有漏洞。我们该怎么办?
最直观的答案是直接丢弃不完整的记录。这被称为列表删除法 (listwise deletion)。如果我们正在研究幸福感与收入之间的联系,而有人没有报告他们的收入,我们就把他们的整份调查问卷都扔掉。这看起来干净利落且保守;我们只使用我们实际拥有的数据。但这种直觉是错误的。
即便在最好的情况下,即数据是完全随机缺失 (Missing Completely At Random, MCAR)——意味着某个值的缺失与该值本身或其他任何事情都无关——列表删除法也是一种极大的浪费。扔掉那份问卷,我们不仅失去了我们从未拥有的收入数据,也失去了我们确实拥有的幸福感数据。我们主动地缩小了数据集,这降低了我们的统计功效,使我们的结论更加不确定。这就像因为一个错别字就撕掉书的一页。
因此,我们必须填补这些空白——这个过程称为插补 (imputation)。但该如何做呢?一个常见的初步想法是计算观测值的平均值,然后将这个数字填入所有空白处。这被称为确定性均值插补 (deterministic mean imputation)。这感觉很客观,但却具有极大的欺骗性。
想象一个小的观测分数数据集:。平均值是 。如果我们有两个缺失的分数,并且都用 填充,我们没有改变均值,这似乎不错。但我们对数据的方差做了些阴险手脚。我们增加了两个与均值偏差为零的新数据点。这人为地缩小了数据的分布范围,使其看起来比实际上更加一致和确定。从某种意义上说,我们是在对自己所知多少这个问题上撒了谎。
真正出色且诚实的解决方案是拥抱不确定性。我们不插入一个“最佳”值,而是使用随机插补 (stochastic imputation)。我们利用观测数据建立一个可以预测缺失值的模型,但我们不只取那个最佳预测值,而是从一系列合理的预测值中进行随机抽取。然后我们再做一次,又一次,创建多个“已完成”的数据集——这种技术称为多重插补 (Multiple Imputation)。
这些数据集中的每一个都是现实的一个可能版本。当我们进行分析时,我们在每个数据集上都运行一遍,然后汇总结果。这些插补数据集之间结果的差异,直接衡量了由于数据缺失而产生的不确定性。这是一个极其深刻的思想:通过刻意引入随机性,我们反而得到了一个关于我们无知程度的更诚实、更准确的图景。
一旦我们有了一个干净、完整的数据集,我们又面临一个新问题:我们无法直视它。如果我们有成千上万个细胞的数千种蛋白质的数据,我们得到的是一个有数千列和数千行的表格。我们的大脑为了看清三维世界而进化,根本无法理解这一点。我们需要一种制作地图的方法——将数千个维度降至我们能实际看到的两个或三个维度。
完成这项工作的最经典工具是主成分分析 (Principal Component Analysis, PCA)。本质上,PCA 在你的高维空间中寻找数据分布最广的方向。它假设方差最大的方向是“最有趣”的。第一主成分 (PC1) 是能捕获最大方差的单一轴。PC2 是垂直于第一个轴的次优轴,以此类推。将你的数据沿 PC1 和 PC2 绘制出来,你就能得到高维点云的“最佳”二维投影,这里的“最佳”定义为捕获最大全局方差。
但如果你寻找的模式并非最大、最主要的方差来源呢?想象一下,你正在研究用某种药物处理过的癌细胞。这种药物可能只影响一小部分细胞中的少数蛋白质。与此同时,数据中最大的变异来源可能是完全不相关的事情,比如每个细胞处于细胞周期的哪个阶段。PCA 为了解释最大的方差,会忠实地将其轴线与细胞周期对齐。药物的微妙效果将会丢失,如同一声低语被咆哮声淹没。你会看到一个巨大的、重叠的斑点,其中处理过的细胞和对照组细胞都混杂在一起。
这就是像均匀流形逼近与投影 (Uniform Manifold Approximation and Projection, UMAP) 这样更新、更复杂的方法发挥作用的地方。UMAP 有着不同的哲学。它不关心全局方差,而是一种局部方法。它的工作原理是,想象每个数据点都有一个由其最近邻居组成的小而模糊的社交网络。UMAP 的目标是创建一个能尽可能忠实地保留这些局部邻里结构的二维地图。
因为 UMAP 专注于保留局部结构,它能挑选出那一小撮紧密联系的药物敏感细胞,并把它们作为地图上的一个独立岛屿放置在一起,即使它们对全局方差的总体贡献微不足道。这是一个有力的教训:正确的工具取决于你的问题。如果你在寻找大的、全局性的趋势,PCA 非常出色。如果你在寻找小的、内聚的亚群,你需要一个能听见低语的工具。算法的选择不仅仅是一个技术细节,它体现了你对数据结构的假设。
在探索数据并看到模式后,最后的诱惑是用一个数学模型来捕捉它——一个总结我们所发现关系的方程。这是数据科学力量的源泉,但也是最微妙的欺骗所在。
考虑一家制药公司的分析化学家。他们正在测试一批新的救命药物。纯度必须至少达到 。他们使用了两种不同且经过充分验证的测试方法。方法1给出的结果是 ,不合格。方法2给出 ,合格。这两个结果在统计上彼此有显著差异。来自管理层的压力巨大:“既然一种有效的方法显示它通过了,那就放行这批药吧!”正确的做法是什么?
不是取结果的平均值,也不是挑选有利的结果。最负责任、最科学的行动是拒绝做出决定。两个结果相互冲突。这不是不便之处,而是当天最重要的发现。它表明存在系统性偏差 (systematic bias)——我们对测量过程的理解中存在隐藏的缺陷。也许一种未知的杂质影响了其中一种方法,而没有影响另一种。这位化学家的职责是提交报告,停止放行,并展开调查以找到根本原因。目标不是得出一个答案,而是理解现实。这种差异是一条线索,表明现实比模型所假设的更为复杂。
这种警惕性必须延伸到我们最基本的分析技术上。几十年来,生物化学家一直使用一种巧妙的技巧来分析酶动力学。米氏方程 (Michaelis-Menten equation),,是一条曲线。通过对两边取倒数,可以得到林-贝氏方程 (Lineweaver-Burk equation),,这是一条直线的方程。这使得人们可以使用简单的线性回归来求得参数 和 。
这在数学上很优雅,但在统计上却很危险。现实世界的测量存在误差。对非常小的反应速率 () 的测量往往带有一定量的绝对误差。当你取倒数 时,这些带有误差的小值会被放大成带有巨大误差的大值。线性回归试图拟合所有点,会给予这些最不可靠的测量点以巨大的、不应有的权重。为了一个更简单的模型(直线而非曲线),我们扭曲了数据的误差结构并使结果产生了偏差。现代的做法是直接拟合非线性方程,使用能够根据更现实的误差模型对数据进行适当加权的方法。
这是一个普遍的教训。一个优秀的数据科学家不只问:“什么模型能拟合?”他们会问:“产生这些数据,包括其不完美之处的真实过程是什么?”。他们会考虑误差。误差是乘性的吗?这在许多仪器中很常见。如果是,取对数可以将其转换为更易于处理的加性误差。自变量('x轴')和因变量一样存在不确定性吗?如果是,简单的回归是错误的,需要更高级的变量含误差 (Errors-In-Variables) 模型。
从原始数据到可靠知识的旅程,就是由这些原则铺就的。它要求开放、尊重不确定性、艺术家般的洞察模式的眼光,以及侦探般对简单答案的怀疑。其机制是计算和统计的,但其原则是科学本身的原则:诚实、严谨,以及坚定不移地致力于理解世界的本来面目,而非我们希望的样子。
我们刚刚探讨了数据科学的原理与机制,即这一新探究引擎的齿轮与杠杆。但是,一台机器的好坏取决于它能做什么。在蓝图上欣赏引擎的复杂设计是一回事,亲眼看到它驱动轮船跨越海洋或驱动织机织出新图案则完全是另一回事。所以现在,我们必须提出最重要的问题:这一切究竟是为了什么?这些关于概率、算法、优化的思想将我们引向何方?我们将看到,答案很简单:无处不在。数据科学的方法不是一个狭窄的专业领域,而是一种新的语言,一种新的推理方式,它照亮了隐藏的模式,并在人类思想的整个版图上建立了联系,从细胞最深层的奥秘到人工智能的创造性前沿。
数学最深邃的力量之一在于它能够捕捉运动中系统的本质,写下支配事物从一个瞬间到下一个瞬间如何变化的规则。数据科学将这种力量扩展到那些规则并非固定和确定性,而是概率性并隐藏在数据中的系统。
想象你正在观察一个用户浏览电商网站。他们从主页点击到产品页,然后可能到结账页面。这看起来是随机的,是一条充满个人奇想的路径。但真是如此吗?如果我们观察成千上万的用户,一个模式就会浮现。从主页出发,也许有65%的用户去了产品页,15%去了结账页,20%则停留在原地。我们可以把这些概率写在一个网格里,一个矩阵中。这个简单的对象,一个随机矩阵 (stochastic matrix),就成为了所有用户集体行为的模型。有了它,我们就可以提出问题,比如:如果一个新用户从主社页开始,两次点击后他处于结账页的概率是多少?只需将代表用户当前状态的向量与这个矩阵相乘,我们就能一步步地将其可能的未来状态向前推进。同样的马尔可夫链 (Markov chain) 思想不仅适用于网站点击,它还可以模拟疾病在人群中的传播、股票市场的波动,甚至是一句话中词语的序列。这是一个美丽的例子,说明一个简单的线性代数工具如何能捕捉一个复杂、概率性世界的动态。
现在,让我们从时间转向空间。想象你是一位生态学家,试图绘制一种特定昆虫物种的栖息地地图。你不可能勘察森林的每一寸土地,这是不可能的。相反,你只有零散的目击记录,其中许多来自“公民科学家”——那些在看到昆虫时拍下照片的徒步旅行者。问题在于,徒步者总是沿着小路走,并去热门的公园。你的数据不是对世界的均匀抽样,而是对人们去哪里的带有偏见的抽样。你如何能从这些混乱的、真实世界的数据中创建出一张无偏的物种地图?
这是现代科学中的一个核心挑战,数据科学家们已经开发出一系列引人入胜的工具来应对它。一些方法使用机器学习,如提升回归树 (Boosted Regression Trees, BRT),来寻找能区分物种被发现地点与“背景”环境的复杂模式。另一些方法,如最大熵 (Maximum Entropy, MaxEnt),借鉴物理学原理,寻找与目击地点的环境条件相符的“最简单”的可能分布。还有一些方法使用一种称为对数-高斯 Cox 过程 (Log-Gaussian Cox Process, LGCP) 的复杂贝叶斯框架,它将物种的分布建模为一个连续的、空间相关的曲面,并明确考虑到如果在一个地点发现了某个物种,那么在附近也很可能发现它。每种方法都有不同的哲学,并对数据的性质和抽样偏差做出不同的假设。选择不仅仅是技术性的,它反映了在面对不确定性时不同的推理方式。
这种融合稀疏数据的问题是普遍存在的。材料科学家也面临同样的困境。他们可能有一些用纳米压痕仪测量的、非常精确的材料硬度值——这是一个缓慢且昂贵的过程。但他们也有一张由电子显微镜获得的、快速、高分辨率的材料晶体取向图。硬度和晶体结构是相关的。我们能否使用这张密集的、易于获得的地图作为指导,在稀疏的、难以获得的测量值之间进行智能插值?答案是肯定的。一种名为协同克里金法 (co-kriging) 的技术,借鉴自地质统计学,正是这样做的。它对所有可用数据进行加权平均,利用两种属性之间已知的相关性,给予信息量最大的测量值更大的权重,从而得到一张高分辨率的硬度图,而这是用其他方法无法获得的。无论是绘制物种分布图还是材料特性图,原理都是相同的:将不同来源的信息编织在一起,创造一幅更完整的现实图景。
有时,我们的目标不是绘制一幅连续的景观图,而是划定边界并命名其中的领地。分类的冲动——将事物分组——是科学和人类本性的基本组成部分。数据科学为这项任务提供了强大的新工具,但它也揭示了一些奇妙而微妙的东西:你选择分组的方式可以改变你找到的组。
思考一下单细胞生物学领域的革命。科学家现在可以测量来自组织样本的每一个细胞中数千个基因的活性。结果是一场数据风暴。在这场风暴中,有不同类型的细胞——皮肤细胞、免疫细胞、神经元——甚至可能还有从未见过的全新类型。挑战在于识别这些群体。这是一个聚类 (clustering) 问题。你可以把每个细胞想象成一个非常高维的“基因表达空间”中的一个点。相同类型的细胞应该彼此靠近,形成一个个点云。
但你如何定义一个“云”?一种常见的方法是使用 Ward 方法的层次聚类 (hierarchical clustering using Ward's method),它试图以最小化总体方差的方式合并聚类,就像试图找到最紧凑、最球形的群体一样。另一种方法是基于图的聚类 (graph-based clustering),它首先通过将每个细胞与其最近的邻居连接起来构建一个网络,然后在该网络中寻找社区——那些内部连接远比与网络其余部分连接更紧密的细胞群。
想象你有三组紧密的细胞群,但它们排成一条线,其中两组比第三组更靠近彼此。如果你让 Ward 方法寻找两个聚类,它可能会合并两个最接近的群组,因为这样可以保持最终的“重心”紧凑。然而,基于图的方法可能会看到这些群组之间由细长的、瓶颈般的桥梁连接,并判定划分网络最自然的方式是将其分为三个不同的社区。这两种方法都不能说是“错”的,它们只是对于“群体”的构成有着不同的哲学。这教给我们一个深刻的道理:数据本身不会说话。我们提出的问题和我们用以回答这些问题的工具,共同塑造了我们所能做出的发现。
这种分组行为并不总是为了发现,有时是为了设计。想象你正在一所大学组织一个技能展,设有区块链、数据科学、人工智能等不同技术主题的站点。有几家公司要来,每家都想访问三个特定的站点。限制条件是,对于任何一家公司,他们感兴趣的三个站点不能都安排在同一时间段,因为他们只有一个招聘人员。你需要的最少时间段是多少?这不再是一个统计问题,而是一个逻辑谜题,一个约束满足问题 (constraint-satisfaction problem)。你可以用一个称为超图 (hypergraph) 的抽象数学对象来建模,其中顶点是技能站点,“超边”是每家公司想访问的站点集合。问题于是变成了:需要多少种颜色(时间段)来为顶点着色,以确保没有一条超边是单色的?。这个优雅的表述将一个凌乱的后勤问题转化为了一个纯粹的组合学问题,将活动策划的现实世界与理论计算机科学和数学的一个深奥领域联系起来。
科学方法一直是假设与实验之间的舞蹈。几个世纪以来,这是一种缓慢而从容的华尔兹。科学家会形成一个假设,设计一个实验来检验它,然后分析结果。今天,数据科学已将这场华尔兹变成了一阵旋风,让我们能够一次检验成千上万个假设。
考虑 CRISPR-Cas9 基因编辑系统。它赋予科学家关闭或“敲除”基因组中任何基因的能力。假设你有一种新的抗癌药物,你想找出哪些基因被敲除后会使癌细胞对其产生抗性。老办法是一次测试一个基因,这个过程可能需要一生。新方法是进行汇集式 CRISPR 筛选 (pooled CRISPR screen)。你创建一个巨大的细胞库,其中每个细胞中都有一个不同的基因被敲除。然后你用药物处理整个细胞群体。存活下来的细胞就是具有抗性的细胞。
问题是,你怎么知道存活下来的细胞中是哪些基因被敲除了?这个问题就是数据科学发挥作用的地方。通过下一代测序 (Next-Generation Sequencing, NGS),你可以计算出用于每个敲除的遗传向导在初始群体和最终药物处理后群体中出现的次数。如果在处理后某个特定向导变得更加普遍,就意味着它靶向的基因在被敲除后赋予了抗性。为了进行公平比较,你不能只看原始计数;测序运行的深度不同。所以,你需要对计数进行归一化(例如,转换为每百万计数),然后计算对数倍数变化 (log fold change)。这个值以对数尺度告诉你每个向导变得多么富集。这就是现代发现的引擎:一个高通量实验产生堆积如山的数据,一个清晰、简单的统计流程从中筛选出大海中的金针。
但数据科学不仅仅是处理海量数据集,它还精炼了我们对一个“好”的测量究竟是什么的理解。假设一位材料科学家正在比较两种制备聚合物薄膜的方法。他们测量了每种方法制备的几个样品的表面粗糙度。两种方法的平均粗糙度可能几乎相同。这两种方法等效吗?不一定。一种方法可能生产出粗糙度非常一致的薄膜,而另一种方法可能参差不齐——有些非常光滑,有些非常粗糙。精密度,或者说可复现性,是不同的。在科学和工程中,精密度通常与准确度同等重要。我们如何正式判断一种方法是否比另一种更精确?我们可以使用一种称为 F-检验 (F-test) 的统计工具,它比较两组测量的方差 (variances)(一种离散程度的度量)。通过计算方差的比率并将其与已知统计分布的临界值进行比较,我们可以以特定的置信水平确定观察到的精密度差异是真实的还是仅仅由随机机会造成的。这是数据科学在最基本层面上的运作,为实验验证提供了严谨的基础。
一个深刻的科学原理最美妙之处或许在于它在意想不到的地方出现。波的定律描述了声音、光和水。热力学原理适用于发动机、黑洞和活细胞。数据科学同样有这些统一的线索,其中最令人惊讶的一条将人工智能的前沿与经典的计算工程世界联系起来。
考虑一个生成对抗网络 (Generative Adversarial Network),或称 GAN。它是现代人工智能中最具创造性的思想之一。一个 GAN 由两个神经网络组成,陷入一场猫鼠游戏。一个叫生成器 (Generator),试图创造假数据——例如,从未存在过的、照片般逼真的人脸图像。另一个叫判别器 (Discriminator),是一个评论家,试图区分真实图像(来自训练集)和生成器的伪造品。它们一起训练。随着判别器越来越擅长发现伪造品,生成器就必须越来越擅长制造它们。这场竞赛的最终结果是一个能够产生惊人逼真和新颖创作的生成器。
这似乎是魔法。但从数学上看发生了什么?让我们换一种方式表述目标。生成器试图学习一个概率分布 ,使其与真实数据分布 无法区分。换句话说,它希望使残差 等于零。判别器的工作是找到一个测试函数 ,使得这个残差的“弱”形式 尽可能大。而生成器则相应地调整其参数 以使这个最坏情况下的残差尽可能小。
现在,奇妙的惊喜来了。几十年来,解决流体力学或结构分析问题的工程师们一直使用一种称为加权残差法 (method of weighted residuals) 的技术。为了解决一个复杂的微分方程,他们从一个“试验空间”中提出一个近似解,然后要求这个解的误差与一个“测试空间”中的一组函数“正交”。当试验空间和测试空间不同时,这被称为 Petrov-Galerkin 方法。再看看 GAN。生成器在创造试验函数(分布 ),而判别器在提供测试函数 () 来度量误差。这个对抗性训练过程——在这个双人博弈中寻找一个鞍点——正是那个被用来设计飞机和桥梁的基本原理在现代、高维和非线性形式下的体现。
这不是简单的类比,而是一种深层的数学统一性。它告诉我们,人工智能中的学习和创造过程与工程中的物理近似过程,都源于同一口数学真理之井。它向我们展示,数据科学的方法不仅仅是工具的集合;它们是宏大、相互关联的科学思想织锦的一部分,是一种一旦学会,就能让我们以一种全新的、统一的眼光看待世界以及我们为其建模的能力的语言。