1、 统计 学习 基础 数 据挖 掘、推 理与 预测 The Elements of Statistics Learning Data Mining, Inference and Predication 美 Trevor Hastie, Robert Tibshirani, Jerome Friedman 著 范明 柴玉 梅 等译 目录 第一章 绪论 1 第二章 有指导学 习概述 2 2.1 引言 2 2.2 变 量类型 与术语 2 2.3 两 种简单 预测方 法: 最小二乘 方和最 近邻 2 2.3.1 线性模 型与最 小二 乘方 . 2 2.3.2 最近邻 . 3 2.3.3 从最小 二乘方
2、到最 近邻 . 3 2.4 统 计判决 理论( 类比 信号检 测与估 计之 随 机参量的 贝叶斯 估计) 3 2.5 高 维空间 的局部 方法 4 2.6 统 计模型 、有指 导学 习和函数 逼近 5 2.6.1 联合分 布Pr(X,Y) 的 统计模型 5 2.6.2 有指导 学习 . 5 2.6.3 函数逼 近 . 5 2.7 结构化模 型 5 2.8 受 限的估 计方法 类 6 2.8.1 粗糙度 罚和贝 叶斯 方法 . 6 2.8.2 核方法 和局部 回归 . 6 2.8.3 基函数 和字典 方法 . 7 2.9 模 型选择 和偏倚 方 差权衡 7 第三章 回归的线 性方法 8 3.1
3、引言 8 3.2 线 性回归 和最小 二乘 方(重复 2.3 节内容 ) . 8 3.2.1 高斯 马尔可 夫定 理 . 8 3.3 从 简单的 一元回 归到 多元回归 9 3.3.1 多元输 出 . 9 3.4 子 集选择 和系数 收缩 9 3.4.1 子集选 择 . 9 3.4.2 收缩方 法 . 10 3.4.3 使用导 出输入 方向 的方法 . 11 3.4.4 讨论: 选择和 收缩 方法比较 . 11 3.4.5 多元输 出收缩 和选 择(名字 记着先 ) . 12 第四章 分类的线 性方法 13 4.1 引言 13 4.2 指 示矩阵 的线性 回归 13 4.3 线 性判别 分析(
4、LDA 、QDA ) 14 4.3.1 正则化 的判别 分析 . 15 4.3.2 LDA 的计 算 15 4.3.3 降秩线 性判别 分析 . 15 4.4 逻 辑斯缔 回归 16 4.4.1 拟合逻 辑斯缔 回归 模型 . 16 4.4.2 逻辑斯 缔回归 还是LDA . 17 4.5 分离超平 面 17 4.5.1 Rosenblatt 的感知 器 算法 . 18 4.5.2 最佳分 离超平 面 . 18 第五章 基展开与 正则化 20 5.1 引言 20 5.2 分 段多项 式和样 条( 可参考 数值分 析之 插 值法) 20 5.3 过 滤和特 征提取 21 5.4 光 滑样条 21
5、 5.4.1 自由度 和光滑 矩阵 . 21 5.5 光 滑参数 的自动 选取 22 5.6 无 参逻辑 斯缔回 归 22 5.7 多 维样条 函数 22 5.8 正 则化和 再生核 希尔 伯特空间 23 5.8.1 用核拓 广函数 空间 . 23 5.8.2 RKHS例子 . 24 5.9 小 波光滑 24 第六章 核方法 25 6.1 一 维核光 滑方法 25 6.1.1 局部线 性回归 . 26 6.1.2 局部多 项式回 归 . 26 6.2 选 择核的 宽度 26 6.3 IRp 上的局部 回归 27 6.4 IRp 上结构化 局部回 归模 型 27 6.4.1 结构化 核 . 27
6、 6.4.2 结构化 回归函 数 . 27 6.5 局 部似然 和其他 模型 (略) 28 6.6 核 密度估 计和分 类 28 6.6.1 核密度 估计 . 28 6.6.2 核密度 分类 . 28 6.6.3 朴素贝 叶斯分 类法 . 28 6.7 径 向基函 数与核 29 6.8 密 度估计 和分类 的混 合模型 29 第七章 模型评估 与选择 31 7.1 引言 31 7.2 偏 倚、方 差和模 型复 杂性 31 7.3 偏 倚方 差分解 32 7.4 训 练误差 率的乐 观性 33 7.5 样 本内预 测误差 的估 计(AIC 信息 准则) . 34 7.6 有 效的参 数个数 34
7、 7.7 贝 叶斯方 法和BIC . 35 7.8 最 小描述 长度(MDL) 35 7.9 Vapnik-Chernovenkis 维(VC 维,SRM ) . 35 7.10 交叉 验证(CV 曲线 、K 折交 叉检验 ) 36 7.11 自助 法(bootstrap ) 36 第八章 模型推理 和平均 38 8.1 引言 38 8.2 自 助法和 极大似 然 38 8.3 贝 叶斯方 法(略 ) 38 8.4 自 助法和 贝叶斯 推理 之间的联 系 38 8.5 EM算法(略 ) 38 8.6 从 后验中 抽样的MCMC (略) . 38 8.7 装袋(bagging)【以 下属于模 型
8、平均 ,之上 属 于模型推 理】 38 8.8 模 型平均 和堆栈 (还 有委员会 方法) 38 8.9 随 机搜索 :冲击 (略 ) 39 第九章 加法模型 、树和 相关方 法 40 9.1 广 义加法 模型(GLM:General Linear Model) . 40 9.1.1 拟合加 法模型 . 41 9.1.2 小结 . 41 9.2 基 于树的 方法(CART :Classification And Rgression Tree ) 41 9.2.1 背景 . 41 9.2.2 回归树 . 42 9.2.3 分类树 . 43 9.2.4 小结 . 43 9.3 PRIM凸 点搜索(
9、Patient Rule Induction Method) 43 9.4 MARS : 多元自 适应回 归样条 . 44 9.4.1 MARS 前向模 型建立 过程 44 9.4.2 MARS 与CART 的联系 44 9.5 分 层专家 混合(HME :Hierarchical Mixture of Expert ) 45 9.6 遗 漏数据 45 第十章 提升和加 法树 46 10.1 提升 方法(Adaboost.M1 ) 46 10.2 提升 拟合加 法模型 46 10.3 前向 分步加 法建模 47 10.4 指数 损失函 数和AdaBoost 47 10.6 为什 么使用 指数损
10、失 48 10.7 损失 函数和 健壮性 (* ) 49 10.7.1 分类的健 壮损失 函数 . 49 10.7.2 回归的健 壮损失 函数 . 49 10.7 数据 挖掘的 “现货 ”过程(* ) 49 10.8 提升 树(类 比) 50 10.9 数值 优化( 略) 50 10.10 提 升适当 大小的 树 50 10.11 正 则化( 提升数M 的选择) :收缩 、罚回 归 . 50 10.12 可 解释性 50 10.12.1 预测 自变量 的相 对重要性 . 50 10.12.2 偏依 赖图 . 50 第十一章 神经网络 52 11.1 引言 52 11.2 投影 寻踪回 归(PP
11、R :Projection Pursuit Regression ) 52 11.3 神经 网络 52 11.4 拟合 神经网 络 52 11.5 训练 神经网 络的一 些问题 53 11.5.1 初始值 . 53 11.5.2 过 分拟合 . 53 11.5.3 输入的定 标 . 53 11.5.4 隐藏单元 和层的 数目 . 53 11.5.5 多 极小值 . 53 11.6 小结 53 第十二章 支持向量 机和柔 性判别 54 12.1 引言 54 12.2 支持 向量分 类器 54 12.2.1 计算支持 向量分 类器 . 55 12.3 支持 向量机 55 12.3.1 计算分类 的
12、SVM . 56 12.3.2 作 为罚方 法的SVM . 56 12.3.3 函 数估计 与核( 见 5.8 节,基 本一致 ) 56 12.3.4 SVM与维 灾难( 此 处讲的也 不好, 所以略 ) . 56 12.3.5 回 归的支 持向量 机 . 56 12.3.6 回 归和核 . 57 12.4 线性 判别分 析的推 广(FDA、PDA 、MDA 基 本思想* ) . 57 第十三章 原型方法 和最近 邻 59 13.1 引言 59 13.2 原型 方法 59 13.2.1 K 均值 聚类(K mean ) . 59 13.2.3 学 习向量 量化(LVQ :Learning Ve
13、ctor Quantization ) . 59 13.3 K 最近邻 分类器 . 60 第十四章 无指导学 习 61 14.1 引言 61 14.2 关联 准则 61 14.2.1 购物篮分 析 . 61 14.2.2 Apriori 算法 (有点 迷糊) . 62 14.3 聚类 分析 62 14.3.1 邻 近矩阵 . 62 14.3.2 基 于属性 的相异 度 . 63 14.3.3 对象相异 度 . 63 14.3.4 聚 类算法 (略: 组 合算法、 混合建 模和众 数 搜索) . 64 14.3.5 k 均值 聚类( 仅 列出算法 ) 64 14.3.6 k 中心 点聚类 64
14、14.3.7 分 层聚类 . 65 14.4 自组 织映射 (略:SOM 图) 65 14.5 主成 分分析 (略, 或详见 多元统 计学基 础 ) 65 14.6 独立 成分分 析(还 未涉及) 65 14.7 主成 份分析 、因子 分析、独 立成分 分析差 异 在哪里? (* ) 65 1 第一章 绪论 统计学 习在 科学、 财经 和工 业等许 多领 域都 起着 至关 重要的 作用 。 学习 科学 在统 计学 、 数据挖 掘和 人工 智能 起着 关键的 作用 ,同 时也 与工 程学和 其他 学科 有交 叉。 本书介 绍从 数据 中学 习。 典型的 ,有 结果 度量 ,通 常是量 化的 或分
15、 类的 ,我 们希望 根 据一组 特征 (feature ) 对 其进行 预测 。 假设 有训 练 数据集 (training set of data ) , 借此 观察 对象集 的结 果和 特征 度量 。 使用这 些数 据建 立预 测模型或 学习 器 (learner ) , 是我们 可以 预 测新的 未知 对象 的结 果。 一个好 的学 习器 可以 精确 的预测 这种 结果 。 对于有 结果 变量 指导 学习 过程的 问题 称为 有指 导学 习 (supervised learning ) ; 只能观 察 特征, 而没 有结 果度 量的 称为无 指导 学习 过程 (unsupervised
16、 learning)。 2 第二章 有指导学习概述 2.1 引言 统计 文献中,通 常称输入为预 测子(predictor ) , 该术语 将与输入替 换使用;经典 的, 称输入 为独 立变 量 (independent variable ) , 称 输出 为响应 (response) , 或更经典的 称输 出 为依赖 变量 (dependent variable)。 2.2 变量 类型 与术 语 输出变 量类 型的 差异 引发 对预测 任务 的命 名约 定 : 预 测定量 输出 称为 回归 (regression), 而 预测定 性输出 称为分 类(classification ) 。 我们
17、将看 到,这 两类任 务具有 许多 共同点 。特 殊地, 他们 都可 以看 做函 数逼近 任务 。 输入也可以有不同类型的度量类型,每个都可以有定量的 (qualitative ) 和定性的 (categorical ) 输入变 量。 这些也 造成 所用 预测 方法 类型上 的差 别: 有些方 法明显最 适合 定 量输入,有些最适合定性输入,而有些同时适用于两者。第三种变量类型是有序分类 (ordered categorical), 如 small,medium 和 large 。这里 值之 间是 有序 的, 但不希 望有 度 量。 典型的 ,定 性变 量用 数值 编码刻 画。 最简 单的 情
18、况 是只有 两个 类, 如“ 成功 ”或“ 失 败” 、 “ 存活 ”与 “死 亡” 。 这些常 常用 单个 二进 位数 字 0 和 1,或者 1 和1 表示, 这种 数字编码 有时候称 为目标 (target ) 。当 类多于 两个 时,可有 多种选择 。最有 用和最常 用的 编码是 通过 哑变 量 (dummy variable): 这里 K 级定性 变量 用 K 个二 元变 量或 者 二进位 向量 表示, 该向 量一 次只 有一 位被 “ 置位 ” 。 尽 管有 更多 的压缩 编码 模式 , 但 是哑 变量在 因素 级 是对称 的。 2.3 两种 简单 预测 方法 : 最小二 乘方 和最
19、 近邻 本节详 细讨 论了 两种 简单 但有效 的预 测方 法: 使 用 最小二 乘方 的线 性模 型拟 合和 k- 最 近预测规则:线 性模型对结构做了大量假 定,并产生稳定但可能不 精确的预测;k- 最近 邻 对结构 做了 适度 的假 定, 其预测 常常 是精 确的 ,但 可能不 稳定 。 2.3.1 线性模 型与 最小 二乘 方 给定一 个输 入向 量X = (X 1 , X 2 , , X p ) ,通过 以下模 型来 预测 输出 Y : Y = 0 + X j p j=1 j(2.1 ) 向量形 式的 线性 模型 可以 写成内 积: Y = X (2.2 ) 对单个 输出 建模 ,Y
20、 是标 量; 一般来 说,Y 可以 是 K 向量, 这种 情况 下, 是 pK 的系 数矩阵 。 如何用 线性 模型 拟合 训练 数据集 呢? 有许 多不 同的 方法, 但迄 今为 止最 流行 的是最 小 二乘方 (least square ) 。这 种方法 下, 我们 选择 系数 ,使得 残差 的平 方和 最小 : RSS = (y i x i T ) 2 N i=1(2.3 ) RSS 是参数 的二 次函 数,因此极小值 总是 存在 , 但可 能不惟一 。 解用 矩阵 形式 容易 刻画。 上式 可写 为: RSS = y X T y X (2.4 ) 如果X T X 是非奇 异的 ,则 唯
21、一 解由下 式给 出: = (X T X) 1 X T Y (2.6 ) 3 2.3.2 最近邻 最近邻 法使 用训 练集 在输 入空间 中最 近邻 x 的 观测 值形成Y 。 特 殊的, 拟合Y 的 k- 最近 邻定义 为: Y (x) = 1 k y i x i N k (x)(2.8 ) 其中 ,N k (x) 是 x 的邻域 , 由训 练样本 中最 近邻 x 的 k 个点x i 定义 。 邻近 性意 味着 一种 度量, 不妨 先假 设这 种度 量为欧 式距 离。 换句 话说 ,找出 输入 空间 中与 x 最 近邻的 k 个观 测值x i ,并对 它们 的响 应取 平均值 。 定义 k-
22、最近邻 平均 方法 与定义定 量输 出 Y 的回归 方法完全 相同 ,尽 管 k=1 是不太可 能 的选择 。 对于 k- 最近 邻拟 合, 训练 误差数 据上 的误 差可 能近 似地是 k 的增 函数 ,并 对于 k=1 取 0. 由此看 来, 一个 独立 的检验集 应当 为我 们比 较不 同方法 提供 更满 意的 手段 。 与最小 二乘 方拟 合的 p 个 参数相 比,k- 最 近邻 拟合 似乎只 有一 个参 数, 即邻 居的个 数 k。尽 管如 此,k-最近邻 有效的参 数个 数是 N/k ,一 般远大 于 p ,并 随 k 增加而减小 。为 明 白其中 的原 因, 应注意 : 如果邻域
23、 不重 叠, 则有 N/k 个邻域 , 每个 邻域 需要 配 一个参 数 (均 值) 。 还要清 楚, 我们 不能 在训 练数据 集上 使用 误差 的平 方和作 为选 择 k 的标 准, 因为这 样 将总是 选择 1 。一 个独 立 的检验 集应 当为 我们 比较 不同方 法提 供更 满意 的手 段。 2.3.3 从最小 二乘 方到 最近 邻 最小二 乘方 的线 性判 定边 界非常 光滑 ,并 且对 于拟 合显然 是稳 定的 。看 来它 确实过 分 依赖如 下假 定: 线性 判定 边界是 合适 的。 用我 们后 面将要 阐明 的术 语来 说, 它具有 低方 差 和潜在 的高 偏倚 。 另一方面
24、 ,k- 最近邻过程看上去不 依赖对基础数据的任何严格 假定,并能适合任何 情 况。然 而, 判定 边界 的任 何特定 子部 分都 依赖 于少 数输入 点和 它们 的特 定位 置,并 因而 是 摆动和 不稳 定的 高方 差和低 偏倚 。 当今使用的大量流行技术大部分都是这两个简单过程的变种。事实上,1- 最 近邻(所 有方法 中最 简单 的) 赢得 了低维 问题 市场 的大 部分 份额。 下面 列出 了加 强这 些简单 过程 的 一些方 法: (1) 核方法 (kernel method )使用随 至目 标点 的距 离平 滑的递 减到 0 的权 ,而 不是 k- 最近邻 所用 的有 效 0/1
25、 权; (2) 在高维 空间 中, 修改 距离 核,以 强调 某变 量比 其他 变量更 重要 ; (3) 局部回 归通 过局 部加 权最 小二乘 方, 而不 是局 部拟 合常数 拟合 线性 模型 ; (4) 线性模 型拟 合原 输入 的基 展开, 可以 得到 任意 复杂 的模型 ; (5) 投影寻 踪 (projection pursuit) 和神经 网络 模型 由非 线 性变换 的线 性模 型的 和组 成。 2.4 统计 判决 理论 (类 比 信号 检测 与估 计 之随 机参量 的贝 叶斯 估计 ) 本节将 阐述 一点 理论 ,为 模型开 发提 供一 个框 架。 首先考 虑定 量输 出的 情
26、况 ,并置 身 于随机 变量和概 率空 间世 界。 设X IR p 是实 数值 随机 输入 向量 , Y IR 是实数 值随 机输 出变 量, 具有联合 分布 Pr(X,Y) 。 我们寻 找一 个函 数 f(X), 给定输 入 X 的值 预测 Y 。 该理论需要 一个 损失 函数 (loss function ) L(Y, f(X) 来处罚 预测 误差 , 而到目 前为 止最 通用 ,最 方便的 是平 方误 差损 失(squared error loss): L Y, f(X) = (Y f(X) 2 。这 就给 了我 们一 个选 取 f 的标 准期 望预 测误差 : EPE(f) = E(Y
27、 f(X) 2 = y f(x) 2 Pr(dx, dy) (2.9 、2.10 ) 4 使上式 极小 化的 解是 条件 期望: f(x) = E(Y|X = x) (2.13 ) 也称回 归函 数。 这样 , 当 使用平 均均 方误 差度 量最 好时, 任意 点X = x 上的 Y 的最 好预 测是条 件均 值。 最近邻 法试 图使 用训 练数 据直接 实现 这一 点。 这里 发生了 两次 近似 : (1)通过样本 数 据上求 平均 值, 对期 望取 近似值 ; (2)在点 上“ 取条件 ”放宽 为在 “靠 近”目标点 的某 区 域上取 条件 。 当训练 样本 的容 量 N 很大时, 邻域
28、中的 点多 半靠 近 x ,并 且 随 k 增 大, 平均 值 趋向于 稳定。事实上,在联合概率分布 Pr(X,Y) 适度正则的条件下,可以证明:随N, k 使得 k/N 0 , f (x) = Ave(y i |x i N k (x) E(Y|X = x) 。 考虑到 这一 点, 既然已 经有了普 适近 似, 为什么 还要 进一 步找 呢? 通常, 我们 没有 非常 大的 样本。 如果 线性 或某 种更 结构化 的模 型 是适合 的,通 常我 们可 以得到 比 k- 最近 邻更稳 定的 估值 ,尽 管这 种知 识也 需 要从数 据中 学 习。还 有一 些问 题, 有时 还很严 重: 随着 维
29、数 p 的 增大,k-最近邻 域的 度量 规模也 增大 。 这样, 硬要 用最 近邻 域替 代取条 件, 将失 败地 很惨 。 线性回 归则 为我 们提 出了 一种基 于模 型的 方法 (即 线性模 型) ,理 论上 可以 解 出: = E(X T X) 1 E(X T Y) (2.16 ) 最小 二乘 方的 解式 (2.6 )实 际上是 用训 练数 据上 的平 均值替 换式 (2.16 ) 中的 期 望。 这样,通 过平均,k- 最近邻和最小 二乘方最终都得到近似条件 期望。但是它们对模 型 的假定 截然 不同 : 最小二 乘方 假定 f(x) 可 以用 一个全 局线 性函 数很 好的 近似
30、; k-最近 邻假 定 f(x) 可以 用一 个局部 常量 函数 很好 的近 似。 尽管后 者看 上去 更可 取, 但是我 们已 经看 到必 须为 这种灵 活性 付出 高昂 代价 。本书 介 绍的许 多更 现代 的技 术都 是基于 模型 的, 尽管 比严 格的线 性模 型灵 活的 多。 你对式 (2.11 ) 的标 准满 意吗? 如果 用其 他的 代价 函数代 替均 方误 差函 数会 怎样? 具体的 参见 信 号检 测与 估计 之贝 叶斯 估计 与最 大似然 估计 。 2.5 高维 空间 的局 部方 法 迄今为 止, 我们已 经考 察了 预测的 两种 技术: 稳定 但存 在偏倚 的线 性模 型
31、和 不太 稳定 、 但显然 偏倚 较小 的 k- 最近 邻估计 。 似 乎有 了合 理大 的训练 数据 集, 使用 k-最近邻平 均总 能 逼近理 论上 的最 佳条 件期 望,因 为我 们应 当能 够找 到接近 任意 x 的相当 大的 观测值 邻域 , 并对它们取平均。该方法 与我们的直觉在高维空间 将失败,这种现象通常称 为“维灾难 (curse of dimensionality ) ” 。该问 题有 多种 表现 形式 ,这里 将考 察几 种。 考虑输 入在 p 维 单位 超立 方体上 均匀 分布 的最 近邻 过程。 假定 我们 选取 目标 点的超 立 方体邻域,覆盖观测的一部分 r 。由
32、于这对应于单位体积的部分 r ,故预期的边长为 e p (r) = r 1 p 。在 10 维空间 ,e 10 (0.01) = 0.63 ,e 10 (0.1) = 0.80 ,而 每个输 入的 整个 变程 才是 1.0 。这样 ,为 得到 数据的 1 或 10 以形 成局 部平均 ,我 们必 须覆 盖 每 个输入 变量 变程 的 63或 80 。这 样的邻域 不在 是“ 局部 的” 。大幅降 低 r 也无 济于 事, 因为取 平均 值的观 测越 少, 拟合 的方 差就越 大。 高维空 间中 稀疏 选样 的另 一个问 题是 所有 样本 点都 靠近样 本的 边沿 。考 虑均 匀分布 在 以原点
33、 为中 心的 p 维单位 球上 的 N 个数 据点 。 假 定 我们考 虑原 点上 最近 邻估 计, 从原 点到 最近数 据点 的中 位数 距离 有下面 的表 达式 给出 : d(p, N) = (1 1 2 1 N ) 1 p (2.24 ) 对于到 最近 点的 平均 距离 , 存在更 复杂 的表 达式 。 对 于 N=500 , p=10 , d(p, N) = 0.52,超 5 过到边 界的 一半 。这 样, 大部分 数据 点更 靠近 样本 空间的 边界 ,而 不是 靠近 其他数 据点 。 提出这 个问 题是 因为 靠近 训练样 本边 沿的 预测 更加 困难。 我们 必须 由邻 近样 本
34、点外 推, 而 不是在 它们 之间 内插 。 维灾难 的另 一个 现象 是选 样密度 与N 1 p 成比例 , 其中 p 是输入 空间 的维 数, 而 N 是样 本容量 。这 样, 如果N 1 = 100 提供 单输入 问题 的稠 密样 本, 则N 10 = 100 10 是具 有 10 个输 入问题 的相 同选 样密 度所 需要的 样本 容量 。这 样, 在高维 空间 ,所 有可 用的 训练样 本就 稀 疏的散 布在 输入 空间 。 由此可 见, 许多 变量 的函 数复杂 性都 随维 数指 数增 加;并 且, 如果 你希 望以 低维函 数 相同的 精度 估计 这样 的函 数,所 需要 的训
35、练数 据集 的大小 也将 呈指 数增 长。 2.6 统计 模型 、有 指导 学习和函 数逼 近 我们的 目标 是: 对预 测输 入和输 出之 间联 系的 函 数 f(x), 找到一 个有用 的逼 近f (x) 。 在 2.4 节的 理论 框架 下, 平方误差损 失将 我们 引向 定量 响应的 回归 函数f(x) = E(Y|X = x)。最 近邻这 类方 法可 以看 作是 该条件 期望 的直 接估 计, 但我们 已近 看到 它们 至少 在两种 情况 下 可能失 败: 如果输 入空 间的 维数 很高 ,最近 邻不 一定 靠近 目标 点,并 可能 导致 较大 误差 ; 如果知 道存 在特 殊结 构
36、, 则可以 用来 降低 估值 的偏 倚和方 差。 2.6.1 联合分 布 Pr(X,Y) 的统计模型 2.6.2 有指导 学习 2.6.3 函数逼 近 上述两 者前 面均 由提 到, 此处就 略。 有指 导学 习是 研究机 器学 习( 模拟 人的 推理) 和 神经网 络( 对人 脑的 生物 学模拟 )领 域的 主要 动机 。应用 数学 和统 计学 接受 的方法 是函 数 逼近和 估计 的观 点。 这里 , 数据对(x i , y i )被视 为(p+1) 维欧式 空间中 的点 。 函数 f(x) 的定 义域 对应 于 p 维 输入 自空 间, 并通过 一个 诸如y i = f(x i ) +
37、i 的模 型与 数据建 立联 系。 目标是 给定 在 I 中的 表示 , 对于IR p 某区域中的 所有 x,得 到 f(x) 的一个 有用 逼近 。 尽管 不如学 习方 法吸 引人 ,将 有指导 的学 习处 理为 函数 逼近问 题, 有利 于将 欧式 空间的 几何 概 念和概 率推 理的 数学 概念 用于该 问题 。这 是本 书采 用的方 法。 我们将 遇到 的许 多逼 近都 与一个 参数 集 有关, 该参 数集可 以调 整以 适合 手头 的数据 。 例如, 线性 模型f(x) = x T 有 = . 另一类 有用 的逼 近可 以用 线性基 展开 (linear basis expansio
38、n)表示 : f (x) = h k (x) k K k=1(2.30 ) 其中,h k 是输 入向 量 x 的函 数或变 换的 适当 集合 。传 统的例 子是 多项 展开 式和 三角 展 开式,其中h k 可以是x 1 2 , x 1 x 2 2 , cos (x 1 ) 等 。我们 也会遇到 非线性 展开式, 如神经网 络模型 常见 的 S 型(sigmoid )变 换: h k (x) = 1 1+exp ( x T )(2.31 ) 正如在 线性 模型 中所 做的 那样, 我们 可以 通过 对残 差的平 方和 极小 化估 计参 数 。 2.7 结构 化模 型 我们已 经看 到, 尽管
39、最近 邻域和 其他 局部 方法 直接 关注于 给定 点上 的函 数, 但在高 维 空间它 们将 面临 问题 。即 使在低 维空 间, 当更 结构 化的方 法可 以使 得数 据的 使用更 加有 效 时,它 们也 可能 不合 适。 对于任 意函 数 f ,考 虑 RSS 准则: RSS(f) = (y i f(x i ) 2 N i=1(2.37) 6 对式(2.37 )极小化导致 无穷多个解:经过训练点(x i , y i ) 的任意函数f 都是解。任何 选 定的解都可能是一个糟糕的预测器,在检验点与训练点不同。如果在每个x i 的值上有多 个 观测对x i , y il , l = 1, ,
40、N i ,风险就 是有 限的 ;此情 况下 ,解经过 每个x i 上的y il 平均值 。这类 似于我 们在 2.4 节看到 的, 确实式 (2.37)是式 (2.11 ) 的有 限样 本版 本。 如果样本 容量 足 够大, 使得 确保 重复 并稠 密的安 排, 这些 解都 可能 趋向于 极限 条件 期望 。 为了对 有限 的 N 得到 有用 的结果 ,我 们必 须将 式(2.37)符 合条 件的 解限 制在 一个较 小的函 数集 中。 如何 决定 限制的 特性 是基 于数 据之 外的考 虑( 应该 是基 于训 练集的 吧) 。 一般地 ,大 部分 学习 方法 施加的 约束 都可 以视 为这
41、种或那 种复 杂性 限制 。通 常这意 味 着输入空 间小邻 域上的 某 种规则性 ,即对 于所有 的 输入点 x , 在某种 度量下 ,它们都 彼此 足够接 近,f 显示出 某种 特殊的结 构性 , 如近 似常 数、 线性或 低阶 多项 式等 。 这样 , 估值就 可以通 过在 邻域 中取 平均 或多项 式拟 合得 到。 约束的 强度 被邻 域的 大小 所左右 。邻 域越 大, 约束 越强, 并且 解对 于约 束的 特定选 择 就越敏 感。 例如 ,在 无穷 小的邻 域中 的局 部常 数拟 合已不 在是 约束 ;在 非常 大的邻 域上 的 局部线 性拟 合几 乎是 全局 线性模 型, 并且
42、限制 很强 。 约束的 特性 取决 于使 用的 度量。 迄今为 止, 有一 个事 实应 当清楚 :任 何试 图在 一个 各向同 性的 小邻 域产 生局 部变化 的 函数的 方法 都在 高维 空间 遇到问 题 维灾 难。 反之 ,克服 维数 问题 的所 有方 法都有 一个 相 关联的 邻域 度量 标准 (通 常是隐 含的 或自 适应 的) 。 这些标 准基 本上 不允 许邻 域同时 在所 有 方向上 都很 小。 2.8 受限 的估 计方 法类 根据所 加的 限制 的特 点, 各种非 参数 回归 技术 或学 习方法 可以 分成 一个 不同 的种类 。 这些类 是截 然不 同的 ,并 且确实 有一
43、些方 法可 以归 入多个 类。 每个 类都 有与 之相关 联的 一 个或多 个参 数, 有时 适当 的 称之为 光滑 (smoothing) 参数, 它们控 制局 部邻 域的 实际大小 。 详尽的 讨论 将在 后面 章节 给出, 这里 只做 简要 概述 。这里 主要 介绍 三类 。 2.8.1 粗糙度 罚和 贝叶 斯方 法 有一类 函数 被具 有粗 糙度 罚的显 示 罚 RSS(f) 控制: PRSS(f; ) = RSS(f) + J(f) (2.38 ) 对于在 小输 入区 域变 化太 快的函 数 f,用 户选 择的 泛函J(f) 将很 大。 例如 ,流 行的 一维 输入空 间三 次光 滑
44、样 条(cubic smoothing spline )是 罚最小 二乘 方准 则的 解: PRSS(f; ) = (y i f(x i ) 2 N i=1 + f (x) 2 dx (2.39 ) 这里, 粗糙 度罚 控制 f 的 二阶导 数的 值, 而罚 量由 0 控制。 对于 = 0 ,没 有加 罚, 则任意 插值 函数 都可 以使 用;而 对于 = ,只 允许 x 上的线性 函数 。 罚函数,或正 则化(regularization )方法表 达了我 们的 先验信念: 所寻找 的函数 类型 具有某 种光 滑性 ,并 且确 实可以 纳入 贝叶 斯框 架。 2.8.2 核方法 和局 部回
45、归 这些方 法可 以看 做通 过明 确说明 局部 邻域 的特 性和 局部拟 合的 正则 函数 ,显 示的提 供 回归函 数的 估计 或条 件期 望。局 部邻 域由 核函 数(kernel function )K (x 0 , x) 指定 ,它 将权 赋予x 0 的周围 区域 中的 点 x 。 例如, 高斯 核具 有基 于高 斯密度 函数 的权 函数 : K (x 0 , x) = 1 exp ( |x x 0 | 2 2 ) (2.40 ) 并且把 随x 0 到它们 的欧 式距 离的平 方指 数衰 减的 权赋 给点。 参数 对应 于高 斯密度 函数 的方差 ,并 控制 邻域 的宽 度。 7 (
46、1 ) 核估计 最简 单的 形式 是 Nadaraya-Watson 加权平 均: f (x 0 ) = K (x 0 ,x i )y i N i=1 K (x 0 ,x i ) N i=1(2.41 ) (2 ) 一般的 ,我 们可 以将f(x 0 ) 的局 部回归 估计 定义 为f (x 0 ) ,极小 化下式 : RSS(f , x 0 ) = K (x 0 , x i )(y i f (x i ) 2 N i=1(2.42 ) 当然, 在高 维空 间这 些方 法需要 修改 ,以 避免 维灾 难。 2.8.3 基函数 和字 典方 法 这类方法包括熟悉的线性和多项式展开,但更重要的是包括多
47、种灵活的模型。f 的模 型是基 函数 的线 性展 开式 : f (x) = h k (x) k K k=1(2.43 ) 其中 , 每个h k 都是输 入 x 的函数 , 而这里 的术 语线 性是只参 数 的作用 。 该类 包 含了大 量各种 不同 类型 的方 法。 径向基 函数 (radial basis function)是特定 形心 上对 称 的 p 维核。 神经网 络的 激活 函数 (sigmoid ,transig)函数 都属 于这一 类。 2.9 模型 选择 和偏 倚 方 差权衡 上面介 绍的 所有 模型 和后 面章节 中将 要讨 论的 一些 其他模 型都 有一 个光 滑或 复杂性
48、 参 数需要 确定 :罚 项的 乘数 、核的 宽度 、基 函数 的个 数。 一般的 , 随着我 们的 过程 模型的复 杂度 增加 , 方差趋 向于增加 , 平方偏 倚趋 向于 减小; 随着模 型的 复杂 度降 低, 情况相 反。 通常 我们 希望 这样选 择模 型的 复杂 度: 在偏倚 和方 差 之间权 衡, 使检 验误 差最 小。检 验误 差的 一个 显而 易见的 估计 是训 练误 差, 遗憾的 是, 训 练误差 不是 检验 误差 的一 个好的 估计 ,因 为它 不能 适当解 释模 型的 复杂 性。 对于 k-最近邻 方法 , 模型的复杂 度被 k 控制。 假定 数据源 自一 个模 型Y = f(X) + ,其 中E( ) = 0, Var( ) = 2 。 为 简单 起见, 我们 假定 样本中x i 的值 预先 给定 (非 随 机的) 。 在x 0 的 期望预 测误 差也 称检 验误 差或泛 化误 差, 可以 分解 为: EPE k (x 0 ) = E Y f k (x 0 ) 2 |X = x 0 = 2 + Bias 2 f k (x 0 ) + Var(f k (x 0 ) (2.46 ) = 2 + f(x 0