收藏 分享(赏)

支持向量机分析.ppt

上传人:精品资料 文档编号:10304480 上传时间:2019-10-29 格式:PPT 页数:68 大小:1.40MB
下载 相关 举报
支持向量机分析.ppt_第1页
第1页 / 共68页
支持向量机分析.ppt_第2页
第2页 / 共68页
支持向量机分析.ppt_第3页
第3页 / 共68页
支持向量机分析.ppt_第4页
第4页 / 共68页
支持向量机分析.ppt_第5页
第5页 / 共68页
点击查看更多>>
资源描述

1、第五章 支持向量机,内容提要,1 引言 2 统计学习理论 3 线性支持向量机 4 非线性支持向量机 5 支持向量回归 6 支持向量聚类,1 引言,一. SVM (Support Vector Machine)的历史 神经网络分类器,Bayes分类器等是基于大样本学习的分类器。Vapnik 等从1960年开始关于统计学习理论的研究。统计学习理论是关于小样本的机器学习理论。1992年支持向量机首次被引入。1995年Vapnik发展了支持向量机理论。支持向量机是基于统计学习理论的一种实用的机器学习方法。,二. SVM 的发展 SVM理论的发展:最小二乘支持向量机(LS SVM)多分类支持向量机(M-

2、SVM)支持向量回归(SVR)支持向量聚类(SVC) SVM与计算智能的融合:神经网络+支持向量机模糊逻辑+支持向量机遗传算法+支持向量机小波分析+支持向量机主分量分析+支持向量机粗糙集理论+支持向量机,三. SVM的应用数据与文本分类系统建模及预测模式识别(图像及语音识别,生物特征识别)异常检测(入侵检测,故障诊断)时间序列预测,2 统计学习理论,一. 两分类问题 给定 l 个观测值:, i = 1, 2, ., l Rn每个观测值与一个标记相连: , i = 1, 2, ., l 土1对于 (2-类) 分类, 建立一个函数: 表示函数的参数 使得 f 能正确地分类未学习过的样本,第 2 类

3、,第 1 类,二.期望风险与实验风险 期望风险最小化其中 x, y的联合概率 P(x, y) 是未知的 实验风险最小化实验风险是由在训练集上测得的平均误差所确定的如果训练样本的个数是有限的,则实验风险最小化的方法不保证有高推广能力,三. VC理论 VC (Vapnik-Chervonenkis)维数 分类函数 的集合F的VC维数p=VCdim(F)定义 (VapnikChervonenkis). 函数 的集合F的VC 维数是p, 当且仅当存在点集 xipi=1 使得这些点能够被所有 2p 种可能的分类方式分开,且不存在集合 xiqi=1 ( q p )满足这一性质。在 n 维空间中,超平面集合

4、的VC维数等于n + 1 。VC维数刻画了“可能近似正确”意义上的学习能力。,例:VC维数,四. 结构风险最小化VC 理论引入期望风险的边界,它依赖于实验风险与 F的能力。这些边界的最小化导出结构风险最小化原理:实验风险与 VC 可信度之和为最小其中 h 与VC 维数有关,是能力概念的一种测度 支持向量机是基于结构风险最小化原理构造的一种学习机,3 线性支持向量机 一. 两分类问题: 线性分割情形,第 1 类,第 2 类,许多决策边界可以分割这些数据点出为两类 我们选取哪一个?,坏的决策边界的例子,第 1 类,第 2 类,第 1 类,第 2 类,好的决策边界: 间隔大,决策边界离两类数据应尽可

5、能远 最大化间隔 m,第 1 类,第 2 类,m,二. 最优化问题,设 x1, ., xn 为数据集, yi 1,-1 为xi 的类标记要求决策边界正确地分类所有的点 于是得到一个带有约束的优化问题,将上述最优化问题转换成其对偶问题:取Lagrange函数(w,b;)=1/2w2 n i=1 i (yi(w,xi)+b 1)则对偶问题由max W()=max (minw,b (w,b;) 给出。由 minw,b (w,b;) 得 / b=0 n i=1 iyi=0 / w =0 w=n i=1 iyixi,于是得到对偶问题这是一个二次规划 (QP) 问题 ai的全局最大值总可以求得 W的计算,

6、解得*=argmin 1/2n i=1n i=1 i jyiyj n k =1 k w*=n i=1 iyixi,b *=1/2 其中Xr 与xs满足xr,xs 0, yr= 1,ys=1 则f(x)= sgn( +b),三. 解的性质,许多的 ai 为零 w 只是少数数据的线性组合具有非零 ai 的 xi 称为支持向量 (SV) 决策边界仅由SV确定 设 tj (j=1, ., s) 为支持向量的指标,于是为了检测一个新数据 z 计算 如果 WTZ+ b 0, 则 z 属于第一类;否则,属于第二类。,a6=1.4,四. 几何解释,第1类,第2类,a1=0.8,a2=0,a3=0,a4=0,a

7、5=0,a7=0,a8=0.6,a9=0,a10=0,4 非线性支持向量机 一. 非线性分割问题,关键思想: 为了解决非线性分割问题, 将 xi 变换到一个高维空间。 输入空间: xi 所在的空间 特征空间: 变换后 f(xi) 的空间如何变换 ? 利用一个适当的变换f, 使分类变得容易些。 特征空间中的线性算子等价于输入空间中的非线性算子。,变换可能出现的问题 难以得到一个好的分类且计算开销大 SVM同时解决这两个问题 最小化 |w|2 能得到好的分类 利用核函数技巧可以进行有效的计算,f(),特征空间,输入空间,变换举例定义核函数 K (x,y) 如下 考虑下列变换内积可由 K 计算, 不

8、必通过映射 f()计算,二. 核函数技巧 核函数 K 与映射 f(.) 之间的关系是作为核函数技巧这是已知的 在应用中, 我们指定K, 从而间接地确定 f() ,以代替选取f() 。 直观地, K (x,y) 表示我们对数据 x 和 y 之间相似性的一种描述, 且来自我们的先验知识 。 为了f() 存在, K (x,y) 需要满足 Mercer 条件。,核函数举例 d 阶多项式核具有宽度 s的径向基函数核相当接近于径向基函数神经网络 具有参数 k and q 的Sigmoid 核对所有的k 和 q,它不满足 Mercer 条件,三.非线性SVM算法 将所有的内积改为核函数 训练算法:,线性的,

9、非线性的,检测算法:,线性的,非线性的,对于一个新数据z ,如果f 0,则分到第1类; 如果 f0,则分到第2类。,例题 设有 5个 1 维数据点:x1=1, x2=2, x3=4, x4=5, x5=6, 其中1, 2, 6 为第1类,而4, 5 为第2类 y1=1, y2=1, y3=-1, y4=-1, y5=1。 利用 2 阶多项式核 K(x,y) = (xy+1)2 C 取为 100 先求 ai (i=1, , 5) :,利用 QP 求解 , 得到 a1=0, a2=2.5, a3=0, a4=7.333, a5=4.833 注意到确实满足约束条件 支持向量为 x2=2, x4=5,

10、 x5=6 描述函数为确定b 当 x2, x4, x5 位于 上时, f(2)=1 , f(5)=-1 , f(6)=1, 由此解得 b=9,描述函数的值,1,2,4,5,6,第2类,第1类,第1类,5 支持向量回归 一.最小二乘法,求 解:,二. 线性支持向量回归 (SVR),约束:,线性支持向量回归 (SVR),Lagrange 最优化,回归公式,回归公式:,性质: 冗余性 全局的且唯一的 非线性推广,三. 非线性支持向量回归,输入空间,特征空间,回归公式,线性的:,非线性的:,一般的:,多项式型:,核函数的类型,线性型:,径向基函数型:,指数径向基函数型:,几点说明,SVM 基本上是一个

11、两分类器,修改 QP 公式, 以允许多类别分类。 常用的方法: 以不同的方式智能地将数据集分为两部分, 对每一种分割方式用 SVM训练,多类别分类的结果, 由所有的SVM分类器的输出经组合后得到 (多数规则) 。 “一对一”策略 这种方法对N 类训练数据两两组合,构建C2N = N (N - 1) /2个支持向量机。最后分类的时候采取“投票”的方式决定分类结果。 “一对其余”策略 这种方法对N分类问题构建N个支持向量机,每个支持向量机负责区分本类数据和非本类数据。最后结果由输出离分界面距离wx + b最大的那个支持向量机决定。,软件,关于 SVM 的实现可以在下列网址找到www.kernelm

12、achines.org/software.html SVMLight 是最早的 SVM 软件之一 SVM 的各种 Matlab toolbox 也是可利用的 LIBSVM 可以进行多类别分类 CSVM 用于SVM分类 rSVM 用于SVM回归 mySVM 用于SVM分类与回归 M-SVM 用于SVM多类别分类,6 支持向量聚类,一. 发展简介 Vapnik (1995): 支持向量机 Tax & Duin (1999): 利用SV 表示高维分布的特征 Scholkopf et al. (2001):利用SV计算封闭数据点的轮廓线的集合 Ben-Hur et al. (2001):利用SV系统地

13、搜索聚类解,二. 方法的基本思想 利用高斯核函数将数据点映射到高维特征空间 在特征空间内寻找封闭数据点的像点的最小球面 将球面映射回数据空间,构成封闭数据点的轮廓线的集合 被每条轮廓线所封闭的点即属于与同一个聚类 减小高斯核函数的宽度,增加轮廓线的数目 用一个大的软间隙值处理重迭的聚类,映射到高维特征空间,三. 主要步骤球分析聚类分析,设 为一具有N个点的数据集 用一个非线性变换映射到高维特征空间 寻求由 限制的中心为a且半径为R的最小闭球,球分析,引入 Lagrangian函数:,引入松弛变量j0 给出:,j 0 与 j0 为Lagrange 乘子, C 为常数, Cj 为惩罚项,利用KKT

14、 (Karush-Kuhn-Tucker) 完备性条件给出:,球,由球心到像点的距离:当 R = D(xj)时,则 xj 为支持向量 在数据空间中封闭点的轮廓线为集合 x | D(x) = R,支持向量,满足i=0 的点xi 的像点位于特征空间之外或在边界上 如果 0 i C, 它的像点位于特征空间球的曲面上 这些都是支持向量,有界支持向量,满足i0 及i 0的点xi 的像点位于特征空间之外,这样的点有i=0,因此i = C 这些是有界支持向量 (BSVs) 当 C 1时,不存在有界支持向量,支持向量小结,SVs位于聚类边界上 BSVs位于聚类边界之外 所有其它的点位于聚类边界之内,数据空间,

15、聚类分析,聚类分配 观察: 给定不同聚类中的一对数据点,任一连接它们的轨线必定走出特征空间中的球,即这条轨线包含使得D(y) R的点y的弧段。 所有点的邻接矩阵 Aij Aij = 1,如果对于弧段上所有的y ,D(y) RAij = 0,如果对于弧段上至少1个y ,D(y) R,聚类分析:邻接矩阵,计算主要部分的伪代码,Get Adjacent Matrix (A) 初始化矩阵A ,各元素清零 for i 2 to n for j 1 to i - 1if j R ,则跳出循环 if d R then a( i , j) = a( j , i) 1endend end end,参数,聚类水平

16、由两个参数控制: 1) q Gaussian 核的宽度参数。q 增加,不相连的轮廓线增加,聚类的个数增加。2) C 软间隙常数。它允许特征空间中的球不封闭所有的点。,没有BSV的例,有BSV的例,. 外点的个数由参数C控制,nbsv = 1/C,其中 nbsv 为 BSV的个数, C 为软间隙常数。,p = 1/NC,1/NC 为BSV一部分的上界。,支持向量,图4说明没有BSV轮廓线分开的数据与要求利用BSV的数据之间的不同。如果不存在BSV,两个概率分布之间的小的重迭所产生的数据足以防止轮廓线分开。,例,Iris 数据,数据集考虑150 个实例,每个实例由iris 花的4个测量数据组成。存

17、在3种类型的花,每一种由50个实例描述。,变动 p 与 q,从q 的初始值开始,在这一尺度所有的点对生成所得到的单一聚类中可估计的核值。在这个值没有外点是需要的,于是选取 C = 1.如果 q 是增加的,则单个或一些点的聚类破坏或者聚类边界变的很粗糙。为了研究BSV什么时候允许出现,则让p增加。较低个数的 SV 保证光滑的边界。当 q增加时, SV的个数也增加。如果SV的个数太多,则让 p 增加,其中许多 SV可能转入BSV,并且光滑的聚类或核边界就显现出来,如图3b 。沿着一个方向系统地增加 q 与 p 就能保证最小个数的SV。,关于 Iris 的结果,问题,计算复杂度 ( O(n2m) 最优 q 值对于每个数据库是不同的,并且很难调好。 聚类分析中:计算邻接矩阵分配标记到BSV 也存在某些问题。,谢谢大家!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报