收藏 分享(赏)

王秀平-数据挖掘复习.pptx

上传人:Facebook 文档编号:2601083 上传时间:2018-09-23 格式:PPTX 页数:47 大小:1.71MB
下载 相关 举报
王秀平-数据挖掘复习.pptx_第1页
第1页 / 共47页
王秀平-数据挖掘复习.pptx_第2页
第2页 / 共47页
王秀平-数据挖掘复习.pptx_第3页
第3页 / 共47页
王秀平-数据挖掘复习.pptx_第4页
第4页 / 共47页
王秀平-数据挖掘复习.pptx_第5页
第5页 / 共47页
点击查看更多>>
资源描述

1、K-近邻分类算法(K Nearest Neighbors,简称KNN)通过计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。,K-近邻分类算法,算法 K-近邻分类算法 输入: 训练数据X;近邻数目K;待分类的元组t。 输出: 输出类别c。 (1)N=; (2)FOR each d X DO BEGIN (3) IF |N|K THEN (4) N=N d; (5) ELSE (6) IF u N such that sim(t,u)sim(t,d) THEN BEGIN (7) N=N - u; (8) N

2、=N d; (9) END (10)END (11)c=class to which the most u N.,KNN的直观解释,1、定义的直观形式: 找出与目标最接近的K个样本; 将目标划分到找出的K个样本中出现最频繁的类。 2、K的直观形式: 以目标样本为中心; 划出一个刚好包含K个样本的圆; 当K增大时,圆半径增大。,k近邻算法,k近邻法,K近邻 设有N个样本分布到c个类为1, , i, c,每类有Ni个样本,i=1c。在全部 样本找出k个最近距离的近邻。 k个近邻分布于c个类中数目用ki表示。k近邻的判断函数为:,决策规则如果 那么决策为 如图所示例子中k1=4, k2=0, k3=

3、1,所以 j=1, 。,本例的k1=4, k2=0, k3=1,遗传算法的生物学基础 生物进化理论与遗传学,现代综合进化论,没有所谓生存斗争的问题,单是个体繁殖机会的差异也能造成后代基因库组成的改变,自然选择也能够进行,生物的进化实际上是种群的进化每一代个体基因型的改变会影响种群基因库的组成种群基因库的进化就是种群的进化,基因库+适者繁殖=群体进化,遗传算法的基本术语,编码:从问题域到遗传域的映射。即性状与基因的DNA序列的映射解码:从遗传域到问题域的映射。即将DNA序列解释成个体的性状适应度:种群的某个个体对生存环境的适应程度。适应度高的个体可以获得更多的繁殖机会,而适应度低的个体,其繁殖机

4、会就会比较少,甚至逐渐灭绝 选择:以一定概率从种群中选择若干个体的操作。一般而言,选择就是基于适应度的优胜劣汰的过程交叉:有性生殖生物在繁殖下一时两个同源染色体之间通过交叉而重组,即在两个染色体的相同位置处DNA被切断,前后两串分别交叉组合形成新的染色体,遗传算法的基本思想,遗传算法的流程图,编码,解码,遗传算法基本要素与实现技术,编码与解码,问题域(解空间)优化变量,遗传域(基因空间) 优化变量的代码表示,映射,二进制编码 浮点数编码 符号编码,编码与解码,二进制编码二进制编码是遗传算法中最常用、最原始的一种编码方法,它将原问题的解空间映射到二进制空间上,然后进行遗传操作。找到最优个体后再通

5、过解码过程还原原始的数据形式进行适应度评价二进制编码的串长度 取决于求解的精度,编码公式,解码公式,编码与解码,浮点编码个体的基因值用某一范围内决策变量的一个浮点数来表示,个体的编码长度等于其决策变量的个数。浮点编码使用的是决策变量的真实值,X:,某个优化问题含有6个变量,则它的一个基因表达为,对应的表现型为x=2.50,9.54,3.25,0.25,4.25,7.00,编码与解码,符号编码个体基因值取自一个无数值含意,而只有代码含义的符号集。符号集可以是字母,也可以是数字序号。,如血型A,B,AB,O可以分别用a,b,c,d表示,或者a1,a2,a3,a4,也可表示为1,2,3,4,二进制编

6、码染色体的交叉,单点交叉基因位数为 ,交叉点k的范围为1, -1,在该点为分界相互交换变量,例如:,子个体1 0 1 1 1 0 1 0 0 1 0 1 子个体2 1 0 1 0 1 0 1 1 0 1 0,二进制编码染色体的交叉,多点交叉,多点交叉的破坏性可以促进解空间的搜索,二进制编码染色体的交叉,均匀交叉两个配对个体的染色体每个基因位以相同的交叉概率进行交换 具体步骤 随机产生一个与个体编码串长度等长的屏蔽字W 按下列规则交叉两个父本的基因,若 =0,则父代第i个基因相互交换,若 =1,则父代第i个基因不相互交换,均匀交叉,例如,几个术语,基因型:10001011101101010001

7、11,表现型:0.637197,编码,解码,个体(染色体),基因,单点交叉运算,交叉前: 00000|01110000000010000 11100|00000111111000101 交叉后: 00000|00000111111000101 11100|01110000000010000,交叉点,GA的框图,产生初始群体,是否满足停止准则,是,输出结果并结束,计算个体适应度值,比例选择运算,单点交叉运算,基本位变异运算,否,产生新一代群体,执行M/2次,线性分类器,f,x,y,+1 -1,f(x,w,b) = sign(w. x - b),线性分类器的间隔( margin):到超平面最近的样

8、本与此超平面之间的距离。,最大间隔,f,x,y,+1 -1,f(x,w,b) = sign(w. x - b),具有最大间隔的线性分类器叫做最大间隔线性分类器。其就是一种最简单的支持向量机(SVM) (称为线性支持向量机,即LSVM),线性支持向量机,f,x,y,+1 -1,f(x,w,b) = sign(w. x - b),支持向量(Support Vectors) :是那些距离超平面最近的点。,具有最大间隔的线性分类器叫做最大间隔线性分类器。其就是一种最简单的支持向量机(SVM) (称为线性支持向量机,即LSVM),线性支持向量机,最大间隔,Why 最大间隔?,+1 -1,f(x,w,b)

9、 = sign(w. x - b),支持向量(Support Vectors) :是那些距离超平面最近的点。,具有最大间隔的线性分类器叫做最大间隔线性分类器。其就是一种最简单的支持向量机(SVM) (称为线性支持向量机,即LSVM),线性支持向量机,传统的统计模式识别方法只有在样本趋向无穷大时,其性能才有理论的保证。统计学习理论(STL)研究有限样本情况下的机器学习问题。SVM的理论基础就是统计学习理论。 传统的统计模式识别方法在进行机器学习时,强调经验风险最小化。而单纯的经验风险最小化会产生“过学习问题”,其推广能力较差。 推广能力是指: 将学习机器(即预测函数,或称学习函数、学习模型)对未

10、来输出进行正确预测的能力。,SVM的理论基础,“过学习问题”:某些情况下,当训练误差过小反而会导致推广能力的下降。 例如:对一组训练样本(x,y),x分布在实数范围内,y取值在0,1之间。无论这些样本是由什么模型产生的,我们总可以用y=sin(w*x)去拟合,使得训练误差为0.,过学习问题,根据统计学习理论,学习机器的实际风险由经验风险值和置信范围值两部分组成。而基于经验风险最小化准则的学习方法只强调了训练样本的经验风险最小误差,没有最小化置信范围值,因此其推广能力较差。 Vapnik 提出的支持向量机(Support Vector Machine, SVM)以训练误差作为优化问题的约束条件,

11、以置信范围值最小化作为优化目标,即SVM是一种基于结构风险最小化准则的学习方法,其推广能力明显优于一些传统的学习方法。 形成时期在19921995年。,SVM,由于SVM 的求解最后转化成二次规划问题的求解,因此SVM 的解是全局唯一的最优解SVM在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中Joachims 最近采用SVM在Reuters-21578来进行文本分类,并声称它比当前发表的其他方法都好,SVM,SVM 是从线性可分情况下的最优分类面发展而来的, 基本思想可用图2的两维情况说明.,最优分类面,图中, 方形点和圆形点代表两类

12、样本, H 为分类线,H1, H2分别为过各类中离分类线最近的样本且平行于分类线的直线, 它们之间的距离叫做分类间隔(margin)。所谓最优分类线就是要求分类线不但能将两类正确分开(训练错误率为0),而且使分类间隔最大.推广到高维空间,最优分类线就变为最优分类面。,最优分类面,如何求最优分类面,最优分类面, 非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射; 对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心; 支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。SVM 是一种有坚实理论基础的新颖的小样本学习方法

13、。它基本上不涉及概率测度及大数定律等,因此不同于现有的统计方法。从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的“转导推理 ”(transductive inference) ,大大简化了通常的分类和回归等问题。,SVM方法的特点,SVM 的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。少数支持向量决定了最终结果,这不但可以帮助我们抓住关键样本、“剔除”大量冗余样本,而且注定了该方法不但算法简单,而且具有较好的“鲁棒”性。这种“鲁棒”性主要体现在: 增、删非支持向量样本对模型没有影响

14、; 支持向量样本集具有一定的鲁棒性; 有些成功的应用中,SVM 方法对核的选取不敏感。,SVM方法的特点,例1:如下图所示(简单的一维情况) 1、设全部样本分为6类, 2、计算距离矩阵D(0),3、求最小元素: 4、把1, 3合并7=(1,3) 4, 6合并8=(4,6) 5、作距离矩阵D(1),按最小距离准则,6、若合并的类数没有达到要求,转3。否则停止。3、求最小元素: 4、8, 5, 2合并, 9=(2,5,4,6),三、初始分类和调整 选一批代表点后,代表点就是聚类中心,计算其它样本到聚类中心的距离,把所有样本归于最近的聚类中心点,形成初始分类,再重新计算各聚类中心,称为成批处理法。

15、选一批代表点后,依次计算其它样本的归类,当计算完第一个样本时,把它归于最近的一类,形成新的分类。再计算新的聚类中心,再计算第二个样本到新的聚类中心的距离,对第二个样本归类。即每个样本的归类都改变一次聚类中心。此法称为逐个处理法。 直接用样本进行初始分类,先规定距离d,把第一个样品作为第一类的聚类中心,考察第二个样本,若第二个样本距第一个聚类中心距离小于d,就把第二个样本归于第一类,否则第二个样本就成为第二类的聚类中心,再考虑其它样本,根据样本到聚类中心距离大于还是小于d,决定分裂还是合并。,四、K-均值算法:成批处理法 例:已知有20个样本,每个样本有2个特征,数据分布如下图,第一步:令K=2

16、,选初始聚类中心为,第三步:根据新分成的两类建立新的聚类中心,第四步: 转第二步。 第二步:重新计算 到z1(2) , z2(2) 的距离,把它们归为最近聚类中心,重新分为两类,,第三步,更新聚类中心,第四步, 第二步,第三步,更新聚类中心,说明:(1)K是指需要分成K类,均值是指每类的中心,就是该类所有样本的平均值,不一定就有某个样本在这个位置上。(2)算法的收敛性判别:前后两次迭代的结果,也就是每迭代分类后,分类都是一样的,此时停止。(3)K值和初始聚类中心对分类的结果影响很大。通常需要其它的算法来确定这两个的选取。,讨论K-均值算法的结果受如下选择的影响: 所选聚类的数目 聚类中心的初始分布 模式样本的几何性质 读入次序 在实际应用中,需要试探不同的K值和选择不同的聚类中心的起始值。 如果模式样本可以形成若干个相距较远的孤立的区域分布,一般都能得到较好的收敛效果。 K-均值算法比较适合于分类数目已知的情况。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 中等教育 > 小学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报