收藏 分享(赏)

模式的识别第6章节.ppt

上传人:依依 文档编号:1057865 上传时间:2018-06-08 格式:PPT 页数:70 大小:2.88MB
下载 相关 举报
模式的识别第6章节.ppt_第1页
第1页 / 共70页
模式的识别第6章节.ppt_第2页
第2页 / 共70页
模式的识别第6章节.ppt_第3页
第3页 / 共70页
模式的识别第6章节.ppt_第4页
第4页 / 共70页
模式的识别第6章节.ppt_第5页
第5页 / 共70页
点击查看更多>>
资源描述

1、第6章 近邻法Chapter 6: Nearest Neighbor method,6.1 近邻法的基本原理 6.2 k-近邻法的基本原理6.3 近邻法的分类错误率分析6.4 近邻法的改进算法6.5 最佳距离度量近邻法,本章主要内容,6.1 近邻法的基本原理,6.1.1 关于近邻法,近邻法原理示意图,1951年Fix和Hodges首次提出,最经典的模式识别方法之一,方法简单,便于理论分析,是其它模式识别方法的标尺,“距离”的度量方式有很多种,第 类,第 类,近邻法原理及其决策规则,最小距离分类器它将各类训练样本划分成若干子类 并在每个子类中确定代表点用子类的质心或邻近质心的某一样本为代表点测试

2、样本的类别则以其与这些代表点距离最近作决策 缺点:所选择的代表点并不一定能很好地代表各类,其后果将使错误率增加,最小距离分类器每个类别只有一个”代表点”,基于距离的分段线性函数每个类别用多个”代表点”表示,近邻法原理及其决策规则,分析:增加代表点的数量有没有可能获得性能好的分类器呢? 一种极端的情况是以全部训练样本作为“代表点”,也称为”模板”分类方法: (也是一种模板匹配算法)测试样本与每个”代表点”做比较与哪个模板最相似(即为近邻),就按最近似的”代表点”的类别作为分类的类别这种方法就是近邻法的基本思想,例A类有10个训练样本,因此有10个模板,B类有8个训练样本,就有8个模板。任何一个待

3、测试样本在分类时与这18个模板都算一算相似度,如最相似的那个近邻是B类中的一个,就确定待测试样本为B类,否则为A类。因此原理上说近邻法是最简单的。,给定c 个类别 ,每类有标明类别的样本 个,近邻法的判别函数为 决策法则为直观的说,就是对待识别的模式向量 ,只要比较 与所有已知类别的样本之间的欧式距离,并决策 与离它最近的样本同类。,最近邻决策规则,6.1.2 近邻法应用实例:人脸表情识别,自然,高兴,生气,失望,悲伤,害怕,惊讶,任给一张人脸,请问是什么表情?,“学以致用”,通过上述应用实例可以加深对近邻法的理解。,欲解决的问题:,七类表情,(2)学习样本库 (类别已知),(3)测试样本库

4、(类别未知),JAFFE人脸表情库,学习样本库,测试样本库,(1)关于JAFFE人脸表情库,样本库构建:,JAFFE: Japanese Female Facial Expression,表情库含10名日本年轻女性,每人7种表情,每种表情采集3幅图, 共210幅图,每副图为256256象素,256级灰度,共70幅图,共210副图,整个JAFFE库,10个人,每人7种表情,每种表情取1幅图,6.1.2 近邻法应用实例:人脸表情识别(续),表情识别流程:,特征提取,用近邻法分类,预处理,256256,3232 =1024,抽样,1,1,1024,11,(主成分分析),主成分分析:是最简单的提取方法

5、,第8章讲述,提取的特征个数,6.1.2 近邻法应用实例:人脸表情识别(续),主函数的源代码片段:,Path=.JAFFE; %表情库所在文件夹JanpanPerson=KA.KL.KM.KR.MK.NA.NM.TM.UY.YM.; % 10个日本人名Expression=ANDIFEHANESASU; % 7种表情,nlean = 7*10*1; %学习样本个数 ntest = 7*10*3; %测试样本个数 numpc=11; %提取的特征数目,% = 读取学习样本与测试样本(按七种表情依次读取) =,6.1.2 近邻法应用实例:人脸表情识别(续),% = 字符串设置 =,% = 参数设置

6、 =,%=用 PCA 做特征提取 =,6.1.2 近邻法应用实例:人脸表情识别(续),%提取学习样本特征 v,latent,explained,xlean_normal_project = lpca(xlean_normal,xlean_normal,numpc); %提取测试样本特征 v,latent,explained,xtest_normal_project = lpca(xlean_normal,xtest_normal,numpc); %将提取的特征向量转化成单位向量 xlean_normal_project_unit=unitary(xlean_normal_project); %

7、将提取的特征向量转化成单位向量 xtest_normal_project_unit=unitary(xtest_normal_project);,ytest = NN_CLASSIFY(xlean_normal_project_unit, ylean, xtest_normal_project_unit);,%= 用 NN 对测试样本分类 =,function ytest = NN_CLASSIFY (SNN_xlean, ylean, SNN_xtest)%功能: 近邻法%参数: SNN_xlean: 学习样本集 % SNN_xtest: 测试样本集 % ylean: 每个学习样本所属的类别

8、% ytest: 每个测试样本所属的类别(用近邻法判别出的结果)% nlean = size(SNN_xlean,1); %学习样本数ntest = size(SNN_xtest,1); %测试样本数ndim = size(SNN_xlean,2); %样本维数,近邻法源代码剖析:,6.1.2 近邻法应用实例(续),6.1.2 近邻法应用实例(续),% 计算每个测试样本与每个学习样本间的欧式距离,% 对给定的测试样本,找出与其最近的样本,并确定其类别,dis, yno=min(distance,2); % yno:与测试样本距离最近的学习样本的序号ytest = ylean(yno);,for

9、 itest=1:1:ntest for ilean=1:1:nlean distance(itest,ilean) = norm( SNN_xtest(itest,:) - SNN_xlean(ilean,:); end end,第 1 类表情(AN)的分类正确率: 90.000000%第 2 类表情(DI)的分类正确率: 90.000000%第 3 类表情(FE)的分类正确率: 76.666667%第 4 类表情(HA)的分类正确率: 90.000000%第 5 类表情(NE)的分类正确率: 93.333333%第 6 类表情(SA)的分类正确率: 76.666667%第 7 类表情(SU

10、)的分类正确率: 83.333333%,有很多模式识别方法的识别效果比近邻法好。,表情识别结果:,通过上述应用实例,加深了对近邻法的理解;,6.1.2 近邻法应用实例(续),6.1.3 近邻法的决策面,举例说明:,例1,例2,若样本数目很多,则很难画出决策面。,返回本章首页,例3 设在一个二维空间,A类有三个训练样本,图中用红点表示,B类四个样本,图中用蓝点表示。试问:(1) 按近邻法分类,这两类最多有多少个分界面(2) 画出实际用到的分界面(3) A1与B4之间的分界面没有用到,返回本章首页,答:按近邻法,对任意两个由不同类别的训练样本构成的样本对,如果它们有可能成为测试样本的近邻,则它们构

11、成一组最小距离分类器,它们之间的中垂面就是分界面,因此由三个A类与四个B类训练样本可能构成的分界面最大数量为3412。实际分界面如下图所示,由9条线段构成:,6.1.4 近邻法的优缺点,(1)计算量大,因为每个测试样本都要对 每个学习样本计算一次距离;,(2)存储量大,因为需要一次性将所有学习和测试样本装入内存;,针对近邻法的缺点,当前有许多推广、改进与完善措施。,优点:,缺点:,()方法简单,便于理论分析;,()物理意义明确;,是一种经典的模式识别方法,是衡量其它方法的标尺。(3)在模板数量很大时,其错误率指标还是相当不错的。,function ytest = NN_CLASSIFY (SN

12、N_xlean, ylean, SNN_xtest),6.2 k-近邻法的基本原理,6.2.1 关于 k-近邻法,k-最近邻方法原理示意图,k=5,是近邻法的一种推广;,原理:先找出 的k个近邻,这k个近邻中,哪一类的样本数量占优势,就将 归为哪一类。,选择合适的k值很重要;,k-近邻法决策规则,k-近邻法决策规则最近邻法可以扩展成找测试样本的k个最近样本作决策依据的方法 基本规则 在所有N个样本中找到与测试样本的k个最近邻者,其中各类别所占个数表示成ki,i1,c 则决策规划是:,如果,则决策xj,k近邻一般采用k为奇数,跟投票表决一样,避免因两种票数相等而难以决策。,如何选择k值,有许多学

13、者进行过研究 (不属于课堂教学范围),双螺旋样本分类问题,K=2,K=15,6.2.2 k-近邻法k值的选择问题,例:双螺旋分类,6.3 近邻法的分类错误率分析,对分类错误率的直观认识,分类错误率 = 被错分的样本数 / 样本总数,分类方案一,分类方案二,在分类中,希望分类错误率尽可能地小。,以上是最简单的情形(全体样本已知),但在很多情形下(如只知部分样本,或只知样本的分布),分类错误率并不容易计算。,分类错误率是衡量分类性能好坏的标尺。,在一些特殊情形下按理论公式计算,平均错误率:,(是 的期望),的概率密度,对 进行分类(决策)时的错误,决策规则(两类时):,如果,如果,则,则,(2-6

14、),例:基于最小错误率的贝叶斯决策(前面讲过),最近邻法的错误率是比较难计算的,这是因为训练样本集的数量总是有限的,有时多一个少一个训练样本对测试样本分类的结果影响很大。,红点表示A类训练样本,蓝点表示B类训练样本,而绿点O表示待测样本。假设以欧氏距离来衡量,O的最近邻是A3,其次是B1,因此O应该属于A类;但若A3被拿开,O就会被判为B类。,6.3.1 近邻法分类错误率计算的偶然性,最近邻法的错误率,这说明计算最近邻法的错误率会有偶然性,也就是指与具体的训练样本集有关。同时还可看到,计算错误率的偶然性会因训练样本数量的增大而减小。因此我们就利用训练样本数量增至极大,来对其性能进行评价。这要使

15、用渐近概念,以下都是在渐近概念下来分析错误率的。,因此当计算近邻法的分类错误率时,必须考虑N为无穷大时的情况。,用不同组的N个样本对 进行分类, 的最近邻可能是不相同的 。因此有条件概率:,N个样本下的错误率为,最近邻法的渐进平均错误率为P,6.3.2 近邻法的分类错误率,贝叶斯决策器的分类错误率,近邻法的分类错误率,样本的类别数,近邻法的分类错误率介于 与两倍 之间。,贝叶斯决策器在第2章已讲过。,如果 很小:,6.3.2 近邻法的分类错误率,或,6.3.3 k-近邻法的分类错误率,k-最近邻方法原理(K=5),类,类,k趋近无穷时, ,近邻法是最优的。,k越大分类错误率越小,但过大的k难于

16、满足:,小结,模式识别(机器自动分类)的基本方法有两大类:一类是将特征空间划分成决策域,这就要确定判别函数或确定分界面方程。另一类方法则称为模板匹配,即将待分类样本与标准模板进行比较,看跟哪个模板匹配度更好些,从而确定待测试样本的分类。,近邻法则在原理上属于模板匹配。它将训练样本集中的每个样本都作为模板,用测试样本与每个模板做比较,看与哪个模板最相似(即为近邻),就按最近似的模板的类别作为自己的类别。,6.4 近邻法的改进算法,尽管近邻法有其优良品质,但是它的一个严重弱点与问题是需要存储全部训练样本,以及繁重的距离计算量。,但以简单的方式降低样本数量,只能使其性能降低,这也是不希望的。为此要研

17、究既能减少近邻法计算量与存储量,同时又不明显降低其性能的一些改进算法。,改进的方法大致分为两种原理。一种是对样本集进行组织与整理,分群分层,尽可能将计算压缩到在接近测试样本邻域的小范围内,避免盲目地与训练样本集中每个样本进行距离计算。,另一种原理则是在原有样本集中挑选出对分类计算有效的样本,使样本总数合理地减少,以同时达到既减少计算量,又减少存储量的双重效果。,6.4.1 改进算法问题的提出,【剪辑近邻法 】,【基本思想】,【基本步骤】,【举例】,【举例】,【举例】,【举例】,【举例】,【举例】,【举例】,【引言】,6.3.2 压缩近邻法,【压缩近邻法的基本思想】,【步骤】,定义两个存储器,一个用来存放即将生成的样本集,称为Store;另一存储器则存放原样本集,称为Grabbag。,【举例】,上页图中说明的问题:,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 中等教育 > 小学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报