收藏 分享(赏)

模式识别60279.ppt

上传人:dreamzhangning 文档编号:3313371 上传时间:2018-10-12 格式:PPT 页数:207 大小:6.78MB
下载 相关 举报
模式识别60279.ppt_第1页
第1页 / 共207页
模式识别60279.ppt_第2页
第2页 / 共207页
模式识别60279.ppt_第3页
第3页 / 共207页
模式识别60279.ppt_第4页
第4页 / 共207页
模式识别60279.ppt_第5页
第5页 / 共207页
点击查看更多>>
资源描述

1、模式识别,1 概述,什么是模式?,广义地说,存在于时间和空间中可观察的物体,如果我们可以区别它们是否相同或是否相似,都可以称之为模式。 模式所指的不是事物本身,而是从事物获得的信息,因此,模式往往表现为具有时间和空间分布的信息。 模式的直观特性: 可观察性 可区分性 相似性,模式识别的概念,模式识别 直观,无所不在,“人以类聚,物以群分” 周围物体的认知:桌子、椅子 人的识别:张三、李四 声音的辨别:汽车、火车,狗叫、人语 气味的分辨:炸带鱼、红烧肉 人和动物的模式识别能力是极其平常的,但对计算机来说却是非常困难的。,模式识别的研究,目的:利用计算机对物理对象进行分类,在错误概率最小的条件下,

2、使识别的结果尽量与客观物体相符合。 Y = F(X) X的定义域取自特征集 Y的值域为类别的标号集 F是模式识别的判别方法,模式识别简史,1929年 G. Tauschek发明阅读机 ,能够阅读0-9的数字。 30年代 Fisher提出统计分类理论,奠定了统计模式识别的基础。 50年代 Noam Chemsky 提出形式语言理论傅京荪 提出句法结构模式识别。 60年代 L.A.Zadeh提出了模糊集理论,模糊模式识别方法得以发展和应用。 80年代以Hopfield网、BP网为代表的神经网络模型导致人工神经元网络复活,并在模式识别得到较广泛的应用。 90年代小样本学习理论,支持向量机也受到了很大

3、的重视。,模式识别的应用(举例),生物学 自动细胞学、染色体特性研究、遗传研究 天文学 天文望远镜图像分析、自动光谱学 经济学 股票交易预测、企业行为分析 医学 心电图分析、脑电图分析、医学图像分析,模式识别的应用(举例),工程 产品缺陷检测、特征识别、语音识别、自动导航系统、污染分析 军事 航空摄像分析、雷达和声纳信号检测和分类、自动目标识别 安全 指纹识别、人脸识别、监视和报警系统,模式识别方法,模式识别系统的目标:在特征空间和解释空间之间找到一种映射关系,这种映射也称之为假说。 特征空间:从模式得到的对分类有用的度量、属性或基元构成的空间。 解释空间:将c个类别表示为其中 为所属类别的集

4、合,称为解释空间。,假说的两种获得方法,监督学习、概念驱动或归纳假说:在特征空间中找到一个与解释空间的结构相对应的假说。在给定模式下假定一个解决方案,任何在训练集中接近目标的假说也都必须在“未知”的样本上得到近似的结果。 依靠已知所属类别的的训练样本集,按它们特征向量的分布来确定假说 (通常为一个判别函数),只有在判别函数确定之后才能用它对未知的模式进行分类; 对分类的模式要有足够的先验知识,通常需要采集足够数量的具有典型性的样本进行训练。,假说的两种获得方法(续),非监督学习、数据驱动或演绎假说:在解释空间中找到一个与特征空间的结构相对应的假说。这种方法试图找到一种只以特征空间中的相似关系为

5、基础的有效假说。 在没有先验知识的情况下,通常采用聚类分析方法,基于“物以类聚”的观点,用数学方法分析各特征向量之间的距离及分散情况; 如果特征向量集聚集若干个群,可按群间距离远近把它们划分成类; 这种按各类之间的亲疏程度的划分,若事先能知道应划分成几类,则可获得更好的分类结果。,模式分类的主要方法,数据聚类 统计分类 结构模式识别 神经网络,有两种基本的模式识别方法:统计模式识别方法和结构(句法模式识别)。 统计模式识别方法建立在被研究对象的统计知识上,是一种数学方法;结构模式识别立足于分析图像结构,把对象看成是语言结构。,数据聚类,目标:用某种相似性度量的方法将原始数据组织成有意义的和有用

6、的各种数据集。是一种非监督学习的方法,解决方案是数据驱动的。,统计分类,基于概率统计模型得到各类别的特征向量的分布,以取得分类的方法。 特征向量分布的获得是基于一个类别已知的训练样本集。 是一种监督分类的方法,分类器是概念驱动的。,结构模式识别,该方法通过考虑识别对象的各部分之间的联系来达到识别分类的目的。 识别采用结构匹配的形式,通过计算一个匹配程度值(matching score)来评估一个未知的对象或未知对象某些部分与某种典型模式的关系如何。 当成功地制定出了一组可以描述对象部分之间关系的规则后,可以应用一种特殊的结构模式识别方法 句法模式识别,来检查一个模式基元的序列是否遵守某种规则,

7、即句法规则或语法。,神经网络,神经网络是受人脑组织的生理学启发而创立的。 由一系列互相联系的、相同的单元(神经元)组成。相互间的联系可以在不同的神经元之间传递增强或抑制信号。 增强或抑制是通过调整神经元相互间联系的权重系数(weight)来实现。 神经网络可以实现监督和非监督学习条件下的分类。,模式识别系统,模式识别系统的基本构成,数据获取,特征提取和选择,预处理,分类决策,分类器设计,模式识别系统组成单元,数据获取:用计算机可以运算的符号来表示所研究的对象 二维图像:文字、指纹、地图、照片等 一维波形:脑电图、心电图、季节震动波形等 物理参量和逻辑值:体温、化验数据、参量正常与否的描述 预处

8、理单元:去噪声,提取有用信息,并对输入测量仪器或其它因素所造成的退化现象进行复原,模式识别系统组成单元,特征提取和选择:对原始数据进行变换,得到最能反映分类本质的特征 测量空间:原始数据组成的空间 特征空间:分类识别赖以进行的空间 模式表示:维数较高的测量空间-维数较低的特征空间 分类决策:在特征空间中用模式识别方法把被识别对象归为某一类别 基本做法:在样本训练集基础上确定某个判决规则,使得按这种规则对被识别对象进行分类所造成的错误识别率最小或引起的损失最小,模式识别过程实例,在传送带上用光学传感器件对鱼按品种分类鲈鱼(Seabass)品种鲑鱼(Salmon),识别过程,数据获取:架设一个摄像

9、机,采集一些样本图像,获取样本数据预处理:去噪声,用一个分割操作把鱼和鱼之间以及鱼和背景之间分开,识别过程,特征提取和选择:对单个鱼的信息进行特征选择,从而通过测量某些特征来减少信息量 长度 亮度 宽度 鱼翅的数量和形状 嘴的位置,等等 分类决策:把特征送入决策分类器,模式分类器的获取和评测过程,数据采集 特征选取 模型选择 训练和测试 计算结果和复杂度分析,反馈,训练和测试,训练集:是一个已知样本集,在监督学习方法中,用它来开发出模式分类器。 测试集:在设计识别和分类系统时没有用过的独立样本集。 系统评价原则:为了更好地对模式识别系统性能进行评价,必须使用一组独立于训练集的测试集对系统进行测

10、试。,相关数学概念,随机向量及其分布 随机向量 如果一个对象的特征观察值为x1, x2, , xn,它可构成一个n维的特征向量值x,即x = (x1, x2, , xn)T式中, x1, x2, , xn为特征向量x的各个分量。 一个特征可以看作n维空间中的向量或点,此空间称为模式的特征空间Rn 。,相关数学概念,随机向量及其分布 随机向量 在模式识别过程中,要对许多具体对象进行测量,以获得许多次观测值。 每次观测值不一定相同,所以对许多对象而言,各个特征分量都是随即变量,即许多对象的特征向量在n维空间中呈随机性分布,称为随机向量。 随机向量的参数 数学期望 协方差矩阵,与模式识别相关的学科,

11、统计学 概率论 线性代数(矩阵计算) 形式语言机器学习 人工智能 图像处理 计算机视觉 ,2 聚类分析,2.1 聚类分析的相关概念,定义对一批没有标出类别的模式样本集,按照样本之间的相似程度分类,相似的归为一类,不相似的归为另一类,这种分类称为聚类分析,也称为无监督分类。,2.1 聚类分析的相关概念,模式相似/分类的依据把整个模式样本集的特征向量看成是分布在特征空间中的一些点,点与点之间的距离即可作为模式相似性的测量依据。聚类分析是按不同对象之间的差异,根据距离函数的规律(大小)进行模式分类的。,2.1 聚类分析的相关概念,聚类分析的有效性聚类分析方法是否有效,与模式特征向量的分布形式有很大关

12、系。 若向量点的分布是一群一群的,同一群样本密集(距离很近),不同群样本距离很远,则很容易聚类; 若样本集的向量分布聚成一团,不同群的样本混在一起,则很难分类; 对具体对象做聚类分析的关键是选取合适的特征。特征选取得好,向量分布容易区分,选取得不好,向量分布很难分开。,2.1 聚类分析的相关概念,两类模式分类的实例:一摊黑白围棋子选颜色作为特征进行分类,用“1”代表白,“0”代表黑,则很容易分类;选大小作为特征进行分类,则白子和黑子的特征相同,不能分类(把白子和黑子分开)。,2.1 聚类分析的相关概念,特征选择的维数在特征选择中往往会选择一些多余的特征,它增加了维数,从而增加了聚类分析的复杂度

13、,但对模式分类却没有提供多少有用的信息。在这种情况下,需要去掉相关程度过高的特征(进行降维处理)。降维方法 若rij-1,则表明第i维特征与第j维特征所反映的特征规律接近,因此可以略去其中的一个特征,或将它们合并为一个特征,从而使维数降低一维。,2.1 聚类分析的相关概念,模式对象特征测量的数字化计算机只能处理离散的数值,因此根据识别对象的不同,要进行不同的数据化处理。 连续量的量化:用连续量来度量的特性,如长度、重量、面积等等,仅需取其量化值; 量级的数量化:度量时不需要详尽的数值,而是相应地划分成一些有次序的量化等级的值。 病人的病程 名义尺度:指定性的指标,即特征度量时没有数量关系,也没

14、有明显的次序关系,如黑色和白色的关系,男性和女性的关系等,都可将它们分别用“0”和“1”来表示。 超过2个状态时,可用多个数值表示。,2.2 模式相似性的测度和聚类准则,2.2.1 相似性测度 目的:为了能将模式集划分成不同的类别,必须定义一种相似性的测度,来度量同一类样本间的类似性和不属于同一类样本间的差异性。 欧氏距离 明氏(Minkowski)距离角度相似性函数 特点:反映了几何上相似形的特征,对于坐标系的旋转、放大和缩小等变化是不变的。 当特征的取值仅为(0,1)两个值时的特例,2.2 模式相似性的测度和聚类准则,2.2.2 聚类准则有了模式的相似性测度,还需要一种基于数值的聚类准则,

15、能将相似的模式样本分在同一类,相异的模式样本分在不同的类。 试探方法 聚类准则函数法,2.2 模式相似性的测度和聚类准则,2.2.2 聚类准则 试探方法凭直观感觉,针对实际问题定义一种相似性测度的阈值,然后按最近邻规则指定某些模式样本属于某一个聚类类别。 例如对欧氏距离,它反映了样本间的近邻性,但将一个样本分到不同类别中的哪一个时,还必须规定一个距离测度的阈值作为聚类的判别准则。,2.2 模式相似性的测度和聚类准则,2.2.2 聚类准则 聚类准则函数法 依据:由于聚类是将样本进行分类以使类别间可分离性为最大,因此聚类准则应是反映类别间相似性或分离性的函数; 由于类别是由一个个样本组成的,因此一

16、般来说类别的可分离性和样本的可分离性是直接相关的; 可以定义聚类准则函数为模式样本集x和模式类别Sj, j=1,2,c的函数,从而使聚类分析转化为寻找准则函数极值的最优化问题。,2.2 模式相似性的测度和聚类准则,2.2.2 聚类准则 聚类准则函数法 一种聚类准则函数J的定义 J代表了属于c个聚类类别的全部模式样本与其相应类别模式均值之间的误差平方和。 对于不同的聚类形式,J值是不同的。 目的:求取使J值达到最小的聚类形式。,2.3 基于试探的聚类搜索算法,2.3.1 按最近邻规则的简单试探法 算法讨论 这种方法的优点:计算简单,若模式样本的集合分布的先验知识已知,则可获得较好的聚类结果。,2

17、.3 基于试探的聚类搜索算法,2.3.1 按最近邻规则的简单试探法 讨论(续) 在实际中,对于高维模式样本很难获得准确的先验知识,因此只能选用不同的阈值和起始点来试探,因此这种方法在很大程度上依赖于以下因素: 第一个聚类中心的位置 待分类模式样本的排列次序 距离阈值T的大小 样本分布的几何性质,2.3 基于试探的聚类搜索算法,2.3.1 按最近邻规则的简单试探法 讨论(续) 距离阈值T对聚类结果的影响,2.3 基于试探的聚类搜索算法,2.3.2 最大最小距离算法基本思想:以试探类间欧氏距离为最大作为预选出聚类中心的条件。,2.3 基于试探的聚类搜索算法,2.3.2 最大最小距离算法算法(实例)

18、,2.4 系统聚类法,基本思想将模式样本按距离准则逐步分类,类别由多到少,直到获得合适的分类要求为止。算法,2.4 系统聚类法,距离准则函数进行聚类合并的一个关键就是每次迭代中形成的聚类之间以及它们和样本之间距离的计算,采用不同的距离函数会得到不同的计算结果。主要的距离计算准则: 最短距离法 最长距离法 中间距离法 重心法 类平均距离法,2.5 动态聚类法,基本思想 首先选择若干个样本点作为聚类中心,再按某种聚类准则(通常采用最小距离准则)使样本点向各中心聚集,从而得到初始聚类; 然后判断初始分类是否合理,若不合理,则修改分类; 如此反复进行修改聚类的迭代算法,直至合理为止。 2.5.1 K-

19、均值算法 2.5.2 ISODATA算法(迭代自组织数据分析算法),2.5.1 K-均值算法,思想:基于使聚类性能指标最小化,所用的聚类准则函数是聚类集中每一个样本点到该类中心的距离平方之和,并使其最小化。算法,确定类数并选择初始参考点: K均值原始方法中的参考点(凝聚点)的个数与位置是由人为指定的,即凝聚点取前K个样品点X1,X2,XK。 因为类数K很难事先指定,而取前K点为凝聚点也未必合理。因此有不少人对它进行了改进。 其中一个常用的改进方案为利用各点的密度确定凝聚点和类数,其步骤为: 求各点密度:任意确定一个正数d。以每个样品点Xi为中心,d为半径作n维空间中的超球。若某点Xj满足条件d

20、(Xi, Xj)d,则称Xj落在超球内,其中d(Xi, Xj)为点Xj到Xi的距离。落在超球内的总点数称为Xi点密度。容易想象到,密度越大,Xi点作为凝聚点的资格就越大。,2.5.1 K-均值算法,确定凝聚点和类数。 确定两个数D0和 。首先,取密度最大的点作为凝聚点。其次,取密度次大的点,若该点和已知凝聚点的距离大于D,并且该点的密度大于或等于T,则取它为下一个凝聚点。不断重复这个步骤就可以选出一批凝聚点,凝聚点的个数就是准备聚成的类数。 分类与调整 当K个凝聚点确定后,对于剩下的N-K个样品点,分别计算每点到K个凝聚点的距离,并将该点归入最近的凝聚点所代替的类。 调整的方法有以下两种: 每

21、当把一个样品点归入某类后,立即重新计算该类的凝聚点。这是K均值方法的原始方案。 首先把N-K个点全部归入K个类,然后计算各类的重心(均值),作为新的凝聚点。 终止条件:不断重复上述步骤,直到下列条件满足时停止迭代:前后两次聚类结果相同。前后两次凝聚点位置基本上重合。,2.5.1 K-均值算法,2.5.1 K-均值算法,讨论K-均值算法的结果受如下选择的影响: 所选聚类的数目 聚类中心的初始分布 模式样本的几何性质 读入次序 在实际应用中,需要试探不同的K值和选择不同的聚类中心的起始值。 如果模式样本可以形成若干个相距较远的孤立的区域分布,一般都能得到较好的收敛效果。 K-均值算法比较适合于分类

22、数目已知的情况。,2.5.2 ISODATA(Iterative Self-Organizing DATA)算法,与K-均值算法的比较 K-均值算法通常适合于分类数目已知的聚类,而ISODATA算法则更加灵活; 从算法角度看, ISODATA算法与K-均值算法相似,聚类中心都是通过样本均值的迭代运算来决定的; ISODATA算法加入了一些试探步骤,并且可以结合成人机交互的结构,使其能利用中间结果所取得的经验更好地进行分类。,2.5.2 ISODATA算法,基本步骤和思路 (1) 选择某些初始值。可选不同的指标,也可在迭代过程中人为修改,以将N个模式样本按指标分配到各个聚类中心中去。 (2) 计

23、算各类中诸样本的距离指标函数。 (3)(5)按给定的要求,将前一次获得的聚类集进行分裂和合并处理(4)为分裂处理,(5)为合并处理),从而获得新的聚类中心。 (6) 重新进行迭代运算,计算各项指标,判断聚类结果是否符合要求。经过多次迭代后,若结果收敛,则运算结束。,ISODATA方法是对K均值法的改进方案,它允许在K均值法的基础上对类数和分类结果进行调整和改变。 选择一批凝聚点,按K均值方法对样品点进行分类和调整,并限定迭代次数。如果已迭代了NS次而仍未满足终止条件,则不再继续调整而转入下一步。 删除:若某类样品点数较少,删掉这一类,该类样品不再参加以后的运算。 合并或分解: 若类数超过预定数

24、目,则进行合并:计算各类凝聚点间的距离,若某两类的凝聚点距离较小,合并这两类,并重新计算新类的凝聚点及其与其他凝聚点的距离; 若类数较少,则进行分解:考虑任一类。如果该类全体样品点的第j个特征值的均方差较大,则把分成两类。 重新计算各类均值作为新的凝聚点。,2.5.2 ISODATA算法,2.6 聚类结果的评价,迅速评价聚类结果,在上述迭代运算中是很重要的,特别是具有高维特征向量的模式,不能直接看清聚类效果,因此,可考虑用以下几个指标来评价聚类效果: 聚类中心之间的距离 距离值大,通常可考虑分为不同类 聚类域中的样本数目 样本数目少且聚类中心距离远,可考虑是否为噪声 聚类域内样本的距离方差 方

25、差过大的样本可考虑是否属于这一类 讨论:模式聚类目前还没有一种通用的放之四海而皆准的准则,往往需要根据实际应用来选择合适的方法。,3 判别函数,3.1 线性判别函数,3.1.1 用判别函数分类的概念 模式识别系统的主要作用 判别各个模式所属的类别 对一个两类问题的判别,就是将模式x划分成1和2两类。,3.1 线性判别函数,3.1.1 用判别函数分类的概念 描述:两类问题的判别函数,3.1 线性判别函数,3.1.1 用判别函数分类的概念 用判别函数进行模式分类依赖的两个因素 (1)判别函数的几何性质:线性的和非线性的函数。 线性的是一条直线; 非线性的可以是曲线、折线等; 线性判别函数建立起来比

26、较简单(实际应用较多); 非线性判别函数建立起来比较复杂。 (2)判别函数的系数:判别函数的形式确定后,主要就是确定判别函数的系数问题。 只要被研究的模式是可分的,就能用给定的模式样本集来确定判别函数的系数。,3.1 线性判别函数,3.1.2 线性判别函数 n维线性判别函数的一般形式 权向量 增广模式向量 增广权向量 分类问题 两类情况:判别函数d(x) 多类情况:设模式可分成1, 2, M共M类,则有三种划分方法,3.1 线性判别函数,3.1.2 线性判别函数 线性可分 模式分类如可用任一个线性函数来划分,则这些模式就称为线性可分的,否则就是非线性可分的。 一旦线性函数的系数wk被确定,这些

27、函数就可用作模式分类的基础。,3.2 广义线性判别函数,出发点 线性判别函数简单,容易实现; 非线性判别函数复杂,不容易实现; 若能将非线性判别函数转换为线性判别函数,则有利于模式分类的实现。,3.2 广义线性判别函数,基本思想设有一个训练用的模式集x,在模式空间x中线性不可分,但在模式空间x*中线性可分,其中x*的各个分量是x的单值实函数,x*的维数k高于x的维数n,即若取x* = (f1(x), f2(x), ., fk(x), kn则分类界面在x*中是线性的,在x中是非线性的,此时只要将模式x进行非线性变换,使之变换后得到维数更高的模式x*,就可以用线性判别函数来进行分类。 描述,3.2

28、 广义线性判别函数,广义线性判别函数的意义 线性的判别函数 fi(x)选用二次多项式函数 x是二维的情况 x是n维的情况 fi(x)选用r次多项式函数, x是n维的情况 例子 d(x)的总项数 说明 d(x)的项数随r和n的增加会迅速增大,即使原来模式x的维数不高,若采用次数r较高的多项式来变换,也会使变换后的模式x*的维数很高,给分类带来很大困难。 实际情况可只取r=2,或只选多项式的一部分,例如r=2时只取二次项,略去一次项,以减少x*的维数。,3.2 广义线性判别函数,例子:一维样本空间 -二维样本空间,3.3 分段线性判别函数,出发点 线性判别函数在进行分类决策时是最简单有效的,但在实

29、际应用中,常常会出现不能用线性判别函数直接进行分类的情况。 采用广义线性判别函数的概念,可以通过增加维数来得到线性判别,但维数的大量增加会使在低维空间里在解析和计算上行得通的方法在高维空间遇到困难,增加计算的复杂性。 引入分段线性判别函数的判别过程,它比一般的线性判别函数的错误率小,但又比非线性判别函数简单。,3.4 模式空间和权空间,分类描述 模式空间 对一个线性方程w1x1+w2x2+w3x3=0,它在三维空间(x1 x2 x3)中是一个平面方程式,w=(w1 w2 w3)T是方程的系数。 把w向量作为该平面的法线向量,则该线性方程决定的平面通过原点且与w垂直。,3.4 模式空间和权空间,

30、模式空间 若x是二维的增广向量,此时x3=1,则在非增广的模式空间中即为x1, x2 二维坐标,判别函数是下列联立方程的解w1x1+w2x2+w3=0x3=1即为这两个平面相交的直线AB 此时,w =(w1 w2)T为非增广的权向量,它与直线AB垂直;AB将平面分为正、负两侧,w离开直线的一侧为正, w射向直线的一侧为负。,3.4 模式空间和权空间,模式空间 增广向量决定的平面 非增广向量决定的直线,3.4 模式空间和权空间,权空间 若将方程x1w1+x2w2+w3=0绘在权向量w=(w1 w2 w3)T的三维空间中,则x=(x1 x2 1)T为方程的系数。 若以x向量作为法线向量,则该线性方

31、程所决定的平面为通过原点且与法线向量垂直的平面,它同样将权空间划分为正、负两边。 在系数x不变的条件下,若w值落在法线向量离开平面的一边,则wTx0,若w值落在法线向量射向平面的一边,则wTx 0。,3.4 模式空间和权空间,权空间中判别界面的平面示意图,4 统计判别,4.1 作为统计判别问题的模式分类,模式识别的目的就是要确定某一个给定的模式样本属于哪一类。 可以通过对被识别对象的多次观察和测量,构成特征向量,并将其作为某一个判决规则的输入,按此规则来对样本进行分类。,4.1 作为统计判别问题的模式分类,在获取模式的观测值时,有些事物具有确定的因果关系,即在一定的条件下,它必然会发生或必然不

32、发生。 例如识别一块模板是不是直角三角形,只要凭“三条直线边闭合连线和一个直角”这个特征,测量它是否有三条直线边的闭合连线并有一个直角,就完全可以确定它是不是直角三角形。 这种现象是确定性的现象,前一章的模式判别就是基于这种现象进行的。,但在现实世界中,由许多客观现象的发生,就每一次观察和测量来说,即使在基本条件保持不变的情况下也具有不确定性。 只有在大量重复的观察下,其结果才能呈现出某种规律性,即对它们观察到的特征具有统计特性。 特征值不再是一个确定的向量,而是一个随机向量。 此时,只能利用模式集的统计特性来分类,以使分类器发生错误的概率最小。,4.1 作为统计判别问题的模式分类,4.1.1

33、 贝叶斯判别原则 两类模式集的分类 目的:要确定x是属于1类还是2类,要看x是来自于1类的概率大还是来自2类的概率大。 贝叶斯判别,4.1 作为统计判别问题的模式分类,4.1.1 贝叶斯判别原则 例子 对一大批人进行癌症普查,患癌者以1类代表,正常人以2类代表。 设被试验的人中患有癌症的概率为0.005,即P(1)=0.005,当然P(2)=1-0.005=0.995 现任意抽取一人,要判断他是否患有癌症。显然,因为P(2) P(1),只能说是正常的可能性大。如要进行判断,只能通过化验来实现。,4.1 作为统计判别问题的模式分类,4.1.1 贝叶斯判别原则 例子 设有一种诊断癌症的试验,其结果

34、为“阳性”和“阴性”两种反应。 若用这种试验来对一个病人进行诊断,提供的化验结果以模式x代表,这里x为一维特征,且只有x=“阳”和x=“阴”两种结果。,4.1 作为统计判别问题的模式分类,4.1.1 贝叶斯判别原则 例子 假设根据临床记录,发现这种方法有以下统计结果 患有癌症的人试验反应为阳性的概率=0.95,即p(x=阳| 1)=0.95 患有癌症的人试验反应为阴性的概率=0.05,即p(x=阴| 1)=0.05 正常人试验反应为阳性的概率=0.01,即p(x=阳| 2)=0.01 正常人试验反应为阴性的概率=0.99,即p(x=阴| 2)=0.99,4.1 作为统计判别问题的模式分类,4.

35、1.1 贝叶斯判别原则 问题 若被化验的人具有阳性反应,他患癌症的概率为多少,即求P(1 | x=阳)=? 这里P(1) 是根据以往的统计资料得到的,为患癌症的先验概率。现在经过化验,要求出P(1 | x=阳),即经过化验后为阳性反应的人中患癌症的概率,称为后验概率。 计算,4.1 作为统计判别问题的模式分类,4.1.2 贝叶斯最小风险判别 当考虑到对于某一类的错误判决要比对另一类的判决更为关键时,就需要把最小错误概率的贝叶斯判别做一些修正,提出条件平均风险rj(x)。 M类分类问题的条件平均风险rj(x) 对M类问题,如果观察样本被判定属于j类 ,则条件平均风险为:Lij称为将本应属于i类的

36、模式判别成属于j类的是非代价。,4.1 作为统计判别问题的模式分类,4.1.2 贝叶斯最小风险判别 意义 对于自然属性是属于i类的模式x来说,它来自i类的概率应为P(i |x)。 如果分类器判别x是属于j类,但它实际上来自i类,也就是说分类器失败,这时Lij为失分,对应的条件风险为后验概率进行Lij的加权运算。 由于模式x的自然属性可能来自M类中的任一类,因此可将观察样本指定为j类的条件平均风险用rj(x)的公式运算。,4.1 作为统计判别问题的模式分类,4.1.2 贝叶斯最小风险判别 Lij的取值 若i=j,即判别正确,得分, Lij可以取负值或零,表示不失分。 若ij,即判别错误,失分,

37、Lij应取正值。 最小平均条件风险分类器 分类器对每一个模式x有M种可能的类别可供选择。 若对每一个x计算出全部类别的平均风险值r1(x), r2(x), rM(x),并且将x指定为是具有最小风险值的那一类,则这种分类器称为最小平均条件风险分类器。,4.1 作为统计判别问题的模式分类,出发点 当已知或者有理由设想类概率密度函数P(x|i )是多变量的正态分布时,上一节介绍的贝叶斯分类器可以导出一些简单的判别函数。 由于正态密度函数易于分析,且对许多重要的实际应用又是一种合适的模型,因此受到很大的重视。,4.2 正态分布模式的贝叶斯分类器,M种模式类别的多变量正态类密度函数 判别函数是一个超二次

38、曲面。 对于正态分布模式的贝叶斯分类器,两个模式类别之间用一个二次判别界面分开,就可以求得最优的分类效果。 两类问题且其类模式都是正态分布的特殊情况 当C1C2时的情况 显然,判别界面d1(x)- d2(x)=0是x的二次型方程,即1和2两类模式可用二次判别界面分开。 当x是二维模式时,判别界面为二次曲线,如椭圆,圆,抛物线或双曲线等。 当C1=C2 =C时的情况 判别界面为x的线性函数,为一超平面。 当x是二维时,判别界面为一直线。,4.2 正态分布模式的贝叶斯分类器,5 特征选择和提取,5 特征选择和提取,特征选择和提取是模式识别中的一个关键问题 前面讨论分类器设计的时候,一直假定已给出了

39、特征向量维数确定的样本集,其中各样本的每一维都是该样本的一个特征; 这些特征的选择是很重要的,它强烈地影响到分类器的设计及其性能; 假若对不同的类别,这些特征的差别很大,则比较容易设计出具有较好性能的分类器。,5 特征选择和提取,特征选择和提取是构造模式识别系统时的一个重要课题 在很多实际问题中,往往不容易找到那些最重要的特征,或受客观条件的限制,不能对它们进行有效的测量; 因此在测量时,由于人们心理上的作用,只要条件许可总希望把特征取得多一些; 另外,由于客观上的需要,为了突出某些有用信息,抑制无用信息,有意加上一些比值、指数或对数等组合计算特征; 如果将数目很多的测量值不做分析,全部直接用

40、作分类特征,不但耗时,而且会影响到分类的效果,产生“特征维数灾难”问题。,5 特征选择和提取,为了设计出效果好的分类器,通常需要对原始的测量值集合进行分析,经过选择或变换处理,组成有效的识别特征; 在保证一定分类精度的前提下,减少特征维数,即进行“降维”处理,使分类器实现快速、准确和高效的分类。 为达到上述目的,关键是所提供的识别特征应具有很好的可分性,使分类器容易判别。为此,需对特征进行选择。 应去掉模棱两可、不易判别的特征; 所提供的特征不要重复,即去掉那些相关性强且没有增加更多分类信息的特征。,5 特征选择和提取,所谓特征选择,就是从n个度量值集合x1, x2, xn中,按某一准则选取出

41、供分类用的子集,作为降维(m维,mn)的分类特征; 所谓特征提取,就是使(x1, x2, xn)通过某种变换,产生m个特征(y1, y2, ym) (mn) ,作为新的分类特征(或称为二次特征); 其目的都是为了在尽可能保留识别信息的前提下,降低特征空间的维数,已达到有效的分类。,5 特征选择和提取,以细胞自动识别为例 通过图像输入得到一批包括正常细胞和异常细胞的图像,我们的任务是根据这些图像区分哪些细胞是正常的,哪些细胞是异常的; 首先找出一组能代表细胞性质的特征,为此可计算 细胞总面积 总光密度 胞核面积 核浆比 细胞形状 核内纹理 ,5 特征选择和提取,以细胞自动识别为例 这样产生出来的

42、原始特征可能很多(几十甚至几百个),或者说原始特征空间维数很高,需要降低(或称压缩)维数以便分类; 一种方式是从原始特征中挑选出一些最有代表性的特征,称之为特征选择; 另一种方式是用映射(或称变换)的方法把原始特征变换为较少的特征,称之为特征提取。,5.1 模式类别可分性的测度,距离和散布矩阵 点到点之间的距离 点到点集之间的距离类内距离,5.1 模式类别可分性的测度,距离和散布矩阵 类内散布矩阵 对属于同一类的模式样本,类内散布矩阵表示各样本点围绕其均值周围的散布情况,这里即为该分布的协方差矩阵。 类间距离和类间散布矩阵 多类模式集散布矩阵 以上各类散布矩阵反映了各类模式在模式空间的分布情况

43、,但它们与分类的错误率没有直接联系。 (若与分类错误率联系起来,可采用散度作为类别可分性的度量,在此不详细介绍),5.2 特征选择,设有n个可用作分类的测量值,为了在不降低(或尽量不降低)分类精度的前提下,减小特征空间的维数以减少计算量,需从中直接选出m个作为分类的特征。 问题:在n个测量值中选出哪一些作为分类特征,使其具有最小的分类错误?,5.2 特征选择,从n个测量值中选出m个特征,一共有 中可能的选法。 一种“穷举”办法:对每种选法都用训练样本试分类一下,测出其正确分类率,然后做出性能最好的选择,此时需要试探的特征子集的种类达到 种,非常耗时。 需寻找一种简便的可分性准则,间接判断每一种

44、子集的优劣。 对于独立特征的选择准则 一般特征的散布矩阵准则,5.2 特征选择,对于独立特征的选择准则 类别可分性准则应具有这样的特点,即不同类别模式特征的均值向量之间的距离应最大,而属于同一类的模式特征,其方差之和应最小。 假设各原始特征测量值是统计独立的,此时,只需对训练样本的n个测量值独立地进行分析,从中选出m个最好的作为分类特征即可。 例:对于i和j两类训练样本的特征选择,5.2 特征选择,讨论:上述基于距离测度的可分性准则,其适用范围与模式特征的概率分布有关。 三种不同模式分布的情况 (a) 中特征xk的分布有很好的可分性,通过它足以分离i和j两种类别; (b) 中的特征分布有很大的

45、重叠,单靠xk达不到较好的分类,需要增加其它特征; (c) 中的i类特征xk的分布有两个最大值,虽然它与j的分布没有重叠,但计算Gk约等于0,此时再利用Gk作为可分性准则已不合适。 因此,假若类概率密度函数不是或不近似正态分布,均值和方差就不足以用来估计类别的可分性,此时该准则函数不完全适用。,5.2 特征选择,一般特征的散布矩阵准则 类内、类间和总体的散布矩阵Sw、Sb和St Sw的行列式值越小且Sb的行列式值越大,可分性越好。 散布矩阵准则J1和J2形式 使J1或J2最大的子集可作为所选择的分类特征。 注:这里计算的散布矩阵不受模式分布形式的限制,但需要有足够数量的模式样本才能获得有效的结

46、果。,5.3 离散K-L变换,全称:Karhunen-Loeve变换(卡洛南-洛伊变换) 前面讨论的特征选择是在一定准则下,从n个特征中选出k个来反映原有模式。 这种简单删掉某n-k个特征的做法并不十分理想,因为一般来说,原来的n个数据各自在不同程度上反映了识别对象的某些特征,简单地删去某些特征可能会丢失较多的有用信息。 如果将原来的特征做正交变换,获得的每个数据都是原来n个数据的线性组合,然后从新的数据中选出少数几个,使其尽可能多地反映各类模式之间的差异,而这些特征间又尽可能相互独立,则比单纯的选择方法更灵活、更有效。 K-L变换就是一种适用于任意概率密度函数的正交变换。,5.3 离散K-L

47、变换,5.3.1 离散的有限K-L展开 展开式的形式 如果对c种模式类别ii=1,c做离散正交展开,则对每一模式可分别写成:xi= ai,其中矩阵 取决于所选用的正交函数。 对各个模式类别,正交函数都是相同的,但其展开系数向量ai则因类别的不同模式分布而异。 K-L展开式的性质 K-L展开式的根本性质是将随机向量x展开为另一组正交向量j的线性和,且其展开式系数aj(即系数向量a的各个分量)具有不同的性质。 在此条件下,正交向量集j的确定 K-L展开式系数的计算步骤,5.3 离散K-L变换,5.3.2 按K-L展开式选择特征 K-L展开式用于特征选择相当于一种线性变换。 若从K个特征向量中取出m

48、个组成变换矩阵,即 = (1 2 m),mK此时,是一个n*m维矩阵,x是n维向量,经过Tx变换,即得到降维为m的新向量。 选取变换矩阵,使得降维后的新向量在最小均方差条件下接近原来的向量x,5.3 离散K-L变换,5.3.2 按K-L展开式选择特征 结论 从K-L展开式的性质和按最小均方差的准则来选择特征,应使Eaj=0。由于Ea=ETx= TEx,故应使Ex=0。基于这一条件,在将整体模式进行K-L变换之前,应先将其均值作为新坐标轴的原点,采用协方差矩阵C或自相关矩阵R来计算特征值。如果Ex0,则只能得到“次最佳”的结果。,5.3 离散K-L变换,5.3.2 按K-L展开式选择特征 结论

49、将K-L展开式系数aj(亦即变换后的特征)用yj表示,写成向量形式:y= Tx。此时变换矩阵用m个特征向量组成。为使误差最小,不采用的特征向量,其对应的特征值应尽可能小。因此,将特征值按大小次序标号,即1 2 m n=0若首先采用前面的m个特征向量,便可使变换误差最小。此时的变换矩阵为,5.3 离散K-L变换,5.3.2 按K-L展开式选择特征 结论 K-L变换是在均方误差最小的意义下获得数据压缩的最佳变换,且不受模式分布的限制。对于一种类别的模式特征提取,它不存在特征分类问题,只是实现用低维的m个特征来表示原来高维的n个特征,使其误差最小,亦即使其整个模式分布结构尽可能保持不变。,5.3 离散K-L变换,5.3.2 按K-L展开式选择特征 结论 通过K-L变换能获得互不相关的新特征。若采用较大特征值对应的特征向量组成变换矩阵,则能对应地保留原模式中方差最大的特征成分,所以K-L变换起到了减小相关性、突出差异性的效果。在此情况下, K-L变换也称为主成分变换。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 大学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报