1、模式识别学习心得,作者:白静 2012.9.8,模式识别定义,模式识别(Pattern Recognition)是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。模式识别又常称作模式分类,从处理问题的性质和解决问题的方法等角度,模式识别分为有监督的分类(Supervised Classification)和无监督的分类(Unsupervised Classification)两种。二者的主要差别在于各实验样本所属的类别是否预先已知。一般说来,有监督的分类往往需要提供大量已知类别的
2、样本,但在实际问题中,这是存在一定困难的,因此研究无监督的分类就变得十分有必要了。模式还可分成抽象的和具体的两种形式。前者如意识、思想、议论等,属于概念识别研究的范畴,是人工智能的另一研究分支。我们所指的模式识别主要是对语音波形、地震波、心电图、脑电图、图片、照片、文字、符号、生物传感器等对象的具体模式进行辨识和分类。,模式识别的发展简史,1929年 G. Tauschek发明阅读机 ,能够阅读0-9的数字。30年代 Fisher提出统计分类理论,奠定了统计模式识别的基础。50年代 Noam Chemsky 提出形式语言理论傅京荪提出句法/结构模式识别。60年代 L.A.Zadeh提出了模糊集
3、理论,模糊模式识别方法得以发展和应用80年代 以Hopfield网、BP网为代表的神经网络模型导致人工神经元网络复活,并在模式识别得到较广泛的应用。90年代 小样本学习理论,支持向量机也受到了很大的重视。,模式识别的方法和应用,模式识别的方法: 统计模式识别 句法模式识别 模糊模式识别 人工神经网络法 人工智能方法 模式识别的应用 文字识别 语音识别 指纹识别遥感 医学诊断,模式识别基本概念,模式识别(Pattern Recognition):确定一个样本的类别属性(模式类)的过程,即把某一样本归属于多个类型中的某个类型。 样本(Sample):一个具体的研究(客观)对象。如患者,某人写的一个
4、汉字,一幅图片等。 模式(Pattern):对客体(研究对象)特征的描述(定量的或结构的描述),是取自客观世界的某一样本的测量值的集合(或综合)。 特征(Features):能描述模式特性的量(测量值)。在统计模式识别方法中,通常用一个矢量 表示,称之为特征矢量,记为 模式类(Class):具有某些共同特性的模式的集合。,模式识别系统,一个典型的模式识别系统由下图所示的结构框图组成,一般由数据获取,预处理,特征提取选择、分类决策及分类器设计五部分组成。分类器设计在训练过程中完成,利用样本进行训练,确定分类器的具体参数。而分类决策在识别过程中起作用,对待识别的样本进行分类决策。,模式识别系统,范
5、例 木板图象 512512 d=3长度 纹理 亮度c=2 松木 桦木,维数 无限有限/ 很大R有限d不大c,dR无限,模式识别过程,特征矢量和特征空间,特征矢量:设一个研究对像的n个特征量测量值分别为,我们将它们作为一个整体来考虑,让它们构成一个维特征矢量 特征空间:各种不同取值的特征矢量的全体构成了维特征空间。,随机矢量的描述,随机矢量:在模式识别过程中,要对许多具体对象进行测量,以获得许多次观测值。每次观测值不一定相同,所以对许多对象而言,各个特征分量都是随机变量,即许多对象的特征向量在n维空间中呈随机性分布,称为随机矢量。随机矢量的分布函数:设 为随机矢量,为确定性矢量。随机矢量的联合概
6、率分布函数定义为:式中 表示括号中事件同时发生的概率。,聚类分析 (Clustering Analysis),一、聚类分析的基本思想相似的归为一类。模式相似性的度量和聚类算法。无监督分类(Unsupervised) 。,二、特征量的类型物理量-(重量、长度、速度)次序量-(等级、技能、学识)名义量-(性别、状态、种类),三、方法的有效性取决于分类算法和特征点分布情况的匹配。,聚类过程遵循的基本步骤,三、聚类准则(clustering criterion)以蕴涵在数据集中类的类型为基础,二、近邻测度(proximity measure)定量测定两特征如何“相似”或“不相似”,一、特征选择(fea
7、ture selection)尽可能多地包含任务关心的信息,聚类过程遵循的基本步骤,六、结果判定(interpretation of the results)由专家用其他方法判定结果的正确性,五、结果验证(validation of the results)常用逼近检验验证聚类结果的正确性,四、聚类算法(clustering algorithm)按近邻测度和聚类准则揭示数据集的聚类结构,聚类应用的四个基本方向,一、减少数据许多时候,当数据量N很大时,会使数据处理变得很费力。因此可使用聚类分析的方法将数据分成几组可判断的聚类m(mN)来处理,每一个类可当作独立实体来对待。从这个角度看,数据被压缩
8、了。 二、假说生成在这种情况下,为了推导出数据性质的一些假说,对数据集进行聚类分析。因此,这里使用聚类作为建立假说的方法,然后用其他数据集验证这些假说。 三、假说检验用聚类分析来验证指定假说的有效性。 四、基于分组的预测对现有数据进行聚类分析,形成模式的特征,并用特征表示聚类,接下来,对于一个未知模式,就可以用前面的聚类来确定是哪一类?,模式相似性测度,用于描述各模式之间特征的相似程度距 离 测 度测度基础:两个矢量矢端的距离测度数值:两矢量各相应分量之差的函数。相 似 测 度测度基础:以两矢量的方向是否相近作为考虑的基础,矢量长度并不重要。匹 配 测 度当特征只有两个状态(0,1)时,常用匹配测度。0表示无此特征 1表示有此特征。故称之为二值特征。,聚类的算法,简单聚类方法针对具体问题确定相似性阈值,将模式到各聚类中心间的距离与阈值比较,当大于阈值时该模式就作为另一类的类心,小于阈值时按最小距离原则将其分划到某一类中。按最小距离原则进行两类合并的方法首先视各模式自成一类,然后将距离最小的两类合并成一类,不断地重复这个过程,直到成为两类为止。依据准则函数动态聚类法设定一些分类的控制参数,定义一个能表征聚类结果优劣的准则函数,聚类过程就是使准则函数取极值的优化过程。,