1、1,模 式 识 别 北京科技大学计算机系 郝 红 卫,模式识别 第一章 绪论 郝红卫,2,第一章 绪 论,1.1 课程简介 1.2 设计实例 1.3 模式识别系统 1.4 设计循环 1.5 学习和自适应 1.6 小结,模式识别 第一章 绪论 郝红卫,3,课 程 简 介,基本概念模式 (Pattern) 存在于时间和空间中可观察的事物,具有时间或空间分布的信息。 模式识别 (Pattern Recognition) 用计算机实现人对各种事物或现象的描述、分析、判断、识别。,模式识别 第一章 绪论 郝红卫,4,课 程 简 介,模式识别的任务设计和构造能够识别不同模式的机器语音识别 文字识别 指纹识
2、别 图像识别 数据分析/数据挖掘 ,模式识别 第一章 绪论 郝红卫,5,课 程 简 介,模式识别 第一章 绪论 郝红卫,6,课 程 简 介,模式识别 第一章 绪论 郝红卫,7,课 程 简 介,模式识别 第一章 绪论 郝红卫,8,课 程 简 介,模式识别 第一章 绪论 郝红卫,9,课 程 简 介,教材和参考书模式识别 (第二版)边肇褀 张学工 等 编著 清华大学出版社Pattern Classification (Second Edition)Richard O. Duda Peter E. Hart David G. Stork China Machine Press (有中译本),模式识别
3、第一章 绪论 郝红卫,10,课 程 简 介,Pattern Classification Richard O. Duda Peter E. Hart David G. Stork,模式识别 第一章 绪论 郝红卫,12,课 程 简 介,教学安排总学时 32课堂教学 30考试 2 第八周考试方式 开卷笔试成绩评定 考试(80) 平时(20),模式识别 第一章 绪论 郝红卫,13,课 程 简 介,主要内容 模式识别的基本概念 模式识别系统的构成 模式识别的基本理论与方法 最新进展和存在的问题,模式识别 第一章 绪论 郝红卫,14,设 计 实 例,鱼类加工厂需要将传送带上的鱼自动进行分类鲈鱼类别马哈鱼
4、,模式识别 第一章 绪论 郝红卫,15,问题分析采用摄像机获取图像,根据图像对鱼进行分类。可能遇到的问题:目标的提取预处理 分类的依据特征提取 判别的规则分类器设计,设 计 实 例,模式识别 第一章 绪论 郝红卫,16,设 计 实 例,模式识别 第一章 绪论 郝红卫,17,预处理 方便后续操作,同时又不损失关键信息。去除噪声 光照调整 目标提取 方向、位置调整 大小规一化 在本例中需要采用分割技术将鱼和鱼、鱼和背景分开,设 计 实 例,模式识别 第一章 绪论 郝红卫,18,设 计 实 例,特征提取原始数据量巨大,往往含有很多冗余信息,为了有效实现分类识别,需要对原始数据进行变换,以便得到最能反
5、映分类本质的特征。可以考虑的特征: 长度 光泽 宽度 鳍的数目和形状 嘴的位置, 等等,模式识别 第一章 绪论 郝红卫,19,分类 根据某种判决规则将被识别对象归为某一类别。基本方法是在训练样本集上确定某个判决规则,使按这种判决规则对被识别对象进行分类所造成的错误识别率最小或引起的损失最小。,设 计 实 例,模式识别 第一章 绪论 郝红卫,20,设 计 实 例,采用长度作为特征,模式识别 第一章 绪论 郝红卫,21,结论单独使用长度错误率太高必须考虑其它特征改进措施采用光泽度进行新的尝试,设 计 实 例,模式识别 第一章 绪论 郝红卫,22,设 计 实 例,模式识别 第一章 绪论 郝红卫,23
6、,运用多种特征 光泽度和宽度鱼 xT = x1, x2,光泽度,宽度,设 计 实 例,模式识别 第一章 绪论 郝红卫,24,设 计 实 例,模式识别 第一章 绪论 郝红卫,25,我们可以尝试增加其他特征,但必须注意两点:新增特征与已有特征不相关 不会引起性能的下降我们还可以改进分类器模型,达到如下图所示的效果:,设 计 实 例,模式识别 第一章 绪论 郝红卫,26,设 计 实 例,模式识别 第一章 绪论 郝红卫,27,讨论 这样的效果好吗?,设 计 实 例,模式识别 第一章 绪论 郝红卫,28,设 计 实 例,讨论我们的目标是使所设计的分类器能够正确识别未知样本, 对已知样本的正确分类是否能够
7、保证对未知样本正确分类? 泛化能力!,模式识别 第一章 绪论 郝红卫,29,设 计 实 例,存在的问题决策边界过于复杂 运算量大 数学表达困难 对未知样本的分类错误率高,模式识别 第一章 绪论 郝红卫,30,设 计 实 例,理想状况,模式识别 第一章 绪论 郝红卫,31,决策边界和损失 如果两种错误代价相同,则以最小错误率为准则;如果两 种错误代价不等,则以最小风险为准则。 可以调整将阈值边界,确定最优的分界点。 确定某种决策规则,使得决策所引起的损失最小,这是决策理论的核心任务。,设 计 实 例,模式识别 第一章 绪论 郝红卫,32,模 式 识 别 系 统,信号获取 使用传感器,将各种其他性
8、质的信号转换为电信号。 模式识别系统的性能依赖于传感器的性能,如带宽、分辨率、灵敏度、失真、信噪比等。 在实践中尽管同样重要,但已超出了本课的范围。,模式识别 第一章 绪论 郝红卫,33,模 式 识 别 系 统,预处理 去除噪声,加强有用信息,对输入设备或其他因素造成的退化现象进行复原。 方便后续处理的操作:目标提取,分割,位置、大小、方向的规一化等等。分割悖论:分割与识别互为前提要正确识别,须准确分割;要正确分割,则须准确识别。,模式识别 第一章 绪论 郝红卫,34,模 式 识 别 系 统,特征提取 原始数据量巨大,往往含有很多冗余信息,为了有效实现分类识别,需要对原始数据进行变换,以便得到
9、最能反映分类本质的特征。这就是特征提取和选择的过程。 原始数据组成的空间叫做测量空间,分类识别赖以进行的空间叫做特征空间。通过变换,可以把在维数较高的测量空间中表示的模式变为在维数较低的特征空间中表示的模式。 在特征空间中的一个模式通常也叫做一个样本,它往往可以表示为一个向量,即特征空间中的一个点。,模式识别 第一章 绪论 郝红卫,35,模 式 识 别 系 统,分类决策 根据某种判决规则将被识别对象规为某一类别。 基本方法有两大类:统计方法和结构(句法)方法。统计模式识别的基本作法是在训练样本集上确定某个判决规则,使按这种判决规则对被识别对象进行分类所造成的错误识别率最小或引起的损失最小。 通
10、常可以给每个类别命名,并且用特定的符号来表达这个名字,称之为类别空间。这样,分类可以看成是从特征空间到类别空间的映射。,模式识别 第一章 绪论 郝红卫,36,模 式 识 别 系 统,后处理利用分类器的输出结果来确定合适的动作。 采用上下文信息来改善系统的性能,上下文信息通常来自于输入数据,而不是目标模式本身。 其他改善系统性能的技术,如多分类器的组合等。,模式识别 第一章 绪论 郝红卫,37,模 式 识 别 系 统,模式识别 第一章 绪论 郝红卫,38,设 计 循 环,数据采集 特征选择 模型选择 训练 评估 计算复杂度,模式识别 第一章 绪论 郝红卫,39,设 计 循 环,模式识别 第一章
11、绪论 郝红卫,40,数据采集数据采集耗时费力花钱; 数据要尽量多; 数据要有代表性; 数据至少应分为训练数据和测试数据; 如何确定数据是否足够?,设 计 循 环,模式识别 第一章 绪论 郝红卫,41,设 计 循 环,特征选择取决于特定问题领域的性质; 先验知识非常重要; 容易提取、对不相关变形具有不变性、对噪声不敏感等; 对区分不同类别模式的有效性; 如何将先验知识和实验数据结合起来,以发现有效的特征?,模式识别 第一章 绪论 郝红卫,42,模型选择有很多分类器模型可供选择; 不同的模型适用于不同的问题; 尽量使选择的模型与实际问题相符; 如何知道应该拒绝某类模型而去尝试其他模型?,设 计 循
12、 环,模式识别 第一章 绪论 郝红卫,43,训练利用样本数据来确定分类器参数的过程称为分类器的训练; 实践表明,基于样本学习的方法是目前设计分类器的最有效的方法; 基于样本学习的方法是分类器设计的核心,是模式识别的核心,也是本课程的核心; 如何组织训练样本、确定训练参数?,设 计 循 环,模式识别 第一章 绪论 郝红卫,44,评估评价系统性能; 决定是否需要改进系统的组成部件; 避免过拟合(Overfitting),所谓过拟合,是指系统过于复杂,以至于对训练样本集识别率很高,但对于新样本则可能效果不佳; 折中模型的复杂程度,既不能太简单以至于不足以描述模式类间的差异,又不能太复杂而对新样本的分
13、类能力太差; 是否存在原则性的方法能确定分类器具有最佳的复杂度?,设 计 循 环,模式识别 第一章 绪论 郝红卫,45,计算复杂度考虑不同算法的计算资源消耗和计算复杂度有着重要的实践意义。 要考虑某个算法的计算复杂度是特征维数、模式数目、类别数的什么函数? 如何在算法性能和计算复杂度之间进行折中?,设 计 循 环,模式识别 第一章 绪论 郝红卫,46,学 习 和 自 适 应,对于任何实际的识别问题都难以事先给出最佳分类规则,因此必须研究机器学习问题; 分类器的设计过程为:选择某种分类器模型,利用训练样本来学习或估计分类器模型的参数。 学习的方法是采用某种算法来降低模型对训练样本的分类误差。,模
14、式识别 第一章 绪论 郝红卫,47,学 习 和 自 适 应,监督学习 有“教师”为训练样本集中的每个输入样本提供类别标号。 非监督学习 没有显式的“教师”,系统对输入样本自动形成“聚类”。 强化学习不需要“教师”指明类别标号,但需要“教师”对当前分类结果给出对或错的反馈,系统从这种不明确的反馈中进行学习。即“教师”只需给出对或错,无需指明错在哪里。,模式识别 第一章 绪论 郝红卫,48,小 结,统计模式识别的基本概念 样本 Sample: 待研究对象的个体,包括性质已知或未知的个体。 类别 Class: 将所研究的样本性质离散化为有限的类别,认为同一类的样本在该性质上是不可区分的。习惯上,类别
15、用 表示,如1、2,也可用 -1,1 或 0,1 表示。 已知样本 Known samples: 类别情况已知的样本。 未知样本 Unknown samples: 类别情况未知的样本。 样本集 Sample set: 若干样本的集合,分已知样本集和未知样本集。 训练样本集 Training set: 简称训练集,用于设计分类器(确定分类器参数)的样本集。 测试样本集 Testing set: 简称测试集,用于测试分类器和识别系统性能的样本集。,模式识别 第一章 绪论 郝红卫,49,小 结,特征 Features:样本的任何可区分的(且可观测的)方面。 包括定量特征和定性特征,但通常最后转化为定
16、量特征。 特征向量 Feature vectors:样本的所有特征组成的n 维向量,是样本在数学上的表达,因此也称作样本。 特征空间 Feature space:特征向量所在的n 维空间,每一个样本(特征向量)是该空间中的一个点,一个类别是该空间中的一个区域。,模式识别 第一章 绪论 郝红卫,50,小 结,分类器 Classifier: 能够将每个样本都分到某个类别中去(或者拒绝)的计算机算法。 决策域 Decision region: 分类器将特征空间划分为若干区域。 决策边界 Decision boundary: 不同类别区域之间的边界,也称分类边界,或简称决策面、分类面。,模式识别 第一章 绪论 郝红卫,51,小 结,一个坏消息模式识别确实非常困难,问题多,复杂度高,涉及范围广,而且各种问题通常不是孤立的,往往交织在一起。 三个好消息 问题一定可以解决,因为人和生物的识别能力就是最好的“存在性证明”; 数学的发展为其中很多问题的解决奠定了基础; 许多悬而未决的问题为进一步的研究和发展提供了机遇。,