模式识别研究进展.doc-道客多多

资源描述

1、模式识别研究进展郭晋斌浙江理工大学 09 级信号与信息处理 200920602015摘要：自 20 世纪 60 年代以来，模式识别的理论与方法研究及在工程中的实际应用取得了很大的进展。本文先简要回顾模式识别领域的发展历史和主要方法的演变，然后围绕模式分类这个模式识别的核心问题，就概率密度估计、特征选择和变换、分类器设计几个方面介绍近年来理论和方法研究的主要进展，最后简要分析将来的发展趋势。 1. 前言模式识别(Pattern Recognition)是对感知信号（图像、视频、声音等）进行分析，对其中的物体对象或行为进行判别和解释的过程。模式识别能力普遍存在于人和动物的认知系统，人和动物获

2、取外部环境知识，并与环境进行交互的重要基础。我们现在所说的模式识别一般是指用机器实现模式识别过程，是人工智能领域的一个重要分支。早期的模式识别研究是与人工智能和机器学习密不可分的，如 Rosenblatt 的感知机和 Nilsson 的学习机就与这三个领域密切相关。后来，由于人工智能更关心符号信息和知识的推理，而模式识别更关心感知信息的处理，二者逐渐分离形成了不同的研究领域。介于模式识别和人工智能之间的机器学习在 20 世纪 80 年代以前也偏重于符号学习，后来人工神经网络重新受到重视，统计学习逐渐成为主流，与模式识别中的学习问题渐趋重合，重新拉近了模式识别与人工智能的距离。模式识别与机器学

3、习的方法也被广泛用于感知信号以外的数据分析问题（如文本分析、商业数据分析、基因表达数据分析等），形成了数据挖掘领域。模式分类是模式识别的主要任务和核心研究内容。分类器设计是在训练样本集合上进行优化（如使每一类样本的表达误差最小或使不同类别样本的分类误差最小）的过程，也就是一个机器学习过程。由于模式识别的对象是存在于感知信号中的物体和现象，它研究的内容还包括信号/ 图像/ 视频的处理、分割、形状和运动分析等，以及面向应用（如文字识别、语音识别、生物认证、医学图像分析、遥感图像分析等）的方法和系统研究。本文简要回顾模式识别领域的发展历史和主要方法的演变，介绍模式识别理论方法研究的最新进展并分

4、析未来的发展趋势。由于 Jain 等人的综述3 已经全面介绍了 2000 年以前模式分类方面的进展，本文侧重于 2000 年以后的研究进展。 2. 历史回顾现代模式识别是在 20 世纪 40 年代电子计算机发明以后逐渐发展起来的。在更早的时候，已有用光学和机械手段实现模式识别的例子，如在 1929 年 Gustav Tauschek 就在德国获得了光学字符识别的专利。作为统计模式识别基础的多元统计分析和鉴别分析也在电子计算机出现之前提出来了。1957 年 IBM 的 C.K. Chow 将统计决策方法用于字符识别。然而， “模式识别”这个词被广泛使用并形成一个领域则是在 20 世纪 60

5、年代以后。1966 年由 IBM 组织在波多黎各召开了第一次以“模式识别”为题的学术会议。Nagy 的综述和 Kanal 的综述分别介绍了 1968 年以前和 1968-1974 的研究进展。70 年代几本很有影响的模式识别教材（如 Fukunaga, Duda & Hart）的相继出版和 1972 年第一届国际模式识别大会（ICPR）的召开标志着模式识别领域的形成。同时，国际模式识别协会（IAPR）在 1974 年的第二届国际模式识别大会上开始筹建，在 1978 年的第四届大会上正式成立。统计模式识别的主要方法，包括 Bayes 决策、概率密度估计（参数方法和非参数方法）、特征提取（变

6、换）和选择、聚类分析等，在 20 世纪 60 年代以前就已经成型。由于统计方法不能表示和分析模式的结构，70 年代以后结构和句法模式识别方法受到重视。尤其是付京荪（K.S. Fu）提出的句法结构模式识别理论在 70-80 年代受到广泛的关注。但是，句法模式识别中的基元提取和文法推断（学习）问题直到现在还没有很好地解决，因而没有太多的实际应用。 20 世纪 80 年代 Back-propagation (BP) 算法的重新发现和成功应用推动了人工神经网络研究和应用的热潮。神经网络方法与统计方法相比具有不依赖概率模型、参数自学习、泛化性能良好等优点，至今仍在模式识别中广泛应用。然而，神经网络的设计

7、和实现依赖于经验，泛化性能不能确保最优。90 年代支持向量机(SVM) 的提出吸引了模式识别界对统计学习理论和核方法(Kernel methods)的极大兴趣。与神经网络相比，支持向量机的优点是通过优化一个泛化误差界限自动确定一个最优的分类器结构，从而具有更好的泛化性能。而核函数的引入使很多传统的统计方法从线性空间推广到高维非线性空间，提高了表示和判别能力。结合多个分类器的方法从 90 年代前期开始在模式识别界盛行，后来受到模式识别界和机器学习界的共同重视。多分类器结合可以克服单个分类器的性能不足，有效提高分类的泛化性能。这个方向的主要研究问题有两个：给定一组分类器的最佳融合和具有互补性的分

8、类器组的设计。其中一种方法，Boosting，现已得到广泛应用，被认为是性能最好的分类方法。进入 21 世纪，模式识别研究的趋势可以概括为以下四个特点。一是 Bayes 学习理论越来越多地用来解决具体的模式识别和模型选择问题，产生了优异的分类性能11。二是传统的问题，如概率密度估计、特征选择、聚类等不断受到新的关注，新的方法或改进/混合的方法不断提出。三是模式识别领域和机器学习领域的相互渗透越来越明显，如特征提取和选择、分类、聚类、半监督学习等问题成为二者共同关注的热点。四是由于理论、方法和性能的进步，模式识别系统开始大规模地用于现实生活，如车牌识别、手写字符识别、生物特征识别等。 3. 模

9、式识别研究现状 3.1 模式识别系统和方法概述模式识别过程包括以下几个步骤：信号预处理、模式分割、特征提取、模式分类、上下文后处理。预处理通过消除信号/图像/ 视频中的噪声来改善模式和背景间的可分离性；模式分割是将对象模式从背景分离或将多个模式分开的过程；特征提取是从模式中提取表示该模式结构或性质的特征并用一个数据结构（通常为一个多维特征矢量）来表示；在特征表示基础上，分类器将模式判别为属于某个类别或赋予其属于某些类别的概率；后处理则是利用对象模式与周围模式的相关性验证模式类别的过程。模式识别系统中预处理、特征提取（这里指特征度量的计算，即特征生成）和后处理的方法依赖于应用领域的知识

10、。广义的特征提取包括特征生成、特征选择和特征变换（维数削减）两个过程和分类器设计一样，需要在一个样本集上进行学习（训练）：在训练样本上确定选用哪些特征、特征变换的权值、分类器的结构和参数。由于句法和结构模式识别方法是建立在完全不同于特征矢量的模式表示基础上且还没有得到广泛应用，本文与 Jain 等人一样，主要关注统计模式识别（广义地，包括神经网络、支持向量机多分类器系统等）的进展。模式分类可以在概率密度估计的基础上计算后验概率密度，也可以不需要概率密度而直接近似估计后验概率或鉴别函数（直接划分特征空间）。基于概率密度估计的分类器被称为生成模型(Generative model)，如

11、高斯密度分类器、Bayes 网络等；基于特征空间划分的分类器又被称为判别模型（Discriminative model），如神经网络、支持向量机等。生成模型每一类的参数在一类的“特征提取”在很多时候就是指特征变换或维数削减，有时候也指从模式信号计算特征度量的过程（特征生成）。这就需要根据语言的上下文来判断它的意思。训练样本上分别估计，当参数模型符合样本的实际分布或训练样本数比较少时，生成模型的分类性能优良。判别模型在训练中直接调整分类边界，以使不同类别的样本尽可能分开，在训练样本数较多时能产生很好的泛化性能。但是，判别模型在训练时每一类参数的估计要同时考虑所有类别的样本，因而训练的计算量

12、较大。 3.2 概率密度估计概率密度估计和聚类一样，是一个非监督学习过程。研究概率密度估计主要有三个意义：分类、聚类（分割）、异常点监测(Novelty detection)。在估计每个类别概率密度函数的基础上，可以用 Bayes 决策规则来分类。概率密度模型经常采用高斯混合密度模型(Gaussian mixture model, GMM)，其中每个密度成分可以看作是一个聚类。异常点监测又称为一类分类(One-class classification)，由于只有一类模式的训练样本，在建立这类模式的概率密度模型的基础上，根据相对于该模型的似然度来判断异常模式。高斯混合密度估计常用的 Exp

13、ectation-Maximization (EM)算法被普遍认为存在三个问题：估计过程易陷于局部极值点，估计结果依赖于初始化值，不能自动确定密度成分的个数。对于成分个数的确定，提出了一系列的模型选择准则，如 Bayes 准则、最小描述长度 (MDL)、Akaike Information Criterion (AIC)、最小消息长度(MML) 等。概率密度估计的另一种新方法是稀疏核函数描述（支持向量描述）。Scholkopf 等人采用类似支持向量机的方法，用一个核特征空间的超平面将样本分为两类，使超平面外的样本数不超过一个事先给定的比例。该超平面的函数是一个样本子集（支持向量）的核函数

14、的加权平均，可以像支持向量机那样用二次规划算法求得。Tax 和 Duin 的方法是用核空间的一个球面来区分区域内和区域外样本，同样地可以用二次规划进行优化。3.3 特征选择特征选择和特征变换都是为了达到维数削减的目的，在降低分类器复杂度的同时可以提高分类的泛化性能。二者也经常结合起来使用，如先选择一个特征子集，然后对该子集进行变换。近年来由于适应越来越复杂（特征维数成千上万，概率密度偏离高斯分布）的分类问题的要求，不断提出新的特征选择方法，形成了新的研究热点。特征选择的方法按照特征选择过程与分类器之间的交互程度可以分为过滤式(Filter)、 Wrapper、嵌入式、混合式几种类型。过滤式

15、特征选择是完全独立于分类器的，这也是最常见的一种特征选择方式，选择过程计算量小，但是选择的特征不一定很适合分类。在 Wrapper 方法中，特征子集的性能使用一个分类器在验证样本上的正确率来衡量，这样选择的特征比较适合该分类器，但不一定适合其他的分类器。由于在特征选择过程中要评价很多特征子集（子集的数量呈指数级增长），即使采用顺序前向搜索，Wrapper 的计算量都是很大的，只适合特征维数不太高的情况。Wrapper 的另一个问题是当训练样本较少时会造成过拟合，泛化性能变差。特征选择领域大部分的研究工作都集中在过滤式方法。模式识别领域早期的工作多把关注点放在搜索策略上，特征子集评价准则多采

16、用基于高斯密度假设的距离准则，如 Fisher 准则、Mahalanobis 距离等。其实，特征子集的评价准则更为重要，当准则较好地衡量特征子集的可分性且比较稳定时，简单的搜索策略就能产生良好的分类性能。 3.4 特征变换特征变换也常被称为特征提取，指从原始信号经过变换得到特征量的过程。传统的线性变换方法主要有主成分分析(PCA)和线性鉴别分析(LDA)，后者又叫 Fisher 鉴别分析(FDA)。LDA 的子空间学习是有监督的，目的是使子空间中类间离散度(Sb) 和类内离散度(Sw)的行列式之比达到最大。LDA 假设各类样本服从高斯分布且不同类的协方差矩阵相同，而且所有样本在总体上服从高斯

17、分布。另外，LDA 提取的特征个数受到类别数的限制，而当训练样本数相对特征维数较小时，Sw 为奇异，会带来很多计算上的问题。由于非高斯分布、小样本等问题的存在，特征变换也是近年来研究的一个热点，这方面的工作可以分为以下几个方向：(1)针对小样本的线性特征提取方法； (2)类内协方差矩阵不同时的异方差 (Heteroscedastic)鉴别分析；(3) 非高斯分布下的特征提取方法；(4) 局部空间特性保持的特征提取方法；(5)非线性特征提取方法；(6)二维模式特征提取方法。局部性保持特征提取方法借鉴了流形学习（如 LLE 和 Isomap）的思想，目的是在子空间中保持样本点之间的相邻关系。

18、流形学习的问题是只对训练样本进行投影，要推广到测试样本就需要用一个参数模型或回归网络来表示投影的过程。He 等人提出的局部性保持投影(LPP)方法通过优化一个局部性保持准则来估计投影矢量，可转换为矩阵本征值分解问题。Yan 等人提出一种基于样本邻近关系分析的特征提取的统一框架，称为嵌入图(Embedded graph)，并在此基础上提出一种新的鉴别分析方法。 LPP 是一种非监督学习方法，被推广到监督学习和核空间。另外，Isomap 流形学习方法也被推广到监督学习用于非线性特征提取。几乎所有的线性特征投影方法都可以推广到核空间。Scholkopf 等人最先将核函数引入 PCA，提出 Ker

19、nel PCA (KPCA)方法。类似地，将核函数引入 Fisher 鉴别分析，提出了 Kernel FDA (KFDA)。对核空间中结合 PCA 降维和 FDA 特征提取进行了深入的分析并提出了有效的算法。二维模式主成分分析(2D-PCA)或鉴别分析(2D-LDA)是近年提出的一种针对图像模式的特征提取方法。这类方法直接在图像矩阵上计算协方差（离散度）矩阵。该矩阵的维数等于图像的行数或列数，计算起来简便多了。另外，矩阵投影到每个本征矢量得到一个矢量，而不是一个值，这样得到的特征值个数也远远多于 LDA。在高维图像人脸识别实验中，2D-PCA 和 2D-LDA 的分类性能分别优于 PCA 和

20、 LDA。二维变换方法实际上是基于图像行或列的变换方法，即对每一行或每一列分别投影得到特征，可以推广到基于图像块的投影。 4. 发展趋势除了上面介绍的最新研究进展，模式识别领域的前沿研究方向还有：Bayes 学习、半监督学习、弱监督学习等。Bayes 学习得到的分类器参数并不是一些固定值，而是参数的概率分布。参数的先验概率分布函数形式的选择、超参数（先验概率分布的参数）的确定在计算上是比较复杂的。在识别时，需要对分类器的参数进行随机采样，然后把很多个参数值得到的分类结果组合起来，因而识别的计算量也是很大的。近年来，基于 Bayes 学习的分类器设计取得了明显进展等，得到了优异的分类性能。但是

21、，这些方法的计算还是很复杂的，对于大类别数、大样本集的学习问题还难以实现。在大部分应用情况下，模式分类器经过训练后就固定不变，或者使用相当长一段时间才重新训练一次。在训练分类器时，样本的数量和代表性总是不够的，这就希望分类器能不断地适应新的样本而不损失体的方法，但还没有一个统一的理论框架。新增加的样本可能是没有类别标记的，因为无标记样本很容易得到，而标记过程费时费力。同时对标记样本和无标记样本进行学习的过程称为半监督学习，这是近年来机器学习领域的一个研究热点85。在标记样本比较少的情况下采用标记样本能有效提高完全监督学习的分类性能。大多数模式识别问题假设模式是与背景信号和其他模式分离的且

22、表示成一个特征矢量。实际上，模式的分割不是一件简单的事情，一个固定长度的特征矢量也不一定能最好地表示模式的特性。在实际应用问题中经常要将模式分类与分割问题统一考虑，有些模式被表示成结构性数据结构（如属性图、概率图）。这些方面出现了大量的研究工作，这里不打算细述。目前有一类广受关注的模式识别问题，识别对象是没有分割的图像，训练图像的标记是其中有没有某一类目标，而不知道目标的具体位置、大小和方位。对这种标记不足的样本进行训练和识别的方法可以统称为弱监督学习，可用于目标识别、图像检索、景物分类等。研究计算机模式识别的目的是让机器具备人的感知和认知能力，代替人完成繁重的信息处理工作。当我们把计算机

23、的模式识别能力与人的模式识别（视觉、听觉感知）能力相比，就会发现现有的模式识别方法与人的感知过程有很大区别，在性能上也相差很远，很多对人来说是轻而易举的事情对计算机来说却很难做到。这是由于目前对人的感知过程的机理和大脑结构还不是很了解，即使已经了解的部分也不容易在计算上或硬件上模拟。进一步研究人的感知机理并借鉴该机理设计新的模式识别计算模型和方法是将来的一个重要方向。 5. 总结本文围绕模式分类这个模式识别的核心问题概述了近年来在概率密度估计、特征选择和变换、分类器设计等方面的重要研究进展，并分析了最近的发展趋势。参考文献 1 F. Rosenblatt, The perceptron:

24、a probabilistic model for information storage and organization in the brain,Psychological Review, 65: 386-408, 1958. 2 N.J. Nilsson, Learning Machines, McGraw-Hill, New York, 1965. 3 A.K. Jain, R.P.W. Duin, J. Mao, Statistical pattern recognition: a review, IEEE Trans. PAMI, 22(1): 4-37, 2000. 4 R.A. Fisher, The use of multiple measurements in taxonomic problems, Annals of Eugenics, 7: 179-188,1936. 5 C.K. Chow, An optimum character recognition system using decision functions, IRE Trans. Electronic 6 沈清，汤森.模式识别导论M.长沙：国防科技大学出版社,1987 .7 戚飞虎.模式识别与图象处理M.上海：上海科学技术出版社,1998 .

展开阅读全文