1、模式识别(Pattern Recognition):确定一个样本的类别属性(模式类)的过程,即把某一样本归属于多个类型中的某个类型。样本(Sample):一个具体的研究(客观)对象。如患者,某人写的一个汉字,一幅图片等。模式(Pattern) :对客体(研究对象)特征的描述(定量的或结构的描述) ,是取自客观世界的某一样本的测量值的集合(或综合) 。特征(Features) :能描述模式特性的量(某一模式的测量值集合中的同一量) 。在统计模式识别方法中,通常用一个矢量 表示,称之为特征矢量,记为x。 (一个特征矢量描述一种模式)12(,)nxx模式类(Class) :具有某些 共同特性的模式的
2、集合。模式识别的三大任务模式采集:从客观世界(对象空间)到模式空间的过程称为模式采集。特征提取和特征选择:由模式空间到特征空间的变换和选择。类型判别:特征空间到类型空间所作的操作。模式识别系统的主要环节特征提取: 符号表示,如长度、波形、 。 。 。特征选择: 选择有代表性的特征,能够正确分类学习和训练:利用已知样本建立分类和识别规则分类识别: 对所获得样本按建立的分类规则进行分类识别一、 统计模式识别模式描述方法:特征向量 12(,)nxx模式判定:模式类用条件概率分布 P(X/wi)表示,m 类就有 m 个分布,然后判定未知模式属于哪一个分布。主要方法:线性、非线性分类、Bayes 决策、
3、聚类分析主要优点:1)比较成熟2)能考虑干扰噪声等影响3)识别模式基元能力强主要缺点:1)对结构复杂的模式抽取特征困难2)不能反映模式的结构特征,难以描述模式的性质3)难以从整体角度考虑识别问题二、句法模式识别模式描述方法:符号串,树,图模式判定:是一种语言,用一个文法表示一个类,m 类就有 m 个文法,然后判定未知模式遵循哪一个文法。主要方法:自动机技术、CYK 剖析算法、Early 算法、转移图法主要优点:1)识别方便,可以从简单的基元开始,由简至繁。2)能反映模式的结构特征,能描述模式的性质。3)对图象畸变的抗干扰能力较强。主要缺点:当存在干扰及噪声时,抽取特征基元困难,且易失误三、模糊
4、模式识别模式描述方法:模糊集合 A=(ua,a), (ub,b),. (un,n)模式判定:是一种集合运算。用隶属度将模糊集合划分为若干子集, m 类就有 m 个子集,然后根据择近原则分类。主要方法:模糊统计法、二元对比排序法、推理法、模糊集运算规则、模糊矩阵主要优点:由于隶属度函数作为样本与模板间相似程度的度量,故往往能反映整体的与主体的特征,从而允许样本有相当程度的干扰与畸变。主要缺点:准确合理的隶属度函数往往难以建立,故限制了它的应用。四、人工神经网络法模式描述方法:以不同活跃度表示的输入节点集(神经元)模式判定:是一个非线性动态系统。通过对样本的学习建立起记忆,然后将未知模式判决为其最
5、接近的记忆。主要方法:BP 模型、HOP 模型、高阶网主要优点:可处理一些环境信息十分复杂,背景知识不清楚,推理规则不明确的问题。允许样本有较大的缺损、畸变。主要缺点:模型在不断丰富与完善中,目前能识别的模式类还不够多。五、逻辑推理法(人工智能法)模式描述方法:字符串表示的事实模式判定:是一种布尔运算。从事实出发运用一系列规则,推理得到不同结果,m 个类就有 m 个结果。主要方法:产生式推理、语义网推理、框架推理主要优点:已建立了关于知识表示及组织,目标搜索及匹配的完整体系。对需要众多规则的推理达到识别目标确认的问题,有很好的效果。主要缺点:当样本有缺损,背景不清晰,规则不明确甚至有歧义时,效
6、果不好。特征矢量:设一个研究对象的 N 个特征量测量值分别为 ,将它们作为一个整体12,nx来考虑,让他们构成一个 N 维特征向量 ()特征空间:各种不同的特征矢量构成了 N 维特征空间。特征矢量是特征空间中的一点,随机矢量:对许多对象而言,各个特征分量都是随机变量,即许多对象的特征向量在 n 维空间中呈随机性分布,称为随机矢量。设 为随机矢量, 为确定性矢量。12(,)nX 12(,)nxx随机矢量的联合概率分布函数定义为: 12(,nFxPXxX ()随机矢量 的联合概率密度函数定义为:12,(npp 1212(,)nnnFxx 当第 i 类为 类的情况下,则他的概率分布和概率密度函数如下
7、iw(|)|)ixx1212(,|i ni n 在模式识别中,经常以类别 作为条件,在这种情况下随机矢量 的条件期望iwX矢量定义为 E|(|)dni i iXxp随机矢量 的自协方差矩阵表征各分量围绕其均值的散布情况及各分量间的相X关关系,其定义为: 2()()()d)n ijnXxpx式中 是第 i 个分量与第 j 个分量的协方差2ijE()()()(,)ijiijjiijjijijX正态分布随机矢量 的概率密度函数定义为:12,nX 112 /21/(,)(exp()()|2npxpx x正态分布随机矢量性质:分布函数完全由 和 确定u等概率密度点的轨迹为一超球面对正态分布,不相关等价于
8、独立其边缘密度和条件密度仍然是正态分布正态分布随机矢量的线性变化仍然是正态分布随机矢量聚类分析的基本思想相似的归为一类。模式相似性的度量和聚类算法。无监督分类(Unsupervised) 。特征量的类型物理量-(重量、长度、速度)次序量-(等级、技能、学识)名义量-(性别、状态、种类)分类无效时的情况1. 特征选取不当使分类无效2. 特征选取不足可能使不同类别的模式判为一类3. 特征选取过多可能无益反而有害,增加分析负担并使分析效果变差4. 量纲选取不当对分类结果会产生极大影响的问题选择什么特征?选择多少个特征?选择什么样的量纲?选择什么样的距离测度?聚类过程的基本步骤一、特征选择(featu
9、re selection)尽可能多地包含任务关心的信息二、近邻测度(proximity measure)定量测定两特征如何“相似” 或“不相似”三、聚类准则(clustering criterion)以蕴涵在数据集中类的类型为基础四、聚类算法(clustering algorithm)按近邻测度和聚类准则揭示数据集的聚类结构五、结果验证(validation of the results)常用逼近检验验证聚类结果的正确性六、结果判定(interpretation of the results)由专家用其他方法判定结果的正确性聚类的应用(四个基本方向)一、 减少数据二、假说生成三、假说检验四、基
10、于分组的预测模式相似性测度用于描述各模式之间特征的相似程度一、 距 离 测 度(差值测度)测度基础:两个矢量矢端的距离测度数值:两矢量各相应分量之差的函数。常用的距离测度有:1. 欧氏(Euclidean) 距离 1/21(x,y)()niidxy2. 绝对值距离(街坊距离或 Manhattan 距离)1,)nixy3. 切氏(Chebyshev) 距离(,)maid4. 明氏(Minkowski)距离 1/1(x,y)mniy5. 马氏距离211(,)V(x)ymiiidV马氏距离对一切非奇异线性变换都是不变的,这说明它不受特征量纲选择的影响,并且是平移不变的。V 的含义是这个矢量集的协方差
11、阵的统计量,故马氏距离加入了对特征的相关性的考虑。二、相 似 测 度测度基础:以两矢量的方向是否相近作为考虑的基础,矢量长度并不不重要。1. 角度相似系数(夹角余弦)1/2 cosx,y(xy)2. 相关系数1/2 1/2v(,)(x)y(,)D()r 3. 指数相似系数 21()3(,)exp4niii yexy三、匹 配 测 度当特征只有两个状态(0,1)时,常用匹配测度。0 表示无此特征 1 表示有此特征。故称之为二值特征。 对于给定的 x 和 y 中的某两个相应分量 xi 与 yj若 xi=1,yj=1 ,则称 xi 与 yj 是 (1-1)匹配; ;a 代表 1-1 匹配特ixy征数
12、目若 xi=0,yj=1 ,则称 xi 与 yj 是 (0-1)匹配; ;b 代表 0-1 匹配(1)iibxy特征数目若 xi=1,yj=0 ,则称 xi 与 yj 是 (1-0)匹配; ;c 代表 1-0 匹配()iic特征数目若 xi=0,yj=0 ,则称 xi 与 yj 是 (0-0)匹配。 ;e 代表 0-0(1)iiiaxy匹配特征数目1. Tanimoto 测度(,)axysxybc等于共同具有的特征数目与分别具有的特征种类总数之比。这里只考虑(1-1)匹配而 不考虑 (0-0)匹配。2. Rao 测度(,)axysxybcen(1-1)匹配特征数目和所选用的特征数目之比。3.
13、简单匹配系数 (,)mxy(1-1)匹配特征数目与(0-0)匹配特征数目之和与特征总数目之比。4. Dice 系数(,)2axyxybc(1-1 )匹配总个数与 x,y 矢量中 1 的总个数之比。5. Kulzinsky 系数(,)2axymxybc(1-1 )匹配总个数与(1-0)匹配和(0-1 )匹配总个数之比。模式类定义之 1 设特征矢量集合 S 中任意元素 与 间的距离 (距离测度)有ixjijdijdh其中 h 为给定的阀值,称集合 S 对于阀值 h 组成一模式类。类间距离测度方法两个模式类的类间距离。1 最近距离法 ,minklijjDd表示 与 之间的距离。表示两模式类中模式距离
14、测度的最小ijdikxwjl值。2 最远距离法 ,maklijijD表示 与 之间的距离。表示两模式类中模式距离测度的最大ijkxjl值。3 中间距离法 22114klkpkqpqDD其中 (模式类 L 中的特征矢量是模式类 p 和模式类 q 中特征矢lw量的集合) 。4 重心距离法 2222()pqpqkl kkpqpnnnDD其中 (模式类 L 中的特征矢量是模式类 p 和模式类 q 中特征矢lpw量的集合) 。 分别为模式类 中特征矢量的个数。,qn,pqw5 平均距离法 22,1pqijDd表示 与 之间的距离。ijdipxwjq6 离差平方和法类内离差平方和法 ()ittititxs
15、x其中 是模式类 的重心。t2pqlpqDs其中 。则lw2()()pqqqpqnDxx其中 分别为模式类 的重心。,pq,pqw2222kkkl pkqpql llnnD聚类的准则函数判别分类结果好坏的一般标准:类内距离小,类间距离大。如果聚类准则函数选择得好,聚类质量就会高。聚类准则往往是和类的定义有关的,是类的定义的某种体现。一、 类内距离准则类内距离准则函数定义为: 2()1minjncjWijjiJx其中 为待分类的模式集合, 表示将该模式();1,2;,ji jxci ()jix划分在 类中。 是分入模式类 的均值矢量。ijwjmjw分类的目标是使得 最小,这种方法也称作误差平方和
16、准则。wJ加权类内距离准则 : ()21 22()()jkicjWjjj ikxjnJdNx其中 N 为待分类模式的总数。 为分入模式类 的模式的个数。 表示类内jnjw2jd两模式间的均方距离。二、类间距离准则 1(m)()axcBjjjJ其中 为分入模式类 的模式的均值。 是待分模式的均1ijjixwjmn jw1nimN值。加权类间距离准则: 1()()maxcjWBjnJmN三、基于类内距离类间距离的准则函数分入类 的类内离差阵定义为jw()()()1 (1,2)jnjjjWijijijSxmjc总的类内离差阵定义为 (j)1,)cWjnSjcN类间离差阵定义为 1(m)cjBj类内类
17、间离差阵则为 1(x)NTiiiS可以证明 TWBS()()1 1() ()11()()11 )(0jjj nNcjjii iii jincjj jijjijjincjjjijijjjiWBxmxmNxNS 四个聚类准则, , ,11TrJ12J13TrWJS14WTJS为了得到更好的聚类效果,应该使他们的值足够大。聚类分析的算法归纳起来就是三大类:1、 按最小距离原则简单聚类方法针对具体问题确定相似性阈值,将模式到各聚类中心间的距离与阈值比较,当大于阈值时该模式就作为另一类的类心,小于阈值时按最小距离原则将其分划到某一类中。这类算法运行中模式的类别及类的中心一旦确定将不会改变。2、 按最小距
18、离原则进行两类合并的方法首先视各模式自成一类,然后将距离最小的两类合并成一类 ,不断地重复这个过程,直到成为两类为止。这类算法运行中,类心不断地修正,但模式类别一旦指定后就不再改变,就是模式一旦划为一类后就不再被分划开,这类算法也称为谱系聚类法。3、依据准则函数动态聚类方法设定一些分类的控制参数,定义一个能表征聚类结果优劣的准则函数,聚类过程就是使准则函数取极值的优化过程。算法运行中,类心不断地修正,各模式的类别的指定也不断地更改。这类方法有C 均值法、ISODATA 法等。聚类的算法一 简单聚类算法(1) 取任意一个模式特征矢量作为第一个聚类中心。例如令 类的中心1w1zx(2) 计算下一个
19、模式特征矢量 到 的距离 ,若 则建立新类2x1z21d21T,类的中心 ;否则,将 归入 类2w2zw(3) 假设已有类 ,其中心分别为 ,计算尚未1,.,wk12,.kz确定模式 到各类 中心 的距离 ,如果有ixjjz,ijd则建立新类 ,类的中心 ;否则如果 ,ijdT1k1kixmindiljj则模式 归入类 中。检查所有模式是否划分结束,如果没有结束,ixlw重复步骤 3。算法特点:这类算法的突出优点是算法简单。但聚类过程中,类的中心一旦确定将不会改变,模式一旦指定类后也不再改变。二、 最大最小距离法(1) 取任意一个模式特征矢量作为第一个聚类中心。例如令 类的中心1w1zx(2)
20、 从待分类模式特征矢量集中选距离 最远的特征矢量作为第二个类1z的中心 2z(3) 计算未被作为聚类中心的各模式特征矢量与 的距离12,z,12ijijdxz(4) 若 ,则模式特征矢量 作为第三个12main(,)l iidzlx聚类中心 ;否则,转至最后一步(6)3lzx(5) 假设已有类 ,其中心分别为 ,计算尚未12w,.,k12,.kz确定模式 到各类 中心 的距离 ,并计算出ixjjz,ijd,若 ,则模式特征矢量12man,l iikidd 12lz作为第 个聚类中心 ,然后转至步骤( 5) ;否则转至lxk1lzx步骤(6)(6) 当判断出不再有新的聚类中心产生之后,将未分类的
21、模式特征矢量按照最小距离原则分到各类中去。计算,当 则把特征矢(1,2;,)ijijdxziN minilijjd量 描述的模式划分到 类中。i lw这种算法的聚类结果与参数 以及第一个聚类心的选取有关。三、 谱系聚类法(1) 初始分类。摸个模式自成一类 ,其中 表示(0)x,i12,.NiG()kiG第 K 次合并时的第 i 类。(2) 计算各类间的距离 ,生成一个对称的距离矩阵 ,mijD()*Dkij为类的个数(初始 m=N) 。(3) 找出矩阵 中的最小元素,假设是 与 间的距离,将 与()k ()kiG()kj ()kiG合并成一类,令()kjG1,km(4) 检查类的个数,如果个数
22、大于 2,则转至步骤(2) ;否则停止。四、 动态聚类算法动态聚类算法要点1、 确定模式和聚类的距离测度。当采用欧氏距离时,是计算此模式和该类中心的欧氏距离;为能反映出类的模式分布结构,应采用马氏距离2、 确定评估聚类质量的准则函数。3、 确定模式分划及聚类合并或分裂的规则。动态聚类算法基本步骤1、 建立初始聚类中心,进行初始聚类;2、 计算模式和类的距离,调整模式的类别;3、 计算各聚类的参数,删除、合并或分裂一些聚类;4、 从初始聚类开始,运用迭代算法动态地改变模式的类别和聚类的中心使准则函数取得极值或设定的参数达到设计要求时停止。(1) C-均值法第一步:选取 C 个初始聚类中心 (0)
23、,12,.Cjjzxi第二步:计算各个模式 到各个类 的中心 的距离测度ix()kjG()kjz,选取 将模式 归入 类,12,.,.ijdNjmindiljj ix(1)klG中。第三步:根据新建的类更新聚类中心。 ,若存在(1)(1)kijkj ixGjz,则重复第二步;否则结束。()(1)kjjz当模式分布呈现类内团聚状,C-均值算法是能达到很好的聚类结果,故应用较多。C-均值算法是能使各模式到其所判属的类别中心距离(平方 )之和为最小的最佳聚类。C 的调整:作一条 C 一 J 曲线,其曲率变化的最大点对应的类数是比较接近最优的类数。在类别数未知的情况下,可使类数 C 由较小值逐步增加,
24、对于每个选定的 C 分别使用该算法。初始聚类中心的选取: 凭经验选择初始类心。 将模式随机地分成 C 类,计算每类中心,以其作为初始类心。 (最大密度) ,求以每个特征点为球心、某一正数 d0 为半径的球形域中特征点个数,这个数称为该点的密度。选取密度最大的特征点作为第一个初始类心 Z1,然后在与 Z1 大于某个距离 d 的那些特征点中选取具有“最大”密度的特征点作为第二个初始类心 Z2 ,如此进行,选取C 个初始聚类中心。 用相距最远的 C 个特征点作为初始类心。具体地讲,是按前述的最大最小距离算法求取 C 个初始聚类中心。 当 N 较大时,先随机地从 N 个模式中取出一部分模式用谱系聚类法
25、聚成 C 类,以每类的重心作为初始类心。 设已标准化的待分类模式集为 希望将它们分为 C 类。12,x, , ,12(,)iini 1()nkisumixmax()iMAXsui, ,i()MINsi()1,(2,)icsiINiN若 最接近整数 ,则把 分划至类 中,通过初始划分的类计算ijixjw类中心。用类核代替类中心:当类的分布不是球状或近似球状时,这种算法很难有较好的效果。类核可以是一个函数、一个点集或其他适当的模型。比如马式距离。(2) IOSDATA 法第一步:设定聚类分析控制参数: -预期的类数, -初始聚类CcN中心个数(可以不等于 ), -每一类中允许的最少模式数目和分裂n
26、时判定, -类内各分量分布的距离标准差上界 (分裂用), -两类中s D心间的最小距离下界(合并用) , -在每次迭代中可以合并的类的最L多对数, -允许的最多迭代次数。选定初始聚类中心 I ,12,.j cz:可随机选择待分类模式集合中的 个模式为类中心。cN第二步:按照最小距离原则将模式集 中的每一个模式分到某一ix个类中。 , 模式分入 类中。minxzilijjdilw第三步:依据 判断合并。如果类 中的模式个数 ,则取消j jn该类,取消类中心 , ,转至第二步jz1cN第四步:计算分类后的参数:各类中心、类内平均距离及总体平均距离。 计算各类的中心: 计算各类中,j2,.Nijji
27、cxjzn模式到类心的平均距离 计算各个1,1,.ijjij cxjdz模式到其类内中心的总体平均距离 1Ncjnd第五步:依据 判断停止、分裂或合并。 若迭代次数 达到,pcINpI,则转第十一步(准备停止) 若 ,则转到第六步(进I 2cC行分裂) 若 ,则转到第九步(进行合并) 若2cC,当 为奇数时转至第六步(进行分裂) ,当 为偶数2cCNpI pI时转至第九步(进行合并)第六步:计算各类类内距离的标准差矢量 。12(,)jjnj。 代表 类的类121(),.1,2.Nijkj kij cxjznjn kjjw内距离标准差的第 分量。第七步:对每一聚类求出类内距离标准差矢量 的最大分
28、量jmax,k12,.nj,.ljj ck第八步:在 中,对每一个 ,同时又满足下列条件之一:lj ljs1) (类中模式到类心的平均距离大于所有类的模式到类心的jd总体平均距离)并且 (类中模式超过阈值)2) 。(1)jn2cCN则将该类 分裂为两类, ,新类的中心 计算规则:jwcN,jz在原来的类中心 的 分量上对应加减 , ,并且使得新jzlljk01的类中心仍然在老的 类域空间且,新的类中心与 类域模式近,j jw与其他类域模式较远。当所有 进行判断过,并且进行过类分裂,lj则 ,然后转至第二步;否则转至第九步。1pI第九步:计算各类间距离 ,12,.1,.ijij ccDzNji第
29、十步:依据 进行合并判断。取出 中小于 的值,进行递增排DijD序,若个数超过 则取前 个值。对每个值,从最小的 开始合并,Lij若 没有进行过合并,则将相应的两类 合并(注意一个类,ijw,wij只能被合并一次,假如存在 ,则 不能与 合并) ,合124D42并后,新的类中心 , 。ijijznz1cN第十一步:迭代次数 ,则停止计算。否则, ,若需要pIpI调整参数,转至第一步;不需要调整参数,转至第二步。判别域代数界面方程法(有监督分类)用判别域界面方程分类的概念分类原理:不同模式对应不同特征点在空间中散部。运用已知类别的训练样本进行学习,产生若干代数界面 ,将代数空间划分成一些互不重叠
30、的子(x)0d区域。 又称判别函数。(x)0d线性可分的定义:对于来自两类的一组模式 ,如果能用一个线性判别12,.nx函数将其分为两类,则称他们是线性可分的。线性判别函数122111 2112(x,.)w.(,.,),x(,.x,)nnn ndw称为增广权矢量, 称为增广特征矢量两类处理设判别函数为 ,判别准则如下(x)d 1 20,x(x),idw多类处理方法一:两分法/iw将属于 与不属于 的模式分划开。将划分成 C 个类的问题分解为划分成 C-1iiw个类的问题。可以建立 C 个判别函数 。经过训练,使判(x)w,12,.iid别函数具有以下性质 0,()iii判决规则:对于 C 个判
31、别函数如果有 ,(x),()0,12,.kimidCmk则模式 。ikxw注意:如果存在两个及以上判别函数 ,那么无法判断 模式属于哪个()ijjx类。如果所有判别函数 ,那么无法判断 模式属于哪个类。(x)0ijdjx方法二:存在不确定区的 两分法/ijw对 C 个类中的两个类 建立一个判别函数。此函数不提供其他类的信息,需,ij要提供 个判别函数 。经过训练,(1)/2(x)w,12,.Cji1,.ijijd得到区分两类 的判别函数具有以下性质,ijw0,(x)xiijijjd判决规则:对于 个判别函数如果有(C1)/2,则模式 (所有含有 类判(x)0,ji,.0,.1ij kid i
32、iwi别的判别函数都判别为 ) 。iw注意:当不存在一个 能够满足上面的条件,则为不确定区域。方法三:没有不确定区的 两分法/ij取判定函数 。当 则 ,此时(x)(x)w)ijijijddx()0ijd(x)ijd模式属于 类。因此只需要对每一个类 建立一个判别函数 。C 类问题iwi i有 C 个判别函数。 (),12,.Ciix判决规则:若 ,则该模式属于 类。madkiikw判别函数值的大小、正负的数学意义线性判别界面方程 是一个10112(x)w,(x,.),(,.,)nnn超平面 。那么其存在一下性质:1) 系数矢量 为其法向量。w2) 判别函数 的值正比于 到超平面 的距离 。
33、。 (定(x)dx(x)0dxd(x)dw理: 所确定的 空间中的平面, 空间中任意一点 到界0umnuuiu面的距离为 ,同时 为平面的法向量)1()iuidm3) 若 等价于 ,则 位于法向量 指向的半空间;否则, 位于法1xw(x)0wx向量 背向的半空间w权空间增广特征矢量与增广权矢量是相对的。当进行样本训练时,应视为 的权,判别函数记为12(x,.,)n121(w,.,)n。若 等价于 ,则 位于法向量 指向的半空间;否则,)dw1xx)0dx位于法向量 背向的半空间。权空间为以 为坐标系的 n+1 121(,w.,)n维空间。权空间中任意一点 到界面 的距离为 。iw0x(i id
34、wx解矢量当模式根据已知类,进行训练时,判别函数记为 ,(), 。当训练模式 时,12(x,),.x,)j n 121(,.,wnw 1jxw;当训练模式 时, ,这时的 称为解矢量。0w2j0x解空间N 个训练模式将有 N 个界面(解矢量界面) ,每一个界面将权控件分成两个半空间,N 个正的半子空间的交空间是一个以原点为顶点的凸多面锥。满足( 为矢量(各训练模式,1) )的所有 都在该锥内部。解矢0|iixix w量 不是唯一的,凸多面锥包含了全部解矢量,称其为解区,解空间,解锥。w每一个训练模式都对解区提供一个约束,训练模式越多,解区的限制就越多,解区就越小,就越靠近解区的中心,解矢量 就
35、越可靠,由它构造的判别函数错分的可能性就越小。余量为了使解矢量更可靠,可以通过增加训练模式数以及引入余量 。使得b,从而达到更好的效果。引入余量后界面方程变为 ,此0xwb 0xw时权空间中任意一点 到界面 的距离为 ,而该点iw0xb1iwid到界面 的距离为 ,因此由 确定的凸面锥在i0x1iwid0xb确定的凸面锥内部,边界距离为 。引入了余量可有效地避免量测的wb误差、引入的误差以及某些算法求得的解矢量收敛于解区的边界上,从而提高了解的可靠性。Fisher 线性判别思想:将 N 维模式投影到一维空间方法:根据训练确定最佳投影方向(根据使准则函数获取最大值) ,确定判别规则假设给定已经分
36、类的训练模式集 ,分属于 C 个类 ,每12,.nx12,.cw个类中的模式集合为 , 代表某个类, 代表模式集(i),jxCijN中的某个模式。则各类的模式均值矢量 ,全部模式均值矢量()iijimxN,总的类内离差阵 ,类间离差阵1njmxN ()()1ciiWjijiiSm。1()ciBiSm(1) 确定最佳投影方向模式经过投影后 。经过投影变换后的各类的模式均值矢量 ,()()iijjyux iimu全部模式均值矢量 ,总的类内离差度 ,类间离差度 WSu。定义目标准则函数 ,确定能够使得目标准则函BSu()BFJu数取得最大值的 ,即为投影方向。 ,此时 22()()0WBBWSuS
37、u, ,由于BWuS11 ()ciWBinuSmN都为标量,我们只关心 的方向,因此将标量都置 1,得,()iinmNu,因此 Fisher 变换函数为1cWiiuS 1()ciWiySx(2) 确定判别规则根据训练模式确定阈值 , ,判别阈值可取两个类心在 方向ty,itjtwuxy u上轴的投影连线的中点作为阈值 。2ijtm两类问题中确定 权值的感知器算法w给定符合规范化(若 ,则保持不变,若 ,则 取反,保证规范化后1xw2xwx的训练集中所有模式属于同一个类)后的增广训练集 ,属于两个类12,.n12,w(1) 置步数 ,令增量 为一正的常数,赋值权值 分量为任一较小值1kw(2)
38、输入训练模式 ,计算判别函数值kx()kx(3) 调整权值 ,规则如下若 ,则 (增大判别函数值)()0kw(1)(kw若 ,则xk(4) 若 ,则 ,转(2) 。否则检验判别函数 对所有N wx能否正确分类。若正确则停止;否则令 ,转(2) 。12,.n 1k两类问题中确定 权值的梯度下降法w构造准则函数 , 的最小值 0,当且仅当 。我们的目()JkxJ0x标是,对于已经符号规范化后的增广训练集 ,寻找 使得所有12,.nxw,即对构造的准则函数 ,寻找使 取得最小值的 。0x 令 k = 1/2,求得准则函数梯度 。增广权矢量的修()sg()Jwx正迭代公式为(最速下降法:为时性能指标函
39、数 达到最小值,迭代时):(1)(xkJ(1)()sgn2(),0(),kkkkkkxxw当 为正常数时,梯度下降法与感知器算法相同。若 较小,则收敛慢,若k k较大,则会引起震荡。可使 随 变化而变化。k多类问题中感知器算法判决规则:若 ,则该模式属于 类。(x)mad(),i12,.Ckii kw算法步骤:(1) 赋初值,分别给 C 个权矢量 赋任意的初值, 选择正常数,,.iw置步数 。1k(2) 输入已知类别的增广训练模式 ,计算 C 个判别函数kx()(,2,.ikikdxw(3) 若 ,将每个判别函数 与 进行比较:l(),ikdxl()lkdx若 ,则 , ,继续比较li(1)i
40、ik1llw若 ,则 , ,跳出比较lid(iikwx()(llkx(4) 若 ,则 ,转(2) 。否则检验判别函数 对所有kN w能否正确分类。若正确则停止;否则令 ,转(2) 。12,.nx 1二次准则函数一次准则函数及其算法(如感知器算法)只适用于线性可分的情况,如果是线性不可分的,分类过程将不收敛!二次准则函数能够测试出模式样本集是否线性可分,并且对线性不可分的情况也能给出“次最优”的解。最小错分模式数目准则:对于两类问题,设已经符号规范化后的 N+1 维增广训练集 ,12,.nx如果训练模式是线性可分的,则存在权矢量 使不等式组w成立,若线性可分,不等式组有解,线性不可分,不0,12
41、,.iwxN等式无解。引入 N 维余量 ,则不等式方程组变为1(,.)nb,其中 。对 构造方差准则函0Xb212(,)NNxXxXwb数 ,当 取最小时, 都在 21()()()niiiJwbxb()Jix附近,因此,被错分的模式数目可达到最小。求 对 的梯度,ib w。()2()JXb1)伪逆法求解 w令 ,可得 ,当 存在的时候 ,()0X1()1()Xb当 不存在的时候, , 为的广义逆矩阵。1 b(X2)梯度法求解 w由于广义逆矩阵计算量比较大,因此常采用梯度下降法。由梯度可得,对于任意初值 的增广权矢量的修正迭代()()JXb (0)w公式为: ,当1()()k kkJXb时,该算
42、法使得权矢量序列 收敛于 ,该 称为 MES 解。k *为了减少计算量和存储量,可以仿照单样本修正法:由于,迭代式可以修正为1()()NkkkXwbxb。此算法通常称为 WH(WidrowHoff)算kkx法。W-H 算法有两个性质:1、 当 时,MES 解等价于 Fisher 解。12,.,.NNb2、 当 时,当样本书 ,MES 解以最小均方误差逼近,.贝叶斯判决函数 。12()()BdxPw/x3)HK 算法在之前的算法中, 为取定的常量,这将影响 的求取。HK 算法通bw过求解使 趋向于最小值的 ,来获取最佳分类器。 的迭代()Jb()bk公式为 。记误差矢量 ,若1()kk()ekX
43、,则 (当 小于 ,此时 足够大,不需要调整) ;()0e()0ixwii若 ,则 (当 小于 ,此时 太k()2()kJbekixwibi小,余量不够,加大余量 ) 。 可统一记为i。由 得到(1)()bkek 1()X。)wXwekHK 算法步骤:1、 将训练样本规范化,求 1()X2、 置初值 , ,(0)b12k3、 计算 ,wkX()()eXwbk4、 执行判断:若 各分量连续两次都为负值,没有可行解,退出;()b若 ,则输出可行解 ,退出;0ek()k否则,执行下一步5、 更新 。()b1)()be6、 ,转至步骤 3k广义线性判别函数原理:将 n 维模式特征集 映射到 m 维模式
44、特征级 ,其中ixiy, 为对应 的映射 , 为不同12,.ixxiyi 12(),.()iiimiyfxfx if的映射函数,经过映射之后的 能够线性可分。i经变化后的线性判别函数 ,其中1 1()().()()mdywfxwfxdx。12112(,.,.,mwfx典型的 )ifx(1) 为二次多项式(d12 11 1nnni ijinijwxw 变换后的特征 的维数为iy32(2) 为 次多项式()dxr10().r rdxdx,1 项0(0)1()nw, 项11idxnC, 项1212()niiidxwx21nC, 项12212()rrrnr iiiii x 1nr的项数为:()rdx1
45、()!knC变换后的特征 的维数为 -1iyr二次判别函数在 n 维特征空间中,二次判别函数的一般表示式为: 121 11()nnnkjkjnj jdxWwxxwxxw 一般的判别规则是:计算训练模式 ,11(,)j N,11Njmx1111()jjjCxm构造判别函数: 211()(dKC对未知模式: 120,()x位势函数分类法特点:( 1)可直接确定判决函数(位势函数)( 2)适用于非线性和线性可分的情况对于两类问题认为:如果 ,则 带正电荷 ;如果 ,则 带负1xw()0Kx2xwx电荷 。()0Kx定义模式位势函数 ,表示模式 在 的势场中的位势或模式 在 的势(,)j j j场中的位势。 有如下性质: ; 连续光滑;jx(,)(,)jjxx(,)j与 相距越远,位势越趋近于 0,当 ,位势最高。xj j两种模式位势函数(1) 设 是一组正交函数集,则ix 1(,)njiijKxx(2) 取关于 距离的对称函数,例如,jx2 21(,)ep,()j jj jKxKxx确定判别函数步骤设训练集 ,分属于 ,定义一个模式位势函数 。通过以