收藏 分享(赏)

模式识别.doc

上传人:gnk289057 文档编号:9021499 上传时间:2019-07-20 格式:DOC 页数:11 大小:1.13MB
下载 相关 举报
模式识别.doc_第1页
第1页 / 共11页
模式识别.doc_第2页
第2页 / 共11页
模式识别.doc_第3页
第3页 / 共11页
模式识别.doc_第4页
第4页 / 共11页
模式识别.doc_第5页
第5页 / 共11页
点击查看更多>>
资源描述

1、11、概念解释:监督模式识别与非监督模式识别1.监督模式识别:有一个已知样本集(集合中每个样本的类别已知, )作为训练样本集,通过挖掘先验已知信息来指导设计分类器,这种情况下建立分类器的问题属于监督学习问题,称作监督模式识别。2.非监督模式识别:没有已知类别标签的训练数据可用,通过挖掘样本中潜在的相似性分类。这种学习过程称为非监督模式识别。在统计中常被称作聚类,所得到的类别也称作聚类。由于没有已知类别标签的训练数据,在没有额外信息的情况下,采用不同的方法或不同的假定可能得到不同的结果,聚类结果仅是数学上的划分,对应的实际问题要结合更多专业知识进行解释。2、聚类分析的基本思想;C-均值动态聚类算

2、法的思想及步骤。1.聚类分析的基本思想:聚类分析为无监督分类。1假设:对象集客观存在着若干个自然类;每个自然类中个体的某些属性具有较强的相似性。2原理:将给定模式分成若干组,组内的模式是相似的;组间各模式差别较大。3方法:a.根据待分类模式的属性或特征的相似程度进行分类,相似的模式归为一类,不相似的模式划到不同的类中,将待分类的模式或集分成若干个互不重叠的子集。b.定义适当的准则函数、运用有关的数学工具、或利用有关统计的概念和原理进行分类。2.C-均值思想:1条件及约定:设待分类模式的特征矢量集为 ,类的数目 C 是事先取,.12xN定的。2算法思想:取定 C 个类别、选取 C 个初始聚类中心

3、,按最少距离原则,将各模式分配到 C 类中的某一类,之后不断地计算类心和调整各模式的类别,最终使各模式到其判属类别中心的距离平方之和最小。3.原理步骤:a.任选 c 个模式的特征矢量作为初始聚类中心: 。0012,.,k=CZ令b.将待分类模式的特征矢量集 中的模式,逐个按最小距离原则分化给 c,.12xN类中的某一类,即若 ,则 ,式中, 表示min,.kkdijilxiklkdij和 的中心 的距离。上角标表示迭代次数,于是产生新聚类xikjZj。1,2.j cc.计算重新分类后的各类心, 。11,2,.kZxj iknijjc2d.若 ,则结束,否则 k=k+1,转到 b 重新开始。1k

4、Zjj3、说明线性判别函数的正负及数值大小在分类中的意义并证明。注意图的画法。1.n 维特征空间 中,两类问题的线性判别界面方程为: ;判别函数为nX001xn。其表示一超平面。01xd2.性质:A.系数矢量 是该平面的法矢量。证明如下:,.,2n证明:设点 在判别界面中,所以两者均满足界面方程:1x;00n;21x上述两式一减得: ,所以两者垂直。而差矢量在判别界面中。1200x由于上述两点为超平面中任意两点,所以成立。B.判别函数 的绝对值正比于 到超平面 的距离。证明如下:d0dx证明:超平面的方程可以改写成:01n设超平面的单位法矢量 ;则上式变为 ;0n0x设 为超平面中的任意一点,

5、 为特征空间 中任意一点,则 到超平面的距离为差矢pxnXx量 在 上的投影的绝对值。即:xn3001 10dnxpnpxxndx所以成立。C.判别函数值的正负表示出特征点位于哪个半空间中。证明如下:证明:由性质二中得知:; 01cos,xnnxpxpnxp所以:当 和 的夹角小于 时,即 在 指向的那个半区间,9x。cos,0nxp反之,当 和 的夹角大于 时,即 在 背向的那个半区间,0xn。cos,nxp由于 所以 同号,001nxpxn与即 在 指向的那个半区间, 。x在 背向的那个半区间 。n01xn4、Fisher 线性判别分析的思想和定量的推导过程。1.Fishier 准则:根据

6、两类样本一般类内密集、类间分里的特点,寻找线性分类器最佳的法线向量方向,使两类样本在该方向上的投影满足类内尽可能密集、类间尽可能分开。2.Fisher 线性判别分析的思想:通过寻找一个投影方向(线性变换、线性组合) ,将高维问题降低到一维问题来解决,并且要求变换后的一维数据具有性质:同类样本尽可能聚集在一起,不同类样本尽可能的远离。3.方法:求权矢量 求满足上述目标的投影轴的方向 解题过程中将用 代替 和在一维 0u空间中确定判别准则。4.判别函数的一般形式:12101. ;Tnndxxx此注 处 为 矩 阵 。45.求解准则函数:设定给定 n 维训练模式 ,其中有 和 个模式分属 类和 类,

7、分别12,.nx1N21W2记作 和 。1jx2j各类模式均值矢量: ;iijimx类内离差阵: ;i iiWjijiSm总的类内离差阵: ;12WS类间离差阵: ;BSm作如下变换:N 维矢量 ,在以矢量 为方向的轴上进行投影: ;xuiijjyux变换后在一维 y 空间中:均值: ;A1;1.2i iij jijiimxmN类内离差度: ;A22 i ii iWjijiWj jSyuuS总的类内离差阵: ;122WS类间离散度: ;ABBSmu在投影后,类内离差度越少越好,类间越大越好,则准则函数为:;使此式最大就好。AA1222BBF WWSJuuS6.Fisher 线性判别下的最佳投影

8、方向: maxBFuWJSu由于 的幅值不影响方向,设其分母为非零常数,最大化分子可转化为:ax.0BWstuSc5转化为拉格朗日函数的无约束极值问题 ,BWLuSuc极值处满足: ,0Lu极值解 满足SBW设 非奇异,则 ;即 .W1u1SB是 的 本 证 向 量因为: 1212Bm所以: -121212- -12=SumuuSWW ; 是 标 量 , 所 以 的 方 向有 决 定 。 所 以 取 , 即 为 最 优 投 影 方 向由于变换后的模式是一味的,因此判别界面实际上是各类模式所在轴上的一个点,所以根据训练模式确定一个阈值 ,所以 Fishier 判别准则为: ;ty 12tuxyx

9、判别阈值可取两个类心在 方向上轴的投影连线的中心作为阈值,即 。u A1tm5、以一维两类问题的分类为例,证明最小错误率 Bayes 决策等价于最大后验概率 Bayes 决策。1.概念与符号:-总概率Px-后验概率i-类条件概率,表示在类 条件下的概率密度,即类 模式 x 的概率分布密度。ix ii-先验概率,表示类 出现的先验概率,简称类 的概率。iPi i2.证明:一维样本 ,分为两类 ;x12;先验概率分别为 ;P类条件概率分别为 ;12x与根据 Bayes 公式:后验概率 。, ;1.2i iiixPx6则最大后验概率 Bayes 决策为:若 ,1122,Pxx则最小错误率 Bayes

10、 决策判决域示意图如下课件中:图中阴影面积为总的错误率 :Pe2112,xPx正确率 :Pc112/ /dd2122111122/ / / /ttexPxddPxx由 得0dt1122/PP即当上式成立时为判别门限 t,此时 最小。e即若 ;111222/,xx若 则有 Bayes 公式,分母 为常数P等价于1122/Pxx12Pxx6、以一维两类问题的分类为例,推导最小错误率【误判率】Bayes 决策的似然比形式的判决规则。证明:一维样本 ,分为两类 ;x12;先验概率分别为 ;P类条件概率分别为 均已知。12x与后验概率 ; ;12最小错误率 Bayes 决策等价于最大后验概率 Bayes

11、 决策。若 ,1122,Pxx若 则7根据 Bayes 公式:后验概率 。, ;1.2i iiiPxPx所以: ; ;12Pxx若 12则即: ; ;1122/xPx若 12x则即: ; ;212/Px若 12则可得最小错误率 Bayes 决策的似然比形式:; 。1212/PLLxPx若 12x则7、以一维两类问题的分类为例,推导最小风险【损失】Bayes 决策的似然比形式的判决规则。1 121222-xx; 则一维样本 ,分为两类 ,决策分为两类 ;12;12,决策表为:决 自然 状态策 1 21 =/ 1=/2 121 22/ijji损失函数定义:对一个实属 类的模式采用了决策 所造成的损

12、失记为: 称作i j/ijjix损失函数。平均损失或平均风险:设某一决策 ,它对特征空间中所有的样本 采取决策所造成的期望损失:x,最小风险 Bayes 决策就是求 。亦即为 最/Rxpd minR/x小。8先验概率分别为 已知;12;P类条件概率分别为 已知;2x与根据 Bayes 公式:后验概率 。, ;1.2i iiiPxPx条件风险 ;1/cjjijiijRxxRxE即: ;11212212/xxxx最小风险 Bayes 决策: ;1.2min/jjR即若 ;11 2/,Rxx则即 ;1121122212/Rxx则即: ;21121 2122/-Rxx不 妨 设 : ; ; 则由 Ba

13、yes 公式知: ;1 11222-Pxx; 则故可得: ;故成立。1 11222-; 则8、已知某一类训练样本集每一个样本都是有独立抽样实验采集的,类条件概率密度服从正态分布,以一维情况为例,推导出最大似然参数估计对未知参数【均值、方差】的估计过程及结果。证明:单变量正态分布的形式为 ;21exp2Px其中均值 与方差 均为未知参数。2即要估计的参数为: ;212,9用于估计的样本集为 ;12,.Nxx似然函数为: ;1212121,.,0NNi NiPPxL 最大似然估计是下列方程的解: ;1ln0NiiHx因为: ;212lnlixP分别对两个参数求导的: ;1221lniixPx所以最

14、大似然估计是下列方程的解:AAA12212100Nii iixx解得: 。AA1221Niiix9、最近邻决策及 K-近邻决策的思想。1.最近邻决策:1对于一个新样本,把它逐一与已知样本进行比较,找出距离最新样本最近的已知样本,以该样本的类别作为新样本的类别,这就是最近邻法。2已知样本集 ,其中,是 样本 i 的特征向量,12,.,NNSxxix是它对应的类别,设有 c 个类,即 。定义两个样本间的距离度量i ci,可用欧氏距离 。对未知样本 ,求 中与之距离最近的ijxy,ijijxyxNS样本,设为 (对应的类别为 ) ,即 ,则将 决策为 类。这 1,2.N,minjjx 种方法称为最近

15、邻决策。3最近邻法的渐进错误率 P,Bayes 错误率 ,c 为类别数,则P,即 P 最坏不会超出两倍的 ,最好有可能接近或达到 。21cP P102.K-近邻决策:1选择若干个离新样本最近的已知样本,用它们的类别投票来决定新样本的类别,习惯把参加投票的近邻样本个数记作 k,称为 K-近邻法。2设有 N 个已知样本属于 c 个类 考察新样本 在这些样本中的前 k,12,.cix个近邻,设其中有 个属于 类,则 类的判别函数就是: 决策规ikii ,12,.iigkc则为若 ,则 属于 。1,2.maxkiicggxk3k-近邻仍满足最近邻决策中的上下界关系,但随着 k 的增加,上界部分将逐渐降

16、低,当 k 趋于无穷大时,上界和下界碰到一起,K-近邻法就达到了 Bayes 错误率。10、主成分分析方法的基本原理,推导变换矩阵的组成。1.基本思想:主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。2.基本原理:1从一组特征中计算出一组按重要性从大到小排列的新特征,它们是原有特征的线性组合,并且相互之间是互不相关的。2记 为 p 个原始特征,设新特征为 是原始特征的线性组12,.x ,12,.ip合 ,为统一新

17、特征的尺度,可要求线性组合系数的模为 1,即 。1piijia ia则 ,其中 是有新特征 组成的向量, 是特征变换阵。要求解的是最优的正交Axi A变换阵 ,它使新特征 的方差达到极值。i3.变换矩阵的组成:1 =12,.pa最优的 是 的最大本征值对应的本证向量;最优的 是 的第二大本征值对应的本证向量;2变换矩阵 的各个列向量是 的正交归一化的本证向量组成的,因此 ,A 1A即其是正交矩阵。2第一个主成分: (方差最大,模为 1)11pjjax方差: ;其中 2211111DEEaxa11xE是 的 协 方 差 矩 阵 , 为 数 学 期 望 。要在约束条件 下,最大化 ,等价于求下列拉格朗日函数的数值:1a1D将其对 求导,并令它等于零,得 满足: 11;fa1a;这是 的特征方程,即 一定是 的本郑向量, 是对应的本征值。1则: 。 111Daa3第二主成分 满足与 同样的方差最大,模为 1。与 不相关。即 ;212120E将上式带入 整理得 ,因为: 且不相关的要求1piijiax210a1a等价于 ;在 和 的约束条件下最大化 ,可得 是2与 正 交 2102 2D2a的第二大本征值对应的本证向量。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报