模式识别期末试题.pdf-道客多多

资源描述

1、第 1 页共 26 页一、填空与选择填空（本题答案写在此试卷上， 30 分）1、模式识别系统的基本构成单元包括：模式采集、特征提取与选择和模式分类。2、统计模式识别中描述模式的方法一般使用特真矢量；句法模式识别中模式描述方法一般有串、树、网。3、聚类分析算法属于（ 1）；判别域代数界面方程法属于（ 3）。（ 1）无监督分类 (2) 有监督分类（ 3）统计模式识别方法（ 4）句法模式识别方法4、若描述模式的特征量为 0-1 二值特征量，则一般采用（ 4）进行相似性度量。（ 1）距离测度（ 2）模糊测度（ 3）相似测度（ 4）匹配测度5、下列函

2、数可以作为聚类分析中的准则函数的有（ 1）（ 3）（ 4）。（ 1）（ 2） (3) (4)6、 Fisher 线性判别函数的求解过程是将 N维特征矢量投影在（ 2）中进行。（ 1）二维空间（ 2）一维空间（ 3） N-1 维空间7、下列判别域界面方程法中只适用于线性可分情况的算法有（ 1）；线性可分、不可分都适用的有（ 3）。（ 1）感知器算法（ 2） H-K 算法（ 3）积累位势函数法8 、下列四元组中满足文法定义的有（ 1）（ 2）（ 4）。（ 1） ( A, B, 0, 1, A 01, A 0 A1 , A 1 A0 , B BA , B 0, A) （

3、 2） ( A, 0, 1, A 0, A 0 A, A) （ 3） ( S, a, b, S 00 S, S 11 S, S 00, S 11, S) （ 4） ( A, 0, 1, A 01, A 0 A1, A 1 A0, A) 9、影响层次聚类算法结果的主要因素有（计算模式距离的测度、（聚类准则、类间距离门限、预定的类别数目））。10、欧式距离具有（ 1 、 2 ）；马式距离具有（ 1、 2、 3、 4 ）。（ 1）平移不变性（ 2）旋转不变性（ 3）尺度缩放不变性（ 4）不受量纲影响的特性11、线性判别函数的正负和数值大小的几何意义是（正（负）表示样本点位于判别界面法向

4、量指向的正（负）半空间中；绝对值正比于样本点到判别界面的距离。）。12、感知器算法 1 。（ 1）只适用于线性可分的情况；（ 2）线性可分、不可分都适用。第 2 页共 26 页13、积累势函数法较之于 H-K算法的优点是（该方法可用于非线性可分情况（也可用于线性可分情况））；位势函数 K(x,x k) 与积累位势函数 K(x) 的关系为（ XxxxKxK kkk),()(）。14、在统计模式分类问题中，聂曼 - 皮尔逊判决准则主要用于（某一种判决错误较另一种判决错误更为重要）情况；最小最大判决准则主要用于（先验概率未知的）情况。15、 “特征个数越多越有利于分类”这

5、种说法正确吗？（错误）。特征选择的主要目的是（从 n 个特征中选出最有利于分类的的 m个特征（ mn ）的条件下，可以使用分支定界法以减少计算量。16、散度 Jij 越大，说明 i 类模式与 j 类模式的分布（差别越大）；当 i 类模式与 j 类模式的分布相同时， Jij= （ 0）。17、已知有限状态自动机 Af=( ， Q，， q0， F) ， =0 ， 1 ； Q=q0， q1 ；： (q0 ， 0)= q1， (q0 ，1)= q1， (q1 ， 0)=q0 ， (q1 ， 1)=q0 ； q0=q0； F=q0 。现有输入字符串： (a) 000111010

6、11， (b) 1100110011，(c) 101100111000 ， (d)0010011 ，试问，用 Af 对上述字符串进行分类的结果为（ 1:a,d; 2:b,c ）。18、影响聚类算法结果的主要因素有（）。已知类别的样本质量；分类准则；特征选取；模式相似性测度。19、模式识别中，马式距离较之于欧式距离的优点是（）。平移不变性；旋转不变性；尺度不变性；考虑了模式的分布。20、基于二次准则函数的 H-K 算法较之于感知器算法的优点是（）。可以判别问题是否线性可分；其解完全适用于非线性可分的情况；其解的适应性更好；计算量小。21、影响基本 C均值算法的主要因素有（）。样本

7、输入顺序；模式相似性测度；聚类准则；初始类心的选取。22、位势函数法的积累势函数 K(x) 的作用相当于 Bayes 判决中的（）。先验概率；后验概率；类概率密度；类概率密度与先验概率的乘积。23、在统计模式分类问题中，当先验概率未知时，可以使用（）。最小损失准则；最小最大损失准则；最小误判概率准则； N-P 判决。24、在（）情况下，用分支定界法做特征选择计算量相对较少。 Cndn,（ n 为原特征个数， d 为要选出的特征个数）；样本较多；选用的可分性判据 J 对特征数目单调不减；选用的可分性判据 J 具有可加性。第 3 页共 26 页25、散度 JD是根据（）构造的

8、可分性判据。先验概率；后验概率；类概率密度；信息熵；几何距离。26、似然函数的概型已知且为单峰，则可用（）估计该似然函数。矩估计；最大似然估计； Bayes 估计； Bayes 学习； Parzen 窗法。27、 Kn近邻元法较之 Parzen 窗法的优点是（）。所需样本数较少；稳定性较好；分辨率较高；连续性较好。28、从分类的角度讲，用 DKLT做特征提取主要利用了 DKLT的性质：（）。变换产生的新分量正交或不相关；以部分新的分量表示原矢量均方误差最小；使变换后的矢量能量更趋集中；29、一般，剪辑 k-NN 最近邻方法在（）的情况下效果较好。样本数较大；样本数较小；样本呈

9、团状分布；样本呈链状分布。30、如果以特征向量的相关系数作为模式相似性测度，则影响聚类算法结果的主要因素有（）。已知类别样本质量；分类准则；特征选取；量纲。二、 (15 分 ) 简答及证明题（ 1）影响聚类结果的主要因素有那些？（ 2）证明马氏距离是平移不变的、非奇异线性变换不变的。答：（ 1）分类准则，模式相似性测度，特征量的选择，量纲。（ 2）证明：(2 分 )(2 分 )(1 分 )设，有非奇异线性变换： (1 分 )第 4 页共 26 页(4 分 )三、 (8 分 ) 说明线性判别函数的正负和数值大小在分类中的意义并证明之。答：（ 1）（ 4 分）的绝对值正比于到

10、超平面的距离平面的方程可以写成式中。于是是平面的单位法矢量，上式可写成设是平面中的任一点，是特征空间中任一点，点到平面的距离为差矢量在上的投影的绝对值，即(1-1) 第 5 页共 26 页上式中利用了在平面中，故满足方程式 (1-1) 的分子为判别函数绝对值，上式表明，的值正比于到超平面的距离，一个特征矢量代入判别函数后所得值的绝对值越大表明该特征点距判别界面越远。（ 2）（ 4 分）的正（负）反映在超平面的正（负）侧两矢量和的数积为（ 2 分）显然，当和夹角小于时，即在指向的那个半空间中， 0；反之，当和夹角大于时，即在

11、背向的那个半空间中， 0。由于，故和同号。所以，当在指向的半空间中时，；当在背向的半空间中，。判别函数值的正负表示出特征点位于哪个半空间中，或者换句话说，表示特征点位于界面的哪一侧。五、 (12 分，每问 4 分 ) 在目标识别中，假定有农田和装甲车两种类型，类型 1和类型 2 分别代表农田和装甲车，它们的先验概率分别为 0.8 和 0.2 ，损失函数如表 1 所示。现在做了三次试验，获得三个样本的类概率密度如下： 0.3 ， 0.1 ， 0.6 ： 0.7 ， 0.8 ， 0.3 （ 1）试用贝叶斯最小误判概率准则判决三个样本各属于哪一个类型；（ 2）假定只考虑前两种判

12、决，试用贝叶斯最小风险准则判决三个样本各属于哪一类；（ 3）把拒绝判决考虑在内，重新考核三次试验的结果。表 1 类型损失判决111 4 5 1 1 1 第 6 页共 26 页解：由题可知：，，，（ 1）（ 4 分）根据贝叶斯最小误判概率准则知：，则可以任判；，则判为；，则判为；（ 2）（ 4 分）由题可知：则，判为；，判为；，判为；（ 3）（ 4 分）对于两类问题，对于样本，假设已知，有则对于第一个样本，则拒判；，则拒判；，拒判。1. 监督学习与非监督学习的区别：监督学习方法用来对数据实现分类，分类规则通过训练获得。该训练集由带分类号的数据集组成

13、，因此监督学习方法的训练过程是离线的。非监督学习方法不需要单独的离线训练过程，也没有带分类号（标号）的训练数据集，一般用来对数据集进行分析，如聚类，确定其分布的主分量等。（实例：道路图）就道路图像的分割而言，监督学习方法则先在训练用图像中获取道路象素与非道路象素集，第 7 页共 26 页进行分类器设计，然后用所设计的分类器对道路图像进行分割。使用非监督学习方法，则依据道路路面象素与非道路象素之间的聚类分析进行聚类运算，以实现道路图像的分割。2.动态聚类是指对当前聚类通过迭代运算改善聚类；分级聚类则是将样本个体，按相似度标准合并，随着相似度要求的降低实现合并。3. 线性分类器三种最优准则：

14、Fisher 准则：根据两类样本一般类内密集 , 类间分离的特点，寻找线性分类器最佳的法线向量方向，使两类样本在该方向上的投影满足类内尽可能密集，类间尽可能分开。该种度量通过类内离散矩阵 Sw 和类间离散矩阵 Sb 实现。感知准则函数：准则函数以使错分类样本到分界面距离之和最小为原则。其优点是通过错分类样本提供的信息对分类器函数进行修正，这种准则是人工神经元网络多层感知器的基础。支持向量机：基本思想是在两类线性可分条件下，所设计的分类器界面使两类之间的间隔为最大 , 它的基本出发点是使期望泛化风险尽可能小。一、试问 “ 模式 ” 与 “ 模式类 ” 的含义。如果一位姓王的先生是位老年人

15、，试问 “ 王先生 ” 和 “ 老头 ” 谁是模式，谁是模式类？答：在模式识别学科中，就 “ 模式 ” 与 “ 模式类 ” 而言，模式类是一类事物的代表，概念或典型，而 “ 模式 ”则是某一事物的具体体现，如 “ 老头 ” 是模式类，而王先生则是 “ 模式 ” ，是 “ 老头 ” 的具体化。二、试说明 Mahalanobis 距离平方的定义，到某点的 Mahalanobis 距离平方为常数的轨迹的几何意义，它与欧氏距离的区别与联系。答： Mahalanobis 距离的平方定义为：其中 x， u 为两个数据，是一个正定对称矩阵（一般为协方差矩阵）。根据定义，距某一点的 Mahalan

16、obis距离相等点的轨迹是超椭球，如果是单位矩阵，则 Mahalanobis 距离就是通常的欧氏距离。三、试说明用监督学习与非监督学习两种方法对道路图像中道路区域的划分的基本做法，以说明这两种学习方法的定义与它们间的区别。答：监督学习方法用来对数据实现分类，分类规则通过训练获得。该训练集由带分类号的数据集组成，因此监督学习方法的训练过程是离线的。非监督学习方法不需要单独的离线训练过程，也没有带分类号（标号）的训练数据集，一般用来对数据集进行分析，如聚类，确定其分布的主分量等。就道路图像的分割而言，监督学习方法则先在训练用图像中获取道路象素与非道路象素集，进行分类器设计，然后用所设计的分类器

17、对道路图像进行分割。使用非监督学习方法，则依据道路路面象素与非道路象素之间的聚类分析进行聚类运算，以实现道路图像的分割。四、试述动态聚类与分级聚类这两种方法的原理与不同。答：动态聚类是指对当前聚类通过迭代运算改善聚类；分级聚类则是将样本个体，按相似度标准合并，随着相似度要求的降低实现合并。第 8 页共 26 页五、如果观察一个时序信号时在离散时刻序列得到的观察量序列表示为，而该时序信号的内在状态序列表示成。如果计算在给定 O 条件下出现 S 的概率，试问此概率是何种概率。如果从观察序列来估计状态序列的最大似然估计，这与 Bayes 决策中基于最小错误率的决策有什么关系。答：在给定观

18、察序列条件下分析它由某个状态序列 S 产生的概率似后验概率，写成P(S|O)，而通过 O 求对状态序列的最大似然估计 ,与贝叶斯决策的最小错误率决策相当。六、已知一组数据的协方差矩阵为，试问1 协方差矩阵中各元素的含义。2 求该数组的两个主分量。3 主分量分析或称 K-L 变换，它的最佳准则是什么？4 为什么说经主分量分析后，消除了各分量之间的相关性。答：协方差矩阵为，则1）对角元素是各分量的方差，非对角元素是各分量之间的协方差。2）主分量，通过求协方差矩阵的特征值，用得，则，相应的特征向量为：，对应特征向量为，对应。这两个特征向量即为主分量。3） K-L 变换的最佳准

19、则为：对一组数据进行按一组正交基分解，在只取相同数量分量的条件下，以均方误差计算截尾误差最小。4）在经主分量分解后，协方差矩阵成为对角矩阵，因而各主分量间相关消除。七、试说明以下问题求解是基于监督学习或是非监督学习：1. 求数据集的主分量2. 汉字识别3. 自组织特征映射4. CT 图像的分割答： 1、求数据集的主分量是非监督学习方法；2、汉字识别对待识别字符加上相应类别号有监督学习方法；3、自组织特征映射将高维数组按保留近似度向低维映射非监督学习；4、 CT 图像分割按数据自然分布聚类非监督学习方法；八、试列举线性分类器中最著名的三种最佳准则以及它们各自的原理。答：线性分

20、类器三种最优准则：Fisher 准则：根据两类样本一般类内密集 , 类间分离的特点，寻找线性分类器最佳的法线向量方向，使两类样本在该方向上的投影满足类内尽可能密集，类间尽可能分开。第 9 页共 26 页该种度量通过类内离散矩阵 Sw 和类间离散矩阵 Sb 实现。感知准则函数：准则函数以使错分类样本到分界面距离之和最小为原则。其优点是通过错分类样本提供的信息对分类器函数进行修正，这种准则是人工神经元网络多层感知器的基础。支持向量机：基本思想是在两类线性可分条件下，所设计的分类器界面使两类之间的间隔为最大 , 它的基本出发点是使期望泛化风险尽可能小。九、在一两维特征空间，两类决

21、策域由两条直线 H1 和 H2 分界，其中而包含 H1 与 H2 的锐角部分为第一类，其余为第二类。试求：1用一双层感知器构造该分类器2用凹函数的并构造该分类器答：按题意要求1） H1 与 H2 将空间划分成四个部分，按使 H1 与 H2 大于零与小于零表示成四个区域，而第一类属于 ( )区域，为方便起见，令则第一类在 ( )区域。用双层感知器，神经元用域值，则在第一类样本输入时，两隐层结点的输出均为 1，其余则分别为 ( )， () ， ( ), 故可按图设置域值。第 10 页共 26 页2）用凹函数的并表示：或表示成，如，则，否则十、设有两类正态分布的样本基于

22、最小错误率的贝叶斯决策分界面，分别为 X 2=0，以及 X 1=3，其中两类的协方差矩阵，先验概率相等，并且有，。试求：以及。答：设待求，待求由于，先验概率相等。则基于最小错误率的 Bayes决策规则，在两类决策面分界面上的样本 X 应满足（ 1）其中按题意，（注：为方便起见，在下面计算中先去掉系数 4/3）。按题意分界面由 x1=3 及 x2=0 两条直线构成，则分界面方程为(2) 对（ 1）式进行分解有第 11 页共 26 页得（ 3）由（ 3）式第一项得（ 4）将（ 4）式与（ 2）式对比可知a=1,c=1 又由 c=1 与，得 b2=1/4， b 有两种可能，

23、即 b=1/2 或 b=-1/2，如果 b=1/2，则表明，此时分界面方程应为线性，与题意不符，只有 b=-1/2 则（ 4）式为： 2X1X2 （ 5）将相应结果带入（ 3）式第二项有（ 6）则结合（ 5）（ 2）应有，则（ 7）解得，由得第 12 页共 26 页九、证明在正定或半正定时， Mahalanobis 距离 r 符合距离定义的三个条件，即（ 1） r(a,b)=r(b,a) （ 2）当且仅当 a=b 时，有 r(a,b)=0 （ 3） r(a,c) r(a,b)+r(b,c)证明：(1) 根据定义(2) 由于为对称阵，故可以分解为，其中，且所有特征值大于等

24、于零。可以认为这就变为了传统意义上的欧氏距离，可以由欧氏距离满足的性质直接证明本命题。十、对一副道路图像，希望把道路部分划分出来，可以采用以下两种方法：1在该图像中分别在道路部分与非道路部分画出一个窗口，把在这两个窗口中的象素数据作为训练集，用 Fisher 准则方法求得分类器参数，再用该分类器对整幅图进行分类。2将整幅图的每个象素的属性记录在一张数据表中，然后用某种方法将这些数据按它们的自然分布状况划分成两类。因此每个象素就分别得到相应的类别号，从而实现了道路图像的分割。试问以上两种方法哪一种是监督学习，哪个是非监督学习？答：第一种方法中标记了两类样本的标号，需要人手工干预训练过程，

25、属于监督学习方法；第二种方法只是依照数据的自然分布，把它们划分成两类，属于非监督学习方法。十一、已知有两类数据 ,分别为试求：该组数据的类内及类间离散矩阵及。第 13 页共 26 页答：第一类的均值向量为十二、设一个二维空间中的两类样本服从正态分布，其参数分别为：，，先验概率，试证明：其基于最小错误率的贝叶斯决策分界面方程为一圆，并求其方程。证明：先验概率相等条件下，基于最小错误率贝叶斯决策的分界面上两类条件概率密度函数相等。因此有：化简为，是一个圆的方程。十三、试分析五种常用决策规则思想方法的异同。第 14 页共 26 页答、五种常用决策是：1. 基于最小错误率的贝

26、叶斯决策，利用概率论中的贝叶斯公式，得出使得错误率最小的分类规则。2. 基于最小风险的贝叶斯决策，引入了损失函数，得出使决策风险最小的分类。当在0 1 损失函数条件下，基于最小风险的贝叶斯决策变成基于最小错误率的贝叶斯决策。3. 在限定一类错误率条件下使另一类错误率最小的两类别决策。4. 最大最小决策：类先验概率未知，考察先验概率变化对错误率的影响，找出使最小贝叶斯奉献最大的先验概率，以这种最坏情况设计分类器。5. 序贯分类方法，除了考虑分类造成的损失外，还考虑特征获取造成的代价，先用一部分特征分类，然后逐步加入性特征以减少分类损失，同时平衡总的损失，以求得最有效益。十四、假设在某个地

27、区细胞识别中正常（ w1）和异常（ w2）两类先验概率分别为 P(w1)=0.9，P(w2)=0.1，现有一待识别的细胞，其观察值为 x，从类条件概率密度分布曲线上查得 2.0)( 1wxP ， 4.0)( 2wxP ，并且已知 011 ， 612 ， 121 ， 022试对该细胞 x 用一下两种方法进行分类：1. 基于最小错误率的贝叶斯决策；2. 基于最小风险的贝叶斯决策；请分析两种结果的异同及原因。答： 1. 2. 第 15 页共 26 页十五、既然有线性判别函数，为什么还要引进非线性判别函数？试分析由 “线性判别函数”向“非线性判别函数”推广的思想和方法。答：实际中有很多

28、模式识别问题并不是线性可分的，这时就需要采用非线性分类器，比如当两类样本分不具有多峰性质并互相交错时，简单的线性判别函数往往会带来较大的分类错误。这时，树分类器作为一种分段线性分类器，常常能有效地应用于这种情况。十六、 1. 什么是特征选择？2. 什么是 Fisher 线性判别？答： 1. 特征选择就是从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的。2. Fisher 线性判别：可以考虑把 d 维空间的样本投影到一条直线上，形成一维空间，第 16 页共 26 页即把维数压缩到一维，这在数学上容易办到，然而，即使样本在 d 维空间里形成若干紧凑的互相分得开的集群，如果把它们投影

29、到一条任意的直线上，也可能使得几类样本混在一起而变得无法识别。但是在一般情况下，总可以找到某个方向，使得在这个方向的直线上，样本的投影能分开得最好。问题是如何根据实际情况找到这条最好的、最易于分类的投影线，这就是 Fisher 算法所要解决的基本问题。十七、写出两类和多类情况下最小风险贝叶斯决策判别函数和决策面方程。十八、请论述模式识别系统的主要组成部分及其设计流程，并简述各组成部分中常用方法的主要思想。信息获取：通过测量、采样和量化，可以用矩阵或向量表示二维图像或以为波形。预处理：去除噪声，加强有用的信息，并对输入测量仪器或其他因素造成的退化现象进数据获取预处理特征

30、提取与选择分类决策分类器设计信号空间特征空间第 17 页共 26 页行复原。特征选择和提取：为了有效地实现分类识别，就要对原始数据进行变换，得到最能反映分类本质的特征。分类决策：在特征空间中用统计方法把识别对象归为某一类。十九、有两类样本集Tx 0,0,011 ，Tx 0,0,121 ，Tx 1,0,131 ，Tx 0,1,141Tx 1,0,012 ，Tx 0,1,022 ，Tx 1,1,032 ，Tx 1,1,1421. 用 K-L 变换求其二维特征空间，并求出其特征空间的坐标轴；2. 使用 Fisher 线性判别方法给出这两类样本的分类面。第 18 页共

31、 26 页二十、定性说明基于参数方法和非参数方法的概率密度估计有什么区别？答：基于参数方法：是由已知类别的样本集对总体分布的某些参数进行统计推断非参数方法：已知样本所属类别，但未知总体概率密度函数形式二十一、答：第 19 页共 26 页二十二、简述支持向量机的基本思想。答：SVM 从线性可分情况下的最优分类面发展而来。最优分类面就是要求分类线不但能将两类正确分开 (训练错误率为 0)，且使分类间隔最大。SVM 考虑寻找一个满足分类要求的超平面，并且使训练集中的点距离分类面尽可能的远，也就是寻找一个分类面使它两侧的空白区域 (margin)最大。过两类样本中离分类面最近的点，且平行于

32、最优分类面的超平面上 H1， H2 的训练样本就叫支持向量。二十三、对于两类问题，假定 ),()( iii NwxP ， 2,1i ， x为 d 维特征向量请给出以下三种情况下的贝叶斯判别函数，并说明各有什么特点：1. 212. 21第 20 页共 26 页3. I221 ， I 为单位矩阵答：1. 212. 2111( ) ( ) ( ) ln ( )2ti i i ig x x x P1 101; ln ( )2ti i i i i iw w P0( )ti i ig x w x w0( ) 0tw x x 1( )i jw).()()( )(/)(ln)(21 10 jijitjij

33、ijiPPx第 21 页共 26 页判别边界仍是一条直线，但不垂直于均值的连线。3. I22102 21; ln ( )2tii i i i iw w P2( ) ( )( ) ln ( )2ti ii ix xg x P2( 2 )( ) ln ( )2t ti i ii ix x xg x P0( )ti i ig x w x w第 22 页共 26 页判别边界是一条直线，且垂直于均值的连线。二十四、设两个家庭，每家 3-5 人，选每个人的一张照片，共 8 张，混放在一起，将照片两两对照，得出描述其“相似程度”的模糊关系矩阵。要求按相似程度聚类，希望把二个家庭分开。0( )ti i

34、ig x w x w0( ) 0tw x x)()( )(ln)(21 220 jijijiji PPxi jw02 21; ln ( )2tii i i i iw w P2 2 2 21 1ln ( ) ln ( )2 2ttjt tii i i j j jx P x P判决平面： ( ) ( )i jg x g xr ij 1 2 3 4 5 6 7 8 1 1 2 0 1 3 0 0 1 4 0 0.8 0 1 5 0.5 0 0.2 0 1 6 0 0.8 0 0.4 0 1 7 0.4 0.2 0.2 0 0.8 0 1 8 0 0.5 0.2 0 0 0.8 0 1 第 23 页

35、共 26 页模式识别期末复习1 似然比决策准则为：若 1 22 1( ) ( )( )( ) ( )p Plp Pxxx，则 1x ；若 1 22 1( ) ( )( )( ) ( )p Plp Pxxx，则 2x。负对数似然比为 ( ) ln ( )h lx x ，当 ( )ip x 是均值向量为 i 和协方差矩阵为 1 2 的正态分布时：试推导出 ( )h x ，并指出其决策面规则；分析这种情况下的决策面类型。解： 11 1 112 21 1( ) exp2(2 )Tdp x x x ；12 2 212 21 1( ) exp2(2 )Tdp x x x两边取自然对数11 1

36、 11 1ln ( ) ln 2 ln2 2 2T dp x x x ；12 2 21 1ln ( ) ln 2 ln2 2 2T dp x x x2 11 11 1 2 21 1 1 1 1 11 1 1 2 2 21 1 1 11 2 1 1 2 21 2 10 201( ) ln ( ) ln ( ) ln ( )1 12 21 1 1 12 2 2 21 1( )2 20T TT T T T T TT T T Ti ih l p pw wwTx x x xx x x xx x x x x xx += w w xw 10 12 Ti i i似然比决策准则为：若 1 22 1( ) (

37、)( )( ) ( )p Plp Pxxx，则 1x ；若 1 22 1( ) ( )( )( ) ( )p Plp Pxxx，则 2x即若 1 2( ) ln ( ) ln ( )h P Px ，则 1x ；若 1 2( ) ln ( ) ln ( )h P Px ，则 2x 由上式所决定的决策面为超平面。2 设在一维特征空间中两类样本服从正态分布， 1 2 1， 1 0 ， 2 3，两类先验概率之比 12( ) e( )PP，试求按基于最小错误率贝叶斯决策原则的决策分界面的 x值。解：由于按基于最小错误率的贝叶斯决策，则分界面上的点服从第 24 页共 26 页1 1 2 2

38、11 2 1 222 22 2( ) ( ) ( ) ( )( )( ) ( ) ( ) e ( )( )1 1exp 1 exp ( 3)2 21 1 111 ( 3)2 2 6p P p PPp p p pPx xx x xx xx x x x3 对两类问题，若损失函数； 11 22 0 ， 12 0 ， 21 0 ，试求基于最小风险贝叶斯决策分界面处的两类错误率1 1( ) 1 ( )xP e P x 、2 2( ) 1 ( )xP e P x 与 12 、 21 的关系解：由于在基于最小风险贝叶斯决策分界面处有1 11 1 12 2 12 2 2 21 1 22 2 21 11 2 1

39、2 2 21 1( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( )R P P P R P P PR R P Px x x x x x x xx x x x而在两类问题中，11 2( ) 1 ( ) ( )xP e P x P x ,22 1( ) 1 ( ) ( )xP e P x P x 故122112( )( )xxP eP e4 设一个二维空间中的两类样本服从正态分布，其参数分别为 1 (1， 0)T ， 1 1 00 1 ， 2 ( 1， 0)T， 2 2 00 2，，先验概率 1 2( ) ( )P P 。试证明其基于最小错误率的贝叶

40、斯决策分界面方程为一圆，并求其方程。证明：先验概率相等条件下，基于最小错误率贝叶斯决策的分界面上两类条件概率密度函数相等。因此有：1 11 1 1 1 2 2 2 22 2 2 21 2 1 21 1 1 1ln ln2 2 2 21 1( 1) ( 1) ln 42 2T Tx x x xx x x x化简为 2 21 2( 3) 8 2ln 4x x ，是一个圆的方程5 对两类问题，若损失函数； 11 22 0 ， 12 0 ， 21 0，试求基于最小风险贝叶斯决策分界面处的两类错误率11( ) 1 ( )xP e P x 、22( ) 1 ( )xP e P x 与 12 、 2

41、1 的关系。解：由于在基于最小风险贝叶斯决策分界面处有1 11 1 12 2 12 2 2 21 1 22 2 21 11 2 12 2 21 1( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( )R P P P R P P PR R P Px x x x x x x xx x x x而在两类问题中，1 1 2( ) 1 ( ) ( )xP e P x P x ,2 2 1( ) 1 ( ) ( )xP e P x P x 故 122112( )( )xxP eP e6 （ 1）指出从 X 到超平面 0( ) 0Tg wX W X 的距离 ( )

42、g XW 是在 ( ) 0qg X 的约束条件下，使 qX X达到极小的解； X 在超平面上的投影是 2( )q g XX X WW。（ 2）对于二维线性判别函数 1 2( ) 2 2g x xX ，将判别函数写成 0( ) Tg wX W X 的形式，并画出( ) 0g X 的几何图形；同时将其影射成增广齐次线性判别函数 ( ) Tg X A Y 。（ 3）为什么说近邻法的分类器是线性分类器，试以以下样本数据集说明，并画出用近邻法得到的分类器。第一类样本： (1， 0) ， (0 ， 1) ；第 25 页共 26 页第二类样本： (0 ，1) ， ( 1， 0) 。解：（ 1） (

43、) 0qg X 表明 qX 在超平面 0( ) 0Tg wX W X 上，当 qX X 达到极小时， qX 应是 X 在超平面 0( ) 0Tg wX W X 上的投影。那么p WX X W 0 0( )T TT Tp pg w wW W W W WX W X W X WW W W 则( )g XW即qX X 的极小解。p WX X W 、( )g XW则 X 在超平面上的投影是 2( )q g XX X WW。（ 2）这里 21W ， 0 2w ；若将其影射成增广齐次线性判别函数 ( )Tg X A Y 则221A ， 121xxY 。（ 3）近邻法分类器的每条分界线必然由两个分别属于

44、两类的样本点决定，故一定是线性的。这些分界面拼接起来，就得到了分段线性的近邻法分类器。本题的分类器如图所示。2A (1,0)1A (0,1)( 1,0)2B(0, 1)1B7 考虑基于具有先验知识 1 2( ) ( ) 0.5P P 和分布 1 3 2 0 2 3( )0 xp x其它和23 2 1 3 1( )0 xp x其它的样本的分类器。（ 1）在这种情况下，求 Bayes 错误率；（ 2）求按最近邻法决策的渐近平均错误率。解：1 211 1, 00, 3 ( ) ( ) 1 1 2 1 1 2( ) ( ) , ( ) ,2 3 3 2 3 3 ( ) (

45、 )2 0, 1, 13 i ii ci iixp PP P x P xp Pxxx x xx其它其它第 26 页共 26 页13 1, 04 3 3 1 2,( ) ( ) ( ) ( ) 2 3 3 3 2, 14 3 0,ci iixxp p P pxx x x其它11 , 031 1 2,( ) 2 3 3 2 1, 13 0,mxxPxx其它2313222 311 31 0, 03 1 1 2, 3 1( ) 1 ( ) ( ) ( ) 0.252 3 3 2 220, 1 3 1,3 11 ( ) ( ) 1 0.252 2miixxP e P P P e p d dxP P p

46、 d dx x x x x xx x x x其它8 考虑一个对两类二维正态分布的样本进行分类的 Bayes分类器，设 1 21 00 1， 1 01， 2 20，而且 1( ) 0.25P ， 2( ) 0.75P 。（ 1）分别求出两类判别函数的表达式 1( )g x 与 2 ( )g x ；（已知 1ln ( ) 1.39P ， 2ln ( ) 0.29P ）（ 2）求出两类样本之间的决策面方程，并根据该方程决定样本 01， 21的模式类别。解：（ 1）两类判别函数的表达式111 1( ) ln 2 ln ln ( )2 2 21 1ln 2 ln ln ( )2 2 2Ti i

47、 i i i iTi i idg Pd Px x xx x11( ) ln ( )2Ti i i ig Px x x21 21 1 1 1 1 21 1( ) ln ( ) 1 1.392 2Tg P x xx x x21 22 2 2 2 1 21 1( ) ln ( ) 2 0.292 2Tg P x xx x x（ 2）两类样本之间的决策面方程2 22 21 2 1 2 1 21 2 1 21 1( ) ( ) 2 1 1.39 0.292 21 14 4 2 1 1.1 2 0.42 2g g x x x xx x x xx x01x ， 1 2 1 2 1( ) ( ) 2 0.4 1.4 0 g g x x xx x21x ， 1 2 1 2 2( ) ( ) 2 0.4 2.6 0 g g x x xx x

展开阅读全文