1、1999-20001.举一个实际例子说明下列分类器之一的基本思想,算法步骤和执行结果 :(1)Fisher 线性判别 (2)MSE 准则下的线性分类器(3)分段线性分类器 (4)近邻法2.简要写出 C-均值方法及模糊 C 均值方法的基本思路和算法步骤3.试举一个实际模式识别问题的例子说明在整个模式识别系统中特征选择与提取所起的作用.4.设有一个三类分类问题,我们只有其中的两类训练样本 ,同时还有一个包含三类在内的未知样本集, 试讨论如何处理此问题.5.试用 500 左右的文字简要总结本课所学内容.(交报告的同学可以不做此题)2003-20041、给了男生女生的身高体重数据【用表格给出,此处略
2、】1)请用最大似然法估计概率密度函数,然后用最小风险 Bayes 决策进行判断。请写出每一步的计算步骤结果,给出最后的判别函数。2)用 Dendrogram 方法进行聚类。给出树的结构和距离矩阵。2、解答题1)请阐述 Bayes 决策与 Fisher 线性判别的区别与联系2)请简述 C均值聚类的基本思想3、论述题现有 Jazz 和 Rock 两类音乐样本,已经分好类,并且按 mp3 格式储存。从音乐数据以外的部分,如音乐标题等无法获取分类信息。先需要设计一套软件实现两种音乐的自动划分。请简述你的方案。2004-2005一。给出了一组男生女生的身高体重数据(各十组) ,作为样本集然后给出了 6
3、组数据的测试集。给出了决策风险矩阵1。用最小风险 bayes 决策做分类器, 并分类(学号单号用身高,双号用体重) 18 分2。对测试集数据用分级聚类的方法聚类,要求写出距离矩阵和聚类树(同样单号用身高.) 12 分二。简答1。概率密度函数的参数估计和非参数估计的原理和特点。分别说明最大似然估计和 Panzen 窗法的条件和影响因素。 20 分2。 C 均值聚类和模糊 C 均值聚类的原理 20 分三。综合1。描述怎么建立一种方法对文本内容进行分类,比如分成军事,科技,教育等。描述从数据获取到特征选择到建立分类器等过程的方法等。 30 分2005-20061. 10% 简述最小错误率 Bayes
4、 分类器的原理和适用范围2. 10% 什么是非类器的错误率?如何估计?简述两类错误率的概念,以及如何控制两类错误率的影响?3. 10% 写出英文全称模式识别 似然函数 非监督学习 非参数估计SVM MLP PCA MDS(必杀!) k-NN SOM4. 10% 无邻域相互作用的 SOM 的准则函数?(记不清怎么说的了)5. 15% 学号末两位和为奇数用身高数据,为偶数用体重数据体重: 55 57 67 68 50进行平均距离分级聚类,给出分类树,给出每级的距离矩阵。聚为几类合适?为什么?6. 15% 参数估计和非参数估计的概念?最大似然估计和 Parzen 窗法的原理?如何估计错误率?7. 2
5、0% 以下线性分类器的设计原理?各自特性,联系?A) 最小距离分类器 B) Fisher 线性分类器C) 感知准则函数分类器 D) 线性 SVM8. 10% 给出一个模式识别的实例。2006-20071. 30% 写出英文全称并解释相应的概念或者方法的原理a)非参数估计 b)非监督模式识别c)最大似然估计 d)MDSe)推广能力 f)kNN2. 8%如果用 kNN 来解决作业中的男女生训练样本问题,那么你如何选择 k?简述理由3. 12% 无邻域相互作用的 SOM 的相当于是优化什么目标函数,写出目标函数。4. 20%1)8% 简述两类错误率的概念,并由此谈一谈最小风险错误率 Bayes 分类
6、器的原理?2)6%怎么把最小风险的概念引入线性 SVM 中(考虑线性不可分的情况) ,尝试写出公式3)6%怎么把最小风险的概念引入 Fisher 线性判别中,简述一下。5. 30% 现在先要建立一种针对不同用户的文本邮件分类系统,比如分成私人邮件,公务邮件等。描述怎么建立,课上讲的哪些方法和概念可以用到?2007-20081 写出英文全称,中文,100 字简述 5*6=30a)Hierachical Clusteringb)MLPc)Nonparametric Estimationd)SVMe)Fishers Linear Discriminant Analysis2 200 字简述 4*5=
7、20a)最小距离分类器何时是最优分类器?b)写出最小距离分类器,分段线性判别,最近邻法的关系c)写出决策树和随机森林的关系,以及为什么要有随机森林d)写出 K-L 变换和 PCA 的关系3 1*5=5构造两类分类器,100 个训练数据,使用 K 近邻法,如何选择 K,给出一个合适的 K,说明理由4 1*15=15SOM 若没有邻域作用,则变成什么算法?写出该算法的目标函数,算法基本步骤5 1*30=30综合题。文本自动分类的原理性设计,例举本科所学内容和概念能在这个设计上怎么体现附加题,最多 10 分,全卷不会超过 100 分说明两类错误率。在 SVM 线性不可分的情况下,如何把最小风险的概念
8、引入 SVM,对目标函数应该怎样修正。-B:1/前三个只顺序不一样,另外两个是 PCA 和 Random Forest: : 2 记不太清了,貌似有个 SVM 的原理?写出特征提取和 fisher 线性判别的关系2008-20091.(30) 简要介绍下列概念ROC 曲线交叉验证似然函数特征选择与提取推广能力随即森林2.(30)简述 Fisher 线性判别方法的基本原理并讨论如何在 Fisher 线性判别中实现最小风险的分类决策。3.(20)简述 C-均值方法的基本原理,并讨论在什么情况下此方法比较适用。4.(20)SVM 与多层感知器都可以实现非线性分类,试讨论它们在原理上的联系与区别。5.(没有分)给课程提建设性建议。20101 写出中文意思并简述概念,缩写要先写出全称Clustering, PCA, Generalization Ability ,Cross Validation2 两道任选一道(1 )最小分类风险决策的基本思想;简述 Fisher 线性判别方法或者 SVM 的基本原理并讨论如何在其中实现最小风险的分类决策。(2 )总结非监督模式识别方法,简述它们的基本思路、之间的关系和特点。