1、信 息 工 程 学 院模式识别实 验 指 导 书王文华,徐蔚然编著2007 年3 月http:/目 录实验课概况 .1实验一、Bayes 分类器设计 2实验二、基于 Fisher 准则线性分类器 设计 .5实验三、基于感知函数准则线性分类器设计 .10实验四、近邻法分类 器设计 .12实验五、动态聚类 .21实验课概况课程名称:模式识别适应专业:信息工程、自动化、信息安全、信息科学、数字媒体艺术实验学时:8开科学期:5 学期一、实验的性质、任务和基本要求(一) 实验课的性质模式识别实验课是一门非独立的实验课,是同学对模式识别理论内容进行充分的理解的基础上,根据相应的原理,设计实验内容,完成实验
2、任务,是理论知识实践化的方式,利于学生更好的吸收,领悟模式识别的原理与应用,培养学生的动手实践的能力。(二) 实验课的基本要求1、 理解模式识别的基本概念2、 掌握各种算法的流程,以及相应的优缺点。3、 会使用相应的模式识别分类器等算法处理实验问题。二、实验的分配情况序号 实验内容 学时 选作1 Bayes分类器算法 2 必做2 Fisher 线性分类器设计, 23 感知器设计 2二选一4 近邻法 45 动态聚类 4二选一实验一、Bayes分类器设计1.1 实验类型 :基础型:Bayes分类器设计1.2 实验目的 :本实验旨在让同学对模式识别有一个初步的理解,能够根据自己的设计对贝叶斯决策理论
3、算法有一个深刻地认识,理解二类分类器的设计原理。1.3 实验条件 :matlab 软件1.4 实验原理 : 最小风险贝叶斯决策可按下列步骤进行:(1)在已知 , ,i=1,,c 及给出待识别的的情 况下,根据贝叶斯公式)(iP)iXX计算出后验概率:cj iiiii1)()( j=1,,x (2)利用计算出的后验概率及决策表,按下面的公式计算出采取 ,i=1,,a 的条件风险i,i=1,2,acj jjii XPaXR1)(,()(3)对(2)中得到的 a个条件风险值 ,i=1,,a 进行比较,找出使其条件风险最小)(aRi的决策 ,即ka则就是最小 风险贝叶斯决策。k1.5 实验内容 :假定
4、某个局部区域细胞识别中正常( )和非正常( )两类先验概率分别为12正常状态:P( )=0.9;1异常状态:P( )=0.1。2现有一系列待观察的细胞,其观察值为 :x-3.9847 -3.5549 -1.2401 -0.9780 -0.7932 -2.8531 -2.7605 -3.7287 -3.5414 -2.2692 -3.4549 -3.0752 -3.9934 2.8792 -0.9780 0.7932 1.1882 3.0682-1.5799 -1.4885 -0.7431 -0.4221 -1.1186 4.2532 已知先验概率是的曲线如下图:-6 -4 -2 0 2 4 6
5、00.10.20.30.40.50.60.70.8类条件概率分布正态分布分别为(-2,0.25) (2,4)试对观察的结)|(1xp)|(2果进行分类。1.6 实验要求:1) 用 matlab 完成分类器的设计,要求程序相应语句有说明文字,要求有子程序的调用过程。2) 根据例子画出后验概率的分布曲线以及分类的结果示意图。3) 如果是最小风险贝叶斯决策,决策表如下:最小风险贝叶斯决策表:状态决策 121 0 62 1 0请重新设计程序,画出相应的后验概率的分布曲线和分类结果,并比较两个结果。实验二、基于 Fisher 准则线性分类器设计2.1 实验类型 :设计型:线性分类器设计(Fisher 准
6、则)2.2 实验目的 :本实验旨在让同学进一步了解分类器的设计概念,能够根据自己的设计对线性分类器有更深刻地认识,理解 Fisher 准则方法确定最佳线性分界面方法的原理,以及 Lagrande乘子求解的原理。2.3 实验条件 :matlab 软件2.4 实验原理 :线性判别函数的一般形式可表示成其中0)(wXWgTdwW 21dxX 1根据 Fisher 选择投影方向 W的原则,即使原样本向量在该方向上的投影能兼顾类间分布尽可能分开,类内样本投影尽可能密集的要求,用以评价投影方向 W 的函数为: 21)()SmJF)(21*W上面的公式是使用 Fisher 准则求最佳法线向量的解,该式比较重
7、要。另外,该式这种形式的运算,我们称为线性变换,其中式一个 21m向量, 是的逆矩阵 ,如 是1WSWS21md 维, 和 都是 dd 维,得到的也是 一个 d 维的向量。WS1 *向量就是使 Fisher 准则函数 达极大值的解,也就是按 Fisher准则将 d 维X 空*)(JF间投影到一维 Y 空间的最佳投影方向,该向量的各 分量值是对原 d 维特征向量求加权和的*权值。以上讨论了线性判别函数加权向量W 的确定方法,并讨论了使Fisher 准则函数极大的 d 维向量 * 的计算方法,但是判别函数中的另一项尚未确定 ,一般可采用以下几种方法确定0W如0 210m或者 NW210 或当与已知
8、 时可用)(p2)(/ln2110Npm当 W0 确定之后,则可按以下规则分类,201XwWT使用 Fisher 准则方法确定最佳线性分界面的方法是一个著名的方法,尽管提出该方法的时间比较早,仍见有人使用。2.5 实验内容 :已知有两类数据和二者 的概率已知 1)(p=0.6, =0.4。12 2)(中数据点的坐标对应一一如下: 1数据:x =0.2331 1.5207 0.6499 0.7757 1.0524 1.19740.2908 0.2518 0.6682 0.5622 0.9023 0.1333-0.5431 0.9407 -0.2126 0.0507 -0.0810 0.73150
9、.3345 1.0650 -0.0247 0.1043 0.3122 0.66550.5838 1.1653 1.2653 0.8137 -0.3399 0.51520.7226 -0.2015 0.4070 -0.1717 -1.0573 -0.2099y =2.3385 2.1946 1.6730 1.6365 1.7844 2.01552.0681 2.1213 2.4797 1.5118 1.9692 1.83401.8704 2.2948 1.7714 2.3939 1.5648 1.93292.2027 2.4568 1.7523 1.6991 2.4883 1.72592.046
10、6 2.0226 2.3757 1.7987 2.0828 2.07981.9449 2.3801 2.2373 2.1614 1.9235 2.2604z =0.5338 0.8514 1.0831 0.4164 1.1176 0.55360.6071 0.4439 0.4928 0.5901 1.0927 1.07561.0072 0.4272 0.4353 0.9869 0.4841 1.09921.0299 0.7127 1.0124 0.4576 0.8544 1.12750.7705 0.4129 1.0085 0.7676 0.8418 0.87840.9751 0.7840 0
11、.4158 1.0315 0.7533 0.9548数据点的对应的三维坐标为2x2 =1.4010 1.2301 2.0814 1.1655 1.3740 1.18291.7632 1.9739 2.4152 2.5890 2.8472 1.95391.2500 1.2864 1.2614 2.0071 2.1831 1.79091.3322 1.1466 1.7087 1.5920 2.9353 1.46642.9313 1.8349 1.8340 2.5096 2.7198 2.31482.0353 2.6030 1.2327 2.1465 1.5673 2.9414y2 =1.0298
12、0.9611 0.9154 1.4901 0.8200 0.93991.1405 1.0678 0.8050 1.2889 1.4601 1.43340.7091 1.2942 1.3744 0.9387 1.2266 1.18330.8798 0.5592 0.5150 0.9983 0.9120 0.71261.2833 1.1029 1.2680 0.7140 1.2446 1.33921.1808 0.5503 1.4708 1.1435 0.7679 1.1288z2 =0.6210 1.3656 0.5498 0.6708 0.8932 1.43420.9508 0.7324 0.
13、5784 1.4943 1.0915 0.76441.2159 1.3049 1.1408 0.9398 0.6197 0.66031.3928 1.4084 0.6909 0.8400 0.5381 1.37290.7731 0.7319 1.3439 0.8142 0.9586 0.73790.7548 0.7393 0.6739 0.8651 1.3699 1.1458数据的样本点分布如下图:-2 -10 12 30.511.522.500.511.522.6 实验要求 :1) 请把数据作为样本,根据 Fisher 选择投影方向的 原则,使原样本向量在该方W向上的投影能兼顾类间分布尽可能
14、分开,类内样本投影尽可能密集的要求,求出评价投影方向的函 数,并在图形表示出来。并在实验报告中表示出来,W并求使取极 大值的 。用 matlab 完成 Fisher线性分类器的设计,程)(wJF*序的语句要求有注释。2) 根据上述的结果并判断(1,1.5,0.6)(1.2,1.0,0.55),(2.0,0.9,0.68),(1.2,1.5,0.89), (0.23,2.33,1.43) ,属于哪个类别,并画出数据分类相应的结果图,要求画出其在上的投影 。W3) 回答如下问题,分析一下的 比例因子对于 Fisher 判别函数没有影响的原因。实验三、基于感知函数准则线性分类器设计3.1 实验类型:
15、设计型:线性分类器设计(感知函数准则)3.2 实验目的:本实验旨在让同学理解感知准则函数的原理,通过软件编程模拟线性分类器,理解感知函数准则的确定过程,掌握梯度下降算法求增广权向量,进一步深刻认识线性分类器。3.3 实验条件:matlab 软件3.4 实验原理:感知准则函数是五十年代由 Rosenblatt 提出的一种自学习判别函数生成方法,由于Rosenblatt 企图将其用于脑模型感知器,因此被称为感知准则函数。其特点是随意确定的判别函数初始值,在对样本分类训练过程中逐步修正直至最终确定。感知准则函数利用梯度下降算法求增广权向量的做法,可简单叙述为: 任意给定一向量初始值 )1(a,第 k
16、+1 次迭代时的权向量等 于第 k 次的权向量加上 被错分类的所)1(a)(ka有样本之和与的乘积 。可以证明,对于线性可分的样本集,经过有限次修正,一定可以找k到一个解向量 ,即算法能在有限步内收敛。其收敛速度的快慢取决于初始权向量 和系)1(数 k。3.5 实验内容已知有两个样本空间 w1 和 w2,这些点对应的横纵坐标的分布情况是:x1=1,2,4,1,5;y1=2,1,-1,-3,-3;x2=-2.5,-2.5,-1.5,-4,-5,-3;y2=1,-1,5,1,-4,0;在二维空间样本分布图形如下所示:(plot(x1,y1,x2,y2))-6 -4 -2 0 2 4 6-6-4-2
17、0246w1w23.6 实验任务:1、 用 matlab 完成感知准则函数确定程序的设计。2、 请确定 sample=(0,-3),(1,3),(-1,5),(-1,1),(0.5,6),(-3,-1),(2,-1),(0,1),(1,1),(-0.5,-0.5),( 0.5,-0.5);属于哪个样本空间,根据数据画出分类的结果。3、 请分析一下 和对于感知 函数准则确定的影响,并确定当 =1/2/3 时,相应的k)1(akk 的值,以及不同时 ,k 值得变化情况。4、 根据实验结果请说明感知准则函数是否是唯一的,为什么?实验四、近邻法分类器设计4.1 实验类型:设计型:近邻法分类器设计4.2
18、 实验目的:本实验旨在让同学理解近邻法的原理,通过软件编程分段线性分类器的极端情况,理解k-近邻法和剪辑近邻的设计过程,掌握影响 k-近邻法错误率的估算因素等。4.3 实验条件:matlab 软件4.4 实验原理:最近邻法可以扩展成找测试样本的k 个最近样本作决策依据的方法。其基本规则是,在所有N 个样本中找到与测试样本的 k 个最近邻者,其中各类别所占个数表示成 , 则决策ikc,1规划是:如果 ciXkij ,1),(max)(则决策 X (3-63)jk 近邻一般采用 k 为奇数,跟投票表决一样,避免因两种票数相等而难以决策。剪辑近邻法的基本思想是从这样一个现象出发的,即当不同类别的样本
19、在分布上有交迭部分的,分类的错误率主要来自处于交迭区中的样本。当我们得到一个作为识别用的参考样本集时,由于不同类别交迭区域中不同类别的样本彼此穿插,导致用近邻法分类出错。因此如果能将不同类别交界处的样本以适当方式筛选,可以实现既减少样本数又提高正确识别率的双重目的。为此可以利用现有样本集对其自身进行剪辑。下面以两类别问题为例说明这种方法的原理。假设现有一个样本集 N,样本数量为N。我们将此样本集分成两个互相独立的样本子集。一个被当作考试集 ,另一个作为参考集 ,数量分别为 与 , + N。将TaNRaTRTR中的样本 表示成 ,而在中的样 本表示为 。NT),1(,TiX ),1(,jY将一个
20、样本集分成两个相互独立的样本子集是指,分完以后的两个子集具有相同的分布例如将一个样本集分成两个相互独立的对等子集,则在每个特征空间的子区域,两个子集都有相同的比例,或说各类数量近似相等。要注意指出的是每个子区域(从大空间到小空间) 实际做时要用从总的集合中随机抽取的方式进行。剪辑的过程是: 首先对中每 一个 Xi 在 中找到其最近邻的样本Y i(Xi),用 Yi(Xi)NTaNRa表示 Yi 是Xi 的最近邻参考样本。如果 Yi 与Xi 不属于同一类别,则将 Xi 从 NTa中删除,最后从中得 到一个经过剪辑的样本集,称为剪辑样本集 。 可用来取代原样本集 ,NTa NTE N作为参考样本集对
21、待识别样本进行分类。经过剪辑后,要作为新的训练样本集,则是对其性 能进行测试的样本,如发现中NT NRa的 某个训练样本对分类不利,就要把它剪辑掉。a实际上剪辑样本的过程也可以用 k-近邻法进行,即对中的每 个样本 Xi,找到在中的NTk 个近邻,用 k-近邻法判断Xi 是否被错分类。从而决定其取舍,其它过程与前述方法完NR全一样。剪辑近邻法也可用到多类别情况。剪辑过程也可不止一次。重复多次的称为重复剪辑近邻法。4.5 实验内容如下面的 matlab程序阐述的一样,有两个类别,x,y,样本的分布规律服从正态分布,其均值和方差分别为(2,2) , (2,4) ,每个类别里面分别有样本 100 个
22、,如下面的数据所列(第一行为横坐标,相应的下一行对应的是纵坐标) ,图形所示clear allclose allx = 2 + sqrt(2) * randn(2,100)y = -2 + sqrt(4) * randn(2,100)plot(x(1,:),x(2,:),ro);hold onplot(y(1,:),y(2,:),b*);grid onx1 = 1 + sqrt(2) * randn(2,2)y1 = -1 + sqrt(4) * randn(2,3)plot(x1(1,:),x1(2,:),gs);hold onplot(y1(1,:),y1(2,:),gd);x =Colu
23、mns 1 through 8 2.3393 3.0777 1.8737 2.7339 2.3723 2.0607 2.7958 1.16134.0497 2.7254 2.9687 1.2959 0.4281 2.7207 1.9812 2.2180Columns 9 through 16 1.5151 2.8422 0.6955 1.9956 -1.4693 3.1027 2.0873 1.58881.3233 1.8781 4.1631 1.6972 0.4532 0.6957 4.4584 2.4472Columns 17 through 24 1.2210 2.7702 5.3554
24、 2.5755 3.1579 1.4299 2.6070 0.57145.0188 1.7864 1.2680 1.4595 1.4049 2.2075 2.9997 2.4271Columns 25 through 32 1.6260 2.3400 0.7291 1.4722 2.7524 3.1380 3.7800 0.96392.4397 2.5036 -0.1208 1.6814 0.1167 0.9358 0.9934 1.0406Columns 33 through 40 1.6377 0.6335 0.5944 0.6900 2.7269 0.7390 -0.9497 2.266
25、01.1267 0.9308 -0.2890 5.5362 1.9855 2.0577 0.2602 -2.1053Columns 41 through 48 0.7235 0.8765 1.2597 -0.1537 5.8664 1.4564 0.8619 1.21081.8883 2.6320 1.5465 0.4295 4.6099 2.7126 0.8788 3.3248Columns 49 through 56 1.7689 3.9543 2.1305 3.5910 3.4501 2.8476 2.2794 1.78771.2711 1.4769 0.6973 2.7846 2.43
26、93 2.0672 3.1551 1.4484Columns 57 through 64 3.9710 1.9122 3.8749 3.1035 2.1726 1.0068 3.2602 3.4937-0.2553 3.2665 3.2834 1.1804 3.9009 4.2703 2.6435 3.7896Columns 65 through 72 1.8904 0.9381 2.6499 1.1209 -0.7602 0.9878 3.3209 2.68252.2168 1.6666 0.6734 -0.2885 3.4517 -0.8319 3.5121 1.2336Columns 7
27、3 through 80 1.3980 1.7750 3.0315 4.3814 0.0746 1.0233 0.7370 2.31062.8502 2.4497 2.4605 2.5328 1.8479 1.9284 1.9925 2.9242Columns 81 through 88 1.6755 2.5795 2.0735 1.2835 4.4952 2.1099 1.5293 4.29771.6345 4.2585 4.4371 3.7047 3.7777 2.2204 1.7801 2.4882Columns 89 through 96 0.5578 2.3503 1.9332 2.
28、8394 1.9185 1.1366 2.6934 3.68762.7108 2.2008 3.1586 1.0979 2.2828 1.1050 0.7363 6.0314Columns 97 through 100 0.8630 4.8719 0.7702 1.18242.5452 0.9279 2.4000 2.9063y =Columns 1 through 8 -4.0741 -2.2019 0.2772 2.5119 -2.6005 -2.7258 -0.9535 -2.6182-3.6242 1.8317 -0.3543 -1.3855 -1.0020 -2.2239 -0.43
29、17 -2.0749Columns 9 through 16 1.1157 -2.9820 -0.7157 -4.8064 -2.1368 0.0204 -4.6403 -1.4024-1.1429 -1.9817 -1.0701 3.5301 -0.3107 -2.6776 -3.6135 -3.0649Columns 17 through 24 1.0383 0.0278 -3.8224 -1.7426 -0.8970 -3.1769 -2.6497 -1.0395-2.4134 -3.3121 -3.0811 -2.6541 -0.7125 -3.1175 -1.9918 -2.0607
30、Columns 25 through 32 -2.9279 -5.6277 -3.2913 -0.3836 -6.5657 -6.9075 -4.9407 -2.4313-3.3265 -2.0005 -1.7682 -2.1453 -0.7046 -3.2416 0.6713 -1.8313Columns 33 through 40 1.1533 0.0380 -0.9046 0.4450 2.1135 -0.9418 -0.3634 0.2072-0.2502 -1.9232 -1.7691 -3.5266 -1.1793 -2.3955 -1.7491 -2.2116Columns 41
31、 through 48 -2.7789 -0.4264 -1.5418 -4.5961 -3.1488 -3.2813 0.1521 0.3201-2.8753 -3.1971 -5.1734 -1.7970 -1.2165 1.0112 1.8658 0.6457Columns 49 through 56 1.7258 2.4568 1.0064 -2.8329 -2.2510 -2.2932 -0.4625 -2.1996-3.2806 -1.3224 -1.5015 -3.4684 -3.3073 -1.0344 1.3012 -4.8685Columns 57 through 64 -
32、0.3933 -4.4781 -0.8298 -2.7694 -4.4012 -2.3012 -2.7238 4.4696-1.9525 -3.9448 -4.2802 -2.8949 -7.0979 -1.7046 -2.1852 -2.5313Columns 65 through 72 -0.2649 -0.5083 1.2236 -4.0723 -2.7961 -3.8391 -6.0491 -1.26490.8744 -3.6436 -1.7198 -1.0935 -1.5580 -0.2845 -1.1005 -7.1413Columns 73 through 80 -0.7904
33、-4.9162 -0.8173 -3.0191 -1.5423 -3.4648 -3.9127 -1.0085-0.1674 -1.8316 -1.9920 -6.5079 -1.1666 -3.2242 -2.6278 -1.7200Columns 81 through 88 -3.0868 -2.2972 -3.3748 -1.1780 -3.1821 -3.7845 -1.4982 -1.7623-0.3149 -4.3529 -1.3920 -1.1284 -0.0297 -5.7240 -2.0337 -2.7306Columns 89 through 96 -2.0356 -3.1
34、204 -1.6235 -1.6992 -4.8063 -2.9712 -5.5903 -3.5470-2.3859 -0.1046 -0.6685 -3.2670 -0.1880 1.7160 -4.2020 -3.9663Columns 97 through 100 -1.6145 2.1930 -2.3963 -5.2112-0.5505 -5.9320 1.6841 -3.7229请使用 k-近邻法判断下列 sample 中样本的分类情况(-0.7303,2.1624) , (1.4445,-0.1649) , (-1.2587,0.9187) , (1.2617,-0.2086) ,
35、(0.7302,1.6587)-8 -6 -4 -2 0 2 4 6-8-6-4-202468 w1w2定 定定 定4.6 实验要求:1、 要求用 matlab 编程,来确定分类的情况,并以图形的方式表示出来。2、 分析 k 值的不同对分类的情况是否有影响,并把结果用图形的方式表示出来。3、 回答下列问题设在一个二维空间,A 类有三个训练样本,图中用红点表示,B 类四个样本,图中用蓝点表示。试问:(1) 按近邻法分类,这两类最多有多少个分界面(2) 画出实际用到的分界面(3) A1 与 B4之间的分界面没有用到4、 请根据剪辑方法近邻的原理,对样本的空间进行剪辑,再确定上述样本点的分类情况。并
36、对两种分类结果进行分析(选作) 。实验五、动态聚类5.1 实验类型:设计型:C-均值动态聚类算法5.2 实验目的:本实验旨在让同学理解动态聚类算法的原理,掌握 C-均值算法,并能利用 C-均值算法解决实际的分类问题。5.3 实验条件:matlab 软件5.4 实验原理:动态聚类方法的任务是将数据集划分成一定数量的子集,例如将一个数据集划分成三个子集,四个子集等。因此要划分成多少个子集往往要预先确定,或大致确定,当然这个子集数目在理想情况现能体现数据集比较合理的划分。这里要解决的问题是:1 怎样才能知道该数据集应该划分的子集数目2 如果划分数目已定,则又如何找到最佳划分。因为数据集可以有许多种不
37、同的划分方法,需要对不同的划分作出评价,并找到优化的划分结果。由于优化过程是从不甚合理的划分到“最佳”划分,是一个动态的迭代过程,故这种方法称为动态聚类方法。我们先讨论在子集数目已定条件下的聚类方法,然后在讨论如何确定合理的子集数目。一个动态聚类算法需要有以下几个要点:1.选定某种距离度量作为样本间的相似性度量;2.确定样本合理的初始分类,包括代表点的选择,初始分类的方法选择等。3.确定某种评价聚类结果质量的准则函数,用以调整初始分类直至达到该准则函数的极值。这是一个动态聚类方法的三个要素,其中初始划分只是为了使划分能从某个初始点开始, 。而相似度量计算方法对解决实际问题很重要,我们先从最简单
38、的度量数据之间的欧氏距离开始,然后再提到其它相似性度量方法。第三个要素,即使用准则函数作为优化的评价是动态聚类方法的核心。动态聚类算法原理上就是通过迭代求函数极值的方法要解决的问题是数据的聚类,也就是将现有的数据集进行划分。因此要构造一个函数,这个函数的值与数据划分有关,从而调整数据的划分使该函数达到极值。C-均值算法1.准则函数误差平方和准则c-均值算法的准则函数表示了相似度量是以数据到数据子集均值的模的平方来度量,这是用欧氏距离的度量方法。这个准则函数是以计算各类均值 ,与计算各类样本到其im所属类均值点误差平方和为准则,若各类均值表示成 iyiNm1其中第 i 类集合为 i,其样本数目为
39、是样本特 征向量。iN此时误差平方和准则可表示成21ciyiimJ其含义是各类样本与其所属样本均值间误差平方之总和。对于样本集的不同分类,导致不同的样本子集及 i其均值 i,从而得到不同的 值,而最佳的聚类是使为最 小cJcJ的分类。这种类型的聚类通常称为最小方差划分。C均值算法可归纳成:(1) 选择某种方法把 N 个样本分成 C 个聚类的初始划分,计算每个聚类的均值和cm,21J(2) 选择一个备选样本 y,设其在 中i(3) 若 ,则转(2),否则继续1iN(4) 计算 ijmyNejjjj ,1,2(5) 对于所有的j,若 ,则将 y 从移 到 中。jieij(6) 重新计算和 的值,并
40、修改 。ij cJ(7) 若连续迭代N 次(即所有样本都运算过) 不变,则停止,否则转到 2。上述 C均值算法都是在类别 c已知条件下进行的,在类别数未知情况下使用 C均值算法时,可以假设类别数是逐步增加的,例如对 c1,2,3,分别使用该算法。准则函数是 随 c 的增加而单调地减少的。 J5.5 实验内容:已知有样本点的横纵坐标分别如下:x1 =0.5660 0.6294 0.5315 0.5860 0.5129 0.50170.7854 0.6011 0.6505 0.7938 0.9977 0.68020.4088 0.0849 0.2912 0.0147 0.0773 0.1329y1
41、 =0.5769 1.2209 1.2649 1.1579 1.3104 0.87420.3062 0.3707 0.7067 0.1684 0.8137 0.46620.2223 0.4949 -0.1375 0.2308 0.1497 0.1813样本点的分布情况如下图:0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1-0.200.20.40.60.811.21.41.65.6 实验要求,1、 请用 C均值算法对上述样本分类,类别数为 3,并且分析分类结果。2、 回答下列习题设两个集群的数据分别为与试求:1) 两个集群的均值。2) 若将数据从 第一个集群转移至第二个时,准则函数值 的变化量0J3、 请修改程序将上述样本点分为 4 类,并且分析类别数目的多少对的影响 (选作) 。c