收藏 分享(赏)

朱建平:应用多元统计分析课后答案_.doc

上传人:weiwoduzun 文档编号:5626373 上传时间:2019-03-10 格式:DOC 页数:66 大小:5.83MB
下载 相关 举报
朱建平:应用多元统计分析课后答案_.doc_第1页
第1页 / 共66页
朱建平:应用多元统计分析课后答案_.doc_第2页
第2页 / 共66页
朱建平:应用多元统计分析课后答案_.doc_第3页
第3页 / 共66页
朱建平:应用多元统计分析课后答案_.doc_第4页
第4页 / 共66页
朱建平:应用多元统计分析课后答案_.doc_第5页
第5页 / 共66页
点击查看更多>>
资源描述

1、第二章2.1.试叙述多元联合分布和边际分布之间的关系。解:多元联合分布讨论多个随机变量联合到一起的概率分布状况, 的12(,)pX联合分布密度函数是一个 p 维的函数,而边际分布讨论是 的子向量的12,p概率分布,其概率密度函数的维数小于 p。2.2 设二维随机向量 服从二元正态分布,写出其联合分布。12()X解:设 的均值向量为 ,协方差矩阵为 ,则其联121221合分布密度函数为。1/2 12 21 1() exp()()f x x2.3 已知随机向量 的联合密度函数为12()X21212()()(,)dcxabxcaxcfxd其中 , 。求1ab2(1 )随机变量 和 的边缘密度函数、均

2、值和方差;X(2 )随机变量 和 的协方差和相关系数;12(3 )判断 和 是否相互独立。(1 )解:随机变量 和 的边缘密度函数、均值和方差;1X21 12122()()()()dxcxabxcaxcf dd1221222)()()dc xbabac12 12 20()()()dcdcxtxtd1212 20()()()cdcabattbdba所以由于 服从均匀分布,则均值为 ,方差为 。1X2ba21同理,由于 服从均匀分布 ,则均值为2 2 ,()0xxcdfd其 它,方差为 。2dc21dc(2 )解:随机变量 和 的协方差和相关系数;X212cov(,)x 121212 12()()

3、()dbca dcxabxcaxcx dd()36db12cov,x(3 )解:判断 和 是否相互独立。1X2和 由于 ,所以不独立。1212(,)()xff2.4 设 服从正态分布,已知其协方差矩阵为对角阵,证明其分量是(,p相互独立的随机变量。解: 因为 的密度函数为12(,)pX 1/ 11(,.)ex()()2pfxx又由于212p221p21221p则 1(,.)pfx 211/22 21 2exp() ()1p p x 2221 3112 ()()()1exp.p pxx 211()e().pii pii f 则其分量是相互独立。2.5 由于多元正态分布的数学期望向量和均方差矩阵的

4、极大似然分别为 1niiX1()niii nX3560.27.12058.390.837250.-73680.396157.119.-6-5-9 注:利用 , S 其中 1pnX()nnXI 01nI在 SPSS 中求样本均值向量的操作步骤如下:1. 选择菜单项 AnalyzeDescriptive StatisticsDescriptives ,打开 Descriptives 对话框。将待估计的四个变量移入右边的 Variables 列表框中,如图 2.1。图 2.1 Descriptives 对话框2. 单击 Options 按钮,打开 Options 子对话框。在对话框中选择 Mean

5、复选框,即计算样本均值向量,如图 2.2 所示。单击 Continue按钮返回主对话框。图 2.2 Options 子对话框3. 单击 OK 按钮,执行操作。则在结果输出窗口中给出样本均值向量,如表 2.1,即样本均值向量为(35.3333,12.3333 ,17.1667 ,1.5250E2) 。表 2.1 样本均值向量在 SPSS 中计算样本协差阵的步骤如下:1. 选择菜单项 AnalyzeCorrelateBivariate,打开Bivariate Correlations 对话框。将三个变量移入右边的 Variables 列表框中,如图2.3。图 2.3 Bivariate Corre

6、lations 对话框2. 单击 Options 按钮,打开 Options 子对话框。选择Cross-product deviations and covariances 复选框,即计算样本离差阵和样本协差阵,如图 2.4。单击 Continue 按钮,返回主对话框。图 2.4 Options 子对话框3. 单击 OK 按钮,执行操作。则在结果输出窗口中给出相关分析表,见表 2.2。表中 Covariance 给出样本协差阵。 (另外,Pearson Correlation 为皮尔逊相关系数矩阵,Sum of Squares and Cross-products 为样本离差阵。 )2.6 渐

7、近无偏性、有效性和一致性;2.7 设总体服从正态分布, ,有样本 。由于 是相互独立的(,)pNX12,.nXX正态分布随机向量之和,所以 也服从正态分布。又 111()nnni iii iEEX22111()nnni ii i iDDX所以 。(,)pN2.8 方法 1: 1()niiiX1nii1()()niiEX1niiE。1(1)ni n方法 2: 1()niiiSX-1(ni ii -)-X)11()2()()nnii ii i n X-)X1()()()niii-X1()()niii nX-1()()()niiiEn S-X。1()()niii EX- 故 为 的无偏估计。S2.9

8、.设 是从多元正态分布 抽出的一个简单随机样本,试求(1)2()n,., (,)pNX的分布。证明: 设为一正交矩阵,即 。*()11ijnn I令 ,1212n=()=X ,34,iX由 于 独 立 同 正 态 分 布 且 为 正 交 矩 阵所以 。且有12()n 独 立 同 正 态 分 布, , 。1nnii1()niiEn()VarnZ1()(,23,)naajEr 1naj10najir1()()naajVr2211nnajjajr所以 独立同 分布。2n (0,)N又因为 1()njjiSX1njj因为 11nni ini i XXZ又因为 nnjj XX 212111212nn 1

9、212nZZ 所以原式 nnjjnjj ZX112.nnZ-故 ,由于 独立同正态分布 ,所以1njjS121,nZ (0,)pN1(,)njpjW2.10.设 是来自 的简单随机样本, ,()iX,piN1,23,ik(1 )已知 且 ,求 和 的估计。2.k1 2.k1(2 )已知 求 和 的估计。,解:(1) ,112.ankinxx12.akaiii k(2) 1ln(,)kL 21l)exp anknp aiaii-1(x)()11ln()ln()l22ankaiaiiLp-1,(x)()21 11l, ()()0ankaiii X1ln(,)()0(,2.)jnj ijjiLk解之

10、,得,1jnjjijx12.jnkjjji kniixx第三章3.1 试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。其基本思想和步骤均可归纳为:答: 第一,提出待检验的假设 和 H1;0第二,给出检验的统计量及其服从的分布;第三,给定检验水平,查统计量的分布表,确定相应的临值,从而得到否定域;第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受) 。均值向量的检验:统计量 拒绝域在单一变量中当 已知 20()Xzn /2|z当 未知 tS /|(1)tn( 作为 的估计量)221()niiS2一个正态总体 00H:协差阵 已知 21200

11、()()(TnpX20T协差阵 未知 21),pFn(1)npF( ) 2 100()()()nSX两个正态总体 012H:有共同已知协差阵 2120()()(nmTpXY20T有共同未知协差阵 2,1)pFTFnmF(其中 )2 1()()()nTnmn S协差阵不等 -,pFFpZF协差阵不等 n1()(,)nn-S多个正态总体 kH210:单因素方差 (1)(,)SAFFnkEnF多因素方差 ,1pT协差阵的检验检验 0pHI:/2/21expnpetrS00:/*nt检验 12k 12k:统计量 /2/2/211i iknpnnpki iS3.2 试述多元统计中霍特林 分布和威尔克斯

12、分布分别与一元统计中 t 分布和 F 分布的2 关系。答:(1)霍特林 分布是 t 分布对于多元变量的推广。2而若设 , 且 与2 212()()()nXt SXS (,)pN(,)pWnSX相互独立, ,则称统计量 的分布为非中心霍特林 T2 分布。p2=()1()若 , 且 与 相互独立,令 ,则 (,)pN0(,)pWnSS21TnS。21(,1)npTFnp(2 ) 威尔克斯 分布在实际应用中经常把 统计量化为 统计量进而化为 统计量, 2TF利用 统计量来解决多元统计分析中有关检验问题。与 统计量的关系p1n2统计量及分别F任意 任意 1 111(,)(,)npnp 任意 任意 2

13、11 1(,2)(,)Fnpn1 任意 任意 112212(,)(,)2 任意 任意 121 212(,)(,)nnFn 3.3 试述威尔克斯统计量在多元方差分析中的重要意义。答:威尔克斯统计量在多元方差分析中是用于检验均值的统计量。012kH: 1ijHij: 至 少 存 在 使用似然比原则构成的检验统计量为 给定检验水(,1)pnkETA平 ,查 Wilks 分布表,确定临界值,然后作出统计判断。第四章4.1 简述欧几里得距离与马氏距离的区别和联系。答: 设 p 维欧几里得空间 中的两点 X= 和 Y= 。则欧几里得距离 (1, 2) (1, 2)为 。欧几里得距离的局限有在多元数据分析中

14、,其度量不合理。会受到=1(-)2实际问题中量纲的影响。设 X,Y 是来自均值向量为 ,协方差为 的总体 G 中的 p 维样本。则马氏距离为 D(X,Y)= 。当 即单位阵时, D(X,Y)= =()-1()-1= ()()即欧几里得距离。=1(-)2因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。4.2 试述判别分析的实质。答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设 R1,R2,Rk 是 p 维空间 R p 的 k 个子集,如果它们互不相交,且它们的和集为 ,则称

15、 为 的一 1, 2个划分。判别分析问题实质上就是在某种意义上,以最优的性质对 p 维空间 构造一个“划分” ,这个“划分”就构成了一个判别规则。4.3 简述距离判别法的基本思想和方法。答:距离判别问题分为两个总体的距离判别问题和多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离) ,将距离近的判别为一类。两个总体的距离判别问题设有协方差矩阵 相等的两个总体 G1和 G2,其均值分别是 1和 2,对于一个新的样品X,要判断它来自哪个总体。计算新样品 X 到两个总体的马氏距离 D2( X, G1)和D2( X, G2) ,则X , D2(X , G1) D2(X,G 2)1

16、 X , D2(X , G1) D2( X,G 2,2具体分析,1(,)(,)112211221 12112()()() 1 121221()()()()() X记 则判别规则为 WX ,W(X)1 0X ,W(X)0即样品 X 属于总体 1 14.8 某超市经销十种品牌的饮料,其中有四种畅销,三种滞销,三种平销。下表是这十种品牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。销售情况 产品序号 销售价格 口味评分 信任度评分1 2.2 5 82 2.5 6 73 3.0 3 9畅销4 3.2 8 65 2.8 7 66 3.5 8 7平销7 4.8 9 88 1.7 3

17、49 2.2 4 2滞销10 2.7 4 3 根据数据建立贝叶斯判别函数,并根据此判别函数对原样本进行回判。 现有一新品牌的饮料在该超市试销,其销售价格为 3.0,顾客对其口味的评分平均为 8,信任评分平均为 5,试预测该饮料的销售情况。解:增加 group 变量,令畅销、平销、滞销分别为 group1、2、3 ;销售价格为 X1,口味评分为 X2,信任度评分为 X3,用 spss 解题的步骤如下:1. 在 SPSS 窗口中选择 AnalyzeClassify Discriminate ,调出判别分析主界面,将左边的变量列表中的“group”变量选入分组变量中,将 X1、X 2、X 3 变量选

18、入自变量中,并选择 Enter independents together 单选按钮,即使用所有自变量进行判别分析。2. 点击 Define Range 按钮,定义分组变量的取值范围。本例中分类变量的范围为 1 到 3,所以在最小值和最大值中分别输入 1 和 3。单击 Continue 按钮,返回主界面。如图 4.1图 4.1 判别分析主界面3. 单击 Statistics按钮,指定输出的描述统计量和判别函数系数。选中 Function Coefficients 栏中的 Fishers:给出 Bayes 判别函数的系数。 (注意:这个选项不是要给出 Fisher 判别函数的系数。这个复选框的名

19、字之所以为 Fishers,是因为按判别函数值最大的一组进行归类这种思想是由 Fisher 提出来的。这里极易混淆,请读者注意辨别。 )如图 4.2。单击 Continue 按钮,返回主界面。图 4.2 statistics 子对话框4. 单击 Classify按钮,弹出 classification 子对话框,选中 Display 选项栏中的Summary table 复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。如图 4.3。 图 4.3 classification 对话框5. 返回判别分析主界面,单击 OK 按钮,运行判别分析过程。1) 根据判别分析的结果建立 Bay

20、es 判别函数:Bayes 判别函数的系数见表 4.1。表中每一列表示样本判入相应类的 Bayes 判别函数系数。由此可建立判别函数如下:Group1: 3761.29.168.43.1XXYGroup2: 08370592Group3: 347.6290.41.249.173 XXY将各样品的自变量值代入上述三个 Bayes 判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。Classification Function Coefficientsgroup1 2 3x1 -11.689 -10.707 -2.194x2 12.297 13.361 4.9

21、60x3 16.761 17.086 6.447(Constant) -81.843 -94.536 -17.449Fishers linear discriminant functions表4.1 Bayes判别函数系数根据此判别函数对样本进行回判,结果如表4.2。从中可以看出在4种畅销饮料中,有3种被正确地判定,有1种被错误地判定为平销饮料,正确率为75%。在3种平销饮料中,有2种被正确判定,有1种被错误地判定为畅销饮料,正确率为66.7%。3种滞销饮料均正确判定。整体的正确率为80.0%。Classification ResultsaPredicted Group Membershipg

22、roup 1 2 3 Total1 3 1 0 42 1 2 0 3Count3 0 0 3 31 75.0 25.0 .0 100.02 33.3 66.7 .0 100.0Original%3 .0 .0 100.0 100.0a. 80.0% of original grouped cases correctly classified.表4.2 错判矩阵2) 该新饮料的 , , ,将这3个自变量代入上一小题得到的 Bayes0.1X825X判别函数, 的值最大,该饮料预计平销。也可通过在原样本中增加这一新样本,Y重复上述的判别过程,并在classification子对话框中同时要求输出c

23、asewise results,运行判别过程,得到相同的结果。4.9 银行的贷款部门需要判别每个客户的信用好坏(是否未履行还贷责任) ,以决定是否给予贷款。可以根据贷款申请人的年龄( ) 、受教育程度( ) 、现在所从事工作的年数1X2X( ) 、未变更住址的年数( ) 、收入( ) 、负债收入比例( ) 、信用卡债务(3X45 6) 、其它债务( )等来判断其信用情况。下表是从某银行的客户资料中抽取的部分7X8X数据,根据样本资料分别用距离判别法、Bayes 判别法和 Fisher 判别法建立判别函数和判别规则。某客户的如上情况资料为(53,1,9 ,18 ,50 ,11.20 ,2.02,

24、3.58) ,对其进行信用好坏的判别。目前信用好坏客户序号 1X234X567X81 23 1 7 2 31 6.60 0.34 1.712 34 1 17 3 59 8.00 1.81 2.913 42 2 7 23 41 4.60 0.94 .944 39 1 19 5 48 13.10 1.93 4.36已履行还贷责任5 35 1 9 1 34 5.00 0.40 1.306 37 1 1 3 24 15.10 1.80 1.827 29 1 13 1 42 7.40 1.46 1.658 32 2 11 6 75 23.30 7.76 9.729 28 2 2 3 23 6.40 0.

25、19 1.29未履行还贷责任10 26 1 4 3 27 10.50 2.47 .36解:令已履行还贷责任为 group0,未履行还贷责任为 group1。令(53 ,1,9,18,50,11.20 ,2.02,3.58)客户序号为 11,group 未知。用 spss 解题步骤如下:1. 在 SPSS 窗口中选择 AnalyzeClassify Discriminate,调出判别分析主界面,将左边的变量列表中的“group”变量选入分组变量中,将 变量选入自变量中,61X并选择 Enter independents together 单选按钮,即使用所有自变量进行判别分析。2. 点击 Def

26、ine Range 按钮,定义分组变量的取值范围。本例中分类变量的范围为 0到 1,所以在最小值和最大值中分别输入 0 和 1。单击 Continue 按钮,返回主界面。3. 单击 Statistics按钮,指定输出的描述统计量和判别函数系数。选中 Function Coefficients 栏中的 Fishers 和 Unstandardized。单击 Continue 按钮,返回主界面。4. 单击 Classify按钮,定义判别分组参数和选择输出结果。选择 Display 栏中的Casewise results,以输出一个判别结果表。其余的均保留系统默认选项。单击Continue 按钮。5

27、. 返回判别分析主界面,单击 OK 按钮,运行判别分析过程。1) 用费希尔判别法建立判别函数和判别规则:未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些。具体见表 4.3 。表 4.3 未标准化的典型判别函数系数由此表可知, Fisher 判别函数为: 83.279.0671.5024.357.1.02687.13.0794. XXXXY 用 计算出各观测值的具体坐标位置后,再比较它们与各类重心的距离,就可以得知分类,如若与 group0 的重心距离较近则属于 group0,反之亦然。各类重心在空间中的坐标位置如表 4.4 所

28、示。表 4.4 各类重心处的费希尔判别函数值 用 bayes 判别法建立判别函数与判别规则,由于此题中假设各类出现的先验概率相等且误判造成的损失也相等,所以距离判别法与 bayes 判别完全一致。如表 4.5 所示,group 栏中的每一列表示样品判入相应列的 Bayes 判别函数系数。由此可得,各类的 Bayes 判别函数如下: 8504.379.16723.59.43.0.127.9430.6180 XXXXG 68068627表 4.5 Bayes 判别函数系数将各样品的自变量值代入上述两个 Bayes 判别函数,得到两个函数值。比较这两个函数值,哪个函数值比较大就可以判断该样品该判入哪

29、一类。2) 在判别结果的 Casewise Stastics 表中容易查到该客户属于 group0,信用好。4.10 从胃癌患者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行四项生化指标的化验:血清铜蛋白 、蓝色反应 、尿吲哚乙酸 和中性硫化物 ,数据见1X2X3X4X下表。试用距离判别法建立判别函数,并根据此判别函数对原样本进行回判。类别 病人序号 12341 228 134 20 112 245 134 10 403 200 167 12 274 170 150 7 8胃癌患者5 100 167 20 146 225 125 7 147 130 100 6 128 150 117 7

30、69 120 133 10 26胃炎患者萎缩性10 160 100 5 1011 185 115 5 1912 170 125 6 413 165 142 5 314 135 108 2 12非胃炎患者15 100 117 7 2解:令胃癌患者、萎缩性胃炎患者和非胃炎患者分别为 group1、group2、group3,由于此题中假设各类出现的先验概率相等且误判造成的损失也相等,所以距离判别法与 bayes 判别完全一致。用 spss 的解题步骤如下:1.在 SPSS 窗口中选择 AnalyzeClassifyDiscriminate,调出判别分析主界面,将左边的变量列表中的“group ”变

31、量选入分组变量中,将 X1、X 2、X 3、 X4 变量选入自变量中,并选择Enter independents together 单选按钮,即使用所有自变量进行判别分析。2.点击 Define Range 按钮,定义分组变量的取值范围。本例中分类变量的范围为 1 到 3,所以在最小值和最大值中分别输入 1 和 3。单击 Continue 按钮,返回主界面。3.单击 Statistics按钮,指定输出的描述统计量和判别函数系数。选中 Function Coefficients栏中的 Fishers:给出 Bayes 判别函数的系数。4.单击 Classify按钮,弹出 classificati

32、on 子对话框,选中 Display 选项栏中的 Summary table 复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。5.返回判别分析主界面,单击 OK 按钮,运行判别分析过程。根据判别分析的结果建立 Bayes 判别函数:Bayes 判别函数的系数见表 4.6。表中每一列表示样本判入相应类的 Bayes 判别函数系数。由此可建立判别函数如下:Group1: 4073.8.2753.0164.2.791 XXY Group2: 129Group3: 59583 将各样品的自变量值代入上述三个 Bayes 判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以

33、判断该样品判入哪一类。表 4.6 Bayes 判别函数系数根据此判别函数对样本进行回判,结果如表4.7。从中可以看出在 5个胃癌患者中,有4个被正确地判定,有1个被错误地判定为非胃炎患者,正确率为80%。在5个萎缩性胃炎患者中,有4个被正确判定,有1个被错误地判定为非胃炎患者,正确率为80%。在5个非胃炎患者中,有4个被正确判定,有1个被错误地判为萎缩性胃炎患者。整体的正确率为80.0%。表 4.7 错判矩阵第五章5.1 判别分析和聚类分析有何区别?答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有 n 个样本,对每个样本测得 p 项指标(变量)的数据,已知每个样本属于 k 个

34、类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。5.2 试述系统聚类的基本思想。答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么

35、这样构造?答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把 n 个样本看作 p 维空间的 n 个点。点之间的距离即可代表样品间的相似度。常用的距离为(一)闵可夫斯基距离:1/1()pqij ikjkdqXq 取不同值,分为(1 )绝对距离( )11()pij ikjkkdX(2 )欧氏距离( )2q21/1()pij ikjkd(3 )切比雪夫距离( )q1()maxij ikjkkpX(二)马氏距离 (三)兰氏距离对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。将变量看作 p 维空间的向量,一般用(一)夹角余弦(二)相关系数2 1()()(

36、)ij ijijdMXX 1()pikjij ijL 122cos()pikjijikjkX1221()()pikijkjij pikijkjXrX5.4 在进行系统聚类时,不同类间距离计算方法有何区别?选择距离公式应遵循哪些原则?答: 设 dij 表示样品 Xi与 Xj之间距离,用 Dij 表示类 Gi与 Gj之间的距离。(1 ) . 最短距离法 ,minikjrkr ijXGDdn,kpq(2 )最长距离法 ,axipjqpqijXGd,mikjrkrijDax,kpqD(3 )中间距离法其中 1/40(4 )重心法2()()pqpqpqDXX )(1qprXn2222pqpqkrkkrr

37、nnD(5 )类平均法221ipjpqijXGDdn221ikjrkr ijXGrdn22pqkkrrnD(6 )可变类平均法其中 是可变的且 1(7 )可变法ijij ji, 2221pqkqkpkr 2222(1)pqkrkkpqrrnD 其中 是可变的且 12221()krkpqpqDD(8 )离差平方和法 1()()tntittittSXX2=( ) ( ) =222kpkqkr kpqrrnnnDD通常选择距离公式应注意遵循以下的基本原则:(1 )要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。(2 )要综合考虑对样

38、本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。(3 )要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。5.5 试述 K 均值法与系统聚类法的异同。答:相同:K均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。不同:系统聚类对不同的类数产生一系列的聚类结果,而 K均值法只能产生指定类数的聚类结果。具体类数的确

39、定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为 K均值法确定类数的参考。5.6 试述 K 均值法与系统聚类有何区别?试述有序聚类法的基本思想。答:K 均值法的基本思想是将每一个样品分配给最近中心(均值)的类中。系统聚类对不同的类数产生一系列的聚类结果,而 K均值法只能产生指定类数的聚类结果。具体类数的确定,有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为 K 均值法确定类数的参考。有序聚类就是解决样品的次序不能变动时的聚类分析问题。如果用 表示)()2()1,nX个有序的样品,则每一类必须是这样的形式,即 ,其中 且n )()1(),ji

40、iXi,简记为 。在同一类中的样品是次序相邻的。一般的步骤是j,1,jiGi(1 )计算直径D(i,j)。 (2)计算最小分类损失函数Lp(l,k)。(3)确定分类个数 k。 (4 )最优分类。5.7 检测某类产品的重量, 抽了六个样品, 每个样品只测了一个指标,分别为1, 2,3,6,9,11.试用最短距离法,重心法进行聚类分析。(1 )用最短距离法进行聚类分析。采用绝对值距离,计算样品间距离阵 ( 0)1 2 3 4 5 6011 022 1 035 4 3 0 48 7 6 3 0510 9 8 5 2 06由上表易知 中最小元素是 于是将 , , 聚为一类,记为( 0) 12=23=1

41、 1 2 3 7计算距离阵 ( 1)7 4 5 6073 0 46 3 0 58 5 2 0 6中最小元素是 =2 于是将 , 聚为一类,记为( 1) 56 5 6 8计算样本距离阵 ( 2)7 4 8073 046 3 08中最小元素是 于是将 , 聚为一类,记为( 2) 47=48=3 4 7, 8 9因此,(2 )用重心法进行聚类分析计算样品间平方距离阵 2( 0)1 2 3 4 5 6011 024 1 0325 16 9 0 464 49 36 9 05100 81 64 25 4 06易知 中最小元素是 于是将 , , 聚为一类,记为2( 0) 212=223=1 1 2 3 7计

42、算距离阵 2( 1)7 4 5 60716 0 449 9 0 581 25 4 0 6注:计算方法 ,其他以此类推。247=613(1+2+1)2中最小元素是 =4 于是将 , 聚为一类,记为2( 1) 256 5 6 8计算样本距离阵 2( 2)7 4 80716 0464 16 08中最小元素是 于是将 , 聚为一类,记为2( 2) 247=248=16 4 7, 8 9因此,5.8 下表是 15 个上市公司 2001 年的一些主要财务指标,使用系统聚类法和 K均值法分别对这些公司进行聚类,并对结果进行比较分析。公司编号净资产收益率每股净利润总资产周转率资产负债率流动负债比率每股净资产净

43、利润增长率总资产增长率1 11.09 0.21 0.05 96.98 70.53 1.86 -44.04 81.992 11.96 0.59 0.74 51.78 90.73 4.95 7.02 16.113 0 0.03 0.03 181.99 100 -2.98 103.33 21.184 11.58 0.13 0.17 46.07 92.18 1.14 6.55 -56.325 -6.19 -0.09 0.03 43.3 82.24 1.52 -1713.5 -3.366 10 0.47 0.48 68.4 86 4.7 -11.56 0.857 10.49 0.11 0.35 82.9

44、8 99.87 1.02 100.23 30.328 11.12 -1.69 0.12 132.14 100 -0.66 -4454.39 -62.759 3.41 0.04 0.2 67.86 98.51 1.25 -11.25 -11.4310 1.16 0.01 0.54 43.7 100 1.03 -87.18 -7.4111 30.22 0.16 0.4 87.36 94.88 0.53 729.41 -9.9712 8.19 0.22 0.38 30.31 100 2.73 -12.31 -2.7713 95.79 -5.2 0.5 252.34 99.34 -5.42 -9816.52 -46.8214 16.55 0.35 0.93 72.31 84.05 2.14 115.95 123.4115 -24.18 -1.16 0.79 56.26 97.8 4.81 -533.89

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报