ImageVerifierCode 换一换
格式:DOC , 页数:50 ,大小:965KB ,
资源ID:4209919      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-4209919.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(实验报告八-SAS聚类分析与判别分析.doc)为本站会员(cjc2202537)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

实验报告八-SAS聚类分析与判别分析.doc

1、实 验 报 告实验项目名称 聚类分析与判别分析 所属课程名称 统计分析及 SAS 实现 实 验 类 型 验证性实验 实 验 日 期 2016-12-19 班 级 数学与应用数学 学 号 姓 名 成 绩 实验概述:【实验目的及要求】掌握 SAS 中根据样本或变量按照其性质上的亲疏、相似程度进行聚类分析的方法以及判别样品所属类型的判别分析的方法。掌握 SAS 系统中编程实现聚类分析与判别分析的方法。【实验原理】SAS 软件的操作方法及原理【实验环境】(使用的软件)SAS 9.3实验内容:【实验方案设计】 1理解聚类分析、判别分析的基本概念;2掌握系统聚类法的基本思想和步骤;3掌握判别分析的距离判别

2、法、Fisher 判别法和 Bayes 判别法;4利用编程 proc 过程步实现系统聚类法与判别分析。【实验过程】(实验步骤、记录、数据、分析) 【练习8-1 】为了更深入了解我国人口文化程度状况,现利用1990年全国人口普查数据对全国30个省、直辖市、自治区进行聚类分析。分析选用了三个指标变量:大学以上文化程度的人口占全部人口的比例(DXBZ),初中文化程度的人口占全部人口的比例(CZBZ),文盲半文盲人口占全部人口的比例(DXBZ),原始数据如表所示。表 1990年全国人口普查文化程度人口比例Region Num DXBZ CZBZ WMBZBeijing 1 9.3 30.55 8.7T

3、ianjing 2 4.67 29.38 8.92Hebei 3 0.96 24.69 15.21Shanxi 4 1.38 29.24 11.3Neimeng 5 1.48 25.47 15.39Liaoning 6 2.6 32.32 8.81Jilin 7 2.15 26.31 10.49Heilongj 8 2.14 28.46 10.87Shanghai 9 6.53 31.59 11.04Jiangsu 10 1.47 26.43 17.23Zhejiang 11 1.17 23.74 17.46Anhui 12 0.88 19.97 24.43Fujian 13 1.23 16.

4、87 15.63Jiangxi 14 0.99 18.84 16.22Shandong 15 0.98 25.18 16.87Henan 16 0.85 26.55 16.15Hubei 17 1.57 23.16 15.79Hunan 18 1.14 22.57 12.1Guangdong 19 1.34 23.04 10.45Guangxi 20 0.79 19.14 10.61Hainan 21 1.24 22.53 13.97Sichuan 22 0.96 21.65 16.24Guizhou 23 0.78 14.65 24.27Yunnan 24 0.81 13.85 25.44X

5、izang 25 0.57 3.85 44.43Shanxi 26 1.67 24.36 17.62Gansu 27 1.1 16.85 27.93Qinghai 28 1.49 17.76 27.7Ningxia 29 1.61 20.27 22.06Xinjjiang 30 1.85 20.66 12.75【解答】利用proc cluster过程步实现聚类分析:libname lmf “E:sas homeworklmf“;proc cluster data=Lmf.p81 standard method=ward outtree=Lmf.tree1 pseudo;var DXBZ CZB

6、Z WMBZ;copy Region;run;结果:表8.1 Wards Minimum Variance Cluster AnalysisEigenvalues of the Correlation MatrixEigenvalue Difference Proportion Cumulative1 2.21945956 1.58864479 0.7398 0.73982 0.63081477 0.48108909 0.2103 0.95013 0.14972568 0.0499 1.0000The data have been standardized to mean 0 and vari

7、ance 1Root-Mean-Square Total-Sample Standard Deviation 1Root-Mean-Square Distance Between Observations 2.44949由表8.1 Ward离差平方和法得出相关系数的特征值,其中各列数据分别为特征值(Eigenvalue)、与相邻特征值之差(Difference)、占总方差的百分比(Proportion)、占总方差累计百分比(Cumulative)。本题数据经过标准化,样本均值(mean)为0,方差(variance)为1。其中样本均方根标准差(Root-Mean-Square Total-Sa

8、mple Standard Deviation)为1,样品间均方根距离(Root-Mean-Square Distance Between Observations)为2.44949。表8.2 Cluster HistoryNumberofClustersClusters JoinedFreq SemipartialR-SquareR-Square Pseudo FStatisticPseudot-SquaredTie29 OB23 OB24 2 0.0002 1.00 150 .28 OB3 OB15 2 0.0003 .999 135 .27 OB18 OB21 2 0.0004 .999

9、 126 .26 OB27 OB28 2 0.0004 .999 123 .25 OB5 OB10 2 0.0005 .998 117 .24 OB11 OB26 2 0.0005 .998 115 .23 CL28 OB16 3 0.0006 .997 111 1.922 CL24 OB17 3 0.0006 .997 109 1.321 OB13 OB14 2 0.0007 .996 106 .20 OB7 OB8 2 0.0007 .995 106 .19 CL27 OB19 3 0.0010 .994 102 2.718 CL23 CL25 5 0.0013 .993 96.9 2.8

10、17 OB12 OB29 2 0.0015 .991 92.6 .16 CL22 OB22 4 0.0018 .990 88.2 3.215 CL19 OB30 4 0.0020 .988 84.9 3.014 OB4 CL20 3 0.0021 .985 83.4 2.813 CL15 OB20 5 0.0038 .982 75.8 3.412 CL18 CL16 9 0.0046 .977 69.6 5.811 CL29 CL26 4 0.0055 .972 64.8 17.610 CL14 OB6 4 0.0063 .965 61.6 4.59 OB2 OB9 2 0.0070 .958

11、 60.2 .8 CL17 CL11 6 0.0106 .948 56.8 5.67 CL21 CL13 7 0.0108 .937 56.8 6.96 CL12 CL7 16 0.0292 .908 47.1 14.25 OB1 CL9 3 0.0308 .877 44.5 4.44 CL6 CL10 20 0.0608 .816 38.4 16.33 CL8 OB25 7 0.1113 .705 32.2 30.52 CL5 CL4 23 0.3030 .402 18.8 38.41 CL2 CL3 30 0.4016 .000 . 18.8由表8.2聚类分析的完整过程(Cluster H

12、istory)得出,类别数量(Numberof Clusters)表示新类别形成后类别的总数;合并的类别(Clusters Joined)指明这一步合并了哪两个类,例如第一行表示聚为29类,合并了Num为23和Num为24的两个地区四川(Sichuan)和贵州(Guizhou),例如聚为19类,合并了类水平为27(CL27)与Num为19的两类,也就是OB18(Hunan)、OB20(Guangxi)、OB19(Guangdong)。样品频数(FREQ)表示这次合并得到的类有多少个样品。通过观察分类数的统计量半偏R 2(Semipartial R-Square),R 2(R-Square),伪

13、F统计量(Pseudo F Statistic),伪t 2统计量(Pseudot-Squared),分析出分类个数的结果:半偏R 2(Semipartial R-Square)最大值与次大值分别为类别数量(Numberof Clusters)为1、2时的0.4016、0.3030,说明将地区分为2类或3类较好;从表8.1中R 2(R-Square)看出,数据是逐渐减小,但在类别数量(Numberof Clusters)为3时,突然骤减,说明分为4个类合适;伪F统计量(Pseudo F Statistic)数据是逐渐减小,没有骤减情况出现,说明不能用伪F统计量进行分类;伪t 2统计量(Pseud

14、ot-Squared)最大值与次大值分别为类别数量(Numberof Clusters)为2、3时的38.4、30.5,说明将地区分为3类或4类较好。距离最小的候选类对数(Tie),本题无数据。 图8.1 聚类谱系图图8.1为proc cluster过程不得出的谱系图,为更方便直观,我们利用proc tree过程步得出图8.2。利用proc tree过程步得出聚类谱系图。过程步:proc tree data=Lmf.tree1 horizontal;id region;run;结果:The TREE ProcedureWards Minimum Variance Cluster Analysi

15、s图8.2 聚类谱系图由表8.2、图8.2得出,分为三类较合适,第一类为北京、天津、上海,第二类为河北、山东、河南、内蒙、江苏、浙江、山西、湖北、四川、福建、江西、湖南、海南、广东、新疆、广西、吉林、黑龙江、辽宁、陕西,第三类为安徽、宁夏、贵州、云南、甘肃、青海、西藏。【练习8-2 】有6个铅弹头,用“中子活化”方法测得7种微量元素含量数据。表 7种微量元素含量数据Num Ag Al Cu Ca Sb Bi Sn1 0.05798 5.515 347.1 21.91 8586 1742 61.692 0.08441 3.97 347.2 19.71 7947 2000 24403 0.0721

16、7 1.153 54.85 3.052 3860 1445 94974 0.1501 1.702 307.5 15.03 12290 1461 63805 5.744 2.854 229.6 9.657 8099 1266 125206 0.213 0.7058 240.3 13.91 8980 2820 4135试用多种系统聚类分析方法对6个铅弹头和7种微量元素进行分类,并进行分类结果。试用VARCLUS过程对7中微量元素进行分类。【解答】通过比较三种系统聚类的方法类平均法、ward离差平方和法、最长距离法,对6个铅弹头进行分类。利用proc cluster过程步实现系统聚类分析中类平均法聚

17、类:lmf “E:sas homeworklmf“;proc cluster data=Lmf.p82 standard method=average outtree=Lmf.tree2 pseudo;var Ag Al Cu Ca Sb Bi Sn;copy Num;run;结果:表 8.3 Average Linkage Cluster AnalysisEigenvalues of the Correlation MatrixEigenvalue Difference Proportion Cumulative1 3.74048086 2.08236043 0.5344 0.53442 1

18、.65812043 0.61144007 0.2369 0.77123 1.04668036 0.51883529 0.1495 0.92084 0.52784507 0.50097179 0.0754 0.99625 0.02687328 0.02687328 0.0038 1.00006 0.00000000 0.00000000 0.0000 1.00007 0.00000000 0.0000 1.0000The data have been standardized to mean 0 and variance 1Root-Mean-Square Total-Sample Standa

19、rd Deviation 1Root-Mean-Square Distance Between Observations 3.741657由表8.3 类平均法(Average Linkage)得出相关系数的特征值,其中各列数据分别为特征值(Eigenvalue)、与相邻特征值之差(Difference)、占总方差的百分比(Proportion)、占总方差累计百分比(Cumulative)。本题数据经过标准化,样本均值(mean)为0,方差(variance)为1。其中样本均方根标准差(Root-Mean-Square Total-Sample Standard Deviation)为1,样品间

20、均方根距离(Root-Mean-Square Distance Between Observations)为3.741657。表8.4 Cluster HistoryNumberofClustersClusters Joined Freq Pseudo FStatisticPseudot-SquaredNorm RMSDistanceTie5 OB1 OB2 2 12.8 . 0.30924 CL5 OB4 3 3.4 7.5 0.75113 CL4 OB6 4 3.1 2.0 0.82982 OB3 OB5 2 3.7 . 0.97811 CL3 CL2 6 . 3.7 1.1594由表8.

21、4聚类分析的完整过程(Cluster History)得出,类别数量(Numberof Clusters)表示新类别形成后类别的总数;合并的类别(Clusters Joined)指明这一步合并了哪两个类,例如第二行表示聚为4类,合并了类水平为5(CL5)与Num为4的两类,也就是OB1、OB2、OB4三个铅弹头。样品频数(FREQ)表示这次合并得到的类有多少个样品。通过观察分类数的统计量伪t 2统计量(Pseudot-Squared),分析出分类个数的结果:伪F统计量(Pseudo F Statistic)最大值与次大值分别为类别数量(Number of Clusters)为5、2时的12.8

22、、3.7,说明将铅弹头分为6类或3类较好;伪t 2统计量(Pseudot-Squared)最大值与次大值分别为类别数量(Number of Clusters)为4、1时的7.5、3.7,说明将铅弹头分为5类或2类较好。Norm RMS Distance数据在类别数量(Number of Clusters)为4时骤减,说明分为5类较合适。距离最小的候选类对数(Tie),本题无数据。 图8.3 聚类谱系图由表8.4、图8.3得出,分为五类或四类较合适,第一类为5号铅弹头,第二类为3号铅弹头,第三类为6号铅弹头,第四类为4号铅弹头,第五类为1、2号铅弹头;或者第一类为5号铅弹头,第二类为3号铅弹头,

23、第三类为6号铅弹头,第四类为1、2、4号铅弹头。利用proc cluster过程步实现系统聚类分析中ward离差平方和法聚类:libname lmf “E:sas homeworklmf“;proc cluster data=Lmf.p82 standard method=ward outtree=Lmf.tree2 pseudo;var Ag Al Cu Ca Sb Bi Sn;copy Num;run;结果:表 8.5 Wards Minimum Variance Cluster AnalysisEigenvalues of the Correlation MatrixEigenvalue

24、 Difference Proportion Cumulative1 3.74048086 2.08236043 0.5344 0.53442 1.65812043 0.61144007 0.2369 0.77123 1.04668036 0.51883529 0.1495 0.92084 0.52784507 0.50097179 0.0754 0.99625 0.02687328 0.02687328 0.0038 1.00006 0.00000000 0.00000000 0.0000 1.00007 0.00000000 0.0000 1.0000The data have been

25、standardized to mean 0 and variance 1Root-Mean-Square Total-Sample Standard Deviation 1Root-Mean-Square Distance Between Observations 3.741657由表8.5 Ward离差平方和法(Wards Minimum Variance Method)得出相关系数的特征值,其中各列数据分别为特征值(Eigenvalue)、与相邻特征值之差(Difference)、占总方差的百分比(Proportion)、占总方差累计百分比(Cumulative)。本题数据经过标准化,样

26、本均值(mean)为0,方差(variance)为1。其中样本均方根标准差(Root-Mean-Square Total-Sample Standard Deviation)为1,样品间均方根距离(Root-Mean-Square Distance Between Observations)为3.741657。表8.6 Cluster HistoryNumberofClustersClusters JoinedFreqSemipartialR-SquareR-SquarePseudo FStatisticPseudot-SquaredTie5 OB1 OB2 2 0.0191 .981 12.

27、8 .4 OB4 OB6 2 0.1168 .864 4.2 .3 OB3 OB5 2 0.1913 .673 3.1 .2 CL5 CL4 4 0.1930 .480 3.7 2.81 CL2 CL3 6 0.4797 .000 . 3.7由表8.6聚类分析的完整过程(Cluster History)得出,类别数量(Numberof Clusters)表示新类别形成后类别的总数;合并的类别(Clusters Joined)指明这一步合并了哪两个类,例如第三行表示聚为3类,合并了Num为3与Num为5的两类,也就是3、4号铅弹头。样品频数(FREQ)表示这次合并得到的类有多少个样品。通过观察分

28、类数的统计量半偏R 2(Semipartial R-Square),R 2(R-Square),伪F统计量(Pseudo F Statistic),伪t 2统计量(Pseudot-Squared),分析出分类个数的结果:半偏R 2(Semipartial R-Square)最大值与次大值分别为类别数量(Numberof Clusters)为1、2时的0.4797、0.1930,说明将铅弹头分为2类或3类较好;从表8.6中R 2(R-Square)看出,数据是逐渐减小,但在类别数量(Numberof Clusters)为3时,突然骤减,说明分为4个类合适;伪F统计量(Pseudo F Stati

29、stic)数据减小,在类别数量(Number of Clusters)为2时突然增大,说明将铅弹头分为3类较好。;伪t 2统计量(Pseudot-Squared)最大值与次大值分别为类别数量(Number of Clusters)为1、 2时的2.8、3.7,说明将铅弹头分为3类或2类较好。距离最小的候选类对数(Tie),本题无数据。 图8.4 聚类谱系图由表8.6、图8.4得出,分为四类较合适,第一类为5号铅弹头,第二类为3号铅弹头,第三类为4、6号铅弹头,第四类为1、2号铅弹头。利用proc cluster过程步实现系统聚类分析中最长距离法聚类:libname Lmf “E:sas hom

30、eworklmf“;proc cluster data=Lmf.p82 standard method = complete outtree=Lmf.tree3 pseudo;var Ag Al Cu Ca Sb Bi Sn;copy Num;run;结果:表 8.7 Complete Linkage Cluster AnalysisEigenvalues of the Correlation MatrixEigenvalue Difference Proportion Cumulative1 3.74048086 2.08236043 0.5344 0.53442 1.65812043 0.

31、61144007 0.2369 0.77123 1.04668036 0.51883529 0.1495 0.92084 0.52784507 0.50097179 0.0754 0.99625 0.02687328 0.02687328 0.0038 1.00006 0.00000000 0.00000000 0.0000 1.00007 0.00000000 0.0000 1.0000The data have been standardized to mean 0 and variance 1Root-Mean-Square Total-Sample Standard Deviation

32、 1Mean Distance Between Observations 3.60714由表8.7 Ward离差平方和法(Wards Minimum Variance Method)得出相关系数的特征值,其中各列数据分别为特征值(Eigenvalue)、与相邻特征值之差(Difference)、占总方差的百分比(Proportion)、占总方差累计百分比(Cumulative)。本题数据经过标准化,样本均值(mean)为0,方差(variance)为1。其中样本均方根标准差(Root-Mean-Square Total-Sample Standard Deviation)为1,样品间均方根距离

33、(Root-Mean-Square Distance Between Observations)为3.60714。表8.8 Cluster HistoryCluster HistoryNumberofClustersClusters Joined Freq Pseudo FStatisticPseudot-SquaredNormMaximumDistanceTie5 OB1 OB2 2 12.8 . 0.32074 OB4 OB6 2 4.2 . 0.79273 OB3 OB5 2 3.1 . 1.01452 CL5 CL4 4 3.7 2.8 1.02081 CL2 CL3 6 . 3.7

34、1.4611由表8.8聚类分析的完整过程(Cluster History)得出,类别数量(Numberof Clusters)表示新类别形成后类别的总数;合并的类别(Clusters Joined)指明这一步合并了哪两个类。样品频数(FREQ)表示这次合并得到的类有多少个样品。通过观察分类数的统计量伪F统计量(Pseudo F Statistic),伪t 2统计量(Pseudot-Squared),得出的结果与Ward离差平方和法的结果一样。但在Norm Maximum Distance中类别数量(Number of Clusters)为4、3时增大的数值较小,说明将铅弹头分为4类或3类较好。

35、距离最小的候选类对数(Tie),本题无数据。 图8.5 聚类谱系图由表8.8、图8.5得出,分为四类较合适,第一类为5号铅弹头,第二类为3号铅弹头,第三类为4、6号铅弹头,第四类为1、2号铅弹头。通过比较三种系统聚类的方法类平均法、ward 离差平方和法、最长距离法,综合比较对 6 个铅弹头分为四类较合适。利用proc varclus过程步实现变量聚类分析:proc varclus data=Lmf.p82 ourtree=Lmf.tree3;var Ag Al Cu Ca Sb Bi Sn;run;表 8.9 Oblique Principal Component Cluster Analy

36、sisObservations 6 Proportion 0Variables 7 Maxeigen 1Clustering algorithm converged.Cluster Summary for 1 ClusterCluster Members ClusterVariationVariationExplainedProportionExplainedSecondEigenvalue1 7 7 3.740481 0.5344 1.6581Total variation explained = 3.740481 Proportion = 0.5344Cluster 1 will be s

37、plit because it has the largest second eigenvalue, 1.65812, which is greater than the MAXEIGEN=1 value.表 8.9 分解法思想进行斜交主成分聚类(Oblique Principal Component Cluster Analysis),把全部 7 个变量聚成一类,能解释的方差为 3.740481,占总方差的 53.44%,第二特征值为 1.65811,并预告这一类将被分裂。表 8.10 Cluster Summary for 2 Clusters:Cluster Members Cluste

38、rVariationVariationExplainedProportionExplainedSecondEigenvalue1 4 4 2.925514 0.7314 0.93802 3 3 2.1376 0.7125 0.5903Total variation explained = 5.063113 Proportion = 0.7233由表 8.10 分为两类的聚类概要(Cluster Summary for 2 Clusters)得出,由类内变量个数(Cluster Variation)可知第一类有 4 个变量,第二类有 3 个变量,能解释的方差(VariationExplained

39、)为 5.063113,占总方差(Proportion Explained)的 72.33%,第二特征值(Second Eigenvalue)分别为 0.9380、0.5903。表 8.11 R-squared with:2 Clusters R-squared withCluster Variable OwnClusterNextClosest1-R*2RatioVariableLabelCluster 1 Al 0.5188 0.0169 0.4895 AlCu 0.9805 0.1605 0.0232 CuCa 0.9397 0.3572 0.0938 CaSb 0.4865 0.028

40、5 0.5286 SbCluster 2 Ag 0.7378 0.0179 0.2670 AgBi 0.5823 0.0241 0.4281 BiSn 0.8175 0.4918 0.3591 Sn由表 8.11 相关系数的平方( R-squared with)可知 ,每个变量与所属类分量之间相关系数的平方 R2(R-Squared With Own Cluster)例如变量 Al 在第 1 类中,它与第 1 类分量之间的 R2是 0.5188。每个变量与相邻类的类分量之间的相关系数的平方 R2(R-squared with Next Closest),例如:Al 与第 2 类分量之间的相关系

41、数平方 R2为 0.0169,该值较小,说明分类较合理。由于Closet)Nx withsquaredR(1urOn*2atio1此值越小,表明分类越合理。从此列可看出,比值不是很大,说明这 7 个变量分成两类可能较合适的。表 8.12 Standardized Scoring CoefficientsCluster 1 2Ag Ag 0.000000 0.401833Al Al 0.246204 0.000000Cu Cu 0.338476 0.000000Ca Ca 0.331353 0.000000Sb Sb 0.238418 0.000000Bi Bi 0.000000 -.35697

42、5Sn Sn 0.000000 0.422982由表 8.12 从标准化变量预测类分量的标准回归系数(Standardized Scoring Coefficients)看出各变量只对本类的类分量有贡献,对其他类分量的回归系数为 0。若设 C1、C 2分别为第一类、第二类分量,则有: SbCauAl 23841.0315.038476.046.1 nBig9.9.2表 8.13 Cluster StructureCluster 1 2Ag Ag -.133896 0.858957Al Al 0.720274 -.130117Cu Cu 0.990216 -.400574Ca Ca 0.9693

43、77 -.597652Sb Sb 0.697494 -.168898Bi Bi 0.155401 -.763069Sn Sn -.701315 0.904167由表 8.13 给出类结构( Cluster Structure)得出,因类结构相当于因子分析中的因子模型,则有: 218597.036.0CAg21307.7204. CAl5496Cu219a80740CSb2163.5.Bi97n表 8.14 Inter-Cluster Correlations:Cluster 1 21 1.00000 -0.405922 -0.40592 1.00000No cluster meets the

44、criterion for splitting.由表 8.14 类内相关系数(Inter-Cluster Correlations)得出相关系数为0.40592,大于 0.3,小于 0.5,第一、二类为低度相关。表 8.15:NumberofClustersTotalVariationExplainedbyClustersProportionofVariationExplainedby ClustersMinimumProportionExplainedby aClusterMaximumSecondEigenvaluein aClusterMinimumR-squaredfor aVaria

45、bleMaximum1-R*2Ratiofor aVariable1 3.740481 0.5344 0.5344 1.658120 0.17312 5.063113 0.7233 0.7125 0.938033 0.4865 0.5286由表 8.15 汇总信息得出,第一类能解释的总方差量为 3.740481,解释的方差占 7 个变量的总方差的 53.44%,由一类成分能解释的方差占全部 7 个变量的总方差的最小百分比为 0.5344,1 个变量与其所在类的类分量的最小相关系数的平方 R2(Minimum R-squared for a Variable)为 0.1731,各类中nextRo

46、w)/()(22的最大比值(Maximum 1-R*2 Ratio for a Variable)为空。第二类能解释的总方差量为 5.063113,解释的方差占 7 个变量的总方差的 72.33%,由一类成分能解释的方差占全部 7 个变量的总方差的最小百分比为 0.7125,1 个变量与其所在类的类分量的最小相关系数的平方 R2(Minimum R-squared for a Variable)为 0.4865,各类中 nextow)1/()(2的最大比值(Maximum 1-R*2 Ratio for a Variable)为 0.5286,。最大的第二特征值分成两类时已经小于 1,说明分类

47、数为二合适。图8.6 聚类谱系图由图8.6得出,分为两类较合适,第一类为Sn、Bi、Ag,第二类为Sb、Ca、Cu、Al。【练习8-4 】根据经验,今天与昨天的湿度差x 1及今天的压温差(气压与温度之差)x2是预报明天是否下雨的两个重要因素。现收集到一批样本数据如表。今测得 , ,假定两组的协方差矩阵相等。6.01.32RaD Wet PesT1 -1.9 3.21 -6.9 10.41 5.2 21 5 2.51 7.3 01 6.8 12.71 0.9 -15.41 -12.5 -2.51 1.5 1.31 3.8 6.82 0.2 6.22 -0.1 7.52 0.4 14.62 2.7

48、 8.32 2.1 0.82 -4.6 4.32 -1.7 10.92 -2.6 13.12 2.6 12.82 -2.8 10(“1”表示雨天,“2”表示非雨天)试用距离判别法预报明天是否会下雨,并估计误判概率;假定两组 均服从二元正态分布,且根据其他信息及经验给出先验,21)(x概率 , ,试用贝叶斯判别法预报明天是否下雨;3.01p7.【解答】利用编程过程实现题目数据:data Lmf.p84;input RaD Wet PesT;cards;1 -1.9 3.2 1 -6.9 10.4 1 5.2 2.0 1 5.0 2.5 1 7.3 0.0 1 6.8 12.7 1 0.9 -15

49、.4 1 -12.5 -2.5 1 1.5 1.3 1 3.8 6.82 0.2 6.2 2 -0.1 7.5 2 0.4 14.6 2 2.7 8.3 2 2.1 0.8 2 -4.6 4.3 2 -1.7 10.9 2 -2.6 13.1 2 2.6 12.8 2 -2.8 10.0; run;试用距离判别法预报明天是否会下雨,并估计误判概率;利用proc discrim过程步实现距离判别分析:proc discrim data=lmf.p84 distance lister;class RaD;var Wet PesT;run;结果:表 8.16 The DISCRIM ProcedureTotal Sample Size 20 DF Total 19Variables 2 DF Within Classes 18Classes 2 DF Between Classes 1由表 8.16 判别分析过程(The DISCRIM Procedure)得知,总样本数(Total Sample Size)为 20

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报