收藏 分享(赏)

聚类分析实验报告.doc

上传人:weiwoduzun 文档编号:4294067 上传时间:2018-12-21 格式:DOC 页数:12 大小:336.50KB
下载 相关 举报
聚类分析实验报告.doc_第1页
第1页 / 共12页
聚类分析实验报告.doc_第2页
第2页 / 共12页
聚类分析实验报告.doc_第3页
第3页 / 共12页
聚类分析实验报告.doc_第4页
第4页 / 共12页
聚类分析实验报告.doc_第5页
第5页 / 共12页
点击查看更多>>
资源描述

1、应用多元统计分析课 程 实 验 报 告实验名称:用聚类分析的方法研究山东省 17 个市的产业类型的差异化学生班级: 统计 0901 学生姓名: 贾绪顺 杜春霖 陈维民 张鹏 指导老师:_张艳丽_完成日期: 2011.12.12 一, 实验内容根据聚类分析的原理,使用系统聚类分析的COMplete linkage (最长距离法)和WARD(离差平方和法),运用SPSS软件对2009年山东省17个城市生产总值的数据进行Q型聚类,将17个城市分为5类,发现不同城市产业类型的差异化,并解释造成这种差异的原因二, 实验目的希望通过实验研究山东省 17 个市的生产总值的差异化,并分析造成这种差异化的原因,

2、可以更深刻的掌握聚类分析的原理;进一步熟悉聚类分析问题的提出、解决问题的思路、方法和技能;达到能综合运用所学基本理论和专业知识;锻炼收集、整理、运用资料的能力的目的;希望能会调用 SPSS 软件聚类分析有关过程命令,并且可以对数据处理结果进行正确判断分析,作出综合评价。三, 实验方法背景与原理3.1方法背景聚类分析又称群分析,是多元统计分析中研究样本或指标的一种主要的分类方法,在古老的分类学中,人们主要靠经验和专业知识,很少利用数学方法。随着生产技术和科学的发展,分类越来越细,以致有时仅凭经验和专业知识还不能进行确切分类,于是数学这个有用的工具逐渐被引进到分类学中,形成了数值分类学。近些年来,

3、数理统计的多元分析方法有了迅速的发展,多元分析的技术自然被引用到分类学中,于是从数值分类学中逐渐的分离出聚类分析这个新的分支。结合了更为强大的数学工具的聚类分析方法已经越来越多应用到经济分析和社会工作分析中。在经济领域中,主要是根据影响国家、地区及至单个企业的经济效益、发展水平的各项指标进行聚类分析,然后很据分析结果进行综合评价,以便得出科学的结论。聚类分析源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。聚类分析的主要应用,在商业方面,最常见的就是客户群的

4、细分问题,可以从客户人口特征、消费行为和喜好方面的数据,对客户进行特征分析,充分利用数据进行客户的客观分组,使诸多特征有相似性的客户能被分在同一组内,而不相似的客户能被区分到另一些组中。在生物方面,聚类分析可以用来对动植物进行分类,对基因进行分类等,从而获取对动植物种群固有结构的认识,对物种进行很好的分类。在电子商务方面,聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过对客户的浏览行为、浏览网站、客户的年龄等,对客户进行分析,找出不同客户的共同特征,通过共同特征对客户进行分类,可以帮助电子商户更好的了解他们的客户,并向客户提供更合适的服务。在保险行业上,根据产、寿险进行分类,不

5、同类别的公司进行分类,对保险投资比例进行分类管理,从而提高保险投资的效率。3.2 实验的方法与原理聚类分析是研究“物以类聚”的一种科学有效的方法。做聚类分析时,出于不同的目的和要求,可以选择不同的统计量和聚类方法。聚类分析方法中最常用的一种是系统聚类法,其基本思想是:先将待聚类的 n 个样品(或者变量)各自看成一类,共有 n 类;然后按照选定的方法计算每两类之间的聚类统计量,即某种距离(或者相似系数),将关系最为密切的两类合为一类,其余不变,即得到n-1 类;再按照前面的计算方法计算新类与其他类之间的距离(或相似系数),再将关系最为密切的两类并为一类,其余不变,即得到 n-2 类;如此下去,每

6、次重复都减少一类,直到最后所有的样品(或者变量)都归为一类为止。系统聚类分析有两种类型:Q 型样本聚类和 R 型变量聚类。这里我们运用的是 Q 型聚类。Q 型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来。本实验中,分别采用最长距离法和离差平方和法对样本进行分类。方法一:用最长距离对样本进行分类个体与小类间的最长距离是该个体与小类每个个体距离的最大值在聚类分析前,首先把数据进行标准化变换 ,njiRxjiij ,21, 变换后的数据,每个变量样本均值为 0,标准差为 1,而且标准化变换后的数据 与变ijx量的量纲无关。采用系统聚类的方法,用最长距离法计算欧氏距

7、离,其中 表示第 i 个样品的第 t 个指标的观测值,njixdmijttij ,21,12itx表示第 j 个样品的第 t 个指标的观测值, 为第 i 个样品与第 j 个样品之间的欧式距jtx ijd离。若 越小,那么第 i 与 j 两个样品之间的性质就越接近。最长距离法求类与类之间的ijd距离,设类 和 合并 后,按照最长距离计算新类 与 其他类的类间距离,其递pGqr rGk推公式为 , ,max,=maxax=m,rk pkqkrkijrpqijijpkqiGj iGjjGDddD 方法二:用离差平方和法(WARD)对样品进行分类离差平方和法是 Ward(1936)提出的,也称为 Wa

8、rd 法。它基于方差分析思想,如果类分得正确,则同类样品之间的离差平方和应当较小,不同类样品之间的离差平方和应当较大。假定已将 n 个样品分为 k 类,记为 , , , 表示 类的样品个数, 表1G2ktntG(t)X示 的重心, 表示 中第 i 个样品(i=1, ) ,则 中样品的离差平方和为tG(t)iX( ) t tt,tn(t)(t)(t)(t)i i1=iWXX( ) ( )其中 , 为 m 维向量, 为一数值(t=1,2,k) 。(t)i( ) (t) tk 个类的总离差平方和为.tnk(t)(t)(t)(t)ti it=11iXX( ) ( )当 k 固定时,要选择使 达到极小的

9、分类。WWard 法的基本思想是,先将 n 个样品各自成一类,此时 =0;然后每次将其中某两W类合并为一类,因每缩小一类离差平方和就要增加,每次选择使 增加最小的两类进行合并,直至所有样品合并为一类为止。Ward 法把某两类合并后增加的离差平方和看成为类间的平方距离,即令 2pqrpq=D表示类 和 的平方距离,其中 , , , 分别为 , ,pGq ,rGrpqrGp类中样品的离差平方和。利用 的定义,可得q rWrn(r)(r)(r)(r)t tt1=WXX( ) ( ),p qn n()(r)(p)(r)()(r)(q)(r)i i i ii1 i1X ( ) ( ) ( ) ( )其中

10、 .经整理可得rpqXXn.2pqqpqrDX当样品间距离采用欧氏距离时,上式可表为,22pqrnd其中 表示 的重心 与 的平方距离:2pqd,pqGpXq.2,pd这表明此时 Word 法定义的类间距离与重心法只相差一个常数倍。当 和 合并为 后, 与其他类 的距离有如下递推公式pqrrkG2222kpkqr kpqrrknnnDD上述两种方法都是将性质接近的样品划为一类。聚类分析依据的基本原则是直接比较样本中各事物之间的性质,将性质相近的归为一类,而将性质相差比较大的分在不同类。也就是说,同类事物之间性质差异小,类与类之间的性质相差比较大。系统聚类分析是聚类分析中应用的最广泛的一种方法。

11、首先将 n 个样品每个自成一类,然后每次将具有最小距离的两类合并成一类,合并后重新计算类与类之间的距离,这个过程一直持续到所有样品归为一类为止。分类结果可以画成一张直观的聚类谱系图。应用系统聚类法进行聚类分析的步骤如下:确定待分类的样品的指标收集数据对数据进行变换处理使各个样品自成一类,即 n 个样品一共有 n 类计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两个类并成一类并类后,如果类的个数大于 1,那么重新计算各类之间的距离,继续并类,直至所有样品归为一类为止最后绘制系统聚类谱系图,按不同的分类标准或不同的分类原则,得出不同的分类结果。四、实验数据与实验结果我们根据2010年山东统

12、计年鉴的数据,运用SPSS软件进行分析,得到如下实验数据与结果:1,原始数据表 1-1 山东省 17 城市生产总值原始数据地区 X1 X2 X3 X4 X5 X6 X7 X8济南市 20686756 20704772 3918747 20639608 3784306 8943039 214.9 18024610青岛市 27503964 70619047 31956998 55733587 4831806 8137064 274.8 19611331淄博市 14061888 58081899 9491580 30244829 1884145 5053392 105.7 10056751枣庄市 5

13、064995 22437375 1753203 6651504 2207428 1592207 66.0 4228513东营市 15345343 41199590 4554293 15809465 1696382 2383391 67.4 3887417烟台市 16417465 66453587 38086756 49475292 5975883 5008978 175.8 14126854潍坊市 10497502 60488560 11709800 26141577 6548044 4473999 183.2 12148004济宁市 13006720 22645751 5242998 160

14、33364 6219252 2895386 130.3 10042495泰安市 9325693 25301440 1632878 13970449 3382994 4859536 77.3 6978426威海市 1821752 35641945 14747879 20280903 3008526 1668404 81.8 7092776日照市 1731442 18934672 5202300 4998376 1762907 1478668 50.9 3195391莱芜市 5668429 5868280 363118 3045801 725138 451164 21.3 1888211临沂市 3

15、547197 39162992 7750708 15125262 4778789 2876138 161.9 11587531德州市 4265744 33622261 2620289 10973162 4432973 1295397 82.8 6586211聊城市 7202729 31048684 1005847 11917024 4032858 1027917 87.9 5585951滨州市 3256739 33182983 2627798 8352382 3004112 1480444 72.2 4507461菏泽市 3674339 21236454 1950326 6628429 394

16、5037 1340737 108.8 6655095(来源:2010年山东统计年鉴)X1-规模以上国有控股工业总产值(单位:万元) X2-规模以上非公有工业总产值(单位:万元) X3-规模以上外商和港澳台投资工业总产值(单位:万元) X4-规模以上高新技术产业总产值(单位:万元) X5-农林牧渔业总产值(单位:万元) X6-建筑业总产值 (单位:万元) X7-邮电业务总量(单位:亿元) X8-社会消费品零售总额 (单位:万元)2,SPSS软件处理结果我们首先对原始数据进行标准化,然后采用系统聚类分析法的Furthest Neighbor(最长距离法)和Wards Method(离差平方和)分别

17、对标准化的数据进行处理,下面对软件输出结果进行详细介绍。【1】,用层次聚类分析中最长距离法的SPSS结果(1),表1-2 山东省17个城市生产总值层次聚类分析中的凝聚状态表Agglomeration ScheduleCluster Combined Stage Cluster First AppearsStage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage1 14 15 .318 0 0 32 4 11 .521 0 0 53 14 17 .814 1 0 44 14 16 1.235 3 0 65 4 12

18、2.533 2 0 126 9 14 3.222 0 4 87 8 13 3.570 0 0 108 9 10 4.715 6 0 129 3 5 4.977 0 0 1410 7 8 6.421 0 7 1311 2 6 8.250 0 0 1512 4 9 9.948 5 8 1413 1 7 15.216 0 10 1514 3 4 21.504 9 12 1615 1 2 37.386 13 11 1616 1 3 84.514 15 14 0(2),表 1-3 山东省 17 个城市生产总值层次聚类分析中分为五类的类成员Cluster MembershipCase 5 Clusters

19、1:济 南 市 12:青 岛 市 23:淄 博 市 34:枣 庄 市 45:东 营 市 36:烟 台 市 27:潍 坊 市 58:济 宁 市 59:泰 安 市 410:威 海 市 411:日 照 市 412:莱 芜 市 413:临 沂 市 514:德 州 市 415:聊 城 市 416:滨 州 市 417:菏 泽 市 4分为五类时,1号样本济南市为一类,2号样本青岛市、6号样本烟台市为一类,3号样本淄博市、5号样本东营市为一类,7号样本潍坊市、8号样本济宁市、13号样本临沂市为一类,其他4号样本枣庄市、9号样本泰安市、10号样本威海市、11号样本日照市、12号样本莱芜市、14号样本德州市、15

20、号样本聊城市、16号样本滨州市、17号样本菏泽市13个城市为一类。(3),表1-4 山东省17个城市生产总值层次聚类分析树形图Rescaled Distance Cluster CombineC A S E 0 5 10 15 20 25Label Num +-+-+-+-+-+德 州 市 14 聊 城 市 15 菏 泽 市 17 滨 州 市 16 泰 安 市 9 威 海 市 10 枣 庄 市 4 日 照 市 11 莱 芜 市 12 淄 博 市 3 东 营 市 5 青 岛 市 2 烟 台 市 6 济 宁 市 8 临 沂 市 13 潍 坊 市 7 济 南 市 1 表1-4:树形图以躺倒树的形式展

21、示了聚类分析中的每一次合并的情况。SPSS自动将各类间的距离映射到025之间,并将凝聚过程近似的表示在图上。树形图仅是粗劣的展现聚类分析的过程,鉴于样本量较大且小类间的距离相差较小,在图上较难分辨凝聚的每步过程。【2】,用层次聚类分析中离差平方和法的 SPSS 结果(1),表2-1 山东省17个城市生产总值层次聚类分析中的凝聚状态表Agglomeration ScheduleCluster Combined Stage Cluster First AppearsStage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Sta

22、ge1 14 15 .281 0 0 32 4 11 .642 0 0 43 14 17 1.145 1 0 94 4 16 1.697 2 0 75 8 13 2.640 0 0 106 9 10 3.668 0 0 97 4 12 4.752 4 0 128 3 5 5.867 0 0 149 9 14 6.983 6 3 1210 7 8 8.224 0 5 1311 2 6 9.659 0 0 1512 4 9 11.532 7 9 1413 1 7 13.827 0 10 1514 3 4 16.341 8 12 1615 1 2 20.330 13 11 1616 1 3 28.2

23、32 15 14 0(2),表 2-2 山东省 17 个城市生产总值层次聚类分析中分为五类的类成员Cluster MembershipCase 5 Clusters1:济 南 市 12:青 岛 市 23:淄 博 市 34:枣 庄 市 45:东 营 市 36:烟 台 市 27:潍 坊 市 58:济 宁 市 59:泰 安 市 310:威 海 市 411:日 照 市 412:莱 芜 市 413:临 沂 市 514:德 州 市 415:聊 城 市 416:滨 州 市 417:菏 泽 市 4分为五类时,1号样本济南市为一类,2号样本青岛市、6号样本烟台市为一类,3号样本淄博市、5号样本东营市、9号样本泰

24、安市为一类,7号样本潍坊市、8号样本济宁市、13号样本临沂市为一类,其他4号样本枣庄市、10号样本威海市、11号样本日照市、12号样本莱芜市、14号样本德州市、15号样本聊城市、16号样本滨州市、17号样本菏泽市13个城市为一类。(3),表2-3 山东省17个城市生产总值层次聚类分析树形图Rescaled Distance Cluster CombineC A S E 0 5 10 15 20 25Label Num +-+-+-+-+-+德 州 市 11 聊 城 市 12 菏 泽 市 14 威 海 市 8 枣 庄 市 7 日 照 市 9 滨 州 市 13 莱 芜 市 10 东 营 市 5 泰

25、 安 市 6 淄 博 市 4 青 岛 市 2 烟 台 市 3 济 宁 市 16 临 沂 市 17 潍 坊 市 15 济 南 市 1 表2-3:树形图以躺倒树的形式展示了聚类分析中的每一次合并的情况。SPSS自动将各类间的距离映射到025之间,并将凝聚过程近似的表示在图上。树形图仅是粗劣的展现聚类分析的过程,鉴于样本量较大且小类间的距离相差较小,在图上较难分辨凝聚的每步过程。注:在两种分类依据下,结果大部分一致,只是在泰安市的归类上出现了分歧,考虑到Ward 方法的普遍应用性,我们采用后者。3,通过以上的分类表可以清楚的看到,层次聚类分析结果,将17个城市样本分为5类。(1)1 号样本济南市,是

26、山东省的省会,是山东政治、文化、经济、金融、教育中心,是“全国城市综合实力 50 强”。济南是一个具有悠久历史的城市,所以济南的国有企业林立众多,像中国石化集团济南炼油厂、中国石油集团济柴动力总厂、中国重型汽车集团、中国轻骑集团、山东鲁能(集团)有限公司 、山水集团(山东水泥厂)、济南钢铁集团总公司、济南铁路集团,这使得济南的国有企业(大部分是重工企业)产值成为全省第一。伴随着省会的特殊地位,济南邮电业和建筑业也是十分发达的,而这些都带动了商品零售业的发展。但是由于深处内陆而且国有企业较多使得非公有企业和外资发展的空间变小,以至于这些产业类型发展不够好,这就形成了济南产业类型特色:公有建筑型。

27、(2)2 号样本青岛市和 3 号样本烟台市都是山东著名的海滨城市,两个城市都是“环渤海“经济圈对外的重要出口,两个城市也都是山海结合的城市。因为其港口城市的缘故,再加上山东离日韩距离非常近,使得外资企业看到了良好的生长土壤,纷纷投资建立公司,并且带来了高新技术,这使得其外资和高新技术产业领先于山东 17 地市。这样的环境也就理所当然的造就了大批非公有企业,他们与外资以及高新技术企业互利共赢,发展也是十分喜人。这些特点,另外加上港口所带来的邮电运输业繁荣,就形成了:港口外资型。(3)7 号样本潍坊市、8 号样本济宁市和 13 号样本临沂市,他们地处山东半岛的平原之上,日光充足、土壤肥沃,又有母亲

28、河黄河的灌溉,再加上山东半岛地处温带大陆性气候,四季分明,使得这三个市农业非常发达,成为山东的农业领头羊。再加上政府的大力发展,形成了其支柱产业。以潍坊为例:建成了寿光蔬菜、诸城肉鸡、安丘蜜桃、青州食用菌、昌乐西瓜和草莓等一大批名优特稀农产品生产基地。所以他们都属于:农业支柱型。(4)3 号样本淄博市、5 号样本东营市和 9 号样本泰安市。这三个市也是这次分类最为独特的一类。前面也提到了泰安最后定为这一类是因为 Ward 方法应用最为广泛、更为精确。从数据上看,这三个市的经济处于省内中游,已经逐渐有了形成各自特点的趋势。但并不突出,比如淄博的非公有企业,东营的国有企业和泰安的农业及旅游业。所以

29、我们认为这三个特殊的城市属于:中间过渡型。(5)其他 8 个城市,这些城市有些历史悠久,有些是新中国成立后的新兴城市,有些是沿海城市有些是内陆城市,但其都位于黄海三角洲冲积平原上,气候温和,适宜农作物生长,有较好的农业、手工业和工业基础,而且这几个地市交通运输业也十分发达,铁路、公路纵横成网,航运正在起步,不仅如此靠近内陆的几个地区如济宁,菏泽,枣庄等环靠京杭大运河,像滨州日照等市依傍着大海,无论是陆上,水上还是航空交通都非常便利。这几地市的人文景观和自然景观也是独一无二的,如孔孟之乡的济宁曲阜,优美宜人的枣庄红河湿地等,在便利的交通的促进下,旅游业也逐渐成为了重点产业。但是他们比前面四个类型

30、的城市少了一些特殊性,所以发展比较平均。没有很突出的产业成为龙头产业,所以发展也有些缓慢,但我们相信他们一定会放大自身的优点,形成自身特点,成为具有综合竞争力的城市。他们目前属于:相对滞后型。五,心得体会经过一周的课程设计,过程曲折可谓一语难尽。在此期间我们也失落过,也曾一度热情高涨。从开始时满富激情到最后汗水背后的复杂心情,点点滴滴无不令我们回味无长。生活就是这样,汗水预示着结果也见证着收获。劳动是人类生存生活永恒不变的话题。通过课程设计,我们才真正领略到“艰苦奋斗”这一词的真正含义,才意识到老一辈统计工作者为我们社会付出许多辛劳和汗水。我们想说,统计确实有些辛苦,但苦中也有乐。在做聚类分析

31、的实验之前,我们以为不会难做,就像以前做的统计实验一样,找到合适数据后,将数据输入多元统计分析软件,经过一些操作输出结果,然后分析一下,再将实验报告做好就可以了。没想到开始就出现了问题,数据的选定就浪费了很多时间,合适的数据很难找,最后四个人经过一天的时间才敲定了一组合适的数据。直到做完聚类分析实验时,我们才知道其实并不容易做,但学到的知识与难度成正比,使我们受益匪浅。而且课程设计也是一个团队的任务,一起的工作可以让我们相互帮助,配合默契,最重要的一点就是团队合作精神,队员之间要相互信任,有了这个基础才可以把实验进行下去,团队是不同的个体组成的,每个人的思想、行为方式不同,合作时肯定会有冲突,

32、其实有一些良性的冲突是会促进合作的,有冲突说明队员认真工作了,这样会提高工作效率,我们虽然是四个人的小团队,但也不乏会有一些小冲突,但当我们冷静下来,理智的讨论过后发现问题被更好的解决了。问题解决后就要队员坚定不移的行动了,队员对团队的基本责任就是无怨无悔,彼此负责。团队的队员都是平等的,互相要友善,在这点上我们组可以说是做的不错的,遇到问题时要善于交流,有矛盾要及时化解,能够接受批评,要谦虚谨慎才好,团队良好合作时创造能力会大大提高。做实验时,老师还会根据自己的亲身体会,将一些课本上没有的知识教给我们,拓宽我们的眼界,是我们认识到这门课程在生活中的应用是那么广泛。多元统计聚类分析在现代化管理

33、和社会生活中的地位日益重要。随着社会、经济科学技术的发展,多元统计聚类分析在现代化国家管理和企业管理中的地位,在社会生活中的地位,越来越重要了,多元统计聚类分析广泛吸收和融合相关学科的新方法,不断开发应用新技术,深化和丰富了多元统计聚类分析传统领域的理论与方法,并拓展了新领域。今天的多元统计聚类分析以展现出强有力的生命力。人们的日常生活和一切社会生活都与多元统计聚类分析息息相关。可以说多元统计聚类分析已经融入了我们的生活中,因此,学好多元统计聚类分析以及能熟练应用 SPSS 进行实际聚类分析操作对我们来说变得至关重要。对我们而言,知识上的收获重要,精神上的丰收更加可贵。挫折是一份财富,经历是一份拥有。这次实验必将成为我们人生旅途上一个非常美好的回忆!参考文献【1】 高惠璇.应用多元统计分析【M】.北京:北京大学出版社,2005【2】 薛薇.统计分析与 SPSS 的应用【M】.北京:中国人民大学出版社,2011【3】 山东省统计局.2010 山东统计年鉴【M】.中国统计出版社,2011六,教师评语指导教师批阅意见:实验报告内容完整性(20 分)实验准确性(这里指作品质量)(30 分)实验结果与数据分析(20 分)实验报告(格式规范、按时完成)(20 分)实验态度(实验课考勤、实验表现) (10分)成绩评定:指导教师签字:年 月 日

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 中等教育 > 中学实验

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报