分享
分享赚钱 收藏 举报 版权申诉 / 15

类型定量分析方法实验论文.doc

  • 上传人:11xg27ws
  • 文档编号:7782868
  • 上传时间:2019-05-25
  • 格式:DOC
  • 页数:15
  • 大小:209.50KB
  • 配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    定量分析方法实验论文.doc
    资源描述:

    1、1定量分析方法实验课程论文题 目: 主成分分析与聚类分析的实际运用专业年级: 学 号: 姓 名: 任课教师: 评价项目 摘要 正文内容 工作量 写作 规范性 合计分 值 10 分 50 分 20 分 10 分 10 分 100 分得 分2目录一摘要 3二:研究的背景及意义 4三指标体系的构建 .41.指标体系的构建 42.数据的收集整理 43.指标变异系数和相关性的分析 .53.1 指标的变异性分析 .53.2 指标的相关性分析 .6四主成分分析 .73.1 主成分基本概述 .73.2 实际计算运用 .83.2.1 数据的计算 83.2.2 结果的解释 9五聚类分析 .104.1 主要步骤 .

    2、104.1.1 数据预处理 104.1.2 为衡量数据点间的相似度定义一个距离函数 .104.1.3 聚类或分组 104.1.4 评估输出。 11六结论 13七参考文献 .143摘要随着改革开放的进行,我国进入了一个前所未有的经济飞速发展时期,整体经济实力与日俱增。但是,我们也应该看到各个地区的发展不平衡,沿海地区发展较快,经济增长也较快,而中西部发展相对较慢。基于这种现状,本文从我国 31 个省市自治区经济的发展视角入手,运用相应的分析方法对我国各地区经济发展状况进行统计分析,用以说明我国各地区经济发展不协调的现状。并对全国各地区的经济用聚类分析进行分类,用主成分分析对其进行分排序。4一研究

    3、的背景及意义我国地域辽阔,由于历史、地理位置及经济基础等原因,各地经济发展水平差异很大。改革开放以来,特别是实施西部大开发、振兴东北地区等老工业基地、促进中部地区崛起、鼓励东部地区率先发展的区域发展总体战略以来,各地经济社会发展水平有了很大提高,人民生活也有了很大改善。但区域发展不协调、发展差距拉大的趋势仍未根本改变。因此通过主成分分析可以得出个地区间的差距大小。我国拥有 31 个省市,如果国家对每个不同的地区都采取不同的宏观政策是不切实际的,因此,通过聚类分析,对其进行分类,可以更好的对不同的经济类型采取不同的政策。也便于发现自身现在所处在怎样的发展状况,并制定适应的政策。而不是盲目的定制过

    4、高的发展目标。当然也便于经济发展较慢的经济类型城市可以分辨出哪些城市是发展卓有成效的,进而借鉴发展快速类型城市的一些经验和政策。二指标体系的构建1.指标体系的构建地区综合经济实力的指标体系是指构成综合经济实力的各系统组成要素之间相互联系、相互依赖、相互制约的关系所形成的整体。对地区综合经济实力的测度可以通过反映综合经济实力的经济规模子系统、经济结构子系统、开放程度子系统、人力资本子系统、基础设施子系统、可持续发展水平子系统六大子系统来进行综合评价。当前对如何测度地区综合经济实力指标体系的研究已有很多,但多数研究只注重考虑地区经济实力,忽略了地区经济可持续发展的重要性。本研究是在已有研究成果的基

    5、础上强调地区经济可持续发展的重要性,故在评价地区综合经济实力的指标体系中加入了影响地区综合经济实力的重要因素-可持续发展水平。根据安徽省阜阳市基于 GIS 和 TOPSIS 法的阜阳区域经济发展状况评价构建评价地区综合经济实力的如下指标体系:(1)经济规模子系统:人均 GDP(元/人)=GDP/人口总数,该指标是反映区域经济发展水平的最主要指标之一,通常该指标的值越高,地区经济越发达。国内生产总值增长率=当年 GDP/上年的 GDP农民人均纯收入(元/人),是反映该地区农村人口实际生活水平的重要指标。职工年平均工资(元),是反映地区城镇居民工资所能达到的一般水平。(2)经济结构子系统。第三产业

    6、增加值占国内生产总值的比重=第三产业增加值/GDP,该指标的值越高,说明该地区第三产业越发达。5第二产业产值占 GDP 比重=第二产业值/GDP第一产业产值占 GDP 比重=第一产业值/GDP(3)开放程度子系统。进出口额占国内生产总值比重=进出口额/GDP,该指标反映地区经济对国外市场的依存度。国际旅游外汇收入(亿美元),该指标反映地区旅游经济是发否发达以及对外开放程度。(4)人力资本子系统。每万人从事自然科技活动人员数(人/万人),该指标反映地区科技水平的高低。每万人高校学生数(人/万人)=地区高校在校学生数和高校毕业生数(本专科生)/地区人口总数。教育投入率=教育投资经费/GDP。(5)

    7、基础设施子系统。人均城市道路面积=城市道路面积/人口总数。每万人拥有公共汽电车数(辆/万人)=公共汽电车数/人口总数。每万人拥有医生数(人/万人)=医生人员数/人口总数。2.数据的收集整理(数据来源于统计局官网 2011 年统计年鉴:)总的财政收入消费价格总指数居民的储蓄存款城市人口密度 生产总值第三产业的生产产产总值北 京 7061.7903 102.40 17003.11 1383 14113.58 10600.84天 津 3206.4279 103.55 5558.23 2752 9224.46 4238.65河 北 3995.5641 103.07 15678.43 2354 2039

    8、4.26 7123.77山 西 2908.9926 103.02 9222.97 2890 9200.86 3412.38内蒙古 3209.9328 103.20 4618.11 981 11672 4209.02辽 宁 6014.5056 103.04 13690.27 1814 18457.27 6849.37吉 林 1807.2276 103.70 5147.26 1449 8667.58 3111.12黑龙江 2266.7364 103.90 7254.71 5239 10368.6 3861.59上 海 8620.7489 103.11 15650.24 3630 17165.98

    9、9833.51江 苏 12239.5785 103.81 23334.48 2027 41425.48 17131.45浙 江 7825.3962 103.84 20612.16 1773 27722.31 12063.82安 徽 3448.1856 103.14 7788.48 2469 12359.33 4193.68福 建 3454.4766 103.22 8101.02 2290 14737.12 5850.62江 西 2334.2766 103.04 6113.24 4786 9451.26 3121.46山 东 8248.1495 102.93 19648.21 1389 3916

    10、9.92 14343.14河 南 4143.9534 103.53 12884.1 5178 23092.36 6607.89湖 北 3033.6928 102.91 9798.05 1929 15967.61 6053.37湖 南 3245.0703 103.11 9022.58 2992 16037.96 6369.27广 东 13551.1314 103.12 36318.66 2428 46013.06 20711.55广 西 2315.9756 102.98 5702.43 1498 9569.85 3383.11海 南 812.9745 104.84 1667.14 2739 20

    11、64.5 953.67重 庆 2856.2232 103.25 5839.66 1860 7925.58 2881.08四 川 4685.0175 103.18 13650.83 2743 17185.48 6030.41贵 州 1601.1927 102.92 3244.99 3266 4602.16 2177.07云 南 2613.5625 103.73 5719.97 3795 7224.18 2892.31西 藏 109.9419 102.20 267.13 575 507.46 274.82陕 西 2874.6195 103.97 7957.78 5506 10123.48 3688

    12、.93甘 肃 1060.7499 104.10 3598.24 3793 4120.75 1536.5青 海 330.6459 105.35 868.22 2320 1350.43 470.88宁 夏 460.6521 104.07 1170.25 1093 1689.65 702.45新 疆 1501.7277 104.33 3713.47 4977 5437.47 1766.693.指标变异系数和相关性的分析3.1 指标的变异性分析变异系数是级差、标准差和方差一样都是反映数据离散程度的绝对值,其数据大小不仅受变量值离散程度的影响,而且还受变量值平均水平大小的影响。一般来说,变量值平均水平高

    13、,其离散程度的测度值也大,反之越小。变异系数是衡量资料中各观测值变异程度的另一个统计量。当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位和(或)平均数不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。标准差与平均数的比值称为变异系数,记为 CV。变异系数可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响。变异系数的计算公式为:变异系数 CV =(标准偏差 SD/平均值 MN)100%表一:指标的变异性序号 指标名称 变异系数1 总财政收入 0.812 消费价格指数 0.013 居民的储蓄存款 0

    14、.784 城市的人口密度 0.485 生产总值 0.786 第三产业的生产总值 0.837我们知道,变异系数的大小反映了样本在该指标上取值的离散程度。由上表观察可知居民的消费价格指数的标准变异系数比较小,不具备区分样本的评价能力。3.2 指标的相关性分析相关系数只是一个比率,不是等单位量度,无什么单位名称,也不是相关的百分数,一般取小数点后两位来表示。相关系数的正负号只表示相关的方向,绝对值表示相关的程度。对于相关系数的大小所表示的意义目前在统计学界尚不一致,但通常按下是这样认为的:相关系数:相关程度;0.00-0.30:微相关;0.30-0.50:实相关0.50-0.80:显著相关;0.80

    15、-1.00 高度相关表二:指标的相关系数矩阵由上表可知,第一个指标和第 3、5、6 个指标具有高度相关,而第 3 个指标和第 5,6 个指标也是高度相关,第五个指标和第六个指标也是高度相关。但是在综合评价中指标的相关程度过高反映了指标体系的冗余,会导致指标相关系数高掩盖了其他相关系数低的指标,也就是说夸大了相关系数高的指标。因此本应该剔除消费价格总指数、总财政收入、第三产业的总产值和居民的储蓄存款,但是第三产业的总产值在评价一个地区的经济发展水平中起到很重要的作用所以仅仅剔除总财政收入和居民的储蓄存款和消费价格总指数。得到如下表的数据:消费价格总指数 城市人口密度 生产总值第三产业的生产总值北

    16、 京 102.40 1383 14113.58 10600.84天 津 103.55 2752 9224.46 4238.65河 北 103.07 2354 20394.26 7123.77山 西 103.02 2890 9200.86 3412.38内蒙古 103.20 981 11672 4209.02辽 宁 103.04 1814 18457.27 6849.37吉 林 103.70 1449 8667.58 3111.12黑龙江 103.90 5239 10368.6 3861.59上 海 103.11 3630 17165.98 9833.51江 苏 103.81 2027 4142

    17、5.48 17131.45浙 江 103.84 1773 27722.31 12063.828安 徽 103.14 2469 12359.33 4193.68福 建 103.22 2290 14737.12 5850.62江 西 103.04 4786 9451.26 3121.4山 东 102.93 1389 39169.92 14343.14河 南 103.53 5178 23092.36 6607.89湖 北 102.91 1929 15967.61 6053.37湖 南 103.11 2992 16037.96 6369.27广 东 103.12 2428 46013.06 20711

    18、.55广 西 102.98 1498 9569.85 3383.11海 南 104.84 2739 2064.5 953.67重 庆 103.25 1860 7925.58 2881.08四 川 103.18 2743 17185.48 6030.41贵 州 102.92 3266 4602.16 2177.07云 南 103.73 3795 7224.18 2892.31西 藏 102.20 575 507.46 274.82陕 西 103.97 5506 10123.48 3688.93甘 肃 104.10 3793 4120.75 1536.5青 海 105.35 2320 1350.4

    19、3 470.88宁 夏 104.07 1093 1689.65 702.45新 疆 104.33 4977 5437.47 1766.69三主成分分析3.1 主成分基本概述主成分分析(Principal Component Analysis,PCA) ,将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。基本思想:主成分分析是设法将原来众多具有一定相关性(比如 P 个指标) ,重新组合成一组新的互相无关的综合指标来代替原来的指标。

    20、主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来P 个指标作线性组合,作为新的综合指标。最经典的做法就是用 F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即 Var(F1)越大,表示 F1 包含的信息越多。因此在所有的线性组合中选取的 F1 应该是方差最大的,故称 F1 为第一主成分。如果第一主成分不足以代表原来 P 个指标的信息,再考虑选取 F2 即选第二个线性组合,为了有效地反映原来信息,F1 已有的信息就

    21、不需要再出现在 F2 中,用数学语言表达就是要求 Cov(F1, F2)=0,则称 F2 为第二主成分,依此类推可以构造出第三、9第四,第 P 个主成分。Fp=a1iZX1+a2iZX2+apiZXp其中 a1i, a2i, ,api(i=1,m)为 X 的协方差阵 的特征值所对应的特征向量,ZX1, ZX2, , ZXp 是原始变量经过标准化处理的值,因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化,本文所采用的数据就存在量纲影响注:本文指的数据标准化是指 Z 标准化 。A=(aij)pm=(a1,a2,am,),Rai=iai,R 为相关系数矩

    22、阵, i 、ai 是相应的特征值和单位特征向量,12p0 。进行主成分分析主要步骤如下:1.指标数据标准化(SPSS 软件自动执行) ;2.指标之间的相关性判定;(在开始选择指标时已判断)3.确定主成分个数 m;4.主成分 Fi 表达式;5.主成分 Fi 命名;3.2 实际计算运用3.2.1 数据的计算在 spss 中导入数据,对数据进行标准化:分析描述统计描述。再进行主成分分析:分析降维因子分析。3.2.2 结果的解释提取的主成分:由上表可知:按累计 82.547%的累积频率提取主成分,提取了 2 个主成分。特征值分别为 2.166 和 1.135。载荷矩阵:指标 成分 F1 成分 F210

    23、消费价格总指数(x1)城市人口密度(x2)生产总值(x3)第三产业的生产总值(x4)-0.524-0.3750.9270.9440.5950.7600.3450.293由上述因子载荷举这么可知指标三和指标四在第一主成分上有比较大的载荷,所以主成分以反映的是生产总值总量的情况;指标二和指标一在第二主成分上有比较大得载荷,因此,反映的是城市人口密度的状况和消费情况。这两个主成分的贡献率达到了 82.547%,因此用他们作为经济发展水平的评价指标和排序是合理的。进行分类,计算两个主成分的得分:F1=-0.16*X1+(-0.12*X2)+0.29*X3+0.3*X4F2=0.49*X1+0.63*X

    24、2+0.28*X3+0.24*X4因子得分表:F1 F2 F综合主成分排名北 京 0.6704262 -1.1495193 0.147438744 13天 津 -0.244199 -0.0862534 -0.626832643 19河 北 0.3683319 -0.2133174 0.555691646 7山 西 -0.1793225 -0.4557622 -0.905702632 21内蒙古 0.0591663 -1.1175048 -1.140213742 23辽 宁 0.3577532 -0.5497343 0.150945001 12吉 林 -0.2473653 -0.654741 -

    25、1.278924275 24黑龙江 -0.5450451 1.3489689 0.350512015 9上 海 0.32846 0.467986 1.24260847 6江 苏 1.3658379 1.1889159 4.307824438 2浙 江 0.7224918 0.5073966 2.14081238 4安 徽 -0.0426331 -0.4482902 -0.601152672 18福 建 0.1158869 -0.3333278 -0.127316028 14江 西 -0.3649221 0.4398459 -0.291196172 16山 东 1.4079146 0.04506

    26、79 3.10069509 3河 南 0.0417751 1.492859 1.784879832 5湖 北 0.2669211 -0.6923865 -0.207707575 15湖 南 0.1446788 -0.0284711 0.281059582 10广 东 1.8330066 1.1530413 5.278994171 1广 西 -0.0377351 -1.1304067 -1.364745831 25海 南 -0.9387222 0.5278929 -1.434113844 28重 庆 -0.2080193 -0.8253658 -1.387359987 26四 川 0.15840

    27、03 -0.0816876 0.250379624 11贵 州 -0.3812656 -0.5271017 -1.424081719 27云 南 -0.5142347 0.4211936 -0.635777624 2011西 藏 -0.187157 -2.5165216 -3.261634078 31陕 西 -0.6026475 1.5115923 0.410322776 8甘 肃 -0.7656145 0.5521213 -1.031663332 22青 海 -1.0725579 0.6686091 -1.564289083 29宁 夏 -0.6301317 -0.8364903 -2.31

    28、4281753 30新 疆 -0.879473 1.3214297 -0.405115809 17由上述得分可得 31 个省份的排名。从上述结果我们可以了解到各个地区的经济发展差距的大小。江苏、浙江、山东、广东、河南以及上海的经济发展差距不大。北京、天津、河北、山西、内蒙古、辽宁、吉林、黑龙江、上海、安徽、福建、江西、河南、湖北、湖南、广西、重庆、四川、贵州、云南、陕西、甘肃、新疆的经济与第一类的六个城市的差距相对来说是比较大的;而位于排名最后的四个城市西藏、海南、青海、宁夏与上述的第一类差距极大,与第二类相比也是很大的。而这是个城市又均为交通不发达的内獳城市,与实际状况是项符合的。因此可知该

    29、排名具有一定的合理性。四聚类分析聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称。它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。系统聚类分析又称集群分析,是聚类分析中应用最广的一种方法,它根据样本的多指标(变量) 、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并据此连结这些样品或指标,归成大小类群,构成分类树状图或冰柱图。4.1 主要步骤:4.1.1 数据预处理标准化变换:标准化变换也是对变量的数值和量纲进行类似于规格化变换的一种数据处理方法。首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。即有:124.1

    30、.2 为衡量数据点间的相似度定义一个距离函数采用欧氏距离:这是印度著名统计学家马哈拉诺比斯(PCMahalanobis)所定义的一种距离,其计算公式为:4.1.3 聚类或分组在 spss 中导入数据,然后读数据进行标准化:分析描述统计描述。然后再进行聚类分析:分析降维因子分析。4.1.4 评估输出。4.2 实际案例计算在 spss 中导入数据,然后读数据进行标准化:分析描述统计描述。然后再进行聚类分析:分析降维因子分析。4.2.1 结果的解释下表说明整个聚类分析过程共进行了 30 步,而且每一步的合并也有清楚地显示。通过表,可以详细地了解每一步的聚类过程。13树状图:C A S E 0 5 1

    31、0 15 20 25Label Num +-+-+-+-+-+8 -+-+27 -+ +-+31 -+ +-+25 -+-+ +-+28 -+ | +-+14 -+ | |9 -+-+ |16 -+ |20 -+ |22 -+-+ |145 -+ +-+ +-+7 -+ | | |6 -+ | | |17 -+ +-+ | |3 -+-+ | | |18 -+ | | | |23 -+ | | | |12 -+ | +-+ +-+13 -+ | | | |4 -+-+ | | | |24 -+ +-+ | | |2 -+ | | +-+1 -+ | | |21 -+-+ | | |29 -+

    32、+-+ | |30 -+ | |26 -+ |10 -+-+ |19 -+ +-+ |15 -+ +-+11 -+由以上树状图为依据,把 31 个省份分为四类,分类结果如下:第一类:江苏、浙江、山东、广东第二类:西藏为单独一类第三类:海南、青海、宁夏第四类:北京、天津、河北、山西、内蒙古、辽宁、吉林、黑龙江、上海、安徽、福建、江西、河南、湖北、湖南、广西、重庆、四川、贵州、云南、陕西、甘肃、新疆而上海也第一类同属于经济发展很快的一线城市,所以上海应该分在第一类。而且第四类中的天津、北京、辽宁、福建、湖北、湖南、四川、云南虽然发展不及第一类中的各城市,但是近年来,经过依稀溜儿的改革和国家政策的支

    33、持和扶助,发展速度在不断加快,有向第一类的一线城市发展的趋势。而且该聚类分析与排名的结果大致一致。排在一到四名的为广东、江苏、山东和浙江,而上海位于第六名,而且在两个主成分因子得分以及综合得分都为正数,分为一类,且与我国现在的发展现状是相符合的,因此分为一类和排名是相对合理的。西藏在第二个主成分得分与综合得分都是最低的,与其他省市差距也是较远的,因而单独为一类。另外,青海、宁夏和海南的等分是比较接近的,且与其他省市相距相对也属于较远的,但相比西藏来说,是较好的,因而分为一类。其他省市的得分就大同小异了,因而分为一类。15上述分析与聚类分析的结果是一致的,与我国现在各大城市的发展现状是比较符合的

    34、,因而该分类与排名结果具有一定的合理性。五结论从上述结果与我国各地的经济发展状况结合起来,可知,虽然随着改革开放的进行,我国的经济进入了一个飞速发展的时期,整体经济实力也在与日俱增。但是,同时由于我国的政策和地域的条件不同,也不可避免的造成我各个地区的发展不平衡,作为交通与拥有良好地域优势沿海地区发展较快,经济增长也较快,而位于内陆地区的中西部发展相对较慢,经济增长较慢。区域的经济在不断扩大,虽然国家出台政策:让沿海地区带动内陆的经济发展,也取得了一定的成效,但还需要一段很长的时间去改善。六参考文献1 赵新泉,彭勇行.管理决策分析第二版.北京:科学出版社,2008。2 王晖,陈丽,陈垦,薛漫清,梁庆.多指标综合评价方法及权重系数的选择来源:中国论文下载中心.2009-02-01,10:17:00 。3定量分析方法实验课程资料-聚类分析(Clustering Analysis) 。

    展开阅读全文
    提示  道客多多所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:定量分析方法实验论文.doc
    链接地址:https://www.docduoduo.com/p-7782868.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    道客多多用户QQ群:832276834  微博官方号:道客多多官方   知乎号:道客多多

    Copyright© 2025 道客多多 docduoduo.com 网站版权所有世界地图

    经营许可证编号:粤ICP备2021046453号    营业执照商标

    1.png 2.png 3.png 4.png 5.png 6.png 7.png 8.png 9.png 10.png



    收起
    展开