1、关于各地区固定资产投资价格指数的分析摘要:本文主要通过主成分分析、聚类分析和判别分析对全国 30 多个省的固定资产投资指数、建筑安装工程指数、设备工器具购置指数、其他费用指数进行分析。关键词:主成分分析、欧氏距离、系统聚类分析、判别分析Summary:This article mainly through the principal components analysis, the cluster analysis and the distinction analysis to the national more than 30 province investment in the fixed
2、 assets indices, construction and installation the project index, the equipment labor appliance purchase index, other expense index carries on the analysis.Keywords:Principal Components Analysis、Euclidean distance、Discriminant analysis一、导言:注意微量信息引起的巨变,蝴蝶效应就是微量信息在一定条件下发生作用的过程。在我们的经济活动中,每天的信息是大量的,这就要求
3、我们从中发现那些对经济能产生最大影响的信息,有些是微量信息,有些是次级别的信息,本文的各地区固定资产投资价格指数就是一个非常值得深入发觉的信息。该指数可以准确地反映固定资产投资中涉及的各类投资品和取费项目价格变动趋势和变动幅度,消除按现价计算的固定资产投资指标中的价格变动因素,真实地反映固定资产投资的规模、速度、结构和效益,为国家科学地制定、检查固定资产投资计划并提高宏观调控水平,为完善国民经济核算体系提供科学的、可靠的依据。本文通过对中国 2007 年的 30 个省份各地区固定资产投资价格指数的分析,通过对固定资产投资指数、建筑安装工程指数、设备工器具购置指数、其他费用指数,应用主成分分析的
4、方法设法将原来具有一定相关性的四个指标,重新组合成一组新的相互无关的综合指标来代替原来的指标;通过系统聚类方法将其中的 27 个省份聚成 3 类;通过聚类的结果来建立判别函数来判别剩余的青海、宁夏、新疆等 3 个省份属于哪一类。二、固定资产投资价格指数的概述:是反映一定时期内固定资产投资品及取费项目的价格变动趋势和程度的相对数。固定资产投资额是由建筑安装工程投资完成额、设备工器具购置投资完成额和其他费用投资完成额三部分组成的。编制固定资产投资价格指数应首先分别编制上述三部分投资的价格指数,然后采用加权算术平均法求出固定资产投资价格总指数。三、主成分分析的概述及主要方法主 成 分 分 析 也 称
5、 主 分 量 分 析 , 旨 在 利 用 降 维 的 思 想 , 把 多 指 标 转 化 为 少 数 几 个 综 合指 标 。 在 实 证 问 题 研 究 中 , 为 了 全 面 、 系 统 地 分 析 问 题 , 我 们 必 须 考 虑 众 多 影 响 因 素 。这 些 涉 及 的 因 素 一 般 称 为 指 标 , 在 多 元 统 计 分 析 中 也 称 为 变 量 。 因 为 每 个 变 量 都 在 不 同程 度 上 反 映 了 所 研 究 问 题 的 某 些 信 息 , 并 且 指 标 之 间 彼 此 有 一 定 的 相 关 性 , 因 而 所 得 的统 计 数 据 反 映 的 信 息
6、 在 一 定 程 度 上 有 重 叠 。 在 用 统 计 方 法 研 究 多 变 量 问 题 时 , 变 量 太 多会 增 加 计 算 量 和 增 加 分 析 问 题 的 复 杂 性 , 人 们 希 望 在 进 行 定 量 分 析 的 过 程 中 , 涉 及 的 变量 较 少 , 得 到 的 信 息 量 较 多 。 主 成 分 分 析 正 是 适 应 这 一 要 求 产 生 的 。 主 成 分 分 析 法 是 一 种 数 学 变 换 的 方 法 , 它 把 给 定 的 一 组 相 关 变 量 通 过 线 性 变 换 转 成另 一 组 不 相 关 的 变 量 , 这 些 新 的 变 量 按 照
7、方 差 依 次 递 减 的 顺 序 排 列 。 在 数 学 变 换 中 保 持变 量 的 总 方 差 不 变 , 使 第 一 变 量 具 有 最 大 的 方 差 , 称 为 第 一 主 成 分 , 第 二 变 量 的 方 差 次大 , 并 且 和 第 一 变 量 不 相 关 , 称 为 第 二 主 成 分 。主成分的数学模型:设 X=(X1,X2,XP )是 p 维随机向量,它的主成分为:其中:Y1是一切Y=e X中方差最大者, Y2是一切Y=e X 中方差次大者,.,Yp是一切Y= e X中方差最小者;且它们互不相关。因此P个变量的P个主成分就是这P个变量的P个线性组合,其中线性组合的系数向
8、量是单位向量。表 达 式 : F=a1*X1+a2*X2+a3*X3+a4*X4COV(F1,F2)=0四、聚类分析的主要原理及方法聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法。所谓类,通俗地说,就是指相似元素的集合,严格的数学定义是较麻烦的,在不同的问题中类的定义是不同的。聚类分析起源于分类学,随着生产技术和科学的发展,人类的知识不断加深,分类越来越细,要求也越来越高,有时光凭经验和专业知识是不能进行确切分类的,往往需要定性和定量分析结合起来分类,于是数学工具逐渐被引进分类学中,形成了数值分类学,后来随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来而形成一个相
9、对独立的分支。聚类分析的方法:系统聚类法、模糊聚类法、k-均值法、有序样品聚类等。五、判别分析的主要原理及方法判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。判别分析的方法有很多,按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。六、主成分分析过程:以下是 2007 年各地区固定资产投资价格指数:地区 固定资产投资 建筑安装工程 设备工具器购置 其他费用北 京 102.8 1
10、04.1 98.9 102.1天 津 102.6 103.5 99.1 103.6河 北 103.8 105.4 100.7 102.4山 西 104.1 106.0 100.6 102.4内蒙古 103.8 104.6 100.3 105.2辽 宁 104.3 106.1 100.2 104.2吉 林 103.9 105.2 99.9 105.9黑龙江 104.5 105.5 99.9 109.1上 海 103.5 104.6 99.4 104.1江 苏 104.9 107.8 99.7 104.5浙 江 104.4 105.6 100.5 105.2安 徽 105.4 107.4 100.
11、4 103.7福 建 105.9 107.1 99.6 109.2江 西 105.4 106.9 100.5 106.2山 东 104.0 105.5 100.8 104.6河 南 104.6 106.3 101.4 101.9湖 北 104.1 104.9 101.5 104.2湖 南 105.8 107.6 101.4 103.4广 东 102.4 103.8 99.5 100.5广 西 102.3 103.0 101.0 101.1海 南 106.1 109.9 100.2 102.2重 庆 105.5 106.0 100.2 107.8四 川 104.7 106.4 101.0 103
12、.4贵 州 103.5 105.4 100.2 100.9云 南 104.2 104.5 100.5 107.0陕 西 104.0 105.6 100.6 100.6甘 肃 102.8 103.9 101.8 102.3青 海 104.2 104.6 102.9 102.6宁 夏 103.2 104.1 100.4 101.0新 疆 104.4 105.5 101.6 102.8将这些数据导入到 spss16.0 分别点击 analyze-datareduction-factor 进行主成分分析得到以下结果:表 6.1:分析:从上表中我们可以看出主成分提取原来的信息都达到了 90%以上。表 6
13、.2;分析:输出结果则显示了各个主成分解释原始变量总方差的情况,我们可以看出本文保留三个主成分即可,而这三个主成分包含了 99.286%的信息,远大于所要求的 85%标准。输出表 6.3:分析:我们将输出结果成分矩阵标准化,求得的三个主成分线性表示的表达式:F1=0.134085688*X1+ 0.122717851*X2- 0.000410886*X3+ 0.083409789*X4F2= 0.029885616*X1+ 0.035083114*X2+ 0.167619323*X3- 0.098938094*X4F3=- 0.001942858*X1- 0.094471477*X2+ 0.1
14、0394291*X3+ 0.142314358*X4其中 F1 表示第一主成分,F2 表示第二主成分,F3 表示第三主成分, X1 表示固定资产投资,X2 表示建筑安装工程,X3 表示设备工具器购置,X4 表示其他费用。同理我们可以运用 spss16.0 对数据处理得以下的各主成分得分表:地区 第一主成分 第二主成分 第三主成分北 京 -0.96774 -0.77483 -1.89467天 津 -1.45252 -0.01671 -1.56841河 北 -0.12977 -0.58318 0.174556山 西 0.267344 -0.6829 0.024854内蒙古 -0.67677 0.7
15、23274 -0.10931辽 宁 0.278724 0.035968 -0.37吉 林 -0.40199 0.857798 -0.60736黑龙江 -0.27553 2.224866 -0.46884上 海 -0.64956 0.114238 -1.22529江 苏 1.286618 -0.17819 -1.06432浙 江 0.001292 0.612983 0.078681安 徽 1.344897 -0.28318 -0.17574福 建 1.038288 2.076775 -0.83609江 西 0.915188 0.890837 0.078253山 东 -0.18849 0.3628
16、03 0.374051河 南 0.596054 -0.79867 0.961132湖 北 -0.42341 0.41638 1.253142湖 南 1.555599 -0.28315 0.999537广 东 -1.18379 -1.36984 -1.26086广 西 -1.7339 -0.78472 0.580872海 南 2.868203 -1.37984 -0.6585重 庆 0.459919 1.736661 -0.10618四 川 0.588733 -0.21975 0.54523贵 州 -0.09927 -1.31461 -0.48949云 南 -0.70952 1.581052 0
17、.238218陕 西 0.199418 -1.37115 -0.00048甘 肃 -1.286 -0.31033 1.50559青 海 -0.48167 -0.01932 2.873168宁 夏 -0.81465 -1.0119 -0.1419新 疆 0.074292 -0.25135 1.290153七、聚类分析过程:我们将原来 27 组数据导入到 spss16.0 中去依次点击 analyze-classify-hierarchical 进行系统聚类分析得以下结果:输出表 7.1:输出表 7.2:分析:输出表 7.1 是反映每一阶段聚类的结果,coefficients 表示聚合系数,第 2
18、 列和第3 列表示聚合的类,比如第一阶段时第 3 组(河北)和第 4 组(山西)聚为一类;第 24 组(贵州)和第 26 组(陕西)聚成一类。输出表 7.2 反映了整个 27 个省得聚类的结果,由表 7.2 可看到当阀值取略小于 20 时可得到三类结果。将此聚类结果输入到表格中得到以下数据:地区 固定资产投资 建筑安装工程 设备工具器购置 其他费用 聚类结果北 京 102.8 104.1 98.9 102.1 1天 津 102.6 103.5 99.1 103.6 1河 北 103.8 105.4 100.7 102.4 1山 西 104.1 106.0 100.6 102.4 1内蒙古 10
19、3.8 104.6 100.3 105.2 1辽 宁 104.3 106.1 100.2 104.2 1吉 林 103.9 105.2 99.9 105.9 1黑龙江 104.5 105.5 99.9 109.1 2上 海 103.5 104.6 99.4 104.1 1江 苏 104.9 107.8 99.7 104.5 1浙 江 104.4 105.6 100.5 105.2 1安 徽 105.4 107.4 100.4 103.7 1福 建 105.9 107.1 99.6 109.2 2江 西 105.4 106.9 100.5 106.2 1山 东 104.0 105.5 100.8
20、 104.6 1河 南 104.6 106.3 101.4 101.9 1湖 北 104.1 104.9 101.5 104.2 1湖 南 105.8 107.6 101.4 103.4 1广 东 102.4 103.8 99.5 100.5 1广 西 102.3 103.0 101.0 101.1 1海 南 106.1 109.9 100.2 102.2 3重 庆 105.5 106.0 100.2 107.8 2四 川 104.7 106.4 101.0 103.4 1贵 州 103.5 105.4 100.2 100.9 1云 南 104.2 104.5 100.5 107.0 1陕 西
21、 104.0 105.6 100.6 100.6 1甘 肃 102.8 103.9 101.8 102.3 1青 海 104.2 104.6 102.9 102.6 待判宁 夏 103.2 104.1 100.4 101.0 待判新 疆 104.4 105.5 101.6 102.8 待判八、判别分析过程:将上面 27 组数据通过系统聚类的结果和剩下的三组未聚类的数据导入导 spss 中去,依次点击 analyze-classify-discriminant 进行判别分析得出以下结果:输出表 8.1:Casewise Statistics分析:从输出结果中,我们可以看出第 28 组(青海) 、
22、第 29 组(宁夏)和第 30 组(新疆)都归为第一类。而原来第 10 组(江苏)本属于第一类的,现在重新判为第三类;原来第25 组(云南)本属于第一类的,现在重新判为第二类。具体的判别结果如下表:地区 固定资产投资 建筑安装工程 设备工具器购置 其他费用 聚类结果 判别结果北 京 102.8 104.1 98.9 102.1 1 1天 津 102.6 103.5 99.1 103.6 1 1河 北 103.8 105.4 100.7 102.4 1 1山 西 104.1 106.0 100.6 102.4 1 1内蒙古 103.8 104.6 100.3 105.2 1 1辽 宁 104.3
23、 106.1 100.2 104.2 1 1吉 林 103.9 105.2 99.9 105.9 1 1黑龙江 104.5 105.5 99.9 109.1 2 2上 海 103.5 104.6 99.4 104.1 1 1江 苏 104.9 107.8 99.7 104.5 1 3浙 江 104.4 105.6 100.5 105.2 1 1安 徽 105.4 107.4 100.4 103.7 1 1福 建 105.9 107.1 99.6 109.2 2 2江 西 105.4 106.9 100.5 106.2 1 1山 东 104.0 105.5 100.8 104.6 1 1河 南
24、104.6 106.3 101.4 101.9 1 1湖 北 104.1 104.9 101.5 104.2 1 1湖 南 105.8 107.6 101.4 103.4 1 1广 东 102.4 103.8 99.5 100.5 1 1广 西 102.3 103.0 101.0 101.1 1 1海 南 106.1 109.9 100.2 102.2 3 3重 庆 105.5 106.0 100.2 107.8 2 2四 川 104.7 106.4 101.0 103.4 1 1贵 州 103.5 105.4 100.2 100.9 1 1云 南 104.2 104.5 100.5 107.
25、0 1 2陕 西 104.0 105.6 100.6 100.6 1 1甘 肃 102.8 103.9 101.8 102.3 1 1青 海 104.2 104.6 102.9 102.6 待判 1宁 夏 103.2 104.1 100.4 101.0 待判 1新 疆 104.4 105.5 101.6 102.8 待判 1九、结果分析与讨论:从最终的结果看北京为第一类:北京、天津、河北、山西、内蒙古、辽宁、吉林、上海、浙江、安徽、山西、山东、河南、湖北、湖南、广东、广西、四川、贵州、陕西、甘肃、青海、宁夏、新疆。第二类为:黑龙江、福建、重庆、云南。第三类为:江苏、海南。由此可见建筑安装工程投
26、资、设备工器具购置和其他费用等指数上第三类比较高,第二类次之,说明这些省份的固定资产投资额比较高,投资比较活跃。针对以上的各地区固定资产投资价格指数的分析结果,以及为保持我国经济能够较快的平稳增长,我提出以下两点建议:1、保持投资长期稳定增长,充分调动民间投资和外商投资的积极性,积极培育多元投资主体。进一步改善投资环境,加大招商引资力度,扩大利用外资的规模。引入竞争机制,在政策环境、市场环境、信息咨询和服务环境等方面全面启动民间投资。培育和发展资本市场,引进市场化机制募集资本和吸纳社会资金,开辟多元化投融资渠道。运用市场手段推动国有资产流动重组,促进资源向优势企业和优势产品聚集,同时,着力帮助解决民营经济和中小企业融资难问题。2、加快区域投资结构调整,着眼于促进区域经济的合理布局和协调发展,充分利用地区资源丰富、劳动力价格低、市场广阔等比较优势,加强与经济发达地区的联系,更多地利用区外资金包括外资,以冲破其发展瓶颈,实现经济的良性循环。参考文献:1 中国国家统计局 中国统计年鉴 2007.2 于秀林、任雪松编著.多元统计分析.中国统计出版社3 曾五一、肖红叶编著.统计学导论.科学出版社