收藏 分享(赏)

主成分分析原理介绍.ppt

上传人:weiwoduzun 文档编号:5648199 上传时间:2019-03-11 格式:PPT 页数:50 大小:659KB
下载 相关 举报
主成分分析原理介绍.ppt_第1页
第1页 / 共50页
主成分分析原理介绍.ppt_第2页
第2页 / 共50页
主成分分析原理介绍.ppt_第3页
第3页 / 共50页
主成分分析原理介绍.ppt_第4页
第4页 / 共50页
主成分分析原理介绍.ppt_第5页
第5页 / 共50页
点击查看更多>>
资源描述

1、3.5 主成分分析方法,主成分分析的基本原理 主成分分析的计算步骤 主成分分析方法应用实例,一项十分著名的工作是美国的统计学家斯通(Stone)在1947年关于国民经济的研究。他曾利用美国19291938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。,在进行主成分分析后,竟以97.4的精度,用3个新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入

2、I、总收入变化率I以及时间t因素做相关分析,得到下表:,问题提出:为了全面系统的分析和研究问题,必须考虑许多指标,这些指标能从不同的侧面反映所研究的对象的特征,但指标过多,会增加分析的复杂性,原始变量能不能减少为有代表性的少数几个新变量,用它来代表原来的指标?,1. 主成分分析的基本原理,主成分分析就是寻找用较少的新变量代替原来较多的旧变量,而且使新变量尽可能多地保留原来较多信息的方法。,1. 主成分分析的基本原理,有n个地理样本,每个样本共有p个变量,构成一个np阶的地理数据矩阵 当p较大时,在p维空间中考察问题比较麻烦。,问题的提出,为了克服这一困难,就需要进行降维处理,即用较少的几个综合

3、指标来代替原来的指标,而且使这些综合指标能尽量多地反映原来指标所表示的信息,同时他们之间又是彼此独立的。,1. 主成分分析的基本原理,在选取综合指标时,最简单的形式就是取原来变量的线性组合,适当调整组合系数,使新的变量之间相互独立且代表性最好。,综合指标的选取,为了方便,我们在二维空间中讨论主成分的几何意义。 设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2 所确定的二维平面中,n个样本点所散布的情况如椭圆状。,主成分分析的几何解释,可以看出这n个样本点无论是沿着xl 轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl 的方差和x2 的方差定量地表示。显

4、然,如果只考虑xl和x2 中的任何一个,那么包含在原始数据中的信息将会有较大的损失。如果我们将xl 轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴zl和z2。zl和z2是两个新变量。,根据旋转变换的公式:U是正交矩阵,即有,zl,z2除了可以对包含在xl,x2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的各点的方差大部分都归结在zl轴上,而z2轴上的方差很小。zl和z2称为原始变量x1和x2的综合变量。z简化了系统结构,抓住了主要矛盾。,*旋转变换的目的是为了使得n个样本点在z1轴方向上的离散程度最大,即z1的方差

5、最大,变量z1代表了原始数据的绝大部分信息,在研究某些问题时,即使不考虑变量z2也损失不多的信息。z1称为第一主成分,z2称为第二主成分。,推广到p维空间:,记x1,x2,xP为原变量指标,z1,z2,zm(mp)为新变量指标,则:,z1,z2,zm分别称为原变量指标x1,x2,xP的第一,第二,第m主成分。,由此可见,主成分分析的主要任务就是确定原变量xj(j=1,2,p)在诸主成分zi(i=1,2,.,m)上的系数lij。,推广到p维空间:,系数lij的确定原则: zi与zj(ij;i,j=1,2,m)相互无关; z1是x1,x2,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,

6、x2,xP的所有线性组合中方差最大者;zm是与z1,z2,zm-1都不相关 的x1,x2,xP的所有线性组合中方差最大者。,2.计算步骤,计算相关系数矩阵,rij(i,j=1,2,p)为原变量xi与xj的相关系数 。,计算特征值与特征向量 解特征方程 ,求出特征值,并使其按大小顺序排列,即 分别求出对应于特征值 的特征向量 要求 =1,即 ,其中 表示向量 的第j个分量。,计算主成分贡献率及累计贡献率 贡献率:累计贡献率:,一般选取累计贡献率达80%90%的特征值 所对应的第一,第二,第m 个主成分。,计算主成分贡献率及累计贡献率,各主成分的得分:,计算主成分载荷,【补】 以一个简单数字例子,

7、说明在指标不多的情况下如何从相关矩阵R出发求特征值与相应的特征向量和主成份。例:有三个指标X1、X2、X3,得样本相关系数矩阵R,相应的特征方程为,展开行列式求值后得的特征方程:,并可求得三个特征根:,第一个特征值1=2.245对应的特征向量1 应满足方程组,且,亦即有方程组,解上述线性方程组,得,因此有,则第一主成份为,同样方法,对23也可分别求出对应的特征向量 和 的值,从而也就得到第二、第三个主成份F2、F3。,3. 主成分分析方法应用实例,【实例1】降维: 流域系统的主成分分析 某流域系统57个流域盆地的9项变量指标。x1:流域盆地总高度(m),x2:流域盆地山口的海拔高度(m),x3

8、:流域盆地周长(m),x4:河道总长度(m),x5:河道总数,x6:平均分叉率,x7:河谷最大坡度(度),x8:河源数, x9:流域盆地面积(km2)。,计算过程: 对原始数据作标准化处理,计算相关系数,得到相关系数矩阵。 由相关系数矩阵计算特征值、各个主成分的贡献率、累计贡献率。由贡献率表可知,第一,第二,第三主成分的累计贡献率已高达86.5%,故只需求出第一、第二、第三主成分z1,z2,z3即可。 对于特征值1=5.043,2=1.746,3=0.997分别求出其特征向量e1,e2,e3,再计算各变量x1,x2,x9在主成分z1,z2,z3上的载荷。,相关系数矩阵表,特征值及主成分贡献率表

9、,主成分载荷,分析: 第一主成分z1与x1,x3,x4,x5,x8,x9有较大的正相关,由于这六个地理要素与流域盆地的规模有关,因此可看作是流域盆地规模的代表; 第二主成分z2与x2有较大的正相关,与x7有较大的负相关,而这两个地理要素是与流域切割程度有关的,因此可看作是流域侵蚀状况的代表; 第三主成分z3与x6有较大的正相关,而地理要素x6是流域比较独立的特性河系形态的表征,因此可看作是河系形态的代表。,主成分载荷, 该流域系统的9项要素可以被归纳为三类:流域盆地的规模、流域侵蚀状况、流域河系形态。选取其中相关系数绝对值最大者作为代表,则流域面积、流域盆地出口的海拔高度和分叉率可作为这三类要

10、素的代表,利用这三个要素代替原来九个要素进行系统分析,可以使问题大大地简化。,分析:,【实例2】综合评价:主成分分析除了可以用于降维处理以外,还可以用于综合评价研究。中国大陆31个省(市、区)第三产业综合发展水平的主成分分析与评估。吴玉鸣(2000)运用主成分分析法对中国大陆31个省(市、区)第三产业综合发展水平进行了定量评价研究。,y1:人均GDP y2:人均第三产业增加值 y3:第二产业增加值比重 y4:第三产业增加值比重 y5:第三产业从业人员比重 y6:第三产业固定资产投资比重 y7:城市化水平, 选取表中的7项指标构成综合评价指标体系,首先对原始数据做标准化处理,然后计算各指标之间的

11、相关系数矩阵。 计算出相关矩阵的特征值,以及各主成分的贡献率和累计贡献率。 计算主成分载荷。 计算各省(市、区)在第一、二、三主成分上的得分。,过程,相关系数矩阵,特征值及主成分贡献率和累计贡献率,中国各省(市、区)第三产业发展水平的主成分得分,分析: 第一主成分得分排在前三位的是上海、北京、天津,其分值依次为3.2574、3.0554、1.6957;得分较高的有辽宁、广东、福建,其分值依次为0.6634、0.4695、0.2693。 第二主成分得分排在前三位的是浙江、黑龙江、山西,其分值依次为1.4885、1.4271、1.1404;得分较高的有江苏、上海、广东、河北、湖北、河南、山东、安徽

12、、云南、辽宁、天津,其分值依次为0.9116、0.8782、0.8584、0.7850、0.6405、0.6349、0.6172、0.5013、0.4664、0.4415、0.4181。, 第三主成分得分排在前三位的是湖南、云南、江西,其分值依次为1.8848、1.6985、1.5261,得分较高的有广西、海南、北京、广东、浙江、四川、重庆,其分值依次为1.1466、1.1341、0.8865、0.7541、0.6337、0.5719、0.5066。,分析:, 综合主成分得分在全国平均水平之上(0)的,依次为上海、北京、天津、广东、辽宁、浙江、江苏、黑龙江、福建,它们是第三产业综合发展水平较发

13、达的区域,其中,上海、北京、天津三个直辖市得分最高(均在0.85以上);其它省(市、区)则位于全国平均水平之下(0);得分居于最后两位的是贵州和西藏两省区(-0.70),其第三产业综合发展水平最低。,分析:,选择几个主成分。主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。 最常见的情况是主成分为2到3个。,特征值1 累计贡献率80%,【注】,若主成分是由原始数据计算的,则计算主成分时,代原始数据。若主成分是由标准化数据计算,则计算主成分得分时,一定要代标准化数据,否则会出现错误。 如果原始变量都本质上独立,那么降维就可能失败,这是因为很难把很多独立变量用少数综合的变量概括。,【注】,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报