ImageVerifierCode 换一换
格式:PPT , 页数:50 ,大小:659KB ,
资源ID:5648199      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-5648199.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(主成分分析原理介绍.ppt)为本站会员(weiwoduzun)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

主成分分析原理介绍.ppt

1、3.5 主成分分析方法,主成分分析的基本原理 主成分分析的计算步骤 主成分分析方法应用实例,一项十分著名的工作是美国的统计学家斯通(Stone)在1947年关于国民经济的研究。他曾利用美国19291938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。,在进行主成分分析后,竟以97.4的精度,用3个新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入

2、I、总收入变化率I以及时间t因素做相关分析,得到下表:,问题提出:为了全面系统的分析和研究问题,必须考虑许多指标,这些指标能从不同的侧面反映所研究的对象的特征,但指标过多,会增加分析的复杂性,原始变量能不能减少为有代表性的少数几个新变量,用它来代表原来的指标?,1. 主成分分析的基本原理,主成分分析就是寻找用较少的新变量代替原来较多的旧变量,而且使新变量尽可能多地保留原来较多信息的方法。,1. 主成分分析的基本原理,有n个地理样本,每个样本共有p个变量,构成一个np阶的地理数据矩阵 当p较大时,在p维空间中考察问题比较麻烦。,问题的提出,为了克服这一困难,就需要进行降维处理,即用较少的几个综合

3、指标来代替原来的指标,而且使这些综合指标能尽量多地反映原来指标所表示的信息,同时他们之间又是彼此独立的。,1. 主成分分析的基本原理,在选取综合指标时,最简单的形式就是取原来变量的线性组合,适当调整组合系数,使新的变量之间相互独立且代表性最好。,综合指标的选取,为了方便,我们在二维空间中讨论主成分的几何意义。 设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2 所确定的二维平面中,n个样本点所散布的情况如椭圆状。,主成分分析的几何解释,可以看出这n个样本点无论是沿着xl 轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl 的方差和x2 的方差定量地表示。显

4、然,如果只考虑xl和x2 中的任何一个,那么包含在原始数据中的信息将会有较大的损失。如果我们将xl 轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴zl和z2。zl和z2是两个新变量。,根据旋转变换的公式:U是正交矩阵,即有,zl,z2除了可以对包含在xl,x2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的各点的方差大部分都归结在zl轴上,而z2轴上的方差很小。zl和z2称为原始变量x1和x2的综合变量。z简化了系统结构,抓住了主要矛盾。,*旋转变换的目的是为了使得n个样本点在z1轴方向上的离散程度最大,即z1的方差

5、最大,变量z1代表了原始数据的绝大部分信息,在研究某些问题时,即使不考虑变量z2也损失不多的信息。z1称为第一主成分,z2称为第二主成分。,推广到p维空间:,记x1,x2,xP为原变量指标,z1,z2,zm(mp)为新变量指标,则:,z1,z2,zm分别称为原变量指标x1,x2,xP的第一,第二,第m主成分。,由此可见,主成分分析的主要任务就是确定原变量xj(j=1,2,p)在诸主成分zi(i=1,2,.,m)上的系数lij。,推广到p维空间:,系数lij的确定原则: zi与zj(ij;i,j=1,2,m)相互无关; z1是x1,x2,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,

6、x2,xP的所有线性组合中方差最大者;zm是与z1,z2,zm-1都不相关 的x1,x2,xP的所有线性组合中方差最大者。,2.计算步骤,计算相关系数矩阵,rij(i,j=1,2,p)为原变量xi与xj的相关系数 。,计算特征值与特征向量 解特征方程 ,求出特征值,并使其按大小顺序排列,即 分别求出对应于特征值 的特征向量 要求 =1,即 ,其中 表示向量 的第j个分量。,计算主成分贡献率及累计贡献率 贡献率:累计贡献率:,一般选取累计贡献率达80%90%的特征值 所对应的第一,第二,第m 个主成分。,计算主成分贡献率及累计贡献率,各主成分的得分:,计算主成分载荷,【补】 以一个简单数字例子,

7、说明在指标不多的情况下如何从相关矩阵R出发求特征值与相应的特征向量和主成份。例:有三个指标X1、X2、X3,得样本相关系数矩阵R,相应的特征方程为,展开行列式求值后得的特征方程:,并可求得三个特征根:,第一个特征值1=2.245对应的特征向量1 应满足方程组,且,亦即有方程组,解上述线性方程组,得,因此有,则第一主成份为,同样方法,对23也可分别求出对应的特征向量 和 的值,从而也就得到第二、第三个主成份F2、F3。,3. 主成分分析方法应用实例,【实例1】降维: 流域系统的主成分分析 某流域系统57个流域盆地的9项变量指标。x1:流域盆地总高度(m),x2:流域盆地山口的海拔高度(m),x3

8、:流域盆地周长(m),x4:河道总长度(m),x5:河道总数,x6:平均分叉率,x7:河谷最大坡度(度),x8:河源数, x9:流域盆地面积(km2)。,计算过程: 对原始数据作标准化处理,计算相关系数,得到相关系数矩阵。 由相关系数矩阵计算特征值、各个主成分的贡献率、累计贡献率。由贡献率表可知,第一,第二,第三主成分的累计贡献率已高达86.5%,故只需求出第一、第二、第三主成分z1,z2,z3即可。 对于特征值1=5.043,2=1.746,3=0.997分别求出其特征向量e1,e2,e3,再计算各变量x1,x2,x9在主成分z1,z2,z3上的载荷。,相关系数矩阵表,特征值及主成分贡献率表

9、,主成分载荷,分析: 第一主成分z1与x1,x3,x4,x5,x8,x9有较大的正相关,由于这六个地理要素与流域盆地的规模有关,因此可看作是流域盆地规模的代表; 第二主成分z2与x2有较大的正相关,与x7有较大的负相关,而这两个地理要素是与流域切割程度有关的,因此可看作是流域侵蚀状况的代表; 第三主成分z3与x6有较大的正相关,而地理要素x6是流域比较独立的特性河系形态的表征,因此可看作是河系形态的代表。,主成分载荷, 该流域系统的9项要素可以被归纳为三类:流域盆地的规模、流域侵蚀状况、流域河系形态。选取其中相关系数绝对值最大者作为代表,则流域面积、流域盆地出口的海拔高度和分叉率可作为这三类要

10、素的代表,利用这三个要素代替原来九个要素进行系统分析,可以使问题大大地简化。,分析:,【实例2】综合评价:主成分分析除了可以用于降维处理以外,还可以用于综合评价研究。中国大陆31个省(市、区)第三产业综合发展水平的主成分分析与评估。吴玉鸣(2000)运用主成分分析法对中国大陆31个省(市、区)第三产业综合发展水平进行了定量评价研究。,y1:人均GDP y2:人均第三产业增加值 y3:第二产业增加值比重 y4:第三产业增加值比重 y5:第三产业从业人员比重 y6:第三产业固定资产投资比重 y7:城市化水平, 选取表中的7项指标构成综合评价指标体系,首先对原始数据做标准化处理,然后计算各指标之间的

11、相关系数矩阵。 计算出相关矩阵的特征值,以及各主成分的贡献率和累计贡献率。 计算主成分载荷。 计算各省(市、区)在第一、二、三主成分上的得分。,过程,相关系数矩阵,特征值及主成分贡献率和累计贡献率,中国各省(市、区)第三产业发展水平的主成分得分,分析: 第一主成分得分排在前三位的是上海、北京、天津,其分值依次为3.2574、3.0554、1.6957;得分较高的有辽宁、广东、福建,其分值依次为0.6634、0.4695、0.2693。 第二主成分得分排在前三位的是浙江、黑龙江、山西,其分值依次为1.4885、1.4271、1.1404;得分较高的有江苏、上海、广东、河北、湖北、河南、山东、安徽

12、、云南、辽宁、天津,其分值依次为0.9116、0.8782、0.8584、0.7850、0.6405、0.6349、0.6172、0.5013、0.4664、0.4415、0.4181。, 第三主成分得分排在前三位的是湖南、云南、江西,其分值依次为1.8848、1.6985、1.5261,得分较高的有广西、海南、北京、广东、浙江、四川、重庆,其分值依次为1.1466、1.1341、0.8865、0.7541、0.6337、0.5719、0.5066。,分析:, 综合主成分得分在全国平均水平之上(0)的,依次为上海、北京、天津、广东、辽宁、浙江、江苏、黑龙江、福建,它们是第三产业综合发展水平较发

13、达的区域,其中,上海、北京、天津三个直辖市得分最高(均在0.85以上);其它省(市、区)则位于全国平均水平之下(0);得分居于最后两位的是贵州和西藏两省区(-0.70),其第三产业综合发展水平最低。,分析:,选择几个主成分。主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。 最常见的情况是主成分为2到3个。,特征值1 累计贡献率80%,【注】,若主成分是由原始数据计算的,则计算主成分时,代原始数据。若主成分是由标准化数据计算,则计算主成分得分时,一定要代标准化数据,否则会出现错误。 如果原始变量都本质上独立,那么降维就可能失败,这是因为很难把很多独立变量用少数综合的变量概括。,【注】,

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报