收藏 分享(赏)

MATLAB_主成分数据处理.doc

上传人:ysd1539 文档编号:6208838 上传时间:2019-04-02 格式:DOC 页数:40 大小:996KB
下载 相关 举报
MATLAB_主成分数据处理.doc_第1页
第1页 / 共40页
MATLAB_主成分数据处理.doc_第2页
第2页 / 共40页
MATLAB_主成分数据处理.doc_第3页
第3页 / 共40页
MATLAB_主成分数据处理.doc_第4页
第4页 / 共40页
MATLAB_主成分数据处理.doc_第5页
第5页 / 共40页
点击查看更多>>
资源描述

1、主成分分析主成分分析(principal component Analysis),是由皮尔逊(pearson)于 1901 年首先引入,后来由霍特林(hotelling)于 1933 年进行了发展。在实际问题中,为了尽可能完整的获取有关的信息,往往需要考虑众多的变量,这虽然可以避免重要信息的疏漏,但也增加了分析的复杂性,一般来说,当研究的问题涉及很多变量,并且变量间相关性明显,即包含的信息有所重叠时,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的,本节拟

2、介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。这样容易抓住事物的主要矛盾,使得问题得到简化。主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的多元统计方法,这些主成分能够反映原始变量的大部分信息,通常表示为原始变量的线性组合,为使得这些主成分所包含的信息互不重叠,要求各主成分之间互不相关。本章主要内容包括:主成分分析的理论简介,主成分分析的MATLAB 实现,主成分分析的主要具体案例。11.1 主成分分析简介11.1.1 主成分分析的几何意义假设从二元总体 (EX=0)中抽取容量为 n 的样本,12(,)x绘出样本观测值的散点图,散点大致分布在一个椭圆内 与

3、 呈现出1x2明显的线性相关。这 n 个样品在 轴方向和 方向具有相似的离散度,1x2x离散度可以用 和 包含了近视相等的信息量,丢掉其中任意一个变1x2量,都会损失比较多的信息。逆时针旋转一个角度 ,使得 轴旋转1x到椭圆的长轴方向 , 轴旋转到椭圆的短轴 ,则有1y2x2y(11.1)122cosinicsyx此时可以看到,n 个点在新坐标系下的坐标 和 几乎不相关,并且1y2的方差要比 的方差大得多,也就是说 包含了原始数据中大部1y2y分的信息,此时丢掉变量 ,信息的损失是比较小的。这里称 为2y 1y第一主成分 为第二主成分。2y主成分分析的目的就是对原变量加以改造,在不致损失原变量

4、太多信息的情况下尽可能地降低原变量的维数,即用较少的新变量代替原来的各变量。主成分分析的过程其实就是坐标系旋转的过程,新坐标系的各个坐标系的轴的方向是原始数据变差最大的方向,各主成分表达式就是新旧坐标转换关系式。11.1.2 总体的主成分1、从总体协方差矩阵出发求解主成分设 为一个 维总体,假定 期望和协方差矩阵均存(,)pxx px在并已知,记 , ,(Evar()()()TxEXEX考虑如下线性变换 112112 2212.pmppppyaxxaxyax 其中, 均为单位向量。2,下面求 ,使得 的方差达到最大。1a1y设 为 的 个特征值, 为相应的正120p p12,ptt交单位特征向

5、量,即 , , , ,iittit0ijtij,1,2,ijp由矩阵知识可知1 piiiTt其中 为正交矩阵, 是对角元素为 的对12(,)pTtt 12,p角矩阵。考虑 的方差1y1111111var()var()var()piiiyxcxat2 2111111 1()()p p pii i ii i it t t 11111 aTaa(11.3)由式(11.3 )可知,当 时, 的方差达到最大,最大1at1ytx值为 。称 为第一主成分 。如果第一主成分从数据中提取的11ytx信息还不够多,还应考虑第二主成分。下面求 ,在2a条件下使得 的方差达到最大。由12cov(,)0y2y11221

6、21cov(,) 0txatatat可得 ,于是21at1222221vr()var()var()piiiyxxat2 2221 1 1()()p p pii i ii i it t t 22222 aTaa(11.4)由式(11.4 )可知,当 时, 的方差达到最大,最大2at2ytx值为 。称 为 第二主成分 。类似的,在约束22ytx下可得,当 时 的方差达cov(,)0(1,2)kiyi iiatiiytx到最大,最大值为。 称i(1,2)iiytxp为 第 i 主成分 。2 主成分的性质(1 )主成分向量的协方差矩阵为对角阵记112212(,) pppytxttxTytx(11.5)

7、则,()()EyTxvarrvar(T即主成分向量的协方差矩阵为对角矩阵。(2 )主成分的总方差等于原始变量的总方差:设协方差矩阵 ,则 ,于是()ijvar()(1,2,)iijxp1 1 11var()() var()p p pi i ij ii i i iytr x 由此可见,原始数据的总方差等于 个互不相关的主成分的方差之和,p也就是说 个互不相关的主成分包含了原始数据中的全部信息,但是p主成分所包含的信息更为集中。总方差中第 个主成分 的方差所占的比例iiy称为主成分 的 贡献率 。主成分的贡献率反映了1(,2)pijjip i主成分综合原始变量信息的能力,也可理解为解释原始变量的能

8、力。由贡献率定义知, 个主成分的贡献率依次递减,即综合原始变量信息的能力依次递减。第一个主成分的贡献率最大,即第一个主成分综合原始变量信息的能力强。前 个主成分的贡献率之和 称为前()mp11pmijij个主成分的累积贡献率,它反映了前 个主成分综合原始变量信息(或解释原始变量)的能力。由于主成分分析的主要目的是降维,所以需要在信息损失不太多的情况下,用少数几个主成分来代替原始变量 ,以进行后续的分析,究竟用几个主成分来代替原始12,pxx变量才合适呢?通常的做法是取较小的 ,使得恰前 个主成分的累m积贡献率不低于某一水平(如 85%以上),这样就达到了降维的目的。(3 )原始变量 与主成分

9、之间的相关系数ixiy(,)iixy由式(11.5 )可知 于是T12iii ipxtytty(11.6) 从而cov(,)cov(,)cov(,)i ijjijjjijxytytyt(,)(,) ,1,2,varar(jiiii iiixy tjpxy (4 )前 个主成分对变量 的贡献率mi称 2 21 1(,)mmii jij jixyt 为前 个主成分对变量 的贡献率。这个贡献率反映了前 个主成i m分从变量 中提取的信息的多少。由式(11.6)可知ix,固所有 个主成分对变量 的贡献2221iii pittt pix率为 2 21 1(,)p pii jij jixyt (5 )原始

10、变量对主成分 的贡献i主成分 的表达式为iy12 ,1,2,jjjj pjyttxttxp 称 为第 个主成分 在第 个原始变量 上的 载荷, 它反ijtjjyiix映了 对 的重要程度。在实际问题中,通常根据载荷 解释主ixjy ijt成分的实际意义。 3,从总体相关系数矩阵出发求解主成分当总体各变量取值的单位或数量级不同时,从总体协方差矩阵出发求解主成分就显得不合适了,此时应将每个变量标准化。记标准化变量为 (),1,2,variiixEp则可以从标准化总体*12(,)pxx的协方差矩阵求解主成分,即从总体 的 相关系数矩阵出发求解主成分,因为总体 协方x差矩阵就是 的相关系数矩阵。x设总

11、体 的相关系数矩阵为 ,从 R出发求解主成分的步骤与从出发求解主成分的步骤一样,设 为 R的 个特征*120p p值, 为相应的正交单位特征向量。则 个主成分为*12,ptt*,12,iiytxp(11.7)记 112*2 12(,) pppytxttxtxy (11.8)则有以下结论,()0Ey*12var()(,)pydiagtt*1)piitRP* *cov(,)(,) ,1,2,arar(ijij jiijxyxy tjp 此时前 个主成分的累积贡献率为 。m*1miip11.1.3 样本的主成分在实际生活问题中,总体 的协方差矩阵 或相关系数矩阵 往xR往是未知的,需要由样本进行估计

12、。设 为取自总体 的12,nx x样本,其中 。记样本观测值矩阵为12(,)(,)iiiipxx 1212212pnnpxxX的每一行对应一个样品,每一列对应一个变量。记样本协方差矩阵和样本相关系数矩阵分别为1()()niiijiSxxs,()ijRrijijijs其中 为样本均值。将 作为 的估计, R作为 的估计,1niix S从 或 出发可求得样本的主成分SR1.从样本协方差矩阵 出发求解主成分S设 120p为 的 个特征值, 12,ptt为相应的正p交单位特征向量,则样本的 个主成分为,12,iiytxp(11.9)将样品 的观测值带入第 个主成分,称得到的值ixj,(1,2,;1,2

13、,)jijytnjp 为样品 的观测值带入 第 j主ix成分得分。从样本相关系数矩阵 R出发求解主成分设 为 的 个特征值, 为相应120p p,12ptt的正交单位特征向量,则样本的 个主成分为,1,2,iiytxip(11.10)将样品 标准化后的观测值 带入第 个主成分,即可得样品ixixj的第 主成分得分ixj,12,;1,2,ijjytxinjp 3,由主成分得分重建(恢复)原始数据假定从样本协方差矩阵 出发求解主成分,记 为样本的主成分得SY分值矩阵,则(11.112112122 21212 (,)p ppnnpnnpyyxxY ttXTxxyy 1)注意到 为正交矩阵,则有 ,于

14、是由式(11.11)可得T1T,也就是说根据主成分得分和主成分表达式,可以重建(恢复)XY原始数据,这在数据压缩与解压缩中有着重要的作用。当然在实际应用中,可能不会得到全部的 个主成分,假定只用前 个p()mp主成分记样本的前 个主成分的得分矩阵为m1212212pmnnpyLyYMyLy当前 个主成分的累积贡献率达到一个比较高的水平时,由m得到的矩阵 可以作为原始样本观测值矩阵 的一个很好的XYTmXX近视,此时 为样本的残差,MATLAB 统计工具箱中提供了重建数据和求残差的函数 pcares。若 和 的数据量小于原始样本观测值mYT矩阵 的数据量,就能起到数据压缩的目的。X以上讨论的是从

15、样本协方差矩阵 出发求解主成分,然后由样本的S主成分得分重建原始数据。若从样本的相关系数矩阵 R出发求解主成分,同样可以由样本的主成分得分重建原始数据,只是此时需要进行逆标准化变换,这里不再作详细讨论。11.1.4 关于主成分表达式的两点说明这里需要说明的是,即使限定了方差矩阵或相关系数矩阵的 个p特征值对应的特征向量为正交单位向量,它们也是不唯一的,从而主成分的表达式也是不唯一的,假如若 是总体或样本的一个主成ytx分,则 也是总体或样本的一个主成分。主成分表达式的不唯一ytx对后续分析没有太大影响。若第 个主成分的贡献率非常非常小,可认为第 个主成分 的p ppy方差 ,即 ( 为一个常数

16、),这揭示了变量之间的一var()0pypyc个共线性关系: 。tx11.2 主成分分析的 MATLAB 函数与主成分相关的 MATLAB 函数主要有 pcacov,princomp 和pcares,下面分别介绍。11.21 pcacov 函数pcacov 函数用来根据协方差矩阵或相关系数矩阵进行主成分分析,其调用格式如下:COEFF=pacov(v)COEFF,latent= pcacov(v)COEFF,latent,explained=pcacov(v)以上调用的输入参数 V 是总体或样本的协方差矩阵或相关系数矩阵,对于 维总体,V 是 的矩阵。输出参数 COEFF 是 个主成ppp分的

17、系数矩阵,它是 的矩阵,它的第 i 列是第 i 个主成分的系数向量。输出参数 latent 是 个主成分的方差构成的列向量,即 V 的个特征值(从大到小)构成的向量。输出参数 explained 是 个p p主成分的贡献率向量,已经转化为百分比。11.2.2 princomp 函数princomp 函数用来根据样本观测值矩阵进行主成分分析,其调用格式如下:1) COEFF,SCORE=princomp(x)根据样本观测值矩阵 X 进行主成分分析。输入参数 X 是 n 行 p 列的矩阵,每一行对应一个观测(样品),每一列对应一个变量。输出参数 COEFF 是 个主成分的系数矩阵,它是 的矩阵,它

18、的第 ipp列是第 i 个主成分的系数向量。输出参数 SCORE 是 n 个样品的 个p主成分的得分矩阵,它是 n 行 p 列的矩阵,每一行对应一个观测值,每一列对应一个主成分,第 i 行第 j 列元素是 i 个样品的第 j 个主成分得分。2) COEFF,SCORE,latent=princomp(x)返回样本协方差矩阵的特征向量 latent,它是由 p 个特征值构成的列向量,其中特征值按降序排列。3) COEFF,SCORE,latent,tsqure=princomp(x)返回一个包含 p 个元素的列向量 tsqure,它的第 i 个元素是第i 个观测对应的霍特林(Hotelling)

19、 统计量,描述了第 i 个观测2T与数据集(样本观测矩阵)的中心之间的距离,可用来寻找远离中心的极端数据。设 120p为样本协方差矩阵的 p 个特征值,并设第 i个样品的第 j 个主成分得分 ,则第 i 个样品(1,2;1,2)ijynj 对应的(Hotelling) 统计量为2T221,pijijjyTn注意:princomp 函数对样本数据进行了中心化处理,即把 X 中的每一个元素减去其所在列的均值,相应地,princomp 函数返回的主成分就是中心化的主成分得分。当 ,即观测的个数小于或等于维数时,SCORE 矩阵的第 n 列np到第 p 列元素均为 0,latent 第 n 到第 p

20、个元素均为 0。4) .=princomp(x,econ)通过设置econ 参数,使得当 时,只返回 latent 中的前n-1 个元素(去掉不必要的 0 元素)及 COEFF 和 SCORE 矩阵中相应的列。11.2.3 pcares 函数在 11.1.3 节曾讨论过由样本的主成分得分重建(恢复)原始数据的问题,若只用前 个主成分的得分来重建原始数据,()mp则可能会有一定的误差,前面称之为残差。MATLAB 统计工具箱中提供了 pcares 函数,用来重建数据,并求样本观测值矩阵中每个观测的每一个分量所对应的残差,其调用格式如下:residuals=pcares(x,ndim)residu

21、als,reconstructed=pcares(x,ndim)上述调用中 X 是 n 行 p 列的样本观测值矩阵,它的每一行对应一个观测(样品),每一列对应一个变量,ndim 参数用来指定所用的主成分的个数,它是一个小于或等于 p 的正的标量,最好取为正整数。输出参数 residuals 是一个与 X 同样大小的矩阵,其元素为 X 中相应元素所对应的残差。输出参数 reconstructed 为用前 ndim 个主成分的得分重建的观测数据,它是 X 的一个近似。注意: pcares 调用了 princomp 函数,它只能接受原始样本观测数据作为他的输入,并且它不会自动对数据作标准化变换,若需

22、要对数据作标准化变换,可以先用 zscore 函数将数据标准化,然后调用 pcares 函数重建观测数据并求残差。若从协方差矩阵或相关系数矩阵出发求解主成分,请用 pcacov 函数,此时无法重建观测数据和求残差。11.3 案例 32:从协方差矩阵或相关系数矩阵出发求解主成分在制定服装标准的过程中,对 128 名成年男子的身材进行了测量,每日测了六项指标,身高( ),座高( ),胸围( ),手臂长1x2x3x( ),肋围( )和腰围( ),样本相关系数矩阵如表 11-14x5x6x所列。试根据样本相关系数矩阵进行主成分分析。表 11-1 128 名男子身材的六项指标的样本相关系数矩阵变量身高(

23、 )1x座高( )2胸围( )3x手臂长()4肋围( )5x腰围( )6x身高( )11 0.79 0.36 0.76 0.25 0.51座高( )20.79 1 0.31 0.55 0.17 0.35胸围( )3x0.36 0.31 1 0.35 0.64 0.58手臂长( )40.76 0.55 0.35 1 0.64 0.38肋围( )50.25 0.17 0.64 0.16 1 0.63腰围( )6x0.51 0.35 0.58 0.38 0.63 113.3.1 调用 pcacov 函数作主成分分析对于本案例,调用 pacov 函数作主成分分析的命令与结果如下:%定义相关系数矩阵 P

24、HOPHO=1 0.79 0.36 0.760.25 0.510.79 1 0.31 0.550.17 0.350.36 0.31 1 0.35 0.64 0.580.76 0.55 0.35 1 0.16 0.380.25 0.17 0.64 0.161 0.630.51 0.35 0.58 0.380.63 1; %利用 pacov 函数根据相关系数矩阵作主成分分析,返回主成分分析表达式的系数矩阵 COEFF,%返回相关系数矩阵的特征向量 latent 和主成分分析贡献率向量explainedCOEFF,latent,explained=pcacov(PHO) COEFF,latent,e

25、xplained=pcacov(PHO)COEFF =-0.4689 -0.3648 0.0922 -0.1224 -0.0797 0.7856-0.4037 -0.3966 0.6130 0.3264 0.0270 -0.4434-0.3936 0.3968 -0.2789 0.6557 0.4052 0.1253-0.4076 -0.3648 -0.7048 -0.1078 -0.2346 -0.3706-0.3375 0.5692 0.1643 -0.0193 -0.7305 -0.0335-0.4268 0.3084 0.1193 -0.6607 0.4899 -0.1788laten

26、t =3.28721.40620.45910.42630.29480.1263explained =54.786723.43737.65167.10574.91332.1054%为了更直观,以元胞数组形式显示结果(太好了)result1(1,:)=特征值,差值,贡献率,累积贡献率;result1(2:7,1)=num2cell(latent);result1(2:6,2)=num2cell(-diff(latent);result1(2:7,3:4)=num2cell(explained,cumsum(explained) result1 = 特征值 差值 贡献率 累积贡献率3.2872 1.

27、8810 54.7867 54.78671.4062 0.9471 23.4373 78.22400.4591 0.0328 7.6516 85.87560.4263 0.1315 7.1057 92.98130.2948 0.1685 4.9133 97.89460.1263 2.1054 100%以元胞数组形式显示前 3 个主成分表达式 s=标准化变量;x1:身高;x2:座高;x3:胸围;x4:手臂长;x5:肋围;x6:腰围; result2(:,1)=s; result2(1,2:4)=prin1,prin2,prin3; result2(2:7,2:4)=num2cell(COEFF(

28、:,1:3)result2 = 标 准化变 量 prin1 prin2 prin3 x1:身高 -0.4689 -0.3648 0.0922x2:座高 -0.4037 -0.3966 0.6130x3:胸围 -0.3936 0.3968 -0.2789x4:手臂 长 -0.4076 -0.3648 -0.7048x5:肋围 -0.3375 0.5692 0.1643x6:腰围 -0.4268 0.3084 0.1193为了结果看上去更加直观,上面定义了两个元胞数组:result1和 result2,用 result1 存放特征值,贡献率和累积贡献率,用result2 存放 3 个主成分表达式的

29、系数数据,即 COEFF 矩阵的前 3列。这样做的目的仅是为了直观,读者也可以直接对 pcacov 函数返回的结果进行分析。11.3.2 结果分析从 result1 的结果来看,前 3 个主成分的累积贡献率达到了85.8756%,因此可以用前 3 个主成分后续的分析 i;这样做虽然会有一定的信息损失,但损失不大,不影响大局。result2 中列出了前 3个主成分的相关结果,可知前 3 个主成分的表达式分别为11234560.46890.4370.960.76.30.428yxxxxxx2123456.3.6.89.31234560.90.30.790.0.1630.13yxxxxxx从第一主成

30、分 的表达式来看,它在每个标准化变量上有近似的1y负载荷,说明每个标准化变量对 的重要性都差不多。当一个人的身1y材“五大三粗”,也就是说又高又胖时, , , , 都比较大,1x2L6x此时 的值就比较小,反之,当一个人又矮又瘦时 , , ,1y 12都比较小,此时 的值就比较大,所以可以认为第一主成分是身材6x 1y的 综合成分(或魁梧成分)。从第二主成分 的表达式来看,它在标准化变量 , ,和 上2 1x24x有近似的负载荷,在 , , 上有近似的正载荷,说明当 ,3x56x 1,和 增大时, 的值减小,当 , , 增大时, 的值增大。2x42y35x62y当一个人的身材瘦高时, 的值比较

31、小,当一个人的身材矮胖时,的值比较大,所以可以认为第二主成分是身材的高矮和胖瘦的 协调2y成分从第三主成分 的表达式来看,它在标准化变量 上有比较大的3y 2x正载荷,在 上有比较大的负载荷,在其它变量上的载荷比较小,4x说明 (坐高)和 (手臂长)对 的影响比较大,也就是说 反映243y 3y坐高(即上半身)与手臂长之间的协调关系,这对做长袖上衣时制定衣服和袖子的长短提供了参考。所以可认为第三主成分 是 臂长成分3y后 3 个主成分的贡献率比较小,分别只有 7.1057%,4.9133%和 2.1054%,可以不用对它们作出解释。最后一个主成分的贡献率非常小,它揭示了标准化变量之间的如下共线

32、性关系 1234560.7856.430.15.706.30.178xxxxxxc三、 例 题某市为了全面分析机械类个企业的经济效益,选择了 8 个不同的利润指标,14 企业关于这 8 个指标的统计数据如下表所示,试进行主成分分析。表 1 14 家企业的利润指标的统计数据变量企业序号净产值利润率(%)xi1 固定资产利润率(%)xi2 总产值利润率(%)xi2 销售收入利润率(%)xi3 产品成本利润率(%)xi5物耗利润率(%)xi6人均利润率xi7(千元/人)流动资金利润率(%)xi81 40.4 24.7 7.2 6.1 8.3 8.7 2.442 20.02 25.0 12.7 11.

33、2 11.0 12.9 20.2 3.542 9.13 13.2 3.3 3.9 4.3 4.4 5.5 0.578 3.64 22.3 6.7 5.6 3.7 6.0 7.4 0.176 7.35 34.3 11.8 7.1 7.1 8.0 8.9 1.726 27.56 35.6 12.5 16.4 16.7 22.8 29.3 3.017 26.67 22.0 7.8 9.9 10.2 12.6 17.6 0.847 10.68 48.4 13.4 10.9 9.9 10.9 13.9 1.772 17.89 40.6 19.1 19.8 19.0 29.7 39.6 2.449 35.

34、810 24.8 8.0 9.8 8.9 11.9 16.2 0.789 13.711 12.5 9.7 4.2 4.2 4.6 6.5 0.874 3.912 1.8 0.6 0.7 0.7 0.8 1.1 0.056 1.013 32.3 13.9 9.4 8.3 9.8 13.3 2.126 17.114 38.5 9.1 11.3 9.5 12.2 16.4 1.327 11.6解:样本均值向量为:,(27.910.5.8.431.06.41.52.68)Tx样本协方差矩阵为: 168.37.257.901.267434.83.6.48.23.69.31585.00.2743.S 6.

35、1 168.30574.81.2657.901.280.223473469.157.9063.S5.4786.25.0.502.12914387438.36.1.6.71 由于 S 中主对角线元素差异较大,因此我们样本相关矩阵 R 出发进行主成分分析。样本相关矩阵 R 为:1 0.762 .58 0.6421 .59 0.426 .78 0.253383141.7 . .9. .9 R 6 1 0.25.6 0.78 324 1 . 矩阵 R 的特征值及相应的特征向量分别为:特征值 特征向量6.1366 0.32113 0.29516 0.38912 0.38472 0.37955 0.370

36、87 0.31996 0.355461.0421 -0.4151 -0.59766 0.22974 0.27869 0.31632 0.37151 -0.27814 -0.156840.43595 -0.45123 0.10303 -0.039895 0.053874 -0.037292 0.075186 0.77059 -0.424780.22037 -0.66817 0.36336 -0.22596 -0.11081 0.14874 0.069353 -0.13495 0.559490.15191 -0.038217 0.62435 0.12273 -0.036909 0.15928 0.

37、21062 -0.43006 -0.581050.0088274 -0.10167 0.13584 -0.15811 0.86226 -0.25204 -0.34506 -0.13934 -0.0265570.0029624 0.1596 -0.061134 -0.53966 0.046606 0.7609 -0.27809 0.06203 -0.131260.0012238 0.19295 -0.031987 -0.64176 0.11002 -0.25397 0.68791 -0.006045 -0.0054031R 的特征值及贡献率见下表特征值 贡献率(%) 累计贡献率(%)6.1366

38、 0.76708 0.767081.0421 0.13027 0.897340.43595 0.054494 0.951840.22037 0.027547 0.979380.15191 0.018988 0.998370.0088274 0.0011034 0.999480.0029624 0.0003703 0.999850.0012238 0.00015297 1前 3 个标准化样本主成分类及贡献率已达到 95.184%,故只需取前三个主成分即可。前 3 个标准化样本主成分中各标准化变量 前的系数即为对应特征向量,由此得到 3 个标准*(1,2.8)iiixs化样本主成分为 *11234

39、56782*310.x+.9560.81x+.720.39x+.708.319x+0.546-4-7461-2-3y*2345678-.95.8-.2.2x注意到,y 1近似是 8 个标准化变量 的等权重之和,*(1,.8)iiixs是反映各企业总效应大小的综合指标,y 1的值越大,则企业的效益越好。由于 y1的贡献率高达 76.708%,故若用 y1的得分值对各企业进行排序,能从整体上反映企业之间的效应差别。将 S 中 sii的值及 中各x的值以及各企业关于 xi的观测值代入 y1的表达式中,可求得各企业ixy1的得分及其按其得分由大到小的排序结果。企业序号 得分12 -0.973544 -

40、0.648563 -0.6274311 -0.4855810 -0.219497 -0.18914 -0.0048035 0.0168798 0.1771113 0.189251 0.293512 0.653156 0.855669 0.96285所以,第 9 家企业的效益最好,第 12 家企业的效益最差。Matlab 程序:coeff,score,latent=princomp(X)注:该函数使用协方差阵作主成分分析。案例 33:从样本观测值矩阵出发求解主成分表 11-2 列出了 2007 年我国 31 个省,市,自治区和直辖市的农村居民家庭平均每人全年消费支出的 8 个主要变量数据。数据来

41、源:中华人民共和国国家统计局网站,2008 年 中国统计年鉴。数据格式如表 11-2 所列,是根据这 8 个主要变量的观测数据,进行主成分分析地 区 食 品 衣 着 居 住家庭设备及 服 务交通和通 讯文教娱乐用品及服务医疗保健其他商品及 服 务北 京 2132.51 513.44 1023.21 340.15 778.52 870.12 629.56 111.75天 津 1367.75 286.33 674.81 126.74 400.11 312.07 306.19 64.30河 北 1025.72 185.68 627.98 140.45 318.19 243.30 188.06 57.

42、40山 西 1033.68 260.88 392.78 120.86 268.75 370.97 170.85 63.81内蒙古 1280.05 228.40 473.98 117.64 375.58 423.75 281.46 75.29辽 宁 1334.18 281.19 513.11 142.07 361.77 362.78 265.01 108.05吉 林 1240.93 227.96 399.11 120.95 337.46 339.77 311.37 87.89黑龙江 1077.34 254.01 691.02 104.99 335.28 312.32 272.49 69.98上

43、海 3259.48 475.51 2097.21 451.40 883.71 857.47 571.06 249.04江 苏 1968.88 251.29 752.73 228.51 543.97 642.52 263.85 134.41浙 江 2430.60 405.32 1498.50 338.80 782.98 750.69 452.44 142.26安 徽 1192.57 166.31 479.46 144.23 258.29 283.17 177.04 52.98福 建 1870.32 235.61 660.55 184.21 465.40 356.26 174.12 107.00江

44、 西 1492.02 147.71 474.49 121.54 277.15 252.78 167.71 61.08山 东 1369.20 224.18 682.13 195.99 422.36 424.89 230.84 71.98河 南 1017.43 189.71 615.62 136.37 269.46 212.36 173.19 62.26湖 北 1479.04 168.64 434.91 166.25 281.12 284.13 178.77 97.13湖 南 1675.16 161.79 508.33 152.60 278.78 293.89 219.95 86.88广 东 20

45、87.58 162.33 763.01 163.85 443.24 254.94 199.31 128.06广 西 1378.78 86.90 554.14 112.24 245.97 172.45 149.01 47.98海 南 1430.31 86.26 305.90 93.26 248.08 223.98 95.55 73.23重 庆 1376.00 136.34 263.73 138.34 208.69 195.97 168.57 39.06四 川 1435.52 156.65 366.45 142.64 241.49 177.19 174.75 52.56贵 州 998.39 99.

46、44 329.64 70.93 154.52 147.31 79.31 34.16云 南 1226.69 112.52 586.07 107.15 216.67 181.73 167.92 38.43西 藏 1079.83 245.00 418.83 133.26 156.57 65.39 50.00 68.74陕 西 941.81 161.08 512.40 106.80 254.74 304.54 222.51 55.71甘 肃 944.14 112.20 295.23 91.40 186.17 208.90 149.82 29.36青 海 1069.04 191.80 359.74 122.17 292.10 135.13 229.28 47.23宁 夏 1019.35 184.26 450.55 109.27 265.76 192.00 239.40 68.17新 疆 939.03 218.18 445.02 91.45 234.70 166.27 210.69 45.25主成分分析实例对于某区域地貌-水文系统,其 57 个流域盆地的九项地理要素:x 1为流域盆地总高度(m)x 2为流域盆地山口的海拔高度(m),x

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 中等教育 > 小学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报