收藏 分享(赏)

主成分分析和MATLAB应用.doc

上传人:hwpkd79526 文档编号:6770744 上传时间:2019-04-22 格式:DOC 页数:7 大小:218.50KB
下载 相关 举报
主成分分析和MATLAB应用.doc_第1页
第1页 / 共7页
主成分分析和MATLAB应用.doc_第2页
第2页 / 共7页
主成分分析和MATLAB应用.doc_第3页
第3页 / 共7页
主成分分析和MATLAB应用.doc_第4页
第4页 / 共7页
主成分分析和MATLAB应用.doc_第5页
第5页 / 共7页
点击查看更多>>
资源描述

1、主成分分析类型:一种处理高维数据的方法。降维思想:在实际问题的研究中,往往会涉及众多有关的变量。但是,变量太多不但会增加计算的复杂性,而且也会给合理地分析问题和解释问题带来困难。一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造” ,用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。一、总体主成分1.1 定义设 X 1,X 2,X p 为某实际问题所涉及的 p 个随机变量。记X=(X1,X 2,,Xp) T,其协方

2、差矩阵为 ()()(),TijpEXEX它是一个 p 阶非负定矩阵。设(1)112122212TpTppppYllllXllX 则有(2)()(),., )1,2.Tiiij jijVarYllCovovl第 i 个主成分:一般地,在约束条件 1Til及 (,)0,2,.1.TikikCovYli下,求 l i 使 Var(Y i)达到最大,由此 l i 所确定的 TilX称为 X 1,X 2,X p 的第 i 个主成分。1.2 总体主成分的计算设 是 的协方差矩阵, 的特征值及相应的正交单位化特征向量12(,.,)Tp分别为 120p及 12,.,pe则 X 的第 i 个主成分为(3)12,

3、12,.TiiiiipYeXeeXp此时 (),.,0TiiikkVarCove记 为主成分向量,则 Y=P TX,其中 ,且 12(,.)TpY 12(,.)pPe() ,TvYPDiag定义第 i 个主成分的贡献率: ;1ipi前 m 个主成分累计贡献率: ,它表明前 m 个主成分 Y1,Y 2,Y m综合提供 1ipiX1,X 2,X p中信息的能力。1.4 标准化变量的主成分在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起各变量取值的分散程度差异较大,这时总体方差则主要受方差较大的变量的控制。为了消除由于量纲的不同可能带来的影响,常采用变量标准化的方法,即令(5)*,12

4、,.iiiXp其中 这时 (),().iiiiEXVar*12(,.,)Tp的协方差矩阵便是 12(,.,)TpX的相关矩阵 ,其中()ijp(6)*(,)().ijijijCovXE利用 X 的相关矩阵 作主成分分析,有如下结论:设 为标准化的随机向量,其协方差矩阵(即 X 的相关矩阵)为 *12(,.,)Tp,则 的第 i 个主成分为(7)*12() ,12,.pTiii i iXYeeeip并且(8)*111()(),pppii iiVarYVarXp其中 为 的特征值, 为相应于特征值 的*120p *2(,.Tiiipee*i正交单位特征向量。第 i 个主成分的贡献率: ;*i前 m

5、 个主成分的累计贡献率: ;*1mip与 的相关系数为 。*iYiX*,ijijYXe二、样本主成分前面讨论的是总体主成分,但在实际问题中,一般 (或 )是未知的,需要通过样本来估计。设 12(,.,)1,2.Tiiipxxn为取自 12(,.,)TpX的一个容量为 n 的简单随机样本,则样本协方差矩阵及样本相关矩阵分别为(9)1()(),nTijpkkijijpSsxsRr其中 1211(,.),2,.(),.nTpjijnij kiikjjxxxps分别以 S 和 R 作为 和 的估计,然后按总体主成分分析的方法作样本主成分分析。三、 例 题某市为了全面分析机械类个企业的经济效益,选择了

6、8 个不同的利润指标,14 企业关于这 8 个指标的统计数据如下表所示,试进行主成分分析。表 1 14 家企业的利润指标的统计数据变量企业序号净产值利润率(%)xi1 固定资产利润率(%)xi2 总产值利润率(%)xi2 销售收入利润率(%)xi3 产品成本利润率(%)xi5物耗利润率(%)xi6人均利润率xi7(千元/人)流动资金利润率(%)xi81 40.4 24.7 7.2 6.1 8.3 8.7 2.442 20.02 25.0 12.7 11.2 11.0 12.9 20.2 3.542 9.13 13.2 3.3 3.9 4.3 4.4 5.5 0.578 3.64 22.3 6.

7、7 5.6 3.7 6.0 7.4 0.176 7.35 34.3 11.8 7.1 7.1 8.0 8.9 1.726 27.56 35.6 12.5 16.4 16.7 22.8 29.3 3.017 26.67 22.0 7.8 9.9 10.2 12.6 17.6 0.847 10.68 48.4 13.4 10.9 9.9 10.9 13.9 1.772 17.89 40.6 19.1 19.8 19.0 29.7 39.6 2.449 35.810 24.8 8.0 9.8 8.9 11.9 16.2 0.789 13.711 12.5 9.7 4.2 4.2 4.6 6.5 0.

8、874 3.912 1.8 0.6 0.7 0.7 0.8 1.1 0.056 1.013 32.3 13.9 9.4 8.3 9.8 13.3 2.126 17.114 38.5 9.1 11.3 9.5 12.2 16.4 1.327 11.6解:样本均值向量为:,(27.910.5.8.431.06.41.52.68)Tx样本协方差矩阵为: 168.37.257.901.267434.83.6.48.23.69.31585.00.2743.S 6.1 168.30574.81.2657.901.28601.22347349.57.9063.S5.4786.25.0.502.1291436

9、817438.3.7 由于 S 中主对角线元素差异较大,因此我们样本相关矩阵 R 出发进行主成分分析。样本相关矩阵 R 为:1 0.762 .58 0.6421 .59 0.426 .178 0.25338341.7 . .9. .9 6 1 0.25.6 0.781 324 . 矩阵 R 的特征值及相应的特征向量分别为:特征值 特征向量6.1366 0.32113 0.29516 0.38912 0.38472 0.37955 0.37087 0.31996 0.355461.0421 -0.4151 -0.59766 0.22974 0.27869 0.31632 0.37151 -0.2

10、7814 -0.156840.43595 -0.45123 0.10303 -0.039895 0.053874 -0.037292 0.075186 0.77059 -0.424780.22037 -0.66817 0.36336 -0.22596 -0.11081 0.14874 0.069353 -0.13495 0.559490.15191 -0.038217 0.62435 0.12273 -0.036909 0.15928 0.21062 -0.43006 -0.581050.0088274 -0.10167 0.13584 -0.15811 0.86226 -0.25204 -0

11、.34506 -0.13934 -0.0265570.0029624 0.1596 -0.061134 -0.53966 0.046606 0.7609 -0.27809 0.06203 -0.131260.0012238 0.19295 -0.031987 -0.64176 0.11002 -0.25397 0.68791 -0.006045 -0.0054031R 的特征值及贡献率见下表特征值 贡献率(%) 累计贡献率(%)6.1366 0.76708 0.767081.0421 0.13027 0.897340.43595 0.054494 0.951840.22037 0.027547

12、 0.979380.15191 0.018988 0.998370.0088274 0.0011034 0.999480.0029624 0.0003703 0.999850.0012238 0.00015297 1前 3 个标准化样本主成分类及贡献率已达到 95.184%,故只需取前三个主成分即可。前 3 个标准化样本主成分中各标准化变量 前的系数即为*(1,2.8)iiixs对应特征向量,由此得到 3 个标准化样本主成分为*1123456782*310.x+.9560.81x+.720.39+.70x.39+0.546x-4-74611-28-1y*2345678-.95.8x-.2.2注

13、意到,y 1近似是 8 个标准化变量 的等权重之和,是反映各(,.8)iiixs企业总效应大小的综合指标,y 1的值越大,则企业的效益越好。由于 y1的贡献率高达76.708%,故若用 y1的得分值对各企业进行排序,能从整体上反映企业之间的效应差别。将 S 中 sii的值及 中各 的值以及各xi企业关于 xi的观测值代入 y1的表达式中,可求得各企业 y1的得分及其按其得分由大到小的排序结果。企业序号 得分12 -0.973544 -0.648563 -0.6274311 -0.4855810 -0.219497 -0.18914 -0.0048035 0.0168798 0.1771113

14、0.189251 0.293512 0.653156 0.855669 0.96285所以,第 9 家企业的效益最好,第 12 家企业的效益最差。Matlab 程序:coeff,score,latent=princomp(X)注:该函数使用协方差阵作主成分分析。主成分分析程序a=; b=corrcoef(zscore(a)%计算相关系数矩阵 D=tril(b)%得到三角矩阵 d,v=eig(b)%计算特征值和特征向量 y1=zscore(a)*d(:,7)%计算第一主成分数值 f1,i1=sort(y1); f2,i2=sort(i1); flipud(i1),flipud(f1),f2%第一

15、主成分得分排序 y2=zscore(a)*d(:,6)%计算第二主成分数值 f1,i1=sort(y2); f2,i2=sort(i1); flipud(i1),flipud(f1),f2%第二主成分得分排序 y3=zscore(a)*d(:,5)%计算第三主成分数值 f1,i1=sort(y3); f2,i2=sort(i1); flipud(i1),flipud(f1),f2%第三主成分得分排序 y4=zscore(a)*d(:,4)%计算第三主成分数值 f1,i1=sort(y4); f2,i2=sort(i1); flipud(i1),flipud(f1),f2%第 si 主成分得分排

16、序 y5=zscore(a)*d(:,3)%计算第一主成分数值 f1,i1=sort(y1); f2,i2=sort(i1); flipud(i1),flipud(f1),f2%第一主成分得分排序 y=y5*(0.64/(0.64+0.84+1.04+1.17+2.36)+y4*(0.84/(0.64+0.84+1.04+1.17+2.36)+y3*(1.04/(0.64+0.84+1.04+1.17+2.36)+y2*(1.17/(0.64+0.84+1.04+1.17+2.36)+y1*(2.36/(0.64+0.84+1.04+1.17+2.36) f1,i1=sort(y); f2,i2=sort(i1); flipud(i1),flipud(f1),f2%综合主成分得分排序

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报