1、Stata 命令1 主成分估计Stata 可以通过变量进行主成分分析,也可以直接通过相关系数矩阵或协方差矩阵进行。(1)sysuse auto,clearpca trunk weight length headroompca trunk weight length headroom, comp(2) covariance(2)webuse bg2,clearpca bg2cost*, vce(normal)2 Estatestat 给出了几个非常有用的工具,包括 KMO、SMC 等指标。Kaiser-Meyer-Olkin(KMO) ,是用于测量变量之间相关关系的强弱的重要指标,是通过比较两个
2、变量的相关系数与偏相关系数得到的。KMO 介于 0 于 1之间。KMO 越高,表明变量的共性越强。如果偏相关系数相对于相关系数比较高,则 KMO 比较低,主成分分析不能起到很好的数据约化效果。根据Kaiser(1974) ,一般的判断标准如下:0.00-0.49,不能接受(unacceptable);0.50-0.59,非常差(miserable) ;0.60-0.69,勉强接受(mediocre) ;0.70-0.79,可以接受(middling) ;0.80-0.89,比较好(meritorious) ;0.90-1.00,非常好(marvelous) 。SMC 即一个变量与其他所有变量的
3、复相关系数的平方,也就是复回归方程的可决系数。SMC 比较高表明变量的线性关系越强,共性越强,主成分分析就越合适。根据 KMO 越高,表明变量的共性越强和 SMC 比较高表明变量的线性关系越强,共性越强,主成分分析就越合适。webuse bg2,clearpca bg2cost*, vce(normal)estat antiestat kmoestat loadingsestat residualsestat smcestat summarize3 预测Stata 可以通过 predict 预测变量得分、拟合值和残差等。webuse bg2,clearpca bg2cost*, vce(nor
4、mal)predict score fit residual q (备注:q代表残差的平方和)4 碎石图碎石图是判断保留多少个主成分的重要方法。命令为 screeplot。webuse bg2,clearpca bg2cost*, vce(normal)screeplot.511.52Eigenvalues1 2 3 4 5 6NumberScre plot of eigenvalues after pca5 得分图、载荷图得分图即不同主成分得分的散点图。命令为 scoreplot。webuse bg2,clearpca bg2cost*, vce(normal)scoreplot-4-2024Scores for component 2-6 -4 -2 0 2 4Scores for component 1Score variables (pca)载荷图即不同主成分载荷的散点图。命令为 loadingplot。webuse bg2,clearpca bg2cost*, vce(normal)loadingplotbg2cost1bg2cost2bg2cost3bg2cost4 bg2cost5bg2cost6.3.4.5.6Component 2-.4 -.2 0 .2 .4 .6Component 1Component loadings