收藏 分享(赏)

偏最小二乘回归在SPSS软件中的实现.pdf

上传人:精品资料 文档编号:8765912 上传时间:2019-07-11 格式:PDF 页数:5 大小:1.44MB
下载 相关 举报
偏最小二乘回归在SPSS软件中的实现.pdf_第1页
第1页 / 共5页
偏最小二乘回归在SPSS软件中的实现.pdf_第2页
第2页 / 共5页
偏最小二乘回归在SPSS软件中的实现.pdf_第3页
第3页 / 共5页
偏最小二乘回归在SPSS软件中的实现.pdf_第4页
第4页 / 共5页
偏最小二乘回归在SPSS软件中的实现.pdf_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

1、统计与决策17年第7期总第475期偏最小二乘回归在SPSS软件中的实现王国华1,2,张 虎1,魏岳嵩2(1.中南财经政法大学 统计与数学学院,武汉430073;2.淮北师范大学 数学科学学院,安徽淮北235000)摘 要:偏最小二乘回归是第二代回归分析方法,目前已在各种领域得到广泛应用。文章通过详细介绍不同版本的SPSS软件中PLS模块的安装来说明偏最小二乘回归方法在SPSS软件中的实现,并结合实例进一步说明该方法的参数设置和结果的解释。实例分析表明:偏最小二乘回归能够解决变量间多重共线性问题,适合在样本数小于变量个数情形下对系统进行回归建模。关键词:偏最小二乘回归; SPSS;主成分分析;典

2、型相关分析中图分类号:O212.4 文献标识码:A 文章编号:1002-6487(2017)07-0067-05基金项目:安徽省高校自然科学基金资助项目(KJ2015A035);中南财经政法大学研究生创新教育计划项目(2015B1303)作者简介:王国华(1980),男,安徽池州人,博士研究生,研究方向:金融统计与金融计量。张 虎(1963),男,湖北随州人,博士,教授,研究方向:金融统计与金融计量。魏岳嵩(1975),男,陕西定边人,博士,教授,研究方向:时间序列图模型与金融数学。0 引言偏最小二乘回归(PLSR)是一种新型的多元统计数据分析方法,它于1983年由伍德(S.Wold)和阿巴诺

3、(C.Albano)等人首次提出,用以解决化学样本分析中存在的变量多重相关,以及解释变量多于样本点等实际问题1。由于PLSR能解决以往普通多元回归方法所无法解决的一些问题,因而得到了研究人员的重视。近三十年来,偏最小二乘回归在理论和方法上都得到迅速的发展,而其应用领域也从最初的化学领域快速扩展到更多的自然科学和社会科学领域2-5。因此,偏最小二乘回归被称为第二代回归分析方法6。偏最小二乘回归方法需要借助统计软件来实现。目前,PLSR既可以通过专用软件SIMCA-P来实现7,也可以通过常用统计软件(SAS、R、Minitab)得以实现8,9。考虑到目前以菜单操作为主的SPSS软件在我国应用的广泛

4、性,一些已经熟悉SPSS软件的用户还是希望直接能在SPSS中实现偏最小二乘回归方法。一些SPSS统计分析教程或多元分析的教材均提到偏最小二乘回归这种新回归方法10,但是都没有具体说明如何在SPSS中实现PLSR、具体应用时参数的设置以及结果的解释等问题。尽管SPSS用户想使用偏最小二乘回归,但他们首先就遇到无法成功安装用来实现PLSR方法的PLS扩展模块的问题,当然也就无法进行后续的实证分析。因此,详细介绍SPSS中PLS扩展模块的安装及参数设置具有实际指导意义,并能促进这一方法在我国应用领域的进一步推广。1 偏最小二乘回归1.1 基本原理设有一组因变量(y1y2yq) 和一组自变量(x1x2

5、xp)。为了研究因变量和自变量的统计关系,观测了n个样本点,由此构成自变量与因变量的数据表 X=(xij)np和Y=(yij)nq。偏最小二乘回归分别在X与Y中提取成分t1和u1(即t1和u1分别是 x1x2xp与 y1y2yq的线性组合)。为了回归分析的需要,提取的这两个成分需要满足下列两个要求:(1)t1和u1应尽可能多地携带它们各自数据表中的变异信息;(2)t1和u1的相关程度能够达到最大。偏最小二乘回归提取成分的方法是通过迭代法逐步。在提取了第1对成分t1和u1后,分别实施X对t1的回归及Y对t1的回归。如果回归方程已达到满意的精度,则算法终止;否则继续提取第2对成分。将利用X被t1解

6、释后的残余信息以及Y被t1解释后的残余信息分别代替X和Y重复第一步的过程。如此反复,直到能达到一个较满意的精度为止。若最终对X共提取了r个成分t1t2tr,偏最小二乘回归将通过实施 yk(k=12q) 对t1t2tr的回归,然后再表达成 yk关于原变量x1x2xp的回归方程式,即偏最小二乘回归方程式。1.2 建模步骤为了方便起见,假定数据矩阵 X=(xij)np和Y=(yij)nq均已做过标准化处理。为了解释后面实例分析的结果,下面简要说明偏最小二乘回归分析的计算步骤,详细过程可参考相关文献7。偏最小二乘回归建模步骤如下:(1)分别提取两变量组的第1对成分,并使之相关性达最大记t1=Xw1和u

7、1=Yv1分别是自变量和因变量的第1成分。在 w1= v1=1条件下,这一要求相当于要求t1与u1的协方差cov(t1u1)=wT1XTYv1达到最大。最后问题的求解归结为计算矩阵 XTYYTX 的特征值和特征向量。w1方法应用DOI:10.13546/ki.tjyjc.2017.07.01767统计与决策17年第7期总第475期是 XTYYTX 的最大特征值21所对应的单位特征向量,而v1是YTXXTY 的最大特征值21所对应的单位特征向量,实际上,v1也可通过w1计算得到:v1=YTXw1/1,w1称为因子t1的权重(weights),当把样本观测值带入到t1=Xw1后得到的向量称为因子t

8、1的得分向量。(2)建立X对t1的回归及Y对t1的回归回归模型为:X=t1cT1+E1,Y=t1dT1+F1其中,c1=XTt1/tT1t1d1=YTt1/tT1t1分别是回归模型X对t1以及Y对t1中的系数向量,E1,F1分别是回归模型的残差阵。c1称为因子t1的载荷。(3)用残差阵 E1和F1代替X和Y重复以上步骤如果残差阵F1中的元素的绝对值近似为0,说明用第1成分建立的回归式满足精度要求了,可以停止成分的抽取,否则用残差阵 E1和 F1分别代替X和Y重复以上步骤。假设X的秩是r,则可以得到一系列成分对(tiui)和回归系数向量cidii=1r。这样就得到两个回归式:X=t1cT1+t2

9、cT2+trcTr+ErY=t1dT1+t2dT2+trdTr+Fr。由于t1t2tr是标准化变量 x*1x*2x*p的线性组合,因此最终可以得到每个因变量 yi关于自变量x1x2xp的多元线性回归方程式。(4)确定提取成分的个数一般情况下,偏最小二乘回归分析不会选取全部的r个成分,而只需选取前几个成分就可得到预测能力较好的模型。事实上,如果后面的成分如果不能为解释因变量提供有意义的信息时,选择太多成分会导致错误的预测结论10。一般来说,选取13个成分就可以达到较好的预测效果。比较客观地确定成分个数的方法是交叉验证法。它有好几种表现形式,此处只介绍其中的“舍一交叉验证法”(LOO)。舍一交叉验

10、证法的思想:每次舍弃一个观测值,用剩下的n-1个观测值,使用k个成分按照偏最小二乘回归的方法建立模型,然后把舍去的第i个自变量的观测值代入刚才所拟合的回归方程,得到因变量 yj在第i个观测值上的预测值 ykj(-i)j=12q。对i=1n重复以上的过程,即可得到抽取k个成分时第j个因变量 yj的预测残差平方和为PRESSj(k)=i=1n(yij-ykj(-i)2整个Y=(y1y2yq)的预测残差平方和为PRESS(k)=j=1qPRESSj(k)。对抽取的成分个数k从1开始直至r个,逐个计算Y的预测残差平方和PRESS(k),然后选择使PRESS(k)达到最小值的k作为最终的偏最小二乘回归模

11、型抽取的成分个数。2 SPSS中PLS扩展模块的安装偏最小二乘回归在SPSS中是通过PLS扩展模块来实现,而PLS扩展模块是用Python语言编写的,所以SPSS中PLS扩展模块的安装相对比较繁琐一些。显然IBM公司应该已经注意到这个用户体验的问题,所以现SPSS22及以上版本PLS扩展模块的安装过程已经大大简化。PLS扩展模块一次安装成功后,以后的应用只需通过菜单或者命令的方式即可实现偏最小二乘回归。PLS扩展模块对SPSS版本的最低要求为18,用户根据自己的操作系统类型(Windows32/64、MacOS、Linux等)来安装相应的IBM公司的SPSSStatistics产品。在安装完S

12、PSSStatistics之后,接下来需要安装的组件的个数根据SPSS版本的不同是不一样的,具体如表1所示。表1 SPSS不同版本需要安装的组件版本1819/20212224PythonEsentialsforPythonNumPy、SciPyPLSextensionbundle注:打“”的组件表示需要单独安装。下面仅以Windows系统为例,结合表1说明在SPSS中安装PLS扩展模块的主要步骤,其他系统平台请参考官方PLS扩展模块的安装说明。对于SPSS18,用户需要依次分别安装全部的4个组件。具体步骤是:(1)安装Python。Python是一种面向对象、解释型计算机程序设计语言,是完全免

13、费的自由软件。PLS扩展模块是用Python语言编写的,首先需要安装Python2.6.X系列,尽量安装系列里面最新的,可以去Python官方网站下载,下载Python时注意与自己的操作系统相匹配。(2)安装SPSSStatisticsEssentialsforPython。这是一个在SPSS与Python之间进行“语言沟通”所必备的基础插件,可以去SPSS社区下载此插件。下载时注意此插件的版本与你安装的SPSS的版本要匹配。在安装该插件时会检测系统是否已经安装Python,如果检测出来系统没有安装Python,会给出错误提示要求先安装Python2.6。(3)安装NumPy和SciPy。Nu

14、mPy和SciPy是用来进行数据处理与科学计算的两个重要的Python库,可从Py-thon官方网站下载。NumPy和SciPy的版本需要与你的Python版本匹配,SPSS18需要安装2.6版的NumPy和SciPy。同时还要注意系统与位数的差异,这些从你下载的NumPy和SciPy的文件名就可以区别。文件名中含“win32(64)”表示适合Windows32(64)版的SPSS18安装。(4)安装PLS扩展束文件(pls.spe)。SPSS中的扩展束文件是对SPSS原有功能的加强和补充,其中一大部分是借助其他语言来实现的。PLS扩展束文件是里面包含了具体实施偏最小二乘回归方法的Python

15、脚本文件,可以去SPSS社区搜索下载此文件。然后从SPSS18窗口的菜单“实用程序扩展束安装本地扩展束”来安装你下载的pls.spe文件。对于SPSS19/20来说,无须事前装Python。因为Py-thon已经整合到SPSSStatisticsEssentialsforPython插件里方法应用68统计与决策17年第7期总第475期面,所以在安装SPSSStatisticsEssentialsforPython时,如果检测出来系统没有安装Python,会自动安装其自带的Py-thon语言包。接下来的步骤同SPSS18一样,依次安装NumPy库和SciPy库,最后安装PLS扩展束文件。对于SP

16、SS21来说,只需要两步:先装SPSSStatisticsEssentials for Python,再装NumPy库和SciPy库。因为SPSS21的SPSSStatisticsEssentialsforPython里面已经将Python语言包和PLS扩展束文件整合在一起,无需再单独安装。对于SPSS2224,Python、SPSSStatisticsEssentialsforPython和PLS扩展束文件全部被整合到SPSSStatistics安装文件里面,在安装SPSSStatistics2224产品时默认这些组件会全部被安装。尽管SPSS2224已经将Python安装在SPSS的文件夹

17、内,然而,实践中发现在安装NumPy库和SciPy库时,却提示无法找到Python包。所以,在安装完SPSS2224之后,还是需要另外单独安装Python2.7语言包,并且要在SPSS2224里面设置刚才Python2.7的安装路径。具体操作可以通过菜单“编辑选项文件位置”最下面Python位置来设置。最后安装NumPy库和SciPy库,这样才能保证后面能成功实施偏最小二乘回归。通过上述对详细安装过程的说明,可以发现各版本的SPSS都需要单独安装NumPy库和SciPy库,而SPSS2124都只需两个步骤即可完成PLS模块的安装。另外,对于SPSS扩展束文件的安装、更新和维护,SPSS22以前

18、版本需要用户自己去SPSS社区中心搜索下载扩展束文件,而SPSS2224可以直接通过软件的菜单来“实用程序扩展束下载并安装扩展束”实现这些功能。基于上述两个方面的考虑,推荐用户先安装SPSS2224中任一版本,在正确安装PLS模块之后即可进行偏最小二乘回归分析。3 实例应用虽然偏最小二乘回归是一种多因变量对多自变量的回归建模方法,但是单因变量偏最小二乘回归模型在日常分析中是最常见的。有了前面SPSS中PLS模块的成功安装的准备,下面结合实际数据来说明PLSR的参数设置以及分析结果的解释。研究的问题是发电量的需求和工业产量的关系。采用了来自中经网19972009年发电量和相关能反映工业产量的数据

19、。因变量 y是发电量产量(亿千瓦小时),自变量有13个:x1原煤产量(亿吨),x2原油产量(万吨),x3天然气产量(亿立方米),x4生铁产量(万吨),x5纱产量(万吨),x6硫酸产量(万吨),x7烧碱(折100%)产量(万吨),x8纯碱产量(万吨),x9农用化肥产量(万吨),x10水泥产量(万吨),x11平板玻璃产量(万重量箱),x12钢产量(万吨),x13成品钢材产量(万吨)。具体数据可参考文献10。3.1 多重共线性诊断与逐步回归首先,例子中的样本数是13正好等于自变量个数,而一般线性回归要求样本数要大于自变量个数。另外,可以利用SPSS计算这14个变量间的线性相关系数,会发现相关系数均大

20、于0.96,这初步说明多重共线性问题很严重,不能直接用最小二乘法来进行多元回归分析。一般解决共线性问题的简单办法是剔除相关变量,为此,可以通过SPSS利用逐步回归法来进行多元线性回归,并选择共线性诊断选项。SPSS软件会给出逐步回归的变量筛选过程、拟合优度、回归系数估计以及t检验、方差分析和F检验等结果。汇总后的结果:y =1108.697+8.707x5+7.859x8t =(1.039) (5.301) (3.167)R2=0.998 F=3723.741从上述结果可知,逐步回归方程最终只保留了 x5和x8两个变量,F检验显著,调整后的可决系数达0.998。从F检验,t 检验以及拟合优度来

21、看,这个模型很好。但是,x5(纱产量)和x8(纯碱产量)对应的产业并不是用电需求最大的,许多用电量大的重工业没出现在方程中,因此,此结果很难令人信服。SPSS给出的有关共线性诊断的结果如表2所示。表2 回归系数及共线性诊断模型常量x5x8未标准化系数估计值1108.6978.7077.859标准误差1067.3021.6422.481t1.0395.3013.167显著性0.3230.0000.010共线性统计容差0.0100.010VIF104.083104.083特征值2.8810.1180.001条件数1.0004.93267.107方差比例常量0.000.050.95x50.000.0

22、10.99x80.000.001.00从表2的共线性统计中的方差扩大因子(VIF)来看,逐步回归法保留下来的 x5和 x8的VIF均超过100,说明还是存在严重的共线性问题。表中的最后一行中的条件数达到了67.107,最小特征根为0.001接近于零,方差比例系数较大接近于1。这些共线性诊断指标都说明经逐步回归筛选而保留下来的变量还是存在严重的共线性问题,即逐步回归并没有真正解决多重共线性问题。3.2 偏最小二乘回归参数设定下面利用偏最小二乘回归来解决变量存在多重共线性问题时的回归建模。按照前面PLSR建模的步骤需要将初始数据标准化,但SPSS的PLS模块会自动将数据标准化,因此,用户只需将原始

23、数据输入或导入到SPSS的数据集中而无须进行标准化操作。接着可以通过点击SPSS菜单“分析回归部分最小平方”来进入偏最小二乘回归分析的界面,界面包含变量、模型和选项3个选项卡。(1)变量。在变量选项卡中将 y选入到右边的因变量框中,将 x1 x13选入到右边的自变量框中。右下角的潜在因子最大数目默认值是5,潜在因子(又称潜在变量、潜变量)就是偏最小二乘回归过程中提取的成分,此处可先保留默认值。(2)模型。模型选项卡有两个选项:主效应和定制。系统默认选择主效应。主效应表示将全部自变量都作为因素一起分析;定制表示可以自己选择哪些自变量作为因素进行分析,而且还可以指定交互项。这里保持默认值主方法应用

24、69统计与决策17年第7期总第475期效应。(3)选项。此选项有3个子选项,SPSS默认是3个子选项都不选。这3个子选项用来保存和绘制单个个案、潜在因子和自变量的模型估计值,在SPSS界面中有文字解释。第1个子选项用于保存个案(含自变量和因变量)的预测值、残差以及潜在因子的得分和距离,同时绘制因子得分图。第2个子选项用于保存潜在因子的载荷和权重,同时绘制因子权重图。第3个子选项用于保存因变量对自变量的回归系数、自变量对因变量的重要程度即变量投影重要性(VIP),同时绘制VIP图。用户可以根据需要选择相应的子选项,并填写要保存数据的数据集名称。如果3个子选项都选上的话,SPSS输出结果时会给出上

25、面所说的三类输出图形和用于保存有关数据的3个数据集。3.3 偏最小二乘回归结果解释在选定自变量和因变量后,其他选项保持默认,SPSS以表格形式给出偏最小二乘回归的5个结果:潜在因子的方差解释比例、回归系数估计结果、变量投影重要性(VIP)、潜在因子权重以及潜在因子载荷。表3给出的是潜在因子对自变量和因变量的方差解释比例结果,体现的是潜在因子的信息综合解释能力。从表3中的结果来看,第1个潜在因子就可以解释自变量98.9%的信息,解释因变量99.8%信息,而前3个潜在因子累计可以解释自变量99.5%的信息,解释因变量100%信息。这说明用前3个潜在因子就可以达到很好的信息提取效果。于是,将变量选项

26、卡中潜在因子最大数目从默认的5改为3,模型选项的设置保持不变,为了后面解释说明的需要,此处将选项设置的3个子选项都选上,并将用于保存数据的数据集(扩展名为.sav)分别命名为case、factor和independent。选项设置好之后,这次SPSS只会给出表3前三行的结果。表3 潜在因子已解释的方差比例潜在因子t1t2t3t4t5统计X方差0.9890.0050.0010.0020.001累积的X方差0.9890.9940.9950.9980.998Y方差0.9980.0010.0004.486E-53.810E-5累积的Y方差(R方)0.9980.9991.0001.0001.000调整后

27、的R方0.9980.9991.0001.0001.000剩下的SPSS表格结果被合并在表4中。表4中的第35列给出的是自变量的累积投影重要性VIP的度量。对于VIP很大(大于1)的自变量,它在解释潜在因子(从而在解释因变量)时作用相对更大一些。表4中的VIP值差异不是太大,没有特别大于1的自变量,相比较而言x5、x8、x13解释重要性稍微大一点。但这一指标给出的结论是定性的,它不能决定哪些自变量在解释因变量时因为几乎没有作用而被剔除10。投影重要性VIP的值会被保存在“选项”的第3个子选项所设定的数据集中,并同时在输出结果中给出潜在因子VIP的图形化结果。表4中的第79列给出的是潜在因子权重结

28、果。从权重系数可以看出:各个自变量对于因子 t1来说权重几乎是一样的;对于因子 t2来说,x3、x6和x7的权重较大;而 x4、x8对于 t3来说权重较大。具体来说,第79列的第3行给出的是因变量的标准化变量关于潜在因子的回归结果:y*=0.279t1+0.121t2+0.162t3(1)第79列剩下的行实际上是潜在因子关于自变量的标准化变量的线性组合的结果。例如,第7列的结果表示为:t1=0.277x*1+0.276x*2+0.278x*12+0.278x*13此处 x*iy*是标准化变量。类似地,可根据第8、第9列的结果写出潜在因子t2、t3关于自变量的标准化变量的线性组合。将这些结果带入

29、到式(1)中可得:y*=0.0027x*1+0.0228x*2+0.1183x*3-0.0099x*4+0.0706x*5+0.0617x*6+0.1978x*7+0.1850x*8+0.0306x*9+0.1578x*10+0.0585x*11+0.0295x*12+0.0798x*13(2)再将式(2)中的标准化变量还原为原变量后即可得到因变量关于自变量的偏最小二乘回归结果,也就是表4中第2列所示的结果。y=-2567.1006+4.0259x1+0.1806x2+4.9976x3-0.0058x4+0.9814x5+0.4183x6+3.6421x7+3.8850x8+0.2251x9+

30、0.0385x10+0.0328x11+0.0164x12+0.0355x13(3)此回归系数结果会被保存在“选项”的第3个子选项所设定的数据集中。这些结果与文献中所给结果是一致的10。利用这些结果可以计算潜在因子得分,这些因子得分会被保存在“选项”的第1个子选项所设定的数据集中,并在输出结果中给出潜在因子得分图。具体会给出两种因子得分图,一个是因变量的3个因子得分与自变量的3个因子得分之间的矩阵散点图,另一个是自变量的3个因子得分之间的矩阵散点图。表4中的第1012列给出的是潜在因子的载荷结果。也就是以自变量为因变量对潜在因子t1、t2、t3的回归结果。这些结果的解释有些类似于因子分析中解释

31、因子或给因子命名时看哪几个变量对因子重要。王惠文等7结合表4 系数估计、累积变量重要性、因子权重及因子载荷结果自变量常量x1x2x3x4x5x6x7x8x9x10x11x12x13因变量y-2567.10064.02590.18064.9976-0.00580.98140.41833.64213.88500.22510.03850.03280.01640.0355累积变量重要性t10.9980.9940.9971.0021.0050.9930.9991.0040.9961.0031.0021.0041.004t20.9990.9940.9981.0011.0040.9931.0001.0030

32、.9961.0031.0011.0031.004t30.9990.9940.9981.0021.0040.9931.0001.0040.9961.0031.0011.0031.004变量y*x1*x2*x3*x4*x5*x6*x7*x8*x9*x10*x11*x12*x13*权重t10.2790.2770.2760.2770.2780.2790.2750.2770.2780.2760.2780.2780.2780.278t20.121-0.327-0.3520.509-0.0920.110-0.3580.4320.105-0.3270.1610.005-0.0370.171t30.162-0.

33、214-0.070-0.126-0.470-0.1260.1750.4210.583-0.0420.374-0.120-0.269-0.115载荷t11.000.2780.2760.2750.2780.2780.2760.2760.2780.2770.2780.2780.2790.278t21.00-0.293-0.3640.5940.0410.158-0.4450.344-0.063-0.3450.0620.0410.0410.221t31.00-0.2570.190-0.271-0.488-0.1100.2450.4730.5290.1990.067-0.020-0.310-0.242注:

34、表中第2行中的t1、t2、t3表示提取的前3个潜在因子,变量名称加“*”表示对应的标准化变量。方法应用70统计与决策17年第7期总第475期因子旋转的思想对原始的潜在因子载荷阵进行方差极大化旋转,使得变量仅在一个因子上有较大载荷,而在其他因子上的载荷较小,便于对潜在因子进行解释。潜在因子权重和载荷结果也被保存在“选项”中的第2个子选项所设定的数据集中,并在输出结果中给出3个因子的两两因子权重图。从偏最小二乘法的最终回归结果式(2)或式(3)来看,除了生铁产量(x4)的回归系数是负值之外,其他变量的回归系数都是正的。考虑到变量间的相关性,生铁产量(x4)与钢产量(x12)和成品钢材产量(x13)

35、之间在表达信息时会有重叠的部分,所以其对发电量的影响可能已经通过钢和成品钢材反映出来了。因而,生铁产量(x4)的系数是一个绝对值较小的负值也是合理的。由于式(2)是标准化的回归结果,从标准化回归系数来看,烧碱(x7)、纯碱(x8)、水泥(x10)和天然气(x3)与因变量发电量的相关性较大。实际上,这些行业本身就是用电需求比较大的行业。由此可见,偏最小二乘回归能很好地解决自变量存在多重共线性及样本数偏小时的回归问题。所得模型结果中包含原有的所有自变量,使每个自变量的回归系数更容易解释。4 结论偏最小二乘回归是对最小二乘回归的一种拓展,它利用对变量系统中的数据进行分解和筛选,提取对因变量解释性最强

36、的综合变量,剔除多重相关信息和系统噪声,从而克服了多重共线性对系统造成的不良作用。偏最小二乘回归在SPSS软件中的实现需要通过用Python语言编写的PLS模块插件来实现,本文首先详细介绍SPSS18及以上不同版本安装PLS扩展模块的详细步骤,从安装步骤的复杂度来看,建议用户安装SPSS22及以后的版本来进行偏最小二乘回归分析。另外,本文也给出了偏最小二乘回归的参数设置说明,并结合实例来说明怎样解释SPSS软件给出的结果。总之,在本文的指导下,SPSS用户能快速准确地掌握PLS模块的安装流程、参数的设置以及结果的解释,从而促进大家使用偏最小二乘这一近代回归分析方法去解决更多领域的实际问题。参考

37、文献:1Wold S, Albano C, Dunn M. Pattern Regression Finding and UsingRegularities in Multivariate DataM. London: Analysis Applied Science Publication, 1983.2陈凯华,官建成.中国区域创新系统功能有效性的偏最小二乘诊断J.数量经济技术经济研究, 2010,(8).3程慧平,万莉,张熠.基于偏最小二乘结构方程的我国区域公共图书馆发展水平研究J.图书情报工作, 2015,(12).4魏来,刘海涛,付祎.基于偏最小二乘回归的COCOMO模型校准方法J.统

38、计与决策, 2016,(8).5程豪,易丹辉,胡镜清等.一种综合变量构建方法的探讨J.统计与决策, 2017,(3).6Fornell C, Larcker D. A Second Generation of Multivariate Analysis:Classification of Methods and Implications for Marketing ResearchJ.Review of Marketing, 1987, (1).7王惠文,吴载斌,孟洁.偏最小二乘回归的线性与非线性方法M.北京:国防工业出版社, 2006.8Mevik B H, Wehrens R. The P

39、ls Package: Principal Component andPartial Least Squares Regression in RJ. Journal of Statistical Software, 2007, 18(2).9陈万林.实用六西格玛质量突破:迅速-精准企业管理之路M.北京:清华大学出版社, 2009.10何晓群,刘文卿.应用回归分析(第3版)M.北京:中国人民大学出版社, 2011.(责任编辑/易永生)Implementation of Partial Least Squares Regression in SPSS SoftwareWangGuohua1,2,Z

40、hangHu1,WeiYuesong2(1.SchoolofStatisticsandMathematics,ZhongnanUniversityofEconomicsandLaw,Wuhan430073,China;2.SchoolofMathematicalSciences,HuaibeiNormalUniversity,Huaibei Anhui 235000,China)Abstract:PartialLeastSquaresRegression(PLSR)isthesecondgenerationofregressionanalysismethod,hasbeenappliedina

41、widevarietyoffieldsatpresent.ThroughadetailedintroductionoftheinstallationofPLSmoduleindifferentversionsoftheSPSSsoftwaretoillustratetheimplementationofthePLSRmethodintheSPSSsoftware,thepaperusingapracticalexampletoshowtheparametersettingsofthismethodandtheinterpretationoftheresults.Thepracticalexam

42、pleanalysisshowsthatthePLSRpossessesmanyadvantages,suchasavoidingtheharmfuleffectsofmulticollinearity,andbeingcapableofbuildingthemod-elswhenthenumberofobservationsislessthanthenumberofvariables.Key words: partialleastsquaresregression;SPSS;principalcomponentsanalysis;canonicalcorrelationanalysis方法应用71

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报