1、用下面的数据做相关分析和一元线性回归分析:选用普通高等学校毕业生数和高等学校发表科技论文数量做相关分析和一元线性回归分析。一、相关分析1. 作散点图普通高等学校毕业生数和高等学校发表科技论文数量的相关图从散点图可以看出:普通高等学校毕业生数和高等学校发表科技论文数量的相关性很大。2. 求普通高等学校毕业生数和高等学校发表科技论文数量的相关系数把要求的两个相关变量移至变量中,因为都是定距数据,选择相关系数中的 Pearson,点击确定,可以得到下面的结果:Correlations普通高等学校毕业生数(万人)高等学校发表科技论文数量(篇)Pearson Correlation 1 .998*Sig
2、. (2-tailed) .000普通高等学校毕业生数(万人)N 14 14Pearson Correlation .998* 1Sig. (2-tailed) .000高等学校发表科技论文数量(篇)N 14 14*. Correlation is significant at the 0.01 level (2-tailed).两相关变量的Pearson 相关系数=0.0998 ,表示呈高度正相关;相关系数检验对应的概率P值=0.000,小于显 著性水平0.05, 应拒绝原假设(两变量之间不具有相关性),即毕业生人数好发表科技论文数之间的相关性显著。3. 求两变量之间的相关性选择相关系数中的
3、全部,点击确定:Correlations(万人) (篇)Correlation Coefficient 1.000 1.000*Sig. (2-tailed) . .(万人)N 14 14Correlation Coefficient 1.000* 1.000Sig. (2-tailed) . .Kendalls tau_b(篇)N 14 14Correlation Coefficient 1.000 1.000*Sig. (2-tailed) . .(万人)N 14 14Correlation Coefficient 1.000* 1.000Sig. (2-tailed) . .Spearm
4、ans rho(篇)N 14 14*. Correlation is significant at the 0.01 level (2-tailed).注解:两相关变量(毕业生数和发表论文数)的Kendall相关系数=1.000, 呈正相关;无相关系数检验对应的概率P值, 应接受原假设(两变量之间不具有相关性),即毕业生数与发表论文数之间相关性不显著。两相关变量(毕业生数和发表论文数)的Spearman相关系数=1.000, 呈正相关;无相关系数检验对应的概率P值, 应接受原假设(两变量之间不具有相关性),即毕业生数与发表论文数之间相关性不显著。4. 普通高等学校毕业生数和高等学校发表科技论文
5、数量的相关系数将所求变量移至变量,将控制变量移至控制中,选中显示实际显著性水平,点击确定:Correlations普通高等学校毕业生数(万人)高等学校发表科技论文数量(篇)Pearson Correlation 1 .998*Sig. (2-tailed) .000普通高等学校毕业生数(万人)N 14 14Pearson Correlation .998* 1Sig. (2-tailed) .000高等学校发表科技论文数量(篇)N 14 14*. Correlation is significant at the 0.01 level (2-tailed).注解: 两相关变量(普通高校毕业生数
6、和发表论文数)的偏相关系数 =0.998,呈正相关;对应的偏相关系数双侧检验p值0,小于显著性水平0.05,应拒绝原假设(两变量之间不具有相关性),即普通高校毕业生数与发表论文数之间相关性显著。二、一元线性回归从前面的相关分析可以看出普通高等学校毕业生数和高等学校发表科技论文数量呈高度正相关关系,所以,下面对这两个变量做一元线性回归分析。1. 建立回归方程点击选项,选中使用F 的概率,如上图所示。点击继续,确定:Variables Entered/RemovedbModelVariables EnteredVariables Removed Method1 (篇) a . Entera. Al
7、l requested variables entered.b. Dependent Variable: (万人)此图显示的是回归分析方法引入变量的方式。Model SummaryModel R R SquareAdjusted R SquareStd. Error of the Estimate1 .998a .996 .996 11.707a. Predictors: (Constant), (篇)此图是回归方程的拟合优度检验。注解:上图是回归方程的拟合优度检验。第二列:两变量(被解释变量和解释变量)的相关系数R=0.998.第三列:被解释变量(毕业人数)和解释变量(发表科技论文数)的判定
8、系数=0.996是一元 线性回归 方程拟合优度检验的统计量;判定系数越接近1,说明回2归方程对样本数据的拟合优度越高,被解释变量可以被模型解释的部分越多。第四列:被解释变量(毕业人数)和解释变量(发表科技论文数)的调整判定系数 =0.996。这主要适用于多个解释变量的时候。2第五列:回归方程的估计标准误差=11.707.ANOVAbModel Sum of Squares df Mean Square F Sig.Regression 448318.664 1 448318.664 3271.335 .000aResidual 1644.535 12 137.0451Total 449963.
9、199 13a. Predictors: (Constant), (篇)b. Dependent Variable: (万人)注解:回归方程的整体显著性检验回归分析的方差分析第二列:被解释变量(毕业人数)的总离差平方和=449963.199,被分解为两部分:回归平方和=448318.664 ;剩余平方和=1644.535.F检验统计量的 值=3271.335,对应概率的P 值=0.000,小于显著性水平0.05,应拒绝回归方程显著性检验的原假设(回归系数与0不存在显著性差异),结论:回归系数不为0,被解释变量(毕业人数)与解释变量(发表科技论文数)的线性关系是显著的,可以建立线性模型。Coef
10、ficientsaUnstandardized CoefficientsStandardized CoefficientsModel B Std. Error Beta t Sig.(Constant) -316.259 14.029 -22.543 .0001(篇) .001 .000 .998 57.196 .000a. Dependent Variable: (万人)注解:回归方程的回归系数和常数项的估计值,以及回归系数的显著性检验。第二列:常数项估计值=-316.259;回归系数估计值=0.001.第三列:回归系数的标准误差=0.000第四列:标准化回归系数=0.998.第五、六列:回
11、归系数T检验的t统计量值=57.196,对应的概率P值=0.000,小于显著性水平0.05,拒绝原假设(回归系数与0不存在显著性差异),结论:回归系数不为0,被解释变量(毕业人数)与解释变量(发表科技论文数)的线性关系是显著的。于是,回归方程为:=-316.259+0.001x2. 回归方程的进一步分析(1)在统计量中选中误差条图的表征,水平百分之95.点击继续,然后点击确定,输出每个非标准化回归系数的95%置信区间:选中统计量中的描述性,点击继续,然后确定,输出 变量的均值、标准差相关系数矩阵和单侧检验概率值:Descriptive StatisticsMean Std. Deviation
12、 N(万人) 465.92 186.044 14(篇) 932780.57 221459.019 14Correlations(万人) (篇)(万人) 1.000 .998Pearson Correlation(篇) .998 1.000(万人) . .000Sig. (1-tailed)(篇) .000 .(万人) 14 14N(篇) 14 14(2)残差分析选中统计量中的个案诊断,所有个案,点击继续,然后确定:Residuals StatisticsaMinimum Maximum Mean Std. Deviation NPredicted Value 137.72 707.16 465
13、.92 185.704 14Std. Predicted Value -1.767 1.299 .000 1.000 14Standard Error of Predicted Value3.153 6.536 4.320 .995 14Adjusted Predicted Value 139.53 713.78 466.40 185.620 14Residual -26.276 19.112 .000 11.247 14Std. Residual -2.245 1.633 .000 .961 14Stud. Residual -2.511 1.696 -.018 1.048 14Delete
14、d Residual -32.896 20.618 -.473 13.403 14Stud. Deleted Residual -3.491 1.862 -.073 1.259 14Mahal. Distance .015 3.123 .929 .890 14Cooks Distance .000 .795 .100 .205 14Centered Leverage Value .001 .240 .071 .068 14a. Dependent Variable: (万人)Casewise DiagnosticsaCase Number Std. Residual (万人) Predicte
15、d Value Residual1 -2.245 681 707.16 -26.2762 .811 659 649.87 9.4943 .834 639 628.96 9.7594 .314 625 621.02 3.6785 -.542 608 614.50 -6.3416 .061 575 574.71 .7117 -.418 531 536.00 -4.8968 1.633 512 492.84 19.1129 .370 448 443.45 4.33610 -.259 378 380.53 -3.03211 1.070 307 294.27 12.52712 -.447 239 244.33 -5.22813 -.842 188 197.55 -9.85214 -.341 134 137.72 -3.993a. Dependent Variable: (万人)从上表可以看出,第8例的残差和标准化残差最大。