1、1, , ,本科学生实验报告学号: # 姓名: ¥ 学院: 生命科学学院 专业、班级:11 级应用生物教育 A班实验课程名称: 生物统计学实验 教 师: 孟丽华(教授) 开 课 学 期: 2012 至 2013 学年 下 学期填 报 时 间: 2013 年 5 月 22 日2云南师范大学教务处编印一实验设计方案实验序号及名称:实验十: 线性回归与相关性分析实验时间 2013-05-17 实验室 睿智楼 3 幢 326(一) 、实验目的:1、能够熟练的使用 SPSS 软件对实验数据进行线性回归分析和相关性分析;2、掌握线性回归与相关性分析的基本思想和具体操作,能够读懂分析结果,并写出回归方程,
2、对回归方程进行各种统计检验;3、进一步熟悉 SPSS 软件的应用。(二) 、实验设备及材料:微机、SPSS for Windows V 18.0 统计软件包及相应的要统计的数据(三) 、实验原理:1、统计学上采用相关分析(correlation analysis)研究呈平行关系的相关变量之间的关系。 2、对两个变量间的直线关系进行相关分析称为简单相关分析(也叫直线相关分析) ; 对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关分析; 研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析;3、相关性分析是考察两个变量之间线性关系的一种统计分析方法。更精确地说,当一
3、个变量发生变化时,另一个变量如何变化,此时就需要通过计算相关系数来做深入的定量考察。P 值是针对原假设 H0:假设两变量无线性相关而言的。一般假设检验的显著性水平为 0.05,你只需要拿 p 值和 0.05 进行比较:如果 p 值小于 0.05,就拒绝原假设 H0,说明两变量有线性相关的关系,他们无线性相关的可能性小于 0.05;如果大于 0.05,则一般认为无线性相关关系,至于相关的程度则要看相关系数 R 值,r 越大,说明越相关。越小,则相关程度越低。而偏相关分析是指当两个变量同时与第三个变量相关时,将第三3个变量的影响剔除,只分析另外两个变量之间相关程度的过程,其检验过程与相关分析相似;
4、4、对于两个相关变量,一个变量用 x 表示,另一个变量用 y 表示,如果通过试验或调查获得两个变量的 n 对观测值:( x1, y1) , ( x2, y2) , ( xn, yn) ;为了直观地看出 x 和 y 间的变化趋势,可将每一对 观 测 值 在 平 面直角坐标系描点,作出散点图;5、从散点图可以看出:两个变量间有关或无关;若有关,两个变量间关系类型,是直线型还是曲线型;两个变量间直线关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切) ;散点图直观地、定性地表示了两个变量之间的关系。为了探讨它们之间的规律性,还必须根据观测值将其内在关系定量地表达出来;6、利用直线回归方程进
5、行预测或控制时,一般只适用于原来研究的范围,不能随意把范围扩大,因为在研究的范围内两变量是直线关系,这并不能保证在这研究范围之外仍然是直线关系。若需要扩大预测和控制范围,则要有充分的理论依据或进一步的实验依据。利用直线回归方程进行预测或控制 ,一 般只能内插,不要轻易外延;7、进行直线相关分析的基本任务在于根据 x、 y 的实际观测值,计算表示两个相关变量 x、 y 间线性相关程度和性质的统计量 相关系数 r 并进行显著性检验;8、根据实际观测值计算得来的相关系数 r 是样本相关系数,它是双变量正态总体中的总体相关系数 的估计值。样本相关系数 r 是否来自 0的总体,还须对样本相关系数 r 进
6、行显著性检验。此时无效假设、备择假设为:4HO: =0,HA: 0。与直线回归关系显著性检验一样,可采用 t 检验法与 F检验法对相关系数 r 的显著性进行检验;9、 直线回归分析将二个相关变量区分为自变量和依变量,侧重于寻求它们之间的联系形式直线回归方程;直线相关分析不区分自变量和依变量,侧重于揭示它们之间的联系程度和性质计算出相关系数。两种分析所进行的显著性检验都是解决 y 与 x 间是否存在直线关系。因而二者的检验是等价的。即相关系数显著 ,回归系数亦显著;相关系数不显著,回归系数也必然不显著; 10、应用直线回归与相关的注意事项:直线回归分析与相关分析在生物科学研究领域中已得到了广泛的
7、应用,但在实际工作中却很容易被误用或作出错误的解释。为了正确地应用直线回归分析和相关分析这一工具,必须注意以下几点:1) 、变量间是否存在相关 ;2) 、其余变量尽量保持一致;3) 、观测值要尽可能的多;4) 、外推要谨慎;5) 、正确理解回归或相关显著与否的含义 ;6) 、一个显著的回归方程并不一定具有实践上的预测意义 ;(四)、实验内容:内容:生物统计学(第四版)138 页第七章习题 7.4 和习题 7.6实验方法步骤(一) 、习题 7.41、启动 spss 软件:开始 所有程序SPSSspss for windowsspss 18.0 for windows,直接进入 SPSS 数据编辑
8、窗口进行相关操作;2、定义变量,输入数据。点击“变量视图”定义变量工作表,用“name”命令定义变量“X”(小数点零位),标签:“4 月下旬平均气温/”;变量5“Y”(小数点零位),标签:“5 月上旬 50 株棉蚜虫数/头” ,点击“变量视图工作表”,一一对应将不同“X”气温与“Y”棉蚜虫数的数据依次输入到单元格中;3、设置分析变量。数据输入完后,点菜单栏:“分析(A ) ”“回归(R ) ”“线性(L)” ,将“5 月上旬 50 株棉蚜虫数( Y) ”移到因变量列表(D)中,将“4 月下旬平均气温(X) ”移入自变量列表(I)中进行分析;1) 、点“统计量(S ) ”, 回归系数:在“估计(
9、E) ”、 “置信区间 水平(%)95”前打钩, “模型拟合性(M) ”、 “描述性”前打钩,残差:个案诊断( C)前打钩,点“所有个案” ,点“继续” ;2) 、点“绘制(T)” ,将“DEPENDNP”移入“Y (Y ) ”列表中,将“ZPRED”移入“X2(X) ”中,标准化残差图:在“直方图(H) ”、 “正太概率图(R) ”前打钩,点“继续” ;3) 、点“保存(S )” ,所有的默认,点 “继续” ;4)、点 “选项(O)” ,所有的都默认,点“继续” ,然后点击“确定”便出结果;6统计量(S) 选项(O)(默认)绘制(T)7保存(S) (默认) (二) 、习题 7.61、启动 s
10、pss 软件:开始 所有程序SPSS spss for windowsspss 18.0 for windows,直接进入 SPSS 数据编辑窗口进行相关操作;2、定义变量,输入数据。点击“变量视图”定义变量工作表,用“name”命令定义变量“维生素 C 的含量”(小数点两位);变量“受冻情况”(小数点零位),“未受冻”赋值为“1”,“受冻”赋值为“2” ,点击“变量视图工作表”,一一对应将不同“未受冻”与“受冻”的维生素 C 的含量数据依次输入到单元格中;3、设置分析变量。数据输入完后,点菜单栏:“分析(A ) ”“相关(C ) ”“双变量(B)” ,将“维生素 C 含量” 、 “受冻情况”
11、变量(V)列表中,相关系数:“Pearson ”前打钩,显著性检验:双侧检验(T)前打钩, “标记显著性相关(F)前打钩 ”,点 “选项(O)” ,统计量:在“均值和标准差(M) ”前打钩,缺失值:在“按对排除个案(P) ”前打钩,点“继续” ,然后点击“确定”便出结果。8选项(O) “ 图形(G) ”“旧对话框(L) ”“散点/点状(S)”散点图/点图简单散点图94、表格绘制出来后,进行检查修改,将其复制到实验报告中,将虚框隐藏等;5、将所求的描述性统计指标数据表格保存,对其所求得的结果进行分析,书写实验报告。(五) 、实验结果:回归表1描述性统计量均值 标准 偏差 N5月上旬棉蚜虫数 56
12、.64 57.113 11104月下旬平均气温 18.855 2.6819 11表2相关性5月上旬棉蚜虫数4月下旬平均气温5月上旬棉蚜虫数 1.000 .858Pearson 相关性4月下旬平均气温 .858 1.0005月上旬棉蚜虫数 . .000Sig. (单侧)4月下旬平均气温 .000 .5月上旬棉蚜虫数 11 11N4月下旬平均气温 11 11表3输入移去的变量 b模型 输入的变量 移去的变量 方法1 4月下旬平均气温. 输入a. 已输入所有请求的变量。b. 因变量: 5月上旬棉蚜虫数表4模型汇总 b模型 R R 方 调整 R 方标准 估计的误差1 .858a .737 .707 3
13、0.903a. 预测变量: (常量), 4月下旬平均气温。b. 因变量: 5月上旬棉蚜虫数表5Anovab模型 平方和 df 均方 F Sig.回归 24023.684 1 24023.684 25.156 .001a残差 8594.862 9 954.9851总计 32618.545 10a. 预测变量: (常量), 4月下旬平均气温。b. 因变量: 5月上旬棉蚜虫数11表6系数 a非标准化系数 标准系数 B 的 95.0% 置信区间模型 B 标准 误差 试用版 t Sig. 下限 上限(常量) -287.943 69.331 -4.153 .002 -444.780 -131.10614月
14、下旬平均气温 18.276 3.644 .858 5.016 .001 10.033 26.518a. 因变量: 5月上旬棉蚜虫数表7残差统计量 a极小值 极大值 均值 标准 偏差 N预测值 20.92 198.19 56.64 49.014 11残差 -49.122 52.705 .000 29.317 11标准 预测值 -.729 2.888 .000 1.000 11标准 残差 -1.590 1.706 .000 .949 11a. 因变量: 5月上旬棉蚜虫数表8案例诊断 a案例数目 标准 残差5月上旬棉蚜虫数 预测值 残差1 .687 86 64.78 21.2232 -.038 19
15、7 198.19 -1.1903 -1.128 8 42.85 -34.8474 -.034 29 30.05 -1.0545 -.126 28 31.88 -3.8816 .067 23 20.92 2.0847 -1.590 12 61.12 -49.1228 -.815 14 39.19 -25.1919 1.039 64 31.88 32.11910 .231 50 42.85 7.15311 1.706 112 59.29 52.705a. 因变量: 5月上旬棉蚜虫数图表1213相关性表9描述性统计量均值 标准差 N维生素c含量 34.0553 4.94321 32受冻情况 1.50
16、 .508 32表10相关性维生素c含量 受冻情况Pearson 相关性 1 .192显著性(双侧) .293维生素c含量N 32 32Pearson 相关性 .192 1显著性(双侧) .293受冻情况N 32 32图表14实验结果分析:习题 7.4:由表 4 得出:拟合优度系数为 0.858,接近 1,说明拟合好。存在多重线性。由表 6 得,回归方程的 p 值0.05,说明显著线性。回归系数 p 值0.05,说明显著线性。(1)、线性回归方程:Y=-287.943+18.276X;(2)、s y/x =29.4143,F=28.510*; (3) y/x 的 95% 置信区间: (22.1
17、998 , 61.4500) ,单个 y 的 95% 置信区间: ( 26.5856 , 110.2354) ;习题 7.6:从实验结果可以得出 :(1) 、相关系数与决定系数分别为:r1=0.5930 , r 2 =0.3516 , ( 2) 、r 的 95% 置信区间: (0.1378 , 0.8414) 。 r=0.5930,r2=0.3516,r 的 95%置信区间:(0.1378,0.8414)。(六) 、实验总结分析:1、相关性分析是考察两个变量之间线性关系的一种统计分析方法,利用直15线回归方程进行预测或控制 ,一 般只能内插,不要轻易外延;2、直线回归相关分析的注意事项:1)
18、、相关分析只是以相关系数来描述两个变量间线性相关的程度和方向,并不阐明事物间存在联系的本质,也不是两事物间存在联系的证据。要阐明两事物间的本质联系,必须凭专业知识从理论上加以论证。因此,把两个毫无关系的事物放在一起作相关分析是毫无意义的。同样,作回归分析也要有实际意义;2) 、在进行直线回归前应绘制散点图,有直线趋势时,才适宜作直线回归分析。散点图还能提示资料有无异常点;3) 、直线回归方程的适用范围一般以自变量的取值范围为限;4) 、对同一组资料作回归和相关分析,其相关系数和回归系数的显著性检验结果完全相同。由于相关系数的显著性检验结果可直接查表,比较方便;而回归系数的显著性检验计算复杂,故
19、在实际应用中常用相关系数的显著性检验结果代替回归系数的显著性检验。5) 、在资料要求:相关分析要求两个变量服从双变量正态分布。回归分析要求因变量服从正态分布,自变量可以是精确测量和严格控制的变量。如两个变量服从双变量正态分布,则可以作两个回归方程,用 X 推算 Y,或用 Y 推算 X;3、相关分析中,不区分自变量和因变量。相关分析只研究两个变量之间线性相关的程度或一个变量与多个变量之间线性相关的程度,不能用一个或多个变量去预测另一个变量的值,这是回归分析与相关分析的主要区别;4、通过此次实验,更加熟悉了 SPSS 软件的应用,学习了线性回归与相关性分析,考察两变量之间线性关系,建立回归方程,并对回归系数作假设检验;16计算相关系数和决定系数,并对其检验等。教师评语及评分:签名: 年 月 日