1、第九章 直线回归与相关,第一节 回归和相关的概念 第二节 直线回归 第三节 直线相关 第四节 直线回归与相关的内在关系和应用要点 第五节 协方差分析,第三节 简单相关分析,相关分析:研究变量之间的联系程度和联系性质的一种统计方法。,r =,r = 0,pp.173,相关系数r 两个变数标准化离差的乘积之和的平均数。,pp.173,pp.173,样本的相关系数 r 的定义二因为: 在回归分析时分成了两个部分:一部分是离回归平方和Q ,另一部分是回归平方和U =(SP)2/SSx。 因此,又可有定义:,pp.174,协方差(均积、协方):,所以,相关系数的取值范围:1r1 or r1r愈接近于1(
2、0),表明变量的相关程度 愈大(小)。,r 的显著与否还和自由度有关, V越大,受抽样误差的影响越小,r 达到显著水平的值就较小。正的r 值表示正相关,负的r 值表示负相关。而相关系数r的正或负和回归系数b是保持一致。,pp.174,pp.174,决定系数 r2 表示在依变量 y 的总变异中,由回归关系引起的变异部分所占的百分比。例如,r0.8,r20.64,表示由回归关系引起的变异部分只占 y 的总变异的64,还有36是其它因素引起的变异。决定系数 r2 是在相关系数 r 显著时才计算;相关系数不能由决定系数开平方求得。,例,P160 例9.1 已知:SSx=144.6356 SSy=249
3、.5556 SP=159.0444 n=9,相关分析:计算相关系数r并进行显著性测验。,pp.174,二、相关系数的显著性检验(t 测验),设一双变量总体(X,Y), 相关系数 0, r0?0, r0H0: 0 HA: 0相关系数标准误 查临界 t 值的自由度dfn2 显著水准0.05,0.01,pp.175,前例,已知:r =0.8371 n=9df = n 2= 92 = 7 t0.05(7)=2.365 t0.01(7)=3.499因为| t | t0.01(7),所以否定H0,推断相关系数极显著。表明一代三化螟蛾盛发期与3月下旬至4月中旬积温呈极显著负相关,即积温愈高(低),盛发期愈早
4、(迟)。,决定系数 r 2=0.7007 表明,在一代三化螟蛾盛发期的变异中,仅有70.07%是由3月下旬至4月中旬的积温不同所引起的。,df = n2表10,r 与 R 的显著值表:由 df 和变量个数 M=2 作查表参数。本例,r = 0.8371* df = 92 =7 r0.05(7)=0.666 r0.01(7)=0.798,pp.176,图9.6 P不同时的r 的抽样分布(n=8),pp.177,pp.178,相关分析的步骤:第一步 计算相关系数和决定系数;第二步 相关系数的显著性检验。,第四节 应用相关与回归分析时 应注意的问题,包含了两个回归系数的信息。,相关与回归的其它特点比
5、较,1.两种方法研究变量关系的角度不同。回归分析的两变量(x, y)地位不同,而相关分析的两变量地位无差别。 而 ryxrxyr 无单位,b 有单位;r1,b 的范围较大。,2. r 与 b 的符号是一致的,都表达变量的联系性质。3. r 的显著性检验与回归关系的显著性检验结果一致。回归:相关。,二、应用相关与回归分析时应注意事项:,1.研究变量间的关系,应注意其实际意义。2.必须严格控制被研究的两变量以外的各因素,使其尽可能地保持一致。3.一个不显著的相关系数只能说明 x 与 y 不具有直线关系,不能说其无关系。,4.一个显著的回归,并不一定具有实践上的预测意义。例如,若一个样容量 n102
6、 的资料,当其r0.254 时便为极显著。而此资料的 y 的变异中只有 r20.2542 0.0645 6.45是由 x 决定的,还有93.55的变异部分是由其它因素决定的。所以,实际应用中,r2 至少要大于 0.5。而且不排斥能够更好地描述X 和Y 的各种曲线的存在。5.回归方程和相关系数的应用,要注意其适用范围。,第五节 协方差分析,一、协方差分析的意义,方差分析进行各处理平均数间差异显著性检验的方法。其资料格式如右表。回归分析研究两变量关系的方法。其资料格式如右表。,协方差分析方差分析与回归分析相结合的统计方法。其资料格式如下。,两法结合的基础:方差:协方差(均积、协方): 在方差分析中
7、,对于上面的资料,有 SSTSStSSe,可以证明,同样有 SPTSPtSPe。,二、协方差分析的功用统计控制,试验控制:指在田间试验中,通过各种试验管理措施来控制非处理条件的一致。 统计控制:指运用统计方法来消除试验的非处理条件不一致造成的影响。 具体方法:将某不一致的非处理条件作为自变量 x 而与结果指标 y 一起记录下来,得到双变量资料。然后运用回归分析方法研究 x 与 y 之间有无显著的回归关系,若有,则利用该回归关系对 y 进行矫正,以消除因 x 不一致而对 y 造成的误差。,协方差分析还可用于测定k个直线回归方程的差异显著性。在遗传育种、生态、环保等研究中,也可用协方差来作不同变异
8、来源的相关性分析。单向分组资料的协方差分析 两向分组资料的协方差分析,1、收集整理因变量和自变量的有关资料 2、建立回归预测模型 3、进行显著性检验 4、绘制回归直线/区间进行预测,回归分析步骤,第九章 直线回归与相关,相关分析的步骤:第一步 计算相关系数和决定系数;第二步 相关系数的显著性检验。,每吨铸件的成本(元)与每一个工人劳动生产率(吨)之间的回归方程为 ,这意味着劳动生产率每提高1吨,成本就( )。 A提高270元 B提高269.5元 C降低0.5元 D提高0.5元若两个变量之间完全相关,在以下结论中不正确的是( )。 A|r|=1 Br2=1 C估计标准残差Se=0 D回归系数b=0,练习,一所大学图书馆有6台复印机供学生使用,管理人员发现,每台机器的维修费用与其使用的时间有一定关系,根据去年一年的记录,搜集到以下数据:每周使用时间x(小时)33 21 31 37 46 42 年维修费用y(百元)16 14 25 29 38 34试计算使用时间与维修费用之间的相关系数。当每周使用时间为50小时时的年维修费用是多少?,作业,PP191习题9.5、9.6、9.7,