1、第十一章 两指标间的直线回归,(linear regression)11.1 概念11.2 直线回归方程的建立11.3 回归系数和回归方程的意义及性质11.4 回归系数的假设检验11.5 应变量总变异的分解11.6 回归问题的方差分析,11.7 直线回归的区间估计11.8 两个斜率的比较11.9 两条回归直线的合并11.10过定点的直线回归,11.11 直线回归与直线相关的区别及联系11.12多重线性回归简介 11.13回归分析的正确应用,例子:,(68,69),64,72,回归:x与平均值偏离,y总向其均数回归。,Regression 释义,11.1 概念,回归:子代身 高向平均水平的靠拢
2、用自变量X推算因变量Y 估计值(条件平 均值)的方法直线回归方程:a:回归直线在Y轴上的截距b:回归系数,回归直线的斜率b0,表示Y随X的增加而增加; b0,表示Y随X的增加而减少; b=0,表示回归直线与X 轴平行,即X与Y无回归关系。,GO,11.2 直线回归方程的建立,基本思想:使各实测值 Y 与回归直线上对应的估计值 之差的平方和 为最小,按这个准则导出 a、b 的最小二乘估计(least square estimation)。,go,幻灯片 9go,的意义,为残差:点到直线的纵向距离。,残差平方和 (residual sum of squares).综合表示点距直线的距离。在所有的直
3、线中,回归直线的残差平方和是最小的。(最小二乘),的意义,go,=13.44, =5.7266,lXX=24.9040,lYY=1.5439,lXY=5.9396,a=5.7266-13.440.2385=2.5212(103cm2),10名3岁男童体重与体表面积散点图,体重(kg),X,体表面积Y(103cm2),表11.1 10名3岁男童体重与体表面积回归方程之估计值及残差,残差,残差平方和,残差平方和最小且惟一,故名为最小二乘法,GO,11.3 回归方程的意义及性质,b:自变量增加一个单位时,应变量平均改变的量 b=0.2385(103cm2/kg),表示体重增加1(kg),则体表面积平
4、均递增0.2385(103cm2 ) a : 当X=0时,应变量的估计值 3岁男童的体重不可能等于0,a=2.5212没有实际意义 给定时的估计值(条件均数)X=12(kg)时,得=5.3832(103cm2),体重为12(kg)的3岁男童,估计其平均体表面积为5.3832(103cm2),回归直线的有关性质,(1) 直线通过均点 (2) 直线上方各点到直线的纵向距离之和 = 直线下方各点到直线的纵向距离之和即: (3) 各点到该回归线纵向距离平方和较到其它任何直线者为小。,11.4 回归系数的假设检验,回归系数的检验用 t 检验。检验假设为: H0:总体回归系数0; H1:总体回归系数0。
5、=0.05,H0:总体回归系数0,即体重与体表面积无回归关系; H1:总体回归系数0,即体重与体表面积有回归关系。 =0.05。 n=10;lXX=24.9040;b=0.2385; =0.127318 sb= =10-2=8,可知,tr=tb,因自由度相同,故回归系数是否为0的假设检验与相关系数是否为0的假设检验是等价的.,GO,11.5 因变量总变异的分解,X,P (X,Y),Y,Y的总变异分解,Y的总变异分解,未引进回归时的总变异: (sum of squares about the mean of Y)引进回归以后的变异(剩余): (sum of squares about regre
6、ssion)回归的贡献,回归平方和: (sum of squares due to regression),go,11.6 回归问题的方差分析,H0:体重与体表面积间无直线回归关系;H1:体重与体表面积间有直线回归关系。前已算得:lXX=24.9040,lYY=1.5439,lXY=5.9396 SS总= lYY=1.5439,SS剩 = 1.5439-5.93962/24.9040=0.1273SS回 = SS总-SS剩=1.5439-0.1273=1.4166,GO,回归直线的绘制,计算不太接近的两点的Y值:X=12kg时 =2.5212+0.238512=5.3832(103cm2)X=
7、15kg时 =2.5212+0.238515=6.0987(103cm2),体重(kg),X,图11.1 10名3岁男童体重与体表面积的直线回归,go,11.7 直线回归的区间估计,1. 回归系数 的区间估计, 的100(1- )%可信限为,的 估计,2.,的100(1- )%可信限,当 X 固定时Y 的总体中的条件均数,本例sb=0.02528, =10-2=8,t0.05,8=2.306, 故 的95%可信区间为:(0.2385-2.3060.02528,0.2385+2.3060.02528)=( 0.1802,0.2968) (103cm2/k),X=12时,求 的95%可信区间。 =
8、13.44,lXX=24.9040 , =0.1262。当X=12时, =5.3832, 5.38322.3060.0540=5.25875.5077即体重为12kg的3岁男童,估计其平为均体表面积为5.3832(103cm2/kg),95可信区间 (5.2587,5.5077) (103cm2/kg),3 .个体 Y 值的容许区间,容许区间: 当 X 固定时,个体 Y 值的波动范围,个体 Y 值的100 (1- ) % 容许限,当X=12kg时,体表面积个体值的95%容许限为,5.38322.3060.1372=5.06665.6998,的可信区间与Y的容许区间,X=12时, 的可信区间为:
9、5.25785.5077(103cm2), 表示:体重为12kg的3岁男童,估计其平均体表面积为5.3832,95可信区间为(5.2587,5.5077) (103cm2)。 X=12时,Y的容许区间为:5.06665.6998(103cm2),表示:体重为12kg的3岁男童, 估计有95的人其体表面积在5.06665.6998 (103cm2)之间。,可信区间与容许区间示意(confidence band & tolerance band),回归分析的步骤:1、散点图2、建立回归方程3、对回归方程进行假设检验4、画回归直线5、进行区间估计,11.8 两个斜率的比较,等价于1=2,回归分析的第
10、一步是作散点图,分别对男子和女子建立回归方程,并进行假设检验。男子:, t=5.941,=10,P0.001女子:, t=7.317,=10,P0.001 (3) 作回归线。两条回归线斜率的比较 =0.10。=12+12 -4=20,11.8.2 两条回归直线的合并记:合并剩余标准差回归系数的加权平均,H0:两总体回归线的高度相等;H1:两总体回归线的高度不等。=0.20。(lXX)c=858.6667+1338.9167=2197.5834(lXY)c= -1427.3333+(2351.25)= -3778.5833(lYY)c=3044.9167+4900.25=7945.1667,,,
11、两条回归直线斜率相等,但高度不等,即两条回归线平行但不重合,GO,11.9 过定点的直线回归,- Y0 = b (X- X0 ),剩余标准差为:回归系数标准误sb为: 回归系数的t检验公式为: =n-1,图11.5 测定不同硒含量所得荧光强度,GO,11.10 回归与相关的区别及联系, 计量单位:r没有单位;b的单位是Y单位X单位, 应用:相关反映两变量相互关系,回归反映两变量依存关系。,(2) 联系 正负符号:r 与 b 的正负符号相同。 假设检验:r 与 b 的 t 值相等:tr=tb, 换算关系:(i) (ii) 对 X 和 Y 作标准化变换,x 和y的均数都为0,标准差都为1。建立变换
12、值y关于x的标准回归直线,则截距为0,回归系数 b 等于相关系数 r 用回归解释相关。决定系数表示Y 的变异中可由 X 解释的部分占总变异的比例。,GO,11.13 回归分析的正确应用,(5)应用条件:线性(linear),独立(independent),正态(normal),等方差(equal variance),简记为LINE。 当只满足第一个条件时,也可以建立回归方程,只是回归方程原有的性质不再成立,区间估计、假设检验亦不再适用。,内插和外推:容许内插,不宜外推,,正确理解 b 的统计学意义:不能据 P 值判断回归效果优劣。 要想说明回归的贡献大小,需用决定系数,(2) 作散点图:判断是否为线性趋势,有无离群点,实际意义:因果关系,伴随关系。,给定X时,Y是正态分布、等方差示意图,给定X时,Y是正态分布、不等方差示意图,go1,