1、两指标间的关系分析,Linear regression直线回归,内容提要:,11.1 概述11.2 回归方程的建立11.3 回归系数和回归方程的意义及性质11.4 回归系数的假设检验11.5 应变量总变异的分解11.6 回归问题的方差分析11.7 直线回归的区间估计11.8 两条回归直线的比较11.9 过定点的直线回归11.10 直线回归与直线相关的区别与联系11.11 回归分析的正确应用11.12 实例演示,END,11.1 概述,Y 因变量,响应变量 (dependent variable, response variable) X 自变量,解释变量 (independent variab
2、le, explanatory variable) 直线回归的形式:,Francis Galton,英国生物学家,统计学家生物统计学派的创始人英美数理统计学派早期的代表人物创用和发展了“相关”与“回归”。用统计方法研究遗传和进化的第一人,Francis Galton (1822-1911),Regression 释义,Regression 释义,11.1 直线回归方程的建立,最小二乘法(least square estimation),例11.1 某地10名三岁儿童体重与体表面积,X Y (体重,kg) (体表面积,103cm2 )11.0 5.28311.8 5.29912.0 5.3581
3、2.3 5.29213.15.60213.7 6.01414.4 5.83014.9 6.10215.2 6.07516.0 6.411,10名3岁男童体重与体表面积散点图,体重(kg),X,体表面积Y(103cm2),体重与体表面积的回归,回归直线的绘制,计算不太接近的两点的Y值:X=12kg时 Y=2.5212+0.238512=5.3832(103cm2)X=15kg时 Y=2.5212+0.238515=6.0987(103cm2),10名3岁男童体重与体表面积回归图,体重(kg),X,体表面积Y(103cm2),11.3 回归系数和回归方程的意义及性质,b 的意义a 的意义 的意义
4、的意义 的意义,b 的意义,斜率(slope) 2.5212 + 0.2385 X 体重每增加 1 kg, 则体表面积平均增加 0.2385(103cm2)b 的单位为 (Y的单位/X的单位),a 的意义,a 截距(intercept, constant)X=0 时,Y的估计值A的单位与Y值相同当X可能取0时,a才有实际意义。,估计值 的意义,X=11时, =5.145, 即体重为 11 kg 的三岁男童, 其平均体表面积之估计为 5.145 (103cm2);X=15时, =6.099, 即体重为 15 kg 的三岁男童, 其平均体表面积之估计为 6.099 (103cm2).给定X时,Y的
5、估计值。当 时,,由体重(kg)估计体表面积(103cm2 ),X Y Y 的估计值 (体重,kg) (体表面积)11.0 5.2835.14511.8 5.2995.33612.0 5.3585.38312.3 5.2925.45513.1 5.6025.64613.76.0145.78914.4 5.8305.95614.9 6.1026.07515.2 6.0756.14616.0 6.4116.337,的意义,为残差:点到直线的纵向距离。,残差平方和 (residual sum of squares).综合表示点距直线的距离。在所有的直线中,回归直线的残差平方和是最小的。(最小二乘),
6、的意义,点到直线的距离,点到回归直线的距离平方和为最小!,回归直线的有关性质,(1) 直线通过均点 (2) 直线上方各点到直线的纵向距离之和 = 直线下方各点到直线的纵向距离之和即: (3) 各点到该回归线纵向距离平方和较到其它任何直线者为小。,11.4 回归系数的假设检验,回归系数b=0,则回归关系不存在。 H0:总体回归系数为0, =0; H1:总体回归系数不为0,0; =0.05。,回归系数的 t 检验,体重与体表面积回归系数的假设检验,H 0:总体回归系数 0,即体重与体表面积无回归关系;H 1:总体回归系数 0,即体重与体表面积有回归关系。 =0.05。,体重与体表面积间存在回归关系
7、。,回归系数与相关系数的假设检验,结果等价。,11.5 因变量总变异的分解,X,P (X,Y),Y,Y的总变异分解,未引进回归时的总变异: (sum of squares about the mean of Y)引进回归以后的变异(剩余): (sum of squares about regression)回归的贡献,回归平方和: (sum of squares due to regression),Y的总变异分解,Y的总变异分解,11.6 回归问题的方差分析,H 0:体重与体表面积间无直线回归关系; H 1:体重与体表面积间有直线回归关系。 = 0.05。lXX=24.9040,lYY=1.
8、5439,lXY=5.9396, SS总= lYY=1.5439SS剩 = lYY lXY / lXX=0.1273 SS回 = SS总-SS剩=1.5439-0.1273=1.4166,方差分析表,变异来源 SS v MS F P 回 归 1.4166 1 1.4166 89.01 0.001 剩 余 0.1273 8 0.0159 总变异 1.5439 9,直线回归中三种假设检验间的关系,在直线回归中,相关系数的假设检验,回归系数的假设检验,以及回归方程的方差分析结果等价。,剩余标准差,(1) 扣除了X的影响后Y方面的变异;(2) 引进 回归方程后, Y方面的变异。,11.7 回归问题的区
9、间估计,回归系数的可信区间估计估计值 的可信区间估计个体Y值的容许区间估计,复习,均数的可信区间: 均数界值标准误 (4.3,4.4)个体的容许区间(参考值范围): 均数界值标准差 (2.37),11.7.1 总体回归系数 的可信区间估计,根据 t 分布原理估计:0.2385+/-2.3060.02528 0.18020.2968(103cm2/kg),11.7.2 的可信区间估计,样本 总体Y的总平均给定X时Y的平均 (Y的条件均数),根据 t 分布原理:,X=12时,求 的95%可信区间,=13.44, lXX=24.9040, =0.1262。当X=12时, =5.3832,,11.7.
10、3 的容许区间估计,给定 X 时 Y 的估计值是 Y 的均数的一个估计。给定X 时 Y 值的容许区间是 Y 值的可能范围。 的100(1- )%容许限:,的可信区间与Y的容许区间,可信区间是针对条件均数的,而容许区间是针对Y的取值范围的。X=12时, 的可信区间为:5.25785.5077(103cm2), 表示:体重为12kg的3岁男童,估计其平均体表面积为5.3832,95可信区间为(5.2587,5.5077) (103cm2)。 X=12时,Y的容许区间为:5.06665.6998(103cm2), 表示:体重为12kg的3岁男童, 估计有95的人其体表面积在5.06665.6998
11、(103cm2)之间。,结论:,体重为12kg的3岁男童,估计有95%的人其体表面积在5.06665.6998(103cm2)之间,平均体表面积为5.3832(103cm2),95可信区间为(5.2587,5.5077) (103cm2)。,剩余标准差、条件标准误、条件标准差,抽样误差,,个体变异,可信区间与容许区间示意(confidence band & tolerance band),11.8 两条回归线的比较,分析思路:(1) 每一条回归线均成立;(2) 回归系数 b 相同的假设检验;(平行)(3) 回归系数 a 相同的假设检验;(重合)(4) 合并两个回归方程。,24名成年男女的心率(
12、X)与收缩时间(Y)的散点图,男性 女性,24名成年男女的心率(X)与收缩时间(Y)的相关分析,男性 女性方程 498.9961-1.6623X 499.6637-1.7561Xt 值 5.941 7.317P 值 0.0001 0.0001,24名成年男女的心率(X)与收缩时间(Y)的回归图,男性 女性,两个回归系数的比较,H0: 1 = 2 H1: 1 2 =0.10根据 t 分布原理:,两个截距的比较,在公共回归系数下,第1条直线的截距:在公共回归系数下,第2条直线的截距:根据 t 分布原理:,b1-b2的标准误,一个回归系数的标准误,合并剩余均方(Pooled residual mea
13、n square),加权平均:,一个回归方程时的sY.X,H0: 1 = 2,公共回归系数bC,(common regression coefficient)加权平均(lxx)C=(lxx)1+(lxx)2(lxy)C=(lxy)1+(lxy)2(lyy)C=(lyy)1+(lyy)2,bC,(lXX)c=858.6667+1338.9167=2197.5834(lXY)c= -1427.3333+(2351.25)= -3778.5833(lYY)c=3044.9167+4900.25=7945.1667,在公共回归系数下的截距,已知回归系数bC:,H0:两总体截距相等;,H0: 1 = 2
14、 H1: 1 2 =0.10根据 t 分布原理:,H0:两总体截距相等;,公共剩余均方,(common residual mean square),H0:两总体截距相等;,男、女子心率与心脏左室电机械收缩时间的直线回归,50,60,70,80,90,100,300,350,400,450,收缩时间(毫秒),心率(次/分),男子女子,结论:,男子及女子心率与左心室收缩时间之间均存在线性回归关系,心率越大,收缩时间越短,且两条回归线平行,斜率相同,即男女收缩时间随心率的改变速度相同。但两条线不重叠。,11.9 过定点的直线回归,例11.4 在用荧光光度法测定全血硒的研究中,分别取不同硒含量的标准液
15、,消化后测定其荧光强度,试作标准直线。 含硒量(g)X 荧光强度Y0.0000.000.0254.360.0509.310.10017.130.15025.030.20033.22,过定点(X0,Y0)的直线回归方程,一般的直线回归方程(过X的均数和Y的均数):,过定点(X0,Y0)的直线方程估计,不同硒含量所得荧光强度的过定点的回归,荧光强度Y,0,0.025,0.05,0.075,0.1,0.125,0.15,0.175,0.2,0,5,10,15,20,25,30,35,硒含量X (g),10.10 直线回归与直线相关的区别与联系,区别r 没有单位,b有单位;所以,相关系数与单位无关,回
16、归系数与单位有关;相关表示相互关系,没有依存关系;而回归有依存关系;对资料的要求不同:当X和Y都是随机的,可以进行相关和回归分析;当Y是随机的(X是控制的),理论上只能作回归而不能作相关分析; I型回归:X是精确控制的;II型回归:X是随机的。由X推算Y:由Y推算X:,10.10 直线回归与直线相关的区别与联系,联系均表示线性关系;符号相同:共变方向一致;假设检验结果相同:是否存在共变关系;,11.11 回归分析的正确应用,要有实际意义;充分利用散点图,判断:(1) 线性趋势 (2) 离群值当样本含量较大时,统计学检验的作用减弱;回归关系可以内插,不宜外延;自变量的选择: 原因 容易测量的 变
17、异小的 年龄、身高、体重、体表面积,11.11 回归分析的正确应用,回归系数是有单位的,不能根据 b 的大小判断回归关系的密切程度。应用条件(LINE):(1)线性(linear)(2)独立(independent)(3)给定X时,Y正态分布(normal)(4)等方差(equal variance),给定X时,Y是正态分布、等方差示意图,给定X时,Y是正态分布、不等方差示意图,男性年龄与血糖的关系 (方差随自变量的增加而增加),glucose,age,20,30,40,50,60,70,80,3,6,9,12,26名病人的胃液的pH值及尿中亚硝酸盐浓度的散点图(方差随自变量的增加而增加),相
18、关与回归实例详解,10名3岁男童体重与体表面积关系的分析,例10.1 10名3岁男童体重与体表面积的关系,编号 体重(X,kg) 体表面积(Y,103cm2)111.05.283211.85.299312.05.358412.35.292513.15.602613.76.014714.45.830814.96.102915.26.075 1016.06.411 合计133.457.266,分析思路,根据散点图判断是否有线性关系、异常值计算相关系数相关系数的假设检验及可信区间估计建立由体重估计体表面积的回归方程回归系数的假设检验和可信区间估计回归方程的方差分析Y估计值的可信区间(带)Y值的容许区
19、间(带),1 散点图,体重(kg),X,体表面积Y(103cm2),2 相关系数的计算,3 相关系数的假设检验,H 0:0,体重与体表面积无相关关系;H 1: 0,体重与体表面积有相关关系。 = 0.05。自由度=10-2=8,P0.001拒绝H0,接受H1。可以认为3岁男童体重与体表面积之间有正相关关系。,相关系数的可信区间,r=0.9579,则 z 的95%可信区间: 1.91981.960.3780 = (1.1789,2.6607) 的95%可信区间:0.82710.9903,4 回归方程的计算,绘制回归直线,计算不太接近的两点的Y值:X=12kg时 Y=2.5212+0.238512
20、=5.3832(103cm2)X=15kg时 Y=2.5212+0.238515=6.0987(103cm2),回归图,体重(kg),X,体表面积Y(103cm2),5 回归系数的假设检验,H 0:总体回归系数 0,即体重与体表面积无回归关系;H 1:总体回归系数 0,即体重与体表面积有回归关系。 =0.05。,体重与体表面积间存在回归关系。,回归系数 的可信区间估计,根据 t 分布原理估计:0.23852.3060.02528 0.18020.2968(103cm2/kg),6 方差分析表,变异来源 SS v MS F P 回 归 1.4166 1 1.4166 89.01 0.001 剩
21、余 0.1273 8 0.0159 总变异 1.5439 9,7 求 的95%可信区间,=13.44, lXX=24.9040, =0.1262。当X=12时, =5.3832,,不同X时, 的95可信区间,95%CI X Y Yhat CL CU111.05.283 5.1454.9745.315211.85.2995.3355.1995.472312.05.3585.3835.2545.512412.35.2925.4555.3355.574513.15.6025.6465.5425.749613.76.0145.7895.6845.894714.45.8305.9565.8366.076
22、814.96.1026.0755.9386.212915.26.0756.1465.9976.2961016.06.4116.3376.1516.523,8 的容许区间估计,的100(1- )%容许限:,不同X时, 的95%可信区间与Y的95%容许区间,95%CI 95%TI X Y Yhat CL CU TL TU111.05.283 5.1454.9745.3155.4824.807211.85.2995.3355.1995.4725.6575.014312.05.3585.3835.2545.5125.7015.065412.35.2925.4555.3355.5745.7695.140
23、513.15.6025.6465.5425.7495.9545.337613.76.0145.7895.6845.8946.0985.479714.45.8305.9565.8366.0766.2705.641814.96.1026.0755.9386.2126.3965.753915.26.0756.1465.9976.2966.4735.8191016.06.4116.3376.1516.5236.6825.992,可信带与容许带示意,9 结论,该资料表明,3岁男童体重与体表面积之间存在线性相关关系,相关系数为0.9579 (t=9.435,P0.001)。相关系数的95%CI:0.82710.9903,由体重预测体表面积的回归方程为: (见附图),回归系数的95%可信区间为0.18020.2968(103cm2/kg),该方程的决定系数为0.9175,剩余估计误差为0.1262。,附图:3岁男童体重与体表面积的线性回归,体重(kg),X,体表面积Y(103cm2),谢谢,