收藏 分享(赏)

回归分析陆jian.ppt

上传人:天天快乐 文档编号:773064 上传时间:2018-04-22 格式:PPT 页数:63 大小:1.14MB
下载 相关 举报
回归分析陆jian.ppt_第1页
第1页 / 共63页
回归分析陆jian.ppt_第2页
第2页 / 共63页
回归分析陆jian.ppt_第3页
第3页 / 共63页
回归分析陆jian.ppt_第4页
第4页 / 共63页
回归分析陆jian.ppt_第5页
第5页 / 共63页
点击查看更多>>
资源描述

1、Linear regression线性回归,易洪刚,Department of Epidemiology & Biostatistics, School of Public Health Nanjing Medical University,两指标间的关系分析,直线相关分析 (Linear Correlation Analysis)直线回归分析 (Linear Regression Analysis)总结 (Summary),CONTENTS,直线回归分析(linear regression analysis),1 引言2 回归方程的建立3 回归系数和回归方程的意义及性质4 回归系数的假设检验

2、5 应变量总变异的分解6 回归问题的方差分析7 与直线回归有关的区间估计8 过定点的直线回归9 直线回归与直线相关的区别与联系10 回归分析的正确应用11 实例详解,引言,对于2岁时的身高和成年后身高间的关系,相关关系;即便具有相同的2岁身高,成年后的身高也不一定相同;,引言,对于女大学生的体重和肺活量间的关系即便具有相同的体重,肺活量也不一定相同;,折衷的解释,2岁身高影响成年的身高,但并非确定地决定它(determine it exactly) ;女学生的体重虽然影响了肺活量;但并非确定地决定它;因此,虽然它们之间有数量关系,但并非确定性的数量关系。是一种非确定性关系;一种宏观的关系!,回

3、答“变量之间是什么数量关系?“;宏观上来讲,他们呈直线关系,但并不能用来描述。所以我们用回归方程:“hat”表示估计值,给定x时y的条件均数。,2 直线回归方程的建立,2 直线回归方程的建立,Y 因变量 (dependent variable, response variable) X 自变量 (independent variable, explanatory variable) 直线回归的形式:,不同斜率时回归直线的表现,Regression 释意,2 直线回归方程的建立,最小二乘法(least square estimation),例 某地10名三岁儿童体重与体表面积,X Y (体重,k

4、g) (体表面积,103cm2 )11.0 5.28311.8 5.29912.0 5.35812.3 5.29213.15.60213.7 6.01414.4 5.83014.9 6.10215.2 6.07516.0 6.411,10名3岁男童体重与体表面积散点图,体重(kg),X,体表面积Y(103cm2),体重与体表面积的回归,回归直线的绘制,计算不太接近的两点的Y值:X=12kg时 Y=2.5212+0.238512=5.3832(103cm2)X=15kg时 Y=2.5212+0.238515=6.0987(103cm2),10名3岁男童体重与体表面积回归图,体重(kg),X,体表

5、面积Y(103cm2),3 回归系数和回归方程的意义及性质,b 的意义a 的意义 的意义 的意义 的意义,b 的意义,斜率(slope)体重与体表面积的关系 2.5212 + 0.2385 X 体重每增加 1 kg, 则体表面积平均增加 0.2385(103cm2)b 的单位为 (Y的单位/X的单位),a 的意义,a 截距(intercept, constant)X=0 时,Y的估计值A的单位与Y值相同当X可能取0时,a才有实际意义。,估计值 的意义,X=11时, =5.145, 即体重为 11 kg 的三岁男童, 其平均体表面积之估计为 5.145 (103cm2);X=15时, =6.09

6、9, 即体重为 15 kg 的三岁男童, 其平均体表面积之估计为 6.099 (103cm2).给定X时,Y的估计值。当 时,,由体重(kg)估计体表面积(103cm2 ),X Y Y 的估计值 (体重,kg) (体表面积)11.0 5.2835.14511.8 5.2995.33612.0 5.3585.38312.3 5.2925.45513.1 5.6025.64613.76.0145.78914.4 5.8305.95614.9 6.1026.07515.2 6.0756.14616.0 6.4116.337,的意义,为残差(residual) :点到直线的纵向距离,残差平方和 (re

7、sidual sum of squares).综合表示点距直线的距离。在所有的直线中,回归直线的残差平方和是最小的。(最小二乘),的意义,点到直线的距离,点到回归直线的纵向距离平方和为最小!,直线回归系数的t检验,回归系数也有抽样误差!检验方法针对回归系数b的检验:t检验针对回归方程的检验:F检验,4 回归系数的假设检验,总体回归系数 =0,则回归关系不存在。 H0:总体回归系数为0, =0; H1:总体回归系数不为0,0; =0.05。,回归系数的 t 检验,Y的剩余标准差扣除X的影响(即回归所能解释的部分)后Y本身的变异程度,体重与体表面积回归系数的假设检验,H 0:总体回归系数 0,即体

8、重与体表面积无回归关系;H 1:总体回归系数 0,即体重与体表面积有回归关系。 =0.05。,体重与体表面积间存在回归关系。,回归系数与相关系数的假设检验,结果等价,5 因变量总变异的分解,X,P (X,Y),Y,5 因变量总变异的分解,+,Y的总变异分解,未引进回归时的总变异: (sum of squares about the mean of Y)引进回归以后的变异(剩余): (sum of squares about regression)回归的贡献,回归平方和: (sum of squares due to regression),Y的总变异分解,总n1 回1 剩余n2,不能用X来解释

9、的部分即与X无关的部分(随机误差),份额的大小可以用相关系数的平方来衡量(决定系数),6 回归方程的方差分析,6 回归方程的方差分析,6 回归问题的方差分析,H 0:体重与体表面积间无直线回归关系; H 1:体重与体表面积间有直线回归关系。 = 0.05。lXX=24.9040,lYY=1.5439,lXY=5.9396, SS总= lYY=1.5439SS剩 = lYY lXY / lXX=0.1273 SS回 = SS总-SS剩=1.5439-0.1273=1.4166,方差分析表,变异来源 SS v MS F P 回 归 1.4166 1 1.4166 89.01 0.001 剩 余 0

10、.1273 8 0.0159 总变异 1.5439 9,今11,28,查附表的F界值表,得P0.001,按=0.05的检验水准拒绝H0,接受H1,认为体重与体表面积间存在直线回归关系。,直线回归中三种假设检验间的关系,在直线回归中,相关系数的假设检验,回归系数的假设检验,以及回归方程的方差分析结果等价。,剩余标准差,(1) 扣除了X的影响后,Y方面的变异;(2) 引进 回归方程后, Y方面的变异。,名词辨析: Y的变异 Y本身的变异,SY22.63,SY.X12.39,剩余标准差,7 与直线回归有关的区间估计,回归系数的可信区间估计估计值 的可信区间估计个体Y值的容许区间估计,复习 可信区间

11、容许区间,均数的可信区间: 均数界值标准误 个体的容许区间(参考值范围): 均数界值标准差,总体回归系数 的可信区间估计,根据 t 分布原理估计:,试用体重与体表面积的资料所计算的样本回归系数b0.2385,估计其总体回归系数的95%可信区间。,已知,总体回归系数的95%可信区间的上下限为,含义 :用0.18020.2968(103cm2/kg)来估计体重与体表面积间的直线回归系数,可信度为95。,总体回归系数 的可信区间估计,的可信区间估计,样本 总体Y的总平均给定X时Y的平均 (Y的条件均数),根据 t 分布原理:,X=12时,求 的95%可信区间,=13.44, lXX=24.9040,

12、 =0.1262。当X=12时, =5.3832,,则X12kg时, 的95%的可信区间为,含义:即体重为12kg的3岁男童,估计其平均体表面积为5.3832(103cm2/kg),95可信区间为(5.2587,5.5077) (103cm2/kg)。,的可信区间估计,Y的容许区间估计,给定 X 时 Y 的估计值是 Y 的均数的一个估计。给定X 时 Y 值的容许区间是 Y 值的可能范围。 Y的100(1- )%容许限:,试用体重与体表面积的资料所计算的样本回归系数b0.2385,计算12kg时 Y的95的容许区间。,此时Y的95容许区间为,即体重为12kg的3岁男童,估计有95的人体表面积在5

13、.0666到5.6998 (103cm2/kg)之间。,5.38322.3060.1372=5.06665.6998,的可信区间与Y的容许区间,可信区间是针对条件均数的,而容许区间是针对Y的取值范围的。X=12时, 的可信区间为:5.25785.5077(103cm2), 表示:体重为12kg的3岁男童,估计其平均体表面积为5.3832,95可信区间为(5.2587,5.5077) (103cm2)。 X=12时,Y的容许区间为:5.06665.6998(103cm2), 表示:体重为12kg的3岁男童, 估计有95的人其体表面积在5.06665.6998 (103cm2)之间。,可信区间与容

14、许区间示意(confidence band & tolerance band),8 过定点的直线回归,例 在用荧光光度法测定全血硒的研究中,分别取不同硒含量的标准液,消化后测定其荧光强度,试作标准直线。 含硒量(g)X 荧光强度Y0.0000.000.0254.360.0509.310.10017.130.15025.030.20033.22,过定点(X0,Y0)的直线回归方程,一般的直线回归方程(过X的均数和Y的均数):,过定点(X0,Y0)的直线方程估计,不同硒含量所得荧光强度的过定点的回归,荧光强度Y,0,0.025,0.05,0.075,0.1,0.125,0.15,0.175,0.2

15、,0,5,10,15,20,25,30,35,硒含量X (g),10 直线回归与直线相关的区别与联系,联系均表示线性关系;符号相同:共变方向一致;假设检验结果相同:是否存在共变关系;相关系数 用回归解释相关:,决定系数,10 直线回归与直线相关的区别与联系,区别r 没有单位,b有单位;所以,相关系数与单位无关,回归系数与单位有关;相关表示相互关系;回归表示依存关系;对资料的要求不同:当X和Y都是随机的,可以进行相关和回归分析;当Y是随机的(X是控制的),理论上只能作回归而不能作相关分析; I型回归:X是精确控制的; II型回归:X是随机的。由X推算Y:由Y推算X:,11 回归分析的正确应用,要有实际意义;充分利用散点图,判断:(1) 线性趋势(2) 离群值回归关系可以内插,不宜外延;回归系数是有单位的,不能根据 b 的大小判断回归关系的密切程度。,应用条件(LINE):(1) 线性(linear)(2) 独立(independent)(3) 给定X时,Y正态分布(normal)(4) 等方差(equal variance),11 回归分析的正确应用,给定X时,Y是正态分布、等方差示意图,给定X时,Y是正态分布、不等方差示意图,谢谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报