1、DR. 朱彩华,1,第一节 直线相关 第二节 直线回归,直线相关与回归分析,2,第二节 直线回归,DR. 朱彩华,3,第二节 直线回归,一.直线回归的概念 二.直线回归方程的建立 三.直线回归的统计推断 四、直线回归的应用 五、直线相关与直线回归的联系与区别 六.直线回归分析中应注意的问题,第十三章.直线相关与回归分析,4,一.直线回归的概念,第二节 直线回归,5,医学上,不少变量间虽存在一定关系, 但这种关系不象函数关系那样十分确定。 如正常人的血压随年龄而增高,一般是年龄越大,血压越高,但这只是总的趋势; 有些高龄人的血压却不一定高; 难以讲50岁的人血压一定是多少,同龄的人血压也有高有低
2、。,第十三章.直线相关与回归分析 一.直线回归的概念,6,此时,将正常人按年龄和血压两个变量在坐标上的绘制散点P(、y),并非集中在一条直线上,而是围绕着一条有代表性的直线上升,此现象称为:直线回归关系即:血压在年龄上的回归 因此,对样本中两个变量分析,不但可作相关分析,还可进一步作直线回归分析。,7,一.直线回归的概念,两变量数量间虽然存在一定关系,但不是十分确定的。这与两变量间严格对应的函数关系不同,称为直线回归(Linear regression)。直线回归是回归分析中最基本、最简单的一种,故又称simple regression。,第十三章.直线相关与回归分析 一.直线回归的概念,8,
3、在上一章中,对10名女中学生的体重与肺活量计算了相关系数r,描述了变量间关联性的强弱程度与方向(中度正相关关系)为直观地说明直线回归的概念,我们以上一节中10名女中学生的体重与肺活量的数据为例,来探讨两变量间数量依存变化关系。,第十三章.直线相关与回归分析 一.直线回归的概念,9,一、直线回归的概念1.直线回归是分析两变量间线性依存变化的数量关系。,第十三章.直线相关与回归分析 一.直线回归的概念,10,2.直线回归分析的任务,找出两个变量间有依存数量关系的直线方程,以确定一条最接近于各实测点的直线(即回归直线),使各实测点与该回归线的纵向距离的平方和为最小。 该方程称为直线回归方程; 据此方
4、程描绘的直线为回归直线。幻灯片 12,第十三章.直线相关与回归分析 一.直线回归的概念,11,回归模型的类型,第十三章.直线相关与回归分析 一.直线回归的概念,简单线性回归模型 (simple linear regression model),12,二.直线回归方程的建立,第二节 直线回归,13,二.直线回归方程的建立,为由自变量推算应变量y的估计值(或预测值),反应变量(y)与自变量()的简单线性回归模型(simple linear regression model)可为:,第二节 直线回归,应变量=因变量,14,a为回归直线在 y 轴上的截距( 或b0 ) 即:当 = 0 时的y值,a 0
5、,a = 0,a 0,a,第二节 直线回归 二.直线回归方程的建立,15,b为样本回归系数(regression coefficient);即回归直线的斜率(slope或称坡度);因:b =( b0 )/ b越大,斜率越大。直线回归方程的建立,第二节 直线回归 二.直线回归方程的建立,16,b 0,b = 0,b 0,b 回归系数,即回归直线的斜率;,b = 0,第二节 直线回归 二.直线回归方程的建立,17,b 0: 或时,y随之或;负回归关系。,b 0: 或时,y随之或;正回归关系。,b = 0: 或,y不受影响;无回归关系。,b 为回归系数,即回归直线的斜率; b 统计学意义是:当 变动
6、一个单位时, y 平均变动 b 个单位。,第二节 直线回归 二.直线回归方程的建立,18,b即表示存在回归关系的两个变量间的数量关系!如回归方程:17岁儿童体重(Kg)= 7 + 2年龄(岁)9() = 7+21(岁)11() = 7+22(岁) 13() = 7+23(岁)b=2,表示每增加1岁儿童体重 平均增加2 (Kg)。,第二节 直线回归 二.直线回归方程的建立,19,在直线回归方程中:、y为相应的两个变量;a(或b0 )和b为决定此方程的两个常数直线回归分析的关键是根据实测数据求得 b0 和b值。,第二节 直线回归 二.直线回归方程的建立,DR. 朱彩华,20,2. a和b 的最小二
7、乘法估计(概念要点),1)使因变量的观察值与估计值之间的离差平方和达到最小来求得 a 和 b 的方法。即:,2)用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小。,第二节 直线回归 二.直线回归方程的建立,21,最小二乘法 (图示),第二节 直线回归 二.直线回归方程的建立,22,_ _ ( x - x )( y - y ) xy - ( x)( y) / n b = = _ ( x - x ) 2 x2 - ( x)2 / n,_ _ a = y - bx,直线回归方程:,根据最小二乘法的要求,可得求解a和b 的标准方程,即:,第二节 直线回归 二.直线回归方程
8、的建立,23,3.直线回归分析步骤:以10名女中学生的体重与肺活量的数据为例,来探讨两变量间数量依存变化关系。(1)该例经过直线相关分析:r = 0.6945,经假设检验两变量间有直线关系; (2)计算 x 、y、 L、Lyy 、Ly 从相关系数计算时,已求得。,第二节 直线回归 二.直线回归方程的建立,24,25, 8.975, 98.5,1.69525,第二节 直线回归 二.直线回归方程的建立,26,_ _ ( x - x )( y - y ) xy - ( x)( y) / n b = = _ ( x - x ) 2 x2 - ( x)2 / n,b =,= 0.0911,_ _ a =
9、 y - bx,= 23.15 /10 - 0.0911 405 /10 = -1.3746,女中学生肺活量对体重的直线回归方程是:, y /n - b /n,幻灯片 27,第二节 直线回归 二.直线回归方程的建立,27,三.直线回归的统计推断,第二节 直线回归,28,直线回归的统计推断 (要点),2)在一元线性回归中,回归系数的假设检验等价于回归方程的显著性检验;,3)检验 x 与 y 之间是否具有线性关系(推断总体回归系数 是否为0 ),或者说,检验自变量 x 对因变量 y 的影响是否显著(确定所求得的回归方程是否成立);三.直线回归的统计推断,1)理论基础是回归系数 的抽样分布;回归系数
10、的分布),第二节 直线回归 三.直线回归的统计推断,29,回归系数的统计推断 (样本统计量 的分布),第二节 直线回归 三.直线回归的统计推断,1) 是根据最小二乘法求出的样本统计量,它有自己的分布; 2) 的分布具有如下性质: 分布形式:正态分布 理论期望:的标准误:由于未知,需用其估计量Sy.x来代替得到 的估计的标准误:,30,回归系数的显著性检验 (样本统计量 的分布),第二节 直线回归 三.直线回归的统计推断,31,(一)总体回归系数的区间估计:根据抽样原理,总体回归系数的(1)置信区间为:b t/2, sb,三.直线回归的统计推断,第二节 直线回归 三.直线回归的统计推断,32,(
11、二)回归系数的假设检验目的:推断总体回归系数 是否为0, 确定所求得的回归方程是否成立。,H0:=0H1:0 =0.05 选择合适的假设检验方法,计算统计量 计算概率值P 做出推论:统计学结论和专业结论,方法: 方差分析F=MS回/MS残t检验(tb),第二节 直线回归 三.直线回归的统计推断,33,| b - 0 | |b| tb = = , = n - 2S b S b,S b 为样本回归系数标准误 S yx 为剩余标准差,公式:,回归系数的假设检验,1.t检验,第二节 直线回归 三.直线回归的统计推断,34,=l yy - b l xy 幻灯片 26,S yx 剩余标准差。为各观察值y到
12、回归直线的距离的标准差,表示去除影响后y的变异程度。幻灯片 12,第二节 直线回归 三.直线回归的统计推断,35,假设:H0: = 0, H1: 0 , = 0.05;, ( y - ) 2,= l yy - b l xy,=1.69525 - 0.09118.975 = 0.8776,| b - 0 | b t = = S b S b, = n 2 = 8,P 0.05,结论:总体回归系数不等于零,即回归方程,36,直线回归方程的图示:,p1,p2,p1,p2,第二节 直线回归 三.直线回归的统计推断,37,四.直线回归的应用,第二节 直线回归,38,直线回归的应用,1.描述两变量之间的依存
13、变化的数量关系:通过回归系数的假设检验,若认为两变量之间存在直线回归关系,则可用直线回归方程来描述。若是大样本(n50),该式就是女中学生体重与肺活量的定量表达式 。,第二节 直线回归 四.直线回归的应用,如女中学生肺活量对体重的直线回归方程是:,39,2.利用回归方程进行预测 :重要应用之一。由易测的变量值估算难算的变量值(由估计y)把自变量代入回归方程,对应变量进行估计,可求出应变量的波动范围。例如,已知某女中学生的体重,代入回归方程,再用区间估计的方法,即可知道该女中学生肺活量的范围。,直线回归的应用,40,第二节 直线回归 四.直线回归的应用,直线回归的应用,3.利用回归方程进行控制:
14、即利用回归方程进行逆估计(由 y 估计 )。如要求应变量在一定范围内波动,可以通过控制自变量来完成。,41,五.直线相关与回归分析的区别与联系,第二节 直线回归,42,1、区别1)分析目的及意义:相关分析反映相互关系,即主要是描述两个变量之间线性关系的性质和密切程度;回归反映两变量依存变化的数量关系,回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制;,第二节 直线回归 五.直线相关与回归分析的区别与联系,五.直线相关与回归分析的区别与联系,43,应用: 研究两个变量的相互关系用相关分析。 研究两个变量的依存关系用回归分析。研究性质:相关是对两个变量之间的关系
15、进行描述,看两个变量是否有关、关系是否密切、关系的性质是什么,是正相关还是负相关。回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。,44,2)资料要求: 相关分析中所涉及的变量 x 和 y 都是正态总体的随机变量; 回归分析中,因变量 y 一定是正态总体的随机变量,自变量 x 可以是随机变量,也可以是非随机的一般变量;,第二节 直线回归 五.直线相关与回归分析的区别与联系,五.直线相关与回归分析的区别与联系,45,3)变量 x 与 y 所处的地位:相关分析:变量 x 与 y 处于平等的地位;即在两个变量中,任何一个的变化都会引起另一个
16、的变化,是一种双向变化的关系。回归分析:变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化;回归反映两个变量的依存关系,是一种单向的关系。,五.直线相关与回归分析的区别与联系,第二节 直线回归 五.直线相关与回归分析的区别与联系,46,五.直线相关与回归分析的区别与联系,由 x 推 y 的回归方程: 由 y 推 x 的回归方程:,型回归,可计算两个回归方程:,47,4)r与b反映的意义不同: r的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。b的绝对值越大,回归直线越陡,说明当变化一个单位时,y的平均变化就越大。反之也是一样。,五.直
17、线相关与回归分析的区别与联系,48,1)符号方向一致:同一资料的相关系数r与回归系数 b 正负号是一致的。r为正(负)号说明两变量之间的相互关系是同(异)向变化的;b为正(负)号说明自变量每增(减)一个单位,因变量y平均增(减)b个单位。,第二节 直线回归 五.直线相关与回归分析的区别与联系,五、直线回归与直线相关的区别与联系,2.联系,49,换算公式,第二节 直线回归 五.直线相关与回归分析的区别与联系,2)假设检验等价: r的假设检验与b的假设检验均用t检验,t值计算公式不同,但同一资料:tr = tb。对r和b的假设检验是等价的。3)相互关系:r和b可以相互转换。,五、直线回归与直线相关
18、的区别与联系,50,5)用回归解释相关:,五、直线回归与直线相关的区别与联系,4)因果关系:两变量间有相关关系,不一定有因果关系;但两变量间有因果关系,一定有相关关系。,51,六.直线回归分析中应注意的问题,52,直线回归分析的注意事项,1.要有实际意义:2.进行相关与回归时先绘制散点图,还要观察有无异常点:对于性质不明确的两组数据,可先做散点图,看它们有无关系、关系的密切程度、是正还是负相关,然后再进行相关回归分析。,3.自变量与因变量的确定:在描述两变量的关系时,一般把两个变量中能精确容易测量的作自变量,不易测量作为因变量。即用易测量的数据估计不易测量的另一数据。如年龄估算小儿体重;年龄估算血压等。,53,4.回归与相关的应用仅限于原实测数据的范围内使用。出了这个范围,难以得出两变量的相关关系和回归关系。5. 两变量间有相关关系,不一定有内在的联系关系,也可能是伴随关系。但两变量间有因果关系,一定有相关关系。,直线回归分析的注意事项,54,相关与回归分析流程图,