收藏 分享(赏)

医学统计学直线相关与回归.ppt

上传人:ysd1539 文档编号:8335946 上传时间:2019-06-21 格式:PPT 页数:113 大小:2.93MB
下载 相关 举报
医学统计学直线相关与回归.ppt_第1页
第1页 / 共113页
医学统计学直线相关与回归.ppt_第2页
第2页 / 共113页
医学统计学直线相关与回归.ppt_第3页
第3页 / 共113页
医学统计学直线相关与回归.ppt_第4页
第4页 / 共113页
医学统计学直线相关与回归.ppt_第5页
第5页 / 共113页
点击查看更多>>
资源描述

1、第九章 双变量回归与相关,图 英国肺癌死亡率和烟草消耗量.(1950,DollHill),图 美国肺癌的监测数据年及美国烟草消耗量的数据(American Cancer Society 2005),第九章 直线相关与直线回归,11,2019/6/21,117.3,119.6,121.9,125.1,117.0,115.4,124.7,120.1,123.0,122.8,120.6,121.5,125.0,125.9,123.2,126.6,122.0,127.6,125.1,120.1,119.5,126.1,126.4,125.6,118.9,130.4,124.9,125.8,126.1,

2、120.9,116.1,124.0,124.6,118.7,119.1,121.9,118.0,117.0,114.6,123.9,116.0,125.3,123.6,123.6,126.4,115.5,119.2,114.0,123.4,126.6,117.3,113.6,127.6,120.5,113.6,130.2,128.3,118.2,124.7,122.4,118.8,123.1,122.7,126.6,127.8,125.9,110.5,124.8,115.2,119.4,128.0,116.7,132.4,129.3,121.7,115.0,120.4,122.1,127.0,

3、135.3,125.7,111.2,124.3,124.2,124.7,121.7,121.3,124.1,119.9,121.7,113.8,116.7,129.9,128.5,126.5,122.8,120.1,118.2,122.5,127.7,124.9,123.3,120.3,125.7,某市1995年104名男童身高(cm)资料如下,单变量资料,变量,12,2019/6/21,表1 不同饲料组大鼠肝中维生素A含量(IU/g),变量,单变量资料,13,2019/6/21,表2 SAH患者血清和脑脊液IL-6(pg/ml)检测结果,变量Y,变量 x,双变量资料,14,2019/6/21

4、,SAH患者血清和脑脊液IL-6散点图,医学上,许多现象之间都有相互联系,例如:身高与体重、体温与脉搏、年龄与血压、产前检查与婴儿体重、乙肝病毒与乙肝、胰岛素与血糖水平、毒物剂量与动物的存活时间等。 在这些有关系的现象中,它们之间联系的程度和性质也各不相同。这里,体温和脉搏的关系就比产前检查与婴儿体重之间的关系密切得多,而体重和身高的关系则介与二者之间。另外,可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之间是因果关系;但是,有的现象之间因果不清,只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能说有因果关系。,15,2019/6/21,回归分析与相关分析,16,2019/6/21

5、,变量间关系问题:年龄身高、肺活量体重、药物剂量与动物死亡率等。,两个关系: 依存关系:应变量Y 随自变量X 变化而变化 回归分析 互依关系:应变量Y 与自变量X间的彼此关系相关分析,第九章 直线相关与直线回归,第一节 直线回归 第二节 直线相关 第三节 等级相关第四节 加权直线回归 第五节 曲线拟合,17,2019/6/21,18,2019/6/21,Linear Regression,第一节 直线回归,一、直线回归的概念 二、直线回归方程的求法 三、直线回归中的统计推断 四、直线回归方程的图示 五、直线回归的区间估计 六、直线回归方程的应用,19,2019/6/21,9,表2 孕妇尿中雌三

6、醇含量与产儿的体重,20,2019/6/21,两变量的散点图,21,2019/6/21,表3 12名一年级女大学生体重与肺活量,22,2019/6/21,两变量的散点图,23,2019/6/21,英国统计学家Pearson K(18571936)1903年搜集了1078个家庭人员的身高、前臂长等指标的记录,发现儿子身高(Y,英寸)与父亲身高(X,英寸)存在线形关系:,回归的由来,= 33.73+0.516 X,24,2019/6/21,回归的由来,即高个子父亲儿子的平均身高虽然比矮个子父亲儿子的平均身高要高一些,但稍矮于其父亲的平均身高;而矮个子父亲儿子的平均身高虽然比高个子父亲儿子的平均身高

7、要矮一些,但稍高于其父亲的平均身高。英国人类学家Galton F(18221911)将这种趋向于种族稳定的现象称之为“回归”。至此,“回归”逐渐发展成为分析两个变量或多个变量之间某种数量依存关系的一类统计方法。,Galton数据散点图(英寸),25,2019/6/21,26,2019/6/21,一、直线回归的概念,在实际生活当中,由于其它因素的干扰,许多双变量之间的关系呈直线趋势,但并不是严格的直线关系,为了区别于两变量间的直线关系,我们称这种关系为直线回归。直线回归仍用直线方程来描述两变量间的回归关系,但称为直线回归方程.,函数关系: 确定。例如 园周长与半径:y=2r,27,2019/6/

8、21,回归关系:不确定。例如血压和年龄的关系,称为直线回归(linear regression)。,目的:建立直线回归方程 ( linear regression equation),28,2019/6/21,SAH患者血清和脑脊液IL-6散点图,29,2019/6/21,医学上,还有许多现象之间也都有类似的或强或弱的相互依存的关系,例如:身高与体重、体温与脉搏、年龄与血压、胰岛素与血糖水平、毒物剂量与动物的存活时间等等,直线回归方程:,30,2019/6/21,a:截 距b:回归系数,x为自变量,一般为资料中能精确测定和控制的量为因变量Y的估计值,Simple Linear Regressi

9、on Model,31,2019/6/21,根据散点图可以假定,对于x各个取值,相应的Y的总体均数 在一条直线上, 实际上是x对应的Y的总体均数 的一个样本估计值。,32,2019/6/21,Y,x,直线回归模型的四个假定,线性LINEARITY 反应变量均数与X间呈直线关系,33,2019/6/21,标准差相等EQUAL STANDARD DEVIATION 对于任何X值,随机变量Y的标准差Y|X相等,独立INDEPENDENCE 每一观察值之间彼此独立,y|X = + x,正态 NORMALITY 对于任何给定的 X, Y 服从正态分布,均数为 Y|X,标准差为Y|X,2019/6/21,

10、34,直线回归方程:,a:常数项,回归直线在Y轴上的截距(intercept) ,其统计意义是当X0时相应Y的均数估计值),b:斜率(slope),回归系数(regression coefficient)。 意义:当X变化一个单位时Y的平均改变的估计值(b个单位)b0,Y随X的增大而增大(减少 而减少) 斜上;b0,Y随X的增大而减小(减少 而增加) 斜下;b=0,Y与X无直线关系 水平。 b越大,表示Y随X变化越快,直线越陡峭。,35,2019/6/21,36,2019/6/21,二、直线回归方程的求法,回归系数与截距的计算 求解a,b实际就是如何合理找到一条最好代表数据点分布趋势的直线。若

11、将实测值Y与假定回归直线上的估计值 称为残差或剩余值 ,所求直线应为各点残差纵向距离最短,由于残差有正有负,即取各点残差平方和 最小为所求,即最小二乘法原理 此回归直线必过 这一点,最小二乘 (Least squares)法图解,37,2019/6/21,残差i=Yi估计值i,38,2019/6/21,39,2019/6/21,例1 在脑血管疾病的诊断治疗中,脑脊液白细胞介素-6(IL-6)水平是影响诊断与预后分析的一项重要指标,但脑脊液在临床上有时又不容易采集到。某医生欲了解急性脑血管病病人血清IL-6(pg/ml)与脑脊液IL-6 (pg/ml)水平,随机抽取了某医院确诊的10例蛛网膜下腔

12、出血(SAH)患者24小时内血清IL-6和脑脊液IL-6数据如表2,问SAH患者血清IL-6和脑脊液IL-6间是否有直线相关关系存在?,40,2019/6/21,例1 进行回归分析,表2 SAH患者血清和脑脊液IL-6(pg/ml)检测结果,41,2019/6/21,1、绘制散点图:,2、计算:,42,2019/6/21,表2 SAH患者血清和脑脊液IL-6(pg/ml)检测结果,91866.46,43,2019/6/21,2、计算:,44,2019/6/21,3、求回归系数b和截距a :,45,2019/6/21,4.列出回归方程:,46,2019/6/21,1. 斜率 (b) 当X每增加1

13、个单位时, Y改变b个单位 本例b=1.1797,表明在所研究对象范围内,血清IL-6每增加1pg/ml,脑脊液IL-6增加1.1797pg/ml 2. Y的截距 (a) x=0时Y的平均值 本例a72.96,表示血清IL-6为0时,脑脊液IL-6期望值为72.96pg/ml (注意有时这种解释无实际意义),回归方程中a、b的解释,47,2019/6/21,表3 12名一年级女大学生体重与肺活量,例2: 某地一年级12名女大学生的体重与肺活量数据如下,试分析肺活量与体重关系,48,2019/6/21,1、绘制散点图:,2.计算,49,2019/6/21,2.计算,50,2019/6/21,3、

14、求回归系数b和截距a:,51,2019/6/21,4.列出回归方程:,三、直线回归中的统计推断,(一)、回归方程的假设检验方差分析t检验,52,2019/6/21,53,2019/6/21,回归系数的假设检验:方差分析法,方差分析的基本思想:把总的离均差平方和(即总变异)分解为至少两个部分,其中有一部分表示处理因素的效应,有一部分表示抽样误差的影响,然后比较两者的均方,计算F值,若F值远大于1,可认为处理有效应,否则认为处理无效应。,54,2019/6/21,应变量Y的离均差平方和的分解,55,2019/6/21,应变量Y的离均差平方和的分解,SS总 = SS回 + SS残,56,2019/6

15、/21,几个平方和的意义,1. SS总 即 ,为Y的总离均差平方和,表示未考虑X与Y的回归关系时,Y的总变异。,3. SS残 即 ,为残差平方和(residual sum of squares) x对Y的线性影响之外的一切因素对Y的变异,即总变异中, 无法用x解释的部分。SS残越小,回归效果越好。,2. SS回,即 ,为回归平方和(regression sum of squares) 由于x与Y的直线关系而使Y变异减小的部分,即总变异中,可以用Y与X直线关系解释的部分。SS回越大,回归效果越好。,57,2019/6/21,回归系数的方差分析,58,2019/6/21,例3 对例1建立的回归方程

16、的回归系数进行假设检验,H0:=0H1:0=0.05计算统计量F,求得概率值P做出推断:,59,2019/6/21,回归系数的假设检验: t检验法,60,2019/6/21,其中SY.X为回归的剩余标准差,表示去除X影响后Y的变异大小, = n-2,61,2019/6/21,剩余(残差)标准差 SY.X,度量了实际散点远离回归直线的离散程度,反映了模型的可靠性;越小模型越好。,注意:1.对回归系数的假设检验可用方差分析和t检验,两种检验是完全等价的,即,62,2019/6/21,63,2019/6/21,直线回归方程的图示,在自变量X的实测范围内任取相距较远且易读数的两X值代入回归方程求得两点

17、坐标、连线即得其回归直线。 注意:1.回归直线不应超出x的实测值范围2.所绘回归直线必然通过 3.将直线的左端延长与纵轴交点纵坐标必等于截距a,据此可判断所绘图形是否正确。,(二) 总体回归系数 的可信区间,64,2019/6/21,65,2019/6/21,(二)总体回归系数的可信区间,SY.X为Y的残差标准差扣除X的影响后Y的变异程度。,66,2019/6/21,(三) 利用回归方程进行估计与预测,67,2019/6/21,2、个体Y值的预测区间,总体中,X为一定值X0时,个体Y值的波动范围,SY是x取定值时,个体Y值的标准差,(三) 利用回归方程进行估计与预测,当X=X0时,相应Y的均数

18、的可信区间表示在固定的X0处,反复抽样100次,可算得100个相应Y的总体均数的可信区间,平均有95个可信区间包含总体均数。 当X=X0时,其个体Y值的预测区间是一个预测值的取值范围,即平均有95%个体在此范围内,68,2019/6/21,69,2019/6/21,第二节 直线相关,一、直线相关的概念 二、相关系数的意义与计算 三、相关系数的统计推断,(linear correlation),70,2019/6/21,一、直线相关的概念,直线相关分析:描述两变量间是否有直线关系以及直线关系的方向和密切程度的分析方法。条件:两变量(X,Y)都是来自正态分布的随机变量。,在1926年美国经济学家乔

19、治泰勒(George Taylor)创造了裙摆指数理论,所谓裙摆理论,就是指在经济的繁荣程度和女性的裙摆长度成正比例关系。简单通俗的说就是:经济繁荣时代,女性的裙摆会越来越短;经济一旦进入衰退,短裙则随之变成长裙。,http:/ 变化趋势相同-完全正相关; 反向变化-完全负相关。,散点呈椭圆形分布, X、Y 同时增减-正相关(positive correlation)X、Y 此增彼减-负相关(negative correlation),77,2019/6/21,直线相关示意图,X、Y变化互不影响或无直线相关关系-零相关 (zero correlation),78,2019/6/21,二、相关系

20、数的意义与计算,直线相关系数:又称pearson积差相关系数,是说明具有直线关系的两变量间相关的密切程度与相关方向的指标。 r -样本相关系数 -总体相关系数,79,2019/6/21,二、相关系数的意义与计算,r无单位,-1 r 1。 r 值为正 正相关,为负 负相关; |r|=1 完全相关, |r|=0 零相关。,80,2019/6/21,表2 SAH患者血清和脑脊液IL-6(pg/ml)检测结果,81,2019/6/21,直线相关分析步骤,1、绘制散点图:,82,2019/6/21,表2 SAH患者血清和脑脊液IL-6(pg/ml)检测结果,91866.46,83,2019/6/21,2

21、、计算:,样本相关系数与样本量,样本相关系数r的大小与样本量有关。 特别n=2,当两个点的连线不平行与横轴和纵轴时,r1或r=1。 样本相关系数大小不能直接评价两个变量之间的相关性。 通常研究者首先关心的是0 ?,84,2019/6/21,三、相关系数的统计推断,85,2019/6/21,(一)相关系数的假设检验1、t 检验2、查表法,三、相关系数的统计推断,86,2019/6/21,1、t 检验 检验统计量,对于同一资料,tbtr,检验完全等价,r0原因: 由于抽样误差引起, =0 存在相关关系, 0,87,2019/6/21,例1 SAH患者血清IL-6和脑脊液IL-6间相关系数的假设检验

22、步骤:,H0 :=0 即SAH患者血清IL-6和脑脊液IL-6间无直线相关关系 H1 :0即SAH患者血清IL-6和脑脊液IL-6间有直线相关关系 =0.05,88,2019/6/21,r=0.7232, n=10, 代入公式 计算得根据=10-2=8查t界值表得0.01 P 0.02,按=0.05的检验水准,拒绝H0,接受H1 ,可认为SAH患者血清IL-6和脑脊液IL-6间有直线相关关系,三、相关系数的统计推断,89,2019/6/21,2、查表法根据r值及=n-2查附表13(P828) 相关系数r界值表r=0.7232,=8查r界值表得r0.05/2,8= 0.632, r0.02/2,

23、8=0.715, r0.01/2,8=0.765,所以 0.01 P 0.02 ,按=0.05的检验水准,拒绝H0,接受H1 ,可认为体重指数和收缩压之间存在正相关关系。,r:呈非正态分布,必须作正态变换:,90,2019/6/21,(二)总体相关系数的可信区间,91,2019/6/21,Z的总体均数的100(1-)%可信区间:,92,2019/6/21,例、 根据体重指数和收缩压间样本相关系数r=0.91,求总体相关系数 的95%可信区间,93,2019/6/21,tanh0.9898 tanh2.0770=0.760.97 总体相关系数的95%CI: (0.76, 0.97 ),四 决定系

24、数,*决定系数(coefficient of determination):回归平方和与总的离均差平方和平方和之比相关系数的平方r2,数值大小反映了回归贡献的相对程度,即应变量Y的总变异中可用回归关系解释的百分比。 SS总不变,SS回大小决定了相关系数r绝对值大小, SS回越接近SS总,r绝对值越接近1,说明相关的实际效果越好。,94,2019/6/21,四 决定系数,*决定系数(coefficient of determination):对直线回归的拟合优度检验等价于对总体回归系数的假设检验,其,95,2019/6/21,96,2019/6/21,五 直线回归与相关应用的注意事项,(1)根据

25、分析目的选择变量及统计方法 (2)进行相关、回归分析前应绘制散点图; (3)用残差图考察数据是否符合模型的假设条件(P196) (4)结果的解释及正确应用,97,2019/6/21,直线相关与回归的区别与联系,区别: 1. 资料要求不同。直线回归要求应变量Y服从正态分布,X可以是精确测量和严格控制的变量,一般称为型回归;直线相关要求两个变量X、Y服从双变量正态分布,这种资料若要进行回归分析称为型回归。2.应用情况不同: 直线回归说明两变量间依存变化的数量关系,直线相关则是说明两变量的相关关系 3. r与b有区别;1). 取值范围不同: -1r 1, +b-2). 意义不同:r说明具有直线关系的

26、两个变量间关系的密切程度与相关方向; b表示X每改变一个单位,Y平均改变b个单位。3)回归系数与原度量单位有关,而相关系数无单位,98,2019/6/21,1. r与b正负号一致:r为正时,b也为正,表示两变量是正相关,是同向变化。r为负时,b也为负,表示两变量是负相关,是反向变化。 2. r与b的假设检验等价:对同一组资料若同时进行r与b的假设检验,可得到相同的t值,即tr=tb;可用r的假设检验代替b的假设检验。3. 型回归 4.可用回归解释相关。*决定系数:即相关系数的平方r2,是回归平方和与总的离均差平方和之比,反映应变量y的总变异中可用回归关系解释的部分。越接近于1,表明利用回归方程

27、进行预测越有意义。,联系:,第三节 等级相关,99,2019/6/21,第三节 等级相关,Spearman等级相关rs为等级相关系数:说明2个变量间相关关系的密切程度与相关方向的。 总体相关系数S,100,2019/6/21,第三节 等级相关,等级相关又称为秩相关,是一种非参数统计方法,适用于: 双变量来自非正态总体总体分布未知,数据一端或两端有不确定值的资料(开放型资料)等级资料。,101,2019/6/21,第三节 等级相关,102,2019/6/21,第三节 等级相关,103,2019/6/21,(1)n50,查表法:P830附表14 rs界值表本例:n=10, rs 0.05/2,10

28、=0.648 rs 0.02/2,10=0.745P50, u检验,第三节 等级相关,当X,Y对应的相同秩次较多时,宜用校正值rs,104,2019/6/21,第六节 曲线拟合,实际工作中,变量间未必都呈线性关系:血药浓度与时间的关系,疗效与疗程的关系,毒物剂量与致死率的关系均呈曲线关系 曲线拟合是选择适当的曲线类型来拟合观测数据,可用拟合的曲线方程来分析两变量间的关系,105,2019/6/21,第六节 曲线拟合,曲线直线化:非线性资料通过变量变换使其直线化,可求出变量变换后的直线方程,再利用直线方程绘制标准工作曲线,同时还可将直线方程还原为曲线方程,实现对资料的曲线拟合。,106,2019

29、/6/21,107,2019/6/21,y,x,y = b0 + b1 x,0,108,2019/6/21,y,x,y,x,b 0,b 0,y = a e bx ( ln y = ln a + b x ),0,0,常用的非线性函数:指数函数,109,2019/6/21,y,x,y = a xb ( ln y = ln a + b ln x ),0,常用的非线性函数:幂函数,110,2019/6/21,y,x,y = b0 + b1 x + b2 x2,0,111,2019/6/21,y,x,y = b0 + b1 x + b2 x2 + b3 x3,0,112,2019/6/21,y,x,y = k / 1 + a exp ( bx ) + l,b 0,b 0,Y = k + l,Y = l,0,113,2019/6/21,谢谢大家!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报