1、医学统计学,欢迎学习,医学统计学,第九章 双变量线性回归与相关,主讲:黄志碧,本章学习重点 1、直线回归与相关的概念; 2、直线回归方程的建立; 3、回归系数、相关系数的假设检验; 4、直线回归与相关的区别和联系; 5、直线回归与相关分析应注意的问题; 6、等级相关(秩相关)的应用范围。,回归与相关概述,什么是标准体重,如何测量?,男性:身高(cm)-105标准体重(kg) 女性:身高(cm)-100标准体重(kg) 北方人理想体重(身高cm-150)0.6+50(kg) 南方人理想体重(身高cm-150)0.6+48(kg),回归与相关是研究变量之间相互关系的统计分析方法,它是一类双变量或多
2、变量统计分析方法(本章主要介绍双变量分析方法),在实际之中有着广泛的应用。 如年龄与体重、年龄与血压、身高与体重、体重与肺活量、体重与体表面积、毒物剂量与动物死亡率、污染物浓度与污染源距离等都要运用回归与相关方法对资料进行统计分析。,变量之间的关系:()直线关系(线性关系);()曲线关系(非线性关系)。在回归与相关分析中,直线回归与相关是最简单的一种,是本章主要内容。,直线回归分析:分析两个变量间的数量关系,目的是用一个变量推算另一个变量 (建立回归方程)。 直线相关分析:分析两个变量之间有无相关关系以及相关的性质(正、负相关)和相关的密切程度。,第一节 直线回归,一、直线回归的概念 “回归”
3、一词首先由英国生物统计学家()提出,他发现,高个子的父代其子代平均身高不是更高,而是稍矮;相反,矮个子的父代其子代平均身高不是更矮,而是稍高于其父代水平,他把这种身高趋向种族稳定的现象称为“回归”。目前回归的含义已经演变成变量之间的某种数量依存关系。,函数关系: 确定的关系。例如园周长与半径:y=2r 。,回归关系:不确定的关系(随机的关系)。例如血压和年龄的关系,称为直线回归 (linear regression)。,北方人理想体重(身高cm-150)0.6+50(kg),变量间的关系,变量间的回归关系 由于生物间存在变异,故两相关变量之间的关系具有某种不确定性,如同性别、同年龄的人,其肺活
4、量与体重有关,肺活量随体重的增加而增加,但体重相同的人其肺活量并不一定相等。因此,散点呈直线趋势,但并不是所有的散点均在同一条直线上,肺活量与体重的关系与严格对应的函数关系不同,它们之间是一种回归关系,称直线回归。这种关系是用直线回归方程来定量描述。,回归分析涉及到两个变量,X与Y,其中X称自变量,Y 为因变量或反应变量。,回归分析对资料的要求,Y必须是呈正态分布的随机变量。,可以是非随机变量:年龄、药物浓度或剂量 型回归也可以是随机变量:身高、体重、血清胆固醇的含量,血红蛋白的含量型回归,X,由X推算Y的直线回归方程一般表达式 (9-2)a称为截距, b 为回归系数, 即直线的斜率。,a,b
5、0,y,x,2、回归系数b的统计学意义b0时,Y随X增大而增大;b0,b0 b0,d,b=0 b=0,b=0 b=0,d,二、直线回归方程的建立,式中 、 分别是X、Y的均数; 为X的离均差平方和; 为X与Y的离均差积和,按下式计算。,回归分析的步骤,1、用原始数据绘制散点图;2、求a和b (如果呈直线关系)3、对回归系数b作假设检验(方法:a. F检验 b. t检验 c. 用r检验来代替)。 4、如果x与y存在直线关系( b假设检验的结果PF0.01,1,18 ,P0.01 P t0.001,18 , 故 P t0.001,13, 故 Pr0.001,13, P20时,用该法)。,例9-3
6、12名脑膜瘤病人瘤周脑组织血流量(PTBF)和同侧大脑半球血流量(hCBF)资料如下表,分析PTBF和hCBF相关性。,分析步骤如下:H0:s=0, PTBF和hCBF无直线关系H1:s0,PTBF和hCBF有直线关系=0.05分别对X、Y的观察值从小到大编秩,若有相同的观察值则取平均秩次。,按 n=12查rs界值表:,0.005P0.002, 按=0.05,拒绝H0接受H1,可以认为PTBF和hCBF有正的直线相关关系。,一、直线回归与相关的区别和联系(一)、区别 1、对资料要求不同(1)回归分析要求因变量Y是服从正态分布的随机变量,X是可以精确测量和严格控制的变量,一般称型回归,即只能由X
7、作自变量推算Y。(2)相关分析要求两个变量X、Y是均服从正态分布的随机变量,即双变量正态分布。对这种资料进行回归分析称型回归,可以求出两个方程:,第四节 回归与相关分析应注意的问题,由X推算Y的方程:由Y推算X的方程:,2、应用不同:说明两变量间依存变化的数量关系用回归,说明变量间的相关关系用相关。 3、意义不同:b表示X每增(减)一个单位,Y平均改变b个单位;r说明具有直线关系的两个变量间相关关系的密切程度与相关的方向。 4、算方法不同。 5、取值范围不同;-1r1,-b+。 6、b有单位,r没有单位。,(二)、联系1、对一组数据若同时计算r与b,则它们的正负号是一致的。2、r和b的假设检验
8、是等价的,即对同一资料,两者的t值相等( )。在实际中常采用对r的检验来代替对b的检验。3、可用回归解析相关。 r的平方,即r2,称决定系数,它说明回归平方和(SS回)占总平方和(SS总)的比重,其取值范围在01之间。,上式说明,当SS总固定不变时,SS回的大小取决于r2。r2越大,则SS回就越大;SS回是由于引入了相关变量后使总平方和减少的部分。 SS回越接近SS总,则r2越接近1,说明引入相关变量的效果越好。在临床研究中,若r2达到0.7以上,就可认为回归效果不错;但在实验室研究中,如标准曲线的配制,r2的要求很高,达到0.999以上。,可通过r2的大小来确定两变量间相关关系的实际意义。例
9、如r=0.2,n=100时,可以认为两变量间有直线相关关系,但r2=0.04,表示回归平方和在总平方和中仅占4%,即X对Y的影响仅占4%,实际意义不大。,(一)、根据分析目的选择变量及统计方法; (二)、进行回归、相关分析前应绘制散点图;(1)看有无直线趋势;(2)有无异常点:离群点 识别和处理异常点 识别:散点图、残差图,二、直线回归与相关中的注意事项,(三)两变量为非线性关系时的曲线回归 血药浓度与时间效应曲线 生长曲线 剂量反应关系 进行曲线拟合,拟合出曲线方程。,(四)、进行残差分析:看数据是否符合模型假设条件;,(五)分层资料合并后做回归或相关分析要慎重。,(六) 正确理解相关分析的
10、意义和作用 两变量有相关性不一定是因果关系,可能是一种伴随关系,即相关分析不能说明变量间的因果关系。,一、曲线拟合的意义 在医学研究中,两变量之间的关系有时不呈直线而呈曲线关系。如药物在体内的浓度与时间的关系,儿童年龄与身长发育的关系等都不是简单的直线关系,这种资料就不能用直线回归分析,有时可以通过适当的变量变换使之直线化,从而扩大了直线回归的应用。,第五节 曲线拟合,1、曲线拟合:就是用适当的曲线方程来描述变量之间的变化关系。 曲线拟合最基本方法是曲线直线化,即通过适当的变量变换,使曲线关系变为直线关系,然后用直线回归分析方法求出直线方程,然后还原为曲线方程。 2、直接使用变量变换后的直线回
11、归:若两变量呈曲线趋势,常使用直线化回归方程,绘制标准曲线。,二、曲线拟合步骤 1、选定曲线类型,指数曲线示意图,2、将变量作对数变换 选定X(或K-X)或Y(或K-Y)进行对数变换,K为常量,使变换后的两变量呈直线关系。也可以将实测数据在半对数坐标纸上作直线化尝试。,3、按求直线回归方程的方法求直线化方程; 4、将直线化方程转为曲线方程,作曲线图。,表9.7 某地氰化物浓度与污染源距离的关系 与污染源 氰化物 距离(m) 浓度(mg/m3) X Y y=lgY Y (1) (2) (3) (4) 50 0.687 -0.1630 0.584 100 0.398 -0.4001 0.364 1
12、50 0.200 -.06990 0.227 200 0.121 -0.9172 0.142 250 0.090 -1.0458 0.088 300 0.050 -1.3010 0.055 400 0.020 -1.6990 0.021 500 0.010 -2.0000 0.008 1950(X) -8.2251(y),1、从表中(1)、(2)栏可见,随X的增加,Y有加速减少的趋势,可选用指数曲线; 2、在半对数纸上作图;见图11.7,呈直线趋势; 3、求直线方程; 用X与 y (y=lgY) 求直线化方程: a=-0.0287, b=-0.0041 y=-0.0287-0.0041X; 4
13、、将直线化方程转为曲线方程: lgY=-(0.0287+0.0041X),三、 曲线拟合方程的评价,同一资料可同时采用多种拟合方法(包括线性方程),然后,计算决定系数r2,和剩余标准差。决定系数越大,剩余标准差越小,所拟合的方程效果越好。,秩 回 归,当资料不满足最小二乘回归分析时,可以进行秩回归分析。秩回归不要求Y的总体分布型,Y和X可以呈直线趋势或非线性趋势,仅要求Y的均数随着X的增大而增大或减小。,表11.1 SS剩的计算 序号 X Y1 22.4 134.0 99.3861 34.6139 1198.12212 51.6 167.0 133.8335 33.1665 1100.0167
14、3 58.1 132.3 141.5015 -9.2015 84.66764 25.1 80.2 102.5713 -22.3713 500.47515 65.9 100.0 150.7032 -50.7032 2570.81456 79.7 139.1 166.9832 -27.8832 777.47287 75.3 187.2 161.7925 25.4075 645.54118 32.4 97.2 111.1831 -13.9831 195.52719 96.4 192.3 186.6842 5.6158 31.537210 85.7 199.4 174.0614 25.3386 642.0447合计 592.6 1428.7 1428.70 0.0000 7746.2189,