1、第九章 双变量线性回归与相关,重点掌握,线性回归与相关分析的基本概念、统计学意义;回归方程、回归系数与相关系数的假设检验;Spearman 秩相关分析意义与适用范围;线性回归与相关分析中应注意的问题。,3,4,5,6,问题的提出,儿童所能发出的最长音调往往和年龄有关。同样,是否可以建立年龄和音调长度的数量关系?人的肺活量往往随着胸围的增加而增加。,回归(Regression )释意,由英国生物统计学家Sir Francis Galton(1822-1911)于1885年提出变量之间的某种数量依存关系,9,简单线性回归的概念,分析某变量随另一变量变化而变化依存关系的方法称为简单线性回归。通过拟合
2、线性方程来描述两个变量的回归关系。,10,实 例,例9-1 某研究小组随机抽查了20名15岁健康男童,测量其身高(cm)与体重(kg),数据如下,拟研究体重随身高增加而增加的变化规律。,Y 因变量 (dependent variable, response variable) X 自变量 (independent variable, explanatory variable),一、回归分析的统计描述,12,图9-1 15岁男童身高与体重散点图与回归线,散点有线性趋势,但并非所有散点在一条直线上。,散点图(Scatter plot )在平面直角坐标系上标识两变量(x,y)间关系的统计图。,散点图
3、,考察两变量间是否有直线还是曲线趋势 判断资料是否存在偏离趋势的异常点(outlier) 异常点:即远远偏离了散点图中的趋势线的点,14,第一节 简单线性回归,函数关系:确定关系,如圆周长与半径:y=2r 。回归关系:非确定关系(incomplete relation)目的:研究变量之间的数量依存关系,找出一条最能代表这种数据关系的直线。,男童的身高虽然影响了体重;但并非确定地决定它;,总体简单线性回归方程,随机误差,总体回归系数,斜率,Y随X改变的平均变化量,Y的条件均数,样本简单线性回归方程,“hat”表示估计值,给定x时y的条件均数,截距,X取0时,Y的平均水平,回归系数,直线的斜率,表
4、示X变化一个单位时Y的平均改变量,17,统计学意义 a表示自变量X为0时相应Y条件均数的估计值。几何意义 a 0: 回归线与纵轴交点在原点上方。 a 0,Y随X的增大而增大(减少而减少) 斜上; b 0,Y随X的增大而减小(减少而增加) 斜下; b =0,Y与X无直线关系 水平。 b 越大,表示Y随X变化越快,直线越陡峭。,b :样本回归系数,不同斜率时回归直线的表现,回归方程的估计,最小二乘法(least square estimation),X与Y的离均差乘积和,X的离均差平方和,因为直线一定经过“均数”点,身高与体重的回归,22,回归直线,(175,67.03),(145,45.56),
5、(159.6,56.00),截距a,计算不太接近的两点的Y值,回归系数和回归方程的意义及性质,b 的意义a 的意义 的意义 的意义 的意义,b 的意义,斜率(slope) 例:15岁男童身高与体重的关系 -58.235 + 0.7518X 身高每增加 1 cm, 则体重平均增加 0.7518kg,b 的单位为 (Y的单位/X的单位),估计值 的意义,X=160时, =62, 即身高为 160cm的15岁男童, 其平均体重之估计为 62kg。X=170时, =69, 即身高为 170cm的15岁男童, 其平均体重之估计为 69kg.给定X时,Y的均数的估计值当 时,,26,散点图,由体重估计体表
6、面积,X Y Y 的估计值 (体重,kg) (体表面积)11.0 5.2835.14511.8 5.2995.33612.0 5.3585.38312.3 5.2925.45513.1 5.6025.64613.76.0145.78914.4 5.8305.95614.9 6.1026.07515.2 6.0756.14616.0 6.4116.337,28,的意义,残差(residual) :点到直线的纵向距离,残差平方和 (residual sum of squares)综合表示点距直线的距离最小二乘法 在所有的直线中,回归直线的残差平方和是最小的,的意义,点到直线的距离,点到回归直线的纵
7、向距离平方和为最小!,回归直线的三个基本性质,直线通过均点 即直线上方各点到直线的纵向距离之和=直线下方各点到直线的纵向距离之和 最小,即各点到该回归线纵向距离平方和较到其它任何直线者为小,32,总体0,总体 0,样本b0,两变量有直线关系,?,?,回归分析的统计推断,b0原因: 由于抽样误差引起,总体回归系数=0 存在回归关系,总体回归系数 0,两变量无直线关系,回归分析的统计推断,抽样误差检验方法检验总体回归方程是否成立:F 检验检验总体回归系数是否为0 :t 检验,因变量Y的总变异分解,X,P(X,Y),Y,Y的总变异分解,+,36,几个平方和的意义,Y的总变异分解,未引进回归时的总变异
8、:回归的贡献,回归平方和:引进回归以后的变异(剩余):,Y的总变异分解,n-1,1,n-2,39,实际计算1,实际计算2,将Xi依次代入回归方程求得 ,再求SS总,SS回归与SS残差。,简便,40,方差分析,方差分析表,41,例9-1 检验求得身高与体重的直线关系是否成立?,解:1. 建立假设并确定检验水准。 H0:总体回归方程不成立 H1:总体回归方程成立,2. 计算检验统计量F,0.05,3. 确定P值下结论,本例P0.01,按 0.05水准,拒绝H0,接受H1。可认为体重与身高之间的回归关系存在。,不能用X来解释的部分即与X无关的部分(随机误差),份额的大小可以用决定系数来衡量,回归方程
9、的方差分析,决定系数,R2 _ 回归平方和与总平方和之比,取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,即在Y的总变异中回归关系所能解释的百分比。 拟合优度的指标,评价回归的效果,决定系数越接近1,回归方程的拟合效果越好本例9-1,R2= SS回/SS总=697.15/934=0.7464。说明15岁男童体重有74.64%的变异与身高有关,另外约26%的变异不能用体重来解释对于拟合优度的检验等价于总体回归方程进行假设检验的方差分析,决定系数,回归系数的假设检验,总体回归系数 =0,则回归关系不存在 H0:总体回归系数为0, =0; H1:总体回归系数不为0,0; = 0.05,
10、回归系数的 t 检验,Y的剩余标准差扣除X的影响(即回归所能解释的部分)后Y本身的变异程度,身高与体重回归系数的假设检验,H 0:总体回归系数 0, 即身高与体重无线性回归关系H 1:总体回归系数 0, 即身高与体重有线性回归关系 =0.05,1. 建立检验假设,确定检验水准,48,2. 计算检验统计量t,3. 确定P值下结论,查t界值表,P0.001,按 0.05水准,拒绝H0,接受H1。,注意:两种检验是完全等价的,即,简单线性回归分析应用,回归系数的可信区间估计估计值 的可信区间估计个体Y值的容许区间估计,复习 可信区间 容许区间,均数的可信区间: 均数界值标准误 个体的容许区间(参考值
11、范围): 均数界值标准差,51,总体回归系数 的可信区间,总体样本根据 t 分布原理估计可信区间:,总体,样本b,52,例9-1:已计算得b=0.7158, sb=0.0983, v=18, 查t界值表得t0.05/2,18 =2.101 (0.7158- 2.101 0.0983,0.7158+ 2.101 0.0983) =( 0.5093,0.9223) 含义 用(0.5093,0.9223 )来估计15岁健康男孩身高与体重间的回归系数,可信度为95。,回归分析的应用条件,应用条件(LINE):(1) 线性(linear)(2) 独立(independent)(3) 给定X时,Y正态分布
12、(normal)(4) 等方差(equal variance),给定X时,Y是正态分布、等方差示意图,给定X时,Y是正态分布、不等方差示意图,56,五、简单直线回归分析应用,(一)利用回归方程进行估计和预测(二)利用回归方程进行统计控制,Y的容许区间估计,给定X 时,Y 值的容许区间是 Y 值的可能范围 Y的100(1- )%容许限:,58,个体 的容许区间估计,即身高为150cm时,估计有95的人体重在41.0775到57.1925 kg之间。,59,的区间估计,可信区间是针对总体条件均数的, 容许区间是针对Y的取值范围的,60,的区间估计,身高为150cm时,平均体重为49.135kg的9
13、5可信区间为(46.5200,51.7500) (kg)。,结论,身高为150cm时,估计有95的人体重在41.0775到57.1925 kg之间,平均体重为49.135kg的95可信区间为(46.5200,51.7500) (kg)。,62,可信区间与预测区间示意图,回归直线,可信区间下限,预测区间下限,统计控制是利用回归方程进行逆估计,即已知y之后反推x 如要求y在一定范围内波动时,可按求y的容许区间来推算x的取值来实现。,利用回归方程进行统计控制,例:通过抽样测得某地单位时间内汽车流量(X)与空气中NO含量(Y),并建立回归方程 ,求得回归方程: 若要求空气中NO的含量不超过0.100p
14、pm。则汽车流量应如何控制?,利用回归方程进行统计控制,利用回归方程进行统计控制,将Y=0.100ppm代入上述回归方程,得 0.100=-0.275+0.00025X X=(0.100+0.275)/ 0.00025=1500(辆)即只有把汽车流量控制在1500辆/小时以内,才有可能让空气中NO的含量不超过0.100ppm,回归分析对资料的要求自变量X:可以精确测量和严格控制的非随机变量,如年龄,药物浓度或剂量等;也可是随机变量,如血清胆固醇的含量,血红蛋白的含量等。因变量Y:呈正态分布的随机变量。收集资料时,X与Y是成对的,一般来自同一个研究对象。一对数据缺少X或Y都不能应用,收集数据时要
15、注意。,回归分析的应用条件,回归分析的正确应用,要有实际意义;充分利用散点图,判断(1)线性趋势(2)离群值回归关系适用范围以求回归方程时X的实测值范围为限;若无充分理由证明超过该范围还是直线,应避免外延。,回归分析的正确应用,例 17岁儿童以年龄(岁)(X)估计体重(kg)(Y)的回归方程:回归系数是有单位的,不能根据 b 的大小判断回归关系的密切程度。,第二节 双变量相关分析,相关关系当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,或相关(correlation)。两个变量有共变现象,称为有相关关系,若两个变量同时增加或减少,变化趋势是同向的,则两变量之间的关系为正相关(
16、positive correlation);若一个变量增加时,另一个变量减少,变化趋势是反向的,则称为负相关(negative correlation)。,相关关系,直线相关(linear correlation)又称简单相关,用以描述双变量正态分布资料之间线性共变关系的密切程度,常简称为相关。,直线相关的概念,72,73,相关分析的任务:两变量间有无相关关系?两变量间如有相关关系,相关的方向?相关的程度?相关分析时,两变量不区分自变量和应变量。,反映两定量指标间的相关关系用 Pearson 相关系数 r表示样本相关系数,为总体相关系数用以说明具有直线关系的两个变量间相关关系的密切程度和相关方
17、向的指标.,Pearson相关系数,Pearson相关系数,X 的离均差平方和:Y 的离均差平方和:X与Y 间的离均差积和:,X和Y均为正态分布的随机变量,散点图呈线性趋势,且各观察值间独立,例:男童体重与体表面积的关系,编号 体重(X,kg) 体表面积(Y,103cm2)111.05.283211.85.299312.05.358412.35.292513.15.602613.76.014714.45.830814.96.102915.26.075 1016.06.411 合计133.457.266,体重与体表面积散点图,体重(kg),X,体表面积Y(103cm2),相关系数的计算,相关系数
18、的性质,-1 r 1r0为正相关r0为负相关r0为零相关或无相关相关系数绝对值越大,两变量间相关程度越密切;相关系数越接近于0,表示相关越不密切。,80,相关关系示意图,存在抽样误差! r不为0,尚不能说明两变量之间有直线相关关系。因此,要对r是否来自=0的总体进行假设检验。,相关系数的假设检验,83,三、 相关系数的计算,84,图9-5 凝血时间与凝血酶浓度散点图,85,四、相关系数的假设检验,r0原因: 由于抽样误差引起,=0 存在相关关系, 0,公式,,n-2,Sr- 相关系数的标准误,方法1t检验,方法2查表法:按自由度(n2)查r界值表得P值。,86,注意:对于同一资料,tbtr,检
19、验完全等价,总体相关系数的区间估计,从相关系数不等于0的总体中抽样,样本相关系数的分布是偏态的。, = - 0.8, =0.8, =0,z 变换,z 近似服从均数为 , 标准差为 的正态分布。,R.A. Fisher(1921),相关系数的z 值的抽样分布, = - 0.8, =0.8, =0,相关系数的可信区间估计,将 r 变换为 z ;根据 z 服从正态分布,估计 z 的可信区间;再将 z 变换回 r,相关系数的可信区间估计,Fishers 变换 r z 正态近似 Fishers 反变换 的95CI z的95CI,P133例9-2凝血时间与凝血酶浓度的相关系数r=-0.9070以正态近似法
20、求总体相关系数的95%CI做反变换可得总体相关系数95%CI为(-0.9690,-0.7373),第三节 Spearman秩相关,等级相关适用条件双变量不服从正态分布总体分布类型不明确原始数据用等级表示,第三节 Spearman秩相关,将各变量X,Y分别编秩RX, RY;计算RX与RY的Pearson相关;所得结果即为Spearman等级相关rS-1rs1rs : 样本相关系数s : 总体相关系数,例 抗白指数与临床疗效的关系,某研究所用野百合治疗白血病,并作抗白血病指数(简称抗白指数)及疗效的分析,问抗白指数与临床疗效间有无关系? 病例号 抗白指数X 临床疗效Y(1)(2)12+23+39+
21、410+511+630735845955+1070+11881290,RX(3)123456789101112,RY(4)99911.511.53336.56.533,RX(3)123456789101112,RY(4)99911.511.53336.56.533,rs = = -0.6894,等级相关系数的假设检验,H 0:S0,抗白指数与疗效无相关关系;H 1: S0,抗白指数与疗效有相关关系。 = 0.05当n50时,用查“等级相关界值表”;当n50时,用 t 检验:t 服从自由度为n-2的 t 分布。,本例 n = 12, 查界值表,得: rs(0.05,12)=0.587即若 H0
22、成立,按=0.05的水准,等级相关系数在(-0.587,0.587)之间。现 rs = -0.6894,故 P 0.05可以认为,抗白指数与疗效有等级相关关系。,等级相关系数的假设检验,相关分析对资料的要求相关关系不一定是因果关系,也可能是伴随关系 相关系数只度量变量间的线性关系,因此,弱相关不一定表明变量间没有关系; 极端值可能影响相关系数; 注意相关关系成立的数据范围; 警惕虚假相关。,相关分析的正确应用,定量资料在进行相关分析(Pearson相关)前,需作散点图,从散点图的趋势判断是否可以作线性相关分析,相关分析的正确应用,直线相关与直线回归的联系,联系均表示线性关系;符号相同:共变方向
23、一致;假设检验结果相同:是否存在共变关系;相关系数 用回归解释相关:,直线相关与直线回归的区别,r 没有单位,b有单位;所以,相关系数与单位无关,回归系数与单位有关;相关表示相互关系;回归表示依存关系;对资料的要求不同:当X和Y都是随机的,可以进行相关和回归分析;当Y是随机的(X是控制的),理论上只能作回归而不能作相关分析; I型回归:X是精确控制的; II型回归:X是随机的。,二、直线回归与相关中的注意事项 (一)进行回归与相关分析前应首先绘制散点图。它可直观地提示两变量是否存在线性或非线性趋势,还可发现有无异常点。 (二)正确识别与处理异常点。它是进行统计分析前首先要完成的工作。 (三)两
24、变量为非线性关系时,应采用曲线拟合的方法(表9-5)进行分析 。 (四)通过残差分析与残差图来判定回归模型是否满足直线回归分析条件。 (五)分层资料合并后做回归或相关分析要慎重,残差图,直线回归中三种假设检验间的关系,在直线回归中,回归系数的假设检验,回归方程的方差分析以及相关系数的假设检验结果等价。,106,1、进行回归与相关分析前,应绘制散点图;2、作回归分析时,要求因变量Y是呈正态分布的随机变量。3、作相关分析时,要求两个变量X、Y是双变量正态分布的随机变量,小 结,4、-1r1,|r|0.4为低度线性相关;0.4|r|0.7为中度线性相关;0.7|r|1为高度线性相关;|r|=1,为完全正(或负)相关。5、作相关分析时,当资料不满足双变量正态分布或等级资料,用Spearman秩相关分析。,