1、10 简单线性回归分析,主 讲: 卢 洁 Ph.D,E-mail : hanyaa800 ,办公室:郑大公卫学院 A510室,统计学研究特点:,研究的是样本,要对总体作出推断,得到的是频率,要对概率作出推断,需进行参数估计和假设检验,抽样研究,抽样误差,利用“小概率原则”进行统计推断,准确的收集数据;准确的录入数据;正确的选用统计分析方法、调用统计分析程序;对输出的结果作出合理的解释。,统计学学习的重点是掌握如何:,统计 描述,参数估计:点估计、区间估计,假设检验,定量资料,离散趋势:,算术均数、 中位数等,集中趋势:,极差、 四分位数间距、 方差、标准差、变异系数,定性资料:频率型指标、强度
2、型指标、比,统计表和统计图,统计 推断,统计学的主要内容:,变量,对于单变量,对于多变量:,多重线性回归、logistic分析,非参数检验,参数检验,定量资料,定性资料,实验设计,对于两变量:,简单线性相关和回归分析,数据资料,定量资料,数据 类型,设计 类型,单样本,定性资料,设计 类型,两独立样本,配对样本,多独立样本,随机区组,t / Z检验,方差分析,单样本,两、多独立样本,配对样本,等级资料,进入条件,不满足进入条件,秩和检验,四格表,RC列联表,配对RC,x2检验,设计 类型,配对四格表,如果你知道某一个人的身高和体重,你能知道这个人的手指有多粗吗? 如果你知道患儿的月龄,你能换算
3、出他体重是多少吗? 考察父亲身高与子女身高之间的关系。 考察收入水平与受教育程度之间的关系。,回归分析:是研究一个随机变量如何随另一个变量(可固定,也可随机)变化的。,从一组样本数据出发,确定变量之间的回归关系式; 对这些关系式的可信程度进行各种统计检验,并从影响因变量的诸多变量中找出具有统计学意义的变量; 利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。,回归分析的主要目的:就是研究固定自变量X的情况下,因变量Y的总体均数与X之间的回归关系;即:,线性回归方程的建立 回归方程的解释 线性回归的前提条件 回归方程的假设检验 回归方程的
4、统计应用,10.1 什么是回归? 。 10.2 简单线性回归模型 。,10.1 什么是回归?,1. 线性回归分析 linear regression analysis,:研究一个变量和另外一些变量间线性数量关系的统计分析方法。,简单线性回归 simple linear regression,多重线性回归 muptiple linear regression,:涉及多个变量(自变量、解释变量)时称。,:模型中只包含两个有“依存关系”的变量,一个变量随另一个变量的变化而变化,且呈直线变化趋势,叫。,分类,矮个子的父代:64英寸 而它子代:67英寸,父亲和他儿子的身高:,1.父代的总均数=68英寸子
5、代的总均数=69英寸,2.高个子的父代:72英寸而它子代:71英寸,调查了1087对父子:,例10.1 为研究大气污染一氧化氮(NO)的浓度是否受到汽车流量、气候状况等因素的影响,选择24个工业水平相近的一个交通点,统计单位时间过往的汽车数(千辆),同时在低空相同高度测定了该时间段平均气温()、空气湿度()、风速(m/s)以及空气中一氧化氮(NO)的浓度(10-6),数据如下表。,2. 简单线性回归的两个变量:,反应变量 response variable或 因变量dependent variable:是按某种规律变化的随机变量,是被估计的被预测的变量。用“Y”表示。,解释变量explanat
6、ory variable或自变量 independent variable或预测因子 predictor :可看作影响因素,是能独立自由变化的变量,是“Y”所依存的变量,常用“X”表示,可是随机变量,也可是人为控制或选择的变量。,若 Y 随X1、X2、Xm的改变而改变:,资料类型:定量资料 目的:了解一氧化氮浓度与汽车流量、气候状况等单变量之间的依存关系。,【案例解析】,简单线性回归,线性回归的分类:,I 型回归 :因变量(Y)是随机变化的,但自变量(X)可以不随机 ,当它是能够精确测量和严密控制的量时,叫Y 关于X 的I型回归。,II型回归 :因变量(Y)和自变量(X)都是随机变化的,叫Y
7、关于X 的II型回归。,表12-1 不同IgG浓度下的沉淀环数据,线性回归关系的特点:,各观测点分布在直线周围的束状带内; 当变量 X 取某个值时,变量Y取值可能有几个。 变量间关系不能用函数关系精确表达,10.2 简单线性回归模型的建立,只考虑NO浓度和车流量的关系,问之间是否存在数量依存关系?,10.1.1 解析:,回归分析的要达到下面三个目的:,X和Y间的回归联系是否有统计学意义? 车流量对NO浓度的影响(贡献)有多大?, 统计推断,10.1.2 如何定量地描述两者的关系:,绘制散点图,回归方程:求回归系数和常数项,回归方程和回归系数 的假设检验,总体回归系数的区间估计,回归方程的统计应
8、用,(一)绘制散点图,从散点图可见:车流量与空气中NO浓度所对应的点分布在一个线性束状带内,有线性的趋向,所以可以考虑做线性回归分析。,通常情况下,研究者只能获得一定数量的样本数据,用样本数据建立的有关Y依从X变化的线性表达式称为回归方程(regression equation),记为:, YX= +X,那么在总体中,可能存在对应的方程模型:,让所有点的 的平方和最小,用最小二乘法拟合直线,选择a和b使其残差(样本点到直线的垂直距离)平方和达到最小。,(三)回归参数的估计:最小二乘估计 least square estimation,回归参数的估计方法:,回归方程:,用最小二乘法拟合直线,选择
9、a和b使其残差(样本点到直线的垂直距离)平方和达到最小。即:使下列的SSE达到最小值。,求:NO浓度和车流量间的简单线性回归方程?,解:由样本数据了解计算统计量,带入下公式,求出回归系数b,作回归直线图,带入下公式,求出回归截矩a,最小二乘法原则下的回归方程为:,(三)建立回归方程,作回归直线图,回归方程的解释,b 的意义?a 的意义?的意义的意义?,回归系数的意义:,1. 由总体回归方程可知 YX= + x, 参数 的意义:若自变量X增加1个单位,反应变量Y的 平均值便增加 个单位。 。 2. 由于 是 YX= +X 的估计表达式, 所以(样本)回归系数b 表示 X 增加一个单位,样本观察值
10、Y 平均增加 b 个单位。,总体回归系数( regression coefficient ), 的统计学意义:X每增加(或减少)一个单位,Y 平均改变了个 单位; 越大,表示Y 随X 增减变化的趋势越陡。, 0, 表明Y与X呈同向线性变化趋势 =0, 表明Y与X无线性回归关系,但可能有其它关系 0, 表明Y与X呈反向线性变化趋势,3. 线性回归分析的前题条件:,线性(linear)独立性(independent)正态性 (normal)等方差性(equal variance),图12-3 线性回归模型的适用条件示意图,3. 线性回归分析的前题条件,line,normal 正态性,equal v
11、ariance 等方差性,反应变量Y 的总体平均值与自变量X呈线性关系,在一定范围内任意给定值,则对应的随机变量服从正态分布,在一定范围内,对应于不同X值,Y总体变异程度相同,linear 线性,(四)回归方程有统计学意义吗? 总体回归系数的统计推断:,就总体而言,这种回归关系是否存在?即总体回归方程是否成立?,由于样本回归系数b与总体回归系数存在抽样误差,即:一般情况下, b ,因此需要考虑抽样误差对统计推断是否存在重大影响?,假设检验,回归模型的假设检验(model test):,回归系数的假设检验:,目的:检验求得的回归方程在总体中是否成立; 方法:单因素方差分析。,目的:即检验总体回归
12、体系数是否为0(=0); 方法:t 检验。,1. 回归模型的假设检验方差分析,SS总= SS回归+ SS残差,v总= v回归+ v残差,变异的分解:,回归方程假设检验的基本思想:,如果总体中自变量X对因变量Y没有贡献,则由样本所得的回归均方与残差均方应相近; 反之,如果总体中自变量X对因变量Y有贡献,回归平方和反应的就不仅仅是随机误差,即回归均方必然要远大于残差均方; 依此,可计算检验统计量F值作出判断。,问:所求得的回归方程在总体中是否成立?,均方:MS=SS/v,回归均方:MS回归=SS回归/v回归 残差均方: MS残差=SS残差/v残差,检验统计量:,查F界值表(P572),确定单侧临界
13、值Fa(v回归, v残差), 求概率值 P,下结论,1. 建立假设,确定检验水准H0 :总体回归方程不成立,即总体中自变量X对因变量Y没有贡献;H1 :总体回归方程成立,即总体中自变量X对;因变时Y有贡献。 =0.05 (单侧),查F 界值表(P572):a =0.05,v回归=1、 v残差=n-2=22,得:F(k-1, n-k)= F(1,22) =4.30,3. 确定P值,作出推断结论: 由于F=41.3764.30,则P0.05,故拒绝H0,接受H1,可认为在a =0.05 的显著水平上,NO浓度与车流量之间的回归方程具有统计学意义。,2. 计算检验统计量F值:,2. 回归系数的假设检
14、验 t 检验,=0,说明Y与X之间并不存在线性关系0,说明Y与X之间存在线性关系,即:对于X 的任何值,总体均数 YX 没有任何改变,故建立Y与的直线回归方程就没有任何意义了,故是否为0,涉及到所建立的回归方程是否有意义的问题。然而从=0的总体抽得样本,计算出的回归系数b很可能不为零,需要对是否等于0进行假设检验t检验,t 检验:,检验过程:,注意:,1.在简单线性回归模型中,对回归模型的方差分析等价于对回归系数的t 检验,即有:,2.对于服从双变量正态分布的同样一组资料,同时作相关分析和回归分析,则相关系数的 t检验与回归系数数的t 检验等价,即有:,(五)总体回归系数的区间估计:,已知b为
15、回归系数的样本估计值,Sb为样本回归系数的标准误, 则总体回归系数的双侧1-置信区间为:,上例题中b=0.1584,Sb=0.0246,v=22,查t 界值表得:t0.05/2,22=2.074;则其总体回归系数的双侧95置信区间为:,b t/2,v Sb,0.1584 2.074 0.0246=(0.1074,0.2095),【电脑实现】 SPSS,线性回归分析:1. 数据录入,2.线性回归分析的步骤:,3. 结果及结果输出:,(六)回归方程的解释: 车流量对NO浓度的影响有多大?,决定系数:回归平方和与总平方和之比。0R21 反映了自变量X对回归效果的贡献,即Y的总变异中回归关系所能解释的
16、百分比(variance account formula,VAF); 反映了回归模型的拟合效果,可作为反应拟合优度(goodness of fit)的指标。,上例题:SS总=0.0812, SS回归=0.0530 R2= SS回归/ SS总=0.0530/0.0812=0.6527=65.27%解释:说明空气中NO浓度总变异的65.27%与车流量有关。,(七)回归方程的统计应用:,定量描述两变量之间的依存关系。 利用回归方程进行统计预测。 利用回归方程进行统计控制。,1. 统计预测:将X值作预报因子,固定总体中X为某定值Xi时, 估计个体Y值的容许区间,即Y值的波动范围。,例:当车流量为130
17、0辆,求空气中一氧化氮95%的容许区间。,答:,已知回归方程,X=1.300时:,故空气中NO的98%容许区间为:,2. 均数置信区间:当X值为某定值,并给定置信度1- ,考察Y的总体均数的分布时,可估计Y的总体均数 YX的1-置信区间。,例:当车流量为1300辆,求空气中一氧化氮95%的置信区间。,答:,已知回归方程,X=1.300时:,故空气中NO的95%置信区间为:,均数的置信区间和个体容许区间的不同:,2. 统计控制: 例: 该城市为降低空气中NO的含量,拟对车流量进行适当的控制,根据空气污染指数分级,要求空气中氮氧化合物含量不超过0.1000.15010-6 。,已知回归方程,答:,
18、故该城市单位时间内车流量应控制在1500辆以内,最多不超过1800辆,否则会导致轻度污染的发生。,简单线性回归分析的注意事项:,1. 要注意实际意义; 2. 绘制散点图观察两变量的关系以及找出异常点; 3. 注意自变量和因变量的变化范围。,小 结,简单线性回归是指只包含一个自变量,且呈线性变化趋势的回归模型,用于描述因变量的总体均数与自变量之间的线性关系,即两变量间的依存变化关系。 简单线性回归的基本步骤:绘制散点图,在最小二乘法原则下建立线性回归方程,即估计回归系数与截距; 对回归方程或回归系数进行假设检验;列出回归方程,绘制回归直线;统计解释及应用。,线性回归模型的适用条件为:线性、独立、
19、正态和等方差,简称LINE。 决定系数反映了回归平方和在总平方和中所占的比例,常用来反映回归的实际效果。 线性回归常用于统计预测和统计控制。 当两变量变化趋势为非线性时,可考虑拟合非线性回归议程,常用的曲线类型包括指数曲线,多项式曲线、双典线和logistic曲线等。 注意线性相关与线性回归的区别与联系。,相关分析是用来描述两变量的相关关系,当两变量满足双变量正态分布时,可以计算Pearson积差相关系数,如果有任何一个变量不满足正态分布或为等级资料,需计算Spearman秩相关系数。 回归分析是用来刻画两变量的依存关系,它要求资料满足LINE(线性、独立、正态和等方差),二者之间既有联系又有
20、区别。,案例讨论,案例10-1:年龄与身高预测研究。某地调查了418岁男孩与女孩身高,数据见下表,试描述男孩与女孩身高与年龄间的关系,并预测10.5岁、16.5岁、19岁与20岁男孩与女孩的身高。,表10-5 男孩身高对年龄的简单线性回归分析结果,采用SPSS对身高与年龄进行回归分析,结果如下表所示。,表12-6 女孩身高对年龄的简单线性回归分析结果,经拟合简单线性回归模型,t 检验结果提示回归方程有非常显著的统计学意义。结果提示,拟合效果非常好,故可认为:(1)男孩与女孩的平均身高随年龄线性递增,年龄每增长1岁,男孩与女孩身高分别平均增加5.27,4.53,男孩生长速度快于女孩的生长速度。(
21、2)依照回归方程预测该地男孩10.5、16.5、19和20岁的平均身高依次为139.12、170.77、183.96和189.23,该地女孩10.5、16.5、19和20岁的平均身高依次为136.04、163.24、174.58和179.11.,针对以上分析结果,请考虑:(1)分析过程是否符合回归分析的基本规范?(2)回归模型能反映数据的变化规律吗?(3)拟合结果和依据回归方程而进行的预测有问题吗?(4)男孩生长速度快于女孩生长速度的推断是否有依据?,案例辨析 :未绘制散点图,盲目进行简单线性回归分析;若实际资料反映两变量之间呈现某种曲线变化趋势,用简单线性回归方程去描述其变化规律就是不妥当的
22、。 正确做法: 分析策略:作散点图,选择曲线类型,合理选择模型,统计预测。,(1)作散点图,由图可见,随着年龄的增加,身高也增加,但呈曲线变化趋势,1516岁后,增加趋势逐渐趋于平缓。因此适合于拟合曲线回归方程。 (2)选择曲线类型,进行统计分析,几种曲线方程拟合结果如下。,结果摘要: (1)模型参数估计 Dependent Variable: 男孩身高,The independent variable is 年龄,(3)选择合理的模型,列出回归方程。 (4)统计预测。,思考题:,1. 应用直线回归和相关分析时应注意哪些问题? 2. 简述线性回归分析与线性相关的区别与联系。 3. 举例说明如何利用回归方程进行统计预测和控制。 4. 回归分析时怎样确定因变量与自变量?,THANK YOU!,