1、线性回归分析,公共卫生学院,一. 前言,回归分析的目的:设法找出变量间的依存(数量)关系, 用函数关系式表达出来,二、基本概念,1、应变量(dependent variable) 2、自变量(independent variable) 3、一元线性回归直线回归方程的模型是:yi=a+bxi+ei 其中 ()a是截距 ()b是回归系数(regression coefficient)(回归直线的斜率) 回归系数的统计学意义是:自变量每变化一个单位,应变量平均变化的单位数 ()ei是残差,因此直线回归方程的一般形式是:其中 是应变量y的预测值或称估计值。,4、多元线性回归多元线性回归方程模型为:yi
2、=b0+b1x1i+b2x2i+bnxni+ei 其中 b0是常数项,是各自变量都等于0时,应变量的估计值。有时,人们称它为本底值。 b1,b2,bn是偏回归系数( pertial regression coefficient ),其统计学意义是在其它所有自变量不变的情况下,某一自变量每变化一个单位,应变量平均变化的单位数。如果所有参加分析的变量都是标准化的变量,这时b0就等于0, b1,b2,bn 就变成了标准化偏回归系数,用符号b1,b2,bn表示。bi= bi*sxi/sy由于bi没有量纲,因此可以相互比较大小,反映自变量的相对作用大小。(3) ei是残差,多元线性回归方程的一般形式是:
3、其中的符号含义同前。,三、理论假设,自变量x与应变量y之间存在线性关系; 正态性:随机误差(即残差)e服从均值为 0,方差为的正态分布; 等方差:对于所有的自变量x,残差e的条件方差为 ,且为常数; 独立性:在给定自变量x的条件下,残差e的条件期望值为0(本假设又称零均值假设); 无自相关性:各随机误差项e互不相关;,残差e与自变量x不相关:随机误差项e与相应的自变量x不相关; 无共线性:自变量x之间相互独立,四、回归方程的建立,散点图 奇异点(ouliers) 最小二乘法(least square, LS) 残差平方和(sum of squares for residuals),一元线性回归
4、时,计算比较简单:多元线性回归时,比较复杂,一般需要用计算机处理。,五、线性回归的检验,、回归方程的检验方差分析法: 应变量的总变异可分解为 回归平方和(regression sum of squares):可用线性回归解释的部分,剩余平方和(residual sum of squares):即残差平方和,不能用线性回归解释的部分以上三部分的自由度分别为n-1,m和n-m-1。其 中,n为样本数,m为自变量数。 方差分析的假设为 一元线性回归:H0: =0 H1: 0 多元线性回归: H0: 1= 2= m=0 H1: 1, 2, m中至少有一个不等于零 因此方差分析的结论是线性回归方程是否显
5、著,是否有意义。,、回归偏回归系数的检验检验回归系数是否为零,每一个偏回归系数是否为零。用t检验方法。统计量自由度结论:回归偏回归系数是否有意义,是否为零;对应的自变量是否有意义。,、常数项(截距)的检验检验常数项(截距)是否为零。 用t检验方法。一元线性回归: H0: =0 H1: 0,多元线性回归: H0: 0=0 H1: 00,、模型的预测效果检验亦称回归模型的拟合优度检验。检验回归模型对样本数据的拟合程度。 决定系数(determination coefficient)( R square)调整(校正)决定系数(adjusted R square)复相关系数R (multiple co
6、rrelation coefficient),、线性回归适用性检验 ()回归模型残差的正态性检验 残差的直方图 残差的累积概率图(P-P图)()回归模型残差的独立性检验 用Durbin-Watson检验,其参数称为Dw或D。D的取值范围是02,残差与自变量负相关。,()残差的方差齐性检验以上都是对残差的分析,称为残差分析。残差分析还可以)检出奇异点)评判预测效果。 ()共线性诊断 共线性(collinearity) 共线性的危害 共线性的鉴别 容差(tolerance) 方差膨胀因子(variance inflation factor),六、自变量的选择,强迫引入法(Enter) 强迫剔除法(Remove) 前进法(Forward) 后退法(Backward) 逐步向前法(Forward stepwise) 逐步向后法(Backward stepwise),七、线性回归的应用,预测 控制 鉴别影响因素,八、线性回归分析实例,九、线性回归分析的注意事项,应用条件 样本量 自变量的观察范围 分类等级变量,谢谢!,