1、简单线性回归,本章内容第一节 简单线性回归第二节 线性回归的应用第三节 残差分析第四节 非线性回归,双变量计量资料:每个个体有两个变量值总体:无限或有限对变量值样本:从总体随机抽取的n对变量值(X1,Y1), (X2,Y2), , (Xn,Yn)目的:研究X和Y的数量关系方法:回归与相关简单、基本直线回归、直线相关,第一节 简单线性回归,英国人类学家 F.Galton首次在自然遗传一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家 Karl Pearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,发现:,历史背景:,儿
2、子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系: 。也即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”,“回归”已成为表示变量之间某种数量依存关系的统计学术语,相关并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。,线性回归的概念及其统计描述,直线回归的概念,目的:研究因变量Y对自变量X的数量依 存关系。 特点:统计关系。 X值和Y的均数的关系,不同于一般数学上的X 和Y的函数关系,为了直
3、观地说明直线回归的概念,以15名健康人凝血酶浓度(X)与凝血时间(Y)数据(表12-1)进行回归分析,得到图12-1所示散点图(scatter plot),在定量描述健康人凝血酶浓度(X)与凝血时间(Y)数据的数量上的依存关系时,将凝血酶浓度称为自变量(independent variable),用 X 表示;凝血时间称为因变量(dependent variable),用 Y 表示,由图12-1可见,凝血时间随凝血酶浓度的增加而减低且呈直线趋势,但并非所有点子恰好全都在一直线上,此与两变量间严格的直线函数关系不同,称为直线回归(linear regression),其方程叫直线回归方程,以区别
4、严格意义的直线方程。回归是回归分析中最基本、最简单的一种,故又称简单回归。,样本线回归方程,为各X处Y的总体均数的估计。,简单线性回归模型,1a 为回归直线在 Y 轴上的截距,a 0,表示直线与纵轴的交点在原点的上方 a 0,则交点在原点的下方 a = 0,则回归直线通过原点,2. b为回归系数,即直线的斜率,b0,直线从左下方走向右上方,Y 随 X 增大而增大;b0,直线从左上方走向右下方,Y 随 X 增大而减小;b=0,表示直线与 X 轴平行,X 与Y 无直线关系,b 的统计学意义是:X 每增加(减)一个单位,Y 平均改变b个单位,回归模型的前提假设,线性回归模型的前提条件是: 线性(li
5、near) 独立(independent) 正态(normal) 等方差(equal variance),残差(residual)或剩余值,即实测值Y与假定回归线上的估计值 的纵向距离 。 求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。,原则:最小二乘法(least sum of squares),即可保证各实测点至直线的纵向距离的平方和最小,回归参数的估计 最小二乘原则,回归参数的估计方法,本例:n=15 X=14.7 X2=14.81 Y=224 XY=216.7 Y2=3368,解题步骤,3、计算有关指标的值 4、计算回归系数和截距 5、列出回归方程,此直线必然
6、通过点( , )且与纵坐标轴相交于截距a 。如果散点图没有从坐标系原点开始,可在自变量实测范围内远端取易于读数的 值代入回归方程得到一个点的坐标,连接此点与点( , )也可绘出回归直线。,绘制回归直线,总体回归系数的的统计推断,样本回归系数b的标准误,回归方程的假设检验,建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有 ?,1方差分析,Y的离均差,总变异,残差,回归的变异,数理统计可证明:,上式用符号表示为,式中,上述三个平方和,各有其相应的自由度 ,并有如下的关系:,如果两变量间总体回归关系确实存在,回归的
7、贡献就要大于随机误差,大到何种程度时可以认为具有统计意义,可计算统计量F:,式中,t 检验,(1)方差分析,方差分析表,(2)t 检验,参数的意义是:若自变量X增加一个单位,反因变量Y的平均值便增加,注意:,总体回归系数 的可信区间,利用上述对回归系数的t检验,可以得到的1双侧可信区间为,本例b=-6.9802, 自由度=13,t0.05,13=2.16,Sb=0.78655, 代入公式(12-7)得参数的95%置信区间为=(-8.6791 -5.2813),第二 节 线性回归的应用(估计和预测),反映其抽样误差大小的标准误为,例12-1中,第一观测值X1=1.1, 0.4994, 0.404
8、, 代入(12.8)式获得第一观测点X1对应的 的标准误为0.1599 Y的总体均数的95%置信区间为 14.0957(2.16)(0.1599)(13.7502,14.4412),实 测 值,实测值,预测 Y的 均值,Y的 均值 的 标准误,Y的均值的 95%置信区间,Y值的 95%预测区间,残差,以上是给定某一X值时所对应的总体均数的置信区间。当同时考虑X的所有可能取值时,总体均数的点估计就是根据样本算得的回归直线 (1-)置信区间的上下限连起来形成一个弧形区带,称为回归直线的(1-)置信带(confidence band)。同样,因为其标准误是X的函数,所以在均数( )点处置信带宽度最小
9、,越远离该均数点,置信带宽度越大。,图12-4中,左图显示位于最小二乘回归线上下两侧的两条弧形虚线为总体回归线的(1-)置信区带。右图的实线表示可能的总体回归线,它们落在弧形虚线所确定的置信带内。 (1-)置信带的意义是:在满足线性回归的假设条件下,可以认为真实的回归直线落在两条弧形曲线所形成的区带内, 置信度为(1-),以第一观测点数据(X1=1.1)点为例,该点预测值的标准差为 =0.52489182 第一数据点的预测区间为: 14.0957(2.16)(0.0.5249)=12.961815.2297 当同时考虑X的所有可能取值时,个体Y值的95%预测区间形成一个带子,称为Y值的95%预
10、测带,它比总体回归线95%置信带更宽。 图12-5和图12-6同时显示个体Y值的预测带与总体回归线的置信带,可见,在相同信度下,个体值预测带的曲线要比回归线置信带的曲线离回归直线更远。,PI,CI,决定系数(coefficient of determination),定义为回归平方和与总平方和之比,计算公式为:,取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。,第三节 残差分析,残差(residual)是指观测值Yi与回归模型拟合值之差 残差分析(residual analysis)旨在通过残差深入了解数据与模型之间的关系,评价实际资
11、料是否符合回归模型假设,识别异常点等。 例如,第一数据点的残差e1=14-14.0957=-0.0957,如此类推,计算出各数据点的残差值示于表12-2的第10列中。将第10列的残差减去其均数,除以其标准差,便得标准化残差。,若以反因变量取值Yi为横坐标,以标准化残差为纵坐标,构成的散点图如图12-7所示。类似地,也可以自变量取值Xi为横坐标, 以标准化残差为纵坐标,构成的散点图。这类散点图统称为标准化残差图。,图12-8给出的是以自变量取值为纵坐标,以残差为横坐标的残差图的常见类型。其中,图(e)显示残差呈随机分布;图(a)、(b ) 和(f)表示残差不满足方差齐性条件;图(c)显示存在非线
12、性关系;图(d)显示有的点处于2倍标准差以外,可能是异常点。,第四节 非线性回归,非线性回归要比线性回归更能充分地表达变量间的关系。当今线性回归之所以比非线性回归应用甚多,原因在于无论从数学理论还是计算方法,线性回归都比非线性回归模型简单得多。,通过自变量的变换实现线性化 实践中有两类非线性关系,一类是通过自变量X的适当变换可线性化的,另一类是不可能通过自变量X的变换实现线性化的,X数据变换,不能线性化的关系,变换自变量实现线性回归步骤,1.将观测数据(Xi, Yi), i=1,2,n作散点图,观察散点分布特征类似于何种函数类型; 2.按照所选定的函数进行相应的变量变换; 3.对变换后的数据用
13、常规最小二乘法(OLS)作线性模型的参数估计。 4.一般拟合多个相近的模型,然后通过对各个模型的拟合优度评价挑选较为合适的模型。,例12-2 为了研究某药物浓度与肾上腺素释放的量关系,选取10个给药物浓度水平,每种药物剂量水平上重复5次试验,观测结果如表12-3所示。欲用合适的回归模型描述该药品剂量与反应的规律,由结果可见:在所拟合的三种模型中,以x对数函数回归的效果最佳,该模型拟合的残差均方最小,决定系数最大,值得一提的是,本节只涉及对自变量X进行变换,然后以变换后的数据用标准最小二乘(OLS)法求解模型的参数估计与模型评价。当涉及到对反因变量y实施非线性变换 如Z=ln(Y) 时,因为OL
14、S只保证变换后的Z,即ln(Y)的残差平方和最小,并不能保证原变量Y的残差平方和也最小,所以在此情况下,我们建议用统计软件来完成非线性拟合,例如,用SAS系统中的PROC NLIN 程序产生非线性模型参数的最小二乘估计。,直线回归应用的注意事项,直线回归用于定量刻画因变量Y对自变量X在数值上的依存关系,其中因变量的定夺主要依专业要求而定,可以考虑把易于精确测量的变量作为X,另一个随机变量作Y,例如用身高估计体表面积。两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归分析。,1根据分析目的选择变量及统计方法,2进行回归分析前应绘制散点图,(1) 散点图可考察两变量是否有直线趋势
15、; (2) 可发现异常点(outlier)。,散点图对异常点的识别与处理需要从专业知识和现有数据两方面来考虑,结果可能是现有回归模型的假设错误需要改变模型形式,也可能是抽样误差造成的一次偶然结果甚至过失误差。需要认真核对原始数据并检查其产生过程认定是过失误差,或者通过重复测定确定是抽样误差造成的偶然结果,才可以谨慎地剔除或采用其它估计方法。,3资料的要求,直线回归要求至少对于每个 X 相应的 Y 要服从正态分布,X可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量;* 对于双变量正态分布资料,根据研究目的可选择由 X 估计 Y 或者由 Y 估计 X ,一般情况下两个回归方程不相同)。,反应两变量关系密切程度或数量上影响大小的统计量应该是回归系数的绝对值,而不是假设检验的P值。P值越小只能说越有理由认为变量间的直线关系存在,而不能说关系越密切或越“显著”。另外,直线回归用于预测时,其适用范围一般不应超出样本中自变量的取值范围。,4结果解释及正确应用,