1、第5章 回归分析,回归分析是数理统计学科的一个重要分支。它是处理变量之间相关关系的一种数学方法。 回归分析主要分为线性回归分析和非线性回归分析。,本节主要内容,线性回归模型的基本概念 最小二乘法 最小二乘估计量的性质 回归方程的显著性检验,5.1 问题的提出,自然界和人类社会中的数量关系,可以分为两种类型:,(函数关系),(统计关系),非确定性关系,确定性关系,回归分析的基本概念,1.确定性关系,即对两个变量X,Y来说,当X值 确定后,Y值按照一定的规律唯一确定, 即形成一种精确的关系。,例如:微积分学中所研究的一般变量之间的 函数关系就属于此种类型。,2.非确定性关系,即当X值确定后,Y值不
2、是唯一确定的, 但大量统计资料表明,这些变量之间还 是存在着某种客观的联系。,例如:图9.1在直角坐标平面上,标出了10 个观测点的坐标位置,他们表示以家庭为单 位,某种商品年需求量与该商品价格之间 的10对调查数据。,回归分析(Regression Analysis),就是应用统计方法,对大量的观测数据进行整 理、分析和研究,从而得出反映事物内部规律 性的一些结论。,5.2 简单线性回归模型,5.2.1 线性模型设 是因变量, 是自变量,且 与r个自变量相关。 如果则称 符合线性模型。,如果模型关于参数是非线性的,有些情形可以通过适当的变换化为线性模型。如而有些模型不能通过变换化为线性模型。
3、如,5.2.2 简单线性回归模型,一般地,简单线性回归模型表示为且和 是待估计的未知参数,称为回归系数。,对于n组观察值( , )(i=1,2,n) 即 i=1,2,n 为了对线性回归模型进行统计分析和条件推断,所以对模型的基本假设为 (1) (2) (3) 相互独立,由此得ij (4) 服从正态分布,5.2.3 最小二乘法,最小二乘法,Y与X之间 为线性关系,选出一条最能反 映Y与X之间关系 规律的直线,一元线性回归方程,Yi=0+1Xi+i 0和1均未知,根据样本数据 对0和1 进行估计,0和1的估计 值为 和,建立一元线性回归方程,一般而言,所求的 和 应能使每个样本观测点(X i,Y
4、i) 与回归直线之间的偏差尽可能小,即使观察值与拟 合值的误差平方和Q达到最小。,回归方程原理图,一元线性回归方程,令,Q达到最小值0和1称为最小二乘估计量,微积分中极值 的必要条件,令偏导数为0,解方程,正规方程组,称 和 分别是 和 的最小二乘估计量。简记为LSE,称通过最小二乘法得到的直线方程为简单线性回归方程,且 是 的最小二乘估计量。当 时,则 由此可见,回归方程所对应的直线通过数据重心( , ),建立一元线性回归方程的具体步骤:,例5-3 总结,(3)计算 和 ,写出一元线性回归方程。,2.浅谈直线回归方程的精度问题 2.1总平方和分解,总平方和分解,2.1总平方和分解,总平方和
5、分解图,2.1 总平方和分解,总离差平方和,它表示没有X的影响, 单纯考察数据中y的变动情况。,2.1总平方和分解,回归平方和,表示各 的变动程度,该变动是由于回归直线 中各xi 的变动所引起的,并且通过x对y 的线性影响表现出来。,2.1总平方和分解,误差平方和,表示各yi围绕所拟合的回归直线的变动程度,2.1 总平方和分解,2.2 自由度的分解,自由度 T为n-1,0和1用了 两个正规方程,自由度 E为n-2,自由度 R为1,2.2 自由度的分解,自由度的分解可以表示为,n-1=1+(n-2),T=R+E,5.2.4最小二乘估计量的统计性质,和 是随机变量 的线性组合 证明:因为令则其中系
6、数 尽取决于 ,所以 是常数。由此可见, 是 的线性组合。,又由于 ,令则,所以, 是 的线性组合。的性质,注,2. 和 分别是 和 的无偏估计,证明,即最小二乘估计量 是 的无偏估计量。,同理,即最小二乘估计量 是 的无偏估计量,那么以上结论知,这表明 是 的无偏估计量。,3. 和 的方差(最小方差性),4.auss-Markov定理,设 是相互独立的随机变量,其中 是 的最小二乘估计量,则 的所有 的线性无偏估计量中, 方差最小。,4.Gauss-Markov定理,Gauss-Markov定理证明思路,证毕,5.2.5 的无偏估计量,正规方程组,所以,由此可见, 是 的无偏估计量。通常称
7、为剩余方差。,5.2.6 估计量的分布,线性回归模型的4项基本条件:,由于 和 都是 的线性组合,所以 和 都服从正态分布,相互独立,如果基本假设1-4成立,则 服从正态分布 , 服从正态分布 。,定理 5.1,定理 5.2,如果基本假设1-4成立,则 服从自由度为n-2的 分布,且 与 独立。其中 剩余方差,5.3.1 F 检验(方差分析)法,在一元线性回归中,为了检验Y对于X线性 关系的统计显著性,对1进行F检验,1)提出假设:H0:1=0,H1:10。,2) 构造并计算统计量:,3)查F分布临界值表,得临界值,4)比较: 接受H0,认为Y与 X不存在一元线性关系。,5.3 简单线性回归模型的显著性检验,1.F 检验,若F,拒绝H0,认为Y与X存在一元线性关系。,方差分析表,2.t 检验,1)提出假设,H0: H1:,2)构造并计算统计量,步 骤:,3)查t分布临界值表,得临界值,t 检验,4)比较,若 ,接受H0,若 ,拒绝H0,5.3.2相关系数检验法,步 骤:,1)提出假设,H0:R =0 H1:R,2)计算简单相关系数R,3)查相关系数临界值表,得临界值,R是总体Y与X的线性相关系数,4)比较,若 ,接受H0,若 ,拒绝H0,THINK YOU!,