1、第二章 简单线性回归 模型,第一节 回归分析与回归函数 第二节 简单线性回归模型参数的估计 第三节 拟合优度的度量 第四节 回归系数的区间估计和假设检验 第五节 回归模型的预测 第六节 案例分析,第一节 回归分析与回归函数,一、相关分析 (一)公式 总体相关系数:样本相关系数:,(二)性质 相关系数的特点:介于【-1,1】之间如果相关系数等于1,表明变量之间存在完全正相关;如果等于-1,表明变量之间存在完全负相关;如果等于0,表明变量之间不存在线性相关关系;如果相关系数在(-1,0)或(0,1)之间,表明变量存在一定的相关关系, (样本)相关系数绝对值越接近1,表明变量之间线性相关程度越高。
2、(三)检验 原假设 备择假设 当样本n大于等于10时,可构造检验统计量:检验准则: 当 时,拒绝原假设,认为变量之间具有显著的相关关系。,例:收入、消费相关系数,(四)相关分析存在的缺点 不能反映变量之间的因果关系; 只能反映变量之间的线性相关关系; 只能研究两个变量之间的相关关系; 不能研究某个变量的变化对其他变量的影响程度。 例如:,二、回归分析 (一)产生渊源“回归”这个词最早由高尔顿在遗传学研究中提出来。高尔顿是达尔文的表弟,是一名英格兰 维多利亚时代的文艺复兴人、人类学家、 优生学家、热带探险家、地理学家、发明家、 气象学家、统计学家、心理学家和遗传学家。在统计学方面,高尔顿提出了“
3、回归”和 “相关”的概念。,19世纪80年代,高尔顿就开始思考父代和子代相似,如身高、性格等。他选择了父母平均身高X与其一子身高Y的关系作为研究对象。他观察了1074对父母及每对父母的一个儿子,将结果描成散点图,发现趋势近乎一条直线。 高尔顿发现这1074对父母平均身高的平均值为68 英寸(英国计量单位,1 英寸=2.54cm)时,1074个儿子的平均身高为69 英寸,比父母平均身高大1 英寸 。于是他推想,当父母平均身高为64 英寸时,1074个儿子的平均身高应为64+1=65 英寸;若父母的身高为72 英寸时,他们儿子的平均身高应为72=1=73 英寸,但观察结果确与此不符。高尔顿发现前一
4、种情况是儿子的平均身高为67 英寸,高于父母平均值达3 英寸,后者儿子的平均身高为71英寸,比父母的平均身高低1 英寸。 高尔顿对此研究后得出的解释是自然界有一种约束力,它让身高有一种“回归”到中心的作用。由于这个性质,高尔顿就把“回归”这个词引进到问题的讨论中,这就是“回归”名称的由来,逐渐被后人沿用成习。,(二)回归分析的现代释义 回归分析:分析一个叫做应变量的变量对另一个或多个叫做自变量的变量的依赖关系,其用意在于通过后者的已知或设定值去估计和预测前者的均值。 二、总体回归函数对于经典线性回归来说:事实上,总体回归函数的具体形式,只能根据经济理论对所研究问题的深刻认识及实践经验去设定。,
5、三、随机扰动项 对于个别点,多是围绕回归线上下波动。随机扰动项表示未个别点Yi 与条件期望 的偏差,表示如下:对于线性回归函数:随机扰动项存在的原因: 作为未知影响因素的代表 作为无法取得数据的已知因素的代表 作为众多细小影响因素的代表 垃圾箱 模型的设定误差 变量的观测误差 经济现象的内在随机性,例:假定100个家庭构成一个总体,支出的条件均值和收入呈线线关系,个别点会偏离总体回归函数。,四、样本回归函数 通常由于总体包含的单位数很多,总体回归函数实际上是未知的。 通过样本,找一条线(样本回归线),去推断总体回归线。残差:样本点Yi 与 的差,表示如下:例:从上述总体中抽取10个样本,过样本
6、点的线有无数条,第二节 简单线性回归模型参数的估计,一、普通最小二乘法原理:经过样本点的线有很多,但最好的方法是找一条直线,使得这些点到直线上相应个点的垂直坐标距离之和为最小。即:等价于: 可见, 有具体观测值; 为待求参数。可采用微积分中求极值的办法:,如果令: 则有:例:用最小二乘法估计2008年31个省直辖市的城镇居民人均可支配收入X和人均消费支出的样本回归函数,二、最小二乘回归线的性质 残差和为0求导的第一个式子: Y的观测值与拟合值有共同的均值残差与解释变量X不相关,残差与拟合值不相关思考: 用最小二乘法求出回归模型 参数的估计值;并思考样本回归线是否满足上述性质?,如果目的仅仅是估
7、计参数,运用最小二乘法就足够了。但是还需考虑以下问题: 1、方程是否有理论支撑?理论分析 2、样本回归函数拟合数据的程度怎样? R2 3、参数估计值有多可靠?如何根据估计值去推断总体参数?区间估计、假设检验 对于第三点,除非我们知道 的统计性质,否则将无法对总体参数 作出任何统计推断。 因此,要知道 的性质,只需明确 是怎样产生的。,三、简单线性回归的基本假定 0均值 同方差 无自相关 随机扰动项和解释变量不相关 扰动项服从正态分布 以上称为高斯假定或古典假定 解释变量X为非随机变量 X的样本值要有变异性,为何假定正态分布: 1、扰动项代表模型中未明显引进的许多变量的总影响,有中心极限定理知,
8、大量独立的(不是严格独立的也可以)且分布相同的随机变量的总和趋于正态分布。 2、假设成正态分布用起来比较简单。,C.F. Gauss是 德国著名数学家、物理学家、天文学家、大地测量学家。他有数学王子的美誉,并被誉为历史上伟大的数学家之一,和阿基米德、牛顿、欧拉同享盛名。,三、最小二乘估计式的统计性质 以 为例:,同法:,性质1:线性,性质2:无偏性 概念:如果参数的估计式的期望等于参数的真实值,则称该估计式为参数的无偏估计式。,性质2:有效性 概念:对于参数 的任意一个无偏估计 ,都有 ,则称 为参数 的最小方差估计。 证明: 假定另一个无偏估计量:,分别是 的最佳线性无偏估计(BLUE) BEST LINEAR UNBIASED ESTIMATOR,