1、第 二 章简单线性回归模型,引例:居民收入与消费有何种关系?,西方经济学理论代表福利经济学家凯恩斯(Keyness)认为: 随着收入的增加,消费也会增加。收入直接制约着消费,而收入分配的严重不均,不仅会使社会中产生不安因素,而且还大大影响消费需求的提高。居民收入与消费相关密切程度如何? 居民收入和消费有着何种数量关系? 怎样根据收入的变动来估计消费的变动?,显然,对居民消费起决定性影响作用的有“居民的可支配收入”,“对未来收入的预期”以及“物价水平”等因素。 为了不使问题复杂化, 我们先对最简单的单一变量间数量关系加以讨论 “居民消费”(Y)与“居民可支配收入”(X) 有怎样的数量关系呢? 能
2、否用某种线性或非线性关系式 Y= f ( X ) 去表现这种数量关系呢? 具体该怎样去表现呢?,需要研究经济变量之间数量关系的方法,为什么先讨论简单线性回归模型呢?,在计量经济模型中,只有两个变量且为线性的回归模型最简单,称为简单线性回归模型。简单线性回归的原理可以直接用代数式去表述,较为直观,更容易理解和接受。 先讨论 简单线性回归模型,然后很容易拓展到多元的情况。 本章主要讨论的问题 : 回归分析的基本概念 线性回归模型参数的估计 参数的区间估计和假设检验 回归方程的拟合优度 回归模型预测,第一节 回归分析与回归函数一、相关分析与回归分析 1、经济变量之间的相互关系 性质上可能有三种情况:
3、确定性的函数关系 Y=f (X) 可用数学方法计算例如: 个人收入与所得税之间的关系,经济变量之间的相互关系,不确定的统计关系相关关系Y= f(X,) (为随机变量) 可用统计方法分析例如:收入与消费之间的关系,没有关系 不用分析 例如: 收入与天气的关系,2、相关关系, 相关关系的描述最直观的描述方式坐标图(散布图、散点图),函数关系(线性),相关关系(线性),没有关系,相关关系(非线性),相关关系的类型, 从涉及的变量数量看简单相关多重相关(复相关) 从变量相关关系的表现形式看线性相关散布图接近一条直线非线性相关散布图接近一条曲线 从变量相关关系变化的方向看正相关变量同方向变化,同增同减负
4、相关变量反方向变化,一增一减不相关,3、相关程度的度量相关系数,如果 和 总体的全部数据都已知, 和 的方差和 协方差也已知,则X和Y的总体线性相关系数:其中: -X 的方差 -Y的方差-X和Y的协方差 如果只知道 和 的样本观测值,则X和Y的样本线性相关系数:其中: 和 分别是变量X和Y的样本观测值,和 分别是变量 X 和Y 样本值的平均值。,特点: 线性相关系数(包括总体和样本相关系数)只反映变量间的线性相关程度,不能说明非线性相关关系。 X和Y 都是相互对称的随机变量, , 注意: 对于特定的总体来说, 和 的分布是既定的,总体相关系数 是客观存在的特定数值。 总体的两个变量 和 的全部
5、数值通常不可能直接观测,所以总体相关系数一般是未知的。 样本相关系数 是随抽样而变动的随机变量,是总体相关系数的样本估计值。,对相关系数的正确理解和使用,只是相关分析还不能达到经济计量分析的目的,相关分析的局限:相关系数只能反映变量间的线性相关程度,不能确定变量间的因果关系相关系数只能说明两个变量线性相关的方向和程度,不能说明相关关系具体接近哪条直线,也就不能说明一个变量的变动会导致另一个变量变动的具体数量规律。 计量经济学关心的问题:是经济变量间的因果关系以及隐藏在随机性后面的具体统计规律性在这方面回归分析方法可以发挥更为重要的作用。,4、回归分析,回归的古典意义:高尔顿遗传学的回归概念(
6、父母身高与子女身高的关系) 子女的身高有向人的平均身高“回归“的趋势 回归的现代意义: 一个被解释变量对若干个 解释变量依存关系的研究 回归的目的(实质): 由固定的解释变量去估计 被解释变量的平均值,注意明确几个概念(为深刻理解“回归”)被解释变量Y的条件分布和条件概率:当解释变量X取某固定值时(条件),Y的值不确定,Y的不同取值会形成一定的分布,这是Y的条件分布。 X取某固定值时,Y取不同值的概率称为条件概率。被解释变量Y的条件期望:对于X 的每一个取值, 对Y所形成的分布确定其期望或均值,称为Y的条件期望或条件均值,用 表示。 注意:Y的条件期望是随X的变动而变动的,Y,X,回归线:对于
7、每一个X的取值 ,都有Y的条件期望与之对应,代表Y的条件期望的点的轨迹形成的直线或曲线称为回归线。 回归函数:被解释变量Y 的条件期望 随 解释变量X的变化而有规律 的变化,如果把Y的条件期 望表现为 X 的某种函数 , 这个函数称为回归函数。 回归函数分为:总体回归函数和样本回归函数,X,Y,举例: 假如已知由100个家庭构成的总体的数据 (单位:元),二、总体回归函数(PRF),16,家庭消费支出的条件期望与家庭收入的关系的图形:,对于本例的总体,家庭消费支出的条件期望 与家庭收入 基本是线性关系, 可以把家庭消费 支出的条件均值表示为家庭收入的线性函数:,17,1. 总体回归函数的概念
8、前提:假如已知所研究的经济现象的总体的被解释变量Y 和解释变量X的每个观测值(通常这是不可能的!),那 么,可以计算出总体被解释变量Y的条件期望 , 并将其表现为解释变量X的某种函数 这个函数称为总体回归函数(PRF)本质: 总体回归函数实际上表现的是特定总体中被解释变 量随解释变量的变动而变动的某种规律性。 计量经济学的根本目的是要探寻变量间数量关系的规律,也 就是要去寻求总体回归函数。,18,条件期望表现形式 例如Y的条件期望 是解释变量X的线性函数,可表示为:个别值表现形式(随机设定形式)对于一定的 ,Y的各个别值 并不一定等于条件期望,而 是分布在 的周围,若令各个 与条件期望 的 偏
9、差为 ,显然 是个随机变量则有,2.总体回归函数的表现形式,PRF,3.如何理解总体回归函数,作为总体运行的客观规律,总体回归函数是客观存在 的,但在实际的经济研究中总体回归函数通常是未知的, 只能根据经济理论和实践经验去设定。 计量经济学研究中“计量”的根本目的就是要寻求总体 回归函数。 我们所设定的计量模型实际就是在设定总体回归函 数的具体形式。 总体回归函数中 Y 与 X 的关系可以是线性的,也可以 是非线性的。,19,20,计量经济学中,线性回归模型的“线性” 有两种解释:就变量而言是线性的Y的条件期望(均值)是X的线性函数就参数而言是线性的Y的条件期望(均值)是参数的线性函数 例如:
10、 对变量、参数均为“线性” 对参数“线性”,对变量”非线性”对变量“线性”,对参数”非线性”注意:在计量经济学中,线性回归模型主要指就参数而言是“线性”的,因为只要对参数而言是线性的,都可以用类似的方法去估计其参数,都可以归于线性回归。,“线性”的判断,三、随机扰动项u,概念在总体回归函数中,各个 的值与其条件期望的偏差 有很重 要的意义。若只有 影响Y,与 不应有偏差。 若偏差 存在,说明还有其他影响因素,实际代表了排除在模型以外的所有因素对 Y 的影响。 性质 是其期望为 0 有一定分布的随机变量 重要性:随机扰动项的性质决定着计量经济分析结果的性质和计量经济方法的选择,21,引入随机扰动
11、项 的原因, 是未知影响因素的代表(理论的模糊性) 是无法取得数据的已知影响因素的代表(数据欠缺) 是众多细小影响因素的综合代表(非系统性影响) 模型可能存在设定误差(变量、函数形式的设定) 归并误差(不同种类粮食不合理的归并为“粮食产量”) 模型中变量可能存在观测误差(变量数据不符合实际) 变量可能有内在随机性(人类经济行为的内在随机性),22,四、样本回归函数(SRF),样本回归线:对于X的一定值,取得Y 的样本观测值,可计算其条件均值,样本观测值条件均值的轨迹,称为样本回归线。 样本回归函数: 如果把被解释变量Y的样本条件 均值 表示为解释变量X的某种 函数,这个函数称为样本回归函 数(
12、SRF)。,23,X,Y,SRF,24,样本回归函数如果为线性函数,可表示为其中: 是与 相对应的 Y 的样本条件均值和 分别是样本回归函数的参数个别值(实际值)形式:被解释变量Y的实际观测值 不完全等于样本条件均值 ,二者之差用 表示, 称为剩余项或残差项: 则 或,样本回归函数的函数形式,条件均值形式:,对样本回归的理解,如果能够通过某种方式获得 和 的数值,显然: 和 是对总体回归函数参数 和 的估计 是对总体条件期望 的估计 在概念上类似总体回归函数中的 ,可视为对 的估计。,25,对比: 总体回归函数 样本回归函数,样本回归函数的特点,样本回归线随抽样波动而变化: 每次抽样都能获得一
13、个样本,就可以拟合一条样本回归 线,(SRF不唯一) Y SRF1SRF2 样本回归函数的函数形式 应与设定的总体回归函数的 函数形式一致。 X 样本回归线只是样本条件均值的轨迹,还不是总体回归线,它至多只是未知的总体回归线的近似表现。,26,样本回归函数与总体回归函数的关系,SRFPRFAX,27,28,目的:计量经济分析的目标是寻求总体回归函数。即用样本回归函数SRF去估计总体回归函数PRF。由于样本对总体总是存在代表性误差,SRF 总会 过高或过低估计PRF。 要解决的问题:寻求一种规则和方法,使其得到的SRF的参数 和 尽可能“接近”总体回归函数中的参数 和 的真实值。这样的“规则和方
14、法”有多种,如矩估计、极大似然估计、最小二乘估计等。其中最常用的是最小二乘法。,回归分析的目的,第二节 简单线性回归模型的最小二乘估计,用样本去估计总体回归函数,总要使用特定的方法,而任 何估计参数的方法都需要有一定的前提条件假定条件一、简单线性回归的基本假定为什么要作基本假定?只有具备一定的假定条件,所作出的估计才具有良好的统计性质。因为模型中有随机扰动项,估计的参数是随机变量,显然参数估计值的分布与扰动项的分布有关,只有对随机扰动的分布作出假定,才能比较方便地确定所估计参数的分布性质,也才可能进行假设检验和区间估计等统计推断。 假定分为:对模型和变量的假定对随机扰动项的假定,29,1.对模
15、型和变量的假定,如对于 假定模型设定是正确的(变量和模型无设定误差) 假定解释变量X在重复抽样中取固定值。 假定解释变量X是非随机的,或者虽然X是随机的,但与扰动项u是不相关的。(从变量X角度看) 注意: 解释变量非随机在自然科学的实验研究中容易 满足,经济领域变量的观测是被动不可控的,X非随机 的假定不容易满足。,30,2.对随机扰动项u的假定,假定1:零均值假定: 在给定X的条件下, 的条件期望为零假定2:同方差假定: 在给定X的条件下, 的条件方差为某个常数,31,32,假定3:无自相关假定: 随机扰动项 的逐次值互不相关 假定4:解释变量 是非随机的,或者虽然 是随 机的但与扰动项 不
16、相关(从随机扰动 角度看),33,假定5:对随机扰动项分布的正态性假定,即假定 服从均值为零、方差为 的正态分布 (说明:正态性假定不影响对参数的点估计,所以有时不列入基本假定,但这对确定所估计参数的分布性质是需要的。且根据中心极限定理,当样本容量趋于无穷大时, 的分布会趋近于正态分布。所以正态性假定有合理性) 注意: 并不是参数估计的每一具体步骤都要用到所有的假定,但对全部假定有完整的认识,对学习计量经济学的原理是有益的。,在对 的基本假定下 Y 的分布性质,由于 其中的 和 是非随机的,因此的分布性质决定了 的分布性质。对 的一些假定可以等价地表示为对 的假定:假定1:零均值假定 假定2:
17、同方差假定假定3:无自相关假定 假定5:正态性假定,34,二、普通最小二乘法(OLS) (rdinary Least Squares),1. OLS的基本思想:对于 不同的估计方法可以得到不同的样本回归参数 和 ,所估计的 也就不同。理想的估计方法应使估计的 与真实的 的差(即剩余 )总的来说越小越好因 可正可负,总有 ,所以可以取 最 小,即在观测值Y和X确定时, 的大小决定于 和 。,35,2. 正规方程和估计式,用克莱姆法则求解得以观测值表现的OLS估计式:,36,取偏导数并令其为0,可得正规方程,或整理得,即,37,为表达得更简洁,或者用离差形式OLS估计式:容易证明由正规方程:注意:
18、其中:本课程中大写的 和 均表示观测值;小写的 和 均表示观测值的离差而且由 样本回归函数可用离差形式写为,用离差表现的OLS估计式,3. OLS回归线的数学性质 可以证明:(见教材P33P34证明) (证明过程用到OLS正规方程的结论,但与基本假定无关),回归线通过样本均值估计值 的均值等于实际观测值 的均值剩余项 的均值为零,38,(由OLS第一个正规方程直接得到),(由OLS正规方程 两边同除n得到),被解释变量估计值 与剩余项 不相关,解释变量 与剩余项 不相关,由OLS正规方程有:,(注意:红色的项为0),4. OLS估计式的统计性质,回顾第1章:参数估计式的优劣需要有评价的标准 参
19、数无法通过观测直接确定,只能通过样本估计,但因 存在抽样波动,参数估计值不一定等于总体参数的真实值。 参数估计方法及所确定的估计式不一定完备,不一定 能得到总体参数的真实值,需要对估计方法作评价与选择。 比较不同估计方法的估计结果时,需要有一定的评价标准 基本要求:参数估计值应尽可能地接近总体参数的真实值 估计准则:“尽可能地接近” 原则 决定于参数估计式的统计性质:无偏性、有效性、一致性等。,40,41,(1) 无偏性,前提:重复抽样中估计方法固定、样本数不变、经 重复抽样的观测值,可得一系列参数估计值 , 的分布称为 的抽样分布,其密度函数记为 如果 称 是参数的无偏估计式,否则 则称 是
20、有偏的估计,其偏倚为(见图2),42,概率密度估计值偏倚,图2,43,(2)有效性,前提:样本相同、用不同的方法估计参数,可以找到若干个不同的无偏估计式目标: 努力寻求其抽样分布具有最小方差的估计式(见图3)既是无偏的同时又具有最小方差特性的估计式,称为最佳(有效)估计式。,44,概率密度,图 3,估计值,(3)渐近性质(大样本性质),思想:当样本容量较小时,有时很难找到方差最小的无偏估计, 需要考虑样本扩大后的性质(估计方法不变,样本数逐步增大) 一致性:当样本容量 n 趋于无穷大时,如果估计式 依概率收敛于总体参数的真实值,就称这个估计式 是 的一致估计式。即 或 (渐近无偏估计式是当样本
21、容量变得足够大时其偏倚趋于零的 估计式) (见图4) 渐近有效性:当样本容量 n 趋于无穷大时,在所有的一致估计 式中,具有最小的渐近方差。,45,46,概率密度估计值,图 4,4.分析OLS估计式的统计性质,先明确几点: 由OLS估计式可以看出都由可观测的样本值 和 唯一表示。 因存在抽样波动,OLS估计 是随机变量 OLS估计式是点估计式,47,OLS估计是否符合“尽可能地接近总体参数真实值”的要求呢?,1、 线性特征 是Y的线性函数,2、 无偏特性可以证明 (证明见教材P37),48,OLS估计式的统计性质高斯定理,3、 最小方差特性 (证明见教材P68附录21) 可以证明:在所有的线性
22、无偏估计中,OLS估计 具有最小方差 (注意:无偏性和最小方差性的证明中用到了基本假定1-假定4) 结论(高斯定理):在古典假定条件下,OLS估计式是最佳线性无偏估计式(BLUE),49,第三节 拟合优度的度量,概念: 样本回归线是对样本数据的 一种拟合。 不同的模型(不同函数形式) 可拟合出不同的回归线 相同的模型用不同方法估计 参数,可以拟合出不同的回归线 拟合的回归线与样本观测值总是有偏离。样本回归 线对样本观测数据拟合的优劣程度称为拟合优度 如何度量拟合优度呢? 拟合优度的度量建立在对 Y 的总变差分解的基础上,50,一、总变差的分解,分析Y的观测值 、估计值 与平均值 有以下关系将上
23、式两边平方加总,可证得(提示:交叉项 )(TSS) (ESS) (RSS)或者表示为总变差 (TSS):被解释变量Y的观测值与其平均值的离差平方和(总平方和)(说明 Y 的变动程度)解释了的变差 (ESS):被解释变量Y的估计值与其平均值的离差平方和(回归平方和)剩余平方和 (RSS):被解释变量观测值与估计值之差的平方和(未解释的平方和),51,Y X,52,变差分解的图示(以某一个观测值为例),二、可决系数,以TSS同除总变差等式两边:或定义:回归平方和(解释了的变差ESS) 在总变差(TSS) 中所占的比重称为可决系数,用 或表示:,53,或,可决系数的作用,可决系数越大,说明在总变差中
24、由模型作出了解释的部分占的比重越大,模型拟合优度越好。反之可决系数越小,说明模型对样本观测值的拟合程度越差。 可决系数的特点:可决系数取值范围:随抽样波动,样本可决系数 是随抽样而变动的随机变量可决系数是非负的统计量,54,可决系数与相关系数的数值关系,联系:数值上可决系数是相关系数的平方,55,可决系数与相关系数的区别,区别:可决系数 相关系数 就模型而言 就两个变量而言 说明解释变量对被解释 说明两变量线性依存程度 变量的解释程度度量的不对称的因果关系 度量的对称的相关关系 取值 0 1 取值 -1r1 有非负性 可正可负,56,运用可决系数时应注意:, 可决系数只是说明列入模型的所有解释
25、变量对被解释变量的联合的影响程度,不说明模型中每个解释变量的影响程度(在多元中) 如果回归的主要目的是经济结构分析,不能只追求高的可决系数,而是要得到总体回归系数可信的估计量。可决系数高并不一定每个回归系数都可信任。 如果研究的主要目的只是为了预测被解释变量的值,不是为了正确估计回归系数,一般可考虑有较高的可决系数。,57,58,第四节 回归系数的区间估计和假设检验,为什么要作区间估计? 运用OLS法可以估计出参数的一个估计值,但OLS估计只是通过样本得到的点估计,它不一定等于真实参数,还需要寻求真实参数的可能范围,并说明其可靠性。 为什么要作假设检验? OLS 估计只是用样本估计的结果,是否
26、可靠? 是否抽样的偶然结果呢?还有待统计检验。区间估计和假设检验都是建立在确定参数估计值 概率分布性质的基础上。,59,一、OLS估计的分布性质基本思想是随机变量,必须确定其分布性质才可能进行区间估计和假设检验 怎样确定 的分布性质呢?是服从正态分布的随机变量,决定了 也是服从正态分布的随机变量;是 的线性函数,决定了 也服从正态分布正态 正态 正态 只要确定 的期望和方差,即可确定 的分布性质,线性特征,60, 的期望: (已证明是无偏估计) 的方差和标准误差 (证明见P38,要求看懂!) (标准误差是方差的平方根)注意:以上各式中 均未知,但是个常数,其余均是已 知的样本观测值,这时 和
27、都不是随机变量。,的期望和方差,61,基本思想: 是 的方差,而 不能直接观测,只能从由样本得到的 去获得有关 的某些信息,去对 作出估计。 可以证明(见附录2.2)其无偏估计为(n-2为自由度, 即可自由变化的样本观测值个数)注意区别: 是未知的确定的常数;是由样本信息估计的,是个随机变量,对随机扰动项方差 的估计,62,对 作标准化变换,为什么要对 作标准化变换? 在 正态性假定下,由前面的分析已知但在对一般正态变量 作实际分析时,要具体确定 的取值及对应的概率,要通过正态分布密度函数或 分布函数去计算是很麻烦的,为了便于直接利用“标 准化正态分布的临界值”,需要对 作标准化变换。 标准化
28、的方式:,分布函数,分布函数,63,在 已知时对 作标准化变换,所得Z统计量为标准正态变量。,1. 已知时,对 作标准化变换,注意:这时 和 都不是随机变量(X、 、 都是非随机的),64,条件: 当 未知时,可用 (随机变量)代替 去估计 参数的标准误差。这时参数估计的标准误差是个随机变量。 样本为大样本时,作标准化变换所得的统计量Zk,也可以 视为标准正态变量(根据中心极限定理)。 样本为小样本时,,用估计的参数标准误差对 作标准化变换,所得的统计量用t表示,这时t将不再服从正态分布,而是服从 t 分布(注意这时分母是随机变量) :,2. 未知时,对 作标准化变换,二、回归系数的区间估计,
29、基本思想:对参数作出的点估计是随机变量,虽然是无偏估计,但 还不能说明这种估计的可靠性和精确性。如果能找到包含 真实参数的一个范围,并确定这样的范围包含参数真实值 的可靠程度,将是对真实参数更深刻的认识。 方法:如果在确定参数估计式概率分布性质的基础上,可 找到两个正数和 ,能使得这样的区间包含真实 的概率为 ,即这样的区间称为所估计参数的置信区间。讨论:“如果已经得出了 的特定估计值,并确定了某个置信区间,这说明真实参数落入这个区间的概率为1- “。这种说法对吗?,65,怎样正确理解置信区间?,注意: 是未知但确定的数, 是随抽样而变化的随机区间。从重复抽样的观点看,每次抽样都可构造一个区间
30、,象这样构造的区间,平均来说有( )比例的次数包含 的真实值。但对特定样本,一但估计出特定的 ,区间 就不再是随机的,而是特定的,这时它或者包含 (包含的概率为1),或者不包含 (包含的概率为0)。,问题: 是给定的,如何去寻找合适的 呢?,67,样本容量充分大,样本容量较小,总体方差已知,总 体 方 差未 知,Z将接近标准正态分布,服从 t 分布,三种情况,基本思想:利用 标准化后统计量的分布性质去寻求 :,置信区间:,标准正态分布,回归系数的区间估计 (分三种情况寻找合适的 ),(1) 当总体方差 已知时( Z 服从正态分布) 取定 (例如 =0.05),查标准正态分布表得与 对 应的临界
31、值z (例如z为1.96),则标准化变量Z*(统计量)因为或 即,68,(2)当总体方差 未知,而样本容量充分大时,方法:可用无偏估计 去代替未知的 , 由于样本容量充分大,标准化变量Z*(统计量)将 接近标准正态分布注意:这里的“ ”,表示“估计的”, 这时区间估计的方式也可利用标准正态分布 只是这时,69,(3)当总体方差 未知,且样本容量较小时,方法:用无偏估计 去代替未知的 , 由于样本容量较小,“标准化变量” t (统计量)不再 服从正态分布,而服从 t 分布。这时可用 t 分布去建立参数估计的置信区间。选定, 查 t 分布表得显著性水平为 ,自由度为n-2的临界值 (n-2) ,则
32、有即,70,例1:研究某市城镇居民人均鲜蛋需求量Y(公斤)与人均可支配收入X(元,1980年不变价计)的关系 设定模型: 1995-2005年样本数据:估计参数:,计算可决系数 例1:由前面的估计结果可计算出由数据Y 可计算出:则,估计结果:,估计 :给定 查df=n-2=9的t分布临界值 参数区间估计:若给定 查df=9的t分布临界值,73,若给定 则,若给定 则,则,74,74,统计量 t,计算的统计量为:,相对于显著性水平 的临界值为: (单侧)或 (双侧),基本概念回顾: 临界值与概率、大概率事件与小概率事件,0,(大概率事件),(小概率事件),目的:简单线性回归中,检验X对Y是否真有
33、显著影响,三、回归系数的假设检验,75,双侧检验与单侧检验,76,76,1. 假设检验的基本思想,在某种条件下,在一次抽样中,大概率事件出现被认为是合理的,而小概率事件被认为基本不会发生,如果小概率事件竟然发生了,认为是不合理的。 在事先作出的某种原假设成立的条件下,利用样本构造适当统计量(一次抽样的结果),并确定统计量的抽样分布。给定显著性水平,构造一个小概率事件。如果在一次抽样中该小概率事件竟然发生,就认为原假设不真实,从而拒绝原假设,不拒绝备择假设。反之,如果大概率事件发生,则不拒绝原假设。,77,2. 回归系数的检验方法,确立假设:原假设为 备择假设为 (本质:检验 是否为0,即检验
34、是否对Y有显著影响)(1)当已知 或样本容量足够大时可利用正态分布作Z检验给定 , 查正态分布表得临界值 Z 如果 (大概率事件发生)则不拒绝原假设 如果 或 (小概率事件发生)则 拒绝原假设,78,(2) 当 未知,且样本容量较小时,只能用 去代替 ,可利用 t分布作 t 检验:,给定 , 查 t 分布表得 如果 或者 (小概率事件发生)则拒绝原假设 而不拒绝备择假设 如果 (大概率事件发生)则不拒绝原假设,用 P 值判断参数的显著性,假设检验的 p 值:p 值是基于既定的样本数据所计算的统计量,原假设可以被拒绝的最高显著性水平。 统计分析软件中通常都给出了检验的 p 值,P,统计量 t,相
35、对于计算的统计量 :,相对于显著性水平 的临界值: 或,注意: t检验是比较 和用P值检验是比较 和 p,与 相对应,与 P 相对应,80,用 P 值判断参数显著性的方法,方法:将给定的显著性水平 与 p 值比较: 若 值,则在显著性水平 下拒绝原假设 ,即认为 对 Y 有显著影响 若 值,则在显著性水平 下不拒绝原假设 ,即认为 对 Y 没有显著影响 规则:当 时,P值越小,越能拒绝原 假设,81,举例:对例1参数的显著性检验给定 查df=9的 t分布临界值 计算统计量判断:因 拒绝 说明 显著不为0, X对Y 确有显著影响 用P值检验: (需要确定与 对应的P值) 由 ,df=9,查 t
36、分布表知道P0.0005(t= 4.781时 ) 因t=5.00时的P值 0.0005 则在显著性水平 下更应拒绝原假设 即认为 对 Y 有显著影响,一、极大似然估计的思想: 举例:对一种药物,药剂师认为有效率为70%。生产该药物的公司声称:有效率为90%,谁的说法更可信呢? 统计学家抽取10个病人,发现有8人被治愈 若真实概率为P=0.7时: 产生“10个病人有8个治愈”结果的概率为:(实验结果只有“治愈”和“未治愈”是二项分布),第五节 简单线性回归模型的极大似然估计,82,若真实概率为P=0.9时,产生“10个病人有8个治愈”结果的概率为:,统计学家判断:有效率为0.7作为真实有效率的估
37、计值比0.9更为可信。(为什么?),极大似然原理:“一个事件由于与实际最近似而发生”,原理:一个事件之所以会发生,是因为存在着产生这一事件概率最大的客观现实(总体)。总体的分布规律是由其分布性质和参数决定的。 样本观测值是从总体中抽取而得到的,从总体中随机抽取容量为n的样本观测值时,这n组样本观测值会以一定的概率出现。当从总体中随机抽取n组样本观测值后,要寻求最可能产生该n组样本的那个总体的参数。最合理的参数估计量应该是能够使得从总体中抽取出该n组样本观测值的概率最大。,83,二、简单线性回归模型的极大似然估计,在满足基本假设的条件下,对简单线性回归模型若随机抽取n组样本观测值( , )(i=
38、1,2,n)为随机变量,其分布特征与参数 和 及 有关, 已知 假定 服从正态分布且是独立分布的,则:于是,每个 的概率密度函数为(i=1,2,n),84,1.似然函数 (likelihood function),因为各个 相互独立,因此获得所有n组样本观测值 的联合概率(即似然函数)为: 其中未知参数为 ,为使产生 n个样本观测值 的联合概率最大,可寻求能使该似然函数极大化的参 数值,即可求得模型参数的极大似然估计量。 为便于取最大化,取对数似然函数,因为似然函数的 极大化与似然函数的对数的极大化是等价的,所以,,85,(n个密度函数的乘积),将对数似然函数对 求偏导得:,86,令各方程为0
39、,记参数估计量为 可得:,使 最大化 等价于使,最小化,注意到:,产生n组样本观测值的联合概率的对数(对数似然函数)为:,87,(A),(B),(C),经简化,由(A)(B)式有:,这与OLS正规方程相同,2.简单线性回归模型的极大似然估计量,对L*求极大值,等价于对 求极小值:解方程得参数估计量: 可见,在满足基本假设的情况下,模型参数的最大似 然估计量与普通最小二乘估计量是相同的。,88,89,3. 的极大似然估计(ML),把参数估计量 代入(C)式并简化,得 的极大似然估计:,所以,结论: 的极大似然估计(ML)是有偏的。其偏误因子 是随 而趋于0的,因此 的ML估计只是一致估计量。,因
40、为,所以 的ML估计为:,对比 的OLS估计:,在OLS无偏性证明中有,90,4.极大似然估计与最小二乘估计的比较,1.在满足基本假设的情况下,模型参数的最大似 然估计量与普通最小二乘估计量是相同的。,的普通最小二乘估计是无偏估计.的极大似然估计(ML)是有偏的。 但 随 , 是渐近无偏的,即,91,一、过原点的回归 有时根据理论判断模型可能没有截距项(常数项),例如: 弗瑞德曼永久收入假说: 永久消费正比于永久收入。 成本分析理论: 生产的可变成本正比于产出。 货币主义理论某些假说: 价格变化率(通货膨胀率) 正比于货币供给变化率。 这时总体回归函数可设定为:这是截距项不出现或为零的回归 模
41、型。称为过原点的回归。,91,第六节 线性回归模型的若干延伸,92,没有截距项的过原点回归模型为:因为 对 求偏导 令其为零得可以证明,92,对比有截距时:,(注意:正规方程只有一个方程),即,过原点的回归的OLS估计量,注意:过原点回归的特点,在运用过原点回归模型时应注意以下特点: 1)在有截距的模型中,根据最小二乘原理的正规方程有:则 但在截距项不存在时,因为正规方程中只有一个方程, 而没有 这样的关系, 则有可能 从而,93,2)回归线不通过样本均值 过原点回归模型因为 有,94,3)估计值 的均值不等于实际观测值 的均值,这说明过原点回归最小二乘法的数学性质不一定成立,由无截距模型的最
42、小二乘正规方程有:由正规方程导出的无偏估计量为: 由 有 若是 则有显然 的估计是有偏的! 结论:在过原点的回归中,如果 成立, OLS估计则是有偏估计.,95,即,4)如果 ,OLS估计可能是有偏的,96,5)有时零均值假定 不一定满足 例如对于 如果:假如已知 ,对于有截距的模型,此时模型可变换为令 则 可见,有截距的模型可使得随机扰动具有零均值。而不含截距的模型 变换后成为有截距模型,若坚持用无截距模型,则随机项零均值不一定能保证。,97,6)有截距模型中 , 总为正 值,即 模型可决系数总是非负的。但对无截距的模型,可决系数可能出现负值,因此计算可 决系数的公式不一定适合于过原点的回归
43、模型。,一般规则:除非有充分的理由特别说明,否则模型还是应当包含常数项为好。,二、变量度量单位对回归的影响,变量的度量单位对估计的参数数值会有什么影响? 例如美国1988年-1997年国内总投资(Y)与GDP的回归 (数据略): A.当总投资(Y)与GDP都以10亿美元为度量单位时,估计 结果为:B.当总投资(Y)仍以10亿美元计,而GDP以百万美元计时 估计结果为:,98,C.当总投资(Y)与GDP都以百万美元(缩小1000倍)计时 估计结果为:D.当总投资(Y)以百万美元计,而GDP以10亿美元计时, 估计结果为:注意:与A相比较,截距、斜率系数、标准误差、可决系数的变化。,99,变量度量单位对回归影响的一般规律,1.当被解释变量测量单位改变(扩大或缩小常数c倍),而解释变量测量单位不变时:OLS截距和斜率的估计值及标准误差都缩小或扩大为原来的c倍. (如D的情况) 2.当解释变量测量单位改变(扩大或缩小常数c倍),而被解释变量测量单位不变时:OLS斜率的估计值及标准误差扩大或缩小为原来的c倍,但不影响截距的估计.(如B的情况) 3.当被解释变量和解释变量测量单位同时改变相同倍数时,OLS的截距估计值及标准误差扩大为原来的c倍,但不影响斜率的估计. (如C的情况),