1、1,1.期望对于随机变量X,它的期望记做E(X),就是对X所有可能值的加权平均,有时被称作总体均值。F(X)表示X的概率密度的话,E(X)=X1f(X1)+ X2f(X2)+ + Xnf(Xn),概率论基础知识,2,2.方差方差是用来度量随机变量和其数学期望(即均值)之间的偏离程度。设X是一个随机变量,若E(X-E(X)2存在,则称E(X-E(X)2为X的方差,记为Var(X)。3.标准差方差的算术平方根,3,1.正态分布描述连续型随机变量的最重要的分布,它的概率密度是我们熟悉的钟形。,计量经济常用的几种分布,4,正态分布函数的性质,概率密度函数在x 的上方,即f (x)0 正态曲线的最高点在
2、均值,它也是分布的中位数和众数 正态分布是一个分布族,每一特定正态分布通过均值的标准差来区分。 决定曲线的对称轴,决定曲线的平缓程度,即宽度 曲线f(x)相对于均值对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交 正态曲线下的总面积等于1 随机变量的概率由曲线下的面积给出,5,1.设 ,则 2.令 ,则 Y 服从自由度为1的2分布,即3.当总体 ,从中抽取容量为n的样本,则,2.2分布,6,分布的变量值始终为正 分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称 期望为:E(2)=n,方差为:D(2)=2n(n为自由度) 可加性:若U和V为两个独立
3、的2分布随机变量,U2(n1),V2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布,2分布性质和特点,7,2分布图示,8,3.T分布可以有一个标准的正态分布和一个2分布得到。设Z服从正态分布,而X服从自由度为n的2分布,则服从自由度为n的t分布,,9,T分布的特征及图示,T分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布,10,1. 两个总体都为正态分布,即X1N(1,12)的一个样本, Y1,Y2, ,Yn2是来自正态总体X2N(2,22 ) 2.从两个总体中分别抽取容量为n1和n2
4、的独立样本 3.两个样本方差比的抽样分布,服从分子自由度为(n1-1),分母自由度为(n2-1) F分布,即,4.F分布,11,由统计学家费舍(R.A.Fisher) 提出的,以其姓氏的第一个字母来命名则 设若U为服从自由度为n1的2分布,即U2(n1),V为服从自由度为n2的2分布,即V2(n2),且U和V相互独立,则称F为服从自由度n1和n2的F分布,记为,F分布的特征,12,F分布图示, 不同自由度的F分布,13,第一章绪论,14,3,15,第一节 什么是计量经济学, 1926年挪威经济学家R.Frish提出Econometrics 1930年成立世界计量经济学会 1933年创刊Econ
5、ometrica,一、计量经济学的产生与发展,16, 计量经济学发展的三个时期,二、计量经济学的产生与发展,20世纪20-40年代,计量经济模型从单一方程模型发展为联立方程模型,计量经济学的形成,从微观个体研究到宏观经济总体的研究,但只限于单一方程形式,20世纪50-70年代,20世纪80年代以后,时间序列模型的非平稳性问题、虚假回归问题成为研究的新突破,17,18, 计量经济学在中国的发展,1979年,2000年,1984年,成立了“中国数量经济研究会”,为创立我国的计量经济学奠定了基础,我国计量经济学研究和应用水平同世界前沿的差距迅速缩小,我国计量经济学研究和应用的普及阶段,19,二、什么
6、是计量经济学?,拉格纳弗里希( R. Frish ),用数学方法探讨经济学可以从好几个方面着手,但任何一个方面都不能和计量经济学混为一谈。计量经济学与经济统计学绝非一码事;它也不同于我们所说的一般经济理论,尽管经济理论大部分具有一定的数量特征;计量经济学也不应视为数学应用于经济学的同义语。经验表明,统计学、经济理论和数学这三者对于真正了解现代经济生活的数量关系来说,都是必要的,但本身并非是充分条件。三者结合起来,就是力量,这种结合便构成了计量经济学。,20,计量经济学是用数学语言来表达经济理论,以便通过统计方法来论述这些理论的一门经济学分支。,计量经济学可定义为:根据理论和观测的事实,运用合适
7、的推理方法使之联系起来同时推导,对实际经济现象进行的数量分析。,21,计量经济学是一门由统计学、理论经济学和数学相结合形成的一门经济学分支学科,其目的是揭示社会经济现象发展变化中的数量规律。,教科书中的一般表述:,22,数学,经济学,统计学,计量经济学,数理统计学,经济统计学,数理经济学,图1-1 计量经济学是经济理论、统计学和数学的结合,23,计量经济学与数理统计学的关系,联系:数理统计学是研究随机变量统计规律性的数学学科,它是计量经济学的方法论基础。区别:数理统计学是在标准假定条件下,利用“实验数据”抽象地研究一般的随机变量的统计规律性,而计量经济学所研究的变量具有特定的经济意义;经济统计
8、数据往往是被动观测到的经济现象的数量特征,可能不满足数理统计方法成立的条件,因此计量经济学常常需要结合经济实际拓展数理统计方法的适用范围,或发展新的方法来研究这类随机变量问题。,24,计量经济学与(数理)经济学的关系,联系:计量经济学研究的主体是经济现象中经济关系的数量规律,它必须以经济学提供的理论原则和经济运行规律为依据。另一方面,利用计量经济学方法可以对经济理论确定的原则加以验证、充实、完善。 区别: (数理)经济学重在定性分析,并不对经济关系提供数量上的度量;而计量经济学要对经济关系做出定量的估计,对经济理论提供经验的内容。,25,计量经济学与经济统计学的关系,联系: 经济统计提供的数据
9、是计量经济学据以估计参数、验证经济理论的基本依据。区别:经济统计学主要用图、表展现经济数据,用统计指标和统计分析方法对经济现象进行描述,而很少去关注蕴含在其中的经济规律及其经验的内容;而计量经济学主要是通过建立计量经济模型对经济变量间的关系进行数量分析。,26,广义计量经济学和狭义计量经济学广义计量经济学:是利用经济理论、数学以及统计学定量研究经济现象的经济计量方法的统称,包括回归分析方法、投入产出分析方法、时间序列分析方法等。狭义计量经济学:以揭示经济现象中的因果关系为目的,在数学上主要应用回归分析方法。本书中的计量经济学模型,就是这个意义上的经济数学模型。计量经济学模型包括单方程模型和联立
10、方程模型两大类。单方程模型的研究对象是单一经济现象,揭示存在其中的单向因果关系。联立方程模型的研究对象是一个经济系统,揭示存在其中的复杂的因果关系。,三、计量经济学的内容体系,27,理论计量经济学和应用计量经济学 计量经济学根据研究对象和内容侧重面不同,可以分为理论计量经济学和应用计量经济学。理论计量经济学:是以介绍研究计量经济学的理论与方法为主要内容,侧重于理论与方法的数学证明与推导。应用计量经济学:以建立与应用计量经济学模型为主要内容,强调应用模型的经济学和经济统计学基础,侧重于建立与应用模型过程中实际问题的处理。,28,计量经济学的方法论,计量经济学,政治经济学,宏微观经济学,29,诺贝
11、尔经济学奖与计量经济学,诺贝尔获奖者中10位直接因为对计量经济学发展的贡献而获奖,四、计量经济学在经济学学科中的地位,经典计量经济学,创立,建立第1个应用模型,建立概率论基础,发展数据基础,发展应用模型,Tinbergen (1969),Frisch(1969),Haavelmo (1989),Stone (1984),Klein (1980),建立投入产出模型,Leontief (1973),30,非 经典计量经济学,微观计量: 选择性样本模型,微观计量: 离散选择模型,时间序列: 协整理论现代宏观计量,时间序列: ARCH现代金融计量,Engle (2003),Heckman (2000)
12、,McFadden (2000),Granger (2003),31,近20位担任过世界计量经济学会会长 30多位在获奖成果中应用了计量经济学,以经济研究发文数量对比为例,19842006年3143篇论文的统计分析,计量经济学在中国的地位,32,33,美国著名经济学家、1970年诺贝尔经济学奖获得者保罗.萨缪尔森曾说过:“战后的经济学是计量经济学的时代”。,克莱因(R.Klein):“计量经济学已经在经济学科中居于最重要的地位”,“在大多数大学和学院中,计量经济学的讲授已经成为经济学课程表中最有权威的一部分”。,34,第二节 如何建立计量经济模型,一、什么是计量经济模型计量经济模型,就是用随机
13、性的数学方程(组)对经济现象或经济规律的描述和模拟,以揭示蕴含其中的各个因素之间的定量关系。它是计量经济学研究经济现象使用的重要工具。,35,(1.1)式为数理经济模型,该模型是不可以估计的。要研究收入I 的变化对消费支出C的数量影响程度,需要对(1.1)进行改造模型。,(1.1),例题. 按照凯恩斯主义者的绝对收入假设消费理论,建立居民消费支出的计量经济模型。凯恩斯主义者认为,消费是由收入唯一决定的,消费与收入之间存在着稳定的函数关系,并且随着收入的增加,消费将增加,但消费的增长低于收入的增长,而且边际消费倾向(MPC)是递减的。用数学模型可以将这一理论表示为:,36,首先,明确(1.1)式
14、的函数形式。例如,,(1.2),其中 为未知的参数,,其次,在(1.2)式右端引入随机变量u,以使其与消费支出相等,即,(1.3),注意:计量经济模型与数理经济模型的区别,含有随机变量u的方程(1.3)(简称为随机方程)就是反映消费与收入之间定量关系的一个计量经济模型。,37,模型 中:C 称为被解释变量(或因变量)研究的对象。I 称为解释变量(或自变量)是影响被解释变量C 的因素,用以解释C 变化的原因。 u 称为随机误差项(或扰动项)包括除收入以外的影响消费支出的所有其他影响因素,对于一定的收入水平,它的取值因个人或家庭而异。,38,u为误差项,代表了影响变量间非确定关系的其他因素的影响。
15、这是一个线性回归模型。,O,I,C,斜率为b,数理模型,O,I,C,斜率为b,计量模型,39,二、建立计量经济学模型的步骤,计量经 济模型,理论模型的设计,模型参数估计,样本数据收集,模型的检验,图1-2 计量经济学模型建立步骤,40,1、理论模型的设计(1)确定模型所包含的变量在单方程模型中,变量分为两类。作为研究对象的变量,也就是因果关系中的“果”,是模型中的被解释变量;而作为“原因”的变量,是模型中的解释变量。确定模型所包含的变量,主要是指确定解释变量。可以作为解释变量的有下列几类变量:外生经济变量、外生条件变量、外生政策变量和滞后被解释变量。,41,如何正确地选择解释变量? 需要正确理
16、解和把握所研究的经济现象中暗含的经济学理论和经济行为规律。 选择变量要考虑数据的可得性。 选择变量时要考虑所有入选变量之间的关系,使得每一个解释变量都是独立的。,42,(2)确定模型的数学形式 利用经济学和数理经济学的成果 根据样本数据作出的变量关系图 选择可能的形式试模拟(3)拟定模型中待估计参数的理论期望值区间、符号、大小、 关系例如:ln(人均食品需求)=+ln(人均收入)+ln(食品价格) +ln(其它商品价格)+其中 、的符号、大小、 关系,43,2、样本数据的收集(1)几类常用的样本数据时间序列数据是一批按照时间先后排列的统计数据。,截面数据是一批发生在同一时间截面上的调查数据。,
17、中国1993年1998年的GDP增长率 (%),1992年实际GDP增长率 (%),44,虚拟变量数据称为二进制数据,一般取0或1。经常被用在计量经济学模型中,以表征政策、条件等因素。,混合数据(面板数据 Panel data),45,(2)样本数据的质量完整性,即模型中包含的所有变量都必须得到相同容量的样本观测值。准确性,有两方面含义,一是所得到的数据必须准确反映它所描述的经济因素的状态,即统计数据或调查数据本身是准确的;二是它必须是模型研究中所准确需要的,即满足模型对变量口径的要求。例如,在生产函数模型中,作为解释变量的资本、劳动等必须是投入到生产过程中的、对产出量起作用的那部分生产要素,
18、以劳动为例,应该收集生产性职工人数,而不能以全体职工人数作为样本数据。,46,可比性,也就是通常所说的数据口径问题。统计范围口径的变化和价格口径的变化,必须进行处理后才能用于模型参数的估计。计量经济学方法,是从样本数据中寻找经济活动本身客观存在的规律性,如果数据是不可比的,得到的规律性就难以反映实际。一致性,即母体与样本的一致性。例如,用企业的数据作为行业生产函数模型的样本数据,用人均收入与消费的数据作为总量消费函数模型的样本数据。,47,3、模型参数的估计模型参数的估方法,是计量经济学的核心内容。在建立了理论模型并收集整理了符合模型要求的样本数据之后,就可以选择适当的方法估计模型,得到模型参
19、数的估计量。 普通最小二乘法,48,4、模型的检验(1)经济意义检验主要检验模型参数估计量在经济意义上的合理性。方法是将模型参数的估计量与预先拟定的理论期望值进行比较,包括参数估计量的符号、大小、相互之间的关系,以判断其合理性。,49,例1,有下列煤炭行业生产模型:煤炭产量=108.54270.00067固定资产原值0.01527职工人数0.00681电力消耗量0.00256木材消耗量例2:ln(人均食品需求量)=2.00.5ln(人均收入)4.5ln(食品价格) +0.8ln(其它商品价格)ln(人均食品需求量)=2.0+0.5ln(人均收入)4.5ln(食品价格)+0.8ln(其它商品价格
20、)ln(人均食品需求量)=2.0+0.5ln(人均收入)0.8ln(食品价格) +0.3ln(其它商品价格),50,(2)统计检验检验模型的统计学性质。应用的统计检验准则有拟合优度检验、变量和方程的显著性检验等。(3)模型假定检验计量经济模型需要满足一些假定条件。通常最主要的检验准则有随机误差项的自相关检验和异方差性检验,解释变量的多重共线性检验,解释变量的内生性检验等。(4)模型预测检验包括稳定性检验:扩大(减少)样本重新估计预测性能检验:对样本外一点进行实际预测,51,三、计量经济学成功三要素理论,即所研究的经济现象的行为理论,是计量经济学研究的基础。方法,主要包括模型方法和计算方法,是计
21、量经济学研究的工具与手段,是计量经济学不同于其它经济学分支学科的主要特征。 数据,反映研究对象的活动水平 、相互间联系以及外部环境的数据,或更广义讲是信息,是计量经济学研究的原料。这三方面缺一不可。,52,一、结构分析 二、经济预测三、政策评价四、检验与发展经济理论,第三节:计量经济模型的应用,53,一、结构分析经济学中的结构分析是对经济现象中变量之间相互关系的研究。它研究当一个变量或几个变量发生变化时会对其它变量以至经济系统产生什么样的影响。结构分析所采用的主要方法是弹性分析、乘数分析等。,54,二、经济预测计量经济学模型作为一类经济数学模型,是从用于经济预测,特别是短期预测而发展起来的。
22、计量经济学模型是以模拟历史、从已经发生的经济活动中找出变化规律为主要技术手段。,55,三、政策评价政策评价是指从许多不同的政策中选择较好的政策予以实行,或者说是研究不同的政策对经济目标所产生的影响的差异。计量经济学模型,揭示了经济系统中变量之间的相互联系,将经济目标作为被解释变量,经济政策作为解释变量,可以很方便的评价各种不同的政策对目标的影响。,主要有三种方法。一是工具目标法。二是政策模拟。三是最优控制方法。,56,四、检验与发展经济理论一是按照某种经济理论去建立模型,然后用表现已经发生的经济活动的样本数据去拟合,如果拟合很好,则这种经济理论得到了检验。这就是检验理论。二是用表现已经发生的经
23、济活动的样本数据去拟合各种模型,拟合最好的模型所表现出来的数量关系,则是经济活动所遵循的经济规律,即理论。这就是发现和发展理论。,57,通过以上介绍可见,计量经济方法从模型的建立到模型的应用是一个复杂的过程,图1-3概括描述了这一过程的基本步骤。(了解),58,理论研究或经验总结,收集统计资料,设计理论模型,模型的参数估计,建立具体模型,检验估计的模型,验证理论,是否符合标准,修改模型或重新 选择估计方法,应用模型,图1-3,否,是,经济分析,经济预测,政策评价,59,计量经济学课程结构图,计 量 经 济 学,经典计量 经济模型,时间序列模型 (10),满足假定条件的模型,假定条件不满足时的模
24、型,一元线性回归模型(2),多元线性回归模型(3),非线性回归模型(4),异方差(5),自相关(6),多重共线性(7),特殊的解释变量(8),单一方程模型,联立方程模型(9),微观计量模型 (11),图1-4,60,1.计量经济学定义。 2.建立与应用计量经济学模型的主要步骤。 3.理论模型的设计所包含的三部分工作。 4.常用的样本数据类型。样本数据质量。 5.计量经济学模型必须通过哪四级检验? 6.计量经济模型成功的三要素。 7.计量经济学模型的应用领域。,复习知识要点,61,阅读本书需要的数学知识,(见附录A),概率论与数理统计: 随机变量、概率分布、期 望、方差、协方差、点估计、区间估计
25、、假设检验、 正态分布、t 分布、F分布、一致估计等概念及基本 性质。线性代数: 矩阵、线性方程组。微积分:求偏导数、极值的基本方法。,62,第二章一元线性回归模型,64,64,2.1 回归分析与回归模型2.2 一元线性回归模型的概念及普通最小二乘法 2.3 总体回归模型的基本假定及OLS估计量的统计性质 2.4 拟合程度的度量2.5 回归系数的假设检验及其区间估计2.6 预测2.7 案例分析,【内容】,65,65,2.1 回归分析与回归模型,引子:,变量之间的关系,一类是具有确定关系的或函数关系:研究确定性变量也就是非随机变量之间的关系.,一类是统计依赖或者相关关系:研究的是非确定性变量之间
26、的关系,也就是随机变量之间的关系,经济变量大量的都是随机变量,它们之间通常是这种关系。,66,66,确定的统计关系:如果一个变Y的取值可以通过另一个变量X或另一组变量(X1,X2,X3)以某种形式惟一地、精确地确定,则Y与这个X之间或与这组X之间的关系就是函数关系。用代数式表示就是: 不确定的统计关系:如果一个变量Y的取值受另一个变量X或另一组变量( X1,X2,X3)的影响,但给定这一个或一组X值的时候Y的取值是不确定的。则变量Y与这一个或一组X之间为相关关系。用代数式表示就是,67,67,具有因果关系的变量之间一定具有数学上的相关关系,而具有相关关系的变量之间并不一定具有因果关系。,回归分
27、析确定其变动规律,统计依赖关系,非线性相关,线性相关,正相关 不相关 负相关,正相关 不相关 负相关,相关系数,有因果关系 无因果关系,回归分析 相关分析,68,相关分析与回归分析的区别:,(1)如果存在因果关系就用回归分析;如果不存在因果关系就用相关分析,(2)相关分析具有对称性;回归分析具有不对称性。,计量经济学中考察的是有因果关系的一些变量之间的关系,不考察那些没有因果关系的变量之间的关系。所以回归分析是计量经济学估计模型的主要工具。,69,69,一、回归分析的概念,弗朗西斯.高尔顿最先使用“回归(regression)”。给定父母的身高,子女平均身高趋向于“回归”到全体人口的平均身高。
28、,回归的现代解释一个变量(被解释变量或因变量)对另一个或者多个可控变量(解释变量或自变量)数量依赖关系的数学分析方法。,70,70,可控变量:试验之前实验者能够确定其取值,而且可在重复抽样中取相同的值的变量。这类变量也被称为确定性变量。例如,在研究经济问题时,政府支出、税率、存款准备金率等政策变量都属于可控变量;又如,在研究某一社区人们的消费支出问题时,可以提前设定被调查者的收入层次 (或水平),对于一定收入的个人进行重复抽样得到他们的消费支出数据,此时人们的收入就是一个可控变量;再如,研究某一行业中企业的产量问题,企业的资本、劳动力数量都可以看作是可控变量。,71,不可控变量:例如,从宏观上
29、研究一个国家(如中国、美国等)的消费支出问题时,国民总收入与总消费支出一样都是随机变量,它们的取值是由该国的经济运行环境同时决定的,此时国民总收入就不能看作一个可控变量。,72,72,随机变量和非随机变量随机变量:不可控变量。非随机变量:确定性变量、可控变量。理解回归分析是需要注意:被解释变量是随机的,解释变量在本质上可以是随机变量也可以是非随机变量,但是在经典的回归分析中解释变量作为被解释变量变动的原因,所以我们总是假定在重复抽样中总是取某些固定的值,所以一般情况下解释变量是作为非随机变量来处理的。,73,当 时,,73,回归分析所使用的重要工具就是回归模型。回归模型:是反映被解释变量与解释
30、变量之间数量依赖关系的随机模型。,二、回归分析的工具,例如,消费函数模型,就是一个反映消费支出与收入之间数量依赖关系的回归模型。,回归模型的一般表达式:,其中随机变量Y 称为被解释变量,变量,称为解释变量,,为不含有未知参数的Y的函数。,u 为随机误差项,,(2.1),74,总体回归函数(PRF:population regression function)或趋势函数(trend function): 由 确定的(隐)函数 ,称为Y 随着 变化而变化的趋势, 我们称之为模型(2.1)的总体回归函数或趋势函数。,74,总体回归模型表示:被解释变量的值取决于两部分:一是由解释变量 决定的部分;二是
31、误差项 。由于第二部分的作用导致了被解释变量的不确定性,回归分析就是研究Yi依存Xi变动的规律性,这一规律性我们用下式表示:,75,上式被称之为总体回归函数,也称之为总体回归方程、总体回归直线,在以后的论述中我们将不加区别地使用这些名词。,例如,,消费函数模型,总体回归函数,被解释变量对解释变量的总体回归函数通常是未知的,计量经济学研究的主要任务之一,就是利用样本信息去估计反映被解释变量与解释变量之间数量依赖关系的总体回归函数。,76,76,由于变量间关系的随机性,回归分析关心的是根据解释变量的已知或给定值,考察被解释变量的总体均值,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能
32、出现的对应值的平均值。,如何获得总体回归函数?,77,例2.1:一个假想的社区有60户家庭组成,要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。,为达到此目的,将该60户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出。,78,78,79,79,(1)由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出不完全相同;(2)但由于调查的完备性,给定收入水平X的消费支出Y的分布是确定的,即以X的给定值为条件的Y的条件分布(Conditional distribution)是已知的, 如: P(Y=55
33、0|X=800)=1/5。,因此,给定收入X的值Xi,可得消费支出Y的条件均值(conditional mean)或条件期望(conditional expectation):E(Y|X=Xi),该例中:E(Y | X=800)=650,分析:,80,80,描出散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。,81,81,线性回归模型是一类重要的回归模型,其一般表达式:,参数,称为回归系数,,也分别称为截距和斜率 。这里Y 与解释变量、参数之间的关系都为线性的。,三、线性回归模型,相应的总体回归函数为,82,若,均为可控变量
34、,且对于给定的 有,,则总体回归函数为,对于可控变量,,后文常将上式直接写为,非线性回归模型:是指线性回归模型以外的回归模型。,83,83,一点说明:,在回归模型中,线性回归模型具有最简单的函数形式,而且已经形成一套比较完善且相对简单的建模方法和理论,许多非线性回归模型的研究可以通过转化为线性回归模型,或借助于线性回归模型的分析方法得以较好地展开。因此,它是计量经济分析最有用的工具之一,掌握线性回归模型的回归分析方法也已成为研究计量经济学的一个基本出发点。 本书主要是针对线性回归模型和可以线性化的非线性回归模型展开讨论。,84,84,四、引入随机误差项的原因,一般地,在回归模型中引入随机误差项
35、的原因可以归纳为以下三个方面:,反映被忽略掉的因素对被解释变量的影响。,总体回归函数形式的设定误差。,变量的观测误差。,由于众多影响因素的存在,随机误差项是一随机变量而且可能为正也可能为负,因此为了系统刻画被解释变量随解释变量的变化趋势,在回归分析中设定的回归模型一般要求随机误差项的平均值为0,即 。,例题. 居民消费支出模型:,85,85,五、回归分析的目的,由于变量间关系的随机性,回归分析关心的是根据解释变量的已知或给定值,考察被解释变量的总体均值,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能出现的对应值的平均值。所以它反映的是解释变量和总体均值之间的关系。总体均值:所有可
36、能出现的对应值的平均值。条件均值:抽取的样本中出现对应值的平均值。回归分析构成计量经济学的方法论基础,其主要内容包括: (1)根据样本观察值对计量经济模型参数进行估计,求得回归方程; (2)对回归方程、参数估计值进行检验; (3)利用回归方程进行分析、评价及预测。,86,86,2.2 一元线性回归模型的概念 及普通最小二乘法,一、基本概念,一元线性回归模型:,本章讨论的一元线性回归模型的参数,不随个体或观测点的变化而变化。对于从总体中抽取的样本,一元线性回归模型常被写成如下表达式,(2.6),相应的总体回归函数为,87,87,图2-1给出了一元线性回归模型的几何表示,其中直线,称为总体回归线。
37、,图2-1 总体回归函数的几何表示,88,对于可控的解释变量X,在第i个观测点上的观测值Xi为确定的值,因此当 时,总体回归函数为,由于总体回归函数通常是未知的,因此需要利用从总体中抽取的样本观测值,采用适当的方法对其进行估计或推断。,89,其中 分别为参数 的估计量。,函数 是不含有未知参数的解释变量的函数,且函数形式与总体回归函数一致,像这样的函数称为样本回归函数, 并称它在坐标系下对应的直线称为样本回归线。 称为在第i个观测点 处或 的拟合值。,89,样本回归函数(SRF:sample regression function),对于总体回归函数,设依据样本数据 得到 的估计量为,90,9
38、0,由于总体的信息往往无法掌握,现实的情况只能是在一次观测中得到总体的一组样本。问题是能从一次抽样中获得总体的近似的信息吗?如果可以,如何从抽样中获得总体的近似信息?,例2.2:在例2.1的总体中有如下一个样本,问:能否从该样本估计总体回归函数PRF?,回答:能,91,91,该样本的散点图,样本散点图近似于一条直线,画一条直线以尽好地拟合该散点图,由于样本取自总体,可以该线近似地代表总体回归线。该线称为样本回归线(sample regression lines)。,记样本回归线的函数形式为:,92,同样地,样本回归函数也有如下的随机形式:,由于方程中引入了随机项,成为计量经济模型,因此也称为样
39、本回归模型(sample regression model)。,残差(或剩余项):,样本回归模型 :,随机误差项和残差的联系与区别?,式中, 称为(样本)残差(或者剩余)项,代表了其他影响 的随机因素的集合,可看成是 的估计量,93,93,注意:分清几个关系式和表示符号,(2)样本(估计的)回归函数:,(3)总体(真实的)回归模型:,(4)样本(真实的)回归模型:,(1)总体(真实的)回归函数:,ui随机误差项 ei残差项,Xi,Yi,Y1,Y2,Y3,u1,u2,u3,e2,e3,e1,E(Y|Xi) = 0 + 1 Xi,94,94,关于SRF的几点说明:(1)样本回归函数的函数形式应与设
40、定的总体回归函数的函数形式一致; (2)样本回归函数与选择估计方法有关;(3)对于一定的估计方法,样本回归函数随抽样波动而变化,在样本数据给定之前,它是一个随机变量。,95,95,二、普通最小二乘法,问题的提出从消费支出模型的估计可以看出,直观上寻找样本回归函数,对同样的样本数据,不同的人可能会得到不同的样本回归函数,而且由于缺乏正式的规则,其所得结果的准确性难以评估。计量经济分析的重要任务就是寻求一种正式规则或估计方法使所得总体回归函数中参数的估计值能够“尽可能接近”其真实值。,96,为此,计量经济学家已经提出了许多参数的估计方法,如最小二乘法(LS:least squares);最大似然估
41、计法(ML:maximum likelihood method);广义矩估计法(GMM:generalized method of moments);等等。,97,因为总体回归函数通常是未知的,无法直接比较样本回归函数与其接近程度,所以一个自然的想法是,对于给定的一组样本观测值 ,希望找到的样本回归函数 总体上“尽可能接近” 。,97,普通最小二乘法的基本原理,本书主要讨论在理论和实证分析中广为采用的基于最小二乘准则的估计方法,对最大似然估计法的简单介绍放在第3章的附录3.1中。,98,普通最小二乘原则:以 反映第i个观测点处 与 的接近程度,以 反映 与 的总体接近程度,参数的估计量应使得
42、达到最小。(为什么不用 、 ?),对于模型 参数 和 的OLS估计量是使 达到最小的 值。,普通最小二乘法:依据普通最小二乘准则去估计回归模型中参数的方法。由此得到的估计量称为普通最小二乘估计量(OLSE),99,99,100,100,Q =,=,=,则通过Q最小确定这条直线,即确定 ,以 为变量,把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求导数得到。,样本回归模型:,101,101,求Q对两个待估参数的偏导数:,=,= 0,=,= 0,正规方程组,即,根据以上两个偏导方程得以下正规方程(Normal equation) :,102,用正规方程组和最小二乘法参数估计值的表达式可以
43、得到以下结论:,解该方程组,可得,103,(3)估计的回归直线 过 点.,由此可知,若Y与X样本正相关,那么 符号为正;若Y与X样本负相关,那么 符号为负。,(2)残差和等于零 由正规方程 可得。,(1),可以写为如下离差形式:,其中,,,104,104,(5)样本回归函数可表示为离差形式:,(4)Yi 的拟合值的平均数等于其样本观测值的平均数,=,=,=,105,105,习题1:在上述家庭可支配收入-消费支出例中,对于所抽出的一组样本数,参数估计的计算可通过下面的表2.2.1进行。,106,106,习题2: 某市城镇居民年人均鲜鸡蛋需求量Y(公斤),年人均可支配收入X(元,1980年不变价)
44、。调查得到1988-1998年的样本观测值。,107,3.回归分析中使用的距离是点到直线的垂直坐标距离。最小二乘准则是指( )。 A. 使,1两个变量x和y的相关系数为0.95,这说明二者之间一定存在着某种因果关系。,2. 回归分析中定义的( )。 A.解释变量和被解释变量都是随机变量 B.解释变量为非随机变量,被解释变量为随机变量 C.解释变量和被解释变量都是非随机变量 D.解释变量为随机变量,被解释变量为非随机变量,达到最小值 B. 使,达到最小值,达到最小值 D.使,达到最小值,C. 使,108,2.3 总体回归模型的基本假定及OLS估计量的统计性质,基本内容 一、基本假定 二、OLS估
45、计量的统计性质 三、随机误差项方差的OLS估计量,108,109,在回归分析中,我们的目的不仅仅是获得参数的估计量,而且要验证其是否具有优良的统计性质,如无偏性、最小方差性、一致性等,并对真实的参数以及样本回归函数与总体回归函数或实际观测值的接近程度进行统计推断。为此,我们必须对产生样本数据的总体或所设定的总体回归模型做出某些假定,否则将无法对用样本数据表示的参数估计量做出任何统计推断。,为什么要对模型做基本假定,109,110,在给定解释变量 的条件下,随机误差项 的分布决定了 的分布,因此通常是对无法直接观测的随机误差项 做出某些基本假定,以对样本数据 的来源进行约束。,对于模型,本节将介
46、绍的基本假定是针对普通最小二乘估计法而提出的。,110,111,一、一元线性回归模型的基本假定,假定1: 解释变量为可控变量或确定性变量,即在第 个观测点上的解释变量 为确定的值。,的均值为0,即,假定2:零均值性,111,112,假定3: 同方差性,在各观测点上的方差相同,即,同方差,异方差,112,113,假定4:无自相关性不同观测点上 的之间不相关,即,无自相关,正自相关,负自相关,113,114,其中 为非0的有限常数或者为 。,假定5:正态性 服从正态分布,即,假定6:解释变量满足,即:随着样本容量的无限增加,解释变量X的样本方差趋于一有限常数。,114,115,关于基本假定条件的解
47、释:,(2)假定3、4、5意味着随机误差项之间是相互独立的,且服从相同的正态分布。,(3)假定6是保证参数的OLS估计量具有一致性的基本条件之一。,115,(1)假定1和假定2蕴含着总体回归函数为,116,指满足上述基本假定条件的线性回归模型。,经典线性回归模型:,经典线性回归模型的地位:经典线性回归模型理论是计量经济学理论的基础。关于违背基本假定条件模型的理论都是在此基础上发展起来的。经典线性回归模型在计量经济学中的地位就相当于价格理论中的完全竞争模型在西方经济学中的地位。,116,117,二、OLS估计量的统计性质,线性性:估计量是被解释变量的线性函数,证明:,=,=,=,令,代入上式,得
48、:,=,117,118,无偏性:估计量的均值等于参数的真值,证明:,=,=,=,=1,1,无偏估计量,有偏估计量,118,119,有效性(最小方差性):在所有 的线性无偏估计 中,普通最小二乘估计量 具有最小方差,1,119,120,证明:,同理:,121,高斯-马尔可夫定理(Gauss- Markov theorem):在满足基本假定的条件下(假定5、假定6除外),一元线性回归模型回归系数的OLS估计量具有线性性、无偏性和最小方差性。也就是说他们是最佳线性无偏估计量(BLUE : best linear unbiased estimator)。,显然这些优良的性质依赖于对模型的基本假设。,121,122,关于高斯-马尔科夫定理的两点说明:(1)在定理的证明过程中没有用到假定5和假定6,因此无论随机误差项服从什么分布以及解释变量取值的分布特征如何,高斯-马尔科夫定理均成立。(2)该定理指出OLS估计量在线性无偏估计量中是最佳估计量,但在有偏或非线性的估计量中,可能存在方差比OLS估计量更小的估计量。,