1、目录概论第 1 章 统计资料(Data)的收集第 2 章 统计资料的整理与分析第 3 章 统计资料的综合第 4 章 概率第 5 章 随机变量及其数字特征第 6 章 随机变量的概率分布第 7 章 中心极限定理第 8 章 统计抽样与抽样分布第 10 章 参数估计第 11 章 假设检验第 12 章 方差分析计量经济学课名:计量经济学课时:57 学时(其中上机 10-12 学时)应具备的知识:1 经济学(政治经济学,宏微观经济学)2数理统计学(概率分布,参数估计,假设检验,方差分析,回归分析)3线性代数(矩阵,向量空间,特征根)教材:1 计量经济学基础 (第 2 版) ,张晓峒,南开大学出版社,200
2、5 年。2 EViews 使用指南与案例 ,张晓峒,机械工业出版社, 2007 年。课程主要内容:1经典计量经济模型(OLS、GLS、WLS、2SLS 法、非线性模型的线性化处理、虚拟变量、工具变量、异方差、自相关、多重共线性、F 检验、t 检验、R 2 检验、DW 检验、模型结构的稳定性 (Chow) 检验、 JB 检验、异方差检验等)2时间序列模型(AR(p), MA(q), ARMA(p, q), ARIMA(p, d, q) 模型,自相关函数、偏自相关函数,模型的识别、估计、诊断、预测,季节时间序列模型,转换函数模型。 )3随机变量的单整性与虚假回归(非平稳随机变量的统计特征、虚假回归
3、、Wiener过程、统计量的渐近分布)4时间序列的单位根检验(DF 统计量的极限分布、单位根检验方法 (DF、ADF 检验)5动态回归与误差修正模型(自回归分布滞后模型、Hendry 建模法、误差修正机制、误差修正模型、F、LR 、W 、 LM、HT、ARCH 检验等)6协整与误差修正(协整概念、Granger 定理、向量自回归模型(VAR) 、Granger 非因果性检验与向量误差修正模型(VEC) ) 。7自回归条件异方差模型(ARCH、GARCH) 。若干最新成果。面板数据模型。8蒙特卡罗模拟与自举。课程特点:理论与应用并重。阐明理论为主,不过分强调理论的证明与推导。培养应用经济计量理论
4、解决实际问题的能力(注重案例教学) 。经济计量学定义:据说在经济学中,应用数学方法的历史可追溯到三百多年前的英国古典政治经济学的创始人威廉配第的政治算术 的问世(1676 年) 。计量经济学(Econometrics )是由挪威经济学家、第一届诺贝尔经济学奖得主弗里希(R.Frisch)于 1926 年仿照生物计量学( Biometrics)提出来的。随后于 1930 年成立了国际计量经济学学会,在 1933 年创办了计量经济学杂志。我们应如何理解“计量经济学”的定义?弗里希在计量经济学的创刊词中说到:“用数学方法探讨经济学可以从好几个方面着手,但任何一方面都不能与计量经济学混为一谈。计量经济
5、学与经济统计学决非一码事;它也不同于我们所说的一般经济理论,尽管经济理论大部分都具有一定的数量特征;计量经济学也不应视为数学应用于经济学的同义语。经验表明,统计学、经济理论和数学这三者对于真正了解现代经济生活中的数量关系来说,都是必要的,但各自并非是充分条件。而三者结合起来,就有力量,这种结合便构成了计量经济学。 ” 后来美国著名计量经济学家克莱茵也认为:计量经济学是数学、统计技术和经济分析的综合。所以,计量经济学是统计学、经济学、数学相结合的一门综合性学科,是一门从数量上研究物质资料生产、交换、分配、消费等经济关系和经济活动规律及其应用的科学。学科名称 融 合 的 学 科 学科的特点数理经济
6、学 经济学 数学 用数学公式或数学模型来描述经济理论而不考虑对经济理论的度量和经验解释经济统计学 经济学统计学 收集、处理经济数据并将这些数据绘制成图表的形式来直观地描述经济现象而不考虑用这些收集到的数据来检验经济理论数理统计学 数学统计学 研究如何有效地收集数据,如何对数据进行推理,侧重于研究数据本身而不考虑经济学的背景计量经济学经济学数学统计学以一定的经济理论和统计资料为基础,运用数学、统计学方法,以建立经济计量模型为主要手段,对经济理论所假定的关系进行实证研究英文:Econometrics 。日文:計量经济学() 。台湾:計量经济学。中文:计量经济学,经济计量学。在 1998 年教育部审
7、定的学科分类中属三级学科。经济学(02)应用经济学(0202)数量经济学(020209) 。数量经济学中包括经济计量学,投入产出,数理经济学,及运筹学的一部分内容(线性规划,优化,决策理论和风险分析等) 。计量经济学自从 20 世纪 30 年代形成以来,发展很快,已在经济学科中占有很重要的地位,在经济领域得到了广泛的应用。尤其是近 20 年来计算机的飞速发展,使计量经济学的发展和应用又进入了一个新的阶段。研究内容与目的:经济计量学的研究内容与目的主要包括如下三个方面:1定量描述与分析经济活动,验证经济理论。包括描述宏观、微观经济问题。例 1:如果说我国人民的生活水平还没有日本人民的生活水平高,
8、这只是一种定性的描述。若用经济计量学方法进行定量分析,将会使我们对此问题理解的更深刻、更具体。1946-1998 年中日两国的恩格尔系数序列见图 1.1。用中日两国恩格尔系数分别对时间t(1981 年 t = 1)回归得模型如下:中国:Engel = 0.60 0.0077 t (1981-98) (1.1)(69.9) (-8.9) R2 = 0.83, DW = 0.86, F = 79.9日本:Engel = 0.29 0.0043 t (1981-95) (1.2)(24.0) (-12.1) R2 = 0.97, DW = 1.2, F = 372 02 4 6 8 1n a 图 1
9、.1 中日两国的恩格尔系数序列(1946-1998)通过以上模型和图 1.1,使我们认识到如下 6 点。(1) 从恩格尔系数的下降速度看,中国是先慢后快;日本是先快后慢(1931 年 0.38) 。(2) 中国 1956 年的恩格尔系数与日本 1946 年的恩格尔系数近似相等。食品支出约占总支出的 63%。40 多年间,日本降了 0.4,中国降了 0.2。(3) 从整体看,日本恩格尔系数的年下降速度是中国的 2.3 倍。从 1980 年以后考察,中国恩格尔系数的年下降速度是日本的 1.8 倍。(4) 1995 年日本的恩格尔系数是 0.222,1998 年中国的恩格尔系数是 0.445。以 1
10、981-1998 年的平均速度,中国若要把恩格尔系数降至 0.222 至少需要 30 年!(5) 验证了经济理论。随着收入的增加,恩格尔系数的下降速度要减慢。可见,通过定量分析,对这一问题的了解要比只做定性分析清晰的多。2寻找经济规律、建立经济计量模型,为制定经济政策服务。通过计量模型得到参数(边际系数,弹性系数,技术系数,比率,速率等)的可靠估计值,从而为制定政策,实施宏观调控提供依据。例 2:图 1.2 给出 1952-1998 年中国现金需求量(M0)和国内生产总值(GDP)的散点图。为充分展示改革开放前后 M0 与 GDP 之间关系的变化,用 1952-1985 年数据画散点图见图 1
11、.3。从图中可以看到,改革开放以后,M0 与 GDP 关系的斜率比改革开放以前大一倍多。用 1952-1985 年数据得到的现金需求量模型如下:图 1.2 图 1.3M0t = 0.062 GDPt + 0.078 GDPt D1 (1952-1998) (1.3)(2.4) (3.0) R2 = 0.99, DW = 0.67即 M0t = 0.062 GDPt (1952-1978, D1 = 0) (1.4)M0t = 0.140 GDPt (1979-1998, D1 = 1) (1.5)通过图 1.3 和模型(1.3)-(1.5)可知三点。 (1)市场经济与计划经济有明显不同。改革开
12、放后,许多支出进入商品领域(如住房,医疗费等) 。 (2)改革开放后,GDP 对现金的边际需求比改革开放前增加了 1.26 倍(0.078/0.062 ) 。 (3)根据 GDP 规模,为确定年度的现金投放量提供科学依据。3做经济预测。这是经济计量学利用模型所要解决的最重要内容,也是最困难的内容。经济计量学的发展史就是谋求对经济变量做出更精确预测的发展史。这要求(1)变量选择要准确, (2)模型形式要合理。研究方法:计量经济学研究问题可分为以下四个阶段:1、建立模型。根据经济理论对所研究问题的阐述,找出经济变量间的因果关系及相互间的联系。把要研究的经济变量作为因变量,影响因变量的主要因素作为自
13、变量,影响因变量的非主要因素及随机因素归并到随机项,建立计量经济模型。 2、估计参数。模型建立以后,首先收集模型中经济变量的统计资料,再应用相应的计量经济方法,估计模型中的待定系数。注意:(1)这里的统计资料一般包括以下三种:时间序列数据、横截面数据和合并数据(时间序列数据与横截面数据的联合) 。类型 特点 例子时间序列数据 按时间间隔排列收 集的数据集合每日(如股票) 、每周(如货币供给) 、每月(如失业率) 、每季度(如 GDP) 、每年(如政府预算)等等横截面数据指一个或多个变量在某一时点上的数据的集合例如美国人口调查局每 10 年进行的人口普查数据、2006 年中国各省的 GDP 序列
14、合并数据 既有时间序列数据 又有横截面数据例如我们收集 20 年间 10 个国家有关失业率方面的数据,那么这个数据集合就是一个合并数据。每个国家 20 年间的失业率数据是时间序列数据,而 10个不同国家每年的失业率数据又组成横截面数据(2)统计资料的收集方法很多,可以利用已经正式出版发行或官方公布的统计资料,例如各种统计年鉴和下面列出的相关的数据网站。也可以通过到各有关部门或基层调查获得。相关数据网站:中国国家统计局: 经合组织数据库:http:/www.oecd.org统计链接 美国人口普查局:www.census.gov新华社:http:/www.xinhua.org 美国会图书馆:ww
15、w.loc.gov中国人民银行网: 美国商业部:www.stat-usa.gov商务部:http:/ 亚洲东盟网站:www.aseansec.org国家外汇管理局: APEC 网站:www.apecsec.org.sg国家信息产业部: IBM 公司: 美国纳斯达克网:经济杂志网: 国际货币基金组织数据库:http:/www.imf.org中国网:http:/ 搜索网站:中国国家图书馆:http:/ 英文书搜索网站:中国蔚蓝网络书店:3、检验模型模型的参数估计以后,我们需要对模型进行检验,检验这些参数是否可靠、是否符合经济理论和假设检验的要求。如果以上的检验出现问题,应采取相应的办法予以补救。如
16、改变模型的形式,变换估计方法,重新选取样本数据,修正样本数据等。4、运用模型进行分析和预测应用估计出的并经过检验的回归模型进行经济分析和经济预测。参考书和文献:1李子奈, 计量经济学 ,高等教育出版社,2000 年。2张晓峒主编, 经济计量学基础 (第 2 版) ,南开大学出版社,2005。3林少宫译, 计量经济学 , (Gujarati D., Basic Econometrics 第 3 版) ,中国人民大学出版社,2000。庞皓,程从云译, 基础经济计量学 (Gujarati D., Basic Econometrics, 第 1 版 McGRAW-HILL KOGAKUSHA LTD.
17、, 1978) ,科学技术文献出版社重庆分社,1986 年 5 月。4钱小军等译, 计量经济模型与经济预测 , (R S Pindyck and D L Rubinfeld, Econometric models and economic forecasts, McGraw-Hill Companies Inc) ,机械工业出版社,1999.11。5 J H Stock and M W Watson, Introduction to Econometrics, Addison Wesley, 2003。中译本,东北财经大学出版(王庆石)2005。影印本,上海财经大学出版,2004。6张寿、于清
18、文编著, 计量经济学 ,上海交通大学出版社,1984。7 Kerry Patterson, An Introduction on Applied Econometrics: A Times Series Approach, 2000.8韩德瑞,秦朵, 动态经济计量学 , (Dynamic econometrics, Hendry D. F. 著) ,上海人民出版社,1998.4.9陆懋祖, 高等时间序列经济计量学 ,上海人民出版社,1999 年 8 月。10张世英, 协整理论与波动模型 ,清华大学出版社,2004。11刘明志译,James D. Hamilton 著, 时间序列分析 ,中国社会
19、科学出版社,1999 年 12月, (Time Series Analysis, 1994.)12 J. Davidson, Econometric Theory, Blackwell, 2000.13 F. Peracchi, Econometrics, John Wiley and Sons Ltd. 2000.14顾岚主译, 时间序列分析,预测与控制 ,中国统计出版社;1997。 (Box G.E.P and Jenkins G. M., Time Series Analysis, Forecasting and Control, Holden-day Inc. 1966, 1967,
20、1976, 1994.) 。15顾岚编著, 时间序列分析在经济中的应用 ,中国统计出版社;1998。16王耀东,张德远,张海雄, 经济时间序列分析 ,上海财经大学出版社,1996。17 Walter Enders, Applied Econometric Time Series, John Wiley and Sons Inc., 2004.18 Cheng Hsiao(萧政), Analysis of Panel Data, Cambridge University Press, Cambridge, 200319李子奈, 计量经济学 ,高等教育出版社,2000 年。经济计量学常用软件:1E
21、Views (Econometric Views) V. 2.0, 3.0, 4.0, 5.0, 5.1(美国 QMS 公司的软件产品)2TSP (Time Series Processor) V. 4.3 (Palo Alto, California,USA)3PcGive (Personal Computer, General Instrumental Variable Estimation) V. 8.0, 9.0, 10.0,(J.A. Doomik and D.F. Hendry)4PcFiml (Personal Computer, Full Information Maximum
22、 Likelihood Estimation) V. 9.0, 10.05RATS (时间序列分析,协整分析,ARCH, GARCH 模型,画图 )6Microfit (H. Pesaran and B. Pesaran, Oxford University)7Mathematica V. 3.0, 3.1, 4.0(处理各种数学运算)8S-PLUS V. 5.0(包括回归分析、方差分析、判别分析、聚类分析、试验设计、非参数方法、生存分析、时间序列分析、谱分析、投影寻踪等。 )9Ox V. 1.11, (多用于蒙特卡罗模拟)10 GAUSS V. 3.2.19(多用于蒙特卡罗模拟)(Kent,
23、 Washengton, USA)11 STATA V. 9 和 SPSS, SAS(主要用于一元和多元统计分析)经济计量学的主要刊物:1. Econometrica*, 双月刊,美国经济计量学会主办, 1933 年创刊。2. Journal of Econometrics*, 双月刊,瑞士出版,1973 年创刊。3. Journal of Applied Econometrics*,双月刊,美国 John Wiley&Sons 出版社,1986 年创刊。4. Econometric Theory, 每年五期,英国剑桥大学出版社,1985 年创刊。5. Oxford Bulletin of E
24、conometrics and Statistics*, 季刊,牛津大学经济与统计研究所主办,1936 年创刊。6. Journal of the American Statistical Association*, 季刊,美国统计协会主办, 1888 年创刊。7. The Japanese Economic Review, 季刊,日本经济与计量经济协会主办, 1950 年创刊。8. the American Economic Review9. 数量经济技术经济研究 ,月刊,中国数量经济学会主办。10. 经济研究 ,月刊,中国社会科学院经济研究所主办。赵娜 南开大学经济学院 jiliang_
25、13752578301补充材料:相关理论相关分析是研究变量间相互关系的最基本方法。从相关分析中引出的相关系数是回归分析的一个基本统计量。掌握它有助于对经济问题和经济计量模型的分析与理解。1 相关的定义与分类定义:相关(correlation)指两个或两个以上变量间相互关系的程度或强度。分类:按强度分完全相关:变量间存在函数关系。例,圆的周长,L = 2 r。高度相关(强相关):变量间近似存在函数关系。例,我国家庭收入与支出的关系。弱相关:变量间有关系但不明显。例,近年来我国耕种面积与产量。零相关:变量间不存在任何关系。例,某班学生的学习成绩与年龄。完全相关 高度相关、线性相关、正相关 弱相关
26、按变量个数分按形式分:线性相关, 非线性相关简单相关:指两个变量间相关按符号分:正相关, 负相关, 零相关复相关(多重相关和偏相关):指三个或三个以上变量间的相关。非线性相关 负相关 零相关因非线性相关可以转化为线性相关处理,而复相关又可看作是简单相关基础上的拓展,所以后面重点介绍简单线性相关。2 简单线性相关的度量用简单线性相关系数,简称相关系数(correlation coefficient)度量两个变量间的线性相关强度,用 表示。 的随机变量表达式是 = 。)(ttyDx,Cov 的统计表达式是 = = TtyTtxtty1212)()( TtyTtxtt1212)()(其中 T,总体容
27、量;x t, yt,变量的观测值; x,y,变量观测值的均值。下面解释 为什么能对变量间的线性相关强度进行定量度量。因为 表达式的分子是协方差,Cov (xt , yt);分母是 xt 和 yt 的标准差之积。而 xt 和 yt的标准差不会为零,所以 Cov (xt , yt) 是否为零,就决定了 是否为零,即标志着变量 xt, yt 间是否存在线性相关关系。但 Cov(xt , yt) 有两个缺点:它是一个有量纲的量,取值容易受测量单位的影响;取值范围宽,相关性越强,Cov(x t , yt) 取值越大。为克服上述缺点,用 xt, yt 的标准差除Cov(xt , yt),于是就得到相关系数
28、 的统计表达式。它是一个无量纲量。相关系数 是对总体而言。当研究某个问题时,所得数据常是一个样本。对样本来说,相关系数常用 r 表示,即 r 是总体相关系数 的估计值。r = = = TtTtttyx1212)(-)(- TtTtttyx1212)()(其中 T,样本容量;x t, yt,变量的观测值; , ,变量观测值的均值。xy3 相关系数的取值范围(1) 当两个变量严格服从线性关系时, = 1。证:设直线斜率为 k, 即 y = a + k x。则有 = = = 122)()(yxtt22)()(xkxtt(2) 当两个变量不存在线性关系时, = 0。(3)上述是两种极端情形,所以相关系
29、数的取值范围是 -1,1 。当 Cov (xt , yt) 0 时,则 0 (正相关 );当 Cov (xt , yt) r (T-2) (临界值) ,则 xt 和 yt 相关;若 r t (T-2) ,则 xt 和 yt 相关;若 t r( f ) = , 其中 表示显著性水平, f 表示自由度,r ( f ) 为临界值。见教材 416 页的附表 7。关于 t 检验的临界值表参阅教材 409 页的附表 1。经济学参考书目:1、高鸿业, 西方经济学:微观部分(第三版)-21 世纪经济学系列教材 ,西方经济学:宏观部分(第三版)-21 世纪经济学系列教材 ,中国人民大学出版社,2005 年 1
30、月。西方经济学学习与教学手册(21 世纪经济学系列教材) ,中国人民大学出版社,2005 年 6 月。2、 高鸿业、刘凤良, 20 世纪西方经济学的发展 ,商务印书馆,2004 年 4 月3、尹伯成, 西方经济学简明教程(第 5 版) ,世纪出版集团、上海人民出版社 ,2006 年 3 月。4、伍柏麟、尹伯成, 经济学基础教程-复旦博学经济学系列 ,复旦大学出版社,2002 年 3 月。5、 姚开建、梁小明, 西方经济学名著导读-经济学经典著作读丛书 ,中国经济出版社,2005 年 1 月。6、梁小民, 西方经济学教程(修订版) ,中国统计出版社,2005 年 12 月。7、方福前, 当代西方
31、经济学主要流派 ,中国人民大学出版社,2004 年 12 月。8、王志伟, 现代西方经济学主要思潮及流派 ,高等教育出版社,2004 年 9月。数学参考书目:9、赵萍, 经济数学基础及应用-线性代数及概率论 ,哈尔滨工业大学出版社,2006 年 10 月。10、李尚志, 线性代数 ,高等教育出版社,2006 年 5 月。11、卢刚, 线性代数 ,北京大学出版社,2006 年。12、陈维新, 线性代数(第 2 版) ,北京科学出版社,2006 年。13、冉兆平, 微积分 ,上海财经大学出版社,2006 年。14、田长生, 概率统计与微积分 ,北京科学出版社,2006 年。15、李林曙, 微积分
32、,中国人民大学出版社,2006 年。16、王雪标、王拉娣、聂高辉, 微积分 ,高等教育出版社,2006 年。17、马恩林, 概率论与数理统计 ,人民教育出版社,2006 年。18、吴赣昌, 概率论与数理统计 ,中国人民大学出版社,2006 年。19、葛余博等著, 概率论与数理统计通用辅导讲义 ,清华大学出版社,2006年。统计学参考书目:20、邢哲, 统计学原理 ,中国金融出版社,2006 年 8 月。21、李荣平, 统计学 ,天津大学出版社,2006 年。22、吴梅村, 数理统计学基本原理和方法 ,西南财经大学出版社,2006 年。23、曾五一, 统计学 ,中国金融出版社,2006 年。24
33、、(美)A.M.穆德、F.A.格雷比尔著、史定华译, 统计学导论 ,北京科学出版社,1978 年。补充材料一、随机变量及其数字特征随机变量及其分布的研究是以事件及其概率的研究为基础展开的。它是统计推断的理论基础。随机变量定义:按一定的概率取不同实数值的变量称为随机变量,用 x, y 等表示。如(1)天津站每日的客流人数。 (2)某商场日销售电视机台数。 (3)某储蓄所的日存款余额。 (4)某地区居民的日用水量。 (5)高速公路上单位时间内通过的机动车数量。(6)流水线上生产的罐装啤酒的净重值。若随机变量 x 可能取的值为有限个或可列个,则称 x 为离散型随机变量。若随机变量 x 可能取的值是整
34、个数轴,或数轴上的某个区间,则称 x 为连续型随机变量。连续型随机变量的概率分布是通过随机变量在一切可能区域内取值的概率定义的。最常用和最简便的形式是通过概率密度函数表示。对于随机变量 x,若存在非负可积函数 f (x), (- 0,则称 x 服从正态分布。记作 x N(, 2 )。 , 分别是 x 的数学期望和标准差。可以证明E(x) = x f (x) dx = x exp(- ) dx = 212(xVar (x) = (x - )2 f (x) dx = (x - )2 exp(- ) dx = 212(x= )(Var三种不同参数的正态分布曲线见图 1。概率密度函数 f (x)呈钟形
35、。最大值点在 x = 处。曲线以 x = 对称。在 x = 处密度函数曲线有拐点。当 x 时,f (x) 以 x 轴为渐近线。当 较大时,f (x) 曲线较平缓;当 较小时, f (x) 曲线较陡峭。已知 和 的值,就可以完全确定正态分布密度函数。对某产品的物理量测量常服从于正态分布。标准正态分布定义:对于正态分布密度函数 f (x),当 = 0, = 1 时,即f0 (x) = exp(- )212x称连续型随机变量 x 服从标准正态分布。记作 x N(0, 1 )。对于标准正态分布 E(x) = 0,Var(x ) = =1。(Var标准正态分布曲线见图 2。标准正态分布密度函数 f0(x
36、)有如下性质:(1) f0(x) 以纵轴对称;(2)x = 0 时,f 0(x) 的极大值是 1/ = 0.3989;(3)f 0(x) 在 x = 1 处有两个2拐点;(4) f0 (x) = 0。Tplim1 2 3 4 5 60.20.40.60.8-4 -2 2 40.10.20.30.4图 1 正态分布曲线 图 2 标准正态分布曲线正态分布随机变量的标准化。若 x N(, 2 ),a, b 为任意实数,且 a t (T-2) ,则接受备择假设 H1: 1 0,表明 x 对 y 有显著影响;若 t t/2 (T-2) ,则接受备择假设 H1: 0 0,表明模型中应该保留截距项;若 t
37、t/2 (T-2) ,则 接受原假设 H0: 0 = 0,表明一元线性回归模型中不应该包括截距项。上面的显著性检验如果得出拒绝 j = 0(j=0 ,1)的原假设,只能说明估计值 是由j取自参数 j 不为零的总体中的一组样本观测值所确定的。为了确定 接近总体 j 的程度,j我们需要构造一个以 为中心的区间,总体参数 j 在一定的置信度下落在这个区间之内。j计量经济学中选择的置信度(置信水平)一般为 95%,说明总体参数 j 以 95%的概率落在的置信区间内,当然还有 5%的可能落在置信区间外。置信区间越小,说明估计值 越j j接近总体参数 j。可选择的置信度还有 90%和 99%。根据 t 分
38、布来构造置信区间。在原假设 H0: 1 = 0 成立条件下,t = (具有 T-2 个自由度))1(s那么我们根据置信度 1-,查自由度为 f=T-2 的 t 分布表,得临界值 t, ,t 值落在(- t,t )的概率是 1-,即P t/2, (T-2) = 1- )(1s由大括号内不等式得 1 的置信区间- t/2, (T-2) 1 + t/2, (T-2)1)(s)(1s可记作 11/2/2,其中 是 = 的算术根,而其中的 是 的算术根。)(1s)(212)(xt20 的置信区间同理可得。由此可以看出,置信区间的大小取决于回归系数估计值的标准差,标准差越小,置信区间越小, 越接近 j,估
39、计结果就越可靠。j9y F 的点预测及其区间预测下面以时间序列数据为例介绍预测问题。预测可分为事前预测和事后预测。两种预测都是在样本区间之外进行,如图所示。对于事后预测,被解释变量和解释变量的值在预测区间都是已知的。可以直接用实际发生值评价模型的预测能力。对于事前预测,解释变量是未发生的。当预测被解释变量时,则首先应该预测解释变量的值。对于解释变量的预测,通常采用时间序列模型。预测式中所有解释变量的值都是已知的称为事后预测。T1 T2 T3(目前)样本区间 (1980-2005 ) 事后预测 事前预测 (2006) (2007)对于模型 y t = 0 + 1 xt + ut如果给定 样本以外
40、 的解释变量的观测值 xF,有:y F = 0 + 1 xF + uF因为 xF 不是原来回归方程中的样本,所以 uF 和原模型中的 ut 不相关。如何求出 yF 的合理的值或范围,就是回归分析中预测的内容。具体分为点预测和区间预测二类。(1) yF 的点预测。假定已知解释变量 x 的一个特定值 xF,代入样本回归方程: = + xt,可得ty01= + xFFy01则 是 yF 的预测值,由于求出的是单个预测值,故称为“点预测” 。特定值 xF 是可以任意给定的。如果 xF 在样本区间内,则点预测过程称为内插预测,人们常常用内插预测检验样本回归方程的预测能力。如果在样本区间之内预测值 接近样
41、本值 yF,则说明在样本区间Fy内的预测功效是好的。如果 xF 是样本区间之外的点,则点预测过程称为外推预测。实际预测时,常常做的是外推预测。(2) 单个 yF 的区间预测一个好的预测结果,一是无偏,二是预测的方差要小。我们可以证明点估计值 有以Fy下两种不同的概念:是总体真值 yF 的无偏估计值;是总体回归直线 E(yF)的无偏估计值。的分布是Fy N (0 + 1 xF, (1+ + ) )T12(xtF所以,在置信度 1-下,y F 的区间预测是 t/2 (T-2) Fy2)(1xtF可知,当置信水平 1-给定之后,y F 的预测区间的大小实际由 绝对值的大小决定。xxF 越接近样本区间
42、内解释变量 x 的平均值 ,y F 的置信区间就越小,预测结果就越可靠。(3) E(yF) 的区间预测E( ) 的分布是E( ) N (0 + 1 xF, ( + ) )FyT2(xtF则 E(yF) 在置信度 1-下的区间预测是 t/2 (T-2) Fy2)(1xtFyF 和 E(yF)的置信区间(置信带或置信域)图示如下:(1)样本容量 T 越大,预测精度越高,反之预测精度越低;(2)样本容量一定时,置信带的宽度当在 x 均值处最小,其附近进行预测(插值预测)精度越大;x 越远离其均值,置信带越宽,预测可信度下降。10案例:用回归模型预测木材剩余物(file:b1c3)伊春林区位于黑龙江省
43、东北部。全区有森林面积 218.9732 万公顷,木材蓄积量为2.324602 亿 m3。森林覆盖率为 62.5%,是我国主要的木材工业基地之一。1999 年伊春林区木材采伐量为 532 万 m3。按此速度 44 年之后,1999 年的蓄积量将被采伐一空。所以目前亟待调整木材采伐规划与方式,保护森林生态环境。为缓解森林资源危机,并解决部分职工就业问题,除了做好木材的深加工外,还要充分利用木材剩余物生产林业产品,如纸浆、纸袋、纸板等。因此预测林区的年木材剩余物是安排木材剩余物加工生产的一个关键环节。下面,利用一元线性回归模型预测林区每年的木材剩余物。显然引起木材剩余物变化的关键因素是年木材采伐量
44、。给出伊春林区 16 个林业局 1999 年木材剩余物和年木材采伐量数据如表 2.1。散点图见图 2.14。观测点近似服从线性关系。建立一元线性回归模型如下:yt = 0 + 1 xt + ut表 2.1 年剩余物 yt 和年木材采伐量 xt 数据林业局名 年木材剩余物 yt(万m3)年木材采伐量 xt(万m3)乌伊岭 26.13 61.4东风 23.49 48.3新青 21.97 51.8红星 11.53 35.9五营 7.18 17.8上甘岭 6.80 17.0友好 18.43 55.0翠峦 11.69 32.7乌马河 6.80 17.0美溪 9.69 27.3大丰 7.99 21.5南岔 12.15 35.5带岭 6.80 17.0朗乡 17.20 50.0桃山 9.50 30.0双丰 5.52 13.8合计 202.87 532.00图 2.14 年剩余物 yt 和年木材采伐量 xt 散点图