1、1,第 三 讲,二、异 方 差 性,放宽古典假定下的计量经济模型,2,引子:更为接近真实的结论是什么?,根据四川省2000年21个地市州医疗机构数与人口数资料,分析医疗机构与人口数量的关系,建立卫生医疗机构数与人口数的回归模型。对模型估计的结果如下:(291.5778) (0.644284)t =(-1.931062) (8.340265)式中: Y为卫生医疗机构数(个), X为人口数量(万人)。人口数量对应参数的标准误差较小 t 统计量远大于临界值 F检验结果明显很显著 可决系数和修正的可决系数结果比较好 表明该模型的估计效果不错。,3,真的每2000人就需要一个医疗机构吗 ?,该模型的估计
2、结果表明: 可以认为人口数量每增加1万人,平均说来医疗机构将增加5.3735个。然而,这里得出的结论是否可靠呢? 每增加1万人口平均说来真的需要增加这样多的医疗机构吗? 问题: 有什么充分的理由说明这一回归结果不可靠呢?为什么会得出这种不切实际的结论呢?更为接近真实的结论应该是什么呢?,4,二、 异方差性,将讨论四个问题:异方差的实质和产生的原因异方差产生的后果异方差的检测方法异方差的补救,5,(一) 异方差性的概念,1、异方差的实质,回顾:总体回归线是Y的条件期望 的轨迹其中 是 对回归线(条件期望)的偏离度量的是被解释变量的观测值 围绕回归线的分散程度 基本假定中同方差的含义:同方差性:指
3、对所有的观测值 有: 因此同方差性指的是所有 的观测值对回归线的分散程度都相同。,6,同方差性的图示(简单线性回归时),7,模型中随机扰动项包含的因素很多,但主要代表两方面影响: (1)被模型忽略的其他变量(因素)对被解释变量的影响 (2)某些变量测量误差的影响 同方差性是指这两方面都不会随 的变化而变化。而实际 上随机扰动代表的这两方面因素有可能随 的变化而变化, 使得随机扰动项的方差也可能随 的变化而变化,这种情 况称为存在异方差性,表现为(对比同方差时为 ) 异方差可看成是由某个解释变量的变化而引起方差的变化, 则,异方差性的含义:,8,异方差性的图示(简单线性回归时),9,2、产生异方
4、差性的原因, 从模型中略去的变量,可能随模型中的解释变量 的变化也呈现某种规律性的变化,导致 随 而变化。例如模型本来应该为却设定为若 与 有关,如事实上此时这样模型中的随机项 及方差可能会随 的变动而变化。 模型设定不恰当产生的异方差。如果一些重要变量被忽略,随机项随重要变量的变动而变动;或把非线性模型设定为线性,可能导致异方差,(略去了 ),10,统计测量误差导致的异方差 因为测量误差有可能随解释变量X的增大而增大 截面数据中总体各单位的差异可能导致异方差一般说,异方差性在截面数据中可能比在时间序列数据中更常出现(原因:同一时点不同对象的差异一般会大于同一对象不同时间的差异)注意:在经济高
5、速增长、经济结构发生较大变化时,时间序列也常出现异方差,11,存在异方差时,OLS估计仍然是无偏估计(由第二章参数估计的统计特性可知,只用到零均值假定E(ui)=0,以及解释变量的非随机性),但是1、OLS估计式不再具有最小方差特性OLS估计式的方差不一定是最小的,即OLS估计 式虽然无偏,但不一定是最佳的估计。最小方差性的证明条件之一同方差性已不成立 (见P59最小方差性证明用到条件 )存在异方差时,事实上能够再找到比OLS 的方差更小的估计方法 可见,需要深刻认识参数估计量方差与异方差和自相关性质的 关系。,(二) 异方差性的后果,12,异方差和自相关与参数估计量方差的关系 (为说明方便,
6、以一元回归为例),容易证明 对于 有这里令 则因此有,(见教材P32),其中,13,14,由在同方差且无自相关时在异方差但无自相关时在同方差但自相关时结论:参数估计量方差与异方差和自相关的性质有密切关系,15,(1) 参数估计式方差的确定会面临困难 例如一元回归中,已证明在异方差时 未知,且不再是常数,也不能再用 去估计,因此事实上这时 已难以确定, 也将 难以确定。,2、解释变量的显著性检验失效,16,在异方差但无自相关时设存在异方差时的参数为 ,估计式为 例如, 方差为 存在异方差时 的方差为:如果 ,则有 注意: 是不存在异方差时 的方差,(2)如果仍用OLS法,可能会低估参数估计量的方
7、差,17,可以看出,如果仍然用不存在异方差性时的OLS方式去估计其方差,例如一元回归时用 所估计的方差,可能会低估存在异方差时的的真实方差。 后果: 低估了 ,也就会高估 t 统计量,从而 夸大所估计参数的统计显著性。,由,18,尽管参数的OLS估计量仍然无偏,并且基于此的预测也是无偏的,但是异方差对区间预测有多方面影响:由于 难以确定,Y 的方差也难以确定,Y 置信区间的确定会出现困难 由于异方差的存在, 的方差增大,Y预测值的精确度将会下降在 是 无偏估计的证明 (P60附录2.2)中也用到了 的同方差性假定,由于存在异方差性,使得 的估计不再是无偏估计,在此基础上的区间估计和假设检验都将
8、变得不可靠。,3、预测精度降低,区间预测将面临困难,19,(三) 异方差性的检验,1、图示检验法基本思想:异方差性的表现是 的方差随某个解释变量的变化而变化,或 Y 的分散程度随 X 的变化而变化。因此可利用 的代表 与某解释变量的散布图,观察是否存在异方差及其异方差的形式,或从 Y 的分散程度与 X 的关系观测是否存在异方差。具体方法:假定不存在异方差,进行回归,并计算剩余平方 ,描绘 与 的散点图或Y与X的散点图,作出近似判断。,20,Y与X之间图形举例: 分析Y与X的相关图形,也可以初略地看到Y的离散程度与X之间是否有相关关系。 用1998年四川省各市州农村居民家庭消费支出与家庭纯收入的
9、数据,绘制出消费支出对纯收入的散点图,其中用 表示农村家庭消费支出, 表示家庭纯收入。,(1)相关图形分析,21,例如对于一元线性回归模型:运用OLS法估计,得样本回归模型为:由上两式得残差:绘制 对 的散点图 如果 不随 而变化,则表明不存在异方差; 如果 随 而变化,则表明存在异方差。,(2)残差图形分析,22,2、Goldfeld-Quandt 检验(GQ检验) 作用:检验递增性(或递减性)异方差。 基本思想:将观测值按 的大小顺序排列去掉中间位置的一部分观测值, 从而把观测值分为前后两部分 (目的是使差异更明显,提高分辨性)将前后两部分分别作回归,分别计算出各部分剩余 , 比较两个回归
10、的剩余平方和 ,看二者差异是否明显:两个 之比接近于1,相差不大,为同方差, 两个 之比不同于1,相差较大,为异方差。 前提条件:样本容量较大 服从正态分布,并除异方差外服从其他基本假定,C个,23,具体步骤: 排序: 将观测值按解释变量X大小顺序排列 数据分组:去掉中间的C个(约1/4)观测值,分别进行前后两部分 个观测值的回归 提出假设:分别进行前后两部分回归的基础上,提出检验假设:是同方差(前后两部分方差无显著差异),即是异方差(方差随X递增或递减)如为递增如为递减,24,构造F统计量: (1)若方差随X递增统计量 F服从第一、二自由度均为 的F 分布。 判断: 查表得F临界值若 (临界
11、值),说明后部分的值比前部分的值显著的大,就拒绝 (同方差) ,即接受存在异方差性若 (临界值),说明后部分不比前部分的值显著大,就接受 ,认为是同方差性,25,(2)如果方差随X递减统计量 F服从第一、二自由度均为 的F 分布。判断:查表得F临界值若 (临界值),说明前部分的值比后部分的值显著的大,就拒绝 (同方差) ,即接受存在异方差性若 (临界值),说明前部分的值不比后部分的值 显著大,就接受 ,认为是同方差性,26,要求大样本异方差的表现既可为递增型,也可为递减型检验结果与选择数据删除的个数c的大小有关只能判断异方差是否存在,在多个解释变量的情况下,对是哪一个变量引起异方差的判断存在局
12、限。,Goldfeld-Quandt 检验的特点,27,3、White检验基本思想:如果存在异方差,其方差 与某解释变量有关系。在不知道关于异方差的任何先验信息时,在大样本的情况下,将OLS估计后的残差平方对解释变量的各种形式(如常数、解释变量、解释变量的平方及其交叉乘积等)构成一个辅助回归,利用辅助回归建立相应的检验统计量来判断异方差性。(本质:用解释变量的各种可能形式去试探),28,例如两个解释变量的模型中 设 与 的关系为如下辅助回归:但一般 未知,可用原模型回归剩余的平方 作为 的 估计值,进行以上辅助回归。在大样本情况下寻求能确定 分布的统计量,判断 的变化是否与解释变量有关。(当有
13、K个解释变量时,可作类似的含两两交互的辅助回归),其中 为随机误差项。,29,(1)求回归估计式并计算 用OLS法估计原模型,计算残差 ,并求残差的平方 。 (2)作辅助回归 用残差平方 作为异方差 的估计,建立 与的辅助回归,即,检验的基本步骤:,并计算辅助回归的可决系数,30,(3)提出假设(4)计算统计量 为样本容量, 为辅助回归可决系数。 在大样本情况下可以证明,在零假设成立下, 服从自由度为辅助回归中解释变量项数(这里为5)的 分布,即,31,(5)检验 给定显著性水平 ,查 分布表得临界值 ,如果 , 不合理,则拒绝原假设 ,即认为模型中随机误差存在异方差 。 若 则不拒绝 ,即认
14、为模型中随机误差是同方差。,32, 要求为大样本 不仅能够检验异方差的存在性,同时在多变量的情况下,还能判断出是哪一个变量引起的异方差。,White检验的特点,33,4、ARCH检验 ARCH (autoregressive conditionanl helecosecdasticity)过 程(自回归条件异方差):异方差呈现自回归的形式 p 为ARCH过程的阶数,并且 为随机误差。 基本思想: 时间序列数据中可检验存在的异方差性是否为 ARCH 过程: 因各个 均未知,用对原模型OLS估计的剩余项 去近似估计, 通过检验ARCH过程是否成立去判断是否存在异方差。,34,(1) 估计参数并计算
15、 用OLS法估计原模型参数,求出残差 ,并计算 残差平方序列 ,以分别作为对的估计。 (2)作辅助回归 计算辅助回归的可决系数 (3)提出原假设,ARCH 检验的基本步骤,35,(4)检验计算辅助回归的可决系数 与 的乘积 ,在 成立时,可以证明,基于大样本, 渐近服从自由度为 的 分布,即给定显著性水平 ,查 分布表得临界值 如果 ,则拒绝 , 说明ARCH过程成立,表明模型存在异方差。如果 ,则不拒绝 , 说明ARCH过程不成立,表明模型不存在异方差。,36,ARCH检验的特点只适于时间序列数据变量的取值为大样本,只能判断模型中是否存在异方差,而不能诊断出是哪一个变量引起的异方差。,37,
16、5、Glejser检验,检验的基本思想 用OLS法将被解释变量Y对解释变量回归得残差 ,取 的绝对值 ,然后将 对某个解释变量 的各种 函数形式回归,例如 用各种函数形式去试,寻找最佳的函数形式,若某种函 数形式的回归系数显著不为0,就说明存在异方差,若 回归系数都不显著,就认为是同方差。 注意:用 的绝对值 而不用实际值,原因是: 因 ,无法进行 的回归方差的大小随X的变动,与 的符号无直接关系,38,(1)根据样本数据建立回归模型,并求残差序列(2)寻找 与 的最佳函数形式用残差绝对值 对 进行回归,用各种函数形式去试验,寻找最佳的函数形式。 例如,检验的步骤,39,(3)判断根据选择的函
17、数形式作 对 的回归,用回归所得到的 、 、 等信息去判断,若参数 显著不为零,即认为存在异方差性。,检验的特点:不仅能对异方差的存在进行判断,而且还能对异方差随某个解释变量变化的函数形式进行诊断。该检验要求变量的观测值为大样本。,40,问题: 与 回归的函数形式事实上不可能一一找完。 回归的误差项 本身可能出现均值不为0、自相关、异方差 一般只可用于大样本的情况,41,(四) 异方差的修正 1、对原模型加以变换 基本思想: 例如原模型: 通过模型变换,使异方差的随机扰动项具有同方差性 异方差性与 的变化有关,可假定 ,其中的 为常数 如果 已知,以 除原模型两边,将原模型变换为变换后的模型的
18、扰动项 是同方差的,因为,42,具体作法:关键是找到适合的函数形式对 的函数形式可作出各种假定, 例如:的函数形式可参考图形分析法或Glejser法去确定 注意: 模型变换可能引起变量出现“虚构的”的相关关系 对原模型变换后的拟合优度可能变小,这是对观测值加权的结果,43,2、加权最小二乘法(WLS)基本思想: 回顾用OLS法估计参数是使这里不论 的大小对各观测值同等对待(因是同方差)。 在异方差且方差 已知的情况下,各观测值对决定回 归线的作用应该有所差异。方差越小,其样本值偏离均值 的程度越小,其观测值越应 受到重视。即方差越小,在 确定回归线时的作用应当越 大,反之方差越大,其观测 值所
19、起的作用应当越小。,44,所以可以用方差的倒数 作为权数,即令,而使得按这样的原则估计的 称为加权最小二乘估计式(WLS),45,具体作法:如果 已知,令 容易证明WLS估计式为其中: 、 为加权平均数、 为观测值与加权平均数的离差可以证明(见下页),加权最小二乘估计可以消除或减轻 异方差的影响。,46,模型变换与加权最小二乘法的关系例如原模型 如果 为异方差,假定其方差为 即 则(1)模型变换 原模型变换为即其中随机项 或 是同方差的,用OLS法估计参数,其剩余平方和为,47,(2)加权最小二乘法用 方差的倒数 作为权数其加权回归的剩余平方和为对比模型变换后的剩余平方和:二者的剩余平方和只相
20、差常数 ,能使其中一个最小时必能使 另一个最小。用模型变换后的OLS估计的参数实际与应用加权最小 二乘法估计的参数是一致的。(这也间接证明了加权最小二乘法可以消除异方差),48,3、模型的对数变换基本思想: 对数变换可使所测量变量的尺度缩小,从而缩小原变量差异的倍数,如 log(10)=1; log(100)=2; LOG(1000)=3 对数变换后模型的剩余 表示一种相对误差,一般相对误差 比绝对误差有较小的数值差异 具体作法: 原模型为: 变换为 注意:变换后模型中参数的意义发生了变化,这时 是 对 的弹性,即Y相对于X的百分比变化,这与原模型中不同。,49,(五) 案例分析,案例1:医疗
21、机构与人口数量的关系(见引子,不讲) (一)问题的提出和模型设定为了给制定医疗机构的规划提供依据,分析比较医疗机构与人口数量的关系,建立卫生医疗机构数与人口数的回归模型。假定医疗机构数与人口数之间满足线性约束,则理论模型设定为:其中 表示卫生医疗机构数, 表示人口数。,50,四川省2000年各地区医疗机构数与人口数,51,(二)参数估计,进入EViews软件包,确定样本范围;编辑输入数据;选择估计方程菜单,估计样本回归函数如下:估计结果为,52,(三)检验模型的异方差性,1、图形法1.1 EViews软件操作(1)生成残差平方序列。在得到估计结果后,立即用生 成命令建立 序列(记为e2)。生成
22、过程如下,先按路径:点击“Genr”或者“Quick/Generate Series”,进入“Generate Series by Equation”对话框,即在对话框中(如图), 键入“e2=(resid)2”/OK,则生成序列 。,53,(2)绘制 对 的散点图。选择变量名X与e2(注意选择变量的顺序,先选的 变量将在图形中表示横 轴,后选的变量表示纵 轴),进入数据列表, 再按路径view/graph/ scatter,可得散点图, 见图。,54,1.2 判断:由图可以看出,残差平方 对解释变量X的散点图主要分布在图形中的下三角部分,大致看出残差平方 随 的变动呈增大的趋势,因此,模型很
23、可能存在异方差。但是否确实存在异方差还应通过更进一步的检验。,55,2、Goldfeld-Quanadt检验,(1)EViews软件操作1)对变量取值排序(按递增或递减)。在Proc菜单里选Sort current page命令,出现排序对话框,输入X,如果以递增型排序,选“Ascending“,如果以递减型排序,则应选“Descending“,点ok。本例选递增型排序,这时变量Y与X将以X按递增型排序。2)构造子样本区间,建立回归模型。在本例中,样本容量n=21,删除中间1/4的观测值,即大约5个观测值,余下部分平分得两个样本区间:18和1421,它们的样本个数均是8个,即 。,56,在Sa
24、mple菜单里,输入“1 8”,将区间定义 为18,然后用OLS方法求得如下结果,表A,57,在Sample菜单里,输入“14 21”,将区间定义为1421,然后用OLS方法求得如下结果,表B,58,3)求F统计量值。基于表中残差平方和的数据,即Sum squared resid的值。由表A计算得到的残差平方和为 ,由表B计算得到的残差平方和为根据Goldfeld-Quanadt检验,F统计量为4)判断在 下,式(5.19)中分子、分母的自由度均为6,查F分布表得临界值为 因为 ,所以拒绝原假设,表明模型确实存在异方差。,59,3、White检验,由参数估计结果,按路径view/residua
25、l Diagnostics/Heteroskedasticity tests,选择“White/include white cross term”,进入White检验。辅助回归函数为经估计出现White检验结果,见下表5。,60,从表5.5可以看出,由White检验知, 在 下, 查 分布表得临界值,或分析P值 因为所以拒绝原假设,不拒绝备择 假设,表明模型存在异方差。,注意: 变量自由度为辅助回 归中解释变量项数,61,(四)异方差的修正,方法:加权最小二乘法(WLS) 分别选用权数 , 生成权数:在Genr/Enter equation中分别键入: 经估计检验发现用权数 最好,只给出用权数
26、 的结果。 方法:在Quick中“Estimate equation“,在“specification” 中输入“Y C X“,点击option,在对话框的weights Type中选“inverse variance”,再在 weight series 中输入“1/X2“或“w2“/ok ,即出现加权最小二乘结果。,62,表7,估计结果:结论: 运用加权最小二乘法消 除了异方差性后,参数的t检验 均显著,F检验也显著,并说明 人口数量每增加1万人,平均说来 将增加2.7236个卫生医疗机构, 而不是引子中得出的增加5.3735 个医疗机构。,63,案例2:四川省农民消费研究,(一)问题的提出
27、和模型设定农村居民的收入和消费状况是四川省实现小康的关键,分析改革开放以来农村居民的收入与消费的关系,对于研究四川省农村经济的发展具有重要的现实意义。按照经济学原理,收入是影响消费的重要因素。 模型设定为其中: 为农村人均生活费支出;为农村人均纯收入。,64,由中国统计年鉴取得1978年至2000年四川省农村人均纯收入和人均生活费支出的时间序列数据,65,(二)参数估计,估计样本回归函数,其结果为,66,(三) 检验模型的异方差,1、图形法 (1)生成残差平方序列。方法: 点“genr”输入“e2=resid2”。 (2)绘制e2对X的散点图。选择 X与e2数据表(先选的变量将在图形中 表示横
28、轴,后选的变量表示纵轴),按 view/graph/scatter,得散点图判断:由图e2对X的散点图主要分布在图形的下三角 部分,大致看出残差平方随X的变动呈增大的趋势,因 此,模型很可能存在异方差。但是否确实存在异方差还应 通过更进一步的检验。,67,2、Goldfeld-Quanadt检验,(1)对变量取值排序 (原数据已为递增) (2)构造子样本区间,建立回归模型 样本容量n=23,删除中间1/4的5个观测值,两个样本 区间:19781986和19922000,样本个数均是9 个。 子样本1的结果 子样本2的结果,68,(3)求F统计量值,(4)判断。在 下,式(5.33)中分子、分母
29、的自由度均为7,查F分布表得临界值为,因为,所以拒绝原假设,表明模型显著性地存在异方差。,69,3、White检验,在作OLS回归基础上,按路径view/residual diagnostics/heteroskedasticity tests,选择“White“include white cross term“,进入White检验。 辅助函数为得White检验结果临界值因 或分析P值 所以拒绝原假设 , 表明模型存在异方差。,注意: 变量自由度为辅助回 归中解释变量项数,70,4、ARCH检验,按路径view/residual diagnostics/heteroskedasticity t
30、ests/ARCH,即可得到ARCH检验结果。 本例中,取滞后阶数为1,即Number of lags中填入“1”,则有注意: 这里的obs*R-squared 表示 的数值 “22”表示n-p,不是n, 取 ,查临界值得由于或分析表中的P值 则拒绝原假设,表明模 型显著性地存在异方差。,71,(四)异方差性的修正,1、加权最小二乘法 分别选用了权数经估计检验发现用权数 的效果较好。估计结果:,方法:在Quick/Estimate equation 中输入“Y C X”,点 option,在对话框的weights Type中选“inverse variance“,再在 weight serie
31、s 中输“1/X2”,点确定,即出现加权最小二乘结果。,72,2、对数变换法,分别对变量 与 取对数,用lnx和lny表示,同时对样本数据进行处理。用OLS法进行参数估计,得经检验,发现用对数变换后的估计结果,对异方差性有较大 的修正作用,基本不存在异方差。(检验结果见下页),73,对数变换后的估计结果的异方差检验,White检验结果,ARCH检验结果,不能拒绝原假设,不能拒绝原假设,74,注意:此案例用的是时间序列数据,但也表现出了较严重的异方差性,说明有的时候时间序列也同样存在异方差。 问题:案例中虽然用加权最小二乘法及对数变换等办法消除了异方差,但又出现了自相关。,75,本章小结,1、什么是异方差性? 2、出现异方差的原因?随机项的方差随 而变化 3、异方差性的后果:OLS估计式不再具有最小方差特性(这时WLS才具最小方差性) 参数方差的确定有困难,且 是有偏的解释变量的显著性检验失效 OLS会低估存在异方差时的的真实方差高估 t 统计量,夸大估计参数的统计显著性预测精度降低,76,4、异方差性的检验:图形分析法:描绘 与 的散点图Goldfeld-Quandt 检验White检验ARCH检验但要注意它们的假设条件。 5、异方差的修正:加权最小二乘法(WLS)对原模型加以变换模型的对数变换,