1、第四章 极大似然估计、非线性估计和广义矩估计,第一节 极大似然估计法第二节 似然比检验、沃尔德检验和拉 格朗日乘数检验第三节 非线性回归模型第四节 NLS 估计量的计算与假设检验第五节 广义矩(GMM)估计,除普通最小二乘法(OLS)外,极大似然估计(ML)、非线性估计和广义矩估计(GMM)也是计量经济学中重要的估计方法。极大似然估计法和广义矩估计法适用于大样本条件下参数的估计,非线性估计方法则可用于估计实质非线性模型。本章主要介绍极大似然法、非线性最小二乘法和广义矩方法,以及基于极大似然估计的似然比(LR)检验、沃尔德(W)检验和拉格朗日乘数(LM)检验。,第一节 极大似然估计法 极大似然估
2、计法(Maximum Likelihood method ML)的应用虽然没有普通最小二乘法广泛,但它是一个具有更强理论性质的点估计方法,它以极大似然原理为基础,通过概率密度函数或者分布律来估计总体参数。 对于一些特殊类型的计量经济模型,如我们后面将介绍的Logit和Probit模型,最小二乘法不再适用,极大似然法成为首选的估计方法。,一、极大似然法的思路 极大似然估计的出发点是已知被观测现象的分布,但不知道其参数。极大似然法用得到观测值(样本)最高概率的那些参数的值来估计该分布的参数,从而提供一种用于估计刻画一个分布的一组参数的方法。例4.1 设有一枚不均衡的硬币,我们关心的是在每次抛掷该硬
3、币出现正面的概率p。抛掷该硬币N次,假设得到 N1 次正面,N N1 次反面。由于每次抛硬币都是相互独立的,根据二项分布,得到这样一个样本的概率为:,上式中的表达式可看作是未知参数p的函数,被称为似然函数(Likelihood function)。对p的极大似然估计意味着我们选择使似然函数达到最大的p值,从而得到p的极大似然估计量。 实际计算中,极大化似然函数的对数往往比较方便,这给出对数似然函数上式达到极大的一阶条件是解之,得到p的极大似然估计量,二、极大似然原理 下面我们以一般化的数学语言来描述极大似然估计法的基本原理和参数估计过程。 极大似然法的思路是,设 是随机变量X的密度函数,其中
4、是该分布的未知参数,若有一随机样本 ,则 的极大似然估计值是具有产生该观测样本的最高概率的那个 值,或者换句话说, 的极大似然估计值是使密度函数 达到最大的值。 由于总体有离散型和连续型两种分布,离散型分布通过分布律来构造似然函数,而连续型分布通过概率密度函数来构造似然函数,因此二者有区别,下面分别讨论。,离散型随机变量极大似然原理 若总体为离散型分布,容易求得从样本 取到观察值 的概率,亦即事件 发生的概率为:其中, 是待估参数向量。 这一概率随 的取值而变化,它是 的函数, 称为样本的似然函数。,极大似然估计法就是在 取值的可能范围内挑选使似然函数 达到最大的参数值 作为参数 的估计值 ,
5、使得,一般通过微分的方法求得 ,即令 得到,有时候也可通过迭代法来求 ,具体的计算方法根据随机变量的分布来确定。这样得到的 称为参数 的极大似然估计值 ,而相应的统计量通常记为 ,称为参数 的极大似然估计量。,连续型随机变量极大似然原理,若总体为连续型分布,其概率密度函数为 ,密度函数的形式已知。其中, 是待估参数向量。设 是来自总体的随机样本,则 的联合概率密度为 设 是相应于样本的一组样本值,则随机点( )落在点( )的邻域内的概率可近似地表示为其值随 的取值而变化。,与离散型的情况一样,我们取 的估计值 使 取到极大值,但 不随 而变,故只需考虑函数 的极大值,这里 称为样本的似然函数。
6、若 则 称为 的极大似然估计量,记为 。,通常情况下, 关于 可微,这时 可从方程 解得。因为 与 在同一点处取到极值, 的 极大似然估计值 通常从方程 解得,式中 称为对数似然函数。为了后面内容表述方便起见,我们将对数似然函数的一阶导数向量表示为 称为score向量或梯度向量, 的极大似然估计值通过求解 得到,因此 称为似然方程。,三、极大似然估计量的性质极大似然估计量(MLE)的优势在于它们的大样本性质(渐近性质)。为介绍这些渐近性质,我们用 表示参数向量 的极大似然估计量(MLE), 表示参数向量的真值。如果极大似然函数被正确设定,可以证明,在弱正则条件下,极大似然估计量具有以下渐近性质
7、:,(1)一致性: 是 的一致估计量,即 (2) 渐近有效性: 是渐近有效的且达到所有一致估计量的Cramr-Rao下界,即在所有一致渐近正态估计量(consistent asymptotically normal estimators )中具有最小方差。 (3)渐近正态性: 即渐近地服从正态分布,其中V是渐近协方差矩阵。,协方差矩阵V由对数似然函数的形状决定。为了说明这一点,我们引入信息矩阵(Information Matrix)的概念,信息矩阵定义为在适当的正则条件下,可以证明,极大似然估计量的渐近协方差矩阵等于信息矩阵的逆矩阵,即,信息矩阵中的元素是二阶导数,二阶导数测度的是对数似然函数
8、的曲率,直观地看,如果对数似然函数在其极大值周围曲率大,则二阶导数大,从而方差小,极大似然估计量就相对准确;反之,如果对数似然函数曲率小,在其极大值周围曲线比较平,则方差就会大。 在极大似然估计量渐近有效的情况下,信息矩阵的逆矩阵 为 的任何一致渐近正态估计量提供了渐近协方差矩阵的下界。 ML估计量 是渐近有效的,因为它达到了这个下界,这个下界通常称为Cramr-Rao下界。,四、线性回归模型的极大似然估计 线性回归模型是计量经济学应用最为广泛的模型,因 此讨论线性模型的极大似然估计是非常必要的。 下面我们在随机扰动项服从正态分布的假设下分别讨 论双变量线性回归模型和多元线性回归模型的极大似
9、然估计。,双变量线性回归模型的极大似然估计双变量线性回归模型: 其中, 为待估参数, 为随机扰动项。对随机扰动项作出如下假设:即随机扰动项具有0均值、同方差、不相关和服从正态分布的性质。,根据以上假设可知: 因此,的概率密度函数为:由于独立同分布,因此,联合概率密度函数,即似然函数为:,对数似然函数为: 令: , , , 得,不难看出,前两式与用普通最小二乘法得出的正规方程相同,故我们有但最后一式表明, 的极大似然估计量与最小二乘估计量不同,我们记得,最小二乘估计量 是一个无偏估计量。而,这表明 , 是一个有偏估计量 不难看出,当样本容量趋向无穷时,因而 是一个渐近无偏估计量。,多元线性回归模
10、型的极大似然估计 下面我们来讨论一般形式的线性回归模型的极大似然估计,并以矩阵形式表示:对随机扰动项作出如下假设: 根据以上假设,我们有: 其中, ,是X矩阵的第t行,为系数列向量。,因此, yt 的概率密度函数为: 由于yt独立同分布,因此,联合概率密度函数,即似然函数为:对数似然函数为:,使对数似然函数(4.17)达到极大的一阶条件为 解此二正规方程,得:,因此,在随机扰动项满足标准假设条件的情况下, 的极大似然估计量与普通最小二乘估计量相同,方差 2的ML估计量与OLS估计量则不同。我们知道 是无偏的,而 是有偏的,但在大样本下渐近无偏。,27,Eviews中求参数的极大似然估计:,19
11、85-2007年我国城镇居民人均生活消费支出与人均可支配收入,28,29,第二节 似然比检验、沃尔德检验和拉格朗日乘数检验,似然比检验(Likelihood Ratio Test, LR) 瓦尔德检验(Wald Test, W) 拉格朗日乘数检验(Lagrange Multiplier Test, LM) 是三种基于极大似然法的大样本检验方法。,我们在第二章中介绍的F检验适用于检验CLR模型的线性约束条件。 如果施加于模型的约束是非线性的,模型存在参数非线性,或者扰动项的分布不是正态的,在这些情况下,F检验就不再适用,通常需要采用LR、W和LM这三个检验方法中的一个来检验约束条件是否成立。 这
12、三个检验方法是渐近等价的,与这些检验相联系的统计量的小样本分布是未知的,但它们每一个都渐近地服从自由度为约束条件个数的 分布。,一、三种检验的基本原理,这三个检验统计量基于三个不同的原理,我们用下图来解释之。,图中,对数似然函数(lnL)由上面的那条曲线表示,它是要估计的参数 的函数。MLE是使lnL达到极大的 值。假设要检验的约束条件是 g()=0, 这一条件在 这个值得到满足,从图上看,这个点是函数 g()与横轴的交点。 下面对这三个检验所依据的原理作出解释。,1. LR检验 如果约束条件为真,则在施加约束条件的情况下, lnL 的极大值lnLR不应当显著小于lnL 的无约束极大值 lnL
13、max。因此,LR检验要检验的是 (lnLmax - lnLR)是否显著异于0。 2. W检验 如果约束条件g()=0 为真,则 g(MLE )不应当显著异于0,其中MLE 是 的无约束极大似然估计值。因此,W检验要检验的是g(MLE )是否显著异于0。,3. LM检验 对数似然函数 lnL 在A点达到极大,在这点lnL 关于的斜率为0。如果约束条件为真,则 lnL 在B点的斜率不应当显著异于0。LM检验要检验的是用约束估计值 计算的 lnL的斜率是否显著异于0。,二、似然比(LR)检验,设为待估计参数向量,原假设H0规定施加于这些参数上的约束, 为的无约束极大似然估计量, 为约束极大似然估计
14、量。如果 和 分别是用这两个估计值计算的似然函数值,则似然比 (Likelihood Ratio)为:,此函数的值位于0和1之间,因为两个似然都是正的,并且 不会大于 (约束最优不可能超过无约束最优)。如果过于小,则有理由怀疑约束条件的正确性。 LR检验的检验统计量是-2ln ,该统计量在大样本情况下服从自由度为约束条件个数的 分布。,三、沃尔德(W)检验,在实践中似然比检验的短处是需要估计约束和无约束参数向量,也就是说,既要进行约束回归,又要进行无约束回归。在复杂模型中,其中的一个估计值可能很难计算。 幸运的是,有两个可供选择的方法,即沃尔德检验和拉格朗日乘数检验,可以解决这个问题。这两个检
15、验只需要估计约束和无约束参数向量中的一个。,设 是在无约束情况下得到的参数估计值向量,要检验的原假设为: 若约束条件成立,则至少 应该近似地满足它们。W检验就是遵循这个思路构建的。 W统计量是 H0成立和大样本的情况下,W服从自由度为约束条件个数的 分布。,要注意的是,W统计量仅需要无约束模型的计算,但仍需要计算协方差矩阵,其估计值由下式给出: 其中Est. 和Asy. 分别表示估计和渐近。是一个 JxK矩阵,J是约束条件的个数,K是待估计参数的个数,它的第j行是第j个约束关于 的第k个元素的导数。,四、拉格朗日乘数(LM)检验,第三个检验是拉格朗日乘数(LM)检验,亦称score检验。该检验
16、基于约束模型,无需估计无约束模型。 假设我们要在施加一组约束条件c() - g=0 的情况下极大化对数似然函数,令表示拉格朗日乘数向量,并定义拉格朗日函数,约束最大化问题的解就是下式的根: 其中 是矩阵 的转置。 若约束成立,则加上它们不会造成对数似然函数极大值的显著差异。这意味着在一阶条件下,第二项应该很小,特别是应该很小。我们可以直接检验之,即检验H0 : =0,这导致拉格朗日乘数检验(LM检验)。,直接检验拉格朗日乘数向量比较困难,有另一个等价而简单一些的方法。在约束估计值处计算的对数似然函数的导数是,如果约束条件成立,则应有 。也就是说,在约束估计值处计算的对数似然的导数应该近似为0。
17、应该记得,对数似然的一阶导数向量是Score向量S()。由于我们的检验基于这个向量,因而被称为Score检验,但大多数文献中还是称之为拉格朗日乘数检验。,一阶导数向量的方差是信息矩阵I(),我们用它来计算极大似然估计量的渐近协方差矩阵。 LM检验统计量是 在原假设下,LM统计量渐近服从自由度为约束条件个数的 分布。,实际应用中,LM统计量有一个很简单的公式: 其中N是观测值数目,R2是用一个元素均为1的列 向量对在约束估计值 处计算的对数似然函数的诸导数(即Score向量)进行线性回归得到的非中心R2。 非中心R2的含义是,在计算总平方和TSS时,因变量不减去其均值,即 。,用这种方法计算LM
18、统计量非常容易,但对于小样本来说不可靠,犯第一类错误的可能性很大。 Davidson和MacKinnon(1983)提出了计算LM统计量的另一种方法,该方法克服了上述方法的缺点,而保持了其计算简便的优点,尽管计算中需要执行他们所称的双长度回归(double-length regression, DLR)。,五、实践中三种检验法的选择问题,当面临具有相同渐近性质的几种统计量时,计量经济学家通常根据它们的小样本性质来进行选择。然而实践中在LR、W和LM的选择上,计算成本往往起着关键作用。计算LR统计量,的约束和无约束估计值都要计算,如果二者都不难计算,则LR检验是三种检验中最具吸引力的。因为尽管要
19、多做一次回归,但LR统计量的计算比其他两种要简单得多。,计算W统计量仅需要无约束估计值。如果约束估计值的计算比较困难,而无约束估计值计算不困难,如约束条件是非线性的情况,则W统计量应成为首选。计算LM 统计量仅需约束估计值。如果约束估计值的计算比较容易,而无约束估计值的计算困难,例如施加约束后使非线性模型转换成线性模型的情况,则LM统计量应成为首选。,例4.3 我国研发经费投入的计量研究 本例选取1995-2007年我国R&D投入数据,运用描述自然界中有界增长问题的logistic曲线 ,对我国R&D投入(用rdr表示)的增长趋势进行拟合。 模型设定如下:,其中K表示增长的上界,对logist
20、ic函数求偏导令其等于0,得到增长曲线的极值点对应的时间为 。 运用极大似然估计法,设定模型为:RDR = C(1)/(1+EXP(C(2)-C(3)*TREND(1994)得到如下估计结果。其中,C(1)、 C(2)、C(3)是模型中的参数,C(4)为模型的样本方差。,据此有:,下面检验斜率为零的时间点t是否等于4,即R&D投入的极值点是否在1998年,相当于对原模型检验约束条件 是否成立。由于本例中约束回归和无约束回归都不难计算,应当选择似然比检验。之前得到无约束模型的对数似然函数值为29.64578,我们再估计约束模型,结果如下:,例3 异方差性检验:信用卡消费问题,一组有72个容量的信
21、用卡消费的样本:Y:信用卡月均消费,X1:年龄,X2:拥有住房情况(1=拥有,0=租住);X3:年收入,线性模型: Y=0+1X1+2X2+3X3+4X32,OLS估计:,存在异方差性,但white检验表明没有异方差性,与观察不符。,Breush-Pagan test (ML):,则: LM=nR2=720.0859=6.185%的显然性水平下, 25% (2)=5.99,存在异方差性,稳健的异方差LM检验如下:,对原模型做OLS回归(不考虑异方差性),得残差et; 求出et2序列,计算2=(ei2)/n 求出新序列:et2-2, (et2-2)X3, (et2-2)X32 做单位向量i关于上
22、述三序列的OLS回归,求出残差平方和:SSR,LM=n-SSR =72-38.98 =33.02,含有异方差性的ML估计: 假设 i2=exp(0+1X3i+2X3i2),注意: 这里c(1)c(5)中的值是OLS回归中的结果,LR检验:OLS估计:l=-506.49ML估计:l=-467.59于是:LR=77.8,Wald检验:,第三节 非线性回归模型 如果研究表明所选择的模型是实质非线性回归模型,即存在参数非线性并且无法通过代数变换转变成线性模型的那类模型,则需要了解非线性模型的估计和假设检验的方法,下面两节扼要介绍这方面内容。下文提到的非线性回归模型均指实质非线性回归模型。一、非线性回归
23、模型的含义 非线性模型的一般形式是,其中 f 是非线性函数。请注意(4-33)式中解释变量的个数k与参数个数m不一定相等,这与线性模型不同。,例4.4 CES生产函数模型 CES模型即不变替代弹性生产函数模型,其函数形式如下: 其中: Y、K、L 含义同C-D生产函数, 为模型参数, 为扰动项。CES模型两边取对数,得到其中 。,可见,对于CES生产函数模型,两边取对数也无法使其变成线性模型,所以对参数而言,其本质上是非线性的。 在 附近,可以将CES生产函数展开成一阶泰勒级数, 即,此模型可以转化成,其中 等于扰动项 u 与一阶泰勒展开余项之和, 通过估计此线性模型的参数,可以计算出CES生
24、产函数模型的参数估计值。但由于 包含扰动项与泰勒展开余项,所以可能无法确定参数估计量的性质。 我们可以将上述做法推广为下面的更一般的线性化回归方法。,二、线性化回归我们将非线性模型用矩阵形式写成 其中:如果函数 在参数向量 附近连续可微,将 在参数向量 附近进行一阶泰勒展开。记梯度向量,则,其中, 为 一阶泰勒展开余项。则模型(4-34)可写成:,令,则,其中 为可观测向量。扰动项 包含了扰动项 u和进行线性泰勒近似所带来的误差 。这是一个线性化模型,给定参数向量 的值,便能计算 ,然后按线性模型进行估计。三、非线性最小二乘法(NLS)假设有n组观测值 ,非线性模型为问题是找出一组参数估计值
25、,使得残差平方和最小。,残差平方和为 参数向量 的最小二乘估计量是使残差平方和 达到最小的 ,即,因为是非线性模型,我们称此方法为非线性最小二乘法(NLS)。,线性模型参数最小二乘估计的一阶条件仍是参数的线性方程,只要解释变量不取常数,即可求得其解析解。而非线性模型有很大不同,其一阶条件是,即,上式实际是由m 个方程组成的方程组:,称为正规方程组。,一般情况下,非线性模型的一阶条件仍为估计参数的非线性函数,很难求得其解析解。例4.5 一元非线性模型其NLS估计的残差平方和为参数的NLS估计的一阶条件为,此方程组没有解析解。,第五节NLS 估计量的计算与假设检验由于NLS估计残差平方和 不是 的
26、二次函数,一阶条件是关于 的非线性方程组,很难得到解析解,通常采用数值解法。无约束极小化问题有很多种数值解法,其中迭代法是一种非常有效的算法,许多其他算法也可归结于迭代算法。迭代算法由一系列迭代步骤构成,每次迭代从 的一个特定值开始,尝试找到更优的 值。,迭代算法首先确定一个搜索方向,然后确定在该方向上移动步长。完成一次移动后,检验当前 值是否充分接近 的极小点。若是,则计算终止,否则继续搜索,如此下去,直至按终止规则停止。一、NLS 估计量的计算 高斯-牛顿法是非线性回归分析中常用的迭代算法。高斯-牛顿法的基本思路是:在一个线性化回归模型中,若有参数初值 可用,则相应的线性化模型可用最小二乘
27、法估计,从而得到参数新的估计值,它又可以作为参数初值,再进行线性化模型的估计。如此往复,迭代到指定的停止规则为止。,具体算法是: (1) 给定参数初值 ;(2)将非线性回归模型在参数初值附近线性化;(3)迭代计算。例4.6 估计非线性消费函数考虑非线性消费函数其中,解释变量 为实际可支配收入,被解释变量 为实际消费。采用我国19782006年的年度数据来估计此非线性方程。数据如表4-2所示。,由于是迭代运算,首先要赋初值。对比凯恩斯消费函数,我们设初值 ,再用OLS法估计得到其它两个系数的初值: 、 ,进入NLS迭代程序,经过若干轮的迭代,直至收敛,最终得到NLS估计值(中间迭代结果略): 于
28、是,用NLS估计出的非线性消费方程是:,二、假设检验 因为我们无法得到检验统计量的精确分布,所以通常在线性回归中检验系数显著性的t检验,以及评价总体显著性的F统计量,在非线性模型中会遇到困难。 然而由于在一定的假设下,NLS估计量具有一致性和渐近有效等渐近性质,因而有些假设检验的通常程序仍然可用,只不过结论是渐近的。 在非线性回归模型情况下,通常采用前面介绍的LR、W和LM检验法进行假设检验。,设要检验的原假设是其中, 为J维列向量,每个分量均为 的连续函数。这些约束条件可以是线性的,也可以是非线性的,与线性模型不同,非线性模型假设检验程序复杂程度千差万别,使用何种检验方法往往取决于计算的困难
29、程度。,例4.7 在例4.6中,我们采用NLS法估计了非线性消费函数 ,得到的EViews回归结果如表4-3所示。现检验关于此非线性消费函数的原假设 考虑到我们已经估计了无约束模型(非线性模型),因此采用沃尔德检验是最方便的。 在无约束方程的EViews窗口中进行沃尔德系数约束检验(例4.6中c(3) =1),EViews结果如表4.4所示。 从结果可知,沃尔德统计量W=3.56,对应的概率值P=0.059,大于显著性水平0.05,故不拒绝=1的原假设。,*第五节 广义矩(GMM)估计,前面讨论的普通最小二乘法和极大似然估计法等方法都有本身的局限性。普通最小二乘法必须在遵循经典假设的条件下才具
30、有优良的性质,在异方差和序列相关等违背基本假设的情况下,普通最小二乘法将不再是最佳线性无偏估计量;应用极大似然估计法的前提是对随机扰动项的分布必须做出某种假设,如正态分布。,而广义矩估计可以不考虑随机扰动项的准确分布信息,且允许随机扰动项存在异方差和自相关等违背经典假设的情况,在很多方面具有独特的优势。GMM是一种大样本估计方法,在大样本情况下GMM估计量渐近有效。普通最小二乘法、极大似然估计和工具变量法等许多估计方法都可以看作是广义矩估计的特例。,一、矩估计法,矩估计法(Method of Moments)是GMM法的基础。(一)矩估计原理 一般来说,样本统计量中每一个都有它的总体对应物,例
31、如,样本均值对应总体期望值,样本方差对应总体方差。因此一个很自然的想法是用诸样本“矩”作为总体参数的估计量。,设 为随机变量, 是来自 的样本,连续型随机变量和离散型随机变量 的前k阶矩分别定义为: 其中, 为连续型随机变量 的概率密度函数, 为离散型随机变量 的分布函数,是参数向量, 。总体矩是的函数。,设函数关系如下 这是一个包含 k个未知参数 的方 程组。,可以从上述方程组解出 ,得到,样本矩 依概率收敛于相应的总体矩 ,样本矩的连续函数依概率收敛于相应的总体矩的连续函数,因此,可用样本矩 作为相应的总体矩的估计量,而以样本矩的连续函数作为相应的总体矩的连续函数的估计量。以 分别代替上式
32、中的 ,得到 的估计量 这种估计方法称为矩估计法。,例4.3: , 未知, 是来自 的样本观测值,试用矩估计法求参数 的估计量 。 解:样本一阶和二阶原点矩分别为: , 因为矩估计认为样本矩等于总体矩,所以总体矩的估计量为:,对于正态总体, 分别为总体的均值和方差,均值和方差与总体一阶二阶原点矩有如下关系: 所以根据矩估计,正态总体的均值 和方差 的估计量为:,(二)OLS和LM估计量的矩估计,考虑经典线性回归模型的OLS估计量,该模型的一个重要假设条件是解释变量与扰动项无关,即 这组矩条件的样本对应物是 的估计量是满足这些矩条件的 。不难看出,这些矩条件正好是OLS估计量的正规方程,因此我们
33、看到,OLS估计量是矩估计量。,极大似然估计量是通过对数似然的导数等于0得到的,对于满足正则条件的密度,有: 其中f(.)为概率密度函数,是参数向量。 我们通过令上式的样本对应物等于0来求极大似然估计量: 可见,极大似然估计量也可以通过一组矩条件用矩估计法导出。,二、广义矩法,在矩估计中,矩条件的个数恰好等于要估计参数的数目,即方程个数等于未知参数的个数,所以存在未知参数的唯一解。 如果矩条件的数目大于参数的个数,就引出了广义矩法(Generalized Method of Moments,GMM)。,广义矩法直接从模型所施加的矩条件来估计模型,这些矩条件有时是线性的,但多数情况下是非线性的。
34、我们在前面矩估计法的介绍中讨论了构建OLS和LM估计量的矩条件。 下面我们给出矩条件的一般定义。,矩条件的一般形式为:为了表述的方便,将上式写成,其中 表示有R个元素的向量函数, 为K维未知参数向量, , 和 为模型中全部变量,如 为解释变量向量, 为工具变量向量。 为了估计 ,我们考虑上式的样本对应物,如果矩条件的个数R等于未知参数的个数K,则有可能令 的R个元素等于0,解出 的唯一解,得到一个一致估计量; 若 是 的非线性函数,则可能得不到解析解; 如果矩条件的个数小于参数的个数,则参数向量 不可识别; 如果矩条件的个数大于参数的个数,即 ,我们无法通过令 等于0求得唯一解,因为方程数目多
35、于变量个数。,(一)广义矩估计方法概要,在矩条件的个数大于参数的个数( ),如工具变量的个数多于原解释变量的数目的情况下,我们不能通过设定 来唯一确定参数向量 的估计量,为了充分利用 个矩条件的信息,我们只能转而借助最优化方法的思路,选择使得样本矩向量从总体上尽可能接近于0的 的估计量。 这就是广义矩估计方法的思路。具体的做法是将下面的加权平方和(亦称为距离函数),作为目标函数,求出使该目标函数达到最小的 的值 ,就得到GMM估计量。 上式中, 为任意正定矩阵,称为权矩阵,假设它收敛于一个常数矩阵W,即, 权矩阵可能依赖于数据,但不是 的函数。权矩阵在某种意义上反映了诸矩条件在距离函数中所占的
36、权重,因此可以考虑将它设定为一个对角矩阵,其对角线元素是各个矩的方差的倒数。,至此,我们将矩条件的个数大于参数的个数情况下参数的估计问题化为如下的最小化问题: 求解此最优化问题,得到的估计量就是广义矩估计量(GMM)估计量 。 尽管一般情况下我们无法得到它的解析解,但可以证明,在某些弱正则条件下,GMM估计量是一致和渐近正态估计量。实践中通常采用数值解法求解上式中的最小化问题得到GMM估计量。,不同的权矩阵 会导致不同的一致估计量,其渐近协方差矩阵不同。为了得到最小协方差矩阵,必须选择合适的权矩阵,我们称与此最小协方差矩阵对应的权矩阵为最优权矩阵,用 表示,在不存在自相关的情况下,它是样本矩的
37、协方差矩阵的逆矩阵: 一般依赖于未知参数向量 ,因此在没有得到参数估计量 以前,这个权矩阵只是理论上的一个最优权矩阵。,在实际应用中为了得到最优权矩阵,我们采用下面的两步估计法。 第一步:先选择一个与参数向量 无关的权矩阵,例如单位矩阵,得到 的一个一致估计量 ,然后用 得到最优权矩阵的一致估计值:,第二步:得到一致有效的(最优)GMM估计量 其渐近分布由下式给出: 式中渐近协方差矩阵为: 其中D是 导数矩阵:,与矩估计法一样,广义矩法也提供了一种具有包容性的框架,绝大多数估计方法,如普通最小二乘法、极大似然估计法和工具变量法等,都可以看作是广义矩方法的特例。,(二)GMM法的优点,与其它估计法相比,GMM法有下列几个显著的优点:(1)它无需规定正态分布之类的有关分布的假设,GMM估计量的一致性仅取决于矩条件的正确设定;(2)它为很多类似估计量,如OLS、IV等的分析提供了一个统一的框架;,(3)它为那些传统估计方法计算很困难特别是模型无法解析求解的情况提供了一种方便的方法; (4) 它允许研究人员规定经济上有意义的一组矩,或者据信是对经济或统计模型的误设定不灵敏的一组矩。,