1、中央财经大学统计学院 边雅静,1,第七章 补充专题,中央财经大学统计学院 边雅静,2,面板数据模型定性选择模型,主要内容,中央财经大学统计学院 边雅静,3,7.1 面板数据模型,混合数据(pooled data)是将截面数据和时序数据结合在一起的数据。如果混合数据包含的观测值来自同一批地区、公司、人员或其他截面个体的不同数据,则此类混合数据称为面板数据(panel data)。我们将基于面板数据的回归模型称为面板数据模型(panel data model)。面板数据模型已经成为计量经济学的一个独立分支。,中央财经大学统计学院 边雅静,4,经济分析中的面板数据问题,宏观经济分析中:目前应用较多,
2、数据较容易获得,例如多个地区的时间序列数据 微观经济分析中:目前应用较少,很难获得微观个体(家庭、个人)的时间序列数据,中央财经大学统计学院 边雅静,5,一个实例,来源于古扎拉蒂教科书中引用的Y.Grunfeld提出的一个有关投资理论的研究 数据为4个公司(通用电气GE、通用汽车GM、美国钢铁US、西屋电气Westing house)19351954年的厂商价值(CAP)、厂房设备存量(PL)和总投资(I)三个变量的信息 详见Table161 我们用这个面板数据具体分析:企业的实际价值和资本存量如何决定实际总投资,中央财经大学统计学院 边雅静,6,面板数据模型的三种情形,情形1,在横截面上无个
3、体影响、无结构变化,则普通最小二乘估计给出了和的一致有效估计。相当于将多个时期的截面数据放在一起作为样本数据。,中央财经大学统计学院 边雅静,7,情形2,变截距模型(Panel Data Models with Variable Intercepts) 。在横截面上个体影响不同,个体影响表现为模型中被忽略的反映个体差异的变量的影响,又分为固定影响和随机影响两种情况。,中央财经大学统计学院 边雅静,8,情形3,变系数模型(Panel Data Models with Variable Coefficient) 。除了存在个体影响外,在横截面上还存在变化的经济结构,因而结构参数在不同横截面单位上是
4、不同的。,中央财经大学统计学院 边雅静,9,表面不相关回归,表面不相关回归(Seemingly unrelated regression,SUR)是一组似乎不相关但实际上相关的回归方程。 在表面不相关回归中,各个回归之间实际上是有关联的。它容许各个回归方程的扰动项之间存在跨方程相关,这样,SUR估计程序就可以使用扰动项的相关来改善估计值。 各个回归之间任何的相关都是有价值的信息,SUR程序可以使用这些信息改善系数估计值。,中央财经大学统计学院 边雅静,10,表面不相关回归的具体步骤,用OLS法分别估计每个方程,计算和保存回归中得到的残差; 用这些残差来估计扰动项方差和不同回归方程扰动项之间的协
5、方差; 上一步估计的扰动项方差和协方差被用于执行广义最小二乘法,得到各方程系数的估计值。,中央财经大学统计学院 边雅静,11,表面不相关回归得到的估计值是一致估计值,在下面两种情况下,表面不相关回归与分别运行OLS回归结果相同: 若各方程的扰动项之间的协方差都等于0; 若各方程的自变量都相同,并且每个自变量的每个观测值亦相同。,中央财经大学统计学院 边雅静,12,固定影响模型与随机影响模型,固定影响模型(fixed effects model,FEM)将横截面个体之间的差异解释为截距不同,而斜率系数相同。它处理地区、公司、人员或其它横截面个体之间差异的思路是允许截距变动,不同的横截面个体的截距
6、是不同的,但每个产业的截距在各个时期则保持不变。 随机影响模型(random effects model,REM)像固定影响模型一样,通过允许截距变动来处理横截面个体之间的差异,但变动的数量是随机的。如果横截面个体是随机地被选择出来以代表一个较大的总体,则采用随机影响模型比较合适。不同的横截面个体的不同截距被认为是从一个正态分布总体中随机抽取的。,中央财经大学统计学院 边雅静,13,固定影响模型,固定影响模型的一般形式为:具体到我们的实例,模型可以设定为:固定影响模型通过使用虚拟变量的方法来解决截距变动问题。,固定影响模型的一般形式为:具体到我们的实例,模型可以设定为:固定影响模型通过使用虚拟
7、变量的方法来解决截距变动问题。,中央财经大学统计学院 边雅静,14,虚拟变量的设定,对于我们的例子,有4个企业,我们应当设3个虚拟变量,因为设3个就可以区分4个产业的截距,并且,如果设4个虚拟变量的话,我们会掉进所谓的“虚拟变量陷阱”,从而造成完全的多重共线性。 在固定影响模型中,还有另一种避开虚拟变量陷阱的方法,就是在模型中去掉常数项,然后为每个截面设一个虚拟变量,比如:D11 观测值属于GE;否则为0 D21 观测值属于GM;否则为0 D31 观测值属于US;否则为0 D41 观测值属于WEST;否则为0,中央财经大学统计学院 边雅静,15,由于我们使用了虚拟变量,因此固定影响模型又被称为
8、最小二乘虚拟变量(LSDV, Least-Squares Dummy-Variable )模型,或协方差模型。 由于各截距项虚拟变量捕捉到了横截面个体之间的差异,因此LSDV模型拟合的结果一般会好于情形1估计的结果。,中央财经大学统计学院 边雅静,16,通过F检验检验变截距假设,原假设和备择假设为:,估计有约束模型得到残差平方和RSSR。,估计无约束模型得到残差平方和RSS。,利用F统计量作出判断:,g为受约束的条件,本例中g3。,中央财经大学统计学院 边雅静,17,固定影响模型也可以通过再加上斜率虚拟变量的办法推广到一般情形。然而,既包含截距虚拟变量又包含斜率虚拟变量的模型几乎等同于各产业分
9、别回归的方法。 二者的区别是,加上斜率虚拟变量的固定影响模型中,扰动项方差对于整个样本必须是相同的,因为是一个回归方程。而分别回归,则每个回归的扰动项方差可以不同,即每个产业或每个横截面个体的扰动项方差可以不同。 固定影响模型还可以设定为截距项随时间而变化(而非随个体截面而变化)的形式。,固定影响模型的推广,中央财经大学统计学院 边雅静,18,随机影响模型,固定影响模型假定不同企业截距间的差异是确定的,而不是随机的,它假定截距的不同是因为各企业有一些不同的特性。随机影响模型则假定例子中的每一个企业是从一个总体中抽取的,截距之间的差异是因为随机变差引起的。随机影响模型通常用于诸横截面个体是某个总
10、体的一个样本的情况,例如,家计调查得到的面板数据。,中央财经大学统计学院 边雅静,19,随机影响模型的形式,随机影响模型将所有数据放在一起回归,看上去很像常规的OLS回归:这里没有截距虚拟变量,这使得它的自由度要大于固定影响模型。应注意的是,上式中截距项与OLS回归中的截距项不同,这里代表的是截距的均值,真实的截距随企业或其它横截面个体而变,企业间截距的差异反映在扰动项中。,中央财经大学统计学院 边雅静,20,随机影响模型的扰动项,假定 是一个均值为 的随机变量,而非一个固定值。因此,单个企业的截距项就可以表示为:也就是例子中的四个企业是从更大的这种企业集合中提取出来的,而这些企业的截距都有一
11、个相同的均值 ,并且每个公司截距项的个别差异都反映在误差项 中。 因此随机扰动项便包括两部分,即 。前者是截面或特定个体误差部分,后者则是时间序列和横截面混合误差部分。 因此随机影响模型中的扰动项将不满足OLS关于各期扰动项互不相关的假设条件,这意味着OLS不能使用。,中央财经大学统计学院 边雅静,21,随机影响模型回归的具体步骤,对整个横截面时间序列混合样本执行OLS回归; 用第一步得到的残差估计扰动项的方差和协方差; 用第二步得到的方差协方差估计值执行GLS回归,给出随机影响模型的GLS估计值; 某些软件使用第三步的结果,估计每个横截面个体的截距与截距均值的差异。,中央财经大学统计学院 边
12、雅静,22,FEM与REM的比较,若时序较长,而截面较少,则两种模型估计的参数值基本没有差别,使用FEM会更便利。 当截面较多,而时序较短时,两种方法有显著的差异。如果样本中的界面单元不是从一个较大的样本中随机抽取的,就使用FEM。 如果个别的误差部分与一个或多个解释变量相关,则REM估计量是有偏差的,而从FEM中获得的估计量则是无偏的。 如果截面较多,而时序较短,并且坚持REM的基本假设,那么REM估计量比FEM估计量更有效。,中央财经大学统计学院 边雅静,23,7.2 定性选择模型,在实际建模中,有时我们需要建立被解释变量为虚拟变量的回归模型,即因变量描述的是特征、选择或者种类等不能定量化
13、的东西,如乘公交还是自己开车去上班、考不考研究生等。 在这些情况下,因变量是定性变量,我们可以用定义虚拟变量的方法来刻画它们。这种因变量为虚拟变量的模型被称为定性选择模型(Qualitative Choice Models)或定性响应模型(Qualitative Response Models)。,中央财经大学统计学院 边雅静,24,定性选择模型的分类,如果只有两种选择,一般用0和1分别表示它们,如乘公交为0,自驾车为1,这样的模型称为二元选择模型(Binary Choice Models) 线性概率模型(Linear Probability Models ,LPM) Probit模型 Log
14、it模型 如果多于两种选择(如上班方式加上一种骑自行车)的定性选择模型称为多项选择模型(Multinomial Choice Models)。,中央财经大学统计学院 边雅静,25,线性概率模型(LPM),线性概率模型一般形式如下: 不同于一般多元线性回归模型的是 只能取0和1两个值。 解释变量中可以包括正常变量和虚拟变量,观测值可以是个人、公司、国家或任何其他横截面个体所作的决定。,中央财经大学统计学院 边雅静,26,一个是否读研究生的实例,设模型为: 其中:结果为:,中央财经大学统计学院 边雅静,27,结果分析,假设学生甲的平均分为3.5,家庭年收入为5万美元,则Y的拟合值为: 该拟合值可以
15、解释为该生决定读研的概率的估计值,即该生决定读研的可能性或概率的估计值为0.8。 在LPM中,对斜率系数的解释也不同了,斜率系数可以表示其他解释变量不变的情况下,该解释变量的单位变动引起的因变量等于1的概率的变动。LPM模型中,解释变量的变动与虚拟因变量值为1的概率线性相关,因而称为线性概率模型。,中央财经大学统计学院 边雅静,28,线性概率模型存在的问题,Q1:LPM假定自变量和Y=1的概率之间存在线性关系,而此关系往往不是线性的。 Q2:拟合值可能小于0或大于1,而概率值必须位于0和1的闭区间内。,假设学生乙的GPA为4.0,家庭收入为20万美元,则Y的拟合值为:,再假设学生丙的GPA为1
16、.0,家庭收入为5万美元,则Y的拟合值为-0.20。,解决此问题的一种方法是,令所有负拟合值都等于0,所有大于1的拟合值都等于1。,中央财经大学统计学院 边雅静,29,线性概率模型存在的问题,Q3:随机扰动项不是正态分布的,而是服从二项分布。 Q4:LPM存在异方差性,扰动项的方差是p(1-p),其中p是因变量等于1的概率,此概率对于每个观测值不同,因而扰动项方差将不是常数,导致异方差性。可以使用WLS法,但不是很有效,并且将改变结果的含义。,中央财经大学统计学院 边雅静,30,线性概率模型存在的问题,Q5: 以及 不再是合适的拟合优度测度。事实上,此问题不仅是LPM的问题,而是所有定性选择模
17、型的问题。可以采用的替代指标是模型正确预测的观测值的百分比。,具体可以将每一预测归类为1或0。如果拟合值大于等于0.5,则认为因变量的预测值为1。若小于0.5,则认为因变量的预测值为0。然后,将这些预测值与实际发生的情况相比较,计算出正确预测的百分比:,中央财经大学统计学院 边雅静,31,LPM常被用于研究影响人们进行某个决策的因素,一个竞选的例子。假设候选人甲和乙二人竞选某市市长,我们可以用一个二元选择模型来研究影响选民决策的因素,模型为:,其中:,中央财经大学统计学院 边雅静,32,拟合的结果,Observations:30= 0.58= 0.53 Residual Sum of Squa
18、res =3.15 F-statistic = 11.87,Dependent variable:CAND1,预测的准确率达到了90,中央财经大学统计学院 边雅静,33,我们需要的是具有如下二分性质的一个概率模型: 随着 增加, 也增加,但永远不超出01这个区间;和 之间的关系是非线性的,即“随着 变小,概率趋于零的速度越来越慢,而随着 变得很大,概率趋于1的速度也越来越慢。”,如何解决LPM存在的问题?,从几何图形看:,中央财经大学统计学院 边雅静,34,假定二元选择模型的形式为: Logit模型和Probit模型的区别在于对上式中扰动项u的分布的设定,Probit模型设定为正态分布,Log
19、it模型设定为logistic分布。,Logit模型与Probit模型的思路,这里 不可观测,通常称为潜变量(latent variable)。我们能观测到的是虚拟变量 :,中央财经大学统计学院 边雅静,35,由 和 可知:,乘上任何正数都不会改变 ,因此这里习惯上假设 ,从而固定 的规模。,其中F是u的累积分布函数。 如果u的分布是对称的,则 ,我们可以将上式写成,中央财经大学统计学院 边雅静,36,如果 的累积分布是logistic分布,则我们得到的是logit模型。在这种情况下,累积分布函数为:,可以写出似然函数:,上式的左端是机会(odds)的对数,称为对数机会比率(log-odds
20、ratio),因而上式表明对数机会比率是各解释变量的线性函数,而对于线性概率模型, 为各解释变量的线性函数。,中央财经大学统计学院 边雅静,37,如果随机扰动项服从正态分布,我们得到的是probit模型(或normit模型),在这种情况下,累积分布函数为:,由于累积正态分布和累积logistic分布很接近,只是尾部有点区别,因此,无论用logit模型还是probit模型得到的结果都不会有很大不同。可是,两种方法得到的参数估计值不是直接可比的。由于logistic分布的方差为 ,因此,logit模型得到的 的估计值必须乘以 ,才能与probit模型得到的估计值相比较(正态分布标准差 为1)。,中
21、央财经大学统计学院 边雅静,38,Logit与Probit的累积分布,Logit,Probit,中央财经大学统计学院 边雅静,39,Probit模型,在上式中,F是一个函数,即将正态概率函数(Z)的一个值转换成概率(P)的累积正态概率函数。Probit模型使用其反函数,将概率值转换成Z的值。,Probit模型为:,Probit模型不能用OLS法估计,而应采用极大似然法,即使用一种迭代方法,迭代终止时,即找到了系数的估计值。注意:该模型要求大样本条件。,中央财经大学统计学院 边雅静,40,竞选模型采用Probit模型的估计结果,Dependent variable:CAND1,Observati
22、ons:30 McFadden pseudo-R2 = 0.61 Residual Sum of Squares = 2.62,中央财经大学统计学院 边雅静,41,Logit模型,因变量的拟合值代表 的可能性(机会)的对数。,注意:概率(probability)和机会(odds)不是一回事。如果一个事件的概率是0.25,则机会将是:,因此,logit模型中斜率系数可以解释为:某个解释变量的变动对Y 等于1的机会的影响。准确地说,logit模型的斜率系数告诉我们,在其它解释变量保持不变的情况下,该解释变量变动一个单位所引起的机会的对数的变动。,与probit模型一样,logit模型也要用极大似然
23、法估计。,中央财经大学统计学院 边雅静,42,竞选模型采用Logit模型的估计结果,Dependent variable:CAND1,Observations:30 McFadden pseudo-R2 = 0.6 Residual Sum of Squares = 2.59,中央财经大学统计学院 边雅静,43,实际中,我们可能遇到多于两种可能选择的情况,在选举模型的例子中,有可能不止两个候选人,比如有第三个候选人丙加进来了,我们就必须调整以前的估计方法,来考虑加上第三项选择的情况。 下面以线性概率模型和Logit模型为例进行说明。,多项选择模型,中央财经大学统计学院 边雅静,44,线性概率模
24、型经过修改,可以用到多于两项选择的非定序的情况。要将第三个候选人加到我们的选举模型,我们需要用两个方程。 一般而言,方程的数目是选择数目减1。,使用线性概率模型,其中:,中央财经大学统计学院 边雅静,45,两个方程的系数下标不一样,说明两方程的系数可以取不同的值。用OLS法估计这两个方程,存在的问题与两个选择的情况一样。 对于任何一个观测值,估计出的概率之和必须等于1。第i个选民选甲的概率的估计值由第一个方程中因变量CAND1的拟合值给出,比如0.5,与此类似,该选民选丙的概率的估计值由第二个方程中因变量CAND3的拟合值给出,如0.3,则我们知道,该选民选乙的概率估计值为0.2,这三个估计的
25、概率之和必须等于1。因此,我们无需为候选人乙回归第三个方程。 事实上,三个候选人截距的估计值之和等于1,各斜率的估计值之和为0,因此我们估计两个方程后,第三个方程的斜率就可以算出来了。,说明,中央财经大学统计学院 边雅静,46,Dependent variable:CAND1,Dependent variable:CAND3,中央财经大学统计学院 边雅静,47,多项Logit模型(Mutinomial logit)用于估计多于两项选择的定性选择模型(这些选择没有先后次序),该方法避免了线性概率模型出现的问题。 与线性概率模型一样,所需要的方程的个数也是选择的数目减1,其中一个选择被用作基准选择,该选择没有自己的方程。 将多项logit模型应用于三候选人的选举模型,我们用候选人乙作为基准选择,给出下面两个方程。,使用Logit模型,中央财经大学统计学院 边雅静,48,多项logit模型中的方程必须用极大似然法联立地估计。,采用多项logit模型估计出的斜率系数的解释与二元logit模型不一样。在这里,每个斜率的解释是相对于基准选择的。假设 为0.02,每增加一岁,其它条件不变,选择候选人甲的概率的对数与选乙的概率的对数相比,上升0.02。其它斜率系数的解释与此类似。,