1、第一节 虚拟变量,第八章 虚拟变量的模型,一、虚拟变量的基本概念,虚拟变量:取值为0、1的人工(特殊)变量(记为D) 。,前面讨论的数量因素(变量)可以直接度量,但质的因素(如:性别、职业、文化程度、所有制形式等定性因素)不能直接度量。为了在模型中反映这些属性因素的影响,以提高模型的精度,须将其“量化”.,例1:,二、虚拟变量的设置原则,1、定性因素有m个相互排斥的类型或特征,模型中只能引入 ( m-1)个虚拟变量,否则会陷入“虚拟变量陷阱”,产生完全共线.,例2:居民住房消费支出Yi、居民可支配收入Xi的模型:,为了将“城镇居民“、”农村居民“对Yi的影响反映到上述模型,设,则模型(1)为,
2、若引入m=2个虚拟变量,就陷入了“虚拟变量陷阱”,产生了完全共线,则模型(2)为,任一家庭都有:D1+D2=1,即D1=1-D2(完全共线)。,问题:为什么k个类的定性变量,仅用k-1个虚拟变量而不用k个变量?(特别:什么情况下k个类的定性变量,要用k个虚拟变量?如例2去掉截距项),2、虚拟变量取“0”或“1”应从分析问题的目的出发予以界定(多以“0”代表基础类);,3、虚拟变量在单一方程中,可以作为解释变量,也可以作为被解释变量。,引入虚拟变量后,相当于把不同属性类型的样本合并,即相当于扩大了样本容量,从而可提高模型的精度; 分段线性回归也可以提高模型的精度。,三、模型中引入虚拟变量的作用,
3、1、分离异常因素的影响,如观察我国社会总产值的时间趋势,须考虑三年自然灾害这一特殊因素的影响,2、检验不同属性类型对因变量的作用;,3、提高模型的精度,一、加法类型 设定的虚拟变量以相加的形式出现,作用:改变了设定模型的截距水平,称为截距变动模型。,第二节 虚拟解释变量的回归,加入虚拟变量的两种基本途径:加法类型、乘法类型。,(一)加法类型的虚拟变量模型,用 t检验讨论因素是否对模型有影响,4、一个定量变量、两个定性变量(各考虑两种特征),(二)一个定量变量X、多个虚拟变量(定性变量)的模型,例 我国有56个民族,引入虚拟变量:D1D55(以汉族为基础)藏族:(1,0,0,0)彝族:(0,1,
4、0,0)汉族:(0,0,0,0),练习: 设衣着消费函数为,Xi 收入水平; Yi 年服装消费支出,写出不同人群组衣着消费函数模型。,二、乘法类型 乘法类型引入虚拟变量,是在所设立的模型中,将虚拟解释变量与其它解释变量(含Xi或Di)相乘作为新的解释变量出现在模型中,以达到其调整设定模型斜率系数的目的。,乘法类型引入虚拟变量的主要作用:,关于两个回归模型的比较; 因素间的交互影响的分析; 提高模型对现实经济现象的描述精度。,下面分别对三个作用进行讨论:,(一)回归模型的比较(结构变化检验),通过对模型的参数检验,可以检验模型是否有不同的结构。即定性变量D的引入,是否影响不同类型(属性)模型的平
5、均水平(截距项)?定性变量D的引入,是否影响不同类型(属性)模型的相对变化(斜率系数)?例如:城镇居民家庭与农村居民家庭的消费函数不仅在截距上 有差异,边际消费倾向可能也会有所不同。模型可以记为,其中: Yi为第 i 个家庭的消费水平;Xi为第 i 个家庭的收入水平。,则D=1: 则D=0:,城镇、农村居民家庭的消费行为完全一样(截距和斜率系数相等)城镇、农村居民家庭的消费函数是截距变动模型(截距不相等)城镇、农村居民家庭的消费函数是斜率变动模型(斜率系数不相等)城镇、农村居民家庭的消费函数是截距和斜率变动模型(截距、斜率不等),通过对上述两个模型的截距、斜率系数检验(比较),可以判断我们讨论
6、的模型属于以下何种类型:,一般:,分别回归,有以下四种情况:,例:改革开放前、后(平均)“储蓄收入”模型:,加法方式引入D:为了区别改革开放前、后储蓄起点的情况(即两 模型的截距变化),乘法方式引入D:为了区别改革开放前、后“储蓄“关于”收入”的 相对变化情况(即两模型的斜率系数变化),(二)交互效应的分析,例如,不同人群组的衣着消费函数,前面仅讨论了解释变量X对被解释变量Y的影响作用;没有分析 解释变量间的相互作用对被解释变量Y的影响作用。,(1)式以加法形式引入,暗含假设:性别虚拟变量D2的截距差异效应对于两种教育水平而言是常数. (如女性年均服装支出高于男性,性别差异在年均服装支出上产生
7、了效应。但该效应的大小与女性的文化教育水平无关,因为没有表示大专以上学历女性的变量)。同理: 教育水平虚拟变量D3的截距差异效应对于性别而言也是常数。为了反映交互效应,将(1)变为:,大专以上的女性:,其他女性:,大专以上的男性:,其他男性:,如何检验交互效应是否存在?,若拒绝原假设,即交互效应对Y产生了影响(应该引入模型),(三) 分段回归分析(提高模型的描述精度)虚拟变量也可以用来代表数量因素的不同阶段。分段线性回归就是类似情形中常见的一种。,例: 1979年以前,我国居民的消费支出Yt 呈缓慢上升的趋势;从1979年开始,居民消费支出为快速上升趋势。显然,1979年是一个转折点,设X*1
8、979。用以下模型描述我国居民在19551985年期间消费支出的变动趋势。,年份(t1955,1956,1985),居民消费趋势方程:,例: 设Y表示奖金、X表示销售额。当销售额低于X*时,奖金与 销售额呈线性关系;当销售额高于X*时,奖金与销售额呈更加陡峭 的线性关系。如图:,.,X* X,Y,案 例,例1:美国1940一1950年可支配收入和消费支出的数据资料:,回归模型:,Xt为可支配收入 ; Ct为消费支出D1代表战争时期(1942 1945年); D0代表和平时期,用最小二乘法可以得到以下估计结果(-0.33) (10.957) (-9.254)战争时期的消费函数:和平时期的消费函数
9、:,例2:中国城镇居民家庭的储蓄函数,根据我国城镇居民家庭19551985年人均收入 和人均储蓄 的数据资料(以1955年的物价水平为100),建立储蓄模型:,用最小二乘法得估计结果为:,模型隐含着一个重要假定,我国城镇居民家庭的储蓄行为在1955年至1985年期间是不变的。假定未必能够成立,因为与居民储蓄有关的许多重要因素在1979年以后发生了明显变化,主要表现为:,1)在经济体制改革之前,我国居民的收入一直在低水平上徘徊,大多数居民家庭的收入仅能维持温饱,因而平均储蓄倾向很低,积蓄很少;1979年后,我国居民的收入水平迅速提高,与此同时,居民储蓄也在大幅增长(由此看来前、后两时期,居民的储
10、蓄行为有显著差异);,2)在改革开放前的大多数年份,我国的消费品市场存在严重短缺的现象。消费者既使有钱也难以买到所需的商品,而不得不把钱暂时存起来。因此,这一时期储蓄带有“非自愿”的性质;1979年之后,消费品市场日趋丰富,消费者储蓄的主要目的之一是购买高档耐用消费品,储蓄不再具有“被迫”性质。,为了验证改革开放前、后城镇居民储蓄行为的变化,引入虚拟变量,建立如下截距和斜率同时变动模型:,用最小二乘法得:,t =(2.18) (8.1) (3.9) (-9.2),1979年以后:,而在19791985年期间,城镇居民边际储蓄倾向高达0.256,即收入增加一元,储蓄平均增加0.256元。,197
11、9年以前:,估计结果表明:1979年之前,我国城镇居民的边际储蓄倾向仅为0.004,即收入增加一元储蓄平均增加4厘;,例3 职工的收入与职工的年龄有关。为了方便,这里仅考虑了3个年龄段:18岁以下,1822岁,22岁以上(不同年龄段实际也代表不同的文化程度)。,设Yi为收入,Xi为年龄,,建立回归模型,白人和黑人的收入平等吗,“人权”一直是西方国家攻击中国社会制度的一个热点。似乎,在那些“自由的”国度,没有侵权,是人人平等的天堂。在此,以美国的一次工资调查数据为原始资料进行分析,来看看这个以“人人生而平等”为建国信条的国家是否真的没有种族歧视,人人平等?,Y-工资收入; X受教育年数; D种族
12、,Y X D 1.92 2 1 12.403 9 0 5.926 17 07 9 0 6.9 12 0 6.5 13 0 26 17 0 15 16 1 5.699 9 0,资料来源:市场经济学普及丛书93年版,例3,利用上述数据,作OLS分析可得回归方程为:,Y=1.63 + 0.69X -1.64D0.185941 1.115004 -0.22948,该模型拟合不是很好,但介于该问题的特殊性和此为非官方统计资料(仅作为参考),所以,我们继续进行分析。,分析易知:,Y=1.63+0.69X-1.64D,B1 =0.69,表示多受一年教育多得工资690元,对白人黑人都一样。,但种族的差别使同等
13、教育下黑人比白人少收入1640元。,白人的工资收入方程为: Y=1.63+ 0.69X,黑人的工资收入方程为: Y=1.63+0.69X-1.64,以上是对美国一定时期的样本数据作出的回归计算结果。,系统变参数模型,虚拟变量引入后,回归模型的截距或斜率不再固定不变,参数的变化是离散的。若假定1979年之前和1979年以后两个时期城镇居民有不同的储蓄行为,也就是说,回归模型的截距和斜率并不是每年都发生变化。系统变参数模型是虚拟变量应用的推广,它允许回归模型的截距和斜率随样本观测值改变而系统地改变。,一、截距变动模型系统变参数模型也可以分为截距变动模型和截距、斜率同时变动模型。,线性回归模型 ,
14、是解释变量, 是被解释变量, 是随着时间的变化而改变的,假定参数的变化是系统的(即非随机的),且这种变化完全由外生变量 决定,有以下简单的辅助关系式,表现变化的截距项。,二、截距和斜率同时变动模型,假定斜率系数 与截距一样存在系统变动。例如,如果允许作如下变动 将上式代入 则有 用最小二乘法估计,对参数是否存在系统变化进行统计检验。如果 和 统计上不显著,就可以把 和 看作常数;反之若 和在统计上显著地不为零,则认为 和 存在系统变化。,三、应用实例,我国居民的消费行为在经济体制改革前后存在巨大差异。然而,我国的经济体制改革已进行了20多年,在这期间居民的消费行为是否也在不断变化?这一问题的澄
15、清显然有重要理论和现实意义。,(一)基本判断,我国的经济体制改革走的是一条渐近的道路,与居民消费有关的诸多因素也会随着改革的不断推进而逐步改变。这些变化对居民消费的影响主要有三个方面:,1、观念的变化。与改革开放初期相比,我国居民的观念已经发生了深刻的变化。例如,城镇居民对“铁”饭碗的依赖心理已明显减弱,人们的市场意识、风险意识、对通货膨胀的承受能力等均大大增强。观念改变了,消费行为也会随之发生变化;,2、消费者的经济决策权逐步扩大。例如,由卖方市场向买方市场的转变,使居民选择商品的自主权逐步扩大;居民金融资产的迅速积累,使消费者可以在一定时问范围内提前或延迟消费;劳动力市场的建立,使人们有越
16、来越多的择业机会。这些变化使消费者逐步摆脱了旧体制下的许多限制,诸如商品供给约束,个人投资所受的约束,同期收入对同期消费的约束等等,从而有可能更合理地安排消费与收入的比例;,3、不确定因素增多。随着市场因素影响的扩大,经济生活中的不确定因素也在增加。例如,职工的实际收入已不再是完全“刚性”,个人的实际收入可能会因通货膨胀、企业经济效益下降、失业等原因而减少。不确定因素的增多,迫使消费者在做作出消费决策时更多顾及长远利益,消费行为渐趋理性化。,可以建立一个简单的系统变参数模型:,(二)系统变参数模型及实证,综上所述,我们似乎没有理由认为居民消费行为在1979年以后一直是固定不变的。但这种变化是否
17、显著?变动趋势如何?还需用系统变参数模型予以验证和描述。利用19791997年我国城镇居民家庭收支调查资料:城镇居民人均实际生活费收入和人均实际生活支出,t= 1979,1980,1997,X城镇居民家庭某年人均实际生活费收入y人均实际生活费支出(以1978年的价格水平为100,从生活费收入和生活费支出中分别扣除了职工生活费用价格上涨因素)。t代表年代。,注意到模型中截距 和斜率 是随着时间推移而不断变化的,也就是说,消费与收入的关系是逐年改变的。影响截距和斜率的因素中有许多是不可观测或难以度量的(例如观念变化),故无法将这些因素作为解释变量直接引入辅助方程。然而,如前所述,我国的经济体制改革
18、期间消费函数来代表这些因素是随着时间推移而逐渐改变的,变化可以由下面的辅助方程决定:,从而得到:,获得参数估计值后,可对所有的超常数进行统计检验。如果部分或全部显著地不为零,则表明在经济体制改革期间消费函数的参数存在系统变化;反之,就认为消费函数在19791997年期间是稳定的。,经试算发现, 在统计上都不显著,故最终把模型确定为:,用普通最小二乘法估计,得到如下结果:,(2.176)(48.508)(-5.112),模型的拟合程度很高,且不存在自相关问题。,估计及检验结果表明:,1. 和 在统计上是高度显著的,从而证明我国城镇居民的消费行为在改革期间是不断变化的;,2. 由 可知,我国城镇居
19、民的消费水平呈现逐年上升的趋势;,3. 表明我国城镇居民的边际消费倾向呈下降趋势,即在增加的收入中用于消费的份额渐渐下降;,4.边际消费倾向的变动曲线为:即边际消费倾向的下降趋势为线性趋势。如果这一趋势延伸下去,将引起消费需求不足。,5.如果忽略居民消费行为的变化,把模型设定为:则估计结果为: (5.734) (52.413),虽然该模型的拟合优度很高,但由于假定边际消费倾向是固定常数,因而错误地描述了消费与收入的关系。例如,由表可知,1979年我国城镇居民人均生活费支出占人均生活费收入的比重为0.9671,到1990年这一比重下降为0.9921,1997年则进一步下降为0.8934。如果将
20、用预测,预测误差必然会随着时间的推移而越来越大。此外,比较两种估计方法的 值,后者明显劣于前者。这是因为后者忽略了“体制改革”这一重要因素从而可能产生自相关问题。,一、线性概率模型 在实际经济问题的分析中,会遇到一些表示研究对象的数量或状态的离散变量。在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。如果某个家庭是否购买住房仅是作为用于说明某种具体经济问题的自变量,则应用以前介绍的虚拟变量的知识就足够了。如果现在考虑某个家庭在一定的条件下是否购买住房时,则表示状态的虚拟变量就不再是自变量,而是作为一个被说明对象的因变量出现在经济模型中。因此
21、,需要对以前讨论虚拟变量的分析方法进行扩展,以便使其能够适应分析类似家庭是否购房等虚拟因变量的问题。因为在家庭是否购房选择问题中,虚拟因变量的具体取值仅是为了区别不同的状态,所以将通过虚拟因变量讨论备择对象选择的回归模型称为选择模型。,第三节 虚拟被解释变量,作为最简单的选择模型,可以考虑只具有两个备择对象的两项选择模型。实际上,两项选择模型具有广泛的应用性,它不仅可以用于讨论家庭购房等问题,还可以用于讨论家庭购房是否申请银行贷款、家庭成员是否利用公共交通设施等两者择一的问题。,约定在具有备择对象的0和1两项选择模型中,下标t表示各不同的经济主体,取值0或l的因变量 表示经济主体的具体选择结果
22、,诸 是影响经济主体决策的自变量而影响经济主体进行选择的自变量。于是具体描述各经济主体选择结果的因变量的两个响应水平的回归模型就可写成,设Y是二值响应的观测值,X是解释变量,经济主体选择1,概率为 经济主体选择2,概率为 则 作为简单回归模型的扩展,当然可以用来描述。,随机扰动项非正态;作为概率值,不能保证拟合值始终在0,1范围之内;可能存在异方差,二、 模型作为对线性概率模型的修正,我们可以考虑在模型中引入转换函数而保证应变量的取值范围始终位于0,1。,现在的问题是 具有什么样的函数形式。如果我们取为逻辑函数,注:机会比率 ,成败比。,特点:有异方差情形,三、PROBIT模型更为一般的情形,
23、如果选择F(.)是标准正态分布,则产生PROBIT模型。,在一次住房展销会上,与房地产商签订初步购房意向书的共有 325名顾客,在随后的3个月的时间内,只有一部分顾客确实购买了 房屋。购买了房屋的顾客记为“1”,没有购买的人记为“0”。以顾客 的年家庭收入为自变量X,根据如下资料,分析收入8万元的家庭买 房的可能性。,用三个模型分别讨论这个问题。,分析收入8万元的家庭买房的可能性为,- Variables in the Equation -Variable B S.E. Wald df Sig R Exp(B)X1 .1498 .0534 7.8704 1 .0050 .1164 1.1616
24、 Constant -.8518 .2931 8.4450 1 .0037,Parameter Estimates (PROBIT model: (PROBIT(p) = Intercept + BX)X1 Regression Coeff. Standard Error Coeff./S.E.0.09354 .03309 2.82719Intercept Standard Error Intercept/S.E.-.53177 .18151 -2.92979,Number of Observed ExpectedX1 Subjects Responses Responses Residual
25、 Prob1.50 25.0 8.0 8.693 -.693 .347732.50 32.0 13.0 12.252 .748 .382883.50 58.0 26.0 24.304 1.696 .419034.50 52.0 22.0 23.706 -1.706 .455885.50 43.0 20.0 21.203 -1.203 .493106.50 39.0 22.0 20.685 1.315 .530397.50 28.0 16.0 15.888 .112 .567428.50 21.0 12.0 12.681 -.681 .603869.50 15.0 10.0 9.591 .409 .63941,第五节 设定误差,本节主要讨论变量的遗漏、误选两类设定误差,相关变量的遗漏:损失了估计量的无偏性、一致性; 相关变量的误选:损失了估计量的有效性。,