1、第七章 线性回归模型的扩展,第一节 变量非线性回归模型第二节 参数非线性回归模型*第三节 虚拟解释变量回归模型第四节 虚拟被解释变量回归模型*,2018年5月9日,山东财经大学统计学院计量经济教研室,第2页,前几章所讨论的,都是基于横截面数据的线性回归模型,涉及的变量均是数值变量。实际上,许多经济变量之间并不存在线性关系,建模中涉及的许多变量也不直接表现为数值,而是属于分类变量的范畴。,为了扩大计量经济建模方法的适用范围,本章拟将横截面数据的线性回归建模方法扩展到对非线性关系的分析,并将计量经济模型的变量类型从数值变量扩展到分类变量。,2018年5月9日,山东财经大学统计学院计量经济教研室,第
2、3页,线性回归分析的前提是作为被解释变量的经济变量与作为解释变量的经济变量之间存在着线性关系。这里所说的线性是指解释变量线性并且参数线性。但是,在众多的经济现象中,分析经济变量之间的关系,根据某种经济理论和对实际经济问题的分析,所建立的经济模型往往不符合上面的线性要求,即模型是非线性的,称为非线性模型(Non-linear Model)。 非线性模型包括两种情况:(1)解释变量非线性,但是参数线性。(2)参数非线性。尤其参数非线性是对古典假定SLR.1和MLR.1的违背,对回归分析影响很大。,本节针对第一种情况进行讨论,常用的变量非线性回归模型包括对数函数模型、双曲线模型和多项式模型。这类模型
3、有一个共同特点,可以利用变量转换等处理方法将模型线性化,线性化后的模型即可采用OLS方法进行参数估计。这类非线性模型被称为内蕴线性模型,或广义线性模型。,第一节 变量非线性回归模型,2018年5月9日,山东财经大学统计学院计量经济教研室,第4页,一、对数函数模型,(一)双对数函数模型,回归分析经常使用的对数模型是双对数函数模型(Double-log Model),考虑如下形式的需求收入模型,(7.2),(7.2)中的参数是以线性形式出现在模型中的,虽然(7.1)中原变量x和y之间是非线性的,但因变量与自变量的对数形式是线性的,因而称双对数函数模型。,对数函数模型的自变量和因变量中,至少有一种是
4、原始变量的对数形式。具体分为以下两种类型:,两边取对数,模型可变换为:,(7.1),2018年5月9日,山东财经大学统计学院计量经济教研室,第5页,实际工作中,双对数模型应用非常广泛,其原因在于,如果忽略误差项,(7.2)是一条直线(y和x都是对数形式),所以它的斜率(1)为一常数,是y相对于x的弹性系数:,所以弹性为一常数。由于这个特殊的性质,双对数模型又称为不变(固定)弹性模型。,对这类模型可作如下代换,令,双对数模型可化为标准线性模型,在古典假定满足的情况下,可以使用OLS对模型进行估计。,2018年5月9日,山东财经大学统计学院计量经济教研室,第6页,对于多个解释变量的情形,(7.2)
5、式可以扩展为,(7.3),称为偏弹性系数。它度量了在其他变量不变的条件下,被解释变量y对于解释变量 的弹性系数。 如著名的柯布道格拉斯(CobbDouglas)生产函数模型 ,就是这类模型的一个典型,我们下面举例说明。,例7-1 表7-1列出了抽样调查得到的某市19个规模以上制造业企业的投入产出数据。试用回归分析法分析企业产出中各要素的贡献及其特点。,2018年5月9日,山东财经大学统计学院计量经济教研室,第7页,表71 某市19个规模以上制造业企业的投入产出数据,2018年5月9日,山东财经大学统计学院计量经济教研室,第8页,用EViews建立双对数模型,回归结果如下:,样本回归方程为:,2
6、018年5月9日,山东财经大学统计学院计量经济教研室,第9页,对样本回归方程解释如下:斜率系数0.3397表示产出对劳动投入的弹性,即表明在资本投入保持不变的条件下,劳动投入每增加一个百分点,平均产出将增加0.3397个百分点。同样地,在劳动投入保持不变的条件下,资本投入每增加一个百分点,产出将平均增加0.8419个百分点。两个弹性系数相加为规模报酬系数,其数值大于1,表明该市经济的特征很可能是规模报酬递增的(如果数值等于1,属于规模报酬不变;小于1,则属于规模报酬递减)。,2018年5月9日,山东财经大学统计学院计量经济教研室,第10页,根据单边检验的结果,这两个系数各自均是统计显著的(这是
7、用单边检验,即 ,因为我们预期劳动力和资本对产出影响都是正向的),模型的F值也是高度显著的(因为prob=0.0000),因此能够拒绝零假设:劳动力与资本对产出无影响。R2值为0.995,表明劳动力和资本(对数)的变动解释了大约99.5%的产出(对数)的变动,说明了模型很好地拟合了样本数据。,2018年5月9日,山东财经大学统计学院计量经济教研室,第11页,(二)半对数函数模型,线性模型与对数函数模型的混合就是半对数模型(Semi-log Models)。,因变量是对数形式(对数线性模型):,(7.4),解释变量是对数形式 (线性对数模型):,(7.5),这两个模型的参数是以线性形式出现的,虽
8、然原变量之间是非线性的,但被解释(解释)变量的对数与解释(被解释)变量之间是线性关系,因此,半对数函数模型可以很容易地转换成线性模型,并使用OLS估计参数。,2018年5月9日,山东财经大学统计学院计量经济教研室,第12页,对于半对数模型(7.4),显然有,可见, 表示x每变化一个相对单位(变动率)对应的y的平均绝对变动量,所以,半对数函数模型又称增长率模型。(7.4)常用于度量由解释变量相对变动率导致的被解释变量平均变动的绝对数量;(7.5)常用于度量由解释变量绝对量变化导致的被解释变量的平均相对变动率。两个模型中的斜率系数 又被称为半弹性(Semi-elasticity)系数。,2018年
9、5月9日,山东财经大学统计学院计量经济教研室,第13页,二、双曲线模型,形如,的模型,称为双曲线模型(Double-curve Model)。该模型刻画了 y与x的反向变动关系,其显著特点是随着 x的无限增大(即 1/x接近于零), y趋近于 。,令,,原模型可化为线性形式,即可用OLS的方法进行估计。,菲利普斯曲线(Phillips Curve)就是这个模型在经济分析中应用的典型体现。菲利普斯曲线刻画了通货膨胀率与失业率的反向变动关系,如图7-1。,2018年5月9日,山东财经大学统计学院计量经济教研室,第14页,失业率与通货膨胀率负向相关,同时通货膨胀率变化有一个渐近底限 。当失业率x趋于
10、无穷大时,通货膨胀率y将取渐近值 。,菲利普斯曲线,2018年5月9日,山东财经大学统计学院计量经济教研室,第15页,三、多项式函数模型,多项式回归模型(Polynomial Regression Model)在生产与成本函数分析中被广泛地使用。,如果用y表示成本,x表示产出,则可以建立以下多项式模型,体现微观经济分析中的二者关系:,总成本(TC):,边际成本(MC)和平均成本(AC)的 PRF为:,(7.8),即总体回归函数(PRF)为:,2018年5月9日,山东财经大学统计学院计量经济教研室,第16页,成本曲线,如果模型的解释变量为时间变量t,多项式函数模型又称为曲线回归模型,常常用于对非
11、线性长期趋势的拟合。,有时为了反映自变量之间的交互影响,也需要用到多项式回归模型。,2018年5月9日,山东财经大学统计学院计量经济教研室,第17页,如以y、x、z分别表示单位面积上的粮食产量、施肥量和灌溉用水量。由于施肥量和灌溉用水量对粮食产量的效应之间存在交互影响,所以,可以建立以下模型:,施肥量x对粮食产量y的总边际影响是:,是施肥量对粮食产量的直接效应(假定灌溉用水量不变), 是施肥量对粮食产量的间接效应,随灌溉用水量的不同而变化,说明肥效的发挥取决于灌溉用水的多少。同样,灌溉用水z对粮食产量y的总边际影响也可以这样分解。显然,该模型比单纯的二元回归模型 更符合实际情况。,2018年5
12、月9日,山东财经大学统计学院计量经济教研室,第18页,例7-2 表7-3给出了某市16个企业的产品产量(x)与单位产品成本(y)的抽样调查数据。试研究二者的依存关系。,企业产品产量与单位产品成本数据,2018年5月9日,山东财经大学统计学院计量经济教研室,第19页,根据规模经济的原理,产品产量是单位产品成本变化的原因。为了明确二者的具体关系类型,使用EViews的Graph功能,绘制散点图如下:,2018年5月9日,山东财经大学统计学院计量经济教研室,第20页,显然,二者的关系不是线性关系。可供选择的模型有以下两种:,双曲线模型:,半对数模型:,分别拟合两种模型,回归结果整理如下:,双曲线模型
13、和幂函数模型的系数均通过了显著性检验,但前者无论是R2还是AIC、SC均好于后者,所以,最终的模型应为双曲线模型:,2018年5月9日,山东财经大学统计学院计量经济教研室,第21页,该回归结果说明,单位产品成本随产量的上升而下降,当产品产量趋近于无穷大时,单位产品成本趋近于2489.7元/吨,这就是单位产品成本的理论最低值(实际上是可变成本部分)。,四、Box-Cox变换,在考察被解释变量y和解释变量 的关系时,经常用的两种模型是线性模型,和对数线性模型,事实上,经济学家对被解释变量和解释变量之间的具体的函数关系并不是很清楚的。,2018年5月9日,山东财经大学统计学院计量经济教研室,第22页
14、,由博克斯和考克斯(Box,Cox,1964)引进的Box-Cox变换对于利用样本数据确定函数形式非常有益的。 对一种关系中的所有变量进行某个变换就会得到一个由变换参数决定的函数族,线性和对数线性关系是这个函数族中的两个特例。函数形式最终由估计的变换参数值确定。,我们考虑变量z的下列Box-Cox变换:,时, ;,时, ;,时, ,。,2018年5月9日,山东财经大学统计学院计量经济教研室,第23页,对某个特殊的关系式的所有变量都进行Box-Cox变换可得到下列模型,时,这个模型就是双对数模型(7.13)。,时,可得,即,它和线性模型(7.12)是等价的。对于其它的 的值,确定其它的函数形式。
15、,2018年5月9日,山东财经大学统计学院计量经济教研室,第24页,也可以进行更一般的变换,它就是每个变量的变换参数不一样。此时变换后得到的模型为,可能有些变量以线性的形式出现( ,有些变量以对数的形式出现( ,有些变量以倒数的形式出现( , 等等。这样得到的函数族更大些,但是它也给我们估计参数带来困难。,接下来,我们需要做的事情就是利用样本数据估计变换参数 或( )以及 ,得到估计的函数形式。一般采用极大似然估计方法估计参数,在此不展开讨论。,2018年5月9日,山东财经大学统计学院计量经济教研室,第25页,五、小结,计量经济模型设定的重要方面是要使所设定的变量间函数形式能够体现变量间的基本
16、关系。总体回归模型是对总体回归函数的描述,总体回归函数正是计量经济要去估计的目标。但其真实的函数形式事先并不知道。所谓模型函数形式的设定,是指根据对变量间相互关系的已有认识,把y的条件期望设定为解释变量x的某种函数。总体条件期望函数 ,可以设定为各种具体的函数形式。在计量经济学的实践中,通常把总体回归函数的具体函数形式设定为初等函数,应当注意的是不同函数形式中参数的经济意义有较大差异。常用的函数形式见课本P217表7-5(课件略)。,2018年5月9日,山东财经大学统计学院计量经济教研室,第26页,大多数模型中,边际和弹性系数为变量,其大小取决于具体样本点自变量或(和)因变量的取值。在实际应用
17、时,一般用 代替具体的 计算,得到的是平均的边际效应或弹性系数。,2018年5月9日,山东财经大学统计学院计量经济教研室,第27页,第三节 虚拟变量,虚拟变量含义虚拟解释变量的回归分类变量表现为多种状态,2018年5月9日,山东财经大学统计学院计量经济教研室,第28页,迄今为止,本教材涉及的变量都是数值变量,诸如市场需求量、商品的价格、收入、产量等;但我们在建模时还经常遇到另外一些“变量”,如职业、性别、地区、季节等等。 例如,季节的变化会对某些商品的需求量产生影响;性别或者职业的不同,其收入水平可能会有很大的差异。 再如,当研究某一经济问题时还可能有些起暂时作用的“变量”,诸如在某一时期出现
18、了战争、天灾、人祸等。诸如此类的 “变量”都是分类变量,或称为“非数值变量”、“定性变量”或“名义变量”。,一、虚拟变量,2018年5月9日,山东财经大学统计学院计量经济教研室,第29页,在计量经济建模过程中,有时候分类变量是不可缺少的。但由于在一般情况它们并不表现为具体的数值,为了将分类变量引入计量经济模型中,需要率先将其数量化,即转化为所谓的“虚拟变量”( Dummy Variable),又被称为二元变量或二进制变量(Binary Variable),一般用D来表示。 分类变量数量化的方法是,当分类变量起作用时,赋值 “D1”;不起作用时,赋值 “D0”。通过定义虚拟变量,就可以将分类变量
19、等同于数值变量,引入回归模型之中。,2018年5月9日,山东财经大学统计学院计量经济教研室,第30页,计量经济模型中,虚拟变量可以发挥多方面的作用:比如,作为属性因素的代表,如性别、所有制等;可以作为某些非精确计量的数量因素的代表,如受教育程度、管理者素质等;作为某些偶然因素或政策因素的代表,如战争、灾害、改革前后等;实现分段回归,研究斜率、截距的变动,或比较两个回归模型的结构差异;作为时间序列分析中季节(月份)的代表;等等。,2018年5月9日,山东财经大学统计学院计量经济教研室,第31页,在计量经济学中,把包含有虚拟变量的模型称为虚拟变量模型。常用的虚拟变量模型有三种类型: 1. 解释变量
20、中只包含虚拟变量,作用是在假定其他因素都不变时,只研究分类变量是否使被解释变量表现出显著差异; 2. 解释变量中既含数值变量,又含虚拟变量,研究数值变量和虚拟变量同时对被解释变量的影响; 3. 被解释变量本身为虚拟变量的模型,即被解释变量本身取值为0或1的模型,适于对某社会经济现象进行“是”与“否”的判断研究。 本节讨论前两种情形。,2018年5月9日,山东财经大学统计学院计量经济教研室,第32页,二、虚拟解释变量的回归,在计量经济模型中,加入虚拟解释变量的途径有两种基本类型:一是加法类型;二是乘法类型。不同的途径引入虚拟变量有不同的作用,加法方式引入虚拟变量改变的是模型的截距;乘法方式引入虚
21、拟变量改变的是模型的斜率。,(一)用虚拟变量表示不同截距的回归加法类型,以加法类型引入虚拟解释变量的模型,虚拟解释变量与其他解释变量是相加关系;从计量经济模型的意义看,其作用是改变了设定模型的截距水平。比如:,2018年5月9日,山东财经大学统计学院计量经济教研室,第33页,例 :研究性别与收入(yi)的关系:我们可以定义虚拟变量Di, Di =0时表示女性,Di =1时表示男性,即:,对于线性回归模型 (7.18),若假设H0:1 =0成立,则说明收入与性别将没有太大关系;若假设H0:1=0不成立,则说明收入与性别有关。,以加法类型引入虚拟变量时,分为两种情形:解释变量只有分类变量而无数值变
22、量;解释变量既有数值变量又有分类变量。,1.解释变量只有分类变量而无数值变量的回归,2018年5月9日,山东财经大学统计学院计量经济教研室,第34页,例7-4 研究学历与收入(yi)的关系:可以建立如下模型:,2018年5月9日,山东财经大学统计学院计量经济教研室,第35页,表7-6为从某城市随机获取的10名职工的学历情况与最初参加工作时的起薪。试建立样本回归模型。,表7-6 起薪与受教育程度数据,2018年5月9日,山东财经大学统计学院计量经济教研室,第36页,由结果可知, 对应的t检验值为2.3,在统计上显著,说明学历对收入有着显著的影响,即说明受教育水平不同的两类人群的起薪是不同的。由方
23、程可得,大学毕业的起薪均值为2080元,而非大学毕业的起薪均值为1440元,前者比后者高出640元( 的系数)。,最小二乘估计结果:,2018年5月9日,山东财经大学统计学院计量经济教研室,第37页,因为这种案例实际上是不同组别的均值比较,可以通过方差分析完成,这种情况的模型又被称为方差分析模型。该例的excel方差分析结果如表7-7:,表7-7 excel方差分析输出结果,2018年5月9日,山东财经大学统计学院计量经济教研室,第38页,2.解释变量同时包含常规数值变量和虚拟变量的回归,例如,我们认为,某个企业工人的月工资(y)与工作岗位类型(分为一般岗位和特殊岗位)有关,也与工作年限(x)
24、有关。回归模型如下:,(7.19),其中岗位类型用虚拟变量表示:,于是有,2018年5月9日,山东财经大学统计学院计量经济教研室,第39页,因而可以看出(7.19)实际上是两条截距不同、斜率相同的直线的组合,如图7-4。这里斜率相同是在模型设定时隐含的假定。,在 的假设下,用t检验,可以进行工作岗位不同状态时月工资是否存在差异的检验。,2018年5月9日,山东财经大学统计学院计量经济教研室,第40页,(二)用虚拟变量表示不同斜率的回归乘法类型,以乘法类型引入虚拟解释变量,是在所设定的计量经济模型中,将虚拟解释变量与其他解释变量相乘作为解释变量,以表示模型中斜率系数的差异。以乘法类型引入虚拟解释
25、变量,可以进行两个回归模型的比较、进行因素间的交互影响分析和提高模型对现实经济现象的描述精度。,1回归模型的比较结构变化检验,以加法类型引入虚拟解释变量,分类变量仅影响不同类型模型截距项,但是在现实经济生活中,分类变量也可能导致模型的斜率系数发生变化。,2018年5月9日,山东财经大学统计学院计量经济教研室,第41页,例如,随着可支配收入水平的提高,城乡居民的消费结构将出现较大的差异,这种差异会表现在分类变量(如城乡、职业)对斜率的影响上。这类问题可归结于两个回归模型的比较。例如,在研究城乡之间储蓄收入总量关系时,所设定的模型为:,城市:,i代表城市居民家庭 (7.21),农村:,j代表农村居
26、民家庭 (7.22),其中,y为储蓄总额(亿元),x为收入总额(亿元), u为随机扰动项。,2018年5月9日,山东财经大学统计学院计量经济教研室,第42页,如果我们分别将式(7.21)和式(7.22)对不同的人群作回归,则可能得到以下四种结果:,(1),表明这两个回归模型是相同的,或称为重合回归;,(2),表明这两个回归模型仅在位置水平上(即截距水平上)存在差异,或称为平行回归;,(3),表明这两个回归模型具有相同的位置水平(或起点相同)而变化速率不等,或称为共点回归;,(4),表明这两个回归模型完全不相同,或称为不同的回归。,2018年5月9日,山东财经大学统计学院计量经济教研室,第43页
27、,以上四种情形可用图示法描述(见图7-5):,(a)重合回归,(b)平行回归,2018年5月9日,山东财经大学统计学院计量经济教研室,第44页,(d)不同的回归,(c)共点回归,2018年5月9日,山东财经大学统计学院计量经济教研室,第45页,现在的问题是,当我们运用样本数据对模型(7.21)和模型(7.22)进行回归后,如何界定所得结果在统计意义上属于哪一种类型呢?这时可采用以乘法类型引入虚拟变量的方法,将模型(7.21)和模型(7.22)连接为一个模型:,(7.23),其中,y为储蓄总额(亿元),x为收入总额(亿元), u为随机扰动项,D为虚拟变量。,显然在式(7.23)中,以乘法类型引入
28、了虚拟变量所形成的解释变量为 ,以加法形式引入虚拟变量所形成的解释变量是 。,2018年5月9日,山东财经大学统计学院计量经济教研室,第46页,假如根据100个居民家庭调查数据,对 (7.23) 式用OLS法估计得,结果表明,截距和斜率差异系数 、 在统计意义下均为显著的,说明城乡之间的储蓄收入行为确实不相同。即,农村家庭(Di=0) :,城市家庭(Di=1) :,即,2018年5月9日,山东财经大学统计学院计量经济教研室,第47页,以乘法类型引入虚拟变量作回归模型的比较和结构变化检验有一些优点:(1)用一个回归替代了多个回归,简化了分析过程;(2)可以方便地对模型结构的差异作各种假设检验;(
29、3)合并了的回归增加了自由度,提高了参数估计的精确性。但是,也应注意合并后模型的 应服从基本假定,特别是所比较的方程的方差应相同(如城乡之间),否则会出现异方差问题,需要用WLS法进行校正。,2018年5月9日,山东财经大学统计学院计量经济教研室,第48页,2交互效应分析,当分析解释变量对被解释变量的影响时,不仅要分析解释变量自身变动对被解释变量的影响作用,而且还要深入分析解释变量间的相互作用对被解释变量的影响。,在实际经济活动中,两个分类变量对被解释变量的影响可能存在一定的交互作用,即一个解释变量的边际效应有时可能要依赖于另一个解释变量。为描述这种交互作用,可以把两个虚拟变量的乘积以加法形式
30、引入模型。,2018年5月9日,山东财经大学统计学院计量经济教研室,第49页,考虑下列模型:,(7.24),其中, 为农副产品生产总收益; 为农副产品生产投入; 为代表油菜籽生产虚拟变量; 为代表养蜂生产虚拟变量。,显然(7.24)式描述了是否发展油菜籽生产与是否发展养蜂生产的差异对农副产品总收益的影响。虚拟解释变量 和 是以加法类型引入的,那么暗含着假设:油菜籽生产和养蜂生产是分别独立地影响农副品生产总收益。,2018年5月9日,山东财经大学统计学院计量经济教研室,第50页,在发展油菜籽生产时,同时也发展养蜂生产,所取得的农副产品生产总收益,可能会高于不发展养蜂生产的情况。即在是否发展油菜籽
31、生产与养蜂生产的虚拟变量 和 间,很可能存在着一定的交互作用,且这种交互影响对被解释变量农副产品生产收益会有影响。,为了描述交互作用对被解释变量的效应,在(7.24)式中以加法形式引入两个虚拟解释变量的乘积,即,(7.25),(7.25)式中各变量的含义与(7.24)式相同。,2018年5月9日,山东财经大学统计学院计量经济教研室,第51页,基础类型:为不发展油菜籽生产,也不发展养蜂生产时农副产品生产的平均总收益,(7.26),对比类型:为同时发展油菜籽生产和养蜂生产时,农副产品生产的平均总收益,(7.27),这里的截距水平由四项组成,其中:,为是否发展油菜籽生产对农副产品生产总收益的截距差异
32、系数; 为是否发展养蜂生产对农副产品生产总收益的截距差异系数; 为同时发展油菜籽生产和养蜂生产时对农副产品生产总收益的交互效应系数。,2018年5月9日,山东财经大学统计学院计量经济教研室,第52页,关于交互效应是否存在,可借助于交互效应虚拟解释变量系数的显著性检验来加以判断。如果t检验表明交互效应虚拟变量 在统计意义上是显著的,则说明交互效应对 存在显著影响。,3分段线性回归,有的社会经济现象的变动,会在解释变量达到某个临界值时发生突变,为了区分不同阶段的截距和斜率可利用虚拟变量进行分段回归。,例如,某公司为了激励公司销售人员,按其销售额的一定比例计提奖励,但是销售额在某一目标水平 以下和以
33、上时计提奖励的方法不同。,2018年5月9日,山东财经大学统计学院计量经济教研室,第53页,当销售额高于 时,计提奖励额与销售额的比例要高于销售额低于 时的比例,也就是高于 时,奖励额与销售额的线性关系更为陡峭(如图7-6所示)。为了确切地描述奖励额度(y)与销售额(x)间的关系,需要分两段进行回归。这种分段回归可以用虚拟变量来实现 。,图7-6 奖励额与销售额的关系,2018年5月9日,山东财经大学统计学院计量经济教研室,第54页,设虚拟变量 D为:,则奖励额度( )和销售额( )间的关系式可以统一地表示为:,(7.28),为奖励额, 为销售额, 为已知的销售目标临界水平。利用统计资料估计(
34、7.28)式的参数,就可以得到不同斜率和截距的回归方程:,销售额低于 时:,销售额不低于 :,2018年5月9日,山东财经大学统计学院计量经济教研室,第55页,是图7-6中第段回归直线的斜率,而 则是第段回归直线的斜率。只要检验 的统计显著性,就可以判断在所设定的临界水平 处是否存在着“突变”。,应当注意,在分段回归中,第一、二段回归不仅截距不同,而且斜率也不同。在分为两段回归时,使用了一个虚拟变量,容易推广,分为 k段回归时,可用 k -1个虚拟变量。,2018年5月9日,山东财经大学统计学院计量经济教研室,第56页,三、分类变量表现为多种状态,上面讨论的定性(分类)变量其表现的状态仅有两种
35、情况,如性别仅表现为男性和女性,学历仅区分为“大学”和“非大学”。 但有时分类变量可表现为多种状态,如文化程度可区分为大学、中学、小学、文盲四种状态,省份分为东部、中部和西部三种状态,等等。,含此类分类变量模型的建立,应避免犯以下两类错误:,第一,设置一个虚拟变量,分别用0,1,2,3, 表示其不同的状态。此方法缺陷在于,它在设定模型时,假定各种状态均值之间差量为固定值,这显然与事实不符。,2018年5月9日,山东财经大学统计学院计量经济教研室,第57页,第二,设立与状态数相同个数的虚拟变量,分别表示各个不同状态。例如文化程度区分为大学、中学、小学、文盲四种状态,如果设置四个虚拟变量,即为:,
36、此方法缺陷在于,由于 D1+D2+D3+D4=1,如果模型存在常数项,这会使得多元回归模型的自变量观测值矩阵X不满秩,产生完全的多重共线性。这类问题称为“虚拟变量陷阱”(Trap of Dummy Variable)。 正确的虚拟变量设置方法是:如分类变量有k种表现状态,可引入(k-1)个虚拟变量。,2018年5月9日,山东财经大学统计学院计量经济教研室,第58页,例7-5 科学家认为某种药用树种中的药用成分PDM含量可能随着植物生长时间(树龄)而增加,而且其基础含量与种植地的地理环境有关,但其变化速度与地理环境无关。某县地理单元分为平原、山区和海岛三种。随机抽取20棵植株进行化验,结果如表7
37、-8所示。据此验证上述假说。,2018年5月9日,山东财经大学统计学院计量经济教研室,第59页,表7-8 样本调查数据表,2018年5月9日,山东财经大学统计学院计量经济教研室,第60页,以 代表树龄, 代表PDM含量,各地理单元植株中PDM含量随树龄增长率( )相同,但基础含量( ) 不同。如果设置三个地理单元的虚拟变量如下,科学家的假定实际上可以表述为:,平原种植,山区种植,海岛种植,2018年5月9日,山东财经大学统计学院计量经济教研室,第61页,引入地理单元虚拟变量建立如下模型:,(7.29),此模型中只引入了代表平原和山区两个地理单元的虚拟变量,分别为 和 ,代表海岛的虚拟变量 没有
38、引进。因此有下面的关系式:,即 和 分别是种植在平原和山区植株的PDM含量基础数值与海岛植株相差的数额。,2018年5月9日,山东财经大学统计学院计量经济教研室,第62页,上述模型的估计结果如表7-9:,表7-9 EViews输出结果,2018年5月9日,山东财经大学统计学院计量经济教研室,第63页,可见,平原、山区和海岛三类地理单元植株中PDM的平均的基础含量估计值分别为16.79(即30.46-13.67)、27.52(即30.46-2.94)和30. 46;PDM含量随树龄的平均增长率为每年0.3267个单位。由于所有的系数都是统计显著的,所以,该样本的分析结果支持了科学家的假说。,2018年5月9日,山东财经大学统计学院计量经济教研室,第64页,避免“虚拟变量陷阱”的另一种方法是设立与状态数相同个数的虚拟变量,但去掉模型中的常数项。如将上例模型改为,但由于无常数项的回归方程,平方和分解公式TSS=ESS+RSS不再成立,不方便相关检验指标的计算,故不提倡使用。,(7.30),估计结果如表7-10.,2018年5月9日,山东财经大学统计学院计量经济教研室,第65页,表7-10 EViews输出结果,