1、分位数回归(QRM)方法及其应用,夏先锋,管理与经济学院,主要内容:,分位数回归的基本介绍,系数协方差的估计方法,模型评价与检验,基于Eviews的分位数回归,传统的回归分析主要关注均值,即采用因变量条件均值的函数来描述自变量每一特定数值下的因变量均值,从而揭示自变量与因变量的关系。这类回归模型实际上是研究被解释变量的条件期望,描述了因变量条件均值的变化。人们当然也关心解释变量与被解释变量分布的中位数,分位数呈何种关系。这就是分位数回归,它最早由凯恩克(Koenker Roger)和巴西特(Bassett Gilbert Jr)于1978年提出,是估计一组回归变量X与被解释变量Y的分位数之间线
2、性关系的建模方法,强调条件分位数的变化。,一、分位数回归的提出,分位数回归(Quantile Regression)最早由科恩克和巴塞特 (Koenker 和Bassett, 1978)于1978年提出 ,它提供了回归变量 X 和因变量Y 的分位数之间线性关系的估计方法。绝大多数的回归模型都关注因变量的条件均值,但是人们对于因变量条件分布的其他方面的模拟方法也越来越有兴趣,尤其是能够更加全面地描述因变量的条件分布的分位数回归。,利用分位数回归解决经济学问题的文献越来越多,尤其是在劳动经济学中取得了广泛应用。如在教育回报和劳动市场歧视等方面都出现了很好的研究成果。在经济学中的应用研究还包括诸如财
3、富分配不均问题、失业持续时间问题、食品支出的恩格尔曲线问题、酒精需求问题和日间用电需求问题等。在金融学领域也涌现出大量使用分位数回归的应用研究成果,主要应用领域包括风险价值(Value at Risk, VaR)研究和刻画共同基金投资类型的指数模型。,正如普通最小二乘OLS回归估计量的计算是基于最小化残差平方和一样,分位数回归估计量的计算也是基于一种非对称形式的绝对值残差最小化,其中,中位数回归运用的是最小绝对值离差估计(LAD,least absolute deviations estimator)。它和OLS主要区别在于回归系数的估计方法和其渐近分布的估计。,分位数回归参数估计的思想,分位
4、数回归参数估计的思想,与LR估计量明显不同的QR估计量的特点在于,在QR中数据点到回归线距离的测量通过垂直距离的加权总和(没有平方)而求得,这里赋予拟合线之下的数据点的权重是1-,而赋予拟合线之上的数据点的权重则是.对于的每一个选择,都会产生各自不同的条件分位数的拟合函数,这一任务是为每一个可能的寻找适合的估计量。,中位数是一个特殊的分位数,它表示一种分布的中心位置。中位数回归是分位数回归的一种特殊情况,其他分位数则可以用来描述一种分布的非中心位置。第p个百分位数表示因变量的数值低于这一百分位数的个数占总体的p%.因此,分位数可以指定分布中的任何一个位置。,4.7.1 分位数回归的基本思想和系
5、数估计,假设随机变量 Y 的概率分布为:(4.7.1) Y 的 分位数定义为满足 F(y) 的最小 y 值,即: , (4.7.2),图4.7.1 cs 变量的累积分布函数F(y) 图4.7.2 cs 变量的分位数分布函数q(),F(y)的 分位数可以由最小化关于 的目标函数得到,即:(4.7.3) 其中,argmin函数表示取函数最小值时 的取值,(u) u( I(u 0) 称为检查函数(check function),依据 u 取值符号进行非对称的加权,这里 u y 。,一般的 分位数回归的检查函数为:,其中, 为示性函数,Z是指示关系式。当分位数为0.5时,就是最小一乘回归,即中位数回归
6、。,考察此最小化问题的一阶条件为:(4.7.4) 即F() = ,也就是说F(Y)的第 个分位数是上述优化问题的解。F(y) 可以由如下的经验分布函数替代:(4.7.5) 其中 y1,y2,yn 为Y 的 N 个样本观测值;I(z) 是指示函数,z 是条件关系式,当 z 为真时,I(z) = 1;当 z 为假时,I(z) = 0。式(4.7.3)中条件关系式 z 为 yi y,当 yi y 时,I(yi y) = 1,否则取值为0。,相应地,经验分位数为: , (4.7.6)式(4.7.3)可以等价地表示为下面的形式:(4.7.7),现假设 Y 的条件分位数由 k 个解释变量组成的矩阵 X 线
7、性表示:(4.7.8) 其中,xi =(x1i,x2i,xki) 为解释变量向量,( ) =(1,2,k )是 分位数下的系数向量。当 在 (0, 1) 上变动时,求解下面的最小化问题就可以得到分位数回归不同的参数估计:(4.7.9),类似OLS方法,可以通过最小化(4.7.3)式的目标函数(V)获得 的第 个分位点回归估计量。例如,用 作为正误差项的权重,用(1 ) 作为负误差项的权重的非对称绝对值误差加权平均: (4.7.10)当 =0.5时称为最小绝对值离差法(Least Absolute Deviations, LAD),(4.7.10) 式的2倍就是LAD估计的精确的目标函数:针对L
8、AD方法的回归估计是条件分位点回归的一种特殊情况,通常被人们称为“中位数回归”。分位数回归的系数估计需要求解线性规划问题,很多种方法可以对此问题进行求解。,1、条件均值(conditional mean),例2.1.1:一个假想的社区有99户家庭组成,欲研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。 即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。 为达到此目的,将该99户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出。,由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出不完全相同; 但由于调查的完备性,给定收入水平X的消费支出Y的分布是
9、确定的,即以X的给定值为条件的Y的条件分布(Conditional distribution)是已知的,例如:P(Y=561|X=800)=1/4。 因此,给定收入X的值Xi,可得消费支出Y的条件均值(conditional mean)或条件期望(conditional expectation):E(Y|X=Xi)。 该例中:E(Y | X=800)=605,描出散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。,2、总体回归函数,在给定解释变量Xi条件下被解释变量Yi的期望轨迹称为总体回归线(population regression line),
10、或更一般地称为总体回归曲线(population regression curve)。 相应的函数称为(双变量)总体回归函数(population regression function, PRF)。,含义:回归函数(PRF)说明被解释变量Y的平均状态(总体条件期望)随解释变量X变化的规律。 函数形式:可以是线性或非线性的。 例2.1.1中,将居民消费支出看成是其可支配收入的线性函数时:,为线性函数。其中,0,1是未知参数,称为回归系数(regression coefficients)。,1、样本回归函数,问题:能否从一次抽样中获得总体的近似信息?如果可以,如何从抽样中获得总体的近似信息? 在
11、例2.1.1的总体中有如下一个样本,能否从该样本估计总体回归函数?,回答:能,该样本的散点图(scatter diagram):,画一条直线以尽好地拟合该散点图,由于样本取自总体,可以该直线近似地代表总体回归线。该直线称为样本回归线(sample regression lines)。,样本回归线的函数形式为:,称为样本回归函数(sample regression function,SRF)。,注意:这里将样本回归线看成总体回归线的近似替代,则,相对于最小二乘估计,分位数回归模型具有四个方面的优势:(1)分位数模型特别适合具有异方差性的模型。(2)对条件分布的刻画更加的细致,能给出条件分布的大体
12、特征。每个分位点上的回归都赋予条件分布上某个特殊点(中央或尾部)一些特征;把不同的分位点上的分位数回归集中起来就能提供一个关于条件分布的更完整的统计特征描述。并且不同分位点下所给出的参数估计本身也可能有值得进一步探讨的意义。,(3)分位数回归并不要求很强的分布假设,在扰动项非正态的情形下,分位数估计量可能比最小二乘估计量更为有效。(4)与最小二乘法通过使误差平方和最小得到参数的估计不同,分位数回归是通过使加权误差绝对值之和最小得到参数的估计,因此估计量不容易受到异常值的影响,从而估计更加稳健。,4.7.2 系数协方差的估计,一般地,分位数回归的系数估计量渐近服从正态分布,其渐近协方差依据模型的
13、不同假定而具有不同形式。渐近系数协方差的计算在分位数回归分析中非常重要,有三种估计方法:1独立同分布设定下协方差矩阵的直接估计方法(1)Siddiqui 差商法(2)稀疏度的核密度估计量 2独立但不同分布设定下协方差矩阵的直接估计方法 (Hubert sandwich)3自举法(Bootstrap) (1)X-Y自举法 (2)残差自举方法 (3)马尔可夫链边际自举法,在EViews中进行分位数回归 1. 方法选择,为了使用分位数回归方法估计方程,在方程设定对话框的估计方法中选择“QREG”,打开分位数回归估计对话框:,“Quantile to estimate”后面输入值,可以输入01之间的任
14、意数值,默认值是0.5,即进行中位数回归。,例4.10 分位数回归,利用例3.1的消费和收入数据,我们建立如下的回归方程研究政府支出对居民消费的影响: (4.7.44) 其中,cs为实际居民消费,inc为实际可支配收入,fe为财政支出,考虑到财政政策通常具有时滞的特点,模型中采用滞后一期的财政支出作为解释变量。所有变量均为剔除了价格因素的年度数据,样本区间为19782006年。为了进行比较,我们同时给出最小二乘法以及三个不同分位点的分位数回归估计结果(见表4.4)。,OLS估计结果:,分位数回归估计结果:,表4.4 最小二乘法和分位数回归结果,从估计结果可以看出,对于不同的估计方法,居民实际可
15、支配收入、前期消费水平两个变量的弹性系数变化不大。尽管在以往的研究中,政府支出对居民消费的影响还没有得出一致的结论,但是在本例中三种估计的结果表明政府支出对居民消费的弹性值均为正,说明在我们所分析的样本区间内政府支出与居民消费之间是互补的,政府支出的增加有利于加强基础设施建设和提高社会保障水平,使居民减少储蓄,尤其是预防性储蓄,从而增加消费。最小二乘估计给出的是政府支出对消费的平均影响效果,而分位数回归给出的是消费处于不同分位水平时,政府支出对居民消费的影响。在20%,50%和80%的分位点上政府支出的弹性分别为0.048,0.034,0.026,并且后两个水平的估计是不显著的,说明当消费水平
16、较低时,政府支出的影响相对较大,而对于较高的消费水平,政府支出的影响变小,并且是不显著的。因为当消费水平较高时,进一步提升的空间变小,政府支出对其影响也变小。,例3.6:工资差别为了解工作妇女是否受到了歧视,可以用美国统计局的“当前人口调查”中的截面数据研究男女工资有没有差别。这项多元回归分析研究所用到的变量有:W 雇员的工资(美元/小时)1;若雇员为妇女SEX = 0;男性ED 受教育的年数AGE 雇员的年龄1;若雇员不是西班牙裔也不是白人NONWH = 0;其他1;若雇员是西班牙裔HISP = 0;其他,对206名雇员的样本所进行的研究得到的回归结果为(括号内是t统计量的值):(22.10
17、)(-3.86)R2 = 0.068 D.W.=1.79反映雇员性别的虚拟变量SEX在显著性水平 1%下显著。因为工资的总平均是9.60美元,该虚拟变量告诉我们,妇女的平均工资为8.12美元,或比总平均低1.48美元。,表4.4 最小二乘法和分位数回归结果,4.7.3 模型评价和检验,1拟合优度与传统的回归分析的拟合优度R2类似,分位数回归模型也可以计算拟合优度。在分位数回归中,参数估计是通过(4.7.29) 得到的。将数据写为 xi = (1,xi1),( ) = ( 0( ), 1( ),这样式(4.7.29)可以写为(4.7.30) 最小化 分位数回归的目标函数(objective fu
18、nction),得到(4.7.31),回归方程中只包含常数项情形下,最小化分位数回归的目标函数(objective function),得到(4.7.32)定义分位数回归方程的Machado拟合优度为(4.7.33)R1( )位于01之间,R1( )越大说明模型估计的越好,反之R1( )越小模型估计越差。可以看出,这与用普通最小二乘法估计的传统回归方程中定义的拟合优度R2类似,分位数回归拟合优度的计算是基于分位数回归方程目标函数的最小值与只用常数项作为解释变量时的分位数回归方程目标函数最小值的关系。,2拟似然比检验(Quasi-LR Test)定义以下两个检验统计量:(4.7.34)(4.7.
19、35)其中, 和 分别是无约束的和对原方程施加q个约束条件后,分位数回归的目标函数最小值。LN() 和 N() 这两个统计量都渐近服从自由度为q的分布。分母中的 s() 是稀疏度值,在分位数回归的冗余变量检验、遗漏变量检验中将都用到拟似然比检验的 LN() 和N()统计量。,3分位数过程检验(Quantile Process Testing) 有时候,我们不仅对某个分位数回归感兴趣,而是希望对不只一个分位数回归的系数进行联合检验,比如下面将要研究的检验斜率系数是否相等,即不同分位数回归计算出的斜率系数是否相等,类似这种问题需要同时估计多于一个分位数回归,这种分析称为分位数过程(Quantile
20、 Process)分析。定义过程系数向量:(4.7.36),(1)斜率相等检验(Slope Equality Testing)(2)对称检验(Symmetry Testing)如果对于给定的X,Y的分布是对称的,则应该有:(4.7.42)具体而言,假定分位数过程包含了s个分位数回归,这里s是奇数,中间值(s+1)/2为0.5,并且j = 1 ij+1, j =1,2,(s-1)/2,则对称检验的原假设为:(4.7.43),例4.10的结果输出如下(以0.2分位数的估计结果为例):,2. 分位数回归的输出结果,输出结果的上方显示了设定的内容,本例中设定用“Huber Sandwich”方法估计系
21、数协方差,用“Siddiqui(mean fitted)”方法得到稀疏度,用“Hall-Sheather”方法计算带宽。下面显示了系数估计值、标准差、t 检验值和相应的p值。最下方显示了拟合优度和调整值、稀疏度数值、目标函数的最小值(“objective”)、仅包含常数的目标函数的最小值(“Objective (const. only))、因变量序列的经验分位数(“Quantile dependent var”)、拟似然比检验值(“Quasi-LR statistic”)和相应的 p 值(“Prob(Quasi-LR stat)”)等。,3分位数回归中的视图和过程分位数回归中的多数视图和过程都
22、与用OLS法估计的方程对象中提供的功能相同,但有些地方还是值得注意,如冗余变量检验、遗漏变量检验和“Ramsey RESET”检验将都用到拟似然比检验。而在分位数过程(“Quantile process”)里,提供了分位数回归中特有的三个功能:过程系数(“Process Coefficients”)、斜率相等检验(“Slope Equality Test”)和对称检验(“Symmetric Quantiles Test”)。,(1)“Process Coefficients”:通过这个功能可以同时观察多种分位数设定下的系数估计结果。可以选择结果输出(“output”)的显示方式,即表格(“ta
23、ble”)或者图形(“graph”),默认状态是以表格形式显示系数估计值、标准差、t 检验值和 p 值。如果选择以图形的方式显示,需要指定置信度,默认状态是95%。下面一栏中可以设定在何种分位数下估计模型,系统默认数值是10分位数,即对因变量的10%、20%、一直到90%分位数情形分别估计系数,如果输入20,则对因变量的5%、10%、一直到95%分位数情形分别估计系数。,(2)“Slope Equality Test”:这个功能用来检验因变量的不同分位数回归估计中斜率系数是否相同。默认状态下,只比较25%、50%、75%三种情形,当然也可以自行设定。(3)“Symmetric Quantiles Test”检验对称的分位数回归估计出来的系数的平均值是否与中位数回归的系数估计值相等。,例3.6:工资差别检验因变量的不同分位数回归估计中斜率系数是否相同。此例拒绝原假设, 不同分位数回归斜率系数不相同。,