1、1计量经济学读书笔记第一章:统计基础 .2第二章:计量经济学总论 .7第三章:双变量回归分析 .9第 3.1 回归方法 9第 3.2 结果检验 10第 3.3 回归参数的分布 11第四章:多变量回归分析 .13第五章:OLS 的基本假设 13第六章:多重共线性 .15第七章:异方差性 .16第八章:自相关 .17第九章:时间序列分析 .19第十章:面板数据分析 .29第十一章:其他重要的分析方法 .47*加权最小二乘法 .48*二阶段最小二乘法 TSLS48*非线性最小二乘法 .49*多项分布滞后(PDLS) .49*广义矩估计 .50*logit 和 probit 模型 50*因子分析 .5
2、1*Granger 因果分析 52* 广义线性回归(Generalized least squares) .52*格兰格因果检验 .55*误差修正模型(ECM) .55第十二章: EVIEWS.55第 12.1 节 EVIEWS 基本操作 55第 12.3 节 EVIEWS 时间序列分析 57第十三章:SPSS 58第 13.1SPSS 基本操作 .58第十四章:数据分析实战经验 .672第一章:统计基础0 常用英文词汇的统计意义 panel data=longitudinal data 是对各个个体进行连续观察的截面数据。回归时的扰动项 u=unobserved 是影响因变量的其他变量之和,
3、Univariate 单个变量的,如Univariate descriptives 意思是单个变量的统计指标1 基本概念统计总体是我们所关心的一些个体组成,如由多个企业构成的集合,统计意义上的总体通常不是一群人或一些物品的集合,而是一组对个体某种特征的观测数据。参数总体的数值特征描述,如均值、标准差等。统计量是用样本数据计算出来总体参数的估计值,从一个给定的总体中抽取容量为 N 的所有可能的样本,对于每一个样本我们可计算出某个统计量的值,不同的样本得到的该统计量的值是不一样的,该统计量的不同的值是不同抽样的结果(根据这些不同抽样计算出的对同一参数进行估计的统计量,可以计算出由各个统计量构成的集
4、体的方差,该方差就是在统计软件中参数后面扩号内的方差) ,这符合随机变量的定义,因此该统计量也是随机变量,这个统计量的分布称之为抽样分布,它是从同一总体所抽出,同样大小的所有可能样本,其统计量的值的分布,一般情况下是一个正态分布,因为所有的估计值都是对总体参数的近似估计,因而服从以真实值为中心的正态分布,如果总体的分布是已知的则可以根据公式计算统计量抽样分布的分布参数(均值为总体的均值,标准差为总体的标准差与 的比值) 。 4 在N一个样本之中包含若干个样本点,各个样本点所对应的个体的某种特征是一个变量,不同个体的该变量的取值相互独立,并且服从某种分布,因此根据样本计算的统计量可以看成是若干个
5、独立变量的函数形式,其分布参数如均值、标准差可用数学公式推导。时间序列是指同一现象在不同时间的相继观察值排列而成的序列,基本上不存在趋势的序列叫做平稳序列,它的各种统计指标不随着时间而变化,在时间序列的散点图中表现为各点分布在一个以均值为中心的条状带中,同一时间序列的因素分析是指区分时间序列中各种不同因素的影响,确定长期趋势(找一条长期的趋势线) 、季节变动(确定季节比率) 、循环变动和不规则变动。时间序列分析时一项重要的内容就是根据过去已有的数据来预测未来的结果,利用时间序列数据进行预测时,通常假定过去的变化趋势会延续到未来,这样就可以根据过去已有的形态或模式进行预测。统计决策是指根据样本的
6、信息对总体的情况做出判断。点估计是根据样本用与计算总体参数相同的法则(如求平均数)+估计总体参数的具体值,因而叫点估计如用样本的平均身高作为总体的平均身高。区间估计就是点估计值 边际误差,边际误差是根据显著性水平及统计量的标准差,如大样本时在 0.05的 水平下边际误差为 1.96*标准差。95%置信区间是用样本数据计算出来的对总体参数一个区间估计,保证根据所有样本计算的置信区间中,有 95%会把真正的总体参数包含在区间之中,根据不同样本数据对同一总体参数进行估计的相同概率的置信区间不同,根据一个样本计算的对参数进行估计的置信区间是对总体参数的一个区间估计,是总体参数的若干置信区间中的一个,如
7、果继续不断的抽样下去。每个样本会产生一个新的对总体参数的置信区间,如果我们如此不停的抽样下去,所有区间中有 95%会包含真正的参数值。区间的概念提醒我们,因为我们只有样本数据,所以我们对于总体的所有叙述都不是确定的。 变量是说明个体的某种特征的概念,如“受教育程度” 、 “身高”等,说明事物类别的名称叫做分类变量(categorical variable),如性别就有两个分类变量男、女;说明事物有序类别的一个名称,称为顺序变量(rank variable),如一等品、二等品、小学、初中、大学等;说明事物数字特征并且有米、或者公里、年、吨等度量衡单位的叫做数值型变量(metric variabl
8、e 或者 scale variable)是量数据如产3品产量年龄等。数值型数据围绕其平均值分布的集中程度称为数据的离差。根据不同度量可以定义不同的离差,最常用的有全距、标准差等。以变量 X 的标准差 S 为单位来度量 X与其平均值 之间的偏差的变量 Z 称为标准化变量,它是一个无量纲量,标准化变量的数值称为标准分X数或 Z 分数。偏度是一个分布中不对称程度或偏离对称程度的反映,如果分布的频数曲线右边的尾部比左边的长,则称分布是向右偏反之则称分布是向左偏。偏度=(均值-众数) /标准差。峰度是分布陡峭程度的反映,通常是相对于正态分布言,其值叫做峰度系数,用四阶中心矩与标准差的四次方的比值表示。变
9、异系数是指变量的标准差与平均值之比。相关系数反映两个变量之间线性关系的强弱。假设检验分为参数检验和非参数检验,前者是指对总体分布函数中未知参数提出某种假设,然后利用样本信息对所提出的假设进行检验并做出判断,参数检验需要样本所依赖的总体的分布作出一系列假定如总体服从正态分布且标准差相等,但实际情况中,上述的假定不一定完全合理,或者在应用中对这些假定有怀疑,因此统计学家设计了许多与总体的分布及相关参数无关的检验方法,称之为非参数检验。如一个人号称罚球命中率为 80%,为了检验他是不是吹牛皮,于是让他现场投 20 个球,这就是显著性检验,结果他只投进了 4 个,计算得在命中率为 80%情况下,投 2
10、0 个只进 4 个的概率为 0.2%,则此 0.2%就是通常所说的 P 值。如果 P 值很低(通常小于 5%)则可以拒绝原假设。假设检验是为了比较两个值是否有显著的差别,在很多情况下我们给出一个原假设仅仅是为了拒绝它,因此原假设通常是与数据表面所显现出来的现象的相对立的现象。在假设检验中研究者如要确定某参数是否等于某个值须用双尾检验,如检验零件直径是否等于 10;如果要确定参数大于或小于某值则用 单尾检验如检验奶粉中蛋白质的含量是否大于 30%。两者的区别仅仅在于拒绝域不同。在做假设检验时犯第一类错误(原假设正确却遭到拒绝)的最大概率称为显著性水平,显著性水平越高则表明限制条件越严格,在正态分
11、布图豉肚部分的面积越小同时两侧的阴影部分的面积就越大,原假设被拒绝的可能性就越大,回归结果中某系数的精确显著性水平越高则越有可能接受原假设,即系数越有可能为 0,系数在越高的显著性水平下显著则越有可能接受原假设即系数越有可能为 0,系数不为 0 的可能性越小,在越低的显著性水平下显著则表明系数不为 0 的可能性越大。假设一个统计量(如灯泡寿命)A 服从均值为 标准差为 的正态分布,则(A-)/ 叫做 Z分数(也叫标准化变量),它服从均值为 0 标准差为 1 的标准正态分布。t 统计量是模仿 Z 分数而建立的,区别在于后者用于小样本标准差未知的情况下的均值检验而前者用于大样本标准差已知情况下的均
12、值的检验(Z 或 t 统计量计算公式中的 都取原假设中的值) ,此时作为分母的是 s/ 代替(s 为样本1N标准差) ,也就是用多个变量的均值的标准差代替,因为该统计量是根据样本的均值计算而得,也是用于均值的检验。T 和 Z 检验用于检验回归方程中某个自变量的系数是否为 0,F 检验用于检验是不是所有的系数都为 0。方差分析用于从方差的角度比较两个或多个总体的均值是否相等,研究分类型自变量对数值型自变量是否有影响,包括它们之间有没有关系、关系的强度如何等,所采用的方法就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著的影响,如行业不同是否对受到投诉的数量有影响,行业是称
13、为因素,旅游、零售、家电具体的行业叫做因素水平(在 SPSS 中相当于一个 VARIABLE的不同的值) 。计算旅游、零售、家电各行业各自的标准差,然后平均得到组内方差,并认为组内方差是完全是由随机因素造成的,根据各行业的各自的平均值与总均值之差的平方和得到组间方差,并认为组间方差是由于不同的因素水平所造成的,如果各因素水平对因变量(投诉量)无影响,则组内方差与组间方差应该相等,或者说两者的差别在统计上是不显著的,组间与组内方差之比是一个 F 统计量,通过检验这两个方差的差别是否显著来判断不同行业接受投诉量的均值是否有明显差别。17 描述性统计量是对(相当于 SPSS 中的)某一变量特征进行描
14、述的一些统计指标,均值是对一个变量的中心位置的度量,其计算方法是先加总所有 CASE 的值然后除以数据的个数,其应用如应收帐款的4平均帐龄为 45 天。中位数是对中心位置的度量,它是当 CASE 按照升序排列时,处于中间位置的 CASE 的变量值,它是对均值的补充,如在年度收入和资产价值数据的报告中,这是因为个别异常大的收入或资产价值能够使均值膨胀,此时中位数是对中心位置的更好的度量,如应收帐款的帐龄的中位数为 35 天表示超过一半的应收帐款帐龄的天数在 35 天以上。众数也是对均值的补充,是在各 CASE 中出现频率最高的数据的值,如应收帐款帐龄的众数为 31 天,表示应收帐款最普通的帐龄为
15、 31 天。四分位数是先把数据进行升序排列,然后把数据依次分为四段,每段含有 25%的观察值,中间的三个分段点从小到大分别称为第一二三四分数点,如帐龄的第一四分数点为 12 天表示有 25%的 CASE 的帐龄小于 12 天有 75%的 CASE的帐龄大于 12 天。极差是各 CASE 的某变量值的最大和最小值的差,该指标容易受异常值的影响,很少单独用来表示变异程度,如帐龄的极差为 18 表示最长的帐龄比最短的帐龄多 18 天。方差是利用所有的CASES 对某变量值的变异程度的度量,在单位相同时可以用于比较两个变量的变异程度,可以用来度量与股票投资相关的风险,它给出每月收益如何围绕和期平均收益
16、波动。如零件的尺寸的标准差表明了生产加工技术的稳定性。变异系数是标准差与均值的比值,常用于比较变量的变异程度,如 A 加工零件尺寸的变异系数为 15%,而 B 为 10%,表明 A 加工技术要比 B 稳定。切比雪夫定理认为与均值距离在 Z 个标准差以内的 CASE 例至少为 1-1/Z ,一般情况下 68%的数据与均值距离在一个标准差以内,95%的数据在 22个标准差以内,几乎所有的数据都在 3 个标准差以内,以上所述可以用于异常值的检测,然后确定异常值是否正确。4 参数检验分为一个总体参数的检验和两个总体参数的比较检验,前者是为了确定某一总体的参数是不是某一个值,而后者是为了比较两个总体的参
17、数是不是相等。检验(z 检验和 T 检验)什么参数则需要根据样本计算什么参数的值及该参数的标准差(/ 或 S/ ) ,如要检验均值是否为某个值则需要根据N样本计算样本均值及样本均值的标准差。5 大量的数字既繁琐又不直观;需要对数据做人们时间和耐心所允许的简化,我们可以用 “平均” , “差距”或百分比等来概括大量数字。由于定性变量主要是计数,比较简单,常用的概括就是比例或百分比。下面主要介绍关于定量变量的数字描述。6 概率分布是关于总体的概念。有了概率分布就等于知道了总体。6 统计中各种常用分布CHI-SQUARE 分布, 一个正态分布的变量的平方服从自由度为 1 的 CHI-SQUARE 分
18、布,K 个独立的正态分布变量的平方和则服从自由度为 K 的 CHI-SQUARE 分布,在统计中 CHI-SQUARE 的自由度的意义是独立观察值的个数 K,自由度是卡方分布的参数就像均值和标准差是正态分布的参数一样,如样本中每个灯泡的寿命服从正态分布,则 5 个灯泡的寿命的平方和服从自由度为 5 的卡方分布。CHI-SQUARE 可以用于总体标准差是否为某值的假设检验。T 分布,X 来自一个正态总体样本,则变量 服从 T 分布,其中 U 是总体的均值,S 是样本方差,N 是样本中样本点的数量,自由度为 N-1,T 统计量是根据样本数据计算而得。F 分布,两个相互独立样本的样本方差之比在代入样
19、本数据之前叫做 F 变量,代入样本数据之后叫做F 统计量,服从 F 分布,F 统计量经常用于比较两个样本的方差是否相等的假设检验,分子分母的样本方差的计算公式分别为 、 ,记为 F(M-1,N-1) 。另外它也可以用于检验拟合优度 的显著性此时 ,n 是观察值的个数,k 是包括截距在内的解释变量的个数。F-5分布变量为两个 -分布变量(在除以它们各自自由度之后)的比;而两个 -分布的自由度则为 F-分2x 2x布的自由度,因此,F-分布有两个自由度;第一个自由度等于在分子上的 -分布的自由度,第二个自由度等于在分母的 -分布的自由度。2x二项分布,二项试验是指把相同的试验进行 N 次,并且每次
20、试验只有两种可能的结果,单次试验成功的概率为 P,每一次试验都独立进行,如果对于卖保单的例子,如果随时间推移推销员疲劳并失去了热情,则不能保证“单次试验成功概率为 P”。在一个二项试验中,我们关心的是在 N 次试验中出现成功的次数,如果以 X 表示 N 次试验中成功的次数,我们可以看到 X 可取的值为 0、1、2N 因为值的个数是有限的,故X 是离散型随机变量,与该随机变量有关的概率分布叫做二项分布(属于离散型) ,如果知道每个顾客进店买某商品的概率和进店顾客的数量(根据以往的经验取得) ,则可以估计每天需要的货量。二项分布是指做有限次只有两个结果的试验中,实验成功次数为 B 的概率,泊松分布
21、是指做无限次只有两个结果的试验中,实验成功次数为 B 的概率。泊松分布,泊松试验是指事件在任意两个等长度的区间内发生一次的概率相等,并且事件在一区间发生与否与其他区间独立,则事件发生的次数服从泊松分布(属于离散型) 。在已知一个区间内事件发生次数的平均值 时,事件在一个区间内发生 X 次的概率为 e /x!,花旗银行用此公式计算 1 分钟x内到达某 ATM 机的人数为 2 及以上以上的概率以确定是否增加 ATM 机的数量。 7 8 对于连续型随机变量 X,a 下侧分位数(又称为 a 分位数,a-quantile)定义为数 ,它满足关系x。上侧分位数定义为满足关系 的 。通常用 表示标准正态分布
22、的 a 上()px()pxxz侧分位数,即对于标准正态分布变量 Z,有 。z一个由正态变量导出的分布是 -分布(chi-square distribution,也翻译为卡方分布)。该分布在2x一些检验中会用到。n 个独立正态变量平方和称为有 n 个自由度的 -分布。2x正态变量的样本均值也是正态变量,能利用减去其均值再除以其(总体)标准差来得到标准正态变量。但用样本标准差来代替未知的总体标准差时,得到的结果分布就不再是标准正态分布了。它的密度曲线看上去有些象标准正态分布,但是中间瘦一些,而且尾巴长一些。这种分布称为 t-分布(t-distribution,或学生分布,Students t)。9
23、 判明一个事情的真伪,需要用事实说话。在统计中事实总是来源于数据。假定某药厂声称该厂生产的某种药品有 60的疗效。但是当实际调查了 100 名使用该药物的患者之后,发现有 40 名患者服后有效。这个数据是否支持药厂的说法呢?药厂所支持的模型实际上是一个参数为 0.6 的 Bernoulli 试验模型。100名患者的服药,实际上等于进行了 100 次试验。这就是二项分布 B(100,0.6)模型。由于使用了药厂的0.6 成功概率。这个模型是基于药厂的观点的。可以基于这个模型计算 100 名患者中有少于或等于 40 名患者治疗有效的概率。通过计算(或查表,后面会详细描述)易得,在药厂观点正确的假定
24、下,这个概率为 0.000042。这说明,如果药厂正确,那么只有 40 名患者有效这个事实是个小概率事件,即“少于或6等于 40 名患者有效”的可能性只有大约十万分之四。这样在药厂的观点和事实之间有了矛盾。是事实准确还是药厂准确呢?显然人们一般不会认为药厂的说法可以接受。这样,就利用小概率事件来拒绝了药厂的说法。 这种用小概率事件对假定的模型进行判断是后面要介绍的假设检验的基础。5 建模是一个建立估计回归方程的过程,经过这一过程,我们可以得到描述一个因变量和一个或多个自变量之间关系的估计回归方程。建模的主要结果应该是找到合适的函数形式来描述变量之间的关系,并且选择该模型所应包含的自变量。6 假
25、设检验中的原假设是从数据表面所显现出来的现象的相对立的现象。7 假设检验时 T、CHI-SQUARE 、F、Z 都是以正态总体的样本为基础的统计量,在代入样本的观察值以前叫做变量,服从抽样分布,并且它们的分布事先已知。只所以要用这些统计量是因为它们可以根据样本很容易的算出,然后可以比对在原假设正确的条件下取得该(T、F、Z、CHI-SQUARE)值的概率(P值) ,如果该概率小于确定的显著性水平,或者在无预先确定的显著性水平下小于 5%,则拒绝原假设,否则接受原假设。也可以与确定的显著性水平下的 Critical value 相比对,如果大于 Ccritical value 则拒绝原假设。8
26、假设检验中最重要的就是根据要检验的参数构造一个其分布情况已知的统计量,第二步是根据统计量的分布及事先人为规定的显著性水平确定一个大概率事件和小概率事件(大概率事件是指根据样本计算的统计量与原假设值距离在一定范围之内,小概率事件是指根据样本计算统计量与原假设值的距离在一定范围之外) ,第三步是根据样本统计量看是小概率事件发生还是大概率事件发生,如果大概率事件发生则原假设正确否则拒绝原假设。9 无论是 Z 检验还是 t 检验归根到底都是要在一定的显著性水平下看根据样本计算的统计量与原假设值距离的远近,当然此距离是以标准差来计量,当此距离超过某一标准则认为原假设不正确,此标准是根据显著性水平通过查表
27、来确定。越显著也就是显著性水平越高,检验标准越严格,接受原假设的区域越窄,如果要接受原假设则要求抽样值离原假设值越近,如 0.1 的显著性水平下要接受原假设要求的抽样值比在 0.05 水平下接受原假设要求的抽样值离原假设值近。 14 协方差 是二元变量( X,Y)中 X 和 Y 之间线性关系强弱的度量指标,在统计中用于度量两个变量间线性关系的强弱(因此 SPSS 的 COVARIANCE MATRIX 用于观察在度量单位相同的条件下各变量间相互关系的强弱) ,是根据样本点计算而得,其定义式为 ,但是这个定义式用于样本协方差的估计是有偏的,协方差的无偏估计量 ,如果协方差为大的正值则表示存在强烈
28、的正相关关系,如果协方差为大的负值则表示存在强烈的负相关关系,但是用协方差作为线性关系强度的度量指标时,存在的一个严重问题是协方差的值依赖于 X 和 Y 的度量单位,如使用厘米为单位计算的协方差要大于使用米作单位计算的协方差。为避免这种麻烦用相关系数代替,相关系数的计算公式为 。自变量和因变量之间的相关系数与用 OLS 回归方程中自变量的系数不是一回事后者的计算公式为 ,但是两者的符号是相同的。15 为什么协方差 能表示线性关系的强弱呢?因为如果以7X= 和 Y= 将散点图分为四个象限,如果协方差为正,则对他有最大影响的点一定在一和三象限,因此协XY方差为正值表示 X 与 Y 之间存在正线性关
29、系.也就是说,当 X 增大时,Y 的值也增大.如果协方差为负,对它有最大影响的点一定在二四象限。因此协方差为负就表明 X 和 Y 之间存在负线性关系。也就是说,当 X的值增大时,Y 的值减小。最后,如果各点是均匀分布在四个区域内,则协方差的值将接近于零,表示 X和 Y 之间不存在线性关系。第二章:计量经济学总论1 计量经济学的内容框架,包括最小二乘法基本原理、最小二乘法的假设条件和不满足假设条件时的处理办法三个大的部分。最小二乘法的基本原理包括参数估计、估计参数的性质(BLUE) 、估计结果的统计推断。首先是 OLS 的原理,即最小二乘法是找一条线,使样本点与线之间距离的平方和最小,具体做法是
30、首先假设一条线,然后求得用这条线的参数表示的距离的平方和,然后用求距离极值的一阶条件,求出这些参数,就得到了最小二乘法的估计结果,得到结果后就是对结果的统计推断,包括可决系数、T 检验、F 检验、以及假设条件是否满足前提假设的检验。最小二乘法是在一系列假设的基础上进行的,这些假设主要是关于自变量与因变量关系、自变量间的关系,自变量与扰动项的关系、扰动项之间的关系。接下来讨论的就是假设不满足的条件下的回归分析,包括的主要内容有非线性模型的线性化、特殊变量、异方差、自相关和多重共线性(概念、检验、原因、影响和处理办法) 。*最小二乘法的基本原理最小二乘法是估计变量间相关关系的一种方法,变量间的相互
31、关系总本而言有两种,其一是函数关系,其二是相关关系,变量间相互依赖相互影响,但是变量间所表现出的却不是确定的函数关系,如图,影响 Y 的因素除了主要有 X 之外,还有若干不重要的因素,把这些不确定的因素归并到一个变量中,建立变量之间关系的数学模型 ,在这个数学模型中,a 和 b 是有待估计的系数,最小二乘iiYbu法就是估计系数 a 和 b 的一种方法,具体的原理是,首先令 X 和 Y 之间的关系为 ,然后把iiYabX各个样本点的自变量值代入该式,计算出对应于各样本点的自变量 的因变量的值 ,此 是以 和i ii为参数的表达式,然后计算各样本点对应的 与 的差的平方和,该平方和是以 和 为参
32、数的二元b iYi 函数,接下来为了得到 和 的估计值就要求这个二元函数对 和 的偏导数,然后利用函数求极值的一abab阶条件,令二个偏导数分别等于 0,然解方程组得到 和 的估计值,体现在图中是什么意思呢,就是找到一条最佳的线,使各样本点到该线的纵向距离的平方和最小,求得 和 的估计值分别为 , XbYa和 ,由这两个估计式的形式可以发现,要先估计 后估计 ,这两个式子中 表示第 i 个样2ixyb baix本点的自变量值与各样本点的自变量的均值的差,8表示加和,这是最简单的一元线性回归模型的估计方法,也是最小二乘法的一个最简单的应用,对于多变量的最小二乘法与此基本一样。其中最关键的一点是通
33、过求极值条件,将各个样本点所代表的自变量和因变量关系转化为关于估计系数的方程。通过最小二乘法把 a 和 b 的值估计出来以后,接下来一个问题就是估计结果的准确性了。a 和 b 的准确性,由各样本点得到的 a 和 b 的估计值,只是根据抽样得到的样本点计算的,不一定就是真值,要得到真值就必然根据总体中所有的样本点进行估计,而这通常是不可能的,如对于灯炮内所充惰性气体的量与灯泡寿命的关系,不可以把所有的灯泡都拿来做试验,这在经济上是不可行的,我们所能做的只是根据其分布情况进行统计推断,看看这个统计量是不是无偏的,有效的。所谓无偏就是估计值的数学期望等于真值,其含义可以近似的理解为当我们对做若干次试
34、验后得到的估计值的均值就是真值,即 Y 和 X 的真实的关系。有效性就是估计值的方差最小,通过概率分析可以知道, OLS 估计量是具有 BLUE 的性质。a 和 b 的显著性,根据概率论的知识可知,a 和 b 是服从 t 分布的,并且其方差也可以根据概率论的知识计算得到,可以根据样本计算出 a 和 b 的 t 值,看估计得到的 a 和 b 是否具有统计显著性。a 和 b 估计出以后的另一个问题是看这个方程的显著性和对 Y 的变化情况的解释力,这要通过 F值和 来判断。2R最后,还要回过头来总体的看一下这个回归的结果,首先就是要问你怎么知道 X 和 Y 之间就是一种线性关系,如果不是线性关系,又
35、该怎么办。这也就牵扯到最小二乘法的假设。从假设可以演生出计量经济学的其他的主要内容。1 回归分析研究 一个变量对另一些变量的依赖关系,但他并不意味着因果关系。2 虚拟变量是指定性变量或者分类变量。3 在进行时间序列数据分析时首先要验证数据的平稳性,平稳是指一个时间序列的均值和方差在时间上都没系统性的变化,要看一时间序列是否平稳,可以计算一个时间段上的均值和方差然后与另一时间段上的均值与方差比较,如果相等则平稳否则不平稳。4 面板数据的缺点是异方差性,即样本中的样本点不是一帮人,相当于不能把苹果和桔子混同起来,如果必须把两者放在一起考虑如看水果的重量与光照的关系,可以加一个虚拟变量用以曲别苹果和
36、桔子两种水果,时间序列数据的缺点是平稳性问题。5 通过经济数据了解经济变量的变化规律有时是存在相当大的局限性的,所以在建立模型时,必须依靠经济理论,同时对参数进行假设检验。*不同回归方法的选择在决定使用各种具体的回归方法之前,首先用 OLS 进行一下回归,然后根据回归的结果考察使用哪种具体的方法进行回归。9第三章:双变量回归分析第 3.1 回归方法*回归模型 中 Y 是一个数学期望的概念,解释变量 x 取某一个确定值 时( 在回归模型bxa ix中 不是随机的而是确定的值),因变量由于扰动项的原因可以取得若干个值,可以认为对应自变量 的ix ix因变量是一个随机变量,回归模型中的 Y 是在自变
37、量取 时因变量所有可能取值的数学期望,因此在回i归模型中的 ,根据回归方程每一个因变量的值可以分为数学期望和扰动项两部分的和。)xE(Yi3 线性回归方程Y=B1+B2*X1的完整表示应该是 E(Y Xi) =B1+B2Xi, E(Y Xi)表示给定X值相应的(或条件的) Y的均值,也就是说回归方程的因变量的值是当解释变量为某个值时因变量所有可能取值的均值。4线性回归方程的线性有两方面的含义,其一为解释变量线性,其二为系数线性,也就是说方程右边只能是系数与解释变量的乘积,其中的任何一个都不能是任何的函数形式。1 在一般的情况下,回归模型中要含有截距项,这样做有如下两点好处,第一,尽管模型中含有
38、截距项,但若该项的出现是统计上不显著的,则可以认为回归结果是一个过原点的回归模型。第二,如果实际模型中含有截距而我们的回归模型中无截距则我们的模型就有了设定模型错误。因此模型中要含有截距项。2 在双变量模型中,如果因变量与自变量的单位都是货币,那么以元为单位与万元为单位的回归结果中的斜率是相同的,不同的是截距项要根据度量单位的变化而相应的扩大或缩小计量单位之间换算比例倍,如果因变量与自变量单位不同,一个是元一个是公斤,那么换成吨后的斜率将会发生变化。3 双对数 log-log 模型是指等号两边的变量都采取对数的形式,如 ,这个模型用于估iii ublnXalY计因变量对自变量的弹性,系数 b
39、就是就表示 Y 对 X 的弹性。4log-linear 模型是指等号左边是 logY,等号右边是 bx 的形式,如 ,用于测量 X 变化iiial1 时 Y 变化的百分比,其大小为 b,当 X 表示时间时,b 为因变量的瞬时增长率。5linear-log 模型是指等号左边为 Y,等号右边为 的形式,如 ,用于确定 X 变iLniii ublnaY化 1%时,Y 变化的绝对量。106 回归系数的方差 、 的计算,每一个样本点都可由一个向量表示,该向量的分量由自变量1var()b2r()和因变量构成,自变量和因变量相当于一个样本点的坐标,自变量是确定的值,因变量的数值是由自变量的值和扰动项决定的,
40、对于每一个样本点在回归之前解释变量和因变量的关系虽然是未知的,但却是确定的,因此,因变量的分布是由扰动项的分布决定的,根据扰动项的分布可以计算出因变量的分布,而回归的系数是由各样本点的自变量和因变量值确定的,因此,可以根据因变量的分布来计算出回归系数的分布,从而计算出这些系数的期望和方差。7 在计量中一个向量如无特殊说明都是指列向量。因为,通常情况下每个观察点都有一个自变量和因变量的关系方程,放在一起,各个变量对应一个列向量。4 在回归模型中,解释变量是确定的,对应每一个解释变量的值,因变量都是一个随机变量,因变量序列中有多少个 CASE 则对应的有多少个作为随机变量的因变量,只所以是随机变量
41、,是因为扰动项是随机变量。2 用最小二乘法估计的方程的系数是线性无偏一致最小估计量,最小是指方差最小,极大似然估计法也是估计方程系数的方法但其结果是有偏的不如最小二乘法的结果好。第 3.2 结果检验由于回归的结果是根据样本计算出的估计值,因此必须要检验其统计可靠性,统计可靠性的检验分为系数可靠性的检验和方程可靠性的检验,前者主要是 t 检验,后者主要是 F 检验和 ,进行统计检验的2R前提条件就是要知道待检验变量的分布情况,这也是 3.3 的主要内容。*对于一个样本总体因变量和自变量之间存在着一个总体回归函数,即在样本中包含总体中的所有的点时自变量与因变量之间的关系,这种关系是肯定存在的,但是
42、由于在样本中不可能包括总体中的所有点,只能根据样本回归函数来代替总体回归函数,并且根据样本数据回归出的样本回归函数只能是总体回归函数的一个近似,并且不同的样本得到的样本回归函数不同,这就使得回归函数中的系数可以取得若干个值,因此就有了在 SPSS 回归结果中的某个回归系数的方差指标的由来,不同的样本回归函数对样本中因变量与自变量的关系的解释力不同,解释力的大小用 指标来衡量。R2*因变量各个值与其均值的离差的平方和 TSS 可以分解为估计的 Y 值围绕其均值的离差的平方和ESS 加上残差的平方和 RSS= ,即 TSS ESSRSS ,即因变量的观测值围绕其2iu2iy2ii2uxb均值的变异
43、可以分为两部分,一部分来自回归线,这部分相当于固定的,另一部分来自随机势力,回归结果好坏的统计指标 ,当两个模型的因变量不同如一个是 Y 另一个是 LnY 时 不具有可比TSER2 2R性。111 置信区间是在区间估计时用到的一个概念,求一个参数的置信区间首先根据样本计算出该参数的点估计值,然后再加减对应显著性水平的一段区间,这段区间通常是根据样本计算出的标准误的多少倍,具体多少倍要根据显著性水平确定。2 在用 OLS 等方法估计出系数的数值后,还要检验一下这个点估计值是否是真值为 0 的情况下的一个随机值,也就是这个估计值可以在真值为 0 的情况下由于扰动项的原因而出现,如果检验的结果是估计
44、值不可能在真值为 0 的情况下由于扰动项的原因而出现,那么就认为估计值是显著的。检验方法有两种,一种是置信区间检验法,即看在真值为 0,标准误为根据样本计算出的标准误的情况下,根据显著性水平确定一个置信区间如果,估计值落在置信区间的外面则拒绝原假设认为真值不为 0,估计值显著,由于显著性水平越低时对应的置信区间越长,因此在越低的显著性水平上拒绝原假设则估计值的显著性水平越高;第二种方法是 T 值和 F 值检验法,如果根据估计值和原假设值以及标准误计算出的 T 值或 F 值大于在规定显著性水平下,由 T 值或 F 值表查出的值,则拒绝原假设认为估计值是显著的。3 统计显著的概念 在统计学中,当我
45、们拒绝虚拟假设时,我们说我们的发现是统计上显著的,反之,我们不拒绝虚拟时,我们说我们的发现不是统计上显著的。4 根据原假设和调查数据估计出的系数计算出的该系数的 t 值越大,表示离原假设中该系数的假设值越远,越应拒绝原假设,估计的系数越显著。t 值可以理解为估计值距离原假设值几个标准误的距离。5 方差分析(ANOVA, analysis of variance)是指对因变量与其均值的离差的平方和 TSS 的构成部分进行分析,给出的最终结果是 F 值,以及这个 F 值的精确显著性水平,F 值是 ESS 除以其自由度 1 与 RSS 除以其自由度 n-1 的比值,如果 F 值大于由 F 值表中查到
46、的在参考显著性水平下的临界值,或者是这个 F 值的精确显著性水平小于参考的显著性水平,就认为 F 值显著,表明估计方程中所有参数不能同时为 0,估计方程有意义。第 3.3 回归参数的分布最小二乘法的回归结果,都是根据样本的自变量和因变量估计的,根据假设可知样本的自变量是确定的数值,样本的因变量的数值为 ,其中的 a 和 b 代表 X 和 Y 之间关系的系数的真值,虽然不iiYabXu知道但却是一个确定的数值, 是已知的确定数值, 是与 服从相同分布的随机变量,因此,根据样本的i iYi自变量和因变量值估计的系数和残差也是服从一定分布的,在假定 服从正态分布的条件下,这些估计量iu都是服从正态分
47、布的。*回归系数的估计值及其分布根据样本用 OLS 可以估计线性回归方程 的系数 a、b,它们是根据样本数据计算而得,YabXu因此 a、b 是样本统计量,其无偏估计值分别为 、 22()cov(,) ()ii iiXY YVr 12aYbX在上面的表达式中 和 是已知的自变量的数值,是确定的(根据假设 A5),因此 是确定i 2()iX的常数,而 ,其中 a 和 b 虽然是待估的系数,但确是一个确定的数, 也是确定的数,而iiYabu i是服从正态分布的变量,因此 是服从正态分布的,并且其分布密度由 决定,而 是若干个 的线性组iuiYiubiY合,因此 也服从正态分布,其方差为 ,其均值根据无偏性为真值 b。其具体的推导b 2var()uibX过程如下: iii iiiKYXuKKu而2222220()1iii i iiii xxXXxx所以 ibKu于是