1、实证研究 学习园地国 泰 安 信 息 技 术 有 限 公 司GTA Information Technology Company第一部分 如何学习实证研究方法第三章 掌握常用计量软件对于实证研究初学者来说在掌握了基本知识和查阅了大量的文献之后,但是开始做实证研究不仅需要数据和方法,而且需要工具来检验实证研究的结果,如果工具不全,那么实证研究者也无法达到收发自如。另外,实证研究可能面对处理大量甚至海量的数据,这些对于实证研究初学者来说都是棘手的问题,随着计算机的发展,不同的处理软件的出现,帮助我们解决了这个问题。在实证金融会计领域中,目前常用的计量软件包括SAS、SPSS、Matlab、Evie
2、ws、Excel、Foxpro 等。下面我们对于这几个常用的软件和实证研究的关系作简要的论述。第一节 常见计量软件一、SASSAS 是美国 SAS 软件研究所研制的一套大型集成应用软件系统,具有完备的数据存取、数据管理、数据分析和数据展现功能。尤其是创业产品统计分析系统部分,由于其具有强大的数据分析能力,一直为业界著名软件,在数据处理和统计分析领域,被誉为国际上的标准软件和最权威的优秀统计软件包,广泛应用于政府行政管理、科研、教育、生产和金融等不同领域,发挥着重要的作用。SAS 系统中提供的主要分析功能包括统计分析、经济计量分析、时间序列分析、决策分析、财务分析和全面质量管理工具等等。详细内容
3、请登陆:http:/ Package for the Social Science)社会科学统计软件包是世界是著名的统计分析软件之一。20 世纪 60 年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件 SPSS,同时成立了 SPSS 公司,并于 1975 年在芝加哥组建了 SPSS 总部。20 世纪 80 年代以前,SPSS 统计软件主要应用于企事业单位。1984 年 SPSS 总部首先推出了世界第一个统计分析软件微机版本 SPSS/PC+,开创了 SPSS 微机系列产品的开发方向,从而确立了个人用户市场第一的地位。同时 SPSS 公司推行本土化策略,目前已推出 9 个语种版本。
4、SPSS/PC的推出,极大地扩充了它的应用范围,使其能很快地应用于自然科学、技术科学、社会科学的各个领域,世界上许多有影响的报刊杂志纷纷就 SPSS 的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞。目前已经在国内逐渐流行起来。它使用 Windows 的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的 Windows 操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。详细内容请登陆:http:/ 查询。三、MatLabMatlab 软件是由美国 Mathworks 公司推出的用于数值计算和图形处理的科学计算系
5、统,在 MatLab 环境下,用户可以集成地进行程序设计、数值计算、图形绘制、输入输出、文件管理等各项操作。它提供的是一个人机交互的数学系统环境,与利用 c 语言作数值计算的程序设计相比,利用 Matlab 可以节省大量的编程时间,且程序设计自由度大。最大的特点给用户带来的是最直观,最简洁的程序开发环境,语言简洁紧凑,使用方便灵活,库函数与运算符极其丰富,另外具有强大的图形功能。在国际学术界,Matlab 已经被确认为准确、可靠的科学计算标准软件,许多国际一流学术刊物上,都可以看到 MATLAB 的应用。详细内容请登陆:http:/www.math 查询。四、EViewsEViews 是美国
6、 GMS 公司 1981 年发行第 1 版的 Micro TSP 的 Windows 版本,通常称为计量经济学软件包。EViews 是 Econometrics Views 的缩写,它的本意是对社会经济关系与经济活动的数量规律,采用计量经济学方法与技术进行“ 观察“ 。计量经济学研究的核心是设计模型、收集资料、估计模型、检验模型、运用模型进行预测、求解模型和运用模型。EViews 是完成上述任务得力的必不可少的工具。正是由于 EViews 等计量经济学软件包的出现,使计量经济学取得了长足的进步,发展成为实用与严谨的经济学科。使用 EViews软件包可以对时间序列和非时间序列的数据进行分析,建立
7、序列(变量)间的统计关系式,并用该关系式进行预测、模拟等等。EViews。虽然 EViews 是由经济学家开发的,并且大多数被用于经济学领域,但并意味着必须限制该软件包仅只用于处理经济方面的时间序列。EViews 处理非时间序列数据照样得心应手。实际上,相当大型的非时间序列(截面数据)的项目也能在 EViews 中进行处理详细内容请登陆:http:/ ExcelMicrosoft Office 是微软公司开发的办公自动化软件,Office 2000 是第三代办公处理软件的代表产品,可以作为办公和管理的平台,以提高使用者的工作效率和决策能力。Office 2000 是一个庞大的办公软件和工具软件
8、的集合体,为适应全球网络化需要,它融合了最先进的 Internet 技术,具有更强大的网络功能;Office 2000 中文版针对汉语的特点,增加了许多中文方面的新功能,如中文断词、添加汉语拼音、中文校对、简繁体转换等。Office 2000 不仅是您日常工作的重要工具,也是日常生活中电脑作业不可缺少的得力助手。Excel 是微软公司出品的 Office 系列办公软件中的一个组件,确切地说,它是一个电子表格软件,使用 Microsoft Excel 执行计算、分析信息并管理电子表格或 Web 页中的列表。Excel 应用程序可以协助我们进行财务、预算、统计、各种清单、数据跟踪、数据汇总、函数运
9、算等计算量大的工作。详细内容请登陆:http:/ Regression主对话框,见图4.2。在左边列表框中选定变量Y,单击按钮,使之进入Dependent框,选定变量X,单击按钮使之进入Independent(s)框。图4.2线性回归主对话框(3)单击OK按钮,得到如下结果见表4.1。输出结果中的Unstandardized Coefficients指未标准化的系数估计值(B)及其标准误(Std.Error)。可以看出,系数估计值分别为b 0=0.607,b1 =0.542. b1 对应的T检验统计量的值为12.832,P值为0.00,拒绝可支配收入对消费支出没有影响的零假设,即认为可支配收入
10、对消费支出有着显著的影响。F 检验是对回归总体线性关系是否显著的一种假设检验。本例中F值为164.655,对应的P值为0.00,结果拒绝回归总体线性关系不显著的零假设,即认为回归总体线性关系显著。表4.1 线性回归分析结果4.2多元线性回归模型4.2.1多元线性回归模型介绍一元线性回归分析所反映的是一个因变量与一个自变量之间的关系。但是,在实际的经济活动中,某一现象的变动常受多种现象变动的影响。例如,家庭消费支出除了受可支配收入水平的影响外,还会受以往消费和收入水平的影响;这就是说,影响因变量的自变量通常不是一个,而是多个。在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的
11、联系来进行考察,才能获得比较满意的结果。这就产生了测定多因素之间相关关系的问题。研究在线性相关条件下,两个和两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型相类似,只是在计算上比较麻烦一些而已。假定因变量Y 与p 个自变量X 1,X2,XP 之间的回归关系可以用线性函数来近似反映。多元线性总体回归模型的一般形式如下: 1232iiipiu其中,其中,Y i 是被解释变量,X 1i 、X 2i ,Xpi是解释变量,u i是随机干扰项,i 指第i 项观测。 叫做偏
12、回归参数。12,p4.2.2多元线性回归模型实现下面以 SPSS 为例介绍多元线性回归的实现过程。例:某种商品的需求量Y、价格 X1 和消费者收入X2 的统计资料如表4.2所示,试估计Y 对X1 和X2 的线性回归方程。表4.2某种商品的需求量、价格 和消费者收入 的统计资料年份 年份需求量Y(吨) 价格X1(元) 收入X2(元)1 59190 23.56 762002 65450 24.44 912003 62360 32.07 1067004 64700 32.46 1116005 67400 31.15 1190006 64440 34.14 1292007 68000 35.3 143
13、4008 72400 38.7 1596009 75710 39.63 18000010 70680 46.68 193000用SPSS 估计参数步骤如下:图4.3多元线性回归主对话框1、在SPSS 中输入变量数据,设变量名分别为Y 、X1 、X2。2、选择主菜单Analyze=Regression=Linear,显示如图4.3所示的对话框。3、选择Y 进入Dependent因变量框,选择X1 、X2 进入 Independent(s)自变量列表框,单击OK。4、回归结果输出如下:输出结果说明:(1)Unstandardized Coefficients B:参数估计值,有样本回归方程:126
14、250.987.50.86YX(2) Unstandardized Coefficients Std. Error :参数估计值对应的标准误差, 分别为S(b 0)=4013.010 ,S(b1)=319.784, S(b2)=0.058(3)Std. Error of the Estimate:估计的标准误差S,本例中S=1738.9846。(4) R 为复相关系数。R=0.950,说明Y 与自变量X1、X2 之间的相关程度为95.0%。(5) R Square:R 2,即样本判定系数。R 2=0.902 说明Y 的变动中有90.2%可以由自变量X 1 和X 2 解释,其中Adjusted
15、R Square,即调整的判定系数为0.874。(6)t 就是t 统计量值,Sig 是实际显著性水平即p 值。所以t 1=-3.062,p 1=0.018。在 取5的情况下,p,所以拒绝H0,认为X1 对Y 的线性作用显著。4.3逻辑回归分析4.3.1逻辑回归分析概念线性回归模型的一个局限性是要求因变量是定量变量(定距变量、定比变量)而不能是定性变量(定序变量、定类变量)。但是在许多实际问题中,经常出现因变量是定性变量(分类变量)的情况。可用于处理分类因变量的统计分析方法有:判别分别(Discriminant analysis)、Probit 分析、Logistic 回归分析和对数线性模型等。
16、在社会科学中,应用最多的是Logistic回归分析。Logistic 回归分析根据因变量取值类别不同,又可以分为Binary Logistic 回归分析和Multinomial Logistic 回归分析,Binary Logistic 回归模型中因变量只能取两个值1 和0(虚拟因变量),而Multinomial Logistic 回归模型中因变量可以取多个值,在此只讨论Binary Logistic 回归,并简称Logistic 回归。4.3.2逻辑回归分析实现下面以SPSS为例介绍Logistic 回归的实现。例如,某个人能否拥有房子,受到多种因素的影响,如家庭情况、工龄、收入情况等,但最终的可能性只有两个,要么拥有住房,要么没有住房。我们把Y=1 定义为拥有住房,Y=0 定义为其它情况。有无住房及收入情况的统计资料如表4.3所示。表4.3 有无住房及收入情况的统计表住房Y 收入X 住房Y 收入X 住房Y 收入X0 10 0 10 0 111 17 1 17 0 81 18 0 13 1 170 14 1 21 1 160 12 1 16 0 71 9 0 12 1 171 20 0 11 1 150 13 1 16 1 100 9 0 11 1 251 19 1 20 0 150 12 1 18 0 120 4 1 16 1 171 14 0 10 0 17