1、论文投稿领域:数理经济与计量经济学非参数统计检验方法的应用阮曙芬 1 程娇翼 1 张振中 21. 中国地质大学数理学院,武 汉 430074;2.中南大学数学科学与 计算学院, 长沙 410075)摘要:本文对非参数统计中常用的三种假设检验方法进行了简单的介绍。运用 Kruskal-Wallis 检验方法对 2002 年前三季度的上海股市综合指数收益率数据进行了周末效应的检验,结果表明 2002 年上海股市综合指数收益率不具有周末效应。关键字:符号检验;Wilcoxon 秩和检验;Kruskal-Wallis 检验1 引言非参数统计是统计分析的重要组成部分。非参数假设检验是在总体分布未知或者总
2、体分布不满足参数统计对总体所做的假定的时候,分析样本特点,寻找相应的非参数检验统计量。本文就是以此为出发点,介绍了非参数统计中假设检验常用的几个检验方法:符号检验、Wilcoxon 秩和检验和 Kruskal-Wallis 检验,然后结合具体的问题和数据,在统计软件 SAS中作相应的非参数检验。2 非参数假设检验介绍2.1 配对样本的符号检验符号检验是根据正、负符号进行假设检验的方法。这种检验方法用于配对设计数值变量资料的假设检验,常常是差值不服从正态分布或者总体分布未知的情况下不能用 检验的时t候使用。其原理是对差值进行编制并冠以符号,然后对正负秩和进行比较检验。设随机变量 相互独立同分布,
3、分布为 , 在 连续。假设检验12,.nX()Fx0x问题: :0H()12F1H(0)2检验统计量可取 ,即为 中取正号的个数。在 下, 的分11nniiBX2,.nX0HB布是参数为 和 的二项分布 。/2(,)2b2.2 两独立样本的 Wilcoxon 秩和检验Wilcoxon 秩和检验的理论背景如下:有两个总体,一个总体的样本为 ,相12,.nX互独立同分布,分布为 ;另一个样本为 ,相互独立同分布,分布为 ,()Fx12,.nY()Gx, 连续。问随机变量 是否随机大于随机变量 ,即检验()FxG: , : ,且有某些点不等号成立。0H()FxG1H()FxG将 , 共 个随机变量一
4、起排序,产生对应的秩12,.nX2,.nYm。则 Wilcoxon 秩和检验统计量为: 即 在混合样(,.;,.)mRQR 1niWR2,.nY本中的秩的和为 Wilcoxon 秩和检验统计量。2.3 多样本的 Kruskal-Wallis 检验Kruskal-Wallis 检验一般对多个总体的分布情况进行检验。其理论基础为:假设有 种m处理,对于第 个检验体实行第 种处理产生的效果记为 ,其分布函数为 。即ji ijx()iFx: ; :存在 和 , 。 0H12().()nFxFx1Hi()iiF设观测值为 。全体样本数为 , 的顺位记为 。假定,;,2.ijmjnNijxijr同顺位不会
5、出现。考虑统计量: 2112()1iiikNnrN21()3(1)mirn检验方法为: 。 00,HkH拒 绝 不 拒 绝其中, 。当 较小时,可以查表得到 的值;当该值较大时,NPk 12(,.)mn近似服从自由度为 的 分布。因此 , 为自由度为 的km(12(1)Nkm1分布的右侧的 分位数点。23 Kruskal-Wallis 检验的应用股市的周末效应是指周一的收益率比其他交易日收益率低,且风险较大;周五的收益率比其他交易日高,且相对风险较小。下面分别对 2002 年的前三季度的上证综合指数进行周末效应的分析。本实证分析中,样本为 2002 年 1 月 4 日到 2002 年 9 月
6、27 日的上海股市综合指数(数据来源于 http:/ ,其中 为第 天的指数, 为第 天的指数收益率。1ln()ttrptptr3.1 收益率分布状况的分析首先计算收益率序列的方差,均值,偏度和峰度初步判断该序列是否服从正态分布。然后利用 Kolmogorov-Smirnov 等检验结果对收益率进行正态性检验。SAS 程序创建数据集:将 excel 数据导入 SAS 中,然后在分析家中利用数据计算得到:r0=p/lag1(p)和 r=log(r0);data sasuser.chx1 sasuser.chx2 sasuser.chx3 sasuser.chx4 sasuser.chx5;set
7、 sasuser.ch01;select (w);when(1) output sasuser.chx1;when(2) output sasuser.chx2;when(3) output sasuser.chx3;when(4) output sasuser.chx4;when(5) output sasuser.chx5;end;run; proc univariate data=sasuser.ch01; var r;run;SAS 结果输出见表 1 汇总表 1 上证指数收益率描述性统计分析星期 周一 周二 周三 周四 周五 全体数据均值 -3.882 E-3 4.875 E-3 0.
8、422 E-3 1.363 E-3 -3.423 E-3 -0.110 E-3t 统计量-1.268(0.214)1.399(0.171)0.180(0.858)0.423(0.675)-1.776(0.085)-0.084(0.933)自由度 34 34 34 34 33 169方差 0.319 E-3 0.413 E-3 0.186 E-3 0.352 E-3 0.123 E-3 0.283 E-3偏度 -1.069 2.292 2.696 0.992 -0.630 1.144峰度 3.666 7.850 12.433 3.646 0.389 7.084由上表可知,上证指数收益率序列的偏度
9、和峰度分别为 1.144 和 7.084,而正态分布的偏度和峰度分别为 0 和 3,所以我们可以初步断定指数收益率序列为非正态分布。为了进一步证实这一论断,我们对收益率序列进行 Kolmogorov-Smirnov 检验。SAS 自动输出包括Kolmogorov-Smirnov 检验统计量在内的四种检验正态分布的检验统计量。SAS 程序proc univariate data=sasuser.chx1 normal; var r;histogram r; probplot r; run;SAS 结果输出见表 1 汇总,图 1 和图 2。表 2 上证指数收益率的正态性检验Kolmogorov-S
10、mirnov 检验对应的p 值Shapino-Wilk检验对应 p 值Cramer-von Mises检验对应的 p 值Anderson-Darling 检验对应的 p 值自由度周一 0.0464 0.0106 0.0272 0.0211 34周二 0.0100 0.0001 0.0050 0.0050 34周三 0.0100 0.0001 0.0050 0.0050 34周四 0.0910 0.0126 0.0164 0.0172 34周五 0.1500 0.1010 0.1528 0.0962 33全体 0.0100 0.0001 0.0050 0.0050 169数据-0.06 -0.0
11、4 -0.02 0 0.02 0.040102030405060Percentr图 1 上证综合指数收益率分布的直方图1 5 10 25 50 75 90 95 99-0.08-0.06-0.04-0.0200.020.04rNormal Percenti l es图 2 上证综合指数收益率分布的概率图包括 Kolmogorov-Smirnov 检验统计量在内的四种检验正态分布的检验统计量均表明上海综合指数收益率序列不服从正态分布,图 1 和图 2 也说明了这一点。所以要采用非参数方法进行以后的周末效应的检验。3.2 周末效应存在性的 Kruskal-Wallis 检验我们利用 Kruskal
12、-Wallis 检验 2002 年前三季度上证综合指数收益率的周末效应的存在性。SAS 程序proc npar1way wilcoxon data=sasuser.ch01; class w; var r;run;SAS 结果输出-The NPAR1WAY ProcedureWilcoxon Scores (Rank Sums) for Variable rClassified by Variable ww N Sum of Scores Expected Under H0 Std Dev Under H0 Mean Score5 33 2576.0 2805.0 252.150749 78.
13、0606061 34 2610.0 2890.0 255.000000 76.7647062 34 3206.0 2890.0 255.000000 94.2941183 34 2996.0 2890.0 255.000000 88.1176474 34 2977.0 2890.0 255.000000 87.558824Kruskal-Wallis TestChi-Square 3.0846DF 4Pr Chi-Square 0.5438-KW 检验得 3.086, 4, 0.5348 ,所以不能拒绝 ,即周一到周2dfp0.50H五得上证综合指数收益率得分布 ,所以我们认为在 2002 年
14、的前三季125().()FxFx度中,上海市股市综合指数收益率不存在周末效应。参考文献:1 Damodar N. Gujarati. Basic Econometrics.北京:中国人民大学出版社,2005. p791-p800.2 George E. P. Box, Gwilym M. Jenkins, Gregory C. Reinsel. Time Series Analysis Forecasting And Control. 3 何书元. 应用时间序列分析. 北京:北京大学出版社, 2003. p218-p226.4 张卓. SAS软件的应用. 统计与信息论坛 (2005),Vol.
15、20, No.4. p104-p106.5 樊欣,邵谦谦.SAS 8.X 经济统计 .北京:北京希望电子出版社,2003. p28-p60.6 岳朝龙,黄永兴,严钟. SAS 系统与经济统计分析. 合肥:中国科学技术大学出版社, 2004. p469-p4877 李彦萍. 发达与非发达地区收入与消费非参数统计分析.山西农业大学学报(2005),Vol.4, No.4. p334-p339.8 刘彤.利用非参数方法对上海股市周末效应的研究 .数理统计与管理(2003),Vol.22,No.1. p69-p71.Application of Nonparametric statistical Me
16、thodRUAN Shu-fen,CHENG Jiao-yi,ZHANG Zhen-zhong(School of Mathematics and Physics, China University of Geosciences, Wuhan 430074)Abstract: In this paper, we simply introduce three common hypothesis tests. Using the Kruskal- -Wallis test, we do week effect test about the shanghai synthetic index of which we take the first three quarters of 2002 for samples. Showing that during the year of 2002, the yield of shanghai stock market synthetic index has no week effect.Keywords: singed test; wilcoxon rank sum test; Krtuskal-wallis test.