1、19. PROC MEANS 均值以及均值的 T 检验(一)PROC MEANS 过程步由 PROC UNIVARIATE 过程步生成的大多数统计描述,用PROC MEANS 过程步也可以实现。区别是,UNIVARIATE 是做更深入的统计分析;如果只是需要计算少数的统计量,PROC MEANS更适合(不能做图形输出) 。基本语法:PROC MEANS data = 数据集 statistic-keywords;CLASS variable;VAR variable-list;说明:(1)CLASS 指定分组变量, VAR 指定要做统计分析的变量;(2)默认置信水平是 0.05(即 95%的置
2、信限) ,若要设定在统计量关键词位置加上,例如,ALPHA =0.1;(3)若不加统计量关键词,默认输出:均值、非缺省值个数、标准差、最小值、最大值。可选的统计量关键词包括:关键词 说明 关键词 说明CLM 双边置信限 RANGE 极差CSS 校正平方和 SKEWNESS 偏度CV 变异系数 STDDEV 标准差KURTOSIS 峰度 STDERR 均值的标准误LCLM 置信下限 SUM 求和MAX 最大值 SUMWGT 求权重和MIN 最小值 UCLM 置信下限MEAN 均值 USS 未修正的平方和MODE 众数 N 非缺省值个数NMISS 缺省值个数 PROBT T 检验的概率T T 值
3、Q1 或 P25 第 1 四分位数MEDIAN或 P50中位数 Q3 或 P75 第 3 四分位数P1 1%分位数 P5 5%分位数P10 10%分位数 P90 90%分位数P95 95%分位数 P99 99%分位数例 1 儿童书作家考察市面上儿童书的页数作为出书的参考,搜集数据(C:MyRawDataPicbooks.dat)如下:读入数据,计算数据个数、均值、中位数,以及 90%的置信限。代码:data booklengths;infile c:MyRawDataPicbooks.dat;input NumberOfPages ;run;*Produce summary statistic
4、s;proc means data = booklengths N MEAN MEDIAN CLM ALPHA = 0.10 MAXDEC = 2;title Summary of Picture Book Lengths;run;运行结果:说明:有 90%的把握说“儿童书的页数范围是:26.44, 29.56”.(二)假设检验的 P 值法一、 什么是假设检验?实际中,我们只能得到抽取的样本(部分)的统计结果,要进一步推断总体(全部)的特征,但是这种推断必然有可能犯错,犯错的概率为多少时应该接受这种推断呢?为此,统计学家就开发了一些统计方法进行统计检定,通过把所得到的统计检定值,与统计学家树立
5、了一些随机变量的概率分布进行对比,我们可以知道在百分之多少的机遇下会得到目前的结果。倘若经比较后发现,涌现这结果的机率很少,即是说,是在时机很少、很罕有的情况下才出现;那我们便可以有信念地说,这不是巧合,该推断结果是具有统计学上的意义的。否则,就是推断结果不具有统计学意义。二、假设检验的基本思想小概率反证法思想小概率思想是指小概率事件(P,则在显著水平 下接受 H0;注意: 为临界值,看 P 值在不在阴影部分(拒绝域) ,空白部分为接受域。2. 左侧检验I. 原假设 H0: 0, 备择假设 H1: ,则在显著水平 下接受 H0;3. 右侧检验I. 原假设 H0: 0, 备择假设 H1: 0;.
6、 根据样本数据计算出统计量 t 的观察值 t0( 0);. P 值 = Pt t 0 = t0 的右侧尾部的面积;. 若 P 值 (在右尾部分) ,则在显著水平 下拒绝 H0;若 P 值 ,则在显著水平 下接受 H0;(三)T 分布与 T 检验一、T 分布若样本均数 服从正态分布 , 经过 U 变换 , 可X2(,)XNX以变成标准正态分布 N(0, 12), 也成为 U 分布. 实际工作中,由于总体标准差 未知,用样本标准差 代替,XXS则 不再服从标准正态分布,而是服从 T 分布:XS, 1/Xt nS其中,S 为样本方差,n 为样本含量,v 为自由度。T 分布只有一个参数自由度 v. v
7、时,T 分布无限接近标准正态分布。T 分布的图形说明:单侧概率(单侧尾部面积)用 表示;,t双侧概率(双侧尾部面积)用 表示;/2,例如,t 0.05,10=1.812, 则 P(t-1.812)=P(t 1.812)=0.05t0.05/2,10=2.228, 则 P(t-2.228)+P(t 2.228)=0.05二、T 检验T 检验,是一种参数假设检验,用来检验“单样本均数与已知均数、两独立样本均数、配对设计资料的均数”是否存在差异,这种差异是否能推论至总体。T 检验适用于样本含量较小(比如 n60,大样本数据可以用 U检验) ,适用条件: 数据服从正态分布(做正态性检验) ; 满足方差
8、齐性(即两样本的总体方差相等,做 F 检验) ;若满足,可以尝试对数据做变量变换:对数变换、平方根变换、倒数变换、平方根反正弦变换等。正态性检验:(1)W 检验, Shapiro-Wilk 检验是基于次序统计量对它们期望值的回归而构成的。所用检验统计量为 W,又称为 W 检验。在样本量 3n50 时使用。(2)D 检验,Kolmogorov-Smirnov 检验的统计量为 D,所以也称 D 检验,在样本量 50n1000 时使用。假设检验 H0:数据总体服从正态分布,H 1:数据总体不服从正态分布。当 P 时,拒绝 H0,认为样本所来自的总体不服从正态分布;当 P 时,不拒绝 H0,认为样本所
9、来自的总体服从正态分布。F 检验要求两样本数据的总体均服从正态分布,统计量 F 为为较大的方差与较小的方差的比值: 2112, , 1SFn假设检验 H0:两总体方差相等;H 1:两总体方差不相等。取=0.10( 较大以减少 II 类错误) ,当 P 时,拒绝 H0,认为两总体方差不相等;当 P 时,不拒绝 H0,认为两总体方差相等。(四)均值的 T 检验T 检验 “单样本均数与已知均数、两独立样本均数、配对设计资料的均数”是否存在差异。例如,检查学生成绩平均分是否在某个分值之上;比较同一老师教的两个班的学生平均分是否存在差异;正常饲料组和维 E 缺乏组大白鼠肝中维生素 A 含量的均值是否存在
10、差异。T 检验在 SAS 中用 PROC TTEST 过程步实现。一、单样本与指定均值基本语法:PROC TTEST data = 数据集 H0 = mu0 options;VAR variable;说明:“H0=mu0”,对变量的均值与指定均值 mu0(默认是H0=0),做 T 检验。原假设是 = 0.二、两独立样本的均值基本语法:PROC TTEST data = 数据集 options;CLASS variable;VAR variable;说明:CLASS 语句指定分组变量,进行组间均值的比较。三、配对设计资料的均值基本语法:PROC TTEST options;PAIRED vari
11、able1 * variable2;说明:配对均值 T 检验,是检验两个变量各数据的差的均值是否等于 0.四、Options 可选项(1)ALPHA = n指定显著水平 ;(2)CI = type指定标准差的置信区间的类型,EQUAL(默认)为equal-tailed 的置信区间, UMPU 为基于一致最优无偏检验的置信区间,NONE 不输出置信区间;(3)SIDES = type指定单侧、双侧检验,默认 type=2 为双侧检验,L 为左侧检验,U 右侧检验;五、绘制 T 检验的图形在 TTEST 语句中使用参数 PLOTS = (绘图类型)即可。基本语法:PROC TTEST data =
12、 数据集 PLOTS = (绘图类型 );可选的绘图类型:ALL 或 NONE绘制全部图形或不绘制任何图形;BOXPLOT盒形图;HISTOGRAM直方图(包括正态分布、核密度线) ;INTERVALPLOT均值的置信区间的图形;QQPLOTQQ 图;SUMMARYPLOT在一张图中绘制直方图和盒形图;AGREEMENTPLOTAGREEMENT 图;PROFILESPLOTPROFILESPLOT 图;注意:TTEST 过程步都默认绘制 QQ 图和 SUMMARYPLOT 图,配对 T 检验还默认绘制 AGREEMENTPLOT 图和 PROFILESPLOT图。另外,指定绘制图形类型之后,
13、那些默认图仍然会绘制,除非加上(ONLY):PROC TTEST data = 数据集 PLOTS(ONLY) = (绘图类型 );例 2 50 米女子自由泳的数据(C:MyRawDataOlympic50mSwim.dat) ,变量包括姓名、决赛用时、半决赛用时:读入数据,用配对 T 检验考察决赛和半决赛用时有无明显差异。代码:data Swim;infile c:MyRawDataOlympic50mSwim.dat;input Swimmer $ FinalTime SemiFinalTime ;run;proc ttest data = Swim;paired SemiFinalTime * FinalTime;title 50m Freestyle Semifinal vs. Final Results;run;运行结果:程序说明:(1)总决赛用时与半决赛用时之差的均值为 0.0850, 其 95%置信区间为0.239, 0.1461; 标准差为 0.0731, 其 95%置信区间为0.0483, 0.1488;(2)自由度为 7 的 t 值=3.29,P 值=0.0133 小于显著性水平=0.05(P 值在双尾部分“拒绝域” ) ,故拒绝原假设 H0. 结论:两个均值不相同,其结果有统计学意义。