分享
分享赚钱 收藏 举报 版权申诉 / 31

类型第八章[描述性统计过程].doc

  • 上传人:scg750829
  • 文档编号:9259784
  • 上传时间:2019-07-31
  • 格式:DOC
  • 页数:31
  • 大小:230KB
  • 配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    第八章[描述性统计过程].doc
    资源描述:

    1、第八章 描述性统计过程以下过程都可用于计算基本统计量,如频数、均值等,但它们又各有特色:UNIVARIATE 进行单变量统计,包括分位数及描绘分布图。SUMMMARY 按观测值分组计算基本单变量统计值。分组是由CLASS 语句中的变量所决定。统计结果可输出到SAS 数据集中而不产生打印输出。 MEANS 计算均值及其他描述统计量。TABULATE 打印基本统计的复杂表格。CORR 求变量间相关系数。进行基本统计的其他过程还包括:CHART 画频数、均值、总和的条形图、立体直方图、饼图及星图。FREQ 对分类变量计算频数分布,并作多维列联表。SAS 基本统计过程及其一些重要统计量统计量 MEAN

    2、S UNIVARIATE SUMMARY TABULATE CORR非缺项值数(N) 缺项值数(NMISS) 权重和(SUMWEIGH_T) 均值(MEAN) 和(SUM) 最小值(MIN) 最大值(MAX) 全距(RANGE) 未修正平方和(USS) 修正平方和(CSS) 方差(VAR) 标准差(STD) 变异系数(CV) 偏度(SKEWNESS) 峰度(KURTOSIS) T 统计量值(t) 大于 t 值的概率(PRT) 中位数(MEDIAN) 四分位数(QUARTILE) 众数(MODE) 输出到 SAS 数据集 Yes Yes Yes No YesCLASS 语句 Yes No Yes

    3、 Yes NoBY 语句 Yes Yes Yes Yes Yes第一节 MEANS 过程MEANS过程对数值变量给出简单的描述性统计。例: 数据集SCORE含有学生三门课程的成绩(见SORT过程),用MEANS过程可得到: PROC MEANS DATA=SCORE;MEANS过程由下列语句控制:PROC MEANS 选择项;VAR 变量表;BY 变量表;CLASS 变量表;FREQ 变量;WEIGHT 变量;ID 变量表;OUTPUT 选择项;除PROC语句之外的其他语句均为可选语句。8.1.1 语句说明1PROC MEANS语句PROC MEANS 选择项;常用下列选择项:DATA=SAS

    4、 数据集指出需做MEANS分析的SAS数量集名。NOPRINT 说明不打印任何描述性统计值。此选择项仅仅是为了建立一新的数据集时才使用。MAXDEC=N 指出MEANS用于打印结果的最大小数位(08),缺省值为2。VARDEF=除数 指明用于方差计算的除数,缺省值是VARDEF=DF。VARDEF=DF 用自由度(N-1)作除数。 VARDEF=WEIGHT|WGT用权重和作除数。 VARDEF=N 用观测值数(N)作除数。 VARDEF=WDF用权重和减1作除数统计量列表它们可以是N、MAEN、MAX、MINSTD、STDERR、SUM、VAR、USS、CSS、NMISS、RANGE、T、P

    5、RT、SUMWGT、CV、SKEWNESS、KURTOSIS等18个统计量的任意组合。隐含为N、MIN、MAX,MEAN、STD。2OUTPUT语句OUTPUT 选择项;OUTPUT语句将MEANS过程产生的统计值输出到一个新的SAS数据集。选择项包括:OUT=SAS数据集 指定输出数据集名。统计关键字=名字 指明新数据集中想要的统计项。并给包含这些统计项的变量起名。这些名字将作为统计值在新数据集中使用。等号右边第一个变量名代表VAR语句中第一个变量的相应的统计量;第二个名字代表VAR语句中第二个变量的相应的统计量等等。例如:PROC MEANS;VAR X1 X2;OUTPUT OUT=ST

    6、ATS MEAN=MA MB STD=SA SB;MEAN=后的第一个变量MA。代表VAR语句中第一个变量X1的均值;第二个变量MB代表VAR语句中第二个变量X2的均值。STD=后的第一个变量SA代表VAR语句中第一个变量X1的标准差;X2的标准差不输出。若省略了统计关键字= 选择项,MEANS输出一个含有N、MIN、MAX、MEAN、STD的SAS数据集。8.1.2 举例例1:利用MEANS过程进行单变量统计。SCORE为含学生成绩的数据集。(注意CLASS及BY语句的区别)。(yp74.sas)PROC MEANS DATA=SCORE MAXDEC=3;VAR T1-T3;CLASS G

    7、ROUP;TITLE Statistics With a Class Variable;PROC SORT DATA=SCORE; BY GROUP;PROC MEANS MAXDEC=3;BY GROUP;VAR T1-T3;TITLE Statistics With By Variable;RUN;例2:40名麻疹易感儿接受麻疹疫苗一个月,血凝抑制抗体滴度如下表,求平均滴度。抗体滴度 1.4 1.8 1.16 1.32 1.64 1.128 1.256 1.512人数 1 5 6 2 7 10 4 5有关背景知识及题目分析:(1)抗体滴度为几何级数,必须先化成对数再求均值。设Y=LOG10

    8、(X)(2)由于需把按对数值求得的平均值再转换成滴度,即要对MEANS产生的结果作进一步处理,要使用OUTPUT语句将MEANS结果输入到另一SAS数据集,但结果不需显示因此选用了NOPRINT。(3)变量F代表频数(4)第二个数据步用于将均数还原成滴度。(yp75.sas)DATA A;INPUT X F ;Y=LOG10(X);CARDS;4 1 8 5 16 6 32 2 64 7 128 10 256 4 512 5;PROC MEANS NOPRINT;VAR Y;FREQ F;OUTPUT OUT=B MEAN=MY;DATA C;FILE PRINT;SET B;MX=10*MY

    9、;PUT MX;RUN;例3:在某一年级中,测得20名男学生的身高。试求出身高的平均值95的置信区间。求置信区间时要先求出tdf,1-a/2,此值可用TINV函数得到。程序如下: (yp76.sas)DATA STUDENT;INPUT XUEHAO HEIGHT ;CARDS;1001 175.8 1002 168.9 1003 178.2 1004 180.11005 169.8 1006 172.5 1007 175.3 1008 177.41009 168.8 1010 176.9 1011 181.1 1012 179.21013 178.2 1014 175.3 1015 177.

    10、6 1016 182.31017 173.5 1018 176.5 1019 175.2 1020 171.8;PROC MEANS DATA=STUDENT NOPRINT;VAR HEIGHT;OUTPUT OUT=B MEAN=MH STD=MS N=NUM;DATA CAL;SET B;T=TINV(0.975,NUM-1);IN=T*MS/SQRT(NUM);L=MH-IN; U=MH+IN;PUT L U;RUN;程序中,利用MEANS过程建立一个仅有MH(身高平均值)、MS(标准差)和NUM(人数)的数据集B。在DATA CAL中,用TINV函数求出t值。第二节 FREQ 过程8

    11、.2.1 简介FREQ过程产生一维至n维的频数表和列联表。对于二维表,PROC FREQ计算统计量并给出检验。对n维表,PROC FREQ作分层分析,在层内作计算统计,频数也能输出到SAS数据集中。由于频数表对某个变量列出所有的值,可以查看这些值取值是否合理。所以它是检查数据错误的有效工具。例:(yp77.sas)PROC FORMAT;VALUE VFMT LOW-=90 then grade=A;else if average0 时); 定义 4:Xp(n+1)的加权平均 Y=(1-g)Xj+gXj+1,其中(n+1)p=j+g, 且 Xn+l 取为 Xn; 定义 5:平均经验函数 Y=(

    12、Xj+Xj+1)/2 (当 g=0 时);Y=Xj+l(当 g0时); 其中 np=j+g, j 为 np 的整数部分,而 g 为 np 的小数邵分。2统计检验(1) t 检验 体均数假设总为 0,计算 Student t 检验值 ,PRTSnXT/)(与 T 值相对应的 p 值,给出拒绝 H0 假设的水准。(2) 秩检验本过程提供符号秩统计量 S:4/)1(nrSi其中, 为 的秩(除掉 Xi=0)。n 为 Xi0 值的数目,S 的显iX著性是把 作为标准正态分布计算的,对自由度为 n-1 的V/)5.0(student t 值,V 的计算如下: 24/)1(5.0)12(itn其中求和是与

    13、绝对值相联系的各组和,ti 是第 I 组中值的个数。(3) 正态检验如在过程中指定 NORMAL 选项时,过程视数据取自正态分布的随机样本并给出一个统计检验。当样本量小于等于 2000 时,本过程进行Shapiro-Wilk 检验。计算统计量 W。W 的值在 0 与 1 之间,W 值越小越拒绝 H0 假设。当样本容量 n 大于 6 时,W 的显著水平由 Royston 近似正态变换获得。当样本量大于 2000 时,过程采用 Kolomogorov 检验,给出 D统计量。8.6.4 应用举例例 1:对 Blood 数据集中血磷进行统计描述,在过程中指定了选项PLOT,NORMAL 和 FREQ,

    14、使用 SAS 语句如下:PROC UNIVARIATE DATA=BLOOD PLOT NORMAL FREQ;VAR XL;此过程提交后,除给出与输出 8.19 类似的结果外,选择项 PLOT 给出了茎叶图(Stem_leaf),盒状图(Box Plot)和正态概率图(Normal Probability Plot)。在结果图中,Moments 部分的最下面一行给出了正态性检验的结果。W:Normal 后给出了检验统计量 W(0w1)的值 O.987675。W 值越大越表示数据来自正态分布。ProbW 给出一概率 p(0Prob1)以表示对分布具有正态性的置信程度。其值越接近 0,则表明越拒

    15、绝数据来自正态分布的假设。本例 P 值为 O.95,故不拒绝数据来自正态分布的假设。茎叶图和盒状图能方便的用来进行探索性数据分析。茎叶图可使读者对数据的分布一目了然,图中将数据分为茎和叶,以整数表示茎,按系统自定间隔和尺度划分,图下方给出了尺度,本例间隔为 2,尺度为,叶即表示数据,Stem.leaf 值乘以尺度即为数据值。当一排叶的10个数超过了 48 个时,由水平条图(直方图)代替茎叶图。对于茎叶图中的脱离了主体的异常点,应仔细加以考察,以确定这些异常值是否应剔除,再作分析。盒状图的顶线和底线是由上四分位数(第 75 百分位数)和下四分位数(第 25 百分位数)画出的,中间的横线(两端以*

    16、号标识)表示观察中值的位置。盒中的+号为观察平均值的位置。本例中 PHOSPHRS 中值与平均值是重合的,但有可能不重合。但无论何种情况,表示中值的横线及表示平均值的+号均在盒子上下底线之间。盒状图中的竖线称为触须线(whiskers)表示数据散布的范围,触须线延伸的范围是上、下四分位数间距(即第 75 百分位数减去第 25 百分位数的距离)的 1.5 倍。超过这个范围的数据用0来标记,若数据散布大于 3 倍的上述间距时,则用*号来标记。盒状图可表示数据的散布情况。上例中 PHOSPFIRS 盒子形状基本对称,说明观察数据接近正态分布。正态概率图为对比作图法。图中由“+”号描记参考直线,用“*

    17、”号描记实际数据点。如一样本来自正态分布,则星号构成一直线,当“*”号与“+”号重合时,表明观察数据服从正态分布。本例中PHOSPHRS 观察数据基本与参考直线重合,接近正态分布。茎叶图与盒状图的纵坐标一致。正态概率描点图纵坐标是实际标度,横轴按正态分布数据定标。选择项 FREQ 给出频数表,输出变量值(Value),频数(Count),百分数(Cell),累计百分数(Cure)。第七节 RANK 过程8.7.1 简介在许多实际问题中,有时不能确定数据的总体分布,或者数据分布呈明显偏态,或者为顺序尺度数据(即无具体数值,仅以程度表示的数据),此时不宜用参数统计方法,而需使用一种不依赖于某种总体

    18、分布的统计方法。这种情况下,通常是比较分布而不是比较参数,即采用非参数统计法。这时考虑将原始数据作秩得分变换。将变量的原始数据值从小到大(或从大到小)排列,然后分别给予序号,这些序号即为原始数据的秩次。PROC RANK 可对在 SAS 数据集中的一个或多个数值变量的全部观察值计算秩次,进行秩得分变换,并可将输出结果存放到一个新的 SAS 数据集中。例:为 BLOOD 数据集(yp98.sas)中的血糖的数值编秩次。PROC RANK DATA=BLOOD OUT=OUTBLOOD;VAR XT;RANKS RANKGLU;PROC PRINT DATA=OUTBLOOD;VAR XT RAN

    19、KGLU;程序首先按血糖编秩,其秩变量名为 RANKGLU,并存放到 OUTBLOOD数据集中,最后打印出图。RANK 过程除给出上例输出的秩得分变换外,还有多种秩得分方法:小数与分数秩次、分位数秩次、正态得分及指数得分等。RANK 过程应用广泛,可用秩得分检查原始数据的分布情况;将计量数据转化为顺序尺度数据;用 NPAR1WAY 过程可作两样本比较的秩和检验;用 CORR 过程可做等级相关分析等。8.7.2 语句说明RANK 过程中可使用下列语句:PROC RANK 选择项 ;VAR 变量表;RANKS 名表;BY 变量表;1PROC RANK 语句PROC RANK 选择项;选择项可以是:

    20、DATA=SAS 数据集 指定 RANK 过程使用的 SAS 数据集。TIES=MEAN | HIGH | LOW 变量有几个相同数据项时,如何为这些数据项取秩? RANK 过程提供了三种取秩方法: TIES=MEAN 取相应秩次的平均值; TIES=HIGH 取相应秩次的最高值; TIES=LOW 取相应秩次的最低值。如不指定此选择项,系统隐含指定 TIES=MEAN。DESCENDING 选择项指定反向编秩,数据从大到小按降序排列,最大值秩次为 1,次大值秩次为 2,等等。不指定此选择项,系统指定按升序排列取秩。GROUPS=n 此选择项可用来计算分位数秩次。n 为组数。秩次分为整数 0

    21、到 n-1。每组有相等或近乎相等的观察数。常用的 GROUPS 值为 100,产生百分位秩次;n 为 10 产生十分位秩次;n 为 4 产生四分位秩次。FRACTION 此选择项指定计算分数(小数)秩。RANK 过程将给出的秩次除以非缺项项数 N,就得到小数秩次。当选择项 TIES 省略或是指定 TIES=HIGH 时,分数秩被认为是右连续经验累计分布函数值。PERCENT | P 此选择项计算百分数秩。RANK 过程用无缺项值观察数除每个秩次,然后乘 100 得到百分数,此选择项隐含指定 TIES=HIGH。PERCENT 选择项所给出的不是百分位秩次。百分位秩次应由GROUPS=100 得

    22、到。NORMAL=BLOM | TUKEY | VW 此选择将原始数据计算秩次后计算正态得分,即对秩次进行正态变换,结果变量为正态分布。RANK 过程提供 BLOM、TUKEY 及 VW 三种正态得分。这些正态分数接近正态分布的期望顺序统计量(expected order statistics),称做正态得分。SAVAGE 该选择项指定由秩次计算 Savage(或指数)得分。OUT=SAS 数据集 指定由 RANK 过程建立的包含结果秩次的 SAS数据集。如不指出 OUT= ,缺省值为 OUT=_DATA_,它产生一个类似DATAn 的名字,如想建立永久数据集,则需指定两级数据集名。输出数据集

    23、中包含输入数据集中的全部变量,再加上由 RANKS 语句命名的变量,此时也必须有 VAR 语句。无 RANKS 语句时,过程按原始编秩变量存储这些秩次于输出数据集中。如无 VAR 语句,则输出数据集中包括全部数值变量。2VAR 语句VAR 语句指定了 RANK 过程对哪些变量编秩。这些变量必须是数值变量。如省略此语句,RANK 过程对数据集中全部变量编秩。如使用了RANKS 语句,则必须同时指定 VAR 语句。3RANKS 语句RANKS 名表; 如希望输出数据集中,除含有原始变量外,也要包含变量的秩次,可用 RANKS 语句给这些秩命名。RANKS 后第一个名对应于 VAR 语句中第一个变量

    24、名,以下一一对应。4BY 语句RANK 过程中的 BY 语句可分别分析由 BY 语句变量表分组的观察,但输入数据事先应按 BY 语句中的变量按升序排序。8.7.3 计算方法简介1分位秩的计算公式)1/(nkraFLOR其中,rank 为数值的秩,k 为在 GROUPS= 中指定的组数。n 为秩变量的无丢失值观察数。2正态得分本过程提供三种正态得分方法, 计算公式如下: BLOM )4/1()8/3(nrYii TUKEY VW ii其中, 为逆累积正态(概率)函数。 为秩,n 为编秩变量的无丢失ir项观察数。VW 代表 Van Der Wacerden,其得分用于非参数定位检验。3指数得分(S

    25、AVAGE 得分)对秩次进行指数变换的公式如下: 1)/(nrjiijY其中 ri 为秩得分。当原始数据为指数分布或属于指数分布的一部分,或部分服从指数分布,将原始数据用指数得分变换后,再作分析处理。8.7.4 应用举例秩得分应用较广,大多数与其他过程结合进行分析。1秩得分用于检验数据的分布本过程可计算正态得分及指数得分,可用来检查数据是否服从正态分布或是指数分布。如原始数据为正态分布,这时若以原数据为 Y 轴,正态得分为 X 轴作图,图形应近似为直线。例 1:检查 BLOOD 数据集(yp98.sas)中血磷、血糖的数据是否服从正态分布。PROC RANK DATA=BLOOD NORMAL

    26、=VW OUT=OUTTWO;VAR XL XT;RANKS RANKPHOS RANKGLU;PROC PRINT DATA=OUTTWO; TITLE NORMAL=VW;PROC PLOT;PLOT XL*RANKPHOS XT*RANKGLU;程序对 BLOOD 数据集中的血磷(XL)及血糖(XT)变量进行编秩后,再作正态变换,指定使用 VW 正态得分方法。输出结果存放在 OUTTWO 中,然后用血磷变量作 Y 轴,由血磷取秩的正态得分值作 X 轴作图来检验数据分布。同样也用血糖变量作 Y 轴,血糖取秩的正态得分作 X 轴作图,由这两幅图可以看出血磷数据基本上是一条直线,说明数据接近正

    27、态分布,而血糖数据不为正态分布。2将计量数据转化为等级数据利用 PROC RANK 中的选择项 GROUPS=n 将排好序的数据分组,每组数据编以相同的秩次,秩次从 0 到 n-1。用此法可将计量数据按等级分组。3秩和检验两样本比较的秩和检验是将原始数据的秩得分作 t 检验,即WILCOXON 秩和检验。而 RANK 过程只给出秩得分。利用 NPAR1WAY 过程指定 WILCOXON 选择项即可将原始数据计算秩次后作两样本秩和检验。多样本的秩和检验是对原始数据的秩次进行多因素、多水平方差分析,即 Kruskal-Walis 检验。同两样本比较的秩和检验一样,仍使用NPAR1WAY 过程及选择项 WILCOXON,输出结果仅给出卡方及 P 值,较两样本秩和检验少 Z 值。4等级相关分析(RANK CORRELATION)当变量分布未知,或不属于正态分布或为顺序尺度数据时,不采用一般的相关分析。可作秩相关分析,即采用 Spearman 相关。可利用CORR 过程加选择项 SPEARMAN,来计算等级相关系数。5利用秩次计算秩和比

    展开阅读全文
    提示  道客多多所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:第八章[描述性统计过程].doc
    链接地址:https://www.docduoduo.com/p-9259784.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    道客多多用户QQ群:832276834  微博官方号:道客多多官方   知乎号:道客多多

    Copyright© 2025 道客多多 docduoduo.com 网站版权所有世界地图

    经营许可证编号:粤ICP备2021046453号    营业执照商标

    1.png 2.png 3.png 4.png 5.png 6.png 7.png 8.png 9.png 10.png



    收起
    展开