1、第六章 统计推断,6.1 统计推断的基本原理及意义 6.2 t测验 6.3 联列表独立性检验 6.4 正态性检验,统计推断的内容:,统计推断的前提条件: 资料必须来自随机样本;统计数的分布规律必须已知。,统计推断是据统计数的分布和概率理论,由样本统计数推论总体参数的方法。,6.1 统计推断的基本原理及意义,统计假设检验基本步骤:,1.无效(零)假设H0 ,备择假设 HA,例如:,试验研究目的不同、变量属性不同,统计假设检验的方法不同而公式不同。 主要有t检验、F检验、x2检验等方法。,2. 统计假设检验的原理小机率原理,小机率原理: 概率很小的事件,在一次试验中是不至于发生的。 统计学中一般认
2、为概率p0.05,才算小机率事件。,3. 计算统计量 t、F、 x2等,在SAS中,直接算出t、F、 x2等统计量,及其Pr|t|或PrF或Pr x2的概率值。根据小机率原理做出统计推断。,例若Pr|t|概率值: 0.05,则接受H0零假设,差异不显著。 0.05,不能接受H0零假设,推断差异达显著。 0.01,更大把握拒绝零假设,推断差异极显著。,4. 写统计推断,5. 依题意写统计结论,t分布图,6.2 t测验,一、单个样本均数的t检验,二、两个样本均数的t检验,统计原理,实例及SAS程序,三、实习,一、单个样本均数的检验,目的:检验样本所属总体均数是否和某指定的总体均数相等,例 某地杂交
3、玉米在原种植规格下一般亩产350,现为了间套作,需改成一种新种植规格,新规格下8个小区产量分别为360、340、345、352、370、361、358、354(/亩)。问新规格与原规格下玉米产量差异是否显著?,第一步 H0: =0=350 , HA: 0。,第三步 t1.491 t0.05,72.365,p5%,故接受H0,差异不显著。,第四步结论:认为改变种植规格后的玉米产量与原种植规格的玉米产量无显著差异。,例6.3 某地杂交玉米在原种植规格下一般亩产350,现为了间套作,需改成一种新种植规格,新规格下8个小区产量分别为360、340、345、352、370、361、358、354(/亩)
4、。问新规格与原规格下玉米产量差异是否显著?,单个样本均数的检验,单个样本均数的检验的SAS程序:,data aa; input x ; y=x-350; cards; 360 340 345 352 370 361 358 354 ; proc means mean t prt; var y; run;,其输出结果:,第四步结论:改变种植规格后的玉米产量与原种植规格的玉米产量无显著差异。,Prob|T|,data aa; input x ; cards; 360 340 345 352 370 361 358 354 ; proc ttest h0=350; var x; run;,SAS软件
5、8、9版本的ttest过程中,不必先求差值即可对成对数据直接进行检验。,第四步结论:改变种植规格后的玉米产量与原种植规格的玉米产量无显著差异。,二、两个样本均数的检验,2.成组法T测验(group comparisons t test ),1.成对法T测验(paired comparisons t test ),统计原理,实例及SAS程序,统计原理,实例及SAS程序,1.成对法T测验,把条件一致的两个供试单元配成一对,设多个配对,每一配对两个单元随机独立实施一处理,这就是配对试验,实为处理数为2的随机区组试验,这样得到的数据称为成对数据。,P62例6.5 为测定A、B两种病毒对烟草的致病力,取
6、8株烟草,每一株半叶接种A,另半叶接种B,以叶面出现枯斑数的多少作为致病力强弱的指标,得结果于表4.4。试测验两种病毒致病力的差异显著性。,H0: 两种病毒致病力一样,data b;input x1 x2;d=x1-x2;cards;9 10 17 11 31 18 18 147 6 8 7 20 17 10 5;proc means mean stderr t prt;var d;run;,成对法T测验SAS程序:,数据行输入错误,data b;input x1 x2;d=x1-x2;cards;9 7 10 6 17 8 11 731 20 18 17 18 20 14 5;,成对法T测验
7、SAS程序:,数据行输入正确,proc means mean t prt; var y; run;,其输出结果:,The SAS System Analysis Variable : DMean Std Error T Prob|T|-4.75000 1.60078 2.97 0.0209-,结论:A、B两种病毒的致病力有显著差异。,SAS软件8、9版本的ttest过程,可对成对数据直接进行检验.,data b;input x1 x2; cards;9 7 10 6 17 8 11 731 20 18 17 18 20 14 5; proc ttest; paired x1*x2;run;,结
8、论:A、B两种病毒的致病力有显著差异。,2.成组法T测验,ProbF =,若 0.05,差异不显著,接受,若 0.05,差异显著,则,样本方差同质性检验,(1),(2),表3.2成组试验资料,P60 例6.4:今有A、B两个橡胶有性系,均在同一环境、同一管理下生长,产量于下表,试测定其产量差异显著性。,成组法实例,成组法T测验程序:,data yild;input strain $ yield ;cards; a 69 a 97 a 106 a 92 b 32 b 61 b 50 b 46 ;,proc ttest;class strain;var yield; run;,输出结果:,结论:品
9、系A、B的产量差异极显著。,1. (作业4)阿布勒汉等人在马来西亚橡胶研究院作一橡胶刺激剂剂型比较试验,以探讨乙烯利和电石刺激对不同割制的增产效果,供试品系为混杂无性系,第一年结果如表:试测定乙烯利与电石对橡胶树产胶的刺激差异显著性?,实习二,实 习 三,结果:乙烯利效果显著于电石,2. (作业5)用40乐果乳油500防治茶小绿叶蝉,喷药区十二个,对照区十个,测得产量结果如下(单位:公斤): 40乐果乳油500: 97.0 254.9 345.5 399.6 177.0 322.6 577.6 251.6 251.0 337.3 22.7 292.9 154.6 对照喷清水: 42.6 157
10、.6 65.3 162.1 93.5 215.2 226.6 109.9 106.7 40.5 问喷洒此药有无防治和增产作用?,结论:喷洒40乐果乳油的茶青产量极显著高于对照,该药对防治茶小绿叶蝉有效。,3. 有一水稻施肥试验,处理为A、B两种施肥方法,完全随机设计,试验结果见表3.1。试测验两种施肥方法水稻产量有无显著差异。,表3.1 两种施肥方法水稻小区产量(),data b;do trt=1 to 2;input x;output;end;cards; 8.2 10.7 9.6 11.2 8.7 9.2 8.9 10.9 9.4 11.1 8.5 10.8 ;proc ttest;cla
11、ss trt; var x;run;,成组法T测验程序:,4. 将14只大白鼠随机分为两组,一组做成白血病模型鼠,一组为正常鼠,两组鼠脾脏DNA含量(mg/g)如下,请分析两组鼠表脾脏DNA平均含量是否不同? 白血病组(x1):12.3 13.2 13.7 15.2 15.4 15.8 16.9 正常组(x2): 10.8 11.6 12.3 12.7 13.5 13.5 14.8,第四章 x2独立性测验,K.Pearson(1900)根据x2定义,从属性性状的分布推导出用于计数资料分析的x2公式。,当df=1的样本,必须用连续性矫正公式,否则x2偏大,容易达到显著水平。对df2的样本,不作矫
12、正。,x2的矫正公式:,二、 x2独立性测验类型,1. 22联列表的x2测验法解决两种处理两种结果的情况,判断两组或多组资料是否相互关联的问题,即独立性检验,亦称列联表分析。,2. 2C联列表的x2测验法解决两处理多种结果(或多处理两种结果)的情况,3. RC联列表的x2测验法解决多种处理多种结果的情况,2.矫正公式:,1.资料整理的一般形式:,4.1 22联列表的x2测验法,1.资料整理的一般形式:,4.3 RC 联列表的x2测验法,2. 公式:,三、x2独立性测验的SAS程序,data 数据集名;do a=1 to 行数;do b=1 to 列数;input x ;output;end;e
13、nd;cards; 数据 ; proc freq;weight x;tables a*b/chisq; run;,实例:P64 P66,四、 x2独立性测验的实例,data rubber1;do a=1 to 2;do b=1 to 2;input x ; output;end;end;cards; 97 403 160 340 ; proc freq; /*频数过程*/weight x;tables a*b/chisq;/*a(行)b(列)联列表并输出x2值*/ run;,1. 22联列表的x2测验法,例6.6:橡胶芽接位保护比较试验。P78,试测验植株越冬后死亡率是否因切或不切腹囊皮而异?
14、,SAS主要输出结果:,统计推断:因c2 =20.13, 其出现的概率p 0.01, 差异极显著。又因不切时样本死亡率为19.40% 切时的32.00%, 故不切腹囊皮胶树越冬后死亡百分率极显著低于切腹囊皮的死亡百分率。,Tables语句中有四个选项用来取消四个统计量的打印。,Nofreq 取消打印单元频数 Nopercent 取消打印单元百分数 Norow 取消打印行百分数 Nocol 取消打印列百分数,例1:橡胶芽接位保护比较试验。,补充:,data rubber1;do a=1 to 2; do b=1 to 2;input x ; output;end; end; cards; 97
15、403 160 340 ; proc freq;weight x;tables a*b/chisq nopercent nocol; run;,程序修改:,主要输出结果:,p 0.01, 差异极显著; 又不切时样本死亡率为19.40% 切时的32.00%。 结论:不切腹囊皮胶树越冬后死亡百分率极显著低于切腹囊皮的死亡百分率。,data aa;do a=1 to 2;do b=1 to 2;input x ; output;end; end;cards; 32 18 30 8 ;,思考题:有人调查肺癌病人和正常人吸烟情况如下表,试测定肺癌与吸烟是否有关?,proc freq; weight x;
16、tables a*b/chisq nopercent nocol;run;,18 14 8 22,主要输出结果:,统计结论:xc2 =4.4166 ,p=0.0356 不吸烟26.67%, 故吸烟得癌症率显著高于不吸烟者。,2. 2c联列表的x2独立性测验法,四、 x2 独立性测验的实例,P80例6.7 调查橡胶两品系各级寒害株数资料如下:,试测验两品系的寒害程度差异显著性。,data rubber3;do a=1 to 2;do b=1 to 6;input x ; output; end;end; cards; 17 11 10 11 5 1 20 10 11 8 8 2 ; proc f
17、req; weight x; tables a*b/chisq; run;,SAS输出:,结论:因x2=1.6995 ,p=0.8890.05, 即、两品系寒害程度差异不显著.,3. rc联列表的x2独立性测验法,(p66)例6.8 为研究人的血型与胃病的关系,对胃溃疡、胃癌患者与无病对照作血型调查结果如下:,试作胃病与血型间的独立性测验。,统计结论:因2=40.543,p 0.01, 差异极显著, 即胃病与血型间有极显著的关联。,SAS程序略,其主要输出结果:,2.(作业7)水稻不同灌溉方式下叶子衷老情况如下:,试测定叶子衷老与灌溉方式之间是否有关?(tyq13),统计结论:因2 =5.62
18、2, p=0.229 0.05, 差异不显著, 故叶子的情况与水深无关。,实 习,6.4 正态性检验,6.4.1单样本正态性检验 6.4.2多样本正态性检验,6.4.1单样本正态性检验,1. 基本原理与公式H0:变量服从正态分布 Shapiro-Wilk检验统计量W,W值介于01之间。 若prw的概率值大于0.05,则接受假设H0,认为资料服从正态分布; 若prw的概率值小于0.05,则认为资料不服从正态分布。,单样本正态性检验,一般用UNIVARIATE过程来检验一个变量是否服从正态分布: PROC UNIVARIATE NORMAL DATA=数据集名;VAR 要分析的变量名;,2. SA
19、S分析,以下表为140行水稻试验的产量,试编一SAS程序,判断水稻产量是否服从正态分布。,单样本正态性检验实例,data rice;input x ; cards; 177 215 197 97 123 159 245 119 119 131 227 141 169 124 159 ; proc univariate nomal; run;,主要输出结果:,思考题:下表列出了36家上市公司在2001年的每股收益(EPS,earn per share).试判断上市公司的每股收益(eps) 是否服从正态分布。,6.4.2多样本正态性检验,例6.2 某烟草品种产量系比试验,分别对3个品种,每品种随机
20、抽取4个60的小区产量如表6.1,试测验3个品种数据是否服从正态分布。,其SAS程序: data s; do trt=1 to 3; do n=1 to 4; input x;output; end;end; cards; 16.3 14.9 16.2 16.2 18.0 17.6 18.0 18.3 16.6 17.0 17.6 17.8 proc univariate normal; var x; by trt; run;,/*按品种(trt)分类,分别进行资料的正态性检验*/,正态性检验 - trt=1-检验 -统计量- -P 值- Shapiro-Wilk W 0.84353 Pr W 0.2059 - trt=2- Shapiro-Wilk W 0.935122 Pr W 0.6248 - trt=3-Shapiro-Wilk W 0.93927 Pr W 0.6499,以上输出显示1、2、3品种的P值均大于0.05,接受H0,认为3个品种资料均服从正态分布。,接受区域 1-a,图5.1 时 H0: = 0的接受区和否定区,统计假设测验的几何意义图示:,-t,t,Pr|t|概率值记为a,