1、第十章 秩和检验,苏州大学放射医学与公共卫生学院,卫生统计学教研室,问题的提出:,满足条件:总体服从正态分布各组间总体方差齐,数值变量资料组间比较方法:t检验、 方差分析,当出现以下情况该怎么解决?, 不满足正态分布或方差齐性, 变量变换后仍不能满足以上条件, 等级资料组间的比较,基本概念,参数检验,非参数检验,要求待分析的变量服从某种特定的分布类型(如正态分布、指数分布等),然后对分布参数进行检验。,不对变量的分布作严格的限制,不对总体参数进行检验,而是对分布或中位数M进行检验。,如果某数值变量资料满足参数检验的条件,而选用非参数检验,则会降低检验效能,即增大第II类错误的概率。,非参检验的
2、缺点,(1)不受总体分布类型的限制,适用范围较广。,(2)方法简便易学 。,非参检验的优点,非参数检验的适用范围,出现无精确测量值的资料,如一端或二端是不确定数值(如3.0等)的资料;,不满足参数检验条件的资料及无法经变 量变换满足参数检验条件的资料;,等级资料;,分布不清的资料。,基于秩次的非参数检验,秩次(rank)的概念:,观测值 1 5 6 4 2 9,秩次1 4 5 3 2 6,主要用于一个总体的分布位置(中位数 M)和已知M0 、两个或多个总体的分布位置有无差别的比较。,主要内容,1.Wilcoxon符号秩和检验:配对设计及单样本与已知总体比较,2.完全随机设计两样本比较的秩和检验
3、,3.完全随机设计多组样本比较的秩和检验,4.区组设计的秩和检验,5.多个样本两两比较的秩和检验,第一节 Wilcoxon符号秩和检验,Wilcoxon符号秩和检验(Wilcoxon signed rank test),亦称符号秩和检验或Wilcoxon 配对法,用于配对设计计量资料差值的中位数Md和0比较;还用于单一样本中位数M和已知总体中位数M0比较。,例101 将24只家兔按体重相近和性别相同配成12对,按随机化原则将每对中的两个家兔分到甲、乙两组,用某种放射线的0.5Gy和1.0Gy两种剂量分别对甲乙两组家兔进行局部照射,观察放射性急性皮肤损伤,损伤程度用评分指标反映,结果如表101中
4、的第(2)、(3)栏,问该放射线的这两种剂量对家兔的局部照射的急性皮肤损伤程度有无差别?,一、配对设计资料的检验,表101 24只家兔受两种剂量放射线局部照射的皮肤损伤程度的评分,配对设计资料,差值服从正态分布: 配对t检验,差值偏离正态分布: 符号秩检验,检验步骤:,1. 建立假设,确定检验水准,H0 :差值的总体中位Md=0(即两种放射剂量引起的皮肤损伤程度相同),H1 : 差值的总体中位数Md0 (即两种放射剂量引起的皮肤损伤程度不相同),=0.05,Wilcoxon 符号秩检验的基本思想,H0 成立: 两剂量损伤结果相同,两种方法样本测量值的差别由抽样误差造成,差值均匀地分布在0的左右
5、, ,差值的绝对值编秩分别求正、负秩和,T+、T-围绕平均秩和n(n+1)/4波动,如果T偏离 n(n+1)/4,则拒绝H0,2. 编秩号,如出现省略差值为0,则省略所有差值为0的对子数,记余下的有效对数为n;,按非0差值的绝对值从小到大排序,排好后, 秩保持原差值的正负号;,差值的绝对值相等时以平均秩表示。,3. 求秩和,将正负秩分别相加,表101 24只家兔受两种剂量放射线局部照射的皮肤损伤程度的评分,4. 计算检验统计量T,T取较小的一个秩和。,本例T=13。,查附表10得到P值,原则是:,T值在上、下界值内,则P,不拒绝H0;,T值在上、下界值上或外,则P,拒绝H0。,查附表10,P
6、=0.05 ,在=0.05水平上, 拒绝H0,可以认为两种剂量的损伤结果有差别。,如果n50,T分布近似正态分布,可按下式作正态近似检验:,正态近似法:,如果有相同秩次,应用下面的校正公式:,二、单样本资料的Wilcoxon符号秩和检验,例102 已知某地正常儿童血铅含量的中位数为50g/L。今在该地一印刷厂附近的居民区随机抽取20名儿童,测得血铅含量(g/L),结果见表102。问印刷厂附近居民区儿童血铅是否高于当地正常儿童?,表102 20名儿童血铅含量(g/L)测定结果,H0:Md=0,该印刷厂附近居民区儿童血铅等于当地正常儿童血铅含量 H1:即Md0, 该印刷厂附近居民区儿童血铅高于当地
7、正常儿童血铅含量,(一)建立检验假设,确定检验水准,(二)计算检验统计量T 值,1.求差值d,2.编秩次,3.求秩和并确定统计量T,表10-2 20名儿童血铅含量(g/L)测定结果,(三)确定P 值,做出统计推断,本例n19,T20,查附表10 (配对比较的符号秩和检验用)T界值表,得单侧=0.05界值范围53137,故P0.05,按单侧检验水准0.05,拒绝H0,接受H1,故可以认为印刷厂附近居民区儿童血铅高于当地正常儿童。,表10-3 两组小鼠发癌后生存日数,例103 某实验室观察局部温热治疗小鼠移植性肿瘤的疗效,以生存日数作为观察指标,实验结果见表103,已知两组资料不呈正态分布,试检验
8、两组小鼠生存日数有无差别?,第二节 两样本比较的秩和检验,、数值变量资料的比较,(一)建立假设,设立检验水准,H0:两组小鼠生存日数总体分布位置相同 H1:两组小鼠生存日数总体分布位置不同,Wilcoxon 秩和检验的基本思想,H0 :两组小鼠生存日数总体分布位置相同成立,两组生存天数值来自位置相同的总体,将两组生存天数值混合后,编秩,如果n1=n2, 理论上T1=T2=N(N+1)/4; 如果n1n2,T1=n1(N+1)/2, T2=n2(N+1)/2,实际上取样本例数n较小组的秩和作 为检验统计量T。,T过大或过小,则拒绝H0,(二)计算检验统计量T 值,表10-3 两组小鼠发癌后生存日
9、数,(三)确定P 值,做出统计推断,1.查表法,当,本例:n1=10, T1=170, 查界值为84-146,170不在此范围内,在=0.05水准上拒绝H0。,若统计量T值在某T界值范围内,P值 ; 若T值恰好等于界值,P值= ; 若T值在界值范围外,P值 。,ti第i个相同秩次的个数,当相同秩次较多时,应采用校正公式:,2.正态近似法,二、等级资料的两样本比较,例104 某社区卫生服务工作者为了考察糖尿病患者家庭功能对血糖控制效果的影响,在上海市某社区随机调查了已确诊的糖尿病患者100名,调查了家庭情况,将家庭功能分为障碍和良好两类,测得空腹血糖,按血糖值将血糖控制效果定义为:空腹血糖8mm
10、ol/L为控制良好;8mmol/L且10mmol/L为控制较差;10mmol/L为控制很差。家庭功能和血糖控制情况见表104,问家庭功能良好的糖尿病患者的血糖控制情况是否优于家庭功能障碍?,表104 100名糖尿病患者的家庭功能与血糖控制情况,H0:家庭功能良好和家庭功能障碍的糖尿病患者的血糖控制情况无差别H1:家庭功能良好的糖尿病患者的血糖控制情况优于家庭功能障碍的糖尿病患者单侧 0.05,(一)建立检验假设,确定检验水准,表104 100名糖尿病患者的家庭功能与血糖控制情况,(二)计算检验统计量T 值,本例n1=38,n2=62,以n1=38这组的T为检验统计量,T2559。由于n1=38
11、,超出附表11的范围,故需用z 检验。每个等级的人数表示相同秩次的个数,即tj。由于相同秩次过多,故需用校正公式计算Zc值。,(三)确定P 值,做出统计推断,Z=4.851.645,P0.05, 拒绝H0,家庭功能良好的糖尿病患者的血糖控制情况优于家庭功能障碍的糖尿病患者,第三节 多样本比较的秩和检验,一、数值变量资料多样本比较,例105 为研究精氨酸对小鼠截肢后淋巴细胞转化功能的影响,将21只小鼠分成3组:A组为对照组,B组为截肢组,C组为截肢加精氨酸治疗组。观察脾淋巴细胞对肝素酶(HPA)刺激的增值反应,测量指标是3H吸收量(cpm),数据如表105所示,试分析各组测量值是否不同。(经检验
12、这三组来自的总体的方差不齐),表105 脾淋巴细胞对HPA刺激的增值反应(测量指标3H吸收量cpm),kruskal-wallis秩和检验,(一)建立检验假设,确定检验水准,H0 :三总体分布位置相同 H1 :三总体分布位置不全相同,0.05,(二)计算检验统计量H 值,表105 脾淋巴细胞对HPA刺激的增值反应(测量指标3H吸收量cpm),其基本思想与方差分析相似:,秩次的总离均差平方和:,秩次的组间离均差平方和:,(三)确定P 值,做出统计推断,1.查表法,当样本组数g=3和每一样本组例数ni5时,查H界值表,2.2分布近似法,若g=3且最小样本的例数大于5或g3时,则H或Hc近似服从=g
13、-1的2分布,查2界值表得到P值,本例ni75,故查2界值表,20.05,25.99,H9.84820.05,25.99,所以,P0.05,按0.05水准拒绝H0,接受H1,故可以认为三组3H吸收量不同或不完全相同。,二、多组等级资料的秩和检验,例106 苏州大学心脑血管病流行病学课题组于20022003年对内蒙古通辽市两个乡共32个村的居民进行高血压流行病学调查,按血压水平将人群分为正常血压组、高血压前期组和高血压组,将居民每日饮酒量分为四个等级:不饮酒、少量饮酒、中度饮酒和大量饮酒。试分析正常血压组、高血压前期组和高血压组的饮酒量是否有差别。,表106 2560名蒙古族居民按血压水平分组的
14、饮酒量的比,(一)建立检验假设,确定检验水准,H0: 三组不同血压水平人群的饮酒量的总体分布相同H1: 三组不同血压水平人群的饮酒量的总体分布不同或不全相,(二)计算检验统计量H 值,0.05,1-(17233-1723)+(713-71)+(1613-161)+(6053-605)/(25603-2560) 0.6816,(三)确定P 值和作出推断结论 本例ni均非常大,组数k3,故查2界值表,20.05,25.99,Hc105.895620.05,25.99, 所以,P0.05,按0.05水准拒绝H0,接受H1,故可以认为三组不同血压水平人群的饮酒量的总体分布不同或不完全相同。,第四节 随
15、机区组设计的秩和检验,多组随机区组设计的数值变量资料,当满足正态性和方差齐性,选用随机区组设计的方差分析(两因素方差分析);若上述条件不满足,应采用Friedman秩和检验。该检验方法是由M.Friedman在符号检验的基础上提出来的,常称为Friedman检验,或M检验,目的是推断各样本来自的总体分布是否相同。,例107 某大学用学生的综合评分来评价课程的教学效果,现随机抽10名医学生对现学的三门医学基础课程的教学效果进行评价,见表107,试比较这三门医学基础课程的教学效果是否相同。,表107 10名医学生对三门医学基础课程的教学效果的综合评分比较,(1)建立检验假设H0:三门医学基础课程的
16、教学效果的综合评分的总体分布相同H1:三门医学基础课程的教学效果的综合评分的总体分布不同或不全相同0.05,Friedman秩和检验的基本思想是:各区组内的观察值按从小到大的顺序进行编秩;如果各处理的效应相同,各区组内秩1、2、k( k为处理组数)应以相等的概率出现在各处理组(列)中,各处理组的秩和应该大致相等,不太可能出现较大差别。如果按上述方法所得各处理组样本秩和R1、 R2、 Rk相差很大,便有理由怀疑各处理组的总体分布是否相同。,(2)编秩,表107 10名医学生对三门医学基础课程的教学效果的综合评分比较,(3)计算统计量M值,k为处理组数,(4)确定P值和得出推断结论,查表法 当b1
17、5,k15时,应用查表法,查本书附录中的附表 M界值表。 本例区组数b10,处理组数k3,查附表得M0.0562;M7862,P0.05;按0.05水准拒绝H0,接受H1,故可以认为这三门医学基础课程的教学效果有差别。,2分布近似法 当处理数k或区组数b超出M界值表的范围时,可以采用近似2分布法。,现以例107说明其计算步骤,b10,k3,R115,R218,R327。,以3-12查2界值表 ,按0.05水准,拒绝H0,接受H1,故可以认为这三门医学基础课程的教学效果有差别。,第五节 多个样本间两两比较的秩和检验,一、完全随机设计多个样本间的两两比较,1 . Bonferroni法(调整检验水
18、准的检验方法),(1)多组间的两两比较,(2) 实验组与同一对照组的比较,2、Nemenyi法,各样本例数相等时 求秩和差值D作为检验统计量,以样本例数n和组数k,查附表14,D界值表,确定P值。,D=Ri-Rj 各组秩和 A组119 B组54 C组58 A组119 65* 61* B组 54 65 4 C组 58 61 4 * P0.05,各样本例数不相等时 求秩和差值D作为检验统计量,计算界值,确定P值。,式中C为相同秩次校正数,,tj为第j个相同秩次的个数,二、随机区组设计多样本两两比较的秩和检验,对例106的资料作三门医学基础课程的教学效果进行两两比较。H0:任两门课程的教学效果分布的
19、位置相同。H1:任两门课程的教学效果分布的位置不同0.05,设g个相关样本,当区组个数n较多时,按下式求第i个样本和第j个样本比较的q值。,q的自由度(n-1)(g-1),样本间跨度a指把g个样本秩和从小到大排列后Ri和Rj之间涵盖的秩和个数(包括Ri和Rj自身在内),本例根据表10-8有:n10,g3,,,,(n-1)(g-1)=18,表1010 例107三门医学基础课程的教学效果两两比较的秩和检验,小 结,表10-7 秩和检验方法要点及注意事项,data li10_1; input x1 x2; d=x1-x2; cards; 39 55 42 47 51 53 43 41 55 54 4
20、5 63 22 42 48 46 40 43 45 49 40 37 49 52 ; proc univariate normal; var d; run;,data li7_11; do c=1 to 2; input n; do i=1 to n; input x; output; end; end; cards; 10 10 12 15 15 16 17 18 20 23 90 12 2 3 4 5 6 7 8 9 10 11 12 13 ; proc univariate normal; class c; var x; proc npar1way wilcoxon; class c;
21、var x; run;,data li10_4; input group x f; cards; 1 1 6 1 2 12 1 3 20 2 1 30 2 2 28 2 3 4 ; proc npar1way wilcoxon; class group; var x; freq f; run; proc freq; weight f; tables group*x/cmh2 scores=rank; run;,data li10_5; do g=1 to 3;do i=1 to 7; input x; output; end;end; cards; 3012 9458 8419 9580 13
22、590 12787 6600 2532 4682 2025 2268 2775 2884 1717 8138 2073 1867 885 6490 9003 690 ; proc univariate normal;class g; var x; run;,proc npar1way wilcoxon; class g; var x; run; proc rank out=ranks; var x; ranks y; run; proc anova data=ranks; class g; model y=g; means g/snk; run;,data li10_6; do x=1 to
23、4; do g=1 to 3; input f; output; end; end; cards; 501 683 539 17 33 21 28 60 73 79 209 317 ; proc npar1way wilcoxon; class g; var x; freq f; run;,data li10_7; do k=1 to 3; do b=1 to 10; input x; output; end; end; cards; 4.0 2.5 4.0 3.5 3.5 2.5 4.0 3.5 3.0 2.5 4.0 4.0 3.5 4.0 3.0 3.5 3.5 3.5 4.0 3.0 5.0 4.0 4.5 5.0 4.0 3.5 3.5 4.5 4.0 4.0 ;,proc freq; tables b*k*x/scores=rank cmh2; run; proc rank out=ranks; var x; ranks y; run; proc anova data=ranks; class k b; model y=k b; means k/snk; run;,