1、1,秩和检验 ( Rank Sum Test ),2,一、非参数统计的概念,参数统计(parametric statistics) : 在 统计推断中,若样本所来自的总体分布为已知的函数形式(正态/近似正态分布),但其中的参数未知,统计推断的目的就是对这些未知参数进行估计/检验,这类统计推断方法称参数统计。参数统计共同点:1. 总体分布形式已知或假定已知2. 对该总体的参数按一定的假设进行估计或检验,3,非参数统计(nonparametric statistics) : 是指总体分布的函数形式未知或知道得很少,所采用的一种不依赖总体分布的具体形式的统计方法,也称 分布自由统计( distrib
2、ution free test )。非参数统计特点:1. 总体分布未知 2. 不是比较参数,而是比较分布,4,非参数检验方法,1.分布检验:正态性检验 2.单总体检验符号检验、Wilcoxon符号秩检验 3 . 分布比较 :比较两组或多组数据是否来自同一分布。 (1)两总体检验 两独立样本比较Wilcoxon秩和检验(亦称Mann-Whitney u检验),5,中位数检验、Varder Wareden检验、Savage 检验、Fisher精确概率两相关样本比较(相当于配对)符号检验、符号秩检验、 McNemar检验 (2)k个样本检验k个独立样本比较SPSS提供了Kruskal-Wallis检
3、验,还提供 Savage、中位数、Varder Wareden检验。k个相关样本比较SPPS可得friedman 2相关测量:等级相关(在correlation菜单中提到) 4.非参数判别分析,6,二、符和检验 ( sign test ),例 配对比较两种方法治疗扁平足效果记录如下,问哪种方法好? 病例号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16甲 1 1 1 1 3 2 1 1 2 3 1 3 1 2 1 2乙 3 1 3 2 2 3 2 3 2 3 1 3 2 3 2 3 1表示好 2表示中3表示差,7,对每个病例的疗效作差di=xi-yi,用s+、s-
4、表示di中正、负数的个数,n= s+ + s-,如果两法效果一样的话,s+服从B(n, 0.5),取k=min(s+, s-)p=2p(ik|n=11,p=0.5)=2n较大时 p2( ),8,结果中m=(s+ - s-)/2=-4.5 p=p(Pr=|M|)=0.0117两法效果有差别,且甲法优于乙法(因m0) 符号检验简单,但未充分利用数据所提供的信息。,9,10,11,12,威尔柯克逊(wilcoxon)在1945年首先提出了比较两个总体分布函数的秩和检验法。秩和检验计算简便,对总体分布族的假设极为一般,而且在比较两个正态总体的均值时,利用此法代替检验,其统计结论仍是足够可靠的。秩和检验
5、是建立在秩及秩统计量基础上的非参数方法。,三、秩和检验 (rank sum test),13,(一)配对设计差值的符号秩和检验 (Wilcoxon配对法),前面我们介绍了数值变量的配对 t检验,比较配对后的差值,属于参数检验,但当差值d 不满足正态分布时,数值大的大小的小,这时,我们一般不宜采用配对t检验,而用配对符号秩和检验。配对符号秩和检验主要用于配对设计的计量资料不满足参数检验时而被采用。,14,例 1 对10名健康人分别用离子交换法与蒸溜法,测得尿汞值,如表9.1中的(2)、 (3)栏,问两法所得结果有无差别?,卫生统计学第四版,15,1. 方法步骤,建立假设及确定检验水平H0: 两种
6、方法所测得差值的总体中位数Md=0 H1: Md0 =0.05 求差值 编秩按差数的绝对值大小由小到大编秩,再由差值的符号给秩次加符号。编秩时:若差数为0,舍去不计;差数相等,符号相同,仍按顺序编秩;差数相等,符号不同,则取平均秩次。,16,求秩和并确定检验统计量分别求出正秩和 (T+)负秩和 (T-)任取T+ (或T-)作检验统计量T,本例T=18.5 确定p值和作出统计推断n50时,查表 T界值表(注: 差数有0时n相应减小)本例n=9,查表, T界值表,得双侧p=0.10界值是837 而T=18.5在其中, p0.10 不拒绝H0,故不能认为两法测定有差别。,17,n25且相同差值较多时
7、,校正公式,18,19,20,21,T的分布为以中位数为中心对称的非连续分布。当H0成立,从总体随机抽取任一个样本,所得T值在中位数附近的概率最大,而T值远离平均数概率较小,随着n增大,T的分布逐渐逼近正态分布。,2. 本法的基本思想,22,(二)成组设计两样本比较的秩和检验,1适用于两组计量资料,尤其用于不符合t检验条件(方差齐和正态性)的两组计量资料 ,以及两组等级资料(rank data)。,23,例2 某实验室观察局部温热治疗小鼠移植性肿瘤的疗效,以生存日数作为观察指标,结果如下,试检验两组小鼠生存日数有无差别?,卫生统计学第四版,24,(1)建立假设和确定H0: 两组小鼠生存日数总体
8、分布相同 H1: 两组小鼠生存日数总体分布不同 =0.05 (2)编秩,由小到大编秩(两组数据合在一起)。若数据相同,取平均秩次。 (3)求秩和,样本例数不等时以例数较小的T为检验统计量T,本例T=170 (4)确定p值和作出统计推断查表得n1=10 n2-n1=2,T=170已超出表中=0.01的范围76-154,p0.01 拒绝H0,认为。,25,26,27,28,29,30,例3 20名正常人和32名铅作业工人尿棕色素定性检查结果如下,问铅作业工人尿棕色素是否高于正常人?,卫生统计学第四版,31,(1)H0: 两组工人尿棕色素总体分布相同 H1: 铅作业工人尿棕色素高于正常人=0.05
9、单侧 (2)编秩 (3)求秩和,计算检验统计量 T=308 n1=20 u=4.1662 c=0.8599 Uc=4.493 (4)确定p值,Uc2.58 p0.005 (5)作出推断,32,33,34,35,(三)成组设计多个样本比较的秩和检验(Kruskal-Wallis法),又称H检验,适用于等级资料及不宜用参数检验的计量资料的多组比较。,36,计算方法,将几组观察值编秩,各组秩和记Ri三组比较且ni5时,直接查H界值表 ni5时H2(k-1) k是组数,37,1. 方法步骤 例4 测得某中学教室中6个采样点不同时间空气中CO2含量,结果见表9.4第(1)、(3)、(5)栏,问不同时间空
10、气中CO2含量有无差别?,卫生统计学第四版,38,(1)假设: H0: 三个不同时间空气中CO2含量总体分布相同 H1: 三个总体的分布不同或不全相同 =0.05 (2)编秩: (3)求秩和: (4)计算检验统计量H值: H=14.95,39,(5)确定p值作出推断: 若组数k=3,每组例数小于等于5,查表,H界值表 若最小样本的例数大于5,则H分布近似2分布 本例ni 均为6,查2 界值表,H=14.95 查表得p0.005,40,41,42,43,2. H值的校正,例5 比较小白鼠接种三种不同菌型伤寒杆菌9D、11C、DSC1后存活日数,见表9.5,问各接种组存活日数间有无差别?,44,卫
11、生统计学第四版,45,(1)假设: H0: 三个总体分布相同 H1: 三个总体的分布不同或不全相同 =0.05 (2)编秩: (3)求秩和: (4)计算检验统计量H值: H=9.77 C=0.99 Hc=9.87 (5)确定p值作出推断:,46,47,48,49,问题思考?,问题思考 ?,多组间有差异,如何知道两两之间 是否有差异?,50,3. 等级资料的比较,例6 三种病人肺切除术的针麻效果,见表9.6,第(1)-(5)栏,问此三种病人肺切除术的针麻效果有无差别?,51,卫生统计学第四版,52,(1)假设: H0: 三种病人肺切除术针麻效果的总体分布相同 H1: 三个总体的分布不同或不全相同
12、 =0.05 (2)编秩: (3)求秩和: (4)计算检验统计量H值: H=5.7731 C=0.8979 Hc=6.43 (5)确定p值作出推断:,53,54,55,56,(四)随机区组设计资料的秩和检验,M检验(Friedman法)法计算步骤:1.将每个区组的数据由小到大分别编秩2.计算各处理组的秩和Ri3.求平均秩:R=1/2b(k+1)4.计算各处理组的( Ri-R)5.求M M=6.查M界值表,57,例6 受试者5人,每人穿5种防护服,测 得脉搏数(次/分)结果见下表,问5受 试者穿5种防护服测得脉搏数有无差别?,58,卫生统计学第四版,59,60,61,62,例7 现有6条狗服用阿司匹林后不同 时间(小时)血中药浓度数据(r/ml) 如下表,问服药后不同时间血中药物 浓度有无差别?,63,卫生统计学第四版,64,65,66,67,问题思考?,问题思考 ?,区组设计,多组间有差异,如何 知道两两之间是否有差异?,68,非参数检验适用范围, 等级顺序资料 半定量资料 偏态分布资料 未知分布型资料 要比较的各组资料变异度较大,方差不齐,且变换不能达到齐性 初步分析,69,非参数检验的优、缺点,优点:应用范围广泛收集资料方便 计算方法简便、易掌握 缺点:若对符合参数检验条件的资料用非参数检验,则检验效率低于参数检验,第二类错误的概率增大。,