1、1/71,c2检验的用途,第一节 拟和优度检验 第二节 独立样本22列联表资料的c2检验 第三节 行列( RC)表资料的c2检验 第四节 配对设计资料的c2检验,2/71,概念:根据样本的频率分布检验其总体分布是否等于某给定的理论分布或检验一个因素多项分类的实际观察数与某理论频数是否有差别。,公式,理论频数,实际频数,第一节 拟和优度检验,3/71,(1) T5且 n40时,直接计算c2值。,第二节 独立样本22列联表资料的c2检验,4/71,(2)1T5且n 40时,需计算校正值。 (3)T1或n40时,需改用四格表资料的确切概率法。,5/71,第三节 独立样本RC列联表资料的c2检验,行列
2、表资料概述:四格表只有2行(row)、2列(column),是行列表的简单形式,当行和(或)列2时,就叫行列表,又称为RC表。 RC表的c2检验可用于多个率或构成比的比较,其基本思想与四格表c2检验的思想一致。,6/71,式中n是总例数,A是每个格子的实际频数,nR、nC分别为某格子对应的行合计和列合计。,7/71,第四节 配对设计资料的c2检验,配对四格表资料:和计量资料一样,计数资料也可作配对设计,只是计量资料的配对其结果是数值变量,而计数资料的配对其结果是分类变量。对按一定条件配成对的n对研究对象分别使用两种不同的处理方法,或者对n个研究对象在同时或两个时间点上使用两种不同的处理方法所得
3、到的观察数据。,8/71,例8:设有132份食品标本,把每份标本一分为二,分别用两种检验方法作沙门菌检验,检验结果如下表所示,试比较两种检验方法的阳性结果是否有差别? 表9 两种检验方法检验结果比较,(一) 配对22列联表资料的c2检验,9/71,(二) 配对RR列联表的c2检验,例9:对150名冠心病患者用两种方法检查室壁收缩运动的情况,检查结果见下表。试分析两种方法测定结果的概率分布是否相同。 表10 两种方法检查室壁收缩运动情况,10/71,其中k为类别数,ni和mi分别为第i行合计与第i列合计。H0成立时统计量T服从自由度为k-1的c2分布,为McNemar检验的推广,11/71,1.
4、 建立检验假设,确定检验水准 H0:两种方法测定的概率分布相同 H1:两种方法测定的概率分布不同 a=0.05 2. 计算统计量3. 确定P值,做出推断查附表8,得界值为c20.05,2=5.99c2=1.60,P0.05。在a=0.05的检验水准不拒绝H0,所以尚不能认为两种方法测定的频率分布不同。,12/71,第五节 22列联表的确切概率法,例10:将23名精神抑郁症患者随机分到两组,分别用两种药物治疗,结果见下表,问两种药物的疗效有无差别? 表11 两种药物治疗精神抑郁症的效果,13/71,确切概率法的基本思想在四格表周边合计数固定不变的条件下,计算表内4个实际频数变动时的各种组合之概率
5、Pi;再按检验假设用单侧或双侧的累计概率P,依据所取的检验水准a做出推断。各组合的概率服从超几何分布,其和为1。,14/71,一、累计概率P的计算要想拒绝H0,必须使a值更大,c值更小;或者c值更大,a值更小。当前的率差为58.3%-27.3%=31.0%,只要计算率差大于或等于31.0%的所有四格表对应的确切概率之和便是H0不成立时的累积概率。当两组样本量相等,可计算1侧,然后乘2即可;若样本含量不等,则需分别计算。若要单侧的确切概率,根据两个率的关系仅计算其中的一种情况即可。,15/71,表12 Fisher确切概率法计算表,16/71,二、检验步骤本例n=2340,宜用四格表资料的Fis
6、her确切概率法直接计算累计概率。检验步骤为: H0:p1=p2,即两组新生儿HBV的总体感染率相等 H1:p1p2,即两组新生儿HBV的总体感染率不等 a=0.05当前率差为0.3106,计算所有率差0.3106的各组合下四格表的概率Pi。本例中P1、P2、P3、P4、P8、P9、P10和P11满足条件,累计概率为: P=P1+P2+P3+P4+P8+P9+P10+P11=0.21375689,17/71,补充:u检验与2检验的关系,两样本率比较时,如为双侧检验,则u检验和四格表2检验是等价的,即自由度为1的2=u2 ;校正u检验和四格表校正2检验也是等价的,应用条件亦相同。若为单侧检验,则
7、用u检验较为方便。,18/71,两样本率比较的u检验 例11:某医师研究妊娠晚期患病毒性肝炎对早产的影响。发现186例病人中,有80例早产,早产率为43%;144例无肝炎孕妇,早产者36例,早产率为25%。问病毒性肝炎对早产是否有影响?,19/71,两样本率比较u检验的适用条件,(1)两组样本含量n均大于50,20/71,式中X1和n1分别代表较大阳性率p1的阳性数及样本含量,X2和n2分别代表较小阳性率p2的阳性数及样本含量,pc为合并阳性率。,计算公式:,21/71,H0: p1=p2H1: p1p2=0.05本题 n1=186,X1=80, P1=0.43; n2=144,X2=36,
8、P2=0.25Pc=(X1+X2)/(n1+n2)=(80+36)/(186+144)=0.3515,u=3.3972.58,故P0.01,按水准拒绝H0,接受H1。可以认为肝炎孕妇的早产率高于无肝炎者。,两样本率比较u检验的基本步骤,22/71,根据专用公式求c2值U检验结果为3.397,U2=11.54,23/71,练习,24/71,选择题,1. 用正态近似法进行总体率的区间估计时,应满足A. n足够大 B. p或(1-p)不太小C. np或n(1-p)均大于5 D. 以上均要求,25/71,2.由两样本率的差别推断两总体率的差别,若P0.05,则A. 两样本率相差很大 B. 两总体率相差
9、很大 C. 两样本率和两总体率差别有统计意义D. 两总体率相差有统计意义,26/71,3.四格表资料中的实际数与理论数分别用A与T表示,其基本公式与专用公式求的条件为A. A5B. T5 C. A5且T5D. A5 且n40 E. T5 且n40,27/71,4.三个样本率比较得到 ,可认为A.三个总体率不同或不全相同 B.三个总体率都不相同C.三个样本率都不相同 D.三个样本率不同或不全相同E.三个总体率中有两个不同,28/71,计算题用两种方法检查已确诊的乳腺癌患者120名。甲法的检出率为60%,乙法的检出率为50%,甲、乙两法一致的检出率为35%。试将上述资料整理成四格表,并比较两种方法何者为优?,29/71,表6 甲乙两法检查乳腺癌患者结果比较,30/71,案例讨论,某地对区级医院20012002年医疗质量进行总体评价与比较,按分层抽样方法抽取两年内某病患者1250例,患者年龄构成与病情两年间差别没有统计学意义,观察三项指标分别为疗效、住院日、费用。规定很好、好、一般、差的标准见表7-16,病人医疗质量各等级频数分布见表7-17。,31/71,32/71,原检验方法不正确。该例结果变量为疗效、住院日、费用等,属于等级资料,等级资料平均效应的比较不能用卡方检验,因为卡方检验只能说明2001年和2002年的频数分布有无差别,不能说明平均效应有无不同。应该采用秩和检验。,