1、定性资料的假设检验,第 九 章,定性资料的比较:,1.样本率和总体率的比较:直接计算概率法 (二项分布)和z检验,2.两样本率的比较:z检验、卡方检验和确切概率法,3.多个样本率、两组或多组构成比的比较: 卡方检验、确切概率法,分类变量的关联性检验:计算列联系数、一致性检验等,样本率和总体率的比较(补充),一、直接计算概率法,补充例1 根据以往经验,新生儿染色体异常率一般为1,某医院观察了当地400名新生儿,只有l例染色体异常,问该地新生儿染色体异常率是否低于一般?,H0:=0.01 H1:0.05,按=0.05水准尚不能拒绝H0,尚不能认为该地新生儿染色体异常率低于一般。,二、正态近似法,当
2、n较大,总体率 既不接近0也不接近1,n和n (1)均大于5,二 项分布近似正态分布,利用正态分布的原理,计算检验统计量z值作假设检验。,补充例2 已知一般人群中慢性支气管炎患病率为9.7% ,现调查了500名吸烟者,其中有95人患慢性支气管炎,试推断吸烟人群中慢性支气管炎患病率是否比一般人群高?,H0:=0 H1:0单侧=0.05 本例n=500,X=95,p=0.19,0=0.097, 得:,因单z0.05=1.64, zz0.05, p0.05,按=0.05水准, 拒绝H0,接受H1.,完全随机设计两个样本率 比较的z检验,条件:当n较大,n11、n1(1-1) 、n22、n2(1-2)
3、均大于等于5时,当n较小时,则可以利用校正的z检验:,例1 某市在2008年6月实施了第四次国家卫生服务抽样调查,以近两周患病情况作为调查指标。分别在城区和农村进行了抽样调查,其中城区调查了680人,有95人近两周患病,农村调查了660人,有148人近两周患病,问两组人群的两周患病率是否相同?,H0:1=2 H1:12=0.05 X1=95,n1=680,X2=148, n2=660 p1=95/680=0.1397,p2=148/660=0.2242,因为z0.05/2=1.96,zz0.05/2,P0.05,所以拒绝H0。,第一节 完全随机设计两样本率比较的2检验,z 检 验,2 检 验,
4、两个率(或两类构成)是否相等,两个或多个两类构成(或率)或 两个或多个多类构成总体的构成比(或率)或行变量和列变量是否独立,将例1的资料整理成表格如下:,表91某市2008年城乡居民的两周患病率,2检验的基本思想,一、四格表资料的2检验,理论频数TRC的计算公式为:TRCnRnC/n,基本步骤,H0:该市城乡居民的两周总体患病率相同,即12,H1:该市城乡居民的两周总体患病率不同,即12,1、建立假设,2、实际频数与理论频数的差值服从2分布,计算2值的基本公式:,(R1)(C1),查附表9可知,自由度=1时,20.05,1=3.84,20.001,1=10.83,本例值16.1210.83,
5、因此P0.001。按照=0.05的检验水准,拒绝H0假设,接受H1假设。即该市城乡居民的总体两周患病率不同。根据现有资料看出,农村的患病率高于城区。,3、查表,判断结果,下结论。,二、四格表的专用公式,对于四格表资料,通过推导可将式94转换 成四格表的专用公式:,表92 某市2008年城乡居民的两周患病率,分类资料为间断的,不连续分布。故计算的2值不连续,尤其是自由度为1的四格表,求出的概率可能偏小,因此需进行连续性校正:,三、四格表资料校正,1.2值的校正,x1、x2xkN,2.四格表2检验的条件,(1) 当n40,且每个格子的理论频数T5 时,可用基本公式:,注:对于两个率的比较,2检验和
6、z检验是等价的,2z2。,(3)T1或n40时,需用确切概率法。,(2)当总合计数n40,而有1T5 时,用校正公式或确切概率法。校正公式:,例2 某医生观察冠心软胶囊治疗冠心病心绞痛的临床疗效。用冠心软胶囊(治疗组)与复方丹参片(对照组)作对比治疗,以临床症状及心电图疗效等为观察指标。所有冠心病心绞痛患者均为门诊患者,均符合世界卫生组织(WHO)制定的缺血性心脏病的命名及诊断标准,将患者随机分为两组,其中患者性别、年龄、病情、病程等在两组间是均衡的。两组病人临床症状改善效果见下表,试比较两种药物治疗冠心病心绞痛的总体有效率有无差别?,表93 两组治疗心绞痛疗效比较,1.建立检验假设 H0:1
7、=2 H1:12 =0.05,=1,2.计算检验统计量 因本例n40且有一个格子的1T5,需要用校正公式。,3.得出P值,作出统计推断 本例23.84,P0.05,拒绝H0,可以认为冠心软胶囊治疗的冠心病心绞痛的临床疗效比复方丹参片好。,配对四格表资料示意,第二节 配对四格表资料,例3 疑似肺结核患者的痰液标本120例镜检后分别接种于变色培养基和罗氏培养基进行培养,观察结核杆菌的生长情况,结果为变色培养基阳性率为70%,罗氏培养基阳性率为60%,共同阳性率为45%。试比较两种培养基的效果有无差别?,表9-4 两种培养基的培养结果,1.建立检验假设 H0:两种培养基的阳性率相同 ,即总体B=C
8、H1:两种培养基的阳性率不同 ,即总体BC=0.05 2.计算检验统计量 在H0条件下,b、c的理论频数 ,代入公式有,当b+c40时,当b+c40时,本例b+c40,代入上式得2=3.00,查界值表得: 20.05,1 =3.84, 2=3.00 0.05,不拒绝H0假设,尚不能认为两种方法检出细菌的阳性率不同。,3.得出P值和结论,第三节 完全随机设计的行列表2检验 (多组率或构成比比较),基本公式:,专用公式:,如有R行C列的构成比资料,称为RC表。将行数或列数大于2的频数分布表统称行列表。,一、多组率的比较,例4 某研究者把具有典型症状并经胃镜证实的良性活动性胃溃疡患者280例随机分为
9、三组,分别给予奥美拉唑、雷尼替丁和硫糖铝片进行治疗6周,疗程结束时复查胃镜, 溃疡面消失者为愈合, 试分析三种药物的总体溃疡愈合率是否有差别?(假设三组研究对象的年龄、性别与病程均衡),表95 三种药物治疗胃溃疡的疗效,1.建立检验假设 H0:三种药物治疗胃溃疡的愈合率相等 H1:三种药物治疗胃溃疡的愈合率不等或不全相等 =0.05,2.计算理论值和检验统计量,=(3-1)(2-1)=2,3.确定P值,作出统计推断 查2界值表,得P0.05,拒绝H0,可以认为三种药物有效率不等或不全相等。,二、两组或多个构成比比较,例5 某研究人员收集了亚洲、欧洲和北美洲人的A、B、AB、O血型资料,结果见表
10、96所示,其目的是研究不同地区的人群血型分类构成比是否一样。,表96 三个不同地区人群血型的频数分布,1.建立检验假设 H0:不同地区人群血型构成分布相同 H1:不同地区人群血型构成分布不同或不全相同 =0.05,2.计算检验统计量,3.确定P值,作出统计推断,,P0.05,按=0.05水准拒绝H0,接受H1,三、单向有序资料,分组变量无序,结果变量为有序的资料称单向有序资料。,在比较各处理组的效应有无差别时,可用CMH(Cochran-Mantel-Hanenszel)方法计算行平均分检验统计量进行分析,也可以进行秩和检验,Ridit分析等。,补充例子 某医生用三种药物治疗某种疾病,结果分四
11、个等级,结果见下表,问三种药物的总体疗效有无差别?,表 三种药物疗效比较结果,四、多个率的多重比较,1.校正检验水准 如果所要比较的有k个组,则任意两组做检验的次数为C=K(K-1)/2。原来假设检验水准为,两两比较的水准为=/C。如果此时例数较少不宜用检验,则应计算确切概率 。,例9-4的资料进行两两比较的结果(两两比较的具体P值使用统计软件计算得到)见表9-7。,表9-7三种药物治疗胃溃疡的疗效之间的两两比,注:表中“*”表示差别有统计学意义,“”表示差别无统计学意义,2.Scheff可信区间法,pA、pB分别是两个比较组的样本率,nA、nB为两比较组的样本含量,K为组数,为总卡方值。如果
12、此可信区间包含0,则可以认为pA、pB无差别,反之,有差别 。,注意事项,适用条件:不能有1,或15的格子数不超过总格子数的1/5。,条件不满足时,没有相应的校正公式,,确切概率法,处理方法:,第四节 确切概率法,有理论频数T1或总例数n40,或者2检验所得到的P值接近检验水准时,则应采用直接计算概率法(exact probability)进行检验。,确切概率法的基本思想是:在周边合计数不变的条件下,表中的实际频数有多种组合,利用公式计算各种组合的概率,然后计算单侧或双侧概率,与检验水准做比较,作出统计推断。,例9-6 某医师为研究乙肝免疫球蛋白预防胎儿宫内感染HBV的效果,将33例HBsAg
13、阳性孕妇随机分为预防注射组和非预防组,结果见表9-8。问两组新生儿的HBV总体感染率有无差别?,表9-8 两组新生儿HBV感染率的比较,1.建立检验假设H0:两组新生儿的HBV总体感染率相同 H1:两组新生儿的HBV总体感染率不同 双侧=0.05 2.计算P值当周边合计固定时,在H0假设条件下出现样本格子数的概率:,表99 周边合计固定的各种四格表组合,双侧检验:将现有样本概率记为Pr,则所有概率小于等于Pr的四格表的概率和即为确切概率法的结果。 P=P1+P2+P3+P4+P5+P100.121 按=0.05的检验水准尚不能拒绝H0,不能认为两组新生儿的HBV总体感染率不同。,单侧检验:则将
14、相应方向上所有概率小于等于Pr的四格表的概率相加即可,如果12 ,将Pr上方所有概率小于等于Pr的四格表的概率相加。,第五节 定性资料的关联性分析,一、四格表资料的相关分析,表9-10 两种培养基的培养结果,试分析两种培养基的培养结果有无联系?,(一)rn的计算及假设检验,假设检验: H0:两种方法培养结核杆菌的结果无关 H1:两种方法培养结核杆菌的结果有关=0.05,P0.05。按=0.05的水准,尚不能拒绝H0,因此不能认为两种方法培养结核杆菌的结果有关,KAPPA值计算公式,pa为观察一致率,公式:,pe为期望一致率,公式:,其中k为等级数,Aii为表格中从左上角到右下角的对角线上的实际
15、数,ni+和n+i分别是第i行和第i列的合计,N为总合计。,(二)Kappa值的统计推断,1.Kappa标准误:,2.总体Kappa的可信区间:,3.样本Kappa值与总体Kappa值等于0的统计学检验:,H0:总体K=0 两种方法培养结果不存在一致性 H1:总体K0 两种方法培养结果存在一致性=0.05,二、RC列联表资料的关联性分析,例98 某研究者按两种血型系统统计某地6094人的血型分布,结果见下表,问两种血型的分布有无关系?,(一)双向无序列联表,表911 6094人MN血型和ABO血型的分布,1.建立检验假设,确定检验水准,H0:ABO血型和MN血型间无相关关系 H1:ABO血型和
16、MN血型间有相关关系,2.计算检验统计量2值,3.确定P值,做出统计推断,4.计算关联系数,P0.05,(二)双向有序且属性不同的列联表,例99 某医生观察依沙酰胺治疗皮肤真菌感染的临床试验,结果见表912。试分析该病的疗效是否与病程有关?,表912 依沙酰胺治疗皮肤真菌感染疗效,(三)双向有序且属性相同的列联表,例910 某医生回顾收集了20002005年间该院手术治疗的206例子宫内膜癌患者的临床病理资料, 其临床分期和手术病理分期的情况见下表。两种方法的分期结果是否一致?,表913 临床分期和手术病理分期的情况,假设检验分析的步骤: H0:总体K=0,临床分期和手术病理分期结果不一致 H1:总体K0,临床分期和手术病理分期结果一致,=0.05,Z0.05/2=1.96,10.851.96, P0.05,拒绝H0,可以认为子宫内膜癌临床分期和手术病理分期的结果存在一致性。,复习题,1.对表的资料进行卡方检验时,某一格子的实际观察数为零时,该格子的理论数也为零。,2.四格表资料用校正公式作2检验,其条件是_A总例数大于等于40 B有理论频数在1和5之CA、B均不是 DA、B均是,3.四格表资料周边合计数不变时,实际频数如有改变, 理论频数_A. 增大 B. 减少 C. 不变 D. 不能确定,