第七章+卡方检验.ppt-道客多多

资源描述

1、105,1,检验 Chi-SquareTest,第七章,105,2,Content,test of fourfold data test of paired fourfold data Fisher probabilities in fourfold data test of RC table Multiple comparison of sample ratestest of goodness of fit,105,3,目的：推断两个总体率或构成比之间有无差别多个总体率或构成比之间有无差别多个样本率的多重比较两个分类变量之间有无关联性频数分布拟合优度的检验。检验统计量：应用：计数资料,105

2、,5,第一节四格表资料的检验,105,6,目的：推断两个总体率（构成比）是否有差别（和u检验等价）要求：两样本的两分类个体数排列成四格表资料,105,7,（1）分布是一种连续型分布：按分布的密度函数可给出自由度=1，2，3，的一簇分布曲线（图7-1）。（2）分布的一个基本性质是可加性：如果两个独立的随机变量X1和X2分别服从自由度1和2的分布，即，那么它们的和（ X1+X2 ）服从自由度（ 1+2 ）的分布，即。,一、检验的基本思想1 分布,105,8,105,9,2 检验的基本思想,例7-1 某院欲比较异梨醇口服液（试验组）和氢氯噻嗪+地塞米松（对照组）降低颅内压的疗

3、效。将200例颅内压增高症患者随机分为两组，结果见表7-1。问两组降低颅内压的总体有效率有无差别？,105,10,表7-1 两组降低颅内压有效率的比较,105,11,本例资料经整理成图7-2形式，即有两个处理组，每个处理组的例数由发生数和未发生数两部分组成。表内有四个基本数据，其余数据均由此四个数据推算出来的，故称四格表资料。,105,12,图7-2 四格表资料的基本形式,105,13,基本思想：可通过检验的基本公式来理解。,式中，A为实际频数（actual frequency），T为理论频数（theoretical frequency）。,105,14,理论频数由下式求得：,式中，TRC

4、为第R 行C 列的理论频数nR 为相应的行合计nC 为相应的列合计,105,15,理论频数是根据检验假设，且用合并率来估计而定的。如上例，无效假设是试验组与对照组降低颅内压的总体有效率相等，均等于合计的有效率87%。那么理论上，试验组的104例颅内压增高症患者中有效者应为104(174/200)=90.48，无效者为104(26/200)=13.52；同理，对照组的96例颅内压增高症患者中有效者应为96(174/200)=83.52，无效者为96(26/200)=12.48。,105,16,检验统计量值反映了实际频数与理论频数的吻合程度。若检验假设H0:1=2成立，四个格子的实际频

5、数A 与理论频数T 相差不应该很大，即统计量不应该很大。如果值很大，即相对应的P 值很小，若，则反过来推断A与T相差太大，超出了抽样误差允许的范围，从而怀疑H0的正确性，继而拒绝H0，接受其对立假设H1，即12 。,105,17,由公式（7-1）还可以看出：值的大小还取决于个数的多少（严格地说是自由度的大小）。由于各皆是正值，故自由度愈大，值也会愈大；所以只有考虑了自由度的影响，值才能正确地反映实际频数A和理论频数T 的吻合程度。检验的自由度取决于可以自由取值的格子数目，而不是样本含量n。四格表资料只有两行两列，=1，即在周边合计数固定的情况下，4个基本数据当中只有一个可以自由

6、取值。,105,18,（1）建立检验假设，确定检验水平。 H0:1=2 即试验组与对照组降低颅内压的总体有效率相等 H1:12 即试验组与对照组降低颅内压的总体有效率不相等=0.05。,3. 假设检验步骤,105,19,（2）求检验统计量值,105,20,105,21,二、四格表资料检验的专用公式,105,22,分布是一连续型分布，而四格表资料属离散型分布，由此计算得的统计量的抽样分布亦呈离散性质。为改善统计量分布的连续性，则需行连续性校正。,105,23,三、四格表资料检验的校正公式,105,24,四格表资料检验公式选择条件：,，专用公式；，校正公式；，直接计算概率。,连续性校正仅

7、用于的四格表资料，当时，一般不作校正。,105,25,例7-2 某医师欲比较胞磷胆碱与神经节苷酯治疗脑血管疾病的疗效，将78例脑血管疾病患者随机分为两组，结果见表7-2。问两种药物治疗脑血管疾病的有效率是否相等？,105,26,表7-2 两种药物治疗脑血管疾病有效率的比较,105,27,本例，故用四格表资料检验的校正公式,，查界值表得。按检验水准不拒绝，尚不能认为两种药物治疗脑血管疾病的有效率不等。,105,28,本资料若不校正时，结论与之相反。,105,29,第二节,配对四格表资料的检验,105,30,与计量资料推断两总体均数是否有差别有成组设计和配对设计一样，计数资料推断两

8、个总体率（构成比）是否有差别也有成组设计和配对设计，即四格表资料和配对四格表资料。,105,31,例7-3 某实验室分别用乳胶凝集法和免疫荧光法对58名可疑系统红斑狼疮患者血清中抗核抗体进行测定，结果见表7-3。问两种方法的检测结果有无差别？,105,32,表7-3 两种方法的检测结果,105,33,上述配对设计实验中，就每个对子而言，两种处理的结果不外乎有四种可能:,两种检测方法皆为阳性数(a)；两种检测方法皆为阴性数(d)；免疫荧光法为阳性，乳胶凝集法为阴性数(b)；乳胶凝集法为阳性，免疫荧光法为阴性数(c)。,105,34,其中，a, d 为两法观察结果一致的两种情况， b, c为

9、两法观察结果不一致的两种情况。,检验统计量为,105,35,注意：,本法一般用于样本含量不太大的资料。因为它仅考虑了两法结果不一致的两种情况(b, c)，而未考虑样本含量n和两法结果一致的两种情况(a, d)。所以，当n很大且a与d的数值很大（即两法的一致率较高），b与c的数值相对较小时，即便是检验结果有统计学意义，其实际意义往往也不大。,105,36,检验步骤：,105,37,第三节,四格表资料的Fisher确切概率法,105,38,条件：理论依据：超几何分布（非检验的范畴）,105,39,例7-4 某医师为研究乙肝免疫球蛋白预防胎儿宫内感染HBV的效果，将33例HBsAg阳性孕妇随机分

10、为预防注射组和非预防组，结果见表7-4。问两组新生儿的HBV总体感染率有无差别？,105,40,表7-4 两组新生儿HBV感染率的比较,105,41,一、基本思想,在四格表周边合计数固定不变的条件下，计算表内4个实际频数变动时的各种组合之概率；再按检验假设用单侧或双侧的累计概率，依据所取的检验水准做出推断。,105,42,1各组合概率Pi的计算在四格表周边合计数不变的条件下，表内4个实际频数 a,b,c,d 变动的组合数共有“周边合计中最小数+1”个。如例7-4，表内4个实际频数变动的组合数共有9+1=10个，依次为：,105,43,各组合的概率Pi服从超几何分布，其和为1。,计算公式

11、为,！为阶乘符号,105,44,2累计概率的计算 ( 单、双侧检验不同),105,45,105,46,105,47,二、检验步骤（）,105,48,105,49,表7-5 例7-4的 Fisher确切概率法计算表,105,50,例7-5 某单位研究胆囊腺癌、腺瘤的P53基因表达，对同期手术切除的胆囊腺癌、腺瘤标本各10份，用免疫组化法检测P53基因，资料见表7-6。问胆囊腺癌和胆囊腺瘤的P53基因表达阳性率有无差别？,105,51,表7-6 胆囊腺癌与胆囊腺瘤P53基因表达阳性率的比较,105,52,本例 a+b+c+d=10，由表7-7可看出，四格表内各种组合以i=4和i=5的组合为中心呈

12、对称分布。,表7-7 例7-5的Fisher确切概率法计算表,*为现有样本,105,53,（1）计算现有样本的D*和P*及各组合下四格表的Di。本例D*=50，P*=0.02708978。（2）计算满足Di50条件的各组合下四格表的概率Pi。（3）计算同时满足Di50和PiP*条件的四格表的累计概率。本例为P7和P8，（4）计算双侧累计概率P。P0.05，按=0.05检验水准不拒绝H0，尚不能认为胆囊腺癌与胆囊腺瘤的P53基因表达阳性率不等。,105,54,注意：,105,55,第四节,行列表资料的检验,105,56,行列表资料, 多个样本率比较时，有R行2列，称为R 2表；两个样本的

13、构成比比较时，有2行C列，称2C表；多个样本的构成比比较，以及双向无序分类资料关联性检验时，有行列，称为R C表。,105,57,检验统计量,105,58,一、多个样本率的比较,105,59,例7-6 某医师研究物理疗法、药物治疗和外用膏药三种疗法治疗周围性面神经麻痹的疗效，资料见表7-8。问三种疗法的有效率有无差别？表7-8 三种疗法有效率的比较,105,60,检验步骤：,105,61,二、样本构成比的比较,105,62,例7-7 某医师在研究血管紧张素I转化酶(ACE)基因I/D多态（分3型）与2型糖尿病肾病(DN)的关系时，将249例2型糖尿病患者按有无糖尿病肾病分为两组，资料见表7-

14、9。问两组2型糖尿病患者的ACE基因型总体分布有无差别？,表7-9 DN组与无DN组2型糖尿病患者ACE基因型分布的比较,105,63,检验步骤,105,64,三、双向无序分类资料的关联性检验,表中两个分类变量皆为无序分类变量的行列表资料，又称为双向无序表资料。,105,65,注意: 双向无序分类资料为两个或多个样本，做差别检验（例7-7）；若为单样本，做关联性检验。,105,66,例 7-8 测得某地5801人的ABO血型和MN血型结果如表7-10，问两种血型系统之间是否有关联？,表7-10 某地5801人的血型,（单样本，做关联性检验）,105,67,表7-10资料，可用行列表资料检

15、验来推断两个分类变量之间有无关系（或关联）；若有关系，可计算Pearson列联系数C进一步分析关系的密切程度：,列联系数C取值范围在01之间。0表示完全独立；1表示完全相关；愈接近于0，关系愈不密切；愈接近于1，关系愈密切。,105,68,检验步骤,105,69,由于列联系数C=0.1883，数值较小，故认为两种血型系统间虽然有关联性，但关系不太密切。,105,70,四、行列表资料检验的注意事项,105,71,1行列表中的各格T1，并且1T5的格子数不宜超过1/5格子总数，否则可能产生偏性。处理方法有三种：,增大样本含量以达到增大理论频数的目的，属首选方法，只是有些研究无法增大样本含量，如

16、同一批号试剂已用完等。,105,72,根据专业知识，删去理论频数太小的行或列，或将理论频数太小的行或列与性质相近的邻行或邻列合并。这样做会损失信息及损害样本的随机性。注意：不同年龄组可以合并，但不同血型就不能合并。改用双向无序RC表的Fisher确切概率法（可用SAS软件实现）。,105,73,105,74,105,75,第五节多个样本率间的多重比较,105,76,105,77,分割法,105,78,一、基本思想,因分析目的不同，k个样本率两两比较的次数不同，故重新规定的检验水准的估计方法亦不同。通常有两种情况：,105,79,105,80,105,81,105,82,二、多个实验组间

17、的两两比较,105,83,例7-9 对例7-6中表7-8的资料进行两两比较，以推断是否任两种疗法治疗周围性面神经麻痹的有效率均有差别？,105,84,检验步骤,本例为3个实验组间的两两比较,105,85,表7-12 三种疗法有效率的两两比较,105,86,105,87,三、各实验组与同一个对照组的比较,105,88,例 7-10 以表7-8资料中的药物治疗组为对照组，物理疗法组与外用膏药组为试验组，试分析两试验组与对照组的总体有效率有无差别？,本例为各实验组与同一对照组的比较,105,89,105,90,105,91,第七节,频数分布拟合优度的检验,105,92,医学研究实践中，常需推断某现

18、象频数分布是否符合某一理论分布。如正态性检验就是推断某资料是否符合正态分布的一种检验方法，但只适用于正态分布。Pearson 值能反映实际频数和理论频数的吻合程度，故检验可用于推断频数分布的拟合优度，且应用广泛。如正态分布，二项分布，Poisson分布，负二项分布等。,105,93,例7-12 观察某克山病区克山病患者的空间分布情况，调查者将该地区划分为279个取样单位，统计各取样单位历年累计病例数，资料见表7-15的第(1)、(2)栏，问此资料是否服从Poisson分布？,105,94,表7-15 Poisson分布的拟合与检验,*： X8的概率：,105,95,105,96,105,97,练习题 P156一、最佳选择题全做三、计算分析题第3、5、7、10题,谢谢大家！,

展开阅读全文