1、,计数资料的统计推断,浙江大学流行病与卫生统计学教研室 李秀央 Email: ,率的抽样误差与可信区间,一、率的抽样误差与标准误二、总体率的可信区间,一、 率的抽样误差与标准误,样本率(p)和总体率()的差异称为率的抽样误差(sampling error of rate) ,用率的标准误(standard error of rate)度量。,如果总体率未知,用样本率p估计,标准误的计算,二、 总体率的可信区间,总体率的可信区间 (confidence interval of rate):根据样本率推算总体率可能所在的范围,率的统计学推断,一、样本率与总体率比较u检验二、两个样本率的比较u检验,
2、一、样本率与总体率比较的u检验,u检验的条件:n p 和n(1- p)均大于5时,二、两个独立样本率比较的u检验,表5-1 两种疗法的心血管病病死率比较,u检验的条件: n1p1 和n1(1- p1)与 n2p2 和n2(1- p2)均 5,卡方检验,2检验(Chi-square test)是现代统计学的创始人之一,英国人K . Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法,可用于两个或多个率间的比较,计数资料的关联度分析,拟合优度检验等等。本章仅限于介绍两个和多个率或构成比比较的2检验。,一、卡方检验的基本思想(1),表5-1 两种疗法的心血管病病死率的比
3、较 22表或四格表(fourfold table),实际频数A (actual frequency) ( a、b、c、d)的 理论频数T( theoretical frequency)(H0:1=2=): a的理论频数 (a+b)pc= (a+b)(a+c.)/ n=nRnC/n =21.3 b的理论频数 (a+b)(1-pc)= (a+b)(b+d.)/ n =nRnC/n =182.7 c的理论频数 (c+d)pc= (c+d)(a+c)/ n =nRnC/n =6.7 d的理论频数 (c+d)(1-pc)= (c+d)(b+d.)/ n =nRnC/n =57.3,一、卡方检验的基本思想
4、(2),各种情形下,理论与实际偏离的总和即为卡方值(chi-square value),它服从自由度为的卡方分布。,3.84,7.81,12.59,P0.05的临界值,2分布(chi-square distribution),2检验的基本公式,上述基本公式由Pearson提出,因此软件上常称这种检验为Peareson卡方检验,下面将要介绍的其他卡方检验公式都是在此基础上发展起来的。它不仅适用于四格表资料,也适用于其它的“行列表”。,二、四格表专用公式(1),为了不计算理论频数T, 可由基本公式推导出,直接由各格子的实际频数(a、b、c、d)计算卡方值的公式:,二、四格表专用公式(2),2(1)
5、 u2 2.194924.82(n40,所有T5时),三、连续性校正公式(1),2分布是一连续型分布,而行列表资料属离散型分布,对其进行校正称为连续性校正(correction for continuity),又称Yates校正(Yates correction)。 当n40,而1T5时,用连续性校正公式 当n40或T1时,用Fisher精确检验(Fisher exact test ),校正公式:,三、连续性校正公式(2),因为1T5,且n40时,所以应用连续性校正2检验,四、配对四格表资料的2检验,配对四格表资料的2检验也称McNemar检验(McNemars test),H0:b,c来自同
6、一个实验总体(两种剂量的毒性无差异); H1:b,c来自不同的实验总体(两种剂量的毒性有差别);=0.05。,五、行列(RC)表资料的2检验,RC表的2检验通用公式,几种RC表的检验假设H0,RC表的计算举例,RC表2检验的应用注意事项,1. 对RC表,若较多格子(1/5)的理论频数小于5 或有一个格子的理论频数小于1,则易犯第一类错误。出现某些格子中理论频数过小时怎么办?(1)增大样本含量(最好!)(2)删去该格所在的行或列(丢失信息!)(3)根据专业知识将该格所在行或列与别的行或列合并。(丢失信息!甚至出假象),RC表2检验的应用注意事项,2.多组比较时,若效应有强弱的等级,如+,+,+,最好采用后面的非参数检验方法。2检验只能反映其构成比有无差异,不能比较效应的平均水平。3.行列两种属性皆有序时,可考虑趋势检验或等级相关分析。,