1、二项分布,二项分布的概念,二项分布是一种重要的离散型分布,也称为伯努利分布,是用来描述二分类变量得两种观察结果的出现规律的一种离散型分布。常用于总体率的估计和两样本率的比较等。,二项分布的概率,设总体中的每一观察单位具有相互对立的一种结果,如有效或无效、阴性或阳性。 已知发生某一结果(如阳性)的概率为,此概率对于每一个个体是相同的;其对立结果(阴性)发生的概率为1-,各单位的观察结果相互独立,则从该总体中随机抽取n例,其中恰有X例是某一结果(阳性)的概率为:X=0,1,2,n,二项分布的应用条件,每次试验只会发生相互对立的两种结果之一,如阳性或阴性,生存或死亡;每次试验产生某种结果的概率固定不
2、变,已知发生某一结果(如阳性的概率为,其对立结果的概率则为1-;重复试验是相互独立的,即每次试验的观察结果不会影响到其它试验的结果,也不会受其它试验的结果的影响。,二项分布的均数与标准差,若XB(n,),则X的总体均数 =nX的总体方差 2=n(1-)X的总体标准差 若以率表示 样本率p的总体均数 p= 样本率p的总体标准差 当总体率未知时,以样本率p作为的估计值,则p的估计用,二项分布的图形,当 0.5时,分布是对称的;当0.5 时,分布是偏的,特别是1% 或99% 时分布非常偏, 但n增大时又趋于对称,当n时,只要不太靠近0或1,则近似正态分布。一般来说当n足够大,n和n(1-)均不小于5
3、时,常用正态分布原理来处理二项分布的问题。,二项分布的图形,二项分布的图形,二项分布的应用,总体率的区间估计 样本率与总体率的比较两个样本率的比较,总体率的区间估计,正态近似法:当n较大,且np和n(1-p)均大于5时,可利用样本率p的分布近似正态分布的原理估计总体率的1-可信区间。 (P - uSp , P + u Sp) 查表法: n 50,样本率和总体率的比较,正态近似法:当n较大,且np和n(1-p)均大于5时,可利用样本率的分布近似正态分布的原理。直接概率法:,两样本率的比较,正态近似法:当n1、n2较大,且n1 p1、n1(1-p1)、 n2 p2、n2(1-p2)均大于5时,可利
4、用样本率的分布近似正态分布的原理。例:为研究某职业人群颈椎病患病率的性别差异,随机抽查了该职业人群男性120人和女性110人,检查出男性中有36人患有颈椎病,女性中有22人患有颈椎病, 试比较不同性别的颈椎病患病率的差异。,2检验 (chi-square test),2 检验,2检验是一种用途非常广泛的以2分布为理论依据的假设检验方法,主要用于: 两个或多个总体率或构成比的比较; 两个分类变量之间的关联分析; 频数分布资料的拟和优度检验等。,2 检验的基本思想,实际频数和理论频数差异的大小可以用2值的大小来说明,当样本量n和各个按检验假设计算的理论频数T都足够大时,比如n40,T5, 值近似于
5、2分布,n越大,近似程度越好。2值的计算公式如下:式中A代表实际频数,T代表理论频数。 =(R-1)(C-1),2 检验的基本思想,2检验实际上是将率或构成比的比较演绎为实际频数与理论频数的比较,2值反映了实际频数和理论频数吻合的程度。如果H0成立,则实际频数与理论频数之差一般不会很大,则2值也会小,当2,则尚无理由拒绝它。反之,若H0不成立,实际频数与理论频数的差值会大,则2值也会大,若22界值,P,则可以认为实际频数与理论频数的差别已超出了抽样误差允许的范围,有理由怀疑H0的正确性,因而拒绝它。,2 检验的自由度,2值的大小,除决定于A与T的差值外,还取决于格子数(自由度)的多少。2检验的
6、自由度是指在周边合计固定不变的条件下,表内全部格子数据中可以自由取值的格子数。=(R-1)(C-1)四格表只有两行两列,故其自由度为1。,四格表资料2 检验的专用公式,四格表2检验的校正公式,2界值表是根据连续性的2分布计算出来的,但原始数据是分类资料,不是连续的,由此计算的2 值也是不连续的,它仅仅是连续性的2分布的一种近似。n40&T 5时,这种近似效果较好。但在样本例数较少或出现理论频数小于5时,算出的2值可能偏大,既求出的概率P值可能偏小,此时须根据具体情况作不同的处理。,四格表资料的2 检验,当n40,且T5 时,不需要进行校正。当 n40, 但有1T5时,需对进行连续性校正。当n4
7、0,或T1时,应采用四格表精确概率法。,RC表资料的2检验,RC表资料的2检验可进行多个率及多组构成比之间的比较、两个分类变量的关系分析。 四格表是RC表中最简单的一种, 2检验的基本思想一致。 RC表资料的2检验的计算公式:=(R-1)(C-1),RC表资料的2检验的注意事项,RC表资料2检验中,如假设检验的结果拒绝H0,只能认为各总体率或总体构成比不全相等,但不能说明它们彼此之间都有差别,要解决这个问题必须通过2分割进行率或构成比的多重比较。 对行列表资料进行检验时,一般认为不能有1/5以上的格子的理论频数小于5,也不能有任何一个格子的理论频数小于1,否则很容易导致分析结果出现偏性。如果出
8、现这种情况,可采取以下解决方法: 增大样本量: 采用精确概率法 合理合并 舍弃部分数据,配对设计资料的2检验,配对设计的计数资料特点:对同一样本的每一对象分别用两种方法处理,观察其阳性或阴性结果,调查或实验设计数据等。配对设计的计数资料常用于:比较两种处理方法的阳性率的差别等。检验两种方法的结果的相关性。,配对设计资料的一般形式,变量1的阳性率P1=(a+b)/n 变量2的阳性率P2 =(a+c)/n P1 - P2 =(a+b)/n-(a+ c)/n=(b-c)/n 两个变量阳性率的比较只和b、c有关,而与a、d无关,配对设计资料的2检验,两种处理方法的阳性率比较 当b+c40时 =1当b+c40时,其理论分布具有偏性,故须计算校正值。=1,配对设计资料的2检验,两种处理结果的关联性分析 当n40,且T5 时,不需要进行校正。当 n40, 但有1T5时,需进行连续性校正。当n40,或T1时,应采用四格表精确概率法。,课堂练习,P82 2 P102 2 P168 1、2、3、5、6,