1、3.常用概率分布,正态分布 二项分布 Poisson 分布,2020/2/12,3.1 正态分布,正态分布的图形 正态分布的特征 正态曲线下面积分布的规律 标准正态分布 正态分布的应用,2020/2/12,一、 正态分布曲线 (normal distribution curve) 1.正态分布的图形,2020/2/12,频数分布逐渐接近正态分布示意图,2020/2/12,图 体模“骨密度”测量值的分布接近正态分布示意图 (频率密度=频率/组距),面积的意义,2020/2/12,正态分布曲线图示,2020/2/12,该曲线表现为中间高,两边低,左右对称,略显钟形,类似于数学上的正态分布曲线。因而
2、这种分布也称为正态分布。 正态曲线(normal curve)是一条高峰位于中央,两侧完全对称,而且逐渐降低,两端在无穷远处与底线相靠,但永远不与横轴相交的钟型曲线。 正态曲线是有固定函数式的一条曲线。因为频率的总和等于1,因此横轴上曲线下的总面积为100或1,其面积分布有一定的规律性。,2020/2/12,正态分布又称Gauss分布,是医学上和生物界常见的分布形式。是指变量值以均数为中心,左右两侧完全对称,靠近均数两侧的频数较多,而远离均数两侧的频数逐渐减少。,2020/2/12,2.正态分布的概率密度函数,2020/2/12,二、正态分布的特征,正态分布以均数为中心( = ),左右对称;
3、正态分布有两个参数,即均数和标准差,正态分布记作XN(,2), 决定曲线在横轴上的位置,决定曲线的形状。 正态曲线在横轴上方均数处最高(在=处取得密度函数的最大值),表现为钟型曲线 正态曲线下总面积为1,正态曲线下的面积分布有一定规律。,三、面积规律,2020/2/12,正态分布,1 2 3,不同均数,2020/2/12,正态分布,不同标准差,2020/2/12,尖峭峰 正态峰 平阔峰,正态分布的特征,2020/2/12,三、正态曲线下面积分布规律,1.正态曲线下面积的意义: 表示该区间(x1,x2)包含的观察例数占总例数的百分数或变量值落在该区间的概率。,频数分布图示,2020/2/12,正
4、态曲线下面积示意图,x1 x2,2020/2/12,2020/2/12,图3-3 正态分布的概率密度函数与分布函数,2020/2/12,图3-4 正态分布的概率,2020/2/12,2.正态曲线下面积的分布规律,2020/2/12,2020/2/12,2020/2/12,四、标准正态分布 (standard normal distribution),标准正态分布变换标准正态分布曲线下面积的分布规律标准正态分布表的使用,2020/2/12,1、标准正态分布变换,一般正态分布为一个分布族:N(,2)。 为了应用方便,可以进行变量变换,正态分布就变换为标准正态分布。标准正态分布的=0,=1,记为 N
5、(0,1),2020/2/12,2020/2/12,z,(z),2020/2/12,(z),2020/2/12,(z),0,2020/2/12,2020/2/12,2、标准正态曲线下面积分布规律,2020/2/12,正态曲线与标准正态曲线的面积分布规律,2020/2/12,2020/2/12,3、标准正态分布表的使用,附表c1标准正态分布表p559 查表求面积时注意:表中曲线下面积为-到z的面积;当、已知时,先进行变量变换求得z值,再 查表;当、未知且样本含量足够大时,可用 和S 分别代替和,求得z的估计值,再查表。曲线下对称于0的区间面积相等;曲线下横轴上的总面积为100%或1。,2020/
6、2/12,五、正态分布的应用,(一)确定医学参考值(正常值)范围 (二)质量控制图。警戒限 ,控制限 (三)统计方法的理论基础。,二项分布,2020/2/12,医学研究中的某些观察指标服从或近似服从正态分布; 很多统计方法是建立在正态分布的基础之上的,如t分布、2分布、F分布都是在正态分布的基础上推演出来的。 很多其他分布的极限为正态分布。二项分布和Poission分布样本含量足够大时近似正态分布。,2020/2/12,医学参考值范围,1. 正态分布法 2. 百分位数法 3. 对数正态分布法,2020/2/12,1.医学参考值概念,是指大多数处于相同生理状态下的“正常人” 的某项指标(形态、机
7、能及代谢产物等)数值变化波动的范围。由于正常个体间存在变异、机体内外环境改变,时间、地点、条件的不同,使这些生理指标有一定的波动范围,因此,实际应用中,一般采用正常值范围.,2020/2/12,2.用途,1.划分正常与异常的界限。如作诊断指标。 2.反映某人群的某项指标的动态变化。如某地不同时期发汞值的正常范围可反映环境污染的变化或环境保护的效果。,2020/2/12,3.确定医学参考值范围的方法,确定一批样本含量足够大(n100)的“正常人”或动物作为研究对象。“正常人”不是指机体任何器官、组织的形态及机能都正常的人,而是指排除了影响所研究指标的疾病和有关因素对所研究指标的影响的同质人群。,
8、2020/2/12,根据指标的实际用途确定单、双侧。 确定百分数范围。 根据资料的分布特点,选用恰当的界值计算方法。,2020/2/12,4.常用参考值范围估计方法,95%正常值范围:同质总体中包含95%的个体值所在的范围。.正态分布法.百分位数法. 对数正态分布法,2020/2/12,1) 正态分布法,适应资料:正态或近似正态分布资料。 计算: 以95%正常值范围为例双侧:单侧:,2020/2/12,2) 百分位数法,适用资料:适用于任意分布类型的资料,主要用于偏态分布或分布类型不清楚的资料。 计算: 以95%正常值范围为例 双侧: P2.5P97.5单侧: P5(下限) 正态分布应用,20
9、0例血铅值频数表及Px计算表,2020/2/12,2020/2/12,3)对数正态分布法,适用资料:适用于对数正态分布资料。 计算: 双侧: 单侧:,200例血铅值对数变换后的频数计算表,2020/2/12,2020/2/12,3.2 二项分布,二项分布的概念 二项分布的概率 二项分布的条件 二项分布的均数与标准差 二项分布的图形 二项分布应用实例,2020/2/12,一、二项分布的概念,一个袋子里有5个乒乓球,其中2个黄球,3个白球,我们进行摸球游戏,每一次摸到黄球的概率是0.4,摸到白球的概率是0.6。 三个特点:1.各次摸球是彼此独立的;2.每次摸球只有二种可能的结果,或黄球或白球;3.
10、每次摸到黄球(或摸到白球)的概率是固定的。 n次中摸到x次黄球(或白球)的概率分布就是二项分布。,2020/2/12,医学研究中很多现象观察结果是以两分类变量来表示的,如阳性与阴性、治愈与未愈、生存与死亡等等。如果每个观察对象阳性结果的发生概率均为,阴性结果的发生概率均为(1);而且各个观察对象的结果是相互独立的,那么,重复观察n个人,发生阳性结果的人数x的概率分布为二项分布。,2020/2/12,例 设小白鼠接受某种毒物一定剂量时,其死亡率为80,对于每只小白鼠来说,其死亡概率为0.8,生存概率为0.2,若每组各用甲乙丙三只小白鼠做实验,观察每只小白鼠存亡情况,如果计算生与死的顺序,则共有8
11、种排列方式,如果只计生与死的数目,则只有四种组合方式,如下表,表,2020/2/12,2020/2/12,概率的乘法法则 和加法法则,乘法法则 :几个独立事件同时发生的概率,等于各独立事件的概率之积。 加法法则 :互不相容事件和的概率等于各事件的概率之和,2020/2/12,3只小白鼠均生存的概率: P=0.20.20.2=0.008 3只小白鼠2生1死的概率: P1=0.20.20.8=0.032(甲生乙生丙死) P2=0.20.80.2=0.032(甲生乙死丙生) P3=0.80.20.2=0.032(甲死乙生丙生) P=0.096,2020/2/12,3只小白鼠1生2死的概率: P1=0
12、.20.80.8=0.128(甲生乙死丙死) P2=0.80.20.8=0.128(甲死乙生丙死) P3=0.80.80.2=0.128(甲死乙死丙生) P=0.384 3只小白鼠均死亡的概率: P=0.80.80.8=0.512,2020/2/12,2020/2/12,由于实验是逐只进行,因此实验结果是互相独立的,如病人的治愈或死亡,性别的雌雄,生存死亡,阳性或阴性。 根据概率的乘法法则(几个独立事件发生的概率,等于各独立事件发生的概率之和),可以算出每种排列方式的概率,也可以得到每种组合的概率,它可以用二项式加以概括,二项式展开的各项就是每种组合的概率。,2020/2/12,二项展开式:,
13、2020/2/12,2020/2/12,二项分布的定义 : 从阳性率为的总体中随机抽取观察单位数为n的样本,其中出现阳性结果的次数为X,则X=0,1,2,n的概率服从参数为n和的二项分布,记为:XB(n,)。 此分布的概率函数符合前述二项式展开式中的各展开项,故此分布称二项分布 又称Bernoulli分布(瑞士数学家和统计学家)。,2020/2/12,二、二项分布的概率 1.二项分布的概率函数:,X=0,1,2,n,如已知n=3,=0.8,则恰有例阳性的概率P(1)为:,2020/2/12,例 临床上用针灸治疗某型头痛,有效的概率为60%,现以该法治疗3例,其中两例有效的概率是多大?,2020
14、/2/12,表 治疗3例可能的有效例数及其概率,2020/2/12,由表可知,各种可能结果出现的概率合计为1,即P(X)=1(X=0,1,n)。因此,如果欲求1例及以上有效的概率可以是 P(x1)=P(1)+P(2)+P(3)=0.288+0.432+0.216=0.936 也可以是P(x1)=1P(0)=10.064=0.936,2020/2/12,2.二项分布的累积概率 单侧累积概率计算 最多有k 例阳性的概率(下侧累积概率)最少有k 例阳性的概率(上侧累积概率),2020/2/12,递推公式,2020/2/12,例 某地钩虫感染率为13%,随机抽查当地150人,其中至多有2名感染钩虫的概
15、率有多大?至少有2名感染钩虫的概率有多大?至少有20名感染钩虫的概率有多大?,2020/2/12,至多有2名感染钩虫的概率为至少有2名感染钩虫的概率为,2020/2/12,至少有20名感染钩虫的概率为,2020/2/12,三、 二项分布的条件,各观察单位只具有互相对立的一种结果,如阳性或阴性,属于二项分类资料。已知发生某一结果(如阳性)的概率为,其对立结果(如阳性)的概率则为1-。n个观察单位的结果互相独立。即每个观察单位的结果,不会影响其它观察单位的结果。,2020/2/12,四、二项分布的均数与标准差,观察单位数为n时,其阳性结果发生数X的均数与标准差:,2020/2/12,如果将出现阳性
16、结果的频率记为总体均数:标准差:,2020/2/12,二项分布,例4-4 研究者随机抽查某地150人,其中有10人感染了钩虫,钩虫感染率为6.7%,求此率的标准差。,2020/2/12,五、二项分布的图形已知,n,计算x=0,1,2,n时的P(x),以x 为横坐标,以P(x)为纵坐标,在方格坐标纸上绘图,即可绘出二项分布的图形,其形状取决于和n的大小。,2020/2/12,P(X),X,(0.2+0.8)3 二项分布示意图,2020/2/12,图 =0.5时,不同n值对应的二项分布,2020/2/12,图 =0.3时, 不同n值对应的二项分布,2020/2/12,2020/2/12,2020/
17、2/12,=0.5时,分布对称,近似正态分布; 0.5时,分布呈偏态,特别是n 值不大时, 偏离0.5越远,分布越偏。特别是1%或99%时,非常偏,但随着n的增大,分布逐渐逼近正态分布。,2020/2/12,二项分布趋近正态分布的条件: 当n与n(1-)均5时,二项分布趋近正态分布。 当n 时,二项分布的极限形式即是正态分布,其总体均数= n ,总体方差为2= n(1-)。,2020/2/12,六、二项分布的应用,(一)概率估计例4-6 某地钩虫感染率为13%,随机抽查当地150人,其中至多有2名感染钩虫的概率有多大?至少有2名感染钩虫的概率有多大?至少有20名感染钩虫的概率有多大?,2020
18、/2/12,可以得出150人中有10人感染钩虫的概率为,2020/2/12,150人中无感染、有1人、2人感染钩虫的概率为:,2020/2/12,(二)单侧累积概率计算 二项分布出现阳性的次数至多为k次的概率为出现阳性的次数至少为k次的概率为,2020/2/12,据以往经验,用某药治疗小儿上呼吸道感染、支气管炎,有效率为85,今有5个患者用该药治疗,问: 至少3人有效的概率为多少? 最多1人有效的概率为多少?,2020/2/12, 至少3人有效的概率: P(X3)=P(3)+P(4)+P(5),P(X3)=0.1381781250.3915046880.443705313=0.97338812
19、6,2020/2/12, 最多1人有效的概率为:P(X 1)=P(0)+P(1),2020/2/12,3.3 Poisson 分布,一、Poisson分布的概念 二、Piosson分布的概率 三、Piosson分布的条件 四、Piosson分布的图形 五、Poisson分布的特征 六、Poisson分布的应用,2020/2/12,医学上人群中出生缺陷、多胞胎、染色体异常、恶性肿瘤等事件都是罕见的,而可能发生这些事件的观察例数n常常很大 ,但实际上发生类似事件的数目x却很小很小。,2020/2/12,Poisson分布可用来描述这种罕见事件发生次数的概率分布。 Poisson分布是二项分布的特例
20、。 Poisson分布可以看作某种现象发生的概率(或未发生的概率1)很小(如 0.999)。,2020/2/12,一、Poisson 分布的概念,Poisson分布专用于研究单位时间、单位体积、单位面积或单位人群(较大)中某事件的发生数,若发生数X服从参数为的Poisson分布,记为X()。 取名于法国数学家SD Poisson(1781-1840) 例如:放射性物质每分钟放射的脉冲数、每ml水中大肠菌群数、每升空气中粉尘数、每1万个细胞中有多少个发生突变、某地每天的交通事故数、某工矿企业每天的工伤人数、一定人群中某种患病率很低的非传染性疾病患病数或死亡数的分布等。,2020/2/12,二、P
21、oisson分布的概率,1、Poisson分布的概率函数X为观察单位内某稀有事件的发生次数; P(X)为事件发生数为X时的概率,参数=n 为Poisson分布的总体均数, 表示观察单位内事件平均发生的次数,又称强度参数。e为自然对数的底。,2020/2/12,例如果某地新生儿先天性心脏病的发病概率为8,那么该地120名新生儿中有4人患先天性心脏病的概率有多大? n=120,=0.008, = n =1200.08=0.96,2020/2/12,2、Poisson分布的累计概率函数,最多为k次的概率(下侧累积):最少为k次的概率(上侧累积):递推公式:,2020/2/12,实例,至多有4人患先天
22、性心脏病的概率有多大?,2020/2/12,实例,至少有5人患心脏病的概率有多大?,2020/2/12,例实验显示某100cm2的培养皿菌落数为6个,试估计该培养皿菌落数小于3个的概率,大于1个的概率。 =6,该培养皿菌落数小于3个的概率,2020/2/12,该培养皿菌落数大于1个的概率,2020/2/12,三、Piosson分布的应用条件,Piosson分布是二项分布的特例,因此二项分布的三个条件也是Piosson分布的应用条件。 某事件发生概率很小(如0.001 ),而观察例数n很大; 单位时间、面积、容积、人群中观察事件的分布均匀。,2020/2/12,四、 Piosson分布的图形,已
23、知,计算x=0,1,2,时的P(X),以X为横坐标,以P(X)为纵坐标,在方格坐标纸上绘图,即可绘出Piosson分布的图形,其形状取决于的大小。,2020/2/12,图 取不同值时的Poisson分布图,=1,=3,=6,=10,2020/2/12,Poisson分布为正偏态分布,且 愈小分布愈偏;随着 的增大,分布逐渐趋于对称。 =20时,基本接近正态分布; = 50时,Poisson分布呈正态分布Piosson分布近似正态分布的条件 20时可按正态分布原理处理Piosson分布的问题。,2020/2/12,五、Poisson分布的特征,Piosson分布是二项分布的特例。某现象的发生率很
24、小,而样本例数n很大时,二项分布趋近于Piosson分布。 n (应用: Piosson分布替代二项分布); Poisson分布的方差2与均数 相等,即:2=; Poisson分布在20时近似呈正态分布; Poisson分布具有可加性。,2020/2/12,以较小的度量单位,观察某一现象的发生数时,如果它呈Poisson分布,那么把若干个小单位合并为一个大单位后,其总计数亦呈Poisson分布。因此 Poisson分布资料可利用可加性原理使20,然后用正态近似法处理。 例如,已知某放射性物质每10分钟放射脉冲数呈Poisson分布,5次测量的结果,分别为15、14、16、18、14次,那么每50分钟放射脉冲数(总计为77次)亦呈Poisson分布。,2020/2/12,六、Poisson分布的应用,一般人群食管癌的发生率为8/10000。某研究者在当地随机抽取500人,结果6人患食管癌。请问当地食管癌是否高于一般?二项分布计算方法:Piosson分布的计算方法:,