1、Ch5 常见概率分布 正态分布二项分布Poisson分布,1. 分布函数F(X) 即总体中个体值小于或等于X的观察 值所占的比例,F(X)0,F(-)=0,F()=1,2. 密度函数f(X)对离散型随机变量,f(X)是变量取X值的概率,常记为P(X),显然,P(X)0,P(X)=1;对连续型随机变量,f(X)是F(X)的导函数。即,基本概率:,5.1 正态分布,图5.1 频数分布逐渐接近正态分布示意图,德国的钢镚和10马克的纸币上都留有高斯的头像和正态密度曲线,正态分布又称Gauss分布(Gaussian distribution),5.1.1 正态分布的定义,若随机变量的密度函数是:,-X,
2、则称随机变量X服从正态分布,X为正态变量,简记为XN(,2),正态分布只有一个高峰,位置在X =。这一点由f(X)的定义即知。总体中位数亦为。正态分布以均数为中心,左右对称。正态分布的两个参数,和,决定了分布的位置和形状。其中是位置参数,是变异度参数,5.1.2 正态分布的性质,图5.2 不同均数时的正态分布示意图,图5.3 不同标准差时的正态分布示意图,正态变量的线性变换,若XN(,2) ,则经过下面变换后的u成均数为0,方差为1的正态分布 ,称为标准正态分布(standard normal distribution),简记为Z N(0,1),z称为标准正态(离)差(standard nor
3、mal deviate)。 标准正态分布的密度函数为(u):,-z,图5.4 一般正态分布变换成标准正态分布示意图,5.2.3 正态曲线下面积的分布规律,正态曲线下,横轴上的一定区间的面积占总面积的百分数,用以估计当资料服从正态分布时,某区间的例数占总例数的百分数(频率分布),或变量值落在某区间的概率(概率分布) 。 正态曲线下一定区间的面积,可以通过对密度函数 的积分来求得。反映正态曲线下,横轴尺度自-到X 的面积, 即左侧累计面积(概率) 或频率。 通常都把一般的正态分布变换为标准正态分布Z , 通过Z 的分布估计频率比较方便。,正态分布面积,标准正态分布面积,【例5.1】求标准正态分布曲
4、线下区间(-,1.96)的面积 (1) 先求区间(-,-1.96)的面积,查附表 ,得标准正态分布曲线下区间(-,-1.96)的面积是0.0250 (2) 区间(-,1.96)的面积为1-(1.96,)的面积,即1-0.025=0.975,【例5.2】求标准正态分布曲线下区间(-,-2.58)的面积与区间(2.58,)的面积,(-,-2.58)的面积是0.0049,约为0.5。区间(2.58,)的面积亦为0.5,【例5.3】求标准正态分布曲线下区间(-1,1)的面积,区间(-1,1)的面积 1-2(-,-1)的面积 1-20.1587 0.6826,有三分之二的女子与平均数相差不到一个标准差,
5、有三分之二的男子与平均数相差不到一个标准差,一般正态分布曲线下的面积的计算法:,【例5.4】 求正态分布N(128.64,4.852)曲线下区间(119.13,138.15)内的面积。, 先用求对应的u值,ZL = (119.13-128.64)/4.85 = -1.96 ZU = (138.15-128.64)/4.85 = 1.96, 查u界值表,得面积,(-1.96,1.96)的面积 1-2标准正态分布曲线下区间(-,1.96)的面积 1-20.025 0.95,5.1.4 正态分布的应用, 概括估计变量值的频数分布,【例5.6】 例2.1中,某地120名7岁男童的身高,已知均数 =12
6、8.64cm,标准差s =4.85cm,试(1)估计该地7岁男童身高在120cm以下者占该地7岁男童总数的百分数。(2)分别求 1s, 1.96s, 2.58s范围7岁男童人数占该组儿童总数的实际百分数,说明与理论百分数是否相近。,1) 按式(5.2)求Z :,查附表1,得0.0375,即该地7岁男童身高在110cm以下者,估计约占3.75,2) 计算结果见表5.1,表 5.1 120名7岁男童身高的实际分布与理论分布比较,很多医学资料是呈偏态分布的,有的经过变量变换可转换为正态分布。 如环境中某些有害物质的浓度,食品中某些药物的残留量,某些临床检验结果,某些疾病的潜伏期以及医院病人住院天数等
7、。 如果能转换为正态分布(即X服从对数正态分布),亦可按正态分布规律处理。,2、 制定参考值范围,参考值范围(reference ranges),又称正常值范围(normal ranges), 指绝大多数正常人的某指标范围。 它来源于临床上对疾病诊断和治疗的实际需要,系指正常人的解剖、生理、生化等各项指标观察值的波动范围。 如:成人白细胞总数的正常值范围。 食品、空气、水、化装品的卫生制定。儿童各项生长发育的指标。,1)确定正常值范围的一般原则和步骤 抽取足够例数的正常人样本根据样本数据来确定的;正常人是指排除了影响所研究指标的疾病和有关因素的人 ;如血清谷丙转氨酶活性的正常值, 选取正常人的
8、条件为肝、肾、心、脑、肌肉等无器质性疾患,近期无特殊用药史(如氯丙嗪、异烟肼等),测定前未作剧烈运动等。 一般认为每组应在100例以上,但不要片面追求大样本 。,对选定的正常人进行准确而统一的测定严格控制检测误差 :包括分析仪器的灵敏度,试药的纯度,操作技术的熟练程度,标准的掌握等。 决定取单侧范围值还是双侧范围值双侧:白细胞单侧:肺活量选定适当的百分范围正常值范围的意思是绝大多数正常人的观察值都在此范围以内。这个绝大多数,习惯上指正常人的80,90,95(最常用)或99等,需根据正常人和病人的数据分布选定百分界限。,如,正常人样本确定了血清谷草转氨酶正常值单侧95上限为37U/L。即容许有5
9、的正常人被判为异常,称为假阳性;也可能有肝功能异常的病人,其血清谷草转氨酶在37U/L 以下, 即假阴性。若提高上限值,假阳性可以减少,但假阴性必然增加。正常值范围的确定,平衡假阳性和假阴性,有两种情况:一是正常人和病人的数据分布没有重迭,这时只要求减少假阳性就行了;二是正常人和病人的数据分布有重迭,这时需要兼顾假阳性与假阴性。估计界值,2)制定参考值范围的方法,正态分布法 用于服从正态分布或近似正态分布的资料,表 5.4 常用u值表, 参考值范围() 单侧 双侧 80 0.842 1.282 90 1.282 1.645 95 1.645 1.960 99 2.326 2.576 ,【例5.
10、6】某地调查正常成年女子104人的血清总胆固醇,近似服从正态分布,得均数 =4.03mmol/L,标准差S=0.659mmol/L。试估计该地成年女子血清总胆固醇的95参考值范围。 下限: -1.960s = 4.03-1.960(0.659) = 2.74(mmol/L) 上限: +1.960s = 4.03+1.960(0.659)= 5.32(mmol/L),.百分位数法,样本含量较多,分布趋于稳定,样本含量不少于150为宜。其优点是可用于任何分布甚至分布不明的资料。,【例5.7】用硫酸-高锰酸钾-硝酸消化法和无火焰原子吸收光谱法测得某市238 名正常人发汞值如表5.6,试确定该市发汞值
11、的95正常值范围。,发汞值只以过高为异常,故取单侧95上限。, 发汞值 频数 累计频数 累计频率 (g/g) f f (%) 0.3 20 20 8.4 0.7 66 86 36.1 1.1 60 146 61.3 1.5 48 194 81.5 1.9 18 212 89.1 2.3 16 228 95.8 2.7 6 234 98.3 3.1 1 235 98.7 3.5 0 235 98.7 3.94.3 3 238 100.0,(3)质量控制。,作为上下警戒值, 作为上下控制值,(4) 正态分布是许多统计方法的理论基础,常用的u 检验就是以正态分布为理论基础的假设检验方法。统计推断中常
12、用的2分布、t分布与F 分布等都是在正态分布的基础上推导出来的。,具体步骤,参考值范围的估计方法,5.2 二项分布,5.2.1二项分布的定义,毒理试验中,动物的生存与死亡;诱癌试验中,动物发癌与不发癌;接触某危险因素的个体发病与不发病;病人的治愈与未愈;理化检验结果的阴性与阳性,两种对立的结果,每个个体的观察值取且只取其中之一。,【例5.8】设小白鼠接受某种毒物一定剂量时,其死亡率为80 ,若每组各用三只小白鼠(分别标记为甲、乙、丙)逐只做实验,观察每组小白鼠存亡情况,从阳性率为的总体中随机抽取含量为的样本,其中阳性数恰好为X例的概率为:,称 X 服从参数为 n 和 的二项分布,记为:X B(
13、n,)。,5.2.2 二项分布的性质,1、二项分布的均数与标准差,若均数与标准差不用绝对数表示,而用率表示,【例5.9】 求例5.8平均死亡鼠数及标准差。,以=0.8,n=3代入式(5.10) (5.11),得,2、二项分布的累计概率(cumulative probability)常用的有左侧累计和右侧累计两种方法,最多有k例阳性的概率(左侧),最少有k例阳性的概率(右侧),例5.10 根据以往经验,用某药治疗某病的治愈率为70,今有10 个患者用该药治疗,问至少治愈8人的概率为多少? 最多治愈1人的概率为多少? 至少治愈8人的概率 P(X8)P(8)P(9)P(10) 0.233474441
14、0.1210608210.028247525 0.382782787 最多治愈1人的概率为:,3、二项分布的图形,图5.7 二项分布示意,4、二项分布的正态近似当不接近0或1,n不是很小,n5且n(1-)5时,二项分布近似正态分布。且有:,5.2.3 二项分布的应用条件,1) 各观察单位只能具有互相对立的一种结果,如阳性或阴性,生存或死亡等。2) 已知发生某一结果(如阳性)的概率不变,其对立结果的概率则为1-。 实际工作中要求是从大量观察中获得的比较稳定的数值。3) n次试验在相同条件下进行,且各观察单位的结果互相独立。即每个观察单位的观察结果不会影响到其他观察单位的结果。如要求疾病无传染性。
15、,5.2.4 二项分布的应用,二项分布是二类分类变量统计分析工作的理论基础,特别是用于总体率的参数估计与率的假设检验。还用于产品合格率的质量控制、研究某些疾病的家族集积性及简化实验分析工作等。,5.3 Poisson分布,Poisson分布是用来描述小概率事件发生规律的一种重要分布。人群中遗传缺陷、癌症等发病率很低的非遗传性疾病的发病或患病人数的分布;也可以用于研究单位时间(或单位空间、容积内)某罕见事件发生次数的分布等。,5.3.1 Poisson分布的定义,所谓随机变量 服从Poisson分布,是指在足够多的 n次独立试验中, X取值为0,1,2,的相应概率为,式中参数 即为总体均数,称X
16、服从参数为 的Poisson分布,记作,Poisson分布可以看作是发生的概率 (或未发生的概率 )很小,而观察例数n很大时的二项分布。有些情况n 和 都难以确定,只能以观察单位(时间、空间、面积等)内某种稀有事件的发生数X来表示。 如每毫升水中的大肠杆菌数、每个观察单位中的粉尘的计数等。,5.3.2 Poisson分布的的性质,1) 总体均数与总体方差相等。2)样本很大, 很小,二项分布近似Poisson分布。3)当 增大时,Poisson分布渐进正态分布。4)Poisson分布具有可加性。,【例5.11】如果某地新生儿先天性心脏病的发病率为8,那么该地120名新生儿中恰好有4人患先天性心脏
17、病的概率有多大?,【例5.12】例5.11中,至多有4人患先天性心脏病的概率有多大?至少有5人患先天性心脏病的概率有多大?至多有4人患先天性心脏病的概率为至少有5人患先天性心脏病的概率为,小 结,1正态分布是一种非常重要的连续型概率分布,它是许多统计方法的理论基础。很多医学现象服从或近似服从正态分布,或经过变量变换后近似服从正态分布,可用正态分布理论来处理。,2正态分布N(,2)的基本性质是:只有一个高峰,高峰位置在X =。以均数为中心,左右对称。有两个参数,位置参数和变异度参数,它们决定了分布的位置和形状。经线性变换 变换成标准正态分布N(0,1)。,3正态分布曲线下面积有一定的分布规律。理论上1.96及2.58的区间面积(该区间的观察单位数)分别各占总面积(总观察单位数)的95及99,