收藏 分享(赏)

第三章 常用概率分布2.ppt

上传人:gnk289057 文档编号:8586568 上传时间:2019-07-04 格式:PPT 页数:121 大小:912KB
下载 相关 举报
第三章 常用概率分布2.ppt_第1页
第1页 / 共121页
第三章 常用概率分布2.ppt_第2页
第2页 / 共121页
第三章 常用概率分布2.ppt_第3页
第3页 / 共121页
第三章 常用概率分布2.ppt_第4页
第4页 / 共121页
第三章 常用概率分布2.ppt_第5页
第5页 / 共121页
点击查看更多>>
资源描述

1、第三章 常用概率分布,本章在介绍概率论中事件、概率的基础上,重点介绍生物科学研究中常用的几种随机变量的概率分布二项分布、正态分布以及样本平均数的抽样分布、t分布、卡方分布和F分布。难点:各种概率分布的特点和概率计算。,第一节 事件与概率 第二节 概率分布 第三节 二项分布 第四节 正态分布 第五节 平均数抽样分布 第六节 t分布、 分布、F分布,第一节 事件与概率,一、事 件(一)必然现象与随机现象 在一定条件下,重复进行观察或试验,其结果总是确定不变的现象必然现象。在同样条件下,重复进行观察或试验,其结果总是不确定的现象随机现象 。但通过大量重复观察又确有统计规律性。,(二)随机试验与随机事

2、件1、随机试验 对随机现象的观察称为随机试验(trial)。有以下特点: (1)试验可以重复进行;(2)全部可能的结果是可知的; (3)但在一次试验之前不能肯定会出现哪一个结果。,2、随机事件 随机试验的每一种可能结果,称为随机事件。基本事件: 把随机试验每一个可能的结果称为一个基本事件。由基本事件构成的事件称复合事件.,必然事件 在一定条件下必然会发生的事件称为必然事件,用表示。不可能事件 在一定条件下不可能发生的事件称为不可能事件,用表示。,事件的关系图示,和事件:事件A和事件B至少有一个发生。,事件的关系图示,积事件:事件A和事件B同时发生。,事件的关系图示,独立事件:事件A发生与否不影

3、响事件B发生的可能性,则称事件A与事件B相互独立。满足AB 互斥事件 :AB= 。,对立事件:A+B= ,AB= 。是互斥但不独立。,事件关系的计算,差事件:事件A发生而事件B不发生,AB。,事件关系的计算,完全事件系:A1+A2 +An=,A1A2 An = 。如种子的发芽与不发芽则构成一个完全事件系。,事件关系的计算,二 、 概 率(probability)研究随机现象,仅知道发生哪些可能结果(随机事件)是不够的,还需了解发生这些结果的可能性大小。这种描述事件发生可能性大小的数值,称为概率。如事件A的概率记为P(A)。,(一)概率的古典定义 如果随机试验具有以下特征:1、试验所有可能结果是

4、有限个;2、而且出现的可能性相等;3、两两结果互斥;则称其为古典概型。P(A)=m/n,【例31】 在1、2、3、 、20这20个数字中随机抽取1个,求下列随机事件的概率。(1)A=“抽得1个数字4”; (2)B=“抽得1个数字是2的倍数”。,(二)概率的统计定义在相同条件下进行n次重复试验,如果随机事件A发生的次数为m ,那么m/n称为随机事件A的频率(frequency);当试验重复数n逐渐增大时,随机事件A的频率越来越稳定地接近一个常数值p ,把 p称为随机事件A的概率。这就是统计意义上的概率定义。,P(A)= p m/n (n充分大),(三)、概率的性质,(1) 0P(A)1 (2)

5、P()=1(3) P()=0,表3-1 小麦种子发芽试验记录,例:,随着实验次数增多,这个事件的频率越来越稳定接近0.7,则把0.7看作这个事件的概率。,(四)、概率的运算,加法运算:P(A+B)=P(A)+P(B)-P(AB),乘法运算:P(AB)=P(A)P(B/A)=P(B)P(A/B),设有某产品一件共10个,其中有3只为次品,接连从中取2次(不放回)。求第一次取到次品后第二次取到次品的概率。 解:令A=第一次取到次品,B=第二次取到次品,则P(BA)=2/9 P(AB)=P(A) P(BA)=3/102/9,对立事件概率运算:完全事件系的概率:P(A1+A2+ + An)= P(A1

6、)+P(A2)+ +P(An)=1,三、小概率事件实际不可能性原理随机事件的概率表示了随机事件在一次试验中出现的可能性大小。若随机事件的概率很小,例如小于0.05、0.01、0.001,称之为小概率事件。,统计学认为:概率很小的事件在一次试验中几乎不可能发生。这就是小概率事件实际不可能性原理,亦称小概率原理。小概率事件实际不可能性原理是统计学上进行假设检验(显著性检验)的基本依据。,第二节 概率分布,要全面了解一个试验,则必须知道试验的全部可能结果及其各自概率,即把所有可能结果与概率一一对应起来,这就是概率分布。概率分布就是描述随机现象的统计规律性。具体地说就是随机变量取值的概率的函数.,【例

7、 32】 对 100 株树苗进行嫁接,观察其成活株数,其可能结果是 “0 株成活”,“1 株成活”,“100 株成活”。 用x表示成活株数,则x的取值为0、1、2、100。,一、随机变量,【例33】 抛掷一枚硬币,其可能结果是“币值朝上” 或“币值朝下”。如果“朝上”用1表示,“朝下”用0表示,则随机变量x的取值为0、1。,【例 34】 测定某品种小麦产量(/666.7),表示测定结果的变量x所取的值为一个特定范围(a, b),例如200300(/666.7),x可以取这个范围内的任何数值。,如果表示试验结果的变量x,其取值是可列举的 ,则称x为离散型随机变量;相反,若X的取值为某范围内的任何

8、数值,是不可列举的,则称x为连续型随机变量。,离散型随机变量与连续型随机变量,二、离散型随机变量的概率分布如果将离散型随机变量x的可能取值xi ( i=,1,2 , ),与其概率pi一一对应起来,则有P(x=xi)=pi 。如果用函数f(x)表示的概率对应关系,记为f(xi) P(X=xi)=pi,则称f(x)为概率函数。,x x1 x2 xn p p1 p2 pn 如果用(xi)表示离散型随机变量的概率分布函数,记为(xi)(xi),则概率函数与分布函数共同构成的概率分布。显然有:(xi)f(xi),三、连续型随机变量的概率分布 对连续型随机变量x,只能了解它在某个区间a,b)取值的概率,即

9、p(axb)。如果把140行水稻产量的频率分布直方图的纵轴变成频率与组距的比值,并使n,i0,则频率分布折线图越来越趋近一条光滑曲线。,频率分布密度直方图及分布折线,x,0.01191 0.01 0.00069,a b,n+ i0,上述曲线称为概率分布密度曲线,相应的函数称为概率密度函数,则有 P(axb)=,相应地有,连续型随机变量x的分布函数为,连续型随机变量概率分布性质 1、概率密度函数f(x)0; 2、 (c为任意实数) 3、 在一次试验中随机变量x之取值必在-x+范围内,为一必然事件。,此式表示分布密度曲线与横轴围成的面积为1。,第三节 二项分布,一、贝努利试验及其概率公式将某随机试

10、验重复进行n 次,若各次试验结果相互独立,则称这n次试验是相互独立的。如果每次独立试验的结果是对立的,则称其为贝努利试验。,若有n4次的贝努利试验,事件A发生2 次(k=2)的全部可能结果有如下6种:,贝努利试验的概率公式,(AA ), (A A ), (A A), ( AA ), ( A A), ( AA),把贝努利试验的概率公式与二项展开式比较发现,在n重贝努利试验中,事件A发生k次的概率恰好等于二项展开式中含Pk项,所以也把贝努利试验的概率公式称作二项概率公式。,二、二项分布的定义及性质,二项总体: 将个体某一性状只发生两种对立结果的总体叫二项总体。 二项分布: 从二项总体独立抽取n个个

11、体,“此”事件出现的次数可能有0次、1次、2次、.n次,共n+1种可能,这n+1种可能有它们各自的概率,组成一个概率分布,叫二项概率分布,简称二项分布。,二项分布的概率函数就是二项概率公式,因为二项分布的形状由n与p二个参数决定,因此,把服从二项分布的随机变量一般记为 xB(n,p)。,二项分布的性质:1、P(x=k)= Pn(k) (k=0,1,,n)2、二项分布的概率之和等于1,即,3、分布函数,三、二项分布的概率计算【例 3 5 】 有一批玉米种子 ,出苗率为0.67,每穴播种6粒,问一穴至少有1粒种子出苗的概率是多少?根据题意, n=6, p=0.67,q =(1-0.67)=0.33

12、。设x 为种子出苗数,则x为服从二项分布B(6,0.67)的随机变量。于是6粒种子至少有1粒种子出苗的概率为:,P(“至少1粒种子出苗”)= P(x=1)+P(x=2)+P(x=6)= 0.01570.07990.21620.32920.26720.0905= 0.9987 或=1-P(不出苗)=1-,【 例3 6 】大豆紫花与白花这一相对性状在F2的分离比例符合一对等位基因的遗传规律,即紫花与白花之比为3:1。现在F2 群体随机观察10株,问有7株是紫花的概率。根据题意,n=10,p=34=0.75,q=14=0.25。设F2 10株中紫花植株为x株,则x为服从二项分布B(10,0.75)的

13、随机变量。于是10株有7株是紫花的概率为:,即从F2群体随机观察10株大豆的花色,有7株是紫花的概率为0.2503。,四、二项分布的平均数与标准差统计学证明,服从二项分布B(n,p)的随机变量之平均数、标准差与参数n、p有如下关系:次数形式 频率形式=np,例:假如贮藏两年的“川单21”发芽频率为86%,现随机从中取10粒种子做发芽试验。试计算平均发芽数和标准差。,这表示10粒种子平均发芽数是8.6粒,误差为正负1.1粒。,若用百分数(即成数)表示10粒种子的发芽结果。则有,这表示10粒种子平均发芽率是86%,误差为正负11%粒。,【例37】 某树种幼苗成材率为70%,现种植2000株,问成材

14、幼苗株数的平均数、标准差是多少?根据题意 , n=2000 , p=0.70,q=0.30。设2000株幼苗成材为x株,则x为服从二项分布B(2000,0.70)的随机变量。,成材幼苗株数的平均数,成材幼苗株数的标准差,20000.71400(株),20.49 (株),连续性变异资料,当观察次数(n)无限增大,组限无限缩小时,连接各组频率的折线就会变成一条光滑的曲线,呈现两端低中间高、左右对称的理论概率分布,称为正态概率分布,简称正态分布(normal distribution)。,第四节 正态分布,正态分布的普遍性,自然界许多现象都服从或接近正态分布; 一定条件下,不少随机变量的概率分布极限

15、是正态分布; 不管总体是否呈正态分布,从中抽出的样本平均数(n较大)趋近于正态分布。因之,正态分布是统计学研究所涉及的主要理论分布。在理论和实践上都具有非常重要的意义。,一、正态分布的定义及其特征 (一) 正态分布的定义 若连续型随机变量x的概率密度函数为 其中为平均数,2为方差,则称随机变量x服从正态分布 , 记为xN(,2)。相应的概率分布函数为,-3 -2 -1 +1 +2 +3,x,0.4,0.3,0.2,0.1,f(x),正态分布概率密度曲线,68.26%,95.45%,99.73%,区间 概率 1 0.6826 2 0.9545 3 0.9973 1.96 0.95 2.576 0

16、.99,(二) 正态分布特征 1、正态分布密度曲线是单峰、对称的“悬钟”形曲线,对称轴为x=;2、f(x) 在 x = 处达到极大,极大值 ;3、 绝对值愈小,f(x)值愈大;,4、曲线在x=处各有一个拐点; 5、正态分布有两个参数,即平均数和标准差。 6、分布密度曲线与横轴所夹的面积为1。,正态分布特征,-3 -2 -1 +1 +2 +3,0.4,0.3,0.2,0.1,f(x),图 方差相同平均数不同的一组正态分布曲线,0.4,0.3,0.2,0.1,f(x),图 平均数相同方差不同的一组正态分布曲线,1=0.5,2=1.5,3=2,二、标准正态分布=0,2=1的正态分布为标准正态分布,记

17、作随机变量uN(0,1)。标准正态分布的概率密度函数及分布函数分别记作(u)和(u)。,附表1就是按标准正态分布的分布函数(u)计算出u取某一值的累积概率。,(u) 1.0 0.8 0.6 0.4 0.2 0,例如,当u=1.75(1.75)=0.95994它实际上表示u从-到1.75的累积概率是0.95994。,反过来,也可由概率查出对应的u值。如果要求更精确的u值,可用线性插值法计算。如U0.009,则累积概率为0.4964。,对于任何一个服从正态分布N(,2)的随机变量x,都可以通过标准化变换: 将其变换为服从标准正态分布的随机变量u.u称为标准正态变量或标准正态离差,表示x离开平均数有

18、几个标准差单位。,-3 - 2 -1 0 1 2 3,(u),从正态分布到标准正态分布,只是将变量x的分布中心从平移到0,变异单位由原来变量x的单位变为标准离差单位,具体到横轴上就是一个标准差距离。这些变化不影响正态分布的性质。,由正态分布的性质得,变量在某个区间取值的概率等于描述该变量的正态分布曲线与x轴在该区间围成的面积。因此,在这个区间的概率计算就变成了正态概率密度函数的定积分计算。,三、正态分布的概率计算,服从N(,2)的x 在 a ,b )区间取值的概率,等于服从N(0,1)随机变量u在 (a-)/, (b-)/区间取值概率 。,【例39】 设x服从=30.26, 2=5.102 的

19、正态分布,求P(21.64x32.98)。,先求标准正态离差u值,查附表1,图3.2 正态分布概率计算示意图。,-1.69,65.64%,我们不仅关心随机变量x落在以平均数为对称的某个数值区间内的概率,也很关心x落在这个区间外的概率。把这个概率称为两尾概率,记作。附表2给出了绝对值u的两尾概率值。,/2,/2,查附表2得,0.025,0.025,0.005,0.005,0.95,0.99,-1.96,1.96,0,0,-2.58,2.58,u,P(u1.96)=1-0.95=0.05 P(u2.58)=1-0.99=0.01,第五节 样本平均数抽样分布,统计学研究的中心内容:样本与总体的关系。

20、1、总体 样本 抽样分布2、样本总体 统计推断,一、抽样试验 二、单个样本平均数的抽样分布 三、两个样本平均数差数的抽样分布,由总体中随机地抽取若干个体组成样本,即使每次抽取的样本容量相等,其统计数(如 ,S,) 也将随样本的不同而有所不同,因而样本统计数也是随机变量,也有其概率分布。统计上把统计数的概率分布称为抽样分布。,一、抽样试验,抽样要求:(1)随机;(2)独立;(3)样本容量大。用独立、随机方法抽取的样本称为简单随机样本,简称样本。,可以设想,从原总体中可抽出很多甚至无穷多个含量为 n的样本。由这些样本算得的统计数有大有小(如 ),不尽相同,与原总体参数(如)相比往往表现出不同程度的

21、差异。这种差异是由随机抽样造成的 ,称为抽样误差。,设有一个N=3的原总体,其变量分别取值2、4、6。现以样本容量n=2进行独立随机抽样,全部样本组成的新总体与原总体有什么样的关系?或者说所得样本统计数的数学期望是否是原总体参数的无偏估计?,原总体,以样本容量n=2从总体(2,4,6)抽取所有样本的平均数、方差和标准差,全部样本,由上表次数分布可计算,抽样试验结论一,1)、 是的无偏估计值;2)、S2是2的无偏估计值;3)、以n为分母计算的S20不是2的无偏估 计值;,显然,样本平均数也是一个随机变量,其概率分布叫做样本平均数的抽样分布。由样本平均数构成的总体称为样本平均数的抽样总体。 其平均

22、数和标准差分别记为 和 。,二、单个样本平均数抽样分布,是样本平均数抽样总体的标准差,简称标准误,它表示平均数抽样误差的大小。统计学已证明,全部样本平均数构成的新总体( 总体)的两个参数与原总体(x总体)的两个参数有如下关系:,以n=2和n=4分别从上述总体(2,4,6)抽样,样本总数分别为32= 9和34=81。分别将其样本平均数的次数分布列于下表。已计算上述总体参数如下:,表:样本平均数的次数分布,n=2时样本平均数分布的均数和方差为:,n=4时样本平均数分布的均数和方差:,0,f 1,2 4 6,f 3 2 1 0,2 3 4 5 6,f 20 15 10 5 0,2 3 4 5 6,2

23、=8/3 n=1,平均数 的抽样分布图,抽样试验结论二:,从抽样试验可以看出 ,虽然原总体并非正态分布,但从中抽取样本(n=2, n=4)平均数的分布却趋向于正态分布。随着样本含量 n 的增大,这种正态分布趋势表现得越来越明显。 当n30时, 的分布就近似正态分布了。X 变量与 变量概率分布间的关系可由下列两 个定理说明:,1)从正态总体N( , 2)抽取样本,无论样本容量或大或小,样本平均数分布必做正态分布N( , 2/n) 。,单个样本平均数分布定理,2)、若原总体不是正态分布,则样本平均数分布不一定属正态分布,但当n增大时,总是愈来愈趋近正态分布N( , 2/n) 。这就是中心极限定理。

24、 无论是连续性还是间断性变量资料,无论变量所在总体是否呈正态分布,只要n30,平均数的分布可认为是正态分布。,标 准 误标准误(平均数抽样总体的标准差) 的大小反映样本平均数 的抽样误差大小,即精确性的高低 。,样本标准误用于估计平均数的抽样误差。,三、两个样本平均数差数分布参数,N1(1 , 21) 样本容量n1 N(1 , 21/ n1 ) N2(2 , 22) 样本容量n2 N(2 , 22/ n2 ) 将 与 一一相互比较,得: 差数 d 就组成一个次数分布。,从总体N1(2,4,6)以n1=2抽样,共个样本,有9个,又从总体N2(3,6)以n2=3抽样;共23个样本,有个,平均数差数

25、次数分布表,样本平均数差数分布平均数与方差的计算,由差数d的次数分布表可计算出:,抽样试验结论三:,两个总体呈正态分布 ,则两样本平均数差数(d)准确遵循正态分布。,第六节 t 分布、 分布与F分布,一、 t 分 布,若xN(, 2),则 N(, 2/n)。将随机变量 标准化得: ,则uN(0,1)。 当总体标准差未知时, 以样本标准差S代替所得到的统计数 记为t。即,在计算 时,由于采用S来代替,使得t 变量不再服从标准正态分布,而是服从自由度df=n-1 的t分布。,t的取值范围是(-,+)。,1、t分布受自由度制约,每一个自由度都有一条t分布密度曲线。2、t分布密度曲线以t0为对称轴,此

26、时,分布密度函数取得最大值。,t分布密度曲线特点,3、与标准正态分布曲线相比,t分布曲线顶部略低 ,两尾稍高。n时, t 分布与标准正态分布完全一致。,u分布,t分布 (df=1),图5.3 t分布及其与标准正态曲线的比较,t分布 df=5,用 表示t分布的概率密度函数,则 t分布的概率分布函数为:,因而t在区间(t1,+)取值的概率右尾概率为1-F t1 (df)。由于t分布左右对称,t在区间(-,-t1)取值的概率也为1-F t (df)。,1-F t1 (df),t1,-t1,于是 t 分布曲线 下由-到- t1和由t1到+ 两个相等的 概 率 之和两尾概率为21-F t1 (df) 。

27、对不同自由度下t分布的两尾概率及其对应的临界t值已编制成附表3,即t分布表。,例如,当df=15时,查附表3得两尾概率等于0.05的临界t值为 =2.131,其意义是:P(-t-2.131)= P(2.131t+) =0.025;P(-t-2.131)+ (2.131t+)=0.05。,二、2分布设有一平均数为、方差为 的正态总体。现从中独立随机抽取样本,样本容量为n,x1、x2、xn,并求出其标准正态离差:, , ,,记这n个相互独立的标准正态离差的平方之和称为2 :它服从自由度为n的2分布,记为,若用样本平均数 估计总体平均数,则统计量 服从自由度为n-1的2分布,记为, c2分布曲线与横

28、轴围成的面积为1,即,P(0 c2 + )= f(c2)d(c2)=1,+ 0,c2分布的分布函数F( c2)为F( c2)= P( c2 2i )= f(c2)d(c2),c2分布的性质, c2分布的取值范围为0,+)。,c2分布形状决定于自由度df,分布的平均数为df,方差为2df。,图 df=1,3和5的2分布图,0.50.40.30.20.10.0,df=1,0 2 4 6 8 10 12,c2,f(c2),df=3,df=5,df=,因此,c2分布右尾从c i到+ 的概率为P( c2 )=1- F( c2)= f(c2)d(c2),图 c2分布概率累积函数图解,f(c2),c2,0,

29、F( c2),1-F( c2),各种自由度下右尾概率取a的临界c 2a,df值列于附表6,供测验时查用。例如, df=10, a=0.05, c 20.05,10 =18.31,表示P( c2 18.31)=0.05。,三、F分布设在一正态总体N(,2)中随机抽取样本容量为n1和n2的两个样本,得到两个样本方差(均方) 、 , 构成一新的统计量,记为F,即,服从 , 的F 分布 。F 分布密度曲线是随自由度df1、df2的 变化而变化的一簇偏态曲线,其形态随着df1、df2的增大逐渐趋于对称,见下图所示。,F,f(F),df1=2 df2=5,df1=5 df2=4,df1=1 df2=5,图

30、 几种自由度下的F分布,F分布的性质,F分布的取值范围是0,+) F分布形状取决于df1和df2。F分布曲线与横轴围成的面积为1。,用 表示F分布的概率密度函数,则其分布函数 为:因而F分布右尾从 到+的概率为:,F,f(F),F(F),1-F(F),F,附表4列出的是不同 df1 和 df2 下,P(F )=0.05和P(F )=0.01时的F值,即右尾概率=0.05和=0.01时的临界F值,一般记作:,例如,查附表4,当df1=3,df2=18时,F0.05(3,18)=3.16,F0.01(3,18)=5.09表示如以n1=4,n2=19,在同一正态总体中连续抽样 ,所得 F 值大于 3.16 的仅有5%,大于5.09的仅有1%。,本章重点:,小概率事件实际不可能性原理; 二项分布及正态分布的特点及参数; 样本平均数抽样分布规律; 中心极限定律; t分布、卡分布、F分布的计算公式。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报