收藏 分享(赏)

第三章 概率及概率分布.ppt

上传人:j35w19 文档编号:6809425 上传时间:2019-04-23 格式:PPT 页数:69 大小:571KB
下载 相关 举报
第三章 概率及概率分布.ppt_第1页
第1页 / 共69页
第三章 概率及概率分布.ppt_第2页
第2页 / 共69页
第三章 概率及概率分布.ppt_第3页
第3页 / 共69页
第三章 概率及概率分布.ppt_第4页
第4页 / 共69页
第三章 概率及概率分布.ppt_第5页
第5页 / 共69页
点击查看更多>>
资源描述

1、第三章 概率及概率分布,概率的基础知识 几种常见的理论分布 抽样分布,第一节 概率基础知识 一、概念,事件event:每种可能出现的情况称为事件。它是指事物发生某种情况或试验中获得某种结果。 频率:事件在n次重复试验中发生了m次,其比值m/n称为事件在n次试验中出现的频率记为W(A)=m/n 特点:频率是介于0和1之间的一个数,即:W(A)大于0而小于1,二、事件之间的关系,必然事件:客观事物中,有些现象或试验结果在一定条件下一定发生的事件。 不可能事件:客观事物中,有些现象或试验结果在一定条件下一定不发生的事件。 随机事件或偶然事件:客观事件中,有些现象或试验结果在一定条件下可能发生也可能不

2、发生的事件。,概率,概率probability:就是用来度量每一事件出现的可能性大小的数字特征。记为P(A)=p 当n充分大时,事件A发生的频率作为事件A发生的概率p的近似值为P(A)=pm/n概率的基本性质: 任何事件的概率都在0和1之间 必然事件的概率等于1 不可能事件的概率等于0,频率和概率是不相同的,只有当试验次数无限增大时,任一事件的频率趋于稳定,这时频率又称统计概率这时的频率和概率才是一样的,1 和事件:事件A与事件B至少有一个发生,这一新事件称为事件A与事件B的和,记作“A+B”。 2 积事件:事件A与事件B同时发生,这一新事件称为事件A与事件B的积,记作“AB”。 3 互斥事件

3、如果事件A与事件B不能同时发生,则称事件A和事件B为互斥事件或不相容事件。,4 对立事件:如果事件A和事件B必发生其一,但又不能同时发生,则事件A和事件B为对立事件。即“A+B”是必然事件,“AB”是互斥事件。 5 独立事件:若事件A发生与否不影响事件B发生的可能性,事件B发生与否也不影响事件A发生的可能性,则二者为独立事件。,例一,在掷一次骰子的试验中,有如下的一些可能发生的事件:,基本事件有6个:1,2,3,4,5,6,其它的事件有:,事件A得到一个奇数1,3,5,事件D得到一个不小于2的数2,3,4,5,6,事件B得到一个偶数2,4,6,事件C得到最大的数6,事件E得到数字0,2. 事件

4、的运算,事件的和(并)事件A和事件B的和,记为A U B,包含A和B里的一切基本事件或元素,其意义是“A,B两事件至少发生一个”。,例如:A=随机抽取一名患者,测得红血球含量是115个单位B=随机抽取一名患者,测得红血球含量是1030个单位,事件A U B随机抽取一名患者,测得红血球含量是130个单位,事件的积事件A和事件B的交,记为A B,简记为AB,包含A和B共同拥有的基本事件或元素,其意义是“A,B两事件同时发生”。,例如:A=随机抽取一名患者,测得红血球含量是115个单位B=随机抽取一名患者,测得红血球含量是1030个单位,事件A B随机抽取一名患者,测得红血球含量是1015个单位,互

5、不相容事件如果A和B两事件的交是不可能事件,即A B,则A和B称为互不相容。,例如:在例一中,A掷骰子掷得一个奇数,B掷骰子掷得一个偶数,则A B,即A和B两事件互不相容。,问题1:投掷一次均质的骰子所得点数为一随机变量,求该随机变量的概率函数,概率函数:描述随机变量取各个可能值的概率的函数。设X是某个随机变量,其概率函数可表示为:f(x)=P(X=x) 式中x为X的某个可能取值, P(X=x) 表示X取值为x的概率。,解题思路,投掷一次骰子所得点数有 种可能,即点数为 ,由于骰子是均质的,每种结果出现的概率是相同的,即都为 ,因而该随机变量的概率函数为: f(x)=1/6 x=1,2,3,4

6、,5,6 这个函数用表的形式来表示为:这样的表称为概率分布列,6,16,1/6,问题2:独立投掷2次均质的骰子,所得点数之和为一随机变量,求该随机变量的概率函数,解题思路,投掷2次骰子所得点数有 种组合,即点数之和为 ,由于骰子是均质的,每种组合出现的概率是相同的,即都为 ,因而该随机变量的概率函数为: f(x)=P(x1+x2=x)=nx/36 x=212 式中: x1和x2分别为第一次投掷和第二次所投掷的点数;nx为2次投掷点数之和为 x的组合数,36,212,1/36,该概率函数的概率分布列为:,三. 概率的计算,一个事件A的概率,记为P(A),是事件A发生的可能性的定量计量。,概率的三

7、个性质:(1)任何事件概率均满足 0P(A)1(2)必然事件的概率为1(3)不可能事件的概率为0,即P()0,注意:计算概率时,结果为5或0.3时肯定是错误的。,四、计算概率的法则,法则1:互斥事件的加法:假定两互斥事件的概率分别为P(A)和P(B)。则事件A与B的和事件的概率等于事件A的概率与事件B的概率之和,即 P(A+B)=P(A)+P(B)。加法定理对于多个两两互斥的事件也成立。P(A+B+N)=P(A)+P(B)+P(N)。 推理1:完全事件系的概率:完全事件系的和事件概率等于1。 P(A+B+N)=P(A)+P(B)+P(N)=1。 推理2:对立事件的概率:对立事件的概率互补。若事

8、件A的概率为P(A),那么其对立事件的概率为,因为,法则2:独立事件的乘法:假定P(A)和P(B)是两个独立事件A与B 各自出现的概率,则事件A与B同时出现的概率就等于两独立事件出现概率的乘积,即 ,乘法定理对于n个相互独立的事件也成立,即 推理1:若n个事件A、B、N彼此独立,且当P(A)=P(B)=P(N)时,则P(ABN)=P(A)n。 推理2:非独立事件的乘法:如果事件A和B是非独立的,那么事件A与B同时发生的概率为事件A的概率P(A)乘以事件A发生的情况下事件B发生的概率P(B/A),即()()(),概率的求法,两种途径:,(1)统计方法(适用于进行了大量试验时):,假设试验共进行k

9、次,事件A出现了l次,则事件A发生的频率是l/k。随着k的增大,频率l/k趋于一个常数p,那么p就是事件A发生的概率。,例如:如何求一个人某年中被闪电击中的概率?,中国1.1109人中,在2005年被闪电击中的人数为3300人,则某人被闪电击中的概率为3300/1.1109=310-6。,(2)理论方法(适用于可以进行数学推算,在试验的每个基本事件等可能时):,例如:A掷骰子得到一个奇数1,3,5的概率为P(A)=m/n=3/6=1/2,5. 概率的一般运算法则,概率的一般运算法则可以帮助我们计算一些复杂事件,或称为复合事件的概率。,所谓复合事件就是由几个事件形成的。例如AUB,AUBUC,A

10、BUC等等。,加法法则,P(AUB)P(A)P(B)P(AB),如果A,B不相容,则有P(AUB)P(A)P(B),条件概率法则,条件概率P(A|B)指的是在已知事件B已发生的条件下,事件A发生的概率,乘法法则,例二,一个袋子里放有10个男人和15个女人的姓名纸条。法官从袋子里依次抽出两个姓名。有两种可能的抽样方法: (1)非放回式抽样,(2)放回式抽样。求每种方法下两个姓名均为男性的概率,解: (1)非放回式抽样:任何东西抽出后就不再被放回去,(2)放回式抽样:任何东西被抽出后,在实行下一次的抽取前被放回去,独立事件,若事件A的发生,并不影响事件B发生的概率,即,P(B|A)=P(B)或P(

11、A|B)=P(A),,我们称A和B互相独立,性质:如果A和B互相独立,那么P(AB)=P(A)P(B),(2)概率分布表:列出变量的每个值及其概率。,譬如,掷一次骰子的概率分布表为,二 频率与概率,对于随机事件,在一次试验中其发生与否带有很大的偶然性,要研究其发生的规律性,就必须进行大量的重复观察或试验。若随机事件A在n次试验中发生了m次,则比值m/n为n次试验中随机事件A发生的频率。 概率的定义:在相似条件下,重复进行同一类试验,事件A发生的频率m/n,随着试验总次数n的逐渐增加,愈来愈稳定于一个定值p,这个定值p称事件A的概率,记为:P(A)=pm/n 概率是描述随机事件发生可能性大小的数

12、量指标,对随机事件,有0P(A)1。,第二节 概率分布,1. 随机变量,随机变量:就是随机试验中被测的量。,例如: (1)测量一定条件下生长的小麦的株高。小麦株高是随机变量,(2)从1000只动物(雌雄各半)的群体,放回式抽样,每次抽取10只,记录其中雄性的个数。设10只动物中雄性的个数为X,则X就是一个随机变量。,随机变量的取值有随机性。随机变量所有可能值的分布规律称为概率分布。,随机变量能帮助我们深入理解总体和样本的概念,使总体和样本的关系更加明确。随机变量的引入使统计学的深入研究成为可能。,随机变量与总体和样本的关系,总体:随机变量可能取值的全体 样本:随机变量的n个独立观察值,例如在研

13、究一定条件下生长的小麦的株高时,总体是所有在这种条件下生长的小麦的株高的全体,也就是小麦株高这个随机变量的所有可能的取值。假如获得了200株小麦株高数据的样本,样本也就是小麦株高这个随机变量的200次独立观测值。,随机变量一般用大写字母来表示,如X,Y,U等。变量的观测值一般用小写字母来表示,如xi,yi,ui等表示随机变量X,Y,U的第i次观测值。,注意:在第一章里,我们已经使用了这样的符号,样本表示为x1, x2, , xn,变量的类型,(1)离散型变量:取值有限个或可数无穷个孤立的数值。,譬如:a,掷一次骰子得到的数b,一只母鸡一周里下的蛋数,(2)连续型变量:可能取值为某范围(或某区间

14、)内的任何值。可能取的值间不存在间隙。,譬如:a,小麦株高b,奶牛产奶量,2. 概率分布,变量的概率分布描述该变量的所有值的分布的规律,也就是变量对应的总体的分布。,概率分布,总体的值的分布,频数分布,样本的值的分布,2.1 离散型概率分布,离散型概率分布也就是一个函数或表,它定义了这个离散变量的所有值对应的概率:,(2)概率分布表:列出变量的每个值及其概率。,譬如,掷一次骰子的概率分布表为,2.2 连续型概率分布,连续型变量的一个特征是取的值非常多(不可数),无法象离散型变量那样对每一个值赋予一个概率。,所以,在研究连续型变量时,我们不研究它取每个值的概率,即P(Xx),而是研究x在一个区间

15、x1,x2内的概率即为图3-2中阴影部分的面积,这一面积可表示为函数f(x)的积分。具体来说,有三种形式:,P(x1x2),在研究连续型变量概率时,“”,“”均可相应换成“”,“”,而概率数值不变。,P( x1x2)P(Xx2),问题:怎样求这三种概率?,答:借助于密度函数f(x)曲线(或称概率分布密度曲线),每个连续型变量都有它自己的密度函数曲线。,f(x)的图形,密度函数曲线总在x轴的上方,且曲线下的总面积等于1。,一个术语:分布函数或称累积分布函数,是随机变量X取得小于x0的值的概率。,F(x0),在分布函数已知的情况下,概率也可以通过分布函数来求。,三 小概率事件实际不可能性原理,概率

16、表示随机事件在一次试验中发生的可能性大小。若事件A发生的概率很小,如小于0.05或0.01,则称事件A为小概率事件。 小概率事件不是不可能事件,但在一次试验中发生的可能性很小,以至于人们看作是不可能事件,这种把小概率事件在一次试验中人为地看作是不可能事件,称为“小概率事件实际不可能性原理”。 该原理是统计假设测验的基本原理。,第二节 几种常见的理论分布,一 二项分布 (一) 二项分布的含义 二项总体:这种非此即彼事件所构成的总体称为二项总体。 在二项总体中,若“此事件”的概率记为p,则“彼事件”的概率记为1p。,解:事件A孩子性别为两男男男所有可能的基本事件有:男男男女女男女女所以P(A)=m

17、/n=1/4,两个孩子的家庭里,孩子性别为两男的概率是多少?,同理,孩子性别为一男一女的概率是2/4=1/2,注意:在生物统计学里,我们着重于讨论理论方法。,从二项总体中随机抽取n个个体,若属于“此事件”的个体为x个,则属于“彼事件”的个体为nx个。在每一次抽样中,随机变数x的取值范围为0,1,2,n,共n+1种,x的这n+1种取值各有其概率,这些概率的分布称为二项分布。 在生物科学试验中,存在着大量的非此即彼的事件,其规律性多数都可以用二项分布来描述,所以二项分布是最常见的离散性随机变量的概率分布。,要描述一个总体,其本平均数和标准差(或方差)是最重要的参数。对二项总体,其平均数np,方差2

18、npq,标准差 。,(二)二项分布的概率函数及计算 在二项总体中,如果在一次试验中事件A发生的概率为p,那么在n次独立重复试验中事件A恰好发生x次的概率为:,这是二项分布的概率密度函数式,式中: 为n次试验中事件A发生x次的概率;x=0,1,2,n;,问题:播种玉米时,每穴播种两粒种子,已知玉米种子的发芽率为0.9,试求: 1、两粒种子都发芽的概率; 2、一粒种子发芽的概率; 3、两粒种子都不发芽的概率; 4、至少有一粒种子发芽的概率 5、至多有一粒种子发芽的概率,解题思路,种子发芽与不发芽互为独立事件,可用概率的加法、乘法定理直接计算 或用二项分布函数公式进行计算 设种子发芽为事件A,不发芽

19、为事件A,则有p=0.9,q=1-0.9=0.1,参考答案,1、0.81 2、0.18 3、0.01 4、0.99 5、0.19,二 正态分布,正态分布是连续性变数的一种理论分布,许多生物学领域的随机变量都服从正态分布,因此,它是生物统计的重要基础。 与二项分布一样,正态分布也有其概率密度函数:正态分布概率密度函数的图像称作正态分布曲线开正态概率曲线。,(一)正态分布曲线的特征,由正态分布曲线图可以看出它有以下特征: (1)正态分布曲线是中间高、两边低,而且对称的光滑曲线,曲线最高峰在平均数处,越是接近平均数的组变量分布的次数越多,离平均数越远,分布的次数越少。 (2)正态分布曲线因总体平均数

20、和标准差的不同呈现为不同的曲线,所以它不是一条曲线,而是一个曲线系统。正态分布可用符号N(,)表示,不同的和,则有不同的曲线,因此正态分布曲线是一系列的曲线。,(二)正态分布的标准化,正态分布的标准化,是将观测值x的离均差(x)以标准差为单位进行度量,所得的随机变数称为u,即:随机变数u也服从正态分布,且平均数0,标准差1。统计学上把0,1的正态分布称为标准正态分布,记作N(0,1)。标准正态分布只有一条曲线。,(三)正态分布的概率计算,1 利用计算机软件:Excel 2 利用标准正态分布累积函数值表例63:(教材P70)例64:(教材P70)例65:(教材P71),习题,现有一变量x服从N(

21、30,25),试计算 P(x40),解题思路,已知该正态分布的平均数 =30,方差 2=25,得标准差=5. 首先将该正态分布标准化 U26=(26-30)/5=-0.8 U40=(40-30)/5=2,查F(u)值表 P(x40) =P(u2)=1-F(u=2)=1-0.97725=0.02275,复习正态分布N(,2)的标准化转化N(0,1) :在北方某一地区调查果园桃小冬茧情况,以1m2为单位,调查了2000m2,得4.5(头),2.4(头)。现随机抽取该地区一块果园,问平均每平方米少于4.2头的概率是多少?(P(x4.2)尽管总体分布不明确,但n30,便可视其服从正态分布,则进行标准化

22、转化:,U4.2=(4.2-4.5)/2.4=-0.13 查附表得F(-0.13)=0.4483,即P(x4.2)= 0.4483 ,也就是说,随机抽取该地区一块果园 ,平均每平方米少于4.2头的概率是0.4483 (即44.83 %)。,例题:在北方某一地区调查果园桃小冬茧情况,以1m2为单位,调查了2000m2,得4.5(头),2.4(头)。现随机抽取该地区一块果园36m2,问平均每平方米少于4.2头的概率是多少?尽管总体分布不明确,但n30,便可视其服从正态分布,则:,查附表得FN(-0.75)=0.2266,即P(x4.2)=0.2266,也就是说,随机抽取该地区一块果园36m2 ,平

23、均每平方米少于4.2头的概率是0.2266(即22.66%)。,第三节 抽样分布,在统计学中,最主要的问题就是研究总体与从总体中抽出的样本两者的相互关系。总体与样本的关系可以从两个方向来研究,一个方向是从总体到样本,主要研究从总体中抽出的随机样本统计数以千计的概率分布及其与原总体的关系,即抽样分布问题。另一个方向是从样本到总体,主要研究从一个样本或一系列样本所得的统计数去推断总体的参数,即统计推断问题。抽样分布是统计推断的基础。,值得指出的是抽样分为复置抽样和不复置抽样,前者指在每次抽样时将抽得的个体放回总体后再抽样的方法,后者指在每次抽样时抽得的个体不放回总体而再抽样的方法。讨论抽样分布时考

24、虑的是复置抽样方法。,一 样本平均数的抽样分布,假定有一总体,其总体平均数为,总体标准差为。从这一总体中以相同的样本容量n无数次抽样,可得到无数个样本,分别计算出各样本的平均数:、。由于存在抽样误差,样本平均数是随机变数,各样本平均数将表现出不同程度的差异,无数个样本平均数又构成一个总体,称为样本平均数总体,样本平均数的分布称为样本平均数的抽样分布。,根据统计理论和实例证明,样本平均数的分布具有以下特性: 1 样本平均数的总体平均数与原总体平均数相等。 2 样本平均数的总体方差等于原总体方差除以样本容量。同理,样本平均数的总体标准差等于原总体标准差除以样本容量的平方根。 3 若从正态总体中随机

25、抽取样本,无论样本容量大小,其样本平均数的分布服从正态分布,若从非正态分布本中随机抽取样本,只要样本容量较大(n30),其样本平均数也服从正态分布,这称为中心极限定理。 4 由于总体标准差一般是不易求得的,而以样本标准差估计总体标准差进行计算。,例题:在北方某一地区调查果园桃小冬茧情况,以1m2为单位,调查了2000m2,得4.5(头),2.4(头)。现随机抽取该地区一块果园36m2,问平均每平方米少于4.2头的概率是多少?尽管总体分布不明确,但n30,便可视其服从正态分布,则:,查附表得FN(-0.75)=0.2266,即P(x4.2)=0.2266,也就是说,随机抽取该地区一块果园36m2

26、 ,平均每平方米少于4.2头的概率是0.2266(即22.66%)。,二 样本平均数差数分布,根据统计理论和实例证明,样本平均数差数的分布具有以下特性: 1 样本平均数差数的总体平均数等于两总体平均数之差。 2 样本平均数差数的总体方差等于两总体的样本平均数的总体方差之和。同理,样本平均数差数的总体标准差等于两总体的样本平均数的总体方差之和的平方根。 3 若两个总体各呈现正态分布,则其样本平均数的差数分布也呈正态分布。 4 由于总体方差是难以求得的,用样本方差来估计总体方差进行计算。,三 二项总体的抽样分布,(一)二项总体的分布参数 (二)二项成数(百分数)抽样分布 (三)二项次数抽样分布,三 t分布,总体标准差未知时,需用样本标准差来估计,总体标准差需用样本标准差来估计,即S估计、S 估计,则/ 不服从u分布,而服从t分布,三 t分布,分布具有以下特征: (1)t分布曲线是左右对称的,围绕平均数向两边递降; (2)t分布受自由度dfn一1的制约,每个自由度都有一条分布曲线; (3)和正恋分布相比,t分布的顶部偏低,尾部偏高自由度df30时,其曲线就比较接近正态分布曲线,当n无穷大时,和正态分布曲线重合 ( 4 ) 和正态分布一样,t分布曲线与横坐标所围成的面积也等于l,四 卡平方分布 五 F分布,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 大学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报