收藏 分享(赏)

第四章 概率与概率分布.ppt

上传人:Facebook 文档编号:3491772 上传时间:2018-11-05 格式:PPT 页数:149 大小:1.10MB
下载 相关 举报
第四章 概率与概率分布.ppt_第1页
第1页 / 共149页
第四章 概率与概率分布.ppt_第2页
第2页 / 共149页
第四章 概率与概率分布.ppt_第3页
第3页 / 共149页
第四章 概率与概率分布.ppt_第4页
第4页 / 共149页
第四章 概率与概率分布.ppt_第5页
第5页 / 共149页
点击查看更多>>
资源描述

1、第四章 概率与概率分布,4.1 事件及其概率 4.2 概率分布4.2.1 离散型概率分布4.2.2 连续型概率分布4.3 抽样分布,学习目标 定义试验、事件、样本空间、概率 描述和使用概率的运算法则 定义和解释随机变量及其分布 4. 计算离散型随机变量的概率和概率分布 5. 计算连续型随机变量的概率,4.1 事件及其概率,必然现象与随机现象 在自然界与生产实践和科学试验中,人们会观察到各种各样的现象,把它们归纳起来,大体上分为两大类: 一类是可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果总是确定的,必然发生(或必然不发生)。这类现象称为必然现象(inevitable pheno

2、mena)或确定性现象(definite phenomena)。,另一类是事前不可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果未必相同。这类在个别试验中其结果呈现偶然性、不确定性现象,称为随机现象(random phenomena ) 或 不 确 定 性 现 象(indefinite phenomena)。 随机现象或不确定性现象,有如下特点:在一定的条件实现时,有多种可能的结果发生,事前人们不能预言将出现哪种结果;对一次或少数几次观察或试验而言,其结果呈现偶然性、不确定性;但在相同条件下进行大量重复试验时,其试验结果却呈现出某种固有的特定的规律性频率的稳定性,通常称之为随机现

3、象的统计规律性。,4.1.1 试 验(experiment) 通常我们把根据某一研究目的 , 在一定条件下对自然现象所进行的观察或试验统称为试验(trial)。 掷一颗骰子,观察其出现的点数 从一副52张扑克牌中抽取一张,并观察其结果(纸牌的数字或花色) 随机试验:个试验如果满足下述三个特性 , 则 称 其 为 一个 随机试验(random trial),简称试验:,(1)试验可以在相同条件下多次重复进行;(2)每次试验的可能结果不止一个 ,并且事先知道会有哪些可能的结果; (3)每次 试验总是恰好出现这些可能结果中的一个 ,但在一次试验之前却不能肯定这次试验会出现哪一个结果。例如在一定孵化条

4、件下,孵化6枚种蛋,观察其出雏情况 ; 又如观察两头临产妊娠母牛所产犊牛的性别情况 , 它们都具有随机试验的三个特征,因此都是随机试验。,4.1.2事件(event) 事件:试验的每一个可能结果(任何样本点集合) 掷一颗骰子出现的点数为3 用大写字母A,B,C,表示 随机事件(random event):每次试验可能出现也可能不出现的事件,简称 事 件(event),通常用A、B、C等来表示。 掷一颗骰子可能出现的点数,(1)基本事件(elementary event) :不能被分解成其他事件组合的基本事件,也 称 为 样本点(sample point)。 抛一枚均匀硬币,“出现正面”和“出现

5、反面” (2)必然事件 (certain event),我们把在一定条件下必然会发生的事件称为必然事件(certain event),用表示。掷一颗骰子出现的点数小于7 (3)不可能事件(impossible event):我们把在一定条件下不可能发生的事件称为不可能事件(impossible event),用表示。 掷一颗骰子出现的点数大于6,例1,在编号为1、2、3、10 的十头猪中随机抽取1头,有10种不同的可能结果:“ 取 得 一 个 编 号 是 1” 、 “ 取得一个编号是2”、“取得一个编号是10”,这10个事件都是不可能再分的事件,它们都是基本事件。由若干个基本事件组合而成的事件

6、称为 复合事件 (compound event)。如 “取得一个编号是 2的倍数”是一个复合事件,它由 “ 取得一个编号是2 ”、 “ 是4”、“是6、“是8”、“是10”5个基本事件组合而成。,例2,在严格按妊娠期母猪饲养管理的要求饲养的条件下,妊娠正常的母猪经114天左右产仔,就是一个必然事件。 例3,在满足一定孵化条件下,从石头孵化出雏鸡,就是一个不可能事件。 必然事件与不可能事件实际上是确定性现象,即它们不是随机事件, 但 是 为了方便起见,我们把它们看作为两个特殊的随机事件。,4.1.3 样本空间与样本点 样本空间(sample Space) 一个试验中所有结果的集合,用表示 例如:

7、在掷一颗骰子的试验中,样本空间表示为:1,2,3,4,5,6 在投掷硬币的试验中,正面,反面 样本点( sample point) 样本空间中每一个特定的试验结果 用符号表示,4.1.4 概 率 一、概率的定义 (一)概率的统计定义 研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事件发生的可能性大小,以揭示这些事件的内在的统计规律性,从而指导实践。这就要求有一个能够刻划事件发生可能性大小的数量指标,这指标应该是事件本身所固有的,且不随人的主观意志而改变,人们称之为概率(probability)。事件A的概率记为P(A)。,概率的统计定义在相同条件下进行n次重复试验,如果随机

8、事件A发生的次数为m,那么m/n称为随机事件A的频率(frequency);当试验重复数n逐渐增大时,随机事件A的频率越来越稳定地接近某一数值 p , 那么 就 把 p称为随机事件A的概率。 这 样 定 义 的 概 率 称 为 统 计 概 率(statistics probability)。,例如 为了确定抛掷一枚硬币发生正面朝上这个事件的概率 ,历史上有人作过成千上万次抛掷硬币的试验。在表中列出了他们的试验记录。,(二)概率的古典定义 有很多随机试验具有以下特征:1、试验的所有可能结果只有有限个,即样本空间中的基本事件只有有限个;2、各个试验的可能结果出现的可能性相等,即所有基本事件的发生是

9、等可能的;3、试验的所有可能结果两两互不相容。,具有上述特征的随机试验,称为古典概型(classical model)。对于古典概型,概率的定义如下:设样本空间由 n 个等可能的基本事件所构成,其中事件A包含有m个基本事件,则事件A的概率为m/n,即P(A)=m/n,【例】在编号为1、2、3、10的十头猪中随机抽取1头,求下列随机事件的概率。(1)A=“抽得一个编号4”;(2)B=“抽得一个编号是2的倍数”。因为该试验样本空间由10个等可能的基本事件构成,即n=10,而事件A所包含的基本事件有4个,即抽得编号为1,2,3,4中的任何一个,事件A便发生,于是mA=4,所以 P(A)=mA/n=4

10、/10=0.4 同理,事件B所包含的基本事件数mB=5,即抽得编号为2,4,6,8,10中的任何一个,事件B便发生,故 P(B)=mB/n=5/10=0.5。,【例】 在N头奶牛中,有M头曾有流产史,从这群奶牛中任意抽出n头奶牛,试求: (1)其中恰有m头有流产史奶牛的概率是多少? (2)若N=30,M =8,n =10,m =2,其概率是多少?,我们把从有M头奶牛曾有流产史的N头奶牛中任意抽出n头奶牛 ,其中恰有m头有流产史这一事件 记为A , 因为从 N 头 奶 牛 中 任 意 抽 出 n 头 奶牛的基本事件总数为 ;事件A所包含的基本事件数为 ;因此所求事件A的概率为:,= 0.0695

11、,将N=30,M =8,n =10,m =2代入,得,即在30头奶牛中有8头曾有流产史,从这群奶牛随机抽出 10 头奶牛其中有2头曾有流产史的概率为6.95%。,(三)、几何概型 当随机试验的样本空间是某一可度量的区域,并且任意一点落在度量(长度、面积与体积)相同的子区域内是等可能的,则事件A的概率定义为:,SA,P(A)=,/,S,构成事件A的子区域的量,样本空间的度量,二、概率的性质和运算法则 (一)、事件的相互关系 1、和事件 2、积事件 3、互斥事件 4、对立事件 5、独立事件 6、完全事件系,定义见:P26,(二)、概率的性质及运算 概率的性质: 非负性 对任意事件A,有 P 0 规

12、范性 一个事件的概率是一个介于0与1之间的值,即对于任意事件 A,有0 P 1必然事件的概率为1;不可能事件的概率为0。即P ( )=1; P( )=0 可加性 若A与B互斥,则P(AB) =P(A)+P(B) 推广到多个两两互斥事件A1,A2,An,有P( A1A2 An) = P(A1)+P(A2)+P(An),1、互斥事件及其概率 在试验中,两个事件有一个发生时,另一个就不能发生,则称事件A与事件B是互斥事件(没有公共样本点),(例题分析) 【例】在一所城市中随机抽取600个家庭,用以确定拥有个人电脑的家庭所占的比例。定义如下事件A:600个家庭中恰好有265个家庭拥有电脑B:恰好有10

13、0个家庭拥有电脑C:特定户张三家拥有电脑说明下列各对事件是否为互斥事件,并说明你的理由(1) A与B (2) A与C (3) B与 C,解:(1) 事件A与B是互斥事件。因为你观察 到恰好有265个家庭拥有电脑,就 不可能恰好有100个家庭拥有电脑(2) 事件A与C不是互斥事件。因为张三也许正是这265个家庭之一,因而事件A与C有可能同时发生(3) 事件B与C不是互斥事件。理由同(2),互斥事件的加法规则 . 若两个事件A与B互斥,则事件A发生或事件B发生的概率等于这两个事件各自的概率之和,即 P(AB) =P(A)+P(B) . 事件A1,A2,An两两互斥,则有P(A1A2 An) =P(

14、A1)+P(A2) +P(An),(例题分析) 【例】抛掷一颗骰子,并考察其结果。求出其点 数为1点或2点或3点或4点或5点或6点的概率。,解:掷一颗骰子出现的点数(1,2,3,4,5,6)共有6个互斥事件,而且每个事件出现的概率都为1/6 根据互斥事件的加法规则,得,2、事件的补及其概率 事件A和事件B必有一个发生,但二者不能同时发生,称事件B为事件A的补事件。A的补事件(或称逆事件),记为A 。它是样本空间中所有不属于事件A的样本点的集合,3、广义加法公式 事件的并或和 事件A或事件B发生的事件,称为事件A与事件B的并。它是由属于事件A或事件B的所有样本点组成的集合,记为AB或A+B,事件

15、的交或积 事件A与事件B同时发生的事件,称为事件A与事件B的交,它是由属于事件A也属于事件B的所有公共样本点所组成的集合,记为BA 或AB,广义加法公式 对任意两个随机事件A和B,它们和的概率为两个事件分别概率的和减去两个事件交的概率,即P(AB) = P(A) + P(B) - P(AB),两个事件的并,两个事件的交,(例题分析) 【例】一家计算机软件开发公司的人事部门最近做了一项调查,发现在最近两年内离职的公司员工中有40%是因为对工资不满意,有30%是因为对工作不满意,有15%是因为他们对工资和工作都不满意。求两年内离职的员工中,离职原因是因为对工资不满意、或者对工作不满意、或者二者皆有

16、的概率 解:设 A =员工离职是因为对工资不满意B =员工离职是因为对工作不满意依题意有:P(A)=0.40;P(B)=0.30;P(AB)=0.15 P(AB)=P(A)+P(B)-P(AB)=0.40+0.30-0.15=0.55,4、条件概率与事件的独立性 条件概率定义 在事件B已经发生的条件下事件A发生的概率,称为已知事件B时事件A的条件概率,记为P(A|B),(例题分析),【例】一家超市所作的一项调查表明,有80%的顾客到超市是来购买食品,60%的人是来购买其他商品,35%的人既购买食品也购买其他商品。求:(1)已知某顾客购买食品的条件下,也购买其他商品的概率(2)已知某顾客购买其他

17、商品的条件下,也购买食品的概率,解:设 A =顾客购买食品, B =顾客购买其他商品依题意有:P(A)=0.80;P(B)=0.60;P(AB)=0.35,(例题分析),【例】一家电脑公司从两个供应商处购买了同一种计算机配件,质量状况如下表所示,从这200个配件中任取一个进行检查,求(1) 取出的一个为正品的概率(2) 取出的一个为供应商甲的配件的概率(3) 取出一个为供应商甲的正品的概率 (4) 已知取出一个为供应商甲的配件,它是正品的概率,解:设 A = 取出的一个为正品 B = 取出的一个为供应商甲供应的配件,乘法公式(multiplicative law) 用来计算两事件交的概率 以条

18、件概率的定义为基础 设A,B为两个事件,若P(B)0,则P(AB)=P(B)P(A|B)或P(AB)=P(A)P(B|A),【例】一家报纸的发行部已知在某社区有75%的住户订阅了该报纸的日报,而且还知道某个订阅日报的住户订阅其晚报的概率为50%。求某住户既订阅日报又订阅晚报的概率,解:设 A = 某住户订阅了日报 B = 某个订阅了日报的住户订阅了晚报 依题意有:P(A)=0.75;P(B|A)=0.50 P(AB)=P(A) P(B|A)=0.750.5=0.375,独立事件与乘法公式 (independent events) 事件A与事件B的发生无关,事件B与事件A的发生也无关(P(A|B

19、)=P(A)或P(B|A)=P(B)),则称事件A与B事件独立,或称独立事件 。 若两个事件相互独立,则这两个事件同时发生的概率等于它们各自发生的概率之积,即:P(AB)= P(A) P(B) 若事件A1,A2,An相互独立,则 P(A1,A2, , An)= P(A1) P(A2) P(An),【例】一个旅游景点的管理员根据以往的经验得知,有80%的游客在古建筑前照相留念。求接下来的两个游客都照相留念的概率,解:设 A = 第一个游客照相留念 B = 第二个游客照相留念 两个游客都照相留念是两个事件的交。在没有其他信息的情况下,我们可以假定事件A和事件B是相互独立的,所以有P(AB)=P(A

20、) P(B)=0.800.80=0.64,5、完备事件组和全概率公式,完备事件组:如果事件组,B1, B2,, 满足,B1,B2 .两两互斥,即Bi Bj B1 B2 则事件组Bi称为的完备事件组。它实质是空间的一个“分割”,因此的完备事件组不是唯一的,这给我们选取合适分割的自由。, 全概公式,【例】假设在n张彩票中只有一张中奖奖券,那么第二个人摸到奖券的概率是多少?,解:设 A = 第二个人摸到奖券,B = 第一个人摸到奖券 依题意有:P(B)=1/n; P(B)=(n-1)/n P(A|B)=0; P(A|B )=1/(n-1), 逆概公式(贝叶斯公式 ) 设B1,B2 .是样本空间的一个

21、划分,则对任一事件A,(P(A)0),有:,P(Bi|A),P(BiA),P(A),=,P(Bi) P(A Bi),j=1,2,.,n,P(Bi)被称为事件Bi的先验概率(prior probability) P(Bi|A)被称为事件Bi的后验概率(posterior probability),【例】某考生回答一道四选一的考题,假设他知道正确答案的概率为1/2,而他不知道正确答案时猜对的概率应该为1/4。考试结束后发现他答对了,那么他知道正确答案的概率是多大呢?,解:设 A = 该考生答对了 ,B = 该考生知道正确答案 依题意有:P(B)=1/2; P(B )=1-1/2 = 1/2 P(

22、A|B ) =1/4; P(A|B)=1,三、大数定理,P29-30,四、小概率事件实际不可能性原理随机事件的概率表示了随机事件在一次试验中出现的可能性大小。若随机事件的概率很小,例如小于0.05、0.01、0.001,称之为小概率事件。,小概率事件虽然不是不可能事件,但在一次试验中出现的可能性很小,不出现的可能性很 大 ,以 至于实际上可以看成是不可能发生的。在统计学上,把小概率事件在一次试验中看成是实际不可能发生的事件称为小概率事件实际不可能性原理,亦称为小概率原理。小概率事件实际不可能性原理是统计学上进行假设检验(显著性检验)的基本依据。,4.2 概率分布,事件的概率表示了一次试验某一个

23、结果发生的可能性大小。若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即必须知道随机试验的概率分布(probability distribution)。为了深入研究随机试验 ,我 们 先引入随机变量(random variable)的概念。,随机变量(random variables),作一次试验,其结果有多种可能。每一种可能结果都可用一个数来表示,把这些数作为变量x的取值范围,则试验结果可用变量x来表示。变量x称随机变量。【例1】 对100头病畜用某种药物进行治疗,其可能结果是“0头治愈”、 “1头治愈”、“2头治愈”、“”、“100头治愈”。若用x表示治愈头数,则x

24、的取值为0、1、2、100。,【例2】 孵化一枚种蛋可能结果只有两种,即“孵出小鸡”与“未孵出小鸡”。 若用变量x表示试验的两种结果,则可令x=0表示“未孵出小鸡”,x=1表示“孵出小鸡”。 【例3】 测定某品种猪初生重 ,表示测定 结 果 的 变 量 x 所 取的值为一个特定范围(a,b),如0.51.5kg,x值可以是这个范围内的任何实数。,随机变量 X 取有限个值或所有取值都可以逐个列举出来 x1 , x2, 以确定的概率取这些不同的值 离散型随机变量的一些例子:,离散型随机变量,可以取一个或多个区间中任何值 所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点 连续型随机变量

25、的一些例子:,连续型随机变量,随机变量的分布函数,描述一个随机变量,不仅要说明它能够取那些值,而且还要关心它取这些值的概率,因此,引入随机变量的分布函数的概念。 概念:设X是一个随机变量,对任意实数x,令:F(x)=PX x, x( , )则称F(x)为随机变量X的分布函数(distribution function),也称为概率累积函数(probability cumulative function)。 从直观上看,分布函数F(x)是一个定义在( , )上的实值函数, F(x)在点x取值为随机变量X落在区间( , x 上的概率。,4.2.1 离散型概率分布,一、概率分布 要了解离散型随机变量

26、x的统计规律,就必须 知 道它的一切可能值xi及取每种可能值的概率pi。如果我们将离散型随机变量x的一切可能取值xi ( i=1, 2 , ),及其对应的概率pi,记作P(x=xi)=pi i=1,2,则称 上式为离散型随机变量x的分布律。常用 下表形式表示离散型随机变量分 布律 :,显然离散型随机变量的概率分布具有pi0和pi=1这两个基本性质。,离散型随机变量的分布函数为:,【例】投掷一颗骰子后出现的点数是一个离散型随机变量。写出掷一枚骰子出现点数的概率分布,概率分布,二、离散型随机变量的数学期望和方差 数学期望(expected value) 离散型随机变量X的所有可能取值xi与其取相对

27、应的概率pi乘积之和 描述离散型随机变量取值的集中程度 记为 或E(X) 计算公式为,离散型随机变量的方差(variance) 随机变量X的每一个取值与期望值的离差平方和的数学期望,记为 2 或D(X) 描述离散型随机变量取值的分散程度 计算公式为,4.方差的平方根称为标准差,记为 或,【例】一家电脑配件供应商声称,他所提供的配件100个中拥有次品的个数及概率如下表,每100个配件中的次品数及概率分布,求该供应商次品数的数学期望和标准差,三、常用离散型概率分布,两点分布(也称0-1分布) 一个离散型随机变量X只取0和1两个可能的值 它们的分布律为则称随机变量X服从参数为 p的两点分布,记作X

28、B(1, p), 3. 其分布函数为:,【例】已知一批产品的次品率为p0.05,合格率为q=1-p=1-0.05=0.95。并指定废品用0表示,合格品用1表示。则任取一件为废品或合格品这一离散型随机变量,其概率分布为, 二项分布(伯努利试验) 二项分布与伯努利试验有关 伯努利试验满足下列条件 一次试验只有两个可能结果,即“成功”和“失败” “成功”是指我们感兴趣的某种特征 一次试验“成功”的概率为p ,失败的概率为q =1- p,且概率p对每次试验都是相同的 试验是相互独立的,并可以重复进行n次 在n次试验中,“成功”的次数对应一个离散型随机变量X,二项分布(binomial distribu

29、tion)设X为 n 次重复试验中出现成功的次数,随机变量X 的分布律为,则称服从参数为n,p的二项分布(binomial distribution),记为XB(n,p)。,其分布函数为:(其中X表示下取整),对于P(X=x) 0, x =1,2,n,有,同样有,当 n = 1 时,二项分布化简为,二项分布的形状P33:图3-3,图3-4。 二项分布的数学期望和方差 数学期望=E(X) = np 方差 2 =D(X) = npq,【例】已知一批产品的次品率为4%,从中任意有放回地抽取5个。求5个产品中(1) 没有次品的概率是多少? (2) 恰好有1个次品的概率是多少? (3) 有3个以下次品的

30、概率是多少?,P31-32:例3.4例3.6,泊松分布(Poisson distribution) 1837年法国数学家泊松(D.Poisson,17811840)首次提出 用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布 泊松分布的例子 一定时间段内,某航空公司接到的订票电话数 一定时间内,到车站等候公共汽车的人数 一定路段内,路面出现大损坏的次数 一定时间段内,放射性物质放射的粒子数 一匹布上发现的疵点个数 一定页数的书刊上出现的错别字个数,若随机变量X 为泊松分布,其分布律为:,则称X服从参数为 的泊松分布(Poisson distribution),记为:

31、 XP ( )。 其分布函数为:,其中X表示下取整,即不超过x的最大整数。,概率函数(;)的图形,=5、10、20、30时Poisson分布概率函数直方图。,=2.5、5、10时Poisson分布的概率函数折线图。,泊松分布(数学期望和方差)数学期望E ( X ) = 方差D ( X ) = ,(例题分析),P34-35:例3.7例3.8,【例】假定某航空公司预订票处平均每小时接到42次订票电话,那么10分钟内恰好接到6次电话的概率是多少?,解:设X=10分钟内航空公司预订票处接到的电话次数,泊松分布(作为二项分布的近似) 当试验的次数 n 很大,成功的概率 p 很小时,可用泊松分布来近似地计

32、算二项分布的概率,即,实际应用中,当 P0.05,n20,np5时,近似效果良好,超几何分布(hypergeometric distribution) 采用不重复抽样,各次试验并不独立,成功的概率也互不相等 总体元素的数目N很小,或样本容量n相对于N来说较大时,样本中“成功”的次数则服从超几何概率分布 随机变量X为超几何分布,其分布律为:,分布函数:(略),【例】假定有10支股票,其中有3支购买后可以获利,另外7支购买后将会亏损。如果你打算从10支股票中选择4支购买,但你并不知道哪3支是获利的,哪7支是亏损的。求 (1)有3支能获利的股票都被你选中的概率有多大?(2)3支可获利的股票中有2支被

33、你选中的概率有多大?,解:设N=10,M=3,n=4,4.2.2 连续型概率分布,连续型随机变量可以取某一区间或整个实数轴上的任意一个值 它取任何一个特定的值的概率都等于0 不能列出每一个值及其相应的概率 通常研究它取某一区间值的概率 用概率密度函数的形式和分布函数的形式来描述,一、连续型随机变量的概率分布,概率密度函数:对于随机变量X,如果存在一个定义在( , )上的非负函数f(x),使得对于任意实数x,总有:,则称X为连续型随机变量, f(x)为X的概率密度函数(probability density function),简称概率密度。, 密度函数 f(x)表示X 的所有取值 x 及其频数

34、f(x),分布函数(distribution function) 连续型随机变量的概率可以用分布函数F(x)来表示 分布函数定义为,根据分布函数,P(aXb)可以写为,密度函数曲线下的面积等于1 分布函数是曲线下小于 x0 的面积,分布函数与密度函数的图示, 在平面直角坐标系中画出f(x)的图形,则对于任何实数 x1 x2,P(x1 X x2)是该曲线下从x1 到 x2的面积,F(x)=,二、连续型随机变量的期望和方差连续型随机变量的数学期望,2. 方差,三、常用连续型概率分布,正态分布(normal distribution),由C.F.高斯(Carl Friedrich Gauss,177

35、71855)作为描述误差相对频数分布的模型而提出 描述连续型随机变量的最重要的分布 许多现象都可以由正态分布来描述 可用于近似离散型随机变量的分布 例如: 二项分布 经典统计推断的基础,概率密度函数,f(x) = 随机变量 X 的频数 = 正态随机变量X的均值 = 正态随机变量X的方差 = 3.1415926; e = 2.71828 x = 随机变量的取值 (- x ),分布函数,正态分布函数的性质,P36:正态分布的特征, 和 对正态曲线的影响,正态分布的概率,标准正态分布 (standardize the normal distribution),随机变量具有均值为0,标准差为1的正态分

36、布 任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布,标准正态分布的分布函数,标准正态分布的概率密度函数,标准化转化,标准化的例子P(2.9 X 7.1),标准化的例子P(5 X 6.2),正态分布计算(正态分布表的使用),标准正态分布(u) 可由附表1查得,计算一般正态分布的概率时, 只要将区间的上下限作适当变换(标准化), 就可用查标准正态分布的概率表的方法求得概率了。,例如,u=1.75 ,1.7放在第一列0.05放在第一行 。 在附表1中 , 1.7所在行与 0.05 所在列相交处的数值为0.95994,即 (1.75)=0.95994有 时 会 遇 到 给 定 (u)

37、值 ,例 如 (u)=0.284, 反过来查u值。这只要在附表1中找到与 0.284 最接近的值0.2843,对应行的第一列数 -0.5, 对应列的第一行数 值 0.07 ,即相应的u值为 u = - 0.57,即(-0.57)=0.284如果要求更精确的u值,可用线性插值法计算。,对于标准正态分布,即ZN(0,1),有 P (a Zb) b a 对于负的 z ,可由 (-z) z得到 对于一般正态分布,即XN( , ),有,P38-40例3.9-例3.11,关于标准正态分布,以下几种概率应当熟记: P(-1u1)=0.6826 P(-2u2)=0.9545 P(-3u3)=0.9973P(-

38、1.96u1.96)=0.95 P (-2.58u2.58)=0.99,【例】假定某公司职员每周的加班津贴服从均值为50元、标准差为10元的正态分布,那么全公司中有多少比例的职员每周的加班津贴会超过70元,又有多少比例的职员每周的加班津贴在40元到60元之间呢?,解:本例=50, =10,XN(50,102),均匀分布(uniform distribution),若随机变量X的概率密度函数为称X在 a ,b上服从均匀分布,记为XUa,b 数学期望和方差,均匀分布(概率计算) 随机变量X在某取值范围a ,b的任一子区间c ,d上取值的概率为 同样有,【例】某公共汽车站从早上6时起每隔15min开

39、出一趟班车,假定某乘客在6点以后到达车站的时刻是随机的,所以有理由认为他等候乘车的时间长度X服从参数为a=0,b=15的均匀分布。试求该乘客等候乘车的时间长度少于5min的概率,解:概率密度函数为落入区间0,15的任一子区间0,d的概率是 ,等候乘车的时间长度少于5min即有d =5,因此该事件发生的概率等于5/15=1/3,指数分布(exponential distribution),1.若随机变量X的概率密度函数为,称X服从参数为的指数分布,记为XE() 2.数学期望和方差,指数分布(概率计算) 随机变量X取小于或等于某一特定值x的概率为,2. 随机变量X落入任一区间(a,b)的概率为,【

40、例】假定某加油站在一辆汽车到达之后等待下一辆汽车到达所需要的时间(单位:min)服从参数为1/5的指数分布,如果现在正好有一辆汽车刚刚到站加油,试分别求以下几个事件发生的概率: (1)一辆汽车到站前需要等待5min以上 (2)一辆汽车到站前需要等待510min,解:,研究总体与从中抽取的样本之间的关系是统计学的中心内容 。对这种关系的研究可从两方面着手,一是从总体到样本 ,这就是研究抽样分布(sampling distribution)的问题; 二是从样本到总体,这就是统计推断(statistical inference)问题。,4.3 抽样分布,统计推断是以总体分布和样本抽样分布的理论关系为

41、基础的。为了能正确地利用样本去推断总体,并能正确地理解统计推断的结论,须对样本的抽样分布有所了解。我们知道,由总体中随机地抽取若干个体组成样本,即使每次抽取的样本含量相等,其统计量(如,S)也将随样本的不同而有所不同,因而样本统计量也是随机变量, 也有其概率分布。我们把统计量的概率分布称为抽样分布。,简单随机抽样(simple random sampling) 从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中 抽取元素的具体方法有重复抽样和不重复抽样:前者指每次抽出一个个体后,这个个体应返置回原总体;后者指每次抽出的个体不返置回原总体。对于无

42、限总体,返置与否都可保证各个体被抽到的机会相等。对于有限总体,就应该采取返置抽样,否则各个体被抽到的机会就不相等。,简单随机样本(simple random sample) 由简单随机抽样形成的样本 从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为n样本都有相同的机会(概率)被抽中 参数估计和假设检验所依据的主要是简单随机样本,4.3.1 三种不同性质的分布,总体分布样本分布抽样分布,一、总体分布 总体中各元素的观察值所形成的分布 分布通常是未知的 可以假定它服从某种分布,二、样本分布(sample distribution) 一个样本中各观察值的分布 也称经验分布 当样本容量n逐

43、渐增大时,样本分布逐渐接近总体的分布,三、抽样分布(sampling distribution) 样本统计量的概率分布,是一种理论分布 在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 随机变量是 样本统计量 样本均值, 样本比例,样本方差等 结果来自容量相同的所有可能样本 提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,4.3.2 样本统计量的抽样分布,一、样本均值的抽样分布设有一个总体 ,总体平均数为 ,方差为2,总体中各变数为 x, 将 此总体称为原总体。现从这个总体中随机抽取含量为n的样本,样本平均数记为 。可以设想,从原总体

44、中可抽出很多甚至无穷多个含量为n的样本。由这些样本算得的平均数有大有小,不尽相同,与原总体平均数相比往往表现出不同程度的差异。这种差异是由随机抽样造成的 ,称为 抽样误差(sampling error)。显然,样本平均数也是一个随机变量,其概率分布叫做样本平均数的抽样分布。由样本平均数构成的总体称为样本平均数的抽样总体。,样本均值的抽样分布: 在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布 一种理论概率分布 推断总体均值的理论基础,样本均值的抽样分布(数学期望与方差),样本均值的数学期望,2. 样本均值的方差 重复抽样不重复抽样,比较及结论: 1. 样本均值的均值(数学

45、期望) 等于总体均值 2. 样本均值的方差等于总体方差的1/n,统计量的标准误(standard error),样本统计量的抽样分布的标准差,称为统计量的标准误,也称为标准误差 标准误衡量的是统计量的离散程度,它测度了用样本统计量估计总体参数的精确程度 以样本均值的抽样分布为例,在重复抽样条件下,样本均值的标准误为,估计的标准误(standard error of estimation),当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误 以样本均值的抽样分布为例,当总体标准差未知时,可用样本标准差s代替,则在重复抽样条件下,样本均值的估计标准误为,注意: 样本

46、标准差与样本标准误是既有联系又有区别的两个统计量,式 已表明了二者的联系。二者的区别在于:样 本 标 准 差 S 是 反 映 样 本中各 观测值 , , 变 异 程 度大小的一个指标,它的大小说明了 对 该 样本代表性的强弱。样本标准误是样本平均数 的标准差,它是抽样误差的估计值, 其大小说明了样本间变异程度的大小及精确性的高低。,对于大样本资料, 常将样本标准差S与样本平均数 配合使用,记为 S,用以说明所考察性状或指标的优良性与稳定性。对于小样本资料,常将样本标准误 与样本平均数 配合使用,记为 , 用 以表示 所考察性状或指标的优良性与 抽样误差的大小。,【例】设一个总体,含有4个元素(

47、个体) ,即总体单位数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4 。总体的均值、方差及分布如下:,均值和方差, 现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为:, 计算出各样本的均值,如下表。并给出样本均值的抽样分布:,样本均值的分布与总体分布的比较, = 2.5 2 =1.25,总体分布,样本均值的抽样分布 与中心极限定理,当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x 的数学期望为,方差为2/n。即xN(, 2/n),中心极限定理(central limit theorem),从均值为

48、,方差为 2的一个任意总体(不一定是正态分布)中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为,方差为 2 /n的正态分布。,中心极限定理告诉我们:不论x变量是连续型还是离散型,也无论x服从何种分布,一般只要n30,就可认为 的分布是正态的。 若x的分布不很偏倚,在n20时 , 的分布就近似于正态分布了。,抽样分布与总体分布的关系,二、两个样本均值之差的抽样分布,两个总体都为正态分布,即 , 两个样本均值之差 的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差方差为各自的方差之和,三、 t 分 布,由样本平均数抽样分布的性质知道: 若xN(, 2), 则 N(, 2 /n)。 将随机变量 标准化得: , 则uN(0,1)。 当总体标准差未知时, 以样本标准差S代替所得到的统计量 记为t。在计算 时,由于采用S来代替,使得t 变量不再服从标准正态分布,而是服从t分布(tdistribution)。它的概率分布密度函数如下:,式中,t的取值范围是(-,+); df=n-1为自由度。 t分布的平均数和标准差为: t 0 (df1), (df2)t分布密度曲线如下图 所示,其特点是:,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 中等教育 > 小学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报