1、1第 4 章 概率与概率分布本章的主要目的: 掌握随机事件的含义、事件的概率计算方法及其运算法则; 掌握随机变量的含义及正态分布、二项分布、泊松分布的特性及应用。 了解大数定律及中心极限定理的含义。4.1 概率基础这节主要内容是随机事件、概率的含义、概率的运算规则等。有人说:如果一艘船即将沉没,一个著名的规则就是,救生艇会先载满妇女和小孩。我们先看在 1912 年 4 月 15 日(星期一)沉没的泰坦尼克号上的死亡人数表,这条规则是否被遵守?男 人 妇 女 男 孩 女 孩 总 计幸 存 332 318 29 27 706死 亡 1360 104 35 18 1517总 计 1692 422 6
2、4 45 2223从本章起, 我们将用样本数据来对总体做一些推论(或结论) 。那些推论中有很多将在事件概率的基础上得到。统计学家一般这样认为:如果某种解释基于非常小的概率,他们就拒绝这种解释,小概率事件法。1. 随机事件我们的现实生活中有两类不同的现象:确定性现象和随机现象。随机现象是指在一定条件下可能发生也可能不发生的现象。随机现象通过大量的观察会发现其有明显的统计规律性,这个观察的过程叫试验,试验有三个条件:试验可以在相同条件下重复进行;试验的所有可能结果是明确可知的;每次试验之前不能肯定哪一个结果会出现。随机试验的每一个可能的结果称为随机事件,简称事件;若一个事件不可能再分解为更简单成分
3、的结果或事件,就称之为基本事件或简单事件(样本点) ;基本事件的全体(全集)称为样本空间 ;由某些基本事件组合而成的事件(子集)称为复合事件。必然事件和不可能事件不是随机事件,但可以作为随机事件的两个极端情形来处理。实例一:掷骰子观察点数的试验。掷一个骰子和两个骰子。2. 随机事件的关系和运算随机事件之间通常有一定的联系。事件的包含与相等。若事件 A 发生必然导致事件 B 发生,则称事件 B 包含事件。事件的并(和) 。事件 A 与事件 B 至少有一个发生。A+B 或 AB。事件的交(积) 。事件 A 与事件 B 同时发生。AB 或 AB事件的差。事件 A 发生而事件 B 不发生。A-B。互不
4、相容(互斥)事件。事件 A 和事件 B 不能同时发生。AB=。补(逆、对立)事件。样本空间中所有不属于事件 A 的样本点组成的事件。实例二:抽零件。3. 事件的概率随机事件发生可能性大小的数值称为随机事件的概率。我们将学习三种定义概率的方法。 概率的古典定义。假设一个已知过程包括 n 种不同的基本事件,那些基本事件中的某一个发生的可能性都是相同的。如果在这 n 种方式中有 m 种是属于事件 A 的,那么 P(A)=m/n。这里要强调指出两个共同的特点:有限基本事件(可能结果 n) ;各结果出现的可能性相同。实例三:书中例 4-1;例行 4-2。2 概率的统计定义:相对频数近似。对一个过程观察许
5、多次,计算出事件 A 实际发生的次数。基于这些实际结果,P(A)可按公式“P(A)=A 发生的次数/试验重复的次数”来估计。大数法则告诉我们当观测的次数增加时,相应的估计就趋近于精确的概率。当一个过程一次又一次地重复时, 一个事件的相对频数概率就趋近于实际概率。也就是说只有很少试验的概率估计可能与真实数值背道而驰,但如果基于很多的试验,估计就会更精确。 概率的主观定义。人们根据自己的经验和所掌握的有关信息,对事件发生的可能性大小给以主观的估计。如教师对学生考取大学的判断;计算一个随机选择的人在今年将被闪电击中的概率。4. 概率的性质任何事件数学上的概率都是 0、1 或位于 0 与 1 之间的一
6、个数字。建议:当表达一个概率值时,要么给出一个确切的分数或小数,要么将最终十进制的结果四舍五入到 3 位有效数字。概率有如下性质: 对任一随机事件 A,有 0P(A)1; 一个不可能事件的概率为 0; 一个必然事件的概率为 1; 对于两两个互斥的随机事件 Ai(i =1,2,) ,则有 P(A 1+A2+)=P(A 1)+ P(A 2)+。要理解,一个概率接近于 0 的值反映的是那些非常不可能的事件,而那些接近于 1 的值反映的是非常有可能发生的事。5. 概率的运算法则 概率的加法公式。对任意两个随机事件 A、B,有P(A+B)=P(A)+P(B)P(AB)要计算事件 A 发生或事件 B 发生
7、的概率时,计算 A 能够发生的所有方式的个数和 B 能够发生的所有方式的个数,但没有结果被计算多次。文氏图显示。实例四:书中例 4-3;例 4-4。课堂练习一:假设从 2223 名登上泰坦尼克号的乘客中随机地选出一人,请计算 P(选出了一个男人或一个男孩) ;P(选出了一个男人或一个幸存者) 。 概率的乘法公式。对任意两个随机事件 A、B,有P(AB)=P(A)P(BA)这里 P(BA)是条件概率,指在事件 A 已经发生的条件下事件 B 发生的概率。两个事件A 和 B,如果一个的发生不影响另一个的发生概率,就称这两个事件是独立的,也就意味着P(B)= P(BA)或 P(A)= P(AB) ;否
8、则就是非独立的。实例五:书例 4-5;例 4-6。一般地,独立事件的任何一种次序的概率就是其对应的概率的简单乘积。这里注意“有放回和无放回”的区别。但有一个一般性的指导原则:“如果一个样本的容量没有超过总体容量的 5%,就将选择看作是独立的(即使选择是没有放回的,从技术上讲选择是非独立的) 。 ”课堂练习二:如果从泰坦尼克号 2223 人中随机选择 1 人,已知是一个男人,这个人是幸存者的概率是多少?已知是一个幸存者,这个人是男人的概率又是多少?课堂练习三一个质量控制经理声称一种新的数字相机加工程序更好,因为次品率低于过去的次品率 5%。加工 1000 个数字相机,其中 12 个随机选出做检测
9、,结果是没有次品。假设新方法的次品率和过去一样,都是 5%,计算这 12 个数字相机没有次品的概率。基于这个结果,3是否有强大的证据说明,新程序更好? 全概率公式与贝叶斯公式。对于一些复杂事件,单独用加法公式或乘法公式还不能计算其概率,为此可以反它分解为若干互斥的基本事件。实例六:请先看例 4-8。全概率公式:设事件 Ai(i=1,2,n)两两互斥,且A i=,则P(B)=P(A i)P(B|A i) 。贝叶斯公式:P(A i |B)=P(A i B)/P(B)实例七:例 4-9;例 4-10。4.2 随机变量及离散概率分布1. 随机变量及概率分布这一节我们讨论随机变量及其概率分布,概率分布描
10、述的是什么将可能发生,而不是什么已经实际发生了。一个随机变量是指这样的一个变量,对于过程中的每个结果(事件) ,都有一个由可能性决定的惟一的数值。一个概率分布是指表示随机变量每个值的图、表或公式。实例八:一项研究的内容是,随机选择 4 个新生儿,看女孩有多少个。如果我们假设男孩和女孩是等可能的,并且令 x = 14 个孩子中女孩的个数,那么 x 就是一个随机变量,因为它的取值取决于可能性。X 的可能性取值有 0,1,2,14。下表列出了 x 的值以及相应的概率。这个表也就描述了一个概率分布。X(女孩) P(x) X(女孩) P(x) X(女孩) P(x)0 0.000 5 0.122 10 0
11、.0611 0.001 6 0.183 11 0.0222 0.006 7 0.209 12 0.0063 0.022 8 0.183 13 0.0014 0.061 9 0.122 14 0.000按取值特点不同,随机变量可分为离散随机变量和连续随机变量。一个离散随机变量是指数量值有限,或可数的随机变量;一个连续随机变量有无限多的数值,这些数值能够和一种连续刻度的度量联系起来,这种刻度没有缝隙或间断。每一个概率分布必须满足下面两个必要条件: P(x)= 1 其中 x 表示所有可能的取值。 0P(x)1 对于 x 的每个值。分布函数 F(m)描述的是 x 取值不超过 m 的的情况上的累积概率,
12、即F(m)= P(xm)=P(x)2. 数学期望和方差常用的随机变量的数字特征有数学期望、方差和标准差。数学期望就是随机变量的平均值,是所有随机变量所有可能取值的平均水平,E(x)或 。随机变量的方差是随机变量的各可能取值偏离其均值的离差平方的均值, D(x)或 2。E(x)=xP(x)D(x)= 2=(x-) 2 P(x)实际上,一个概率分布就是一个理论上完美的总体频数分布。课堂练习四:在实例八中我们描述了 14 个随机选择的新生儿中女孩数量的概率分布,请计算女孩数量的均值、标准差,并用这些结果来计算最大正常值和最小正常值。? 在 14 个新生儿中若有 13 个女孩是正常的吗?根据课堂练习四
13、的结果,我们发现 13 是异常的!我们可用另一种方法来说明,如果 P(13 或更多的女孩)非常小,那么 14 个新生儿中有413 个女孩就是异常的。P(13 或更多的女孩)=P(13)+P(14)=0.001因为 0.001 这个数好小,所以我们认为,在 14 个新生儿中有 13 个女孩是异常的。也就是在 14 个新生儿中有 13 个女孩这样的结果偶然发生是非常不可能的。一般地,使用概率来确定结果是否是异常的 如果 P(x 或更多)很小(如小于 0.05) ,n 次试验中有 x 次成功就是异常的高; 如果 P(x 或更少)很小(如小于 0.05) ,n 次试验中有 x 次成功就是异常的低。3.
14、 二项概率分布简称二项分布,它能帮助我们处理结果为两种相关类型的问题。二项分布来自于满足下列必要条件的过程: 这个过程包括一个固定次数 n 的试验。 试验必须是独立的,即每次试验结果不受其他各次试验结果的影响。 每次试验的结果都可分为两类, “成功”或“失败” 。 每次试验中的概率必须是常数。 “成功”概率为 p,则“失败”概率为 q=1-p。实例九:某电信公司声称,当用户给查号台打电话查询电话号码时,90%的情况下会得到正确的电话号码。假设回答的正确率为 90%,假如我们想计算在 5 次询问中有 3 次回答正确的概率。这个过程是二项分布吗?如果这个过程的结果是二项分布,请说明 n、k、p 和
15、 q 的值。二项分布也称贝努里分布,其计算我们可用三种方法: 公式法。 查表法。 软件工具法。E(x)=npD(x)= 2=npq二项分布最可能“成功”的次数(众数 k) ,即 P(k)为最大,为(n+1)p=k 为整数时,最可能成功的次数有两个即 k 和 k-1;当(n+1)p 不为整数时,最可能成功的次数是k=(n+1)p,实例十:书中例 4-11。4. 泊松分布泊松分布经常作为一个数学模型来描述这样一些问题:一个队伍里到来的排队者;一个加油站到来的汽车;一个饭店里到来的就餐者;一个书店到来的学生;以及一个网站到来的因特网用户等。泊松分布是一种离散概率分布,应用于一个区间内某一事件的发生。
16、随机变量 x是这个事件在此区间内发生的次数。这个区间可以是时间、距离、面积、体积或其他类似单位。事件在一个区间内发生了 k 次的概率可用公式P()= k e- /k! 0泊松分布服从下列条件: 随机变量 k 是一个事件在某区间内发生的次数。 事件的发生必须是随机的。 事件的发生必须是相互独立的。 在所有的区间内,事件的发生必须是统一的分布。泊松分布的最可能值:当 为整数时最可能值有两个 x= 或 x=-1;当 不是整数时,x=。E(x)=D(x)= 2=泊松分布可以作为二项颁布的近似,一般要求 n20,p0.25。实例十一:书中例 4-12;例 4-13。5课堂练习五:在对二战期间的 V-1
17、飞弹击中地区的分析中,伦敦南部被分割为 576 个小区域,每个小区域的面积为 0.25km2,一共有 535 枚炸弹击中了由这 576 个小区域组成的地区。如果随机选择一个小区域,计算它恰好被击中 2 次的概率。4.3 正态概率分布1. 概率密度与分布函数由于连续随机变量的取值不能一一列举,其概率分布就不能象离散随机变量那样用点的概率表示,只能用数字的函数形式来描述。对于任意连续随机变量,任何一个精确值的概率都是 0,因此也就有 P(axb)= P(axb) 。P(axb)= P(axb)= P(axb)= P(axb)= abf(x)这里 f(x)就是概率密度函数。密度曲线下的面积总和为 1
18、,其面积与概率之间有一种对应关系。分布函数 F(a)=P(xa)= - bf(x)dx分布函数具有如下性质:P71:1-4。数学期望与方差计算公式。2. 标准正态分布如果一个连续随机变量的分布的图形是对称的,并且是钟形的,我们就称之为正态分布。正态分布之所以重要,一是因为许多随机现象服从或近似服从正态分布,其最大特点是与均值较接近的数值出现的次数较多,离均值远的数值出现的次数较少,即属于“中间大、两头小”的分布形态;二是它特有的数学特性。正态分布的数学公式好复杂,实际上我们只需关心两个参数: 和 。标准正态分布就是 =0,=1 的正态概率分布。 已知 z 值时计算概率。我们可利用书附表 3 的
19、标准正态颁布表数据来得到概率。课堂练习六:分别计算以下概率:P(0z1.58)P(-2.43z0)P(z1.27)P(1.20z2.30)P(x1.33)P(x-1.33)注意:要记住 z=1,2,3,1.96 时的对应概率值! 已知概率时计算 z 值。我们可利用书附表 3 的标准正态颁布表数据来得到。课堂练习七:设 z 的值服从标准正态分布:如果 P(0za)=0.3907,计算 a。如果 P(-bzb)=0.8664,计算 b。如果 P(zc)=0.0643,计算 c。如果 P(zd)=0.9922,计算 d。如果 P(ze)=0.4500,计算 e。3. 正态分布我们只需用 z 值公式将
20、数值转化成标准值,则所有的正态分布的概率求法就与标准正态分布一样。具体来说有以下步骤: 画一个正态曲线,标出均值和一个特定的 x 值,然后用阴影表示要计算概率的区域。 对于作为一个阴影区域边界的任何一个相应的 x 值,求出其 z 值。6 查标准正态分布表来计算阴影区域的面积,这个面积就是要计算的概率。实例十二:女性的体重服从均值为 143 磅、标准差为 29 磅的正态分布。如果随机选择一个妇女,她的体重在 143 磅和 201 磅之间的概率是多少?有多少比例的妇女体重在 100 磅和 130 磅之间?我们现在转向另一种情况,在女性的体重正态分布中,请计算将最高的 10%和其他值分开的体重数值?
21、在这种已知概率(或百分比)来计算一个特定的数值问题中,一般遵循以下步骤: 画一个正态分布的草图,在图中相应比例的区域上写下已知的概率值或百分比,找出想要求的 x 值。 使用标准正态表来计算对应于以 x 值和中轴线 0 为界线的区域的 z 值。从表中查出最接近的面积,找出相应的 z 值,若 z 值位于中轴线左侧,则令其为负。 按公式 x=+z 求得 x。实例十三:在上述妇女体重正态分布中,计算 P10 的值,即计算将最低的 10%和最高的90%分开的体重值。课堂练习八:假设一名健康成年人的体温服从均值 36.3,标准差为 0.45的正态分布。如果一位医学研究员想要研究体温最低的 2.5%和体温最
22、高的 2.5%的人,求将这些界限分开的体温。4.4 中心极限定理中心极限定理是统计学中最重要和最有用的概念之一,是总体估计和假设检验的基础。我们的重点在概念的理解和应用上。1. 中心极限定理一般地,任何一个统计量的抽样分布都是指这个统计量的概率分布。均值的抽样分布是指样本均值的概率分布,其中所有的样本都有相同的样本容量 n。实例十四:考虑由数字 0,1,2,3,4,5,6,7,8,9 组成的总体,从中进行有放回的随机选择。随机变量:如果我们做的试验是随机选择一个单独的数字,将选出的数字的数值用 x表示,则 x 就是一个随机变量。概率分布:假设数字是随机选择的,每个数字被选择的概率都是 1/10
23、,这可以用公式P(x)=1/10 来表示。这是一个概率分布。抽样分布:现在假设我们随机选择了很多不同的样本,每个样本的容量都是 4。在每个样本中,计算样本的均值 x(这个也是一个随机变量,它的值也依赖于取值的概率) 。样本均值 x的概率分布就是一个抽样分布。中心极限定理已知:随机变量 x 服从一个均值为 、标准差为 的分布(是否是正态分布都可以) ,所有具有相同容量 n 的样本都是从一个包含 x 个数值的总体中随机选出的(这样选择样本就使得所有容量为 n 的可能样本被选出的机会都是相同的) 。结论:随着样本容量的增加,样本均值 x将趋近于一个正态分布;样本均值的均值将趋近于总体均值 ;样本均值
24、的标准差将趋于 /n 。通常使用的应用法则: 对于容量 n 大于 30 的样本,样本均值的分布可以较好地用一个正态分布近似。样本容量 n 越大,近似的效果越好。 如果原始总体自身就是正态分布的,则对于任意样本容量 n(不只是大于 30 的 n) ,样本均值都将是正态分布的。7统计学中令人着迷的现象:通过从任意分布中进行抽样,我们就可以创造一个正态分布,或至少一个近似正态分布。如果你有兴趣,你可以对实例十四进行检验。实例十五:妇女体重的正态分布中,计算下列概率:如果随机选择一名妇女,她的体重超过 150 磅的概率;如果随机选择 36 名不同的妇女,她们的平均体重超过 150 磅的概率。课堂练习九
25、:健康成年人体温分布中,如果随机选择一个容量 n=106 的样本,计算其均值为 36.1或更低的概率。2. 正态分布作为二项分布的近似如果 np5 并且 nq5,则二项随机变量服从近似的正态分布,其均值和方差是 =np和 2=npq。实例十六:大约有 4.4%的致命的汽车碰撞事件都是由于漏气车胎造成的。如果在一项高速公路安全方面的研究中,随机地选择了 750 例致命的汽车碰撞事件,估计恰好有 35 例是由漏气车胎造成的概率。要注意的是:当我们使用正态分布作为二项分布的一个近似时,我们的最终目的并不是简单地计算概率值。我们经常需要在概率值的基础上做一些判断,因此我们应该理解低的概率对应于非常不可能发生的事件,而高的概率则对应于很可能发生的事件。概率值 0.05 经常用来作为区分不可能事件和可能事件之间的分界线。当使用 0.05 作为分界线时,小概率事件法则可以表述如下:在已知假设下,如果某一特定的观测结果的概率为 0.05 或更小,我们就认为这个假设可能是不正确的。作业P78-79 页的全部习题要求自己独立完成。预习第五章。