1、1,普通高等教育“十一五”国家级规划教材,统计学导论STATISTICS科学出版社,第四章 概率基础,第一节 随机现象与随机事件第二节 概率的性质及其计算第三节 随机变量及其分布第四节 几种常用的概率分布,第一节 随机现象与随机事件,一、确定性现象与随机现象二、随机事件,一、确定性现象与随机现象,(一)随机现象1.概念:在给定的条件下不能确切预见其结果的现象叫作随机现象。2.随机现象的产生:因大量的偶然因素存在且无法控制,使现象的结果不能确定和不能完全预见的。于是,现象的随机性便产生了。,3.随机现象具有三个共同的特点:(1)试验可以在相同的条件下重复进行;(2)每次试验的可能结果可能不止一个
2、,但试验的所有结果在试验之前是确切知道的。(3)在试验结束之前,不能确定该次试验的确切结果。,4.随机现象有一定规律性的。在给定条件下在规律值附近的数值发生的可能性较大,离规律值越近则发生的可能性越大,离规律值越远则发生的可能性越小。统计学就是要通过对随机现象的有限次的观察结果去探寻它的各种统计规律。,5.随机试验的种类随机试验有可重复随机试验和不可重复随机试验两种。前者是指可以在相同条件下重复进行的随机试验;后者是指不能在相同条件下重复进行的随机试验。,二、随机事件,对随机现象的观测称作随机试验。随机试验的每一种结果或者随机现象的每一种表现称作随机事件。,1.事件的种类一个事件如果不能再被分
3、解为两个或两个以上事件,称作基本事件。基本事件是试验的最基本结果:每次试验必出现一个基本事件,任何两个基本事件都不会同时出现。由两个或两个以上基本事件所组成的事件称作复合事件。,一项随机试验的所有基本事件的集合,称作该随机试验的基本事件空间。必然事件是每次试验都一定出现的事件,记作。任何一次试验都不可能出现的事件称为不可能事件,记作。,2.事件的关系和运算事件的关系有:包含和相等;事件的运算有:和(并),差,交(积),逆。(1)包含:关系式 ,表示“若A出现,则B也出现(反之则未必)”,称作“B包含A”,或“A导致B”。,(2)相等:关系式A=B,表示二事件A和B要么都出现,要么都不出现,称作
4、“事件A等于事件B”或“事件A和B等价”。 (3)和(并):运算式A+B或AB读作“A加B”,称作“A与B的和(并)”,表示“A和B至少出现一个”。对于多个事件 , 或 表示“诸事件中至少出现一个”。,(4)差:运算式 AB或AB读作“A减B”,称作“A与B的差”,表示“事件A出现但B不出现”。(5)交(积):运算式AB或AB,称作“A与B的交(或积)”,表示“事件A和B同时出现”。对于多个事件 , 表示“诸事件同时出现”。,(6)逆事件(互补事件): =A不出现,称作A的对立事件或逆事件。显然A和 互为对立事件,它们之间有下列关系:A = A =。(7)不相容(互斥):若AB=,即A与B不可
5、能同时出现,则称A和B不相容。,第二节 概率的性质及其计算,一、概率的概念 对于一个随机事件来说,它在一次试验中可能发生,也可能不发生。既然有可能性,就有可能性大小问题。事件A在随机试验中出现可能性大小的数值度量,称作概率。事件A的概率以P(A)表示。,二、随机事件的频率与概率的关系,在相同条件下,重复进行同一随机试验,A是这个试验的一个结果(事件)。设试验的次数为n,在n次重复试验中A出现的次数为 ,则事件A的频率为,通过大量观测,可以发现:随机试验的频率具有随试验次数增加而趋向稳定的性质,而频率的稳定值可以用来反映事件发生的可能性大小。因此,可以说频率的稳定值p是事件A发生的概率。即P(A
6、)=p,三、概率的性质,设事件A的概率记作P(A),则它应该具有如下性质:性质1:非负性,即0P(A)1性质2:规范性,即对于必然事件,有 P()=1性质3:对于随机事件Ai(i=1,2,),只要它 们两两互不相容,则有,四、概率的估计和计算,可以直接计算概率的场合有两种,分别为古典型概率和几何型概率。(1)古典型概率如果一项随机试验的全部基本事件总数有限,并且各基本事件出现的可能性都相同,事件A由若干基本事件所组成,则A的概率可用下式计算,【例4-1】 袋中盛有除颜色外其他完全相同的50个不同颜色的小球,其中有10个白球。充分混匀后随意摸出一球。求所摸为白球的概率。解:记A = 抽到白球。该
7、试验总共有50个等可能的基本事件,A包含其中的10个。因此,(2)几何型概率如果随机试验可模拟为向区域上随机投点。并且(1)这个区域有明确界限,可以作长度、面积、体积的几何度量。(2)随机点落在这个区域任何一点上的可能性都相同,也就是说,对于中的某一区域g,随机点落在g内的概率与g的几何度量成正比,同它的形状以及在中的位置无关。,对于这种随机试验,如果以A表示随机点落在区域g中这一事件,则其概率可用下式计算,【例4-2】 某农场有耕地500亩,其中1号地块面积为8亩。向500亩耕地随机投点,随机点落在500亩耕地每一位置的可能性相等。求1号地块被抽中的概率。,解:随机点落在1号地块内的概率与地
8、块的面积成正比。1号地块的几何度量为8亩,整个区域几何度量为500亩。记A=随机点落在1号地块=1号地块被抽中,则,(1)概率的加法法则任意事件的加法规则任意两个事件和(并)的概率,等于两事件概率的和再减去两事件同时发生的概率。即,概率的计算公式,【例4-3】 一家计算机软件开发公司的人事部门最近做了一项调查,发现在最近两年内离职的公司员工有40%是对工资不满意,有30%是因为对工作不满意,有15%是因为他们对工资和工作都不满意。求两年内离职的员工内,离职原因是因为对工资不满意或者对工作不满意或者二者皆有的概率。,解:A=员工离职是因为对工资不满意;B=员工离职是因为对工作不满意依题意有:根据
9、概率的加法公式得:,不相容事件的加法规则两个不相容事件A与B的和(并)的概率,等于两事件概率的和。即对多个事件,这个规则也就是前面说过的概率的性质3。,(2)条件概率和乘法公式在实际问题中,除了要知道事件发生概率外,有时还需要知道在“事件B已发生”的条件下,事件A发生的概率,这种概率称为条件概率,记作 。,条件概率的下列一般定义:设A,B是任意两个事件,且P(B)0,则称为“在事件B发生的条件下,事件A发生的条件概率”,简称“A关于B的条件概率”。,【例4-4】一家超市所做的一项调查表明,有80%的顾客到超市是来购买食品,有60%的人是来购买其他商品,40%的人既购买食品也购买其他商品。求:(
10、1)已知某顾客来超市购买食品的条件下,也购买其他商品的概率。(2)已知某顾客来超市购买其他商品的条件下,也购买食品的概率。,解:设A=顾客购买食品,B=顾客购买其他商品,依题意有:(1)已知某顾客来超市购买食品的条件下,也购买其他商品的概率。,(2)已知某顾客来超市购买其他商品的条件下,也购买食品的概率。,由这个定义,可得到概率的乘法公式:设A与B是任意两个事件,且P(A)0,P(B)0,则,【例4-5】 设一批产品共N件,其中有M件次品,不放回地抽取两件,求事件第一件抽到的是正品,而第二件抽到的是次品的概率。,解:记A=第一件是正品,B=第二件是次品,所求事件为AB。根据乘法公式,有,(3)
11、全概率公式 全概率公式可表述如下:设 为个互不相容事件,且 , ,则任一事件的概率为,【例4-6】 有3个工人被指定制作一批产品。第一个人制作这批产品的40%,第二个人制作35%,第三个人制作25%。第一个人的废品率为0.04,第二个人的废品率为0.06,第三个人的废品率为0.03。现随机抽取一件产品,问这件产品为废品的概率是多少?,(4)贝叶斯公式,【例4-7】在例4-6中,若随机抽出的一件产品为废品,试猜测这件产品由第一个、第二个、第三个工人所制作的概率各是多少?,(5)事件的独立性对于两个事件A和B,假若事件B的发生会对事件A发生的概率产生影响,即 ,称事件A与B之间统计相依。假若事件B
12、的发生并不影响事件A发生的概率,称事件A与B之间统计独立。在A与B独立时显然有 ,这时,乘法公式成为,通常把这个关系式作为事件独立性的定义。设A与B是任意两个事件,如果满足则称事件A与B独立,否则称A与B相依。在实际应用中,如果两个事件相互间没有影响,则可以认为这两个事件相互独立。,【例4-8】 在某城市中,有60%的家庭订阅某种日报,有85%的家庭有电视机。假定这两件事情是独立的。今随机抽出一个家庭,所抽家庭既订阅该种日报又有电视机的概率是多少?,应该指出,两个事件相互独立与互不相容是两个不同的概念。独立性是指两个事件的发生互不影响,互不相容是指两个事件不能同时发生。两个不相容事件一定是统计
13、相依的,两个独立事件一定是相容的(除非其中有一个事件的概率为0)。,【例4-9】 对同一目标进行3次射击,第一、二、三次射击的命中概率分别是0.3、0.4、0.6,试求在这三次射击中恰有一次命中的概率。解:记 ,(i=1,2,3), 于是可以写出:,显然,这三个事件是两两不相容的。而是这三个事件的和。根据不相容事件的加法法则,有由于三次射击是彼此独立的,即相互独立,故有,第三节 随机变量及其分布,一、随机变量的概念二、随机变量的概率分布三、随机变量的数字特征,一、随机变量的概念,(一)什么是随机变量随机变量就是在随机试验中被测量的量。 在给定的条件下,这种变量取何值事先不能确定,只能由随机试验
14、的结果来定,并且随试验的结果而变。,(二)随机变量的种类如果随机变量的全体可能取值能够一一列举出来,这样的随机变量称作离散型随机变量(如掷一枚硬币首次出现正面向上所需要的投掷次数);如果随机变量的全体可能取值不能一一列举,其可能的取值在数轴上是连续的,则该变量称为连续型随机变量(如可能出现的测量误差)。,二、随机变量的概率分布,(一)概率分布的概念随机变量的一切可能值的集合(值域),及其相应的概率叫做随机变量的概率分布。随机变量的统计性质可由它的概率分布来表征。,1.离散型随机变量的分布【例4-10】历史上曾有不少人作过反复投掷均匀硬币的试验。现在定义这样一个随机变量:,表4-1 投掷硬币试验
15、结果的频率分布,随着试验次数的增加,随机变量X的观察结果X=1的频率和X=0的频率各自趋于稳定的数值0.5,这两个稳定值应当称作随机变量X取“1”和“0”这两个数值的概率。,于是可以写出随机变量X的概率分布,记号 表示随机变量X取某一个数值 的概率,即 。这个表叫做离散型随机变量的分布数列。表4-2 投掷硬币试验结果的概率分布,综上所述,离散型随机变量X的每一个可能的取值xi和随机变量取该值的概率 之间所确立的对应关系称作这个离散型随机变量的分布。 称作随机变量X的概率分布或概率函数,它满足下面的关系: 和 。,【例4-11】 袋中共有50个球,其中记上0号的5个,记上k号的分别有k个( k
16、= 1,2,9)。现从袋中任取一球。试做出所得号数的分布列。解:记所取之球的号数为随机变量X,由古典概率的计算方法可知: ,。于是,可做出分布列(见表6-3)。,表4-3 离散型随机变量分布数列,【例4-12】一部电梯在一周内发生故障的次数X及对应的概率如下表所示:(1)确定的值; (2)求正好发生两次故障的概率; (3)求最多发生两次故障的概率; (4)求故障次数多于一次的概率。,2. 连续型随机变量的分布【例4-13】检查了在相同条件下生产的246件汽车活塞,测得所切削之活塞孔对中心线的偏差数据。因偏差尺寸属于连续型变量,对这类变量观测数据的整理应当采用组距式分组。把整理结果做成频率分布表
17、(见表4-4)和次数分布直方图(见图4-1)。,表4-4 汽车活塞削孔对中心线偏差的频率分布,偏差尺寸(毫米) 图4-1 活塞削孔对中心线的偏差的频率分布,频率密度,综上所述,连续型随机变量X的一系列取值区间(例如,可以是由与实数轴上的任意点所构成的一系列区间)和随机变量在该区间取值的概率之间确立的对应关系,称作这个连续型随机变量的分布。连续型随机变量的分布可以用密度函数来描述,随机变量的密度函数记作 。,次数分布直方图是用各组的频率密度作直条的高来画图的。当分组数无穷多,而组距(即直条的底边长)趋近于0时,直方图演变成平滑的曲线,这时,直条的高就成 为 。,连续型随机变量在某一数值区间 内取
18、值的概率等于竖立在该区间上的,以密度曲线为上底的曲边梯形的面积。写作,密度函数满足下面两个基本性质:(1)密度函数的函数值不会是负数,从图形看,密度曲线在横轴上方,以横轴为渐近线;(2)在整个实数轴上的密度函数值的和等于1,从图形看,密度曲线下覆盖的总面积等于1。这两个性质用密度函数式写作,三、随机变量的数字特征,(一)随机变量的数学期望随机变量X的数学期望是X的一切可能值以相应的概率为权数的加权算术平均数。今后我们把X的数学期望记作E(X)。,若X是离散型随机变量,,若是连续型随机变量,其概率密度函数为 ,则X的数学期望定义为,式中的定积分应绝对收敛。,数学期望有下列性质:性质 1 常量c的
19、数学期望等于该常量。即性质 2 随机变量与常量之和的数学期望,等于随机变量的数学期望与这个常量之和。即:,性质 3 常量c与随机变量乘积的数学期望,等于这个常量与随机变量数学期望的乘积。即:,性质 4 两个随机变量的和或差的数学期望等于它们各自的数学期望的和或者差。即:这个性质可以推广为n个随机变量和的情形。,性质5 两个独立随机变量乘积的数学期望等于这两个随机变量数学期望的乘积。即,若X与Y独立,有这个性质可以推广到n个独立随机变量情形。即,若 独立,有,1.方差和标准差随机变量X的方差,记作V(X),是X与其数学期望的离差平方的数学期望。即称 为X的标准差。 方差还可以有下列表达式:,(二
20、)随机变量的方差、标准差和变异系数,若X是离散型随机变量,则X的方差用下式计算。,若是连续型随机变量,其概率密度函数为 ,则方差用下式计算。,方差有下列性质:性质 1 常量c的方差等于0。即性质 2 随机变量与常量之和的方差等于随机变量的方差。,性质3 常量与随机变量乘积的方差等于该常量的平方与该随机变量方差的乘积。即,性质4 两个独立随机变量之和的方差,等于它们各自方差之和。即,若X和Y独立,有这个性质可以推广到n个独立随机变量的情形。即,若 独立,有,性质5 两个独立随机变量之差的方差,等于它们各自方差之和。即,若X与Y独立,有,2.变异系数随机变量的变异系数是随机变量的标准差与数学期望的
21、比率。随机变量X的变异系数写作,第四节 几种常用的概率分布,(一)两点分布(二)二项分布(三)超几何分布(四)正态分布(五)均匀分布(六) 分布(七)F分布(八)t分布,一、两点分布,如果随机变量X只取1和0两个值,取1的概率是p,取0的概率是1-p,我们称X服从两点分布或0-1分布,p是X的参数。随机变量的概率分布为:,【例4-14】 已知在20件产品中有5件是二等品。现在从中任意抽取1件(每件产品都有相等的可能性被抽到),写出抽取结果(是二等品、不是二等品)的分布列。,解:用随机变量X表示抽取结果。若结果是二等品,记X = 1;若结果不是二等品,记X = 0。分布列如表4-5。表4-5 两
22、点分布的分布列,二、二项分布,如果把一个贝努里试验在完全相同的条件下独立地重复n次,称作n重贝努里试验。n重贝努里试验应符合下列三个条件:(1)每次试验只有“成功”和 “失败”两种对立的结局;(2)各次试验“成功”的概率相同(都为p);(3)各次试验相互独立。,以随机变量X表示n重贝努里试验中“成功”的次数,它服从参数为(n,p)的二项分布。二项分布的概率函数为 其中,k是n重贝努里试验中“成功”的次数。,【例4-15】 例4-14中,如果以还原方式抽取4次(即每次抽取后,把所抽取的产品放回),写出抽到二等品件数的分布列。解:用随机变量X表示经过4次抽取,抽到二等品的件数。它可能的取值是0,1
23、,2,3,4。分布列如表4-6。,表4-6 二项分布的分布列表中,X取0,1,2,3,4各数值的概率是用公式算出的,其中,n = 4是试验次数,p= 5 / 20 = 0.25是一次试验“成功”的概率, k= 0,1,2,3,4。,三、超几何分布,超几何分布的试验背景是:对有限总体进行不放回方式的简单随机抽样,观察样本中具有某种特征的单位数目。如果有限总体单位数目为N,其中具有某种特征的单位数目为M,对这个总体进行n次不还原简单随机抽样,用随机变量X表示样本中具有某种特征的单位的数目,则X服从参数为(N,M,n)的超几何分布。,超几何分布的概率函数是。其中,k是样本中具有某种特征的单位的数目。
24、,【例4-16】在例4-14中,如果改为不放回地抽取4次,写出抽到二等品件数的分布列。解:用随机变量X表示经过4次抽取,抽到二等品的件数。它可能的取值是0,1,2,3,4。分布列如表4-7。,表4-7 超几何分布的分布列表中取0,1,2,3,4各数值的概率是用公式计算出的。式中,N =20是总体单位数目,M =5是总体中二等品的件数,n = 4是试验次数。,四、正态分布,令随机变量X是在一个随机试验中被测量的结果,并且,决定这项试验结果的是大量偶然因素作用的总和,每个因素的单独作用相对均匀地小,那么,X的分布就近似于正态分布。,正态分布的密度函数是正态分布密度函数的图形是左右对称的,以横轴为渐
25、进线的钟形曲线。,图4-3 正态分布概率密度曲线中的参数作用,正态分布的密度函数有两个参数:和2。从密度函数的图形来说,决定着曲线在横轴上的位置, 越大,图形位置越靠右;2决定着曲线的形状,2越大,图形越“矮胖”(见图4-3)。,标准正态变量是 的正态变量,通常记作 ,用大写字母Z表示标准正态变量,用小写字母z表示它的取值。密度函数是,把随机变量与它的数学期望相减之差除以该随机变量的标准差(方差的平方根),称作随机变量的标准化。标准化能简化正态分布概率的计算。转换公式为:,一般地,对于服从标准正态的随机变量z,设其分布函数为,则标准正态变量在任何一个区间上的概率可以表示为:,对于负的z ,可以
26、由下式得到:,同样,对于服从一般正态分布的随机变量X,取值在某一区间上的概率都可以通过标准正态分布求得。,【例4-18】假定某公司职员每周的加班津贴服从均值为50元、标准差为10元的正态分布,那么全公司中有多少比例的职员每周的加班津贴会超过70元,又有多少比例职员每周的加班津贴在40元到60元之间呢?,解:定义X=该公司职员每周的加班津贴,由已知条件有 ,查标准正态分布表,利用公式计算得到:,利用公式计算得到:,这是v个相互独立的标准正态变量的平方和构成的随机变量所遵循的分布规律。这个分布的概率密度函数的图形如图4-4。,五、 分布,图4-4 分布概率密度曲线,图中表示了一族曲线,其形态随v值
27、的不同而改变。v是构成变量的标准正态变量个数,称作变量的自由度。今后,对变量的分布规律,总要说明它的自由度,记作 。,六、F分布,设X和Y是相互独立的服从 分布的随机变量,自由度分别为 ,则称随机变量所遵循的分布规律为 F分布,记作F( )。,其中, 称作F分布的第一自由度(分子自由度), 称作F分布的第二自由度(分母自由度)。图中表示一族曲线,其形态随 的改变而不同。,图4-5 F分布的概率密度曲线,七、t分布,设X是标准正态变量,Y是自由度为v的变量,且X和Y相互独立,则称随机变量所遵循的分布规律为t分布。,v称为它的自由度,记作t (v)。这个分布的概率密度函数的图形如图4-6。图中表示一族曲线,其形态随v的改变而不同。,图6-6 t分布的概率密度曲线,几种常见分布的数学期望和方差,两点分布:二项分布:超几何分布:,正态分布:标准正态分布:,122,谢谢观赏,