1、第四章 概率与概率分布,4 概率与概率分布,掌握随机变量及其概率分布的含义,为推断统计的学习作准备,学习目标,在概率部分,复习样本空间与事件的概念、事件的概率及计算 在概率分布部分,复习随机变量的定义、离散型和连续型随机变量的概率分布、概率分布的数量特征,几种典型的概率分布如0-1分布、二项分布、正态分布等,以及典型概率分布的应用,4.1 概率基础知识,随机事件随机事件的概率,随机事件的几个基本概念,事件的概念,事件:随机试验的每一个可能结果 例如:掷一枚骰子出现的点数为3 (任何样本点集合) 随机事件:每次试验可能出现也可能不出现的事件 例如:掷一枚骰子可能出现的点数 必然事件:每次试验一定
2、出现的事件,用表示 例如:掷一枚骰子出现的点数小于7 不可能事件:每次试验一定不出现的事件,用表示 例如:掷一枚骰子出现的点数大于6,事件与样本空间,基本事件 一个不可能再分的随机事件 例如:掷一枚骰子出现的点数 样本空间 一个试验中所有基本事件的集合,用表示 例如:在掷枚骰子的试验中,1,2,3,4,5,6 在投掷硬币的试验中,正面,反面,事件的概率,事件A的概率是对事件A在试验中出现的可能性大小的一种度量 表示事件A出现可能性大小的数值 事件A的概率表示为P(A) 概率的定义有:古典定义、统计定义和主观概率定义,概率的古典定义, 如果某一随机试验的结果有限,而且各个结果在每次试验中出现的可
3、能性相同,则事件A发生的概率为该事件所包含的基本事件个数 m 与样本空间中所包含的基本事件个数 n 的比值,记为,概率的古典定义-实例,【例4.1】某钢铁公司所属三个工厂的职工人数如下表。从 该公司中随机抽取1人,问:(1)该职工为男性的概率(2)该职工为炼钢厂职工的概率,概率的统计定义, 在相同条件下进行n次随机试验,事件A出现 m 次,则比值 m/n 称为事件A发生的频率。随着n的增大,该频率围绕某一常数P上下摆动,且波动的幅度逐渐减小,趋向于稳定,这个频率的稳定值即为事件A的概率,记为,事件的概率,例如,投掷一枚硬币,出现正面和反面的频率,随着投掷次数 n 的增大,出现正面和反面的频率稳
4、定在1/2左右,概率的统计定义-实例,【例4.2】某工厂为节约用电,规定每天的用电量指标为1000度。按照上个月的用电记录,30天中有12天的用电量超过规定指标,若第二个月仍没有具体的节电措施,试问该厂第一天用电量超过指标的概率。解:上个月30天的记录可以看作是重复进行了30次试验,试验A表示用电超过指标出现了12次。根据概率的统计定义有,(三)概率的公理化定义及性质在随机试验样本空间 上对每个时间A都有对应的实数P(A),如果这样的P(A)满足:1、对于任何事件A,有0P(A)1;(P(A)0)2、必然事件的概率为1,即P()=1;3、不可能事件的概率为0,即P()=0。(-)4、A1,A2
5、,Ai为互斥事件,则P(A1+A2+Ai)= P(A1)+ P(A2)+ P(Ai) 则称P(A)为事件A的概率,全概率公式和贝叶斯公式,4.2 随机变量及其概率分布,随机变量的概念随机变量的概率分布,4.2.1 随机变量的概念,一次试验的结果的数值性描述 一般用 X、Y、Z 来表示 例如: 投掷两枚硬币出现正面的数量 根据取值情况的不同分为离散型随机变量和连续型随机变量,离散型随机变量,随机变量 X 取有限个值或所有取值都可以逐个列举出来 X1 , X2, 以确定的概率取这些不同的值 离散型随机变量的一些例子,连续型随机变量,随机变量 X 取无限个值 所有可能取值不可以逐个列举出来,而是取数
6、轴上某一区间内的任意点 连续型随机变量的一些例子,4.2.2 随机变量的概率分布,随机变量可能的取值范围和取这些值相应的概率称为随机变量的概率分布离散型随机变量的概率分布连续型随机变量的概率分布,离散型随机变量的概率分布,列出离散型随机变量X的所有可能取值 列出随机变量取这些值的概率 通常用下面的表格来表示,P(X =xi)=pi称为离散型随机变量的概率函数 pi0,连续型随机变量的概率分布,连续型随机变量可以取某一区间或整个实数轴上的任意一个值 它取任何一个特定的值的概率都等于0 不能列出每一个值及其相应的概率 通常研究它取某一区间值的概率 用数学函数的形式和分布函数的形式来描述,概率密度函
7、数,设X为一连续型随机变量,x 为任意实数,X的概率密度函数记为f(x),它满足条件,f(x)不是概率,概率密度函数, 在平面直角坐标系中画出f(x)的图形,则对于任何实数 x1 x2,P(x1 X x2)是该曲线下从x1 到 x2的面积,概率是曲线下的面积,4.2.3 随机变量分布的数字特征,在实际问题中概率分布较难确定,而反映随机变量某些方面特征的数值,即随机变量的数字特征相对较容易估算出来,并且许多问题的解决往往只需知道某些数字特征 在这些数字特征中,最重要的是期望和方差,离散型随机变量的数学期望,描述离散型随机变量取值的集中程度 计算公式为,离散型随机变量的方差,描述离散型随机变量取值
8、的分散程度 计算公式为,离散型随机变量的方差-实例,【例4.4】投掷一枚骰子,出现的点数是个离散型随机变量,概率分布为如下。计算数学期望和方差。,解:数学期望为:,方差为:,连续型随机变量的期望和方差,连续型随机变量的数学期望为方差为,4.2.4 几种重要的随机变量概率分布,离散型0-1分布 超几何分布二项分布 泊松分布连续型正态分布 t分布 F分布 2(卡方)分布,0-1分布,一个离散型随机变量X只取两个可能的值 例如,男性用 1表示,女性用0表示;合格品用 1 表示,不合格品用0表示 列出随机变量取这两个值的概率,超几何分布,设一批同类产品共N个,其中M个次品,现从中任取n个,则这n个产品
9、中所含次品数X是一个离散型随机变量,二项试验-贝努利试验,二项分布与贝努利试验有关 贝努利试验具有如下属性 每次试验只有两个可能的结果,即成功和失败 重复n次,二项分布,设X为 n 次重复试验中事件A出现的次数,X 取 x 的概率为,二项分布-实例,例:从一批零件中随机抽取5件进行检验,每次取一件且检验后放回。假设在零件的加工过程中,出现次品的概率为0.05,求5件零件中恰好有x件次品的概率(x=0,1,2,3,4,5)。,解 可以把抽取5个零件看成是5次独立试验。设抽到次品数为X,则X服从参数n=5、p=0.05的二项分布。其概率分布为,泊松分布,用于描述在一指定时间范围内或在一定的长度、面
10、积、体积之内每一事件出现次数的分布 泊松分布的例子 一个城市在一个月内发生的交通事故次数 消费者协会一个星期内收到的消费者投诉次数 人寿保险公司每天收到的死亡声明的人数,泊松概率分布函数, 给定的时间间隔、长度、面积、体积内“成功”的平均数 e = 2.71828 x 给定的时间间隔、长度、面积、体积内“成功”的次数,正态分布的重要性,描述连续型随机变量的最重要的分布 可用于近似离散型随机变量的分布 例如: 二项分布 经典统计推断的基础,概率密度函数,f(x) = 随机变量 X 的频数 = 总体方差 =3.14159; e = 2.71828x = 随机变量的取值 (- x ) = 总体均值,
11、 和 对正态曲线的影响,正态分布的概率,概率是曲线下的面积!,标准正态分布的重要性,一般的正态分布取决于均值和标准差 计算概率时 ,每一个正态分布都需要有自己的正态概率分布表,这种表格是无穷多的 若能将一般的正态分布转化为标准正态分布,计算概率时只需要查一张表,标准正态分布函数,标准正态分布的概率密度函数,任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布,标准正态分布的分布函数,标准正态分布,标准正态分布表的使用,对于一般正态分布,即XN( , ),有,标准化的例子 P(5 X 6.2),t.,售机票的学问,资料泛美航空公司新开设了一条每日往返于芝加哥和爱达荷州首府博伊西之间的航
12、线。在最初的20个航班中,每个航班的75个座位都被全部预订出去了。在飞机起飞之前,每个航班都发现有个别乘客没来乘机。显然,坐不满的飞机会给航空公司带来经济损失。经过对最初20个航班资料的整理,得到如下空座位的频数分布:,售机票的学问(续),售机票的学问(续),如果每个航班只售75张机票,则航空公司面临着乘客没有乘机的风险(noshows)。当然,航空公司也可以在售票时多售一些,但这样又面临着超过75个人来登机的风险(overbooking)。为了减少风险,制定出更合理的方案,航空公司需要掌握已经预订了机票的乘客中有多大比例不来乘机。据悉,每张机票200美元,若来登机的乘客人数少于75人,每空一个座位就损失200美元;反之,若登机人数超过75人,则按照一般惯例,无法登机的乘客可以得到400美元,即除退还200美元机票费用,还得到同样数目的损失赔偿。讨论大纲 对于任意一位乘客,能否计算出他预订了机票却不来乘机的概率?如果可以,是多少?它的分布情况如何? 预订机票数目超过75或不足75都会给航空公司带来经济损失,试计算这一数目为多少时机会损失最小。,伪随机数,Excel的应用,利用“函数”-“统计”中的有关函数“正态 二项 泊松”等计算概率或已知概率返回随机变量. 利用 “数据分析”-“分析工具”-“随机数发生器”生成随机数。,