1、第一章 概率统计基础知识,北京理工大学珠海学院 吴浩然,第一章 概率统计基础知识,概率基础知识,1,随机变量及其分布,2,统计基础知识,3,参数估计,4,假设检验,5,第一节 概率基础知识,事件与概率,1,概率的古典定义与统计定义,2,概率的性质及其运算法则,3,1.事件与概率,确定性现象,随机现象,在一定条件下必然会发生的现象。 【如】:水100C沸腾。,在一定条件下,并不总是出现相同结果的现象。 【如】: (1)掷一枚硬币,出现正面或反面? (2)一批产品中,不合格品的数量; (3)机械加工中出现的误差;,样本空间,随机现象一切可能结果(样本点)构成的全体,称为样本空间 。 【如】:(1)
2、掷一枚硬币。 正面,反面 ;(2)一批产品中,不合格品的数量。 0,1,2,3, ;,随机事件,随机现象的某些样本点构成的集合,称为事件,用大写英文字母A、B、表示。表示。 【如】:(1)掷一颗骰子,出现奇数点。 A 1,3,5 ;,事件之间的关系及运算,若事件A发生必然导致事件B发生,则称事件B包含事件A,记作 。用图形表示为:,掷一颗骰子,A表示点数为1,B表示点数小于3,则 。,若 且 ,则称事件B与事件A相等,记作 。,掷一颗骰子,A表示点数小于3,B表示点数为1或2,则 。,若事件A与事件B同时发生,则为事件A与事件B的交,记作 。 用图形表示:,掷一颗骰子,A表示点数为1、2或3
3、,B表示点数为1、3或5,则 表示点数为1或3。,两个事件A,B中至少有一个发生,即“A或B”是一个事件,称为A与B的并(和),记作 。 用图形表示:,A=1,2,3,B=1,3,5,则 1,2,3,5。,A,B,事件A发生而事件B不发生,称为A与B的差,记作AB 。 用图形表示:,A,A=1,2,3,B=1,3,5,则 AB2,,概率,事件A发生可能性的数量指标,以P(A)表示。 【如】: 1.如果一个骰子是公平的 ,那么掷一次骰子会以等可能(概率1/6,6种可能之一)得到1至6点的中的每一个点。 2.抛一个公平的硬币,则以等可能(概率1/2)出现正面或反面。,2.概率的古典定义与统计定义,
4、利用等可能事件, P(A)k / n,其中k 为事件A的样本点数目,n为 的样本点数目。 【如】: 1.如果一个骰子是公平的 ,那么掷一次骰子会以等可能(概率1/6,6种可能之一)得到1至6点的中的每一个点。 2.抛一个公平的硬币,则以等可能(概率1/2)出现正面或反面。,如果进行N次重复试验,事件A发生的次数为n,我们将频率n /N 看作是事件A的概率。 【如】: 1.刮发票的中奖密封时,大多得到“谢谢”。如果你刮了150张发票,只有3张中奖,你会认为,你的中奖概率大约是3/150=0.02;,;,;,;,;,;,3.概率的性质及其运算法则,条件概率及概率的乘法法则,在事件B已发生的条件下,
5、事件A发生的概率,称为事件A在给定B下的条件概率,记作P(A|B)。 其中:P(A|B),掷一颗骰子,事件A表示点数为3,事件B表示点数为6,则P(A|B)表示第一次骰子的点数为6,第二次点数为3的概率。,独立性和独立事件的概率,如果事件A和事件B有如下关系:则称事件A和事件B相互独立。,如果你有一个固定电话和一个手机,假定固定电话出毛病的概率为0.01,而手机出问题的概率为0.05,那么,两个电话同时出毛病的概率是多少呢?,第二节 随机变量及其分布,随机变量,1,随机变量的分布,2,随机变量分布的均值、方差,3,常用分布及中心极限定理,4,1.随机变量,表示随机现象各种结果的变量,一般大写英
6、文字母X、Y、Z表示。,抛一枚硬币, X表示正面出现的次数,它是随机变量,可取0或1两个值。,2.随机变量的分布,随机变量取一切可能值的概率称为概率分布(probability distribution ) ,简称分布。概率分布可以用各种图或表来表示;一些可以用公式来表示。,掷一颗骰子,随机变量 X 表示出现的点数,X 可取1、2、3、4、5和6六个值,则 X 的分布为:X 1 2 3 4 5 6P 1/6 1/6 1/6 1/6 1/6 1/6,离散型随机变量的分布,如果随机变量X只取有限个或可列个可能值,而且以确定的概率取这些不同的值,则称X为离散型随机变量。一般列成概率分布表:X x1
7、x2 xk P p1 p2 pk ,1. 2.,一批产品的废品率为5,从中任意抽取一个进行检验,用随机变量描述废品出现的情况。 解:用X 1表示产品为废品, X 0表示产品为合格品。则:X 0 1 P 0.95 0.05,连续型随机变量的分布,随机变量 X 如果能够在一区间内取任何值,则该变量称为在此区间内是连续的,其分布称为连续型概率分布,用密度函数 表示。,逐渐增加矩形条数目的直方图和一个形状类似的密度曲线。,3.随机变量分布的均值、方差,均值用来表示分布的中心位置,用 表示。其中如:X 0 1 P 0.95 0.05,,离散分布,,连续分布,方差用来表示分布的离散程度,用 表示。其中如:
8、X 0 1 P 0.95 0.05,,离散分布,,连续分布,(1) (2) (3) (4),4.常见的离散分布,如果随机变量 X 的密度函数为:X 0 1 P p 1-p则称随机变量 X 服从二项分布,记为: 其均值、方差分别为: 、,1.每一个进入某商场的顾客是否购买某商品; 2. 每一个新出婴儿的性别;,如果随机变量 X 取 x的概率为:则称随机变量 X 服从泊松分布,记为:其均值、方差分别为: 、,1.在一定时间内,操作系统发生的故障数; 2. 一平方米玻璃上气泡的个数;,常见的连续分布,如果随机变量 X 的密度函数为:则称随机变量 X 服从正态分布(normal distributio
9、n),记为:,正态分布的曲线及性质,(1)标准差不变,不同的均值,正态分布曲线的形状相同,位置不同;均值不变,不同的标准差,正态分布曲线的位置相同,形状不同; (2) (3),正态分布曲线,其它连续分布,如果随机变量 X 的密度函数为:则称随机变量 X 服从均匀分布,记为: 其均值、方差分别为:,如果随机变量 X 的密度函数为:则称随机变量 X 服从指数分布,记为: 其均值、方差分别为:,中心极限定理,不论总体服从何种分布,只要样本容量足够大,样本均值 的分布都大致服从正态分布:,第三节 统计基础知识,总体与样本,1,直方图,2,统计量,3,抽样分布,4,1.总体与样本,总体:研究对象的全体;
10、 个体:构成总体的每个单位;,某饮料生产企业用自动罐装机罐装饮料,每罐标准含量为500ml,为保证产品的稳定性,需要每隔一定时间检查每罐饮料的含量情况。 总体:某一批饮料; 个体:该批中每一罐饮料;,从总体中抽取部分个体所组成的集合。 如: 某饮料生产企业用自动罐装机罐装橙汁饮料,每罐标准含量为500ml,为保证产品的稳定性,需要每隔一定时间检查每罐饮料的含量情况。现抽得10罐,测得其含量为(单位:ml) 495, 510, 498, 503, 492, 502, 505, 512, 497, 506。 样本: 10罐饮料的含量。,2.直方图,频数(频率)表,2007年某地区农村居民家庭纯收入
11、,结论:收入较少的家庭占据多数,而收入较高的家庭则占少数。,直方图:1.用于表示连续性变量的频数(频率)分布;2.横轴表示分组,纵轴表示频数或频率。,3.统计量,不含总体未知参数的样本函数称为统计量。 如: 某饮料生产企业用自动罐装机罐装橙汁饮料,每罐标准含量为500ml,为保证产品的稳定性,需要每隔一定时间检查每罐饮料的含量情况。现抽得10罐,测得其含量为(单位:ml) 495, 510, 498, 503, 492, 502, 505, 512, 497, 506。,描述样本集中位置的统计量,(1)样本均值:设样本数据为:x1 ,x2 , ,xn ,样本均值的计算公式为:(2)中位数:样本
12、数据排序后,处于中间位置上的值,用Me表示;(3)众数:样本数据中出现次数最多的值,用Mod表示;,描述样本分散程度的统计量,(1)极差:样本数据中的最大值与最小值之差:R = max(xi) - min(xi)(2)方差与标准差:(3)变异系数:用于对不同总体或同一总体不同量纲数据离散程度的比较,目的是消除数据水平高低和量纲的影响;,4.抽样分布,某个样本统计量的抽样分布,从理论上说就是在抽取容量为n的样本时,由每一个样本算出的该统计量数值的频数分布或概率分布。,重复抽样分布,一个总体5,8,7,4。对该总体进行容量为2的重复抽样,则样本个数有16个,如下表所示:,样本均值的频数分布表,样本
13、均值的直方图,中心极限定理,不论总体服从何种分布,只要样本容量足够大,样本均值 的分布都大致服从正态分布:,三大抽样分布,第四节 参数估计,点估计,1,区间估计,2,参数估计,某企业某天生产了6000个灯泡,从中抽取10个进行寿命测试,得到的数据如下:(单位:小时)1050 1080 1100 1030 11201200 1210 1130 1170 1040问:该天生产的灯泡平均寿命大约是多少?,根据样本统计量估计总体的未知参数,这类问题称为参数估计。,点估计:以样本的某一函数值作为总体中未知参数的估计值。区间估计:依据样本把总体的参数确定在某一范围内,要求它以足够大的概率包含待估参数真值。
14、,1.点估计-矩估计法,利用样本的数字特征作为总体数字特征的估计,即用样本的均值 估计总体的均值 ,用样本的方差 估计总体的方差 ,其中:,某企业某天生产了6000个灯泡,从中抽取10个进行寿命测试,得到的数据如下:(单位:小时)1050 1080 1100 1030 11201200 1210 1130 1170 1040请用矩估计法估计该天生产灯泡的平均寿命。解:样本的平均寿命: 所以,该天生产灯泡平均寿命的矩估计量为1113小时。,2.区间估计,依据样本把总体的未知参数确定在某一范围内,要求它以足够大的概率包含待估参数真值。,区间,总体未知参数,区间下界,区间上界,单一总体均值的区间估计
15、总结,课堂练习,某商店抽出36名顾客组成一个随机样本,调查他们在一段时间内对某种商品的需求量。根据以往的经验,这种商品的需求量服从正态分布,标准差为2,从调查结果算出样本平均数为20,试求总体平均数为95%的置信区间。( ),求解过程,已知 n=36, =2 ; 样本均值 20 ; 由1- =0.95,查标准正态分布概率表得: 在95%的置信水平下的置信区间为:即在95%的置信水平下,该种商品平均需求量的置信区间为19.3520.65,课堂练习,一房地产公司在某日随机抽取16位二手房购买者,得到二手房交易价格如下表所示(万元)。 根据以往交易情况得知:二手房交易价格服从正态分布,但总体方差未知。试在95%的置信水平下估计该日二手房交易平均价格的置信区间。 ( ),求解过程,已知n=16;计算得到样本均值 ; 样本标准差S=14.175; 由1 =0.95,查表得: 于是在95%的置信水平下的置信区间为:在95%的置信水平下,二手房价格的置信区间为35.923万元51.027万元;即该公司可以有95%的把握认为,二手房交易价格介于35.923万元到51.027万元之间。,Thank You !,