1、第七章,概率统计模型,预备知识 概率统计的基本知识,学习目标 1.掌握建立随机现象的数学模型的方法; 2.了解各种概率分布及其应用; 3.掌握数学期望和方差在建模中的应用.,7.1 基本概率模型,在现实生活中,存在着两种现象一种是确定性的,例如水加热后水温必然升高,淀粉遇碘一定变蓝等确定性现象又称为必然现象另一种是不确定性的, 例如在相同条件下抛一枚均匀硬币,可能徽面(正面)向上,也可能数字面(反面)向上;公交车到站的时间不确定等等,不确定性现象又称为随机现象,随机现象中的事件可能发生也可能不发生一个随机事件A发生的可能性的大小,用一个介于01的数表示,称为事件A的概率,记作P(A)概率的意义
2、在类似的现象大量重复出现时会表现出来例如,抛掷1枚硬币10000次,出现正面和反面的次数基本上是1:1,随机现象中,变量的取值是不确定的,称为随机变量描述随机变量概率取值的函数称为概率分布对于随机变量,通常主要关心它的两个数字特征:数学期望和方差,数学期望(或均值)用于描述随机变量取值的平均值;方差用于描述随机变量分布的差异程度;方差的算术平方根称为均方差(或标准差),随机变量根据其取值特点的不同可分为离散型和连续型两类.若随机变量取值为0,1,2,的离散点,则为离散型随机变量典型的离散型分布有离散均匀分布、二项分布、Possion分布等若随机变量的取值范围为某一区间,则为连续型随机变量典型的
3、连续型分布有均匀分布、正态分布、指数分布、泊松分布、t分布和F分布等,一、离散型随机变量的分布 1离散均匀分布,如果一个随机变量,的概率分布为,,,服从离散均匀分布例如,掷骰子出现的点数、掷硬币出现正、反面的次数等都服从离散均匀分布,则称随机变量,2二项分布,若实验的结果有两种可能性:A发生或A不发生(即 ),则称此随机实验为Bernoulli实验如在产品质量抽查中,抽取一件产品只有两种可能性:要么是正品,要么是次品设随机变量,那么,,服从一个简单的离散型分布,,称为Bernoulli分布或0-1分布将Bernoulli实验独立重复进行n次,称为n重Bernoulli实验,n重Bernoull
4、i实验中,以 表示事件A在n次试验中发生的次数,其分布为:,此时,称,服从参数为,的二项分布,记作,二项分布的数学期望,,方差,图71 n值不同的二项分布比较,图72 p值不同的二项分布比较,3泊松分布,若随机变量,只取零和正整数值1,2,,且其概率分布为,,k=0,1,,其中0,则称,服从参数为的泊松分布(Poissons,distribution),记作,泊松分布作为一种离散型随机变量的概率分布有一个重要的特征,就是它的平均数和方差相等,都等于常数,即,征,可以初步判断一个离散型随机变量是否服从泊松分布,利用这一特,在实际工作和生活中,服从泊松分布的随机变量很多,如电话程控交换机在单位时间
5、内接收到的电话呼唤次数;单位面积草坪中含有杂草的根数;工厂生产的一批布匹上瑕疵的点数等等,图73 不同的泊松分布,二、连续性随机变量的分布,连续型概率分布的表达方式与离散型有很大不同,因为连续型随机变量的取值是无法列举的,况且它在单个点取值的概率总是0连续型概率分布用密度函数 表示 相应随机变量取值的概率可通过对密度函数积分得到,即,且对于任意两个实数,(,),有,1均匀分布均匀分布的密度函数为,均匀分布是一个简单而重要的连续型概率分布其实际意义是:随机变量取值总在 内,并且在每一点取值的可能性相同均匀分布的数学期望 ,方差 . 特别地,区间 上的均匀分布称为标准均匀分布,2正态分布,正态分布
6、的概率密度函数为,记作 ,其中 是随机变量取值的平均值,而 表征了随机变量取值的差异正态分布的数学期望 方差 ,特别地,,称为标准正态分布,图74 相同而不同的三个正态分布,图75 相同而不同的三个正态分布,正态分布是所有概率分布中最重要的一种分布无论在实践上还是在理论方面都有重要的意义在实践方面,产品的长度、宽度、高度、质量等指标,人体的身高、体重,测量的误差,学生的成绩等等都近似地服从正态分布事实上,如果影响某一随机变量的因素很多,但又不起决定性的作用,且这些影响是可以迭加的,那么这一随机变量就被认为是服从正态分布在理论方面,一方面正态分布可以导出一些其他分布;另一方面,某些分布在一定的条
7、件下可以用正态分布来近似,3 分布,若n个相互独立的随机变量,都服从于,,则称,服从于自由度为,n的 分布,记作,,其分布密度函数为,且,4.t-分布,设随机变量 , ,则称,服从于自由度为n的t分布,记作 ,其分布密度函数为,且,.,图7-6 不同自由度的t分布密度曲线,问题1 【生日模型】,小明所在班有30名同学,请帮他算算班上至少有两人同一天过生日的概率?如果班上有50名同学呢?,一、模型假设与符号说明,1.假设一年有365天.2.设事件A=“至少有两人的生日在同一天”,二、模型的分析、建立与求解,由于每名同学过生日的可能性为:一年365天中的任一天.n个人可能的生日情况有 种,且每种情
8、况的出现具有等可能性,故属于古典概型问题由于事件A所包含的样本点数不便于直接计算,下面考察其对立事件 事件=“n个人的生日全不同”, 所包含的样本数为,因此,当 时,当 时,试分析“班上人数”与“至少有两人生日在同一天的概率”之间的关系,拓展思考:,问题2 【打击敌方火炮模型】,在我方某前沿防守地域,敌人以一个炮排(含两门火炮)为单位对我方进行干扰和破坏为躲避我方打击,敌方对其阵地进行了伪装并经常变换射击地点 经过长期观察发现,我方指挥所对敌方目标的指示有50是准确的,而我方火力单位,在指示正确时,有1/3的射击能毁伤敌人一门火炮,有1/6的射击能全部消灭敌人 确定有效射击的概率及毁伤敌方火炮
9、的平均值,一、模型假设,这是一个概率问题,设A0:射中敌方火炮的事件;A1:射中敌方一门火炮的事件;A2:射中敌方两门火炮的事件E为毁伤敌方火炮的平均值,二、模型的分析、建立与求解,这是一个全概率问题,由全概率公式得,7.2 基本的统计模型,有些问题无法用理论分析方法导出模型,却可以通过试验或直接根据工业过程测定的数据,利用数理统计的方法求得各变量之间的函数关系,建立统计模型,1总体和样本,(1)总体与个体,研究对象的全体称为总体,而组成总体的每个元素(或每一研究对象)称为个体.总体中所含个体的数量称为总体容量,多数情况下,总体的分布类型已知,但某些参数未知例如,已知总体服从正态分布 ,但其中
10、的参数 、 未知,(2)样本,从总体X中随机地抽取n个个体 (如1万根钢筋中抽取100根),这样取得的 称为总体的样本 .样本的观测值( )称为样本值(样本观测值) 如某钢铁厂某天生产10,000根某型号的钢筋,质检人员随机抽出100根,对这100根的强度进行测量,推断出这批钢筋的次品率在这里,10,000根钢筋的强度是总体,总体容量是10,000,每一根钢筋的强度是一个个体,抽查的100根钢筋的强度是一个样本,样本容量为100. 统计就是要根据样本对总体进行推断,2常见的统计量,(1)样本均值,样本均值反映了样本取值的平均值,(2)样本方差,样本标准差,样本方差、标准差反映了样本值对于均值的
11、偏离程度另外,样本极差 也是离散程度的反映,3参数估计,在统计推断中,往往总体参数,未知,需要根据样本,估计 的值参数估计分两类:点估计和区间估计点估计是直接给出,的估计值,如“ 大约等于 ”,点估计缺乏对估计精度的说明而区间估计则给出,的估计值区间,并附加一个概率,如“,的95%置信,区间是 ”,含义是“,内的概率为,”,4假设检验 假设检验是对总体X的分布或分布参数作某种假设,然后根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设.假设检验分以下两大类为:,(1)参数检验:观测的分布函数类型已知,对总体的参数及有关性质作出明确的判断. (2)非参
12、数检验:要求判断总体分布类型的检验.,假设检验的一般步骤: (1)根据实际问题提出原假设H0(通过样本信息推断正确与否的命题,也称为零假设)与备择假设H1(与原假设对立的命题,是原假设的替换假设),即说明需要检验的假设的具体内容. (2)选定适当的统计量,并在原假设H0成立的条件下确定该统计量的分布. (3)选取适当的显著性水平 (一般取值为0.1,0.05,0.01). (4) 根据样本观测值计算统计量的观测值,并与临界值做比较,从而在检验 水平条件下,对拒绝或接受原假设H0作出判断.,问题3【机器运转是否正常模型】,某车间用一台包装机包装葡萄糖.当机器正常运转时,每袋糖的重量的均值为0.5
13、kg,标准差为0.015.某日开工后检验包装机是否正常,随机地抽取9袋,称得净重(kg)为0.497, 0.506, 0.518, 0.524, 0.498, 0.511, 0.52, 0.515, 0.512 问机器是否运转正常?,一、模型假设,假设袋装糖的重量是一个随机变量,它服从正态分布.,二、模型的分析、建立与求解,这里,已知总体均值=0.5,标准差=0.015,该问题是当,为已知时,在显著水平,下,根据样本值判断均值=0.5还是,于标准差已知,验证总体,故采用z检验.,.由,原假设: ;备择假设: .,用Matlab求解如下:X=0.497,0.506,0.518,0.524,0.4
14、98,0.511,0.52,0.515,0.512;h,sig,ci,zval=ztest(X,0.5,0.015,0.05)h = 1,sig = 0.0248 %样本观察值的概率ci = 0.5014 0.5210 %置信区间,均值0.5在此区间之外zval = 2.2444 %统计量的值,结果表明:h=1,说明在显著水平 下,可拒绝原假设,即认为包装机工作不正常.,注:在已知总体服从正态分布的情况下,若总体方差 已知,则总体均值的检验使用z检验.z检验的命令为h,sig,ci=ztest(x,m,sigma,alpha,tail)其中m为均值,sigma为已知方差,alpha为显著性水平
15、,alpha的缺省项为0.05.tail的取值决定检验什么.tail=0,检验假设“X的均值=m”tail=1,检验假设“X的均值m”tail=-1,检验假设“X的均值X=159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170; h,sig,ci=ttest(X,225,0.05,1) %均值为225,显著水平alpha=0.05h = 0sig = 0.2570ci = 198.2321 Inf %均值225在该置信区间内,结果表明:H=0表示在水平 下应该接受原假设 ,即认为元件的平均寿命不大于225小时.,注:在已知
16、总体服从正态分布的情况下,若总体方差 未知,则总体均值的检验可使用t检验.t检验的命令为h,sig,ci=ttest(x,m, alpha,tail)其中m, alpha, tail的意义同z检验命令中相应参数的意义.h=1表示可以拒绝假设,h=0表示不可以拒绝假设,sig为假设成立的概率,ci为均值1-alpha置信区间.,问题5 【炼炉效率模型】,在平炉上进行一项试验以确定新操作方法是否会增加钢的产率.试验在同一只平炉上进行.每炼一炉钢时除操作方法外,其他条件都尽可能做到相同.先用标准方法炼一炉,然后用新方法炼一炉,以后交替进行,各炼10炉,其产率分别为 (1)标准方法:78.1 72.4
17、 76.2 74.3 77.4 78.4 76.0 75.5 76.7 77.3 (2)新方法: 79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1问新操作方法能否提高产率?(取=0.05),一、模型假设,1.假设这两个样本分别来自正态总体和 , 、 、 均未知. 2.假设两个样本相互独立.,二、模型的分析、建立与求解,两个总体方差不变时,因为涉及到新旧两种方法的比较,又由于两种方法按相近的原则可配成对子,以消除混杂因素的影响.下面采用配对的t检验.在显著水平下 检验假设.,原假设: : ;,备择假设: : .,X=78.1 72.4 76.2
18、74.3 77.4 78.4 76.0 75.5 76.7 77.3;Y=79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1;h,sig,ci=ttest2(X,Y,0.05,-1)h = 1sig = 2.1759e-004 %说明两个总体均值相等的概率很小ci = -Inf -1.9083,用Matlab求解如下:,结果表明:H=1表示在显著水平 下,应该拒绝原假设,即认为新操作方法提高了产率,因此,新方法比原方法好.,注:两总体均值的假设检验使用t-检验的命令为h,sig,ci=ttestz(x,y,alpha,tail),用于检验数据x,
19、y关于均值的某一假设是否成立.其中,alpha为显著性水平,tail的意义同前.,问题6【饮用水的细菌分布模型】,为监测饮用水的污染情况,环境监测局检验某社区每毫升饮用水中的菌数,共测得400个记录,汇总后见表7-1 请分析饮用水中细菌数的分布是否服从泊松分布若服从,按泊松分布计算每毫升水中细菌数的概率及理论次数,并将次数分布与泊松分布作直观比较,表7-1,假设所得数据均为抽样数据.,一、模型假设,二、模型的分析、建立与求解,根据泊松分布的平均数与方差相等这一特征,若每毫升水中的菌数服从泊松分布,则由观察数据计算的平均数和方差就应近乎相等 首先根据泊松分布的性质,验证样本均数 和方差S2是否相
20、等,通过计算发现两者很接近,故可以初步认为每毫升水中细菌数服从泊松分布下面假设每毫升水中的细菌数服从参数为 的泊松分布,则有,将观察数据同用泊松分布的理论值作比较,确定原假设是否应予否定计算结果见表72,由此可见,细菌数的频率分布与服从参数=0.5的泊松分布的概率是相当吻合的,从而说明用泊松分布描述单位容积(或面积)中细菌数的分布是适宜的.,表72 细菌数的泊松分布,问题7 【车床故障检测模型】,在自动化车床连续加工某种零件的一道工序中,由于刀具损坏等原因会导致机器出现故障,而故障的出现完全是随机的现有100次故障记录,故障出现时该刀具完成的零件数(单位:件)如下: 459 362 624 5
21、42 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593 844,527 552 513 781 474 388 824 538 862 659 775 859 755 49 697 515 628 954 771 609 402 960 885 610 292 837 473 677 358 638 699 634 555 570 84 416 606 1062 484 120 447 654 564 339 280 246 687 539 7
22、90 581 621 724 531 512 577 496 468 499 544 645 764 558 378 765 666 763 217 715 310 851试分析该刀具出现故障时完成的零件数服从哪种分布,一、模型假设,1、假设工作人员常通过检查零件来确定工序是否出现故障2、假设刀具寿命服从正态分布,二、模型的分析、建立与求解,为分析该刀具出现故障时完成的零件数服从哪种分布,先作频率分布直方图,若观察出样本服从正态分布,则用Matlab中的函数normplot( )画出样本.如果样本都分布在一条直线上,则表明样本服从正态分布,否则不服从正态分布.接着用函数normfit( )进行
23、分布的正态性检验,最后用函数ztest( )进行参数检验.这样就可以确定一组数据是否服从正态分布了,首先作频率分布直方图.x=459 362 624 542 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593 844 527 552 513 781 474 388 824 538 862 659 775 859 755 49 697 515 628 954 771 609 402 960 885 610 292 837 473 677 358 6
24、38,699 634 555 570 84 416 606 1062 484 120 447 654 564 339 280 246 687 539 790 581 621 724 531 512 577 496 468 499 544 645 764 558 378 765 666 763 217 715 310 851;hist(x(:),10) %作频率直方图得到如图所示的频率分布直方图,观察频率直方图7-7,可以初步认定该刀具出现故障时完成的零件数服从正态分布,但必须进行参数估计和假设检验,图7-7,正态分布的概率密度函数为,其中是平均值 ,是标准差 ,1、分布的正态性检验,normp
25、lot(x(:) %每一列绘制出一条曲线,显示X中数据的一个正态概率分布图.,由图7-8可知,刀具出现故障时完成的零件数近似服从正态分布,用Matlab求解如下:,图7-8,2、参数估计 muhat,sigmahat,muci,sigmaci = normfit(x(:) %正态分布的参数估计函数muhat = 594sigmahat = 204.1301muci = 553.4962 634.5038sigmaci = 179.2276 237.1329,3、假设检验 已知刀具的寿命服从正态分布,现在在方差未知的情况下,检验其均值 m 是否等于594,使用t检验.h,sig,ci =ztes
26、t( x(:) ,594,0.05) h =0sig=1ci=553.4962,634.5038.,运行结果估计出该刀具的均值为 ,方差 ,均值的0.95置信区间为 ,方差的 0.95置信区间为 ,检验结果表示:h=0, 表示不拒绝零假设,说明提出的假设寿命均值为594是合理的 综上所述,可以认为刀具出现故障时完成的零件数服从正态分布,刀具的平均寿命为594,注:设总体服从正态分布,则其点估计和区间估计可同时用以下命令muhat,sigmahat,muci,sigmaci=normfit(X,alpha) 表示在显著性水平alpha下估计数据X的参数,返回值muhat 是X的均值的点估计值,s
27、igmahat 是标准差的点估计值,muci 是均值的区间估计,sigmaci 是标准差的区间估计.alpha缺省时设定为0.05.,实训7,一、模型假设,二、模型的分析、建立与求解,两个总体方差不变时,因为涉及到男、女成绩的比较且两者相互独立,则采用独立样本的t检验.在显著水平 下检验假设.,(1)假设这两个样本分别来自正态总体 和 , 、 和 均未知.(2)假设两个样本相互独立.,原假设: : ;,备择假设: : .,1.考试成绩的分析问题,x=82 80 85 85 78 87 82;y=76 80 77 80 77 75 76;h,p,ci=ttest2(x,y,0.05,0),用Ma
28、tlab求解如下:,h = 1p = 0.0022ci = 2.3683 8.4888 %,运行结果如下:,结果表明:h=1表示在显著水平,下,应该拒绝原假设,即认为男生和女生成绩有显著差异.,一、模型假设,二、模型的分析、建立与求解,(1)假设这两个样本分别来自正态总体 和 , 、 和 均未知.(2)假设两个样本相互独立.,两个总体方差不变时,因为涉及到服用减肥茶前后的比较,应采用配对的t检验.在显著水平 .在显著水平 下检验假设.,原假设: : ;,备择假设: : .,2.减肥茶效果问题,x=75 95 82 91 100 87 91 90 86 87 98 88 82 87 92 .93
29、 95 84 83 89 87 90 82 95 81 83 86 93 95 96 97 81 .88 85 95 ;y=71.5 90 80.3 87 93.6 75.4 67 73 87.3 82 94 .85.9 85 79 88.5 90 87.7 80 79 71 85 89 67 67 79 .75 74 84.9 90.4 93 87 78 78 74.9 86;h,p,ci=ttest2(x,y,0.05,0),用Matlab求解如下:,h = 1p = 4.4075e-005ci =3.9346 10.5569,运行结果如下:,结果表明:h=1表示在显著水平,下,应该拒绝原
30、假设,即认为服用减肥茶后减肥效果比较显著.,1、模型假设,(1)假设测量数据真实可靠(2)假设100名正常成年男子血清总胆固醇服从正态分布,2、模型的分析、建立与求解,为100名正常成年男子血清总胆固醇服从哪种分布,先作频率分布直方图,若观察出样本服从正态分布,则用Matlab中的函数normplot( )画出样本.如果样本都分布在一条直线上,则表明样本服从正态分布,否则不服从正态分布.接着用函数normfit( )进行分布的正态性检验,最后用函数ztest( )进行参数检验.这样就可以确定一组数据是否服从正态分布了.,4.分布检验问题,首先作频率分布直方图.,x=4.4 5.2 5.3 6.
31、4 4.9 4.3 4.6 4.2 3.4 4.56.3 4.7 3.2 5.2 3.0 4.6 4.9 4.9 2.7 3.65.2 3.5 4.0 5.9 5.8 6.6 3.4 5.3 4.6 5.25.5 5.2 4.1 4.8 4.9 4.1 3.9 4.5 6.0 3.25.2 4.8 5.0 4.2 4.4 4.7 3.6 3.6 4.4 5.44.6 4.7 4.8 5.6 4.6 4.2 4.3 4.4 4.5 4.65.4 5.1 5.1 4.6 5.7 6.4 5.7 4.4 3.9 6.13.9 5.8 4.8 4.0 4.8 3.3 4.8 6.2 5.5 4.37.
32、2 3.3 5.3 4.2 4.2 3.1 6.1 4.4 4.1 5.15.8 4.1 4.3 5.2 4.5 6.5 4.7 4.6 3.9 4.0;,hist(x(:),10) %作频率直方图得到如图所示的频率分布直方图,观察频率直方图7-7,可以初步认定该刀具出现故障时完成的零件数服从正态分布,但必须进行参数估计和假设检验,图7-7,正态分布的概率密度函数为,其中是平均值 ,是标准差 ,1、分布的正态性检验,normplot(x(:) %每一列绘制出一条曲线,显示X中数据的一个正态概率分布图.,由图7-8可知,100名正常成年男子血清总胆固醇服从正态分布 ,用Matlab求解如下:,图
33、7-8,2、参数估计 muhat,sigmahat,muci,sigmaci = normfit(x(:) %正态分布的参数估计函数muhat = 4.7200sigmahat = 0.8847muci = 4.5445 4.8955sigmaci = 0.7767 1.0277,3、假设检验 已知血清总胆固醇服从正态分布,现在在方差未知的情况下,检验其均值 m 是否等于4.72,使用t检验.h,sig,ci =ztest( x(:) , 4.72,0.05) h = 0sig= 1ci= 4.7102 4.7298,运行结果估计出该血清总胆固醇的均值为 ,方差 ,均值的0.95置信区间为 方差的 0.95置信区间为 ,检验结果表示:h=0, 表示不拒绝零假设,说明提出的假设正常成年男子血清总胆固醇均值为4.72是合理的,综上所述,该100名正常成年男子血清总胆固醇服从正态分布,注:设总体服从正态分布,则其点估计和区间估计可同时用以下命令muhat,sigmahat,muci,sigmaci=normfit(X,alpha) 表示在显著性水平alpha下估计数据X的参数,返回值muhat 是X的均值的点估计值,sigmahat 是标准差的点估计值,muci 是均值的区间估计,sigmaci 是标准差的区间估计.alpha缺省时设定为0.05.,