1、第八章 随机模拟和统计分析,MATLAB,预备知识概率和统计,MATLAB,3,概率分布,离散型随机变量: 离散均匀分布 二项分布 泊松分布 几何分布 超几何分布 负二项分布,连续型随机变量: 连续均匀分布 指数分布 正态分布 对数正态分布 2分布 非中心2分布 t分布 非中心t分布 F分布 非中心F分布,分布 分布 Rayleigh分布 Weibull分布,常见的概率分布,n个点上的均匀分布,如果随机变量 X 的分布列为:,则称这种分布为离散均匀分布。记做:,n=20; x=1:n; y=unidpdf(x,n); plot(x,y,o-),例: n=20 时的离散均匀分布密度函数图,离散分
2、布:,几何分布,几何分布是一种常见的离散分布,在贝努里实验中,每次试验成功的概率为 p,设试验进行到第 次才出现成功,则 的分布满足:,其右端项是几何级数 的一般项,于是人们称它为几何分布。,x=0:30; y=geopdf(x,0.5); plot(x,y,o-),例: p=0.5 时的几何分布密度函数图,离散分布:,0-1分布,0-1分布 (Bernoulli分布),如果随机变量 X 的分布列为:,则称这种分布为服从参数为p的0-1分布。,离散分布:,二项分布,二项分布属于离散分布,如果随机变量 X 的分布列为:,则称这种分布为二项分布。记做:,x=0:50; y=binopdf(x,50
3、0,0.05); plot(x,y,o-),例: n=500,p=0.05 时的二项分布密度函数图,离散分布:,n=1,服从参数为p的0-1分布,Poisson 分布,泊松分布也属于离散分布,是1837年由发个数学家 Poisson 首次提出,其概率分布列为:,记做:,泊松分布是一种常用的离散分布,它与单位时间(或单位面积、单位产品等)上的计数过程相联系。如:单位时间内,电话总机接到用户呼唤次数;1 平方米内,玻璃上的气泡数等。,离散分布:,Poisson 分布举例,x=0:50; y=poisspdf(x,25); plot(x,y, o-),例: =25 时的泊松分布密度函数图,均匀分布,
4、均匀分布(连续分布),如果随机变量 X 的密度函数为:,则称 X 服从均匀分布。记做:,均匀分布在实际中经常使用,譬如一个半径为 r 的汽车轮胎,因为轮胎上的任一点接触地面的可能性是相同的,所以轮胎圆周接触地面的位置 X 是服从 0,2r 上的均匀分布。,连续分布:,均匀分布举例,x=-10:0.01:10; r=1; y=unifpdf(x,0,2*pi*r); plot(x,y,o-),正态分布,正态分布(连续分布),如果随机变量 X 的密度函数为:,则称 X 服从正态分布。记做:,标准正态分布:N (0, 1),正态分布也称高斯分布,是概率论中最重要的一个分布。,如果一个变量是大量微小、
5、独立的随机因素的叠加,那么它一定满足正态分布。如测量误差、产品质量、月降雨量等,连续分布:,正态分布举例,x=-8:0.1:8; y=normpdf(x,0,1); y1=normpdf(x,1,2); plot(x,y,x,y1,:),例:标准正态分布和非标准正态分布密度函数图形,指数分布,指数分布(连续分布),如果随机变量 X 的密度函数为:,则称 X 服从参数为 的指数分布。记做:,在实际应用问题中,等待某特定事物发生所需要的时间往往服从指数分布。如某些元件的寿命;随机服务系统中的服务时间;动物的寿命等都常常假定服从指数分布。,指数分布具有无记忆性:,连续分布:,指数分布举例,x=0:0
6、.1:30; y=exppdf(x,4); plot(x,y),例: =4 时的指数分布密度函数图,2分布,设随机变量 X1, X2, , Xn 相互独立,且同服从正态分布 N(0,1),则称随机变量 n2= X12+X22+ +Xn2服从自由度为 n 的 2 分布,记作 ,亦称随机变量 n2 为 2 变量。,x=0:0.1:20; y=chi2pdf(x,4); plot(x,y),例: n=4 和 n=10 时的 2 分布密度函数图,x=0:0.1:20; y=chi2pdf(x,10); plot(x,y),抽样分布:,F 分布,设随机变量 ,且 X 与 Y 相互独立,则称随机变量,x=
7、0.01:0.1:8.01; y=fpdf(x,4,10); plot(x,y),例: F(4,10) 的分布密度函数图,为服从自由度 (m, n) 的 F 分布。记做:,抽样分布:,t 分布,设随机变量 ,且 X 与 Y 相互独立,则称随机变量,x=-6:0.01:6; y=tpdf(x,4); plot(x,y),例: t (4) 的分布密度函数图,为服从自由度 n 的 t 分布。记做:,抽样分布,分布函数和逆分布函数,统计量,样本均值 样本方差 样本协方差样本相关系数 样本百分位数 q%上分位数=(100-q)%下分位数,第八章 随机模拟和统计分析,MATLAB,第八章随机模拟和统计分析
8、,第一部分 描述性统计分析 第二部分 统计图 第三部分 随机数的生成 第四部分 概率函数 第五部分 参数估计 第六部分 假设检验,第一部分 描述性统计分析,MATLAB,均值等,描述性统计分析,对随机变量x,计算其基本统计量的命令:,mean(x) std(x) skewness(x) median(x) var(x) kurtosis(x),均值 标准差 偏度 中位数 方差 峰度,数据比较,描述性统计分析,协方差和相关系数,描述性统计分析,%求A的第2列与第3列列向量的相关系数矩阵,协方差和相关系数例子,上分位数,描述性统计分析,第二部分 统计图,MATLAB,2. 统计图,绘制直方图,hi
9、st(X,K) % 二维条形直方图,显示数据的分布情形,将向量 X 中的元素根据它们的数值范围进行分组,每一组作为一个条形进行显示。条形直方图中的 x-轴反映了向量 X 中元素数值的范围,直方图的 y-轴 显示出向量 X 中的元素落入该组的数目。K用来控制条形的个数,缺省为 10。,x=1 2 9 3 5 8 0 2 3 5 2 10; hist(x); hist(x,5); hist(x,2);,例:,x=randn(1000,1); hist(x,100);,histfit(X,NBINS) % 附有正态密度曲线的直方图,NBINS 指定条形的个数,缺省为 X 中数据个数的平方根。, va
10、ta=randn(1,100); histfit(vata),第三部分 随机数的生成,MATLAB,注:rand(n)=rand(n,n),3. 随机数的生成,name 的取值可以是,normal Uniform poisson beta exponential gamma geometric discrete Uniform. .,random(name,A1,A2,A3,m,n),通用函数求指定分布的随机数,3. 随机数的生成,3. 随机数的生成,常用分布的随机数,3. 随机数的生成,第四部分 概率函数,MATLAB,4. 概率函数,通用函数,4. 概率函数,专用函数,例:,x=-8:0.
11、1:8; y=pdf(norm,x,0,1); y1=pdf(norm,x,1,2); plot(x,y,x,y1,:),注:,y=pdf(norm,x,0,1),y=normpdf(x,0,1),相类似地,,y=pdf(beta,x,A,B),y=betapdf(x,A,B),y=pdf(bino,x,N,p),y=binopdf(x,N,p), ,4. 概率函数,分布概率函数(密度函数)例子,累计概率函数(分布函数)例子,逆分布函数(下分位数)例子,第五部分 统计推断之参数估计,MATLAB,5. 参数估计,已知总体的分布类型,总体参数未知,需要根据样本对未知参数作出估计。,由于正态分布情
12、况发生的比较多,故我们主要考虑正态分布的情形。,对于未知参数的估计,可分两种情况:,点估计区间估计,正态总体的参数估计,设总体服从正态分布,则其点估计和区间估计可同时由以下命令获得:,muhat,sigmahat,muci,sigmaci=normfit(X,alpha),正态总体的参数估计举例,其它分布的参数估计,(1)muhat, muci = expfit(X,alpha)在显著性水平alpha下,求指数分布的数据X的均值的点估计及其区间估计. (2)lambdahat, lambdaci = poissfit(X,alpha)在显著性水平alpha下,求泊松分布的数据X 的参数的点估计
13、及其区间估计. (3)phat, pci = weibfit(X,alpha)在显著性水平alpha下,求Weibull分布的数据X 的参数的点估计及其区间估计.,第六部分 统计推断之假设检验,MATLAB,6. 假设检验,对总体的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设,这就是假设检验问题。,正态总体均值和方差的假设检验是最常用且相对简单的假设检验。 在总体服从正态分布的情况下,可用以下命令进行假设检验.,h,sig = ztest(x,m,sigma,alpha,tail),检验数据 x 的关于均值的某一假设
14、是否成立,其中sigma 为 已知方差, alpha 为显著性水平。,tail的缺省值为 0, alpha的缺省值为 0.05,sig 为假设 成立的概率。,h,sig = ttest(x,m,alpha,tail),检验数据 x 的关于均值的某一假设是否成立,其中sigma 为 已知方差, alpha 为显著性水平。,tail的缺省值为 0, alpha的缺省值为 0.05,sig 为假设 成立的概率。,p,h = ranksum(x,y ),非参数假设检验,67,非参数假设检验,例 某商店为了确定向公司A或公司B 购买某种产品,将A,B公司以往各次进货的次品率进行比较,数据如下所示,设两样
15、本独立。问两公司的商品的质量有无显著差异。设两公司的商品的次品的密度最多只差一个平移,取 = 0.05。 A:7.0 3.5 9.6 8.1 6.2 5.1 10.4 4.0 2.0 10.5 B :5.7 3.2 4.2 11.0 9.7 6.9 3.6 4.8 5.6 8.4 10.1 5.5 12.3,解 分别以A、B记公司A、B 的商品次品率总体的均值。所需检验的假设是 H0: A=B,H1:AB . Matlab实现如下: a=7.0 3.5 9.6 8.1 6.2 5.1 10.4 4.0 2.0 10.5; b=5.7 3.2 4.2 11.0 9.7 6.9 3.6 4.8 5
16、.6 8.4 10.1 5.5 12.3; p,h=ranksum(a,b) 求得p=0.8041,h=0,表明两样本总体均值相等的概率为0.8041,并不很接近于零, 且h=0说明可以接受原假设,即认为两个公司的商品的质量无明显差异。,非参数假设检验:总体分布的检验,normplot(x),统计绘图函数,进行正态分布检验。研究表明:如果数据是来自一个正态分布,则该线为一直线形态;如果它是来自其他分布,则为曲线形态。,例 一道工序用自动化车床连续加工某种零件,由于刀具损坏等会出现故障.故障是完全随机的,并假定生产任一零件时出现故障机会均相同.工作人员是通过检查零件来确定工序是否出现故障的.现积
17、累有100次故障纪录,故障出现时该刀具完成的零件数如下:459 362 624 542 509 584 433 748 815 505612 452 434 982 640 742 565 706 593 680926 653 164 487 734 608 428 1153 593 844527 552 513 781 474 388 824 538 862 659775 859 755 49 697 515 628 954 771 609402 960 885 610 292 837 473 677 358 638699 634 555 570 84 416 606 1062 484 12
18、0447 654 564 339 280 246 687 539 790 581621 724 531 512 577 496 468 499 544 645764 558 378 765 666 763 217 715 310 851 试观察该刀具出现故障时完成的零件数属于哪种分布.,假设检验举例,解 1、数据输入,2、作频数直方图hist(x,10),3、分布的正态性检验normplot(x),(看起来刀具寿命服从正态分布),(刀具寿命近似服从正态分布),结果显示:这 100 个离散点非常靠近倾斜直线段,即图形为线性的,因此可得结论:该批刀具的使用寿命近似服从正态分布。,4、参数估计:muhat,sigmahat,muci,sigmaci = normfit(x),估计出该刀具的均值为594,方差204,均值的0.95置信区间为 553.4962,634.5038,方差的0.95置信区间为 179.2276,237.1329.,已知刀具的寿命服从正态分布,现在方差未知的情况下,检验其均值 m 是否等于594.,结果:h = 0,sig = 1.,h=ttest(x,597,0.05),利用函数 ttest 进行显著性水平为 alpha 的 t 假设检验,检验结果:h=0。表示不拒绝零假设,说明所提出的假设 “寿命均值为 597” 是合理的。,5、假设检验,