1、1、密度函数和分布函数 2、分布函数的一般计算方法 3、标准正态分布的计算方法 4、统计工具箱的各种分布计算 5、统计推断原理 6、非参数统计分析 7、习题,第三章 分布函数的计算,分布函数的计算在整个信息统计分析应用中起着基础性的作用,当我们建立了某个统计模型后,会产生很多的统计量,用它们对某个假设进行检验。这时必须知道这些统计量的分布,某一点的概率、某概率的分位点。在学习概率论时我们已经知道用查表的方法进行计算。本章介绍分布函数的计算方法,以及如何用MATLAB的统计工具箱计算各种分布的概率与分位点的计算。,1、密度函数和分布函数,密度函数和分布函数是反映随机变量的总体规律的函数,当一个变
2、量X在没有抽样之前不知会有什么结果,但结果的范围是知道的,这样的变量称为随机变量。随机变量可以分为: (1)连续型随机变量 (2)离散型随机变量,(1)连续型随机变量 随机变量的结果空间是实数,例如服从(0,1)上的均匀分布随机数、人体身高随机数等。 例3.1.1 续型随机变量的例子:大学生男性身高X、随机抽一个大学生量其身高得随机变量的一个实现,例如x=1.75米。则X是一个连续型的随机变量。这种随机变量服从正态分布。正态分布是统计分析中极其重要的分布。,(2)离散型随机变量当一个随机变量X的结果空间有有限个元素或可列个元素时,称该随机变量为离散型随机变量。,例3.1.2 离散型随机变量的例
3、设某汽车站7点到7点05分等车的人数为一变量X,显然X可取值0,1,2,3,。则X是一个离散型的随机变量。事实上这种随机变量称为服从泊松分布规律的随机变量。投一硬币,正面为1,反面为0。记该随机变量为X,则其结果空间为0,1。也是一个离散随机变量。,(一)密度函数和分布律,随机变量X在没有发生时我们不知到,也不能预测其结果,看似随机变量没有规律。但是我们进行大量抽样或实验时,却可以看见明显的规律。,例3.1.3: 对男性大学生随机抽检,共抽400名大学生测量其身高。将身高区间(1.50, 2.1)分划分成若干段,计算每段学生身高的数量,并作直方图。,% 第三章,例3.1.3 R = normr
4、nd(1.7,0.1,400,1); % 产生正态分布的随机数 histfit(R,12) % 作直方图并建立拟合曲线,从例3.1.3可以看出,大学生身高的一些特点。 1)首先身高在平均值附近的人数特别多。 2)从直方图中我们可以看出身高的趋势具有对称性。 3)离平均值越远数量越少。这是典型的正态分布的特点。可以想象当我们抽样量增大应该有一个理论函数作为极限。密度函数(inv) 称这个理论函数为连续型随机变量的密度函数,上图中的红线所显示的就是密度函数的图形。在MATLAB这密度函数用inv来表示。,正态分布的密度函数 p 表达式为:,其中参数:为平均值。是随机变量中心趋势的描述。,:为标准差
5、。是随机变量离散程度的描述。,分布律(inv),对于离散型随机变量,分布律相当于连续型随机变量的密度函数。 例3.1.4:作泊松分布随机变量的分布律图形。,这里 为参数,表示随机变量的平均值和方差。,设平均值为5,算出0到10的分布律,X=0:10; Y = poissinv(X,5); % 计算泊松分布每点的概率 stem(X,Y) % 作分布律图形,(二)分布函数cdf,分布函数是对密度函数进行积分,其表达式为:,分布函数函数具有以下性质:,1)对任意x有,2)单调不降,,利用分布函数我们可以计算随机变量X落在某一范围的概率,或者说我们掌握了该随机变量的规律了。,连续型,离散型,例3.1.
6、5:分别作出连续型和离散型随机变量的inv和cdf (1)设男性大学生的身高X的平均值为1.7米,标准差为0.1米。作密度函数和分布函数。利用MATLAB中的正态分布norminv和normcdf命令进行计算,X=linspace(1.4,2.1,100); P = normcdf(X,1.7,0.1); p = norminv(X,1.7,0.1); subplot(1,2,1),plot(X,p),title(身高密度函数) subplot(1,2,2),plot(X,P),title(身高分布函数),(2)设X服从均值为5的泊松分布,作分布律和分布函数图形。,X=0:10; Y = po
7、issinv(X,5); Y1= poisscdf(X,5) subplot(1,2,1),stem(X,Y),title(泊松分布律) subplot(1,2,2),stairs(X,Y1),title(泊松分布函数),(三)下侧概率、上侧概率和分位点,下侧概率的定义:,上侧概率的定义:,利用分布函数我们可以计算随机变量X落在某一范围的概率,或者说我们掌握了该随机变量的规律了。例如随机变量X小于分位点的概率即下侧概率,大于分位点的概率即上侧概率。而随机变量落入x1和x2之间的概率可用以下公式计算。,例3.1.6:男性大学生身高X的平均值为1.7米,标准差为0.1米。 1)计算身高小于1.8米
8、大于1.6米发生的概率,即随机变量X落入区间(1.6, 1.8)的概率。 2)求下侧概率为0.95的分位点。 解:本题利用分布函数进行计算P(1.6X1.8)=F(1.8)-F(1.6),% 例 3.1.6 计算身高小于1.8米大于1.6米发生的概率 P = normcdf(1.8,1.7,0.1)- normcdf(1.6,1.7,0.1),计算结果为:P=0.6827,X = norminv(0.95,1.70,0.1) % 计算下侧概率的分位点,计算结果为:X=1.8645,即有95%的人身高在1.86以下。,例3.1.7:设某车站7:00到7:05分等车人数为服从泊松分布的随机变量X,
9、均值为5。求 1)人数小于等于12发生的概率。 2)人数大于等于8发生的概率。 3)计算上侧概率为0.05的分位点。 解:本题利用分布函数进行计算,1)小于12的计算公式为:,P = poisscdf(12,5) % 小于12的概率 计算结果为:P=0.998,2)大于8的计算公式为:1-F(8),P = poisscdf(12,5) % 小于12的概率,按题义命令为:x=poissinv(0.95,5),计算结果为:x=9,(一) 积分计算的一般方法分布函数的一般形式为:,问题实际归为求积分,当密度函数非常复杂或用解析方法不能积分时,我们常常使用数值积分的方法来处理。,(3.2.1),2、分
10、布函数的一般计算方法,其基本思想是,用简单函数来代替复杂的被积函数。例如在被 积函数的定义域内选一系列的点。,然后求在该点处的函数值,定义插值多项式如下:,(3.1.2),其中,这里,称为拉格朗日插值多项式,其具有以下性质:,1) 。 2) 在上点与点之间为线性函数。,显然有以下关系式成立:,(3.1.3),其中,是误差函数。,可以证明,当,有n+1阶有界导数时,,(3.1.4),当,时,,,即当,是不高于 n 阶的多项式时,有,对(3.1.3)两边积分,我们有,(3.1.5),从而我们可以得到积分的一般近似公式 :,( 3.1.7),其中,,(3.1.7)称为NewtonCotes型积分公式
11、, 而Ai 为Cotes系数,其误差为,这样我们就将一个复杂的积分问题,近似地用代数和的形式来代替了。关于计算的精度我们可以通过 E 来估计。目前一些数学软件如Mathematica等,可以方便地获取Cotes系数,,x0,x1,x2,x3,x4,f(x2),f(x4),红色折线为拉格朗日插值多项式,l 代数精度概念定义 3.1.1 若某个求积公式对于小于等于n 的多项式均能准确地成立,但对n+1次多项式则不能。则称该求积公式具有n次代数精度。,例3.1.1 梯形求积公式,当 时,左边=右边。准确地成立。,当,时,也准确成立。,当,时,,而,所以梯形求积公式具有一次代数精度。 例3.1.2 利
12、用梯形、抛物线及NewtonCotes求积公式 (n=7)计算 解:(1)梯形求积公式 Cotes系数为1/2,1/2,,(2)抛物线求积公式 Cotes系数为1/6,4/6,1/6,(3)取7个点 Cotes系数为41/840,9/35,9/280,34/105,9/280, 9/35,/41/840,复合求积公式 对于一个求积公式,我们要求它们的算法稳定并收敛,但不幸的是 NewtonCotes 求积公式并不稳定,在某些情况下计算不收敛。 例3.1.3 讨论函数 在区间-1,1,用Cotes系 数计算的收敛问题。,如用 Newton-Cotes 求积公式,则在该区间不收敛。请见以下结果 n
13、=1时 NC=0.07692 n=2时 NC=1.35897 n=10时 NC=0.93466 n=40时 NC=-4912.42,显然 NewtonCotes 求积公式有致命的弱点。为改善求积公式,我们使用复合求积公式。其基本思想是把积分区间分成若干小区间,每个小区间中用次数不高的插值多项式近似逼近。 1)复合梯形求积公式 对区间a, bn等份,基点 对每个小区间用梯形求积公式,则,Tn 称为复合梯形公式。为便于按迭代计算,在原有的分划基础上把区间分为 2n 等分,每个小区使用梯形公式,则有,这里,2)复合抛物线求积公式 复合抛物线求积公式具有比复合梯形求积公式更快的收敛速度。抛物线公式用到
14、了区间的中点,所以对区间a, b进行划分时应该分成偶数个小区间。,令n=2m,m为正整数,在每个小区间 上用抛物线公式,从而,3) 步长的自动选择与停止准则在实际计算中,往往是先给出误差精度,在保证精度的前提下,没有必要将区间无限的分下去。 假设给出的误差精度为 ,若,则对区间划分到 2n 等分即告停止。,例3.1.3 对于误差为0.000001,我们来看用复合梯形积分公式和复合抛物线求积公式计算结果,复合梯形求积公式的结果结果为:n = 12 t = 0.5496878 eps = 0.0004596 结果为:n = 24 t = 0.54927516 eps = 0.0004126 结果为
15、:n = 48 t = 0.54933891 eps = 0.0000638 结果为:n = 96 t = 0.54935496 eps = 0.0001604 结果为:n = 192 t = 0.54936892 eps = 4.01210-6 结果为:n = 384 t = 0.54935997 eps = 1.003210 -6 结果为:n = 768 t = 0.54936022 eps = 2.50810-7复合抛物线求积公式的结果结果为:n = 12 t = 0.54036028 eps = 0.1036734 结果为:n = 24 t = 0.54913762 eps = 0.0
16、087778 结果为:n = 48 t = 0.549360162 eps = 0.0002225 结果为:n = 96 t = 0.54936031 eps = 1.42910-7,l 高斯(Gauss)型求积公式 我们已经知道用NowtonCotes系数来进行近似积分,其一般公式为:,其基点 是等距离的,且代数精度最多仅为n+1,并且对于某些积分步收敛。能否通过改变基点的距离来提高计算的精度和稳定性呢?回答是肯定的。 定义3.1.2 如果区间a,b的一组基点 能够使得插值求积公式具有2n+1次代数精度,则称其为高斯型插值求积公式,其基点称为高斯点,而系数Ai则称为高斯系数。,高斯点与正交多
17、项式的关系 定理3.1.3 是区间 a,b 上的高斯点的 充分必要条件为多项式是区间 a,b 上的 n+1 次正交多项式。 例3.1.6 我们仍然来看前面的例子,对积分,利用高斯插值公式进行近似计算。 解:这里我们取35个高斯点进行计算,其结果为I = 0.549362,3、标准正态分布的数值计算,任何正态分布的随机变量 X 通过标准化即U =(X)/S 其中=E(X)S=V(X)从而得到一个标准正态分布随机变量U。因此我们仅考虑标准正态分布函数的计算,随机变量U以,为 u 的概率密度函数,记为UN(0,1)。对于标准正态分布随机变量U有 E(U)= 0 V(U)= 1,(一) 标准正态分布与
18、误差函数标准正态分布的下侧概率(即分布函数)为,上侧概率为,上侧概率,分位点,标准正态分布的上侧概率与分位点:,用于计算上侧概率的误差函数,定义为:,(0 X x),通过变换有,则分布函数的计算公式为:,(二)标准正态分布函数的数值计算 计算标准正态分布函数的近似公式很多,在此仅举一例。,其中 a1=0.196854 a2=0.115194a3=0.000344 a4=0.019527 其最大绝对误差是2.5104,这是一个简单实用的近似公式,在精度要求不高时用起来很方便。,其中的一种近似公式为,这里,其中 c0=2.515517 d1=1.432788 c1=0.802853 d2=0.18
19、9269 c2=0.010328 d3=0.001308上述近似公式的最大绝对误差为0.00044。其它随机变量的分布函数也是按照某种近似公式计算的。,5、统计工具箱的各种分布计算,(一)各种分布的概率计算,MATLAB给出了各种分布的随机数的计算,部分列表如下:,部分随机变量的密度函数pdf,部分随机变量的分位点计算inv,(二)分布函数各种计算命令的命名规则,分布计算命令分为三部分,即分布名、计算名和参数。例如:,分布名,计算名,norm,inv,(a1,a2,ak),参数部分,例如:计算正态分布的分位点命令语法为:,X = norminv(P,MU,SIGMA) 这里:P:给定的正态分布
20、下侧概率MU:为均值SIGMA:为方差,(三)卡方分布 :如果随机变量X的密度函数为:,则称随机变量X服从自由度为v的卡方分布,卡方分布在统计推断中具有十分重要的作用,特别是在分布的拟合优度检验时。,例3.5.1 关于卡方分布和正态分布的关系 (1) 作出自由度为4的卡方分布的密度和分布图形 x=linspace(0,20,100); p=chi2inv(x,4); P=chi2cdf(x,4); subplot(1,2,1),plot(x,p),title(chi2inv) subplot(1,2,2),plot(x,P),title(chi2cdf),从密度图中可以看出卡方随机变量X的取值
21、均大于0,自由度v就是该随机变量的均值,方差为2v。,(2)产生1000个自由度为4的卡方随机数,并估计均值和方差。,R=chi2rnd(4,1,1000); % 产生自由度为4的卡方分布随机数 ER=mean(R) % 估计1000个样本的均值 Var=var(R) % 估计1000个样本的方差,结果为: ER = 4.0362 Var = 8.2509,而理论值为:均值即为自由度v,方差为2v。,(3)设X为服从标准正态分布随机数。问统计量KA服从何分布?,解题思路:对统计量KA抽1000次样,每次计算是抽4个标准正态分布随机数,并按上面的公式计算出一个统计量的值。对1000个样本作直方图
22、,看其趋势。再调用分布检验命令来确定属于那一分布。,% 对(3)进行实验 for i=1:1000R=normrnd(0,1,4,1);KA(i)=R*R; End % 以上抽1000个按公式计算的样本 hist(KA,20) % 调用直方图命令作图 kstest(KA, KA chi2cdf(KA, 4) %检验数据是否来自卡方分布,ans = 0 接受原假设来自自由度为4的卡方分布。,(4)计算卡方下侧概率为0.05和0.95的分位点。,q1=chi2inv(0.05,4) q2=chi2inv(0.95,4),计算结果为: q1 = 0.7107 q2 = 9.4877,(四)F分布 :
23、如果随机变量X的密度函数为:,例3.5.2 作出第一自由度为7,第二自由度为4的F分布的密度和分布图形 x=linspace(0,20,100); v1=7;v2=4 P=fcdf(x,v1,v2); p=fpdf(x,v1,v2); subplot(1,2,1),plot(x,p),title(fpdf) subplot(1,2,2),plot(x,P),title(fcdf),(五)随机变量的数字特征计算 Descriptive Statistics,随机变量X的数字特征,也是随机变量性质的一种描述。它们反映了诸如随机变量的中心趋势(如均值、中位数、模等),和离差程度(如方差、标准差、极差
24、等),还描述随机变量的分布特性(如偏度和峰度等),(1) 样本均值的计算mean,计算公式为:,中心趋势度量的数字特征 设一组样本为:X1,X2,Xn,(2) 样本的50%中位数计算median,计算公式为:,(3) 样本的几何均值计算geomean,计算公式为:,(1) 样本方差的计算var,计算公式为:,离散程度度量的数字特征 设一组样本为:X1,X2,Xn,(2) 样本的标准差的计算std,计算公式为:,(3) 样本的极差range,计算公式为:,例3.5.3 计算200个服从正态分布的样本的方差、标准差和极差。,X=normrnd(0,1,1,200) VAR=var(X) STD=s
25、td(X) RANG=range(X),计算结果为: VAR = 0.9519 STD = 0.9757 RANG = 4.8217,描述该样本分布形态的数字特征统计量有,(1) 样本偏度的计算skewness,计算公式为:,(2) 样本峰度的计算kurtosis,计算公式为:,(1) 样本矩阵协方差的计算cov,计算公式为:,多变量之间相关程度的度量,(2) 样本矩阵的相关系数计算corrcoef,计算公式为:,设二维数据为,例3.5.4 计算64矩阵的协方差阵和相关矩阵。,X=rand(6,4) C=cov(X) R=corrcoef(X),计算结果为:X =0.1389 0.0153 0
26、.8462 0.68130.2028 0.7468 0.5252 0.37950.1987 0.4451 0.2026 0.83180.6038 0.9318 0.6721 0.50280.2722 0.4660 0.8381 0.70950.1988 0.4186 0.0196 0.4289,C =0.0287 0.0401 0.0133 -0.00650.0401 0.0986 -0.0088 -0.02760.0133 -0.0088 0.1164 0.0115-0.0065 -0.0276 0.0115 0.0318R =1.0000 0.7553 0.2306 -0.21490.75
27、53 1.0000 -0.0818 -0.49320.2306 -0.0818 1.0000 0.1884-0.2149 -0.4932 0.1884 1.0000,5、统计推断基本原理,有了随机变量分布的概念以后,我们就可以利用随机变量或者构造出的统计量的分布特性来进行假设检验了。统计推断或称假设检验是统计方法中最为重要的手段之一,可以应用于参数统计推断,非参数统计推断等领域。在统计分析的各种模型中,最后判别模型的好坏,我们都要在一定的假设下构造各种统计量然后进行统计推断。在各类商用统计软件中都输出各种统计量的推断结果,因此只有掌握了推断的结果才能很好地使用商用统计软件。,(一)实际统计推断
28、原理:,小概率事件实际不可能发生。,即事件发生可能性很小时,实际上我们认为不可能发生。例如:,1)设姚明在罚球线投篮进与不进是一随机变量X,进的可能性是95%,不进的可能性是5%。则在一次投篮时不进这一事件是一个小概率事件,则我们认为他投篮不会不进。,2)设每个人上街发生交通事故的可能性为0.01%,这是一个小概率事件。但实际我们认为不可能发生,周末我们照样逛街购物。,事实上我们并不知道,姚明的命中率。我们是用统计推断的方法来决定的。按以下步骤进行推断: 1)H0:进球的概率为95% 2)对X进行抽样,即观测投篮结果。 3)如果进了接受原假设H0,进球的概率为95%。如果没有进,按小概率事件实
29、际不可能发生原理,认为不进球不是小概率事件。因此推翻原假设。,例3.4.1 中国大学生男性身高的平均值是1.70米吗?对某大学男生抽20个样,数据为: 1.66 1.53 1.71 1.73 1.59 1.82 1.82 1.69 1.73 1.72 1.68 1.77 1.641 1.92 1.69 1.71 1.80 1.71 1.69 1.62 答:现在进行统计推断程序:,1)H0:假定中国男性大学生身高为1.70米,2)计算统计量按假定该统计量服从均值为1.70,标准差为 的T分布,3)按显著性水平为 计算该统计量的拒绝域,R=1.66 1.53 1.71 1.73 1.59 1.82
30、 1.82 1.69 1.73 1.72.1.68 1.77 1.641 1.92 1.69 1.71 1.80 1.71 1.69 1.62 ex=mean(R) % 计算平均值 h,p,ci = ttest(R,1.70) % 进行均值检验,结果为: ex = 1.7116 % 平均值落在接受域1.6706,1.7525 h = 0 % 这个结果表示接受原假设,1表示拒绝 p = 0.5615 % 概率大于0.025,表示落在接受域 ci = 1.6706 1.7525 % 该结果是接受域,对平均值进行T检验命令的语法: h = ttest(x,m) h = ttest(x,m,alpha
31、) h = ttest(x,m,alpha,tail) h,p,ci = ttest(.) 这里 x: 表示样本 m:在0假设下的平均值alpha:显著性水平 h: 0接受,1拒绝。 p: 计算出的概率 ci:平均值的置信区间。,接受域,拒绝域,统计量计算结果,显著性水平0.05下,(二)统计推断中的一些术语,置信水平 :拒绝域的概率。,置信区间 :接受域,显然接受域和置信水平有关, 越小则接受域越大,反之奕然!,H0:0假设,或称初始假设,如:H0:x=1.70,H1:备择假设,1)双侧假设2)右侧假设3)左侧假设,前面,例3.1.4就是备择假设是双侧的情况,对同样的问题进行右侧和左侧检验,
32、作为习题进行计算和推断。,(三)统计推断分类,统计推断方法可以分为三类,参数统计推断、分布的拟合优度统计推断和非参数统计推断。当已知分布的情况下,对分布的各种参数进行推断称为参数统计推断。对样本服从某种分布进行假设,并进行检验称分布进行分布的拟合优度统计推断。当对某个参数进行统计推断而事先不知其分布时称为非参数统计推断。,(1)参数的统计推断,一个服从某种分布的随机数,其参数是多种多样的。例如均值、方差、偏度、峰度、最大值和最小值等等。在大样本的情况下,根据中心极限定理我们可以统一构造标准正态分布统计量进行统计推断,在下一章中将详细介绍这种构造方法。,MATLAB提供的T检验和Z检验。命令见下
33、表,【例3.5.1】设有两组样本X,Y。假定来自正态分布,标准差未知,抽检验它们的均值是否一样。产生X为均值为0,标准差为1的30个样本和Y均值为0.5,标准差为1的40个样本。我们可以构造一个T-统计量,命令语法为: h,significance,ci,stats = ttest2(x,y,alpha,tail) 这里: alpha:输入变量,给定的显著性水平,如果没有这一项,内定alpha=0.05。 tail: 输入变量,假设类型。当:tail=both,为双尾检验,即备择假设。当没有tail项时系统内定此选择 tail=right,为右单尾检验,即备择假设。 tail=left,为左单
34、尾检验,即备择假设。 h:输出变量,统计推断最后结果,h=0接受原假设,h=1拒绝原假设。 Significance:输出变量,统计量的拒绝域概率。 ci:计算出统计量的上下限。 stats:有关的其他统计量。,我们的程序如下: % 产生X均值为0,标准差为1的30个样本, % 产生Y均值为0.5,标准差为1的40个样本,检验均值。 X = normrnd(0,1,30,1); Y = normrnd(0.5,1,40,1); h,significance,ci = ttest2(X,Y) 计算结果为: h = 1 significance = 8.9577e-005 ci = -1.4686
35、 -0.5173 结果告诉我们拒绝原假设,即来自均值不同的正态分布。 对服从其他分布的随机数,进行参数检验时,在大样本的情况下,利用中心极限定理我们可以构造一个服从标准正态分布的统计量进行检验。,(2)分布的拟合优度检验,一组样本我们关心的是它们来自那一种分布,这时首先假定是服从某一分布,然后用样本构造其分布特性,并和假设的理论分布拟合的好坏进行检验,这就是分布的拟合优度检验。描述随机变量的分布特性有两种方法,一是随机变量的分布函数,另一个是随机变量的密度函数,我们可以分别构造不同的统计量进行检验。科尔莫格诺夫-斯米尔诺夫检验Kolmogorov-Smirnov test这是一个著名的检验方法
36、,可对服从任何分布的随机数进行分布的拟合优度检验。设样本的经验分布函数为 ,样本的理论分布为F(x)。我们可以构造K-S统计量,显然D0越小表示经验分布和理论分布拟合的较好,利用D0很我们可以构造Kolmogorov-Smirnov统计量KS,KS大则表示经验分布和理论分布相差很远,即样本不是来自原假设的理论分布,示意见图。,【例3.5.1】对一组来自由度为5的卡方分布随机数进行分布的拟合优度检验,用同样的数据进行参数为5的指数分布检验。利用科尔莫格诺夫-斯米尔诺夫检验命令kstest,其语法为: H = kstest(X) % 进行正态分布检验 H = kstest(X,cdf) % 进行给
37、定分布函数cdf的拟合优度检验 H = kstest(X,cdf,alpha,tail) % 进行给定显著性水平、分布cdf及备择假设的拟合优度检验 H,P,KSSTAT,CV = kstest(X,cdf,alpha,tail) % 同上,并多输出拒绝域概率,KS统计量等 这里: X:为原始数据,注意为列向量。 cdf:原假设的分布。 H:检验结果,H=0接受样本来自假设的分布,H=1拒绝原假设。 P:KS统计量的上侧概率。 KSSTAT:计算出的格诺夫-斯米尔诺夫统计量的值。,程序如下: % 例3.5.1,抽200个服从自由度为5的卡方分布,检验: % 1)是否服从自由度为5的卡方分布 %
38、 2)是否服从参数为5的指数分布 x = chi2rnd(5, 200, 1); % 抽200个自由度为5的卡方分布 h1=kstest(x, x chi2cdf(x, 5) % 卡方检验 h2=kstest(x, x expcdf(x, 5) % 指数分布检验 最后的结果为: h1=0 接受原假设,样本来自自由度为5的卡方分布。 h2=1 拒绝原假设,样本不是来自参数为5的指数分布。,统计量检验随机数的密度函数拟合优度检验,将样本 定义域分为k个相等的区间,记i区间的观测频数为ni(i=1,,k),若随机变量X落于第i区间的概率为Pi,则得理论频数mi= N Pi,由ni,mi构造统计量。,
39、=,渐近服从自由度为k-1的卡方分布,简记为 。一般要求样本数N30。,【例3.5.3】对参数为4的指数分布抽200个样,假设样本来自参数为4的指数密度函数,构造自由度为7卡方统计量进行假设检验。思路,将随机数的定义域分为8个等区间,计算落入每个区间的频数ni(i=1,,8),再根据落入每个区间的理论概率计算出理论频数m i= N Pi,(i=1,,8),按公式(3.6.2)计算出自由度为7的卡方分布统计量,判断该统计量是否落入拒绝域,最终判断检验结果。,% 例3.6.5 抽标准正态分布机数200个,对密度函数进行统计推断 X = normrnd(0,1,200,1) % 抽200个正态分布随
40、机数 histfit(X,8); % 作示意图 % 构造卡方统计量 k=8; kk=linspace(-3,3,k+1); % 对区间分成8个等区间 P=normcdf(kk,0,1); % 计算每个区间的概率 n=(P(2:k+1)-P(1:k)*200 % 计算每个区间的理论频数 m=hist(X,k) % 计算每个区间的观测频数 kf_7 = sum(n-m).2)./m) % 计算卡方统计量,% 进行统计推断 chi2_p=chi2cdf(kf_8,k-1) % 计算下侧概率 if chi2_p0.95 chi2_str=接受; elsechi2_str=拒绝; end chi2_st
41、r,结果为接受原假设,我们计算出的理论频率与样本频率见表3-6-3 表3-6-3 理论频率与样本频率计算结果自由度为7的卡方统计量结果为: kf_7 = 9.8806 最后的检验结果为接受原假设,样本来自标准正态密度函数。,6、非参数统计推断,在参数统计推断中,我们是在知道样本服从某分布的前提下进行的,例如在知道总体为正态分布的情况下,构造T统计量具有良好的估计性质。高但在很多实际问题中我们得到的样本并不知道其分布特性,而是只利用样本本身进行统计推断,这样的参数推断称为非参数统计推断。由于非参数统计推断不需要预先知道样本的分布,虽不能达到最优的统计性质,方法却具有简单、稳定的特点,因此广泛使用
42、于生物、化学、医学和社会科学各领域。MATLAB提供的非参数检验命令见表3-6-1,两种处理方法好坏比较的Wilcoxon秩和检验秩的定义为:设有两种样本, , ,,将它们放在一起进行排序,得由小到大的顺序序列:(3.6.1) 如果xi位于数据(3.6.1)的第五个位置,则称它的秩为5,这样数据,中的每一个元素都对应一个秩。 秩和的定义为:将第一组数据的每个元素的秩相加得R1,将第二组数据每个元素的秩相加得R2,R1和R2就分别是各组的秩和,显然它们是统计量。如果两组数据来自一个总体,那么我们计算出的秩和统计量和就不应该相差太大。我们可以构造统计量T。,T 与平均秩和应相差不大,在大样本的情况
43、下根据中心极限定理可以构造标准正态分布统计量。,Wilcoxon秩和检验 H0:设两独立样本来自等中位数的分布。 H1:中位数不同。 根据上面计算出的统计量就可以进行统计推断了。,【例3.6.1】某运动队引进新的训练方法,从队中抽一批队员用新方法训练,留一批使用老方法。一个月后进行测试,问两方法训练结果有无明显区别,见表3-6-1,% 例3.6.6 两组运动成绩样本的wilcoxon 检验 X=41 38 35 45 32; Y=56 49 60 43 39 58; p,h = ranksum(X,Y) 计算结果为: p = 0.0303 h = 1 拒绝原假设,即新方法与老方法训练出的结果有
44、明显的差别的。,(2) Wilcoxon符号秩和检验signrank,设样本X,Y个数相同,C=X-Y,则C中的元素或为正或为负。对C的绝对值进行排序得顺序序列,再按正负号进行分组并分别计算两组的秩和,按上面的方法构造统计量,然后进行检验。例如训练方法的另一组数据,某跳水队前后两种方法测试的数据。见表,其中秩栏加负号表示第二组,正表示第一组。秩和R1=3,R2=33,统计量T=3,【例3.6.2】对跳水队的数据,编程计算。 % 例3.6.7 跳水数据的wilcoxon 符号检验 X=26 24 28 30 35 24 27 21; Y=30 34 36 28 40 35 33 20; p h=
45、signrank(X,Y) 计算结果 p = 0.0391 h = 1 否定原假设,新老方法训练结果有明显的区别。,(3)多种处理方法好坏比较的kruskal-wallis秩和检验,对于多组资料比较,如果不满足方差分析的条件,即每组均来自正态分布总体,我们可以构造F统计量进行统计推断,放松这一条件,可采用Kruskal-Wallis秩和检验。此法的基本思想与Wilcoxon-Mann-Whitney法相近:如果各组处理效应相同,混合编秩号后,各组的秩和应近似相等。,【例3.6.3】利用三种不同的合金材料制造出型材,并对型材进行破坏性拉力实验。,% 例3.6.7 三组不同材料的型材强度样本的kr
46、uskal-wallis检验 strength = 82 86 79 83 84 85 86 87 74 82 78 75 76 77 79 .79 77 78 82 79; % alloy = st,st,st,st,st,st,st,st,. al1,al1,al1,al1,al1,al1,. al2,al2,al2,al2,al2,al2; p=kruskalwallis(strength,alloy,off) 计算结果为 p= 0.0018 统计量落入了拒绝域,即不同材料的型材强度具有明显的区别。,7、习题,一、产生200个均值为6的泊松分布随机数,计算所有的数字特征。 二、产生200
47、个自由度为6的卡方分布分布随机数,计算所有的数字特征。 三、产生200个第一自由度为6,第二自由度为5的F分布随机数,计算所有的数字特征。 四、产生200个(0,1)上的均匀分布随机数,计算所有的数字特征。 五、设服从标准正态分布,验证服从自由度为5的卡方分布。 六、对本班男生的身高、体重进行抽样,并进行参数的统计推断。 七、对本班女生的身高、体重进行抽样,并进行参数的统计推断。 八、抽10个女生的身高数据,15个男生身高数据。利用Wilcoxon秩和非参数统计方法推断两组身高的中位数是否一致。,九、对安徽三个地区淮北、江淮和江南分别抽10个男大学生身高数据,利用多种处理方法好坏比较的kruskal-wallis秩和检验,判断三地区同学的身高中位数是否一样。 十、抽10个女生的身高数据,15个男生身高数据。利用Wilcoxon符号秩和非参数统计方法推断两组身高的中位数是否一致。 十一、开发一个小界面,可以计算一些分布的概率和分位点,并可以作密度图和分布图。如下图。,