1、1正态分布3.1 正态分布对于连续型随机变量而言,正态分布(normal distribution)是最重要的一种概率分布。经验表明:对于依赖于众多微小因素;且每一因素均产生微小的或正或负影响的连续型随机变量来说,正态分布是一个相当好的描述模型。如人的体重,因为遗传、骨骼结构、饮食、锻炼、等都对人的体重有影响,但又没有一种因素起到压到一切的主导作用。与此相类似,人的身高、考试分数等都近似地服从正态分布。通常用:XN(u, ) (3 - 1)2表示随机变量X服从正态分布。 N表示正态分布,括号内的参数 u, 称为正态分布的2总体均值( 或期望)和方差。3.1.1 正态分布的性质(1) 正态分布曲
2、线以均值u为中心,对称分布。(2) 正态分布的概率密度函数呈中间高、两边低,在均值 u处达到最高,向两边逐渐降2低,即随机变量在远离均值处取值的概率逐渐变小。(3) 正态曲线下的面积约有68% 位于u 两值之间;约有95%的面积位于u2 之间;2而约有99.7%的面积位于u3 之间。 (4) 两个(或多个 )正态分布随机变量的线性组合仍服从正态分布。令X和Y相互独立:XN(u X, )2xYN(u Y, )y现在考虑两个变量的线性组合:Wa X+b Y则 WN(u W, ) ( 3 - 2 )2w其中,uW =(auXbu Y) ( 3 - 3 )= ( + ) (3 - 4)xyb例3.1令
3、X表示在下沙高教区一花店每日出售玫瑰花数量, Y表示在下沙镇一花店每日出售玫瑰花的数量,假定X和Y服从正态分布,且相互独立,并有: XN( 100 ,64 ) ,YN( 150,81 )求两天内两花商出售玫瑰花数量的期望及方差?W2X2Y根据式( 3 - 3 )E(w)E( 2X+ 2Y) = 5 0 0,Var (w) = 4var(X) + 4var(Y) = 5 8 0因此,W服从均值为5 0 0,方差为5 8 0的正态分布,即WN( 5 0 0,5 8 0 )。3.1.2 标准正态分布两个正态分布可能因为期望或方差的不同,或是期望和方差均不同而相区别。如何比较各种不同的正态分布呢?3定
4、义一个新的变量Z: Xu如果变量X的均值为u,方差为 ,则根据式(3 - 4),变量Z的均值为0,方差为1。称2之为标准正态变量(standard normal variable) 。即若XN(u , ),那么变量Z就是标准正态变量,用符号表示为:2ZN(0,1) (3 - 5)证明:(1) 均值为0因为有E (aX+b) = a E(X) + b,所以u( ) ( )(2)方差为1因为有var ( aX +b ) = a2var ( X ) ,所以 vrr( ) ( )图3 - 3a 和3 - 3b分别给出标准正态分布的概率密度函数和累积分布函数。4例3.2变量x表示花房每日出售的玫瑰花量,
5、假定它服从均值为70、方差为9的正态分布,即XN( 70 ,9 ) ,求任给一天,出售玫瑰花数量大于75支的概率。7501.63Z服从标准正态分布,求P(Z 1 . 6 7 ) 。从附录表可知, Z位于区间( 0 , 1.3 ) 的概率为0.4032,位于 ( 0,2.5 )的概率为0.4938。由正态分布的对称性可知,Z位于区间(-1.3 , 0 ) 的概率也为 0.4032,位于(-2.5 , 0 )的概率为0.4938。由于这种对称性,在标准正态分布表中一般仅给出Z取正值的情形。也就是说,标准正态密度函数,在Z=0的左右面积均为 0.5,整个面积(或概率)为1。根据正态分布表得:P( 0
6、Z1.67)=0.4525因此,P(Z1.67)=0.50000.4257=0.0475即每天出售玫瑰花的数量超过75支的概率为0.0475。(参见图3-3a )5例3.3继续例3. 2 ,现假定要求每天出售玫瑰花数量小于或等于7 5支的概率。概率为: 0.500 0+0.452 5=0.952 5 (见图3-3b ) 。例3.4求每天出售玫瑰花数量在在65与75支之间的概率。 601.3Z查表得,P(1.67Z0)=0.4525P(0Z1.67)=0.4525由正态分布的对称性得到,P(1.67Z1.67)=0.9050即每天出售面包的数量介于65条与75条之间的概率约为90.5% ( 见图
7、3-3a )。上面的例子表明:一旦知道某一正态变量的期望与方差,先将其转化为标准正态变量,然后根据正态分布表求得相应的概率。3.2样本均值 的抽样分布或概率分布X样本均值是总体均值的估计量,但由于样本均值是依据某一给定样本而定,因此其值也会因随机样本的不同而变化。也就是说,样本均值也是随机变量,并且有其自己的概率分布函数。称X1,X2,Xn构成一个容量为 n的独立同分布随机变量(independently and identically distributed random variables,i.i.d.random variables),即所有的X是从同一概率密度(即每个 Xi有相同的概率
8、密度函数 )中独立抽取得到的。如果XiN(u, )且每个Xi独立抽取得到,则称X1,X2, ,Xn是 i.i.d.随机变量,2正态概率密度函数是其共同的概率密度。估计量(比如样本均值)的概率密度。例3.6正态分布的均值为10,方差为4,即N( 10,4 ) 。从这个正态总体中抽取20个随机样本,每个样本包括2 0个观察值。对抽取的每一个样本,得到其样本均值 ,因而共有20个样本均值,见表3-3。6图3- 的条线图描绘了样本均值的经验概率分布。7如果列出更多这样的样本,那么样本均值的概率分布服从正态分布。若X1,X2, ,Xn是来自于均值为u,方差为 的正态总体的一随机样本。则样本均值,2也服从
9、正态分布,其均值为u,方差为 ,即Xn(3 - 6)2(,)un样本均值 (u的估计量)的抽样(或概率) 分布,同样服从正态分布。其均值与每一个Xi的均值相同,但方差等于Xi的方差( )除以样本容量n。证明:因为 = (X1 + X2 + Xn )nE( ) = E(X1) + E(X2) + E(Xn )Xn= u + u + u n= uVar( ) = var(X1 + X2 + Xn )/ n= var( X1 + X2 + Xn ) n2= var(X1 )+ var(X2) + var(Xn)n2(独立变量方差性质)= ( + + ) / n22= n / n2= / n N(u,
10、 ) 可以转化为标准正态分布X2uZn8中心极限定理从正态总体中抽样,其样本均值同样服从正态分布。但是如果从其他总体中抽样又如何呢?中心极限定理(central limit theorem,CLT):如果X1,X2,Xn是来自( 均值为u方差为 的)任一总体 的随机样本,随着样本2容量无限增大,则其样本均值 趋于正态分布,其均值为u,方差为 /n。X2注意样本方差的公式,分母是n-1,因为要求估计量是无偏的。证明:( 22222222()1 =()(),1()()1ESnXuXunEuEn因 为 所 以 ( ) )2222 2()()()1 =()uXXn注:如果 为样本均值 ,则 为 )X3
11、.3 分布9如果随机变量X服从均值为u ,方差为 的正态分布,即X N(u, ),则随机变量22Z= (X u) / 是标准正态变量,即ZN(0,1)。标准正态变量的平方服从自由度(degrees of freedom,d.f.)为 1的 分布,即是一种特殊的 分布,用符号表示为,2Z2= (3 - 7)(1)其中 的下标(1)表示自由度(d.f.)为1,这里定义自由度是平方和中独立观察值的个数。令Z1,Z2 ,Z K为K个独立的标准正态变量 (即每一个变量均是均值为0,方差为1的正态变量),对所有的变量 Z平方,它们的平方和服从自由度为K 的 分布,即2( 3 - 8 )2221)i k:这
12、里的自由度为k,因为在式(3 - 8)的平方和中,有K个独立的观察值。分布的性质210(1) 如图3 - 8示 , 与正态分布不同 , 分布只取正值(它是平方和的分布)且取值范围2从0到无限大。(2)与正态分布不同, 分布是斜分布,其偏度取决于自由度的大小,自由度越小,越向右偏,但随着自由度的增大,逐渐呈对称,接近正态分布。( 3 ) 分布的期望为k,方差为2k。2( 4 ) 若E1 、E2分别为自由度为 k1,k2的两个相互独立的 变量,则其和(Z1+Z2)也是2一个 变量,其自由度为(k1+k2)。2 3.4 t分布运用最广泛的另一个概率分布是t分布,t 分布又称为学生 t分布(Stude
13、nts t distribution),与正态分布也密切相关。(注:学生是统计学家W.S.Gosset 的笔名,他于1908年发现了这一概率分布。 )若 N(u, )X2n则变量Z服从标准正态分布:(3 - 9)u假定仅知道u及 的估计量的值 ,用样本标准差S代替总体标准差 ,得到22s一个新的变量(3 -10)/Xtsn变量t服从自由度为(n-1)的学生t分布。与 分布类似,t分布也与参数自由度有关,2自由度为n-1。t分布的性质(1) t分布与正态分布类似,具有对称性。11(2) t分布均值,与标准正态分布均值相同为0,但方差为k / (k2)。(注:在求t分布的方差时定义自由度必须大于
14、2。 )标准正态分布方差总为1,表明t分布方差总比标准正态分布方差大t 分布比正态分布略“胖”一些。但是当k增大时, t分布的方差接近于标准正态分布方差值1。如果自由度k=10,则t分布方差为 10/8 = 1.25;如果自由度k30,则其方差为30 / 28 = 1.0;如果自由度k=100,则其方差为100 / 98 = 1.02因此与 分布类似,随着自由度的逐渐增大时, t分布近似正态分布。2(注:当k为30,t分布的方差已与标准正态分布方差相差不大。 )例3.7假定真实的出售平均数量为70支,那么15天内出售玫瑰花平均数量为74支的概率是多少?( 样本方差为4)如果知道真实的标准差 ,
15、则可通过标准正态分布变量Z来解答。但是,现在仅知道真实标准差的估计量S,则可以利用式(3 - 10)来计算t值。740/15Xutsn3.8自由度为14时,查表得,t值大于等于 2.145的概率为0.025 (2.5%) ,t值大于等于2.624的概率为0.01 (1%),t值大于等于3.787的概率为0.001 (0.1%)。 3.5 F分布12如果随机样本X1,X2,Xm来自均值为u X,方差为 的正态总体,其样本容量2为m;随机样本Y1,Y2, ,Yn为来自均值为u Y,方差为 的正态总体,其样本容量为n,且这两个样本相互独立。如何知道这两个正态总体是否同方差?即= 2XY由于不能直接观
16、察两个总体的方差,但假定可以知道它们的估计量:2()1iXS2()1iYSN现考虑比值:2XYF()/imn如果两总体方差真实值确相等,则F值将接近于1,但如果两总体方差真实值不相等,则F值不等于1;两总体方差相差越大,F值就越大。如果 = (即两总体同方差),则比值F值服从分子自由度为(m1) ,分母自由2XY度为(n 1)的F分布。 1,2k双下标表明了分子与分母自由度。 (在此例中, k1= (m1),k2= (n1) 。F分布的性质( 1 ) 与 分布类似,F分布也是斜分布,向右偏,其取值范围也为 0到无限大。2(2) 与 分布类似,当自由度k1, k2逐渐增大时,F分布近似正态分布。( 3 ) t分布变量的平方服从分子自由度为1,分母自由度为k的F分布,即1321,kktF例3.8两班做同样的经济计量学测试。其中,一个班级共有100名学生,另一班级共有150名学生,该老师从第一个班级随机抽取25个学生,从第二个班级随机抽取31个学生,观察得到两个班级学生考试平均分数的样本方差分别为100和132。假设学生考试平均分数这一随机变量服从正态分布,那么是否能够认为两班级分数平均值同方差。因为这两个随机样本来自两个正态总体,并且相互独立,则 1320F.服从自由度为30、24的F分布。查F分布表得当分子自由度为30、分母自由度为24时,F值大于等于1.31 的概率为25% 。