1、第二章多元正态分布及其抽样分布,内 容,第一节 多元正态分布的定义第二节 多元正态的性质第三节 多元正态参数的极大似然估计第四节 多元正态的样本分布,第一节 多元正态分布的定义,一、标准多元正态分布,则,设随机向量,其分量独立同分布于,密度函数为,其中的,均值为,协方差矩阵为,二、一般的正态分布,设随机向量 ,若其的密度函数为,其中 的均值为,协方差为,称 服从均值为E(X),协方差为的正态分布。,三、一般的p维正态和p维标准正态的关系,设 ,其中 是一个 阶非退化矩阵, 服从 维标准正态分布,则,服从p维正态分布,且均值向量为,x的协方差矩阵为,其密度函数为,若 ,则1存在, 是非退化 元正
2、态分布;,若 ,则 不存在, 是退化 元正态分布,不存在密度函数。,值得注意,设随机向量 , 是常数向量, 是一个 的常数矩阵,则 服从正态分布,记为 ,其中,例:设随机向量 , , ,则 的分布是退化的三元正态分布。,第二节 多元正态分布的性质,二、x是一个服从p维正态分布,当且仅当它的任何线性函数 服从一元正态分布 。,一、多元正态分布的特征函数,三、 X服从 维正态分布,则 ,其中 为 常数矩阵, 为 维的常数向量,则,四、设 ,则 的任何子向量也服从多元正态分布,其均值为 的相应子向量,协方差为 的相应子矩阵。,五、设 , , 相互独立,且,则对任意 个常数 ,有,六、 ,则 分布。,
3、七、将 作如下的分块: 子 向量相互独立,当且仅当 。证:必要性,八、设 , , ,其中 是 阶矩阵, 是 阶矩阵, , ,则 与 相互独立,当且仅当 。,九、设 , , ,其中 是 阶矩阵, 是 阶矩阵, , ,则 与 相互独立,当且仅当 。,同上可证。,十、将 作如下的分块:,则 与 相互独立, 与相互独立 。,证:,则给定 时 的条件分布为 ,其中,十一、将 作如下的分块:,为 给定的条件下 数学期望。,十二、偏相关系数,矩阵 称为条件协方差矩阵,它的元素用表示。是当 给定的条件下, 与 ( )的偏相关系数,定义为,它度量了在值 给定的条件下, 与( )相关性的强弱。,例 设XN6( ,
4、),其协方差矩阵为,计算偏相关系数。,求x7给定的条件下,x1, x6的偏协方差矩阵,3 实例分析及SAS/CORR,例1 今对31人进行人体测试,考察的7个指标是: x1:年龄 x2:体重 x3:肺活量 x4:1.5英里跑所需时间 x5:休息时的脉搏 x6:跑步时的脉搏 x7:跑步时记录的最大的脉搏 对这些指标进行一些相关分析。,SAS的程序data a;input x1-x7;cards;44 89.47 44.609 11.37 62 178 18240 75.07 45.313 10.07 62 185 18538 89.02 49.874 9.22 55 178 18047 48 6
5、1.24 47.920 11.50 52 170 17652 82.78 47.467 10.50 53 170 172; proc corr nosimpl cov;var x1;with x7;partial x3;run;,proc corr nosimpl cov;分析相关系数nosimpl是要求不打印描述性统计量。,var x1;指定分析相关系数的变量。,with x7; with指定变量与var指定的变量之间的相关系数。,partial x3;当指定的变量给定时,计算偏相关系数。,在肺活量一定的条件下,年龄和跑步时记录的最大脉搏成负相关,1 Partial Variables: x
6、3 1 With Variables: x7 1 Variables: x1 Partial Covariance Matrix, DF = 29 x1 x7 -24.95076704 Pearson Partial Correlation Coefficients, N = 31 Prob |r| under H0: Partial Rho=0 x1 x7 -0.54573 0.0018,第三节 极大似然估计及其性质,则总体的密度函数为,X1,X2,Xn是从总体中抽取的一个简单随机样本,满足X1,X2,Xn相互独立,且同正态分布,称X为样本数据矩阵。,一、样本的联合密度函数,为样本联合密度函
7、数。,所以,似然函数还可以表示为:,二、和的极大似然估计,所谓和的极大似然估计,是寻找 和 满足条件,令,可以证明和的极大似然估计为,三、相关系数的极大似然估计,(一)极大似然估计的不变性质 设 是的极大似然估计是 ,而且变换f()是一一对应的,则f()的极大似然估计就是,(二)简单相关系数的极大似然估计,其中Sij是样本协方差矩阵S中相应位置上的元素,(三)偏相关系数的极大似然估计,则偏相关系数的极大似然估计,其中,,,。,(四)复相关系数的极大似然估计,将x和S作如下的分块,的线性函数为,定义 (复相关系数),一个变量y与一组变量X1,X2,XK的负相关系数是以y为被解释变量,X1,X2,
8、XK为自变量的回归方程的可决系数。,为了研究四川经济增长的影响因素,欲建立四川省经济增长模型。主要经济指标采用国内生产总值增长率(Y),投资指标资本形成总额增长率(X1),人口指标用自然增长率(X2),就业指标失业率(X3)和消费指标居民消费水平增长率(X4)。分析指标之间的关系。,data a;input y x1-x4;cards;数据行;proc corr nosimpl noprob cov;run;,proc iml;sigma22=76.58605619 2.59407381 -3.45807619 49.03157071, 2.59407381 5.14447619 -0.782
9、52381 4.24046429, -3.45807619 -0.78252381 3.63747619 -2.32063571, 49.03157071 4.24046429 -2.32063571 53.90793143;sigma12= 57.79053524 4.91975476 -2.98844524 52.41117214;fcorr=sigma12*inv(sigma22)*t(sigma12)/54.8989690;print fcorr;proc reg;model y=x1-x4;run;,Analysis of Variance Sum of MeanSource DF
10、Squares Square F Value Pr FModel 4 1089.28592 272.32148 501.20 F Wilks Lambda 0.54561620 6.87 4 33 0.0004 Pillais Trace 0.45438380 6.87 4 33 0.0004 Hotelling-Lawley Trace 0.83279015 6.87 4 33 0.0004 Roys Greatest Root 0.83279015 6.87 4 33 0.0004直接检验两个总体的均值向量是否相等。,Dependent Variable: x1 (对X1进行的检验) Su
11、m of Source DF Squares Mean Square F Value Pr F Model 1 0.87466791 0.87466791 16.90 0.0002 Error 36 1.86300840 0.05175023 Corrected Total 37 2.73767632X1在类间有显著性差异。,Dependent Variable: x2 (对X2进行的检验) Sum of Source DF Squares Mean Square F Value Pr F Model 1 0.08312077 0.08312077 1.95 0.1710 Error 36 1
12、.53370028 0.04260279 Corrected Total 37 1.61682105X2在类间没有显著性差异。,Dependent Variable: x3(对X3进行的检验) Sum of Source DF Squares Mean Square F Value Pr F Model 1 16.46958443 16.46958443 21.45 F Model 1 0.00112694 0.00112694 0.03 0.8643 Error 36 1.36978095 0.03804947 Corrected Total 37 1.37090789X4在类间没有显著性差
13、异。,第四节 抽样分布,一、维希特(Wishart),1、定义随机矩阵的分布,矩阵中的每一个元素均为随机变量,则矩阵X的分布是其列向量拉长,组成一个长向量,特别当 是 阶对称阵,则 的分布为的下三角部分组成的长向量,在一元正态随机变量中,我们曾经讨论了 分布,在多元正态随机变量也有类似的样本分布。维希特分布(Wishart)相当于一元统计中的 分布。,定义 维希特(Wishart)分布的统计量,设 个随机向量,独立同分布于 ,则随机矩阵,服从自由度为 的非中心维斯特分布,记为 。,定理1:若 ,且 , ,则 的分布密度为特别,当 和 时, 服从 分布。,维希特( Wishart)分布的密度函数
14、,二、维斯特(Wishart)分布有如下的性质:,(1)若A1和A2独立,其分布分别 和 ,则 的分布为 ,即维斯特分布有可加性。,(2) ,C为mp阶的矩阵,则 的分布为 分布。,三、 抽样分布,定理1:设X1,X2,Xn是来自多元正态总体Np(,)的简单随机样本,有,则有,证明:,独立,故,且相互独立。,独立,当 , 时,由卡方分布的定义可知,可见维希特分布是由卡方分布在多元下的推广。,服从自由度为 的卡方分布。,定理2 设 独立同正态分布,则统计量,证:,由于样本均值,相互独立的标准正态分布的平方和为自由度为 的卡方分布。,在一元正态的情形下,我们有样本的统计量当总体的方差未知时,我们必
15、须用样本的方差来代替总体的方差,则那么在多元正态的情形下,是否有相同的问题呢?回答时肯定的。,定义:,称T2服从参数为P和n的非中心霍特林(Hotelling)分布,当。,当 时, 服从自由度为n的中心霍特林分布,记为 。,定理:,定理:设 是来自多元正态总体 的简单随机样本,有,定理:设 是来自多元正态总体 的简单随机样本,,设 是来自多元正态总体 的简单随机样本,,(1)Wilks分布,定义:设 和 ,且 相互独立, 和 , ,则称服从Wilks分布,记 。 可以证明,当 和 时,Wilks分布可以用 分布近似。,四、基于维斯特(Wishart)分布的统计量,在一元方差分析中,常常遇到基于独立的 分布随机变量比值的 统计量。在多元统计分析中,起到相同作用的是统计量 和 分布。,2、统计量和分布,设k个总体 ,它们服从 。分别抽出如下的样本:,W=E+B,当K个总体的均值相等时 ,服从Wilks 分布。,