1、第三章 多元正态分布 均值向量和协差阵的检验,引言 多元正态分布均值向量的检验 多元正态分布协差阵的检验 假设检验与置信区域 R codes,第一节 引言,在单一变量的统计分析中,已经给出了正态总体N(,2)的均值和方差2的各种检验 对于多变量的正态总体Np(,),各种实际问题同样要求对和进行统计推断。 考察全国各省、自治区和直辖市的社会经济发展状况,与全国平均水平相比较有无显著性差异,假设检验的基本步骤,提出待检验的假设H0和H1; 给出检验的统计量及其服从的分布; 给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 根据样本观测值计算出统计量的值,看是否落入否定域中,以便对
2、待判假设做出决策(拒绝或接受)。 关键在于对不同的检验给出相应的统计量及其分布 注意事项:给出结论但不给出该结论所包含的风险是极端不负责任的,单一变量检验的回顾及HotellingT2分布 一个正态总体均值向量的检验 两个正态总体均值向量的检验 多个正态总体均值向量的检验,第二节 均值向量的检验,单一变量检验的回顾-2已知,在单一变量的检验问题中,设 来自总体N(,2 )的样本,检验假设2已知时,用统计量 当假设成立时,该统计量服从标准正态分布,从而否定域为 , 为 的 上分位点,一个正态总体均值向量的检验-已知,一个正态总体均值向量的检验-已知,单一变量检验的回顾-2未知,Hotelling
3、 T2 分布,一个正态总体均值向量的检验-未知,Hotelling T2 分布F分布,一个正态总体均值向量的检验-未知,例:对某地区农村的6名2周岁男婴的身高、胸围、上半臂围进行测量,得如下样本数据 该地区城市2周岁男婴的这三个指标的均值0=(90,58,16),在多元正态性假定下检验该地区农村男婴是否与城市男婴有相同的均值 假设检验问题:H0:=0,H1:0,表:某地区农村男婴的体格测量数据,查表得F0.01(3,3)=29.5,于是故在显著性水平=0.01下,拒绝原假设H0,即认为农村与城市的2周岁男婴上述三个指标的均值有显著差异(p=0.002)。,R codes,child=read.
4、table(file=children.dat) data=as.matrix(child) mu0=as.matrix(c(90,58,16),ncol=1) x.bar=as.matrix(colMeans(data),ncol=1) # data-mean data.sweep=sweep(data,2,colMeans(data) n=6;p=3; S=t(data)%*%data-n*x.bar%*%t(x.bar) T2=(n-1)*n*t(x.bar-mu0)%*%solve(S)%*%(x.bar-mu0) p.value=1-pf(n-p)/(n-1)/p*T2,p,n-p)
5、,两个正态总体均值向量的检验,两个正态总体均值向量的检验,两个正态总体均值向量的检验,两个正态总体均值向量的检验,两个正态总体均值向量的检验,两个正态总体均值向量的检验,多个正态总体均值向量的检验,多个正态总体均值向量的检验,多个正态总体均值向量的检验,多个正态总体均值向量的检验,多个正态总体均值向量的检验,多个正态总体均值向量的检验,多个正态总体均值向量的检验,多个正态总体均值向量的检验,第三节 协差阵的检验,一个正态总体协差阵的检验多个正态总体协差阵相等的检验,一个正态总体协差阵的检验,构造思想:似然比检验 服从分布:分布,一个正态总体协差阵的检验,一个正态总体协差阵的检验,多个正态总体协
6、差阵是否相等的检验,多个正态总体协差阵是否相等的检验,多个正态总体协差阵是否相等的检验,至少有一对,第四节 置信区域,置信区间与假设检验 置信区域与假设检验 一个正态总体均值向量的置信区域,一个正态总体均值向量的置信区域 -未知,的置信度为1的置信区域为当p=1时,它是一个区间; 当p=2时,它是一个椭圆,可在坐标平面上画出 当p=3时,它是一个椭球; 当p3时,它是一个超椭球;它们均以 为中心。 置信区域与假设检验:0包含在上述置信区域内,当且仅当原假设 H0:=0在显著性水平下被接受。 可以通过构造置信区域的方法来进行假设检验,一个正态总体均值向量的置信区域 -未知,例 为评估某职业培训中
7、心的教学效果,随机抽取8名受训者,进行甲和乙两个项目的测试,其数据列于下表。假定X=(X1,X2)服从二元正态分布。n=8,p=2,取1=0.90,F0.10(2,6)=3.46,于是,T20.10=8.073。,表:两个项目的测试成绩,的0.90置信区域为这是一个椭圆区域.1和2的0.90联合T2置信区间为61.84183.16,68.80289.20 这两个区间分别正是椭圆在1轴和2轴上的投影,置信椭圆和联合置信区间 (注:图中矩形为修正的联合置信区间,如邦弗伦尼(Bonferroni),利用置信区域进行假设检验,如果在 =0.10下对假设H0:=0,H1:0进行检验,其中=(1,2),0
8、=(01,02), 容易利用置信椭圆得出检验的结果。 若被检验值0位于置信椭圆外,则拒绝;反之,则接受。 当0位于椭圆外、矩形内的位置(如A点)时,检验结果虽拒绝H0,但在=0.10下分别检验H01:1=01,H11:101 和 H02:2=02,H12:202则检验结果都将接受原假设; 当0位于椭圆内、矩形外的位置(如B点)时,检验结果虽接受H0,但H01:1=01和H02:2=02都将会被拒绝,R codes,Test the mean # Code for computing one sample Hotelling T-squared testsweat - read.table(fi
9、le = “datasets/sweat.dat“, header = F, col.names = c(“subject“, “x1“, “x2“, “x3“) xbar - colMeans(sweat ,2:4) xvar - var(sweat ,2:4) # Compute Hotelling statistic p - nrow(xvar); n - nrow(sweat) nullmean - c(4, 50, 10); d - xbar-nullmean ;t2 - n*t(d)%*%solve(xvar)%*%d; t2mod - (n-p)*t2/(p*(n-1) pval
10、 - 1- pf(t2mod,p,n-p) cat(“Hotelling T-squared statistic“, t2, fill=T) cat(“p-value“, pval,fill=T),R codes,Hotellings T2 test: # alternative using the function in the ISCP package library(ICSNP) HotellingsT2(X = sweat, -1, mu = nullmean) # Hotellings one sample T2-test # data: sweat, -1 # T.2 = 2.9045, df1 = 3, df2 = 17, p-value = 0.06493 # alternative hypothesis: true location is not equal to c(4,50,10) # Note that the T.2 given here is not the Hotellings T2 statistic, but the F-statistic.,