1、1,第一章 数据描述性分析,数字特征,分布特征,多元数据的数字特征与相关分析,(位置特性、分散性、分布形状),(反映数据整体结构),2,1.1 一维数据的数字特征,设有n个一维数据:,它们是从所研究的对象(总体)X中观测得到的,这n个值称为样本观测值,n称为样本容量。,数据分析的任务:,对样本观测值进行分析,提取数据中所包含的有用信息,进一步对总体的信息做出判断。,数字特征:数据的集中位置、分散程度、数据分布的形状特征等,3,1.1.1 表示位置的数字特征,均值,即 的平均数,表示数据的集中位置,缺点:缺乏抗扰性(稳健性),设 是n个观测值,将它们从小到大记为,称它们为次序统计量。显然,最小次
2、序统计量x(1)与最大次序统计量x(n)分别为,4,1.1.1 表示位置的数字特征,中位数,表示数据的中心位置,计算公式,注意:1、对于对称分布的数据,均值和中位数较接近;而其它分布的数据,二者不同。 2、具有稳健性,5,1.1.1 表示位置的数字特征,分位数,其中np为np的整数部分。当p=1时,定义M1=x(n) .,对0p1,数据x1,x2,xn的p分位数是,注意:1、大体上整个样本的100p%的观测值不超过p分位数。 2、0.5分位数M0.5(第50百分位数)就是中位数M。,p分位数又称为第100p百分数。,6,常用的分位数,它们分别称为上、下四分位数,并分别简记为,0.75分位数M0
3、.75(第75百分位数)0.25分位数M0.25(第25百分位数),总结:1、均值计算用到了样本的全部信息; 2、中位数M仅用到了数据分布中的部分信息; 3、在正常情况下,均值比中位数描述数据的集中位置要优; 4、当存在异常数据时,均值缺乏稳健性,而中位数具有很强的稳健性。,7,三均值,计算公式,1.1.1 表示位置的数字特征,8,例1.1 考虑下列样本:5 3 11 3 1 7 8 计算均值、中位数、上、下四分位数,M0.99, M0.95, M0.90, M0.10, M0.05, M0.01分位数及三均值。,解:,次序统计量,1 3 3 5 7 8 11,9,次序统计量,1 3 3 5
4、7 8 11,M0.95 =11 ,M0.90 =11 , M0.10 =1 , M0.05 =1,10,例1.2 某单位对100名女学生测定血清总蛋白含量(g/L), 具体数据见课本P5例1.2 计算均值、中位数、上、下四分位数,M0.99, M0.95, M0.90, M0.10, M0.05, M0.01分位数及三均值。,example1_2,11,方差、标准差、变异系数,1.1.2 表示分散性的数字特征,方差:相对于均值的偏差平方的平均,标准差:方差的算术平方根,变异系数:刻画数据相对分散性,12,极差、四分位极差,1.1.2 表示分散性的数字特征,极 差,四分位极差,注意:以上两种度
5、量均具有抗扰性,13,判断异常值的方法,称为数据的上、下截断点。大于上截断点的数据为特大值,小于下截断点的数据为特小值,两者皆为异常值。,14,例1.3考虑下列样本:5 3 11 3 1 7 8 方差、标准差、变异系数、极差、四分位极差,并分析是否由异常值。,解:,15,次序统计量,1 3 3 5 7 8 11,上、下截断点,结论:该样本数据中无异常值,16,例1.4 求数据(见课本P5例1.1)的方差、标准差、变异系数、极差、四分位极差,并分析是否由异常值。,解:通过计算得,结论:无异常值,17,例1.5 求数据(见课本P5例1.2)的方差、标准差、变异系数、极差、四分位极差,并分析是否由异
6、常值。,解:通过计算得,结论:84.3为异常值,18,将84.3剔除,再进行计算得,比较未剔除前,结论:剔除异常值后,均值与中位数更为接近;上、下四分位数与四分位极差未发生改变,说明其抗扰性好;方差、标准差缺乏抗扰性。,19,偏度,1.1.3 表示分布形状的数字特征,计算公式,k阶原点矩,k阶中心矩,显然,一阶原点矩1即均值,其中s是标准差。偏度刻画数据的对称性。,20,注意:1、关于均值对称的数据其偏度为0; 2、正的偏度表示位于均值右侧的数据较为分散; 3、负的偏度说明位于均值左侧的数据较为分散。,见课本P3图1.1,21,峰度,1.1.3 表示分布形状的数字特征,计算公式,峰度以正态分布
7、为标准,比较两侧极端数据分布情况的指标。,22,若峰度大于零,则表示数据中含有较多远离均值的极端数值,此时分布有一个沉重的尾巴(或称粗尾);,若峰度小于零,则表示均值两侧的极端数据较少;,峰度可作为偏离正态分布的尺度。,23,例1.6 求数据(见课本P5例1.2)的偏度、峰度。,解:通过计算得,从结果看来,偏度和峰度的绝对值均较小,可以看作数据取自正态总体。,24,设数据x1,x2,xn是由总体X中得到的样本观测值,总体的分布函数是F(x),1.1.4 由样本的数字特征推广到总体的特征,当X为离散型时,总体的分布可由概率分布列描述:,当X为连续型时,总体的分布可由概率函数f(x)刻画,举例,正
8、态分布,概率密度函数,分布函数,25,设总体均值为=E(X),由大数定律,当n较大时,样本均值可以作为总体均值的估计,即当n充分大,,的p为总体分布F(x)的p分位数。,设总体分布F(x) 是连续型分布,0p1,称满足,考虑总体p分位数p唯一的情况,在一定条件下,样本的p分位数Mp是总体p分位数p的相合估计,因此,当n充分大时,1.1.4 由样本的数字特征推广到总体的特征,26,1.1.4 由样本的数字特征推广到总体的特征,数据的方差s2、标准差s、变异系数CV分别是总体方差2=Var(X)、总体标准差=sqrt(Var(X)、总体变异系数r=/的相合估计:即当样本容量n充分大时,有,正态总体
9、N(, 2 )的上、下四分位数,总体四分位极差,27,1.1.4 由样本的数字特征推广到总体的特征,总体偏度是度量总体分布是否偏向某一侧的指标,1、对称分布的偏度为0; 2、总体分布向右侧扩展,偏度为正; 3、总体分布向左侧扩展,偏度为负;,见课本P4图1.2,其中3=E(X-)3为总体X的3阶中心矩。,28,1.1.4 由样本的数字特征推广到总体的特征,总体峰度是以同方差的正态分布为标准,比较总体分布尾部分散性的指标,1、当总体分布是正态分布时,总体峰度G2=0; 2、当G20 ,总体分布中极端数值分布范围较广; 3、当G20 ,总体分布中极端数值分布范围较少;,见课本P4图1.3,其中4=
10、E(X-)4为总体X的4阶中心矩。,29,例1.7 19521997年我国人均生产总值数据见课本P7表1.2 (单位:元),计算这批数据的数字特征,并找出异常值。,解:通过计算得,1、s2、s较大,说明数据分散性较大; 2、数据分布图像明显偏右,且右端出现很多极端值 3、存在异常值:2287、2939、3923、4854、5576、6079,30,设1,2,是一列独立同分布的随机变量,且数学期望存在:Ei =a,i=1,2, 则对任意的0,有成立。,辛钦大数定律,31,相合估计(一致估计),设对每个自然数n, 是的估计量,若 依概率收敛于,即对任意0,有则称 为的相合估计。,32,1.2 数据
11、的分布,数据分布的描述方法直方图、茎叶图、理论分布分布拟合检验和正态性检验,33,1.2.1 直方图、经验分布函数与QQ图,首先将数据取值的范围分成若干区间(一般是等间隔的),每个区间的长度称为组距。考察数据落入每个区间的频数或频率,在每个区间上画一矩形,相应宽度是组距,高度可以是频数、频率或频率/组距。在高度是频率/组距的情况,每一矩形的面积恰是数据落入相应区间的频率,这种直方图可以估计总体的概率密度。,直方图,proc capability 过程,34,例1.8 利用课本P5例1.2 的数据,作直方图。,作直方图的基本语句,PROC CAPABILITY options; HISTOGRA
12、M variable/options;,PROC CAPABILITY options, 选项为 DATA=SAS data set: 指定所分析的SAS数据集名称; GRAPHICS:指明作高分辨率图形。 缺省时将输出由字符构成的低分辨率图形; NOPRINT:取消PROC UNIVARIATE过程统计量的输出。,(2) HISTOGRAM variable/options, 关于变量variable作出直方图,其中选项为 MIDPOINTS=values: 设置分组区间的中点值。(缺省自动设置) VSCALE=scale:标注每个区间的高度,其中scale可选count、percent和p
13、roportion之一,缺省为percent。,35,直方图,36,1.2.1 直方图、经验分布函数与QQ图,参数分布拟合,在限定的参数分布类(如正态分布)中通过对参数的估计,用估计的参数所对应的密度曲线去拟合直方图顶部的形态。,SAS系统提供的参数分布类型,见课本P12,其中正态分布最为常见,(2) HISTOGRAM variable/options, 关于变量variable作出直方图,其中选项为 NORMAL / LOGNORMAL / EXPONENTIAL / GAMMA / WEIBULL / BETA之一:在直方图上拟合指定分布的概率密度函数曲线,37,例1.8 利用课本P5例
14、1.2 的数据,拟合正态分布曲线。,38,1.2.1 直方图、经验分布函数与QQ图,设来自总体分布F(x)的样本x1,x2,xn ,其次序统计量是x(1),x(2),x(n) .经验分布函数是,经验分布函数,注意:(1)Fn(x)是非降的阶梯函数,在x(i)处的跃度是1/n(若x(i)重复取值k次,则跃度为k/n); (2) Fn(x)是总体分布函数的相合估计,即当n充分大时,F(x) Fn(x).,39,例1.9 利用课本P5例1.2 的数据,作经验分布函数图,并拟合正态分布函数曲线,作经验分布曲线及拟合的分布曲线的基本语句,PROC CAPABILITY options; CDFPLOT
15、variable/options;,(2) CDFPLOT variable/options, 关于变量variable作出经验分布曲线,其中选项为 NORMAL / LOGNORMAL / EXPONENTIAL / GAMMA / WEIBULL / BETA 之一。,40,经验分布函数及正态拟合曲线,41,1.2.1 直方图、经验分布函数与QQ图,假定总体分布为正态分布N(,2),对于样本是x1,x2,xn ,其次序统计量是x(1),x(2),x(n) .设(x)是标准正态分布N(0,1)的分布函数, -1(x)是其反函数,对应正态分布的QQ图是由以下的点构成的散点图:,QQ图,42,1
16、.2.1 直方图、经验分布函数与QQ图,若样本数据近似于正态分布,在QQ图上这些点近似在直线y=x+ 附近。这里、分别是正态分布的标准差和期望。,QQ图,43,例1.10 利用课本P5例1.2 的数据,作正态QQ图,并从直观上鉴别样本数据是否来自正态分布总体;,作QQ图的基本语句,PROC CAPABILITY options; QQPLOT variable/options;,(2) QQPLOT variable/options, 关于变量variable作出QQ图,其中选项为 NORMAL / LOGNORMAL / EXPONENTIAL / GAMMA / WEIBULL / BET
17、A 之一。,44,QQ图,45,1.2.1 直方图、经验分布函数与QQ图,从QQ图观察样本偏度和峰度,46,1.2.2 茎叶图,解:第一个数25的十位数字为2,个位数字为5,中间用“|”分开,即25 - 2 | 5 每个数都这样处理。茎叶图的制作步骤:将十位数字2,3,4,5,6,7,8,9,10按纵列从上到下排列,在纵列右侧从上到下画一竖线,再在竖线右侧由小到大依次写上具有相同十位数的原数据的相应个位数,在最后一列写出位于同一行的数据的频数。,例1.11 某班有31名学生,某门课程的考试成绩见课本P16例1.11,作出茎叶图。,47,1.2.2 茎叶图,茎叶图中,竖线左边作为数据前导数位的串
18、视为“茎”,每一行竖线右侧尾随的数字视为“叶”。,48,1.2.2 茎叶图,总结:(1)茎叶图与直方图均可以直观的反映数据的分布情况,在茎叶图中,可以看出数据是否接近对称、分散性如何、是否有异常数据、是否有间隙等; (2)利用茎叶图可以看出由原始数据得到的次序统计量。,49,1.2.2 茎叶图,例1.12 铅压铸件硬度数据见课本P16例1.12,作出数据的茎叶图。,PROC UNIVARIATE options;,其中选项为,50,1.2.3 正态性检验与分布拟合检验,检验统计量为,例1.13 设x1,x2,xn是来自正态总体N(,2)样本,假设检验:,在H0成立时,t服从自由度为n-1的t分
19、布t(n-1).,正态性检验,51,1.2.3 正态性检验与分布拟合检验,对给定的显著水平,设t/2(n-1)是t(n-1)的上侧/2分位数,则当|t| t/2(n-1)时,拒绝H0;否则,接受H0。,52,1.2.3 正态性检验与分布拟合检验,t/2(n-1)满足P|t| t/2(n-1)=,对于具体计算得到的t值t0,若|t0| t/2(n-1),拒绝H0;否则接受H0。对大量重复试验,t是随机变量,且服从t(n-1).当|t0| t/2(n-1)时,有P|t| |t0 | t/2(n-1) = 令 p= P|t| |t0 | 称为上述检验问题的p值。,53,1.2.3 正态性检验与分布拟
20、合检验,注意到:“|t0| t/2(n-1)”与“p ”等价,假设检验的P值方法 对给定的显著水平,当p 时,拒绝H0;否则接受H0。P值方法的优点:避免了查检验统计量的临界值表,由“p ”或“p ”即可得到检验问题的结论。,54,1.2.3 正态性检验与分布拟合检验,2统计量,1. 2检验法,其中n为样本容量,l是分组数,Oi=mi,Ei=npi为样本落入第i组的频数与样本在第i组的理论频数,pi是数据落入第i组的概率,其值可根据原假设指定的分布求得。,分布拟合检验,原理 基于对数据按其取值范围进行分组后计算频数的基础上,考察每个区间的实际频数mi与理论频数npi的差异作出判断,55,设pi
21、是原假设H0为真时,服从F0(x)的随机变量取值于第i个区间(ai-1,ai的概率,即,1. 2检验法,假设检验问题为,将实轴分为l个区间,分点满足,得l个区间,56,设k是F0(x)中待估计参数的个数, 例如,原假设是正态分布,其中均值与方差2待估计,此时k=2.,1. 2检验法,从而得到检验统计量2,57,统计学研究表明:当样本容量n充分大且原假设H0为真时,2 统计量近似服从自由度为l-k-1的2 分布,即2 2 (l-k-1),1. 2检验法,给定显著水平,设由样本观测值计算得到的2 值是 , 令,则当p 时,拒绝H0;否则接受H0。,一般来说,若H0为真, 2 值较小,否则有偏大的趋
22、势,58,1.2.3 正态性检验与分布拟合检验,2. 经验分布拟合检验方法,检验分布函数Fn(x)是总体分布函数F(x)的估计。假设检验问题为,目的 寻找Fn(x)与假设的总体分布函数F0(x)之间的差异,59,2. 经验分布拟合检验常用统计量,Kolmogorov D统计量,A-D统计量,C-von M统计量,一般来说,若H0为真, 上述统计量值均较小,否则有偏大的趋势,60,2. 经验分布拟合检验P值方法,设由样本观测x1,x2,xn 求得的Kolmogorov D统计量、 A-D统计量、 C-von M统计量的值分别是 . 令,则对给定显著水平, (1)K-S检验:当p1 时,拒绝H0;
23、否则接受H0。 (2)A-D检验:当p2 时,拒绝H0;否则接受H0。 (3)C-M检验:当p3 时,拒绝H0;否则接受H0。,61,1.2.3 正态性检验与分布拟合检验,3. 正态性W检验方法,设样本观测值为x1,x2,xn ,其次序统计量是x(1),x(2),x(n) .计算校正平方和,又计算,一般的,当n是偶数时,1i k=n/2;当n是奇数时, 1i k=n-1/2,62,3. 正态性W检验方法,将di与系数ai(有表可查)相乘并求和,得,计算,注意W统计量总满足0W1.当H0成立时,W值接近1,否则趋近0。,给定显著水平,设由样本观测值计算得到的W值是 , 令,则当p 时,拒绝H0;
24、否则接受H0。,63,1.2.3 正态性检验与分布拟合检验,4. SAS实现,(1)正态性W检验方法proc univariate (2)2检验法proc capability (3)经验分布拟合检验proc capability,64,例1.14 对P5例1.2的数据作: (1)正态性W检验; (2)关于正态分布假设的2检验; (3)关于正态分布假设的几种经验分布拟合检验。,65,例1.15 对P16例1.11的数据作: (1)正态性W检验; (2)若不接受总体为正态分布,选取一种合适的分布类型,作经验分布拟合检验。,66,1.3 多维数据的数字特征与相关分析,多元总体:,1.3.1 二元数
25、据的数字特征及相关系数,设(X,Y)T是二元总体,样本观测值为(x1,y1)T, (x2,y2)T, (xn,yn)T ,引进数据观测矩阵,67,1.3.1 二元数据的数字特征及相关系数,记,记,则 ,称为二元观测数据的均值向量。,称sxx为变量X的观测数据的方差,称syy为变量Y的观测数据的方差,称sxy为变量X,Y的观测数据的协方差。,68,1.3.1 二元数据的数字特征及相关系数,称为观测数据的协方差矩阵。,注意:(1) 协方差矩阵总是对称的 (2) 协方差矩阵总是非负定的,一般是正定的,由Schwarz不等式,69,相关系数 计算公式,(2)相关系数rxy是随机变量X,Y的观测数据的两
26、个分量线性相关性密切程度的度量。,1.3.1 二元数据的数字特征及相关系数,注意:(1),当rxy=0(或rxy0)时,称X,Y的观测数据不相关(或近似不相关) 当0rxy1时,称X,Y的观测数据线性正相关 当-1rxy0时,称X,Y的观测数据线性负相关 当|rxy|=1时,称X,Y的观测数据完全线性相关,70,71,1.3.1 二元数据的数字特征及相关系数,设二元总体(X,Y)T的分布函数是F(x,y),总体协方差是Cov(X,Y),Var(X),Var(Y)是X,Y的方差,总体的相关系数是xy,由于观测数据的相关系数rxy是总体相关系数xy的相合估计,故当n充分大时,有xy rxy,72,
27、1.3.1 二元数据的数字特征及相关系数,假设检验,可以证明,当(X,Y)T是二元正态总体,且H0成立时,统计量,服从自由度为n-2的t分布t(n-2),73,1.3.1 二元数据的数字特征及相关系数,对给定的显著水平,当p时,拒绝H0;否则接受H0。当拒绝H0时,认为算得的相关系数rxy有实际意义。以上定义的观测数据的相关系数rxy称为Pearson相关系数。,设由实际观测数据算得的相关系数值为 ,按上述公式算得的t值为t0,则p值为,p= P|t| |t0 |,74,Spearman相关系数,1.3.1 二元数据的数字特征及相关系数,设 是从一元总体抽取的容量为n的样本,其次序统计量是,若
28、xi=x(k),则称k是xi在样本中的秩,记作Ri, 对每一个i=1,2,n,称为Ri是第i个秩统计量, R1,R2,Rn总称为秩统计量。,75,Spearman相关系数,1.3.1 二元数据的数字特征及相关系数,例如,对样本数据 -0.8 -3.1 1.1 -5.2 4.2 次序统计量是- 5.2 -3.1 - 0.8 1.1 4.2 秩统计量是3 2 4 1 5,注意:当观测数据中有两个观测值相等,则相应的秩统计量不能唯一确定。,76,1.3.1 二元数据的数字特征及相关系数,例如,对样本数据 -0.8 -3.1 -0.8 次序统计量是-3.1 - 0.8 -0.8 秩统计量是2 1 3
29、或 3 1 2 注意:通常对相同的观测值,其秩取它们秩的平均值 故上述样本的秩统计量是2.5 1 2.5,77,Spearman相关系数,1.3.1 二元数据的数字特征及相关系数,对于二元总体(X,Y)T的样本观测数据(x1,y1)T, (x2,y2)T, (xn,yn)T ,可得各分量X,Y的一元样本数据x1,x2,xn与y1,y2,yn.设x1,x2,xn的秩统计量是R1,R2,Rn y1,y2,yn的秩统计量是S1,S2,Sn 当X,Y联系比较紧密时,这两组秩统计量联系也紧密,78,Spearman相关系数 计算公式,1.3.1 二元数据的数字特征及相关系数,其中,由秩的定义可知,,79
30、,Spearman相关系数,1.3.1 二元数据的数字特征及相关系数,同理,,经过整理化简,这里di=Ri-Si,i=1,2,n.,假设检验,80,例1.16 对P37例1.22的数据作: (1)求二维观测数据的均值向量 和协方差矩阵S; (2)计算Pearson相关系数并检验假设(3)计算Spearman相关系数并检验上述假设。,PROC CORR options;,选项为 DATA=SAS data set: 指定所分析的SAS数据集名称; PEARSON:输出Pearson相关系数(默认); SPEARMAN:输出Spearman秩相关系数; COV:计算协方差矩阵; NOSIMPLE:
31、不输出每个变量的简单描述统计量的值。,81,1.3 多维数据的数字特征与相关分析,1.3.2 多元数据的数字特征及相关矩阵,设 是p元总体,样本观测数据,第i个观测数据记为,称为样品。,82,1.3.2 多元数据的数字特征及相关矩阵,引进数据观测矩阵,记,有,83,(1)第j行x(j)的均值,1.3.2 多元数据的数字特征及相关矩阵,(2)第j行x(j)的方差,注意:,(3)x(j) , x(k)的协方差,84,均值向量,1.3.2 多元数据的数字特征及相关矩阵,协方差矩阵,有,85,1.3.2 多元数据的数字特征及相关矩阵,注意:rjj=1,|rjk|1,(4)x(j) 与x(k)的相关系数
32、,相关矩阵,86,1.3.2 多元数据的数字特征及相关矩阵,记,注意: 相关矩阵R刻画了变量之间线性联系的密切程度; S及R为非负定的,通常是正定的,则,87,1.3.2 多元数据的数字特征及相关矩阵,(5)Spearman相关矩阵,注意: Spearman相关矩阵Q适于研究具有一般分布的p元总体,且对有异常值的观测数据,具有稳健性; Q为非负定的,通常是正定的,88,1.3.3 总体的数字特征及相关矩阵,设 是p元总体,其总体分布函数是,F(x1,x2,xp)=F(x),其中x=(x1,x2,xp)T.在连续型总体存在概率密度f(x1,x2,xp)=f(x),其中x=(x1,x2,xp)T.
33、,总体均值,令i=E(Xi),i=1,2,p,=(1,2,p)T,总体协方差矩阵,其中,特别的,当j=k时,89,Xj,Xk的相关系数 计算公式,1.3.3 总体的数字特征及相关矩阵,相关矩阵,注意:jj=1,|jk|1,90,记,注意:及为非负定的,通常是正定的,则,1.3.3 总体的数字特征及相关矩阵,91,1.3.3 总体的数字特征及相关矩阵,在多元数据分析中,样本数据的均值向量 、协方差矩阵S及相关矩阵R分别是总体的均值向量、协方差矩阵及相关矩阵的相合估计,即当样本容量n充分大时,有,92,1.3.3 总体的数字特征及相关矩阵,在统计学中,当、未知时,均值向量 、协方差矩阵S为、的无偏
34、估计。,93,中位数向量 令Mj表示Xj的中位数,1.3.3 总体的数字特征及相关矩阵,M=(M1,M2,Mp)T,注意:M为均值向量的稳健性估计,Spearman相关矩阵,是总体相关矩阵的稳健性估计,94,例1.17 对P40例1.25的数据作: (1)计算均值向量 、中位数向量M; (2)计算Pearson相关矩阵R及Spearman相关矩阵Q及对应的p值,并作相关统计分析;,PROC CORR options;,95,小 结, 基本内容: 数据的数字特征:位置特征(均值、中位数、分位数、三均值),分散性特征(方差、标准差、极差及四分位极差),分布形状特征(偏度、峰度),关联性(Pears
35、on相关系数、Spearman相关系数)等; 数据的分布特征:直方图,茎叶图,经验分布函数; 多维正态分布及性质; 分布拟合检验:QQ图检验,Pearson卡方检验、Kolmogorov-Smirnov检验、Anderson-Darling检验、Cramer-von Mises检验等。,96, 重点或难点: 学会利用数据的描述性分析对数据的各种特性作初步了解,尤其是结合SAS软件学会数据分布的拟合检验; QQ图:将数据按由小到大的顺序排列得次序统计量,设某个给定的分布的 分位数为 则以为点的坐标的散点图称为该分布的QQ图。若数据来自该分布,则这些点应大致在一条直线上。以此检验数据是否服从某一给定的分布。,97, 检验p-值:设检验某对假设 的检验统计量为 , 其观察值为t,则检验的p-值定义为在原假设为真时,检验统计量取其观察值或更有利于被择假设的值的概率。 例如:若检验统计量的值越大(小),越应拒绝原假设(即越有利于被择假设),则检验p-值为或 若检验统计量的零分布对称,且其绝对值越大,越应拒绝原假设,则检验p-值为,