1、本文指在简述 SPSS 中的 T 检验,主要说明了 T 检验的原理和应用,及使用范围。和SPSS 中的基本操作。T 检 验 是 检验样本的均值和给定的均值是否存在显著性差异。T 检验分为 3 类:单样本 T 检验、两独立样本 T 检验和两配对样本 T 检验。关键词:T 检验、SPSS、显著性水平、统计量、概率 P-值、自由度、线性相关、置信区间、零假设。目 录一、单样本 T 检验 41.单样本 T 检验的目的 .42.单样本 T 检验的基本步骤 .43.单样本 T 检验的应用举例 .5三、两独立样本 T 检验 61.两独立样本 T 检验的目的 .62两独立样本 T 检验的基本步骤 63.两独立
2、样本 T 检验的应用举例 .8三、两配对样本 T 检验 101.两配对样本 T 检验的目的 .102.两配对样本 T 检验的基本步骤 .103.两配对样本 T 检验的应用举例 .10四、参考文献 123一、单样本 T 检验1.单样本 T 检验的目的。单样本 检验的目的是利用来自某总体的样本数据,推断该总体的均值是否与制定的t检验值之间存在显著性差异。它是对总体均值的假设检验。2.单样本 T 检验的基本步骤。.提出原假设。单样本 T 检验的原假设 为:总体均值与检验值之间不存在显著差异,表述为 :0H0H。 为总体均值, 为检验值。0.选择检验统计量。当总体分布为正态分布 时,样本均值的抽样分布
3、仍为正态分布,该正态分),(2N布的均值为 ,方差为 / ,即2n),(X式中, 为总体均值,当原假设成立时, ; 为总体方差; 为样本数。总02n体分布近似服从正态分布时。通常总体方差是未知的,此时可以用样本方差 替代,得到2S的检验统计量为 统计量,数学定义为:tnSX2式中, 统计量服从 n-1 自由度为 分布。单样本 检验的检验统计量即为 统计量。当t tt t认为原假设成立时 用 代入。0计算检验统计量观测值和概率 P-值该步目的是甲酸检验统计量的观测值和相应的概率 P-值。SPSS 将自动将样本均值、样本方差、样本数代入式中,计算出 统计量的观测值和对应的概率 P-值。0t给定显著
4、性水平 ,并作出决策。如果概率 P-值小于显著性水平 ,则应拒绝原假设,认为总体均值与检验值之间存在显著差异;反之,如果概率 P-值大于显著性水平 ,则不应拒绝原假设,认为总体均值与检验值之间无显著差异。43.单样本 T 检验的应用举例案例:利用住房状况问卷调查数据,推断家庭人均住房面积的平均值是否为 20 平方米。数据名字为“住房状况调查.sav ”推断家庭人均住房面积的平均值是否为 20 平方米。由于该问题设计的是单个总体,且要进行总体均值比较,同时家庭人均住房面积的总体可近似认为服从正态分布,因此,可采用单样本 T 检验来进行分析。SPSS 单样本 T 检验的基本操作步骤是:选择菜单:【
5、Analyze】 【Compare Means 】 【 One-Samples T Test】出现如图所示的窗口。图 1选择待检验的变量到【Test Variables】 ,在【Test Value】框中输入检验值。按 Option 按钮定义其他选项,出现图 2 所示的窗口。Option 选项用来指定缺失值的处理方法。另外,还可以输出默认 95%的置信区间。图 2至此,SPSS 将自动计算 同嘉陵和对应的概率 P-值。分析结果如表 3 和表 4 所示。t5人均住房面积的基本描述统计结果One-Sample StatisticsN MeanStd. DeviationStd. Error Mea
6、n人均面积 2993 22.0060 12.70106 .23216表3人均住房面积单样本T检验结果One-Sample TestTest Value = 095% Confidence Interval of the Differencet dfSig. (2-tailed)Mean Difference Lower Upper人均面积 94.788 2992 .000 22.00596 21.5508 22.4612表4由表 3 可知,2993 个家庭的人均住房面积的平均值为 22 平方米,标准差为 12.7 平方米,均值标准误差为( )为 0.23.表 4 中,第二列是 统计量的观测值为
7、 8.64;第三列nSt是自由度为 2992;第四列是 统计量观测值的双尾概率 P-值;第五列是样本均值与检验值t的差,即 统计量的分子部分;第六列和第七列是总体均值与原假设值差的 95%的置信区t间,为(1.55,2.46),由此计算出总体均值的 95%的置信区间为(21.55,22.46)平方米。该问题应采用双尾检验,因此比较 和 。如果 给定为 0.05,由于 小于 ,因pp此应拒绝原假设,认为家庭人均住房面积的平均值与 20 平方米由显著差异。95%的置信区间告诉我们有 95%的把握认为家庭人均诸方面均值在 21.5522.46 平方米之间。三、两独立样本 T 检验1.两独立样本 T
8、检验的目的两独立样本 T 检验的目的是利用来自两个总体的独立样本,推断两个总体的均值是否存在显著差异。2两独立样本 T 检验的基本步骤。提出零假设两独立样本 T 检验的原假设 为:两总体均值无显著差异。表述为:0H:0216, 分别为第一个和第二个总体的均值。12选择检验统计量对两总体均值差的推断是建立在来自两个总体样本均值差的基础之上的,也就是希望利用两组样本均值的差去估计量总体均值的差。因此,应关注两样本均值的抽样分布。当两总体分布分别为 和 时,两样本均值差的抽样分布仍为正态分布,),(21N),(2该正态分布的均值为 ,方差为 。在不同的情况下, 有不同的计算方式。21221第一种情况
9、:当两总体方差未知且相等,即 时,采用合并的方差作为两个总21体方差的估计,数学定义为)()1(222nSSp式中, , 分别为第一组和第二组样本的方差; , 分别为第一组和第二组样21 1n2本的样本数。此时两样本均值差的抽样分布的方差 为2212nSp第二种情况:当两总体方差未知且不相等,即 时,分别采用各自的方差,此21时两样本均值差的抽样分布的方差 为:21212nS于是,两总体均值差检验的检验统计量为 统计量,数学定义为:t211)(Xt在第一种情况下, 统计量服从 个自由度的 分布;在第二种情况下,服从t2nt修正自由度的 分布,修正的自由度定义为t22121)(nSf计算检验统计
10、量观测值和概率 P-值。该步的目的是计算 F 统计量和 统计量的观测值以及相应的概率 P-值。SPSS 将自动依t7据单因素方差分析的方法计算 F 统计量和概率 P-值,并自动将两组样本的均值、样本数、抽样分布方差等代入式中,计算出 统计量的观测值和对应的概率 P-值。t给定显著性水平 ,并作出决策。第一步,利用 F 检验判断两总体的方差是否相等,并据此决定抽样分布方差和自语度的计算方法和计算结果。如果 F 检验统计量的概率 P-值小于显著想水平 ,则应拒绝原假设,认为两总体方差没有显著差异,应选择式和式计算出的结果:反之,若果概率 P-值大于显著性水平 则不应拒绝原假设,认为两总体方差无显著
11、差异。第二步,体用 检验判断两总体均值是否存在显著差异。如果 检验统计量的概率 P-值t t小于显著性水平 ,则应拒绝原假设,认为两总体均值有显著性差异;反之,如果概率 P-值大于显著性水平 ,则不应拒绝原假设,认为两总体均值无显著差异。3.两独立样本 T 检验的应用举例原假设是:本市户口和外地户口的家庭收入人均值无显著性差异,即 0:210H选择菜单【Analyze】 【Compare Means】 【Indendent- Samples T Test】于是出现如图所示的窗口。图 3选择检验变量到【Test Variables(s) 】框中。选择总体标识变量到【Grouping Variab
12、les】框中。按 Define Groups 按钮定义两总体的标识值,显示如图 4 所示的窗口。其中【Use Specified Values】表示分别输入对应两个不同总体的标志值; 【Cut Point】框中应输入一个数字,大于等于该值的对应另一个总体。8图 4两独立样本 检验的 Option 选项含义与单样本 检验的相同。t t分析结果如图 5 所示本市户口和外地户口家庭人均住房面积的基本描述统计Group Statistics户口状况 N MeanStd. DeviationStd. Error Mean本市户口2825 21.725812.17539 .22907人均面积外地户口168
13、 26.716518.96748 1.46337图 5由图 5 可以看出,本市户口和外地户口的家庭人均住房面积的样本平均值有一定的差距。通过检验应推断这种差异是抽样误差造成的还是系统性的。本市户口和外地户口家庭人均住房面积两独立样本 检验结果t图 6图 6 是本市户口和外地户口家庭人均住房面积的均值检验结果。分析结论应通过两步完成。第一步,两总体方差是否相等的 F 检验。这里,该检验的 F 统计量的观测值为65.469,对应的概率 P-值为 0.00.如果显著性水平 为 0.05,由于概率 P-值小于 0.05,可以认为两总体的方差有显著差异。第二步,两总体均值的检验。在第一步中,由于两总体方
14、差有显著差,因此应看第二行 T 检验的结果。其中 T 统计量的观测值为-3.369,对应的双尾开率 P-值为 0.001.如果显著性水平为 0.05,由于概率 P-值小于 0.05,因此认为两总体的均值有显著差异,即本市户口和外地户口的家庭人均住房面积的平均值存在显著差异。图6 中的第七列和第八列分别为 T 统计量的分子和分母;第九列和第十列为两总体差的 95%置信区间的上限和下限。9三两配对样本 T 检验1.两配对样本 T 检验的目的两配对样本 T 检验的目的是利用来自两个不同总体的配对样本,推断两个总体的均值是否存在显著差异。配对样本通常有两个特征:第一,两组样本的样本数相同;第二,两组样
15、本观测值的先后顺序是一一对应的,不能随意更改。2.两配对样本 T 检验的基本步骤。提出原假设两配对样本 T 检验的原假设 为:两总体均值无显著差异,表述为 :0H0H。 , 分别为第一个和第二个总体的均值。02112选择统计量。两配对样本 T 检验采用 T 统计量。其思路是:首先,对两组样本分别计算出每对观测值的差值得到差值样本;然后,体用差值样本,通过对其均值是否显著为 0 的检验来推断两总体均值的差是否显著为 0.如果差值样本的均值与 0 有显著差异,则可以认为两总体的均值有显著差异;反之,如果差值系列的均值与 0 无显著差异。则可以认为两总体均值不存在显著差异。计算检验统计量观测值和概率
16、 P-值SPSS 将计算两组样本的差值,并将相应数据代入式,计算出 T 统计量的观测值和对应的概率 P-值。给定显著水平 ,并作出决策。给定显著水平 ,与检验统计量的概率 P-值作比较。如果概率 P-值小于显著水平 ,则应拒绝原假设,认为差值样本的总体均值与 0 有显著不同,两总体的均值有显著差异;反之,如果概率 P-值大于显著水平 ,则不应拒绝原假设,认为差值样本的总体均值与 0无显著不同,两总体的均值不存在显著差异。3.两配对样本 T 检验的应用举例。案例:为研究某种减肥茶是否具有明显的减肥效果,某美体健身机构对 35 名肥胖志愿者进行了减肥跟踪调研。首先将其喝减肥茶以前的体重记录下来,三
17、个月后再依次将这 35名志愿者喝茶后的体重记录下来。通过这两组样本数据的对比分析,推断减肥茶是否具有明显的减肥作用。SPSS 两配对样本 T 检验的基本操作步骤如下:选择菜单:【Analyze】 【Compare Means】 【Paired-Samples T Test】于是出现如图 7 所示的窗口10图 7选择一对或若干对检测变量到【Paired Variables 】框中。两配对样本 T 检验的 Option 选项含义和单样本 T 检验的相同。至此,SPSS 将自动计算 T 统计量和对应的概率 P-值。分析结果如图 8、图 9 和图 10所示。喝茶前和喝茶后体重的基本描述统计量Paire
18、d Samples StatisticsMean NStd. DeviationStd. Error Mean喝茶前体重 89.257135 5.33767 .90223Pair 1喝茶后体重 70.028635 5.66457 .95749图8图 8 表明,喝茶前和喝茶后样本的平均值有较大差异。喝茶后的平均体重低于喝茶前的平均体重。喝茶前和喝茶后体重的简单相关系数及检验Paired Samples CorrelationsNCorrelation Sig.Pair 1喝茶前体重 & 喝后体重35 -.052 .768图 9图 9 中,第三列是喝茶前和喝茶后两组样本的简单相关系数,第四列是相关
19、系数检验的概率 P-值。它表明在显著性水平 为 0.05 时,肥胖志愿者服用减肥茶前后的体重并没有明显的线性变化,喝茶前和喝茶后体重的线性相关程度较弱。11喝茶前和喝茶后体重的两配对样本 T 检验结果图 10图 10 中,第二列是喝茶前与喝茶后体重的平均差异,相差了 19.2 公斤;第三列是差值样本的标准差;第四列是差值样本分布的标准差;第五列、第六列是差值 95%的置信区间的上限和下限;第七列是 T 检验统计量的观测值;第八列是 R 检验统计量观测值对应的双尾概率 P-值,接近于 0.如果显著性水平 为 0.05,由于概率 P-值小于显著性水平 ,应拒绝原假设,即认为总体上体重差的平均值与 0 有显著不同,意味着喝茶前与喝茶后的体重平均值存在显著差异,可以认为该减肥茶具有显著的减肥效果。四、参考文献。1薛微 统计分析与 SPSS 的应用 中国人名大学出版社 2009 年 11 月第 4次出版2罗良青 统计学 高等教育出版社 2008 年 5 月