1、通俗理解 T 和 F 检验 T 检验是统计推断中常用的一种检验方法,在统计分析中,它主要用于检验参数的显著性。前一次,我们数据分析师已经讲了假设检验的一些初步知识,那么这些 T 检验啊 F 检验啊,都是建立在假设检验的基础上的。首先我们简单了解一下什么是 T 检验:T 检验是最常见的一种假设检验类型,主要验证总体均值间是否存在显著性差异,属于参数假设检验,所以它适用的范围是数值型的数据。T 检定改进了 Z 检验。在样本数量大(超过 30 等)时,可以应用 Z 检定,但 Z 检定用在小的样本会产生很大的误差,因此样本很小的情况下得改用 T 检验。T 检验需要符合两个个条件总体符合正态分布,n 3
2、0时用 Z 检验或者 T 检验均可,此时用 Z 检验较简单。T 检验分为单样本和双样本两类,单样本检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。当总体分布是正态分布,如总体标准差未知且样本容量小于 30,那么样本平均数与总体平均数的离差统计量呈 t 分布。检验统计量为: 双样本检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。双总体 tt 检验又分为两种情况,一是独立样本 T 检验,一是配对样本 T 检验,两者的检验统计量分别为:做 T 检验的一般步骤为:步骤 1 提出假设步骤 2 确定假设的显著水平 ,步骤 3 求两尾概率 t,即:在无效假设 H0 成立的前提下,计
3、算无效假设正确的概率,也称差异由误差引起的概率。步骤 4 作统计判断,确定接受和否定哪一个假设。结合这之前的假设检验,我们来做一个简单的单样本 T 检验例题:例 1 难产儿出生体重。N=35,样本均值=3.42, S=0.40,一般婴儿出生体重0=3.30(大规模调查获得),问相同否?解: H0:= 0,难产儿与一般婴儿体重相同H1: 0,难产儿与一般婴儿体重不同计算检验统计量: 查找相应临界值表,查表得,t0.05 / 2.34 = 2.032,t t0.05 / 2.34,不拒绝 H0,认为两者体重相同。例题作为一个引导,相对应的双总体检验就不在多述,大致步骤一样,只是公式换一换,临界值换
4、一换而已。当然,T 检验不光光是能做这些,我们也还经常在做回归分析当中运用到它。在回归分析中,它主要用于检验回归系数的显著性。在回归分析中,原假设通常是 H0:=0;H1:0。接下去的步骤就和例题一样了。有人要问,为什么要做回归系数的检验?数据分析师的答案是,做这个检验是为了验证 x 对 y 的影响程度是否显著。如果不拒绝原假设,则说明 y 与 x 之间没有线性关系(即 x 对 y 没有直接影响)。(上述针对的是一元回归)若要做多元的回归,那情况则就复杂的多了(不光要逐个对参数系数做检验,还要模型整体检验,这就涉及到 F 检验了)都说到多元回归了,那就简单说说 F 检验了。聊起 F 检验,往往
5、会闪过一个问题:T 检验和 F 检验有什么区别?那我想最大的区别也许在于 F 检验基于的是方差(检验方差齐性),T 检验则对应的是均值。(不知道这样的理解会否有些偏颇,敬请拍砖)在两样本中,首先要判断两总体方差是否相同,即方差齐性。若两总体方差相等,则直接用 T 检验,若不等,可采用 t检验或变量变换或秩和检验等方法。引申到回归分析中,T 检验的就是各个参数与 y 的显著性,F 检验则是对整个模型的显著性做检验。对于初学者,可能还有一个问题就是 F 检验和 ANOVA(方差分析)是什么关系?我的答案是方差分析和 F 检验基本是一致的,区别在于方差分析是一种分析思路,利用了 F 检验的统计量。那
6、方差分析的基本思路又是什么?我(数据分析师)觉得基本思想就是将所有测量值间的总变异按照其变异的来源分解为多个部份,然后进行比较,评价由某种因素所引起的变异是否具有统计学意义。说到变异,我们可以把总的变异分为组间变异和组内变异(组间变异:各组的均数与总均数间的差异;组内变异:每组的每个测量值与该组均数的差异),离差平方和可分解为 SS 总=SS 组间+SS 组内,MS 组间=SS 组间/V 组间;MS 组内=SS 组内/V 组内。F 统计量可表述为:F=MS 组间/MS 组内。我们拿一张方差分析表来做一下分析:通常我们数据分析师可以通过计算得到的 F 值去对应的临界值表中查找,然后判断是否拒绝原假设。不过有一个更直观的数据,那就是 P 值,从表中的 P 值,我们若选取 =0.05 的话,此时的 P 值小于 0.05,则拒绝原假设,认为其是有统计学意义的。