1、1,2 检验-1,2,2检验(chi-square test)是专门用于计数数据的统计方法。 由于这类数据在整理时,常常以列联表(contingency table)或交叉表(cross tabulation)呈现,因此这种分析方法又被称为列联表分析或交叉表分析。,3,一. 2检验及其特点,12分布 2分布是统计学中应用较多的一种抽样分布。 2值是从同一总体中随机抽取的无限多个容量为 n 的样本数据的平方和或标准分数的平方和,即,或,此时2分布的自由度为dfn。,4,如果正态总体的平均数未知,需要用样本平均数作为总体平均数的估计值,这时公式变为:,此时,2分布的自由度为df n1。,5,2分布
2、曲线,相 对 频 数,图151 几种不同自由度的2分布曲线,n=1,n=4,n=10,n=20,2,6,22分布的特点,2分布呈正偏态,曲线的右侧无限延伸,但不与基线相交。 2值都是正值。 2分布的和也是2分布。 2分布随自由度的变化而不同。自由度越小,曲线偏斜度越大;自由度越大,分布形态越趋于对称。,7,32检验,2检验用于对点计而来的离散型数据资料进行假设检验,对总体的分布不做要求,也不对总体参数进行推论。2检验主要是对总体的数据分布进行假设检验,因此属于自由分布的非参数检验。,8,2检验是对由样本得来的实际频数与理论频数的分布是否有显著性差异所进行的检验。其计算公式为:,这一公式是根据1
3、899年统计学家皮尔逊推导的配合适度的理论公式而来。这是与前述2分布非常近似的次数分布。当 f e 越大时,其接近的越好。,(151),9,2值的特点,2值具有可加性; 2永远是正值; 2的大小随实际频数与理论频数差的大小而变化。两者之差越小,说明样本分布与假设的理论分布越一致;两者之差越大,说明样本分布与假设的理论分布越不一致。,理论频数也称为期望次数。,10,二单向表的2检验 (配合度检验),把实得的点计数据只按一种分类标准编制成表就是单向表。对单向表的数据所进行的2检验,称为单向表的2检验,也称为配合度检验(goodness of fit test)。,11,1单向表2检验的计算公式,单
4、向表中只有一个变量,被按一定标准分为k 组。单向表2检验中,2值的计算公式可采用(151)式,自由度为dfk1。,12,2单向表2检验中理论频数的计算,两种情形 各类别理论频数相等 各类别理论频数符合一定的比例,计算要点,将总频数平均分到几个类别,将总频数按已知比例分到几个类别,13,32检验的计算,表15-1 单向表2检验计算表,14,例1:随机抽取60名学生,询问他们在高中是否需要文理分科,赞成分科的39人,反对分科的21人,问他们对分科的意见是否有显著差异?,解:1.提出假设 H0:学生对分科的意见没有显著差异 H1:学生对分科的意见有显著差异 2.选择检验统计量并计算 对点计数据进行差
5、异检验,可选择2检验,15,计 算,表15-2 学生对分科意见的2检验计算表,自由度为: df = k -1=1,16,3.统计决断,查2值表,当 df =1 时,计算结果为: 2=5.4*,3.84 2= 5.4 6.63,则 0.05 P 0.01,结论:学生对高中文理分科的态度有显著差异。,17,例2:大学某系54位老年教师中,健康状况属于好的有15人,中等的有23人,差的有16人。问该校老年教师健康状况好、中、差的人数比例是否为1:2:1?,1.提出假设 H0:健康状况好、中、差的人数比例是1:2:1 H1:健康状况好、中、差的人数比例不是1:2:1,18,2. 计 算,表15-4 老
6、年教师健康状况的2检验计算表,19,3.结 论,查2值表,当 df =k -1=2 时,计算结果为: 2=1.22,2= 1.22 5.99,则 P 0.05,结论:理论频数与实际频数差异不显著,表明该校老年教师健康状况的人数比例是1:2:1。,20,42的连续性校正,当df1时,其中只要有一个组的理论频数小于5,就要运用亚茨(Yates)连续性校正法,计算公式为:,(152),21,例3:历年优秀学生干部中男女比例为2:8,今年优秀学生干部中有3个男生,7个女生。问今年优秀学生干部的性别比例与往年是否有显著差异?,1.提出假设 H0:今年优秀学生干部的性别比例与往年没有显著差异 H1:今年优
7、秀学生干部的性别比例与往年有显著差异,22,2. 计 算,表15-5 学生干部性别比例的2检验计算表,自由度为: df = k -1 =1,23,3.统计决断,查2值表,当 df =1 时,计算结果为: 2=0.156,2= 0.156 3.84,则 P 0.05,结论:优秀学生干部中的性别比例与往年一样。,思考:为什么只有 df = 1 时需要校正?,24,三频数分布正态性的2检验,实际应用中,常常需要对一组数据的分布是否符合正态的情况进行检验。除了用累积分布曲线的形状和皮尔逊的经验公式进行大致判断之外,对实际频数分布与理论频数的分布是否一致的2检验是对数据分布形态进行检验的比较精确和可靠的
8、方法。,25,频数分布正态性检验的基本思路,将待检验的一组数据列成次数分布表。 根据次数分布表的分组界限,计算出该组数据正态分布情况下的理论频数。 对实际频数与理论频数是否一致进行2检验。 如何计算各组的理论频数?,26,频数分布正态性检验的计算要点,将次数分布表中各分组区间的上、下限转换成标准分数Z值; 根据各组上、下限Z值查表,寻找Z0至各组上、下限Z值之间的面积; 求各组的面积(即概率)。 计算中应注意Z值的正、负号。,27,将各组的面积与总频数相乘,求出各组的理论频数。 计算理论频数时,两端若有任何一组的理论频数小于5,需要将这组的理论频数与相邻组的理论频数合并。如果合并后仍然小于5,可再合并,直至大于5为止。 根据计算出的理论频数与表中的实际频数,计算各组的2值,并将各组2值相加,得到最终的2值。(注意:自由度为 df = k -3 ),