1、* 1单击此处编辑母版标题样式单击此处编辑母版副标题样式李毓秋E-mail: 第十五讲 2 检验检验 -1 2检验( chi-square test)是专门用于 计计数数 数据的统计方法。 由于这类数据在整理时,常常以 列联表列联表( contingency table)或交叉表( cross tabulation)呈现,因此这种分析方法又被称为列联表分析或交叉表分析。 一 . 2检验及其特点 1 2分布 2分布是统计学中应用较多的一种抽样分布。 2值是从同一总体中随机抽取的无限多个容量为 n 的样本数据的平方和或标准分数的平方和,即或此时 2分布的自由度为 df n。如果正态总体的平均数未知
2、,需要用样本平均数作为总体平均数的估计值,这时公式变为: 此时, 2分布的自由度为 df n 1。 2分布曲线相对频数图 15 1 几种不同自由度的 2分布曲线( 0.05)n=1n=4n=10 n=202显而易见, 2检验主要应用的是右侧概率。2 2分布的特点 2分布呈 正偏态正偏态 ,曲线的右侧无限延伸,但不与基线相交。 2值都是 正值正值 。 2分布的 和和 也是 2分布。 2分布随 自由度自由度 的变化而不同。自由度越小,曲线偏斜度越大;自由度越大,分布形态越趋于对称。3 2检验 2检验用于对点计而来的 离散型离散型 数据资料进行假设检验,对总体的 分布分布 不做要求,也不对总体 参数
3、参数 进行推论。 2检验主要是对总体的数据分布进行假设检验,因此属于自由分布的非参数检验。 2检验是对由样本得来的 实际 频数与 理论 频数的分布是否有显著性差异所进行的检验。其计算公式为: 这一公式是根据 1899年统计学家皮尔逊推导的配合适度的理论公式而来。这是与前述 2分布非常近似的次数分布。当 f e 越大时,其接近的越好。( 15 1) 2值的特点 2值具有可加性; 2永远是正值; 2的大小随实际频数与理论频数差的大小而变化。两者之差越小,说明样本分布与假设的理论分布越一致;两者之差越大,说明样本分布与假设的理论分布越不一致。理论频数也称为期望次数 。二单向表的 2检验(配合度检验)
4、 把实得的点计数据只按一种分类标准编制成表就是单向表。对单向表的数据所进行的 2检验,称为单向表的 2检验,也称为配合度检验( goodness of fit test)。1单向表 2检验的计算公式 单向表中只有一个变量,被按一定标准分为 k 组。单向表 2检验中, 2值的计算公式可采用( 15 1)式,自由度为df k 1。2单向表 2检验中理论频数的计算两种情形两种情形各类别 理论频数理论频数 相等相等各类别 理论频数理论频数 符合一定的比例符合一定的比例计算要点计算要点将总频数平均将总频数平均分到几个类别分到几个类别将总频数按已知比例将总频数按已知比例分到几个类别分到几个类别3 2检验的
5、计算表 15-1 单向表 2检验计算表分 组 分 组 分 组 总 和 2 例 1: 随机抽取 60名学生,询问他们在高中是否需要文理分科,赞成分科的 39人,反对分科的 21人,问他们对分科的意见是否有显著差异? 解:解: 1.提出假设提出假设H0:学生对分科的意见没有显著差异H1:学生对分科的意见有显著差异 2.选择检验统计量并计算选择检验统计量并计算对点计数据进行差异检验 ,可选择 2检验计 算表 15-2 学生对分科意见的 2检验计算表赞成 39 30 9 81 2.7反对 21 30 -9 81 2.7总 和 60 60 5.4 自由度为 : df = k -1=13.统计决断 查 2
6、值表,当 df =1 时计算结果为: 2=5.4*3.84 2= 5.4 6.63,则 0.05 P 0.01结论:学生对高中文理分科的态度有显著差异。表 15 3 2检验统计决断规则 2与 临 界 值 比 较 P值 显 著性 检验结 果 2 P 0.05 不 显 著 保留 H0,拒 绝 H1 2 0.05P 0.01 显 著 在 0.05显 著性水平拒 绝 H0,接受H1 2 P0.01 极其 显 著 在 0.01显 著性水平拒 绝 H0,接受H1例 2: 大学某系 54位老年教师中,健康状况属于好的有 15人,中等的有 23人,差的有 16人。问该校老年教师健康状况好、中、差的人数比例是否
7、为 1: 2: 1? 1.提出假设H0:健康状况好、中、差的人数比例是 1: 2: 1H1:健康状况好、中、差的人数比例不是 1: 2: 12. 计 算表 15-4 老年教师健康状况的 2检验计算表好 15 13.5 1.5 2.25 0.167中 23 27.0 -4.0 16.0 0.593差 16 13.5 2.5 6.25 0.463总 和 54 54 1.223.结 论 查 2值表,当 df =k -1=2 时计算结果为: 2=1.222= 1.22 5.99,则 P 0.05结论:理论频数与实际频数差异不显著 ,表明该校老年教师健康状况的人数比例是 1: 2: 1。4 2的连续性校
8、正 当 df 1时,其中只要有一个组的 理论理论频数频数 小于 5,就要运用亚茨( Yates)连续性 校正校正 法,计算公式为:( 15 2) 之所以要进行连续性校正,是因为由点计数据求得的 2值是间断数列,当 df 1,fe 5时,其间断性尤其明显。而 2值表上的理论值是用连续量表表示的,其 2分布是一条连续的光滑曲线。为了对连续的 2曲线作较好的估计,需要在每个小于理论频数的实际频数上加 0.5,而在大于理论频数的实际频数上减去 0.5。 例 3: 历年优秀学生干部中男女比例为 2: 8,今年优秀学生干部中有 3个男生, 7个女生。问今年优秀学生干部的性别比例与往年是否有显著差异? 1.
9、提出假设H0:今年优秀学生干部的性别比例与往年没有显著差异H1:今年优秀学生干部的性别比例与往年有显著差异2. 计 算表 15-5 学生干部性别比例的 2检验计算表男 3 2 1 0.5 0.25 0.125女 7 8 -1 0.5 0.25 0.031总和 10 10 0.156自由度为 : df = k -1 =13.统计决断 查 2值表,当 df =1 时计算结果为: 2=0.1562= 0.156 3.84,则 P 0.05结论:优秀学生干部中的性别比例与往年一样。思考:为什么只有 df = 1 时需要校正?三频数分布正态性的 2检验 实际应用中,常常需要对一组数据的分布是否符合正态的
10、情况进行检验。除了用累积分布曲线的形状和皮尔逊的经验公式进行大致判断之外,对实际频数分布与理论频数的分布是否一致的 2检验是对数据分布形态进行检验的比较精确和可靠的方法。频数分布正态性检验的基本思路 将待检验的一组数据列成次数分布表。 根据次数分布表的分组界限,计算出该组数据正态分布情况下的理论频数。 对实际频数与理论频数是否一致进行 2检验。 思考:如何计算各组的理论频数?频数分布正态性检验的计算要点 将次数分布表中各分组区间的上、下限转换成标准分数 Z值; 根据各组上、下限 Z值查表,寻找Z 0至各组上、下限 Z值之间的面积; 求各组的面积(即概率)。计算中应注意 Z值的正、负号。 将各组的面积与总频数相乘,求出各组的理论频数。 计算理论频数时,两端若有任何一组的理论频数小于 5,需要将这组的理论频数与相邻组的理论频数合并。如果合并后仍然小于 5,可再合并,直至大于 5为止。 根据计算出的理论频数与表中的实际频数,计算各组的 2值,并将各组 2值相加,得到最终的 2值。(注意 :自由度为 df = k -3 )