1、第一章 统计案例1.2 独立性检验的基本思想及其初步应用1分类变量和列联表(1 )分类变量:变量的不同“值”表示个体所属的_,像这样的变量称为分类变量(2 )列联表:定义:列出的两个分类变量的_称为列联表22 列联表一般地,假设有两个分类变量 X 和 Y,它们的取值分别为 x1,x 2和y 1,y 2,其样本频数列联表(称为 22 列联表)为 1y2y总计1x ab2 dcd总计 acbab从 列表中,依据 与 的值可直观得出结论:两个变量是否有关系.2bd2等高条形图(1 )等高条形图和表格相比,更能直观地反映出两个分类变量间是否_,常用等高条形图表示列联表数据的_(2 )观察等高条形图发现
2、_和_相差很大,就判断两个分类变量之间有关系3独立性检验定义利用随机变量 来判断“两个分类变量有关系” 的方法称为独立性检验2K公式,其中 _为样本容量.22()(nadbcKn具体步骤确定,根据实际问题的需要,确定容许推断“两个分类变量有关系” 犯错误概率的上界 ,然后查表确定_计算 ,利用公式计算随机变量 的观测值为_2K2K下结论,如果_,就推断“ 与 有关系” ,这种推断XY_不超过 ;否则,就认为在犯错误的概率不超过 的前提下不能推断“ X 与 Y 有关系”,或者在样本数据中_支持结论“ 与 有关系”K 知识参考答案1 ( 1)不同类别 (2 )频数表 2 (1)相互影响 频率特征
3、(2) abcd3 abcd临界值 观测值 犯错误的概率 没有发现足够证据 0k0 0kK重点了解分类变量的意义,会列出 的列联表,会计算2,并理解其意义2K难点 了解实际推理和假设检验的基本思想K易错 思维不清易出错 错把统计当确定1. K 重点 列联表和等高条形图的应用某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生 426 人中 332 人在考前心情紧张,性格外向的学生 594 人中有 213 人在考前心情紧张作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系【答案】详见解析【解析】作列联表如下:性格内向 性格外向 总计考前心情紧张 332 213 545考
4、前心情不紧张 94 381 475总计 426 594 1020相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例从图中可以看出,考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关【名师点睛】1判断两个分类变量是否有关系的两种常用方法(1)利用数形结合思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法(2 )一般地,在等高条形图中, 与 相差越大,两个分类变量有关系的可能性就aa b cc d越大2利用等高条形图判断两个分类变量是否相关的步骤2. K 难点 独立性检验某班主任对全班 5
5、0 名学生学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:积极参加班级 不太主动参加班 合计工作 级工作学习积极性高 18 7 25学习积极性一般 6 19 25合计 24 26 50(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?(2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关系?并说明理由?参考公式及数据: ,其中 为样本容22()(nadbcKnabcd量. 20()Pk0.050 0.010 0.0013.841 6.635 10.828【答案】详
6、见解析【解析】(1)积极参加班级工作的学生有 24 人,总人数为 50 人概率为 ;不太24150主动参加班级工作且学习积极性一般的学生有 19 人,概率为 .19(2)由表中数据可得 ,2250(18967)50.82413K有 99.9%的把握说学习积极性与对待班级工作的态度有关系【名师点睛】独立性检验的步骤:第一步,确定分类变量,获取样本频数,得到列联表第二步,根据实际问题的需要确定容许推断“两个分类变量有关系” 犯错误概率的上界 ,然后查表确定临界值 0k第三步,利用公式 计算随机变量 的观测值22()(nadbcK2K第四步,作出判断如果 ,就推断“ X 与 Y 有关系”,这种推断犯
7、错误的概率不超过 ,否则就0k 认为在犯错误的概率不超过 的前提下不能推断“X 与 Y 有关系” ,或者在样本数据中没有发现足够证据支持结论“X 与 Y 有关系 ”3K 易错思维不清易出错 错把统计当确定试分析下列说法正确与否:在用独立性检验的方法检验某单位招聘行政工作人员和技术工作人员所招聘的男女人数时,得到了 的观测值为 ,这就证明该单位在两类工作岗位上的招聘中一定存在性别歧2K4.2视.【错解】这种说法都是正确的.【错因分析】统计思维得出的结论是带有随机性的、不能完全确定的结论. 错解中依据确定性思维对统计计算的结果给出了错误的解释.【正解】说法错误.根据独立性检验,当 的观测值为 时,
8、有95%的把握认为该单位2K4.2在两类工作岗位上的招聘中存在性别歧视,即该单位在招聘工作中存在性别歧视的嫌疑很大,概率高达95%,即使是这样也不能100% 肯定该单位在招聘工作中存在性别歧视.另一方面,由于男女在选择工作岗位上的心理不同,也会造成各个岗位招聘男女人数的差异,导致计算 的的观测值过大,因此,单纯从这个计算结果不能得出该单位在两类工2K作岗位上的招聘中一定存在性别歧视的结论.1下列关于等高条形图的叙述正确的是A从等高条形图中可以精确地判断两个分类变量是否有关系B从等高条形图中可以看出两个变量频数的相对大小C从等高条形图中可以粗略地看出两个分类变量是否有关系D以上说法都不对2下面是
9、一个 22 列联表: 1y2总计1x21 7328 25 33总计 46则表中 a、b 处的值分别为A94、96 B52、50 C52、60 D54、523利用独立性检验来考虑两个分类变量 与 是否有关系时,通过查阅下表来确定“ 和XYX有关系”的可信度 .如果 ,那么就有把握认为“ 与 有关系”的百分比为Y3.841kXY20()PKk0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.00100.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828A5% B95% C2.5% D
10、97.5%4为了调查患慢性气管炎是否与吸烟有关,调查了 339 名 50 岁以下的人,调查结果如下表:患慢性气管炎未患慢性气管炎合计吸烟 43 162 205不吸烟 13 121 134合计 56 283 339根据列表数据,求得 的观测值 _.2Kk5某生产线上,质量监督员甲在生产现场时,990 件产品中有合格品 982 件,次品 8 件;不在生产现场时,510 件产品中有合格品 493 件,次品 17 件试利用列联表和等高条形图判断监督员甲在不在生产现场对产品质量好坏有无影响6调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:出生时间在晚上的男婴为 24 人,女婴为 8 人;
11、出生时间在白天的男婴为 31 人,女婴为 26 人(1)将 22 列联表补充完整出生时间晚上 白天总计男婴女婴总计(2)能否在犯错误的概率不超过 0.1 的前提下认为婴儿性别与出生时间有关系?7某班主任对全班 50 名学生进行了作业量多少的调查,数据如下表:认为作业多 认为作业不多 总数喜欢玩电脑游戏 18 9 27不喜欢玩电脑游戏8 15 23总数 26 24 50则认为喜欢玩电脑游戏与认为作业量的多少有关系的把握大约为 20()PKk0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.00100.455 0.708 1.323 2.072 2
12、.706 3.841 5.024 6.635 7.879 10.828A99% B97.5%C95% D无充分依据8两个分类变量 X、Y,它们的取值分别为 x1、x 2 和 y1、y 2,其列联表为:y1 y2 总计x1 a b a+bx2 c d c+d总计 a+c b+d a+b+c+d若两个分类变量 X、Y 独立,则下列结论: ; ; ;adbcacdcac; .2()()0abcabcd其中正确的序号是_9下表是某地区的一种传染病与饮用水的调查表:得病 不得病 合计干净水 52 466 518不干净水 94 218 312合计 146 684 830(1)这种传染病是否与饮用水的卫生程
13、度有关,请说明理由;(2)若饮用干净水得病 5 人,不得病 50 人;饮用不干净水得病 9 人,不得病22 人按此样本数据分析这种传染病是否与饮用水的卫生程度有关,并比较两种样本在反映总体时的差异10某城市随机抽取一年(365 天) 内 100 天的空气质量指数 的监测数据,结果统计如下:APIAPI0,5(,10(,5(10,2(50(2,30空气质量 优 良 轻微污染 轻度污染 中度污染 中度重污染 重度污染天数 4 13 18 30 9 11 15记某企业每天由空气污染造成的经济损失为 (单位:元),空气质量指数 为. 在区间SAPI0,100对企业没有造成经济损失;在区间 对企业造成的
14、经济损失成直线模型(当10,3为 150 时,造成的经济损失为 500 元,当 API 为 200 时,造成的经济损失为 700 元);当API大于 300 时造成的经济损失为 2000 元;(1)试写出 的表达式:()Sx(2)试估计在本年内随机抽取一天,该天经济损失 S 大于 500 元且不超过 900 元的概率;(3)若本次抽取的样本数据有 30 天是在供暖季,其中有 8 天为重度污染,完成下面 22 列联表,并判断能否有 95%的把握认为该市本年空气重度污染与供暖有关?非重度污染 重度污染 合计供暖季非供暖季合计 100附:22()(nadbcKP(K2 k0) 0.25 0.15 0
15、.10 0.05 0.025 0.010 0.005 0.001k0 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.8281C 【解析】在等高条形图中仅能粗略判断两个分类变量的关系,故 A 错,在等高条形图中仅能够找出频率,无法找出频数,故 B 错.2C 【解析】 , .又 .2173a52a85260ba3B 【解析】因为 ,所以有把握认为“ 与 有关系”的百分比为 95%.故选 B.84kXY47.469 【解析】 .229(163)74950K5 【解析】根据题目所给数据得如下 22 列联表:分类 合格品数 次品数 总计甲在生产现场 982 8
16、 990甲不在生产现场 493 17 510总计 1475 25 1500 , 比较大,说明甲在不在生产现场9821749312750adbc|adbc与产品质量好坏有关系相应的等高条形图如图所示图中两个阴影部分的高分别表示甲在生产现场和甲不在生产现场时样品中次品数的频率从图中可以看出,甲不在生产现场时样本中次品数的频率明显高于甲在生产现场时样本中次品数的频率因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系6.【解析】 (1)列 22 列联表:出生时间晚上 白天总计男婴 24 31 55女婴 8 26 34总计 32 57 89(2)由所给数据计算 的观测值2K.89(46318).
17、697057k根据临界值表知 .2(.)1P因此在犯错误的概率不超过 0.1 的前提下认为婴儿的性别与出生的时间有关系7B 【 解析】由表中数据得 的观测值 .所2K250(819)5.02426473k以约有 97.5%的把握认为两变量之间有关系8 【解析】分类变量 独立,XY、,化简得 ,故正确;式化acabbcdbdcdadbc简得 ,故正确9 【解析】 (1)根据题目中的列联表,及公式得.221830(528946)51K因为 ,因此我们有 99.9%的把握认为该地区这种传染病与饮用水.的卫生程度有关(2)依题意得 22 列联表:得病 不得病 合计干净水 5 50 55不干净水 9 22 31合计 14 72 86