压缩包目录
-
全部
- 【创新设计】2015-2016学年高中数学 第一章 统计案例 1.1 回归分析的基本思想及其初步应用课件 新人教A版选修1-2.ppt
- 【创新设计】2015-2016学年高中数学 第一章 统计案例 1.1回归分析的基本思想及其初步应用(一)课时作业 新人教A版选修1-2.doc--点击预览
- 【创新设计】2015-2016学年高中数学 第一章 统计案例 1.1回归分析的基本思想及其初步应用(二)课时作业 新人教A版选修1-2.doc--点击预览
- 【创新设计】2015-2016学年高中数学 第一章 统计案例 1.2 独立性检验的基本思想及其初步应用课件 新人教A版选修1-2.ppt
- 【创新设计】2015-2016学年高中数学 第一章 统计案例 1.2独立性检验的基本思想及其初步应用课时作业 新人教A版选修1-2.doc--点击预览
- 【创新设计】2015-2016学年高中数学 第一章 统计案例 章末课时作业 新人教A版选修1-2.doc--点击预览
文件预览区
|
|
资源描述
- 1 -第一章 统计案例 1.1 回归分析的基本思想及其初步应用(一)课时作业 新人教 A 版选修 1-2明目标、知重点 1.了解随机误差、残差、残差图的概念.2.会通过分析残差判断线性回归模型的拟合效果.3.掌握建立线性回归模型的步骤.1.线性回归模型(1)函数关系是一种确定性关系,而相关关系是一种非确定性关系.(2)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.(3)对于一组具有线性相关关系的数据( x1, y1),( x2, y2),…,( xn, yn),回归直线y= bx+ a 的斜率和截距的最小二乘估计公式分别为 = =b^ ∑ n i= 1 xi- xyi- y∑ n i= 1 xi- x2, = - ,其中( , )称为样本点的中心.∑ n i= 1xiyi- nx y∑ n i= 1x2i- nx2 a^ y b^ x x y(4)线性回归模型 y= bx+ a+ e,其中 a 和 b 是模型的未知参数, e 称为随机误差,自变量 x称为解释变量,因变量 y 称为预报变量.2.残差的概念对于样本点( x1, y1),( x2, y2),…,( xn, yn)而言,它们的随机误差为ei= yi- bxi- a, i=1,2,…, n,其估计值为 i= yi- i= yi- xi- e^ y^ b^ a^ , i=1,2,…, n, i称为相应于点( xi, yi)的残差.e^ - 2 -3.刻画回归效果的方式(1)残差图法作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.(2)残差平方和法残差平方和 (yi- i)2越小,模型拟合效果越好.∑n i= 1 y^ (3)利用 R2刻画回归效果R2=1- , R2表示解释变量对于预报变量变化的贡献率. R2越接近于 1,表示∑ n i= 1 yi- y^ i2∑ n i= 1 yi- y2回归的效果越好.[情境导学]“名师出高徒”这句谚语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?探究点一 线性回归方程思考 1 两个变量之间的关系分几类?答 分两类:①函数关系,②相关关系.函数关系是一种确定性关系,而相关关系是一种非确定性关系.上面所提的“名师”与“高徒”之间的关系就是相关关系.思考 2 什么叫回归分析?答 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.思考 3 对具有线性相关关系的两个变量进行回归分析有哪几个步骤?答 基本步骤为画散点图,求线性回归方程,用线性回归方程进行预报.例 1 若从某大学中随机选取 8 名女大学生,其身高和体重数据如下表所示:编号 1 2 3 4 5 6 7 8身高/cm 165 165 157 170 175 165 155 170体重/kg 48 57 50 54 64 61 43 59求根据女大学生的身高预报体重的回归方程,并预报一名身高为 172 cm 的女大学生的体重.- 3 -解 (1)画散点图选取身高为自变量 x,体重为因变量 y,画出散点图,展示两个变量之间的关系,并判断二者是否具有线性关系.由散点图可以发现,样本点呈条状分布,身高和体重有比较好的线性相关关系,因此可以用回归直线 y= bx+ a 来近似刻画它们之间的关系.(2)建立回归方程由计算器可得 =0.849, =-85.712.b^ a^ 于是得到回归方程为 =0.849 x-85.712.y^ (3)预报和决策当 x=172 时, =0.849×172-85.712=60.316(kg).y^ 即一名身高为 172 cm 的女大学生的体重预报值为 60.316 kg.反思与感悟 在使用回归方程进行预报时要注意:(1)回归方程只适用于我们所研究的样本的总体;(2)我们所建立的回归方程一般都有时间性;(3)样本取值的范围会影响回归方程的适用范围;(4)不能期望回归方程得到的预报值就是预报变量的精确值.跟踪训练 1 某班 5 名学生的数学和物理成绩如表:学 生 学 科 A B C D E数学成绩( x) 88 76 73 66 63物理成绩( y) 78 65 71 64 61(1)画出散点图;(2)求物理成绩 y 对数学成绩 x 的回归方程;(3)一名学生的数学成绩是 96,试预测他的物理成绩.解 (1)散点图如图.- 4 -(2) = ×(88+76+73+66+63)=73.2.x15= ×(78+65+71+64+61)=67.8.y15xiyi=88×78+76×65+73×71+66×64+63×61∑5 i= 1=25 054.x =88 2+76 2+73 2+66 2+63 2=27 174.∑5 i= 12i∴ = ≈0.625.b^ ∑ 5 i= 1xiyi- 5x·y∑ 5 i= 1x2i- 5x2∴ = - =67.8-0.625×73.2=22.05.a^ y b^ x∴ y 对 x 的回归方程是 =0.625 x+22.05.y^ (3)当 x=96 时, =0.625×96+22.05≈82.y^ 所以,可以预测他的物理成绩是 82.探究点二 线性回归分析思考 1 利用求得的回归方程进行预报,为什么得到的预报值和实际值并不相同?答 解释变量和预报变量之间的关系是相关关系而非函数关系,由回归方程得到的是预报值而非实际值.思考 2 给出两个变量的回归方程,怎样判断拟合效果的好坏?答 一般有三种方法来判断拟合效果:①残差平方和法:残差平方和越小,拟合效果越好;②残差图中的点分布的带形区域宽度越窄,拟合精度越高;③相关指数法:相关指数 R2越接近于 1,模型的拟合效果越好.思考 3 如果 R2≈0.64,表示什么意义?答 表示“解释变量对于预报变量的贡献率为 64%.”思考 4 回归分析中,利用线性回归方程求出的函数值一定是真实值吗?答 不一定是真实值,利用线性回归方程求的值,在很多时候是个预报值,例如,人的体重与身高存在一定的线性关系,但体重除了受身高的影响外,还受其他因素的影响,如饮食习惯,是否喜欢运动等.- 5 -例 2 某运动员训练次数与成绩之间的数据关系如下:次数( x) 30 33 35 37 39 44 46 50成绩( y) 30 34 37 39 42 46 48 51(1)作出散点图;(2)求出回归方程;(3)作出残差图;(4)计算相关指数 R2;(5)试预测该运动员训练 47 次及 55 次的成绩.解 (1)作出该运动员训练次数( x)与成绩( y)之间的散点图,如下图所示,由散点图可知,它们之间具有线性相关关系.(2)列表计算:次数 xi 成绩 yi x2i y2i xiyi30 30 900 900 90033 34 1 089 1 156 1 12235 37 1 225 1 369 1 29537 39 1 369 1 521 1 44339 42 1 521 1 764 1 63844 46 1 936 2 116 2 02446 48 2 116 2 304 2 20850 51 2 500 2 601 2 550由上表可求得 =39.25, =40.875, x =12 656,x y ∑8 i= 12iy =13 731, xiyi=13 180,∑8 i= 12i ∑ 8 i= 1∴ = ≈1.041 5,b^ ∑ 8 i= 1xiyi- 8x y∑ 8 i= 1x2i- 8x2= - ≈-0.003 88,a^ y b^ x∴回归方程为 =1.041 5 x-0.003 88.y^ - 6 -(3)残差分析作残差图如下图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.(4)计算相关指数 R2计算相关指数 R2≈0.985 5.说明了该运动员的成绩的差异有 98.55%是由训练次数引起的.(5)做出预报由上述分析可知,我们可用回归方程 =1.041 5 x-0.003 88 作为该运动员成绩的预报值.y^ 将 x=47 和 x=55 分别代入该方程可得 y=49 和 y=57.故预测该运动员训练 47 次和 55 次的成绩分别为 49 和 57.反思与感悟 解答本类题目应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数 R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.跟踪训练 2 假定小麦基本苗数 x 与成熟期有效穗 y 之间存在相关关系,今测得 5 组数据如下:x 15.0 25.8 30.0 36.6 44.4y 39.4 42.9 42.9 43.1 49.2(1)以 x 为解释变量, y 为预报变量,作出散点图;(2)求 y 与 x 之间的回归方程,对于基本苗数 56.7 预报有效穗;(3)计算各组残差,并计算残差平方和;(4)求相关指数 R2,并说明残差变量对有效穗的影响占百分之几?解 (1)散点图如下.(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用回归方程刻画它们之间的关系.设回归方程为 = x+ , =30.36, =43.5,y^ b^ a^ x y- 7 -x =5 101.56, y =9 511.43.∑5 i= 12i ∑ 5 i= 12i=1 320.66, 2=1 892.25, 2=921.729 6,xy y xxiyi=6 746.76.∑5 i= 1由 = ≈0.29,b^ ∑ 5 i= 1xiyi- 5x y∑ 5 i= 1x2i- 5x2= - =43.5-0.29×30.36≈34.70.a^ y b^ x故所求的线性回归方程为 =34.70+0.29 x.y^ 当 x=56.7 时, =34.70+0.29×56.7=51.143.y^ 估计成熟期有效穗为 51.143.(3)由于 y= bx+ a+ e,可以算得 i= yi- i分别为 1=0.35,e^ y^ e^ 2=0.718, 3=-0.5, 4=-2.214, 5=1.624,e^ e^ e^ e^ 残差平方和: ≈8.43.∑5 i= 1e^ 2i(4)可得: (yi- )2=50.18,∴ R2=1- ≈0.832.∑5 i= 1 y 8.4350.18所以解释变量小麦基本苗数对有效穗约贡献了 83.2%.残差变量贡献了约 1-83.2%=16.8%.1.下列各组变量之间具有线性相关关系的是( )A.出租车费与行驶的里程B.学习成绩与学生身高C.身高与体重D.铁的体积与质量答案 C2.若劳动生产率 x(千元)与月工资 y(元)之间的线性回归方程为 =50+80 x,则下列判断y^ 正确的是( )A.劳动生产率为 1 000 元时,月工资为 130 元B.劳动生产率提高 1 000 元时,月工资平均提高 80 元C.劳动生产率提高 1 000 元时,月工资平均提高 130 元- 8 -D.月工资为 210 元时,劳动生产率为 2 000 元答案 B3.某商品销售量 y(件)与销售价格 x(元/件)负相关,则其回归方程可能是( )A. =-10 x+200 B. =10 x+200y^ y^ C. =-10 x-200 D. =10 x-200y^ y^ 答案 A解析 由于销售量 y 与销售价格 x 成负相关,故排除 B、D.又当 x=10 时,A 中 y=100,而C 中 y=-300,C 不符合题意,故选 A.4.调查了某地若干户家庭的年收入 x(单位:万元)和年饮食支出 y(单位:万元),调查显示年收入 x 与年饮食支出 y 具有线性相关关系,并由调查数据得到 y 对 x 的线性回归方程: y^ =0.254 x+0.321.由线性回归方程可知,家庭年收入每增加 1 万元,年饮食支出平均增加______万元.答案 0.254解析 由题意知 -(0.254 x+0.321)=0.254.[0.254x+ 1+ 0.321][呈重点、现规律]回归分析的步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);(3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程 = x+ );y^ b^ a^ (4)按一定规则估计回归方程中的参数;(5)得出结果后分析残差图是否有异常(个别数据对应的残差过大,或残差呈现不随机的规律性等),若存在异常,则检查数据是否有误或模型是否合适等.一、基础过关1.在下列各量之间,存在相关关系的是( )①正方体的体积与棱长之间的关系;②一块农田的水稻产量与施肥量之间的关系;③人的身高与年龄之间的关系;④家庭的支出与收入之间的关系;- 9 -⑤某户家庭用电量与电价之间的关系.A.②③ B.③④C.④⑤ D.②③④答案 D2.设某大学的女生体重 y(单位:kg)与身高 x(单位:cm)具有线性相关关系,根据一组样本数据( xi, yi)(i=1,2,…, n),用最小二乘法建立的回归方程为 =0.85 x-85.71,则下列y^ 结论中不正确的是( )A. y 与 x 具有正的线性相关关系B.回归直线过样本点的中心( , )x yC.若该大学某女生身高增加 1 cm,则其体重约增加 0.85 kgD.若该大学某女生身高为 170 cm,则可断定其体重必为 58.79 kg答案 D解析 由回归方程为 =0.85 x-85.71 知 y 随 x 的增大而增大,所以 y 与 x 具有正的线性相y^ 关关系;由最小二乘法建立回归方程的过程知 = x+ = x+ - ( = - ),所y^ b^ a^ b^ y b^ xa^ y b^ x以回归直线过样本点的中心( , );利用回归方程可以估计总体,所以 D 不正确.x y3.某产品的广告费用 x 与销售额 y 的统计数据如下表:广告费用 x(万元) 4 2 3 5销售额 y(万元 ) 49 26 39 54根据上表可得回归方程 = x+ 中的 为 9.4,据此模型预报广告费用为 6 万元时销售额y^ b^ a^ b^ 为( )A.63.6 万元 B.65.5 万元C.67.7 万元 D.72.0 万元答案 B解析 ∵ = = ,x4+ 2+ 3+ 54 72= =42,y49+ 26+ 39+ 544又 = x+ 必过( , ),y^ b^ a^ x y∴42= ×9.4+ ,72 a^ ∴ =9.1.a^ ∴线性回归方程为 =9.4 x+9.1.y^ - 10 -∴当 x=6(万元)时, =9.4×6+9.1=65.5(万元).y^ 4.甲、乙、丙、丁四位同学各自对 A, B 两变量做回归分析,分别得到散点图与残差平方和(yi- i)2如下表∑n i= 1 y^ 甲 乙 丙 丁散点图残差平方和 115 106 124 103哪位同学的实验结果体现拟合 A, B 两变量关系的模型拟合精度高?( )A.甲 B.乙C.丙 D.丁答案 D5.在研究气温和热茶销售杯数的关系时,若求得相关指数 R2≈________,表明“气温解释了 85%的热茶销售杯数变化”或者说“热茶销售杯数差异有 85%是由气温引起的” .答案 0.856.对具有线性相关关系的变量 x 和 y,由测得的一组数据已求得回归直线的斜率为 6.5,且恒过(2,3)点,则这条回归直线的方程为________.答案 =-10+6.5 xy^ 解析 由题意知 =2, =3, =6.5,x y b^ 所以 = - =3-6.5×2=-10,a^ y b^ x即回归直线的方程为 =-10+6.5 x.y^ 7.某个服装店经营某种服装,在某周内纯获利 y(元)与该周每天销售这种服装件数 x 之间的一组数据如下表:x 3 4 5 6 7 8 9y 66 69 73 81 89 90 91(1)求样本中心点;(2)画出散点图;(3)求纯获利 y 与每天销售件数 x 之间的回归方程.解 (1) =6, ≈79.86,中心点(6,79.86).x y(2)散点图如下:- 11 -(3)因为 = ≈4.75,b^ 7∑i= 1xi- xyi- y7∑i= 1xi- x2= - ≈51.36,a^ y b^ x所以 =4.75 x+51.36.y^ 二、能力提升8.已知 x 与 y 之间的几组数据如下表:x 1 2 3 4 5 6y 0 2 1 3 3 4假设根据上表数据所得线性回归直线方程 = x+ ,若某同学根据上表中的前两组数据y^ b^ a^ (1,0)和(2,2)求得的直线方程为 y= b′ x+ a′,则以下结论正确的是( )A. b′, a′ B. b′, a′ D. a′.选 C.b^ a^ 9.下表是 x 和 y 之间的一组数据,则 y 关于 x 的回归方程必过( )x 1 2 3 4y 1 3 5 7A.点(2,3) B.点(1.5,4)- 12 -C.点(2.5,4) D.点(2.5,5)答案 C解析 回归方程必过样本点的中心( , ),即(2.5,4).x y10.如图是 x 和 y 的一组样本数据的散点图,去掉一组数据________后,剩下的 4 组数据的相关指数最大.答案 D(3,10)解析 经计算,去掉 D(3,10)这一组数据后,其他 4 组数据对应的点都集中在某一条直线附近,即两变量的线性相关性最强,此时相关指数最大.11.某车间为了规定工时定额,需确定加工零件所花费的时间,为此做了 4 次试验,得到的数据如下:零件的个数 x/个 2 3 4 5加工的时间 y/小时 2.5 3 4 4.5若加工时间 y 与零件个数 x 之间有较好的相关关系.(1)求加工时间与零件个数的回归方程;(2)试预报加工 10 个零件需要的时间.解 (1)由表中数据得 = , = , x =54,x72 y 72 ∑ 4 i= 12ixiyi=52.5,∑4 i= 1从而得 =0.7, = - =1.05,b^ a^ y b^ x因此,所求的回归方程为 =0.7 x+1.05.y^ (2)将 x=10 代入回归方程,得=0.7×10+1.05=8.05(小时),y^ 即加工 10 个零件的预报时间为 8.05 小时.12.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价 x(元) 8 8.2 8.4 8.6 8.8 9销量 y(件) 90 84 83 80 75 68(1)求回归直线方程 = x+ ,其中 =-20, = - ;y^ b^ a^ b^ a^ y b^ x- 13 -(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是 4 元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解 (1) = =8.5,x8+ 8.2+ 8.4+ 8.6+ 8.8+ 96= (90+84+83+80+75+68)=80.y16∵ =-20, = - ,b^ a^ y b^ x∴ =80+20×8.5=250,a^ ∴回归直线方程 =-20 x+250.y^ (2)设工厂获得的利润为 L 元,则L= x(-20 x+250)-4(-20 x+250)=-20( x- )2+361.25,334∴该产品的单价应定为 元,工厂获得的利润最大.334三、探究与拓展13.关于 x 与 y 有如下数据:x 2 4 5 6 8y 30 40 60 50 70有如下的两个线性模型:① =6.5 x+17.5;② =7 x+17.y^ y^ 试比较哪一个模型拟合的效果更好.解 由①可得 yi- i与 yi- 的关系如下表:y^ yyi- iy^ -0.5 -3.5 10 -6.5 0.5yi- y -20 -10 10 0 20所以 (yi- i)2=(-0.5) 2+(-3.5) 2+10 2+(-6.5) 2+0.5 2=155,∑5 i= 1 y^ (yi- )2=(-20) 2+(-10) 2+10 2+0 2+20 2=1 000.∑5 i= 1 y所以 R =1- =1- =0.845.21∑ 5 i= 1 yi- y^ i2∑ 5 i= 1 yi- y2 1551 000- 14 -由②可得 yi- i与 yi- 的关系如下表:y^ yyi- iy^ -1 -5 8 -9 -3yi- y -20 -10 10 0 20所以 (yi- i)2=(-1) 2+(-5) 2+8 2+(-9) 2+(-3) 2=180,∑5 i= 1 y^ (yi- )2=(-20) 2+(-10) 2+10 2+0 2+20 2=1 000.∑5 i= 1 y所以 R =1- =1- =0.82.2∑ 5 i= 1 yi- y^ i2∑ 5 i= 1 yi- y2 1801 000由于 R =0.845, R =0.82,0.8450.82,所以 R R .21 2 21 2故①的拟合效果好于②的拟合效果.- 1 -第一章 统计案例 1.1 回归分析的基本思想及其初步应用(二)课时作业 新人教 A 版选修 1-2明目标、知重点 1.进一步体会回归分析的基本思想.2.通过非线性回归分析,判断几种不同模型的拟合程度.1.如果两个变量不呈现线性相关关系,常见的两个变量间的关系还有指数函数关系、二次函数关系.2.两个变量间的非线性关系可以通过对解释变量的变换(对数变换、平方变换等)转化为另外两个变量的线性关系.3.比较不同模型的拟合效果,可以通过残差平方和的大小,相关指数的大小来判断.探究点一 非线性回归模型思考 1 有些变量间的关系并不是线性相关,怎样确定回归模型?答 首先要作出散点图,如果散点图中的样本点并没有分布在某个带状区域内,则两个变量不呈现线性相关关系,不能直接利用回归方程来建立两个变量之间的关系,这时可以根据已有的函数知识,观察样本点是否呈指数函数关系或二次函数关系,选定适当的回归模型.思考 2 如果两个变量呈现非线性相关关系,怎样求出回归方程?答 可以通过对解释变量进行变换,如对数变换或平方变换,先得到另外两个变量间的回归方程,再得到所求两个变量的回归方程.例 1 某地区不同身高的未成年男性的体重平均值如下表:- 2 -身高 x/cm 60 70 80 90 100 110体重 y/kg 6.13 7.90 9.99 12.15 15.02 17.50身高 x/cm 120 130 140 150 160 170体重 y/kg 20.92 26.86 31.11 38.85 47.25 55.05试建立 y 与 x 之间的回归方程.解 根据表中数据画出散点图如图所示.由图看出,样本点分布在某条指数函数曲线 y= c1ec2x 的周围,于是令 z=ln y.x 60 70 80 90 100 110 120 130 140 150 160 170z 1.81 2.07 2.30 2.50 2.71 2.86 3.04 3.29 3.44 3.66 3.86 4.01画出散点图如图所示.由表中数据可得 z 与 x 之间的线性回归方程:=0.663+0.020 x,则有 =e 0.663+0.020 x.反思与感悟 根据已有的函数知识,可以发现样本分布在某一条指数型函数曲线 y= c1ec2x的周围,其中 c1和 c2是待定参数;可以通过对 x 进行对数变换,转化为线性相关关系.跟踪训练 1 在彩色显影中,由经验知:形成染料光学密度 y 与析出银的光学密度 x 由公式y= A (b0),故 x 与 y 之间是正相关.(3)将 x=7 代入回归方程可以预测该家庭的月储蓄为 y=0.3×7-0.4=1.7(千元).- 1 -第一章 统计案例 1.2 独立性检验的基本思想及其初步应用课时作业 新人教 A 版选修 1-2明目标、知重点 1.了解分类变量的意义.2.了解 2×2 列联表的意义.3.了解随机变量 K2的意义.4.通过对典型案例分析,了解独立性检验的基本思想和方法.1.分类变量和列联表(1)分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表①定义:列出的两个分类变量的频数表称为列联表.②2×2 列联表一般地,假设有两个分类变量 X 和 Y,它们的取值分别为{ x1, x2}和{ y1, y2},其样本频数列联表(也称为 2×2 列联表)为下表.y1 y2 总计x1 a b a+ bx2 c d c+ d总计 a+ c b+ d a+ b+ c+ d2.等高条形图(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.(2)观察等高条形图发现 和 相差很大,就判断两个分类变量之间有关系.aa+ b cc+ d- 2 -3.独立性检验(1)定义:利用随机变量 K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)K2= ,n(ad- bc)2(a+ b)(c+ d)(a+ c)(b+ d)其中 n= a+ b+ c+ d 为样本容量.(3)独立性检验的具体做法①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界 α ,然后查表确定临界值 k0.②利用公式计算随机变量 K2的观测值 k.③如果 k≥ k0,就推断“ X 与 Y 有关系” ,这种推断犯错误的概率不超过 α ,否则就认为在犯错误的概率不超过 α 的前提下不能推断“ X 与 Y 有关系” ,或者在样本数据中没有发现足够证据支持结论“ X 与 Y 有关系” .[情境导学]5 月 31 日是世界无烟日.有关医学研究表明,许多疾病,例如:心脏病、癌症、脑血管病、慢性阻塞性肺病等都与吸烟有关,吸烟已成为继高血压之后的第二号全球杀手.这些疾病与吸烟有关的结论是怎样得出的呢?探究点一 列联表和等高条形图思考 1 举例说明什么是分类变量?答 变量的不同“值”表示个体所属的不同类别的变量称为分类变量,分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级等等.思考 2 什么是列联表?怎样从列联表判断两个分类变量有无关系?答 一般地,假设有两个分类变量 X 和 Y,它们的取值分别为{ x1, x2}和{ y1, y2},则两个变量的频数表,称为列联表(如下图)y1 y2 总计x1 a b a+ bx2 c d c+ d总计 a+ c b+ d a+ b+ c+ d|ad- bc|越小,说明两个分类变量 x、 y 之间的关系越弱;|ad- bc|越大,说明两个分类变量 x、 y 之间的关系越强.- 3 -思考 3 等高条形图对分析两个分类变量是否有关系,有何帮助?答 通过画等高条形图,我们可以直观观察两个变量的比例关系,判断两个变量是否有关系.例 1 某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了 515个成年人,其中吸烟者 220 人,不吸烟者 295 人.调查结果是:吸烟的 220 人中有 37 人患呼吸道疾病(简称患病),183 人未患呼吸道疾病(简称未患病);不吸烟的 295 人中有 21 人患病,274 人未患病.根据这些数据能否断定“患呼吸道疾病与吸烟有关”?(用列联表和等高条形图说明).解 (1)作出列联表如下:患病 未患病 总计吸烟 37 183 220不吸烟 21 274 295总计 58 457 515在吸烟的人中,有 ≈16.82%的人患病,在不吸烟的人中,有 ≈7.12%的人患病.由上37220 21295可以看出,吸烟者中患病的比例与不吸烟者中患病的比例相比有很大的差异,故“患呼吸道疾病与吸烟可能有关” .(2)画出等高条形图如下:通过上面的等高条形图可以直观看出,吸烟者中患病的比例与不吸烟者中患病的比例相比有很大的差异,故“患呼吸道疾病与吸烟可能有关” .反思与感悟 利用数形结合的思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法之一.一般地,在等高条形图中, 与 相差越大,两个分类变量有aa+ b cc+ d关系的可能性就越大.跟踪训练 1 在调查的 480 名男人中有 38 人患色盲,520 名女人中有 6 名患色盲,试利用图形来判断色盲与性别是否有关?解 根据题目给出的数据作出如下的列联表:色盲 不色盲 总计- 4 -男 38 442 480女 6 514 520总计 44 956 1 000根据列联表作出相应的等高条形图:从等高条形图来看在男人中患色盲的比例要比在女人中患色盲的比例大得多,因而,我们认为性别与患色盲是有关系的.探究点二 独立性检验思考 1 利用列联表及等高条形图判断两个分类变量是否有关有什么优缺点?答 优点:比较直观.缺点:缺少精确性和可靠性.思考 2 随机变量 K2有何作用?答 利用随机变量 K2= (其中 n= a+ b+ c+ d 为样本容量)可以来n(ad- bc)2(a+ b)(c+ d)(a+ c)(b+ d)确定在多大程度上可以认为“两个分类变量有关系” .思考 3 独立性检验的基本思想是什么?答 独立性检验的基本思想类似于数学中的反证法,要确认两个分类变量有关系这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下,用我们构造的随机变量 K2的观测值应该很小,如果由观测数据计算得到的 K2的观测值很大,则在一定程度上说明假设不合理,根据随机变量 K2的含义,可以通过P(K2≥6.635)≈0.01 来评价假设不合理的程度,由实际计算出 K26.635,说明假设不合理的程度约为 99%,即两个分类变量有关系这一结论成立的可信程度为 99%.例 2 在某医院,因为患心脏病而住院的 665 名男性病人中有 214 人秃顶,而另外 772 名不是因为患心脏病而住院的男性病人中有 175 人秃顶.(1)利用图形判断秃顶与患心脏病是否有关系;(2)能否在犯错误的概率不超过 0.01 的前提下认为秃顶与患心脏病有关系?解 (1)根据题目所给的数据画出列联表:患心脏病 患其他病 总计秃顶 214 175 389不秃顶 451 597 1 048- 5 -总计 665 772 1 437相应的等高条形图如图所示:比较来说,秃顶的病人中患心脏病的比例大一些,可以在某种程度上认为“秃顶与患心脏病有关” .(2)根据列联表中的数据,得到k= ≈16.3736.635,1 437×(214×597- 175×451)2389×1 048×665×772因此,在犯错误的概率不超过 0.01 的前提下认为秃顶与患心脏病有关系.反思与感悟 (1)利用随机变量 K2进行独立性检验的步骤:①根据实际问题需要的可信度 α 确定临界值 k0;②根据给出数据计算得出随机变量 K2的观测值 k;③如果 k≥ k0,就认为在犯错误的概率不超过 α 的前提下,认为两变量有关系;否则,认为两个分类变量没有关系.(2)独立性检验能精确判断可靠程度,而等高条形图的优点是直观,但只可以粗略判断两个分类变量是否有关系,一般在通过图表判断后还需要用独立性检验来确认.跟踪训练 2 为了探究吸烟习惯与患慢性气管炎是否有关,调查了 339 名 50 岁以上的人,获数据如下:患慢性气管炎 未患慢性气管炎 总计吸烟 43 162 205不吸烟 13 121 134总计 56 283 339吸烟习惯与患慢性气管炎是否相关?试用独立性检验的思想说明理由.解 根据列联表的数据得到 K2的观测值:k=n(ad- bc)2(a+ b)(a+ c)(d+ b)(d+ c)= ≈7.4696.635,339×(43×121- 162×13)2205×56×283×134所以,在犯错误的概率不超过 0.01 的前提下认为“吸烟习惯与患慢性气管炎有关” .- 6 -1.观察下列各图,其中两个分类变量 x, y 之间关系最强的是( )答案 D2.下面是一个 2×2 列联表:y1 y2 总计x1 a 21 73x2 8 25 33总计 b 46则表中 a、 b 处的值分别为( )A.94,96 B.52,50C.52,60 D.54,52答案 C解析 ∵ a+21=73,∴ a=52, b= a+8=52+8=60.3.经过对 K2的统计量的研究,得到了若干个临界值,当 K2的观测值 k3.841 时,我们( )A.在犯错误的概率不超过 0.05 的前提下可认为 A 与 B 有关B.在犯错误的概率不超过 0.05 的前提下可认为 A 与 B 无关C.在犯错误的概率不超过 0.01 的前提下可认为 A 与 B 有关D.没有充分理由说明事件 A 与 B 有关系答案 A4.根据下表计算:不看电视 看电视男 37 85女 35 143K2的观测值 k≈________.(保留 3 位小数)- 7 -答案 4.514解析 k= ≈4.514.300×(37×143- 85×35)2122×178×72×228[呈重点、现规律]1.列联表与等高条形图列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有关联关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有关联关系.2.对独立性检验思想的理解独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量 K2的值,如果 K2值很大,说明假设不合理. K2越大,两个分类变量有关系的可能性越大.一、基础过关1.下面说法正确的是( )A.统计方法的特点是统计推断准确、有效B.独立性检验的基本思想类似于数学上的反证法C.任何两个分类变量有关系的可信度都可以通过查表得到D.不能从等高条形图中看出两个分类变量是否相关答案 B2.用独立性检验来考察两个分类变量 x 与 y 是否有关系,当统计量 K2的观测值( )A.越大, “x 与 y 有关系”成立的可能性越小B.越大, “x 与 y 有关系”成立的可能性越大C.越小, “x 与 y 没有关系”成立的可能性越小D.与“ x 与 y 有关系”成立的可能性无关答案 B3.在一个 2×2 列联表中,由其数据计算得 K2的观测值 k=7.097,则这两个变量间有关系的可能性为( )A.99% B.99.5%C.99.9% D.无关系- 8 -答案 A解析 K2的观测值 6.6357.879,在犯错误的概率不超过 0.005 的前提下,认为课外阅读量大与作文成绩优秀有关,即有 99.5%的把握认为课外阅读量大与作文成绩优秀有关.6.如果 K2的观测值为 6.645,可以认为“ x 与 y 无关”的可信度是________.答案 1%解析 查表可知可信度为 1%.7.在某测试中,卷面满分为 100 分,60 分为及格,为了调查午休对本次测试前两个月复习效果的影响,特对复习中进行午休和不进行午休的考生进行了测试成绩的统计,数据如下表所示:- 9 -分数段 29~40 41~50 51~60 61~70 71~80 81~90 91~100午休考生人数 23 47 30 21 14 31 14不午休考生人数 17 51 67 15 30 17 3(1)根据上述表格完成列联表:及格人数 不及格人数 总计午休不午休总计(2)根据列联表可以得出什么样的结论?对今后的复习有什么指导意义?解 (1)根据题表中数据可以得到列联表如下:及格人数 不及格人数 总计午休 80 100 180不午休 65 135 200总计 145 235 380(2)计算可知,午休的考生及格率为 P1= = ,不午休的考生的及格率为 P2= = ,则80180 49 65200 1340P1P2,因此,可以粗略判断午休与考生考试及格有关系,并且午休的及格率高,所以在以后的复习中考生应尽量适当午休,以保持最佳的学习状态.二、能力提升8.在等高条形图中,下列哪两个比值相差越大,要推断的论述成立的可能性就越大( )A. 与 B. 与aa+ b dc+ d ca+ b ac+ dC. 与 D. 与aa+ b cc+ d aa+ b cb+ c答案 C解析 由等高条形图可知 与 的值相差越大,| ad- bc|就越大,相关性就越强.aa+ b cc+ d9.考察棉花种子经过处理跟生病之间的关系得到下表数据:种子处理 种子未处理 总计得病 32 101 133不得病 61 213 274总计 93 314 407- 10 -根据以上数据,可得出( )A.种子是否经过处理跟是否生病有关B.种子是否经过处理跟是否生病无关C.种子是否经过处理决定是否生病D.以上都是错误的答案 B解析 由 k= ≈0.1643.841,∴我们有 95%的把握认为服用此药的效果与患者的性别有关,从而有 5%的可能性出错.11.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好” .下表是一次针对高三文科学生的调查所得数据,试问:在出错概率不超过 0.025 的前提下,能否判断“文科学生总成绩不好与数学成绩不好有关系”?总成绩不好 总成绩好 总计数学成绩不好 478 12 490数学成绩好 399 24 423总计 877 36 913解 依题意,计算随机变量 K2的观测值:k= ≈6.2335.024,913×(478×24- 399×12)2490×423×877×36所以在出错概率不超过 0.025 的前提下,可以判断“文科学生总成绩不好与数学成绩不好有关系” .12.吃零食是中学生中普遍存在的现象,吃零食对学生身体发育有诸多不利影响,影响学生的健康成长.下表是性别与吃零食的列联表:- 11 -男 女 总计喜欢吃零食 5 12 17不喜欢吃零食 40 28 68总计 45 40 85请问喜欢吃零食与性别是否有关?解 k= ,n(ad- bc)2(a+ b)(c+ d)(a+ c)(b+ d)把相关数据代入公式,得k= ≈4.7223.841.85×(5×28- 40×12)217×68×45×40因此,在犯错误的概率不超过 0.05 的前提下,可以认为“喜欢吃零食与性别有关” .三、探究与拓展13.在某校对有心理障碍学生进行测试得到如下列联表:焦虑 说谎 懒惰 总计女生 5 10 15 30男生 20 10 50 80总计 25 20 65 110试说明在这三种心理障碍中哪一种与性别关系最大?解 对于题中三种心理障碍分别构造三个随机变量 K , K , K .其观测值分别为 k1, k2, k3.21 2 23由表中数据列出焦虑是否与性别有关的 2×2 列联表焦虑 不焦虑 总计女生 5 25 30男生 20 60 80总计 25 85 110可得 k1= ≈0.8635.024,110×(10×70- 20×10)230×80×20×90k3= ≈1.4102.706.110×(15×30- 15×50)230×80×65×45因此,在犯错误的概率不超过 0.025 的前提下,认为说谎与性别有关,没有充分的证据显示焦虑、懒惰与性别有关.
展开阅读全文
相关搜索