1、1第 9 章 统计与统计案例 第 3 讲A 组 基础关1观察下列各图形:其中两个变量 x, y 具有相关关系的图是( )A B C D答案 C解析 观察散点图可知,两个变量 x, y 具有相关关系的图是.2设某大学的女生体重 y(单位:kg)与身高 x(单位:cm)具有线性相关关系,根据一组样本数据( xi, yi)(i1,2, n),用最小二乘法建立的回归方程为0.85 x85.71,则下列结论中不正确的是( )y A y 与 x 具有正的线性相关关系B回归直线过样本点的中心( , )x y C若该大学某女生身高增加 1 cm,则其体重约增加 0.85 kgD若该大学某女生身高为 170 c
2、m,则可断定其体重必为 58.79 kg答案 D解析 D 选项中,若该大学某女生身高为 170 cm,根据回归方程只能近似认为其体重为 58.79 kg,但不是绝对的故 D 不正确故选 D.3甲、乙、丙、丁四位同学各自对 A, B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数 r 与残差平方和 m 如下表:则哪位同学的试验结果体现 A, B 两变量有更强的线性相关性( )A甲 B乙 C丙 D丁答案 D2解析 在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近 1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的
3、试验结果体现了 A, B 两个变量有更强的线性相关性故选 D.4(2018江西南城一中、高安中学联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了 100位育龄妇女,结果如下表由 K2 ,得n ad bc 2 a b c d a c b dK2 9.616.参照下表,100 4522 2013 265355842正确的结论是( )A在犯错误的概率不超过 0.1%的前提下,认为“生育意愿与城市级别有关”B在犯错误的概率不超过 0.1%的前提下,认为“生育意愿与城市级别无关”C有 99%以上的把握认为“生育意愿与城市级别有关”D有
4、 99%以上的把握认为“生育意愿与城市级别无关”答案 C解析 k9.6166.635,有 99%以上的把握认为“生育意愿与城市级别有关” 故选 C.5(2018河南天一大联考)已知变量 x, y 之间满足线性相关关系 1.3 x1,且y x, y 之间的相关数据如下表所示:3则 m( )A0.8 B1.8 C0.6 D1.6答案 B解析 依题意, 2.5,将 2.5 代入 1.3 x1 中,解得 2.25,x1 2 3 44 x y y故 m2.2540.13.141.8.6已知两个随机变量 x, y 之间的相关关系如下表所示:x 4 2 1 2 4y 5 3 1 0.5 1根据上述数据得到的
5、回归方程为 x ,则大致可以判断( )y b a (参 考 公 式 : b n i 1xiyi nx y n i 1x2i nx2 , a y b x )A. 0, 0 B. 0, 0 D. 0,b 20 6 1 1 4 50.2 1.716 4 1 4 16 5 0.2 2 99136 1.7 0.20, 7.879.故有 99.5%的把握认为患疾病 A50 2015 105 230202525与性别有关故选 C.8在西非“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取 100 只小鼠进行试验,得到如下列联表:5参照附表,在犯错误的概率不超过
6、_的前提下,认为“小动物是否被感染与服用疫苗有关” 答案 0.05解析 由题意得, K2 4.7623.841.100 1030 2040 250503070所以在犯错误的概率不超过 0.05 的前提下,认为“小动物是否被感染与服用疫苗有关”9给出下列命题:线性相关系数 r 越大,两个变量的线性相关性越强;反之,线性相关性越弱;由变量 x 和 y 的数据得到其回归直线方程为 l: bx a,则 l 一定经过点 P( ,y x );y 在匀速传递的产品生产流水线上,质检员每 10 分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;在回归分析模型中,残差平方和越小,说明模型的拟合效果越好
7、;在回归直线方程 0.1 x10 中,当解释变量 x 每增加一个单位时,预报变量 增加y y 0.1 个单位则所有正确的命题的序号是_答案 解析 线性相关系数为 r,当| r|越接近 1 时,两个变量的线性相关性越强;当| r|越接近 0 时,两个变量的线性相关性越弱,错误;由变量 x 和 y 的数据得到其回归直线方程为 l: bx a,则 l 一定经过 P( , ),正确;每 10 分钟从匀速传递的产品流水y x y 线上,抽取一件产品进行某项指标检测,这样的抽样是系统抽样,错误;相关指数 R2用6来刻画回归的效果,其计算公式是 R21 ,在含有一个解释变量的线 n i 1 yi y i 2
8、 n i 1 yi y 2性模型中, R2恰好等于相关系数 r 的平方,显然, R2取值越大,意味着残差平方和越小,也就是模型的拟合效果越好,正确;回归直线方程 0.1 x10 中,当解释变量 x 每增y 加一个单位时,预报变量 增加 0.1 个单位,正确y 10在一组样本数据( x1, y1),( x2, y2),( x6, y6)的散点图中,若所有样本点(xi, yi)(i1,2,6)都在曲线 y bx2 附近波动经计算13xi11, yi13, x 21,则实数 b 的值为_6 i 1 6 i 1 6 i 12i答案 57解析 令 t x2,则曲线的回归方程变为线性的回归方程,即 y b
9、t ,此时 13 t , ,代入 y bt ,得 b ,解得 b . 6 i 1x2i6 72 y 6 i 1yi6 136 13 136 72 13 57B 组 能力关1(2017山东高考)为了研究某班学生的脚长 x(单位:厘米)和身高 y(单位:厘米)的关系,从该班随机抽取 10 名学生,根据测量数据的散点图可以看出 y 与 x 之间有线性相关关系设其回归直线方程为 x .已知 i225, i1600, 4.该班某学生y b a 10i 1x 10i 1y b 的脚长为 24,据此估计其身高为( )A160 B163 C166 D170答案 C解析 i225, i22.5.10i 1x x
10、 11010i 1x i1600, i160.10i 1y y 11010i 1y又 4, 160422.570.b a y b x回归直线方程为 4 x70.y 将 x24 代入上式得 42470166.y 故选 C.2某人研究中学生的性别与成绩、视力、智商、阅读量这 4 个变量的关系,随机抽查了 52 名中学生,得到统计数据如表 1 至表 4,则与性别有关联的可能性最大的变量是( )78A成绩 B视力 C智商 D阅读量答案 D解析 K ,2152 622 1014 2163620329令 m,5216362032则 K 8 2m,同理, K m(4201216) 2112 2m,21 2K
11、 m(824812) 296 2m, K m(143062) 2408 2m, K K K K23 24 24 2 23,则与性别有关联的可能性最大的变量是阅读量故选 D.213(2018青岛模拟)针对时下的“韩剧热” ,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的 ,男生喜欢韩剧的人数占男生人数的 ,12 16女生喜欢韩剧的人数占女生人数的 .若有 95%的把握认为是否喜欢韩剧和性别有关,则男23生至少有_人答案 12解析 设男生人数为 x,由题意可得列联表如下:若有 95%的把握认为是否喜欢韩剧和性别有关,则 k3.841,即 k 3.841,3x2(x6
12、x6 5x6x3)2xx2x2x 3x8解得 x10.243.10因为 , 为整数,所以若有 95%的把握认为是否喜欢韩剧和性别有关,则男生至少有x6 x212 人4(2018全国卷)下图是某地区 2000 年至 2016 年环境基础设施投资额 y(单位:亿元)的折线图为了预测该地区 2018 年的环境基础设施投资额,建立了 y 与时间变量 t的两个线性回归模型根据 2000 年至 2016 年的数据(时间变量 t 的值依次为 1,2,17)建立模型: 30.413.5 t;根据 2010 年至 2016 年的数据(时间变量 t 的值依次为y 1,2,7)建立模型: 9917.5 t.y (1
13、)分别利用这两个模型,求该地区 2018 年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由解 (1)利用模型,该地区 2018 年的环境基础设施投资额的预测值为30.413.519226.1(亿元)y 利用模型,该地区 2018 年的环境基础设施投资额的预测值为9917.59256.5(亿元)y (2)利用模型得到的预测值更可靠理由如下:()从折线图可以看出,2000 年至 2016 年的数据对应的点没有随机散布在直线y30.413.5 t 上下,这说明利用 2000 年至 2016 年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势.2010
14、 年相对 2009 年的环境基础设施投资额有明显增加,2010 年至 2016 年的数据对应的点位于一条直线的附近,这说明从 2010 年开始环境基础设施投资额的变化规律呈线性增长趋势,利用 2010 年至 2016 年的数据建立的线性模型 9917.5 t 可以较好地描述 2010 年以后的环境基础设施投资额的变化趋势,因此利y 用模型得到的预测值更可靠()从计算结果看,相对于 2016 年的环境基础设施投资额 220 亿元,由模型得到的预测值 226.1 亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠11(以上给出了 2 种理由,考生答出其中任意一
15、种或其他合理理由均可)C 组 素养关1某职称晋级评定机构对参加某次专业技术考试的 100 人的成绩进行了统计,绘制了频率分布直方图(如图所示),规定 80 分及以上者晋级成功,否则晋级失败(满分为 100 分)(1)求图中 a 的值;(2)估计该次考试的平均分 (同一组中的数据用该组的区间中点值代表);x(3)根据已知条件完成下面的 22 列联表,并判断能否有 85%的把握认为“晋级成功”与性别有关(参 考 公 式 : K2 n ad bc 2 a b c d a c b d , 其 中 n a b c d)12解 (1)由频率分布直方图中各小长方形的面积总和为 1,可知(2a0.0200.0
16、300.040)101,故 a0.005.(2)由频率分布直方图知各小组的区间中点值分别为 55,65,75,85,95,对应的频率分别为 0.05,0.30,0.40,0.20,0.05,故可估计平均分 550.05650.3750.4850.2950.0574(分)x(3)由频率分布直方图知,晋级成功的频率为 0.200.050.25,故晋级成功的人数为 1000.2525,故填表如下:K2 2.6132.072,100 1641 349 225755050所以有 85%的把握认为“晋级成功”与性别有关2(2018汕头模拟)二手车经销商小王对其所经营的 A 型号二手汽车的使用年数 x 与销
17、售价格 y(单位:万元/辆)进行整理,得到如下数据:下面是 z 关于 x 的折线图:13(1)由折线图可以看出,可以用线性回归模型拟合 z 与 x 的关系,请用相关系数加以说明;(2)求 y 关于 x 的回归方程并预测某辆 A 型号二手车当使用年数为 9 年时售价约为多少?( , 小数点后保留两位有效数字)b a (3)基于成本的考虑,该型号二手车的售价不得低于 7118 元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?参考公式:回归方程 x 中斜率和截距的最小二乘估计公式分别为:y b a , .b n i 1 xi x yi y n i 1 xi x 2
18、 n i 1xiyi nx y n i 1x2i nx2 a y b xr . n i 1 xi x yi y n i 1 xi x 2 n i 1 yi y 2参考数据:xiyi187.4, xizi47.64, x 139,6 i 1 6 i 1 6 i 12i4.18, 13.96,6 i 1 xi x 2 6 i 1 yi y 21.53,ln 1.460.38,ln 0.71180.34.6 i 1 zi z 2解 (1)由题意,计算 (234567)4.5,x16 (32.482.081.861.481.10)2,z16且 xizi47.64, 4.18, 1.53,6 i 1 6
19、 i 1 xi x 2 6 i 1 zi z 2所以 r n i 1 xi x zi z n i 1 xi x 2 n i 1 zi z 2 0.99;47.64 64.524.181.53 6.366.395414所以 z 与 x 的相关系数大约为0.99,说明 z 与 x 的线性相关程度很高(2)利用最小二乘估计公式计算 b n i 1xizi nx z n i 1x2i nx2 47.64 64.52139 64.52 6.3617.50.36,所以 20.364.53.62,a z b x所以 z 与 x 的线性回归方程是 0.36 x3.62,z 又 zln y,所以 y 关于 x 的回归方程是 e 0.36 x3.62 ;令 x9,解得 e 0.3693.62 1.46,y y 即预测某辆 A 型号二手车当使用年数为 9 年时售价约 1.46 万元(3)当 0.7118 时,e 0.36 x3.62 0.7118e ln 0.7118e 0.34 ,所以y 0.36 x3.620.34,解得 x11,因此预测在收购该型号二手车时车辆的使用年数不得超过 11 年