1、1考查角度 1 统计案例分类透析一 统计图表与数字特征分析例 1 从某食品厂生产的面包中抽取 100 个,测量这些面包的一项质量指标值,由测量结果得如下频数分布表:质量指标值分组 75,85) 85,95) 95,105) 105,115) 115,125频数 8 22 37 28 5(1)在相应位置上画出这些数据的频率分布直方图;(2)估计这种面包质量指标值的平均数 X(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该食品厂生产的这种面包符合“质量指标值不低于 85 的面包至少要占全部面包 90%的规定”?分析 (1)根据题设中的数据,可画出频率分布直方图;(
2、2)利用平均数的计算公式,可求得平均数 X;(3)计算质量指标值不低于 85 的面包所占比例的估计值,再做出判断 .解析 (1)画图 .2(2)质量指标值的样本平均数为=800.08+900.22+1000.37+1100.28+1200.05=100.-x所以这种面包质量指标值的平均数的估计值为 100.(3)质量指标值不低于 85 的面包所占比例的估计值为 0.22+0.37+0.28+0.05=0.92,由于该估计值大于 0.9,故可以认为该食品厂生产的这种面包符合“质量指标值不低于85 的面包至少要占全部面包 90%的规定” .方法技巧 在频率分布直方图中,小矩形的高表示“频率 /组距
3、”,而不是频率;利用频率分布直方图求平均数时,平均数是频率分布直方图的“重心”,可以估计为频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和 .分类透析二 线性回归的综合应用例 2 某市为了引导居民合理用水,居民生活用水实行二级阶梯式水价计算办法,具体如下:第一阶梯,每户居民月用水量不超过 12 吨,价格为 4 元 /吨;第二阶梯,每户居民月用水量超过 12 吨,超过部分的价格为 8 元 /吨 .为了了解全市居民月用水量的分布情况,通过抽样获得了 100 户居民的月用水量(单位:吨),将数据按照0,2,(2,4,(14,16(全市居民月用水量均不超过 16 吨)分成 8 组,制
4、成了如图 所示的频率分布直方图 .3(1)求频率分布直方图中字母 a 的值,并求该组的频率 .(2)通过频率分布直方图,估计该市居民每月的用水量的中位数 m 的值(保留两位小数) .(3)图 是该市居民张某 2018 年 16 月份的月用水费 y(元)与月份 x 的散点图,其拟合的线性回归方程是 =2x+33.若张某 2018 年 17 月份水费总支出为 312 元,试估计张某 7 月y份的用水吨数 .分析 (1)根据矩形面积和为 1 可得结果;(2)利用 m 左右面积都是 列方程可得结果;12(3)根据回归直线过样本点的中心,算出前六个月平均费用,总费用减去前六个月的费用和即可得结果 .解析
5、 (1) (0.02+0.04+0.08+a+0.13+0.08+0.03+0.02)2=1,a= 0.10.故第四组的频率为 0.12=0.2.(2) 0.022+0.042+0.082+0.102+(m-8)0.13=0.5, m= 8+ 8 .15.0.5-0.480.13(3) = =3.5,且 =2x+33,-x 1+2+3+4+5+66 y =23.5+33=40.-y 张某 7 月份的用水费用为 312-640=72(元),设张某 7 月份的用水 x 吨, 124=482.706.120(1200-600)270506060247所以有 90%的把握认为该校教职工是否为“体育达人
6、”与“性别”有关 .(2)由题意知抽取的 6 名“体育达人”中有 4 名男职工(记作 a,b,c,d),2 名女职工(记作 m,n),则从这 6 名“体育达人”中任意选取 2 名有ab,ac,ad,am,an,bc,bd,bm,bn,cd,cm,cn,dm,dn,mn,共 15 种取法,取出的 2 名“体育达人”中至少有 1 名女职工有 am,an,bm,bn,cm,cn,dm,dn,mn,共 9 种取法,所以所求概率 P= = .91535方法技巧 独立性检验的方法的解题步骤 构造 22 列联表; 计算 K2的观测值 k; 查表确定有多大的把握判定两个变量有关联 .1.(2018 年全国 卷
7、,文 18 改编)PM2 .5 是指大气中直径小于或等于 2.5 微米的颗粒物,也称为可入肺颗粒物,一般情况下 PM2.5 浓度越大,大气环境质量越差 .我国 PM2.5 的标准是:24小时 PM2.5 的平均浓度在 035g/m 3范围内,则空气质量是优,在 3575g/m 3范围内,则空气质量是良好,在 75115g/m 3范围内,则空气质量是轻度污染 .在 115150g/m 3范围内,则空气质量是中度污染 .甲、乙两座城市 2016 年底经评估 PM2.5 的年平均浓度均在80g/m 3左右,空气质量是轻度污染,甲、乙两座城市采取不同的环境综合治理方式,通过各个监测站的大数据汇总得到
8、2017 年每个月 PM2.5 的平均浓度数据如下(单位:g/m 3).甲城市:83,74,55,62,47,65,58,61,56,50,54,46 .乙城市:82,68,61,65,68,68,71,67,82,70,66,72 .(1)根据以上统计数据判断 2017 年哪座城市的大气环境质量总体较好?并说明理由 .(2)求两座城市 24 个 PM2.5 的平均浓度的中位数,并将两座城市超过和不超过中位数的月份数填入下面的列联表:不超过 超过6甲城市乙城市(3)根据(2)中的列联表,能否有 99%的把握认为甲、乙两座城市的大气环境质量与该城市综合治理的方式有关?附: K2= ,n(ad-b
9、c)2(a+b)(c+d)(a+c)(b+d)P(K2 k0) 0.05 0.010 0.001k0 3.841 6.635 10.828解析 (1)甲城市的大气环境质量总体较好 .理由如下: = (83+74+55+62+47+65+58+61+56+50+54+46)= =59.25,-x甲 112 71112= (82+68+61+65+68+68+71+67+82+70+66+72)= =70,所以 6.635,24(1010-22)212121212所以有 99%的把握认为甲、乙两座城市的大气环境质量与他们综合治理的方式有关 .2.(2018 年全国 卷,文 18 改编)一只药用昆虫
10、的产卵数 y(单位:个)与一定范围内的温度x(单位:)有关,现收集了该种药用昆虫的 6 组观测数据如下表所示 .温度 x/ 21 23 24 27 29 32产卵 y/个 6 11 20 27 57 77经计算得 = xi=26, = yi=33, (xi- )(yi- )=557, (xi- )-x 166i=1 -y 166i=1 6i=1 -x -y 6i=1 -x2=84, (yi- )2=3930,线性回归模型的残差平方和 (yi- )2=236.64,e8.06053167,6i=1 -y 6i=1 yi其中 xi,yi分别为观测数据中的温度和产卵数, i=1,2,3,4,5,6.
11、7(1)若用线性回归模型拟合,求 y 与 x 的回归方程 =bx+a(结果准确到 0.1).y(2)若用非线性回归模型拟合求得 y 与 x 的回归方程为 =0.06e0.2303x,且相关指数yR2=0.9522. 试用(1)中的回归模型相比,用 R2说明哪种模型的拟合效果更好 . 用拟合效果好的模型预测当温度为 35时,该种药用昆虫的产卵数(结果取整数) .附:一组数据( x1,y1),(x2,y2),(xn,yn),其回归直线 =bx+a 的斜率和截距的最小二乘估计y分别为 b= = ,a= -b ;R2=1- .ni=1(xi-x)(yi-y)ni=1(xi-x)2ni=1xiyi-n-
12、x-yni=1x2i-n-x2 -y -x ni=1(yi-yi)2ni=1(yi-y)2解析 (1)由题意得, b= = 6 .6,6i=1(xi-x)(yi-y)6i=1(xi-x)2 55784所以 a=33- 26=-139.4,55784所以 y 关于 x 的线性回归方程为 =6.6x-139.4.y(2) 由所给数据求得的线性回归方程为 =6.6x-139.4,相关指数为yR2=1- =1- 0 .9398.6i=1(yi-yi)26i=1(yi-y)2 236.643930因为 0.9398120,所以推荐该超市选择乙商家长期销售 .1.(2018 安徽淮南二模)2018 年春,
13、为响应中国大豆参与世界贸易的竞争,某市农科院积极研究,加大优良品种的培育工作 .其中一项基础工作就是研究昼夜温差大小与大豆发芽率之间的关系 .为此科研人员分别记录了 5 天中每天 100 粒大豆的发芽数,得如下数据表格:日期 4 月 4 日 4 月 5 日 4 月 6 日 4 月 7 日 4 月 8 日温差 x() 10 11 13 12 8发芽数 y(粒) 23 26 32 26 16科研人员确定研究方案如下:从 5 组数据中选 3 组数据求线性回归方程,再用求得的回归方程对剩下的 2 组数据进行检验 .(1)求剩下的 2 组数据恰是不相邻的 2 天数据的概率;(2)若选取的是 4 月 5
14、日、6 日、7 日三天的数据,据此求 y 关于 x 的线性回归方程 =bx+a;y(3)若由线性回归方程得到的估计数据与实际数据的误差绝对值均不超过 1 粒,则认为得到的线性回归方程是可靠的,请检验(2)中回归方程是否可靠 .9附: b= = ,a= -b .ni=1(xi-x)(yi-y)ni=1(xi-x)2ni=1xiyi-n-x-yni=1x2i-n-x2 -y -x解析 (1)剩下的 2 组数据的情况有(4 日,5 日),(4 日,6 日),(4 日,7 日),(4 日,8 日),(5 日,6 日),(5 日,7 日),(5 日,8 日),(6 日,7 日),(6 日,8 日),(7
15、 日,8 日),共 10 种,恰好是不相邻的 2 天数据的情况有(4 日,6 日),(4 日,7 日),(4 日,8 日),(5 日,7 日),(5 日,8 日),(6 日,8 日),共 6 种,所以恰好是不相邻的 2 天数据的概率是 = .61035(2)由数据得 xiyi=1126+1332+1226=1014,3i=1= (11+13+12)=12,-x 13= (26+32+26)=28,-y 133 =31228=1008,-x-y xiyi-n = xiyi-3 =1014-1008=6,ni=1 -x-y 3i=1 -x-y=112+132+122=434,3i=1x2i3 =3
16、122=432,-x2 -n = -3 =434-432=2,ni=1x2i -x2 3i=1x2i -x2b= = =3,3i=1xiyi-3-x-y3i=1x2i-3-x2 62a= -b =28-312=-8,-y -x故 y 关于 x 的线性回归方程为 =3x-8.y(3)当 x=10 时, =310-8=22,|22-23|1;y当 x=8 时, =38-8=16,|16-16|1 .y故得到的线性回归方程是可靠的 .2.(2018 云南保山统考)某校进行文科、理科数学成绩对比,某次考试后,各随机抽取 100 名同学的数学考试成绩进行统计,其频率分布表如下 .分组 频数 频率1013
17、5,150 8 0.08120,135) 17 0.17105,120) 40 0.490,105) 21 0.2175,90) 12 0.1260,75) 2 0.02总计 100 1理科分组 频数 频率135,150 4 0.04120,135) 18 0.18105,120) 37 0.3790,105) 31 0.3175,90) 7 0.0760,75) 3 0.03总计 100 1文科(1)根据数学成绩的频率分布表,求理科数学成绩的中位数的估计值;(2)请填写下面的列联表,并根据列联表判断是否有 90%的把握认为数学成绩与文理科有关 .数学成绩120 分数学成绩 3.841.40(104-1016)220202614所以能在犯错误的概率不超过 0.05 的前提下认为“成绩优良与教学方式有关” .14