1、章末分层突破自我校对随机数法系统抽样分层抽样频率分布直方图茎叶图方差与标准差散点图回归方程抽样方法及应用随机抽样有简单随机抽样、系统抽样和分层抽样三种其共同点是在抽样过程中每个个体被抽到的机会相等,当总体中的个体数较少时,常采用简单随机抽样;当总体中的个体数较多时,多采用系统抽样;当已知总体由差异明显的几部分组成时,常采用分层抽样其中简单随机抽样是最简单、最基本的抽样方法在进行系统抽样和分层抽样时都要用到简单随机抽样应用各种抽样方法抽样时要注意以下问题:(1)利用抽签法时要注意把号签放在不透明的容器中且搅拌均匀;(2)利用随机数法时注意编号位数要一致;(3)利用系统抽样时,若抽样间隔 k 不是
2、整数,应剔除部分个体;Nn(4)在分层抽样中,若在某一层抽到的个体数不是整数,应在该层剔除部分个体,使抽取个体数为整数某高级中学有学生 270 人,其中一年级 108 人,二、三年级各 81人现要利用抽样方法抽取 10 人参加某项调查,考虑选用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按一、二、三年级依次统一编号为 1,2,270;使用系统抽样时,将学生统一随机编号为 1,2,270,并将整个编号依次分为 10 段如果抽得号码有下列四种情况:7,34,61,88,115,142,169,196,223,250;5,9,100,107,111,121,180,
3、195,200,265;11,38,65,92,119,146,173,200,227,254;30,57,84,111,138,165,192,219,246,270.关于上述样本的下列结论中,正确的是( )A都不能为系统抽样B 都不能为分层抽样C 都可能为系统抽样D都可能为分层抽样【精彩点拨】 分层抽样时,在各层所抽取的样本个数与该层个体数的比值等于抽样比;系统抽样抽取的号码按从小到大排列后,每一个号码与前一个号码的差都等于分段间隔【规范解答】 按分层抽样时,在一年级抽取 108 4(人),在二年级、10270三年级各抽取 81 3(人),则在号码段 1,2,108 中抽取 4 个号码,在
4、10270号码段 109,110,189 中抽取 3 个号码,在号码段 190,191,270 中抽取3 个号码,符合,所以可能是分层抽样,不符合,所以不可能是分层抽样;如果按系统抽样时,抽取出的号码应该是“等距”的,符合,不符合,所以都可能为系统抽样,都不能为系统抽样【答案】 D再练一题1教育局督学组到校检查工作,临时需在每班各抽调两人参加座谈;某班数学期中考试有 15 人在 120 分以上,40 人在 90119 分,1 人不及格,现从中抽出 8 人研讨进一步改进教与学;某班春节聚会,要产生两位“幸运者”就这三件事,合适的抽样方法分别为( )A分层抽样,分层抽样,简单随机抽样B系统抽样,系
5、统抽样,简单随机抽样C分层抽样,简单随机抽样,简单随机抽样D系统抽样,分层抽样,简单随机抽样【尝试解答】 每班各抽两人需用系统抽样由于学生分成了差异比较大的几层,应用分层抽样由于总体与样本容量较小,应用简单随机抽样故选 D.【答案】 D用样本的频率分布估计总体分布利用样本的频率分布表和频率分布直方图对总体情况作出估计,有时也利用频率分布折线图和茎叶图对总体情况作出估计直方图能够很容易地表示大量数据,非常直观地表明分布的形状,使我们能够看到在分布表中看不清楚的数据模式,这样根据样本的频率分布,我们可以大致估计出总体的分布但是,当总体的个体数较多时,所需抽样的样本容量也不能太小,随着样本容量的增加
6、,频率分布折线图会越来越接近于一条光滑曲线,统计中称这条曲线为总体密度曲线,它能给我们提供更加精细的信息在样本数据较少时,用茎叶图表示数据的效果较好,它不但可以保留原始信息,而且可以随时记录,这给数据的记录和表示都能带来方便如下表所示给出了某校 500 名 12 岁男孩中用随机抽样得出的 120人的身高资料( 单位:cm)区间界限 122,126) 126,130) 130,134) 134,138) 138,142)人数 5 8 10 22 33区间界限 142,146) 146,150) 150,154) 154,158人数 20 11 6 5(1)列出样本的频率分布表;(2)画出频率分布
7、直方图;(3)估计身高低于 134 cm 的人数占总人数的百分比【精彩点拨】 (1)根据频数计算出频率分“分组 ”、 “频数” 、 “频率”三列,列出频率分布表(2)根据频率分布表画出频率分布直方图(3)根据频率分布表计算出身高低于 134 cm 的频率【规范解答】 (1)样本的频率分布表:分组 频数 频率122,126) 5 0.04126,130) 8 0.07130,134) 10 0.08134,138) 22 0.18138,142) 33 0.28142,146) 20 0.17146,150) 11 0.09150,154) 6 0.05154,158 5 0.04合计 120
8、1.00(2)画出频率分布直方图,如下图所示:(3)因为样本中身高低于 134 cm 的人数的频率为 0.19,所5 8 10120 23120以估计身高低于 134 cm 的人数约占总人数的 19%.再练一题2为了了解某校高一学生的视力情况,随机地抽查了该校 100 名高一学生的视力情况,得到频率分布直方图如图 21,由于不慎将部分数据丢失,但知道后 5 组频数和为 62,视力在 4.6 到 4.8 之间的学生数为 a,最大频率为 0.32,则a 的值为( ) 图 21A64 B54 C48 D27【解析】 4.7,4.8) 之间频率为 0.32,4.6,4.7) 之间频率为10.620.0
9、50.1110.780.22.a(0.22 0.32) 10054.【答案】 B用样本的数字特征估计总体的数字特征样本的数字特征可分为两大类:一类是反映样本数据集中趋势的,包括平均数、众数、中位数;另一类是反映样本数据的波动大小,包括样本方差及标准差通常,在实际问题中,仅靠平均数不能完全反映问题还要研究方差,方差描述了数据相对平均数的离散程度,在平均数相同的情况下,方差越大,离散程度越大,数据波动性越大,稳定性越差;方差越小,数据越集中,质量越稳定甲、乙两人数学成绩的茎叶图如图 22 所示:图 22(1)求出这两名同学的数学成绩的平均数、标准差;(2)比较两名同学的成绩,谈谈你的看法【精彩点拨
10、】 (1)利用茎叶图中的数据计算平均数、标准差(2)从平均数和方差两方面比较两人的成绩【解】 甲 (6570 8086899591 94107113)89.x110s (6589) 2(7089) 2(8089) 2(8689) 2(89 89)2甲1102(95 89) 2(91 89) 2(9489) 2(10789) 2(11389) 2199.2,s 甲 14.1.乙 (79868388 93999898102 114)94.x110s (7994) 2(8694) 2(8394) 2(8894) 2(93 94)2乙1102(99 94) 2(98 94) 2(9894) 2(102
11、94) 2(11494) 296.8.s 乙 9.8. 甲 乙 且 s 甲 s 乙x x乙同学的平均成绩较高且标准差较小;说明乙同学比甲同学的成绩扎实,稳定再练一题3对甲、乙的学习成绩进行抽样分析,各抽 5 门功课,得到的观测值如下:甲 60 80 70 90 70乙 80 60 70 80 75问:甲、乙谁的平均成绩好?谁的各门功课发展较平衡?【解】 甲的平均成绩为 甲 74,乙的平均成绩为 乙 73.所以甲的平均成x x绩好甲的方差是 s (1426 24 216 24 2)104,乙的方差是2甲15s (7213 23 27 22 2)56.2乙15因为 s s ,所以乙的各门功课发展较
12、平衡2甲 2乙回归直线的方程分析两个变量的相关关系时,可根据样本数据散点图确定两个变量之间是否存在相关关系,还可利用最小二乘法求出回归方程从散点图上,我们可以分析出两个变量是否存在相关关系如果这些点大致分布在通过散点图中心的一条直线附近,那么就说这两个变量之间具有线性相关关系,这条直线叫做回归直线,直线的方程叫做回归方程求回归方程的步骤:(1)先把数据制成表,从表中计算出 i, i, , iyi;ni 1xni 1yni 1x2ini 1x(2)计算回归系数 ,;a b (3)写出回归方程 x .y b a 下表数据是退水温度 x() 对黄酮延长性 y(%)效应的试验结果,y 是以延长性计算的
13、,且对于给定的 x,y 为正态变量,其方差与 x 无关x() 300 400 500 600 700 800y(%) 40 50 55 60 67 70(1)画出散点图;(2)指出 x,y 是否线性相关;(3)若线性相关,求 y 关于 x 的回归方程;(4)估计退水温度是 1 000 时,黄酮延长性的情况【精彩点拨】 先画出散点图,确定 y 与 x 之间是否线性相关,再根据求回归直线方程的步骤求出回归直线方程,最后根据回归方程确定黄酮延长性的情况【规范解答】 (1)散点图如图:(2)由散点图可以看出样本点分布在一条直线的附近,可见 y 与 x 线性相关(3)列出下表并用科学计算器进行有关计算.
14、i 1 2 3 4 5 6xi 300 400 500 600 700 800yi 40 50 55 60 67 70xiyi 12 000 20 000 27 500 36 000 46 900 56 000x2i90 000 160 000 250 000 360 000 490 000 640 000550, 57,x yx 1 990 000, xiyi198 400 6 i 12i 6 i 1于是可得 0.058 86,b 6 i 1xiyi 6x y 6 i 1x2i 6x 2 198 400 6550571 990 000 65502 570.058 86 55024.627.a
15、 y b x因此所求的回归直线的方程为:0.058 86x24.627.y (4)将 x1 000 代入回归方程得0.058 861 00024.62783.487,y 即退水温度是 1 000 时,黄酮延长性大约是 83.487%.再练一题4有人收集了春节期间平均气温 x 与某取暖商品销售额 y 的有关数据如下表:平均气温() 2 3 5 6销售额(万元) 20 23 27 30根据以上数据,用线性回归的方法,求得销售额 y 与平均气温 x 之间的线性回归方程 x 的系数 2.4,则预测平均气温为8时该商品的销售y b a b 额为( )A34.6 万元 B35.6 万元C36.6 万元 D
16、37.6 万元【解析】 4,x 2 3 5 64 25,y20 23 27 304所以 25(2.4) (4) a.所以 15.4.a 所以回归直线方程为 2.4x15.4.y 当 x8 时, y34.6,即预测平均气温为 8时,该商品的销售额为 34.6万元故选 A.【答案】 A数形结合思想数形结合思想在本章中的重要应用是通过频率分布的态势对总体进行估计及根据散点图确定两个变量是否具有相关关系,并做出判断统计图表(频率分布直方图、茎叶图)与数字特征(平均数、中位数、方差)是高考的重点和热点内容,几乎每年必考,通常以茎叶图和频率分布直方图为载体,考查平均数、中位数、方差等的计算,高考对变量间的
17、相关性的考查呈逐年上升的趋势,主要考查借助散点图直观地分析两个变量间的相关关系,知道回归直线经过样本中心,会求回归方程,并能利用方程对有关变量作出估计为了调查甲、乙两个网站受欢迎的程度,随机选取了 14 天,统计上午 8:0010:00 间各自的点击量,得如图 23 所示的茎叶图,根据茎叶图求:(1)甲、乙两个网站点击量的极差分别是多少?(2)甲网站点击量在10,40间的频率是多少?(3)观察茎叶图,估计甲、乙两个网站哪个更受欢迎,并说明理由图 23【精彩点拨】 茎叶图的比较可以观察茎叶图中反映的信息,通过极差可以粗略判断分散集中程度【规范解答】 (1)根据茎叶图,得甲网站的点击量的最大值是
18、73,最小值是 8,乙网站的点击量的最大值是 71,最小值是 5,则甲网站的极差为73865,乙网站的极差为 71566.(2)观察茎叶图,得甲网站点击量在10,40间的有 20,24,25,38,共 4 个,所以甲网站点击量在10,40 间的频率为 .414 27(3)观察茎叶图,得甲网站的点击量集中在茎叶图的下方,而乙网站的点击量集中在茎叶图的上方,从数据的分布情况来看,甲网站更受欢迎再练一题5.从甲、乙两个城市分别随机抽取 16 台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图 24 所示)设甲、乙两组数据的平均数分别为 甲 、x乙 ,中位数分别为 m 甲 、 m 乙 ,则下列关系中正确的是 _(填序号)x 甲 m 乙 ; 甲 乙 ,m 甲 m 乙 ; 甲 乙 ,m 甲 m 乙x x x x