1、1第二章 统计1 教你学习系统抽样在三种随机抽样中,系统抽样是较为重要的一种当总体中的个体数较多时,可将总体分成均衡的几个部分,然后按预先定出的规则,从每一部分抽取一个个体,得到需要的样本,这种抽样方法叫做系统抽样,又称等距抽样在抽样调查中,由于系统抽样简便易行,所以应用普遍下面举例说明系统抽样的常见题型一、系统抽样的选取问题例 1 某商场想通过检查部分发票及销售记录来快速估计每月的销售金额,采用如下方法:从某本发票的存根中随机抽一张,如 15 号,然后按顺序将 65 号,115 号,165 号发票上的销售金额组成一个调查样本这种抽取样本的方法是( )A抽签法 B随机数表法C系统抽样 D分层抽
2、样分析 上述抽样方法是将发票平均分成若干组,每组 50 张,从第一组抽出了 15 号,以后各组抽 1550 n(nN )号,符合系统抽样的特点答案 C点 评 将 总 体 分 成 均 衡 的 几 部 分 , 按 照 预 先 定 出 的 规 则 在 各 部 分 中 抽 取 是 系 统 抽 样 的 常 用 步骤 二、间隔问题例 2 为了解 1200 名学生对学校某项教改试验的意见,打算从中抽取一个容量为 30 的样本,考虑采用系统抽样,则分段的间隔 k 为_分析 要抽取 n 个个体入样,需将 N 个编号均分成 n 组(1)若 为整数,则抽样间隔为 ;Nn Nn(2)若 不是整数,则先剔除多余个体,再
3、均分成 n 组,此时抽样间隔为 .Nn Nn解析 根据样本容量为 30,将 1200 名学生分为 30 段,每段人数即间隔 k 为 40.120030答案 40点评 将总体号码平均分组时,应先考虑总体容量 N 是否能被样本容量 n 整除2三、抽取的个数问题例 3 为了了解参加一次知识竞赛的 1252 名学生的成绩,决定采用系统抽样的方法抽取一个容量为 50 的样本,那么总体中应随机剔除的个体数目是( )A2B4C5D6分析 因为 125250252,所以应随机剔除 2 个个体答案 A点评 (1)用系统抽样法抽取多少个个体就需将总体均分成多少组;(2)需要剔除个体时,原则上要剔除的个体数尽量少四
4、、综合问题例 4 一个总体中的 1000 个个体编号为 0,1,2,999,并依次将其分为 10 个小组,组号为 0,1,2,9.要用系统抽样法抽取一个容量为 10 的样本,规定如果在第 0 组随机抽取的号码为 x,那么依次错位地得到后面各组的号码(即在第 k 组中抽取的号码的后两位数为 x33 k 的后两位数)(1)当 x24 时,写出所抽取样本的 10 个号码;(2)若所抽取的 10 个号码中某个数的后两位数是 87,求 x 的取值范围分析 按系统抽样的规则计算求解解 (1)所分组为 099,100199,900999 共 10 组,从每组中抽一个,第 0 组取24,则第 1 组取 100
5、(24331)157,依次错位地从每组中取出,所取的号码为24,157,290,323,456,589,622,755,888,921.(2)由 x33087,得 x87,由 x33187,得 x54,由 x332187,得 x88,依次可求 x 值,可以求得 x 的值分别为:21,22,23,54,55,56,88,89,90.综上: x21,22,23,54,55,56,87,88,89,90点评 本题是系统抽样法的逆向综合问题,体现了知识间的联系和数学思想的运用.2 例析分层抽样的解题方法若总体由差异明显的几部分组成,抽样时,先将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取
6、一定数量的个体,再将各层取出的个体合在一起作为样本这种抽样方法就是分层抽样一、应用分层抽样应遵循以下要求:(1)将相似的个体归入一类,即为一层,分层抽样中分多少层、如何分层要视具体情况而定,3总的原则是,层内样本的差异要小,面层之间的样本差异要大,且互不重叠即遵循不重复、不遗漏的原则(2)分层抽样为保证每个个体等可能入样,需遵循在各层中进行简单随机抽样,每层样本数量与每层个体数量的比与样本容量与总体个体数的比相等即所有层应采用同一抽样比等可能抽样(3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样二、一般地,分层抽样的操作步骤是:第一步,计算样本容量与总体的个体数之比第二步,将总体分
7、成互不交叉的层,按比例确定各层要抽取的个体数第三步,用简单随机抽样或系统抽样在各层中抽取相应数量的个体第四步,将各层抽取的个体合在一起,就得到所取样本样本容量与总体的个体数之比是分层抽样的比例常数,按这个比例可以确定各层应抽取的个体数,如果各层应抽取的个体数不都是整数应当调节样本容量,剔除个体三、分层抽样的优点是:使样本具有较强的代表性,并且抽样过程中可综合选用各种抽样方法,因此分层抽样是一种实用、操作性强、应用比较广泛的抽样方法下面举例解析分层抽样的方法例 1 某单位 200 名职工的年龄分布情况如图,现要从中抽取 40 名职工作样本,用系统抽样法,将全体职工随机按 1200 编号,并按编号
8、顺序平均分为 40 组(15 号,610 号,196200 号)若第 5 组抽出的号码为 22,则第 8 组抽出的号码应是_若用分层抽样方法,则 40 岁以下年龄段应抽取_人解析 由分组可知,抽号的间隔为 5,又因为第 5 组抽出的号码为 22,所以第 6 组抽出的号码为 27,第 7 组抽出的号码为 32,第 8 组抽出的号码为 37.40 岁以下年龄段的职工数为 2000.5100,则应抽取的人数为 10020.40200答案 37 20点评 简单随机抽样是基础,系统抽样与分层抽样是补充和发展,三者相辅相成,对立统一保证每个个体等可能入样是简单随机抽样、系统抽样、分层抽样共同的特征,为了保
9、证这一点,分层时用同一抽样比是必不可少的例 2 某单位共有老、中、青职工 430 人,其中青年职工 160 人,中年职工人数是老年职工人数的 2 倍为了解职工身体状况,现采用分层抽样方法进行调查,在抽取的样本中有青年职工 32 人,则该样本中的老年职工人数为( )4A9 B18 C27 D36解析 设老年职工人数为 x,则 2x x160430,所以 x90,因此,该单位老年职工共有 90 人,老年职工人数为 90 18,所以用分层抽样的比例应抽取该样本中的老年职工人数为3216018.答案 B点评 分层抽样要正确计算各层在总体中所占的比例,每层采用简单随机抽样法分层抽样利用了调查者对调查对象
10、事先掌握的各种信息,考虑了保持样本结构与总体结构的一致性,从而使样本更具代表性,在实际调查中被广泛应用.3 辨析三种抽样方法的合理选取一、简单随机宜少量例 1 据报道,2009 年 7 月 22 日的“日全食”较为理想的观测地点有上海、重庆、苏州、杭州、合肥、武汉、宜昌、成都、乐山、嘉兴这 10 个城市某天文小组从这 10 个城市中随机抽取 4 个城市进行观测,宜采用的抽样方法是_,每个城市被选中的可能性是_解析 由于总体中个体数目较少,所以宜采用简单随机抽样的方法进行抽样每个城市被选中的可能性均相等,均为 0.4.410答案 简单随机抽样 0.4点评 本题中个体总数较少,使用简单随机抽样中的
11、抽签法即可可以直接把 10 个城市名分别写在 10 个大小相同的纸条上,将纸条放在一个盒子里摇匀,随机抽出 4 个即可在整个抽样过程中可以保证每个个体被抽到的可能性相等,也可以进一步计算出相应的值二、差别明显选分层例 2 网络上有一种“QQ 农场”游戏,这种游戏通过虚拟软件模拟种植与收获的过程为了解某小区不同年龄层次的居民对此游戏的态度(小区中居民的年龄具有一定的差别),现从中抽取 100 人进行调查,结果如下表:对游戏的态度 喜欢 不喜欢 不了解人数 35 35 30请问随机抽取这 100 人较合理的抽样方法是_,调查结果得出后,若想从这 100 人中再选取 20 人进行座谈,较合理的抽样方
12、法是_若这个小区共有 2000 人,则每个人被抽到参加座谈的可能性为_5解析 因为小区居民的年龄存在明显差异,故抽取这 100 人宜采用分层抽样根据调查结果,有三种明显不同的态度,因此,选取 20 人参加座谈,也宜采用分层抽样在整个抽样过程中,每个人被抽到的可能性是相同的,均为 0.01.202000答案 分层抽样 分层抽样 0.01点评 分层抽样的过程是先把有差别的个体进行分层,在每一层中可以采用简单随机抽样或系统抽样的方法,这样也能保证每个个体被抽到的可能性相同三、大量抽取选系统例 3 春节来临之际,某超市进行促销活动,为购买商品顾客分发了编号为 00009999 的奖券,超市计划从中抽取
13、100 张作为中奖号码,较合理的抽样方法是_,每张奖券中奖的可能性为_解析 由于奖券数量较大,有 10000 张奖券,所以宜采用系统抽样方法进行抽取在抽样过程中,每张奖券被抽到的可能性是相等的,均为 0.01.10010000答案 系统抽样 0.01点评 当总体中个体数目较多时,首先把个体编号,进行平均分组(若不能整除,则随机剔除多余的个体),然后采用简单随机抽样的方法从第一组中抽取一个个体,即可知道应抽取的其他编号的个体.4 解读用样本估计总体一、用样本的频率分布估计总体分布1频率分布表:反映具体数据落在各个区间的频率,但不够直观、形象,不利于分析数据分布的总体态势2频率分布直方图:能够非常
14、直观地表明数据分布的形状,很好地反映数据的变化趋势,适用于样本数据较多的情况,但是从直方图本身得不到具体的数据内容3频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就可以得到相应的频率分布折线图其优点是能够清晰地反映数据的变化趋势如果样本容量不断增加,分组的组距不断减小,那么折线图便会趋近于总体密度曲线总体密度曲线精确地反映了总体在各个范围内取值的百分比4茎叶图:适用于样本中的数据较少的情况其优点是(1)没有原始数据的丢失,所有信息均可以从茎叶图中得到,并能展示数据的分布情况;(2)便于记录和表示缺点是当样本数据较多或数据位数较多时,就会显得不太方便因为每一个数据都要在图中占据一定的
15、空间,如果数据很多,枝叶就会很长6二、用样本的数字特征估计总体的数字特征1众数:若一组数据中有一个或几个数据出现得最多,且出现的次数一样,那么这些数据都是这组数据的众数,因此一组数据的众数可能不止一个若一组数据中,每个数据出现的次数一样多,则认为这组数据没有众数2中位数:将一组数据按大小顺序依次排列,处在最中间位置的一个数据(或中间两个数据的平均数)是该组数据的中位数3平均数:与样本中的每一个数据都有关系,反映了更多关于数据总体的信息,比较可靠但受极端值的影响较大4极差:就是一组数据中最大数与最小数的差5方差:用来刻画样本数据的波动情况,充分利用了所有的数据,但与原始数据的单位不一致方差具有非
16、负性6标准差:方差的算术平方根,与原数据的单位一致,且标准差也具有非负性三、数字特征在频率分布直方图中的体现在频率分布直方图中,最高的小矩形的底边中点的横坐标即为样本数据的众数的估计值,中位数左边和右边的小矩形的面积和相等(注:这样求出的中位数是近似值);平均数的估计值等于频率分布直方图中每个小矩形的面积与其底边中点的横坐标的乘积之和四、特别提示1两类估计都具有随机性,得出的结论不一定是总体的真正的分布、均值或方差样本质量的高低也是影响正确估计的重要因素2应用茎叶图进行统计时,注意重复出现的数据要重复记录,不能遗漏3样本水平的高低由其平均数决定,样本数据的稳定性与方差和标准差有关在平均数相差不
17、大的情况下,可以进一步借助方差或标准差来比较优劣4方差越小,说明数据越稳定,但并不是方差越小越好.5 “三数、三差”话应用从样本数据中可以提取基本的数字特征,即“三数”(众数、中位数、平均数)与“三差”(极差、方差、标准差),并对它们进行分析,从而估计总体相应的数字特征,这在日常生活中有着广泛的应用一、借“三数”看集中趋势例 1 某公司的各层人员及工资数构成如下:人员:经理 1 人,周工资 3700 元;高层管理人员 6 人,周工资均为 1200 元;高级技工 5人,周工资均为 700 元;工人 10 人,周工资均为 600 元;学徒 1 人,周工资为 300 元(1)计算该公司员工周工资的众
18、数、中位数、平均数;7(2)这个问题中,平均数能客观地反映这个公司的工资水平吗?解 (1)众数为 600,中位数为 700,平均数为900.37001 12006 7005 60010 30011 6 5 10 1(2)虽然平均数为 900,但由给出的数据可见,只有经理和高层管理人员的周工资在平均数以上,其余的都在平均数以下,故用平均数不能客观地反映该公司的工资水平评注 众数、中位数、平均数都是反映数据的集中趋势的量其中,平均数受数据中的极端值的影响较大,这时平均数对总体估计的可靠性反而不如众数和中位数二、用“三差”判分散程度例 2 为了教学的需要,王老师经常在网站 A 和网站 B 上下载资料
19、某天中午,王老师分别在两个网站上下载了五份资料,其下载的速率(单位:KB/s)如下:网站 A:486 284 71 70 369网站 B:70 328 244 85 478(1)试分别计算从这两个网站上下载资料的速率的极差、方差和标准差;(2)你觉得从哪个网站上下载资料更快?哪个下载速率更稳定?请说明理由解 (1)对于网站 A 来说,下载速率最高为 486,最低为 70,极差为 48670416;平均下载速率为 1 (4862847170369)256;x15方差为 s (486256) 2(284256) 2(71256) 2(70256) 2(369256) 2211527054.8;标准
20、差为 s1 164.5.s21 27054.8同理可求得从网站 B 上下载资料的速率的极差为 408,平均下载速率为 2241,方差为 sx23464.8,标准差为 s2153.2.2(2)从(1)可以看出,从网站 A 上下载资料的平均速率要比网站 B 快从极差来看,网站 A下载速率变化范围更大;另外,从网站 A 上下载资料的速率的方差(或标准差)也大于网站B,这说明网站 A 的下载速率的波动性更大,更不稳定因此网站 B 下载的速率更稳定评注 极差、方差、标准差都是刻画数据分散程度的量极差反映一组数据的变化范围,极差大,则数据较分散,但它只考虑了两个极端值,所以很多时候,极差只能作为数据的分散
21、程度的估计量,可靠性较差判断数据的波动情况通常采用标准差(或方差),标准差(或方差)越小,波动越小,则越稳定.6 “变量间的相关关系”考点分析考点 1 判断两个变量是否具有相关关系8两个变量之间的关系中,函数关系是一种确定性关系如正方形的面积 S 与边长 x 之间的关系两个变量之间的关系还有另外一种情况:相关关系自变量取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系;或两个变量都是随机的,也称它们之间的关系为相关关系例 1 下列关系中带有随机性相关关系的是_正方形的边长与面积之间的关系;水稻产量与施肥之间的关系;作文水平与课外阅读量之间的关系;降雪量与交通事故的发生率之间的关系;人
22、的年龄与他(她)拥有的财富之间的关系解析 两变量之间的关系有两种:函数关系与带有随机性的相关关系正方形的边长与面积之间的关系是函数关系水稻产量与施肥之间不是严格的函数关系,但是具有相关性因而是相关关系 作 文 水 平 与 课 外 阅 读 量 之 间 的 关 系 不 是 严 格 的 函 数 关 系 , 但 是 具 有 相 关 性 , 因 而 是 相 关 关系 降雪量与交通事故的发生率之间具有相关关系一般来说,人随着年龄的增长,社会经验、处事能力等都相应地丰富,拥有的财富也就容易增多,故人的年龄与他(她)拥有的财富之间的关系是相关关系答案 考点 2 利用散点图判断两个变量间的相关性判断两个变量之间
23、有没有相关关系,一种常用的简便可行的方法是绘制散点图散点图是由数据点分布构成的,它形象地体现了各对数据的密切程度,是分析研究两个变量相关关系的重要手段各数据对应点若呈上升趋势,则称为正相关反之,若呈下降趋势,称为负相关例 2 某品牌服装的广告费支出 x 与销售额 y(单位:万元)之间有如下的对应数据:广告费 x(万元 ) 2 4 6 8 10销售额 y(万元 ) 64 138 205 285 360试画出散点图,并判断广告费 x 与销售额 y 是否线性相关?分析 可以广告费为横轴、以销售额为纵轴画出散点图,手工绘图时,所取单位要均匀,描点要准确判断两个变量之间是否具有线性相关关系,只需看各数据
24、点是否都在一条直线附近,若是则说明线性相关,否则非线性相关解 散点图如下:9观察散点图,可以发现 5 个样本点都落在一条直线附近,所以变量 x, y 属于线性相关关系考点 3 线性回归分析与最小二乘法的思想研究具有相关关系的两个变量,就是寻找具有相关关系的两个变量中非确定性关系的某种确定性,该分析过程称为回归分析,其思想是把相关关系(即不确定性关系)转化为确定性的函数关系回归分析是处理变量相关关系的一种数学方法它主要解决三个问题:(1)确定特别变量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出回归直线方程例 3
25、 下列说法中错误的是( )A如果变量 与 之间具有线性相关关系,则我们根据试验数据得到的点( xi, yi)(i1,2, n)将散布在某一条直线附近B如果变量 与 之间不具有线性相关关系,那么根据一组数据( xi, yi)(i1,2, n)不能写出一个线性方程C设 x, y 是具有相关关系的两个变量,且 x 关于 y 的回归直线方程为 x , 叫做回y b a b 归系数D在平面直角坐标系中用描点的方法得到表示具有相关关系的两个变量的一组数据的图形叫做散点图解析 根据线性回归分析的思想方法,可知具有线性相关关系的两个变量对应的点应在一条直线附近,大致满足该直线的方程,所以 A,C 正确;D 项符合散点图的定义,正确事实上只要有一组数据就可写出一个方程,故 B 不正确答案 B10