1、12.3 统 计知识梳理1.抽样当总体中的个体较少时,一般可用简单随机抽样;当总体中的个体较多时,一般可用系统抽样;当总体由差异明显的几部分组成时,一般可用分层抽样,而简单随机抽样作为一种最简单的抽样方法,又在其中处于一种非常重要的地位.实施简单随机抽样,主要有两种方法:抽签法和随机数表法.系统抽样适用于总体中的个体数较多的情况,因为这时采用简单随机抽样就显得不方便,系统抽样与简单随机抽样之间存在着密切联系,即在将总体中的个体均匀分后的每一段进行抽样时,采用的是简单随机抽样;与简单随机抽样一样,系统抽样也属于等概率抽样.分层抽样在内容上与系统抽样是平行的,在每一层进行抽样时,采用简单随机抽样或
2、系统抽样,分层抽样也是等概率抽样.2.样本与总体用样本估计总体是研究统计问题的一种思想方法.当总体中的个体取不同数值很少时,其频率分布表由所取样本的不同数值及其相应的频率来表示,其几何表示就是相应的条形图,当总体中的个体取不同值较多,甚至无限时,其频率分布的研究要用到初中学过的整理样本数据的知识.用样本估计总体,除在整体上用样本的频率分布去估计总体的分布以外,还可以从特征数上进行估计,即用样本的平均数去估计总体的平均数,用关于样本的方差(标准差)去估计总体的方差(标准差).3.正态分布正态分布在实际生产、生活中有着广泛的应用,很多变量,如测量的误差、产品的尺寸等服从或近似服从正态分布,利用正态
3、分布的有关性质可以对产品进行假设检验.4.线性回归直线设 x、y 是具有相关关系的两个变量,且相应于 n 组观察值的 n 个点大致分布在一条直线的附近,我们把整体上这 n 个点最接近的一条直线叫线性回归直线.特别提示在三种抽样中,简单随机抽样是最简单、最基本的抽样方法,其他两种抽样方法是建立在它的基础上的.三种抽样方法的共同点是:它们都是等概率抽样,体现了抽样的公平性.三种抽样方法各有其特点和适用范围,在抽样实践中要根据具体情况选用相应的抽样方法.点击双基1.一个总体中共有 10 个个体,用简单随机抽样的方法从中抽取一容量为 3 的样本,则某特定个体入样的概率是A. B. C. D. 310C
4、8910310310解析:简单随机抽样中每一个体的入样概率为 .Nn答案:C2.(2004 年江苏,6)某校为了了解学生的课外阅读情况,随机调查了 50 名学生,得到他们在某一天各自课外阅读所用时间的数据,结果用下面的条形图表示.根据条形图可得这 50 名学生这一天平均每人的课外阅读时间为2015105人 数 (人 )时 间 (h)0 0.51.01.5A.0.6 h B.0.9 h C.1.0 h D.1.5 h解析:一天平均每人的课外阅读时间应为一天的总阅读时间与学生数的比,即=0.9 h.50.2.1.2.05答案:B3.一个年级有 12 个班,每个班有 50 名同学,随机编号为 150
5、 号,为了了解他们在课外的兴趣爱好,要求每班的 33 号学生留下来参加阅卷调查,这里运用的抽样方法是A.分层抽样法 B.抽签法C.随机数表法 D.系统抽样法答案:D4.如果随机变量 N( , 2) ,且 E =3,D =1,则 P(1 1)等于A.2 (1)1 B. (4) (2)C. (2) (4) D. (4) (2)解 析 : 对 正 态 分 布 , =E =3, 2=D =1, 故 P( 1 1) = ( 1 3) ( 1 3) = (2) (4)= (4) ( 2).答案:B5.为考虑广告费用 x 与销售额 y 之间的关系,抽取了 5 家餐厅,得到如下数据:广告费用(千元) 1.0
6、4.0 6.0 10.0 14.0销售额(千元) 19.0 44.0 40.0 52.0 53.0现要使销售额达到 6 万元,则需广告费用为_.(保留两位有效数字)解析:先求出回归方程 =bx+a,令 =6,得 x=1.5 万元.yy答案:1.5 万元典例剖析【例 1】 某批零件共 160 个,其中,一级品 48 个,二级品 64 个,三级品 32 个,等外品 16 个.从中抽取一个容量为 20 的样本.请说明分别用简单随机抽样、系统抽样和分层抽样法抽取时总体中的每个个体被取到的概率均相同.剖析:要说明每个个体被取到的概率相同,只需计算出用三种抽样方法抽取个体时,每个个体被取到的概率.解:(1
7、)简单随机抽样法:可采取抽签法,将 160 个零件按 1160 编号,相应地制作 1160 号的 160 个签,从中随机抽 20 个.显然每个个体被抽到的概率为 = .60281(2)系统抽样法:将 160 个零件从 1 至 160 编上号,按编号顺序分成 20 组,每组 8个.然后在第 1 组用抽签法随机抽取一个号码,如它是第 k 号(1k8) ,则在其余组中分别抽取第 k+8n(n=1,2,3,19)号,此时每个个体被抽到的概率为 .81(3)分层抽样法:按比例 = ,分别在一级品、二级品、三级品、等外品中抽取1602848 =6 个, 64 =8 个, 32 =4 个,16 =2 个,每
8、个个体被抽到的概率分别为8181, , , ,即都是 .463216综上可知,无论采取哪种抽样,总体的每个个体被抽到的概率都是 .81评述:三种抽样方法的共同点就是每个个体被抽到的概率相同,这样样本的抽取体现了公平性和客观性.思考讨论现有 20 张奖券,已知只有一张能获奖,甲从中任摸一张,中奖的概率为 ,刮开一201看没中奖.乙再从余下 19 张中任摸一张,中奖概率为 ,这样说甲、乙中奖的概率不一样,19是否正确?【例 2】 将温度调节器放置在贮存着某种液体的容器内,调节器设定在 d ,液体的温度 (单位:)是一个随机变量,且 N(d,0.5 2).(1)若 d=90,求 0 时,f (x)为
9、减函数.深化拓展在实际生活中,常用统计中假设检验的思想检验产品是否合格,方法是:(1)提出统计假设:某种指标服从正态分布 N( , 2) ;(2)确定一次试验中的取值 a;(2)作出统计推断:若 a( 3 , +3 ) ,则接受假设,若 a ( 3 , +3 ) ,则拒绝假设.如: 某 砖 瓦 厂 生 产 的 砖 的 “抗 断 强 度 ” 服 从 正 态 分 布 N( 30, 0.8) , 质 检 人 员 从 该 厂某 一 天 生 产 的 1000 块 砖 中随机抽查一块,测得它的抗断强度为 27.5 kg/cm2,你认为该厂这天生产的这批砖是否合格?为什么?分析:由于在一次试验中 落在区间(
10、 3 , +3 )内的概率为 0.997,故 几乎必然落在上述区间内.于是把 =30, =0.8 代入,算出区间( 3 , +3 )=( 27.6,32.4) ,而 27.5 (27.6,32.4).据此认为这批砖不合格.【例 3】 已知测量误差 N(2,100) (cm) ,必须进行多少次测量,才能使至少有一次测量误差的绝对值不超过 8 cm 的频率大于 0.9?解:设 表示 n 次测量中绝对误差不超过 8 cm 的次数,则 B(n,p).其中 P=P(| |0.9,n 应满足 P( 1)=1P( =0)=1(1p)n0.9,n = =2.75.)567.0lg(94329.lg因 此 ,
11、至 少 要 进 行 3 次 测 量 , 才 能 使 至 少 有 一 次 误 差 的 绝 对 值 不 超 过 8 cm 的 概 率 大 于 0.9.闯关训练夯实基础1.对总数为 N 的一批零件抽取一个容量为 30 的样本,若每个零件被抽取的概率为0.25,则 N 等于A.150 B.200 C.120 D.100解析: =0.25,N =120.30答案:C2.设随机变量 N( , ) ,且 P( C )=P( C) ,则 C 等于A.0 B. C. D.解析:由正态曲线的图象关于直线 x= 对称可得答案为 D.答案:D3.(2003 年全国,14)某公司生产三种型号的轿车,产量分别为 1200
12、 辆、6000 辆和2000 辆,为检验该公司的产品质量,现用分层抽样的方法抽取 46 辆进行检验,这三种型号的轿车依次应抽取_辆、_辆、_辆.解析:因总轿车数为 9200 辆,而抽取 46 辆进行检验,抽样比例为 = ,而三920461种型号的轿车有显著区别.根据分层抽样分为三层按 比例分别有 6 辆、30 辆、10 辆.201答案:6 30 104.某厂生产的零件外直径 N(8.0,1.5 2) (mm) ,今从该厂上、下午生产的零件中各随机取出一个,测得其外直径分别为 7.9 mm 和 7.5 mm,则可认为A.上、下午生产情况均为正常 B.上、下午生产情况均为异常C.上午生产情况正常,
13、下午生产情况异常 D.上午生产情况异常,下午生产情况正常解 析 : 根 据 3 原 则 , 在 8+31.5=8.45( mm) 与 8 31.5=7.55( mm) 之 外 时 为 异 常 .答案:C5.随机变量 服从正态分布 N(0,1) ,如果 P( 5)=1P(x5)=1F(5)=1 ( )=1 ( 1)=1 1 (1)= ( 1)=0.8413.35对第二个方案,有 xN(6,2 2) ,于是 P(x5)=1P(x5)=1F(5)=1 ()=1 (0.5)= (0.5)=0.6915.26相比之下, “利润超过 5 万元”的概率以第一个方案为好,可选第一个方案.探究创新8.一个容量为
14、 100 的样本,数据的分组和各组的一些相关信息如下:分 组 频 数 频 率 累积频率 12,15) 6 15,18) 0.08 18,21) 0.30 21,24) 21 24,27) 0.69 27,30) 1630,33 0.10 33,36) 1.00合 计 100 1.00(1)完成上表;(2)画出频率分布直方图和累积频率分布图;(3)根据累积频率分布图,总体中小于 22 的样本数据大约占多大的百分比?解:(1)分 组 频 数 频 率 累积频率 12,15) 6 0.06 0.06 15,18) 8 0.08 0.14 18,21) 16 0.16 0.30 21,24) 21 0.
15、21 0.51 24,27) 18 0.18 0.69 27,30) 16 0.16 0.85 30,33) 10 0.10 0.95 33,36) 5 0.05 1.00合 计 100 1.00(2)频率分布直方图及累积频率分布图如下:数 据频 率组 距10 20 30 4015 25 3510 20 3035404515 251.00.80.60.40.2累 积 频 率数 据(3)在这个累积频率分布图上,横坐标为 22,落在 2124 的区间内,折线图在这段区间上的线段所在的直线方程是 y0.3= (x21) ,2143.05即 y=0.07x1.17.当 x=22 时,y=1.540.1
16、7=0.37.因此,总体中小于 22 的数据大约占 37%.思悟小结1.抽样三种方法比较类 别 共同点 相互联系 适用范围 各自特点简单随机抽样 总体中的个数较少 从总体中逐个抽取系统抽样 在起始部分抽样时采用简单随机抽样 总体中的个数较多 将总体均分成几部分,按事先确定的规则在各部分抽取分层抽样抽样过程中每个个体被抽到的概率相等每层抽样时采用简单随机抽样或系统抽样总体由差异明显的几部分组成将总体分成几层,分层进行抽取2.总体分布估计的两种情况比较以上两种情况的不同之处在于前者的频率分布表中列出的是几个不同数值的频率,相应的条形图是用其高度来取各个值的频率的;后者的频率分布表中列出的是在各个不
17、同区间内取值的频率,相应的直方图是用图形面积的大小来表示在各个区间内取值的频率.教师下载中心教学点睛简单随机抽样,有以下特点:(1)它要求被抽取样本的总体的个体数有限.这样,就便于对其中各个个体被抽取的概率进行分析.(2)它是从总体中逐个地进行抽取,这样,就便于在抽样实践中进行操作.(3)它是一种不放回抽样.由于抽样实践中多采用不放回抽样,使其具有较广泛的实用性,而且由于所抽取的样本中没有被重复抽取的个体,便于进行有关的分析和计算.(4)它是一种等概率抽样.不仅每次从总体中抽取一个个体时,各个个体被抽取的概率相等,而且在整个抽样过程当中,各个个体被抽取的概率相等,从而保证了这种抽样方法的公平性
18、.频率分布随着样本容量的增大更加接近总体分布,当样本容量无限增大且分组的组距无限缩小时,频率分布直方图就会演变成一条光滑曲线反映总体分布的频率密度曲线,基于频率分布与相应的总体分布的关系,且通常我们并不知道一个总体的分布,因此,我们往往是从总体中抽取一个样本,用样本的频率分布去估计相应的总体分布.统计中假设检验的基本思想是:根据小概率事件在一次试验中几乎不可能发生的原理和从总体中抽测的个体的数值,对事先所作的统计假设作出判断:是拒绝假设,还是接受假设.拓展例题【例题】 设有一样本 x1,x 2,x n,其标准差为 sx,另有一样本 y1,y 2,y n,其中 yi=3xi+2(i=1 ,2, n) ,其标准差为 sy,求证:s y=3sx.证明: = ,1 =yny2= xxn)23()3()(1 = =3 +2.n22s y2= (y 12+y22+yn2)n 2= (3x 1+2) 2+(3x 2+2) 2+(3x n+2) 2n(3 +2) 2n x= 9(x 12+x22+xn2)+12(x 1+x2+xn)+4nn(9 2+12 +4) = (x 12+x22+xn2)n 2n=9sx2.s x0,s y0,s y=3sx.