1、统计学案一随机抽样(一)总体、个体、样本把所考察对象的某一数值指标的全体构成的集合看成总体,构成总体的每一个元素为个体从总体中随机抽取若干个个体构成的集合叫做总体的一个样本(二)抽样方法1简单随机抽样(1)定义:设一个总体含有N个个体,从中不放回地抽取n个个体作为样本(nN),如果每次抽取时,总体内的各个个体被抽到的机会都相等,称这种抽样方法为简单随机抽样(2)简单随机抽样的特点如下:它要求被抽取样本的总体中个体数有限它是从总体中逐个地进行抽取它是一种不放回抽样它每一次抽取时,总体中的各个个体有相同的可能性被抽到(3)常用的简单随机抽样方法抽签法先将总体中的所有N个个体编号,并把号码写在形状、
2、大小相同的号签上,然后将这些号签放在同一个容器里,搅拌均匀抽签时,每次从中抽出1个号签,连续抽取n次,就得到一个容量为n的样本抽签法的优点是简单易行缺点是当总体的容量非常大时,费时、费力又不方便况且,如果号签搅拌得不均匀,可能导致抽样的不公平随机数表法a随机数表:随机数表是由0,1,2,9这10个数字组成的数表,并且表中的每一位置出现各个数字的可能性相同b用随机数表抽样的步骤:第一步:将总体中的个体编号为了保证抽取样本有很好的代表性,编号时位数要相同第二步:选定开始的数字为了保证所选定数字的随机性,应在面对随机数表之前就指出开始数字的纵横位置第三步:获取样本号码随机确定一个读数方向,读数的方向
3、可以向右,也可以向左、向上、向下等,重复的号码跳过2系统抽样(1)定义:当总体元素个数很大时,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体得到所需要的样本,这种抽样方法叫做系统抽样,也称作等距抽样(2)系统抽样的步骤:编号采用随机的方式将总体中的个体编号分段先确定分段的间隔k.当(N为总体中的个体数,n为样本容量)是整数时,k;当不是整数时,通过从总体中随机剔除一些个体使剩下的总体中个体总数N能被n整除,这时k.确定起始个体编号在第1段用简单随机抽样确定起始的个体编号S.按照事先确定的规则抽取样本通常是将S加上间隔k,得到第2个个体编号Sk,再将(Sk)加上k,得
4、到第3个个体编号S2k,这样继续下去,获得容量为n的样本其样本编号依次是:S,Sk,S2k,S(n1)k.3分层抽样(1)定义:当总体由有明显差别的几部分组成时,按某种特征在抽样时将总体中的各个个体分成互不交叉的层,然后按照各层在总体中所占的比例,从各层独立地抽取一定数量的个体合在一起作为样本,这种抽样的方法叫做分层抽样分层抽样使用的前提是总体可以分层,层与层之间有明显区别,而层内个体间差异较小,每层中所抽取的个体数可按各层个体数在总体中所占比例抽取分层抽样要求对总体的内容有一定的了解,明确分层的界限和数目,分层要恰当各层抽取时采用简单随机抽样或系统抽样(2)分层抽样的步骤分层;按比例确定每层
5、抽取个体的个数;各层抽样(方法可以不同);汇合成样本(3)分层抽样的优点分层抽样充分利用了己知信息,充分考虑了保持样本结构与总体结构的一致性使样本具有较好的代表性,而且在各层抽样时,可以根据具体情况采取不同的抽样方法,因此分层抽样在实践中有着非常广泛的应用6三种抽样方法的比较类别共同点各自特点相互联系适用范围简单随机抽样抽样过程中每个个体被抽取的机会均等从总体中逐个抽取总体中的个体数较少系统抽样将总体均匀分成几部分,按事先确定的规则在各部分抽取在起始部分抽样时采用简单随机抽样总体中的个体数较多分层抽样将总体分成几层,分层进行抽取各层抽样时采用简单随机抽样或系统抽样总体由差异明显的几部分组成练1
6、.(2010安徽文,14)某地有居民100 000户,其中普通家庭99 000户,高收入家庭1 000户从普遍家庭中以简单随机抽样方式抽取990户,从高收入家庭中以简单随机抽样方式抽取100户进行调查,发现共有120户家庭拥有3套或3套以上住房,其中普通家庭50户,高收入家庭70户依据这些数据并结合所掌握的统计知识,你认为该地拥有3套或3套以上住房的家庭所占比例的合理估计是_练2.将一个总体为100的个体编号为0,1,2,3,99,并依次将其分为10个小组,组号为0,1,,9,要用系统抽样的方法抽取一个容量为10的样本,规定如果在第0组(号码为09)随机抽取的号码为2,则所抽取的10个号码为
7、.练3.2010年高考湖北卷将参加夏令营的600名学生编号为:001,002,600.采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在第营区,从301到495在第营区,从496到600在第营区,三个营区被抽中的人数依次为 ( )A.26,16,8 B.25,17,8 C.25,16,9 D.24,17,9 练4.一个社会调查机构就某地居民的月收入调查了10000人,并根据所得数据画了样本的频率分布直方图(如下图),为了分析居民的收入与年龄、学历、职业等方面的关系,要从这10000人中再用分层抽样方法抽出100人作进一步调查,则
8、在(2500,3000)(元)月收入段应抽出的人数为()A25 B30 C35 D40二用样本估计总体1编制频率分布直方图的步骤如下:求极差:极差是一组数据的最大值与最小值的差决定组距和组数:当样本容量不超过100时,常分成512组组距.将数据分组:通常对组内数值所在区间取左闭右开区间,最后一组取闭区间,也可以将样本数据多取一位小数分组;列频率分布表:登记频数,计算频率,列出频率分布表将样本数据分成若干小组,每个小组内的样本个数称作频数,频数与样本容量的比值叫做这一小组的频率频率反映数据在每组所占比例的大小绘制频率分布直方图:把横轴分成若干段,每一段对应一个组距,然后以线段为底作一矩形,它的高
9、等于该组的,这样得出一系列的矩形,每个矩形的面积恰好是该组上的频率这些矩形就构成了频率分布直方图在频率分布直方图中,纵轴表示“频率/组距”,数据落在各小组内的频率用小矩形的面积表示,各小矩形的面积总和等于1.2频率分布折线图(1)把频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图(2)总体密度曲线如果样本容量不断增大,分组的组距不断缩小,则频率分布直方图实际上越来越接近于总体的分布,它可以用一条光滑曲线yf(x)来描绘,这条光滑的曲线就叫总体密度曲线3茎叶图:统计中还有一种被用来表示数据的图叫做茎叶图茎是指中间的一列数,叶是从茎的旁边生长出来的数在样本数据较少、较为集中,
10、且位数不多时,用茎叶图表示数据的效果较好,它较好的保留了原始数据信息,方便记录与表示,但当样本数据较多时,茎叶图就不太方便4平均数、中位数和众数(1)平均数:一组数据的总和除以数据的个数所得的商就是平均数(2)中位数:如果将一组数据按从小到大的顺序依次排列,当数据有奇数个时,处在最中间的一个数是这组数据的中位数;当数据有偶数个时,处在最中间两个数的平均数,是这组数据的中位数(3)众数:出现次数最多的数(若有两个或几个数据出现得最多,且出现的次数一样,这些数据都是这组数据的众数;若一组数据中,每个数据出现的次数一样多,则认为这组数据没有众数)(4)在频率分布直方图中,最高小长方形的中点所对应的数
11、据值即为这组数据的众数而在频率分布直方图上的中位数左右两侧的直方图面积应该相等,因而可以估计其近似值平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和5方差、标准差设样本数据为x1,x2,xn样本平均数为,则s2(x1)2(x2)2(xn)2(x12x22xn2)n2叫做这组数据的方差,用来衡量这组数据的波动大小,一组数据方差越大,说明这组数据波动越大 把样本方差的算术平方根叫做这组数据的样本标准差 数据的离散程度可以通过极差、方差或标准差来描述,其中极差反映了一组数据变化的最大幅度方差则反映一组数据围绕平均数波动的大小练5(2011青岛)一组数据20,30,40
12、,50,50,60,70,80的平均数、中位数、众数的大小关系是A平均数中位数众数 B平均数中位数众数C中位数众数r0.05,表明有95%的把握认为x与y之间具有线性相关关系;如果|r|r0.05,则没有理由拒绝原来的假设(二)独立性检验1.若变量的不同“值”表示个体所属的不同类别,则这些变量称为分类变量2.两个分类变量X与Y的频数表,称作22列联表.y1y2合计x1n11n12n1x2n21n22n2合计n1n2n在22列联表中,随机变量2,其中n为样本容量,2的取值范围可以判断“X与Y有关系”的可信度,如表,用它的大小可以决定是否拒绝原来的统计假设H0 如果算出的2值较大,就拒绝H0,也就
13、是拒绝“事件A与B无关”,从而就认为它们是有关的.3.两个临界值:3.841与6.635经过对2统计量分布的研究,已经得到了两个临界值:3.841与6.635 .当根据具体的数据算出的23.841 时,有95%的把握说事件A与B有关;当26.635 时,有99%的把握说事件A与B有关;当23.841 时,认为事件A与B是无关的.(其中频数n11、n12、n21、n22都不小于5)P(2k)0.500.400.250.150.100.050.0250.0100.0050.001k0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828练10.(201
14、1山东理,7)某产品的广告费用x与销售额y的统计数据如下表 广告费用x(万元)4235销售额y(万元)49263954根据上表可得回归方程x中的为9.4,据此模型预报广告费用为6万元时销售额大约为()A63.6万元 B65.5万元 C67.7万元 D72.0万元练11. (2011湖南理,4)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由K2算得, K27.8.附表:P(K2k)0.0500.0100.001k3.8416.63510.828参照附表,得到的正确结论是()A在犯错误的概率不超过0.1%的前提
15、下,认为“爱好该项运动与性别有关”B在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C有99%以上的把握认为“爱好该项运动与性别有关”D有99%以上的把握认为“爱好该项运动与性别无关”练12.(2011广东理,13)某数学老师身高176cm,他爷爷、父亲和儿子的身高分别是173cm、170cm和182cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为_cm.练13.(2011郑州二次质检)某中学对高二甲、乙两个同类班级进行“加强语文阅读理解训练对提高数学应用题得分率作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,
16、无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:60分以下6170分7180分8190分91100分甲班(人数)36111812乙班(人数)48131510现规定平均成绩在80分以上(不含80分)的为优秀(1)试分析估计两个班级的优秀率;(2)由以上统计数据填写下面22列联表,并问是否有75%的把握认为“加强语文阅读理解训练对提高数学应用题得分率”有帮助.优秀人数非优秀人数合计甲班乙班合计参考公式及数据:K2,P(K2k0)0.500.400.250.150.10k00.4550.7081.323
17、2.0722.706P(K2k0)0.050.0250.0100.0050.001k03.8415.0246.6357.87910.828练14.为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做实验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果(疱疹面积单位:mm2)表1:注射药物A后皮肤疱疹面积的频数分布表疱疹面积60,65)65,70)70,75)75,80)频数30402010表2:注射药物B后皮肤疱疹面积的频数分布表疱疹面积60,65)65,70)70,75)75,80)80,85
18、)频数1025203015(1) 完成下面频率分布直方图,并比较注射两种药物后疱疹面积的中位数大小; (2)完成下面22列联表,并回答能否有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.疱疹面积小于70mm2疱疹面积不小于70mm2合计注射药物Aab注射药物Bcd合计n附:2P(2k)0.1000.0500.0250.0100.001k2.7063.8415.0246.63510.828练15.(2011九江模拟)某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100颗
19、种子中的发芽数,得到如下资料:日期12月1日12月2日12月3日12月4日12月5日温差x()101113128发芽数y(颗)2325302616该农科所确定的研究方案是:先从这五组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验(1)求选取的2组数据恰好是不相邻2天数据的概率;(2)若选取的是12月1日与12月5日的两组数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程x;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?解析(1)设事件A表示“选取的2组数据恰好是不相邻2天的数据”,则表示“选取的数据恰好是相邻2天的数据”基本事件总数为10,事件包含的基本事件数为4.P(),P(A)1P().(2)12,27,iyi977,434,2.5,272.5123,2.5x3.(3)由(2)知:当x10时,y22,误差不超过2颗;当x8时,y17,误差不超过2颗故所求得的线性回归方程是可靠的14第 页