1、1,第八章 抽样调查,2,统计方法的分枝图,统计方法,描述统计,推断统计,假设检验,3,统计推断的过程,4,学习目标,1.理解抽样推断的概念及特点; 2.理解抽样误差产生的原因; 3.重点掌握简单随机抽样组织形式的区间估 计方法。,5,教学重点与难点,重点: 1.抽样调查的特点 2.抽样平均误差 3.抽样极限误差的计算及误差范围和置信区间 4.抽样单位数的确定方法 难点: 1.抽样平均误差 2.抽样极限误差的计算及误差范围和置信区间,6,第一节 抽样调查概述,一、抽样调查的概念与作用 (一)抽样调查的概念与特点1.抽样调查的概念,一般所讲的抽样调查,即指狭义的抽样调查(随机抽样):按照随机原则
2、抽取一部分单位进行观测,并根据这部分单位的资料推断总体数量特征的一种方法。,指样本单位的抽取不受主观因素及其他系统性因素的影响,每个总体单位都有均等的被抽中机会,7,2.抽样调查的特点一个要进行抽样调查的总体,能够被抽到的各个不同的样本所组成的集合,是能够加以确定的,每一次抽样相当于一个样本点,全部可能的样本组成样本空间。每个可能抽到的样本都被规定一个已知的被抽中概率,在抽样时要根据随机原则排除主观有意识的选择样本单位。以样本的数据从数量上推断全体,按照概率论的原理可以对调查结果的抽样误差在一定可靠性条件下作出推断。,8,(二)抽样调查的作用有些客观现象不能作全面调查,而又需要了解总体的情况,
3、这就只能抽取一部分进行调查。用于不可能进行全面调查而又需要了解全面情况的现象。用于不必要进行全面调查的现象。速度快。可以适当增加调查内容并提高调查的质量。,9,二、抽样调查的几个基本术语 (一)总体与样本 (二)全及指标和样本指标 (三)重复抽样和不重复抽样,10,第二节 抽样调查的基本概念及理论依据,一、全及总体和抽样总体(总体和样本),全及总体:所要调查观察的全部事物。总体单位数用N表示。,抽样总体:抽取出来调查观察的单位。抽样总体的单位数用n表示。n 30 大样本n 30 小样本,两者区别:全及总体是唯一确定的,抽样总体则不是唯一的,11,二、 全及指标和样本指标,全及指标:由全及总体各
4、个单位的标志值或标志特征计算的,反映总体某种属性的综合指标。(1)总体平均数(2)总体成数(3)总体标准差和总体方差,12,样本指标:抽样总体的统计指标。(1)样本平均数(2)样本成数(3)样本总体标准差和样本总体方差,13,三、重复抽样和不重复抽样,重复抽样:又称有放回抽样。,不重复抽样:又称不放回抽样。,14,五、抽样调查的组织形式简单随机抽样 分层抽样 等距抽样 整群抽样,15,方法,(一)简单随机抽样 设总体的大小为N,从中随机抽取容量为n的样本,每一个样本都有同样的机会被抽中,这种抽样的方法称为简单随机抽样,所抽到的样本为简单随机样本。,抽签法,随机数字法,16,(二)分层抽样分层抽
5、样又称为类型抽样或分类抽样,它是将总体单位先按一定标志分组,然后在各组中随机抽取样本的抽样组织方式。,方法,等比例抽样,不等比例抽样,等数分配类型抽样法,17,分层抽样样本均值的计算,各层的样本均值的计算公式,样本均值的计算公式,18,(三)等距抽样等距抽样又称为机械抽样或系统抽样。它是先将总体各单位按有关标志或无关标志进行排列,再按照固定的顺序和间隔来抽选样本单位的一种抽样组织形式。,分 类,按无关标志排队,按有关标志排队,19,(四)整群抽样整群抽样也称集团抽样、区域抽样或分群随机抽样,它是先将总体各单位划分成若干群,再以群为单位从中随机地抽取出若干群来,对被抽中群的所有单位进行调查的一种
6、抽样组织形式。整群抽样时群的划分要满足两个条件:一是群与群之间没有单位重叠;二是总体中每一个单位都必须属于某一个群,即要使总体单位无遗漏。,20,第二节 抽样误差,一、抽样误差的概念在统计调查中,调查资料与实际情况不一致,两者的偏离称为统计误差。抽样误差是指由于随机抽样的偶然因素使样本各单位的结构对总体各单位结构的代表性差别,而引起的抽样指标和全及指标之间的绝对离差。抽样误差即指随机误差,这种误差是抽样调查固有的误差,是无法避免的。,21,二、影响抽样误差的而主要因素 (一)目标总体变异程度正比关系 (二)样本容量反比关系 (三)抽样方式 (四)抽样组织形式,22,抽样误差的作用: (1)在于
7、说明样本指标的代表性大小。误差大,则样本指标代表性低;误差小,则样本指标代表性高;误差等于0,则样本指标和总体指标一样大。 (2)说明样本指标和总体指标相差的一般范围。,23,三、抽样平均误差抽样平均误差实际上是样本指标的标准差。通常用表示。在N中抽出n样本,从排列组合中可以有各种各样的样本组:(1)如果是重复抽样:,24,(2)如果是不重复抽样,25,例: 五户家庭3月份购买某商品的支出为:10元、20元、30元、40元、50元。 则: X30元 现从五户中抽取二户作调查,如果重复抽样(考虑顺序) 52 25(种) 排列组合如下:,26,27,所以,抽样误差是所有可能出现的样本指标的标准差。
8、它是由于抽样的随机性而产生的样本指标与总体指标之间的平均离差。(同学可以自己试试不重复抽样,看看能不能得到同样的结论),),(,10,25,2500,),(,),(,2,为样本配合总数,(元),抽样平均误差,n,n,X,x,x,=,=,-,=,m,s,28,1.抽样平均数的平均误差 (1)重复抽样,(1),29,取得的途径有以下几种: 1. 用过去全面调查或抽样调查的资料,若同时有n个的资料,应选用数值较大的那个; 2. 用样本标准差s代替全及标准差; 3. 在大规模调查前,先搞个小规模的试验性的调查来确定s,代替; 4. 用估计的方法。,30,例:某灯泡厂从一天所生产的产品10 000个中抽
9、取100个检查其寿命,得平均寿命为2 000小时(一般为重复抽样),根据以往资料:=20小时,,根据以往资料,产品质量不太稳定,若=200小时,,31,(2)不重复抽样,(2),),(,99,.,1,),10000,100,1,(,100,400,小时,样,则:,上例中,若为不重复抽,=,-,=,m,x,),1,(,2,N,n,n,n,N,x,-,s,=,m,很小,故改用下列公式,很大,,往往,但实际中,,因为,32,2.成数的抽样平均误差,0,1,1,2,2,1,1,变量为,不具有这种标志,变量为,具有某种标志,位数,是不具有这种标志的单,数,是具有某种标志的单位,p,N,N,p,N,N,N
10、,-,=,=,33,由此证明得:成数的方差为p(1-p),(3),(4),),1,(,),1,(,),1,(,N,n,n,p,p,n,p,p,-,-,=,m,-,=,m,p,p,在不重复抽样情况下:,所以,在重复抽样情况下:,34,例:某玻璃器皿厂某日生产15000只印花玻璃杯,现按重复抽样方式从中抽取150只进行质量检验,结果有147只合格,其余3只为不合格品,试求这批印花玻璃杯合格率(成数)的抽样平均误差。,35,四、其他抽样组织方式抽样平均误差的计算方法类型比例抽样平均误差的计算 成数的抽样平均误差等距抽样平均误差的计算 整群抽样平均误差的计算,36,1.类型比例抽样平均误差,(5),(
11、6),37,例:某农场种小麦12 000公顷,其中平原3 600公顷,丘陵6000公顷,山地2400公顷,现用类型抽样法调查1200公顷,以各种麦田占全农场面积的比重分配抽样面积数量。 麦田类型抽样的平均误差计算表,38,39,补充知识: 方差、总方差、组内方差和组间方差,标准差的平方即为方差 组内方差:各组内各单位标志值与组平均数计算的方差 组间方差:各组平均数与总平均数计算的方差 总方差:各单位标志值与总平均数计算的方差,s,+,s,=,s,2,2,2,组内,组间,总,三者关系:,40,41,42,2.成数的抽样平均误差,43,高产麦田比重的平均误差计算表,44,3.等距抽样平均误差 (1
12、)若按无关标志排队 公式用以上纯随机抽样的公式,一般采用不重复抽样公式,重复抽样公式。,为简便起见,也可采用,),1,(,),1,(,),1,(,2,N,n,n,p,p,N,n,p,x,n,-,-,=,m,-,=,m,s,45,(2)若按有关标志排队 公式用类型抽样的公式,46,4.整群抽样平均误差 整群抽样的抽样平均误差受三个因素影响: (1) 抽出的群数(r)多少 (反比关系) (2) 群间方差(2) (正比关系),47,计算方法如下:,48,(3) 抽样方法,(10),(9),49,五、抽样极限误差 抽样极限误差( , )是指抽样指标之间的抽样误差的可能范围。 抽样误差范围估计的可靠程度
13、,=,50,一、点估计 点估计也叫定值估计,就是由样本指标代替全及指标,不考虑任何抽样误差因素。即用x直接代表X,用p直接代表P。 例如,在全部产品中,抽取100件进行仔细检查,得到平均重量x=1002克,合格率p=98%,我们直接推断全部产品的平均重量X=1002克,合格率P=98%。,第三节 总体指标的推断,51,(二)区间估计是根据样本指标和抽样误差去推断全及指标的可能范围,它能说清楚估计的准确程度和把握程度。由于区间估计所表示的是一个可能的范围,而不是一个绝对可靠的范围。就是说,推断全及指标在这个范围内只有一定的把握程度。用数学的语言讲,就是有一定的概率。根据中心极限定理,得知当n足够
14、大时,抽样总体为正态分布,根据正态分布规律可知,样本指标是以一定的概率落在某一特定的区间内,统计上把这个给定的区间叫抽样极限误差,也称置信区间,即在概率F(t)的保证下:抽样极限误差= t,(t为概率度),52,当F(t)=68.27%时,抽样极限误差等于抽样平均误差的1倍(t=1);当F(t)= 95.45%时,抽样极限误差等于抽样平均误差的2倍(t=2);当F(t)=99.73%时,抽样极限误差等于抽样平均误差的3倍(t=3);可见,抽样极限误差,即扩大或缩小了以后的抽样误差范围。,53,例1: 某农场进行小麦产量的抽样调查,该农场小麦播种面积为10 000亩,采用不重复的简单随机抽样从中
15、选100亩作为样本,进行实割实测,得到样本的平均亩产量为400千克,样本标准差为12千克。则:,),3.57(,40,10000,3),99.73%(t,(3),),2.38(,40,10000,2),95.45%(t,千克,亩产量的可能范围为:,亩小麦的平均,保证,该农场,若以概率,千克,亩产量的可能范围为:,亩小麦的平均,保证,该农场,若以概率,千克,43,.,396,19,.,1,3,400,62,.,397,19,.,1,2,400,),2,(,),(,19,.,1,),10000,100,1,(,100,),1,(,),1,(,12,2,2,=,=,=,=,=,=,=,=,-,=,-
16、,s,=,m,X,x,X,N,n,n,x,x,D,54,例2: 某机械厂日产某种产品8 000件,现采用纯随机不重复抽样方式(按重复抽样公式计算),从中抽取400件进行观察,其中有380件为一级品,试以概率95.45%的可靠程度推断全部产品的一级品率及一级品数量的范围。则:抽样一级品率:,55,第四节 必要抽样数目的确定,一、影响必要抽样数目的因素 1. 总体方差,即2或P(1-P)的大小。(正比) 2. 允许误差的大小。(反比) 3. 置信度(1-)。 4. 抽样方式和组织形式。,56,二、确定抽样数目的方法 1.重复抽样的必要样本容量 (1)平均数的必要抽样数目公式:样本容量:(2)成数的必要抽样数目公式2.不重复抽样的必要样本容量,