收藏 分享(赏)

统计学原理 第7章 抽样调查.ppt

上传人:HR专家 文档编号:8055483 上传时间:2019-06-06 格式:PPT 页数:124 大小:1.46MB
下载 相关 举报
统计学原理 第7章 抽样调查.ppt_第1页
第1页 / 共124页
统计学原理 第7章 抽样调查.ppt_第2页
第2页 / 共124页
统计学原理 第7章 抽样调查.ppt_第3页
第3页 / 共124页
统计学原理 第7章 抽样调查.ppt_第4页
第4页 / 共124页
统计学原理 第7章 抽样调查.ppt_第5页
第5页 / 共124页
点击查看更多>>
资源描述

1、第七章 抽样法,第一节 基本概念,一、抽样调查的意义,一般所讲的抽样调查,即指狭义的抽样调查(随机抽样):按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体作出数量上的推断分析。,抽样(随机抽样)的特点,遵循随机原则(不受主观因素影响,是抽样推断的基础)抽取样本是由部分推断总体的一种研究方法可以对抽样误差进行控制(概率论),二、抽样调查的适用范围,抽样调查方法是市场经济国家在调查方法上的必然选择,和普查相比,它具有准确度高、成本低、速度快、应用面广等优点。,1.实际工作不可能进行全面调查观察,而又需要了解其全面资料的事物;,2.虽可进

2、行全面调查观察,但比较困难或并不必要;,3.对普查或全面调查统计资料的质量进行检查和修正;,4.抽样方法适用于对大量现象的观察,即组成事物总体的单位数量较多的情况;,5.利用抽样推断的方法,可以对于某种总体的假设进行检验,判断这种假设的真伪,以决定取舍。,一般适用于以下范围:,三、抽样调查的基本概念,(一) 总体和样本,总体:所要调查观察的全部事物。总体单位数用N表示。,样本:抽取出来调查观察的单位。抽样总体的单位数用n表示。n 30 大样本n 30 小样本,样本容量与可能的样本数目,可能的样本数目:从一个单位数为N的总体中随机抽出单位数为n的样本的全部可能的数量。至少为:,从300名学生中按

3、不重复抽样方法抽出20名学生,则可能的样本数目为:,约750万亿亿亿个,在抽样估计中,总体单位为有限个、且可以逐个调查登记的总体称为有限总体。 总体单位为无限个、或总体单位虽然有限但不可能逐个调查的总体称为无限总体。,以下内容被视为属于无限总体:单位数太多的总体;一个正在进行的过程;预期将会发生的某个总量。,有限总体与无限总体,有限总体与无限总体,有限总体:已知,可以排队编号并利用随机数表抽取样本单位。 无限总体:未知,不能编号,不能使用随机数表。,(二) 总体指标和样本指标,总体指标:全及总体的那些指标。 样本指标:抽样总体的那些指标。,抽样框 即总体单位的名单,是指对可以选择作为 样本的总

4、体单位列出名册或顺序编号,以 确定总体的抽样范围和结构。,样本个数指从总体中可能抽取的样本的数量。 样本容量指一个样本所包括的单位数。,第二节 抽样调查的组织形式,通常有以下四种组织形式:,一、简单随机抽样(纯随机抽样),即从总体单位中不加任何分组、排队,完全随机地抽取调查单位。,随机抽选可有各种不同的具体做法,如: 1.直接抽选法; 2.抽签法; 3.随机数码表法;,重复抽样放回抽样:,重复抽样与不重复抽样,抽出个体,登记特征,放回总体,继续抽取,通常只在必须使样本单位能重复出现时使用,某彩票中奖号码(号码不重复出现): 1 2 3 4 5 6,失去中奖机会的号码,11、 121 、122

5、、 1231 、1232 、1233 、 12341 、12342 、12343 、12344、 123451、123452、123453、123454、 123455,总计:12345个 至少占总数,重复抽样与不重复抽样,抽出个体,登记特征,继续抽取,最为常用的抽样方法,用于无限总体和许多有限总体的抽样。,不重复抽样无放回抽样:,二、类型抽样(分层抽样),先对总体各单位按一定标志加以分类(层),然后再从各类(层)中按随机原则抽取样本,组成一个总的样本。,类型的划分:,一是必须有清楚的划类界限; 二是必须知道各类中的单位数目和比例; 三是分类型的数目不宜太多。,类型抽样的好处是:,样本代表性高

6、、抽样误差小、抽样调查成本较低。如果抽样误差的要求相同的话则抽样数目可以减少。,两种类型:,1.等比例类型抽样(类型比例抽样);,2.不等比例类型抽样(类型适宜抽样)。,类型抽样(分层抽样),总体 N,样本 n,等额,等比例,三、机械抽样(等距抽样),先将全及总体的所有单位按某一标志顺序排队,然后按相等的距离抽取样本单位。,排列次序用的标志有两种:,1. 选择标志与抽样调查所研究内容无关, 称无关标志排队。,2. 选择标志与抽样调查所研究的内容有关, 称有关标志排队。,机械抽样按样本单位抽选的方法不同,可分为三种:,1.随机起点等距抽样,2.半距起点等距抽样,k k k,k,(k为抽取间隔),

7、示意图:,3.对称等距抽样,示意图:,k k k,2k-a 2k+a 4k-a 4k+a,a,k,(k为抽取间隔),机械抽样的好处:,1. 可以使抽样过程大大简化,减轻抽样的工作量;,2. 如果用有关标志排队,还可以缩小抽样误差,提高抽样推断效果。,机械抽样,实际上是一种特殊的类型抽样。因为,如果在类型抽样中,把总体划分为若干相等部分,每个部分只抽一个样本,在这种情况下,则类型抽样就成了机械抽样。,四、整群抽样,整群抽样即从全及总体中成群地抽取样本单位,对抽中的群内的所有单位都进行观察。,整群抽样的好处:组织工作比较简单方便,适用于一些特殊的研究对象。其不足之处是,一般比其它抽样方式的抽样误差

8、大。,总体群数R=16 样本群数r=4 样本容量,例:,A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,P,L,H,P,D,五、多阶段抽样,即把抽样本单位的过程分为两个或几个阶段来进行。 (如果一次就直接抽选出具体样本单位,这叫单阶段抽样)具体讲: 先抽大单位(可以用类型抽样或机械抽样), 再在大单位中抽小单位(可用整 群抽样或简单随机抽样),小单位中再抽更小的 单位;而不是一次就直接抽取基层的调查单位。,例:,在某省100多万农户抽取1000户调查农户生产性投资情况。,多阶段抽样,第一阶段:从省内部县中抽取5个县,第二阶段:从抽中的5个县中各抽4个乡,第三阶段:从抽中的20个乡中

9、各抽5个村,第四阶段:从抽中的100个村中各抽10户,样本n=10010=1000(户),六、重复抽样和不重复抽样,以上每一种组织方式又有不同的抽取样本方法(机械抽样和整群抽样没有重复抽样):,重复抽样:又称有放回抽样。,不重复抽样:又称不放回抽样。,第三节 抽样原理,一、可能样本总体容量 和样本容量 都确定后,总体 中每一个可能被抽中的样本。 1、重复抽样样本数:2、不重复抽样样本数:,所有样本指标(如均值、比例、方差等)所形成的分布称为抽样分布 是一种理论概率分布 随机变量是 样本统计量 样本均值, 样本比例等 结果来自容量相同的所有可能样本,二、抽样分布,统计量与抽样分布,统计量:即样本

10、指标。,样本均值,样本成数,样本方差,如:,抽样分布:,某一统计量所有可能的样本取值形成的分布。,数字特征,均值 E ( X ),方差 Ex-E(x)2,方差的平方根即抽样分布的标准差就是 推断的,抽样误差。,抽样分布,抽样分布:样本统计量所有可能值的概率分布。,样本统计量,总体未知参数,样本统计量,样本统计量,样本统计量,样本统计量,样本统计量,样本统计量,样本统计量,样本统计量,样本统计量,样本统计量,样本统计量,样本统计量,分布的形状及接近总体参数的程度,样本均值的抽样分布 (一个例子),【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4 个个体分别为X1=1、X2=2、X3

11、=3 、X4=4 。总体的均值、方差及分布如下,均值和方差,样本均值的抽样分布, 现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果如下表,样本均值的抽样分布 (一个例子), 计算出各样本的均值,如下表。并给出样本均值的抽样分布,所有样本均值的均值和方差,式中:M为样本数目 比较及结论:1. 样本均值的均值(数学期望)等于总体均值2. 样本均值的方差等于总体方差的1/n,样本均值的分布与总体分布的比较,抽样分布, = 2.5 2 =1.25,总体分布,样本均值的抽样分布 与中心极限定理,当总体服从正态分布N (,2 )时,来自该总体的所有容量为n的样本的均

12、值X也服从正态分布,X 的数学期望为,方差为2/n。即XN(,2/n),中心极限定理,中心极限定理:设从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,样本均值的抽样分布(简称均值的分布),抽样,总体,样本,均值,X,(N),均值=Xi/N,x,(n),样本均值是样本的函数,,故样本均值是一个统计量,,统计量是一个随机变量,,它的概率分布称为样本均,值的抽样分布。,均值分布的数学期望和方差,抽样方法 均值 方差 标准差,( 1 )从无限总体抽样和有限总体放回抽样,( 2 )从有限总体不放回抽样,抽样误差,抽样误差,学

13、生 成绩 30 40 50 60 70 80 90,离差 -30 -20 -10 0 10 20 30,第四节 抽样误差,一、抽样误差的概念及其影响程度,在统计调查中,调查资料与实际情况不一致,两者的偏离称为统计误差。,抽样误差,167CM,169CM,172CM,160CM,162CM,167CM,175CM,180CM,165CM,167CM,170CM,175CM,178CM,180CM,162CM,173CM,155CM,160CM,170CM,165CM,平均身高=169.8CM,平均身高=174.6CM,总平均身高=168.6CM,抽样误差即指随机误差,这种误差是抽样调查固有的误差

14、,是无法避免的。,抽样误差的影响因素:,1. 全及总体标志变异程度。正比关系 2. 抽样单位数目的多少。反比关系 3. 不同的抽样方式。 4. 不同的抽样组织形式。,抽样误差的作用:,1. 在于说明样本指标的代表性大小。误差大,则样本指标代表性低;误差小,则样本指标代表性高;误差等于0,则样本指标和总体指标一样大。,2. 说明样本指标和总体指标相差的一般范围。,抽样推断误差,登记误差,代表性误差,由人为原因造成的、可以避免的误差:非抽样误差,非人为原因造成的、无法避免的误差:抽样误差,抽样估计的可能误差,非抽样误差的种类及产生的原因: 设计失误或工具不良; 调查对象选择失误; 无回答; 数据处

15、理失误; 调查人员误导; 被调查者说谎。,抽样误差产生的原因: 用部分单位来推断总体,抽样估计的可能误差,抽样误差的控制,关于抽样误差的几点认识:,抽样误差是样本统计量与总体参数之间的绝对差异,对于任何一个样本,其抽样误差都不可能测量出来,抽样误差的大小可以依据概率分布理论加以说明,抽样误差的控制,抽样误差的控制途径:第一,选择合适的抽样方式第二,控制样本容量,分层随机样本可能优于简单随机样本,样本容量越大,则样本统计量就越接近总体参数。,n=,n=,某个样本容量的抽样分布,更大样本容量的抽样分布,二、抽样平均误差,抽样平均误差实际上是样本指标的标准差。 通常用表示。在N中抽出n样本,从排列组

16、 合中可以有各种各样的样本组:,1. 如果是重复抽样:,2. 如果是不重复抽样:,以上资料编成次数分配表如下:,抽样误差是所有可能出现的样本指标的标准差。它是由于抽样的随机性而产生的样本指标与总体指标之间的平均离差。,上例五户中抽取二户调查,如采取不考虑顺序的不重复抽样方法,则:,三、纯随机抽样的抽样平均误差,平均数的抽样平均误差,1.重复抽样,取得的途径有:,1. 用过去全面调查或抽样调查的资料,若同时有n个的资料,应选用数值较大的那个; 2. 用样本标准差S代替全及标准差; 3. 在大规模调查前,先搞个小规模的试验性的调查来确定S,代替; 4. 用估计的方法。,某灯泡厂从一天所生产的产品1

17、0,000个中抽取100个检查其寿命,得平均寿命为2000小时(一般为重复抽样),根据以往资料:=20小时,,根据以往资料,产品质量不太稳定,若=200小时,,2.不重复抽样:,平均数的抽样平均误差,总体方差,若总体方差未知: 用样本方差2 代替 用历史资料代替 用试验结果估算,比率的抽样平均误差,总体方差已知,总体方差未知,四、类型抽样的抽样平均误差,五、机械抽样(等距抽样)的抽样平均误差,1.若按无关标志排队,公式用以上纯随机抽样的公式,一般采用 不重复抽样公式:,2. 若按有关标志排队,公式用类型抽样的公式:,六、整群抽样的抽样平均误差,整群抽样的抽样平均误差受三个因素影响:,(1)抽出

18、的群数(r)多少 (反比关系),(2)群间方差( ) (正比关系),计算方法如下:,(3) 抽样方法,以上抽样平均误差的公式归纳如下:,第五节 抽样推断,一、点估计和区间估计,参数估计的方法,估计量和估计值,估计量:用来推断估计一个总体指标的样本 指标,叫这个总体指标的估计量。 如:根据被抽中的一个样本,计算得到的估计量的一个具体数值,叫总体指标的估计值。,1.用于估计总体某一参数的随机变量 如样本均值,样本比例、样本中位数等 例如: 样本均值就是总体均值的一个估计量 如果样本均值 x = 3 ,则 3 就是 的估计值 理论基础是抽样分布,估计量 (概念要点),(一)点估计,点估计 (概念要点

19、),从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计 例如: 用样本均值作为总体未知均值的估计值就是一个点估计 2. 点估计没有给出估计值接近总体未知参数程度的信息 点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等,的抽样分布,点估计的最大好处:给出确定的值点估计的最大问题:无法控制误差,估计量的优良标准 (无偏性),无偏性:估计量的数学期望等于被估计的总体参数,估计量的优良标准 (有效性),有效性:一个方差较小的无偏估计量称为一个更 有效的估计量。如,与其他估计量相比 ,样本均值是一个更有效的估计量,估计量的优良标准 (一致性),一致性:随着样本容量

20、的增大,估计量越来越接近被估计的总体参数,(二)区间估计,是根据样本指标和抽样误差去推断全及指标的可能范围,它能说清楚估计的准确程度和把握程度。,由于区间估计所表示的是一个可能的范围,而不是一个绝对可靠的范围。就是说,推断全及指标在这个范围内只有一定的把握程度。用数学的语言讲,就是有一定的概率。根据中心极限定理,得知当n足够大时,抽样总体为正态分布,根据正态分布规律可知,样本指标是以一定的概率落在某一特定的区间内,统计上把这个给定的区间叫抽样极限误差,也称置信区间,即在概率F(t)的保证下:抽样极限误差=t,(t为概率度),当F(t)=68.27%时,抽样极限误差等于抽样平均误差的1倍(t=1

21、);当F(t)=95.45%时,抽样极限误差等于抽样平均误差的2倍(t=2);当F(t)=99.73%时,抽样极限误差等于抽样平均误差的3倍(t=3);可见,抽样极限误差,即扩大或缩小了以后的抽样误差范围。,区间估计 (概念要点),1. 根据一个样本的观察值给出总体参数的估计范围 给出总体参数落在这一区间的概率 例如: 总体均值落在5070之间,置信度为 95%,置信区间估计 (内容),区间估计原理,0.6827,落在 范围内的概率为68.27%,区间估计原理,0.9545,落在 范围内的概率为95.45%,区间估计原理,0.9973,落在 范围内的概率为99.73%,落在总体均值某一区间内的

22、样本,置信水平,总体未知参数落在区间内的概率 表示为 (1 - 为显著性水平,是总体参数未在区间内的概率 常用的显著性水平值有 99%, 95%, 90% 相应的 为0.01,0.05,0.10,区间与置信水平,均值的抽样分布,(1 - ) % 区间包含了 % 的区间未包含,影响区间宽度的因素,1. 数据的离散程度,用 来测度 样本容量, 置信水平 (1 - ),影响 Z 的大小,计算样本统计量,计算抽样平均误差,计算抽样极限误差,确定置信区间,区间估计步骤,(以估计 为例):,区间估计的数学表达方式:,区间估计步骤,(以估计 为例):,已知:,对于给定的显著性水平 ,有:,抽样极限误差,某农

23、场进行小麦产量的抽样调查,该农场小麦播种面积为10000亩,采用不重复的简单随机抽样从中选100亩作为样本,进行实割实测,得到样本的平均亩产量为400千克,样本标准差为12千克。 则:,某机械厂日产某种产品8000件,现采用纯随机不重复抽样方式(按重复抽样公式计算),从中抽取400件进行观察,其中有380件为一级品,试以概率95.45%的可靠程度推断全部产品的一级品率及一级品数量的范围。 则:抽样一级品率:,第六节 样本容量的确定,一、影响必要抽样数目的因素,样本容量,调查误差,调查费用,小样本容量节省费用但调查误差大,大样本容量调查精度高但费用较大,找出在规定误差范围内的最小样本容量,确定样

24、本容量的意义,找出在限定费用范围内的最大样本容量,(一) 简单随机抽样,二、必要抽样数目的计算公式,(二) 类型抽样,(三) 整群抽样,等距抽样的抽样数目,在有总体差异程度和比重的全面资料时,可采用类型抽样的公式;没有总体的全面资料时,可采用简单随机抽样的公式。,根据均值区间估计公式可得样本容量n为,估计总体均值时样本容量的确定,样本容量n与总体方差2、允许误差、可靠性系数Z之间的关系为 与总体方差成正比 与允许误差成反比 与可靠性系数成正比,其中:,通常的做法是先确定置信度,然后限定抽样极限误差。, 或 S 必须事先知道,但通常未知。一般按以下方法确定其估计值: a 以前类似样本的S; b

25、试验调查样本的S;,计算结果通常向上进位,样本容量的确定 (实例),解:已知2=1800000,=0.05, Z/2=1.96,=500,应抽取的样本容量为,【例】一家广告公想估计某类商店去年所花的平均广告费用有多少。经验表明,总体方差约为1800000元。如置信度取95%,并要使估计处在总体平均值附近500元的范围内,这家广告公司应抽多大的样本?,根据比例区间估计公式可得样本容量n为,估计总体比例时样本容量的确定,其中:,通常的做法是先确定置信度,然后限定抽样极限误差,P 或 p 必须事先知道,但通常未知。一般按以下方法确定其估计值: a 以前类似样本的p; b 试验调查样本的p ; c 取

26、p=0.5。,计算结果通常向上进位,样本容量的确定 (实例),【例】一家市场调研公司想估计某地区有彩色电视机的家庭所占的比例。该公司希望对比例p的估计误差不超过0.05,要求的可靠程度为95%,应抽多大容量的样本(没有可利用的p估计值)。,应抽取的样本容量为,估计比率时的样本容量的确定(实例),某网站一个由400名使用者组成的样本表明,该网站的使用者中26的使用者为女性。在95的置信度下,若希望将抽样极限误差控制在3,则样本容量应当为:,例:某地硕士研究生毕业第一年年薪的标准差大约为2000元人民币。如果以95%的置信度估计其平均年薪,并且希望抽样极限误差分别不超过500元和100元,样本容量应为多少?,End of Chapter 7,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报