收藏 分享(赏)

抽样技术+人大课件+讲稿2-简单随机抽样.ppt

上传人:11xg27ws 文档编号:5161056 上传时间:2019-02-11 格式:PPT 页数:60 大小:438KB
下载 相关 举报
抽样技术+人大课件+讲稿2-简单随机抽样.ppt_第1页
第1页 / 共60页
抽样技术+人大课件+讲稿2-简单随机抽样.ppt_第2页
第2页 / 共60页
抽样技术+人大课件+讲稿2-简单随机抽样.ppt_第3页
第3页 / 共60页
抽样技术+人大课件+讲稿2-简单随机抽样.ppt_第4页
第4页 / 共60页
抽样技术+人大课件+讲稿2-简单随机抽样.ppt_第5页
第5页 / 共60页
点击查看更多>>
资源描述

1、第2章 简单随机抽样(SRS),2.1 定义及其抽选方法 2.2 简单估计量及其性质 2.3 样本量的确定 2.4 设计效应 2.5 逆抽样,Simple Random Sampling (SRS),抽样方案设计,第一、确定抽样调查的目的、任务和要求; 第二、确定调查对象的范围和抽样单位; 第三、确定抽取样本方法; 第四、对主要抽样指针的精度提出要求;确定必 要的样本数; 第五、确定总体目标量的估算方法; 第六、制订实施总体方案的办法和步骤。,2.1定义与符号,简单随机抽样也称为单纯随机抽样。 从含有 N 个单元的总体中抽取 n 个单元组成样本,如果抽样是不放回的,则所有可能的样本有 个,若每

2、个样本被抽中的概率相同,都为 ,这种抽样方法就是简单随机抽样。 具体抽样时,通常是逐个抽取样本单元,直到抽满n个单元为止。,有限,放回简单随机抽样 不放回简单随机抽样,放回简单随机抽样(SRS with replacement) 当从总体N个抽样单元中抽取n个抽样单元时,如果依次抽取单元时,不管以前是否被抽中过,每次都从N个抽样单元中随机抽取,这时,所有可能的样本为 个(考虑样本单元的顺序), 每个样本被抽中的概率为 放回简单随机抽样在每次抽取样本单元时,都将前一次抽取的样本单元放回总体,因此,总体的结构不变,抽样是相互独立进行的,这一点是它与不放回简单随机抽样的主要不同之处。 放回简单随机抽

3、样的样本量不受总体大小的限制,可以是任意的。,简单随机抽样的抽取原则: (1)按随机原则取样; (2)每个抽样单元被抽中的概率都是已知的或事先确定的; (3)每个抽样单元被抽中的概率都是相等的。,【例2.1】,设总体有5个单元(1、2、3、4、5),按放回简单随机抽样的方式抽取2个单元,则所有可能的样本为25个(考虑样本单元的顺序):,(2)不放回简单随机抽样 (SRS without replacement),当从总体N个抽样单元中依次抽取n个抽样单元时,每个被抽中的单元不再放回总体,而是从总体剩下的单元中进行抽样。 不放回简单随机抽样的样本量要受总体大小的限制。 在实际工作中,更多的采用不

4、放回简单随机抽样。,【例2.2】,设总体有5个单元(1、2、3、4、5),按不放回简单随机抽样的方式抽取2个单元,则所有可能的样本为10个:,符号,大写符号表示总体的标志值, 用小写符号表示样本的标志值,符号,大写符号表示总体的标志值, 用小写符号表示样本的标志值,总体指标值上面带符号“”的表示由样本得到的总体指标的估计。 称 为抽样比,记为f 。 估计量的方差用大写的V表示,对 的 样本估计,不用 而用 表示。,二、抽选方法,1抽签法 2随机数法随机数表、随机数骰子、摇奖机、计算机产生的伪随机数 随机数表法: N=327 n5 讨论:(1) 总体编号为135,在0099中产生随机数,若=00

5、或35,则抛弃重抽。(2) 总体编号为135,在0099中产生随机数,以除以35,余数作为被抽中的数,如果余数为0,则被抽中的数为35。,三、地位与作用,优点 简单直观 理论基础 缺点 N很大时难以获得抽样框 样本分散不易实施,调查费用高 很少单独使用,一般结合其他方法使用 没有其他信息时使用 多变量复杂数据分析,2.2 简单估计量及其性质,判断下面要估计的总体目标量分别属于什么类型? 调查城市居民家庭平均用电量。 估计湖中鱼的数量。 测试日光灯的寿命。 估计居民家庭用于做饭菜及饮用的用水量占家庭总用水量的比重。 估计婴儿出生性别比。 检测食盐中碘含量。,一、对总体均值的估计,以样本均值作为总

6、体均值的估计 性质1:对于简单随机抽样, 是 的无偏估计。,例设总体为0,1,3,5,6,计算总体均值 =3、总体方差 =5.2和 =6.5;给出全部 的样本,并验证 及 。,样本编号,单元1,单元2,样本均值,-,样本方差,证明 性质1,对于固定的有限总体,估计量的期望是对所有可能样本求平均得到的,因此总体中每个特定的单元 在不同的样本中出现的次数。,证明 性质1(对称性论证法),由于每个单元出现在总体所有可能样本中的次数相同,因此 一定是 的倍数,且这个倍数就是 ,,性质2:,对于有限总体的方差定义 :性质2:对于简单随机抽样, 的方差式中: 为抽样比,为有限总体校正系数。,证明性质2(对

7、称论证法):,中的求和是对 项的,中的求和是对 项的,每个特定单位被选入样本的概率:=P(i)= 故其定义为:* 不放回抽样* 每个样本被抽中的概率为* 每个单位被选入样本的概率,利用无限总体理论,Mean=,随机变量,证明性质2,简单随机抽样下,简单估计量估计精度影响因素:,估计量的方差 是衡量估计量精度的度量。影响估计量方差的因素主要是样本量n,总体大小N和总体方差 。通常N很大,当f0.05时,可将 近似取为1。总体方差是我们无法改变的; 因此,在简单随机抽样的条件下,只有通过加大样本量来提高估计量的精度。,性质3: 的样本无偏估计为:,证明 :,大样本下,抽样调查估计量渐进正态,【例2

8、.3】,我们从某个=100的总体中抽出一个大小为=10的简单随机样本,要估计总体平均水平并给出置信度为95%的区间估计。,由置信度95%对应的 ,因此,可以以95%的把握说总体平均水平大约在之间,即2.4295和7.5705之间。,有放回简单随机抽样,二、对总体总量的估计,【例2.4】续例2.3。估计总体总量,并给出在置信度95%的条件下,估计的极限相对误差。,在置信度95%下, 的极限相对误差为:,三、对总体比例的估计,某一类特征的单元占总体单元数中的比例P. 将总体单元按是否具有这种特征划分为两类,设总体中有个单元具有A这个特征,如果对每个单元都定义指标值,总体方差:,估计量,性质5:对于

9、简单随机抽样, 是 P 的无偏估计。 的方差为:,证明,【例2.5】,某超市新开张一段时间之后,为改进销售服务环境,欲调查附近几个小区居民到该超市购物的满意度,该超市与附近几个小区的居委会取得联系,在总体中按简单随机抽样抽取了一个大小为=200人的样本,调查发现对该超市购物环境表示满意或基本满意的居民有130位,要估计对该超市购物环境持肯定态度居民的比例,并在置信度95%下,给出估计的近似置信区间、极限绝对误差。假定这时的抽样比可以忽略。,95%近似置信区间为 58.37%,71.63% ,2.3 样本量的确定,费用总费用 固定费用 可变费用,设计费 分析费 办公费 管理费 场租费 等,访问员

10、费 交通费 礼品费 电话费 等,STEPS,所需要的精度 找出样本量与精度之间的关系 估计所需的数值,求解 n 如超出预算,调整精度值重新计算,精度margin of error,对精度的要求通常以允许最大绝对误差(绝对误差限)或允许最大相对误差( 相对误差限)来表示。,样本量足够大时,可用正态分布近似,变异系数,Sample Sizen0为重复抽样条件下的样本量,当N很大时, 0, n n0,wr与wor几乎没有区别。,总体参数为P的情形,f0.05,总体方差的估计,根据预调查数据或以前文献资料 根据数据的分布粗略估算S,例如全距/4,全距/ 6 对于比例估计,如果P在0.5附近(),可根据

11、PQ在P=0.5时达到极大值来对样本量进行计算 .,如果时间允许,且总体在时间上变化不快,调查可以分为两步,首先确定一个可以承受的样本量,调查后对估计精度进行计算,如果精度达到要求,则不再进行下一步,否则,计算为达到精度要求所需的样本量,再调查补充样本通过定性分析 ,最好是对总体变异系数进行分析并估计,因为变异系数通常变化不大.,样本量设计中的误区1. 估计精度越高越好吗?简单随机抽样估计比例P的样本量与误差(当P=0.5时)样本量 误差d50 0.14100 0.10500 0.0451000 0.03210000 0.0098对精度要求的判断十分重要。为得到最小误差而选择最 大样本量不是好

12、的选择。,2. 样本量与总体规模N有关吗?按照总体比例确定样本量合适吗? 例:简单随机抽样估计P,置信度95%,允许误差5%,在P=0.5条件下总体规模(N) 所需样本量(n)50 44100 80500 2221000 2865000 37010000 385100000 3981000000 40010000000 400,抽样调查中的样本量,由此可知,在精度要求相同条件下,在北 京市进行一项调查和在全国进行一项调查,样 本量的差别并不大。总体规模越大,进行抽样调查的效率越高。若分类、分区、分层分别进行估计,如何处理?对于多项目,如何处理?,其他影响因素,1. 所研究问题目标量的个数 2.

13、 调查表的回收率例如回收率估计为80%,则应接触的样本量为计算出所需样本量的1.25倍; 3.非抽样误差 4.资源限制 5.有效样本 etc,定义:简单随机抽样的样本估计量的方差与复杂抽样的样本估计 量的方差的比率。Deff Var( )为复杂样本估计量的方差。,2.4 设计效果(Design effect, Deff),设计效应,基什(L. Kish)提出 比较不同抽样方法的效率.,不放回简单随机抽样简单估计量的方差,某个抽样设计在同样样本量条件下估计量的方差。,Deff的作用:(1)评价抽样设计的一个依据,如果deff1,则抽样设计比简单随机抽样的效率低。 (2)计算样本量如多阶段抽样的

14、Deff大约在22.5之间。n= n(deff) n为简单随机抽样所需样本量。,放回简单随机抽样的deff为:常用于复杂抽样样本量的确定;在一定精度条件下,简单随机抽样所需的样本量比较容易得到,复杂抽样的样本量为,,2.5 稀有事件的抽样问题,如果估计的是非常稀有事件的比例,这时总体比例很小,用极限相对误差比极限绝对误差更好些。 对于稀有事件,所需的样本量会很大,例如:,针对稀有事件并无法给出确切范围, 对总体比例事先不同的假定,所导致的样本量差异非常大。 霍丹(Haldane)提出的逆抽样方法:即事先确定一个整数m(m1),进行逐个抽样,直到抽到m个所考虑特征的单元为止.,设n是实际的样本量,则P的一个无偏估计为当 n比较大, 时,很接近于1,规定了 或r、 t后,就可以确定m。如规定 =20%,则m=27。 可以证明,这时所需样本量n的均值为,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 实用文档 > 演讲致辞

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报