1、抽样调查基础知识 贵阳市统计局 张 缨 二 一 年七月 第一节 抽样调查的概念、特点及分类 一、抽样调查的概念与特点 1、抽样调查 抽样调查是从研究的总体中按随机原则抽取部分单位作为样本进行观察研究,并根据这部分单位的调查结果来推断总体,以达到认识总体的一种统计调查方法。抽样调查又称为概率抽样或称为随机抽样。 2.随机原则 随机原则是在抽取调查单位时,完全排除人为的主观因素影响,保证每一个调查单位都有相等的中选可能的原则。就概率意义而言,又称为等可能性原则。 抽样调查为什么要遵守随机原则呢 ?这是因为抽样调查的目的在于用样本来推断总体的数量特征,这就要求抽样的部分单位能够充分地代表总体。遵守随
2、机原则,可以使样本结构与总体结构相同,进而可以按概率理论计算抽样误差,并进行统计推断。 2、抽样调查的特点 按照随机原则抽取样本 根据样本的资料推断总体的数值 费用低 时效性强 抽样调查有时是唯一的选择 二、抽样调查的分类 1、 非概率抽样:是用主观 (非随机的 )方法从总体中抽选单元进行调查,它是一种快速、简便且省钱的抽选样本的方法。但是非概率抽样具有很大风险,因为主观选定的样本很难肯定其对总体是否具有代表性。 非概率抽样主要有随意抽样、志愿者抽样、判断抽样及配额抽样。 2、概率抽样 概率抽样有两条基本准则: 第一,样本单位是随机抽取的 ; 第二,调查总体中的每个单位都有一个非零的入样概率。
3、 重复抽样与不重复抽样 重复抽样是把已经抽出的样本单位再放回到总体中,继续参加下一次抽选,使总体单位数始终是相同的,每个总体单位有多次重复抽中的可能。 不重复抽样是把已经抽出来的样本单位不再放回总体,每抽一次,总体单位数会相应减少,每个总体单位只能被抽中一次。 2.常用的抽样组织方式 概率抽样按组织方式不同可分为简单随机抽样、系统抽样、分层抽样、整群抽样、比例抽样、多阶抽样、与大小成比例的抽样。 第二节 抽样推断的几个基本概念 抽样推断是指按照随机的原则从调查总体中抽取一部分样本单位进行观察,并以样本指标对总体指标做出具有一定可靠性的估计和推断,从而达到对调查总体的认识的一种统计方法。 一、总
4、体和样本 总体是指被研究事物或现象的全体,它由调查对象的所有单位组成。组成总体的单位叫做总体单位,总体单位数用 N表示。 样本是指在总体中按随机原则抽取的那些单位构成的集合体。由于样本总体是按随机原则抽取的,因而它本身是一个随机变量。样本单位数用 n表示。 二、总体指标和样本指标 总体指标:根据总体各个单位的标志值或标志特征计算的、反映总体某种属性的综合指标。 常用的总体指标: 总体平均数: NXX 总体成数: P= 总体方差: 总体标准差 : 样本指标:由抽样总体各个标志值或标志特征计算的综合指标 。 常用的样本指标: 样本平均数: NN1nxx 样本成数: 样本方差: 样本标准差: 参数
5、: 指反映总体数量特征的综合指标。 参数 研究总体中 的数量标志 总体平均数 总体方差 X= X N X= XF F ( X-X) N 2 = 2 ( X-X) F F 2 = 2 研究总体中 的品质标志 总体成数 成数方差 2 = P(1-P) P = N1 N 统计量 : 根据样本数据计算的综合指标 。 研究数 量标志 样本平均数 x = x n x = xf f 样本标准差 研究品 质标质 样本成数 成数标准差 n p = n nxx 2 ffxxx2 ppp 1第三节 抽样误差 一、抽样误差的概念 (一)代表性误羞 代表性误差是指在抽样调查中,用部分样本推 断总体时,由于样本各单位的结
6、构情况不足以代表 总体的状况而产生的误差。 代表性误差有两种,即系统误差和随机误差。 (二)抽样平均误差 在抽样调查中,同样的抽样组织工作程序,同 一种抽样方法,可能被抽中的样本有许多。 (三 )影响抽样误差的因素 1.样本单位数目。 2.总体标志变动程度。 3.抽样方法。 4.抽样组织方式。 二、抽样平均误差的计算 抽样平均误差是指所有可能出现的样本指数 的标准差。我们把抽样平均误差简称为抽样误, 并用希腊字母 来表示。 一、抽样误差的概念 (一 )代表性误差 代表性误差是指在抽样调查中,用部分样本推 断总体时,由于样本各单位的结构情况不足以代表 总体的状况而产生的误差。 代表性误差有两种,
7、即系统误差和随机误差。 (二 )抽样平均误差 抽样平均误差是指所有可能组成的样本的指标 与总体指标的平均离差,或者说,是样本平均数的 标准差。 抽样平均误差用 表示。 (三 )影响抽样误差的因素 1.样本单位数目。 2.总体标志变动程度。 3.抽样方法。 4.抽样组织方式。 二、抽样平均误差的计算 平均数的抽样平均误差 a. 重复抽样 表示样本平均数的抽样平均误差 ; 表示总 体标准差 ;n表示样本容量。 b. 不重复抽样 为修正系数,当 N很大时,可以用 N代替 N-1,则公 式简化为: 抽样成数的抽样平均误差 a. 重复抽样 表示抽样成数的抽样平均误差 ;P表示总体成数 ; P(1-P)表
8、示总体成数的方差,表示总体成数的标准差。 b.不重复抽样 当 N很大时,公式简化为: 总体方差未知时的解决办法 一是用样本方差代替总体方差; 二是用过去调查的资料代替; 三是用估计资料代替; 四是用小规模试验性调查资料代替。 )(15400300 小时 nx Nnnx 12 )(42.13200040014003002小时 计算结果表明: 根据部分产品推断全部产品的平均使用寿命时,采用不重复抽样比重复抽样的平均误差要小。 解:已知: 30 0,48 00,40 0,20 00 xnN则: 例题一: 某厂生产一种新型灯泡共 2000只,随机抽出400只作耐用时间试验,测试结果平均使用寿命为480
9、0时,样本标准差为 300小时,求抽样推断的平均误差? 已知: 400n 801 n则:样本成数 %20400801 nnp 02.04 0 08.02.01 nppp即: 根据样本资料推断全部学生中戴眼镜的学生所占的比重时,推断的平均误差为 2%。 例题二: 某校随机抽选 400名学生,发现戴眼镜的学生有 80人。根据样本资料推断全部学生中戴眼镜的学生所占比重时,抽样误差为多大? 已知: 6 0 0 0 0N 300n 61 n则:样本合格率 98.0300 63001 n nnp ( % )808.030002.098.01 nppp Nnnppp 11 ( % )806.06000030
10、0130002.098.0 计算结果表明: 不重复抽样的平均误差小于重复抽样, 但是 “ N”的数值越大,则两种方法计算 的抽样平均误差就越接近。 例题三:一批食品罐头共 60000桶,随机抽查 300桶,发现有 6桶不合格,求合格品率的抽样平均误差? 三、抽样误差的允许范围 (一 ) 极限误差 极限误差也叫做允许误差,是指样本指标与 总体指标之间抽样误差的可能范围。用符号表 示。 x表示样本平均数的极限误差, p表示样 本成数的极限误差。 x p +x P-ppP+p (二 )抽样误差范围估计的可靠程度 确定抽样误差范围和要求抽样的可靠程度之间 具有密切联系。即扩大极限误差的范围,可以提高
11、抽样推断的可靠程度。 这个可靠程度在统计中称做概率,它对应的数 值是概率度,用 t表示。概率度越大,可靠程度越 高 ;反之,概率度越小,可靠程度也越低。 =t (三 )极限误差的计算 1.样本平均数的极限误差的计算 2.样本成数的极限误差的计算 四、参数估计 1、点估计:直接用一个样本指标估计总体指 标的推断方法。例如,用样本指标面和 p直接代替 总体指标和 P。 2、区间估计:是在一定的概率保证下,根据 点估计值,联系一定的误差范围估计总体指标值 的一种推断方法。 区间估计三要素 估计值 抽样误差范围 概率保证程度 px,px , tFpx ,p - P p+ t t - + t t 五、样
12、本单位数的确定 1、影响样本单位数的几个主要因素 抽样推断的可靠程度 总体标志的变异程度 极限误差的大小 抽样方法与组织方式的不同 人力、物力和财力的可能条件 22 1ppptn222xtn2、必要抽样单位数目的计算 推断总体平均数时, 必要抽样单位数的计算: 推断总体成数时, 必要抽样单位数的计算: ( 2)若概率保证程度不变,要求抽样允许误差不超过 1斤,问至少应抽多少亩作为样本? ( 1) 以 95.45%的可靠性推断该农场小麦平均亩产可能在多少斤之间? 计算 : ( 1)解: 已知: N=10000 n=100 9545.0,144,400 2 tFx 例题四:某农场进行小麦产量抽样调
13、查,小麦播种总面积为 1万亩,采用重复抽样,从中抽选了 100亩作为样本进行实割实测,测得样本平均亩产 400斤,方差 144斤。 1、计算抽样平均误差 斤2.11 0 01 4 42 nx 斤4.22.12 xx t 斤4.4024.2400 xx2、计算抽样极限误差 3、计算总体平均数的置信区间 上限: 下限: 斤6.3 9 74.24 0 0 xx即:以 95.45%的可靠性估计该农场小麦平均亩产量在 397.6斤至 402.4斤之间 . ( 2)解: 已知: 则: %45.95tF 斤1 x)(5 7 611 4 4222222亩xtn至少应抽 544.6亩作为样本。 即: 例题五:
14、为调查农民生活状况,在某地区 5000户农 民中,按重复简单随机抽样法,抽取 400户 进行调查,得知这 400户中拥有彩色电视机的农户为 87户。 计算: 1、以 95%的把握程度估计该地区全部农户 中拥有彩色电视机的农户在多大比例之间? 2、若要求抽样允许误差不超过 0.02,其它 条件不变,问应抽多少户作为样本? 1、解: 已知: N=5000 n=400 871 n 95.0tF 计算样本成数 : %75.21400871 nnp 计算抽样平均误差: nppp 10206.0400 7825.02175.0 计算抽样极限误差: 0404.00206.096.1 pp t 计算总体 P的置信区间 : 下限: %71.17 pp上限: %79.25 pp即:以 95%的把握程度估计该地区农户中拥有彩电的农户在 17.71%至 25.79%之间。