1、抽样调查,统计学系 余国合13277916002ygh_,教学目的: 使学生能系统正确地掌握抽样调查的理论基础,掌握几种基本的抽样方法,培养学生初步具有能结合实际情况对具体项目进行抽样设计和对所获得数据进行处理和分析的能力。,第一章 基本概念第二章 简单随机抽样第三章 分层随机抽样第四章 比估计与回归估计第五章 不等概率抽样第六章 整群抽样第七章 系统抽样第八章 二阶及多阶抽样,参考书目,1. 谢邦昌原著,张尧庭等改编,抽样调查的理论及其应用方法,中国统计出版社,1998年.2. 赵俊康著,统计调查中抽样设计理论与方法,中国统计出版社,2002年.3. 施锡铨,抽样调查的理论与方法,上海财经大
2、学出版社,1999年.4. Kish.L.著,倪加勋等译,抽样调查,中国统计出版社,1997年.,第一章基本概念,第一节统计信息与抽样调查第二节基本概念第三节如何抽样第四节抽样调查程序第五节 调查员的基本素质,第一节统计信息与抽样调查,1. 预测需要统计信息 2. 企业之间的竞争需要统计信息 3. 各种政策的制定需要统计信息 如:要分析人民生活的改善情况,就需要出生率、死亡率、人口平均寿命、人民受教育程度及物质和精神文化消费方面的资料。 4. 正确的决策离不开充分的信息资源和有效的信息处理技术,一、统计信息的重要性,二、数据的类型,统计数据展示了客观现象数量方面的特征,不同数据的性质和特点存在
3、着差别,因此可以把数据分为两大类:1.调查数据:一般是指客观上已经存在,但需要通过观察或询问才能得到的数据。 特点:这类资料大多与时间有关,数据所展示的是特定时期或时点上的结果,如一定时期内的生产量等。这类资料会随着时间的变化而改变,因此定期的收集就非常重要。也有一些数据,它们在短期内变化不大,相对比较稳定。,2. 试验数据:通常与自然科学的研究相联系,其特点是在试验进行前尚未发生,因而需要通过事先的试验设计,在控制的条件下进行试验,并将试验的结果加以记录和整理,试验通常可以重复进行的。,三、抽样调查与抽样类型,1. 抽样调查:是一种非全面性调查,它是指从研究对象的全体(总体)中抽取一部分单位
4、作为样本,根据对所抽取的样本进行调查,获得有关总体目标量的了解。,2. 抽样类型:(1)非概率抽样:没有严格的定义,这类抽样有许多不同的具体抽取样本的方法。如重点调查和典型调查,还有市场调查中的有目的调查、判断调查、方便调查和定额抽样等。(2)概率抽样也称随机抽样:是指总体中的每个单元都有一定的非零概率被抽中,单元之间被抽中的概率可以相等,也可以不相等。,1. 节约费用;2. 时效性强;3. 可以承担全面调查无法胜任的项目;4. 有助于提高调查数据的质量。,概率抽样有三个特点:按一定的概率以随机原则抽取样本;每个单元被抽中的概率是已知的,或是可以计算出来的;当用样本对总体目标量进行估计时,要考
5、虑到该样本(或每个样本单元)被抽中的概率。即估计量不仅与样本单元的观测值有关,也与其入样的概率有关。,四、抽样调查的作用,五、抽样调查与普查,1. 抽样调查作为普查的补充;2. 用抽样调查对全面统计资料进行评估和修正;3. 利用抽样调查做深层次分析;4. 利用抽样调查,提前获得总体目标量的估计;5. 普查为抽样框提供资料。,第二节基本概念,一、目标总体与抽样总体 目标总体:简称为总体,是指所要研究对象的全体,它由研究对象中所有性质相同的个体组成,组成总体的各个个体称为总体单元或单位。 抽样总体:是指从中抽取样本的总体。 思考:两者是否一致?,1. 总体:是构成它的所有元素的集合。是研究者感兴趣
6、的群体,是研究者要将研究结果进行概化的目标。2. 样本:是为研究提供信息的总体中的一部分。3. 抽样:选择愿意参与研究的个体的过程。4. 抽样单位:一次直接抽样所使用的基本单位。5. 抽样框:抽样范围,一次直接抽样时总体中所有抽样单位的名单。6. 参数值:总体值,关于总体中某一变量的综合描述。7. 统计值:样本值,关于样本中某一变量的综合描述。,二、抽样框与抽样单元 抽样框:是一份包含所有抽样单元的名单,给每一个抽样单元编上一个号码,就可以按照一定的随机化程序进行抽样。抽样总体的具体表现是抽样框。 抽样单元:是构成抽样框的基本要素,抽样单元可以只包含一个个体,也可以包含若干个个体,抽样单元还可
7、以分级。,三、总体指标与样本统计量1. 总体总量(population total):2. 总体均值(population mean):3. 总体比例(proportion):如全部产品中合格品所占比例: 当第i单元具有某个特定的特征时,Yi=1,否则Yi=0。4. 总体比率(population ratio): 式中Y、 和X、 为两个总体指标值。,四、估计量方差、偏倚、均方误差1. 估计量方差:估计量分布的方差。2. 偏倚:是指按照某一抽样方案反复进行抽样,估计值的数学期望与待估参数之间的离差。即:3. 均方误差:是指所有可能的估计值与待估参数之间离差平方的均值:,其中, 为估计量方差;为
8、偏倚的平方。如果估计量的偏倚为零,即满足则称 为无偏估计量,也就是说无偏估计量的均方误差等于它的估计量方差。五、抽样误差与非抽样误差 1. 抽样误差:是抽取样本的随机性造成的样本值与总体值之间的差异,只要采用抽样调查,抽样误差就不可避免;它的大小随着样本量的增大而显著减小。,2. 非抽样误差:是相对于抽样误差而言的,它不是由于抽样的随机性,而是由于其他多种原因引起的估计量与总体参数之间的差异。六、精度与费用,抽样调查的精度取决于误差的大小,精度的估计主要就是估计量方差的估计,影响估计量方差的最重要因素是样本量,而样本量又直接与调查费用有关。另一个影响精度与费用的因素是抽样方法和估计方法。,第三
9、节 如何抽样,如何从总体中抽取样本直接影响到抽样调查的质量。 抽样推断最根本的依据是“样本是总体的一个代表性剖面”。即是要求所抽取的样本一定要与总体相似,否则无论你采用的统计计算方法多么科学,无论你的计算机有多高级,所得到的结果仍然很成问题。 事实告诉人们在抽样调查中这样一条规律:当样本的选择方法发生偏差时,样本再多也无济于事,它只能是更大范围、更大程度地重复这个偏差错误。 总之,要评价一组样本是否令人满意,首先要问的是它是如何抽取的,选样中是否存在较大偏差?调查中无回答率是否很大?,抽样的类型,1. 非概率抽样 主要依据研究者的主观意愿、判断或是否方便等因素抽取样本; 误差大,难以估计,代表
10、性小,适合探索性研究。 主要有:偶遇抽样、判断抽样、定额抽样、雪球抽样2. 概率抽样 依据概率论的基本原理,按照随机原则进行抽样; 主要有:简单随机抽样、系统抽样、分层抽样、整群抽样、多段抽样,二、非概率抽样,1、偶遇抽样 方便抽样或自然抽样,指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为对象,或者仅仅选择那些离得最近、最容易找到的人作为对象。2、判断抽样 目的抽样,研究者根据研究目标和自己的主观分析来选择和确定他们认为可以提供所需要信息的人作为样本。3、定额抽样 配额抽样,研究者根据可能影响研究变量的因素对总体分层,并计算出比例,然后取挑选对象。 检验理论、解释关系、比较不同群体
11、时,抽样标准是适合性,不是代表性4、雪球抽样 在无法了解总体情况时,从少数成员入手调查并询问其他符合条件的人,在找这些人所知道的人。,三、概率抽样,概率抽样的程序简单随机抽样系统抽样分层抽样整群抽样多段抽样,概率抽样的程序,随机抽取:总体中的每个个体都有同等的机会入选样本,而且每个个体的抽取都是独立的。 1. 界定总体:范围与界限 2. 制定抽样框:收集总体中全部抽样单位的名单,并对名单统一编号。 分段、分层抽样时则要分别建立起几个不同的抽样框 3. 决定抽样方案:确定抽样方法、样本规模、主要目标量的精确程度 4. 实际抽取样本:按照选定方法从抽样框中抽取一个个抽样单位,构成样本 5. 评估样
12、本质量:质量、代表性、偏差 将可得到的反映总体中某些重要特征及其分布的资料与样本中的同类指标进行对比。,几种常用的抽样方法,1. 简单随机抽样:简单随机抽样也称纯随机抽样,是从抽样框内的N个抽样单元中随机地、一个一个地抽取n个单元作为样本,在每次抽选中,所有未入样的待选单元入选样本的概率是相等的,这n个被抽中的单元就构成了简单随机样本。2. 分层抽样:是将抽样单元按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。3. 整群抽样:将总体中若干个基本单元合并为组,这样的组称为群。抽样时直接抽取群,然后对中选群中的所有基本单元全部实施调查,这样的抽样方法称为整群抽样。,4.
13、多阶段抽样:采用类似整群抽样的方法,首先抽取群,但不是调查群内的所有基本单元,而是再进行一步抽样,从选中的群中抽取出若干个基本单元进行调查(二阶段调查)。5. 系统抽样:将总体中的所有单元(抽样单元)按一定顺序排列,在规定的范围内随机地抽取一个单元作为初始单元,然后按事先规定好的规则确定其他样本单元,这样抽样的方法称为系统抽样。,简单随机抽样,单纯随机抽样:按照等概率原则直接从含有N个元素的总体中随机抽取n个元素组成样本(Nn)。常用的方法:抽签、随机数字表优点:可能产生代表性样本缺点:不容易做1.编号难2.必须能够接触到被选中的个体3.成分比例难,系统抽样,等距抽样或机械抽样,将总体的单位编
14、号排序后,按照固定的间隔抽取个体组成样本的方法.步骤: 1.制定抽样框 2.计算抽样间隔:K=N/n 3.在第一组K个个体中随机抽取一个个体A. 4.在抽样框中每隔K个个体抽取一个个体. 5.将n个个体合起来构成样本.优点:简便易行条件:抽样框应该是随机排列的.注意2种情况: 1.抽样框中的个体排列具有某种次序或等级 2.抽样框中的个体排列具有与抽样间隔对应的周期性分布.,分层抽样,类型抽样,将总体中的所有单位按照某种特征或标志划分为若干类型或层次,在每个类型或层次中采用简单随机抽样或系统抽样的方法抽取一个子样本,共同构成研究的样本.优点:1.在不增加样本规模的前提下降低抽样误差,提高抽样精度
15、,增大代表性2.便于了解总体内不同层次的情况,以及对总体中的不同层次进行单独研究或者进行比较.注意:1.分层的标准问题2.分层的比例问题,整群抽样,从总体中随机抽取一些小群体,将小群体的所有元素构成样本.对小群体的抽取可采用简单随机抽样、系统抽样、分层抽样的方法。优点: 1. 简化抽样过程 2. 降低收集资料的费用 3. 扩大抽样范围缺点:代表性比较差,多阶段抽样,多级抽样或分段抽样,按照抽样元素的隶属关系或层次关系,把抽样过程分为几个阶段进行。步骤: 1. 以大群为单位编制抽样框 2. 抽取若干大群 3. 以小群为单位给每个大群编制抽样框 4. 分别从每个大群中抽取小群 5. 根据需要重复3
16、、4步骤 6. 得到基本元素,构成研究样本优点:方便易行,四、样本规模与抽样误差,样本规模影响样本规模确定的因素抽样误差,样本规模,样本容量,是指样本中所含个案的多少合理的样本容量应该是研究者在合理的时间和精力消耗下能够获得的尽可能大的样本。统计学中,通常以30为界,30个个案及其以上为大样本,30个个案以下为小样本。统计学中的大样本于教育研究中的大样本不是一回事在教育研究中,最小样本容量是: 1. 描述性研究中,n100 2. 相关研究中,n50 3. 实验研究中,n30为了进行不同类别之间的比较,必须扩大样本规模,至少在100个。,影响样本规模确定的因素,1. 总体规模总体规模达到一定程度
17、后,样本规模的改变很小2. 抽样的精确性其他条件一定的情况下,置信度越高,推论的把握性越大,所要求的样本规模越大;置信区间越小,抽样的精确度越高,样本值与总体值之间的误差越小,所要求的样本规模就越大。3. 总体的异质性程度异质性大,所需要的样本规模大。4. 研究者所拥有的经费、人力和时间,抽样误差,用样本值估计总体值时所出现的误差。抽样误差是不可避免的,其大小可在抽样设计中加以控制抽样误差取决于总体的分布方差和抽样规模公司一般将规模控制在2000以内,练习,某市有300所小学,共有240000名学生。这些小学分布在全市5个行政区中。其中,重点小学有30所,一般小学有240所,比较差的小学有30
18、所。行政要从全市小学生中抽取1200名进行调查,以了解全市小学生学习情况。请设计一个抽样方案。,第四节 抽样调查程序,1. 确定调研问题2. 抽样方案设计3. 问卷设计4. 实施调查过程5. 数据处理分析6. 撰写调查报告,确定调研问题,整个调查的第一步,也是至关重要的一步。在这个过程中首先需要明确的定义问题,包括对整个问题的的叙述以及确定研究问题的具体组成部分。只有问题定义清楚了,才有可能进一步设计和执行。 确定调研问题所要回答的是“要做什么样的调查研究”和“为什么要做这项研究”。调研人员需要考虑研究的目的、相关的背景材料、所需要的信息以及这些信息在分析时如何使用。,抽样方案设计,抽样方案要
19、描述样本是如何抽取的。调查中有不同的数据收集方法,如面访调查、电话调查、邮寄调查等。不同的收集方法需要不同的抽样框,抽样方案设计也包括抽样框的设计。 此外对样本又有不同的抽取方法,在制定抽样方案时既要考虑方法的科学性,又要照顾实际的可行性。,问卷设计,问卷设计的基本问题1. 设置的问题应当围绕调查的目的展开。2. 访问时间的长短要适当控制。3. 在问卷的开头往往设置问题以区别被访问者的类型。4. 所提问题要清晰,用词要妥帖,并注意礼貌。5. 问题要有层次地展开,市场调查等问卷中要注意有比较。6. 注意问卷的格式。7. 一般问卷中应设有编码栏。,实施调查过程,在这个过程中要获得样本单元的调查数据
20、,关键的问题是要保证原始数据的质量,这就需要对调查过程进行有效的管理和监控。 调查实施前需要对调查员进行技术培训,使调查员熟悉调查问卷,掌握访谈技巧,并增强责任心。 在调查过程中加强质量检验,出现问题及时总结,及时补救。 调查人员要有操作手册,调查过程中也要有管理制度和措施,使得从事具体调查的人员有章可循。,数据处理分析,调查的收获阶段,它为撰写调查报告提供基本的素材。在这个阶段,首先要对经过调查获得的原始数据进行检查、核对,对验收合格的调查问卷进行编码和录入。数据录入后,多数情况下需要进行数据的预处理,为统计分析做好准备。 数据的预处理包括:录入数据的再编码,它是对原编码的补充和调整,满足某
21、些统计分析软件对编码的特殊要求,也是根据研究要求对数据的重新归类分组;对缺失值进行插补,以构造出完整的数据集;进行变量的转换,进而进行常规的统计分析;计算目标量的估计值、方差及变异系数的估计值等。,撰写调查报告,(1)主题:清楚地指出此调查的目的,并提出对调查结果的使用方式。(2)范围:正确地描述调查范围,包括指定的研究定义及调查的地理区域。(3)调查对象:详细叙述此调查所收集的资料项目及为列表项目的原因。(4)资料收集方法:清楚地叙述所采用的收集资料的方法。此外,收集资料过程中遇到的困难及解决的方法,均应详细说明。(5)调查期、参考期和报告期。,(6)抽样设计和估计程序:清楚说明调查中所使用
22、的抽样单元、抽样框、样本大小和抽样方法,指出估计时所用的公式。(7)结论的描述:列表资料应该以清楚且易于理解的方式列出。(8)精确度:调查结果中应该列出估计所达到的精确程度、检验及比较的结果、对调查质量的评估。还必须指出无回答者的种类、比例以及对最后结果的影响程度。(9)责任:主办机构及指挥此调查的机构须在报告中提出。(10)参考文献。,第五节 调查员的基本素质,1. 严格遵守访问程序和指示,不允许擅自变通处理;2. 访问过程中始终保持中立,不使用任何带诱导性语言;3. 忠实被访者的回答,严禁在不经询问或被访人尚未回答之时,擅自代答或代填问卷;4. 除出现某种情况下规定的跳答题之外,任何题均要
23、按规定询问,不能因为估计被访人有可能不回答而跳过。若遇到拒绝回答或被访人确实不知道,则应在答卷上一一注明;5. 访问大致完成时,访问员应该当场浏览一遍问卷,把漏记和不明确的地方补充完整;6. 应尽可能在问卷中详细记录被访人的姓名、单位、地址及电话等,以便于复核。,第二章 简单随机抽样,第一节 概述第二节 总体均值与总量的简单估计第三节 总体比例的简单估计第四节 样本量的确定第五节 放回简单随机抽样,第一节 概述,一、简单随机抽样二、实施方法1、抽签法2、随机数表法3、利用计算机随机数字发生器三、局限性1、要求总体中的每个单元都有一个号码2、实际调查中困难很多,第二节 总体均值与总量的简单估计,
24、一、简单估计及其无偏性在没有其它信息的条件下,对总体均值的简单估计为:抽样理论证明样本平均数是总体均值的有效、无偏估计量。证明:对称性论证法。,二、估计量的方差,说明:在不考虑1-f的情况下,估计量的方差与样本容量n成反比;样本均值的方差与总体方差成正比。,三、估计量的方差估计,用s2代替S2,总量的方差估计:置信区间:,例题,为调查某地区1960个村新棉收购情况,以简单不重复抽样方式随机抽取49个村进行调查,求得 试以95%的可靠程度估计该地区平均每村收购多少斤?,第三节 总体成数的简单估计,一、对总体的描述成数:总体中具有某种特征的单位在总体中所占的比例。,二、估计量及其性质,例:从562
25、0个中学中抽出一个含有300个学校的简单随机样本,其中有187个学校赞成一项提案,试估计赞成该提案的比例及总的学校数。,置信区间:,例:对某问题进行调查,在总体中抽取容量为200的简单随机样本,若赞成,反对及不表态的人数分别为132,51,17,试给出赞成、反对及不回答比例的90%的近似置信区间。,第四节 样本量的确定,一、确定样本量的原则与主要考虑因素1、费用2、误差限3、其他因素原则:在经费一定的前提下,样本容量的选择要使精度达最高,或在精度要求确定的前提下,样本容量的选择要使经费达到最省。,二、估计总体均值或总量时样本量的确定方法若给定估计量的方差上限V,(1)若给定d(2)若给定r(3
26、)若给定c,例:一批电子元件有1600只,为估计元件的平均寿命,先根据抽样计算出样本平均寿命为8400小时,标准差为760小时,如果要求估计的绝对误差限为168小时,可靠程度在95%以上,问至少应抽取多少只元件?,三、估计总体比例时样本量的确定法1、若给定d2、若给定r,3、若给定方差上限V4、若给定变异系数上限c,例:在人口变动情况调查中,出生率是一个十分重要的指标。根据以前调查的数据,出生率的估计可取为18,问在置信度为95%下,实际调查估计P的绝对误差限为0.5和相对误差限为5%各需要多大的样本量?,例:某销售公司希望了解全部3000家客户对该公司的综合满意程度,决定用电话来调查一个简单
27、随机样本,这时销售公司希望以95%的把握保证客户满意的总体比例P在样本比例p10%的范围内,但对总体P无法给出一个大致的范围,这时,应该调查多少个客户才能保证对总体比例估计的要求?,第五节 放回简单随机抽样,一、估计量及其性质,样本方差s2是总体方差 的无偏估计量,二、设计效应与样本量的确定设计效应是指一个特定的抽样设计估计量的方差对相同样本量下不放回简单随机抽样的估计量的方差之比。即:,设计效应还可用来确定样本量。,第三章 分层随机抽样,概述简单估计及其性质各层样本量的分配样本总量的确定分层随机抽样效果分析,第一节 概述,一、特点分层抽样不仅可估计总体参数,还可估计层的参数实施方便,便于组织
28、分层样本比简单随机样本在总体中分布更均匀分层抽样能较大地提高调查地精度,二、符号总体分为L层,h表示层的编号第h层单位总数:Nh样本单位数:nh层权: 抽样比:第h层子总体第i个单位标志值:Yhi第h层样本中第i个单位标志值:yhi,总体均值:样本均值:总体方差: 样本方差:,第二节 简单估计量及其性质,一、对总体均值或总量的估计,样本方差s2,例:某市进行家庭收入调查,分城镇居民及农村居民两部分抽样,在全部城镇23560户中抽取300户,在全部农村148420户中抽取250户(均按简单随机抽样进行),调查结果城镇年平均户收入为15180元,标准差为2972元;农村年平均户收入为9856元,标
29、准差为2546元。求全市年平均户收入的估计及其90%的置信区间。,例:调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户划分为4层,每层按简单随机抽样抽取10户,调查获得如下数据(单位:元),估计该地区居民奶制品年消费总支出及估计的标准差。,二、对总体比例的估计,例:为调查某个高血压高发病区青少年与成年人高血压的患病率,对14岁以上的人分四个年龄组进行分层随机抽样,调查结果如下,求总体高血压患病率P的估计及其标准差的估计。,第三节 各层样本量的分配,一、等数分配(常数分配)每层抽取相同单位数组成样本,二、标准差比例分配法各层所分配的抽样单位数,与该层中总体各单位标
30、志值的离散程度成正比,三、比例分配法概念:根据各层容量的大小不同,分配以相应不同的样本单位数,使得各层中的抽样数目与该层的总体单位数的比例相等。,总体均值与总量的估计总体均值的估计量为样本总量的常数倍(自加权),估计量的方差,四、最优分配在分层随机抽样中,对于给定的费用C,能使估计量的方差V达到最小或给定数值,使总费用最小的各层样本量的分配为最优分配。柯西不等式:,奈曼分配:,例:n=550,城镇居民与农村居民年收入的标准差估计分别为 s1=3000元, s2=2500元,对城镇居民与农村居民抽样平均每户的费用比为1:2,试求城镇与农村两层比例分配与最优分配的样本量。又若不考虑费用因素,那么最
31、优分配的结果又有何变化?(P84),第四节 样本总量的确定,一、估计总体均值时n的确定比例分配:奈曼分配:最优分配:,例:某市进行家庭收入调查,分城镇居民及农村居民两部分抽样,在全部城镇23560户中抽取300户,在全部农村148420户中抽取250户(均按简单随机抽样进行),调查结果是城镇年平均户收入的标准差为3000元,农村的为2500元,对城镇居民与农村居民抽样平均每户的费用比为1:2,若要求总体均值的95%的绝对误差限d=200,求比例分配、奈曼最优分配及一般最优分配下所需要的总样本量,及计算各种分配形式下的总费用(设c0=0,P90),二、给定总费用时样本量的确定,第四章 比估计与回
32、归估计,第一节 概述第二节 比估计第三节 回归估计第四节 分层比估计与分层回归估计,一、问题的提出比估计回归估计二、辅助变量的选择辅助变量与调查变量之间存在较密切的相关性或线性关系辅助变量的有关资料是能够事先掌握的,第一节 概述,第二节 比估计,一、定义及基本性质1、总体比率:样本比率:通过样本比率估计总体比率,进而利用此资料对调查标志的总体平均数和总体标志总量进行估计的方法称为比估计,2、样本比率对总体比率的估计是有偏误的。当样本容量n充分大时,这种偏误趋近于03、估计总体平均数及总体标志总量 称为比估计量,例:现设某地区45万户居民1998年底的居民储蓄存款余额为135亿元,而调查300户
33、居民家庭得知户均年总收入为1.8万元,户均储蓄存款余额为2.6万元,用比估计法估计该市居民总体的户均年总收入及年总收入。,4、样本估计量的均方误差5、估计量的方差,6、相对方差、相对协方差,二、方差估计及置信区间1、方差估计两者均是有偏估计量很难比较两者优劣,2、置信区间当 时,当上述条件不满足时,,其中:,例:某街区有2000户居民家庭,按简单随机抽样方法抽出其中33户家庭,调查其两项指标:食物消费额(y),月收入(x),调查结果如下: 试用比率估计方法,以95%的可靠程度估计月收入中食物消费所占百分比的置信区间。,例:交通运输统计中有三个重要的指标,即运量、周转量与平均运距,其中平均运距是
34、总周转量除以运量所得的商,为估计公路载货汽车的平均运距,在总体中用简单随机抽样抽取32辆货车,记录每辆车在一个月内的运量xi与周转量yi,统计计算结果如下: 试估计平均运距R并给出它90%的置信区 间(P130)。,相关系数:,三、比估计的效果分析如果 两种方法的估计效果基本相同。如果 比估计优于简单估计。两种方法的优劣可以归结为相关系数是否大于1/2。,例:某系统共有N=687个单位,为预估当年全系统的工资总额,用简单随机抽样抽取一个n=26个单位的样本,对样本的资料统计如下: 已知上一年全系统工资总额(X)为70523.16万元。试估计当年全系统的工资总额及估计的近似标准差(P132) 。
35、,第三节 回归估计,一、定义回归估计是通过对调查变量Y以及该变量有线性关系的辅助变量X建立回归方程,然后运用回归方程对总体指标进行推断、估计的方法。在直角坐标系中,比估计表现为通过原点的回归直线,而回归估计可以通过原点,也可以不通过。比估计只能有一个辅助变量,而回归估计可以利用多个辅助变量。,总体均值的回归估计量定义为:总体总量的回归估计量定义为: 差估计量 简单估计量 比估计量,二、为设定常数,例:设某县有53个乡镇,已知某年度小麦总播种面积为795000亩,现抽取10个乡调查结果为总播种面积为152000亩,小麦总产量6262.4万公斤,要求依以上资料对该县平均每个乡镇的小麦总产量和全县的
36、小麦总产量作出回归分析。(0=0.04),三、 为样本回归系数,例1:某系统共有N=687个单位,为预估当年全系统的工资总额,用简单随机抽样抽取一个n=26个单位的样本,对样本的资料统计如下: 上一年全系统工资总额(X)为70523.16万元。试运用回归估计计算当年全系统的工资总额及估计的近似标准差(P137)。,四、回归估计量与比估计量及一般样本平均数的比较在大样本下,回归估计总是优于简单估计在大样本下,回归估计总是优于比估计。,第四节 分层比估计与分层回归估计,一、分别比估计与联合比估计分别比估计:在分层随机抽样中,对每层样本考虑比估计,然后进行加权平均或相加,所得的估计量称为分别比估计,
37、联合比估计在分层随机抽样中,对两个指标先求总体均值或总和的分层估计,然后用它们构造比估计,所得的估计量为联合比估计。,二、分别回归估计与联合回归估计分别回归估计:在分层随机抽样中,对每层均值或每层总量作回归估计,然后再加权平均或相加,联合回归估计:在分层随机抽样中,先对 及 作分层简单估计,再 与 作联合回归估计。,三、各种估计量的比较与选择对于两种形式的比估计及两种回归系数都需要从样本估计的回归估计,估计量都是有偏的;对于分别估计,要求每层样本量都较大,若某些层样本量不够大,建议采用联合估计;回归估计在小样本时偏倚可能更大,这时采用比估计;若每层的样本量都较大,每层的比估计或回归估计都较有效
38、,且每层的 或 相差较大,则分别估计比联合估计更有效,估计量方差更小;若各层的回归系数接近1,则可采用差估计。,例:已知某市中央直属单位及市属单位1986年专业技术人员总数,欲通过抽样调查估计1988年年底全市专业技术人员的总数Y。抽样按中直单位与市属单位分层随机抽取,前者抽15年单位,后者抽20个单位,数据如下表所示。已知中直单位N1=135个,1986年底总人数为X1=75650;市属单位N2=1228个,1986底总人数为X2=315612人。估计该市1988年专业技术人员总数(P144)。,第六章 不等概率抽样,第一节 概述第二节 放回不等概率抽样第三节 不放回不等概率抽样,第一节 概
39、述,目录抽样(list sampling):对少数大单位进行普查而对大多数小单位进行抽样的方法。不等概率抽样(sampling with unequal probabilites):在抽样中将总体中每个单元的入样概率与其规模大小联系起来:大单元抽到的概率大,小单元抽到的概率小。,使用情况:需要估计总体总量但总体单元规模相差很大抽样审计由于种种原因不能直接对基本的较小单元抽样(如整群抽样或多阶抽样),必要条件:抽样前赋予每个单元一个不等的入样概率优点:可以提高估计精度,减少抽样误差使用条件:必须要有能说明每个单元规模大小的辅助变量来确定每个单元入样的概率,种类:放回抽样不放回抽样 逐个抽取法:每
40、次从尚未入样的单元中以一定概率抽取一个单元,这个概率通常与已经入样的单元有关。,重抽法:以一定概率逐个进行放回抽样,若一旦抽到重复单元,则放弃所有已抽到的单元而重新抽取,直到抽到规定单元数且所有入样单元都不同为止。 系统抽取法:将总体单元按某种顺序排列,且将规定的单元入样概率(或其倍数)累计起来,并确定抽样间隔,在这个范围内产生一个随机数以确定初始入样单元,然后按上述抽样间隔确定其余的样本单元。,第二节 放回不等概率抽样,一、多项抽样与PPS抽样 设Z1,Z2,ZN是一组概率,且 ,按这组概率对总体中的N个单元进行放回抽样,每次抽中第i个单元的概率为Zi,独立地进行这样的抽样n次,这种不等概率
41、抽样为多项抽样(multinomial sampling)。,如果每个单元有说明其大小或规模的度量Mi,则Zi可取 ,这种多项抽样称为(放回的)与单元规模大小成比例的概率抽样(简称PPS抽样)(sampling with probability proportional to size)。,二、实施方法代码法(Hansen-Hurwitz法) 在PPS抽样中,赋予每个单元与Mi相等的代码数,将代码数累加得到M0,每次抽样都产生一个1,M0之间的随机数,设为m,代码m所对应的单元被抽中。,拉希里法 令M*=maxMi,每次抽样都分别产生一个1,N之间的随机数i,及1,M*之间的随机数m,如果Mi
42、=m,则第i单元被抽中,否则重抽。,三、汉森-赫维茨估计量及其性质,例:某系统全部36个单位上一年职工人数Xi及当年职工人数Yi的数据已搜集到,(见课本191面),以 Xi为单位大小Mi的度量,对单位进行PPS抽样,n=6,估计全系统当年职工总人数Y,并与简单随机抽样作精度比较。,第三节 不放回不等概率抽样,一、 PS抽样与包含概率包含概率:在不放回抽样中,每个单元被包含到样本的概率也即入样概率i及任意两个单元都被包含到样本中的概率ijPS抽样:不放回的与单元大小成比例的概率抽样。 i=nZi,Zi=Mi/M0,当i与单元大小Mi成比例时有: 严格的PS抽样霍维茨-汤普森(Horvitz-Th
43、ompson)估计量:,二、霍维茨-汤普森估计量及其性质,三、n=2的严格PS抽样布鲁尔(Brewer)方法第一单元按与 成比例抽取第二单元在剩下的单元中按与规模比重Zj成比例的概率抽取,德宾(Durbin)方法第一单元以概率Zi抽取第二单元与 成比例抽取,第七章 整群抽样,第一节 概述第二节 群大小相等时的整群抽样第三节 估计总体比例的整群抽样第四节 群大小不相等的一般情形,第一节 概述,一、什么是整群抽样整群抽样是将总体划分为若干群,然后以群为抽样单元,从总体中随机抽取一部分群,对中选群中的所有基本单元进行调查的一种抽样技术。要求:群与群之间不重叠,且总体的任何一个基本单位都只能且必须属于
44、某一群。,二、整群抽样的特点及适用场合抽样框的编制得以简化实施调查便利,节省费用通常情况下其抽样误差较大,可通过适当增大样本量的方法弥补估计精度的损失当群的大小接近时,常采用简单随机抽样当群的大小相差比较大时,为提高效率则更多地采用不等概率抽样,第二节 群大小相等的整群抽样,对群进行简单随机抽样时的估计量与方差一、符号说明总体群数 N ,样本群数 n第i群中包含的总体单位数 M总体第i群第j个单位指标值 Yij样本第i群第j个单位指标值 yij,总体第i群的群和样本第i群的群和总体第i群的平均数样本第i群的平均数,总体平均群和样本平均群和总体均值样本均值,总体总方差:样本总方差:总体群间方差:
45、,样本群间方差:总体群内方差:样本群内方差:,二、估计量及其性质,例1:在一次某城市居民小区居民食品消费量调查中,以每个楼层(相当于居民小组)为群进行整群抽样。每个楼层都有M=8个住户。用简单随机抽样在全部N=510个楼层中抽取n=12个楼层。全部96个样本户人均月食品消费额yij及按楼层的平均数 与标准差si如下表所示。试估计该居民小区人均食品消费额的户平均值 ,并给出其95%的置信区间(P213)。,12个楼层96户居民人均月食品消费额资料,三、群内相关系数与设计效应 1、群内相关系数(interclass correlation cofficient)表示同一群内不同小单元的指标值对总体
46、均值的离差乘积的期望值与总体中所有小单元指标值对总体均值离差平方的期望值之比。,2、设计效应,整群抽样的方差约为简单随机抽样的方差的 倍。,例2:在某地进行一次人体测量,采用以工厂为群的整群抽样。其中成年男子组抽了9个工厂,共测了740人;成年女子组抽了7个工厂,共测了531人。下表分别是以身高(单位mm)为指标值的男女两组样本资料的平方和分解表,试计算各自的群内相关系数及整群抽样的设计效应(P217)。,9个工厂成年男子身高资料的平方和分解变差来源 平方和 自由度 均方(方差)群(工厂)间 35 618 8 =4 452群(工厂)内 1 978 596 731 =2 707 总 计 2 014 214 739 =2 726,