1、统计学专业硕士课程,抽样理论与方法(统计学专业),经济学院 刘超,第1讲 绪论,第01章 绪论,第01章 绪论,抽样的类型 抽样技术理论 抽样技术的发展,1.1 抽样的类型,非概率抽样主要依据研究者的主观意愿、判断或是否方便等因素 抽取样本;误差大,难以估计,代表性小,适合探索性研 究。主要有:偶遇抽样、判断抽样、定额抽样、雪球抽样 概率抽样依据概率论的基本原理,按照随机原则进行抽样; 主要有:简单随机抽样、系统抽样、分层抽样、整群抽样、 多段抽样,1.1 抽样的类型,1.1.1. 非概率抽样,非随机抽样的含义、应用范围 (一)非随机抽样的含义它是在不确定总体中,按照非随机原则选取样本,并用这
2、部分样本指标的调查结果,来判断总体指标的一种抽样类型。 (二)非随机抽样的范围1.当对调查的总体不够清楚,或者太复杂,不适于采取随机抽样时,那么,就需要用非随机抽样来抽出样本;2.适用于经常性的调查和方便灵活的调查。,1.1.1. 非概率抽样,偶遇抽样 方便抽样或自然抽样,指研究者根据现实情况,以自己方便的 形式抽取偶然遇到的人作为对象,或者仅仅选择那些离得最近、 最容易找到的人作为对象。或者说研究可以得到的一组个体.,1.1.1. 非概率抽样,适用范围 (1)可用于经常性的市场调查; (2)可用于正式市场调查之前的试验调查; (3)任意调查适用于同质总体。 优点:方便、灵活,简便易行,及时取
3、得所需资料,节约时间 和费用成本低 缺点:因为个体差异性,抽样误差很大,结果不够可靠,应用 价值较低,1.1.1. 非概率抽样,含义:又称立意抽样法,它是指由市场调查的专家依据自己的判断来选取样本的一种方法。 适用范围:总体的构成单位差异较大而样本数又很小的情况优点:因为是按照调查人员的需要来选定样本,所以较好地满足了特殊的调查需要。缺点:如果调查人员在选取样本时主观判断出现偏差,则判断抽样极易发生较大的抽样误差。,判断抽样研究者根据研究目标和自己的主观分析来选择和确定他们认为可以提供所需要信息的人作为样本。,采用判断抽样法应注意的问题:一要选好专家,二要应极力避免挑选极端情况的样本,“多数型
4、”、“平均型”两种具体做法 专家判断选择样本 : 平均型统计判断选择样本: 多数型利用调查总体的全面统计资料,按照一定的标准选择样本,1.1.1. 非概率抽样,如进行现场访问,任意选择一群消费者或者营业人员进行谈话,了解他们对商品质量的看法或购买动向。举例:在街头向过路行人做访问调查;上门对一栋大楼内的每个公司进行访问式调查;在柜台销售商品过程中向购买者做询问调查等(样本的选取完全随调查人员的方便而定)理论依据:认为被调查的母体中的每一个个体都是相同的注意:适用于非正式的探测性调查,或调查前的准备工作。,1.1.1. 非概率抽样,1.1.1. 非概率抽样,研究者根据可能影响研究变量的因素对总体
5、分层,并计算出比例,然后取挑选对象。检验理论、解释关系、比较不同群体时,抽样标准是适合性,不是代表性,定额抽样指按照一定的标准确定地区别和职业等不同群体的样本配额,然后由调查人员主观地抽取配额内样本的方法。,适用范围:通常适用于小型的市场调查步骤: (1)选择“控制特征”作为细分总体的标准;(2)将总体按“控制特征”组成 若干子总体;(3)决定各子总体样本的大小;(4)选择样本单位。,定额抽样,1.1.1. 非概率抽样,配额抽样法和判断抽样法既有联系又有区别 二者的联系是:配额抽样实质是一种“分层”判断抽样。 二者的区别是: 抽取样本的方式不同:a配额抽样是分别从各个控制特征的层次抽取若干个样
6、本b判断抽样是从总体中的某一层次中抽取若干个符合条件的典型样本 二者的侧重点不同;a配额注重“量”的分配b判断抽样注重“质”的分配 复杂程度不同:a配额抽样方法复杂精密b判断抽样方法简便易行,1.1.1. 非概率抽样,雪球抽样在无法了解总体情况时,从少数成员入手调查并询问其他符合条件的人,再找这些人所知道的人。,1.1.1. 非概率抽样,。,1.1.2 概率抽样,概率抽样的程序 简单随机抽样 系统抽样 分层抽样 整群抽样 多阶段抽样,1.1.2 概率抽样,概率抽样的程序,界定总体:范围与界限 制定抽样框:收集总体中全部抽样单位的名单,并对名单统一编号。分段、分层抽样时则要分别建立起几个不同的抽
7、样框 决定抽样方案:确定抽样方法、样本规模、主要目标量的精确程度 实际抽取样本:按照选定方法从抽样框中抽取一个个抽样单位,构成样本 评估样本质量:质量、代表性、偏差 将可得到的反映总体中某些重要特征及其分布的资料与样本中的同类指标进行对比。,1.1.2 概率抽样,简单随机抽样,单纯随机抽样:按照等概率原则直接从含有N个元素的总 体中随机抽取n个元素组成样本(Nn)。常用的方法:抽签、随机数字表优点:可能产生代表性样本 缺点:不容易做 编号难 必须能够接触到被选中的个体 成分比例难,1.1.2 概率抽样,分层抽样将总体中的所有单位按照某种特征或标志划分为若干类型或层次,在每个类型或层次中采用简单
8、随机抽样或系统抽样的方法抽取一个子样本,共同构成研究的样本. 优点: 1.在不增加样本规模的前提下降低抽样误差,提高抽样精度,增大代表性 2.便于了解总体内不同层次的情况,以及对总体中的不同层次进行单独研究或者进行比较. 注意: 1.分层的标准问题 2.分层的比例问题,1.1.2 概率抽样,系统抽样,等距抽样或机械抽样,将总体的单位编号排序后,按照固定的间隔抽取个体组成样本的方法. 步骤: 1.制定抽样框 2.计算抽样间隔:K=N/n 3.在第一组K个个体中随机抽取一个个体A. 4.在抽样框中每隔K个个体抽取一个个体. 5.将n个个体合起来构成样本. 注意2种情况: 1.抽样框中的个体排列具有
9、某种次序或等级 2.抽样框中的个体排列具有与抽样间隔对应的周期性分布.,1.1.2 概率抽样,整群抽样,从总体中随机抽取一些小群体,将小群体的所有元素构成样本. 对小群体的抽取可采用简单随机抽样、系统抽样、分层抽样的方法。 优点: 1。简化抽样过程 2。降低收集资料的费用 3。扩大抽样范围 缺点:代表性比较差,1.1.2 概率抽样,多阶段抽样,多级抽样或分段抽样,按照抽样元素的隶属关系或 层次关系,把抽样过程分为几个阶段进行。 步骤: 1。以大群为单位编制抽样框 2。抽取若干大群 3。以小群为单位给每个大群编制抽样框 4。分别从每个大群中抽取小群 5。根据需要重复3、4步骤 6。得到基本元素,
10、构成研究样本 优点:方便易行,1.2 抽样技术内容,经典理论:简单随机抽样、分层抽样、比估计、回归估计、不等概率抽样、二重抽样、系统抽样、多阶段抽样等。,扩展理论: 调查方式改变 无回答现象、计量误差 复杂抽样方差估计 最优抽样设计 certain methods are often used to improve the precision and control the costs of survey data collection. * 在固定费用下精度最高;* 或在一定精度条件下调查总费用最省;,1.3 抽样调查的发展简史,百年历史,全面调查非全面,推论统计的发展数理统计的分支。 1.
11、 个别场合适用,1802法国数学家拉普拉斯,人口调查,两阶段(便利),比估计(出生人口)2. 正式提出、推广、逐步普及。1894挪威统计局长凯尔,代表性调查,退休金、疾病保险金调查。1895,瑞士ISI国际统计会议(五次)1903年ISI(九次)统计学家认同.,1.3 抽样调查的发展简史,3. 主导地位。英国鲍莱,1906简单随机抽样、1912系统抽样;1925按比例分层,1930美国经济恐慌促进调查成长4. 理论发展与完善。如费歇尔1920:随机化无偏,重复方差估计,区组分层; 不等概,理论上证明随机抽样合理性;多阶段.奈曼:1934RSS,最优分配、比估计、比例估计。;汉森-赫维茨:PPS
12、抽样,现时人口调查CPS;马哈拉诺比斯1930:印度统计学院,交叉子样本,费用函数、方差函数 ,非抽样误差,1.4 抽样调查的发展简史,1940,陈达、戴世光,国情普查研究所,云南呈贡县,人口普查,清华学报 50年代报表、全面统计为主,部分抽样,农调队 81城调队、农调队,94企调队 80年代后市场调查萌芽发展 我国统计法规定:统计调查应以周期性普查为基础,以经常性抽样调查为主题,以必要的统计报表、重点调查与综合分析等为补充,搜集与整理基本统计资料。,第2讲 简单随机抽样,第02章 简单随机抽样,第02章 简单随机抽样(SRS),定义及其抽选方法 简单估计量及其性质 样本量的确定 设计效应 稀
13、有事件的抽样问题,Simple Random Sampling (SRS),抽样方案设计,第一、确定抽样调查的目的、任务和要求; 第二、确定调查对象的范围和抽样单位; 第三、确定抽取样本方法; 第四、对主要抽样指针的精度提出要求;确定必 要的样本数; 第五、确定总体目标量的估算方法; 第六、制订实施总体方案的办法和步骤。,2.1定义与符号,简单随机抽样也称为单纯随机抽样。 从含有 N 个单元的总体中抽取 n 个单元组成样本,如果抽样是不放回的,则所有可能的样本有 个,若每个样本被抽中的概率相同,都为 ,这种抽样方法就是简单随机抽样。 具体抽样时,通常是逐个抽取样本单元,直到抽满n个单元为止。,
14、有限,2.1.1 放回简单随机抽样,放回简单随机抽样(SRS with replacement) 当从总体N个抽样单元中抽取n个抽样单元时,如果依次抽取单元时,不管以前是否被抽中过,每次都从N个抽样单元中随机抽取,这时,所有可能的样本为 个(考虑样本单元的顺序), 每个样本被抽中的概率为 放回简单随机抽样在每次抽取样本单元时,都将前一次抽取的样本单元放回总体,因此,总体的结构不变,抽样是相互独立进行的,这一点是它与不放回简单随机抽样的主要不同之处。 放回简单随机抽样的样本量不受总体大小的限制,可以是任意的。,简单随机抽样的抽取原则: (1)按随机原则取样; (2)每个抽样单元被抽中的概率都是已
15、知的或事先确定的; (3)每个抽样单元被抽中的概率都是相等的。,2.1.1 放回简单随机抽样,2.1.1 放回简单随机抽样,【例2.1】设总体有5个单元(1、2、3、4、5),按放回简单随机抽样的方式抽取2个单元,则所有可能的样本为25个(考虑样本单元的顺序):,2.1.2 不放回简单随机抽样,(SRS without replacement)当从总体N个抽样单元中依次抽取n个抽样单元时,每个被抽中的单元不再放回总体,而是从总体剩下的单元中进行抽样。 不放回简单随机抽样的样本量要受总体大小的限制。 在实际工作中,更多的采用不放回简单随机抽样。,2.1.2 不放回简单随机抽样,【例2.2】设总体
16、有5个单元(1、2、3、4、5),按不放回简单随机抽样的方式抽取2个单元,则所有可能的样本为10个:,符号,大写符号表示总体的标志值, 用小写符号表示样本的标志值,符号,大写符号表示总体的标志值, 用小写符号表示样本的标志值,总体指标值上面带符号“”的表示由样本得到的总体指标的估计。 称 为抽样比,记为f 。 估计量的方差用大写的V表示,对 的 样本估计,不用 而用 表示。,2.1.2 不放回简单随机抽样,2.1.3 抽选方法,抽签法 随机数法随机数表、随机数骰子、摇奖机、计算机产生的伪随机数 随机数表法: N=327 n5 讨论:(1) 总体编号为135,在0099中产生随机数,若=00或3
17、5,则抛弃重抽。(2) 总体编号为135,在0099中产生随机数,以除以35,余数作为被抽中的数,如果余数为0,则被抽中的数为35。,2.1.4 地位与作用,优点 简单直观 理论基础 缺点 N很大时难以获得抽样框 样本分散不易实施,调查费用高 很少单独使用,一般结合其他方法使用 没有其他信息时使用 多变量复杂数据分析,2.2 简单估计量及其性质,判断下面要估计的总体目标量分别属于什么类型? 调查城市居民家庭平均用电量。 估计湖中鱼的数量。 测试日光灯的寿命。 估计居民家庭用于做饭菜及饮用的用水量占家庭总用水量的比重。 估计婴儿出生性别比。 检测食盐中碘含量。,2.2.1 对总体均值的估计,以样
18、本均值作为总体均值的估计 性质1:对于简单随机抽样, 是 的无偏估计。,例设总体为0,1,3,5,6,计算总体均值 =3、总体方差 =5.2和 =6.5;给出全部 的样本,并验证 及 。,样本编号,单元1,单元2,样本均值,-,样本方差,-,2.2.1 对总体均值的估计,证明 性质1,对于固定的有限总体,估计量的期望是对所有可能样本求平均得到的,因此总体中每个特定的单元 在不同的样本中出现的次数。,证明 性质1(对称性论证法),由于每个单元出现在总体所有可能样本中的次数相同,因此 一定是 的倍数,且这个倍数就是 ,,性质2:,对于有限总体的方差定义 :性质2:对于简单随机抽样, 的方差式中:
19、为抽样比,为有限总体校正系数。,证明性质2(对称论证法):,中的求和是对 项的,中的求和是对 项的,每个特定单位被选入样本的概率:=P(i)= 故其定义为:* 不放回抽样* 每个样本被抽中的概率为* 每个单位被选入样本的概率,利用无限总体理论,Mean,随机变量,2.2.1 对总体均值的估计,证明性质2,简单估计量估计精度影响因素:,估计量的方差 是衡量估计量精度的度量。影响估计量方差的因素主要是样本量n,总体大小N和总体方差 。通常N很大,当f0.05时,可将 近似取为1。总体方差是我们无法改变的; 因此,在简单随机抽样的条件下,只有通过加大样本量来提高估计量的精度。,性质3: 的样本无偏估
20、计为:,证明 :,2.2.1 对总体均值的估计,2.2.1 对总体均值的估计,大样本下,抽样调查估计量渐进正态,2.2.1 对总体均值的估计,【例2.3】我们从某个=100的总体中抽出一个大小为=10的简单随机样本,要估计总体平均水平并给出置信度为95%的区间估计。,2.2.1 对总体均值的估计,由置信度95%对应的 ,因此,可以以95%的把握说总体平均水平大约在之间,即2.4295和7.5705之间。,2.2.1 对总体均值的估计,有放回简单随机抽样,2.2.2 对总体总量的估计,【例2.4】续例2.3。估计总体总量,并给出在置信度95%的条件下,估计的极限相对误差。,在置信度95%下, 的
21、极限相对误差为:,2.2.3对总体比例的估计,某一类特征的单元占总体单元数中的比例P. 将总体单元按是否具有这种特征划分为两类,设总体中有个单元具有A这个特征,如果对每个单元都定义指标值,2.2.3对总体比例的估计,总体方差:,2.2.3对总体比例的估计,估计量 性质5:对于简单随机抽样, 是 P 的无偏估计。 的方差为:,证明,2.2.3对总体比例的估计】,【例2.5某超市新开张一段时间之后,为改进销售服务环境,欲调查附近几个小区居民到该超市购物的满意度,该超市与附近几个小区的居委会取得联系,在总体中按简单随机抽样抽取了一个大小为=200人的样本,调查发现对该超市购物环境表示满意或基本满意的
22、居民有130位,要估计对该超市购物环境持肯定态度居民的比例,并在置信度95%下,给出估计的近似置信区间、极限绝对误差。假定这时的抽样比可以忽略。,2.2.3对总体比例的估计】,95%近似置信区间为 58.37%,71.63% ,2.3 样本量的确定,所需要的精度 找出样本量与精度之间的关系 估计所需的数值,求解 n 如超出预算,调整精度值重新计算,2.3 样本量的确定,费用总费用 固定费用 可变费用,设计费 分析费 办公费 管理费 场租费 等,访问员费 交通费 礼品费 电话费 等,2.3.1 精度margin of error,对精度的要求通常以允许最大绝对误差 (绝对误差限)或允许最大相对误
23、差( 相对误差限)来表示。,样本量足够大时,可用正态分布近似,变异系数,2.3.1 精度margin of error,当N很大时, 0, n n0,wr与wor几乎没有区别。,样本量(Sample Size)n0为重复抽样条件下的样本量,2.3.1 精度margin of error,2.3.1 精度margin of error,总体参数为P的样本量n0为重复抽样条件下的样本量,2.3.1 精度margin of error,f0.05,2.3.2总体方差的估计,根据预调查数据或以前文献资料 根据数据的分布粗略估算S,例如全距/4,全距/ 6 对于比例估计,如果P在0.5附近(),可根据P
24、Q在P=0.5时达到极大值来对样本量进行计算 .,如果时间允许,且总体在时间上变化不快,调查可以分为两步,首先确定一个可以承受的样本量,调查后对估计精度进行计算,如果精度达到要求,则不再进行下一步,否则,计算为达到精度要求所需的样本量,再调查补充样本通过定性分析 ,最好是对总体变异系数进行分析并估计,因为变异系数通常变化不大.,2.3.2总体方差的估计,估计精度越高越好吗?简单随机抽样估计比例P的样本量与误差(当P=0.5时)样本量 误差d50 0.14100 0.10500 0.0451000 0.03210000 0.0098对精度要求的判断十分重要。为得到最小误差而选择最大样本量不是好的
25、选择。,2.3.3样本量设计中的误区,2. 样本量与总体规模N有关吗?按照总体比例确定样本量合适吗? 例:简单随机抽样估计P,置信度95%,允许误差5%,在P=0.5条件下总体规模(N) 所需样本量(n)50 44100 80500 2221000 2865000 37010000 385100000 3981000000 40010000000 400,2.3.3样本量设计中的误区,由此可知,在精度要求相同条件下,在北 京市进行一项调查和在全国进行一项调查,样 本量的差别并不大。总体规模越大,进行抽样调查的效率越高。若分类、分区、分层分别进行估计,如何处理?对于多项目,如何处理?,2.3.3
26、样本量设计中的误区,2.3.4其他影响因素,1. 所研究问题目标量的个数 2. 调查表的回收率例如回收率估计为80%,则应接触的样本量为计算出所需样本量的1.25倍; 3.非抽样误差 4.资源限制 5.有效样本 etc,(Design effect, Deff) 定义:简单随机抽样的样本估计量的方差与复杂抽样的样本估计 量的方差的比率。Deff Var( )为复杂样本估计量的方差。,2.4 设计效果,2.4 设计效果,设计效应 基什(L. Kish)提出 比较不同抽样方法的效率.,不放回简单随机抽样简单估计量的方差,某个抽样设计在同样样本量条件下估计量的方差。,Deff的作用:(1)评价抽样设
27、计的一个依据,如果deff1,则抽样设计比简单随机抽样的效率低。 (2)计算样本量如多阶段抽样的 Deff大约在22.5之间。n= n(deff) n为简单随机抽样所需样本量。,2.4 设计效果,放回简单随机抽样的deff为:常用于复杂抽样样本量的确定;在一定精度条件下,简单随机抽样所需的样本量比较容易得到,复杂抽样的样本量为,,2.4设计效果,2.5 稀有事件的抽样问题,如果估计的是非常稀有事件的比例,这时总体比例很小,用极限相对误差比极限绝对误差更好些。 对于稀有事件,所需的样本量会很大,例如:,针对稀有事件并无法给出确切范围, 对总体比例事先不同的假定,所导致的样本量差异非常大。 霍丹(
28、Haldane)提出的逆抽样方法:即事先确定一个整数m(m1),进行逐个抽样,直到抽到m个所考虑特征的单元为止.,2.5稀有事件的抽样问题,设n是实际的样本量,则P的一个无偏估计为当 n比较大, 时,很接近于1,2.5 稀有事件的抽样问题,规定了 或r、 t后,就可以确定m。如规定 =20%,则m=27。 可以证明,这时所需样本量n的均值为,第3讲 分层随机抽样,第03章 分层随机抽样,第04章,第03章 分层随机抽样,定义及符号 估计量及其性质 样本量的分配原则 样本量的确定 分层抽样的若干问题,3.1 定义及符号,3.1.1 定义在抽样之前,先将总体N个单元划分成L个互不重复的子总体,每个
29、子总体称为层,它们的大小分别为 ,这个层合起来就是整个总体 ,然后,在每个层中分别独立地进行抽样,这种抽样就是分层抽样,所得到的样本称为分层样本。如果每层都是独立按照简单随机抽样进行,则称为分层随机抽样,不重不漏,作用 分层抽样的抽样效率较高,也就是说分层抽样的估计精度较高。这是因为分层抽样估计量的方差只和层内方差有关,和层间方差无关。 分层抽样不仅能对总体指标进行推算,而且能对各层指标进行推算。 层内抽样方法可以不同,而且便于抽样工作的组织。,3.1 定义及符号,3.1.2 分层原则: 总体中的每一个单元一定属于并且只属于某一个层,而不可能同时属于两个层或不属于任何一个层。,估计:层内单元具
30、有相同性质,通常按调查对象的不同类型进行划分。 精度:尽可能使层内单元的指标值相近,层间单元的差异尽可能大,从而达到提高抽样估计精度的目的。 估计和精度:既按类型、又按层内单元指标值相近的原则进行多重分层,同时达到实现估计类值以及提高估计精度的目的。 实施:抽样组织实施的方便,通常按行政管理机构设置进行分层。,3.1 定义及符号,例题,例如,对全国范围汽车运输的抽样调查,调查目的不仅要推算全国货运汽车完成的运量,还要推算不同经济成分(国有、集体、个体)汽车完成的运量。 为组织的方便,首先将货运汽车总体按省分层,由各省运输管理部门负责省内的调查工作。 各省再将省内拥有的汽车按经济成分分层。 为提
31、高抽样效率,再对汽车按吨位分层。 例如,某高校对学生在宿舍使用电脑的情况进行调查,根据经验,本科生和研究生拥有电脑的状况差异较大。 因此,在抽样前对学生按本科生和研究生进行分层是有必要的。,3.1.3 符号说明 (关于第h层的记号 ),层号,3.2 估计量,3.2.1 对总体均值的估计 分层样本,总体均值 的估计分层随机样本,总体均值 的简单估计,3.2.1 估计量的性质,性质1:对于一般的分层抽样,如果 是 的无偏估计( ),则 是 的无偏估计。 则 的方差为:只要对各层估计无偏,则总体估计也无偏。 各层可以采用不同的抽样方法,只要相应的估计量是无偏的,则对总体的推算也是无偏的。,证明性质1
32、,由于对每一层有因此,估计量的方差由于各层是独立抽取的,因此上式第二项中的协方差全为0,从而有,3.2.1 估计量的性质,性质2:对于分层随机抽样, 是 的无偏估计, 的方差为:,证明性质2:,对于分层随机抽样,各层独立进行简单随机抽样,对每一层有因此,由性质1,有由第二章性质2,得因此,3.2.1 估计量的性质,性质3:对于分层随机抽样, 的一个无偏估计为:,证明性质3:,对于分层随机抽样,各层独立进行简单随机抽样,由第二章性质3,得 的无偏估计为:因此, 的一个无偏估计为:,3.2.2 对总体总量的估计,总体总量 的估计为: 如果得到的是分层随机样本,则总体总量的简单估计为:,3.2.2
33、对总体总量的估计,性质4:对于一般的分层抽样,如果 是 的无偏估计,则 是 的无偏估计。 的方差为:,3.2.2 对总体总量的估计,性质5:对于分层随机抽样, 的方差为:,3.2.2 对总体总量的估计,性质6:对于分层随机抽样, 的一个无偏估计为:,3.2.2 对总体总量的估计,例3.1 调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户划分为4层,每层按简单随机抽样抽取10户,调查获得如下数据(单位:元),要估计该地区居民奶制品年消费总支出及估计的标准差。,3.2.3 对总体比例的估计,总体比例P的估计为: 估计量的性质,性质7:对于一般的分层抽样,如果 是 的
34、无偏估计 ( ),则 是 的无偏估计。 的方差为:,3.2.3 对总体比例的估计,性质8:对于分层随机抽样, 是 的无偏估计,,因而 的方差为:,3.2.3 对总体比例的估计,性质9:对于分层随机抽样, 的一个无偏估计为:,3.2.3 对总体比例的估计,例3.2在例3.1的调查中,同时调查了居民户拥有家庭电脑的情况,获得如下数据(单位:台),要估计该地区居民拥有家庭电脑的比例及估计的标准差。,解:由上表可得,根据前面对各层层权 及抽样比 的计算结果,可得各层估计量的方差:,3.2.3 对总体比例的估计,因此,该地区居民拥有家庭电脑比例的估计为:估计量的方差为:估计量的标准差为:,3.2.3 对
35、总体比例的估计,3.3 样本量在各层的分配,确定样本量:总的样本量,各层样本量估计量的方差不仅与各层的方差有关,还和各层所分配的样本量有关。 实际工作中有不同的分配方法,可以按各层单元数占总体单元数的比例分配,也可以采用使估计量总方差达到最小、费用最小。,3.3 样本量在各层的分配,【例3.1】调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户划分为4层,每层按简单随机抽样抽取10户,调查获得如下数据(单位:元),要估计该地区居民奶制品年消费总支出及估计的标准差。,3.3 样本量在各层的分配,3.3 样本量在各层的分配,3.3.1 比例分配,按各层单元数占总体单元
36、数的比例,也就是按各层的层权进行分配.对于分层随机抽样,这时总体均值的估计是,自加权,总体中的任一个单元,不管它在哪一个层,都以同样的概率入样,因此按比例分配的分层随机样本,估计量的形式特别简单。这种样本也称为自加权的样本。,总体比例的估计是,3.3.2 最优分配,最优分配 在分层随机抽样中,如何将样本量分配到各层,使得总费用给定的条件下,估计量的方差达到最小,或给定估计量方差的条件下,使总费用最小,能满足这个条件的样本量分配就是最优分配。,3.3.2 最优分配,对所有层成立时, 达到极小,常数,3.3.2 最优分配,简单线性费用函数,总费用由此得出下面的行为准则,如果某一层 单元数较多 内部
37、差异较大 费用比较省 则对这一层的样本量要多分配一些。,3.3.3 Neyman(内曼)分配,如果每层抽样的费用相同,最优分配可简化为这种分配称为Neyman分配。这时, 达到最小。,例3.3 (续例3.1),如果样本量仍为40,则按比例分配和Neyman分配时,各层的样本量应为多少? 按比例分配时,各层的样本量为:,对于Neyman分配,,某些层要求大于100%抽样时的修正,按最优分配时,有时抽样比f较大,某个层的 又比较大,则可能出现按最优分配计算的这个层的样本量 超过 的情况。 实际工作中,如果第 k 层出现这种情况,最优分配是对这个层进行100%的抽样,即取 ,然后,将剩下的样本量 按
38、最优分配分到各层。,3.4 分层抽样的样本量,令 当方差 给定时,3.4.1 样本量的确定,当按比例分配时, 实际工作中,n的计算可以分为两步,先计算:然后进行修正:,3.4.1 样本量的确定,当按Neyman分配时,,例3.4 (续例3.1),如果要求在95%置信度下,相对误差不超过10%,则按比例分配和Neyman分配时,总样本量分别为多少?,=267,当按Neyman分配时:,3.4.2 最优分配需要考虑费用时,给定V时,给定C时,3.4.3 总体参数为P的情形,当方差给定时,如果 都比较大,使得,则总样本量为 按比例分配,3.4.3 总体参数为P的情形,Neyman分配计算样本量之前,
39、需要对 作预估计。,3.4.3 总体参数为P的情形,例3.5 (续例3.2),如果要求在95%置信度下,绝对误差不超过5%,则按比例分配和Neyman分配时,总样本量分别为多少?按比例分配时:,3.4.3 总体参数为P的情形,Neyman分配时:,3.5 分层时的若干问题,3.5.1 抽样效果分析 通常分层抽样比简单随机抽样的精度要高. 对于固定样本量的情况,如果 相对1可以忽略如果各层均值差异越大,则采用按比例分配的方式较好; 而当各层的标准差相差很大时,则最优分配更好。 在调查多个目标变量时,按比例分配的分层抽样可能更好些。,3.5.2 层的划分,最优分层 按调查目标量进行分层当然是最好的
40、,但我们在调查之前并不知道的值,因此,分层只能是通过与高度相关的辅助指标来进行。 累积平方根法:戴伦纽斯(Dalenius)与霍捷斯(Hodges)提出的,它的做法是将分层变量(例如)分布的累积平方根进行等分来获得最优分层,,3.5.2 层的划分,例3.6 某地区电信部门在对利用电话上网的居民家庭安装ADSL意愿进行调查时,以辖区内最近三个月有电话上网支出的居民用户为总体(上网电话费为0.02元/分钟),并准备按上网电话费支出(记为)进行分层,试确定各层的分点。,不等距,3.5.2 层的划分,最终累计频数是2712.949,如果取层数为4,则应每隔2712.949/4=678.237分一层,因
41、此分点应该使得累计 最接近678.237、1357.474、2034.712,即较合理的分层是70。,3.5.2 层的划分,层数的确定 因为要保证每个层有样本单元,因此层数不能超过样本量n,如果要给出估计量方差的无偏估计,则每层至少两个样本单元,那么层数不能超过n/2。,层数的增加确实能提高估计精度,以最简单的情形为例,是区间 上的均匀分布,则总体方差,样本量为 的简单随机抽样简单估计量的方差为 。将总体分成大小相同的 层,并按比例分配样本量,即 则,3.5.2 层的划分,除非 与 的相关系数 ,层数一般不超过6为宜。,3.5.3 事后分层,实际工作中 没有层的抽样框 总体特别大来不及事先分层
42、 几个变量都适合于分层,要进行事先的交叉分层比较困难,并且我们并不需要交叉分层后每个子层的估计,如需要按年龄分层的结果,还需要按受教育程度分层的结果,但并不需要这两个指标的交叉结果。 出现离群值 提高估计精度,3.5.3 事后分层,使用事后分层技术时,还应注意事后层不宜太多。 简单随机样本,事后分层落到第层的样本量h,nh固定并都大于0的条件下,n足够大时,为无偏估计,3.5.3 事后分层,第一项就是按比例分配分层抽样估计量的方差,第二项表示因事后分层而非事先按比例分配分层引起的方差增加量。 只要样本量足够大,事后分层的精度与按比例分配事先分层的精度相当。,3.5.3 事后分层,如果样本是按某
43、一个辅助指标分层后抽取的,只要这个事先分层抽样是严格按比例分配进行的,则这个样本是自加权的,总体中每个单元被抽中的概率相同,我们可以将这个样本看作简单随机样本,分别对其它指标进行事后分层估计。,3.5.3 事后分层,例3.7 某高校欲了解在校学生用于课外进修(如各种考证辅导班、外语辅导班等)的开支,在全校8000名学生中抽出了一个200人的简单随机样本,根据学生科的统计,本科生人数为全校学生的70,调查最近一个学期课外进修支出(元)的结果如下: 试估计全校学生用于课外进修的平均开支。,3.5.3 事后分层,3.5.3 事后分层,解:全校学生用于课外进修的平均开支为:估计的方差为:估计的标准差为
44、: 19.54(元),381.83,3.5.3 事后分层,解:如果采用简单估计,则估计的方差为:估计的标准差为:,20.57(元),第4讲 比估计和回归估计,第04章 比估计和回归估计,第04章 比估计和回归估计,比估计 回归估计 分层比估计与分层回归估计,为什么要使用比率估计/回归估计,利用总体的辅助信息提高估计的精度。 辅助指标的选择 :辅助指标应该与调查指标有较好的正的相关关系 。 的抽样分布较 的抽样分布变动性要小得多。 辅助指标的总体总量或总体均值已知。 比率估计、回归估计需要有足够的样本量才能保证估计的有效。 有偏估计:当样本量足够大时,估计的偏倚趋于0。,1802年,拉普拉斯(L
45、aplace)想要估计法国的人口数目。他获得了一个遍布全国范围的30commune的样本,截至1802年9月23日总共有2037615居民。在包括1802年9月23日以前的三年中,215599个新生儿在30个commune。 拉普拉斯认为30个commune的每年注册的新生儿数为215599/3=71866.33,把2037615按照71866.33来分,拉普拉斯估计每年每28.35人里有一个注册新生儿。 通过用28.35乘以全法国年度新生儿总数来估计得出法国人口总数。 调查中都有辅助信息,抽样框也通常有每个单元额外的信息,这些信息能被用来提高我们的估计精度。,利用辅助变量的信息改进估计的精度
46、,例:法国的Laplace受政府委托进行法国人口的估计与推算。推算方法如下:,利用辅助变量的信息改进估计的精度,简单地想要估计一个比率 :假定总体由面积不同农业用地构成,yi =i地谷物的产量,xi :i地的面积,B=每亩谷物的平均产量,利用辅助变量的信息改进估计的精度,例:有一批甘蔗欲估计其含糖总量。若按照简单随机抽样方法,从中随机抽取了n根样本甘蔗,若用样本均值 来估计总体均值 ,便得到每根甘蔗的平均含糖量,要得到总含糖量,还要乘以总根数,而当这批甘蔗量很大时,总根数不容易数清楚。,辅助变量法:每根甘蔗的含糖量与重量之间有密切关系,呈高度相关,在测每根甘蔗含糖量的同时,也测其重量,得到样本
47、甘蔗的含糖量和重量之间的一个比率R,含义是单位重量的含糖量,乘以这批甘蔗的总重量即得其总的含糖量,而这批甘蔗的总重量比总根数容易获得。,利用辅助变量的信息改进估计的精度,想要估计一个总体总数,但总体大小N是未知的。但是我们知道,于是可以通过来估计N,由此我们可以使用不同于总数N的方法而是采用辅助变量来进行测量。要估计渔网中长度长于12cm的鱼的总数,抽取一个鱼的随机样本,估计长度长于12cm的鱼所占的比例,用鱼的总数N乘以这个比例即可得到,但如果N未知不能使用。 能称量渔网中鱼的总重量。鱼的长度与其重量相关。,调整来自样本的估计量以便它们反映人口统计学的总量。 在一所具有4000名学生的大学提取一个400个学生的简单随机样本,此样本可能包含240个女性,160个男性,且其中被抽中的84名女性和40名男性计划以教学为毕业后的职业。,比率估计量被用来对无回答进行调整 设抽取一个行业的样本:令yi 为i行业花费在健康保险上的金额,xi 为i行业的雇员数。假定对总体中的每个行业xi 均已知。我们希望一个行业花费在健康保险上的金额与雇员数相关。某些行业在调查中可能涉及不到。估计保险费用的总花销时调整无回答的方法之一是用总体数 X 乘以比率,