1、1,第五章 比估计与回归估计,第一节 比估计的一般形式 第二节 分层比估计 第三节 回归估计的一般形式 第四节 分层回归估计,2,第一节 比估计的一般形式,一、比估计综述比估计是依据调查变量与辅助变量间的比率来对总体有关参数进行估计和推断。通常简称比估计。同简单估计相比,比估计具有以下特点:(1)在比估计中,除调查变量外,还需要了解与调查变量有关的辅助变量,并且要求辅助变量的总体均值或总体总和必须事先已知。 (2)比估计方法,对抽样调查单元是有条件的,通常是用组成总体的最基层单位为调查单元。,3,(3)比估计只适用于有限总体,因为只有有限总体才可能计算出为比估计所需要的辅助变量的总体总和与总体
2、均值。(4)当每个单元的调查变量与辅助变量的比例(一般要求为正比例)十分稳定,且变异很小时,比估计就具有十分精确的估计效果,只要抽取少量的样本单元,就可得到满意的结论。(5)在比估计时,出于估计精度方面的要求,选择辅助变量时,须与调查变量的关系愈密切愈好,至少要求相关系数在1/2以上。,4,在实际工作中,为了充分发挥比估计的优越性,在应用比估计时应考虑两条:一是选与调查变量有较密切的正相关关系的变量作为辅助变量。因为如果辅助变量与调查变量的关系不密切,各自独立变化,则对比估计起不了应有的辅助作用。二是样本容量要比较大。因为比估计是有偏倚的,只有当样本容量n比较大时,其偏倚才能比较小,比估计才更
3、加有效。,5,设总体有N个单元,对每个单元考虑两个指标y和x。抽取容量为n的简单随机样本,则总体比率R的估计量为:其中: , 分别为指标 与 的样本和。,二、总体比率的估计,6,比率估计是有偏的,但当样本量n增大时,偏倚逐渐趋于零。所以,当n增大时, , 为R的近似无偏估计量,其方差为,7,当总体方差未知时,可用样本方差替代,以估计方差。此时,或,8,前面两章所讨论的估计量只是利用了调查变量的信息,这样的估计量称为简单估计量。当调查变量和辅助变量具有正相关关系时,为了利用辅助变量的信息,可以构造总体均值或总和的比估计量。在简单随机抽样中,总体均值和总体总和的比估计量分别为:其中 或 必须已知。
4、,三、总体均值和总和的比估计,9,当n充分大时即 与 分别是 与 的近似无偏估计。 其方差估计量为:,10,对简单随机抽样,若n足够大,则当时,有其中分别为总体中x与y的变异系数。,四、比估计量与简单估计量的比较,11,特别当 (例如当x是y的前期数据时有这种可能)时,只要1/2,比估计量就比简单估计量更为精确。对一般问题,可先作一试点调查,估计出的值,再判断作出选择比估计量或是简单估计量。所以,我们的一个基本结论为:利用比估计提高抽样效果的条件是1/2。,12,估计总体比率时如果允许 的最大方差为V,当n大时, 可得:将 代入上式,则得:,五、样本容量的确定,13,第二节 分层比估计,一、各
5、层分别比估计各层分别比估计是先对各层分别进行比估计,然后按层权加权平均,以得出总体参数的估计,即:,14,在分层随机抽样中,若每层的样本量 都较大,则 为Y的近似无偏估计。其方差为: 当各层的总体方差未知时,可用相应的样本方差代替。由此得到方差的估计量:,15,联合比估计是先按分层随机抽样公式估计Y和X:然后用这两个量的比及已知的X对Y作估计:其中:,二、联合比估计,16,联合比估计 只需要已知X,而无需已知每层的 。此时:分层随机抽样中,若总样本量n较大,则 与 分别为Y与 的近似无偏估计,其方差为,17,从偏倚的角度看,各层分别比估计量 的偏倚较大,从方差的角度看,除了各层比率 均相等时,
6、 外,一般只要各层的样本量均较大时,各层比估计更加有效,即有:因此,当 均大时,用分别比估计量 ,否则,用联合比估计量 较好。,三、各层分别比估计量与联合比估计量的比较,18,第三节 回归估计的一般形式,一、回归估计概述回归估计就是根据样本各单元调查变量与辅助变量间的关系构造回归方程,并据回归系数对总体有关参数进行估计。如果在回归估计中只有一个辅助变量,则所进行的估计称为一元回归估计,若同时采用多个辅助变量综合进行估计,则称为多元回归估计。,19,回归估计的主要特点有:回归估计充分利用了有关的辅助变量资料以有效地提高估计的精度;回归估计中要求辅助变量的总体均值或总和事先已知;回归估计一般只适用
7、于有限总体,因为只有有限总体才可能计算出辅助变量的总体均值和总和; 回归估计量一般优于比估计量和简单估计量。,20,二、回归估计量的一般形式对于简单随机抽样,总体均值与总和Y的线性回归估计量定义为:,1.为设定的常数(如)时的情形回归估计量则为:在简单随机抽样中, 是 的无偏估计量。其方差为:,22,为 的无偏估计量.当 时,的方差达到极小,且,23,2、需从样本计算时的情形,当需从样本计算时,受前面确定的最佳值的思路的启发,的一个有效估计应是总体回归系数的最小二乘估计,也即取为样本回归系数。此时总体均值的回归估计量为此时是有偏的。,24,当很大时,有由于1,故 (时,取等号)。,三、回归估计
8、量与简单估计量及比估计量的比较,25,而因此 .(B=R时,取等号)可见,在大样本时,回归估计量的精度要好于简单估计量和比估计量。,Back,26,第四节 分层回归估计,一、各层分别回归估计先对每层分别进行回归估计然后按层权加权平均,得总体平均数的估计量为:当各层的理论回归系数 之间有较大差异时,考虑用此法。,27,联合回归估计是先对及作分层估计,即得到估计量 和 ,然后用这两个估计量构造 回归估计量则 与 的联合回归估计分别为,二、联合回归估计,28,(一)当 事先设定时,它们都是无偏的,且它在 取下式 时达到极小值:,30,令 即 是 各层回归系数的加权平均值。,31,为比较分别回归估计与
9、联合回归估计,做最小方差差值:上式表明:对最优的 与 的设定,分别回归估计优于联合回归估计,尤其是当各层回归系数相差大时,分别回归估计效果更为显著。,32,(二)当 必须从样本估计时,我们取 的样本估计:,33,如果样本量是按比例分配的,又用 代替上式中的 ,则上式即可简化为通常的联合最小二乘估计:并不是在任何情况下, 与 都是好的。例如若 都相等,但各层残差方差相差较大时,则用 的与估计方差成反比的权的加权平均更为适宜。,34,为计算 的方差,注意若 的抽样误差可以忽略的话,则它可用下式进行估计:,35,若各层的 不太大时, 的变化也不大时,宜用联合估计;而当 的变化较大, 也比较大时,则用分别估计效果更好。若层内回归规律性不是很强,则除非 都相当大,否则,通常还是用联合估计比较保险。,本章内容讲授结束,