收藏 分享(赏)

基于双系统估计量的中国非普查年人口总数估计.doc

上传人:无敌 文档编号:151756 上传时间:2018-03-22 格式:DOC 页数:14 大小:193.50KB
下载 相关 举报
基于双系统估计量的中国非普查年人口总数估计.doc_第1页
第1页 / 共14页
基于双系统估计量的中国非普查年人口总数估计.doc_第2页
第2页 / 共14页
基于双系统估计量的中国非普查年人口总数估计.doc_第3页
第3页 / 共14页
基于双系统估计量的中国非普查年人口总数估计.doc_第4页
第4页 / 共14页
基于双系统估计量的中国非普查年人口总数估计.doc_第5页
第5页 / 共14页
点击查看更多>>
资源描述

1、基于双系统估计量的中国非普查年人口总数估计 孟杰 杨贵军 天津财经大学中国经济统计研究中心 摘 要: 针对当前中国非普查年人口总数估计方法的不足, 本文提出利用人口抽样调查及其事后质量评估调查数据, 构造基于捕获再捕获模型的非普查年人口总数双系统估计量。首先, 介绍双系统估计量的构造及其估计方法。其次, 研究如何利用刀切法构建双系统估计量的方差估计。最后, 通过一组模拟数据演示非普查年人口总数双系统估计量及其方差估计的构造过程。本文的研究能显著提高中国非普查年人口总数估计的准确性和可靠性, 并对未来中国人口抽样调查的方案设计提供理论指导。关键词: 人口抽样调查; 非普查年人口总数估计; 双系统

2、估计量; 刀切法; 基金:国家社会科学基金青年项目 (17CTJ002) Estimate Chinese Total Population in Noncensus Year Based on Dual System EstimatorMENG Jie YANG Gui-jun Abstract: Based on the deficiency of the Chinese total population estimation method in noncensus year, this paper proposes dual system estimator to estimate th

3、e total population in noncensus year for improving the accuracy of Chinese total population, used population sampling survey and its post quality evaluation survey. Firstly, this paper introduces the construction and estimation method of dual system estimator. Secondly, using jackknife method to bui

4、ld variance estimation of dual system estimator is introduced. Finally, this paper uses simulate data to demonstrate the practice process of dual system estimator and its variance estimator. This research contributes to improve the accuracy of Chinese total population in noncensus year, and provide

5、theoretical direction for the future Chinese population sampling survey design.Keyword: population sampling survey; total population in noncensus year; dual system estimator; jackknife method; 0 引言准确估计非普查年人口总数有助于政府在两次人口普查间及时掌握人口、经济发展趋势, 为科学制定宏观经济政策和社会发展规划提供必要的数据支持。目前, 中国非普查年人口总数估计主要依赖于人口抽样调查数据, 即两次人

6、口普查间每五年一次的 1%人口抽样调查和每年一次的 1人口变动情况抽样调查。非普查年人口总数估计的准确性与人口抽样调查估计方法密切相关。实践中, 中国非普查年人口总数估计方法有普查人口比较法、户籍人口推算法、一年前常住地法和出生死亡率人口推算法。其中, 前三种估计方法的基本思想是:基于人口抽样调查获取的样本数据, 分别以前一次人口普查常住人口数、公安部户籍人口数、前一次人口抽样调查估计的人口数作为辅助变量, 构造人口总数的比率估计量估计本年度人口总数1。出生死亡率人口推算法的基本思想是:先利用人口抽样调查数据估计全国或某地区内的出生、死亡和人口迁移数据, 再构建人口统计分析模型计算当年全国人口

7、总数2。但这些方法在实践中仍存在较为明显的不足:只利用了非普查年人口抽样调查这一套人口登记名单。中国人口抽样调查的显著特点是在人口抽样调查结束后开展事后质量评估调查, 但现行的非普查年人口总数估计方法均未使用事后质量评估调查人口登记名单。辅助信息对人口总数比率估计量的准确度影响较大。例如, 不同调查小区的普查登记人口准确性参差不齐;低龄组的户籍人口数据往往存在严重的漏报问题;一年前常住地登记信息可能因被调查者记忆模糊而出现计量误差。未给出非普查年人口总数估计量的方差。依据抽样调查理论, 给出总体参数估计量后还应给出估计量的方差, 用于测度估计量的精度。这些问题直接影响了中国非普查年人口总数估计

8、的准确性3。改进中国非普查年人口总数估计方法的可行路径之一是, 引入当前人口总数估计领域的主流方法双系统估计量4。这里的双系统是指两套人口登记名单。概括来看, 构造双系统估计量估计人口总数的优点主要包括三个方面:一是能同时利用两套来源相对独立的人口登记名单, 对人口总体的覆盖度更广5。二是双系统估计量的理论基础是经典的捕获再捕获模型, 对辅助信息的使用更科学、效率更高6。三是它可以依据人口抽样调查方案, 构造人口总数估计量的方差估计。另一方面, 诸多国家的统计部门也已在实践中使用双系统估计量估计全国真实人口总数。例如, 美国普查局自 1980 年起至今的四次人口普查中, 均利用人口普查及其事后

9、质量评估调查数据, 构造双系统估计量估计全国真实人口总数, 并以此计算人口普查净误差7。荷兰统计局基于覆盖度较高的两套人口行政记录数据, 构造双系统估计量估计普查年全国人口总数8。中国国家统计局也高度重视双系统估计量的理论研究和实践应用, 在 2000 年和 2010 年人口普查中均构造双系统估计量估计普查年人口总数9-10。然而, 目前尚未有学者研究如何利用人口抽样调查数据, 构造非普查年人口总数的双系统估计量。显然, 人口抽样调查及其事后质量评估调查都是对目标人口总体的抽样登记, 即从有限总体中获取的概率样本。这就决定了在构造方法上非普查年人口总数的双系统估计量, 与常用的普查年人口总数的

10、双系统估计量存在差异。鉴于此, 本文的研究目标是构建中国非普查年人口总数的双系统估计量及其方差估计, 代替现行的有缺陷的非普查年人口总数估计方法。研究意义体现在三方面:其一是双系统估计量的理论性质更优良, 显著提高中国非普查年人口总数估计精度。其二是有助于中国国家统计局进一步推广应用双系统估计量, 为未来中国人口抽样调查方案设计提供指导。其三是对非普查年人口总数双系统估计量构造方法的研究, 有助于提升中国在人口总数估计领域的基础理论水平。1 非普查年人口总数的双系统估计量构造方法及其估计构造中国非普查年人口总数的双系统估计量, 需要使用人口抽样调查数据 (1%人口抽样调查或 1人口变动情况调查

11、数据) 以及人口抽样调查的事后质量评估调查数据。例如, 2015 年中国 1%人口抽样调查采用分层、等距、整群、随机方法抽样方法共抽取了 65000 个调查小区, 每个调查小区约 80 户、250 人, 共计约 1600 万人口。而 2015 年 1%人口抽样调查的事后质量评估调查采用相同的抽样方法, 共抽取了 100 个调查小区、每个调查小区约 80 户、250 人, 共计约25000 人。调查小区是人口抽样调查中的最终抽样单元。1.1 事后分层构造双系统估计量时要求总体中的每个个体在人口抽样调查和事后质量评估调查中有相等的概率被登记 (个体的两次登记概率可以不同) 。显然, 受年龄、性别、

12、居住区域、风俗习惯等各种因素的影响, 总体中每个人的登记概率不可避免地存在差异。对此, 一个可行的解决方法是对抽样获取的事后质量评估调查样本, 依据一定标准 (人口统计特征) 进行分层, 使各层内的个体大致具有相同或相近的登记概率。这样的一个层可称为事后层。在各事后层内构造人口总数双系统估计量的基本形式是:(1) 式中, 分别表示第 v 个事后层的人口总数双系统估计量、人口抽样调查登记人口数估计量、事后质量评估调查登记人口数估计量、同时被人口抽样调查和事后质量评估调查登记的人口数估计量。在此基础上, 汇总各事后层的人口总数双系统估计量得到全国真实人口总数的双系统估计量1.2 事后层双系统估计量

13、的构造由于在人口登记过程中很难保证每个人的登记信息都正确, 因此人口登记名单中必然存在登记信息不全者或是登记信息错误者。在构建双系统估计量时需要先将这部分登记者从登记名单中剔除, 否则会影响双系统估计量的精度。1.2.1 人口抽样调查系统的人口数记第 v 个事后层中人口抽样调查登记人口数为 NR, v。根据个人登记信息是否完善, 将登记人口数 NR, v分为比较信息充足者 NSI, v和比较信息不足者 NII, v。前者定义为在登记信息中填写了姓名以及至少两个人口统计特征的登记者, 可以与事后质量评估调查登记名单中的登记者进行匹配操作。后者则定义为未填写姓名或至少两个人口统计特征的登记者, 它

14、们的登记信息不完全导致无法进行匹配操作。另一方面, 比较信息充足者 NSI, v又可进一步划分为正确登记人口NCE, v和错误登记人口 NWR, v。正确登记人口 NCE, v是指登记者属于目标人口总体且只被登记一次。错误登记人口 NWR, v主要包括:不是一个具体的人 (宠物) 、不属于目标人口总体 (普查日后出生、普查日前死亡) 、重复登记, 等等。因此, 构建第 v 个事后层双系统估计量的人口抽样调查系统登记人口 N1, v为1.2.2 事后质量评估调查系统的人口数记第 v 个事后层中事后质量评估调查系统的登记人口数为 N, 1v。由于事后质量评估调查的样本量比人口抽样调查的样本量小得多

15、, 因而有足够的成本控制事后质量评估调查的数据质量。例如, 对于调查中存在的无回答, 可以开展再调查收集更多的下面信息, 或采用缺失数据插补方法11。在此基础上, 通常可以认为事后质量评估调查的登记人口均为正确登记。但需要指出的是, 事后质量评估调查时点的登记信息是对人口抽样调查时点的追溯登记, 两个时点之间必然存在人口移动。在一个调查小区内, 人口抽样调查时点和事后质量评估调查时点都居住在该调查小区的人口, 称之为无移动者Nnon, v;人口抽样调查时点居住在该调查小区, 而事后质量评估调查时点搬离该调查小区, 称之为向外移动者 Nout, v;人口抽样调查时点居住在其它调查小区, 而事后质

16、量评估调查时点搬入该调查小区, 称之为向内移动者 Nin, v。显然, 事后质量评估调查系统的登记人口数应为 Nnon, v+Nout, v。但由于调查向外迁移者的难度较大, 有可能会增加结果的偏差。从全国角度看可以使用向内迁移人口数代替向外迁移人口数。在调查小区内, 向内迁移者的信息也比向外迁移者更容易收集。因此, 构建第 v 个事后层双系统估计量的事后质量评估调查系统的人口为1.2.3 两系统的匹配人口数人口抽样调查系统和事后质量评估调查系统中个人信息的匹配, 可以得到两系统的匹配人口数 N11, v。通常匹配操作的标准是, 若两个系统中的登记人口在姓名、年龄、性别等人口统计特征方面完全相

17、同或至少有 90%以上的信息相同就记为匹配。另外, 若在人口抽样调查系统中的某个登记者未在事后质量评估调查系统中找到, 则记其为错误登记人口;若在事后质量评估调查系统中的某个登记者未在人口抽样调查系统中找到, 则记其为漏报人口。估计错误登记人口和漏报人口对于改进和完善人口抽样调查方案设计具有重要的参考作用。与事后质量评估调查系统的人口数相对应, 两系统的匹配人口数又可划分为无迁移的匹配人口数 Mnon, v, 向内迁移的匹配人口数 Min, v, 向外迁移的匹配人口数 Mout, v。第 v 个事后层两系统的匹配人口数为但由于在开展人口抽样调查时向内迁移者还没有进入该调查小区, 无法收集更多相

18、关数据。不过, 从全国角度看向内迁移人口数 Nin, v等于向外迁移人口数Nout, v, 向内迁移的匹配人口数 Min, v等于向外迁移的匹配人口数 Mout, v, 所以可用向外迁移的匹配率 Mout, v/Nout, v推算向内迁移的匹配人口数 (U.S.Census of Bureau, 2004) , 即因此, 构建第 v 层双系统估计量两系统的匹配人口数为基于 (3) 式至 (7) 式可以得到第 v 个事后层的双系统估计量 为最后, 再根据 (2) 式汇总各事后层的人口总数双系统估计量, 得到全国人口总数的双系统估计量。1.3 事后层双系统构成部分的人口数估计量构建双系统估计量要求

19、对人口总体的两次登记也应为全面登记, 而人口抽样调查和事后质量评估调查都属于对目标人口总体的抽样登记。为此, 需要结合中国人口抽样调查的事后质量评估调查抽样方案, 构造双系统估计量各构成部分的人口数估计量。1.3.1 事后质量评估调查方案以 2015 年中国 1%人口抽样调查的事后质量评估调查为例, 介绍它的抽样调查方案。首先, 以 2015 年 1%人口抽样调查的地址码库编制抽样框。例如对于村级抽样框, 抽样框中的信息应包括:所在的省域、地级单位、县级单位、乡级单位、城乡属性代码 (需要与设计管理部门保持一致) 。此外, 还需要明确各调查小区的边界标绘。其次, 根据各省域的城乡分布、流动人口

20、数量、常住人口数量等标志将各省域分为 3 个层。并依据确定的总样本量在各层内分配, 同一层内的省域抽取相同数量的调查小区。最后, 在各省域内采用分层 (城乡为分层标志) 、等距、整群、概率抽样方法抽取调查小区。2015 年中国 1%人口抽样调查的事后质量评估调查中, 各省域抽取的样本调查小区个数如表 1 所示。表 1 2015 年全国 1%人口抽样调查的事后质量评估调查各省域样本调查小区数量 下载原表 1.3.2 利用样本数据构造双系统各构成部分的人口数估计量事后质量评估调查的样本抽取方案在一定程度上可视为分层、一步、整群抽样方法。假设在各省域内以城乡为标志共分为 h (h=1, 2) 层,

21、第 h 层的调查小区个数为 Bh个, 从各层中抽取的调查小区个数为 bh个, 则计算 (8) 式中第 v层双系统估计量各构成部分的人口数估计量可表示为其中 h=Bh/bh, 表示每个被抽中的样本调查小区的抽样权数。I hj为示性函数, 若第 h 层的第 j 个调查小区进入样本, 则 Ihj=1;否则, I hj=0。y hj, v为抽取的第h 层第 i 个调查小区中第 v 个事后层的指标观测值。 (9) 式适用于 (8) 式中这六个指标人口总数估计量的构造。2 非普查年人口总数双系统估计量的方差估计依据抽样调查理论, 给出总体参数估计量后还必须给出估计量的方差, 用于描述总体参数估计量的精度。

22、2.1 刀切法概述中国非普查年人口抽样调查实践中, 分层、一步、整群抽样可视为复杂的抽样调查方案, 一般抽样方法的方差估计方法并不适用。刀切法 (Jackknife method) 可用于构造复杂抽样过程下总体参数估计量的方差估计, 并已被应用于美国人口普查质量评估7。鉴于此, 本文提出使用刀切法构造非普查年人口总数双系统估计量的方差估计。该方法也适用于构造双系统估计量个构成部分人口数估计量的方差估计。对于分层、一步、整群抽样, 第 v 个事后层人口总数双系统估计量的方差估计的计算步骤可以概括为:设从总体的 h 个层中共抽取了 b 个调查小区, 每个层中抽取的调查小区数量为 bh个, 从 b

23、个调查小区中刀切掉其中一个调查小区, 基于剩余的 b-1 个调查小区重新计算各调查小区的抽样权数 h, 即刀切法的复制权数。根据新的抽样权数 h, 依据 (8) 式和 (9) 式计算事后层 v 的人口总数双系统估计量重复此过程 b 次, 每次刀切掉不同的调查小区, 共得到 b 个事后层 v 的人口总数双系统估计量则事后层 v 的人口总数双系统估计量的方差估计为2.2 刀切法复制权数的计算应用刀切法计算第 v 个事后层人口总数双系统估计量的方差估计时, 最重要的是刀切法复制权数的计算。这是指, 在刀切掉一个调查小区后 (9) 式中其余调查小区的抽样权数会随之变化, 需要重新计算它们的抽样权数。换

24、言之, 重点是如何利用剩余的 b-1 个调查小区观测数据重新构造估计量下面介绍在分层、一步、整群抽样中刀切法复制权数的计算方法。设每个层中分别有 Bh个调查小区。刀切掉第 i 个调查小区后, 其余调查小区的权数为 hi, p 表示刀切掉的调查小区所在的层 h, q 表示刀切掉的调查小区与其余调查小区的关系。计算过程为:若刀切掉的调查小区就是所讨论的调查小区, 即 h=p, i=q, 则讨论的调查小区 i 的抽样权数等于 0;若刀切掉的调查小区与所讨论的调查小区不在同一个层, 即 hp, 则该调查小区的抽样权重不受影响, 抽样权数仍为 Bh/bh;若刀切掉的调查小区与所讨论的调查小区在同一个层,

25、 即 h=p, iq, 则所讨论的调查小区所在层的样本个数减少一个, 该层内每个调查小区的抽样权重变为 (B h/b h) bh/ (bh-1) 。按照上述三种情况, 刀切法的复制权数可概括为:2.3 各事后层间协方差的计算由于不同的事后层内登记者之间可能有交互影响或相关关系, 例如 15-64 岁、居住区域为城市的男性群体与 65 岁及其以上、居住区域为城市的男性群体之间, 如果两个人居住在同一个家庭就可能相互影响。因此估计全国真实人口总数的双系统估计量方差时, 还需计算各事后层之间的协方差。记不同事后层 v 之间的协方差为经汇总得到全国人口总数的双系统估计量的方差估计为3 中国非普查年人口

26、总量估计的模拟研究本文在此给出构造中国非普查年人口总数双系统估计量及其方差估计的模拟计算过程。没有对此进行实证研究的原因是:构造非普查年人口总数双系统估计量及其方差估计时, 必须同时获取中国人口抽样调查及其事后质量评估调查这两套人口登记名单, 并利用其中的个人微观数据, 即姓名、年龄、出生日期、受教育程度、住址, 等等。然而, 这些个人登记信息涉及个人隐私, 每个国家都有法律或条例保护公民隐私, 中国也不例外。换言之, 各国国家统计部门具有构造双系统估计量所需要的数据。但据笔者所知, 迄今为止他们从未将这些数据提供给任何一个其他机构或个人。例如, 国内外其它相关研究中使用的数据也均是对样本中个

27、人登记的汇总信息而不是每个人的信息9,12。本文模拟研究的基本思路是:依托于中国人口抽样调查及其事后质量评估调查各个调查小区的特点 (每个调查小区 80 户, 约 250 人) , 生成随机模拟数据, 保证模拟数据的背景与人口抽样调查及其事后质量评估调查方案一致, 以此演示双系统估计量及其方差估计的一般构造过程, 并论证该方法在中国非普查年人口总数估计中的适用性。模拟研究的价值体现在两方面:一是为中国国家统计局应用双系统估计量估计非普查年中国人口总数提供指导;二是为其它学者开展双系统估计量等相关领域的研究提供了一种新的研究思路。3.1 模拟数据为了便于分析, 以估计中国某行政区域 (省、直辖市

28、、地级市、区县等) 真实人口总数为例, 对全国人口总数的估计可依此类推。假设某行政区域共有 564个调查小区, 将其分为城镇和乡村两个层。其中, 城镇层中共有调查小区 426个, 乡村层中共有调查小区 138 个。采用分层、一步、整群、概率抽样方法从两个抽样层中各抽取 3 个调查小区。根据 (3) 式至 (7) 式, 对原始数据进行分组、追溯和调整, 表 2 给出了汇总的 6 个样本调查小区的人口抽样调查登记人口数、事后质量评估调查登记人口数、两次调查匹配人口数。对调查小区数据进行事后分层, 并假设选择性别和年龄作为事后分层标志。性别变量分为男性和女性两类, 年龄变量分为 0-14 岁、15-

29、64 岁、65 岁及以上三个类别。两个事后分层变量经交叉共形成 6 个事后层, 分别记为 v=1, 2, , 6, 如表 3 所示。表 4 给出了 6 个样本调查小区人口抽样调查登记人口数、事后质量抽查登记人口数和两次调查登记匹配人口数在各事后层的随机分配结果。表 2 样本调查小区基本数据信息 下载原表 表 3 人口抽样调查事后分层方案 下载原表 表 4 各样本调查小区事后层内数据 下载原表 3.2 各事后层人口总量的双系统估计量先计算各样本调查小区的抽样权重 h。每个城镇样本小区的抽样权重为 1=426/3=142, 每个乡村样本小区的抽样权重为 2=138/3=46。基于表 4 的数据,

30、依据 (9) 式分别计算各事后层的人口抽样调查登记人口数估计量、事后调查抽查登记人口数估计量 和两次调查登记匹配人口数估计量 。进而, 根据 (1) 式计算出各个事后层的双系统估计量。以 v=1 事后层为例, 该事后层人口总数的双系统估计量为:其它层的人口总量估计量计算与此相同, 表 5 给出了计算结果。表 5 各事后层人口总数的双系统估计量 下载原表 3.3 各事后层人口总量双系统估计量的方差估计得到各事后层的双系统估计量后, 再利用刀切法计算其估计方差。依次刀切掉第 1 至第 6 个样本调查小区, 依据 (11) 式重新计算各调查小区的抽样权重 h, 即刀切法的复制权数 hi, 表 6 给出了计算结果。表 6 刀切掉第 i 个样本调查小区后其它样本调查小区的抽样权重 下载原表

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报