1、非人工调查数据在精准扶贫中的应用设想 申孟宜 程超 黄川 中国社会科学院研究生院 清华大学数学科学系 摘 要: 本文针对精准扶贫中的难点问题人工调查数据失真、不准确导致的贫困户识别瞄准率不高, 提出应充分利用非人工调查数据衡量家庭的贫困程度, 并通过微观数据验证用电消费数据、通信邮电消费数据与贫困的主要衡量指标收入、支出之间的相关性, 并分区域进行了讨论, 由此给出在精准扶贫实践和贫困经济学理论中应用这两类数据的新思路。关键词: 非人工调查数据; 精准扶贫; 用电消费; 通信邮电消费; 多元回归; 作者简介:申孟宜, 男, 1984 年生, 重庆人, 现为中国社会科学院研究生院博士研究生, 研
2、究方向为国民经济学。作者简介:程超, 男, 1995 年生, 山东淄博人, 现为清华大学数学科学系硕士研究生, 研究方向为金融统计学。作者简介:黄川, 男, 1993 年生, 台湾人, 现为清华大学数学科学系硕士研究生, 研究方向为统计学。一、研究背景精准扶贫政策与过去的区域扶贫等政策相对, 是指针对不同贫困区域环境、不同贫困农户状况, 运用科学有效程序对扶贫对象实施精确识别、精确帮扶、精确管理的治贫方式。2015 年 10 月 16 日, 习近平总书记提出了精准扶贫的基本要求“六个精准”:扶贫对象精准、项目安排精准、资金使用精准、措施到户精准、因村派人精准、脱贫成效精准。“扶贫对象精准”即精
3、准识别贫困人口对其建档立卡, 排在了 6 个精准的第 1 位, 是其他 5 个精准得以实施的必要基础, 是精准扶贫政策能够有效落实的首要前提。精确识别贫困人口对于世界各国政府、民间组织开展的扶贫实践和贫困经济学理论研究都是难题。国内外研究者提出了不少相关理论和方法。奥珊斯基 (Orshansky, 1969) 建议采用恩格尔系数法判别家庭是否贫困。世界银行经济学家马丁 (Martin) 提出了高、低贫困线判别贫困人口方法即马丁法。阿尔柯克 (Alcock, 1993) 提出用标准预算法、收入替代法和剥夺指标法等 3 种方法测量贫困。汪三贵等 (2007) 从住户人口特征、户主特征、资产和自然资
4、源、经营行为和服务特征、社区特征 5 个维度中归纳出 59 个变量识别贫困人口。韩华为等 (2013) 从家庭人口结构、人力资本状况、家庭财产情况等多个维度识别贫困。李俊杰等 (2015) 从教育、消费等维度分别测量了土家族、苗族和汉族居民的多维贫困状况, 识别出少数民族和汉族在贫困维度上的显著差异。在现实操作层面, 中国识别农村贫困人口大多采用入户调查方式收集家庭成员基本信息, 收入支出、教育医疗等基本情况, 并据此与事先划定的贫困人口收入标准、“两不愁三保障”基本权利作比较, 未达到收入标准、未享有基本权利的家庭被列入建档立卡贫困人口初步名单。而最终名单还要经过村级、镇级的多次往复公示和县
5、扶贫部门的认定, 才能够进入国家建档立卡贫困户数据库。总体来说, 精准识别贫困人口的操作步骤已经比较规范、科学。但是, 目前的贫困人口识别方法基本都建立在人工调查所得各项指标数据上, 而人工调查一方面可能会受到被调查者对指标理解程度、调查员调查水平等能力因素的影响, 另一方面可能会由于被识别为贫困人口能带来实际利益, 产生主观造假而使数据失真。而且, 人工入户调查耗费大量的人力、财力、物力, 已在基层产生一定怨言, 精准识别贫困人口面临“费力不讨好”的局面。已有一些学者注意到此方面问题, 胡思洋等 (2017) 主张改变以家计调查为主的瞄准方法, 引入与贫困相关度高、可观测的外生指标作为“目标
6、指示器”, 结合大数据瞄准穷人。张翔等 (2017) 分析了家庭用电量与收入、常住人口、住房面积等指标的关系, 提出可以对电力消费相对较多的低保 (申请) 家庭实行重点审查。尽管做了很多努力, 但无论是理论层面还是实践层面, 对非人工调查数据的开发应用仍远远不够, 大多仅采用宏观汇总数据, 即使使用了微观数据也只在全国层面笼统研究。因此, 本文以 2014 年和 2016 年最新的中国家庭追踪调查微观数据 (CFPS) 为基础, 研究了用电消费和通信邮电消费数据与家庭收入、支出的定量关系。因为用电消费和通信邮电消费这两指标均由机器记录生成、无需人工直接调查, 准确度高、成本低, 如能发现它们与
7、收入、支出的关系, 可以为如何在精准扶贫工作实践和贫困经济学理论研究中充分应用非人工调查数据提供进一步思路。本文就此做一尝试探索。二、用电消费与贫困的关系电力是现代社会绝大多数家庭生活无法离开的基本元素。家庭生活用电主要是以下几方面:照明用电, 家电制冷、制热用电, 电炊用电以及电子设备用电。这几方面用电量的大小直接取决于耗电设备的拥有数量和使用频率。拥有数量体现的是家庭存量财产, 使用频率则与家庭流量收入、生活习惯以及家庭人口结构、地理位置等密切相关, 这些都能与家庭贫困程度建立联系。且用电消费数据又能从电表直接读取记录, 具有较高客观性、及时性。鉴于此, 笔者对家庭用电消费数据与家庭收入、
8、支出的关系做进一步研究。本文所用指标和数据来自 2014 年和 2016 年中国家庭追踪调查中 12626 个农村家庭样本。在每月用电费用、年度收入、年度支出 3 个变量之外, 筛选出做饭燃料、做饭用水、是否持有金融产品、家庭人数等其他 4 个变量以反映用电费用变量以外其他因素对家庭年度收入、年度支出的影响。2016 年除前述变量外, 研究还使用了当年新增的家庭耐用消费品总值。在这些变量中, 做饭用水为分类变量, 共分为自来水、桶装水/纯净水/过滤水、井水、雨水、窖水等, 本文将自来水、桶装水/纯净水/过滤水这两项做饭用水来源赋值为 1, 其他做饭用水来源赋值为 0, 从而把做饭用水处理为 0
9、-1 虚拟变量。做饭燃料同为分类变量, 分为柴草、煤炭、电力、管道煤气等, 相似的, 把煤炭和柴草赋值 0, 其他类型赋值为 1。直观上来看, 做饭燃料和做饭用水取值为 1, 说明该家庭的基本生活设施相对比较完善, 相对于其他家庭来讲收入和支出应该相对较高。中国地广人多, 每个地方的气候、地理、生活习惯不尽相同甚至差异很大。不同地区的电力消费习惯、用水喜好、金融投资习惯也各不相同。因此, 根据国家统计局 2011 年提出的国家经济区域划分方法, 笔者将家庭数据按所属省份划分为东北地区、东部地区、中部地区、西部地区 4 个区域。从表 1 直观地可以看出, 家庭收入最高的东部地区用电消费也最高,
10、收入最低的西部地区用电消费也最低, 中部、东北地区居中。下面对这 4 个区域分别进行回归分析。设置家庭收入与用电消费的回归方程为:家庭支出与用电消费的回归方程为:其中, i 为样本序号, intercept 为截距项, income 代表家庭年收入, expenditure 代表家庭年支出, ele 为家庭每月用电费用, fuel 为做饭燃料, water 为做饭用水, fina 为家庭持有金融产品情况, 为一个 0-1 虚拟变量, 1代表持有金融产品, 0 代表未持有。sqrt (familysize i) 为家庭人数平方根, durble 为家庭耐用消费品总值。表 2、表 3 为家庭收入、
11、支出与每月用电费用等各影响因素的回归结果。从结果中看出家庭收入与每月用电费用在 1%显著性水平上呈正相关关系, 家庭支出与每月用电费用在 5%显著性水平上呈正相关关系。每月用电消费越高, 家庭收入、支出通常也越高。与此同时, 做饭燃料、家庭人数平方根和家庭耐用消费品总值也一定程度反映家庭收入、支出的变化情况。分区域看, 收入方面, 在控制其他因素不变的情况下, 2016 年, 西部地区家庭每月用电费用每增加 1 元, 年收入平均增加 198.1 元, 东部地区家庭每月用电费用每增加 1 元, 年收入平均增加 196.5 元, 明显高于中部和东北地区;2014年, 中部地区家庭每月用电费用每增加
12、 1 元, 年收入平均增加 115.9 元, 明显高于其他三个区域。支出方面, 在控制其他因素不变的情况下, 2016 年, 东部地区家庭每月用电费用每增加 1 元, 年支出平均增加 139.5 元, 明显高于其他三个区域;2014 年, 中部地区家庭每月用电费用每增加 1 元, 年支出平均增加100.5 元, 东部地区家庭每月用电费用每增加 1 元, 年支出平均增加 89.2 元, 高于西部和东北地区。中国不同区域用电消费与收入、支出的关系有所不同, 其更清晰的定量关系以及背后的深层原因有待进一步研究。其他 5 个变量对收入、支出的影响如下。在大多数地区, 做饭燃料对家庭收入存在相对显著的正
13、向相关关系, 说明采用管道天然气等作为主要燃料的家庭其收入比其他家庭要高。做饭用水、是否持有金融资产和家庭收入、支出之间也存在一定程度上的正向相关关系, 但影响并不显著。家庭人数平方根与家庭收入支出呈现出显著正向相关关系, 值得注意的是, 家庭收入支出增多与家庭人数增加并不是线性关系, 因为家庭人数增加多为子女, 增加子女一般情况下只为家庭带来支出不会带来收入。值得一提的是, 本文发现, 家庭耐用消费品总值与家庭收入、支出之间在 1%的条件下均存在显著的正向相关关系, 控制其他变量不改变的情况下, 耐用消费品总值每增加 1 元, 家庭收入平均增加0.20.6 元, 支出平均增加 0.150.3
14、 元。表 1 分区域描述性统计 下载原表 三、通信邮电消费与贫困的关系笔者从农村调研得知, 近年来手机大幅降价、通信基站大面积覆盖, 使得农村家庭拥有手机、使用手机变得较为普遍, 通信消费成为农村家庭每月消费的重要组成部分。肖欢等 (2014) 指出城镇和农村居民的人均可支配收入与人均交通通信消费支出之间存在长期的均衡关系, 而且农村居民在人均可支配收入增长前提下, 对于交通通信消费有着更强烈的需求愿望。因此, 通信消费应能在一定程度反映家庭的收入支出情况。同时, 通信消费与手机号码一一对应, 被机器客观记录存储, 数据较为真实, 如能充分利用这部分数据则又能提高识别贫困人口的精准度、降低识别
15、的成本。由于仅获得通信邮电消费数据, 本文只能先研究通信邮电费用与家庭收入、支出的关系。2014 年和 2016 年 CFPS 数据中通信邮电费用变量统计描述见表 4。表 2 家庭收入与用电费用关系 下载原表 表 3 家庭支出与用电费用关系 下载原表 表 4 分区域通信邮电消费描述统计单位:元 下载原表 家庭收入与通信邮电费用的回归方程设定为:家庭支出与通信邮电费用的回归方程为:其中, communic 为每月邮电通信费用, 其他符号与上节中的符号相同。表 5、表 6 为家庭收入与通信邮电费用等变量的回归结果, 从中可以看出, 除2016 年东北地区的结果之外, 家庭收入、支出均与通信邮电费用
16、在 5%的显著性水平下存在正相关关系, 这意味着家庭通信邮电费用的提高在某种程度上体现出家庭年收入、年支出的增加。2016 年东北地区通信邮电费用变量的回归系数不显著可能是由于样本量较小存在抽样误差。表 5 家庭收入与通信邮电费用关系 下载原表 表 6 家庭支出与通信邮电费用关系 下载原表 分区域看:收入方面, 在控制其他因素不变的情况下, 2016 年, 东部地区家庭每月通信邮电费用每增加 1 元, 年收入平均增加 93.4 元, 明显高于其他三个区域;2014 年, 中部地区家庭每月通信邮电费用每增加 1 元, 年收入平均增加70.9 元, 高于其他三个区域。支出方面, 在控制了其他因素不
17、变的情况下, 2016 年, 东部地区家庭每月通信邮电费用每增加 1 元, 支出平均增加 42.6 元, 中部地区家庭每月通信邮电费用每增加 1 元, 支出平均增加 37.0 元, 高于西部和东北地区;2014 年, 中部地区家庭每月通信邮电费用每增加 1 元, 年收入平均增加 55.4 元, 高于其他三个区域。四、结论与建议第一, 用电消费、通信邮电消费两指标都与农村家庭的收入、支出存在显著正相关关系, 二者可以应用于识别农村贫困人口。第二, 用电消费数据、通信邮电消费数据可用于匹配检验贫困户信息、脱贫成效等数据的真实、准确性。第三, 所处区域不同, 用电消费、通信邮电消费与农村家庭收入、支
18、出的相关性有所不同, 因此如在实践中运用, 不同地区应不同对待。其更深入的关系值得进一步研究。第四, 本文是在控制了家庭做饭燃料、家庭人数、耐用消费品、所处区域等变量前提下, 得出用电消费、通信邮电消费与农村家庭收入、支出的具体关系, 因此在识别贫困人口时不能简单地依据用电消费数据或者通信邮电消费数据直接进行判别, 而应在分类的基础上进行排序比较, 并且仅作为一个参考。第五, 家庭的用电消费、通信邮电消费当其处于不同收入水平时, 其数据与收入、支出的关系是不同的, 其更具体的定量关系值得进一步研究, 并可据此设计与生命线用电量类似的农村贫困线用电量、农村贫困线通信消费额, 建议在贫困人口识别过
19、程、在精准扶贫工作中重点关注线下和线附近的这些家庭。第六, 如能确定用电消费数据、通信邮电消费数据与包括收入支出等物质维度在内的贫困各维度的相关函数, 可以对贫困经济学理论中的多维贫困指数加以完善, 赋予前述指标适当权重, 降低部分主要依靠人工调查获得数据指标的权重, 使得多维贫困指数能更加客观、准确、及时地衡量家庭的贫困程度及各维度缺失情况。参考文献1Banks J, Richard B, Arthur L.Quadratic Engel curves and consumer demandJ.The Review of Economics and Statistics, 1997 (19)
20、 :527-539. 2Jacques Silber, Joseph Deutsch.Measuring Multidimensional Poverty:An Empirical Comparison of Various ApproachesJ.Review of Income and Wealth, March 2005. 3张翔, 张晓鑫.家庭电力消费、家庭收入与最低生活保障制度的瞄准率J.中国人口科学, 2017 (2) :60-69. 4任月明, 周脉玉, 李骞.居民生活人均用电量与人均收入的关系J.电网技术, 2008 (s1) :177-180. 5梁慧芳, 曹静.中国城镇居民
21、用电需求估算及阶梯电价方案设计J.技术经济, 2015 (6) :85-94. 6张晓春, 展海艳.二元经济结构下城乡居民收入差距与用电量差距的关联关系研究J.华北电力大学学报, 2014, 91 (5) :3. 7肖欢, 赵桂婷.我国居民在交通通讯方面消费与收入关系的实证分析-基于1994-2008 年的面板数据J.吉林工商学院学报, 2014, 30 (1) :58-61. 8汪三贵, 王, 王萍萍.中国农村贫困家庭的识别J.农业技术经济, 2007 (1) :20-31. 9阿马蒂亚.森.贫困与饥荒-论权利与剥夺M.北京:商务印书馆, 2001. 10马建堂.中国精准脱贫攻坚十讲M.北京:人民出版社, 2016. 11王敬涛.贫困的度量与分析问题探讨D.厦门大学, 2007. 12李娜娜.中国农村多维贫困研究D.山西财经大学, 2012. 注释(1) (1) http:/ (1) (1) “耐用消费品”是指单位价格在 1000 元以上、自然使用寿命在 2 年以上的产品, 比如汽车、电脑、家电、电视、首饰、古董、高档乐器等。 (2) (2) http:/ (1) (1) 通信邮电消费是居民在通信 (包括通话、上网、短信等) 和邮寄快递方面的支出。 (1) (1) 居民维持基本生活所需的用电量。