1、基于特征分区的人口数据格网化研究 董珍珍 王亮 仇阿根 中国测绘科学研究院 摘 要: 针对人口数据格网化分析不足的问题, 可借助夜间灯光信息、地形信息、土地利用信息进行特征分区, 在不同分区范围采用不同的方式构建人口空间格网化模型, 反映人口在格网上的分布状态, 提供了良好的小尺度统计人口方法。本文以四川省县区作为研究区域, 对其进行特征分区, 分为中心区 (强灯光区) 、一般灯光区和弱灯光区, 分别采用圈层距离法、改进的夜间灯光建模法与土地利用建模法分析, 并利用小一级的单位进行精度分析, 研究表明:在灯光强度差距较大的一般灯光区, 采用夜间灯光数据可以较好地模拟人口格网化数据, 结果精度较
2、高;在灯光强度差距较小的弱灯光区, 土地利用模型可以有效地模拟人口空间分布;但灯光强度几乎饱和的中心区, 采用圈层距离法, 存在较大误差。关键词: 人口; 特征分区; 格网化分析; 夜间灯光强度; 作者简介:董珍珍 (1990-) , 女, 山东聊城人, 地图制图与地理信息工程专业硕士研究生, 主要研究方向为空间分析与数据挖掘。收稿日期:2017-01-22基金:面向政府决策的地理空间大数据分析服务项目 (201512032) Research on the Grid Transformation of Population Data Based on the Feature Partitio
3、nDONG Zhen-zhen WANG Liang QIU A-gen Chinese Academy of Surveying and Mapping; Abstract: According to the fact that there is no enough grid analysis methods on the study of population distribution, this paper with the help of night light information, topographic information, land information applied
4、 feature partitioning to construct the space grid model in different zones in different ways, reflect the distribution of the population on the grid, provides a good method for population statistics. This paper takes Sichuan province County as the study region to part features which is divided into
5、the central region ( Strong light region) , general lighting region and weak light region, using circle distance method, night light modeling method, land-use modeling method to analysis. Then, we calculate error to compare precision. Research shows that: the light intensity gap between the general
6、lighting area, the use of night light data can be better simulated population grid data, the accuracy of the land-use model can effectively simulate the spatial distribution of population in the weak light region where the intensity of light intensity is small, but the central region of the light in
7、tensity is almost saturated, and there is a big error in the circle distance method.Keyword: ppopulation; feature partition; grid analysis; night light intensity; Received: 2017-01-220 引言人口数据在区域可持续发展、资源合理分配、新农村建设过程中均发挥着重要作用, 获取不同尺度的高精度人口数据可以正确认识其空间分布规律, 从而深入分析人口、资源、环境之间的相互作用。传统的人口数据以行政区划为基本单元, 来源于人口
8、普查, 存在更新时间长、精细程度低的问题, 而人口格网化可以有效地解决这一问题, 更接近于人口实际分布, 越来越受到国内外学者的关注。20 世纪中期, 一些学者开始对人口空间分布的初级格网化形态进行研究, 着重分析格网大小是否影响整体分布情况, 末期, 开始深入研究人口格网化1-4, 涉及格网化方法、影响因素等方面, 方法一般包括人口平均分配法、格网内插法、土地利用模型、遥感反演模型等, 影响因素一般为离中心城区距离、土地利用类型、经济发展状况、自然地理条件等。随着社会的迅猛发展, 人口作为最基本的要素, 国内学者对人口空间格局的研究也逐渐增多5-8, 廖顺宝和孙九林9运用 GIS 空间软件,
9、 通过客观赋予权重的方式对青藏高原地区进行人口数据空间化分析。叶靖和杨小唤等10等分析研究不同数据源对人口数据空间化的格网尺度效应的影响, 以及其适应的格网尺度。卓莉和陈晋11利用遥感估算方法对中国人口密度进行了格网化研究, 发现夜间灯光强度数据对于人口及其他社会经济数据格网化具有很大作用。由以上文献可知, 国内外学者从不同的理论角度在不同尺度上进行了人口空间格网化研究, 主要从空间分布特点、分布模式和格网化方法角度进行, 其中人口平均分配法比较粗略, 结果存在不可靠性;格网内插法未考虑自然环境的影响, 不适宜研究人口分布;土地利用模型考虑不同地类之间对人口空间分布的差异, 夜间灯光模型利用夜
10、间灯光数据进行人口分布的模拟12-13;这两种模型为常用的人口模型, 但现阶段均为某一地区采用同一种模型进行模拟, 造成了同一区域模拟精度偏高或偏低, 同时, 使得小尺度人口统计不准确14-15。基于上述的分析, 本文在其基础上, 综合了夜间灯光信息、地形信息进行了四川省县域的特征分区, 并在不同分区范围内, 根据其不同特征采用了不同的方法进行人口空间化模型构建, 其中采用的夜间灯光数据进行了一定程度的改进, 同时, 依据模型进行了精度分析, 为后续人口空间格网化统计提供了基础。1 研究区与数据1.1 研究区本文研究区域为四川省。四川省位于中国西南部, 是连接华南华中、西南西北, 沟通中亚、南
11、亚、东南亚的重要交会点和交通走廊, 总区县 181 个, 总人口 8 140.2 万人, 为多民族聚居地, 有 55 个少数民族, 且人口分布不均, 81.15%的人口分布在东部地区, 只有 18.85%的人口分布在面积占 60%的西部地区;地貌复杂, 以山地为主要特色, 具有山地、丘陵、平原和高原 4 种地貌类型, 分别占全省面积的 74.2%、10.3%、8.2%、7.3%。1.2 数据源基础数据: (1) 研究区内人口数据尺度为县域与乡域, 其主要来源为统计年鉴; (2) 行政区划数据指研究区内县界与乡界, 来源于中国行政区划矢量图。遥感信息数据: (1) 夜间灯光数据 DMSP/OLS
12、 数据为非辐射定标遥感数据, 包括平均观察值、稳定灯光值、能观察的无云数据, 空间分辨为 1 km, 数据灰度值范围 163, 饱和灯光灰度值为 63;来源于 http:/ngdc.noaa.gov/eog; (2) 土地利用现状数据主要指研究区不同土地类型的分布情况, 来源于中国科学院资源环境科学数据中心, 其分辨率为 1 km; (3) 高程数据主要指研究区内高程值, 可提取坡度、坡向等, 分辨率为 30 m, 来源于地理空间数据云的 GDEMV2数据集。2 研究方法本文的研究思路是首先对地理图层进行标准化处理, 同时, 进行掩膜处理实现研究范围图层的提取, 利用土地利用法与遥感估计法,
13、实现集聚区的区分, 优化夜间灯光数据;在此基础上, 综合各种信息数据, 对研究区域特征分区, 构建人口格网化模型, 并以乡域为基本单位进行精度分析, 概括总结人口分布特征与格网化特征。2.1 分析流程按照上述思路, 分析步骤共 8 步, 流程如图 1 所示。图 1 人口数据空间化研究步骤 Fig.1 The research process of population spatial distribution 下载原图1) 地理图层坐标统一。对地形、土地利用、夜间灯光数据进行过滤处理, 剔除掉干扰性灯光等因素, 并将投影方式统一为双标准纬线等面积圆锥投影坐标, 重采样的方法为最近邻法, 标准分
14、辨率为 0.5 km0.5 km, 形成统一坐标的地理图层。2) 研究范围图层提取。对统一坐标的地理图层与研究范围边界数据进行掩膜处理, 实现研究范围的定位与提取。3) 集聚区范围提取。在居民点数据的基础上, 结合在水域与难利用土地人口无法长期居住的原则, 完成研究区内人口集聚区的提取, 并依据集聚区, 实现现有夜间灯光总强度计算方法的改进。4) 特征分区。根据基础数据, 依据高程信息, 对研究区域实现一级分区;结合夜间灯光数据实现再次分区, 形成综合各种信息的分区结果, 在分区上更明确, 更有依据性。5) 人口格网模型构建。依据分区结果, 分析各分区的人口与地理特征, 分别采用不同的格网化方
15、法, 完成人口格网化模型的构建, 并在各分区选取精度验证区域。6) 网格划分。在县界与乡界基础上, 划分 0.5 km0.5 km 规则网格, 具体是获取验证区域最小外接矩形, 以左下角为起点, 按照从左到右、从下到上的顺序绘制网格。7) 精度分析。在格网化模型基础上, 统计每个网格内人口数, 并统计乡域内人口数据总和, 与统计数据对比分析, 计算精度大小。8) 概括总结。概括四川省县域人口数据分布模式, 着重总结不同分区人口数据格网化精度产生偏差的原因。2.2 夜间灯光强度改进夜间灯光强度有较多的表达方式, 比如平均灯光强度、辐射度、反射度等, 本节采用了统计单元内的夜间灯光总强度进行研究,
16、 其计算公式如下:其中, i 为统计单元编号, j 为统计单元 i 内的栅格单元, 取值范围为1, n, DNj为栅格单元 j 的强度值, DNS i为统计单元 i 内的强度总和;此时, 所使用的夜间灯光强度总值包括了居住区、水域、难利用土地的所有栅格强度总和, 因此需要剔除不相关区域的多余像元值, 因此单个栅格像元值计算如下:式中, DN j为修正后栅格单元 j 的强度值, A 为提取的集聚范围;将 DNj值代入公式 (2) 重新计算灯光总强度即可。2.3 夜间灯光数据建模夜间灯光数据能够很好地反映城市或小范围的城市居民点的范围, 从而合理地区分了居民区与非居民区, 在空间上隐含了差异性信息
17、16-17, 可以很好地表现空间异质性, 同时与人口的空间分布存在较强的相关性, 因此, 利用夜间灯光数据能够较好地表达人口空间分布特性。人口密度格网化模型表达如下:式中, 为统计单元 i 内的人口总数, DNS i为 DMSP 夜间灯光下第 i 个统计单元的总强度值, 设定人口总数为灯光强度的函数, 由于无灯光区无人口的原则, 在该函数中常数量为 0。3 实验结果基于上述研究方法与数据, 进行人口集聚区的划分, 考虑到人口可能存在于林地、草地等土地类型中, 因此, 集聚区中包含了林地、草地等, 以此为基础进行夜间灯光强度修正, 同时进行特征分区与模型的建立, 分区结果与建模情况如下:3.1
18、特征分区四川地区处于特殊位置, 地形地貌、高程、人口分布均按照区域划分具有一定的特征性, 为了提高人口模拟精度, 需进行特征分区, 分区时首先采用了地形分区法, 由图 1 可知, 分界线很明显地实现了一级分区, 该分界线一方面将四川的面积划分为 21;另一方面, 将四川的县区划分为 12, 因此, 该分界线有重要的研究意义。在该线的西部, 包括阿坝州、甘孜州、凉山、攀枝花、雅安等 5 个州市, 共 61 个县区;东部, 包括成都市、资阳市等 16 个市, 120 个县区。以此为基础, 结合夜间灯光强度数据, 进行再次分区。在一级分界线的西部, 灯光稀疏分布, 且亮度不高, 而在东部, 中心城区
19、集聚地夜间灯光强度最大, 其周围范围内由于背景光等存在, 表现出一片亮光, 强度值基本达到饱和, 无法区分附近范围, 因此将其提取进行二次分区。基于上述分析, 四川省县域分区情况见表 1。表 1 县域分区情况表 Tab.1 County district situation table 下载原表 3.2 中心区人口格网化中心区 (强灯光区) 几乎围绕成都市市中心, 夜间灯光强度较大, 几乎均接近于饱和, 利用灯光数据无法实现人口空间分布模拟;同时, 该地区地形均相对平坦, 土地类型多为居民点和城镇用地, 各县市人口较多, 土地类型差异不大, 无法通过土地类型数据进行人口空间化分布差异模拟;基于
20、上述原因, 为了实现人口的空间化模拟, 需分析人口分布的规律, 通过分析人口与距离中心的关系, 人口总数与距离并未表现出一定的关系, 而人口密度与距离关系图却显示了人口分布符合常规的理论:距离城市中心越近, 人口密度越大。因此, 选择使用圈层距离法, 分别构建距离省会中心的 2 km、4 km、6 km、8 km、10 km 等的同心圆, 设定在同心圆范围内的各格网人口密度值相同, 将同心圆与强灯光区人口密度图层叠加, 或者利用同心圆与各街道各乡镇的图层叠加, 通过统计某圆内街道所占原有街道面积计算总人口数, 从而实现格网化分析显示。3.3 一般灯光区人口格网化一般灯光区, DMSP 夜间灯光
21、强度值变化范围较广, 且在一定程度上表达了经济发展较为迅速, 同时, 由于经济和人口的分布有着密不可分的关系, 因此, 灯光强度一定程度上也可表达人口分布, 同时, 该地区各县区之间的用地类型相差不大, 不能良好地区分, 所以也不能较好地模拟人口分布, 故选择构建优化的夜间灯光强度数据与人口总数的模型, 设定无灯光区无人口居住的情况, 构建的模型如下:式中, 为第 i 个统计单元的人口数, 为 DMSP 夜间灯光下第 i 个统计单元的强度总值;R 为 0.926, 调整后 R 为 0.918, 且 sig 值为 0.0010.005, 可以解释91.8%的人口空间分布数据, 同时, 有明显的显
22、著性, 可以有效地分析人口数据。3.4 弱光区人口格网化弱灯光区, 灯光稀疏且亮度不大, 变化范围也较小, 且辐射范围也较小, 无法合理地进行人口空间分布模拟, 但相对来说, 该地区土地类型丰富、差异较大, 同时城镇居民点用地分布比较分散, 因此, 在该地区使用土地利用类型表达人口空间分布, 其中类型采用了二级分类中的城镇用地 (11) 、居民点用地 (12) 、其他建设用地 (13) 、水田 (21) 、旱地 (22) 、有林地 (31) 、灌木林 (32) 、疏林地 (33) 、其他林地 (34) 、高覆盖草地 (41) 、中覆盖草地 (42) 、低覆盖草地 (43) 等 12 种类型,
23、构建的模型如下:式中, pop i为第 i 个统计单元的人口总数 (万人) , R i代表各土地类型面积, 但相对来说, 利用该模型会使得部分格网的人口总数为负值, 与现实相违背, 因此为了避免负值, 采用了 LOG 值的方法, 模型如下:该模型不仅避免了负值的存在, 同时, 还表现出了人可能存在于林地或草地的情况, 其 R 为 0.883, 可以解释 88.3%的人口空间分布情况, 拟合程度较好, 可以有效地进行人口模拟与分析。3.5 精度比较分析为检验人口空间化的准确性, 现随机选取三个地区的区作为对象, 从县区角度出发, 计算乡域人口情况, 并与实际普查数据对比分析, 计算误差。三个地区
24、分别选取了金牛区 (中心区) 、旌阳区 (一般灯光区) 、东区 (弱光区) 作为研究对象, 进行人口数据格网化, 格网大小为 0.5 km0.5 km。金牛区包括 15 个街道, 利用圈层距离法计算圈层内街道面积占总面积的方法计算人口, 在距离中心较近的街道, 格网人口较多, 较远的街道人口明显减少;统计街道总人口与实际人口比较, 发现在中心的茶店子街道、抚琴街道、营门口街道等人口均高于统计人口, 而距离中心远的天回镇街道、凤凰山街道均低于统计人口, 说明合理地应用了圈层距离的方法, 但仍存在误差, 平均误差为16.56%。旌阳区包括 17 个街道, 在该区域内存在 0 值的区域, 其原因为此
25、处为水域或难利用土地, 又或为人口稀少、无人烟的区域, 其灯光强度为 0, 故推测无人口居住于此;统计乡镇总人口与实际人口比较, 该地区的灯光亮度值较高的旌阳街道、城北街道等格网人口较多, 边缘灯光亮度值较低的人口较少, 其拟合程度较好, 平均误差为 5.45%。东区包括 10 个街道, 在该区域格网人口在 0262 5 之间, 范围跨度较大, 主要原因在于该地区土地类型较多, 但林地、草地人口数较少, 而大多数人均集中在城镇居民点用地区域;统计乡镇总人口与实际人口比较, 该地区乡镇人口差异较大, 但格网化后的乡镇总人数整体低于实际人口, 且平均误差为 8.20%。在不同的分区构建的人口数据格
26、网化模型, 以随机区域实验, 均存在一定程度的误差, 相比较而言, 夜间灯光数据的采用较土地利用类型和圈层距离法平均误差较小, 具有一定的可用性。从数据本身来说, 夜间灯光数据排除掉干扰性灯光后, 在一般灯光区能够很好地表现人口空间化分布状态, 精度较高;土地利用模型利用了二级土地类型, 同时考虑了人可能存在于林地与草地的情况, 考虑了不能出现负值, 因此, 也可以很好地模拟人口数据;但是在灯光强度饱和与土地类型差异不大的中心城区, 只能通过圈层距离法进行人口数据空间化模拟, 其结果精度较低, 误差较大, 原因在于只通过距离估计格网化人口, 只能大体的估计分布情况, 不能具体到格网, 应着重利
27、用更为精细的数据综合多种因素进行中心区人口格网化模拟。4 结束语本文以县域为统计单元, 以地形数据、夜间灯光数据、土地利用数据为基础, 综合土地密度法与遥感估计法, 进行了县域人口集聚区的划分和特征分区, 分为中心区 (强灯光区) 、一般灯光区、弱灯光区等, 考虑了各分区的不同特征, 运用了圈层距离法、夜间灯光模型法、土地利用模型法进行各分区 0.5 km0.5 km 格网人口数据模型的构建。同时, 以乡域为单位, 随机选取实验区, 进行精度分析, 结果表明:在灯光强度差距较大的区域使用夜间灯光进行人口数据格网化模拟, 精度较高, 在一定程度上可以代表人口格网分布状态;在灯光强度差距不大的区域
28、, 采用土地利用模型, 也可以很好地模拟人口数据, 但可能无法表达同种地类之间人口的差异性, 使得误差相比灯光数据模型有所增加;在灯光饱和与土地利用类型不多的中心区进行的圈层距离的格网化, 精度较低, 原因在于中心区人口分布呈现多样化, 不仅有距离因素, 还与居民点、道路等有关。本文提出的特征分区构建人口格网化模型为统计小尺度人口单元数据提供了借鉴。当然, 这种方法还存在一些不足, 一是分区的特征缺乏多样性, 分区个数太少;二是在中心区域, 应采用更为精细的数据与综合多种因素实现人口空间模拟。参考文献1Ciark C.Urban population densitiesJ.Journal of
29、 the Royal Statistical Society, 1951, 114 (4) :490-496. 2Stewart J Q, Warntz W.Pyhsics of population distributionJ.Journal of Regional Secience, 1958, 1 (2) :99-123. 3Marja Tammilehto-Luode and Lars Backer.Grid data and area delimitation by definition towards a better European territorial statistica
30、l systemJ.Statistical journal of the United Nations ECE, 2000, 54 (17) :109-117. 4Yang X, Y Huang, P Dong, et al.An updating system for the gridded population database of China based on remote sensing, GIS and spatial database technologiesJ.Sensors, 2009, 9 (2) :1128-1140. 5张超, 万庆, 张继权, 等.基于格网数据的洪水灾
31、害风险评估方法以日本新川洪灾为例J.地球信息科学学报, 2003, 8 (4) :69-73. 6董春, 张清浦, 张家庆, 等.地理因子库的建立及应用探讨J.遥感信息, 2000, 15 (1) :12-16. 7朱翠霞, 陈阿林, 刘琳.基于 GIS 的区域人口统计数据空间化以重庆都市区为例J.重庆师范大学学报:自然科学版, 2013, 30 (5) :50-55. 8王汶, 孙克峰.基于 Arc GIS Engine 的人口数据格网化实现J.安徽农业科学, 2010, 38 (29) :16 524-16 526. 9廖顺宝, 孙九林.基于 GIS 的青藏高原人口统计数据空间化J.地理学
32、报, 2003, 58 (1) :25-33. 10叶靖, 杨小唤, 江东.乡镇级人口统计数据空间化的格网尺度效应分析以义乌市为例J.地球信息科学学报, 2010, 12 (1) :40-47. 11卓莉, 陈晋, 史培军, 等.基于夜间灯光数据的中国人口密度模拟J.地理学报, 2005, 20 (2) :266-276. 12廖顺宝, 李泽辉.基于人口分布与土地利用关系的人口数据空间化研究J.自然资源学报, 2003, 18 (6) :659-665. 13田永中, 陈述彭, 岳天祥, 等.基于土地利用的中国人口密度模拟J.地理学报, 2004, 59 (2) :283-292. 14金君, 李成名, 林宗坚.人口遥感估算方法研究J.测绘通报, 2002 (3) :13-15. 15柏中强, 王卷乐, 杨雅萍, 等.基于乡镇尺度的中国 25 省区人口分布特征及影响因素J.地理学报, 2015, 70 (8) :1 229-1 242. 16高义, 王辉, 王培涛, 等.基于人口普查与多源夜间灯光数据的海岸带人口空间化分析J.资源科学, 2013, 35 (12) :2 517-2 523. 17梁友嘉, 徐中民.基于 LUCC 和夜间灯光辐射数据的张掖市甘州区人口空间分布建模J.冰川冻土, 2012, 34 (4) :999-1 006.