1、基于 DMSP/OLS 与土地利用的江苏省人口数据空间化研究 黄杰 闫庆武 刘永伟 江苏师范大学城建与环境学部 中国矿业大学环境与测绘学院 中山大学地理科学与规划学院 摘 要: 准确、高分辨率的人口分布信息是人地关系研究的重要前提。人口数据空间化可实现人口统计数据与空间信息集成,重构人口空间分布特征,为区域可持续发展研究提供数据支持。基于 DMSP/OLS 夜间灯光数据与土地利用数据,以遥感与地理信息系统理论与方法为基础,采用空间滞后回归模型模拟了江苏省 2010 年人口空间分布状况,并得到 1km1km 的人口密度网格图。通过从县级、乡镇级两种空间尺度对人口数据空间化结果进行检验,结果表明基
2、于 DMSP/OLS 与土地利用的人口数据空间化能够正确地表达人口空间分布规律,尤其对于人口较为密集地区,具有很高的数据重现精度;但是对于人口密度畸高或畸低的地区,由于人口空间分布异质性较大,数据重现的准确性下降。关键词: 人口数据空间化; 空间滞后回归模型; DMSP/OLS; 土地利用; 江苏省; 作者简介:黄杰(1990),女,硕士研究生,主要从事人口数据空间化方面的研究.E-mail:作者简介:闫庆武 E-mail:收稿日期:2014-03-27基金:教育部人文社会科学研究基金(14YJC840037)MODELING THE POPULATION DENSITY OF JIANGSU
3、 PROVINCE BASED ON DMSP/OLS SATELLITE IMAGERY AND LAND USE DATAHUANG Jie YAN Qing-wu LIU Yong-wei Faculty of Urban and Environmental Science,Jiangsu Normal University; School of Geography and Planning,Sun Yat-Sen University; Abstract: Population is a vital indicator of socioeconomic development and
4、urban development planning,especially for developing countries like China.Accurate and high resolution information of population distribution is an important prerequisite to study human-land relationships. However,census data for any given field are inadequately to demonstrate the internal differenc
5、es of population distribution.In this paper we tried to solve this problem by spatializing the population across Jiangsu Province,which is located in east China.Spatialization of statistical population is one of the vital means to achieve the integration of demographic data and spatial data.Moreover
6、,it tends to reconstruct the spatial features of demographic statistics and supports the sustainable development of the region by providing relative data.In order to link the field between aggregated census data and geo-coded data,various techniques were used to disaggregate the census data.The sate
7、llite-measured DMSP/OLS night-time light imagery has been widely used for regional level mapping of socioeconomic activities due to its high temporal resolution,free availability and wide swath.However,because of the coarse resolution and data saturation of DMSP/OLS data,the limitations of applying
8、this data source need to be taken into account.In this paper,population spatial processing is carried out by means of utilizing the theory and technology of RS and GIS.Specifically,data sources include three aspect:DMSP/OLS(night-time satellite imagery of operational line-scan system sensors on boar
9、d of the defense meteorological satellite program);land-use data(the data was collected from the global nature recourses and it consists of six kinds and 21 subcategories in Jiangsu Province),and the sixth census data.It is proved that all the resources can be used to acquire the achievement,such as
10、 population distribution in certain area in China even in the world.Based on the analysis and the methods discussed above,SLM(Spatial Lag Regression Model)was used for population density estimation.We derived a population distribution map at 1km1km grid cells in Jiangsu Province in 2010.In addition,
11、we get the measures of fit(Rsquared)of the model 0.93.According to the experiment,the validation of the resulting maps at county-level and town-level showed that average absolute value is comparatively high especially for those with high population density.That is to say,accuracy assessment results
12、show that the DMSP/OLS night-time satellite data and land use data are suitable for restoration the spatial distribution of population and these data could characterize more explicit details.The accuracy of some region that the study observed tends to decline due to the fact that the population dens
13、ity is either too high or extremely low due to spatial heterogeneity.We conclude that a higher accuracy grid would be generated if more ancillary factors associated with population spatialization were incorporated in the future.Keyword: spatialization of statistical population; spatial lag regressio
14、n model; DMSP/OLS; land use data; Jiangsu Province; Received: 2014-03-27中国是世界人口大国,社会、经济和自然环境长期的相互作用形成现状人口分布格局。我国人口普查每十年进行一次,人口数据更新慢,时间分辨率低;人口空间分布信息在 GIS 中往往以行政单元属性值的形式进行存储,致使人口分布在行政区边界处产生突变,空间精度低。在跨学科研究或空间分析时,自然资源背景数据的界线往往与不规则的行政区界线不相一致,不利于多学科的交叉融合1,2。人口统计数据空间化可有效解决上述问题,即把数据映射到一个统一的地理格网,实现人口空间分布信息由行
15、政区划为单元到像元级的转换,展现客观的人口地理分布规律,对人口分布模拟和预测研究具有重要价值3。随着地球信息科学的发展,在 RS 和 GIS 技术支持下,人口数据空间化研究发展迅速。基于遥感和 GIS 的人口数据空间化分析方法有:土地利用类型法4,5、多源信息融合法、基于像元特征的反演法等。由于遥感数据在像元尺度上记录和反映地表信息,这就需要将社会化信息在像元尺度上反映出来,人口数据空间化成为“社会数据空间化”和“空间数据社会化”研究的典型代表。当前,高分辨率的卫星遥感数据越来越容易获取,基于像元特征的反演法在提高人口数据空间化时间分辨率、空间分辨率上具有广阔的 应用前景。 其中,美国国防气象
16、卫星计划 DMSP(Defense Meteorolgical Satellite Program)发射的线性扫描业务系统 OLS(Operational Linescan System)可有效探测人类夜间活动,具有监测范围广、更新速度快等不可替代的优势。关于 DMSP/OLS 数据的主要研究成果有经济发展水平研究12、城市发展研究13,14、 人口密度研究15,16、能源消耗研究17、生态环境影响研究18等方面。由于 DMSP/OLS夜间灯光数据本身就涵盖了居民地、道路等与人口分布相关的信息19,因此可以用来反映大范围的人口密度差异。 如 Elevidge20研究发现灯光区面积与人口之间存在
17、明显的线性相关关系,模型拟合度达到 0.85 以上;Sutton21通过研究美国城市群人口密度与夜间灯光数据相关性,指出夜间卫星图片能显著提高人口空间分布估算的精度,并可用来预测其他社会经济指标;Lo22把灯光强度分 6 类来提取 灯光区面 积,使用异速增长模型对省、市、县级人口的估算结果与统计值非常接近,表明 DMSP/OLS 夜间灯光数据对实现人口空间数据格网化有巨大潜力。土地利用类型与人口分布格局有耦合关系,以土地利用数据建立人口模型应用最为广泛,但容易忽略相同土地利用类型内部存在的人口分异,田永中等23对农村人口采用线性加权模型,对城市人口建立人口距离衰减加幂指数模型进行模拟,有效提高
18、了结果精度。夜间灯光数据对预测城镇人口可达到很好的效果24,由于农村居民点的微弱灯光难以被探测到,在进行人口数据空间化时,农村人口数据空间化的结果精度相对较低。灯光数据与土地利用数据相结合进行人口数据空间化成为近年来研究的热点之一,Zeng 等25以灯光强度和土地利用类型为预测变量,采用最短路径算法把中国分为 8 个研究区进行逐步回归,决定系数均介于 0.800.95 之间,精确地反映出全国人口分布特点;梁友嘉等26基于DMSP/OLS 数据和土地利用数据构建张掖市甘州区人口空 间分布模 型,并得到空 间分辨率 为 500m500m 的人口分布图,实现小尺度区域的人口空间分布模拟。已有的研究多
19、采用经典的线性回归模型,未考虑到人口分布的空间自相关性,由此, 本研究拟以 DMSP/OLS 非辐射定标夜间灯光稳态数据和土地利用现状数据为建模参考要素,在江苏省范围内,基于分县人口普查数据,采用空间滞后回归模型(SLM)进行人口建模,展现相同土地类型内部的人口差异,同时提高农村地区人口数据空间化精度,并分析方法的适用性,进一步探讨人口数据空间化方法的改进方向。1 研究区概况与数据预处理1.1 研究区概况江苏省位于我国东部沿海,介于东经 11618 12157,北纬 30453520之间,东临黄海,西连安徽,北与山东相接,东南与浙江和上海毗邻。全省共辖 13 个地级市,26 个县级市,25 个
20、县,总面积 10.26 万 km,占全国总面积的 1.1%,其中平原面积 7.06 万 km,约占全江苏省总面积的 69%,水面面积 1.73万 km,约占 17%,低山丘陵 面积 1.47 万 km,约占 14%。2010 年的第六次人口普查 表明,全省总人口 7 866.094 1 万人,平均人口密度为 766 人/km,约为全国人口密度的 5 倍。1.2 数据及预处理(1)DMSP/OLS 夜间灯光数据:来源于美国国家地球物理数据中心(NGDC),此次研究采用基于 F18 传感器的 2010 年夜间非辐射定标平均稳态数据,可见像素值范围为 063。DMSP/OLS 夜间灯光遥感数据原始投
21、影为 WGS-84,考虑到中国的特点,为使投影面 积变形最 小,将投影转 换为 Asia North Albers Equal Area Conic。采用双线性方法重采样为 1km1km 栅格,并对其进行栅格转点, 便于提取亮度值。图 1 为 2010 年江苏省 DMSP/ OLS 夜间灯光影像。图 1 研究区 2010 年 DMSP/OLS 夜间灯光影像 Fig.1 DMSP/OLS Night Light Data of the Study Area in 2010 下载原图(2)土地利用数据:土地利用数据来自地球系统科学数据共享网提供的 2010 年江苏省 110 万土地利用数据集。在进
22、行人口数据空间化时,首先将一级地类(耕地、林地、草地、水域、城乡及建设用地、未利用土地 6 类)的面积与人口分布信息进行相关分析(图 2)。结果发现,水域和未利用土地属于不适宜居住的地类,且相关性较小,因此未纳入此相关分析。最终确定的 4 类用于建模的土地利用类型为: 耕地、林地、草地、城乡及建设用地。(3)人口统计数据:来自国家统计局发布的 2010 年全国第六次人口普查分县资料。以江苏省县级行政区划矢量图为底图,将统计数据作为属性数据,形成以县级行政区为单元的初级人口数据库(图 3a)。2 研究方法与模型2.1 空间相关性检验与地级市人口空间分布异质性相比,基于县级单元的人口空间分布异质性
23、较大27。因此进行人口数据空间化前,应先对人口分布进行空间相关性检验。如果存在空间关联性,则需考虑空间效应,采用相应的空间回归模型,反之,则可采用经典的线性回归模型。常用 Morans I 指数来检 验空间关 联性,它反映的是邻近区域单元属性值的相似程度,公式如下:其中: ;Wij为空间权重矩阵,其形式为:一般的,定义一个二元对称空间权重矩阵来表达 n 个位置的空间区域的邻近关系。这里以 Queen 准则建立一阶权重矩阵,如果各单元在空间上有邻接关系,则 Wij=1,否则 Wij=0。I 的取值在-1 1 之间,I 值大于 0 表示正相关,即相似的统计数据趋于空间集聚;I 值小于 0 表示负相
24、关,即统计数据趋于分散。2.2 空间滞后回归模型由于人口并非随机分布,而是存在不同程度的空间集聚,一个地区人口受周边地区影响,经典的线性回归模型(CLRM)难以满足人口数据空间化研究需要,而空间滞后回归模型(SLM)则考虑了因变量的空间相关性28,即某一空间单元上的人口数量不仅与自变量有关,还和相邻区域单元的人口数量有关,构建空间滞后回归模型比线性回归建模更具有实际意义。其形式为:式中:y 为因变量的观测值;W 为空间权重矩阵;x 为 N k 的矩阵,k 为变量数;是独立误差向量; 和 为变量系数。2.3 基于 SLM 的人口数据空间化建模以灯光亮度值、不同土地利用类型面积为建模因子,最终建立
25、人口数据空间化模型:式中:POP i表示第 i 个网格的人口数量;w 为空间权重矩阵;DN i为第 i 个网格的DN 值;L ik表示第 i 个网格中第 k(k=1,2,3,4)类土地类型(耕地、林地、草地、城乡及建设用地)的面积; 为空间滞后变量 wPOPi的回归系数,以此确定人口分布的空间效应;u、a k为 DNi和 Lik对应的回归系数; 是随机误差向量。为使计算的各市县的总人口与实际总人口数相一致,需要利用县级统计数据对每个网格的值进行统计纠正,其表达式为:其中:式中:p ji表示第 j 个县第 i 个网格按统计数据纠正后的人口数量;p ji为反演得到的第 j 个县第 i 个网格的人口
26、数量;c j为纠正系数;POP j是第 j 个县的统计人口数; 为该县预测人口数。3 人口数据空间化结果与分析3.1 空间化结果根据公式(1)计算出江苏省 64 个市县 2010 年人口密度的 Morans I 指数为0.234 6,为空间正相关,且通过了 5%的显著性检验。这表明江苏省的人口空间分布并非表现出完全独立性,而是存在不同程度的空间关联性,即人口密度较大的县级行政区之间趋于空间集聚,是高-高集聚的“热点”区域; 人口密度较小的县也相互趋于空间集聚,属于低低集聚的“冷点”区域。运用 Geoda 对江苏省 64 个县市样本进行回归分析得到上述回归模型的系数,结果如表 1 所示。 模型拟
27、合优度达到 0.93,模型和各自变量系数的统计检验都达到了显著水平。表明人口数量与夜间灯光亮度值、土地利用类型有显著的相关性。值得注意的是,人口空间滞后变量 W_POP 也出现在结果中,它的系数反映人口数据空间分布固有的相关性, 这种相关性是根据邻近单元格平均影响计量的,说明江苏省人口格网之间存在显著的空间自相关性, 进一步证明采用空间滞后回归模型研究江苏省人口分布规律具有可行性与合理性。3.2 人口密度格网地图的生成格网(GRID)的建立在 ArcGIS 中完成,以江苏省为边界 建立 fishnet,共分成 94 811 个 1km 1km 的格网。统计出每个 1km 网格内各土地类型的面积
28、,以及每个网格的 DN 值。根据上述步骤模型系数按公式(2)进行估算,即将人口数据分配到每个网格。考虑到面积较大的水域内几乎无人口分布, 提取江苏省四大水域:太湖、洪泽湖、骆马湖、高邮湖,将其人口密度值设为 0。图 2 研究区 2010 年土地利用矢量数据 Fig.2 Land Use Data of the Study Area in 2010 下载原图应用上述方法进行空间化,得到调整后的 2010 年江苏省人口密度格网图,如图3b 所示。从图中可看出,基于行政区划得到的人口密度数据不能精细刻画出人口分布的空间分异性(图 3a),从图上不能划分出江苏省人口分布的地理界线。而空间化后生成的 1
29、km1km 空间分辨率人口分布格网数据 (图 3b),缓和了行政区界线处的突变线,更好地显示了人口分布的空间差异性,其结果符合实际情况。(1)在灯光亮度值较低的地区人口稀少,与实际情况相同,如环洪泽湖、高邮湖地区和江苏省东部沿海的广大区域。(2)各县市内部的人口密度变化被体现出来,城市中心区人口密集,随着离中心区距离变远,人口密度逐渐减小,清晰展现出人口分布的圈层结构特点。(3)从图中可清晰看出,江苏省人口分布呈现近乎“之”字型折线走势。沿东陇海产业带一线人口密度大,集中连片的人口分布在经济发展水平较高的南京地区、苏锡常地区,呈现出空间集聚特征。尤其是徐州地区和环太湖地区,是人口最为密集的地区
30、。(4)人口沿航道分布的特点得以体现,如江苏省内的长江沿线人口最为密 集,京杭运河沿线次之。 这是在以行政区为边界的人口密度分布图中难以看到的。表 1 空间滞后回归系数表 Tab.1 Regression Coefficients of Spatial Lag Model 下载原表 图 3 江苏省分县人口密度图和空间化格网图对比 Fig.3 Comparison of Population Density and Girdded Population Density 下载原图3.3 精度及误差分析夜间灯光与人口、土地类型与人口都具有相关性,把夜间灯光数据与土地利用数据结合模拟人口分布可减少误差
31、,提高精度。分别以县级尺度、乡镇尺度对空间化结果进行精度检验及误差分析,考察空间化后的数据能否精确地还原原始数据。3.3.1 县级尺度空间化精度检验及误差分析以县市行政区矢量底图为分区依据,对人口数据空间化网格图进行分区统计,得到各县市人口汇总结果,与第六次人口普查公布的数据比较。以县级统计人口数量为横坐标,空间化后分区汇总的人口数量为纵坐标绘制散点图(图 4a)。从图中可以看出,空间化后的数据较好地反映了统计数据的分布规律,二者具有显著的线性关系。通过相关性分析,相关系数为 0.94,可见本次空间化在县级尺度上很好地重现了原始统计数据的分布规律。人口模拟误差检验计算公式为:式中: 表示相对误
32、差的绝对值;POP j是第 j 个县的统计人口数; 为该县预测人口数。县级人口数据空间化相对误差绝对值的平均值为 21.12%,总体精度较高,大部分地区误差绝对值介于 30%之内,个别行政区相对误差较大。徐州市区、泰州市区和苏州市区精度较低,主要由于样本量较少,城市灯光溢出造成;金湖县、盱眙县及大丰市精度偏低,由于区域内人口分布不均衡,且河流及支流较多,对建模效果造成一定影响。可以发现,这些模拟精度较低的地区多数为人口密度畸高或畸低的县市。3.3.2 乡镇级尺度空间化精度检验及误差分析为评价空间化产品的精度,选择江苏省徐州市 110 个乡镇的第六次人口普查数据进行乡镇级人口数据空间化结果精度检
33、验。以乡镇行政区矢量图为分区图层,以人口数据空间化格网图为目标图层进行叠加统计,得到各乡镇人口汇总结果,与统计年鉴所公布的乡镇人口数量进行比较。以乡镇人口统计数据为横坐标,空间化后汇总的人口数据为纵坐标绘制散点图(图 4b),从图 4b 可以看出空间化后的格网数据与乡镇人口统计数据呈现明显的线性关系。通过相关分析,其相关系数为 0.90,为显著相关,可见空间化后的产品能够在乡镇尺度上表达出原始数据的分布规律。但相关系数略低于县级尺度的相关系数,在尺度下降的过程中,空间化精度也有所下降。图 4 不同尺度人口统计数据与空间化后分区统计数据散点图 Fig.4 Scatter of Demograph
34、ic Data and Grid-based Population Zonal Statistic for Different Sacle Regions 下载原图4 结论与讨论人口密度空间化比人口密度行政单元化更接近人口实际分布。以江苏省作为研究区,人口空间分布为研 究对象,利用第六 次全国人 口普查数 据、 DMSP/OLS夜间灯光影像及土地利用数据,构建江苏省人口数据空间化模型,较好地反映了人口空间分布的真实情况及人口空间分布的复杂性。加入夜间灯光数据建立的人口数据空间化模型,更好地表达了相同土地利用类型内部人口差异,反映出人口分布的细节信息,在一定程度上改善了传统基于土地类型建立人口模
35、型的不足。但仍达不到精确定量化的程度,可以考虑从以下方面加以改进:(1)进行分区建模。从结果的误差分析中可以看出,人口密度畸高、畸低的地区误差较大,人口密度平稳地区误差较小。因此,在空间化时,可根据人口密度和其他相关指标将行政区分类,将不同类型的人口样本分开,在不同类型的区域内部进行人口数据空间化,建立有效的、适用性强的人口模型。同时保证足够少的分区数、分区方法在不同年份上的稳定性。这也是一个值得探讨的问题。(2)细化土地利用类型。土地类型对人口分布有重要影响,居民用地内的人口密度显著高于其他用地类型。可以考虑将城乡建设用地按城镇用地、 农村居民点、其他建设用地进行区别对待。(3)选择更高质量的数据源。可以考虑将更多的社会经济数据、自然要素数据、遥感数据等能够表达人口密度的指标有机结合。包括地形数据、交通基础设施、水系、GDP、垦殖指数,以及更高空间分辨率的遥感数据,如新型夜间灯光数据NPP/VIIRS DNB 等。