1、基于 GIS 数据的县域人口密度空间降尺度模拟以广东省惠东县为例 凡宸 秦建桥 高洋 黎颖治 吴海华 惠州市大亚湾高新经济技术开发区环保局 广东省环境科学研究院 惠州市环境科学研究所 广州市第七十一中学 摘 要: 人口调查统计以行政区划为基本单元, 数据精度不能满足栅格尺度上的空间结构分析, 也难以与生态环境综合研究中的自然地理数据相匹配, 而人口数据降尺度空间模拟是解决这一问题的有效途径。本文基于统计学方法和 GIS 技术, 对惠东县乡镇人口数据与空间因子进行相关性分析, 并筛选出建设用地指数、高程、到居民点距离等因子用于回归分析, 分别采用一元和两种多元回归方法建立人口密度数据空间化模型,
2、 最终在 GIS 平台中实现人口密度的降尺度模拟, 获取 200m200m 栅格尺度的人口密度数据。一元回归分析中, 建设用地指数因子的模拟结果最优, R2 为 0.734, 可作为快速、粗略模拟惠东县人口密度的模型;多元回归分析中, 逐步和向后回归模型的 R2 分别达到 0.775 和 0.886, 模拟结果均较为理想。通过对模型的分析可知:多元模型明显优于一元模型;向后回归模型优于逐步回归模型。研究结果表明此人口密度模拟方法具有较强的操作性, 可为县域尺度人口密度空间化的应用研究提供借鉴。关键词: 人口密度; GIS; 统计数据; 空间分析; 惠东县; 作者简介:凡宸, 硕士, 主要研究方
3、向为生态环境信息系统应用与开发。收稿日期:2012-09-16Spatial Downscaling-Simulation of Population Density based on GIS: A Study Case on Huidong CountyFAN Chen QIN Jian-qiao GAO Yang LI Ying-zhi WU Hai-hua Environmental Protection Bureau of Daya Bay Zone; Guangdong Provincial Academy of Environmental Science; Huizhou Inst
4、itution of Environmental Science; The Seventy - first Middle School of Guangzhou City; Abstract: Census statistics used administrative region as abasic unit. Data accuracy not only cannot meet space structure analysis on grid scale, but also cannot match natural geographic data on eco-environmental
5、comprehensive research. Space downscaling-simulation of demographic data can be an effective method to solve this problem. This article carried out research based on statistical method and GIS technique. Firstly, we use Pearson correlation to discuss the relevency between demographic data and space
6、factors on towns administrative zone of Huidong County. Secondly, we screen out the following factors : construction land index, elevation, distance-to-settlement, etc. in regression analysis. Thirdly, we established some spatial models of population density with simple linear regression, backward r
7、egression model and stepwise regression model. Finally, we realized downscaling simulation of population density on GIS platform, and obtained population density data on raster scale ( 200 m by 200 m) . On the analysis of simple linear regression, the simulation result of construction land index was
8、 the best, R2 reached 0. 734; therefore, we use this index as a quick and rough model to simulate population density of Huidong County. On the analysis of multiple regression, R2 of backward regression model reached 0. 775, R2 of stepwise regression model reached 0. 886, and simulation result was re
9、asonable. On the analysis of model result, we find out that the result of multiple regression had the advantage of simple linear regression, and backward regression model was superior to stepwise regression model. These research results demonstrated that this population density simulation method had
10、 strong operability, and could provide the same research with use for reference.Keyword: population density; Geographic Information System; statistical data; spatial analysis; Huidong County; Received: 2012-09-16人口是指生活在特定地域、特定社会文化制度的具有一定数量和质量人的总称, 其空间分布反映了人口在一定时空中的分布情况。人类活动是引发生态环境问题的主要原因, 而人口是反映人类活动
11、影响程度的最直接的指标之一。随着生态环境研究的日趋综合化、多尺度化, 需要将人口数据与各种自然地理数据融合进行综合分析。但现有的人口数据是基于行政单元调查统计出来的, 数据精度难与自然地理数据匹配, 并不能满足小尺度上的空间结构分析, 而人口数据降尺度空间模拟是解决这一问题的有效途径。人口数据降尺度空间模拟即通过人口统计数据, 基于合适的模型和 3S 技术, 反演出人口在特定时空中的分布状态的过程, 其实质是创建区域内连续的人口密度表面。人口数据降尺度模拟实质是人口数据空间化的过程, 这一概念最早出现在 20 世纪 90 年代。随后, 科研工作者不断将 RS 和 GIS 等技术应用到人口数据空
12、间化的研究, 已取得了一定的成果。但目前的人口数据空间化模型主要集中在全国、省域等大尺度区域, 模拟精度粗糙, 模拟结果的格网大小主要为 1km ( 如中科院资源环境数据中心制作的 2000 年全国 1km 人口空间数据库) 或 5km ( 如全球 5km 的人口数据库 GPW) 。近年来, 随着遥感影像和 GIS 数据的精度不断提高, 县域等小尺度区域的人口空间化研究正逐步展开。综观已有研究成果, 缺乏针对不同尺度的数据源选择方法, 缺乏模型构建的统计学分析及模拟结果的检验。因此, 造成了县市和二、三级流域等小尺度的人口模拟结果的不确定性, 本文正是基于此背景开展研究工作的。本文以广东省惠东
13、县为例, 采用 GIS 数据和统计年鉴数据作为人口密度降尺度模拟的数据源, 基于图层叠加技术, 通过不同的回归分析方法, 构建多个人口密度空间模拟模型, 检验不同模型的模拟精度, 得到最优的惠东县人口降尺度模拟模型。模拟出来的惠东县人口空间分布数据可为县域的生态地理综合研究提供数据基础, 并且为人口和资源环境的科学管理提供理论依据。1 研究区概况与研究方法1. 1 研究区概况惠东县地处广东省东部沿海地区 ( 11433 - 11526E, 2230 - 2323N) , 全县陆地总面积 3 535. 17km, 下辖 13 个镇、1 个街道、2 个度假区, 总人口数 91. 3 万人。该区域隶
14、属“珠三角”, 人口增长快, 经济发展充满活力, 土地利用类型变更快, 生态环境问题逐步显现, 用于研究珠三角等经济发达地区的县域人口数据降尺度模拟, 具有一定的代表性。1. 2 研究方法1. 2. 1 评价指标的选取根据惠东县的特点, 选取海拔高度、坡度、坡向、7 类用地类型指数、NDVI、到道路距离、到居民区距离、到河流距离等 14 类空间因子作为人口模拟的指标。1. 2. 2 数据来源及处理本文采用的数据主要包括: 1Aster 30 米精度的数字高程模型 ( DEM) ; 2 由TM 遥感影像解译得到的惠东县 2010 年土地利用图。分类标准参考中国科学院资源环境信息数据库的土地利用/
15、覆盖分为: 建设用地、水域、果园、林地、耕地、火烧迹地和裸地; 3 从惠东县统计年鉴获得乡镇人口数据。4 从国家基础地理数据库获取道路数据。空间数据的预处理主要在 GIS 平台下完成, 主要包括: 1 由 DEM 数据生成海拔、坡度和坡向图, 计算出每个栅格和乡镇的平均高程、平均坡度与平均坡向。2 由 DEM 数据生成水系图; 3 从土地利用数据中提取建设用地数据; 4 由 TM 数据生成 NDVI 数据; 5 由道路、河流和居民点数据, 分别生成相应的距离图, 计算每个栅格和每个乡镇到道路、河流、居民点的平均距离; 6 计算各栅格和各乡镇不同土地利用类型的指数, 即用区域某种土地利用类型的面
16、积与该区域总面积的百分比。本文使用的所有数据都在 Arcmap 平台中转换成 200m 200m 的栅格数据。本文使用的软件为 ESRI 公司的 Arcmap10. 0 和 ENVI4. 8 版本。本文使用SPSS17. 0 对数据进行相关分析和回归分析。1. 2. 3 人口密度降尺度模拟本文的人口空间化是基于 GIS 数据和统计年鉴数据建立回归模型, 使用图层叠加技术, 实现人口数据从乡镇单元到栅格单元的降尺度模拟。模拟过程如下: 1 将选取的 14 个空间因子与乡镇人口密度进行相关性分析; 2 找出与人口密度相关性显著的主导因子, 并分别进行一元回归分析, 分析每个因子对人口密度分布的影响
17、; 3 选取一元模拟结果较好的因子作为输入因子, 采用两种多元回归方法建立起人口密度与空间因子的 2 个回归方程; 4 根据这 2 个方程模拟出栅格的人口密度; 5 最后, 根据不同方程的模拟结果, 反演出乡镇人口数量, 并与实际的乡镇人口数量进行相关性分析和回归分析, 采用结果最好的方程作为人口密度的空间降尺度模型。1. 2. 4 模型检验模拟结果的检验限于人口分布的影响因素的复杂性和详细数据的缺失, 往往只能进行必要性检验, 而很难对人口模型进行充分性检验。本研究的检验方法是将模拟结果与乡镇人口进行回归分析, 具体方法是通过 Arctool-box 的 Zonal statistic 工具
18、对模拟出来的栅格数据进行乡镇尺度上的统计, 获得每个乡镇的模拟人口数量, 再把结果与乡镇实际人口数量进行回归分析。2 结果及分析2. 1 相关性分析结果乡镇人口与空间因子的相关性分析的结果如表 1。从表 1 可知, 水域指数、建设用地指数、NDVI、高程、坡度、到居民点距离、林地等 7 个因子通过了相关性显著性 ( 1% ) 的检验。除通过相关性显著性 ( 1% ) 的检验的 7 个因子外, 果园指数、火烧迹地指数通过了相关性显著性 ( 5% ) 的检验。其中, 建设用地指数、NDVI、林地指数、坡度、高程等因子对人口密度的影响最大, 水域指数、到居民点距离、果园指数、火烧迹地次之, 而其他的
19、因子对人口密度分布的影响并不显著。其中建设用地指数、水域指数、果园指数、火烧迹地与人口密度分布呈正相关, NDVI、林地指数、坡度、高程、到居民点距离与人口密度分布呈负相关。2. 2 一元回归分析结果相关性分析结果为显著的空间因子可分为土地覆盖因子、地形因子和距离因子等三大类。表 1 人口密度与空间因子的相关性分析结果 下载原表 图 1 建设用地、DNVI、林地、水域、果园、火烧迹地与人口密度的关系 下载原图( 1) 土地覆盖因子。土地覆盖状况能够直观表现人类活动的强度, 因而可以很好的反映微观尺度上的人口分布。这一规律在不同尺度与不同区域的研究中均得到了验证。在土地覆盖因子中, 建设用地指数
20、、NDVI 指数、林地指数与人口密度分布的相关性最强, 回归方程的 R 分别达到了 0. 734、0. 684 和 0. 664 ( 见图 1) , 表明这三个单因子在解释人口密度分布变化时, 拟合的效果理想。这与相关的研究结果有所不同, 一般情况下, 由于影响人口密度分布的因素很多, 仅采用单个因子并不足以很好的揭示其全部的内在机理, 每个因子只能解释其部分原因。而本研究结果表明, 此三类因子都能够较好的揭示惠东县人口密度的分布状况。( 2) 地形因子。在地形因子中对人口密度分布影响最显著的因子是平均坡度 ( 如式 1) , 其次是平均海拔 ( 式 2) 。平均坡度代表了该地区的地表起伏程度
21、, 惠东县各乡镇的平均坡度主要集中在 0 - 15之间, 按我国一般标准, 15称为陡坡, 这说明惠东县总体地形较为平坦。从式 1 可知, 坡度与乡镇人口密度存在显著负相关性, 相关性达到了 0. 611, 这说明在地形坡度较大的乡镇, 其人口密度较小, 坡度较小的乡镇人口密度较大。坡度较大的区域主要以丘陵、山地为主, 不利于人类活动 ( 如耕地垦殖、建设施工) 的开展, 致使人口密度较小。海拔高度与人口密度呈现一定的负相关性, 符合人口垂直分布的一般规律。惠东县地形总体较为平坦, 海拔高度与坡度存在显著正相关性, 即海拔越高, 坡度越大, 因而人口密度相对较小。式中, y 为乡镇人口密度,
22、x 为平均坡度。式中, y 为乡镇人口密度, x 为平均高程值 (米) 。( 3) 距离因子。从相关性分析中可知, 距离因子中与人口密度存在显著相关关系的因子为到居民点的距离 ( 式 3) 。本文的居民点数据来源于惠东县 2010 土地利用数据, 解决了乡镇居民点数据精度不高的问题。一个乡镇到居民点距离的平均值越小, 说明该乡镇中居民点越密集。人口密度与到居民点距离的一元线性回归方程的 R 为 0. 420, 二者存在一定的负相关关系。到居民点越近, 人口密度越大, 反之, 距离居民点越远, 人口密度越小。式中 y 为乡镇人口密度, x 为到居民点的平均距离 ( m) 。2. 3 多元回归分析
23、结果从单个因子的回归分析中可以发现, 建设用地指数、NDVI 指数、林地指数、坡度等因子在解释人口分布变化时, 拟合效果较好, 说明这几个因子揭示惠东县人口密度分布的内在机制效果较好, 而其他因子解释人口分布时, 拟合的效果都不理想, 为了获得更好的拟合效果, 本文将利用通过了相关性检验的多个空间因子与乡镇人口数据进行多元回归分析。为研究不同回归方法对模型结果的影响, 本文采用逐步回归和向后回归对标准化数据进行分析, 获得两类回归模型: 逐步回归模型 ( 模型一) 和向后回归模型 ( 模型二) 。从 R 发现, 向后回归模型优于逐步回归模型。其中 X1: NDVI 指数 X2: 水域用地指数
24、X3: 建设用地指数 X4: 火烧迹地指数 X5: 到居民区距离2. 4 人口密度的空间降尺度模拟及模型检验采用模型一和模型二进行人口密度的空间降尺度模拟, 在 Arcmap 中运用栅格叠加运算, 计算得到 200m 200m 栅格上的人口数量, 即模拟出了栅格尺度上的人口密度。惠东县人口主要集中在东南沿海经济发达区域, 而西北经济落后山区人口密度较小, 其中东南区域的平山街道、黄埠镇、港口管委会的人口密度最高, 与惠东县的实际情况相符。模型的检验结果的 R 分别达到 0. 775 和 0. 886, 拟合效果比较理想, 特别是模型二的线性拟合斜率接近 1, 说明模型二的模拟结果最优, 因此采
25、用模型二对惠东县进行人口密度的降尺度模拟 ( 见图 2) 。模型一和建设用地指数、NDVI、林地指数等单一因子的模拟效果虽比不上模型二, 但模型方程中所涉及到的因子数量比模型一都要少, 这样就减少了模拟的工作量, 因此可以作为一种粗略、快速的模型应用于人口数据的降尺度模拟。3 结论本文基于 RS/GIS 技术进行惠东县乡镇人口数据和空间因子的提取和展布, 运用统计学方法获得多个人口空间化模型, 通过对模拟结果的检验选取了最优的模型, 模拟结果理想, 表明此人口密度模拟方法具有较强的操作性, 可为县域尺度人口密度空间化的应用研究提供借鉴。具体结论如下:( 1) GIS 技术可快速的实现统计年鉴数
26、据的空间展布, 进而与各类空间因子进行空间分析。( 2) 提取土地利用分类数据的建设用地作为居民区数据, 不仅解决了国家基础地理数据库居民点数据时效性不足的问题, 也提高了数据的精度。( 3) 有层次的运用统计学方法可减少分析的工作量。将相关性分析筛选的因子作为回归分析的输入因子, 提高分析的效率, 同时采用不同的分析方法获取最优的结果。( 4) 人口数据降尺度空间模拟解决了生态环境综合研究中的社会经济数据与自然地理数据不匹配的难题, 提高了生态环境综合研究和管理的科学性。本研究的最终模拟结果有利于推进惠东县的城市化进程, 为县域的生态地理综合研究提供数据基础, 并且为人口和资源环境的科学管理
27、提供理论依据。图 2 惠东县模拟人口与乡镇实际人口总数的关系 下载原图参考文献1廖顺宝, 孙九林.青藏高原人口分布与环境关系的定量研究J.中国人口资源与环境, 2003, 13 (3) :62-67. 2廖顺宝, 孙九林.基于 GIS 的青藏高原人口统计数据空间化J.地理学报, 2003, 58 (001) :25-33. 3王磊, 蔡运龙.人口密度的空间降尺度分析与模拟以贵州猫跳河流域为例J.地理科学进展, 2011, 30 (5) :635-640. 4Tobler W, D U.World Population in a Grid of Spherical QuadrilateralsJ
28、.International Journal of Population Geography, 1997:204-225. 5封志明, 李鹏.20 世纪人口地理学研究进展J.地理科学进展, 2011, 30 (2) :131-140. 6王雪梅, 李新, 马明国.基于遥感和 GIS 的人口数据空间化研究进展及案例分析J.遥感技术与应用, 2004, 19 (5) :320-327. 7高志强, 刘纪远.基于遥感和 GIS 的中国土地资源生态环境质量同人口分布的关系J.遥感学报, 1999, 3 (1) :66-70. 8刘纪远等.中国人口密度数字模拟J.地理学报, 2003, (1) :17-
29、24. 9肖荣波, 丁琛.城市规划中人口空间分布模拟方法研究J.中国人口资源与环境, 2011, 21 (6) :13-18. 10.李素, 庄大方.基于 RS 和 GIS 的人口估计方法研究综述J.2006, 1 (25) :109-121. 11Jiang Dong, L.H., An Updating System for the Gridded Population Database of China Based on Remote Sensing, GIS and Spatial Database TechnologiesJ.Sensors, 2009, 9 (3) :1128-1140. 12叶靖, 杨小唤, 江东.乡镇级人口统计数据空间化的格网尺度效应分析-以义乌市为例J.地球信息科学, 2010, 12 (1) :40-46. 13郭泺, 王艳杰, 薛达元, 赵松婷.基于 GIS 的黔东南地区人口密度动态变化的时空特征J.中国人口资源与环境, 2010, 20 (3) :378-381. 14俞路, 张善余, 韩贵峰.上海市人口分布变动的空间特征分析J.中国人口资源与环境, 2006, 16 (5) :83-87.