论文

代表性人口空间分布数据集的精度评价——以2010年广东省为例

  • 林丹淳 1 ,
  • 谭敏 2 ,
  • 刘凯 , 1 ,
  • 柳林 3 ,
  • 朱远辉 3
展开
  • 1.中山大学 地理科学与规划学院 广东省公共安全与灾害工程技术研究中心 广东省城市化与地理环境空间模拟重点实验室,广州 510275
  • 2.广州市城市规划设计所,广州 510030
  • 3.广州大学 地理科学学院 公共安全地理信息分析中心,广州 510006
刘凯(1979—),男,黑龙江伊春人,副教授,博士,研究方向为环境遥感与地理信息科学,(E-mail)

林丹淳(1995—),女,广东揭阳人,硕士研究生,研究方向为公共健康与GIS 应用,(E-mail) lindch3@mail2.sysu.edu.cn。

收稿日期: 2019-06-17

  要求修回日期: 2020-01-06

  网络出版日期: 2020-05-15

基金资助

国家自然科学基金重点项目(41531178)

广东省自然科学基金研究团队项目(2014A030312010)

版权

版权所有,未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。

Accuracy Comparison of Four Gridded Population Datasets in Guangdong Province, China

  • Danchun Lin 1 ,
  • Min Tan 2 ,
  • Kai Liu , 1 ,
  • Lin Liu 3 ,
  • Yuanhui Zhu 3
Expand
  • 1.School of Geography and Planning, Sun Yat-sen University, Guangdong Provincial Engineering Research Center for Public Security and Disaster, Guangdong Key Laboratory for Urbanization and Geo-Simulation, Guangzhou 510275, China
  • 2.Guangzhou Urban Planning & Design Studio, Guangzhou 510030
  • 3.Center of Geographic Information Analysis for Public Security, School of Geographic Sciences, Guangzhou University, Guangzhou 510006, China

Received date: 2019-06-17

  Request revised date: 2020-01-06

  Online published: 2020-05-15

Copyright

Copyright reserved © 2020

摘要

以人口密度差异显著的广东省为研究区,比较Worldpop、GPW v4和2种中国公里网格人口分布数据集的空间分布一致性,并以第六次全国人口普查数据为真值,按人口密度分为高、中、低3组,从误差的数值分布和空间分布两方面定量评价4种数据集的精度,最后讨论估算误差的可能来源及数据适用性。结果表明,4种网格人口数据集中Worldpop整体精度最高,且在人口密集区的精度也是最高;GPW v4在低人口密度和中人口密度区域精度略高于Worldpop,但对镇街内人口分布细节刻画不够详细;2种中国公里网格人口分布数据集精度较前两者低,主要受空间化方法和模型变量的选择所限制。Worldpop适合用于人口密度中等及人口密度高区域的精细化研究,GPW v4适合用于长时序、最小研究单元大于镇街的研究,第一种中国公里网格人口分布数据集适合用于需要考虑镇街内人口分布和空间异质性的研究,第二种中国公里网格人口分布数据集适用于需要考虑人口分布细节和空间格局变化的长时序研究。

本文引用格式

林丹淳 , 谭敏 , 刘凯 , 柳林 , 朱远辉 . 代表性人口空间分布数据集的精度评价——以2010年广东省为例[J]. 热带地理, 2020 , 40(2) : 346 -356 . DOI: 10.13284/j.cnki.rddl.003220

Abstract

The spatial distribution of population is foundational information for policy making, disaster prevention, economic development, environmental protection, and natural sciences or socioeconomic research. Analyzing different gridded population products is essential for learning their characteristics and proper application. Considering timeliness of data and convenience of access, this study compared the spatial consistency of WorldPop, GPW v4 (Gridded Population of World, version 4) and two types of Gridded Population of China datasets in Guangdong Province, China, a province with significant population density differences. The sixth census data in 2010 were divided into high, middle, and low density groups and used as reference data to validate these four datasets on numerical and spatial distribution of error. Moreover, the study used average absolute error, average relative error, root mean square error, correlation coefficient, four indicators, ratio error statistics, and the Taylor diagram for quantitative evaluation. Then, the spatial distribution of the ratio error and the accuracy of the four datasets in different population density regions were analyzed. Finally, an evaluation of error sources and applications from two aspects, including methods for spatializing census data and variables selection of spatial model, was performed. The findings of the study are as follows: 1) These four population datasets have similar spatial distribution trends, and the population is concentrated in the Pearl River Delta regions such as Guangzhou, Shenzhen, Dongguan, Foshan, Zhongshan and Chaoshan regions such as Shantou and Jieyang. The WorldPop dataset had the highest relative accuracy in the whole Guangdong Province, as well as in the high population density area, whereas the GPW v4 dataset performed better than WorldPop in the middle and low population density areas; however, GPW v4 had a shortcoming in depicting population distribution beneath the township level because of the areal-weighting method used. The two types of Gridded Population of China datasets had relatively lower accuracy than the other two datasets. 2) The accuracy of the four population datasets in Guangdong Province was limited mainly by the spatial method based on the regression algorithm, the weighting method, the selection of model variables, and also related to the geographical and social environment of Guangdong Province. 3) The WorldPop dataset is suitable for detailed research in areas with medium and high population density, GPW v4 is suitable for long-time, minimal research units larger than townships, and the first type of Gridded Population of China dataset is suitable for study that requires consideration of the distribution and spatial heterogeneity of population beneath the township level. The second type of Gridded Population of China dataset is suitable for long-time study that requires consideration of the details of the population distribution and changes of spatial pattern. This study provides important basic information for research and applications using gridded population datasets.

开放科学(资源服务)标识码(OSID):
人口空间分布信息是区域发展规划制定、灾害风险防范与救助、经济建设、环境与生态保护等政策的重要依据(卓莉 等,2014),如灾害学中致灾因子强度(如地震强度)与承载体暴露性(如人口分布)的空间叠加分析是自然灾害风险评估的关键步骤(史培军,2011)。当前广泛使用的人口数据通常是以行政区划为单元,通过普查、抽样统计等方式逐级汇总获得的典型人口统计数据,在实际应用中存在时间分辨率低、空间分辨率低、直观性差、不支持空间运算和分析等不足(高义 等,2013;郭洪旭 等,2013)。随着卫星传感器的不断发展和遥感技术的进步,基于卫星遥感数据的人口数据空间化已经成为主要的方法(柏中强 等,2013),如夜间灯光数据(卓莉 等,2005)、土地利用数据(田永中 等,2004;郑建 等,2013)、多源遥感数据融合(Zeng et al., 2011)等被广泛应用于人口数据空间化研究中。目前具有代表性的人口空间数据集产品主要包括:1)Worldpop;2)GPW v4(Gridded Population of the World, version 4);3)中国公里网格人口分布数据集;4)LandScan。这些数据集中,除LandScan外,其他均能获得2010年的人口分布数据。
开展对网格人口分布数据集的精度评价研究,对数据生产者和数据使用者都有重要意义(柏中强 等,2013;董南 等,2016),其中,数据生产者可以通过精度评价发现数据集的短板,选择更合适的方法以弥补精度薄弱环节;而数据使用者可以明确数据集的优缺点,针对应用需求选择更高质量的数据。目前,国内外对网格人口分布数据集之间的一致性对比和精度检验已有少数研究成果,如王雪梅等(2004)以黑河流域为研究区,对比了1995年的GPW和UNEP/GRID、2000年的中国1 km格网人口数据和2002年的LandScan数据,认为中国1 km格网人口数据在统计分析和空间分布上的总体估计精度最好,LandScan 2002次之;Hall等(2012)以瑞典为例对比了2000年的EU+27、GPW v3、GRUMP、LandScan,发现就全球统计数据而言,Landscan数据表现最好。但上述数据集年份较为久远,不能满足目前的研究需求,且随着数据集的推陈出新,还没有学者对新生产的GPW v4、Worldpop进行精度检验。虽然数据生产者对各自的数据产品精度进行了定量评价,但由于检验方法不同,使得验证结果不具备可比性(Tian et al., 2005; Zhuo et al., 2009;Liao et al., 2010; Mao et al., 2012; Gaughan et al., 2016)。
因此,本文拟选择2010年Worldpop、GPW v4和中国公里网格人口分布数据集进行精度评价,以2010年第六次人口普查数据为真值,以人口密度差异显著的广东省为研究区,分析代表性人口空间分布数据集误差的数值分布和空间分布,探讨人口空间分布数据集的精度和适用性,以期为数据生产者和使用者提供科学的参考依据。

1 研究区域与数据介绍

1.1 研究区域

广东省位于中国大陆南端沿海,地理位置为:20°13′–25°31′ N、109°39′–117°19′ E,属于热带、亚热带海洋季风气候,雨热同期。2010年全省有地级市21个,区县级行政单元125个,镇街级行政单元1 548个(广东省民政厅 等,2010)。广东省连续多年国内生产总值居全国第一,是中国第一经济大省,其中,广州市是国家中心城市;深圳市是全国性经济中心城市和国际化城市,被誉为“中国硅谷”。土地资源丰富,土地利用类型多样,全省土地总面积为179 812.7 km²。2010年年末常住人口为10 440.94万人,人口密度为581人/km²,较2009年分别增长了3.07%和3.20%,人口密度高于全省人口密度的地级市共有11个(广东省统计局,2010),是人多地少的省份之一。地势北高南低,有珠江三角洲平原和潮汕平原两大平原,珠江入海口沿岸地区和潮汕地区人口密度极高,而北部多丘陵,经济发展较慢,人口密度较低。由2010年广东省第六次人口普查数据(镇街级)可知,珠三角地区人口密度最高,达到86 392人/km²,北部地区最低,为8人/km²,人口密度差异显著。

1.2 数据介绍

考虑到数据的时效性及获取的便捷性,采用的数据包括:1)Worldpop;2)GPW v4(Gridded Population of the World, version 4);3)2种中国公里网格人口分布数据集(表1);4)广东省镇级行政区划数据;以及用作检验标准的广东省第六次人口普查数据。数据使用年份均为2010年。
表1 4种数据集的基本信息

Table 1 Introduction of four datasets used in this study

数据集 人口数据来源 空间化辅助数据 空间化方法 空间分辨率 时间分辨率
Worldpop 2010年第六次全国人口普查数据,区县人口数 灯光亮度、高程、坡度、到水体的距离、到河流的距离、到1990年建成区的距离、到2000年建成区的距离、到2010年建成区的距离、行政区划 随机森林模型 100 m 2000—2020
GPW v4 2010年第六次全国人口普查数据,镇街人口数 水域、联合国历史人口估计数、行政区划 面积权重法,水域作掩膜处理 30弧秒,相当于赤道处1 km 2000、2005、2010、2015、2020
第一种中国公里网格
人口分布数据集
2010年第六次全国人口普查数据,区县人口数 耕地、林地、草地、农村居民点、城镇居民点、工交建设用地、行政区划 基于土地利用的多元统计分区建模 1 km 2005、2010
第二种中国公里网格
人口分布数据集
2010年第六次全国人口普查数据,区县人口数 土地利用类型、夜间灯光亮度、居民点密度、行政区划 多因子权重分配法 1 km 1990、1995、2000、2005、2010、2015
1.2.1 Worldpop Woldpop项目是由佛罗里达大学地理系和新型病原研究所主持,旨在为中南美洲、非洲和亚洲提供空间人口数据集,以支持发展、灾害应对和卫生应用。该数据集的空间分辨率为100 m,是基于夜间灯光数据、土地利用数据、到各类土地利用类型的距离因子和高程信息,通过随机森林模型估算人口分布的权重图层,再利用分区密度制图实现人口空间化(Gaughan et al., 2016)。Worldpop有2种产品,一种是每公顷的人数,另一种是每个格网的人数,本文采用后者。
1.2.2 GPW v4 GPW数据集是哥伦比亚大学的国际地球科学信息网络中心(Center for Internetional Earth Science Information Network, CIESIN)和NASA的社会经济数据和应用中心(Socioeconomic Data and Applications Center, SEDAC)合作完成。至今,GPW已经在SEDAC网站 (http://sedac.ciesin.columbia.edu/)发布了4个版本的数据集。第4版于2016年发布,最高空间分辨率为30弧秒,相当于赤道处1 km。GPW数据的生产方式是通过面积加权法将人口普查数据分配到网格中,同时使用水域作为掩膜,将湖泊、河流和冰覆盖的区域设为无人区(Erin et al., 2015)。
1.2.4 广东省镇级行政区划 广东省镇级行政区划数据来自道道通导航电子地图,包括镇街代码、镇街名称、区县名称、城市名称、行政区划面积等属性,根据2010年的人口普查数据统计单元以及《广东省政区图册》,编辑广东省镇级行政区划数据的边界,最终得到1 433个行政区划单元。与广东省市区级行政区划相比,镇级行政区划能更清晰详细地描述各区域的空间信息,拥有更精细的数据。

2 数据处理与评价方法

2.1 数据处理

数据处理包括2个步骤:1)为了减少由于投影转换导致的信息损失,统计均按原有的投影方式进行(王雪梅 等,2004),将广东省镇级行政矢量边界进行投影转换以与4种网格人口分布数据集相匹配。2)编辑广东省镇级行政边界,整理人口普查数据,使两者相对应。由于人口普查数据中存在虚拟镇,如电白县有陈村虚拟镇、曙光农场虚拟镇、水丰农场虚拟镇、电白盐场虚拟镇等,预处理时需要将行政边界数据与人口普查数据逐一核对,将虚拟镇的人口数根据地理位置合并到相应行政单元。还需要将行政边界数据与2010年的《广东省政区图册》的行政区划逐一核对,避免因行政单元合并或拆分的情况导致行政边界数据与人口普查统计口径不一致。

2.2 评价方法

针对人口空间分布数据集产品,采用定性与定量相结合的评价方法(谭敏 等,2017)。
2.2.1 定性评价 用统一分级的渲染方式比较Worldpop、GPW v4和2种中国公里网格人口分布数据集在广东省的空间集聚情况和人口分级特征,再将4种网格人口分布数据集每个格网的人口数汇总到镇级行政单元上,与人口普查数据作散点图,通过趋势线回归方程和决定系数比较各数据集的人口估算值与实际真值的偏差情况。
2.2.2 定量评价 先利用基尼系数描述4种网格人口分布数据集的空间异质性,再从误差的数值分布和空间分布2个维度,以人口普查数据为真值,通过平均绝对误差(Mean Absolute Error, MAE)、平均相对误差(Mean Relative Error, MRE)、均方根误差(Root Mean Square Error, RMSE)、相关系数(Correlation Coefficient, CC)和比率误差(Ratio Error, RE)统计对比4种数据集的误差数值分布。并按人口密度进行分组,利用误差空间分布图、每个组别的误差指标和Taylor图(Taylor, 2001)探讨4种数据集误差的空间分布(廖顺宝 等,2009)。公式如下(茆诗松,2004;贾俊平 等,2009):
MAE = 1 N f i - r i
MRE = 1 N f i - r i r i
RMSE = 1 N f i - r i 2
CC = cov f , r σ f σ r
RE = f i - r i r i
式中:fi表示第i个镇街的4个数据集的估算人口数;ri表示第i个镇街的人口普查人口数;N表示镇街的个数;cov(f, r)表示估算人口数与人口普查人口数的协方差;σf表示估算人口数的标准差;σr 表示人口普查人口数的标准差。

3 结果与分析

3.1 4种网格人口分布数据集的定性比较
为采用统一分级的渲染方式对比4种网格人口分布数据集的空间分布,对Worldpop进行了块统计处理,使之空间分辨率为1 km,且栅格值表示1 km格网内的人口数,后续的定量比较依然保持100 m的分辨率。由图1可以发现,4种数据集的空间分布趋势大体一致,人口大量集聚在广州、深圳、东莞、佛山、中山等珠三角地区和汕头、揭阳等潮汕地区;从每个市来看,人口明显集聚在某几个地区,这些地区一般是城市中心或市政府所在地,拥有适宜的自然环境和较高的经济发展水平,因而人口分布集聚,这也反映了广东省人口分布与土地利用类型以及经济状况有较强相关性。显示效果上,GPW v4有较明显的断层,另外3种数据集的空间连续性更好。从人口分级上来看,Worldpop和GPW v4的人口数值分布较为接近,但Worldpop的中心集聚形态更加明显。第一种中国公里网格人口分布数据集在人口密度较低区域估算的人口数整体都比Worldpop和GPW v4数据集高。与其他数据集相比,第二种中国公里网格人口分布数据集在低密度人口区域的人口估算具有大面积偏高的现象,人口分级特征也相对较弱。
图1 四种网格人口分布数据集在广东省的分布[a. Worldpop;b. GPW v4;中国公里网格人口分布数据集(c. 第1种;d. 第2种)]

Fig.1 Distribution of four datasets in Guangdong Province [a. Worldpop; b. GPW v4; Gridded Population of China datasets (c. Tyep 1; d. Type 2)]

将4种网格人口分布数据集每个格网的人口数汇总到镇级行政单元,与人口普查的镇级人口数作散点图(图2)。Worldpop、GPW v4、第一种和第二种中国公里网格人口分布数据集与人口普查数拟合的趋势线决定系数(R2)分别为0.846、0.844、0.761和0.627,且P值都为0,Wordpop和GPW v4的估算结果的偏差程度较小,且两者相差不大,而2种中国公里网格人口分布数据集的人口估算数与实际偏差较大,特别是第二种中国公里网格人口分布数据集。
图2 4种网格人口分布数据集与人口普查数据的散点图

Fig.2 Scatter plot of estimated population and census data

3.2 4种网格人口分布数据集的定量比较
3.2.1 空间异质性 为了更直观地描述4种网格人口分布数据集的空间异质性,利用基尼系数指标进行评价(表2)。从市级和镇街级2个尺度展开分析,4种网格人口分布数据集的基尼系数在镇街级尺度上都比市级尺度大,说明按镇街面积分布时空间异质性更大,这符合广东省的实际人口分布情况。在市级尺度上,第一种中国公里网格人口分布数据集的基尼系数最大,在镇街级尺度上,GPW v4的基尼系数最大。总体上,第一种中国公里网格人口分布数据集在市级和镇街级2个尺度都能较好地描述人口分布的空间异质性。
表2 4种网格人口分布数据集在广东省按地理面积分布的基尼系数

Table 2 The Gini coefficient according to geographical distribution of four datasets in Guangdong Province

基尼系数 Worldpop GPW v4 中国公里网格人口分布数据集
第一种 第二种
市级 0.378 0.370 0.379 0.377
镇街级 0.547 0.564 0.560 0.542
3.2.2 误差数值分布 广东省2010年全省总人口数为10 440.94万人,利用绝对误差、相对误差比较4种数据集在广东省的误差(表3)。Worldpop的估算总人口与人口普查结果最接近,2种中国公里网格人口分布数据集估算的总人口与人口普查结果也十分接近,精度次之,可能与两者都基于区县级人口普查数据生成且所用空间化辅助数据较为相似有关。而GPW v4估算误差最大,但也很接近普查的人口数,因为GPW v4采用的空间化方法是面积权重法,具有保留数据最原始的真实值的优点,误差较大的原因可能是本文检验用的行政边界与GPW v4采用的行政边界不完全匹配所导致。
表3 4种网格人口分布数据集在广东省的误差

Table 3 The accuracy assessment of four datasets in Guangdong Province

数据集 估算总人口数/人 绝对误差 相对误差/%
Worldpop 104 464 941 419 805 0.40
GPW v4 10 3071 531 1 813 215 1.73
第一种中国公里网格人口分布数据集 10 3559 084 1 325 662 1.26
第二种中国公里网格人口分布数据集 103 464 238 1 420 508 1.35
表4 4种网格人口分布数据集在广东省比率误差数值分布

Table 4 The ratio error of four datasets in Guangdong Province

比率误差/% Worldpop GPW v4 第一种中国公里网格
人口分布数据集
第二种中国公里网格
人口分布数据集
个数/个 比例/% 个数/个 比例/% 个数/个 比例/% 个数/个 比例/%
<-30 258 18.00 222 15.49 438 30.57 322 22.47
-30~-20 128 8.93 144 10.05 155 10.82 77 5.37
-20~-10 133 9.28 180 12.56 148 10.33 91 6.35
-10~10 280 19.54 412 28.75 220 15.35 204 14.24
10~20 117 8.16 154 10.75 89 6.21 96 6.70
20~30 91 6.35 87 6.07 62 4.33 73 5.09
>30 426 29.73 234 16.33 321 22.40 570 39.78
通过统计不同比率误差(廖一兰 等,2007)范围内4种数据集的镇级行政单元个数及比例来进一步比较4种数据集的精度(表4)。1)比率误差在-10%~10%范围内的镇街个数最多的是GPW v4,占广东省镇街个数的28.75%;Worldpop次之,有19.54%的镇街在该误差范围内;第一种中国公里网格人口分布数据集有15.35%的镇街在此误差区间,第二种中国公里网格人口分布数据集在此误差区间的镇街个数最少,与第一种数据集的误差比例接近。2)在<-30%的误差范围,第一种中国公里网格人口分布数据集在4个数据集中个数最多(438个),占广东省镇街个数的30.57%;第二种中国公里网格人口分布数据集在此误差区间的镇街比例有22.47%,说明中国公里网格人口分布数据集低估了较多镇街人口数,尤其是第一种中国公里网格人口分布数据集;其次Worldpop低估人口数的镇街个数也比GPW v4多。3)在>30%的误差区间里,第二种中国公里网格人口分布数据集镇街数量最多,占广东省的39.78%;其次是Worldpop,占比为29.73%;第一种中国公里网格人口分布数据集有22.40%的镇街人口数估算偏高;而GPW v4高估人口数的镇街个数最少。可见,GPW v4高估比例和低估比例都最小且误差绝对值<10%的镇街数最多,表现最好;Worldpop高估了较多镇街人口数,2种中国公里网格人口分布数据集都存在高估和低估人口数的现象,其中第一种中国公里网格人口分布数据集低估了较多镇街人口数,第二种中国公里网格人口分布数据集则高估了人口数。
3.2.3 误差空间分布 图3显示了每个镇街的比率误差分级,可以看出Worldpop对部分镇街的估算偏高,特别是在韶关市和惠州市惠东县内,这可能与Worldpop的辅助空间化数据没有林地、耕地等土地利用数据有关,韶关市为全国重点林区,林业用地面积广,而农业在惠东县国民经济中占据主要地位;GPW v4大部分镇街估算误差在±30%以内,误差大的镇街主要分布在清远市北部以及韶关市西北部,这些地区山地面积占比高,而GPW v4的生产方式并未考虑到地形地貌;第一种中国公里网格人口分布数据集的误差空间分布规律不明显,误差原因可能是广东省土地资源丰富且土地利用类型多样,而基于土地利用的多元回归模型难以揭示各种土地利用类型的综合影响;第二种中国公里网格人口分布数据集整体估算偏高,同样没有明显的误差空间分布规律,这可能是由于广东省属于高人口密度的典型省份,而多因子权重分配法中各因子的权重确定较为复杂,没有分区建立模型所导致的。
图3 四种网格人口分布数据集的误差空间分布[a. Worldpop;b. GPW v4;中国公里网格人口分布数据集(c. 第1种;d. 第2种)]

Fig.3 Spatial distribution of ratio error in Guangdong Province [a. Worldpop; b. GPW v4; Gridded Population of China datasets (c. Tyep1; d. Type 2)]

按人口普查的人口密度将广东省分为高(人口密度<200人/km²,共244个镇街)、中(人口密度介于200~3 000人/km²之间,共757个镇街)、低(人口密度>3 000人/km²,共432个镇街)3个区域,利用平均绝对误差、平均相对误差、均方根误差、相关系数(表5)和Taylor图(图4)分析4种网格人口分布数据集在不同人口密度区域的表现。
表5 4种网格人口分布数据集在不同人口密度区域的误差

Table 5 Accuracy assessment of four datasets in high, middle and low population density area

人口密度区域 数据集 平均绝对误差 平均相对误差/% 均方根误差 相关系数
Worldpop 9 345.11 59.26 13 829.01 0.758
GPW v4 5 652.92 34.61 10 900.86 0.817
中国公里网格人口分布数据集 第一种 9 138.65 46.97 15 132.75 0.669
第二种 18 387.90 118.53 28 039.27 0.639
Worldpop 22 670.02 34.52 36 841.76 0.888
GPW v4 17 618.00 28.79 31 336.51 0.917
中国公里网格人口分布数据集 第一种 29 184.58 45.35 47 601.60 0.821
第二种 31 936.10 47.27 54 695.97 0.744
Worldpop 45 502.59 33.93 70 325.61 0.919
GPW v4 49 465.10 39.59 79 885.08 0.896
中国公里网格人口分布数据集 第一种 60 789.64 46.54 93 916.65 0.861
第二种 76 571.97 50.52 111 506.48 0.826
图4 4种网格人口分布数据集在广东省不同人口密度地区的Taylor图

注:数据点与REF点的距离越小则精度越高,距离相等时越接近值为1的虚线圆弧的精度越高。

Fig.4 Taylor diagram of four datasets in high, middle and low population density area of Guangdong Province

综合表5图4来看,在人口密度低的地区,GPW v4的精度最高,4项指标都优于其他3个数据集并且在图4中A1、A2、A3和A4四个点也是A2最接近REF点,其次是Worldpop,而第二种中国公里网格人口分布数据集精度最低。在人口密度中等的地区,GPW v4依然表现最好,平均相对误差仅28.79%,相关系数为0.917;其次为Worldpop,与GPW v4误差相差不大,在图4中B1、B2的位置也相对接近;第一种中国公里网格人口分布数据集比第二种中国公里网格人口分布数据集的整体表现好,但后者的标准差较小。在人口密度高的地区,Worldpop的4项指标均表现最好,在图4中C1和C2很接近,但C1更接近REF点,所以在人口密度高的地区Worldpop的精度最高,其次为GPW v4。2种中国公里网格人口分布数据集的表现较其他2个数据集差,图4中C3与C1、C2更接近,说明第一种中国公里网格人口分布数据集精度相对较高。

4 讨论

4种数据集中,Worldpop在人口密集区的精度最高,GPW v4在低人口密度和中人口密度区域精度略高于Worldpop,但GPW v4是在镇街级开展的空间化,输入数据精度比Worldpop高,而精度表现没有明显优于Worldpop,且由于面积权重法的局限性,无法反映镇街内人口空间分布真实状况,所以Worldpop整体表现优于GPW V4。在镇街尺度上GPW v4的精度高于2种中国公里网格人口分布数据集,但中国公里网格人口分布数据集能刻画镇街内人口分布的真实状态,且第一种中国公里网格人口分布数据集能更好地描述人口分布的空间异质性。4种数据集在人口密度偏低或偏高的区域精度评价结果都不太理想,可能的原因有以下几点:
1)基于回归的空间化方法。Worldpop采用了属于分类回归树算法的随机森林模型,第一种中国公里网格人口分布数据集采用了多元统计回归模型,随机森林模型不需要顾虑多元统计回归模型面临的共线性问题,能度量变量的重要性并高效运算大量数据。但回归算法预测的是平均值,广东省镇街众多,人口密度差异显著,难以避免地会低估人口密度高区域的人口数,而高估人口密度低区域的人口数。
2)权重法的局限性。GPW数据集使用的面积权重法能保证区域人口总量不变,但其精度依赖于输入数据的精细程度(Tatem et al., 2007),广东省人多地少,镇街级行政区面积与人口密度成反比关系(图5),即人口密度较低的区域行政区面积较大,但面积权重法假设各行政单元人口均匀分布,这导致了GPW v4在人口密度低的区域的估算精度比其他区域低。第二种中国公里网格人口分布数据集使用的多因子权重分配法没有根据地区特点分区域进行讨论,而广东省属于热带、亚热带海洋季风气候,自然资源丰富,社会经济发展差异较大,不同区域人口分布的影响因素差异显著,因此会出现高估和低估人口数的现象。
图5 广东省镇街级行政区面积与人口密度的关系

Fig.5 The relationship of town area and population density in Guangdong Province

3)模型变量的选择方面,第一种中国公里网格人口分布数据集的建模变量为耕地、林地、草地、农村居民点、城镇居民点、工交建设用地,广东省人口密度高区域的人口分布除了与土地利用类型有关之外,受经济因素影响也较大,模型中缺乏经济因子的校正,可能导致模型不能准确地反映高密度人口地区的人口分布情况。而Worldpop生产时通过随机森林模型得到的变量重要性中,灯光数据为最重要的因子(Gaughan et al., 2016);Briggs等(2007)亦验证了加入灯光数据作为变量可使人口空间化精度提高。这可能是Worldpop在人口密度高的区域仍能保持较高精度的原因之一。第二种中国公里网格人口数据集加入了灯光因素作为影响因子,但由于权重的确定受区域环境影响的局限性以及广东省自然环境与社会环境的复杂性,没有分区建立权重分配模型会导致总体精度不高。
Worldpop的空间分辨率为100 m,在空间分辨率上比1 km的GPW v4和2种中国公里网格人口分布数据集有大幅提升,同时精度最高,说明其能够较准确地描述人口分布且提供更多人口分布细节信息,适合用于人口密度中等及人口密度高地区的精细化研究。GPW v4受空间分辨率和数据生产的方法所限制,无法反映镇街内人口空间分布真实状况,其优势在于镇街级的人口总数值较准确,在低、中密度人口区域的估算精度较高,适合用于长时序、最小研究单元大于镇街的研究。第一种中国公里网格人口分布数据集的优势在于数据空间连续性好,能细致描述镇街内的人口分布,适合用于需要考虑镇街内人口分布和空间异质性的研究。第二种中国公里网格人口分布数据集作为时间跨度最大的数据集,考虑了多因子的影响,对镇街内的人口分布描述优于GPW v4数据集,适用于需要考虑人口分布细节和空间格局变化的长时序研究。
本文的不确定性在于精度评价时把网格人口数汇总到镇街级行政区再进行对比,无法判断镇街内的人口分布是否符合实际情况,而且镇街行政边界与人口普查的统计单元不完全统一,但在镇街级尺度开展的精度验证可为小尺度研究中人口数据集的选择提供参考,且体现了不同生产方法的局限性,故本文对4种数据集的精度评估仍然具有参考价值。

5 结论

通过比较Worldpop、GPW v4和2种中国公里网格人口分布数据集在广东省的空间分布一致性和空间异质性,并利用平均绝对误差、平均相对误差、均方根误差、相关系数4个指标、比率误差统计和Taylor图定量评价4种数据集的精度,分析4种数据集在不同人口密度地区的估算精度,得出以下结论:
1)4种数据集中,Worldpop的整体精度最高,且在人口密集区的精度最高,GPW v4在低人口密度和中人口密度区域精度略高于Worldpop,在镇街级尺度上对人口的估算精度高于中国公里网格人口分布数据集,但受限于空间分辨率与空间化方法,对于镇街内人口空间分布刻画不如中国公里网格人口分布数据集,特别是第一种中国公里网格人口分布数据集。
2)4种网格人口分布数据集在广东省的估算精度主要受自身的生产方法以及模型变量的选择所限制,同时也与广东省的地理环境和社会环境有关。
3)Worldpop适合用于人口密度中等和高等区域的精细化研究,GPW v4适合用于长时序、最小研究单元大于镇街的研究,第一种中国公里网格人口分布数据集适合用于需要考虑镇街内人口分布和空间异质性的研究,第二种中国公里网格人口分布数据集适用于需要考虑人口分布细节和空间格局变化的长时序研究。
[1]
柏中强, 王卷乐, 杨飞 . 2013. 人口数据空间化研究综述. 地理科学进展, 32(11):1692-1702.

[ Bai Zhongqiang, Wang Juanle and Yang Fei . 2013. A Summary of the Research on Population Data Spatialization. Progress in Geography, 32(11):1692-1702. ]

[2]
Briggs D J, Gulliver J, Fecht D and Vienneau D M . 2007. Dasymetric Modelling of Small-Area Population Distribution Using Land Cover and Light Emissions Data. Remote Sensing of Environment, 108(4):451-466.

[3]
董南, 杨小唤, 蔡红艳 . 2016. 人口数据空间化研究进展. 地球信息科学学报, 18(10):1295-1304.

[ Dong Nan, Yang Xiaohuan and Cai Hongyan . 2016. Research Progress and Perspective on the Spatialization of Population Data. Journal of Geo-information Science, 18(10):1295-1304. ]

[4]
Erin D W, Macmanus K, Adamo S, Pistolesi L, John S, Borkovska O and Baptista S . 2015. Taking Advantage of the Improved Availability of Census Data: A First Look at the Gridded Population of the World, Version 4. Papers in Applied Geography, 1(3):226-234.

[5]
付晶莹, 江东, 黄耀欢 . 2014. 中国公里网格人口分布数据集. 地理学报(增刊), 69:41-44.

[ Fu Jingying, Jiang Dong and Huang Ruihuan . 2014. Populationgrid_China. Acta Geographica Sinica(Supplement), 69:41-44. ]

[6]
高义, 王辉, 王培涛, 孙晓宇, 吕婷婷 . 2013. 基于人口普查与多源夜间灯光数据的海岸带人口空间化分析. 资源科学, 35(12):2517-2523.

[ Gao Yi, Wang Hui, Wang Peitao, Sun Xiaoyu and Lv Tingting . 2013. Population Spatial Processing for Chinese Coastal Zones Based on Census and Multiple Night Light Data. Resources Science, ( 12):2517-2523. ]

[7]
Gaughan A E, Stevens F R, Huang Z, Nieves J J, Sorichetta A, Lai S, Ye X, Linard C, Hornby G M, Hay S I, Yu H and Tatem A J . 2016. Spatiotemporal Patterns of Population in Mainland China, 1990 to 2010. Scientific Data, 3(1):1-11.

[8]
广东省民政厅, 广东省地图出版社. 2010. 广东省政区图册. 广州: 广东省地图出版社.

[ Department of Civil Affairs Province and Cartographic Publishing House of Guangdong Province. 2010. Guangdong Province Administrative Region Atlas. Guangzhou: Cartographic Publishing House of Province. ]

[9]
广东省统计局. 2010. 广东统计年鉴. 北京: 中国统计出版社.

[ Statistics Bureau of Guangdong Province. 2010. Guangdong Statistical Yearbook. Beijing: China Statistics Press. ]

[10]
郭洪旭, 黄莹, 赵黛青 . 2013. 城市居住人口空间分布的模拟研究——以广州市天河区为例. 热带地理, 33(1):81-87.

[ Guo Hongxu, Huang Ying and Zhao Daiqing . 2013. A Simulation Study on the Spatial Distribution of Urban Residents: A Case Study of Tianhe District, Guangzhou. Tropical Geography, 33(1):81-87. ]

[11]
Hall O, Stroh E and Paya F . 2012. From Census to Grids: Comparing Gridded Population of the World with Swedish Census Records. The Open Geography Journal, 5(1):1-5.

[12]
贾俊平, 何晓群, 金勇 . 2009. 统计学(第四版). 北京: 中国人民大学出版社.

[ Jia Junping , He Xiaoqun and Jin Yong. 2009. Statistics. 4th Edition. Beijing: China Renmin University Press. ]

[13]
江东, 杨小唤, 王乃斌, 刘红辉 . 2002. 基于RS、GIS的人口空间分布研究. 地球科学进展, 17(5):734-738.

[ Jiang Dong, Yang Xiaohuan, Wang Naibin and Liu Honghui . 2002. Study on Spatial Distribution of Population Based on Remote Sensing and GIS. Advances in Earth Science, 17(5):734-738. ]

[14]
廖顺宝, 张赛 . 2009. 属性数据空间化误差评价指标体系研究. 地球信息科学学报, 11(2):176-182.

[ Liao Shunbao and Zhang Sai . 2009. Study on Error Evaluating Index for Spatialisation of Attribute Data. Journal of Geo-Information Science, 11(2):176-182. ]

[15]
Liao Y, Wang J, Meng B and Li X . 2010. Integration of GP and GA for Mapping Population Distribution. International Journal of Geographical Information Science, 24(1):47-67.

[16]
廖一兰, 王劲峰, 孟斌, 李新虎 . 2007. 人口统计数据空间化的一种方法. 地理学报, 62(10):1110-1119.

[ Liao Yilan, Wang Jinfeng, Meng Bin and Li Xinhu . 2007. A Method of Spatialization of Demographic Data. Acta Geographica Sinica, 62(10):1110-1119. ]

[17]
Mao Y, Ye A and Xu J . 2012. Using Land Use Data to Estimate the Population Distribution of China in 2000. GIScience and Remote Sensing, 49(6):822-853.

[18]
茆诗松 . 2004. 概率论与数理统计教程. 北京: 高等教育出版社.

[ Mao Shisong. 2004. Probability Theory and Mathematical Statistics Course. Beijing: Higher Education Press. ]

[19]
史培军 . 2011. 中国自然灾害风险地图集. 北京: 科学出版社.

[ Shi Peijun. 2011. China Natural Disaster Risk Atlas. Beijing: Science Press. ]

[20]
谭敏, 刘凯, 柳林, 朱远辉, 王大山 . 2017. 基于随机森林模型的珠江三角洲30 m格网人口空间化. 地理科学进展, 36(10):1304-1312.

[ Tan Min, Liu Kai, Liu Lin, Zhu Yuanhui Wang Dashan . 2017. Spatialization of Population in the Pearl River Delta in 30 m Grids Using Random Forest Model. Progress in Geography, 36(10):1304-1312. ]

[21]
Tatem A J, Noor A M, Von H C, DI G A and Hay S I . 2007. High Resolution Population Maps for Low Income Nations: Combining Land Cover and Census in East Africa. PLoS One, 2(12):e1298.

DOI PMID

[22]
Taylor K E . 2001. Summarizing Multiple Aspects of Model Performance in a Single Diagram. Journal of Geophysical Research, 106(7):7183-7192.

[23]
Tian Y, Yue T, Zhu L and Clinton N . 2005. Modeling Population Density Using Land Cover Data. Ecological Modelling, 189(1/2):72-88.

[24]
田永中, 陈述彭, 岳天祥, 朱莉芬, 王英安, 范泽孟, 马胜男 . 2004. 基于土地利用的中国人口密度模拟. 地理学报, 59(2):283-292.

[ Tian Yongzhong, Chen Shupeng, Yue Tianxiang, Zhu Lifen, Wang Ying'an, Fang Zemeng and Ma Shengnan . 2004. Simulation of China's Population Density Based on Land Use. Acta Geographica Sinica, 59(2):283-292. ]

[25]
王雪梅, 李新, 马明国 . 2004. 基于遥感和GIS的人口数据空间化研究进展及案例分析. 遥感技术与应用. 19(5):320-327.

[ Wang Xuemei, Li Xin and Ma Mingguo . 2004. Research Progress and Case Analysis of Population Data Spatialization Based on Remote Sensing and GIS. Remote Sensing Technology and Application, 19(5):320-327. ]

[26]
徐新良 . 2017.中国人口空间分布公里网格数据集.中国科学院资源环境科学数据中心数据注册与出版系统.). DOI: 10.12078/2017121101.

[ Xu Xinliang. 2017. Gridded Population of China Dataset. Data Registration and Publishing System of Resource and Environment Science Data Center of Chinese Academy of Sciences. ). DOI: 10.12078/2017121101.]

[27]
Zeng C, Zhou Y, Wang S, Yan F and Zhao Q . 2011. Population Spatialization in China Based on Night-Time Imagery and Land Use Data. International Journal of Remote Sensing, 32(24):9599-9620.

[28]
郑建, 罗光杰, 李阳兵, 周志明, 王世杰 . 2013. 基于聚落演变的岩溶山区小尺度人口数推算方法——以普定后寨河地区为例. 热带地理, 33(2):141-146,177.

[ Zheng Jian, Luo Guangjie, Li Yangbing, Zhou Zhiming and Wang Shijie . 2013. A Method for Calculating Small-Scale Population in Karst Mountain Area Based on Settlement Evolution—A Case Study of Houzhai River Area in Puding. Tropical Geography, 33(2):141-146, 177. ]

[29]
Zhuo L, Chinose T, Zheng J, Chen J, Shi P J and Li X . 2009. Modelling the Population Density of China at the Pixel Level Based on DMSP/OLS Non-Radiance-Calibrated Night-time Light Images. International Journal of Remote Sensing, 30(4):1003-1018.

[30]
卓莉, 陈晋, 史培军, 辜智慧, 范一大, 一之瀬俊明 . 2005. 基于夜间灯光数据的中国人口密度模拟. 地理学报, 60(2):266-276.

[ Zhuo Li, Chen Jin, Shi Peijun, Gu Zhihui, Fan Yida and Toshiaki Ichinose . 2005. Modeling Population Density of China in 1998 Based on DMSP/OLS Nighttime Light Image. Acta Geographica Sinica, 60(2):266-276. ]

[31]
卓莉, 黄信锐, 陶海燕, 王芳, 谢育航 . 2014. 基于多智能体模型与建筑物信息的高空间分辨率人口分布模拟. 地理研究, 33(3):520-531.

[ Zhuo Li, Huang Xinrui, Tao Haiyan, Wang Fang and Xie Yuhang . 2014. High Spatial Resolution Population Distribution Simulation Based on Building Information and Multi-Agent. Geographical Research, 33(3):520-531. ]

文章导航

/