台风灾害损失评估与应急

基于机器学习算法的热带气旋灾害县级直接经济损失等级评估:以福建省为例

  • 邵婧妍 , 1, 2, 3, 4 ,
  • 方伟华 , 1, 2, 3, 4
展开
  • 1. 北京师范大学 环境演变与自然灾害教育部重点实验室,北京 100875
  • 2. 北京师范大学 地表过程与资源生态国家重点实验室,北京 100875
  • 3. 北京师范大学 地理科学学部灾害风险科学研究院,北京 100875
  • 4. 应急管理部-教育部减灾与应急管理研究院,北京 100875
方伟华(1973—),男,湖北咸宁人,教授,博士,主要从事自然灾害风险评估和应急管理研究,(E-mail)

邵婧妍(1999—),女,河北沧州人,硕士研究生,主要从事热带气旋灾害评估研究,(E-mail)

收稿日期: 2023-12-07

  修回日期: 2024-02-26

  网络出版日期: 2024-06-13

基金资助

国家重点研发计划项目(2022YFC3006404-02)

Assessment of Direct Economic Loss Levels Caused by Tropical Cyclone Disasters in County-Level Using Machine Learning: A Case Study of Fujian Province

  • Jingyan Shao , 1, 2, 3, 4 ,
  • Weihua Fang , 1, 2, 3, 4
Expand
  • 1. Key Laboratory of Environmental change and Natural Disasters, Ministry of Education, Beijing Normal University, Being 100875, China
  • 2. State Key Laboratory of Earth Surface Processes and Resource Ecology (ESPRE), Beijing Normal University, Being 100875, China
  • 3. Faculty of Geographical Science, Beijing Normal University, Beijing 100875, China
  • 4. Academy of Disaster Reduction and Emergency Management, Ministry of Emergency Management and Ministry of Education, Beijing 100875, China

Received date: 2023-12-07

  Revised date: 2024-02-26

  Online published: 2024-06-13

摘要

为了探索机器学习模型在热带气旋灾害损失评估中的作用,基于2009—2020年福建省县级热带气旋灾害损失数据,分别采用LightGBM (Light Gradient Boosting Machine, LightGBM)、随机森林(Random Forest, RF)、极限梯度提升(eXtreme Gradient Boosting, XGBoost)、支持向量机(Support Vector Machine, SVM)、BP神经网络(Back-Propagation Neural Network, BP)等5种算法,优化了直接经济损失等级评估模型参数,并用不同的热带气旋事件进行验证。结果表明:基于LightGBM算法性能最佳,其准确率、精确率、召回率和F1分数(精确率和召回率的调和平均值)均在79%以上,具有较好的泛化能力;最大小时降雨量、3 s极值风速是最重要的2个致灾指标,固定资本存量是比GDP更重要的指标;通过4种登陆点/路径和2种风雨强度的热带气旋事件的对比,发现评估结果与实际结果较为一致,模型具有较好的适用性。

本文引用格式

邵婧妍 , 方伟华 . 基于机器学习算法的热带气旋灾害县级直接经济损失等级评估:以福建省为例[J]. 热带地理, 2024 , 44(6) : 1064 -1078 . DOI: 10.13284/j.cnki.rddl.20230962

Abstract

China is frequently affected by tropical cyclones, which can lead to severe economic losses. Rapid disaster loss assessment is crucial for effective emergency response. A variety of factors affect tropical cyclone disaster losses, which can be roughly categorized into hazard, exposure, and vulnerability. In the past, traditional statistical methods were used as the main tools for disaster loss assessment. To explore the potential of machine learning models, we explored five algorithms: the Light Gradient Boosting Machine (LightGBM), Random Forest (RF), eXtreme Gradient Boosting (XGBoost), Support Vector Machine (SVM), and Back-Propagation Neural Network (BP). The maximum gust wind and rainfall of tropical cyclones were selected to represent hazards, fixed capital stock data were used for the valuation of exposure, and the GDP of each county was collected to reflect capacity or vulnerability. In addition, river network density data were used as a simple proxy to demonstrate the contribution of flood-induced tropical cyclone rainfall. The relationship between these input variables and disaster loss at the county level was developed based on the data of 81 tropical cyclone events from 2009 to 2020 in Fujian Province. The performance of these models was compared using accuracy, precision, recall, and F1 scores. The accuracies of the LightGBM, RF, XGBoost, SVM, and BP models were 0.794 6, 0.772 6, 0.762 8, 0.251 8, and 0.268 1, respectively. The main findings are as follows: (1) The performance of the ensemble learning algorithms (RF, XGBoost, and LightGBM) was higher than that of the individual classifiers (BP and SVM). The LightGBM model exhibited the best performance, with accuracy, precision, recall, and F1 scores >79%. (2) Maximum hourly rainfall and maximum wind gust are two of the most important loss-inducing factors, and fixed capital stock is a better proxy for disaster exposure than GDP. (3) The modeled losses are consistent with the actual losses under different but typical tropical cyclone events, indicating that the models can be applied to future tropical cyclone events impacting Fujian Province. However, this study had some limitations. First, some natural hazards, such as floods, storm surges, and waves, were not fully considered, which introduced uncertainty into the model results. Second, the emergency response capacity and actual actions taken among counties may have varied dramatically and were neglected due to data unavailability. In the future, hazard and vulnerability variables should be obtained to extend the model inputs. In addition, whether the model parameters trained with data from Fujian Province can be applied to other provinces remains unaddressed. In the future, to develop an operational model for the whole of coastal China, county-level data of all typhoon-prone areas in China with long-term time series are needed.

中国是受热带气旋灾害影响严重的国家之一。据《中国气象灾害年鉴》统计(中国气象局,2003—2018),2003—2018年,热带气旋对中国造成的经济损失已累计超过8 500亿元人民币。热带气旋灾害直接经济损失的快速评估结果,可为灾害应对提供重要的技术支撑。
目前,热带气旋灾害损失评估方法主要分为2类。一类是基于致灾机理。通过研究致灾因子危险性和承灾体损失率的关系对损失进行量化评估,主要方法为构建脆弱性曲线、致灾因子危险性强度、承灾体重置成本等数据来估算灾害损失。如,基于历史灾害损失数据,针对房屋倒塌构建热带气旋灾害脆弱性曲线(郭桂祯 等,2017);基于调查问卷数据,采用Logistic累积分布函数拟合47种承灾体脆弱性曲线,并利用灾害损失数据进行曲线校正(Zhang et al., 2021);基于HAZUS-MH模型(Vickery et al., 2006)及FPHLM模型(Florida Public Hurricane Loss Model, FPHLM)(Chen et al., 2008)形成具体的应用系统。该类方法可明确灾害形成的动力物理机制,理论性较强,但承灾体的脆弱性受很多因素影响,难以量化,曲线的构建较为复杂。另一类是传统的统计方法。如,基于历史灾害损失数据,运用负二项回归模型(Ye et al., 2020)、多元回归方程(巩在武 等,2015)、层次分析法(李春梅 等,2006)、模糊综合评价法(李文韬 等,2022)等,建立灾害损失与致灾因子的数学关系,对损失进行量化评估。该类方法可较为快速评估损失,但存在一定主观性,同时获取足够的历史灾害损失数据及选择合理的评估指标是关键问题。
近年来,随着人工智能技术的快速发展和历史灾害损失数据的积累,机器学习模型能很好地处理影响因子和灾害损失之间的复杂关系,从而提高评估的准确性和可靠性(杨绚 等,2022)。SVM(林江豪 等,2019)、神经网络(张广平 等,2013周纳 等,2022)、RF(夏子龙,2021)等机器学习算法已被广泛应用到热带气旋灾害损失评估中,该类模型可充分利用多种类型的时空数据,更全面地评估损失,同时考虑多种评估指标进行建模。如陈仕鸿等(2013)考虑广东省的地理位置、台风强度频率等因素,采用热带气旋近中心最大风速、过程降雨极值、易损性综合值、台风持续时间等14个指标,基于SVR算法对广东热带气旋灾害损失进行评估;李艳兰等(2021)从台风自身特征、大风及降雨出发,选取热带气旋影响过程期间大风站日、过程降雨量>10 mm站数、暴雨指数等7个致灾因子指标作为评估指标,采用遗传-神经网络方法对广西热带气旋灾害等级进行评估;Chen等(2018)基于遗传-Elman神经网络、SVM和广义回归神经网络3种算法,考虑致灾因子和承灾体,选取过程最大风速、登陆点位置、GDP等评估指标,构建热带气旋灾害损失综合评估模型。
总体上,基于机器学习算法构建的热带气旋灾害损失评估模型,已显现较好的评估能力。但以往研究仍存在以下问题:在方法上,多采用单一机器学习模型进行评估,而对多个模型的评估性能的对比研究较少;在数据及指标选取上,风雨数据大多采用全国各气象站点的数据,依赖于插值,很少采用数值模拟数据及卫星遥感数据,同时多采用GDP表示承灾体价值,忽视承灾体变化对损失评估结果的影响;在评估单元上,机器学习模型的评估对象大多是以省为单元的灾害损失,缺乏县级尺度热带气旋灾害损失评估的参数优化;在应用上,基于BP神经网络、SVM构建的评估模型无法解释不同指标在模型中的重要性,而集成学习算法(RF、XGBoost、LightGBM)可计算评估指标对结果的贡献值,为致灾机理的研究提供参考。
福建省位于中国东南沿海,频繁受到热带气旋的影响。据《中国气象灾害年鉴》发布的数据显示,2003—2018年,热带气旋灾害共造成福建省直接经济损失约1 200亿元。2023年,超强台风“杜苏芮(2305)”在福建省晋江市沿海登陆,伴随狂风、强降雨,截至7月29日,共造成福建省直接经济损失超过30亿元。合理客观的评估该省热带气旋灾害损失,可以提高应对灾害的能力,为灾害风险管理提供科学依据。因此,本研究以福建省多年的县级热带气旋灾害损失统计数据为基础,通过对LightGBM、RF、XGBoost、SVM、BP神经网络等方法比较,确定最优模型及对应参数,并分析模型对于不同路径及强度的热带气旋灾害事件的适用性。

1 评估指标选取及数据

针对致灾因子、承灾体、孕灾环境3个灾害系统,选择风速、降雨量为主要致灾因子指标,采用固定资本存量及GDP表达承灾体价值,以河网密度表征洪涝孕灾环境,尽量体现热带气旋致灾成害的时空及强度特征。其中,风速、降雨量、固定资本存量、GDP及河网密度为模型输入数据,基于历史灾害损失划分的直接经济损失率等级为模型输出数据。

1.1 历史灾害损失统计

历史热带气旋灾害损失数据来源于应急管理部国家减灾中心,是各级政府基于《自然灾害情况统计制度》利用自然灾害灾情管理系统进行上报,并由国家减灾中心进行核定后的权威数据。根据逐场热带气旋的发生、发展时间及影响范围,从自然灾害灾情统计上报数据库中提取对应的热带气旋灾害直接经济损失。数据时间范围为2009—2020年,按照分县进行整理,包括影响福建省83个县的31场热带气旋,共793条县级灾害损失数据。

1.2 模拟风速和反演降水

大风是热带气旋最直接的致灾因子,常用登陆时最大风速、过程最大风速、3 s极值风速、10 min平均风速等指标表征其危险性(Tan and Fang, 2018)。相比较长时段内的平均风速,瞬时的极大风速更大程度上决定风荷载下的致损过程(吴小宁 等,2015),一般情况下,3 s极值风速与承灾体损失的关系更密切,是决定热带气旋灾害风灾损失的关键(方伟华 等,2013)。因此,本文选取3 s极值风速作为大风致灾因子的关键指标。
大风数据来源于基于参数风场模型模拟的历史热带气旋3 s极值风速,时间范围为2009—2020年,空间分辨率为1 km格网。参数风场模型通过输入中心气压、最大风速半径等参数模拟热带气旋近地面3 s极值风速分布,能有效揭示热带气旋风场的基本特征,模拟结果具有较高精度(Tan and Fang, 2018)。图1-a为超强台风“苏力(201307)”最佳路径和3 s极值风速空间分布。
图1 台风“苏力(201307)”3 s极值风速分布(a)、小时降雨量分布(UTC:2013-07-14 T 03:00)(b)、福建省2013年固定资本存量分布(c)、GDP分布(d)及河网密度分布(e)

Fig.1 Typhoon "Soulik (201307)" maximum wind speed (3-seconds gust) distribution (a), hourly rainfall distribution (UTC: 2013-07-14 T03:00) (b), fixed capital stock distribution (c) and GDP distribution (d) in Fujian Province in 2013, river network density distribution (e)

降水是热带气旋的重要致灾因子之一,常用过程降雨量、平均降雨量、最大日降雨量、最大小时降雨量、连续降水日数等指标表征其危险性(候静惟,2019)。考虑到过程降雨量可刻画整场热带气旋降水特点,可近似表示热带气旋所伴随的泥石流、洪水等次生灾害;最大日降雨量表示热带气旋所伴随的暴雨大小,可反映热带气旋降水的最大危险性;最大小时降雨量可反映热带气旋降水的瞬时最大危险性(李颖 等,2014)。因此,本文选取过程降雨量、最大日降雨量、最大小时降雨量作为降水致灾因子的关键指标。
降水数据来源于国家气象信息中心的中国自动站与CMORPH降水产品融合的逐时降水量网格数据集,时间范围为2009—2020年,空间分辨率为0.01°格网,时间步长为1 h。数据集总体误差水平在10%以内(Shen et al., 2014),相比国际同类型产品在中国区域的精度,该数据集的精度更高(杜文涛 等,2019)。通常将距热带气旋中心400~1 000 km内的区域界定为热带气旋降水范围(Dominguez and Magana, 2018),本文以500 km为缓冲区,结合热带气旋路径及影响时间提取热带气旋降水量。图1-b为超强台风“苏力(201307)”最佳路径和登陆时(UTC:2013-07-14 T 03:00)小时降雨量空间分布。

1.3 固定资本存量和GDP

已有研究常用GDP作为表征承灾体价值的替代性指标,但GDP主要为年度生产价值的体现,与承灾体的总价值不具备一一对应关系。而固定资本存量是更好表征承灾体价值的指标,由于该数据缺乏直接可靠的数据来源,许多研究在实际应用中未能充分利用这一重要数据。为更全面体现福建省经济发展情况,提高模型准确率,选取固定资本存量和GDP作为承灾体的关键指标。
固定资本存量数据来源于项目研究形成的固定资本存量网格数据集,主要基于各省固定资本总额推算各地级市固定资本量,并结合土地覆盖、人口和夜间灯光等数据集构建形成,时间范围为2009—2020年,空间分辨率为1 km格网。格网数据的历年省级固定资本存量与地方统计数据保持一致,能更好地表达固定资本存量空间分布及其年度变化。
GDP数据是基于省级地区GDP数据,并结合已有2010、2015和2020年的1 km分辨率GDP栅格数据(徐新良,2017),形成2009—2020年逐年1 km网格数据集(苏朝晖 等,2023)。

1.4 河网密度

台风次生洪涝是造成台风灾害损失最重要的致灾因子之一。由于每场台风洪涝淹没数据获取难度较大,而河网密度在一定程度上反映一个地区的降雨量和下垫面条件,随着河网密度的增加,洪水发生的概率也会增加,可在一定程度上反映洪涝危险性(邵佳丽 等,2018)。因此,本文选择河网密度作为反映次生洪涝孕灾环境的关键指标,数据来源于基于第三次全国土地调查的河流水面矢量数据,计算得到的2019年中国1 km格网河网密度数据集(彭晋福 等,2024)。

2 模型构建方法

首先,通过计算直接经济损失率并划分等级、选取评估指标、基于5种机器学习算法建立损失等级评估模型;然后,通过参数调优确定最优参数,基于准确率、精确率等指标,选取性能最优模型;最后,计算最优模型的评估指标重要性,选取典型热带气旋灾害事件作为案例进行模型应用效果验证。

2.1 直接经济损失等级划分

损失等级划分是建立评估模型的基础,对启动相应的应急响应级别起关键作用。本文将县域热带气旋灾害损失划分为5级:最低、较低、中等、较高、最高。考虑到不同时期承灾体价值不同,采用直接经济损失与上一年该地GDP的比值计算直接经济损失率,基于该比值,将直接经济损失率<0.05%、0.05%~0.15%、0.15%~0.45%、0.45%~1.5%、>1.5%作为等级划分的标准。这是根据福建省热带气旋灾害县域单元直接经济损失率样本分布,按照<50%、50%~70%、70%~80%、80%~90%、>90%的比例进行分级,作为应急响应等级确定的依据。由图2-a可知,经济损失率<0.05%的样本数比例约为50%,虽然最低等级占比较高,但由图2-b可知,该等级对应的直接经济损失较小,大部分地区受灾较轻,实际救援中启动相应的响应级别也最低。因此,按照该比例进行划分较为合理。
图2 福建省2009—2020年县域单元热带气旋灾害直接经济损失率和直接经济损失的样本数量分布

Fig.2 Number of direct economic loss rates and direct economic losses sample distribution caused by tropical cyclone disasters in county-level units in Fujian Province from 2009 to 2020

图3-a可知,2009—2020年福建省平均每场热带气旋造成的直接经济损失率在南部、东北部、中部部分地区及莆田市秀屿区较重,在0.45%以上,其中闽清县直接经济损失率最高,为5.6%;但福建省北部、西部及内陆部分地区直接经济损失率相对较小,在0.1%以下。
图3 福建省2009—2020年热带气旋灾害平均直接经济损失率(a)和平均直接经济损失(b)分布

Fig3 Average direct economic loss rates (a) and average direct economic losses distribution (b) caused by tropical cyclone disasters in Fujian Province from 2009 to 2020

2.2 模型输入数据预处理

模型输入数据预处理主要包括5方面:1)对原始灾害损失数据进行清洗和整理,去除明显错误以及重复的灾害损失数据,共计21条;2)将基于参数风场模型模拟的历史热带气旋3 s极值风速数据范围视作热带气旋的影响范围,这是考虑到热带气旋可能仅影响县的某个区域,采用整个县的暴露度进行模型训练不太合理,可能会导致结果偏高或偏低;3)计算县域单元内致灾因子、承灾体及孕灾环境数据的均值作为模型输入数据,这是为了让其与损失数据更好地匹配,方便后续建模;4)为避免最终结果的偶然性及受噪声数据影响,采用10折交叉验证的方法(汤宝平 等,2010),通过多次划分不同的训练集和测试集,优化模型参数,从而保证模型的可靠性;5)将样本划分为80%的训练集和20%的测试集,计算测试集上的各性能指标。

2.3 机器学习算法比较

BP神经网络通过学习连接权值来逼近关系复杂的系统,根据训练样本的输入和输出来进行学习(Mcculloch and Pitts, 1943)。该算法因其智能化的自适应学习能力,常用于解决机理不明确、具有模糊性的问题。SVM的关键在于求得分类间隔最大值的目标解,使分类误差尽量小(Cortes and Vapnik, 1995)。该算法在处理少量样本数据、非线性及高维模式识别等方面更具有优势。
上述算法都是单个分类器,可能出现过拟合问题,为提高预测性能发展出集成学习,即通过综合多个学习器的预测结果,以获得一种新的学习器,其泛化性能比单一学习器更出色。常用的集成学习方法有2种,分别是Bagging(Breiman, 1996)和Boosting(Freund and Schapire, 1995)。其中,RF是Bagging常用的算法,XGBoost和LightGBM是Boosting常用的算法。
RF通过对决策树的结果进行投票,确定最终的输出类别(Breiman, 2001)。该算法在挖掘多特征数据高维信息方面优势突出,不易过拟合,训练速度较快,实现起来相对简便。XGBoost结合线性规模求解器和树学习算法(Chen and Guestrin, 2016),通过展开损失函数的二阶泰勒表达式,考虑目标函数中的正则项,以求得最优解。该算法避免了模型过拟合,并提高求解效率,在性能和应用广度上表现出色。LightGBM在传统梯度提升决策树的基础上引入梯度单边采样算法和独立特征合并算法(Ke et al., 2017)。这些优化算法减小了存储成本和计算成本,同时提升了算法的性能。
采用BP神经网络、SVM、RF、XGBoost、LightGBM等5种机器学习算法,构建热带气旋灾害县级直接经济损失等级评估模型。模型参数的取值对模型性能具有重要影响,合适的参数取值可使模型更好地拟合数据,从而提高模型的准确性和泛化能力。不同参数对于模型的影响(田旭光 等,2004林升梁 等,2007李智义,2020)见表1所示。
表1 5种机器学习算法的参数及其对模型性能的影响

Table 1 Parameters of 5 machine learning algorithms and their impact on model performance

模型 参数(英文名称) 参数(中文名称) 对模型影响
LightGBM n_estimators 树木数量 值越大性能越高,但计算时间越长
max_depth 树最大深度 值越大性能越高,但其过大会过拟合
num_leaves 每个决策树的叶子节点数 值越大准确率越高,但越易过拟合
learning_rate 学习率 值越大迭代速度越大,但越易过拟合
RF n_estimators 树木数量 值越大性能越高,但计算时间越长
max_depth 树最大深度 值越大性能越高,但其过大会过拟合
min_samples_leaf 叶子节点含有的最少样本数 值越大算法越简单,但过大会欠拟合
min_samples_split 分割叶子节点所需最小样本数 值越大算法越简单,但过大会欠拟合
XGBoost n_estimators 树木数量 值越大性能越高,但计算时间越长
max_depth 树最大深度 值越大性能越高,但过大会过拟合
min_child_weight 最小样本权重和 值越大算法越简单,但过大会欠拟合
gamma 节点分裂所需最小损失函数下降值 值越大算法越简单,但过大会欠拟合
SVM C 惩罚系数 值越大复杂程度越大
gamma 核函数范围大小 值越大越易过拟合
BP max_iter 最大迭代次数 值越大效果越好,但计算时间越长
hidden_layer_sizes 隐藏层神经元数量 值越大效果越好,但过大会过拟合

2.4 模型效果检验与优化

为更直观地可视化多分类结果,采用混淆矩阵评估分类效果。混淆矩阵是以矩阵的形式,将数据集中真实的类别与分类模型预测的类别进行汇总,以进行精度评价。此外,选取准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1分数(F1)4种指标评估机器学习的性能。其中,F1分数是精确率和召回率的调和平均值(Turing, 1950)。4种指标的计算公式(邓生雄 等,2015)为:
A c c u r a c y = T P + T N T P + T N + F P + F N
P r e c i s i o n = T P T P + F P
R e c a l l = T P T P + F N
F 1 = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l
式中: T P为把正样本成功预测为正的样本数; T N为把负样本成功预测为负的样本数; F P为把负样本错误预测为正的样本数; F N为把正样本错误预测为负的样本数。
参数的取值直接决定模型最终的性能,常用的调参方法有网格搜索法、随机搜索法、贝叶斯优化法等(王兴玲 等,2005)。本文采用网格搜索法调整模型参数,通过遍历参数的所有可能组合,基于10折交叉验证计算4种性能指标,来评估每个参数组合的性能,最终选择平均性能指标最高的参数组合作为最优的模型参数,从而提高模型的性能。

3 模型参数优化与结果

3.1 评估模型参数优化

以表征致灾因子危险性、反映承灾体价值及孕灾环境状况共7个评估指标为因变量,以直接经济损失率等级为自变量,分别采用5种机器学习算法,构建热带气旋灾害县级直接经济损失等级评估模型。为优化模型性能,采用10折交叉验证方法,通过网格搜索对每种模型的参数进行调整,绘制不同参数与预测准确率的折线图(图4),将得到的最优参数组合应用于相应的算法中,得到经过训练的模型。
图4 5种机器学习算法参数取值与模型准确率的变化曲线

Fig.4 Model parameters' value and accuracy change curves of 5 machine learning algorithms

对于LightGBM,采用网格搜索算法对模型进行参数寻优,由图4-a可知,模型准确率随着n_estimator和max_depth增大而增大,当n_estimator为400,max_depth为18时,模型准确率最高,之后开始波动,对模型结果影响不大,但会增加模型复杂度;随着num_leaves的增加,模型准确率出现2个峰值,当num_leaves为25,准确率最高;learning_rate呈先增大后减小的趋势,当其为0.1时,模型准确率最高,之后随其增大,准确率降低,导致模型不收敛。
对于RF而言,采用网格搜索算法对模型进行参数寻优,由图4-b可知,当n_estimators为400,max_depth为19时,模型准确率最高;min_samples_split默认值为2,min_samples_leaf默认值为1,随着min_samples_split和min_samples_leaf增大,模型得分均下降,说明没有出现过拟合现象。
对于XGBoost,采用网格搜索算法对模型进行参数寻优,由图4-c可知,当n_estimator为600,max_depth为15,模型准确率最高;随着min_child_weight和gamma的增大,模型准确率均呈先增大后减小的趋势,当min_child_weight为1,gamma为0.1时,模型准确率最高。
对于SVM,采用网格搜索算法对模型进行参数寻优,由图4-d可知,当C较小时,模型准确率较低,随着的C增加,模型准确率迅速增加,当C为10时,模型准确率最高,但继续增大时,模型准确率几乎不变;模型准确率随gamma的增大而降低,当gamma为0.001时,模型准确率最高。
对于BP神经网络,采用网格搜索算法对模型进行参数寻优,由图4-e可知,模型准确率随着max_iter的增加而增大,但当max_iter超过75时,模型准确率几乎不变;当隐藏层神经元数量为(50,100,50)时,模型准确率最高。

3.2 评估模型效果比较

利用5种机器学习模型进行建模,计算测试集上各性能指标,结果见表2。通过对比可看出,RF、XGBoost、LightGBM集成学习算法的准确率、精确率、召回率、F1分数均在76%以上,说明集成学习算法在热带气旋灾害县级直接经济损失等级评估中具有较好性能。并且基于LightGBM算法构建的直接经济损失等级评估模型性能最好,准确率为0.794 6,精确率为0.798 2,召回率为0.794 6,F1分数为0.796 3,这归功于该模型引入梯度单边采样算法和独立特征合并算法,显著地提高模型性能。
表2 基于5种机器学习算法构建的热带气旋灾害县级直接经济损失等级评估模型的性能对比

Table 2 Performance comparison of direct economic loss grading assessment models for tropical cyclone disasters in county-based units using 5 machine learning algorithms

模型 准确率 精确率 召回率 F1分数
LightGBM 0.794 6 0.798 2 0.794 6 0.796 3
RF 0.772 6 0.780 1 0.772 6 0.776 3
XGBoost 0.762 8 0.765 0 0.762 8 0.763 9
SVM 0.251 8 0.553 7 0.251 8 0.346 2
BP 0.268 1 0.328 4 0.268 1 0.295 2
为进一步分析5种模型在不同类别上的分类情况,绘制了5种机器学习算法在测试集中的混淆矩阵准确率示意图(图5)。在混淆矩阵中,BP神经网络、RF、XGBoost、LightGBM算法对于最高等级的分类准确率最高,均超过70%;SVM算法对于较低等级的分类性能准确率最高,超过90%。此外,5种机器学习算法中LightGBM的预测错误个数最少,该模型将实际为较低等级的类别判定为最低等级类别的错误率最高,为19.51%。因此,本文以平均性能指标最高的LightGBM为最优模型,评估热带气旋灾害县级直接经济损失等级。
图5 基于5种机器学习算法构建的热带气旋灾害县级直接经济损失等级评估模型的混淆矩阵

Fig.5 Confusion matrices of direct economic loss grading assessment models for tropical cyclone disasters in county-based units using 5 machine learning algorithms

3.3 基于LightGBM模型的损失等级评估

3.3.1 评估指标重要性分析

通过计算各个评估指标的重要性,并进行排序,可更好地理解各个评估指标对评估结果的影响程度。图6显示了LightGBM模型中各指标的重要性,可看出最大小时降雨量的特征得分和固定资本存量的特征得分相对较高,相对孕灾环境,致灾因子危险性、承灾体价值与灾害损失的关系更密切。致灾因子指标中,最大小时降雨量的特征得分大于大风危险性(3 s极值风速)的特征得分。承灾体指标中,固定资本存量的特征得分大于GDP的特征得分,说明热带气旋对中国造成的损失与固定资本存量的相关性更高。
图6 基于LightGBM算法的评估指标重要性排序

Fig.6 Importance ranking of evaluation metrics based on LightGBM algorithm

3.3.2 模型评估案例验证

选取4种登陆点/路径及2种风雨强度的典型热带气旋灾害事件作为案例进行评估,以更好地验证基于LightGBM评估模型的适用性。
1)选取登陆点分别为广东和福建,热带气旋路径分别为西北路径、南海北上路径(转向路径)和穿过台湾海峡近海北上路径(特殊路径)的4个典型热带气旋灾害事件作为案例进行评估,以更好地保证模型应用效果。整体上,模型性能良好。经过计算,台风“莲花(0903)”、台风“泰利(1205)”、台风“苗柏(1702)”、台风“白鹿(1911)”的准确率分别为0.64、0.64、0.65、0.86(表3)。通过空间对比(图7)可看出,该模型评估的台风“白鹿(1911)”的直接经济损失等级与实际损失等级较为一致,评估的台风“莲花(0903)”的直接经济损失等级与实际损失等级差异较大,尤其在福建南部地区评估准确率相对较低。从不同类别等级评估结果的准确率看,较低等级和最低等级评估效果相对较差。
表3 针对4种登陆点/路径的热带气旋采用LightGBM构建的评估模型应用效果比较

Table 3 Comparison of evaluation models' application effects based on LightGBM for tropical cyclone with 4 landfall points/tracks

编号 名称 登陆点 热带气旋路径 登陆强度 评估准确率
0903 莲花 福建晋江 南海北上 热带风暴 0.64
1205 泰利 穿过台湾海峡近海北上 0.64
1702 苗柏 广东省深圳市 南海北上 热带风暴 0.65
1911 白鹿 台湾省屏东县、福建省东山县 西北 强热带风暴 0.86
图7 台风“莲花(0903)”(a、b)、台风“泰利(1205)”(c、d)、台风“苗柏(1702)”(e、f)、台风“白鹿(1911)”(g、h)实际损失等级及预测损失等级

Fig.7 Actual loss level and predicted loss level of Typhoon "Linfa ‎(0903)" (a, b), Typhoon "Talim ‎(1205)" (c, d), Typhoon "Merbok ‎(1702)" (e, f), Typhoon "Bailu ‎(1911) (g, h)

台风名称(编号) 实际损失等级 预测损失等级
莲花(0903)
泰利(1205)
苗柏(1702)
白鹿(1911)
2)选取2种风雨强度的典型热带气旋灾害事件作为案例进行评估,以更好地保证模型泛化性能。其中,台风“泰利(1205)”总体强度不强,近中心最大风速10级,福建省大部分区域过程总降雨量<50 mm;台风“莫拉克(0908)”总体强度较强,近中心最大风速13级,强降水持续时间长,福建省内观测站记录的过程总降雨量最大超过500 mm。台风“泰利(1205)”、台风“莫拉克(0908)”的准确率分别为0.64、0.65。这可能是由于案例中影响因素相互作用更为复杂,模型很难准确模拟。通过空间对比(图8)可看出,对于台风“泰利(1205)”而言,中等等级评估效果相对较差,尤其在福建东北部地区评估准确率相对较低;对于台风“莫拉克(0908)”,中等等级和最高等级评估效果相对较差。

4 结论与讨论

4.1 结论

本文以福建省为研究对象,基于机器学习算法构建热带气旋灾害县级直接经济损失等级评估模型,并进行参数优化及模型性能对比。主要结论如下:
1)参数优化后的RF、XGBoost、LightGBM模型性能良好,可较好地评估热带气旋灾害县级直接经济损失等级。参数优化后的模型减少了模型的方差和偏差,RF、XGBoost、LightGBM评估模型的准确率分别为0.772 6、0.762 8、0.794 6。
2)基于LightGBM算法的热带气旋灾害县级直接经济损失等级评估模型性能最佳。模型的准确率、精确率、召回率和F1分数均在79%以上,表明其有较好的泛化能力。基于准确率、精确率、召回率和F1分数,集成学习算法(RF、XGBoost、LightGBM)的分类性能相比于单一分类器(BP神经网络、SVM)的分类性能要高。
3)直接经济损失等级主要受致灾因子危险性、承灾体价值影响。致灾因子指标中,降水危险性(最大小时降雨量)特征重要得分较高,其次为大风危险性(3 s极值风速)。承灾体指标中,相比GDP,固定资本存量与直接经济损失的相关性更高。
4)基于LightGBM算法的热带气旋灾害县级直接经济损失等级评估模型具有较好的适用性。4种登陆点/路径和2种风雨强度的事件评估检验表明,模型结果与实际结果较为一致,未来可应用于各种路径及强度的热带气旋灾害损失等级评估。
图8 台风“泰利(1205)”(a、c、e、g)、台风“莫拉克(0908)”(b、d、f、h)过程降雨量分布、3 s阵风风速分布、实际损失等级及预测损失等级

Fig.8 Typhoon "Talim ‎(1205)" (a、c、e、g)、Typhoon "Morakot ‎(0908)" (b、d、f、h)cumulative rainfall distribution, maximum wind speed (3-second gust) distribution, actual loss level and predicted loss level

泰利(1205) 莫拉克(0908)
总降雨量分布
3 s阵风风速分布
实际损失等级
预测损失等级

4.2 讨论

虽然本文基于LightGBM构建的损失评估模型具有较好的适用性,但目前模型精度总体为79%,还存在较多不足。如,1)热带气旋致灾成害机理复杂,影响因素多,评估结果不确定性大,特别是本文缺乏台风次生洪涝、台风风暴潮等致灾因子的数值模拟结果,缺乏明确表达承灾体脆弱性及防灾减灾能力等方面的指标,未来应进一步完善评估指标体系。2)热带气旋灾害直接经济损失等级评估优化后的参数区域性强,难以直接应用到其他区域,本文优化的参数反映的是福建县级热带气旋灾害损失和其影响因子之间的关系。未来将获取全国热带气旋灾害县级损失数据及相关的评估指标,形成全国分区优化的模型参数,提高热带气旋灾害损失等级评估的业务化运行能力。

脚注

邵婧妍:承担数据处理,机器学习算法实现,图片绘制及论文撰写;

方伟华:提供或协调了本文数据,提供研究选题和思路,指导了论文修改。

应急管理部国家减灾中心张云霞等提供了灾害损失数据,北京师范大学张海霞等提供了固定资本存量数据。参考文献(References):

Breiman L. 1996. Bagging Predictors. Machine Learning, 24(2): 123-40.

Breiman L. 2001. Random Forests. Machine Learning, 45(1): 5-32.

Chen S C, Chen M, Zhao N, Hamid S, Saleem K, and Chatterjee K. 2008. Florida Public Hurricane Loss Model (FPHLM): Research Experience in System Integration. Digital Government Society of North America, 8: 99-106.

Chen S L, Tang D L, Liu X Q, and Hu C H. 2018. Assessment of Tropical Cyclone Disaster Loss in Guangdong Province Based on Combined Model. Geomatics, Natural Hazards and Risk, 9: 431-441.

Chen T Q and Guestrin C. 2016. XGBoost: A Scalable Tree Boosting System. In: Balaji K and Mohak S. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. USA: Association for Computing Machinery: 785-794.

Cortes C and Vapnik V. 1995. Support-Vector Machine. Machine Learning, 20 (3) :273-97.

陈仕鸿,唐丹玲,隋广军. 2013. 基于SVR的广东省台风灾害损失评估. 海洋环境科学,32(6):939-943.

Chen Shihong, Tang Danling, and Sui Guangjun. 2013. Estimating of Typhoon Disaster Loss for Guangdong Province Based on SVR Model. Marine Environmental Science, 32(6): 939-943.

Dominguez C and Magana V. 2018. The Role of Tropical Cyclones in Precipitation Over the Tropical and Subtropical North America.(2018-06-09). [2023-08-20]. https://doi.org/10.3389/feart.2018.00019

邓生雄,雒江涛,刘勇,王小平,杨军超. 2015. 集成随机森林的分类模型. 计算机应用研究 32(6):1621-1624,1629.

Deng Shengxiong, Luo Jiangtao, Liu Yong, Wang Xiaoping, and Yang Junchao. 2015. Classification Model Based on Ensemble Random Forests. Application Research of Computers, 32(6): 1621-1624, 1629.

杜文涛,周萍,赵萌醒,杨会贇. 2019. CMORPH数据在吉林省降雨侵蚀力计算中的应用. 中国水土保持,(6):31-33,47,69.

Du Wentao, Zhou Ping, Zhao Mengxing, and Yang Huiyun. 2019. Application of CMORPH Data to the Calculation of Rainfall Erosivity of Jilin Province. Soil and Water Conservation in China, (6): 31-33, 47, 69.

Freund Y and Schapire R E. 1995. A Desicion-Theoretic Generalization of On-Line Learning and an Application to Boosting. Journal of Computer and System Sciences, 55(1): 119-139.

方伟华,林伟. 2013. 面向灾害风险评估的台风风场模型研究综述. 地理科学进展,32(6):852-867.

Fang Weihua and Lin Wei. 2013. A Review on Typhoon Wind Field Modeling for Disaster Risk Assessment. Progress in Geography, 32(6): 852-867.

巩在武,胡丽. 2015. 台风灾害评估中的影响因子分析. 自然灾害学报,24(1):203-213.

Gong Zaiwu and Hu Li. 2015. Influence Factor Analysis of Typhoon Disaster Assessment. Journal of Natural Disasters, 24(1): 203-213.

郭桂祯,赵飞,王丹丹. 2017基于脆弱性曲线的台风-洪涝灾害链房屋倒损评估方法研究. 灾害学,32(4):94-97.

Guo Guizhen, Zhao Fei, and Wang Dandan. 2017. A Method Research of House Damage in Typhoon-Flood Disaster Chain Based on Vulnerability Curve. Journal of Catastrophology, 32(4): 94-97.

候静惟. 2019. 面向危险性评估的中国沿海地区热带气旋多致灾因子联合概率分析. 北京:北京师范大学.

Hou Jingwei. 2019. Joint Probability Analysis of Main Tropical Cyclone Parameters for Integrated Hazard Severity Assessment in Coastal China. Beijing: Beijing Normal University.

Ke G L, Meng Q, Finley T, Wang T F, Chen W, Ma W D, Ye Q W, and Liu T Y. 2017. LightGBM: A Highly Efficient Gradient Boosting Decision Tree//Neural Information Processing Systems. USA: Long Beach: 3149–3157.

李春梅,罗晓玲,刘锦銮,何健. 2006. 层次分析法在热带气旋灾害影响评估模式中的应用. 热带气象学报,(3):223-228.

Li Chunmei, Luo Xiaoling, Liu Jinluan, and He Jian. 2006. Application of Analytical Hierarchy Process in the Assessment Model on Tropical Cyclone Disaster’s Influence. Journal of Tropical Meteorology, (3): 223-228.

李文韬,张明洁,张京红,张亚杰,杨静. 2022. 基于模糊综合评价法的海南热带气旋灾害经济损失影响评估. 热带农业科学,42(9):133-139.

Li Wentao, Zhang Mingjie, Zhang Jinghong, Zhang Yajie, and Yang Jing. 2022. The Assessment of Economic Loss of Tropical Cyclone Disaster in Hainan Based on Fuzzy and Comprehensive Evaluation. Chinese Journal of Tropical Agriculture, 42(9): 133-139.

李艳兰,金龙,史旭明,陈丹. 2021. 基于遗传-神经网络方法的广西台风灾害评估模型研究. 气象与环境学报,37(3):139-144.

Li Yanlan, Jin Long, Shi Xuming, and Chen Dan. 2021. Study on Assessment Model of Typhoon Disaster in Guangxi Based on Genetic-Neural Network Method. Journal of Meteorology and Environment, 37(3): 139-144.

李颖,方伟华. 2014. 热带气旋降水重现期估算研究. 自然灾害学报,23(6):58-69.

Li Ying and Fang Weihua. 2014. Estimation on Return Period of Tropical Cyclone Precipitation. Journal of Natural Disasters, 23(6): 58-69.

李智义. 2020. 改进随机森林模型参数优化算法研究. 阜新:辽宁工程技术大学.

Li Zhiyi. 2020. Research on Parameter Optimization Algorithm of Improved Random Forest Model. Fuxin: Liaoning Technical University.

林江豪,阳爱民. 2019. 基于BP神经网络和VSM的台风灾害经济损失评估. 灾害学,34(1):22-26.

Lin Jianghao and Yang Aimin. 2019. Economic Loss Assessment of Typhoon Based on BP Neural Network and VSM. Journal of Catastrophology, 34(1): 22-26.

林升梁,刘志. 2007. 基于RBF核函数的支持向量机参数选择. 浙江工业大学学报,(2):163-167.

Lin Shengliang and Liu Zhi. 2007. Parameter Selection in SVM with RBF Kernel Function. Journal of Zhejiang University of Technology, (2): 163-167.

Mcculloch W S and Pitts W. 1943. A Logical Calculus of the Ideas Immanent in Nervous Activity. Bulletin of Mathematical Biophysics, 5: 115-133.

彭晋福,张定祥,白晓飞,张小桐. 2024. 2019年中国1 km格网河网密度数据集. 中国科学数据,9(1):284-292.

Peng Jinfu, Zhang Dingxiang, Bai Xiaofei and Zhang Xiaotong. 2024. A Dataset of 1km Grid Drainage Density in China (2019). Science Data Bank, 9(1): 284-292.

Shen Y, Zhao P, Pan Y and Yu J J. 2014. A High Spatiotemporal Gauge-Satellite Merged Precipitation Analysis over China. Journal of Geophysical Research, 119(6): 3063-3075.

邵佳丽,郑伟. 2018. 洪涝灾害危险性评估方法研究. 灾害学,33(2):58-63.

Shao Jiali and Zheng Wei. 2018. Study on the Flood Hazard Assessment Method. Journal of Catastrophology, 33(2): 58-63.

苏朝晖,方伟华. 2023. 1980—2015年中国沿海地区热带气旋暴露度变化分析. 自然灾害学报,32(3):102-117.

Su Zhaohui and Fang Weihua. 2023. Analysis of Tropical Cyclone Exposure Changes in Coastal Areas of China from 1980 to 2015. Journal of Natural Disasters, 32(3): 102-117.

Tan C Y and Fang W H. 2018. Mapping the Wind Hazard of Global Tropical Cyclones with Parametric Wind Field Models by Considering the Effects of Local Factors. International Journal of Disaster Risk Science, 9(1): 86-99.

Turing A M. 1950. Computing Machinery and Intelligence. Mind, 236(6): 433-460.

汤宝平,刘文艺,蒋永华. 2010. 基于交叉验证法优化参数的Morlet小波消噪方法. 重庆大学学报,33(1):1-6.

Tang Baoping, Liu Wenyi, and Jiang Yonghua. 2010. Parameter Optimized Morlet Wavelet De-Noising Method Based on Cross Validation Method. Journal of Chongqing University, 33(1): 1-6.

田旭光,宋彤,刘宇新. 2004. 结合遗传算法优化BP神经网络的结构和参数. 计算机应用与软件,(6):69-71.

Tian Xuguang, Song Tong, and Liu Yuxin. 2004. Optimizing the Structure and Parameters of BP Neural Based on Genetic Algorithm. Computer Applications and Software, (6): 69-71.

Vickery P J, Skerplj P F, Lin J, Twisdale L, Young M, and Lavelle F. 2006. HAZUS-MH Hurricane Model MethodologyII: Damage and Loss Estimation. Natural Hazards Review, 7: 94-103.

王兴玲,李占斌. 2005. 基于网格搜索的支持向量机核函数参数的确定. 中国海洋大学学报(自然科学版),(5):859-862.

Wang Xingling and Li Zhanbin. 2005. Identifying the Parameters of the Kernel Function in Support Vector Machines Based on the Grid-Search Method. Periodical of Ocean University of China,(5): 859-862.

吴小宁,方伟华,林伟,叶妍婷. 2015. 海南橡胶树热带气旋风灾易损性评估. 热带地理,35(3):315-323.

Wu Xiaoning, Fang Weihua, Lin Wei, and Ye Yanting. 2015. Empirical Curves of Rubber Tree Fragility to Tropical Cyclone Wind in Hainan. Tropical Geography, 35(3): 315-323.

夏子龙. 2021. 基于Google Earth Engine的中国沿海台风灾害灾情评估. 上海:华东师范大学. [Xia Zilong. 2021. China's Coastal Typhoon Disaster Assessment Based on Google Earth Engine. Shanghai: East China Normal University. ]

徐新良. 2017. 中国GDP空间分布公里网格数据集. [2023-09-10]. 资源环境科学数据注册与出版系统,https://www.resdc.cn/DOI/DOI.aspx?DOIID=33. DOI:10.12078/2017121102.

Xu Xinliang. 2017. China GDP Spatial Distribution Kilometer Grid Dataset. [2023-09-10]. Resource and Environmental Science Data Registration and Publishing System, https://www.resdc.cn/DOI/DOI.aspx?DOIID=33. DOI:10.12078/2017121102.

Ye M Q, Wu J D, Liu W H, He X, and Wang C L. 2020. Dependence of Tropical Cyclone Damage on Maximum Wind Speed and Socioeconomic Factors. Environmental Research Letters, 15(9): 9-15.

杨绚,张立生,王铸. 2022. 基于机器学习算法的县域台风灾害经济损失风险评估. 热带气象学报,38(5):651-661.

Yang Xun, Zhang Lisheng, and Wang Zhu. 2022. Risk Assessment for Typhoon Economic Losses in County-Based Units Using Machine Learning. Journal of Tropical Meteorology, 38(5): 651-661.

Zhang H X, Fang W H, Zhang H, and Yu L. 2021. Assessment of Direct Economic Losses of Flood Disasters Based on Spatial Valuation of Land Use and Quantification of Vulnerabilities: A Case Study on the 2014 Flood in Lishui City of China. Natural Hazards and Earth System Sciences, 21: 3161-3174.

张广平,张晨晓,谢忠. 2013. 基于T-S模糊神经网络的模型在台风灾情预测中的应用——以海南为例. 灾害学,28(2):86-89.

Zhang Guangping, Zhang Chenxiao and Xie Zhong. 2013. Typhoon Disaster Prediction Model Based on T-S Fuzzy Neural Network and its Application: A Case Study of Hainan Island. Journal of Catastrophology, 28(2): 86-89.

中国气象局. 2003—2018. 中国气象灾害年鉴. 北京:气象出版社.

China Meteorological Administration. 2003-2018. China Meteorological Disaster Yearbook. Beijing: China Meteorological Press.

周纳,刘强. 2022. 基于模糊神经网络的广东省台风灾害损失预测. 海洋环境科学,41(3):461-466.

Zhou Na and Liu Qiang. 2022. Prediction of Typhoon Disaster Losses in Guangdong Province Based on Fuzzy Neural Networks. Marine Environmental Science, 41(3): 461-466.

文章导航

/