风险评估与预测技术创新

基于LightGBM的台风直接经济损失评估与预测——以福建省为例

  • 张之夏 , 1 ,
  • 杨剑 2 ,
  • 陈思孝 2 ,
  • 林森 , 3
展开
  • 1. 中国地质大学(武汉) 经济管理学院,武汉 430078
  • 2. 哈尔滨工业大学(深圳) 土木与环境工程学院,深圳 518055
  • 3. 应急管理部国家减灾中心,北京 100124
林森(1987—),男,山东青岛人,博士,副研究员,研究方向为自然灾害评估、灾害大数据挖掘应用等方面,(E-mail)

张之夏(2004—),女,辽宁辽阳人,本科生,研究方向为灾害经济损失,(E-mail)

收稿日期: 2025-02-11

  修回日期: 2025-03-21

  网络出版日期: 2025-05-07

基金资助

国家重点研发计划(2024YFC3016800)

国家资助博士后研究人员计划B档(GZB20230966)

Assessment and Prediction of Typhoon-Related Direct Economic Loss in Fujian Province Based on LightGBM

  • Zhixia Zhang , 1 ,
  • Jian Yang 2 ,
  • Sixiao Chen 2 ,
  • Sen Lin , 3
Expand
  • 1. School of Economics and Management, China University of Geosciences, Wuhan 430078, China
  • 2. School of Civil and Environmental Engineering, Harbin Institute of Technology, Shenzhen 518055, China
  • 3. National Disaster Reduction Center of the Emergency Management Department, Beijing 100124, China

Received date: 2025-02-11

  Revised date: 2025-03-21

  Online published: 2025-05-07

摘要

台风是中国沿海地区最严重的自然灾害之一,常导致重大经济损失。准确评估和预测台风直接经济损失对于提升防灾减灾能力和优化资源配置至关重要。文章以福建省84个区县为研究对象,基于2009—2021年影响福建省的30场台风灾害数据,结合致灾因子、孕灾环境因子和承灾体暴露度因子,共计20个关键影响因子,采用LightGBM方法构建台风直接经济损失预测模型,对台风风险进行定量评估并通过实际案例探讨模型在台风实际直接经济损失动态预测中的适用性。模型重要性分析表明,日最大风速、河网密度、日最大降水、累计降水、单位面积GDP和城市化率是影响福建省台风直接经济损失的主要因素。文章构建的模型在训练集上Pearson相关系数R达到0.836、可决系数R 2达到0.66,通过4个超强台风案例验证模型性能,预测直接经济损失与实际的损失相关系数在0.6~0.71,表明模型具有较好的应用潜力。以超强台风“莫兰蒂”为例,利用所建模型开展动态预测应用,结果显示模型较好地模拟了台风动态变化过程中直接经济损失的动态分布变化,可为福建省及其他沿海地区的台风灾害损失评估和应急管理提供科学支持。

本文引用格式

张之夏 , 杨剑 , 陈思孝 , 林森 . 基于LightGBM的台风直接经济损失评估与预测——以福建省为例[J]. 热带地理, 2025 , 45(4) : 648 -659 . DOI: 10.13284/j.cnki.rddl.20250080

Abstract

Typhoons are among the most destructive natural disasters affecting China's coastal regions, often resulting in substantial economic loss and casualties. The annual average Direct Economic Loss (DEL) caused by typhoon disasters in China exceeds 60 billion yuan, accounting for 10%-30% of the DEL caused by all disasters each year. Consequently, the accurate assessment and prediction of typhoon-induced DEL are essential for improving disaster mitigation strategies and optimizing resource allocation. Rapid development of artificial intelligence and the growth of multi-source spatiotemporal big data have introduced data-driven methods for assessing disaster losses. These methods have the advantage of using large samples to improve adaptability and consider more risk factors. In this study, DELs of 30 typhoon events in Fujian Province at the county level and a total of 911 samples were collected from 2009 to 2021 to establish an assessment model. Owing to the large range of the DEL in different districts and counties during the same typhoon, the logarithm of the DEL was used as the model output. This study included three steps for constructing the model. First, 24 influencing factors of typhoons, including disaster-inducing factors, disaster-forming environmental factors, and disaster-bearing body exposure factors, were calculated using the Pearson correlation coefficient and variance inflation coefficient to analyze the multicollinearity effect, and 20 key factors were selected to assess the DEL. Second, a LightGBM-based model is developed using the selected indicator factors as model inputs. Of the 911 samples, 734 were used to train the model, and 177 were used for validation. Finally, Super Typhoon Meranti was used as a case study to evaluate the applicability of the model in the dynamic DEL assessment of a typhoon. This study evaluated predictive performance of the model using five indicators: the Pearson correlation coefficient (R), coefficient of determination (R 2), mean squared error, mean absolute error, and median absolute error. The importance of LightGBM factors shows that the maximum daily wind speed, river network density, maximum daily precipitation, cumulative precipitation, and GDP per unit area are the primary determinants of typhoon-induced economic losses in Fujian Province. In the training set, R between the predicted results of the model and the actual loss was 0.836, and R 2 was 0.66, indicating good fitting ability. In real-world applications, the proposed model effectively captured the spatial distribution of losses from Typhoon Meranti, demonstrating its potential for disaster loss prediction. This study provides valuable insights into typhoon risk assessment and emergency management in Fujian Province and other coastal areas. We sorted the relevant research literature and found that economic loss assessment is more difficult than population, housing, and other loss assessments because economic loss is a comprehensive statistical indicator in China. Therefore, we drew on the method of processing DEL as logarithms from the literature. By comparing with other studies, the results of this study can improve model performance in terms of data quality inspection and sample size.

中国是全球受台风影响最严重的国家之一,平均每年约有7个台风登陆(薛建军 等,2012)。台风通常伴随狂风、暴雨和风暴潮,对沿海地区的经济、社会和生态环境造成严重破坏,阻碍了社会经济的安全健康发展(葛全胜 等,2008陈佩燕 等,2009)。根据全国灾情数据统计,2011—2020年,中国因台风灾害造成的年平均直接经济损失超过600亿元,占同期全部灾害直接经济损失的10%~30%(刘蓓蓓 等,2024)。近年来,受气候变化和城市化进程加快的影响,台风灾害强度呈上升趋势,灾害损失风险的系统性和复杂性持续加剧(王军 等,2021IPCC, 2022)。为此,开展有效的灾前风险预警、组织高效的灾害应急救援成为降低台风灾害损失的重要措施,而实现精准的灾害风险预测是关键环节。
目前常用的台风灾害风险评估方法主要有:基于指标体系的计算、基于脆弱性曲线的统计推断、数据驱动的机器学习等。一方面,基于指标体系的评估方法主要对致灾因子(强风、强降水等)、承灾体(人口密度、生产总值等)、孕灾环境(高程、河网密度等)等灾害影响因子赋予不同权重,从而评估可能的灾害风险。如Wang等(2024)利用4类17个指标建立台风综合风险评估模型,对中国沿海地区台风风险进行评估;包文轩等(2023)构建包含9个指标的评估指标体系,结合加权综合法、层次分析法、自然间断点分级法对“山竹”台风进行风险评估。另一方面,基于脆弱性曲线的评估方法主要是利用历史灾情数据,建立致灾因子和不同灾情要素的统计回归曲线,利用该曲线进行评估。如Guo等(2021)拟合了台风强度和不同承灾体的脆弱性曲线,从而评估台风中受灾人口、倒塌房屋、农作物受灾面积和直接经济损失等损失风险;曾鹏等(2022)建立了海口市各类建筑物脆弱性,开展了台风次生洪涝的房屋建筑物损失评估。然而,上述2种方法在实际应用中都存在明显缺陷。其中,指标体系方法难以量化台风的风险,仅能用于评价可能的风险等级,且该方法的指标权重赋值过于依赖专家经验,存在较大不确定性。脆弱性曲线方法仅适用于较大尺度范围的灾害风险评估,对于小尺度区域,由于灾害样本稀少,导致模型泛化能力不足;此外,该方法很难考虑其他灾害要素(如孕灾环境、防灾减灾能力等)造成的影响(林森 等,2022)。
随着人工智能快速发展和多源时空数据爆发式增长,基于数据驱动的方法为灾害评估提供了新模式。如Yang等(2024)利用广东省42场台风的10个风险要素指标,基于4种机器学习模型,对台风直接经济损失进行动态模拟,实现了较准确的台风灾害损失预测;Lin & Wang(2024)利用卷积神经网络和12个预测因子构建了浙江省台风评估模型,对台风灾害受灾人口进行可靠预测;邵婧妍等(2024)基于致灾因子、孕灾环境和承灾体等7个关键变量,对比5种机器学习模型,对福建省台风直接经济损失进行风险等级评估。总体上,基于数据驱动的评估算法不仅能综合考虑较多灾害损失影响要素,而且能利用大样本数据提升不同尺度评估精度,为灾害损失评估提供更有效的方法。
在灾害损失各类统计要素中,直接经济损失能较为综合地体现自然灾害对居民住房、企业生产、基础设施和公共设施等承灾体的损害或破坏(袁艺,2010李宁 等,2017),是中国《自然灾害情况统计调查制度》重要的统计指标(中华人民共和国应急管理部,2024)。目前中国已形成覆盖国家—省—市—县—乡—村6级的灾情报送体系(张宝军,2015),建成长时间序列、高精细度的灾害事件案例库,为数据驱动的模型构建提供保障。
因此,本研究以福建省为研究对象,基于2009—2021年福建省各区县的台风灾害直接经济损失数据,采用LightGBM(Light Gradient Boosting Machine)方法,建立台风直接经济损失评估模型,并以2016年超强台风“莫兰蒂”为例,探索以直接经济损失为灾害评估目标的动态预测方法。以期分析福建省台风直接经济损失的主要影响因子,并为沿海地区的台风直接经济损失定量评估和动态风险研判提供科学支持。

1 数据与方法

福建省位于中国东南沿海,处于东海和南海交界位置,是中国遭受台风影响最主要的省份之一(殷洁 等,2013杨奕杰,2022)。本研究收集了2009—2021年影响福建省的30场台风(包括登陆台风及未登陆但导致灾害损失的台风)造成的区县级直接经济损失数据(共84个区县,包括42个县、11个县级市和31个市辖区),共计2 520个样本记录,其中共有911个非0的直接经济损失记录用于模型训练。30场台风造成的直接经济损失(Direct Economic Loss, DEL)见图1所示。由于同一场台风不同区县的直接经济损失跨度较大(101元至109元),为直观地展示DEL的分布,采用类似Huang等(2022)的方法对直接经济损失取对数[loge(DEL)]处理。
图1 2009—2021年影响福建省的30场台风造成的直接经济损失

图注:粉色点表示每个县级记录,DEL单位为万元。

Fig.1 DEL caused by 30 typhoons affecting Fujian Province from 2009 to 2021

台风灾害的形成是由致灾因子、孕灾环境和承灾体等复杂环境和社会因素相互作用的结果(史培军,1991Burton et al., 1993)。机器学习方法凭借其强大的数据分析能力,能深入挖掘各影响因子(如风速、降水、地形、人口等)和灾害损失之间的隐藏关系,建立这些变量间复杂的非线性映射关系,从而实现精准的台风损失和风险预测。与其他机器学习方法相比,基于决策树的方法一方面对数据要求相对较低,能基于小规模数据实现快速建模和预测;另一方面,其相对直观的决策过程使得模型的可解释性较强。邵婧妍等(2024)以福建省为研究对象,重点对比了随机森林、XGBoost、LightGBM、支持向量机、BP神经网络5种方法的直接经济损失等级评估性能,本研究选用上述算法中性能最优的LightGBM方法进行建模,并扩展了直接经济损失影响指标体系,重点开展台风直接经济损失定量评估和动态实时预测,包括3部分:
1)影响因子选取与数据处理:确定致灾因子、孕灾环境和承灾体暴露度相关指标,并对数据进行标准化处理;
2)LightGBM模型训练与调优:利用选定的指标因子作为模型输入,以灾害直接经济损失作为输出,进行模型训练、验证和调优;
3)台风灾害直接经济损失预测:基于实时或预报气象数据,动态更新台风致灾因子,利用模型实现福建省各区县的台风灾害风险预测。

1.1 数据来源与影响因子选取

数据包括:2009—2021年影响福建省的30场历史台风的区县级直接经济损失数据,2009—2021年福建省各区县社会经济数据,福建省地理环境数据,以及台风登陆前2 d和后3 d(共5 d)的福建省气象数据(Lin & Wang, 2024; Yang et al., 2024)。对于未登陆台风的气象数据,根据台风中心位置与福建省距离最短时刻的前2 d和后3 d进行提取。数据来源及描述见表1所示。由于所获取的台风直接经济损失数据的空间分辨率为区县级行政单位,将所选取的致灾因子、孕灾环境和承灾体的各影响因子数据在空间上均转换为区县级的平均,与直接经济损失数据保持一致。
表1 本研究使用数据描述及其来源

Table 1 Description and sources of the data used in this study

影响因子 数据描述 数据来源
致灾因子 日最大风速/(m·s-1

欧洲中期天气预报中心ERA5历史再分析数据

(https://cds.climate.copernicus.eu/datasets/reanalysis-era5-pressure-levels)

日最大降水/mm
日累计降水/mm
孕灾环境 地形高程/m ASTER GDEM全球30 m分辨率数字高程数据(https://search.earthdata.nasa.gov/search)
坡度/(°)
河流强度指数
地形湿度指数
公路密度/(km·km-2

全国地理信息资源目标服务系统的1∶100万基础地理信息数据

(https://www.webmap.cn/commres.do?method=result100W)

河网密度/(km·km-2
地貌类别(6个) 全国30 m分辨率土地利用遥感监测数据集(https://www.resdc.cn/DOI/DOI.aspx?DOIID=54)
土壤类别(6个) 1:100万全国土壤类别空间分布数据集(https://www.resdc.cn/data.aspx?DATAID=145)
承灾体暴露度 人均GDP/元 福建省统计局(https://tjj.fujian.gov.cn/xxgk/njgb/)
单位面积GDP/(元·km-2
城市化率/%
灾害损失

福建省台风灾害区县级

直接经济损失/元

自然灾害灾情管理系统(https://www.nndims.com)
1)致灾因子指标
台风携带的强风、暴雨等是造成灾害损失的重要原因。强风可能摧毁房屋、树木和农作物,而强降水可能引发洪水和内涝,进而造成严重灾害。因此,准确、高分辨率的气象数据对台风直接经济损失预测至关重要。欧洲中期天气预报中心(ECMWF)发布的第五代全球大气再分析数据(ERA5)提供0.25°空间分辨率的逐小时气象变量,并利用数据同化技术和卫星、雷达、地面气象站等观测数据进行校正,提升再分析数据的可靠性和准确性(Hersbach et al., 2018)。为此,本研究从ERA5再分析数据中提取台风过程中的关键气象因子,包括最大风速、最大降水和累计降水。需要指出的是:最大风速为选取台风5 d时段内ERA5逐小时数据的风速最大值;最大降水为ERA5逐小时数据的降水最大值;累计降水为选取台风5 d时段内的总降水。在此基础上,利用ArcGIS分区统计工具计算区县空间平均的风速和降水。
2)孕灾环境指标
孕灾环境对灾害损失的严重程度具有放大或削减作用。如地形平坦的地区对风速的削减作用较弱,容易形成风灾;低洼地形和河网密度高的区域更容易受台风引发的洪水影响,地形越高的区域越不容易受影响。此外,树木和植被在一定程度上缓解风灾和水灾,而不同类型的土壤因吸水能力不同,对洪灾的形成也有重要影响。综合考虑数据的可获取性以及已有研究方法,本研究选取18个影响因子作为孕灾环境指标:地形高程、坡度、河流强度指数、地形湿度指数、公路密度、河网密度、地貌类别和土壤类别(见表1)。其中,地貌类别数据来自土地利用遥感监测数据集,包括耕地、林地、草地、水域、建设用地和未利用地;土壤类别数据来自土壤空间分布数据集,土壤类别包括淋溶土、初育土、半水成土、盐碱土、人为土和铁铝土。与致灾因子的处理方法类似,地形高程、坡度等数据采用ArcGIS分区统计工具计算至区县级平均。由于地貌和土壤类别作为类别型变量,无法直接进行区县平均,采用各区县不同地貌和土壤类别的面积占比作为特征变量,以量化其对灾害损失的贡献。
3)承灾体暴露度指标
台风灾害的大小与承灾体的暴露度密切相关。当人口密集、经济发达的区域造成台风灾害袭击时,台风造成经济损失将会远大于在人烟稀少、经济落后的区域。因此,选取人均GDP、单位面积GDP以及城市化率作为承灾体暴露度指标,以评估其对台风直接经济损失的影响。
4)台风直接经济损失各影响因子的相关性分析
由于本研究初选的24个影响因子(致灾因子指标3个,孕灾环境指标18个,承灾体暴露度指标3个)之间可能存在多重共线性问题,若在训练过程中包含冗余变量,则会影响模型的预测性能。因此,在正式建模前,首先对各影响因子进行Pearson相关性分析和方差膨胀系数(Variance Inflation Factors,VIF)计算,以筛选出合适的影响因子。图2为24个影响因子的Pearson相关性矩阵。可以看出,台风直接经济损失与日最大风速、日最大降水、累计降水、河网密度等变量具有较强的相关性,其相关系数均超过0.2。此外,在所有初选因子中,共有9对变量的相关系数>0.7,表明这些变量可能存在较强的共线性。
图2 各影响因子间的相关性分析

图注:绿色点表示存在较强共线性(相关系数>0.7)的影响因子变量对。

Fig.2 Correlation analysis between different impact factor

考虑到VIF是衡量回归问题中多重共线性严重程度的另一重要度量,VIF越大表明自变量之间存在强相关性的可能性越大,当VIF>10时,表明可能存在严重共线性。本研究各影响因子的方差膨胀系数见表2所示。由于地貌类别和土壤类别中计算的各因子占比存在较多0值,故在计算VIF时剔除。根据表2,坡度的VIF计算值为16.62,认为该因子为冗余变量。最终,剔除坡度、盐碱土、铁铝土、林地4个因子后,共选择20个影响因子作为预测模型的输入变量。
表2 各影响因子的方差膨胀系数VIF

Table 2 Variance inflation factors (VIFs) of different impact factor

影响因子 VIF 影响因子 VIF
最大风速 1.60 地形湿度指数 2.56
最大降水 2.36 公路密度 4.61
累计降水 2.35 河网密度 2.61
地形高度 6.40 人均GDP 1.69
坡度 16.62 单位面积GDP 2.60
河流强度指数 3.61 城市化率 2.29

注:因地貌类别和土壤类别中各因子的占比存在较多0值,故在计算VIF时剔除地形类别指标和土壤类别指标

1.2 模型训练与评估方法

台风灾害造成的直接经济损失是多种影响因子共同作用的结果,单个或少数基于经验选取的影响因子难以准确评估台风灾害的真实风险。得益于机器学习的快速发展,集合学习方法能综合考虑多维灾害影响因子的复杂作用,使得基于大规模数据的台风灾害损失评估成为可能。本研究基于LightGBM算法对福建省区县级的台风灾害损失进行建模与预测。LightGBM是一种基于梯度提升(GBDT)框架的机器学习算法(Ke et al., 2017),其核心思想是通过迭代训练多个弱学习器(如决策树),并将其组合成一个强预测模型。具体而言,每棵新生成的树主要针对前一轮预测残差(即预测值与真实值之间的误差)进行拟合,以不断提升模型的预测精度。此外,LightGBM采用多种优化策略,包括基于梯度的单侧采样(Gradient-based One-Side Sampling)策略、叶子增长策略(Leaf-wise Growth Strategy)和自动处理类别型变量方案等。
在模型训练过程中,以福建省30场台风事件的911条区县级直接经济损失数据为样本,以经过筛选的20个影响因子为输入,形成维度为911×20的总体样本数据集。考虑到样本数据量较小以及独立验证的需要,将2016年的4场台风(“尼伯特”“莫兰蒂”“鲇鱼”和“海马”)的直接经济损失记录(共177条)从总体样本中剔除,用于案例对比。最终,应用于训练模型的样本为734×20;应用于测试模型性能的样本为177×20。采用网格搜索(Grid Search)优化超参数,并结合十折交叉验证(10-fold Cross Validation)对模型进行训练,以提升泛化能力。LightGBM的最优超参数设置见表3
表3 模型最优参数设置

Table 3 Optimal parameters of the model

模型参数 最优参数设置
叶节点数 31
树的数量 300
最大深度 7
学习率 0.01
L1正则化 0.3
L2正则化 0.5
采样部分特征 0.9
采样部分数据 0.7
在模型训练过程中,考虑到目标输出的离散性较大(101元至109元),以及要消除区县面积对直接经济损失的可能影响,采用Huang等(2022)的方法,将单位面积的区县直接经济损失转换为对数值:
D E L i ' = l o g e D E L i / A r e a i
式中:DEL i'为区县i的对数标准化后的单位面直接经济损失;DEL i 为区县i的直接经济损失;Area i 为区县i的面积。
为全面评估模型的预测性能,选用Pearson相关系数(R)、可决系数(R 2)、均方误差(MSE)、平均绝对误差(MAE)和中值绝对误差(MedAE)5项指标。R值用于衡量预测值和真实值之间的线性关系强度,R值越接近1(正相关)或-1(负相关),表示两者之间的线性关系越强。R 2表示模型预测的变异性与实际观测到的变异性之间的比例,数值越接近1,说明模型能解释的变异性越高,预测效果越好;MSE是预测值与真实值之差的平方的平均值,用于衡量预测误差平方的平均大小,MSE数值越小模型预测结果越好;MAE是预测值与真实值之差的绝对值的平均值,数值越小表示错误越小,模型的回归效果越好;MedAE是预测值与真实值之差绝对值的中位数,数值越小表示预测值与真实值之间的差异越小。各指标计算公式为:
R = C o v y , y ^ V a r y V a r y ^
R 2 = 1 - i = 1 n y i - y ^ i 2 i = 1 n y i - y ¯ 2
M S E = i = 1 n y i - y ^ i 2 n
M A E = i = 1 n y i - y ^ i n
M e d A E = m e d i a n y 1 - y ^ 1 , . . . . . . , y n - y ^ n
式中:y为真实的台风直接经济损失;为预测的台风直接经济损失;͞y为真实台风直接经济损失的均值;n为样本数量;i为第i个样本;Cov表示协方差;Var表示方差;median表示取中位数。

2 结果与分析

2.1 模型训练结果

图3-a可看出,随着决策树的数量(迭代次数)增加,LightGBM模型在训练集上的预测误差逐渐降低。但在测试集上,误差在大约150次迭代后趋于稳定,表明模型在该点附近达到最优泛化性能。尽管增加迭代次数可以进一步降低训练误差,但测试误差并未显著改善,甚至可能出现过拟合。因此,将最终迭代次数设定为300,以在模型拟合能力和泛化能力之间取得平衡。
图3 模型误差(a)、性能评估(b)及直接经济损失分布(c)

Fig.3 Model errors(a), model performance evaluation(b) and Distribution of standardized DELs(c)

进一步地,图3-b展示了模型对标准化后的直接经济损失的预测性能。可以看出,大部分预测点和实际点分布在45°对角线附近,但模型存在低损失高估、高损失低估的倾向。这可能是由于数据分布不均衡导致,标准化后的直接经济损失数据呈“钟型”分布(图3-c),中等损失数据占据大多数,而高损失和低损失数据相对较少,使得模型的预测结果整体偏向于均值。
图3-b进一步展示了基于训练集和测试集的线性回归拟合结果。测试集的截距为5.04,略高于训练集的4.05,而测试集的斜率为0.43,略低于训练集的0.53,表明模型在训练集上的效果要略好于测试集。表4的模型性能指标验证了该结论。在训练集中,模型预测结果与实际损失的Pearson相关系数为0.836,可决系数为0.660;表现出较好的拟合能力;然而在测试集上,这2项指标分别下降为0.654和0.427。相比刘蓓蓓等(2024)和Yang等(2024)的研究结果,模型性能还有提升空间。可能的原因有:1)直接经济损失统计数据的误差,福建省各区县的经济损失统计数据可能受调查方法、统计标准等因素影响,存在一定误差;2)单一省份样本量不足可能影响模型的学习效果。
表4 模型性能评估指标

Table 4 Model performance evaluation indicators

性能评估指标 训练集 测试集
R 0.836 0.654
R 2 0.660 0.427
MSE 1.158 1.425
MAE 1.538 1.863
MedAE 0.889 1.203
从2016年的4场台风(“尼伯特”“莫兰蒂”“鲇鱼”和“海马”)实际直接经济损失和预测直接经济损失的对比(图4)可看出,预测的标准化后的直接经济损失[log e (DEL/Area)]与实际的损失分布较接近,其相关系数分别为0.60(超强台风“尼伯特”),0.71(超强台风“莫兰蒂”),0.68(超强台风“鲇鱼”)和0.64(超强台风“海马”)。需要说明的是,图中横坐标和纵坐标均为标准化后的直接经济损失[log e (DEL/Area)],这是因为当把损失去标准化后,发现模型预测结果和实际结果受个别极端大损失预测事件的影响,大部分数据聚集在较小范围,这可能是因为预测结果较小的误差会通过e指数和较大的区县面积进一步传递放大导致的。
图4 四场台风实际标准化损失和预测标准化损失的对比

Fig.4 Comparison of standardized DELs for four typhoons

2.2 特征重要性分析

特征重要性分析是机器学习模型优化与可解释性研究的关键环节,特别是在基于决策树的模型(如LightGBM)中,特征重要性分析能帮助研究者深入理解模型的决策机制,并识别对台风灾害影响最显著的因素。基于SHAP(Shapley Additive Explanations)方法的特征重要性分析(图5)表明,影响福建省台风直接经济损失的前六大关键因子分别为:日最大风速、河网密度、日最大降水、累计降水、单位面积GDP和城市化率。其中,日最大风速和日最大降水与直接经济损失之间呈正比关系,日最大风速和日最大降水越强,造成的直接经济损失越大,这与邵婧妍等(2024)分析结果一致。河网密度的重要性仅次于最大风速,表现出河流系统越发达的区域,台风造成的损失越大。对于累计降水,SHAP值分布相对分散,较大和较小的SHAP值均可能都是由较弱的累计降水造成,表现出相对较大的异质性。单位面积GDP对直接经济损失贡献较为复杂,从图5可发现,较小单位面积GDP值分布在SHAP的0值附近,表明对直接经济损失影响较小;但中等大小的单位面积GDP的SHAP为负,说明不利于灾害的发生,但高单位面积GDP则对直接经济损失贡献显著。此外,城市化率与灾害损失呈负相关,表示为城市化率越高越不容易产生损失,反而是城市化率低的区域发生灾害损失的可能性较大。相较之下,地形类别和土壤类别的各影响因子对造成台风直接经济损失的重要性要低很多。综上所述,福建省的台风直接经济损失主要由气象、经济和城市化等因素主导,地形因素的影响相对较弱。
图5 基于SHAP值的各指标重要性分析

Fig.5 Importance analysis of various indicators based on SHAP value

3 台风直接经济损失预测

1614号超强台风“莫兰蒂”于2016-09-15凌晨在福建省厦门市翔安区附近登陆(中国气象局,2018),登陆时中心气压为940 hPa,中心最大风速达52 m/s。该台风造成福建省263.9万人受灾、31人死亡,受灾面积7.3万公顷,直接经济损失高达261.9亿元。图6展示了“莫兰蒂”台风在福建省造成的直接经济损失的空间分布。
图6 超强台风莫兰蒂(1614)对福建省造成的直接经济损失空间分布

Fig.6 Spatial distribution of DEL in Fujian Province caused by Typhoon Moranti (1614)

在实际台风过程中,气象部门会实时发布台风路径、强度、风场及降水等预测数据,并不断更新。在台风直接经济损失建模过程中,考虑台风致灾因子预报的时空变化,直接经济损失预测也会同步发生变化,这为台风直接经济损失的动态模拟提供了思路。为实现动态预测,将台风致灾因子(日最大风速、日最大降水和累计降水)作为可随时间更新的动态变量,而将其他影响因子作为静态变量。在预测“莫兰蒂”台风的直接经济损失过程中,致灾因子数据来源于ERA5逐小时历史再分析数据集。具体地,将台风登陆前2 d作为起始时刻,结合ERA5台风逐小时再分析数据,动态更新致灾因子,并作为模型输入,从而实现对台风“莫兰蒂”的实时直接经济损失预测,辅助决策者直观地感受台风可能造成的损失变化。
模型共生成96个时刻(2016-09-12 T18—09-17 T 18)的福建省直接经济损失预测图,选取台风登陆前24 h、登陆前12 h、登陆中、登陆后12 h以及登陆后24 h作为代表时刻,分析模型的直接经济损失预测能力。
图7展示了“莫兰蒂”台风在不同时间点对福建省造成的直接经济损失预测结果。在台风登陆前24 h(图7-a),台风位于台湾以东洋面,福建省受影响较小,各区县的直接经济损失较低。在台风登陆前12 h(图7-b),受台风外围雨带影响,福建省中东部地区出现一定损失风险。当台风登陆时(图7-c),厦门及周边地区因强风暴雨影响,直接经济损失开始变大。在台风登陆后12~24 h(图7-d、e),台风逐步向内陆移动,损失进一步累积,并最终趋于稳定。模型预测的福建省直接经济损失为208.9亿元,略低于实际损失(261.9亿元)。从空间分布看,预测的主要灾损区域集中在厦门及福建中部,与实际灾损结果较为一致(见图6),但模型在福建北部(如三明市)的损失预测偏高,可能与台风降水的空间分布误差或经济损失统计方法的局限性有关。
图7 超强台风莫兰蒂(1614)影响福建省期间的县级直接经济损失预测(a~e)

Fig.7 Prediction at county level of DEL during the impact of Typhoon Moranti (1614) on Fujian Province (a~e)

总体上,本研究所建台风预测模型能在一定程度上展示台风“莫兰蒂”对福建省的直接经济损失预测分布,但仍存在改进空间:1)可通过收集更丰富、更多的台风灾损数据,通过提高数据样本的数量及质量,以提升模型的预测精度;2)致灾因子等影响因子的空间分辨率相对较高,而灾损数据的空间分辨率仅为区县级,如果能通过人口分布等高分辨率数据将直接经济损失映射到更精细的网格上(Lin & Wang, 2024; Wang et al., 2024),则能实现更精细化的灾害预警预测。

4 结论

本研究以福建省84个区县为研究对象,通过考虑致灾因子、孕灾环境和承灾体暴露度对台风直接经济损失的影响,筛选了20个关键影响因子作为模型输入变量,并采用LightGBM方法构建台风直接经济损失评估模型。以2016年超强台风“莫兰蒂”为例,文章利用所建模型在动态气象预报条件下进行了福建省县级台风直接经济损失动态预测。主要结论为:
1)对3个致灾因子、18个孕灾环境因子和3个承灾体暴露度因子进行相关性分析,避免多重共线性影响,最终筛选出台风直接经济损失的20个关键影响因子,实现有效评估和预测。
2)模型在训练集上预测结果与实际损失的Pearson相关系数R为0.836,可决系数R 2为0.660,通过4个超强台风案例验证,预测直接经济损失与实际的损失相关系数为0.6~0.71,表明模型具有较好的应用潜力。
3)利用SHAP方法对20个影响因子进行特征重要性分析,结果表明日最大风速、河网密度、日最大降水、累计降水、单位面积GDP和城市化率是影响福建省台风直接经济损失的主要因素,而地形因素影响相对较小。
4)以超强台风“莫兰蒂”为例,利用所建模型开展台风直接经济损失动态预测应用,结果表明模型较好地模拟了台风动态变化过程中,直接经济损失预测的动态分布变化,能为台风灾害防范应对提供决策信息。
本研究对台风灾害损失评估和预测具有重要应用价值,能为灾害风险管理提供动态决策信息,但当前数据和方法仍存在改进之处:
1)对栅格化的气象数据和地理环境数据采用区县级平均处理,未能充分考虑区县内部孕灾环境等的不均匀性,未来可采用更精细的空间插值方法或网格化模型优化空间尺度;
2)为最大限度利用现有数据,本研究未对直接经济损失样本进行质量检验,随着更多高质量数据的积累,未来可引入数据质量控制措施,以剔除异常值,提高模型可靠性;
3)ERA5再分析数据与实际气象观测数据仍存在一定误差,未来可采用实际观测数据进行修正,以提高模型预测精度;
4)持续累积县级尺度灾情损失数据,增加模型训练样本,逐步提升模型预测精度。

张之夏:负责数据处理、实验结果分析、论文撰写和修改;

杨 剑:负责模型训练,参与论文撰写和修改;

陈思孝:参与模型训练,参与论文修改;

林 森:负责研究数据收集和技术路线,参与文章修改。

包文轩,宫阿都,徐澯,李博艺,黄智卿. 2023. 基于区域灾害系统论的广东省台风灾害风险评估——以“山竹”台风为例. 北京师范大学学报(自然科学版),59(1):94-103.

Bao Wenxuan, Gong Adu, Xu Can, Li Boyi, and Huang Zhiqing. 2023. Typhoon Disaster Risk Assessment in Guangdong Province by Regional Disaster System Theory: Ase of "Mangkhut". Journal of Beijing Normal University(Natural Science), 59(1): 94-103.

Burton I, Kates R W, and White G F. 1993. The Environment as Hazard. New York: The Guilford Press.

陈佩燕,杨玉华,雷小途,钱燕珍. 2009. 我国台风灾害成因分析及灾情预估. 自然灾害学报,18(1):64-73.

Chen Peiyan, Yang Yuhua, Lei Xiaotu, and Qian Yanzhen. 2009. Cause Analysis and Preliminary Hazard Estimate of Typhoon Disaster in China. Jounal of Natural Disasters, 18(1): 64-73.

葛全胜,邹铭,郑景云. 2008. 中国自然灾害风险综合评估初步研究. 北京:科学出版社.

Ge Quansheng, Zou Ming, and Zheng Jingyun. 2008. Integrated Assessment of Natural Disaster Risks in China. Beijing: Science Press.

Guo Guizhen, Liu Lulu, Li Yuqing, Gao Jiangbo, Lin Sen, and Wu Shaohong. 2021. A Vulnerability Curve Method to Assess Risks of Climate-Related Hazards at County Level. Atmosphere, 12(8): 1022.

Hersbach H, Bell B, Berrisford P, Biavati G, Horányi A, Muñoz Sabater J, Nicolas J, Peubey C, Radu R, Rozum I, Schepers D, Simmons A, Soci C, Dee D, and Thépaut J N. 2018. ERA5 Hourly Data on Pressure Levels from 1940 to Present. (2025-01-10) [2025-04-29]. https://cds.climate.copernicus.eu/datasets/reanalysis-era5-pressure-levels.

Huang M, Wang Q, Liu M, Lin N, Wang Y, Jing R, Sun J, Murakami H, and Lou W. 2022. Increasing Typhoon Impact and Economic Losses Due to Anthropogenic Warming in Southeast China. Scientific Reports, 12(1): 14048.

IPCC. 2022. AR6 Climate Change 2022: Mitigation of Climate Change. Cambridge: Cambridge University Press.

Ke Guolin, Meng Qi, Finley T, Wang Taifeng, Chen Wei, Ma Weidong, Ye Qiwei, and Liu Tieyan. 2017. LightGBM: A Highly Efficient Gradient Boosting Decision Tree. Neural Information Processing Systems. Long Beach, USA: 31st Conference on Neural Information Processing Systems.

李宁,张正涛,陈曦,冯介玲. 2017. 论自然灾害经济损失评估研究的重要性. 地理科学进展,36(2):256-263.

Li Ning, Zhang Zhengtao, Chen Xi, and Feng Jieling. 2017. Importance of Economic Loss Evaluation in Natural Hazard and Disaster Research. Progress in Geography, 36(2): 256-263.

刘蓓蓓,赵飞,王曦,闫雪,林森. 2024. 多源数据驱动的台风动态风险评估. 热带地理,44(6):1102-1112.

Liu Beibei, Zhao Fei, Wang Xi, Yan Xue, and Lin Sen. 2024. Multi-Source Data-Driven Modeling of Typhoon Dynamic Risk Assessment. Tropical Geography, 44(6): 1102-1112.

Lin Peihui and Wang Naiyu. 2024. A Data-Driven Approach for Regional-Scale Fine-Resolution Disaster Impact Prediction under Tropical Cyclones. Natural Hazards, 120: 7461-7479.

林森,刘蓓蓓,闫雪,孙宁,郭桂祯. 2022. 灾害大数据驱动的县域重大洪涝过程灾害风险评估. 灾害学,37(4):166-172.

Lin Sen, Liu Beibei, Yan Xue, Sun Ning, and Guo Guizhen. 2022. Disaster Risk Assessment at County Level of a Heavy Flooding Driven by Disaster Big Data. Journal of Catastrophology, 37(4): 166-172.

邵婧妍,方伟华. 2024. 基于机器学习算法的热带气旋灾害县级直接经济损失等级评估:以福建省为例. 热带地理,44(6):1064-1078.

Shao Jingyan and Fang Weihua. 2024. Assessment of Direct Economic Loss Levels Caused by Tropical Cyclone Disasters in County-Level Using Machine Learning: A Case Study of Fujian Province. Tropical Geography, 44(6): 1064-1078.

史培军. 1991. 灾害研究的理论与实践. 南京大学学报(自然科学版),(11):37-42. [Shi Peijun. 1991. On the Theory of Disaster Research and Its Practice. Journal of Nanjing University, (11): 37-42. ]

薛建军,李佳英,张立生,王秀荣,许映龙. 2012. 我国台风灾害特征及风险防范策略. 气象与减灾研究,35(1):59-64.

Xue Jianjun, Li Jiaying, Zhang Lisheng, Wang Xiurong, and Xu Yinglong. 2012. Characteristics of Typhoon Disasters in China and Risk Prevention Strategies. Meteorology and Disaster Reduction Research, 35(1): 59-64.

Wang Zhenkang, Xia Nan, Zhao Xin, Ji XianKai, and Wang Jiechen. 2024. Comprehensive Risk Assessment of Typhoon Disasters in China's Coastal Areas Based on Multi-Source Geographic Big Data. Science of the Total Environment, 926: 171815.

王军,谭金凯. 2021. 气候变化背景下中国沿海地区灾害风险研究与应对思考. 地理科学进展,40(5):870-882.

Wang Jun and Tan Jinkai. 2021. Understanding the Climate Change and Disaster Risks in Coastal Areas of China to Develop Coping Strategies. Progress in Geography, 40(5): 870-882.

Yang Jian, Chen Sixiao, Tang Yanan, Lu Ping, Lin Sen, Duan Zhongdong, and Ou Jinping. 2024. A Tropical Cyclone Risk Prediction Framework Using Flood Susceptibility and Tree-Based Machine Learning Models: County-Level Direct Economic Loss Prediction in Guangdong Province. International Journal of Disaster Risk Reduction, 114: 104955.

杨奕杰. 2022. 基于近20年历史数据的中国沿海城市台风灾害风险评估. 上海:上海海洋大学.

Yang Yijie. 2022. Risk Assessment of Typhoon Disasters in Coastal Cities in China Based on Historical Data in the Past 20 Years. Shanghai: Shanghai Ocean University.

殷洁,戴尔阜,吴绍洪. 2013. 中国台风灾害综合风险评估与区划. 地理科学,33(11):1370-1376.

Yin Jie, Dai Erfu, and Wu Shaohong. 2013. Integrated Risk Assessment and Zoning of Typhoon Disasters in China. Scientia Geographic Sinica, 33(11): 1370-1376.

袁艺. 2010. 自然灾害灾情评估研究与实践进展. 地球科学进展,25(1):22-32. [Yuan Yi. 2010. Advances in the Assessment of Natural Disaster Situation. Advances in Earth Science, 25(1): 22-32. ]

曾鹏,苏朝晖,方伟华,张海霞,余璐.2022. 基于高精度房屋类型数据的海口市台风次生洪涝灾害损失评估.灾害学,37(4):155-165.

Zeng Peng, Su Zhaohui, Fang Weihua, Zhang Haixia, and Yu Lu. 2022. Typhoon Flooding Loss Assessment in Haikou City Based on High Precision Building Type Data. Journal of Catastrophology, 37(4): 155-165.

张宝军. 2015. 我国自然灾害情况统计制度与标准化进展. 灾害学,30(3):150-155.

Zhang Baojun. 2015. Advance in System and Standardization of Natural Disasters Information Statistics in China. Journal of Catastrophology, 30(3) : 150-155.

中国气象局. 2018. 中国气象灾害年鉴:2017. 北京:气象出版社.

China Meteorological Administration. 2018. Yearbook of Meteorological Disaster in China: 2017. Beijing: China Meteorological Press.

中华人民共和国应急管理部. 2024. 自然灾害情况统计调查制度. 北京:应急管理出版社.

Ministry of Emergency Management of the People's Republic of China. 2024. Natural Disasters Statistical Investigation System. Beijing: Emergency Management Press.

文章导航

/