基于gbdt+lr模型的冰雹和短时强降水预报方法
阅读说明:本技术 基于gbdt+lr模型的冰雹和短时强降水预报方法 (Method for forecasting hail and short-time heavy rainfall based on GBDT + LR model ) 是由 路志英 汪永清 于 2019-11-29 设计创作,主要内容包括:本发明公开了一种冰雹和短时强降水预报方法,包括:获取某一地区往年每年3月至9月冰雹和短时强降水发生前三小时的地面气象观测站点数据及该地区上游的多个探空站点数据;通过SMOTE过采样算法对上述数据中数据量相对较小的冰雹过程数据进行扩充,得到过采样后的数据集;采用PCA方法对过采样后的数据集进行降维;将降维后的数据集中的样本划分为训练集和测试集;构建GBDT+LR模型,将GBDT模型的叶节点所提取的特征作为LR模型的输入特征,通过训练集和测试集的样本对GBDT+LR模型进行训练和测试;采集地区待预测时间点之前三小时的地面气象观测站点数据,获取该地区上游的多个探空站点数据,将数据代入训练好的GBDT+LR模型,判定预测时间点出现的是冰雹还是短时强降水。(The invention discloses a hail and short-time strong precipitation forecasting method, which comprises the following steps: acquiring ground meteorological observation station data of three hours before hail and short-time strong precipitation occur in a certain area every 3 to 9 months in the past year and a plurality of sounding station data of the upstream of the area; expanding hail process data with relatively small data volume in the data through a SMOTE oversampling algorithm to obtain an oversampled data set; reducing the dimension of the oversampled data set by adopting a PCA method; dividing the samples in the reduced-dimension data set into a training set and a testing set; constructing a GBDT + LR model, taking the features extracted by leaf nodes of the GBDT model as input features of the LR model, and training and testing the GBDT + LR model through samples of a training set and a testing set; collecting ground meteorological observation station data three hours before a time point to be predicted of a region, obtaining a plurality of sounding station data of the upstream of the region, substituting the data into a trained GBDT + LR model, and judging whether hail or short-time strong precipitation occurs at the time point to be predicted.)
技术领域
本发明涉及气象预报领域,特别是涉及一种冰雹和短时强降水预报方法。
背景技术
在气象预报中,冰雹与短时强降水有着产生与消亡周期短、影响的区域范围较小而且天气变化极为剧烈的特点。它们会对工业,农业以及人民的日常生活造成极大的影响。
冰雹与短时强降水的预报可以使用气象雷达,但气象雷达所反映的信息仅仅是实况,而且探测空间尺度小,因此,气象雷达无法做到提前较长时间进行预报。
发明内容
为克服现有技术的不足,本发明旨在提供一种基于GBDT+LR模型对冰雹和短时强降水进行预报的方法,利用物理场数据的关系,实现冰雹短时强降水的准确预报,为精确预报强对流天气提供有力支持。
为此,本发明采用以下技术方案:
一种基于GBDT+LR模型的冰雹和短时强降水预报方法,包括以下步骤:
S1,原始数据获取:获取某一地区往年每年3月至9月冰雹和短时强降水发生前三小时的地面气象观测站点数据,获取该地区上游的多个探空站点数据;
S2,通过SMOTE过采样算法对上述数据中数据量相对较小的冰雹过程数据进行扩充,得到过采样后的数据集;
S3,采用PCA方法对所述过采样后的数据集进行降维;
S4,数据集的划分:将降维后的数据集中的样本划分为训练集和测试集;
S5,构建GBDT+LR模型,将GBDT模型的叶节点所提取的特征作为LR模型的输入特征,通过所述训练集和测试集的样本对GBDT+LR模型进行训练和测试;
S6,采集所述地区待预测时间点之前三小时的地面气象观测站点数据,获取该地区上游的多个探空站点数据;
S7,将S6中的数据经PCA降维后代入训练好的GBDT+LR模型,判定所述预测时间点出现的是冰雹还是短时强降水。
其中,所述GBDT+LR模型的构建过程如下:
(1)构建GBDT模型,如下式:
式中:β为每一个基础学习器的相应权重;α为每一个基础学习器的参数;参数为M个数据(xi,yi)的损失函数最小最优解P,
设损失函数L:
其中,l为每次迭代的基础学习器的损失函数,
则:
对于每一个样本xi,都可以得到一个梯度下降方向,即:
优化公式(8)得到:
进而求得βn:
最终获得GBDT算法模型的迭代描述:
Fn(x)=Fn-1(x)+βnh(x;αn) (13)
(2)在所述GBDT模型后面串接基于sigmoid函数的LR二分类模型,Sigmoid函数如下式所示:
其中,θ为模型的权重系数,x为GBDT模型所提取的叶节点的参数。
通过调整GBDT模型和LR模型的参数,当最大迭代次数为10,学习率为0.02,树的最大深度设置为4时,获得的冰雹短时强降水预报模型最优。
步骤S2中,通过SMOTE过采样算法对冰雹过程数据进行扩充的步骤如下:
1)对于冰雹过程数据的每一个样本xi,计算它到冰雹过程数据中其他样本的欧氏距离;
2)根据样本的比例设置采样倍率,选取多个相近的冰雹过程数据中的样本,设其选择的近邻点为
3)对于每一个随机选择的近邻点
依据式(1)构建新的样本点:
对冰雹过程数据进行扩充。
步骤S1中,所述地面气象观测站点数据包括地平面气压、海平面气压、温度、露点温度、相对湿度、水汽压、2分钟平均风向、2分钟平均风速、10分钟平均风向和10分钟平均风速。
步骤S1中,所述探空站点的数据包括对流有效位能CAPE(J·kg-1)、最优对流有效位能BCAPE(J·kg-1)、对流抑制能量CIN(J·kg-1)、K指数KI、沙氏指数SI、抬升指数LI、最优抬升指数BLI、修正的K指数MK、深对流指数DCI、修正的深对流指数MDCI、微下击暴流日潜势指数MDPI、对流稳定度指数IC、最佳对流稳定度指数BIC、条件性稳定度指数IL、条件-对流稳定度指数ICL、全总指数TT、大气可降水量PW(cm)、对流凝结高度CCL(hPa)、对流温度TCON(℃)、抬升凝结温度TC(℃)、抬升凝结高度PC(hPa)、自由对流高度LFC(hPa)、平衡高度PE(hPa)、0℃层高度ZH(gpm)、-30℃层高度FH(gpm)、强天气威胁指数SWEAT、雷暴大风指数WINDEX、风暴相对螺旋度SRH、能量螺旋度指数EHI、粗理查逊数BRN、风暴强度指数SSI、瑞士雷暴指数SWISS00和瑞士雷暴指数SWISS12。
在本发明的一个实施例中,所述地区为天津地区,所述多个探空站点为北京探空气象站、邢台探空气象站、章丘探空气象站、赤峰探空气象站和张家口探空气象站,所述地面气象观测站点数据为天津市气象局从2006年到2018年每年3月到9月冰雹和短时强降水发生前三小时的地面气象观测站点数据,共采集到2006年到2018年的55个冰雹过程数据以及397个短时强降水过程数据。通过SMOTE过采样算法将所述冰雹过程数据扩充至385个;采用PCA方法将冰雹短时强降水数据集的维数从195维降至30维,并将降维后的数据集以8:2的比例划分训练集和测试集。
本发明具有以下有益效果:
本发明的基于GBDT+LR模型的冰雹和短时强降水预报方法,利用气象观测站的地面物理场数据以及观测站上游探空站的气象数据,通过GBDT+LR模型对数据进行训练和拟合,获取其与冰雹和短时强降水之间的相关性。该方法使用逐小时记录的物理场数据,从而能够使预报的提前量增大,实现提前1小时或几小时进行预报。
2、本发明中的GBDT+LR模型性能优秀,其冰雹的命中率为0.902、临界成功指数为0.859;短时强降水的命中率为0.946、临界成功指数为0.855,能准确进行预报,降低了冰雹与短时强降水天气对社会的影响。
附图说明
图1是本发明的实施例1中采用的探空站点的分布图;
图2是SMOTE算法示意图;
图3是本发明实施例中的GBDT+LR模型图;
图4是本发明实施例中树的迭代次数与临界成功指数关系图;
图5是本发明实施例中学习率与临界成功指数关系图;
图6是本发明实施例中树的最大深度与临界成功指数关系图。
具体实施方式
以下结合附图和实施例对本发明的方法进行详细说明。
实施例一
本实施例以天津地区为例。天津地区基于GBDT+LR模型的冰雹和短时强降水预报方法包括以下步骤:
步骤S1,原始数据的获取:
采集天津市气象局从2006年到2018年每年3月到9月冰雹和短时强降水发生前几小时的地面气象观测站点数据,包括:地平面气压、海平面气压、温度、露点温度、相对湿度、水汽压、2分钟平均风向、2分钟平均风速、10分钟平均风向和10分钟平均风速。在本实施例中,采集冰雹和短时强降水发生前3小时的数据。
参见图1,选取天津上游北京探空气象站、邢台探空气象站、章丘探空气象站、赤峰探空气象站和张家口探空气象站五个探空站点的数据(早8点和晚8点的数据),包括:对流有效位能CAPE(J·kg-1)、最优对流有效位能BCAPE(J·kg-1)、对流抑制能量CIN(J·kg-1)、K指数KI、沙氏指数SI、抬升指数LI、最优抬升指数BLI、修正的K指数MK、深对流指数DCI、修正的深对流指数MDCI、微下击暴流日潜势指数MDPI、对流稳定度指数IC、最佳对流稳定度指数BIC、条件性稳定度指数IL、条件-对流稳定度指数ICL、全总指数TT、大气可降水量PW(cm)、对流凝结高度CCL(hPa)、对流温度TCON(℃)、抬升凝结温度TC(℃)、抬升凝结高度PC(hPa)、自由对流高度LFC(hPa)、平衡高度PE(hPa)、0℃层高度ZH(gpm)、-30℃层高度FH(gpm)、强天气威胁指数SWEAT、雷暴大风指数WINDEX、风暴相对螺旋度SRH、能量螺旋度指数EHI、粗理查逊数BRN、风暴强度指数SSI、瑞士雷暴指数SWISS00、瑞士雷暴指数SWISS12,共计33个物理量数据。
以上共收集到2006年到2018年的55个冰雹过程数据以及397个短时强降水过程数据。
步骤S2,由于所采集的冰雹过程数据和短时强降水过程数据集相比,存在样本不均衡问题以及数据量小的问题,因此,采用SMOTE(synthetic minority over-samplingtechnique)过采样算法对上述冰雹过程数据进行扩充。
SMOTE过采样算法示意图如图2所示,具体步骤如下:
第1步:对于样本数目少的类别中的每一个样本xi,计算它到少数类别的其他样本的欧氏距离;
第2步:根据样本的比例设置采样倍率,选取55个相近的少数类中的样本,设其选择的近邻点为
第3步:对于每一个随机选择的近邻点
依据式(1)构建新的样本点:
由于SMOTE算法中对少数类样本的采样倍率会对预测准确率产生影响,采样倍率增大,能够提高少数类样本的分类准确率,因此本实施例将上述55个冰雹过程数据扩充至385个。
步骤S3,数据降维:
步骤S2得到的数据集中,构建冰雹与短时强降水预报模型需要用到上述上游五个探空站点数据与地面观测站点数据中的前三小时的数据,共计195维;而训练集数据本身数据量不够,容易引起过拟合的问题。为了解决过拟合问题,需要对数据进行降维处理。
本发明采用PCA(Principal Component Analysis)方法进行降维处理。PCA方法通过线性变换把给定的一组相关量转换成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列,提取数据的主成分。
通过PCA降维方法提取出的主成分可以在保留方差信息的情况下消去原始数据空间的冗余信息,并且各个主元的变量正交。
假设N维M个样本构成的样本空间为X∈RM×N,PCA的具体计算步骤如下:
构建PCA的线性表达式,如式(2)所示:
式中:向量表示第i个样本的第k个维数,y为主分量,A为特征向量系数。
计算样本空间中第k个维度的平均值,即:
计算任意的两个维度a,b间的方差矩阵,即:
通过对样本集的方差矩阵计算获得每一个特征值以及对应的特征向量,每一个特征向量对总体方差的影响与特征值成正比。将特征值按从大到小排序。其中前T个较大的特征值(λ1≥λ2≥λ3...≥λT≥0)就是前T个主成分对应的方差。
确定主分量中的前T个主分量占数据总方差的百分比,计算公式如(5)所示:
式中:λn代表第n个特征值;Snn为方差矩阵的对角线非零元素。
步骤4,数据集的划分:
在对SMOTE过采样的数据集进行PCA降维处理后,将冰雹短时强降水数据集的维数降至30维。对于获得的数据集,以8:2的比例分别划分385个冰雹和397个短时强降水数据,划分后的样本分布如表1所示。
表1训练集与测试集划分
步骤5,GBDT+LR模型的构建:
本发明所用的模型为GBDT+LR模型。其中,GBDT模型如下:
式中:β为每一个基础学习器的相应权重;α为每一个基础学习器的参数;参数
为M个数据(xi,yi)的损失函数最小最优解P。设损失函数L:
其中,l为每次迭代的基础学习器的损失函数。
则:
对于每一个样本xi,都可以得到一个梯度下降方向,即:
优化公式(8)得到:
进而求得βn:
最终获取GBDT算法模型的迭代描述:
Fn(x)=Fn-1(x)+βnh(x;αn) (13)
GBDT模型训练的主要参数是树的最大迭代次数、模型学习率和树的最大深度的选择,这三种参数的选择分别参见图4~图6,其中,横坐标代表三种选择的参数,纵坐标为临界成功指数。由图4~图6可以看出,在参数选择中,最大迭代次数选择为10、学习率设置为0.02并且树的最大深度设置为4时,模型的评估结果最优。
本发明的冰雹和短时强降水的预报属于二分类问题,因此,在GBDT模型后面串接了基于sigmoid函数的LR(Logistic Regression)二分类模型。Sigmoid函数如式(14)所示:
其中,θ为模型的权重系数,x为上述GBDT所提取的叶节点的参数。LR的损失函数如式(15)所示:
由于对数损失函数对伯努利分布的数据有着良好的判别能力,因此,在有着良好的特征数据下,LR模型对0,1的二分类问题有着优良的特性。
GBDT+LR分类模型所使用的方法是通过GBDT模型***筛选特征,将在叶节点***后的特征传递给LR模型,通过LR模型训练获得分类结果。GBDT+LR模型继承了GBDT模型提取特征、获得***后的离散特征的能力和LR模型对离散分布特征的优良分类能力。因此将GBDT的叶节点所提取的特征作为LR模型的输入特征,并进行训练,可以获得较好的冰雹与短时强降水的分类效果。GBDT+LR模型示意图如图3所示。
本发明的方法所使用的评价指标为命中率(Percent of doom,POD)、误报率(False alarm rate,FAR)和临界成功指数(Critical Success Index,CSI)。
根据前面的数据划分结果,由626个冰雹和短时强降雨样本构成训练集,156个冰雹和短时强降雨样本构成测试集。对156个冰雹短时强降水测试集进行测试,通过GBDT+LR模型训练后的结果如表2、表3所示:
表2 GBDT+LR模型冰雹预报结果评价
表3 GBDT+LR模型短时强降水预报结果评价
由表中数据可知,冰雹的命中率为0.902、临界成功指数为0.859;短时强降水的命中率为0.946、临界成功指数为0.855,说明GBDT+LR模型的性能优秀。
S6,采集天津地区待预测时间点之前三小时的地面气象观测站点数据,获取该地区上游的多个探空站点数据。
S7,将S6中的数据经PCA降维后代入训练好的GBDT+LR模型,判定所述预测时间点出现的是冰雹还是短时强降水。
- 上一篇:一种医用注射器针头装配设备
- 下一篇:一种多层光学薄膜、高亮度颜料及其制备方法