基于集成学习的强对流天气持续时间预报方法

文档序号：1534105 发布日期：2020-02-14 浏览：24次 >En<

阅读说明：本技术 基于集成学习的强对流天气持续时间预报方法 (Strong convection weather duration forecasting method based on ensemble learning ) 是由文立玉罗飞向元吉于 2019-10-22 设计创作，主要内容包括：本发明公开了基于集成学习的强对流天气持续时间预报方法,包括以下步骤：S1,数据源选取：选择预报地区的地面气象站资料以及离预报地区最近的两个探空站资料；S2,数据预处理：剔除错误及缺测资料,根据计算出的相关强对流预报参数作为输入,选择每次强队流天气持续的时间作为输出,当天没有出现强对流天气则认为时间为0,对预报参数即输入作归一化处理；S3,机器学习算法选择：选用K最近邻算法、多项式回归算法、决策树算法、神经网络算法。本发明主要用强对流天气发生当天的各种气象要素来推测强对流天气可能会持续的时间,通过多机器学习算法比较策略,对目标任务进行训练测试,选出其中最优的学习算法,用作实际的预报任务中。(The invention discloses a strong convection weather duration forecasting method based on ensemble learning, which comprises the following steps: s1, selecting a data source: selecting ground meteorological station data of a forecast area and two sounding station data closest to the forecast area; s2, preprocessing data: rejecting errors and missing data, taking the calculated related strong convection forecast parameters as input, selecting the lasting time of the weather of each strong convection as output, considering the time as 0 if no strong convection weather occurs in the day, and performing normalization processing on the forecast parameters, namely the input; s3, selecting by a machine learning algorithm: and selecting a K nearest neighbor algorithm, a polynomial regression algorithm, a decision tree algorithm and a neural network algorithm. The method mainly uses various meteorological elements of the day when the strong convection weather occurs to conjecture the possible duration time of the strong convection weather, and trains and tests the target task through a multi-machine learning algorithm comparison strategy to select the optimal learning algorithm for being used in the actual forecasting task.)

技术领域

本发明涉及天气预报技术领域，尤其涉及基于集成学习的强对流天气持续时间预报方法。

背景技术

天气预报(测)或气象预报(测)是使用现代科学技术对未来某一地点地球大气层的状态进行预测。从史前人类就已经开始对天气进行预测来相应地安排其工作与生活(比如农业生产、军事行动等等)。今天的天气预报主要是使用收集大量的数据(气温、湿度、风向和风速、气压等等)，然后使用目前对大气过程的认识(气象学)来确定未来空气变化。由于大气过程的混乱以及今天科学并没有最终透彻地了解大气过程，因此天气预报总是有一定误差的。

常规预报方法，预报员利用天气学方法制作出来的，但准确度不高。另外还有一些算法虽然从不同角度来提高强对流天气预测准确率，但往往采用单一预测算法。在实际应用中，由于地域的不同，不同时空和不同季节对数据处理的要求也是不同的。这种单一的算法预报模型不能反映出数据的动态变化特征，导致预报的稳定性一般较差。

发明内容

基于背景技术存在的技术问题，本发明提出了基于集成学习的强对流天气持续时间预报方法。

本发明提出的基于集成学习的强对流天气持续时间预报方法，包括以下步骤：

S1，数据源选取：选择预报地区的地面气象站资料以及离预报地区最近的两个探空站资料；

S2，数据预处理：剔除错误及缺测资料，根据计算出的相关强对流预报参数作为输入，选择每次强队流天气持续的时间作为输出，当天没有出现强对流天气则认为时间为0，对预报参数即输入作归一化处理；

S3，机器学习算法选择：选用K最近邻算法、多项式回归算法、决策树算法、神经网络算法；

S4，集成学***均，得到集成学习的预报结果。

优选地，所述相关强对流预报参数包括整层比湿积分、A指数、K指数、修正K指数、总指数、修正总指数、对流有效位能、对流凝结温度、自由抬升对流温度、0—3km垂直风矢量差、强天气威胁指数、700hPa比湿、700hPa相对湿度、850hPa比湿、850hPa相对湿度、地面露点温度。

优选地，所述归一化处理采用均值方差归一化，将所有用作输入的数据归一到均值为0方差为1的分布中。

优选地，所述K最近邻算法在气象要素的变动是在一个稳定的范围内，即呈现出连续形态的情况下使用。

优选地，所述多项式回归算法在气象预报涉及要素多，所有的要素和结果很难呈线性关系的情况下使用。

优选地，所述决策树算法在强对流天气过程的产生中，每一种气象要素都起着或多或少的作用的情况下使用。

优选地，所述神经网络算法在对于强对流天气持续时间和当天的气象要素的复杂关系的情况下使用。

优选地，所述模型评分采用s＝0，β≥2α公式计算，S代表模型的一个样本得分，α代表一个预测样本的真值，β代表一个预测样本的预测值，β是一个大于等于0的数，若计算出来β小于0，则认为它为0；对于一份包含若干个样本的数据，采用S求和再取平均的方式来得到某个模型的得分。

本发明主要用强对流天气发生当天的各种气象要素来推测强对流天气可能会持续的时间，将K最近邻算法、多项式回归算法、决策树算法、神经网络算法这四种算法进行适当综合，且采用交叉验证方式来训练模型，在模型的训练过程中对所有训练数据即各种气象要素比起传统预报方法都会有更好的考量，同时结合四个算法训练出来的最优模型，能够得出比单个算法模型更精确的计算结果。

具体实施方式

下面结合具体实施例对本发明作进一步解说。

本发明提出的基于集成学习的强对流天气持续时间预报方法，包括以下步骤：

S1，数据源选取：选择预报地区的地面气象站资料以及离预报地区最近的两个探空站资料；

S2，数据预处理：剔除错误及缺测资料，根据计算出的相关强对流预报参数作为输入，选择每次强队流天气持续的时间作为输出(单位为分)，当天没有出现强对流天气则认为时间为0，对预报参数即输入作归一化处理；

S3，机器学习算法选择：选用K最近邻算法、多项式回归算法、决策树算法、神经网络算法；

S4，集成学***均，得到集成学习的预报结果。

因为是四个算法模型采用交叉验证方式来训练模型，充分考虑每种算法的长处和每份样本数据的特征值和其输出值，所以排除了可能因为算法单一和随机不均匀造成的各种过拟合情况，提高了模型整体的泛化能力，在对新的未经训练过的数据集进行训练时，也能表现出更好的预测能力。在模型的训练过程中对有训练数据即各种气象要素比起传统预报方法都会有更好的考量。同时，按照上方法结合四个算法训练出来的最优模型得出最终结果能比传统单个算法模型更准确。

具体地，相关强对流预报参数包括整层比湿积分、A指数、K指数、修正K指数、总指数、修正总指数、对流有效位能、对流凝结温度、自由抬升对流温度、0—3km垂直风矢量差、强天气威胁指数、700hPa比湿、700hPa相对湿度、850hPa比湿、850hPa相对湿度、地面露点温度。

具体地，归一化处理采用均值方差归一化，将有用作输入的数据归一到均值为0方差为1的分布中，这样可提高机器学习算法的运行效率和准确率。

具体地，K最近邻算法在气象要素的变动是在一个稳定的范围内，即呈现出连续形态的情况下使用。分配给预测点的标签数值是根据其最近邻居标签数值的平均值计算的；

多项式回归算法在气象预报涉及要素多，有的要素和结果很难呈线性关系的情况下使用。在机器学习中，一个常见的模式是针对数据进行线性函数的训练，但这种方法是假设数据呈线性关系的。而现实生活中，数据间的关系大多是非线性形式的，只有添加多项式特征才能将数据很好的拟合出来，多项式回归正好可以解决这类问题；

决策树算法在强对流天气过程的产生中，每一种气象要素都起着或多或少的作用的情况下使用。决策树是一种用于分类和回归的非参数监督学习方法。目标是创建一个模型，通过学习从数据特征推断出的决策规则来预测目标变量的值；

神经网络算法在对于强对流天气持续时间和当天的气象要素的复杂关系的情况下使用。要处理的是相对少量数值预报，以这里采用多层感知器这种轻量的神经网络进行预测。多层感知器能处理更加复杂的非线性问题，它对非线性数据的拟合能力更强。

具体地，模型评分采用s＝0，β≥2α公式计算，S代表模型的一个样本得分，α代表一个预测样本的真值，β代表一个预测样本的预测值，β是一个大于等于0的数，若计算出来β小于0，则认为它为0。对于一份包含若干个样本的数据，采用S求和再取平均的方式来得到某个模型的得分。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

7页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种降雨量传感器

基于集成学习的强对流天气持续时间预报方法

相关技术

网友询问留言