一种适用于耀斑预报问题的多线程神经网络模型的构建方法

文档序号:137260 发布日期:2021-10-22 浏览:46次 >En<

阅读说明:本技术 一种适用于耀斑预报问题的多线程神经网络模型的构建方法 (Method for constructing multithreading neural network model suitable for flare prediction problem ) 是由 鄂鹏 付俊丰 万杰 谭代敏 韩轲 金成刚 文人庆 于 2021-06-29 设计创作,主要内容包括:本发明公开了一种适用于耀斑预报问题的多线程神经网络模型的构建方法,所述方法如下:一:获取“耀斑数据集”;二:将“耀斑数据集”进行乱序处理,按照不平衡度分割成数据子集,标记为“耀斑数据子集”;三:初始化“ANN子模型”参数;四:将“耀斑数据子集”输入至“ANN子模型”,开始模型训练;五:将训练好的“ANN子模型”的模型参数进行取平均操作,得到“超级模型参数”;六:各个“ANN子模型”的模型参数采用“超级模型参数”作为初始化方法;七:重复三~六,得到适用于耀斑预报问题的多线程神经网络模型。该方法构建的多线程神经网络模型适用于太阳耀斑预报过程中出现的由于数据类不平衡问题导致的预报模型精确度低等问题。(The invention discloses a method for constructing a multithread neural network model suitable for a flare prediction problem, which comprises the following steps: firstly, the method comprises the following steps: acquiring a flare dataset; II, secondly: disorder processing is carried out on the flare data set, and the flare data set is divided into data subsets according to the unbalancedness degree and marked as a flare data subset; thirdly, the method comprises the following steps: initializing parameters of an ANN submodel; fourthly, the method comprises the following steps: inputting the flare data subset into the ANN submodel, and starting model training; fifthly: carrying out averaging operation on model parameters of the trained ANN submodel to obtain super model parameters; sixthly, the method comprises the following steps: model parameters of each ANN submodel adopt super model parameters as an initialization method; seventhly, the method comprises the following steps: repeating three to six times to obtain the multi-thread neural network model suitable for the flare prediction problem. The multithreading neural network model constructed by the method is suitable for the problems of low accuracy of the forecasting model and the like caused by unbalanced data in the solar flare forecasting process.)

一种适用于耀斑预报问题的多线程神经网络模型的构建方法

技术领域

本发明涉及一种多线程神经网络模型的构建方法。

背景技术

对未来一段时间太阳爆发活动的情况进行准确预报,可以及时地进行灾害的防护和处理。太阳耀斑事件在时序上属于小概率时间,导致耀斑样本表现为类别高度不平衡。而类不平衡的问题会严重影响预报模型的准确率,所以有必要针对太阳耀斑数据特点进行类不平衡处理。

现有主流对类不平衡处理方法主要分为:1)利用重采样技术对样本进行前处理,典型的如欠采样、过采样、混合采样等方法;2)通过对预报算法本身进行敏感度修正,使其在训练过程中逐渐适应不平衡的数据集,典型的如样本加权方法;3)在不干预样本和训练过程的基础上,对预报算法的决策边界进行重新配置。

在上述处理方法中,重采样算法在一定程度上能确保预报准确度,但大多数重采样都改变了数据集分布,这样会导致模型的泛化能力降低,不利于工程实际应用;修正敏感度算法和改变决策边界的方法,可以使计算时间大大降低,但会高度依赖样本分布,一旦改变样本或对样本进行简单抽样,上述方法将基本失效。另一方面,对于典型分类器诸如神经网络来说,集中式的训练需要耗费大量时间,同样不利于耀斑预报问题的实际应用。

综上所述,有必要提出一种考虑类不平衡数据的、多线程神经网络模型。

发明内容

本发明的目的是提供一种适用于耀斑预报问题的多线程神经网络模型的构建方法,该方法构建的多线程神经网络模型适用于太阳耀斑预报过程中出现的由于数据类不平衡问题导致的预报模型精确度低等问题。

本发明的目的是通过以下技术方案实现的:

一种适用于耀斑预报问题的多线程神经网络模型的构建方法,包括如下步骤:

步骤一:获取太阳耀斑数据,将其整理成可读格式,并标记数据标签,即获得“耀斑数据集”;

步骤二:将步骤一获取的“耀斑数据集”进行乱序处理,按照不平衡度分割成样本数量相同的N份数据子集,标记为“耀斑数据子集”;

步骤三:设计多线程网络,并初始化各个“ANN子模型”的参数。首次执行时,初始化方法为“随机初始化”;

步骤四:将步骤二的“耀斑数据子集”分别输入至相应的“ANN子模型”,并开始模型训练,直至各个“ANN子模型”的精度满足给定;

步骤五:将步骤四得到的各个训练好的“ANN子模型”的模型参数进行取平均操作,得到“超级模型参数”;

步骤六:将步骤五得到的“超级模型参数”分发给各个“ANN子模型”,各个“ANN子模型”的模型参数将采用“超级模型参数”作为初始化方法;

步骤七:重复步骤三~步骤六,直至“超级模型参数”与各个训练后的“ANN子模型”的参数满足给定误差,迭代退出,得到适用于耀斑预报问题的多线程神经网络模型。

相比于现有技术,本发明具有如下优点:

1)本发明通过建立多线程神经网络模型,给出了“超级模型”的计算方法,可为太阳耀斑预报问题的分析提供参考;

2)本发明通过制造不同数据子集,多线程训练神经网络,大大降低了机器学习算法的模型训练时间,相比较集中式训练过程而言,本发明所述方法能够高效完成计算任务;

3)本发明通过深度利用类不平衡数据,训练出可适应不同类不平衡情况数据集的ANN模型,模型泛化能力得到大幅度增强,能从一定程度上代替传统重采样方法,在工程上更适用于应用过程。

附图说明

图1为多线程网络示意图;

图2为多线程神经网络模型的构建流程图。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明,但并不局限于此,凡是对本发明技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围中。

本发明提供了一种适用于耀斑预报问题的多线程神经网络模型的构建方法,如图2所示,所述方法包括如下步骤:

步骤一:获取太阳耀斑数据,将其整理成可读格式,并标记数据标签,即获得可用于本发明的“耀斑数据集”。

本步骤中,太阳耀斑数据获取方法具体可以在JSOC网站(www.jsoc.stanford.edu)中通过选取关键词的方法提取尽可能全面的预报因子数据集(方法不唯一,不作为本发明限定内容)。其中,对于预报因子的个数选择原则上不得少于10个;单个预报因子数据的采样时间不得少于1分钟,不得超过一周,所有预报因子总样本的采样时间长度不得少于1年,无上限;然后对各个类别的数据进行归一化处理。

本步骤中,归一化处理是将该参数保持基本趋势的前提下,在数值放缩至0~1之间。

本步骤中,标记数据标签的方法如下:定义预报周期为未来48小时内是否发生耀斑,对应样本数据中,发生耀斑记作1,不发生耀斑记作0,即可得到“耀斑数据集”。

步骤二:将步骤一获取的“耀斑数据集”进行乱序处理,按照不平衡度分割成样本数量相同的N份数据子集,标记为“耀斑数据子集”。

本步骤中,乱序处理的方法如下:将数据集进行随机充分打乱,并按照本发明指定的类不平衡比(IR)进行数据子集重构。

本步骤中,类不平衡比(IR)即正样本“1”的数量和负样本“0”的数量之比。

本步骤中,分割成样本数量相同的N份数据子集的具体过程为:选取“耀斑数据集”中的正负样本,存在N份数据子集中,保证各个子集样本总数一致的前提下,按照本发明指定的类不平衡比(IR)依次进行重构,其指定内容如下:“耀斑数据子集1”中的正负样本之比(IR比)为1:1;“耀斑数据子集2”中的正负样本之比(IR比)为1:2;“耀斑数据子集3”中的正负样本之比(IR比)为1:3......“耀斑数据子集N”中的正负样本之比(IR比)为1:N。

步骤三:设计如图1所示的多线程网络,并初始化各个“ANN子模型”的参数;首次执行时,初始化方法为“随机初始化”。

本步骤中,图1所示的多线程网络的设计步骤如下:(1)设置横向的计算流程为“耀斑数据子集-ANN子模型-子模型参数”。(2)采用多线程编程框架(如Python语言中的“multiprocessing”框架,方法不唯一,其框架不作为本发明创新内容),设置纵向的多线程计算流程。在纵向的多线程计算流程中,按顺序对应耀斑数据子集(如耀斑数据子集1对应ANN子模型1、子模型参数1;耀斑数据子集5对应ANN子模型5、子模型参数5)。(3)综合所有的子模型参数,计算其平均值得到ANN超级模型参数。

本步骤中,ANN模型为神经网络算法模型,为现有主流典型算法,为行业共识。

本步骤中,“随机初始化”的方法为:根据正态分布,满足所有权值之和为1的前提下,随机生成ANN网络模型参数。

本步骤中,在进行“随机初始化”过程中,尽量保证各个“ANN子模型”的参数的欧式距离足够远,其距离不得小于0.0001。

本步骤中,欧式距离为两个数据之间的距离,为行业共识。

步骤四:将步骤二的“耀斑数据子集”分别输入至相应的“ANN子模型”,并开始多线程模型训练,直至各个“ANN子模型”的精度满足给定。

本步骤中,模型训练为ANN模型的必要过程,需要大量的样本数据同时进行多次迭代。

本步骤中,单个ANN模型的迭代次数不得少于20次,不得高于10000000次,迭代精度不得高于0.001。

本步骤中,迭代精度在数值上一般取迭代过程中的方差值,为行业共识。

步骤五:将步骤四得到的各个训练好的“ANN子模型”的模型参数进行取平均操作,得到“超级模型参数”。

本步骤中,具体步骤如下:对各个“ANN子模型”的参数进行取平均操作,如下式所示:

其中,w0为“超级模型参数”,N为耀斑数据子集的最大个数,wi为第i个ANN子模型的模型参数,i=1,2,3,...,N。

步骤六:计算“超级模型参数”与“ANN子模型”参数的方差,将步骤五得到的“超级模型参数”分发给各个“ANN子模型”,各个“ANN子模型”的模型参数将采用“超级模型参数”作为初始化方法。

本步骤中,具体步骤如下:计算“超级模型参数w0”与“ANN子模型”参数的方差,记作e0;将步骤五得到的w0,赋值为各个“ANN子模型”的初始化参数。

步骤七:重复步骤三~步骤六,直至“超级模型参数”与各个训练后的“ANN子模型”的参数的方差满足给定误差,迭代退出,即可得到适用于耀斑预报问题的多线程神经网络模型。

本步骤中,具体步骤如下:在执行“参数分发”之前,计算e0并观察其变化规律。需保证e0在重复步骤三~步骤六的过程中,数值上逐渐趋于稳定,当e0值的方差值不大于0.01时,其迭代过程视为满足给定误差,迭代跳出。

本步骤中,“计算方差”为典型算法,为行业共识。

8页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于SIR值学习的网络关键节点发现方法及系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!