一种基于深度强化学习的高炉布料方法及系统

文档序号:1827293 发布日期:2021-11-12 浏览:27次 >En<

阅读说明:本技术 一种基于深度强化学习的高炉布料方法及系统 (Blast furnace material distribution method and system based on deep reinforcement learning ) 是由 何树营 赵春鹏 李智杰 周春晖 于 2021-08-16 设计创作,主要内容包括:本公开提供了一种基于深度强化学习的高炉布料方法,包括:获取高炉的实际料面状态数据;将所述实际料面状态数据输入到预设的高炉布料矩阵优化深度强化学习模型中,得到优化的布料矩阵;通过优化的布料矩阵对高炉的布料系统进行自主控制;其中,所述高炉布料矩阵优化深度强化学习模型训练时,考虑实际料面状态、布料矩阵、实施布料矩阵后获得的奖励或惩罚以及进行布料后对实际料面产生的影响;本公开基于深度强化学习的方法,实现布料矩阵的优化,具备控制精度高、泛化性好、抗干扰能力强、灵活性高和寻优效率高等优点。(The invention provides a blast furnace material distribution method based on deep reinforcement learning, which comprises the following steps: acquiring actual charge level state data of the blast furnace; inputting the actual burden surface state data into a preset blast furnace burden distribution matrix optimization depth reinforcement learning model to obtain an optimized burden distribution matrix; the material distribution system of the blast furnace is autonomously controlled through the optimized material distribution matrix; when the blast furnace burden distribution matrix optimization deep reinforcement learning model is trained, the actual burden surface state, the burden distribution matrix, the reward or punishment obtained after the burden distribution matrix is implemented and the influence on the actual burden surface after burden distribution are considered; the method based on the deep reinforcement learning realizes the optimization of the cloth matrix and has the advantages of high control precision, good generalization, strong anti-interference capability, high flexibility, high optimization efficiency and the like.)

一种基于深度强化学习的高炉布料方法及系统

技术领域

本公开属于冶金技术领域,尤其涉及一种基于深度强化学习的高炉布料方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的

背景技术

信息,不必然构成在先技术。

高炉炼铁过程中存在着大量复杂的物理化学反应;高炉内部有两种物料反应;矿石、焦炭等固体原料采用无钟顶加料系统加到炉膛内,利用一些辅助燃料,如氧气和煤粉,通过底部风口被装备到炉底,用一氧化碳热化学还原氧化铁矿石是高炉内部的主要原理;连续稳定的热环境是生产铁水的先决条件,炼铁过程的运行机理往往具有非线性、时滞大、噪声严重和参数分布等特点;因此,控制方法,特别是炉料的控制,主要是基于经验实现的;自动控制高炉炼铁工艺一直是学术界和工业界研究的热点。

炉料布料是高炉炼铁过程中非常重要的一环,最常用的炉料方式是无钟布料;矿石和焦炭进入平行或串联料斗后,通过旋转溜槽逐层布料;炉料面形状直接影响炼铁过程中的气流分布;一般情况下,V型料面配以合适的平台是有益的,能够满足气流量发展的标准:使中心气流量活跃,使边缘气流量抑制。炉料面的形状与高炉的运行状况密切相关,然而,关于如何根据实际料面情况设置布料矩阵布出最优料面形状的研究还很少;布料系统输出的布料矩阵会影响炉料分布、配料周期、配料时间序列和铁的生产动态;此外,温度分布和气流分布还可以通过炉料分布输出特性进行调节,进而影响整个炉膛运行状态;实践和经验告诉我们,优化布料矩阵对于炉体稳定生产、平稳运行、降低事故率和燃料消耗具有重要意义。

发明内容

本公开为了解决上述问题,提出了一种基于深度强化学习的高炉布料方法及系统,获取高炉炉料布料的历史数据,并将数据按照一定的规则存储在存储器中,利用历史数据和深度强化学习对高炉布料矩阵模型进行离线训练学习,高炉布料系统利用已经训练好的模型通过观察高炉的实际环境对高炉布料实现自主控制。

为了实现上述目的,本发明是通过如下的技术方案来实现:

第一方面,本公开提供了一种基于深度强化学习的高炉布料方法,包括:

获取高炉的实际料面状态数据;

将所述实际料面状态数据输入到预设的高炉布料矩阵优化深度强化学习模型中,得到优化的布料矩阵;

通过优化的布料矩阵对高炉的布料系统进行自主控制;

其中,所述高炉布料矩阵优化深度强化学习模型训练时,考虑实际料面状态、布料矩阵、实施布料矩阵后获得的奖励或惩罚以及进行布料后对实际料面产生的影响。

进一步的,高炉布料矩阵优化深度强化学习模型训练主要内容包括:

获取高炉布料历史数据,包括实际料面状态、布料矩阵、实施布料矩阵后获得的奖励或惩罚以及进行布料后对实际料面产生的影响;

从所述历史数据中批量选择一段数据;根据当前时刻的实际料面状态,制定当前时刻的布料策略设置布料矩阵;根据高炉料面实际反馈得到布料的实际奖励;并估计出下一时刻最优的料面状态和采取的最优的布料矩阵动作;

沿损失函数减小的梯度方向调整深度网络的权值;迭代训练直至深度网络达到最优。

进一步的,对获取的高炉布料历史数据进行规则化处理;规则化数据格式为五元组,包括,前时刻高炉料面状态、当前时刻的高炉布料的动作、当前动作获得的奖励值、该奖励值按设定好的奖励规则计算以及执行动作后下一时刻的高炉料面状态。

进一步的,所述高炉布料矩阵优化深度强化学习模型包括目标网络模块和预测网络模块,目标网络和预测网络沿损失函数梯度下降的方向交替更新权值,直至满足迭代条件生成最优布料矩阵优化模型。

进一步的,获取高炉的实际料面状态数据是连续的,获取每一时刻的实际料面的状态。

进一步的,所述高炉布料矩阵优化深度强化学习模型的输入状态值为连续获取的高炉实际的料面状态,输出的是布料矩阵,包括布料的角度和布料的圈数。

进一步的,对训练好的高炉布料矩阵优化深度强化学习模型进行封装集成为独立的系统,并与布料和检测设备通信,实现布料的自主控制。

第二方面,本公开还提供了一种基于深度强化学习的高炉布料系统,包括数据获取模块、优化模块和控制模块;

所述数据获取模块,被配置为:获取高炉的实际料面状态数据;

所述优化模块,被配置为:将所述实际料面状态数据输入到预设的高炉布料矩阵优化深度强化学习模型中,得到优化的布料矩阵;

所述控制模块,被配置为:通过优化的布料矩阵对高炉的布料系统进行自主控制;

其中,所述高炉布料矩阵优化深度强化学习模型训练时,考虑实际料面状态、布料矩阵、实施布料矩阵后获得的奖励或惩罚以及进行布料后对实际料面产生的影响。

与现有技术相比,本公开的有益效果为:

本公开通过采集实际中高炉布料系统的真实传感器数据,并对其进行规则化处理,利用深度强化学习对其布料矩阵的优化模型进行离线训练与学习生成各阶段最优模型,高炉的布料系统通过训练后的高炉布料矩阵优化深度强化学习模型对高炉的布料进行自主控制;基于深度强化学习的高炉布料系统自主布料智能控制,实现了布料矩阵的优化,具备控制精度高、泛化性好、抗干扰能力强、灵活性高和寻优效率高等优点。

附图说明

构成本实施例的一部分的说明书附图用来提供对本实施例的进一步理解,本实施例的示意性实施例及其说明用于解释本实施例,并不构成对本实施例的不当限定。

图1为本公开实施例1的流程图;

图2为本公开实施例1的深度强化学习结构框图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

实施例1:

如图1所示,本实施例提供了一种基于深度强化学习的高炉布料方法及系统,包括:

S1:获取高炉布料的历史经验数据,将历史数据存储到存储器中,获取的历史数据包括:实际料面的状态,采取的动作(布料矩阵),实施布料矩阵后获得的奖励或惩罚和进行布料后对实际料面产生的影响也就是下一时刻的料面状态;

S2:根据高炉布料历史数据对高炉布料矩阵优化深度强化学习模型进行训练;

所述训练包括:从存储的历史数据中批量的选择出一段数据;根据当前时刻的实际料面状态,制定当前时刻的布料策略设置布料矩阵;根据高炉料面实际反馈得到布料的实际奖励;并估计出下一时刻最优的料面状态和采取的最优的布料矩阵动作,直至布料结束;沿损失函数减小的梯度方向调整深度网络的权值;迭代训练直至深度网络达到最优;

S3:通过训练后的高炉布料矩阵优化深度强化学习模型对高炉的布料系统进行自主控制。

所述步骤S1中,所述高炉布料历史数据包括当前时刻高炉料面状态、设置的布料矩阵、实施布料矩阵获得的奖励以及下一时刻的料面状态;

所述步骤S1中,对获取的高炉布料历史数据进行规则化处理;

规则化数据格式为五元组(st,at,Rt,st+1),其中,st为当前时刻高炉料面状态,at为当前时刻的高炉布料的动作也就是布料矩阵,at为当前动作获得的奖励值,该奖励值按设定好的奖励规则计算,st+1为执行at动作后下一时刻的高炉炉料料面状态。

所述步骤S2中,利用采集的高炉布料数据训练高炉布料矩阵优化深度强化学习模型;本实施例采用深度学习和强化学习相结合的学习方式,是一种智能体根据历史经验数据与环境交互的自主学习方法,本实施例的智能体是高炉布料系统,根据实时的高炉料面状态,设置布料矩阵实施布料;

如图2所示,在本实施例中,高炉布料矩阵优化深度强化模型包括目标网络模块和预测网络模块;其中,预测网络模块估计高炉料面的状态,并输出高炉布料系统在该状态下采用不同布料矩阵时的价值,根据估计出的高炉料面状态对应的动作价值进行最优布料矩阵动作的选择,并将选择到的最优布料矩阵动作反馈到目标网络模块中;目标网络模块主要负责评价的功能,对预测网络估计的状态值、动作值、最优状态以及最优动作进行评价,这样就使神经网络的选择与评估功能分离防止选择高估的价值,从而导致估值过于乐观。

通过随机批量选择历史数据来学习两个价值函数,并且在每次学习中更新预测网络的权值θ,在固定的学习次数间隔下更新目标网络的权值θ’。目标网络权值θ’是直接预测网络网络权值θ,不参与学习过程的实时更新。对于每次更新,一组权值用于确定贪婪策略,另一组权值用于确定贪婪策略的价值。

在本公开中将布料系统的瞬时奖励函数设置为高炉实际料面与理想料面的差值,公式表示为:

rt=-[ψ(x)-ξ(x)]2

其中,ψ(x)与ξ(x)分别为高炉理想料面函数和高炉实际料面函数;注意,实际料面函数与理想料面函数计算方法已经有很多学者研究出许多成熟的方法,在此不再详细阐述,本公开的重点是高炉的布料矩阵优化方法。

在本公开中我们重点关注的是布料系统的长期奖励Rt,Rt定义为当前瞬时奖励与未来(无限长)瞬时奖励的总和;为了保证这个奖励的有限性,我们引入了一个未来奖励对当前奖励的折扣因子;为简单起见,这种假设通常是权数列几何级数的特殊形式:γ∈[0,1)中的某个固定值,未来某一时刻的折现因子为γ乘以前一时刻的折现因子。因此,布料系统的长期奖励Rt可以表示为:

本公开主要针对布料矩阵的优化,布料矩阵由布料溜槽的角度和在此角度上的布料的圈数构成;定义布料角度和布料圈数联合决策集为角度和圈数决策集的笛卡儿积,At=A1×A2;其中,A1表示布料角度决策集,A2表示布料圈数决策集。那么,布料系统目标在任意时刻t通过选择最优决策使长期收益最大化;表达为:

本实施例对热风炉深度强化模型的训练迭代过程为:

(1)将规则化的高炉布料数据存储在存储单元;

(2)均匀的从历史数据中随机的抽取小批量样本用于模型训练;

(3)通过价值函数计算状态价值和动作价值;

其中,Qπ(st,at)为动作价值函数,Vπ(st)为状态价值函数。

(4)使用损失函数,通过神经网络的梯度反向传播更新预测网络的所有权值;

Wt+1=Wt-αgt

其中,W为神经网络权值,α为学习率,g为损失下降的梯度。

(5)迭代结束后利用生成的高炉布料矩阵优化深度强化学习模型进行模拟测试。

所述步骤S3中,对训练好的高炉布料矩阵优化深度强化学习模型进行封装集成为独立的系统,并与溜槽等布料和检测设备通信,实现布料的自主控制。

实施例2:

本实施例提供了一种基于深度强化学习的高炉布料系统,包括数据获取模块、优化模块和控制模块;

所述数据获取模块,被配置为:获取高炉的实际料面状态数据;

所述优化模块,被配置为:将所述实际料面状态数据输入到预设的高炉布料矩阵优化深度强化学习模型中,得到优化的布料矩阵;

所述控制模块,被配置为:通过优化的布料矩阵对高炉的布料系统进行自主控制;

其中,所述高炉布料矩阵优化深度强化学习模型训练时,考虑实际料面状态、布料矩阵、实施布料矩阵后获得的奖励或惩罚以及进行布料后对实际料面产生的影响。

实施例3:

本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例1所述的基于深度强化学习的高炉布料方法。

实施例4:

本实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例1所述的基于深度强化学习的高炉布料方法。

以上所述仅为本实施例的优选实施例而已,并不用于限制本实施例,对于本领域的技术人员来说,本实施例可以有各种更改和变化。凡在本实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本实施例的保护范围之内。

9页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于图像识别的转炉底吹供气支管差异化控制方法及系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!