一种水处理加药量控制方法及系统

文档序号:1754885 发布日期:2019-11-29 浏览:4次 >En<

阅读说明:本技术 一种水处理加药量控制方法及系统 (A kind of water treatment medicine amount control method and system ) 是由 吴伟 吴海锁 丁瑞金 陈朋利 谢祥峰 李�杰 吴云波 王小祥 于 2019-09-05 设计创作,主要内容包括:本发明公开了一种水处理加药量控制方法及系统,结合深度强化学习算法不断优化加药策略。首先,通过采集当前进水水质水量等参数,来确定药剂投加量。然后,通过对系统出水水质进行监测,根据出水水质以及加药量计算得到本次加药过程的奖励值,并将奖励值返回用于训练更新强化学习系统中的神经网络,从而使得加药控制系统能够学习更好的加药策略,获取更好的污水处理效果。之后不断循环上述过程,使神经网络不断更新,加药系统能够持续学习,最终得到最优的加药策略。本发明能够综合考虑影响污水处理效果的多个特征,无需专家知识指导,可通过自身学习来选择不同进水条件下的最佳投药量,最终可实现水处理过程中加药量的智能化控制。(The invention discloses a kind of water treatment medicine amount control method and systems, continue to optimize dosing strategy in conjunction with deeply learning algorithm.Firstly, by acquiring the parameters such as current influent quality water, to determine added amount of chemical.Then, by being monitored to system effluent quality, the reward value of this dosing process is calculated according to effluent quality and dosage, and reward value is returned to the neural network being used in training update reinforcement learning system, so that control system for adding drugs can learn better dosing strategy, better wastewater treatment efficiency is obtained.Later constantly circulation the above process, constantly update neural network, medicine system can continuous learning, finally obtain optimal dosing strategy.The present invention can comprehensively consider the multiple features for influencing wastewater treatment efficiency, instruct without expertise, can be learnt by itself to select the optimal coagulant dose under different flow conditions, the intelligentized control method of dosage in final achievable water treatment procedure.)

一种水处理加药量控制方法及系统

技术领域

本发明属于水处理智能化控制技术领域,具体涉及一种水处理加药量控制方法及系统。

背景技术

近年来,针对污水处理厂水质水量波动较大,人工加药方式存在滞后性和精确性差等问题,涌现出一批基于水质水量的水处理加药控制技术。其中,一种用于废水处理的在线加药控制方法及系统(CN 108408855 B)、一种水处理加药数字化在线控制系统(CN105425592 B)和一种用于水处理的粉末活性炭加药自动控制系统(CN 107512754 A)等专利公开了基于BP神经网络的水处理智能控制方法,也是目前最为广泛使用的基于进水水质的水处理自动加药量控制方法。与传统方法相比,无需每次都进行人为判断,节省了药剂投加量和人力成本。但这类方法仍存在一定的技术缺陷,如该类方法均需要专家事先给定一组数据指导神经网络学习加药量的判断,即需要人为给定特定污水状态下,所需要的加药量,再依靠神经网络的泛化性能,去推断数据集中没有出现过的状态下,所需要的加药量。此外,该类方法所需的专家知识几乎都是在实验室通过小试试验法等获得的,实际污水系统与实验室环境下的最优加药量不一定相同。并且,不同污水处理厂的反应情况也不尽相同,很多训练好的模型并不能直接用于其他污水处理厂。

发明内容

目的:为了克服现有技术中存在的不足,本发明提供一种水处理加药量控制方法及系统,提出用于水处理自动加药系统的深度强化学习方法,从水处理过往经验中学习,无需专家知识,并且可通过奖励值设计充分考虑水处理效果以及经济效益,以解决现有技术存在的不足。

技术方案:为解决上述技术问题,本发明采用的技术方案为:

一种水处理加药量控制方法,包括:

获取污水处理加药系统进水水质参数,结合M组历史进水水质参数值以及对应于每组所述历史进水水质参数值的历史加药量组成环境状态s;

将环境状态输入预设神经网络提取特征,确定水处理过程的加药量a,并发送指令控制加药进行水处理;

获取进行水处理后的污水处理加药系统出水水质参数;

根据水处理前、后的进水水质参数、出水水质参数及加药量计算得到奖励值r;

将奖励值用于训练更新深度强化学习中的神经网络。

所述水质参数包括影响水处理效果的温度、浊度、色度、流量、 pH值、COD、氨氮、总磷、电导率。

所述环境状态包括:过往M个时刻的污水处理参数以及所选择的加药量,构成M×M的矩阵,M为正整数。

所述奖励值的计算公式r(o,a,o-)为:

其中o为进水水质参数,o-为出水水质参数,d(o,o-)为污染物的削减效果,a为加药量。

所述的水处理加药量控制方法,神经网络的训练更新强化学习采用DDPG,包括动作网络和评价网络;

动作网络输入环境状态信息,输出加药量,即μ(s;θ),动作网络权重为θ;

评价网络输入环境状态信息以及加药量,输出对于该状态下选择该加药量的评价,即Q(s,a;w),评价网络权重为w,用于辅助动作网络更新。

所述神经网络的结构包括两层卷积神经网络、一层LSTM模型层 (长短期记忆网络)和一层全连接层;

所述强化学习神经网络先利用卷积神经网络对环境状态提取特征,第一层卷积层卷积核大小为3×3,步长为1,输入通道数为1,输出通道数为4,卷积之后再经过一层池化层,池化层核尺寸为2,输出为5×5×4的张量;

第二层卷积层卷积核大小为3×3,步长为1,输入通道数为4,输出通道数为8,输出为5×5×8的特征图;

将得到的特征作为LSTM模型层的输入,动作网络中直接将 LSTM层输出作为全连接层的输入,全连接层最后输出加药量;评价网络中将LSTM输出与加药量作为全连接层输入,全连接层最后输出对于状态-动作对的评价。

所述神经网络采用经验回放提取训练数据进行更新,并且为动作网络和评价网络分别设置目标网络,分别为μ′(s;θ′)和Q′(s,a;w′),用以降低数据之间相关性,其中θ′和w′分别是动作目标网络和评价目标网络的神经网络权重。

所述经验回放包括:将每次加药产生的数据:状态-动作-奖励值 -新状态元组(si,ai,ri+1,si+1),存入经验数据库中,经验数据库大小为D,当经验数据库中存满数据后,新的数据将会依次替换经验数据库中的旧数据;当经验数据库经验存满,每Nu次获得新经验,从经验数据库中随机抽取N条经验对动作网络和目标网络进行更新。

所述的水处理加药量控制方法,动作网络和目标网络进行更新,包括:

步骤1、从经验数据库中抽取N条经验数据(si,ai,ri+1,si+1);

步骤2、令yi=ri+1+γQ′(si+1|μ′(si+1;θ′);w′)计算评价网络更新目标,其中γ为衰减系数;

步骤3、通过最小化损失函数来更新评价网络;

步骤4、利用采样梯度更新动作网络

步骤5、分别对动作网络和评价网络的目标网络进行软更新,目标网络向原网络方向逼近:

其中τ为软更新系数。

根据本发明的另一方面,提供一种水处理加药量控制系统,包括:

数据获取模块,用于:获取污水处理加药系统进水水质参数,结合M组历史进水水质参数值以及对应于每组所述历史进水水质参数值的历史加药量组成环境状态;获取进行水处理后的污水处理加药系统出水水质参数;

加药量确定模块,用于:将环境状态输入预设神经网络提取特征,确定水处理过程的加药量,并发送指令控制加药进行水处理;

奖励值计算模块,用于:根据水处理前、后的进水水质参数、出水水质参数及加药量计算得到奖励值;

训练模块,用于:将奖励值用于训练更新深度强化学习中的神经网络。

有益效果:本发明提供的水处理加药量控制方法及系统,基于 DDPG深度强化学习算法,以卷积神经网络提取过去10个时刻水质参数之间的特征,以循环神经网络LSTM对过往经验进行总结,以污水处理效果和加药量计算奖励值,训练评价网络,并借助评价网络的估计,对动作网络进行更新,效果显著。相对于传统智能水处理加药装置,无需专家知识,赋予了程序自我探索,从交互中学习的能力,普适性更高。

该方法中的加药控制程序能够在与环境的交互中学习,无需专家知识来指导神经网络更新。本发明能综合考虑多个水质水量参数,利用卷积神经网络提取污水特征,考虑水处理药剂用量的水处理效果作为奖励,训练深度神经网络,以获得最佳的药剂投加量。

附图说明

图1是根据本发明一个实施例的水处理加药量控制方法的流程示意图;

图2是根据本发明一个实施例的动作网络结构图;

图3是根据本发明一个实施例的评价网络结构图;

图4是根据本发明一个实施例的LSTM基础结构图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。

同时,在以下说明中,出于解释的目的而阐述了许多具体细节,以提供对本发明实施例的彻底理解。然而,对本领域的技术人员来说显而易见的是,本发明可以不用这里的具体细节或者所描述的特定方式来实施。

另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

实施例1

一种水处理加药量控制方法,包括:

获取污水处理加药系统进水水质参数,结合10组历史进水水质参数值以及对应于每组所述历史进水水质参数值的历史加药量组成环境状态;

将环境状态输入预设神经网络提取特征,确定水处理过程的加药量,并发送指令控制加药进行水处理;

获取进行水处理后的污水处理加药系统出水水质参数;

根据水处理前、后的进水水质参数、出水水质参数及加药量计算得到奖励值;

将奖励值用于训练更新深度强化学习中的神经网络。

图1示出了根据本发明一个实施例的水处理加药量控制方法的实现流程示意图。本发明方法中的加药控制程序能够在与环境的交互中学习,无需专家知识来指导神经网络更新。本发明能综合考虑多个水质水量参数,利用卷积神经网络提取污水特征,考虑水处理药剂用量的水处理效果作为奖励,训练深度神经网络,以获得最佳的药剂投加量。

本实施例所提供的水处理加药量控制方法,包括:

步骤1:传感器检测污水处理加药反应池中的进水水质参数,传给加药控制程序;

步骤2:结合过往水质参数和加药量组成环境状态,加药控制程序将状态输入神经网络提取特征,输出动作,即加药量;

步骤3:传感器再对污水处理加药反应池中的水质参数进行检测,传输给加药控制程序;

步骤4:根据污水新参数以及加药量计算得到奖励值;

步骤5:将奖励值用于训练更新强化学习系统中的神经网络,从而使得程序能够学习更好的加药策略,获取更好的污水处理效果;

步骤6:循环上述过程,使程序不断更新神经网络,获得最经济有效的加药效果。

所述的水质参数是指:影响水处理效果的温度、浊度、色度、流量、pH值、COD、氨氮、总磷、电导率等9个参数。

所述环境状态是指:过往10个时刻的污水处理参数以及所选择的加药量,构成10×10的矩阵,用于解决污水处理问题中的滞后性。同时利用循环神经网络LSTM进一步对过往经验进行总结,解决污水与试剂反应的滞后性问题。

所述奖励值是指:基于下一时刻污水处理参数得出的污水处理效果,以及加药量进行计算的奖励值。奖励值与污水处理效果正相关,与加药量反相关。根据计算,d(s,s′)为污水处理效果的度量,a为加药量。

所述的深度强化学习方法采用DDPG,该方法有两种网络,分别为动作网络和评价网络。动作网络输入环境状态信息,输出加药量,即μ(s;θ),动作网络权重为θ。评价网络输入环境状态信息,以及加药量,输出对于改状态下选择该加药量的评价,即Q(s,a;w),评价网络权重为w。

神经网络结构包括两层卷积神经网络、一层LSTM模型层(长短期记忆网络)和一层全连接层。如图3所示,所述强化学习神经网络先利用卷积神经网络对环境状态提取特征,第一层卷积层卷积核大小为3一层,步长为1,输入通道数为1,输出通道数为4,卷积之后再经过一层池化层,池化层核尺寸为2,输出为5输出为后的张量。第二层卷积核大小为3张量,步长为1,输入通道数为4,输出通道数为8,输出为5输出为道的特征图。将得到的特征作为LSTM模型层的输入,动作网络中直接将LSTM层输出作为全连接层的输入,全连接层最后输出加药量。评价网络中将LSTM输出与加药量作为全连接层输入,全连接层最后输出对于状态-动作对的评价。

所述神经网络采用经验回放提取训练数据进行更新,并且为动作网络和评价网络分别设置目标网络,分别为μ′(s;θ′)和Q′(s,a;w′),用以降低数据之间相关性,其中θ′和w′分别是动作目标网络和评价目标网络的神经网络权重。

所述经验回放具体为:将每次加药产生的数据:状态-动作-奖励值-新状态元组(si,ai,ri+1,si+1),存入经验数据库中,经验数据库大小为 5000,当经验数据库中存满数据后,新的数据将会依次替换经验数据库中的旧数据。当经验数据库经验存满,每5次获得新经验,从经验数据库中随机抽取32条经验对动作网络和目标网络进行更新。

所述动作网络和评价网络的更新步骤具体为:

步骤1、从经验数据库中抽取32条经验数据(si,ai,ri+1,si+1);

步骤2、令yi=ri+1+γQ′(si+1|μ′(si+1;θ′);w′)计算评价网络更新目标,其中γ为衰减系数;

步骤3、通过最小化损失函数来更新评价网络;

步骤4、利用采样梯度更新动作网络

步骤5、分别对动作网络和评价网络的目标网络进行软更新,目标网络向原网络方向逼近

其中τ为软更新系数。

本发明实施例利用神经网络生成从环境状态到加药量的映射。初始由于是随机生成的神经网络,水处理效果并不理想。通过加药与水环境的交互,产生经验用于学习。算法可以利用奖励值信息更新评价网络,使得能够对某一状态下的某一加药量所产生的价值进行准确评估,同时利用评价网络指导动作网络进行更新,使得动作网络生成的加药量,能够获取更好更经济的水处理效果。

实施例2

一种水处理加药量控制系统,包括:

数据获取模块,用于:获取污水处理加药系统进水水质参数,结合10组历史进水水质参数值以及对应于每组所述历史进水水质参数值的历史加药量组成环境状态;获取进行水处理后的污水处理加药系统出水水质参数;

加药量确定模块,用于:将环境状态输入预设神经网络提取特征,确定水处理过程的加药量,并发送指令控制加药进行水处理;

奖励值计算模块,用于:根据水处理前、后的进水水质参数、出水水质参数及加药量计算得到奖励值;

训练模块,用于:将奖励值用于训练更新深度强化学习中的神经网络。

本实施例针对的水处理自动加药系统的代码可为跨平台语言,主要适用语言为Python。可以在树莓派上运行本方法代码,便于集成至实际装备中。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

13页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于5G信道传输的家居物联网控制系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!