基于强化学习的风电机组实时变桨距鲁棒控制系统及方法

文档序号：1705879 发布日期：2019-12-13 浏览：12次 >En<

阅读说明：本技术 基于强化学习的风电机组实时变桨距鲁棒控制系统及方法 (wind turbine generator set real-time variable pitch robust control system and method based on reinforcement learning ) 是由陈芃韩德志于 2019-10-16 设计创作，主要内容包括：本发明提供一种基于强化学习的风电机组实时变桨距鲁棒控制系统及方法。所述系统包含：风速采集系统,采集风场风速值；风机信息采集模块,采集风轮角速度；强化信号生成模块,根据采集的风轮角速度和额定风轮角速度生成强化信号；变桨距鲁棒控制模块,包含动作网络和评价网络,动作网络根据风场风速值、风轮角速度生成动作值输出至评价网络,评价网络根据强化信号和所述动作值进行学习训练,生成累计回报值输出至动作网络,动作网络根据累计回报值进行学习训练更新动作值并输出；控制信号生成模块,连接动作网络,生成接收的动作值生成对应的控制信号；风力发电机根据所述控制信号调整桨距角,实现调整风轮角速度,保证风机输出功率平稳。(The invention provides a wind turbine generator set real-time variable pitch robust control system and method based on reinforcement learning. The system comprises: the wind speed acquisition system is used for acquiring a wind field wind speed value; the fan information acquisition module is used for acquiring the angular speed of the wind wheel; the strengthening signal generating module is used for generating strengthening signals according to the collected wind wheel angular speed and the rated wind wheel angular speed; the variable pitch robust control module comprises an action network and an evaluation network, wherein the action network generates an action value according to a wind field wind speed value and a wind wheel angular speed and outputs the action value to the evaluation network, the evaluation network performs learning training according to a strengthening signal and the action value, generates an accumulated return value and outputs the accumulated return value to the action network, and the action network performs learning training according to the accumulated return value, updates the action value and outputs the updated action value; the control signal generation module is connected with the action network and generates a received action value to generate a corresponding control signal; and the wind driven generator adjusts the pitch angle according to the control signal, so that the angular speed of the wind wheel is adjusted, and the stable output power of the fan is ensured.)

技术领域

本发明涉及风力发电技术领域，特别是一种基于强化学习的风电机组实时变桨距鲁棒控制系统及方法。

背景技术

目前，新能源技术得到了国际社会的高度重视，加快发展可再生能源成为全球各国的解决环境和能源问题的必经之路，同时也是未来经济和技术发展的重中之重。风能作为一种可再生能源，具有免费、清洁、无污染的特点。风力发电与大部分可再生能源发电技术相比有着很大竞争优势。在中国很多地区，风能资源十分丰富。发展风力发电，可以为国民经济发展提供重要保障。

风电场所处地区的自然环境及风电机组控制变量的随机性决定了风电系统是一个非线性系统，为了保证风电机组的安全稳定运行，必须使风电机组在不同风况中始终保持输出功率稳定。一般需要了解风电场的自然环境和风电机组工作特性，这就需要设计智能实时控制系统，根据不同的情况采取对应的工作方式，使风能的利用率达到最理想的状态，既保证风电机组输出电能的稳定，也需要保障风电机组在复杂自然环境的安全工作。为了减弱风速模型中的不确定因素对风电机组的影响，许多研究者设计了反馈控制器来解决该影响。但是，其中大部分对动态学要求较高，

现有技术中基于最优控制的反馈控制器通常是离线设计的，其需要通过求解哈密顿-雅可比-贝尔曼(Hamilton-Jacobi-Bellman，HJB)方程或贝尔曼方程，并利用系统动力学的完整知识，达到系统性能指标的最大值(或最小值)。利用HJB方程或贝尔曼方程的离线解来确定非线性系统的最优控制策略，这往往是难以或不可能求解的。

目前，风力机变桨距控制方案的研究方法很多。其中，提出了采用模糊自适应PID控制来调节液压驱动变螺距系统。但是在应用过程中需要根据实际情况对算法参数进行重置，并没有很好的泛化。另外有人提出了一种基于MBC坐标变换的比例积分共振(PI-R)俯仰控制方法。它可以抑制不平衡负载的低频和高频分量，但这些分量很容易受到其他随机频率分量的干扰。

发明内容

本发明的目的在于本发明的目的在于提供一种基于基于强化学***稳。

为了达到上述目的，本发明提供一种基于强化学习的风电机组实时变桨距鲁棒控制系统，包含：

风速采集系统，根据采集风场的风速数据生成实时风速值；

风机信息采集模块，连接风力发电机，用于采集风力发电机的风轮角速度；

强化信号生成模块，信号连接所述风机信息采集模块，根据采集的风轮角速度和额定风轮角速度实时生成强化信号；

变桨距鲁棒控制模块，其为强化学习模块，包括动作网络和评价网络；所述动作网络信号连接所述风速采集系统、风机信息采集模块，用于根据接收的所述实时风速值、风轮角速度生成动作值并输出至所述评价网络；评价网络还信号连接所述风速采集系统、风机信息采集模块、强化信号生成模块，用于根据接收的所述实时风速值、风轮角速度、动作值生成累计回报值，并根据接收的所述强化信号进行学习训练，迭代更新所述累计回报值和评价网络；动作网络根据更新后的累计回报值进行学习训练，迭代更新动作网络和所述动作值；

控制信号生成模块，信号连接设置在所述增强学习模块、风力发电机之间，根据设定的映射函数，生成与动作网络迭代更新的动作值对应的控制信号；风力发电机根据所述控制信号调整桨距角，实现调整风轮角速度。

所述动作网络、评价网络均为BP神经网络，动作网络、评价网络均采用反向传播算法进行学习训练。

一种基于强化学习的风电机组实时变桨距鲁棒控制方法，采用本发明所述的基于强化学习的风电机组实时变桨距鲁棒控制系统实现的，包含步骤：

S1、风速采集系统采集风场的风速数据，根据所述风速数据生成风场的实时风速值v(t)；风机信息采集模块采集风力发电机的风轮角速度ω(t)；其中，t表示采样时间；

S2、强化信号生成模块比较风轮角速度ω(t)与额定风轮角速度，生成强化信号r(t)；通过所述强化信号r(t)指示风轮角速度ω(t)和额定风轮角速度的差值是否在预设误差范围内；

S3、动作网络以风速采集系统得到的风速v(t)、v(t-1)和风轮角速度ω(t)作为输入，经过动作网络计算得出t时刻的动作值u(t)；

S4、将风速值v(t)、v(t-1)、风轮角速度ω(t)和动作值u(t)作为评价网络的输入，经过评价网络计算的得到累计回报值J(t)；

S5、评价网络结合强化信号r(t)进行学习训练，通过迭代更新评价网络的网络权值和所述累计回报值J(t)；

S6、动作网络利用步骤S5得到的更新的累计回报值J(t)进行学习训练，通过迭代更新动作网络的网络权值、所述动作值u(t)；

S7、动作网络根据所述强化信号r(t)，判断风轮角速度ω(t)和额定风轮角速度的差值在预设误差范围内时，动作网络输出u(t)，进入S8；否则，动作网络不输出u(t)，进入S1；

S8、控制信号生成模块根据预设的映射函数规则，生成与步骤S6得到的动作值u(t)对应的桨距角度值β，并生成与该桨距角度值β对应的控制信号；风力发电机根据所述控制信号改变风力发电机的桨距角，实现调整风轮角速度ω(t)；将t更新为t+1重复步骤S1～S8。

步骤S1所述风速采集系统采集风场的风速数据，根据所述风速数据生成风场的实时风速值v(t)，具体包含：

S11、风速采集系统根据已采集的风速值v(1)～v(t-1)生成平均风速值t表示采样时间；

S12、根据自回归滑动平均方法计算生成t采样时间的湍流速度v′(t)，其中，a(k)为高斯分布的白噪声序列，n为自回归阶数，m为滑动平均阶数；α_i为自回归系数，β_j为滑动平均系数，是白噪声a(t)的方差；

S13、生成t采样时间的风速值

步骤S2中强化信号r(t)的生成方法具体是指，若风轮角速度ω(t)和额定风轮角速度的差值在预设误差范围内，则取r(t)的值为0；否则，取r(t)的值为-1。

步骤S5具体包含：

S51、设定评价网络的预测误差为：e_c(k)＝αJ(k)-[J(k-1)-r(k)]，α为折扣因子；设定评价网络的待最小化的目标函数定义为：k表示迭代次数；J(k)为第k次迭代后，将步骤S4中所述风速值v(t)、风轮角速度ω(t)和动作值u(t)作为评价网络的输入，由评价网络输出的结果；r(k)等于步骤S2所述的r(t)，其不随迭代次数改变；

S52、设定评价网络权值更新规则为：w_c(k+1)＝w_c(k)+Δw_c(k)，根据所述评价网络权值更新规则迭代更新评价网络权值；

w_c(k)是评价网络权值在第k次迭代的结果，Δw_c(k)是第k次迭代时评价网络权值的改变值，l_c(k)是评价网络学习步长；

S53、当迭代次数k达到设定的评价网络更新上限值，或者评价网络的预测误差e_c(k)小于设定的第一误差阈值，停止迭代；评价网络将J(k)输出至动作网络。

步骤S6具体包含：

S61、设定动作网络的预测误差为：e_a(k)＝J(k)-U_c(k)，其中U_c(k)为动作网络的最终期望值，其取值为0；设定动作网络的目标函数为：k表示迭代次数；J(k)等于步骤S53中评价网络的输出值，其不随迭代次数改变；

S62、设定动作网络权值更新规则为：w_a(k+1)＝w_a(k)+Δw_a(k)，根据所述动作网络权值更新规则迭代更新动作网络权值；

其中，w_a(k)是动作网络权值在第k次迭代的结果，w_a(k+1)是动作网络权值在第k+1次迭代的结果，Δw_a(k)是第k次迭代时动作网络权值的改变值，

l_a(k)是动作网络学习步长；

S63、当迭代次数k达到设定的动作网络更新上限值，或者动作网络的预测误差e_a(k)小于设定的第二误差阈值，停止迭代；将步骤S3中的风速v(t)、v(t-1)和风轮角速度ω(t)作为动作网络的输入，通过动作网络输出更新的动作值u(k)。

步骤S8所述映射函数规则，具体是指：

若u(t)大于等于0，取桨距角度值β为预设的一个正数；若u(t)小于0，取桨距角度值β为预设的一个负数。

与现有技术相比，本发明具有以下优点：

1)发明的基于强化学***缓。与现有技术中的变桨距控制方法相比，本发明对风电机组设备损害较低，有利于延长设备使用寿命。

2)现有技术中的最优控制通常通过解决哈密顿-雅可比-贝尔曼方程进行离线设计,达到使给定的系统性能指标达到极大值(或极小值)，需要完全的系统动力学知识。然而通过HJB方程的离线解来决定非线性系统最优控制策略总是会遇到求解困难或者是不可能求解的情况。本发明仅需通过实时检测的风轮角速度和风速，利用强化学习模块自主的学习训练即可保证风机输出功率稳定。本发明具有计算迅速、控制精确、反应灵敏等优点，对动态学要求较低。本发明适用范围广，效果稳定可靠。

附图说明

为了更清楚地说明本发明技术方案，下面将对描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图：

图1为本发明的基于强化学习的风电机组实时变桨距鲁棒控制系统结构示意图；

图2为本发明的基于强化学习的风电机组实时变桨距鲁棒控制方法流程示意图；

图3为本发明的动作网络示意图；

图4为本发明的评价网络示意图；

图中：1、风速采集系统；2、强化信号生成模块；3、变桨距鲁棒控制模块；31、动作网络；32、评价网络；4、控制信号生成模块；5、风机信息采集模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种基于强化学习的风电机组实时变桨距鲁棒控制系统，如图1所示，包含：

风速采集系统1，根据采集风场的风速数据生成实时风速值；

风机信息采集模块5，连接风力发电机，用于采集风力发电机的风轮角速度；

强化信号生成模块2，信号连接所述风机信息采集模块5，根据采集的风轮角速度和额定风轮角速度实时生成强化信号；

变桨距鲁棒控制模块3，其为强化学习模块，包括动作网络31和评价网络32；所述动作网络31信号连接所述风速采集系统1、风机信息采集模块5，用于根据接收的所述实时风速值、风轮角速度生成动作值并输出至所述评价网络32；评价网络32还信号连接所述风速采集系统1、风机信息采集模块5、强化信号生成模块2，用于根据接收的所述实时风速值、风轮角速度、动作值生成累计回报值，并根据接收的所述强化信号进行学习训练，迭代更新所述累计回报值和评价网络32；动作网络31根据更新后的累计回报值进行学习训练，迭代更新动作网络31和所述动作值；

控制信号生成模块4，信号连接设置在所述增强学习模块、风力发电机之间，根据设定的映射函数，生成与动作网络31迭代更新的动作值对应的控制信号；风力发电机根据所述控制信号调整桨距角，实现调整风轮角速度。

所述动作网络31、评价网络32均为BP神经网络，动作网络31、评价网络32均采用反向传播算法进行学习训练。

已知风电机组是一种对风能进行利用的设备，反映其工作状态的主要因素是根据风速变化而发生改变的功率参数。在风电机组能量传动模型中，存在风能利用系数C_p，C_p可近似表示为其中β为桨距角，λ为叶尖速比。叶尖速比是风轮叶片尖端线速度与风速之比，是用来表述风电机组特性的一个重要参数，其表达式为ω为风轮转动的角速度，R为风轮半径，v为风速。可以看出通过改变桨距角可以改变风能利用率，因此，设定根据动作网络31的输出值改变桨距角。

已知风电机组的动态方程为J为风轮的转动惯量，ρ为空气密度，A为风轮扫及面积，T_e为发动机的反力矩，C_T可由表达式得到。从所述动态方程可以看出风能利用率与风轮角速度，风速相关，因此将风轮角速度，风速作为动作网络31和评价网络32的输入。

一种基于强化学习的风电机组实时变桨距鲁棒控制方法，采用本发明所述的基于强化学习的风电机组实时变桨距鲁棒控制系统实现的，如图2所示，包含步骤：

S1、风速采集系统1采集风场的风速数据，根据所述风速数据生成风场的实时风速值v(t)；风机信息采集模块5采集风力发电机的风轮角速度ω(t)；其中，t表示采样时间；

步骤S1所述风速采集系统1采集风场的风速数据，根据所述风速数据生成风场的实时风速值v(t)，具体包含：

S11、风速采集系统1根据已采集的风速值v(1)～v(t-1)生成平均风速值t表示采样时间；

S13、生成t采样时间的风速值

S2、强化信号生成模块2比较风轮角速度ω(t)与额定风轮角速度，生成强化信号r(t)；若风轮角速度ω(t)和额定风轮角速度的差值在预设误差范围内，则取r(t)的值为0，表示t时对风机的控制不是消极的，在之后相似状态下可以采取类似的控制；否则，取r(t)的值为-1，其表示t时对风机的控制是消极的，在之后相似状态下避免采取类似的控制；

S3、动作网络31以风速采集系统1得到的风速v(t)、v(t-1)和风轮角速度ω(t)作为输入，经过动作网络31计算得出t时刻的动作值u(t)；

如图3所示，在本发明的实施例中，动作网络31为三层的BP神经网络，包含输入层、输出层和一个隐藏层。u(t)是由以下公式计算得出：其中是t采样时刻动作网络31第j个输入层节点到第i个隐藏层节点的权值，是t采样时刻动作网络31第i个隐藏层节点到输出节点的权值；x_j是输入层第j个节点的输入，m_i是动作网络31隐藏层第i个节点的输入；n_i是动作网络31隐藏层第i个节点的输出；v是动作网络31输出层的输入；u是动作网络31输出层的输出，根据u控制风力发电机的桨距角。

S4、将风速值v(t)、v(t-1)、风轮角速度ω(t)和动作值u(t)作为评价网络32的输入，经过评价网络32计算的得到累计回报值J(t)；如图4所示，在本发明的实施例中，评价网络32为三层的BP神经网络，包含输入层、输出层和一个隐藏层。J(t)是由以下公式计算得出：其中是t采样时刻评价网络第i个输入层节点到第j个隐藏层节点的权值，是t采样时刻评价网络第i个隐藏层节点到输出层节点的权值；q_i(t)是评价网络第i个隐藏层节点输入；p_i(t)是评价网络第i个隐藏层节点的输出；N_h是评价网络隐藏层节点总数；n+1是评价网络输入的总数包括动作网络31的输出u(t)，在本发明的实施例中，n为3。

S5、评价网络32结合强化信号r(t)进行学习训练，通过迭代更新评价网络32的网络权值和所述累计回报值J(t)；

步骤S5具体包含：

S51、设定评价网络32的预测误差为：e_c(k)＝αJ(k)-[J(k-1)-r(k)]，α为折扣因子；设定评价网络32的待最小化的目标函数定义为： k表示迭代次数；J(k)为第k次迭代后，将步骤S4中所述风速值v(t)、风轮角速度ω(t)和动作值u(t)作为评价网络32的输入，由评价网络输出的结果；r(k)等于步骤S2所述的r(t)，其不随迭代次数改变；

S52、设定评价网络权值更新规则为：w_c(k+1)＝w_c(k)+Δw_c(k)，根据所述评价网络权值更新规则迭代更新评价网络权值；

w_c(k)是评价网络权值在第k次迭代的结果，Δw_c(k)是第k次迭代时评价网络权值的改变值l_c(k)是评价网络学习步长；评价网络32的初始权值是随机的；

如图4所示，为评价网络隐藏层到输出层的权值，更新公式为：同理，为评价网络输入层到隐藏层的权值，更新公式为：

所述评价网络权值更新规则是根据链式法则和反向传播算法得来的。链式法则是微积分中的求导法则，定理如下：若函数u＝φ(x)及v＝ψ(x)都在点x可导，函数z＝f(u,v)在对应点(u,v)具有连续偏导数，则符合函数z＝f[φ(x),ψ(x)]在对应点x可导，且其导数可用下列公式计算：

反向传播算法是适合于多层神经元网络的一种学习算法，它主要由两个环节(激励传播、权重更新)反复循环迭代，逐层求出目标函数对各神经元权值的偏导数，构成目标函数对权值向量的梯量，作为修改权值的依据，直到网络的对输入的响应达到预定的目标范围为止。

S53、当迭代次数k达到设定的评价网络更新上限值，或者评价网络32的预测误差e_c(k)小于设定的第一误差阈值，停止迭代；评价网络32将J(k)输出至动作网络31。

S6、动作网络31利用步骤S5得到的更新的累计回报值J(t)进行学习训练，通过迭代更新动作网络31的网络权值、所述动作值u(t)；

步骤S6具体包含：

S61、设定动作网络31的预测误差为：e_a(k)＝J(k)-U_c(k)，其中U_c(k)为动作网络31的最终期望值，其取值为0；设定动作网络31的目标函数为：k表示迭代次数；J(k)等于步骤S53中评价网络32的输出值，其不随迭代次数改变；

S62、设定动作网络权值更新规则为：w_a(k+1)＝w_a(k)+Δw_a(k)，根据所述动作网络权值更新规则迭代更新动作网络权值；

其中，w_a(k)是动作网络权值在第k次迭代的结果，w_a(k+1)是动作网络权值在第k+1次迭代的结果，Δw_a(k)是第k次迭代时动作网络权值的改变值，

动作网络的初始权值是随机的；

l_a(k)是动作网络学习步长；

S63、当迭代次数k达到设定的动作网络更新上限值，或者动作网络的预测误差e_a(k)小于设定的第二误差阈值，停止迭代；将步骤S3中的风速v(t)、v(t-1)和风轮角速度ω(t)作为动作网络31的输入，通过动作网络输出更新的动作值u(k)。

在本发明中，不管前一次控制成功与否，本次动作网络和评价网络的学习训练都是要进行的，使得动作网络和评价网络对输入的数据形成记忆。在评价网络和动作网络各自的学习训练结束后，再判断是否将本次学习的结果输出。

S8、控制信号生成模块4根据预设的映射函数规则，生成与步骤S6得到的动作值u(t)对应的桨距角度值β，并生成与该桨距角度值β对应的控制信号；若u(t)大于等于0，取桨距角度值β为预设的一个正数；若u(t)小于0，取桨距角度值β为预设的一个负数。根据风电机组传动模型可知，β为正值可以使风轮角速度变小，β为负值可以使风轮角速度变大。风力发电机根据所述控制信号改变风力发电机的桨距角，实现调整风轮角速度ω(t)；将t更新为t+1重复步骤S1～S8。

本发明的基于强化学习的风电机组实时变桨距鲁棒控制方法中，动作网络31产生一个动作值后，评价网络32评价该动作值，结合强化信号更新评价网络32的权值，得出累计回报值。利用得到的累计回报值返回去影响动作网络31的权值更新，以便得到一个当前最优的动作网络输出值，既更新后的动作值。通过该动作值实现对风机桨距角的控制。

与现有技术相比，本发明具有以下优点：

1)发明的基于强化学***缓。与现有技术中的变桨距控制方法相比，本发明对风电机组设备损害较低，有利于延长设备使用寿命。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

16页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种分布式新能源配电网用新能源转换装置

基于强化学习的风电机组实时变桨距鲁棒控制系统及方法

相关技术

网友询问留言