一种基于强化学习模型的预测机柜进风温度的方法

文档序号：1085538 发布日期：2020-10-20 浏览：11次 >En<

阅读说明：本技术 一种基于强化学习模型的预测机柜进风温度的方法 (Method for predicting cabinet inlet air temperature based on reinforcement learning model ) 是由周兴东郑贤清张士蒙任群于 2020-06-24 设计创作，主要内容包括：本发明涉及人工智能技术领域,具体为一种基于强化学习模型的预测机柜进风温度的方法,所述方法包括以下步骤：所述方法包括以下步骤,步骤1通过热成像装置采集机柜的表面实际温度数据,通过热敏装置采集对应机柜的实际进风温度数据；步骤2调用神经网络模型进行训练,用机柜的表面实际温度数据为输入,机柜的实际进风温度数据作为输出反复训练,使得神经网络模型通过训练后能预测出机柜的进风模拟温度数据；步骤3建立强化学习模型；步骤4获得增强学习模型最优策略下的神经网络模型生成新的预测器；步骤5用最优的预测器对机柜的进风温度进行预测。该方法提高机柜的进风模拟温度数据准确率,节约了物料与人工成本,便于使用。(The invention relates to the technical field of artificial intelligence, in particular to a method for predicting the inlet air temperature of a cabinet based on a reinforcement learning model, which comprises the following steps: the method comprises the following steps that 1, the actual temperature data of the surface of the cabinet is collected through a thermal imaging device, and the actual inlet air temperature data of the corresponding cabinet is collected through a thermosensitive device; step 2, calling a neural network model for training, using the actual surface temperature data of the cabinet as input, and using the actual inlet air temperature data of the cabinet as output for repeated training, so that the neural network model can predict inlet air simulation temperature data of the cabinet after training; step 3, establishing a reinforcement learning model; step 4, obtaining a neural network model under the optimal strategy of the reinforcement learning model to generate a new predictor; and 5, predicting the inlet air temperature of the cabinet by using an optimal predictor. The method improves the accuracy of the inlet air simulation temperature data of the cabinet, saves the material and labor cost and is convenient to use.)

技术领域

本发明涉及人工智能技术领域，具体为一种基于强化学习模型的预测机柜进风温度的方法。

背景技术

机房数据中心机柜进风温度的测量是设计机房绕不开的话题，在机房节能改造过程中，改造前需对机房温度场进行测量，现有方法是采用手持式热敏测温装置，按一定的顺序，依次对每个机柜的进风气流温度进行测量，整个过程耗费时间成本过多，且数据中心温度场是时刻变化的，如果测量过程中空调的状态发生了改变，在此情况下测得的温度场并不是我们想要的结果，还有使用红外热成像的方法测量，红外热成像的优点是可以在较短的时间内采集到整个机房的温度信息，只是它测量的是机柜表面的温度数据，并不能代表进风气流的温度数据，数据中心是一个复杂的时变的环境，以往的基于BP神经网络的方法并不能很好的解决预测机柜进风温度的问题。鉴于此，我们提出一种基于强化学习模型的预测机柜进风温度的方法。

发明内容

本发明的目的在于提供一种基于强化学习模型的预测机柜进风温度的方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于强化学习模型的预测机柜进风温度的方法，所述方法包括以下步骤：

步骤1：通过热成像装置采集机柜的表面实际温度数据，通过热敏装置采集对应机柜的实际进风温度数据；

步骤2：调用神经网络模型进行训练，用机柜的表面实际温度数据为输入，机柜的实际进风温度数据作为输出反复训练，使得神经网络模型通过训练后能预测出机柜的进风模拟温度数据；

步骤3：建立强化学习模型；

神经网络模型作为强化学习模型的Agent；

神经网络每一次预测动作为Action；

模拟进风温度与实际进风温度的MSE作为Environment；

模拟进风温度与实际进风温度的MSE的大小作为设置Reward的依据。

步骤4：获得增强学习模型最优策略下的神经网络模型生成新的预测器；

步骤5：用最优的预测器对机柜的进风温度进行预测。

优选的，步骤1中，所述热成像装置为红外热成像仪。

优选的，步骤1中，所述热敏装置为热敏传感器。

优选的，步骤4中，在设置强化学习模型Reward的过程中遵循下列规则：

模拟进风温度与实际进风温度的MSE在温度区间[2,+∞)内时，评价指标为-100；

MSE在温度区间[1，2)内时，评价指标为-10；

MSE在温度区间[0.5，1)内时，评价指标为-1；

MSE在温度区间[0，0.5)内时，评价指标+100。

与现有技术相比，本发明的有益效果是：该基于强化学习模型的预测机柜进风温度的方法，通过获取机柜的表面实际温度数据和实际进风温度数据，能对机柜的表面温度以及进风温度进行实时的检测，并能根据检测的温度数据，及时更新神经网络模型的输入和输出，使得神经网络模型通过不断的训练和学习提高其预测数据的准确率，即能提高机柜的进风模拟温度数据准确率，缩短了机房数据中心前期勘察所用时间，也可以减少后期改造过程中布置热敏探头的数量，减少了现场施工工作量，节约了物料与人工成本，也为以后周期性巡检提供一种新的快速有效的方法，便于使用。

附图说明

图1为本发明的整体步骤的流程图；

图2为本发明中机柜的实际进风温度数据与模拟进风温度数据在同时刻下变化折线图；

图3为本发明中机柜的实际进风温度数据与模拟进风温度数据在同时刻下误差值变化折线图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图3所示，本发明提供的一种技术方案：

一种基于强化学习模型的预测机柜进风温度的方法，方法包括以下步骤：

步骤1：通过热成像装置采集机柜的表面实际温度数据，通过热敏装置采集对应机柜的实际进风温度数据；

步骤3：建立强化学习模型；

神经网络模型作为强化学习模型的Agent；

神经网络每一次预测动作为Action；

模拟进风温度与实际进风温度的MSE(绝对值误差)作为Environment；

模拟进风温度与实际进风温度的MSE的大小作为设置Reward的依据。

步骤4：获得增强学习模型最优策略下的神经网络模型生成新的预测器；

步骤5：用最优的预测器对机柜的进风温度进行预测。

本实施例中，步骤1中，热成像装置为红外热成像仪，热敏装置为热敏传感器。

进一步的，步骤4中，在设置强化学习模型Reward的过程中遵循下列规则：

模拟进风温度与实际进风温度的MSE(均方误差)在温度区间[2,+∞)内时，评价指标为-100；

MSE在温度区间[1，2)内时，评价指标为-10；

MSE在温度区间[0.5，1)内时，评价指标为-1；

MSE在温度区间[0，0.5)内时，评价指标+100。

值得说明的是，BP算法是一个有导师的学习算法，它含有隐含节点。对于一个输入样本，经过网络的正向推理得出个输出，然后让它与期望的输出样本进行比较。如果有偏差，就从输出开始向回传播，调整权系数Wji。

设X为输入样本，Y为输出样本，T为期望输出样本，η为学习率(是一个小于1的正数)，f(x)是网络的作用函数，选用S形曲线，而是Wji第i个单元到第j个单元联接的权系数，f′(x)为f(x)的导数，正向传播时是从输入一层一层地到输出，上一层的输出作为下一层的输入于是有：

正向传播：

其中，

f(x)＝1/(1-exp(-x))

学习过程：

W_ji(n+1)＝W_ji(n)+η·δ_j·x_i

对于输出节点：

对于非输出节点：

BP算法收敛慢是由于误差δ是时间的复杂非线性函数，而BP算法本质上是简单的最速下降法，其权值调整依据误差对权值的偏导数。即按误差变化率最小的方向进行，当接近收敛时f(x)，导致收敛缓慢。初始值是很小的随机数，而权增量：

ΔW′_ji＝η·δ_j·x′_i

该式中各系数对权的修正程度不同，但值保持不变，则会导致对某些系数的过修正，所以只有当η很小时才会收敛。

具体的，本发明用到的优选算法为Q-Learning算法，其它算法不一一列举。

Q-Learning是强化学习算法中value-based的算法，Q即为Q(s,a)就是在某一时刻的s状态下(s∈S)，采取动作a(a∈A)动作能够获得收益的期望，环境会根据agent的动作反馈相应的回报reward，所以算法的主要思想就是将State与Action构建成一张Q-table来存储Q值，然后根据Q值来选取能够获得最大的收益的动作。

Q-Table	a1	a2	a3	…	an
						s1	q(s1,a1)	q(s1,a2)	q(s1,a3)	…	q(s1,an)
s2	q(s2,a1)	q(s2,a2)	q(s2,a3)	…	q(s2,an)
						s3	q(s3,a1)	q(s3,a2)	q(s3,a3)	…	q(s3,an)
…	…	…	…	…	…
						sn	q(sn,a1)	q(sn,a2)	q(sn,a3)	…	q(sn,an)

智能体(Agent)、环境状态(environment)、奖励(reward)、动作(action)可以将问题抽象成一个马尔科夫决策过程，我们在每个格子都算是一个状态St，π(α|s)在s状态下采取动作α策略。

P(s′|s，α)为在s状态下选择α动作转换到下一个状态s′的概率。R(s′|s，α)表示在s状态下采取α动作转移到s′的奖励reward，目的就是找到获得最大奖赏的策略。

通过bellman方程求解马尔科夫决策过程的最佳决策序列，状态值函数

V_π(s)可以评价当前状态的好坏，每个状态的值，不仅由当前状态决定，也跟后面的状态有关，所以状态的累计奖励求期望就可得出当前s的状态值函数V(s)。

最优累计期望可用V^*(s)表示：

最优价值动作函数：

Q^*(s,a)＝max_πQ*(s,a)

展开如下：

Q^*(s,a)＝∑_s'P(s'∣s,a)(R(s,a,s')+γ·max_a'Q^*(s',a'))

Bellman方程实际上就是价值动作函数的转换关系：

Q-learning更新公式：

Q(s,a)＝Q(s,a)+α[(R+γ·max_a'Q(s',a')-Q(s,a))²]

根据下一个状态s′中选取最大的Q(s′，α′)值乘以衰变γ加上真实回报值作为Q现实，而根据过往Q表里面的Q(s′，α′)作为Q估计。

本实施例的基于强化学习模型的预测机柜进风温度的方法在使用时，通过热成像装置采集机柜的表面实际温度数据，通过热敏装置采集对应机柜的实际进风温度数据，能对机柜的表面温度以及进风温度进行实时的检测，并能根据检测的温度数据，及时更新神经网络模型的输入和输出，使得神经网络模型通过不断的训练和学习提高其预测数据的准确率，即能提高机柜的进风模拟温度数据准确率，相对于单个神经网络模型来说提高了模型的泛化性，应用场景更广，模型结构参数等可以针对不同应用场景进行线上实时更新，通过不断学习提高模型预测准确率，可以更加准确的预测机柜进风温度，缩短了机房数据中心前期勘察所用时间，也可以减少后期改造过程中布置热敏探头的数量，减少了现场施工工作量，节约了物料与人工成本，也为以后周期性巡检提供一种新的快速有效的方法，便于普及和推广。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

9页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种热流计动态特性校准装置及方法

一种基于强化学习模型的预测机柜进风温度的方法

相关技术

网友询问留言