基于强化学习的深度学习训练作业资源放置系统及方法

文档序号：135165 发布日期：2021-10-22 浏览：17次 >En<

阅读说明：本技术 基于强化学习的深度学习训练作业资源放置系统及方法 (Deep learning training operation resource placement system and method based on reinforcement learning ) 是由周悦媛杨康章家维邵恩谭光明于 2021-07-30 设计创作，主要内容包括：本发明涉及计算资源调度技术领域,具体公开了基于强化学习的深度学习训练作业资源放置系统及方法,方法包括如下步骤：随机初始化DRL神经网络模型的参数；生成批量作业的状态向量；将状态向量送入DRL神经网络模型中推理得到批量作业的放置位置信息,并按照该放置位置信息进行作业放置,得到批量作业运行的最大完成时间记为T-RL；随机生成若干放置位置信息,并按照该随机生成的放置位置信息进行作业放置,得到该批量作业的若干最大完成时间,取得其中最小的最大完成时间记为T-Random；基于最大完成时间T-RL和最大完成时间T-Random计算奖励；反向梯度更新DRL神经网络模型的参数。采用本发明的技术方案能够在资源出错场景下对DLT作业进行自适应放置。(The invention relates to the technical field of computing resource scheduling, and particularly discloses a deep learning training operation resource placement system and method based on reinforcement learning, wherein the method comprises the following steps: randomly initializing parameters of a DRL neural network model; generating a state vector of batch operation; sending the state vector into a DRL neural network model to infer and obtain placement position information of batch jobs, placing the jobs according to the placement position information, and recording the maximum completion time of batch job operation as T _ RL; randomly generating a plurality of placing position information, placing the operation according to the randomly generated placing position information to obtain a plurality of maximum completion times of the batch operation, and obtaining the minimum maximum completion time and recording as T _ Random; calculating a reward based on the maximum completion time T _ RL and the maximum completion time T _ Random; the inverse gradient updates the parameters of the DRL neural network model. By adopting the technical scheme of the invention, the DLT operation can be placed in a self-adaptive manner under the resource error scene.)

技术领域

本发明涉及计算资源调度技术领域，特别涉及基于强化学习的深度学习训练作业资源放置系统及方法。

背景技术

深度学习训练(Deep Learning Training，DLT)作业通常是计算密集型的任务，需要性能强大而昂贵的计算资源，例如GPU设备，为了处理规模不断增长的训练数据，目前大多数主流的IT公司或企业通过GPU服务器集群来运行DLT作业，执行分布式深度学习(Distributed Deep Learning，DDL)训练以并行利用多个GPU，从而降低单个GPU上的负载，加快模型的训练速率。

多机多卡训练模式是大规模分布式DLT作业的主要特征，随着系统复杂性的提高，作业出错概率会同比上升。并且，DLT作业训练时间普遍较长，而长时间的运行也会提高作业出错的概率。此外，在多租户多作业场景下的频繁提交通常也会带来作业出错概率的上升。而DLT作业出错是造成系统资源利用率下降的重要原因之一，作业出错所带来的时间开销是不可忽视的，出错次数越多，由出错导致的作业重启开销和资源恢复开销就越大，资源利用率就越低。

为了更好的在集群资源出错的场景下对DLT作业进行合理的放置，现有技术中提出了基于集群容量感知的方法和基于负载干扰感知的方法。其中，基于集群容量感知的方法未考虑到集群中不同GPU的出错特性，例如，当出错概率较低的GPU设备长期处于相对高负荷的状态时，调度策略都有很大可能将多卡DLT大作业频繁放置于出错概率较高的GPU设备上，这会使作业多次重启，造成资源利用率的下降。基于负载干扰感知的方法虽然在很大程度上避免了由于DLT作业间的干扰带来的训练性能降级和资源利用率下降，但仍然未考虑集群中各个GPU设备的出错特性，例如，若集群中出错概率较高的GPU分布分散，在将干扰程度较大的分布式多卡DLT作业分开放置时就很可能会放置到出错概率较高的GPU上，从而导致作业频繁重启，带来更严重的训练性能和资源利用率的下降。

强化学习(Reinforcement Learning，RL)与传统的深度学习方法类似，也是一种自学习方法，但深度学习是通过学习已有数据中的特征，对未知数据做出预测，是一种静态的学习算法。而RL是通过对未知环境的不断探索，进而建立决策模型并学习得到最优策略的一个过程，是一种动态的学习算法。因此，在某种程度上，RL更符合人类的思维方式和学习过程，尤其是融入了深度学习技术的RL，即深度强化学习(Deep ReinforcementLearning，DRL)，被公认为是最接近真正人工智能的一种范式。

因此，如何将DRL算法应用到资源调度即作业放置位置的决策问题中，在集群资源出错的场景下对DLT作业进行合理的放置以尽可能最大化资源利用率、提升用户服务质量，成了需要解决的问题。

发明内容

本发明的目的之一在于提供基于强化学习的深度学习训练作业资源放置方法，能够在资源出错场景下对DLT作业进行自适应放置。

为了解决上述技术问题，本申请提供如下技术方案：

基于强化学习的深度学习训练作业资源放置方法，包括如下步骤：

初始化步骤：随机初始化DRL神经网络模型的参数；

状态向量生成步骤：生成批量作业的状态向量；

推理步骤：将状态向量送入DRL神经网络模型中推理得到批量作业的放置位置信息，并按照该放置位置信息进行作业放置，得到批量作业运行的最大完成时间记为T_RL；

随机生成步骤：随机生成若干放置位置信息，并按照该随机生成的放置位置信息进行作业放置，得到该批量作业的若干最大完成时间，取得其中最小的最大完成时间记为T_Random；

奖励计算步骤：基于最大完成时间T_RL和最大完成时间T_Random计算奖励；

参数更新步骤：反向梯度更新DRL神经网络模型的参数。

基础方案原理及有益效果如下：

本方案中，通过训练DRL神经网络模型来进行作业放置位置的推理，与传统的启发式算法相比，DRL神经网络模型可以自行分析提取集群故障和DLT作业的更有效、更精准特征，而无需人为选定某些参数作为特征，从而降低了因人为选择特征有误而带来的影响。

DRL神经网络模型的奖励以多次随机调度批量作业完成时间的最小值T_random作为基准进行计算，利用随机性得到更大的奖励范围，可以提升DRL神经网络模型的学习能力。

本方案的训练过程可以利用模拟器进行预训练或完全训练以节约时间和经济成本，同时也可以使用真实集群系统的历史数据进行训练以求获得更适合该系统的调度策略，还可以直接在原型机系统上在线训练以得到更加精准的调度策略。

综上，本方案针对DLT作业在集群出错情况下的放置位置决策问题，训练DRL神经网络模型在DLT作业的资源出错场景下进行自适应放置，降低批量大型分布式DLT作业的最大完成时间，提高的资源利用率。

进一步，还包括经验回放步骤：对DRL神经网络模型训练过程中所生成的四元组样本进行采样，用于经验回放。

通过经验回放，一方面能消除样本间的相关性以满足神经网络训练的基本要求，另一方面动态的经验回放能够最大化回放的范围，确保经验回放的有效性。

进一步，所述状态向量生成步骤中，基于DLT作业信息和集群信息生成状态向量，记为其中，N为当前作业所需计算单元数量；T为当前作业在不出错情况下的预估运行时间；S为当前集群中各个计算单元的使用状态。

本优选方案中，获取DLT作业信息和集群信息，处理后生成状态向量作为特征输入DRL神经网络模型进行训练，将采用随机调度最优方案与采用当前DRL神经网络模型推理的调度方案获得的批量作业最大完成时间相结合，作为评估准则，指引神经网络自适应地做出DLT作业的放置决策，降低批量大型分布式DLT作业的最大完成时间，提高资源利用率。

进一步，所述推理步骤，具体包括：

A1：将状态向量输入DRL神经网络模型的价值网络，得到长期衡量指标V；

A2：将状态向量输入DRL神经网络模型的策略网络，得到N个计算单元的选择概率P_i,其中i＝1,2,...,N；

A3：将被占用的计算单元和故障的计算单元所对应的概率P_j置零，得到P′_i；

A4：选取第k个计算单元作为该作业所要放置的计算单元之一，其中P_k＝max(P′_i)；

A5：若该作业所要放置的计算单元数量等于该作业所需计算单元数量则完成该作业的放置位置信息推理，转而推理下一个作业的位置信息，否则转跳至步骤A1。

进一步，所述经验回放步骤，具体包括：

B1：创建回放缓冲池栈；

B2：将训练过程产生的四元组样本压栈进入回访缓冲池栈；

B3：若回访缓冲池栈满则使最早入栈的四元组样本溢出；

B4：选取X个四元组样本作为一个批，供下次训练使用，其中X的个数为当前回访缓冲池栈中四元组样本的总数。

在DRL神经网络模型中，做出一系列推理动作后，会产生若干四元组样本，这些样本具有很强的相关性，不符合深度神经网络对训练样本独立同分布的要求，并且在一个间隔内生成的样本序列无法代表全局经验，神经网络的健忘特性会使其在训练过程中很容易陷入局部最优。本优选方案采用经验回放的手段来解决。考虑到资源出错时刻不确定性很强，在不同调度间隔内生成样本的数量差距可能会很大，故采用动态批进行采样。在每次训练DRL神经网络模型时随机采样批的大小等于当前调度周期内推理得到的样本数，将批输入DRL神经网络模型用于训练，可以充分发挥经验回放的效果，从而在很大程度上降低样本间的相关性。

进一步，所述奖励计算步骤中，奖励的计算公式为：

期望的T_RL越小越好，但是T_RL具有相对性，即与实际的作业时间相关，实际的作业时间长，T_RL不可能过于小。故本方案中，将T_random作为相对值，与T_RL进行比较。

进一步，还包括训练判断步骤：判断DRL神经网络模型是否训练完成，若没有完成则返回状态向量生成步骤，否则训练结束。

进一步，还包括使用步骤：使用训练完成的DRL神经网络模型推理得到批量作业中各作业的放置位置。

进一步，所述使用步骤具体包括:

C1：获取批量作业的作业信息和集群信息；

C2：基于步骤C1所收集的信息，生成状态向量；

C3：将步骤C2中的状态向量输入到DRL神经网络模型的策略网络中，得到策略网络输出的放置位置信息；

C4：若当前推理出的计算单元数量小于当前作业所需计算单元数量则重复步骤C3；否则转跳到步骤C5；

C5：按照步骤C3中推理出的放置位置信息放置对应的作业。

本发明的目的之二在于提供基于强化学习的深度学习训练作业资源放置系统，包括DRL神经网络模型和作业调度模块；作业调度模块使用上述方法的步骤对DRL神经网络模型进行训练。从训练完成的DRL神经网络模型中获取放置位置信息，并按照放置位置信息放置对应的作业。

本方案采用DRL神经网络模型对计算单元进行调度，通过周期性地获取集群信息和当前提交的作业信息，处理后作为特征输入DRL神经网络模型进行训练，将采用随机调度最优方式与采用当前DRL神经网络模型推理的调度方式获得的批量作业最大完成时间相结合，作为评估准则，指引DRL神经网络模型自适应地做出DLT作业的放置决策，降低批量大型分布式DLT作业的最大完成时间，即提高的资源利用率。

附图说明

图1为集群作业生命周期示意图；

图2为DRL神经网络模型训练的流程图；

图3为DRL神经网络模型结构设计的示意图；

图4为经验回放的示意图；

图5为DRL神经网络模型推理流程的示意图。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例

如图1所示，本实施例方法应用于集群的作业调度过程，目标在于给出作业应该放置于集群中哪些节点和哪些计算资源上。本实施例以常见的计算单元——GPU为例，介绍基于强化学习的深度学习训练作业资源放置方法，包括如下步骤：

用强化学习的方式训练神经网络模型参数，如图2所示，具体包括：

初始化步骤：随机初始化DRL神经网络模型的参数。

状态向量生成步骤：基于DLT作业信息和集群信息生成workloads(批量作业)的状态向量。状态向量记为具体表示如下：

N：当前作业所需GPU数量。

T：当前作业在正常不出错情况下的预估运行时间。

S：当前集群中各个GPU的使用状态。例如，当前集群中共4个GPU设备，前两个GPU可用，后两个GPU因出错或被占用而不可获取，则S＝[0,0,1,1]。

本实施例中，周期性获取DLT作业信息和集群信息。

推理步骤：将状态向量送入DRL神经网络模型中推理得到一个workloads的放置位置信息，并按照该放置位置信息进行作业放置，得到workloads运行的最大完成时间T_RL。

所述推理步骤的DRL神经网络模型如图3所示，具体包括：

A1：将状态向量输入DRL神经网络模型的价值网络(Value Network)，经过5层神经元数量分别为256、196、196、128、1的全连接层，得到一个长期衡量指标V。

A2：将状态向量输入DRL神经网络模型的策略网络(Policy Network)，经过5层神经元数量分别为256、196、196、128、N的全连接层，再经过softmax层得到N个GPU的选择概率P_i,i＝1,2,...,N。

A3：将已经被占用的GPU和故障的GPU所对应的概率P_j置零，得到P′_i。

A4：选取第k个GPU作为该作业所要放置的GPU之一，其中P_k＝max(P′_i)。

A5：如果该作业所要放置的GPU数量等于该作业所需GPU数量则完成该作业的放置位置信息推理，转而推理下一个作业的位置信息，否则转跳至步骤A1。

随机生成步骤：随机生成一系列放置位置信息，并按照该放置位置信息进行作业放置，得到该workloads的一系列最大完成时间，最后取得最小的最大完成时间记为T_Random。

奖励计算步骤：基于最大完成时间T_RL和最大完成时间T_Random计算奖励(reward)。计算公式为：

经验回放步骤：对DRL训练过程中所生成的四元组样本(s,a,r,s′)进行采样，以应用经验回放。四元组样本(s,a,r,s′)中，s为环境状态，a为Actor，即基于当前策略选择的一个动作，s’为在环境状态s下执行动作a后转移到的下一个环境状态，r为环境反馈的奖励，即reward。

经验回放步骤如图4所示，具体包括：

B1：创建Replay Buffer(回放缓冲池)栈。

B2：将训练过程产生的四元组样本(s,a,r,s′)压栈进入回访缓冲池栈。

B3：如果缓冲池栈满则使得最早入栈的数据溢出。

B4：选取x个四元组样本作为一个batch(批)，等待下次训练。其中X的个数为当前回访缓冲池栈中四元组样本的总数。

参数更新步骤：反向梯度更新DRL神经网络模型的参数。本实施例中，利用reward进行反向梯度更新，此为现有技术，这里不再赘述。

训练判断步骤：如果训练没有完成则回到步骤S12继续执行，否则训练结束。本实施例中，预设有计划训练次数，当实际训练次数等于计划训练次数，即视为训练完成。

使用步骤：使用训练完成的DRL神经网络模型推理得到workloads中各作业的放置位置，图5所示，具体包括:

C1：获取workloads作业信息和集群GPU信息。

C2：利用步骤C1所收集的信息，生成状态向量

C3：将步骤C2中的状态向量输入到策略网络中，得到策略网络输出的放置策略即放置位置信息。

C4：如果当前推理出的GPU数量小于当前作业所需GPU数量则重复步骤C3。

C5：按照步骤C3中推理出的放置位置信息放置对应的作业。

本实施例中GPU是最小调度单元，即一个GPU不可以分配给多个作业使用。在其他实施例中，计算单元还可以采用TPU(张量处理单元)和MLU(机器学习处理器)等。

根据基于强化学习的深度学习训练作业资源放置方法，本实施例还提供一种基于强化学习的深度学习训练作业资源放置系统，包括DRL神经网络模型和作业调度模块。作业调度模块使用上述方法的步骤对DRL神经网络模型进行训练。作业调度模块还使用上述方法的步骤从训练完成的DRL神经网络模型中获取放置位置信息，并按照放置位置信息放置对应的作业。

以上的仅是本发明的实施例，该发明不限于此实施案例涉及的领域，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

12页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种高性能分布式结合的多路视频实时处理方法

基于强化学习的深度学习训练作业资源放置系统及方法

相关技术

网友询问留言