一种强化学习中超高精度探索环境下的状态空间处理方法、系统及电子设备

文档序号：1964396 发布日期：2021-12-14 浏览：24次 >En<

阅读说明：本技术 一种强化学习中超高精度探索环境下的状态空间处理方法、系统及电子设备 (State space processing method and system under ultrahigh-precision exploration environment in reinforcement learning and electronic equipment ) 是由徐博张文圣张鸿铭王燕娜于 2021-09-06 设计创作，主要内容包括：本发明公开了一种强化学习中超高精度探索环境下的状态空间处理方法,系统及电子设备,涉及超高精度环境状态空间处理方法、系统及电子设备领域。本发明利用环境引擎对所述智能体在环境中对于威胁物和目标点的相关物理量进行采集,通过空间状态处理模块建立倒空间物理量规范,将原始空间相关物理量进行倒空间状态处理,放大所述智能体在相邻时刻间的动作上物理特征差异。再通过策略分析和策略执行结构对所述物理特征进行分析和智能体动作执行,执行的结果经环境引擎处理输入条件,输入至内部Reward函数,根据Reward函数输出结果对智能体动作制定强化学习策略,保证了智能体可在环境序列间状态差异相对自身差异数量级过小的情况下进行有效的学习训练。(The invention discloses a state space processing method, a state space processing system and electronic equipment in an ultrahigh-precision exploration environment in reinforcement learning, and relates to the field of ultrahigh-precision environment state space processing methods, ultrahigh-precision environment state space processing systems and electronic equipment. The invention utilizes an environment engine to collect the relevant physical quantities of the intelligent agent to the threat object and the target point in the environment, establishes the specification of the physical quantity of the empty space through a space state processing module, processes the relevant physical quantity of the original space in the empty space state, and amplifies the physical characteristic difference of the intelligent agent in the action between the adjacent moments. And analyzing the physical characteristics and executing the actions of the intelligent agent through a strategy analysis and strategy execution structure, processing input conditions through an environment engine according to an execution result, inputting the input conditions into an internal Reward function, and making a reinforcement learning strategy for the actions of the intelligent agent according to the output result of the Reward function, so that the intelligent agent can perform effective learning training under the condition that the state difference between environment sequences is smaller than the self difference order of magnitude.)

技术领域

本发明涉及机器学习领域，特别是超高精度环境状态空间处理方法、系统及电子设备领域。

背景技术

随着机器学习中强化学习的理念不断升级，市场针对agent（智能体）的学习能力提出了更高的要求。现阶段强化学习中常时使用transition结构进行状态的输入输出和存储，所谓transition结构是指有限马尔可夫决策过程中，将各个时刻的状态、动作、奖惩等作为一组数据结构。随着神经网络的引入强化学习系统，标准的强化学习会将各个时刻的状态输入网络进行对应时刻的动作求解，网络会根据不同的状态输出不同的动作。在范围远超智能体本身尺寸的超大尺寸环境中，由于环境和智能体自身的物理限制，导致智能体的状态空间维度大，为了躲避威胁物，智能体在躲避前后执行不同动作时对应的状态差距小。因此对比网络接收到的输入状态的数量级而言，执行有效动作对应的状态与相邻时刻的状态间的差异远远小于状态自身数量级，进而网络面临空间序列区分度不足导致因反馈智能体信息准确性和准时行不足引起智能体的动作不准确和不及时的问题。

因此，在不改变现有强化学习所用MDP（马尔可夫决策过程，Markov DecisionProcess）模型的前提下，寻求一种可应对超大环境中实现高精度环境探索的智能体学习方式显得尤为重要。

发明内容

本发明实施例提供一种强化学习中超高精度探索环境下的状态空间处理方法，可以在不改变现有马尔可夫决策模型的前提下，实现智能体在范围远超智能体尺寸的环境内准确并及时的进行信息处理和动作执行。

为了解决上述问题，本发明的第一方面提出了一种超大高精度探索环境下状态空间处理方法，包括步骤：

S1：智能体接收原始环境状态；

S2：将原始环境状态进行倒空间结构处理；

S3：处理结果传递至运行网络架构；

S4：运行结果分别传递智能体终端进行动作执行；

S5：环境引擎收集动作执行后对环境影响；

S6：环境引擎反馈信息至原有状态空间信息收集模块；

S7：原有状态空间信息收集模块将信息分别传送至Reward（奖励）函数和倒空间处理结构；

S8：倒空间处理结构接收信息后作为新动作模量处理，处理流程返回S2继续执行并循环此过程；

S9：状态空间处理信息输入Reward函数判定结果；

S10：Reward函数输出结果进行网络学习，学习结果同步干预动作执行；

S11：策略执行模块依据倒空间模块输入信息和Reward函数学习结果进行动作执行和校正；

S12：智能体依照策略执行模块指令完成动作。

在一些实施例中，所述运行网络架构包含：策略执行模块以及策略分析模块。

在一些实施例中，所述测策略执行模块以及策略分析模块至少分别含有一个优化模块。

在一些实施例中，所述策略执行模块以及策略分析模块，同自身所带优化模块具备同时运作的能力。

在一些实施例中，所述策略执行模块接收来自倒空间状态处理结构的输出结果以及策略分析模块的输出结果。

在一些实施例中，所述策略执行模块依据策略分析模块输出结果进行动作修正。

在一些实施例中，所述策略分析模块自身具备自我迭代更新的能力。

在一些实施例中，所述策略分析模块和所述策略执行模块具备同时运行的能力。

在一些实施例中，所述策略分析模块接收来自Reward函数输出结果，自身分析结果以及策略执行模块后输出结果。

在一些实施例中，所述Reward函数设计状态至少包括：威胁物躲避前，威胁物躲避后，智能体动作终止时。

在一些实施例中，所述奖励可设置为正向奖励和负向奖励，正向奖励量级大于负向奖励量级，完成对威胁物的躲避且达到与目标间距离的精度要求时，给予一个明显的正向奖励（+2000），否则给予一个中等的负向奖励（-100）。

在一些实施例中，经倒空间结构处理前的环境状态均定义为原始环境状态。

在一些实施例中，所述方法S2倒空间处理算法流程包括：

1：提取所述原始环境相关物理量返回的状态空间；

2：依据倒空间基矢公式建立原始状态空间的倒空间规范：=其中，S_i表示原空间物理量模值，S_i′表示倒空间物理量模值，min_val为极小值，用于防止出现除0操作，k为实际环境选取的常数系数；

3：依据建立的倒空间规范进行倒空间状态转换，形成新的状态特征；

4：依据原空间状态进行Reward（奖励）函数设计，将转换后的倒空间状态输入到强化学习的神经网络中进行训练。

在一些实施例中，所述倒空间处理算法1中所述相关物理量至少包括：智能体位置、智能体速度、威胁物位置、威胁物速度和目标点位置。

在一些实施例中，所述处理方法还包括Actor-Critic强化学习模型，所述学习模型组成至少包括：Actor(策略生成函数)网络结构和 Critic（策略评价函数）两大结构。

在一些实施例中，所述处理方法还包括网络训练结构，所述网络训练结构包括：Reward（奖励）函数和目标函数组成。

在一些实施例中，所述Reward函数中所述威胁物躲避前设计原则包括：

1：负向：智能体当前距目标点距离与初始时距目标点距离的比值；

2：正向：智能体当前距威胁物距离与初始时距威胁物距离的比值；

3：负向：智能体当前与威胁物相对速度与初始时与威胁物相对速度的比值。

所述正向和负向表示奖励与设定指标之间的正反比关系。

在一些实施例中，所述Reward函数中所述威胁物躲避之后设计原则包括：

1：负向：智能体距目标点距离与初始时距离目标点距离的比值比上个步骤距目标点距离更大，则收到两个步骤下各自的相对距离比之差；

2：正向：智能体当前距目标点距离与初始时距离目标点距离的比值比上个步骤距离目标点距离更小，则收到两个步骤下各自的相对距离比之差；

3：正向：当前智能体距离目标点的距离小于M（M为设定点）时，增加一个正向奖励，奖励公式为（distance-M）·pow(2)*pl，其中distance为当前智能体距离目标距离，M、pl为根据实际环境而定的可调节系数。

上述的正向和负向表示奖励与设定的指标之间的正反比例关系，当智能体距离目标点很近时，（距离小于M）则额外增加正向的奖励。

在一些实施例中，所述方法还包括至少一个目标函数，所述目标函数类型为累计期望函数。利用目标函数累计期望值判定策略实际执行效果和期望的拟合程度，所述目标函数类型为累计期望回报函数，公式表示为：

其中L _t （θ）表示累计的期望回报值，

采用off-policy（离线策略学习）的学习方式，即学习和采样不是一个策略，其中r_t定义为新策略和旧策略的重要性权重，具体如下：

则为优势估计函数：

是一个固定系数，取值范围通常为0＜＜1。clip是裁剪操作，通过clip处理将约束在和之间，也就是：

Min操作是取两者中较小的值，也就是选择

中的较小值。

在一些实施例中，所述处理方法的网络学习结构是基于PPO（基于深度增强学习，Proximal Policy Optimization）等算法进行学习训练，步骤包括：

1：接收策略θ，，其中θ表示：策略近似函数的更新后参数，表示策略近似函数的更新前参数；

2：初始化策略参数θ，，

3：重复动作循环

2.1：重复每个Actor，收集数据：重复T次，每次使用进行决策，计算每一步中优势估计；

2.2：迭代K次，训练网络，每次使用小批量数据求解累计期望回报函数的策略梯度。

4：依据策略参数求解结果更新策略参数至

上述训练过程中，在每轮更新并完成数据获取后，将会用获取数据更新策略参数，致使累计期望回报的目标函数值达到期望。本发明第二方面提出了一种强化学习中超大高精度探索环境下状态空间处理系统，其特征在于，所述系统逻辑构成采用权利要求1~22提及任一方法构成。

本发明第三方面提出了一种应用于超高精度环境探索的电子设备，其特征在于，所述电子设备的状态空间处理方式包括权利要求1~22提及状态空间的处理方式。

本发明的实施例提供了一种超大高精度探索环境下状态空间处理方法，将原空间智能体运动关键物理因素进行倒空间状态处理，放大处理后前后相邻动作状态差异，实现不改变现有马尔可夫模型的而基础上对智能体训练的及时性和准确性的提升。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例。

图1-a为根据本发明一实施方式的应用场景示意图；

图1-b为根据本发明一实施方式的智能体在应用场景撞击威胁物的示意图；

图1-c为根据本发明一实施方式的智能体在应用场景抵达目标点的示意图；

图2为根据本发明一实施方式的智能体学习方案流程图；

图3-a为根据本发明一实施方式的Actor网络结构示意图；

图3-b为根据本发明一实施方式的Critic网络结构示意图。

具体实施方式

为使得本申请的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本领域技术人员可以理解，本申请中的“第一”、“第二”等术语仅用于区别不同设备、模块或参数等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

如图1-a和1-b所示，所述处理方式应用在环境范围远大于agent自身尺寸的高精度要求探索背景下，其探索内容包括智能体当前所在位置1，威胁物位置2，目标点位置3，威胁物范围4，前往威胁物范围路径5，前往目标点路径6以及智能体起始位置7。智能体在出发前首先对原空间进行预处理，将状态空间的所述智能体当前位置1，所述威胁物位置2，所述目标点位置3以及所述威胁物范围4等转换为原空间下的相对位置，将原空间下的相对状态转换到倒空间中，作为MDP过程中每个时刻下的网格输入。

在本申请的一个实施例中，为实现在大环境下可准确的对所前往威胁物范围路径5进行调整规避，使所述智能体路线无限拟合于所述前往目标点路径6，如图2所示，学习系统中需要存在至少一个环境引擎对智能体所处环境原空间的位置类和速度类物理量进行捕捉，所述环境引擎捕捉位置类物理量包括但不限于：所述智能体当前时刻位置，所述威胁物位置，所述目标点位置及其各自相对位置。所述环境引擎捕捉速度类物理量包括但不限于：所述智能体运行速度，所述威胁物运行速度及其各自相对速度。所述环境引擎将所述捕捉到的智能体相关物理量传递至空间转换模块，为MDP过程网络输入做准备。

在本申请的一个实施例中，提出了一种强化学习中超高精度探索环境下的状态空间处理方法，包括步骤：

S1：智能体接收原始环境状态；

S2：将原始环境状态进行倒空间结构处理；

S3：处理结果传递至运行网络架构；

S4：运行结果分别传递智能体终端进行动作执行，和运行网络进行分析；

S5：环境引擎收集动作执行后对环境影响；

S6：环境引擎反馈信息至原有状态空间信息收集模块；

S7：原有状态空间信息收集模块将信息分别传送至Reward函数和倒空间处理结构；

S8：倒空间处理结构接收信息后作为新动作模量处理，处理流程返回S2继续执行并循环此过程；

S9：状态空间处理信息输入Reward函数判定结果；

S10：Reward函数输出结果进行网络学习，学习结果同步干预动作执行；

S11：策略执行模块依据倒空间模块输入信息和Reward函数学习结果进行动作执行和校正；

S12：智能体依照策略执行模块指令完成动作。

其中，所述网络架构主要由Actor（执行）和Critic（分析）两部分组成，两部分具体流程如图3-a和3-b所示，如图2所示，智能体根据经过倒空间结构处理过的输入物理量进行策略执行，并将动作对环境的影响的模值输入Reward函数进行目标拟合，拟合结果转换为奖励结果输入至Critic结构进行决策分析学习，以此实现智能体在超大环境下高精度的空间探索。

在本申请的一个实施例中，智能体其倒空间算法流程如下：

1）提取所述原始环境返回的状态空间，将状态空间中的所述智能体位置、速度，所述威胁物的位置、速度以及所述目标点的位置，通过计算所述智能体与所述威胁物的相对位置、相对速度等物理量的方式转化为所述原空间下的相对位置、相对速度。

2）建立所述原始状态空间的倒空间规范，根据倒空间基矢的模的计算公式：

= 完成所述原有状态空间向倒空间的转化，其中S_i表示原空间物理量模值，S_i′表示倒空间物理量模值，min_val为极小值，k为实际环境选取的常数系数。

3）根据建立的倒空间的规范，进行原始状态到倒空间状态的转换，形成新的状态特征。

4）根据所述原有空间状态进行Reward函数设计，并将转换后的倒空间状态输入到强化学习的神经网络中进行训练。

可选的，k值选取需使倒空间中对应原空间中的重要决策趋于的状态数值范围介于0.5~10之间。

可选的，满足倒空间中不同策略轨迹下相同时刻状态区分度不低于倒空间状态数值的数量级的10%，用以保证神经网络在训练过程中能够接收到具有足够区分度的状态值。

在本申请的一个实施例中，所述处理方法内部结构还包括至少一个Reward函数结构，奖励应用场景至少包括如下方面：

1）针对所述智能体躲避所述威胁物之前；

2）针对所述智能体躲避所述威胁物之后；

3）针对所述智能体完成运动动作之后。

可选的，针对所述智能体躲避多数威胁物之前，Reward函数设计原则包括如下方面：

负向：智能体当前距目标点距离与初始时距离目标点距离的比值，当后一时刻所述比值小于前一时刻所述比值时，证明所述智能体处于接近目标点运动状态；

正向：智能体当前距威胁物距离与初始时距威胁物距离的比值，当后一时刻所述比值小于前一时刻所述比值时，证明所述智能体处于远离威胁物运动状态；

负向：智能体当前同威胁物相对速度与初始时刻智能体同威胁物相对速度的比值，当所述比值为负值时，证明所述智能体运动速度方向同威胁物运动速度方向相反。

可选的，上述的正向和负向表示奖励与设定的指标之间的正反比关系，实际设定需综合上述方向进行系数调整。

更优选的，所述智能体完成威胁物躲避前Reward函数可保持为负值。

可选的，针对所述智能体躲避所述威胁物之后，Reward函数设计原则包括如下方面：

负向：智能体当前距目标点距离与初始时距离目标点距离的比值比上个step（行动步骤）距目标点距离更大，则收到两个step下各自的相对距离比之差（前时刻相对距离比-后时刻相对距离比）；

正向：智能体当前距目标点距离与初始时距离目标点距离的比值比上个step距目标点距离更小，则收到两个step下各自的相对距离比只差（前时刻相对距离比-后时刻相对距离比）；

正向：智能体当前距离目标点的距离小于M时（M为路径之间设定的参考点），增设算法（distance-M）·pow（2）*pl，其中M、pl为根据实际环境而定的可调节系数。

可选的，上述的正向和负向表示奖励与设定的指标之间的正反比关系，实际需综合以上方面进行相应系数调整。

更优选的，所述智能体完成威胁物躲避前Reward函数可保持为正值。

更优选的，所述智能体运动状态处于接近目标点（距离小于M）时可额外进行正向Reward。

可选的，针对所述智能体完成运动动作之后，Reward函数设计原则包括如下方面：

正向：运动结果判定完成对威胁物的躲避且与目标点距离误差满足期望精度时，给予正向Reward；

负向：运动结果判定未完成威胁物的躲避或与目标点距离误差大于期望精度时，给予负向Reward。

可选的，上述正向和负向表示奖励与设定的指标之间的关系，实际需综合以上方面进行相应匹配设定。

更有选的，所述智能体所受的正向R eward程度量级设定可大于所受负向Reward程度量级设定，在本实施例中可参考设定正向Reward（+2000），负向Reward（-100）。

在本申请的实施例中，所述处理方法还包括至少一个目标函数，用以规范智能体策略执行结果和策略分析结果。

所述目标函数的设计原则包括：可直接以优化策略函数为目标，计算累计期望回报的策略梯度，从而求解出使得回报的策略参数。

可选的，定义累计期望回报的目标函数为：

采用off-policy的学习方式，即学习和采样不是一个策略，其中r_t定义为新策略和旧策略的重要性权重，具体如下：

可选的，则为优势估计函数：

是一个固定系数，取值范围通常为0＜＜1。clip是裁剪操作，通过clip处理将约束在和之间，也就是：

Min操作是取两者中较小的值，也就是选择中的较小值。

优选的，本实施例取值选取为0.15。

在本发明更优选的实施方式中，所述处理方法还包括网络训练结构。智能体将收集到的信息输入到网络中输出一个行动策略，根据Reward和目标函数进行学习优化，利用PPO等算法进行学习，具体实施步骤如下：

1）接收策略参数θ, ；

2）初始化策略参数θ, ；

3）重复动作循环；

4）依据策略参数求解结果更新参数至

其中，算法中θ, 分别指策略近似函数的新参数和旧参数（或相关物理量），即策略执行后更新策略函数和策略执行前的策略函数，所述旧参数基础数据来源依据为所述智能体结构中环境引擎收集，所述新参数来源依据为所述智能体策略执行后返还至环境引擎的结果。

可选的，所述重复动作循环步骤包括：

1）动作重复执行，收集数据，比对优势估计；

2）小量样本迭代，求解策略梯度，依据结果更新策略参数θ。

其中动作重复执行过程，需要对每个动作对应优势估计进行求解，后对所有求解结果进行比较，挑选满足需求结果。对于挑选结果，后续进行小批量数据迭代，判断累计期望回报函数策略梯度，依据策略梯度更新θ策略参数。

可选的，对于动作执行过程函数结果出现损失（如撞击威胁物或距离目标点偏差大于预期精度等），可定义惩罚方法，包括但不限于无裁剪惩罚或带裁剪惩罚等。

本发明实施例提供了一种强化学习中超高精度探索环境下的状态空间处理方法，本发放通过环境引擎对所述智能体在环境中对于威胁物和目标点的相关物理量进行采集，通过空间状态处理模块建立倒空间物理量规范，将原始空间相关物理量进行倒空间状态处理，以此放大所述智能体在相邻时刻间的动作上物理特征的差异。再通过策略分析和策略执行结构对所述物理特征进行分析和智能体动作执行，动作执行的结果对环境经环境引擎处理为输入条件，输入至内部Reward函数，根据Reward函数输出结果对智能体动作制定相应强化学习策略，保证了智能体可在环境序列间状态差异相对状态自身差异数量级过小的情况下进行有效且准确的学习训练。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

16页详细技术资料下载

一种强化学习中超高精度探索环境下的状态空间处理方法、系统及电子设备

相关技术

网友询问留言