一种基于等效子空间的强化学习状态分层方法

文档序号:1964429 发布日期:2021-12-14 浏览:13次 >En<

阅读说明:本技术 一种基于等效子空间的强化学习状态分层方法 (Reinforced learning state layering method based on equivalent subspace ) 是由 高子文 刘俊涛 王振杰 王元斌 黄志刚 于 2021-09-07 设计创作,主要内容包括:本发明公开了一种基于等效子空间的强化学习状态分层方法:通过智能体单个时间步对环境的观测数据生成状态语义特征向量,将其与通过环境交互产生的相关信息组成状态表示向量,并收集预设回合内的状态表示向量组成状态表示集,通过聚类分析生成若干等效子空间,得到等效状态划分;基于等效状态划分,在学习训练过程中对智能体观测的状态进行分类计算,得到包含类别信息的one-hot子状态向量;学习训练过程中基于one-hot子状态向量进行后续策略计算,并以预设时间分辨率通过上述步骤重新更新状态等效划分。本发明将状态空间划分为不同抽象层次的等效状态子空间,以解决智能体强化学习状态空间过大的问题,提升环境搜索效率,为强化学习算法提供可解释基础。(The invention discloses a reinforcement learning state layering method based on equivalent subspace, which comprises the following steps: generating a state semantic feature vector through observation data of an intelligent agent on an environment at a single time step, forming a state expression vector by the state semantic feature vector and related information generated through environment interaction, collecting the state expression vector in a preset round to form a state expression set, and generating a plurality of equivalent subspaces through clustering analysis to obtain equivalent state division; based on equivalent state division, carrying out classification calculation on states observed by the intelligent agent in the learning and training process to obtain a one-hot sub-state vector containing class information; and performing subsequent strategy calculation based on the one-hot sub-state vector in the learning training process, and updating the state equivalent division again through the steps according to the preset time resolution. The invention divides the state space into equivalent state subspaces with different abstraction levels, so as to solve the problem of overlarge state space of intelligent reinforcement learning, improve the environmental search efficiency and provide interpretable basis for reinforcement learning algorithm.)

一种基于等效子空间的强化学习状态分层方法

技术领域

本发明属于强化学习技术领域,更具体地,涉及一种基于等效子空间的强化学习状态分层方法。

背景技术

近年来,深度强化学习技术将深度学习的感知能力与强化学习的决策能力结合,取得了突破性的进展,被广泛应用在棋类博弈(如AlphaGO,AlphaZero)、游戏AI、自主驾驶、机器人控制等领域。而在军事指挥领域利用深度强化学习方法经过大量训练得到智能体(agent),进行智能决策,亦将大力促进军事指挥决策领域的发展。

强化学习框架主要包括智能体、行为策略、环境状态、动作空间、回报函数、交互环境等要素。智能体与环境的交互过程如附图1所示,主要如下:(1)智能体感知当前的环境状态st;(2)智能体根据当前的环境状态st及当前采取的策略从动作空间中选择一个动作at并执行该动作;(3)当智能体所选动作作用于环境时,环境转移到新状态st+1,并给出一个回报值Rt;如此循环。目前,复杂对抗条件下环境往往复杂多变,参与对抗的智能体的数量多,且具有不同的属性和多样的相互关系,导致状态空间巨大。

全方位多维复杂对抗环境条件下对抗强化学习的状态空间十分庞大,环境状态搜索困难。强化学习环境状态处理面临的主要问题有:1)复杂环境中的状态具有多个维度,并包含多个属性,这导致环境状态空间是庞大的高维连续空间集合,智能体观测条件下的状态规模更是成倍增长,状态搜索效率低下;2)状态数据集客观上反应了真实的环境信息,是实时环境状态的数据化表示,但在主观层面难以融入语义信息,使得其复杂数据具有不可解释性,上层信息难以挖掘,不同类别状态之间难以区分。

发明内容

针对现有技术的以上缺陷或改进需求,本发明提供了一种基于等效子空间的强化学习状态分层方法,针对强化学习状态空间过大导致的环境搜索困难问题,建立层次化的状态模型,将状态空间划分为不同抽象层次的等效状态子空间,以解决强化学习状态空间过大的问题,提升环境搜索效率,并为强化学习算法提供可解释基础。

为实现上述目的,本发明提供了一种基于等效子空间的强化学习状态分层方法,所述方法包括:

(1)通过智能体单个时间步对环境的观测数据生成状态语义特征向量,将其与通过环境交互产生的相关信息组成状态表示向量,并收集预设回合内的状态表示向量组成状态表示集,通过聚类分析生成若干等效子空间,得到等效状态划分;

(2)基于(1)中得到的等效状态划分,在学习训练过程中对智能体观测的状态进行分类计算,得到包含类别信息的one-hot子状态向量;

(3)学习训练过程中基于(2)中生成的one-hot子状态向量进行后续策略计算,并以预设时间分辨率通过上述步骤重新更新状态等效划分。

本发明的一个实施例中,所述步骤(1)包括:

(1-1)将单个时间步内智能体获取的相关信息组合为状态表示向量;

(1-2)在智能体与环境的交互过程中,收集预设连续时间步长内的状态表示向量组成状态表示集,并对状态表示集进行聚类分析;

(1-3)得到聚类计算的分类中心集,即为环境状态空间在抽象层面的等效状态划分,每一个类别即为等效子空间。

本发明的一个实施例中,所述步骤(1-1)中的状态表示向量为<s,r,a,next_s>,其中:s表示智能体所观测到的状态语义特征向量;r表示智能体从环境所获取的奖励反馈;a表示智能体通过决策所选择的动作;next_s表示智能体下一个时间步的状态语义特征向量。

本发明的一个实施例中,所述步骤(1-2)包括:

(1-2-1)确定状态类别总数k;

(1-2-2)在环境状态集选取k个分类训练样本,将本向量作为该类别的分类中心;

(1-2-3)依次计算未知向量样本到k个分类训练样本中心的距离;

(1-2-4)确定与未知样本最近的分类训练样本,并将该未知样本加入到该分类训练样本集中,并重新计算分类中心;

(1-2-5)重复上述步骤直到所有样本完成聚类。

本发明的一个实施例中,所述步骤(1-3)中:

所述等效状态子空间指的是具有相似的特征、产生相同回报和状态转移的状态,所有等效子空间的集合构成完整的环境状态空间,每个等效子空间可视为状态的同一类别,该子空间中的所有状态具有相似性,等效子空间具有该类别所有状态的共性特征,且隶属于不同子空间的状态之间具有差异性,对同一个等效子空间中的状态进行同样的处理,以提高状态空间的搜索效率,等效状态划分将以预设的时间分辨率重复上述步骤进行更新,并用于智能体学习训练过程中的状态分层计算。

本发明的一个实施例中,所述步骤(2)包括:

(2-1)通过步骤(1)得到的等效状态划分聚类中心集形成分类器;

(2-2)在智能体学习训练过程中对步骤1得到的状态语义特征向量通过分类器进行分类。

本发明的一个实施例中,所述步骤(2-2)包括:

(2-2-1)计算语义特征向量到每个聚类中心的距离;

(2-2-2)选取最小距离确定分类归属;

(2-2-3)根据分类归属生成one-hot向量,向量中的1代表状态类别信息,该向量即为智能体的等效子空间选择。

本发明的一个实施例中,所述步骤(3)包括:

基于所述one-hot子状态向量进行后续策略计算,起到了状态空间分层的效果,并以预设时间分辨率更新状态等效划分,设置预设的时间步长阈值,若学习训练过程达到这个阈值,则重新构建等效子空间,并将新的等效状态划分代替之前的,用于智能体的学习训练。

本发明的一个实施例中,所述步骤(1)中通过智能体单个时间步对环境的观测数据生成状态语义特征向量具体为:将单个时间步内智能体所观测到的复杂高维实时状态映射到低维的状态空间中,并保留其中的语义信息,实现高效的环境抽象表示和理解;通过图神经网络技术,将高维、连续的环境状态映射到低维、离散的特征空间,生成状态语义特征向量,使得单元对象之间的复杂关系和变化,以及状态的局部和全局特征得以表示。

本发明的一个实施例中,所述步骤(1)中通过聚类分析生成若干等效子空间具体为:

预设回合后收集智能体状态语义特征向量及对应的回报、动作和状态转移信息,组成状态表示向量<状态语义特征,回报、动作,后续状态>,经过多个时间步长,收集若干状态表示向量形成状态表示集,每隔一个固定的时间步长,对该集合进行聚类,得到的聚类结果即为环境状态的等效子空间划分。

总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:

(1)等效子空间大大缩减了待搜索的状态空间,提升了智能体对环境的搜索效率;

(2)等效状态划分结果数据通过相应的可视化处理,经过人为观察和推理,可从主观层面挖掘状态类别的深层信息,为环境状态数据的可解释性提供基础。

附图说明

图1为现有技术中智能体与环境的交互过程流程示意图;

图2为本发明实施例中基于等效子空间的强化学习状态分层方法的流程示意图;

图3为本发明实施例中等效状态划分更新的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

针对现有技术存在的问题,如图2所示,本发明提供了一种基于等效子空间的强化学习状态分层方法,其具体步骤如下:

(1)通过智能体单个时间步对环境的观测数据生成状态语义特征向量,将其与通过环境交互产生的相关信息组成状态表示向量,并收集预设回合内的状态表示向量组成状态表示集,通过聚类分析生成若干等效子空间,得到等效状态划分;

智能体通过与环境交互得到状态数据,处理后得到状态语义特征向量,这里的状态语义特征向量是环境状态的表达。该向量用于强化学习训练。<s,r,a,next_s>为状态表示向量,其中s即为上述的状态语义特征向量,其与奖励r、动作选择a和下一时间步的状态语义特征向量next_s共同组成了状态表示向量。该向量用于后述聚类分析。

(2)基于(1)中得到的等效状态划分,在学习训练过程中对智能体观测的状态进行分类计算,得到包含类别信息的one-hot子状态向量;

(3)学习训练过程中基于(2)中生成的one-hot子状态向量进行后续策略计算,并以预设时间分辨率通过上述步骤重新更新状态等效划分。

所述步骤(1)的具体过程如下:

(1-1)将单个时间步内智能体获取的相关信息组合为状态表示向量<s,r,a,next_s>,其中:

(1-1-1)s表示智能体所观测到的状态语义特征向量;

(1-1-2)r表示智能体从环境所获取的奖励反馈;

(1-1-3)a表示智能体通过决策所选择的动作;

(1-1-4)next_s表示智能体下一个时间步的状态语义特征向量。

(1-2)在智能体与环境的交互过程中,收集预设连续时间步长内的状态表示向量组成状态表示集,并对状态表示集进行聚类分析,具体步骤如下:

(1-2-1)确定状态类别总数k;

(1-2-2)在环境状态集选取k个分类训练样本,将本向量作为该类别的分类中心;

(1-2-3)依次计算未知向量样本到k个分类训练样本中心的距离;

(1-2-4)确定与未知样本最近的分类训练样本,并将该未知样本加入到该分类训练样本集中,并重新计算分类中心;

(1-2-5)重复上述步骤直到所有样本完成聚类。

(1-3)得到聚类计算的分类中心集,即为环境状态空间在抽象层面的等效状态划分,每一个类别即为等效子空间。所谓等效状态子空间指的是具有相似的特征、产生相同回报和状态转移的状态。所有等效子空间的集合构成完整的环境状态空间,每个等效子空间可视为状态的同一类别。可以认为该子空间中的所有状态具有相似性,等效子空间具有该类别所有状态的共性特征,且隶属于不同子空间的状态之间具有差异性。我们对同一个等效子空间中的状态进行同样的处理,以提高状态空间的搜索效率。等效状态划分将以预设的时间分辨率重复上述步骤进行更新,并用于智能体学习训练过程中的状态分层计算。

所述步骤(2)中基于步骤1中得到的等效状态划分,在学习训练过程中对智能体观测的状态进行分类计算,得到包含类别信息的one-hot子状态向量,其具体过程如下:

(2-1)通过步骤(1)得到的等效状态划分聚类中心集形成分类器;

(2-2)在智能体学习训练过程中对步骤1得到的状态语义特征向量通过分类器进行分类;

(2-2-1)计算语义特征向量到每个聚类中心的距离;

(2-2-2)选取最小距离确定分类归属;

(2-2-3)根据分类归属生成one-hot向量,向量中的1代表状态类别信息,该向量即为智能体的等效子空间选择。

如图3所示,所述步骤(3)中学习训练过程中基于one-hot子状态向量进行后续策略计算,起到了状态空间分层的效果。并以预设时间分辨率通过上述步骤更新状态等效划分,设置预设的时间步长阈值,若学习训练过程达到这个阈值,则重新构建等效子空间,并将新的等效状态划分代替之前的,用于智能体的学习训练。

以下结合一具体实施例进一步说明本发明技术方案:

步骤1:状态理解与编码

将单个时间步内智能体所观测到的复杂高维实时状态映射到低维的状态空间中,并保留其中的语义信息,实现高效的环境抽象表示和理解。具体方式为,通过图神经网络技术,将高维、连续的环境状态映射到低维、离散的特征空间,生成状态语义特征向量,使得单元对象之间的复杂关系和变化,以及状态的局部和全局特征得以表示。

步骤2:等效状态划分

预设回合后收集智能体状态语义特征向量及对应的回报、动作和状态转移信息,组成状态表示向量<状态语义特征,回报、动作,后续状态>。经过多个时间步长,收集若干状态表示向量形成状态表示集。每隔一个固定的时间步长,对该集合进行聚类,得到的聚类结果即为环境状态的等效子空间划分。

步骤3:强化学习状态分层

学习训练过程中,智能体根据等效状态划分聚类结果,将获取的状态语义特征向量采用最邻近方法进行分类,得到子状态空间的编码,并转化为one-hot向量的形式记录环境状态的类别信息,该向量属于更高层面的抽象状态表达,用于后续的策略计算。同时以预设的时间分辨率更新等效状态划分。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种实体对齐的主动学习框架方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!