基于深度自动编码和特征融合的智能体蜂拥行为控制方法

文档序号:1964395 发布日期:2021-12-14 浏览:20次 >En<

阅读说明:本技术 基于深度自动编码和特征融合的智能体蜂拥行为控制方法 (Intelligent bee-keeping behavior control method based on deep automatic coding and feature fusion ) 是由 左源 朱效洲 姚雯 常强 于 2021-08-19 设计创作,主要内容包括:本发明公开了一种基于深度自动编码和特征融合的智能体蜂拥行为控制方法,包括:确定智能体的感知范围内的所有邻域智能体;利用自动编码机分别将智能体及每个邻域智能体的多源异构状态信息转化为数值化状态特征;分别对所有数值化状态特征进行维度级联,利用第一预设深度神经网络对级联后的数值化状态特征进行融合,获取智能体及每个邻域智能体的综合状态信息特征;对所有邻域智能体的综合状态信息特征进行加权合并,获取智能体的融合邻域特征;对智能体的综合状态信息特征和融合邻域特征进行维度级联,利用第二预设深度神经网络映射得到智能体的输出控制量。本发明能够控制智能体集群产生满足群体方向一致性和稳定性要求的智能体集群蜂拥行为。(The invention discloses an intelligent bee-hive behavior control method based on deep automatic coding and feature fusion, which comprises the following steps: determining all neighborhood agents within the agent&#39;s perception range; converting the multisource heterogeneous state information of the intelligent agent and each neighborhood intelligent agent into numerical state characteristics by using an automatic coding machine; performing dimensionality cascading on all the numerical state features respectively, and fusing the cascaded numerical state features by utilizing a first preset deep neural network to obtain comprehensive state information features of the intelligent agents and each neighborhood intelligent agent; weighting and combining the comprehensive state information characteristics of all neighborhood agents to obtain the fusion neighborhood characteristics of the agents; and carrying out dimensionality cascade on the comprehensive state information characteristic and the fusion neighborhood characteristic of the intelligent agent, and mapping by utilizing a second preset depth neural network to obtain the output control quantity of the intelligent agent. The invention can control the intelligent agent cluster to generate the intelligent agent cluster bee congestion behavior meeting the requirements of group direction consistency and stability.)

基于深度自动编码和特征融合的智能体蜂拥行为控制方法

技术领域

本发明涉及智能体集群运动控制技术领域,具体涉及一种基于深度自动编码和特征融合的智能体蜂拥行为控制方法。

背景技术

智能体集群是受自然界群居动物生活习性启发而设计的一类集群机器人,智能体集群没有集中式控制结构,通过智能体之间的局部交互以及智能体与外部环境的相互作用,决策执行自身能力范围内的动作,涌现出特定的宏观群体行为,从而执行特定任务。因此,智能体的群体蜂拥控制方法的研究对于进一步提高无人集群系统能效,发挥无人系统作用具有至关重要的价值和意义。

早期的智能体集群运动控制研究都是着眼于简单规则的设计、叠加和参数调整,以人工设计规则为导向,关注一致性、稳定性和收敛性等问题。虽然相应的控制方法能够在仿真模拟和小规模集群中得到了验证,但是规则叠加的不确定性和人工归纳的欠精确性使得宏观行为涌现具有不可控性。随着人工智能、深度学习等数据驱动和学习型算法的不断发展以及硬件设备的性能提升,目前已开始采用群体智能算法和深度学习技术来实现智能体集群运动控制。例如公开号为CN106970615A,发明名称为《一种深度强化学习的实时在线路径规划方法》的中国专利文献所公开的一种智能体路径规划方法,该方法利用强化学习来做路径规划,虽然强调了学习性算法在实时、自适应和灵活的场景下的作用,但是其对象是不考虑群体状态的个体,失去了宏观涌现能力,也无法达到蜂拥行为效果。又例如公开号为CN108921298A,发明名称为《强化学习多智能体沟通与决策方法》的中国专利文献所公开的一种智能体控制方法,该方法主要针对多智能体信息特征交互融合,在不考虑具体场景的情况下,利用深度学习的泛化机制和能力,自适应的提取任务相关信息,以提高后端决策智能性。该方法的优势是设计的聚类型融合方法,可以有效的自适应聚合不定数量的特征,并且吸收了表征学习可以将物理量转化为数值量的优点。但是,聚类方法有赖于聚类参数的选择,基于手动设计的状态特征以及未经过预训练的特征提取存在不稳定性;并且基于强化学习的方法输出是离散动作,无明确动作的设计不能有效的直接控制集群出现宏观涌现现象。

因此,如何有效地引导智能体在局部感知信息中,产生满足群体一致性和稳定性条件的动作进而演化为群体蜂拥行为成为了本领域技术人员亟待解决的技术问题。

发明内容

为解决上述现有技术中存在的部分或全部技术问题,本发明提供一种基于深度自动编码和特征融合的智能体蜂拥行为控制方法。

本发明的技术方案如下:

提供了一种基于深度自动编码和特征融合的智能体蜂拥行为控制方法,所述方法用于控制智能体集群蜂拥运动,包括:

确定智能体的感知范围内的所有邻域智能体;

利用并行的深度学习自动编码机分别将智能体及每个邻域智能体的多源异构状态信息转化为数值化状态特征;

分别对智能体及每个邻域智能体的所有数值化状态特征进行维度级联,并利用第一预设深度神经网络对维度级联后的数值化状态特征进行融合,获取智能体的综合状态信息特征及每个邻域智能体的综合状态信息特征;

对所有邻域智能体的综合状态信息特征进行加权合并,获取智能体对应的融合邻域特征;

对智能体的综合状态信息特征和智能体对应的融合邻域特征进行维度级联,基于维度级联后的特征,利用第二预设深度神经网络映射得到智能体的输出控制量。

在一些可能的实现方式中,智能体的多源异构状态信息包括智能体的位置、速度、加速度、标识编码和能源剩余量。

在一些可能的实现方式中,深度学习自动编码机包括编码器和解码器,深度学习自动编码机形式表示为:

φi:Xi→Hfi

其中,φi表示针对智能体的第i个状态信息Xi的编码器函数,Hfi表示经过编码器后生成的第i个状态信息Xi的数值化状态特征,ρi表示针对智能体的第i个状态信息Xi的解码器函数,表示智能体的第i个状态信息Xi对应的解码器输出。

在一些可能的实现方式中,编码器采用以Relu函数为非线性激活函数的四层全连接神经网络;

解码器采用四层全连接神经网络,并且四层全连接神经网络中前三层采用Relu函数作为非线性激活函数,第四层通过线性叠加进行输出。

在一些可能的实现方式中,第一预设深度神经网络采用以Relu函数为非线性激活函数的三层全连接神经网络。

在一些可能的实现方式中,设定智能体集群中的第i个智能体Ai的邻域为

第i个智能体Ai的综合状态信息特征为:

第i个智能体Ai对应的邻域智能体Aj的综合状态信息特征为:

其中,Aj表示智能体集群中的第j个智能体,表示智能体Ai与智能体Aj间的距离,Ri表示智能体Ai的感知半径,表示第i个智能体Ai的综合状态信息特征,Ψ表示用于融合特征的第一预设深度神经网络,concat表示特征在维度上的级联合并,表示第i个智能体Ai的第i个状态信息对应的数值化状态特征,W和b表示网络Ψ的可学习参数,表示第j个智能体Aj的综合状态信息特征,表示第j个智能体Aj的第i个状态信息对应的数值化状态特征。

在一些可能的实现方式中,对所有邻域智能体的综合状态信息特征进行加权合并时,每个邻域智能体对应的权重系数利用以下公式计算;

其中,表示智能体Ai的邻域智能体Aj对应的权重系数。

在一些可能的实现方式中,智能体对应的融合邻域特征利用以下公式计算确定;

其中,表示智能体Ai对应的融合邻域特征。

在一些可能的实现方式中,第i个智能体Ai的输出控制量利用以下公式计算确定;

其中,表示智能体的综合状态信息特征和智能体对应的融合邻域特征进行维度级联得到的融合信息,ui表示第i个智能体Ai的输出控制量,fctrl表示第二预设深度神经网络,Wout和bout表示网络fctrl的可学习参数;

其中,第二预设深度神经网络采用四层全连接神经网络,并且四层全连接神经网络中前三层采用Relu函数作为非线性激活函数,第四层通过线性叠加进行输出。

在一些可能的实现方式中,智能体的输出控制量为智能体的速度矢量。

本发明技术方案的主要优点如下:

本发明的基于深度自动编码和特征融合的智能体蜂拥行为控制方法利用自动编码机制的特征自提取方式,将各种量纲、跨度、维度不统一的连续型和离散型状态信息映射到无量纲的特征向量空间中,作为可学习的数值化特征,然后通过维度级联和深度神经网络隐性地融合智能体的各个状态特征得到综合状态信息特征,针对智能体集群蜂拥行为,充分考虑智能体有限的感知范围,对智能体的邻域特征信息进行交互融合,在融合邻域特征的基础上,结合智能体自身的状态信息特征,利用深度神经网络映射得到智能体的输出控制量,根据输出控制量对智能体进行运动控制,能够使智能体集群产生满足群体方向一致性和群体系统稳定性要求的智能体集群蜂拥行为。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一实施例的基于深度自动编码和特征融合的智能体蜂拥行为控制方法的流程图;

图2为本发明一实施例的智能体及其邻域的关系示意图;

图3为本发明一实施例的一个智能体的状态信息的处理结构框架及处理流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

以下结合附图,详细说明本发明实施例提供的技术方案。

参见图1,本发明一实施例提供了一种基于深度自动编码和特征融合的智能体蜂拥行为控制方法,该方法用于控制智能体集群蜂拥运动,包括以下步骤:

S1,确定智能体的感知范围内的所有邻域智能体;

S2,利用并行的深度学习自动编码机分别将智能体及每个邻域智能体的多源异构状态信息转化为数值化状态特征;

S3,分别对智能体及每个邻域智能体的所有数值化状态特征进行维度级联,并利用第一预设深度神经网络对维度级联后的数值化状态特征进行融合,获取智能体的综合状态信息特征及每个邻域智能体的综合状态信息特征;

S4,对所有邻域智能体的综合状态信息特征进行加权合并,获取智能体对应的融合邻域特征;

S5,对智能体的综合状态信息特征和智能体对应的融合邻域特征进行维度级联,基于维度级联后的特征,利用第二预设深度神经网络映射得到智能体的输出控制量。

本发明一实施例提供的基于深度自动编码和特征融合的智能体蜂拥行为控制方法利用自动编码机制的特征自提取方式,将各种量纲、跨度、维度不统一的连续型和离散型状态信息映射到无量纲的特征向量空间中,作为可学习的数值化特征,然后通过维度级联和深度神经网络隐性地融合智能体的各个状态特征得到综合状态信息特征,针对智能体集群蜂拥行为,充分考虑智能体有限的感知范围,对智能体的邻域特征信息进行交互融合,在融合邻域特征的基础上,结合智能体自身的状态信息特征,利用深度神经网络映射得到智能体的输出控制量,根据输出控制量对智能体进行运动控制,能够使智能体集群产生满足群体方向一致性和群体系统稳定性要求的智能体集群蜂拥行为。

以下对本发明一实施例提供的基于深度自动编码和特征融合的智能体蜂拥行为控制方法的各个步骤及原理进行具体说明。

步骤S1,确定智能体的感知范围内的所有邻域智能体。

本发明一实施例中,在进行智能体集群的蜂拥行为控制时,分别以单个智能体个体作为考察对象,确定每个智能体的感知范围内的所有邻域智能体,基于确定的所有邻域智能体,获取每个智能体在下一时刻的输出控制量,根据输出控制量对智能体进行运动控制。

参见图2,以获取智能体集群中的第i个智能体Ai的输出控制量为例,设定:智能体Ai的感知半径为Ri,智能体集群中的第j个智能体Aj位于智能体Ai的感知范围内;则智能体集群中的第i个智能体Ai的邻域可以为

其中,表示智能体Ai与智能体Aj间的距离,即智能体Ai的中心点到智能体Aj的中心点的距离,可以利用以下公式计算;

其中,Si表示智能体Ai在空间中的位置,Sj表示智能体Aj在空间中的位置,||·||2表示2范数算子。

步骤S2,利用并行的深度学习自动编码机分别将智能体及每个邻域智能体的多源异构状态信息转化为数值化状态特征。

本发明一实施例中,智能体的多源异构状态信息包括智能体的位置、速度、加速度、标识编码和能源剩余量;通过并行的深度学习自动编码机构建多源异构状态信息的量纲统一、连续数值化和可学习的状态特征,即数值化状态特征。

参见图3,本发明一实施例中,深度学习自动编码机包括编码器和解码器,针对任意一个智能体的深度学习自动编码机形式可以表示为:

φi:Xi→Hfi

其中,φi表示针对智能体的第i个状态信息Xi的编码器函数,Hfi表示经过编码器后生成的第i个状态信息Xi的隐含特征,即数值化状态特征,ρi表示针对智能体的第i个状态信息Xi的解码器函数,表示智能体的第i个状态信息Xi对应的解码器输出。

其中,编码器生成的所有状态信息隐含特征的维度相同,以便后续进行特征融合;具体的特征维度可以根据实际情况进行预设,例如预设为m维,则

可选的,编码器可以采用以Relu函数为非线性激活函数的四层全连接神经网络,并且编码器对于智能体集群是共享参数和神经网络结构的,即针对不同智能体的第i个状态信息的编码器结构及参数相同;解码器也可以采用四层全连接神经网络,该四层全连接神经网络中前三层采用Relu函数作为非线性激活函数,第四层通过线性叠加进行输出,并且解码器对于智能体集群是共享参数和神经网络结构的,即针对不同智能体的第i个状态信息的解码器结构及参数相同。

本发明一实施例中,解码器在自学习预训练时使用,编码器和解码器的参数φi和ρi可以在自学习预训练阶段通过最小化损失函数进行优化确定。

具体地,针对智能体的第i个状态信息Xi的学习优化目标函数可以为:

其中,||·||表示向量空间度量。

本发明一实施例中,针对不同特征数据可以采用不同的目标函数,例如针对连续型数据可以使用平均绝对误差或均方差,针对离散型数据可以使用交叉熵。

步骤S3,分别对智能体及每个邻域智能体的所有数值化状态特征进行维度级联,并利用第一预设深度神经网络对维度级联后的数值化状态特征进行融合,获取智能体的综合状态信息特征及每个邻域智能体的综合状态信息特征。

本发明一实施例中,第一预设深度神经网络可以采用以Relu函数为非线性激活函数的三层全连接神经网络。

具体地,以获取智能体集群中的第i个智能体Ai的输出控制量为例,第i个智能体Ai的综合状态信息特征可以表示为:

第i个智能体Ai对应的邻域智能体Aj的综合状态信息特征可以表示为:

其中,表示第i个智能体Ai的综合状态信息特征,Ψ表示用于融合特征的第一预设深度神经网络,concat表示特征在维度上的级联合并,表示第i个智能体Ai的第i个状态信息对应的数值化状态特征,W和b表示网络Ψ的可学习参数,表示第j个智能体Aj的综合状态信息特征,表示第j个智能体Aj的第i个状态信息对应的数值化状态特征。

其中,Ψ、W和b对于智能体集群是共享参数和神经网络结构的,即针对不同智能体的第一预设深度神经网络的结构及参数完全相同。

步骤S4,对所有邻域智能体的综合状态信息特征进行加权合并,获取智能体对应的融合邻域特征。

本发明一实施例中,在对所有邻域智能体的综合状态信息特征进行加权合并时,每个邻域智能体对应的权重系数可以根据邻域智能体与其所属的智能体间的相对距离和其所属的智能体的感知范围计算确定。

具体地,以获取智能体集群中的第i个智能体Ai的输出控制量为例,智能体Ai的邻域智能体Aj对应的权重系数可以利用以下公式计算确定;

其中,表示智能体Ai的邻域智能体Aj对应的权重系数,Ri表示智能体Ai的感知半径,表示智能体Ai与智能体Aj间的距离。

进一步地,智能体Ai对应的融合邻域特征可以利用以下公式计算确定;

其中,表示智能体Ai对应的融合邻域特征。

步骤S5,对智能体的综合状态信息特征和智能体对应的融合邻域特征进行维度级联,基于维度级联后的特征,利用第二预设深度神经网络映射得到智能体的输出控制量。

为了在满足运动规律约束条件下控制智能体的运行,需要同时考虑智能体的当前状态,以及智能体对应的邻域智能体集合对智能体的影响。为此,本发明一实施例中,在获取智能体的输出控制量时,先对智能体的综合状态信息特征和智能体对应的融合邻域特征进行维度级联,再利用第二预设深度神经网络将维度级联后的特征映射为智能体在下一时刻的输出控制量。

具体地,以获取智能体集群中的第i个智能体Ai的输出控制量为例,利用以下公式对智能体的综合状态信息特征和智能体对应的融合邻域特征进行维度级联操作;

其中,表示智能体的综合状态信息特征和智能体对应的融合邻域特征进行维度级联得到的融合信息,concat表示特征在维度上的级联合并。

进一步地,本发明一实施例中,第二预设深度神经网络可以采用四层全连接神经网络,且四层全连接神经网络中前三层采用Relu函数作为非线性激活函数,第四层通过线性叠加进行输出。其中,该第二预设深度神经网络对于智能体集群是共享参数和神经网络结构的,即在求解不同智能体的输出控制量时,所采用的第二预设深度神经网络的结构及参数相同。

具体地,以获取智能体集群中的第i个智能体Ai的输出控制量为例,第i个智能体Ai的输出控制量可以表示为:

其中,ui表示第i个智能体Ai的输出控制量,fctrl表示第二预设深度神经网络,Wout和bout表示网络fctrl的可学习参数。

进一步地,本发明一实施例中,为了便于进行智能体集群的运动控制,可以采用速度矢量作为控制量,此时基于上述过程获取的智能体的输出控制量即为智能体的速度矢量,根据获取的速度矢量对智能体的运动进行控制。

当智能体的输出控制量为智能体的速度矢量时,以时间间隔Δt为单次控制周期,对智能体集群中的第i个智能体Ai进行控制为例,智能体Ai将在控制周期内的运动路径可表示为:

其中,表示t+Δt时刻智能体Ai的位置向量,表示t时刻智能体Ai的位置向量,Vi表示智能体Ai的速度矢量,Vi=ui

本发明一实施例中,针对深度学习自动编码机和深度神经网络的参数优化训练,可以采用经典Reynolds蜂拥模型的运动数据作为训练集(Xtrain,Vtrain)。其中,Xtrain用于深度学习自动编码机的自学习预训练,训练目标函数可以使用上述给出的学习优化目标函数;Vtrain用于除自学习预训练外的总体控制模型的训练,包括针对控制输出部分的深度神经网络参数训练和预训练得到的编码器参数微调训练,相应的训练目标函数可以为:

CtrlLoss=||V-Vtrain||

其中,V表示智能体的输出控制量,本发明一实施例中为速度矢量。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,本文中“前”、“后”、“左”、“右”、“上”、“下”均以附图中表示的放置状态为参照。

最后应说明的是:以上实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

13页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种强化学习中超高精度探索环境下的状态空间处理方法、系统及电子设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!