一种基于强化学习的无人机群智感知任务的路径规划方法

文档序号:1830666 发布日期:2021-11-12 浏览:23次 >En<

阅读说明:本技术 一种基于强化学习的无人机群智感知任务的路径规划方法 (Route planning method for unmanned aerial vehicle crowd sensing task based on reinforcement learning ) 是由 魏凯敏 黄凯 翁健 吴永东 贺宏亮 刘志全 冯丙文 于 2021-07-06 设计创作,主要内容包括:本发明公开了一种基于强化学习的无人机群智感知任务的路径规划方法,在演员-批评者架构中加入多头注意力机制和对其他无人机策略的拟合,使得无人机执行决策时,充分考虑其他无人机的状态和策略。当无人机的数据收集量大于平均水平时,给予额外的奖励值以加速任务完成。当无人机间的路径重叠时,根据信号点数据量判断属于协作或竞争,依此修正它们的奖励值,从而促进其协作。使用n步返回时序差分计算批评者网络的目标价值,使无人机更有远见。最后,为使无人机更好的探索最大化数据收集量,使用分布式架构,给不同虚拟场景的无人机决策网络输出的动作加上不同方差的噪声。(The invention discloses a route planning method for an unmanned aerial vehicle crowd sensing task based on reinforcement learning, wherein a multi-head attention mechanism and fitting to other unmanned aerial vehicle strategies are added in an actor-critic framework, so that the states and strategies of other unmanned aerial vehicles are fully considered when the unmanned aerial vehicle executes a decision. When the data collection amount of the drone is greater than the average level, additional reward values are given to speed up task completion. When paths among the unmanned aerial vehicles are overlapped, the unmanned aerial vehicles are judged to belong to cooperation or competition according to the signal point data quantity, and the reward values of the unmanned aerial vehicles are corrected accordingly, so that cooperation is promoted. And the target value of the critic network is calculated by using the n-step return time sequence difference, so that the unmanned aerial vehicle is more visible. And finally, in order to enable the unmanned aerial vehicle to better explore the maximum data collection amount, a distributed architecture is used, and noises with different variances are added to actions output by decision networks of the unmanned aerial vehicle in different virtual scenes.)

一种基于强化学习的无人机群智感知任务的路径规划方法

技术领域

本发明涉及移动群智感知任务技术领域,具体涉及一种基于强化学习的无人机群智感知任务的路径规划方法。

背景技术

在传统群智感知任务中,大量的非专业用户使用手机、智能穿戴设备等作为基本的感知单元,通过互联网进行协作,实现感知任务的分发和数据收集利用,最终完成复杂的、大规模的感知任务。

随着传感器技术和无线通信技术的高速发展,以及日渐成熟的无人机技术,市面上的无人机集成了越来越多的传感器,拥有越来越强大的感知能力和计算能力。在此背景下,利用无人机感知大规模数据成为可能。

强化学习是研究代理如何通过在环境中反复试验学习的方法。环境是代理与之互动的世界,在交互的每个步骤中,代理可以得到对环境的观察,然后根据策略决定所要采取的动作。当代理对环境进行操作时,环境会随之发生变化,并依据当前环境状态、动作、下一时刻环境状态得到奖励值。而策略是从环境中反复试验所学得的。强化学习的目标是学得一个能够使预期收益最大化的策略。

演员-批评者架构集成了值函数估计算法和策略搜索算法。由于在传统的策略梯度算法中,会因为采样次数的不足导致训练过程中对累积奖励期望值的估计不稳定,因此使用批评者网络作为值函数Q,来估计在当前环境状态下演员策略网络采取某动作的预期收益。

发明内容

本发明的目的是为了解决现有多智能体强化学习算法中的上述缺陷,公开了一种基于强化学习的无人机群智感知任务的路径规划方法,在演员-批评者架构中加入多头注意力机制和对其他无人机策略的拟合,使得无人机执行决策时,充分考虑其他无人机的状态和策略。当无人机的数据收集量大于平均水平时,给予额外的奖励值以加速任务完成。当无人机间的路径重叠时,根据信号点数据量判断属于协作或竞争,依此修正它们的奖励值,从而促进其协作。使用n步返回时序差分计算批评者网络的目标价值,使无人机更有远见。最后,为使无人机更好的探索最大化数据收集量,使用分布式架构,给不同虚拟场景的无人机决策网络输出的动作加上不同方差的噪声。

本发明的目的可以通过采取如下技术方案达到:

一种基于强化学习的无人机群智感知任务的路径规划方法,所述路径规划方法包括以下步骤:

S1、根据感知任务的环境,构建无人机的仿真环境,设置无人机u在t时刻所能观测到的局部观测值为无人机u设置通讯功能,使无人机u能获得其他无人机的局部观测值;

S2、使用使用演员-批评者架构,为每个无人机初始化四个网络,包括演员策略网络、演员目标策略网络、批评者网络、批评者目标网络,其中,所有无人机的演员策略网络μ={μ1,…,μu,…,μ|U|},演员目标策略网络μ′={μ′1,…,μ′u,…,μ′|U|},批评者网络Q={Q1,…,Qu,…,Q|U|},批评者目标网络Q′={Q′1,…,Q′u,…,Q′|U|},|U|为无人机的数量,μu为无人机u的演员策略网络,μ′u为无人机u的演员目标策略网络,Qu为无人机u的批评者网络,Q′u为无人机u的批评者目标网络,设置无人机u在t时刻的动作其中为无人机u在t时刻的局部观测值,是随机噪声;通过合理设置该随机噪声能够使得无人机做更好的探索;

S3、根据感知任务目标构造奖励函数,在利用无人机感知数据的任务中,需要达到以下目标:(1)无人机飞行的安全性,(2)所有无人机数据收集量之和最大化,(3)无人机能源效率的最大化,(4)信号点被感知数据量之间满足均衡性;基于以上目标,构造奖励函数;

S4、使用演员-批评者架构,在演员决策网络加入多头注意力机制;

S5、在无人机的演员决策网络中,加入对其他无人机决策网络的拟合,使得无人机在决策时,能够充分考虑其他无人机的策略,从而做出更优的决策;

S6、在批评者网络加入多头注意力机制;

S7、计算每时刻无人机数据收集量的均值,根据无人机在该时刻所收集的数据量修正其奖励值;当无人机间的路径重叠时,根据信号点数据量判断属于协作或竞争,依此修正它们的奖励值;

S8、使用n步返回时序差分计算批评者网络Q的目标值;

S9、在基于时序差分误差的优先级经验重放机制的基础上使用随机采样策略采样经验值;

S10、设置最大迭代轮次;

S11、使用分布式架构执行动作,获取经验四元组;

S12、所有无人机使用批量大小为b的经验四元组更新无人机的批评者网络Q和演员策略网络μ;

S13、使用软更新策略以更新演员目标策略网络μ′和批评者目标网络Q′;

S14、反复执行步骤S11-S13以更新所有无人机的演员策略网络μ、演员目标策略网络μ′、批评者网络Q、批评者目标网络Q′,直至迭代次数达到最大迭代次数。

进一步地,所述步骤S3中奖励函数的构造具体计算公式为:

其中是惩罚项,无人机u在执行动作at后,撞击障碍物或没有收集到数据或电量耗尽所受到的惩罚,ft表示无人机在执行动作at后,感知任务环境中信号点被感知数据的均衡程度,具体ft的构造如下:

其中P为信号点集合,|P|为信号点数量,代表无人机在执行演员决策网络μ的输出动作后信号点p所剩余的数据量,代表无人机u在执行动作后,所收集的数据量,代表能量消耗量函数,具体构建如下:

若无人机u的动作是充电,则此时为0,若无人机u的动作是继续飞行,则此时为飞行过程中用于收集数据所消耗的电量,为飞行所消耗的电量,代表无人机u在执行动作后的一段时间内,在充电桩充电所增加的电量,代表无人机u在执行动作后,剩余电量百分比。

进一步地,所述步骤S4中使用3头注意力机制处理所有无人机的局部观测值,过程如下:

MultiHead(q,k,v)=Concat(head1,head2,head3)

其中,headh=Attention(WQ,hq,WK,hk,WV,hv),h=1、2、3,WQ,h为第h个注意力头用于分割q的矩阵,WK,h为第h个注意力头用于分割k的矩阵,WV,h为第h个注意力头用于分割v的矩阵,Attention(·)融合注意力机制计算的输出,Concat(·)用于拼接各个注意力头的输出,具体计算如下:

S401、计算q,k,v,需先将无人机所有无人机的局部观测值转换为计算注意力权重所需的向量,其中对于无人机u的局部观测值转换如下:

其中,为t时刻无人机u的局部观测值的查询向量,为无人机u的局部观测值的键向量,为无人机u的局部观测值的值向量, 的计算分别使用参数为WQ、WK、WV的线性全连接层;而q,k,v分别为所有无人机局部观测值的查询向量、键向量和值向量的拼接,具体如下:

S402、使用3头注意力,分别将t时刻无人机u的局部观测值查询向量、局部观测值键向量和局部观测值值向量分为三部分,对具体操作如下:

为使用矩阵WQ,h分割所得的无人机u的局部观测值的第h个注意力头的查询向量,为使用矩阵WK,h分割所得的无人机u的局部观测值的第h个注意力头的键向量,为使用矩阵WV,h分割所得的无人机u的局部观测值的第h个注意力头的值向量,h=1、2、3,以上计算分别使用不同的线性全连接层;

S403、分别对3头注意力计算注意力权重,得到t时刻的第h个注意力头的输出,对t时刻的第h个注意力头权重矩阵具体计算如下:

其中为步骤S402中使用矩阵WK,h分割所得的无人机u的局部观测值的第h个注意力头的键向量,为步骤S402中使用矩阵WQ,h分割所得的无人机u的局部观测值的第h个注意力头的查询向量,d为向量的维度,Softmax(·)的输出是大小为|U|*|U|的矩阵其中第u行、第u列元素计算如下:

其中EXP(·)为自然指数函数,为步骤S402中使用矩阵WK,h分割所得的无人机i的局部观测值的第h个注意力头的键向量,为步骤S402中使用矩阵WQ,h分割所得的无人机i的局部观测值的第h个注意力头的查询向量,i=1,2,…,u,…,|U|,从而t时刻的第h个注意力头的输出headh计算如下:

其中为步骤S402中使用矩阵WV,h分割所得的无人机u的局部观测值的第h个注意力头的值向量,函数ReLU为激活函数,记 为时刻t无人机u基于多头注意力机制的融合其他无人机局部观测值的第h个注意力头的输出,计算如下:

为步骤S402中使用矩阵WV,h分割所得的无人机i的局部观测值的第h个注意力头的值向量,为矩阵中的第i行第u列元素;

S404、计算多头注意力机制的输出,得到基于多头注意力机制的融合其他无人机局部观测值,其中t时刻无人机u基于多头注意力机制的融合其他无人机局部观测值的输出计算如下:

其中函数Concat(·)表示拼接向量。

进一步地,所述步骤S5在无人机u的演员策略网络μu中,加入对其他无人机决策网络的拟合,使用经过步骤S4所得t时刻所有无人机的基于多头注意力机制的融合其他无人机局部观测值的输出 其中为t时刻无人机j基于3头注意力机制的融合其他无人机局部观测值的输出,记除了无人机u的其他无人机组成的集合为\u,则t时刻无人机u对其他无人机策略的估计其中t时刻无人机u对无人机j策略的估计计算如下:

其中为线性全连接层,Tanh为激活函数;而t时刻无人机u自身的初步决策计算如下:

其中为线性全连接层,为t时刻无人机u基于3头注意力机制的融合其他无人机局部观测值的输出,为使无人机u能够做出更优的决策,在无人机u得到对其他无人机j的估计策略及无人机j基于多头注意力机制的融合其他无人机局部观测值、无人机u自身的初步决策及无人机u基于多头注意力机制的融合其他无人机局部观测值后,再次使用3头注意力机制,结构与步骤S4中的3头注意力机制相同,但无人机u的演员策略网络μu的输入为:

输出为:

其中为t时刻无人机u自身的初步决策,为t时刻无人机u基于3头注意力机制的融合其他无人机局部观测值的输出,为t时刻无人机u基于3头注意力机制的融合对其他无人机策略的估计p′t、自身的初步决策和所有无人机的基于3头注意力机制的融合其他无人机局部观测值的输出所计算得到的输出向量,则t时刻无人机u的决策网络μu最终计算结果,即动作计算如下:

其中为线性全连接层。

进一步地,所述步骤S6在无人机u的批评者网络加入多头注意力机制,使用3头注意力机制,其结构与步骤S4中的3头注意力机制相同,无人机u的批评者网络Qu输入为:

其中为t时刻无人机u的局部观测值和动作值,输出为:

为t时刻无人机u基于3头注意力机制的融合其他无人机局部观测值的输出,则t时刻无人机u的批评者网络最终计算结果,即价值计算如下:其中为线性全连接层。

进一步地,所述步骤S7中计算每时刻无人机数据收集量的均值,根据无人机在该时刻所收集的数据量修正其奖励值;当无人机间的路径重叠时,根据信号点数据量判断属于协作或竞争,依此修正与其他无人机之间存在路径重叠的无人机的奖励值,具体过程如下:

每个无人机u存放n个时刻的经验四元组的本地缓冲区Bu和经验池Mu,在每个无人机u获得奖励值后,按时间顺序将经验四元组存入缓冲区Bi

S701、当缓冲区满后,每个无人机u从本地缓冲区Bu中提取出n个时刻的三维位置信息计算每个时刻无人机数据收集量的均值Ai,当无人机u在i时刻执行动作后的数据收集量时,其中

S702、计算在过去n个时刻无人机u的行进轨迹与其余无人机行进轨迹之间的相似度,不同无人机的轨迹间相似度用矩阵相似度衡量,返回与其相似的无人机集合Su

S703、若Su非空,则遍历集合其中uβ为无人机集合Su中的无人机β,|Su|为集合Su的大小:

计算相似轨迹的覆盖区域的信号点在i时刻数据剩余量具体计算如下:

其中为无人机u和与其轨迹相似的无人机集合Su中的无人机β的相同覆盖范围中的信号点集合,为信号点在i时刻的数据剩余量,对数据剩余量进行判断,执行如下操作:

时,遍历本地缓冲区Bu中的n个经验四元组执行时,遍历本地缓冲区Bu中的n个经验四元组执行其中λ为判断区域内信号点剩余数据总量大小的阈值,为修正奖励值的正常数,具体计算如下:

S704、将本地缓冲区Bu中的n个经验四元组存放进经验池Mu,并清空本地缓冲区Bu

进一步地,所述步骤S8中使用n步返回时序差分来计算批评者网络Q的目标值,对于无人机u的批评者网络Qu的目标值计算方式如下:

其中, 表示无人机u的批评者目标网络Q′u以t+N-1时刻的环境状态值 为输入所计算出的目标价值,表示在t+N-1时刻无人机u的局部观测值,表示在t+N-1时刻无人机u的演员目标策略网络μ′u以该时刻所有无人机的观测值为输入所计算出的目标动作;

对于所有n步返回值都可以认为是完全返回的近似值,在n步之后通过来校正剩余的缺失值,其中γ为折现因子,取值为0.9,而对于t+n≥T(即n步返回值超过终止状态,T为终止状态时刻)的部分都缺省为0。

进一步地,所述步骤S9中基于时序差分误差的优先级经验重放机制的基础上使用随机采样策略采样得到的无人机u的标号为i的经验四元组的优先级δi,由时序差分误差计算得到,从而使得无人机u的演员策略网络μu和批评者网络Qu在更新参数时,不但能够更加关注优先级高的经验值,而且能防止时序差分误差为0的经验四元组被忽略,具体计算如下:

其中为步骤S8中使用n步返回时序差分计算出的无人机u的批评者网络Qu的目标值,是i时刻无人机u的局部观测值和动作值,是无人机u的批评者网络Qu的参数,∈是一个很小的正常数,防止时序差分误差为0的经验四元组被忽略,设置∈=0.01。

进一步地,所述步骤S11中使用分布式架构执行动作,获取经验四元组中,具体过程如下:

创建m个场景并行训练,其中,所创建的训练场景数量取决于计算资源CPU,并设置场景的最大状态转移次数,在不同场景中的无人机的演员策略网络产生的动作加上不同方差的噪声,而同一场景中的所有无人机使用相同的噪声无人机的演员策略网络和批评者策略网络的训练数据来源于多个场景收集经验四元组;对于最终无人机u中用于更新批评者网络Q的经验池M′u,使用从m个场景的无人机u的经验池中挑选出的高优先级的经验值进行填充,若M′u已满,则清除时间最早的经验值,其中为第m个场景的无人机u的经验池,优先级由步骤S9计算得出。

本发明相对于现有技术具有如下的优点及效果:

(1)本发明采用演员-批评者架构,利用批评者网络对演员决策网络的输出动作评估价值,经过训练最大化演员决策网络的输出动作的价值,从而使得达到感知任务目标的过程简单且高效。

(2)本发明基于注意力机制,不但能使得无人机的演员决策网络和批评者网络更关注对其有较大影响的无人机,而且能增强无人机数量的可扩展性。

(3)本发明在无人机的演员决策网络中加入对其他无人机的决策网络的拟合,使得无人机在决策时,能够充分考虑其他无人机的策略,从而做出更优的决策。

(4)本发明加入对无人机数据收集量和路径重叠情况的特殊处理,不但能使无人机倾向于收集更多的数据,而且能促进无人机之间的合作,避免不必要的竞争,从而加速感知任务的完成。

(5)本发明使用分布式架构,创建多个场景,分别使用不同方差的噪声,不但能加速训练进程,而且能促使无人机更好的探索最优动作。

附图说明

图1是本发明实施例中无人机u与仿真环境交互示意图;

图2是本发明实施例中无人机u的融合多头注意力机制和对其他无人机策略估计的演员网络结构图;

图3是本发明实施例中无人机u的融合多头注意力机制的批评者网络结构图;

图4是本发明实施例中基于强化学习的奖励值修正方法的分布式训练结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例

本实施例公开了一种基于强化学习的无人机群智感知任务的路径规划方法,包括以下步骤:

S1、确定感知任务部署环境,构建训练无人机的仿真环境。以城市场景为例,在仿真环境中至少需要饱含以下组件:信号点P、障碍物(如楼房、路灯等)O、充电桩C,最大程度地模拟无人机队U在现实中飞行的场景,确保所训练模型能够迁移到现实场景中。无人机需装载障碍物距离测量部件,以计算前进方向上的障碍物与无人机的距离。此外,无人机u在每做下一个动作之前,它在t时刻需要获得的观测值如下:当前的位置(x(u),y(u),z(u))、水平方向的角度、竖直方向的角度、指向最接近的3个信号点的三维方向向量以及与该信号点的距离和数据剩余量、指向最接近的充电桩的三维方向向量以及与该充电桩的距离和是否有无人机正在充电、与行进方向上的障碍物的距离、剩余电量和数据收集量。最后,为无人机设置通讯功能,使其能获得其他无人机的局部观测值

S2、使用使用演员-批评者架构,为每个无人机初始化四个网络,包括演员策略网络、演员目标策略网络、批评者网络、批评者目标网络。所有无人机的演员策略网络μ={μ1,…,μu,…,μ|U|},演员目标策略网络μ′={μ′1,…,μ′u,…,μ′|U|},批评者网络Q={Q1,…,Qu,…,Q|U|},批评者目标网络Q′={Q′1,…,Q′u,…,Q′|U|},其中|U|为无人机的数量。

其中无人机u的演员策略网络为μu、演员目标策略网络为μ′u、批评者网络为Qu、批评者目标网络为Q′u。在使用无人机的场景中,无人机具有通讯功能,在此通讯延迟忽略不计,故无人机能够通过通讯功能获取到其他无人机的局部观测值。其中演员策略网络是无人机用来根据当前环境的所有无人机的观测值产生动作at的,|U|为无人机数量,而无人机u在t时刻的动作其中是能够使得无人机做更好的探索的随机噪声。如图1所示,无人机u通过动作与环境产生交互,得到当前状态下执行的奖励值和下一个状态的观测值并组成经验四元组

S3、根据感知任务目标构造奖励函数。在利用无人机感知数据的任务中,需要达到以下目标:(1)无人机飞行的安全性;(2)所有无人机数据收集量之和最大化;(3)无人机能源效率的最大化;(4)信号点被感知数据量之间满足均衡性。基于以上目标,构造如下奖励函数:

其中是惩罚项,无人机在执行动作at后,撞击障碍物或没有收集到数据或电量耗尽所受到的惩罚,ft表示无人机在执行动作at后,感知任务环境中信号点被感知数据的均衡程度,具体ft的构造如下:

其中P为信号点集合,|P|为信号点数量,代表无人机在执行演员决策网络μ的输出动作后信号点p所剩余的数据量,代表能量消耗量函数,具体构建如下:

若无人机u的动作是充电,则此时为0,若无人机u的动作是继续飞行,则此时为飞行过程中用于收集数据所消耗的电量,为飞行所消耗的电量。代表无人机u在执行动作后的一段时间内,在充电桩充电所增加的电量,代表无人机u在执行动作后,剩余电量百分比。其中的作用是指示当前无人机u前往充电桩充电的动作是否必要,若剩余电量百分比低于0.6,则此时充电可防止未来的长时间飞行中因电量不足而导致坠机的后果;若剩余电量百分比高于0.6,则此时无人机剩余电量较多,我们更希望它能够去收集数据,所以在这个情况下进行充电,其奖励值为负数。

S4、使用演员-批评者架构,在演员决策网络加入多头注意力机制。原始MADDPG算法的演员决策网络的输入仅仅是单一智能体的局部观测值,而在使用无人机的场景中,无人机具有通讯功能,在此通讯延迟忽略不计,故无人机能够通过通讯功能获取到其他无人机的局部观测值。但直接将所有无人机的局部观测值作为该无人机的演员决策网络的输入是不合适的,因为并不是所有的无人机对其的影响力都相同。因此使用如图2所示的3头注意力机制处理所有无人机的局部观测值,具体步骤如下:

MultiHead(q,k,v)=Concat(head1,head2,head3)

其中,headh=Attention(WQ,hq,WK,hk,WV,hv),h=1、2、3,WQ,h为第h个注意力头用于分割q的矩阵,WK,h为第h个注意力头用于分割k的矩阵,WV,h为第h个注意力头用于分割v的矩阵,Attention(·)融合注意力机制计算的输出,Concat(·)用于拼接各个注意力头的输出,具体计算如下:

S401、为计算q,k,v,需先将无人机所有无人机的局部观测值转换为计算注意力权重所需的向量,其中对于无人机u的局部观测值转换如下:

其中为t时刻无人机u的局部观测值的查询向量,为无人机u的局部观测值的键向量,为无人机u的局部观测值的值向量, 的计算分别使用参数为WQ、WK、WV的线性全连接层。而q,k,v分别为所有无人机局部观测值的查询向量、键向量和值向量的拼接,具体如下:

其中|U|为无人机的数量。

S402、为使用3头注意力,分别将t时刻无人机u的局部观测值查询向量、局部观测值键向量和局部观测值值向量分为三部分,对具体操作如下:

为使用矩阵WQ,h分割所得的无人机u的局部观测值的第h个注意力头的查询向量,为使用矩阵WK,h分割所得的无人机u的局部观测值的第h个注意力头的键向量,为使用矩阵WV,h分割所得的无人机u的局部观测值的第h个注意力头的值向量,h=1、2、3,以上计算分别使用不同的线性全连接层。

S403、分别对3头注意力计算注意力权重,得到t时刻的第h个注意力头的输出,对t时刻的第h个注意力头权重矩阵具体计算如下:

其中为S402中所述使用矩阵WK,h分割所得的无人机u的局部观测值的第h个注意力头的键向量,为S402中所述使用矩阵WQ,h分割所得的无人机u的局部观测值的第h个注意力头的查询向量,d为向量的维度,Softmax(·)的输出是大小为|U|*|U|的矩阵其中第u行,第u列元素计算如下:

其中EXP(·)自然指数函数,为步骤S402中使用矩阵WK,h分割所得的无人机i的局部观测值的第h个注意力头的键向量,i=1,2,…,u,…,|U|,为步骤S402中使用矩阵WQ,h分割所得的无人机i的局部观测值的第h个注意力头的查询向量,i=1,2,…,u,…,|U|,从而t时刻的第h个注意力头的输出headh计算如下:

其中为S402中所述使用矩阵WV,h分割所得的无人机u的局部观测值的第h个注意力头的值向量,函数ReLU(·)为激活函数,记 为t时刻无人机u基于多头注意力机制的融合其他无人机局部观测值的第h个注意力头的输出,其中

为步骤S402中使用矩阵WV,h分割所得的无人机i的局部观测值的第h个注意力头的值向量,i=1,2,…,u,…,|U|,为矩阵中的第i行,第u列元素。

S404、为计算基于多头注意力机制的融合其他无人机局部观测值,需计算多头注意力机制的输出,其中t时刻无人机u基于多头注意力机制的融合其他无人机局部观测值的输出计算如下:

其中函数Concat(·)表示拼接向量。

S5、在无人机u的演员决策网络μu中,加入对其他无人机决策网络的拟合,使得无人机u在决策时,能够充分考虑其他无人机的策略,从而做出更优的决策。使用经过S4所得t时刻所有无人机的基于3头注意力机制的融合其他无人机局部观测值的输出 其中为t时刻无人机j基于3头注意力机制的融合其他无人机局部观测值的输出,记除了无人机u的其他无人机组成的集合为\u。则t时刻无人机u对其他无人机策略的估计其中t时刻无人机u对无人机j策略的估计计算如下:

其中为线性全连接层,Tanh(·)为激活函数;而t时刻无人机u自身的初步决策计算如下:

其中为线性全连接层,为t时刻无人机u基于3头注意力机制的融合其他无人机局部观测值的输出,为使无人机u能够做出更优的决策,在无人机u得到对其他无人机的估计策略p′t及无人机基于3头注意力机制的融合其他无人机局部观测值、无人机u自身的初步决策及无人机u基于多头注意力机制的融合其他无人机局部观测值后,再次使用3头注意力机制,结构与步骤S4中的3头注意力机制相同,但无人机u的演员决策网络的输入为:

输出为:

其中为t时刻无人机u自身的初步决策,为t时刻无人机u基于3头注意力机制的融合其他无人机局部观测值的输出,为t时刻无人机u基于3头注意力机制的融合对其他无人机策略的估计p′t、自身的初步决策和所有无人机的基于3头注意力机制的融合其他无人机局部观测值的输出所计算得到的输出向量,则t时刻无人机u的演员决策网络μu最终计算结果,即动作计算如下:

其中为线性全连接层。

S6、在批评者网络加入多头注意力机制。原始MADDPG算法的批评者网络的输入为所有智能体的动作和局部观测值,但不是所有的无人机对无人机u的影响力都相同。因此使用多头注意力机制处理所有无人机的动作和局部观测值,使用如图3所示的3头注意力机制,其结构与步骤S4中的3头注意力机制相同,但输入为:

其中为t时刻无人机u的局部观测值和动作值。

输出为:

为t时刻无人机u基于3头注意力机制的融合其他无人机局部观测值的输出,则t时刻无人机u的批评者网络最终计算结果,即价值计算如下:

其中为线性全连接层。

S7、计算每时刻无人机数据收集量的均值,根据无人机在该时刻所收集的数据量修正其奖励值。当无人机间的路径重叠时,根据信号点数据量判断属于协作或竞争,依此修正与其他无人机之间存在路径重叠的无人机的奖励值,其计算步骤如下:

每个无人机u都有各自的可以存放n个时刻的经验四元组的本地缓冲区Bu和经验池Mu,在每个无人机u获得奖励值后,按时间顺序将经验四元组存入缓冲区Bi

S701、当缓冲区满后,每个无人机u从本地缓冲区Bu中提取出n个时刻的三维位置信息计算每个时刻无人机数据收集量的均值Ai,当无人机u在i时刻执行动作后的数据收集量时,其中

S702、计算在过去n个时刻无人机u的行进轨迹与其余无人机行进轨迹之间的相似度,不同无人机的轨迹间相似度用矩阵相似度衡量,返回与其相似的无人机集合Su

S703、若Su非空,则遍历集合其中uβ为无人机集合Su中的无人机β,|Su|为集合Su的大小:

计算相似轨迹的覆盖区域的信号点在i时刻数据剩余量具体计算如下:

其中为无人机u和与其轨迹相似的无人机集合Su中的无人机β的相同覆盖范围中的信号点集合,为信号点在i时刻的数据剩余量,对数据剩余量进行判断,执行如下操作:

时,遍历本地缓冲区Bu中的n个经验四元组执行时,遍历本地缓冲区Bu中的n个经验四元组执行其中λ为判断区域内信号点剩余数据总量大小的阈值,为修正奖励值的正常数,具体计算如下:

S704、将Bu中的n个经验四元组存放进Mu,并清空本地缓冲区Bu

S8、使用n步返回时序差分。从S3中的奖励函数的构建可知,无人机会倾向于飞往信号点感知数据、在电量不足时飞往充电桩,以及在感知过程中充分考虑信号点感知的均衡性,然而在它到达信号点或充电桩之前,它不会得到正奖励。因此,为了训练出更有远见的无人机,使用n步返回时序差分来计算批评者网络Q的目标值,对于无人机u的批评者网络Qu的目标值计算方式如下:

其中, 表示无人机u的批评者目标网络Q′u以t+N-1时刻的环境状态值 为输入所计算出的目标价值,表示在t+N-1时刻无人机u的局部观测值,表示在t+N-1时刻无人机u的演员目标策略网络μ′u以该时刻所有无人机的观测值为输入所计算出的目标动作。

对于所有n步返回值都可以认为是完全返回的近似值,在n步之后通过来校正剩余的缺失值,其中γ为折现因子,取值为0.9。而对于t+n≥T(即n步返回值超过终止状态,T为终止状态时刻)的部分都缺省为0,这时候n步返回值就等价于常规的完全返回值。

S9、在基于时序差分误差的优先级经验重放机制的基础上使用随机采样策略采样经验值。传统的贪婪时序差分误差优先级经验重放机制直接使用时序差分误差计算经验值的优先级,虽然能够使批评者网络Q的参数在更新时更加关注优先级高的经验值,但存在一定的问题:过于关注高时序差分误差的经验值,这一少部分的经验值频繁的重放,而忽视低时序差分误差的经验值,会带来批评者目标网络Q′的过拟合问题。具体的,基于时序差分误差的优先级经验重放机制的基础上使用随机采样策略采样得到的无人机u的标号为i的经验四元组的优先级δi计算如下:

其中为使用n步返回时序差分计算出的无人机u的批评者网络Qu的目标值,是i时刻无人机u的局部观测值和动作值,是无人机u的批评者网络Qu的参数,∈是一个很小的正常数,防止时序差分误差为0的经验四元组被忽略,设置∈=0.01。

S10、设置最大迭代轮次。

S11、使用分布式架构,加速训练过程。如图4所示,在训练过程中,创建m个场景并行训练(所创建的训练场景数量取决于计算资源CPU),并设置场景的最大状态转移次数,在不同场景中的无人机的演员策略网络产生的动作加上不同方差的噪声,而同一场景中的所有无人机使用相同的噪声无人机的演员策略网络和批评者策略网络的训练数据来源于多个场景收集经验四元组。对于最终无人机u中用于更新批评者网络Qu的经验池M′u,使用从m个场景的无人机u的经验池中挑选出的高优先级的经验值进行填充(若M′u已满,则清除最旧的经验值),其中为第m个场景的无人机u的经验池,优先级由步骤S9计算得出,从而使无人机能够在训练过程中更好地探索最优动作,避免陷入局部最优,进而更加全面的寻找优先级最高的经验进行训练。

S12、所有无人机使用批量大小为b的经验四元组更新无人机的批评者网络Q和演员策略网络μ。对于无人机u按照经验值的优先级从经验池M′u中采样批量大小为b的经验四元组,并使用如下损失函数更新批评者网络Qu

其中,在批评者网络Qu和批评者目标网络Q′u的输入为即所有无人机在t时刻的观测值和动作,为无人机u的批评者网络Qu的参数。

演员策略网络μu的更新使用以下策略梯度:

其中为无人机u的演员策略网络μu的参数,而 表示所有无人机在t时刻的观测值,表示无人机u的演员策略网络μu以ot为输入所计算出的动作。

为了使得无人机u的演员策略网络μu中对其他无人机j策略的拟合的训练过程更加稳定,使用伪Huber损失函数更新网络参数,具体计算如下:

其中δ是需要通过实验确定的超参数,表示无人机j在t时刻的动作,表示无人机u在t时刻对无人机j策略的估计。

S13、使用软更新策略以更新演员目标策略网络μ′和批评者目标网络Q′。由于在演员策略网络μ和批评者网络Q的训练过程中,使用了演员目标策略网络μ′和批评者目标网络Q′来计算梯度,为了使该过程更加稳定,易于收敛,使用软更新策略以更新演员目标策略网络μ′和批评者目标网络Q′:

其中τ为一个小正常数,设置τ=0.001,θQ′为批评者目标网络Q′的参数,θμ′为演员目标策略网络μ′的参数。

S14、反复执行S11-S13以更新所有无人机的演员策略网络μ、演员目标策略网络μ′、批评者网络Q、批评者目标网络Q′,直至迭代次数达到最大迭代次数。

在S14完成后,即可得到能够实现无人机安全飞行,所有无人机数据收集量之和最大化、能源效率最大化、信号点被感知数据量之间满足均衡性的目标的所有的无人机的策略网络,即μ。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

28页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种非最小相位系统精确跟踪控制方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类