一种基于车路云协同的联合计算迁移和资源分配方法

文档序号:142874 发布日期:2021-10-22 浏览:21次 >En<

阅读说明:本技术 一种基于车路云协同的联合计算迁移和资源分配方法 (Joint computing migration and resource allocation method based on vehicle-road cloud cooperation ) 是由 王书墨 柴新越 彭昱捷 王合伟 宋晓勤 程梦倩 陈权 于 2021-06-15 设计创作,主要内容包括:本发明公开了一种基于车路云协同的联合计算迁移和资源分配方法,移动边缘设备部署在路侧,利用深度强化学习优化策略获得最优的车用户无线接入方式、信道分配和发射功率联合优化策略,车用户通过选择合适的无线接入方式、发射功率和信道,在满足计算迁移链路服务质量要求下,最小化系统时延。本发明使用深度确定性策略梯度算法可以有效解决车选择无线接入方式、用户信道分配和功率选择的联合优化问题,可以在一系列连续动作空间的优化中表现稳定。(The invention discloses a vehicle-road cloud cooperation-based joint computation migration and resource allocation method.A mobile edge device is deployed at the road side, an optimal vehicle user wireless access mode, channel allocation and transmitting power joint optimization strategy is obtained by utilizing a deep reinforcement learning optimization strategy, and a vehicle user minimizes system time delay by selecting a proper wireless access mode, transmitting power and channel under the condition of meeting the service quality requirement of a computation migration link. The method can effectively solve the problem of joint optimization of a vehicle selection wireless access mode, user channel allocation and power selection by using a depth certainty strategy gradient algorithm, and can stably perform in the optimization of a series of continuous action spaces.)

一种基于车路云协同的联合计算迁移和资源分配方法

技术领域

本发明涉及车联网的资源分配方法技术领域,尤其涉及一种基于车路云协同的联合计算迁移和资源分配方法。

背景技术

随着人工智能的发展,诸如增强现实,自动驾驶,语音识别和自然语言处理等计算密集型应用逐渐兴起。基于严格的延迟约束完成这些应用通常需要消耗大量的计算资源。因此,移动端(手机、车辆等)受限的计算能力通常很难满足应用程序的计算要求。为使移动端也能从这些应用中受益,将计算任务迁移到具有强大算力的计算节点已成为解决资源密集型应用程序与资源受限的移动端之间冲突的有效方法。如任务可从车辆上迁移到路侧或者远程云服务器。现有的迁移方案可分为三大类——云计算辅助的计算迁移,边缘/雾计算支持的迁移和云边/雾端协同的联合迁移方案。

随着车联网的快速发展,车载应用的大幅度增长数据计算量为有限的车辆计算资源带来了挑战,然而,由于云服务器的远程部署容易导致时延,无法满足车联网“低延时、高可靠性”的要求。移动边缘计算在靠近用户的位置提供计算服务,弥补了远程云计算所带来延迟波动,可以有效提高用户服务质量。有文献研究了由一个基站的MEC服务的多个用户之间的迁移决策和资源分配问题,以实现系统范围内的最佳用户效用,提出了一种启发式的移动性感知迁移算法来获得近似最优的迁移方案,目前有学者提出了一种基于MEC和云计算的协作方法,在车载网络中为汽车迁移服务,联合优化计算迁移决策和计算资源分配,并以博弈论的方式求解。

但是,边缘节点的计算资源和存储容量受到限制,而且将计算任务迁移到路边基础设施进行处理增加了通信链路的负担,给有限的通信资源带来极大的挑战。

因此,本发明提出一种基于车路云协同的联合计算迁移和资源分配方法,该方法针对移动边缘设备和中心云服务器协同计算迁移的场景,并以系统时延最大化作为计算迁移和资源分配的优化目标,同时在复杂度和性能之间取得了很好的平衡。

发明内容

本发明所要解决的技术问题是针对背景技术的缺陷,,提出一种基于车路云协同的联合计算迁移资源分配方法,移动边缘设备部署在路侧,可作为计算单元处理一些计算任务。该方法能在保证满足每条计算迁移链路满足服务质量要求的情况下,实现系统时延最小化的联合计算迁移和资源分配。

本发明为解决上述技术问题采用以下技术方案:

在考虑每条计算迁移链路的服务质量要求情况下,以合理高效计算迁移和资源分配达到系统时延最小化的目的。我们采用移动边缘计算,移动边缘设备部署在路侧,和中心云服务器作为两种无线接入方式协同,计算任务采用二进制的迁移方案。采用分布式的资源分配方法,将每辆车链路视为智能体,并且基于瞬时状态信息来选择无线接入方式、信道和发射功率。通过建立深度强化学习模型,利用深度确定性策略梯度算法(DeepDeterministic Policy Gradient,DDPG)优化深度强化学习模型。根据优化后的深度强化学习模型,得到最优的车无线接入方式、用户发射功率和信道分配策略。完成上述发明通过以下技术方案实现:一种基于车路云协同的联合计算迁移和资源分配方法,包括步骤如下:

步骤(1)构建了基于车-路-云协同的车载网络模型,车辆具有独特的无线接入模式即车辆可以接入云或者移动边缘设备;

步骤(2)建立包括N个用户迁移J个任务的联合计算迁移和资源分配模型;

步骤(3)每辆车迁移任务时获取周边移动边缘设备的资源集合μm,数据中心云服务器的资源集合σc,以及任务信息tn,j

步骤(4)采用分布式的资源分配方法,在考虑每条计算迁移链路服务质量要求的情况下,以合理高效的计算迁移和资源分配达到系统时延最小化为目标构建深度强化学习模型;

步骤(5)考虑连续动作空间中的联合优化问题,利用包含深度学习拟合,软更新,回放机制三个方面的DDPG算法优化深度强化学习模型;

步骤(6)根据优化后的深度强化学习模型,得到最优车用户无线接入方式,发射功率和信道分配策略。

进一步的,步骤(1)所述构建了基于车-路-云协同的车载网络模型,车辆具有独特的无线接入模式即车辆可以接入云或者移动边缘设备,具体如下:

如附图2所示,构建了基于车-路-云协同的车载网络模型。在这个模型中,车辆具有独特的无线接入模式即车辆可以接入云或者移动边缘设备。云计算和移动边缘计算相结合,弥补了移动边缘设备计算和存储能力有限的问题。网络模型包括配备了用于执行计算密集型任务的计算服务器的宏蜂窝、路边单元(RoadSideUnits,RSU)和车辆。

1)宏蜂窝:配备数据中心云服务器,具有强大的计算能力和存储资源。但是其由移动运营商管理,通过宏蜂窝迁移消息会收取额外的费用,而且其带宽正变得越来越饱和。

2)路边单元:其安装在道路旁,可以提供无线通信来连接车辆。MEC服务器可以部署于RSU中,具有一定的计算能力和存储能力,可以为各种异构网络设备提供服务,将迁移数据进行本地处理。

3)车辆:随着传感器和通信技术的发展,相近的车辆可以以端到端的形式进行通信。车辆主要用于收集数据信息,例如交通堵塞、交通事故或路面损坏等,然后将信息打包成消息,向服务器发出应用请求来处理和管理数据。

车辆可以通过宏蜂窝或RSU上传生成的消息。通过宏蜂窝进行消息转发,造成的延迟几乎可以忽略不计,但是会增加额外的成本,例如移动运营商收取的一些费用。将消息传递到合适的RSU。虽然RSU的报文迁移是免费的,但会造成额外的延迟,且RSU的计算资源可能不足以满足车辆的需求。

进一步的,步骤(2)所述建立包括N个用户迁移J个任务的通信模型和计算模型,进而建立联合计算迁移和资源分配模型,包括如下具体步骤:

步骤(2.1)、建立通信模型,宏蜂窝和路边单元(RoadSide Units,RSU)两种无线电接入具有不同频率。假设有M个RSU安装在道路两旁,用表示,将RSU的可用带宽分为I个信道,用I={1,2,...,I}表示,将宏蜂窝网络用的带宽划分为一组子信道用表示。有N个用户J个计算任务需要迁移,分别用N={1,2,...,N}和J={1,2,...,J}表示。

用Pm,n表示第n个用户到第m个边缘设备的发射功率,第m个边缘设备服务的第n个用户的信噪比SINR可以通过计算得到:

其中hm,n表示第n个用户到第m个边缘设备的子信道增益,δ2表示噪声功率,ρn[i]∈{0,1}表示第i个信道是否被第n个用户使用,ρn[i]=1表示用户n使用i信道,ρn[i]=0表示用户n没有使用i信道。

第n个用户向第m个边缘设备的传输速率可以表示为:

Rm,n=ωm,n log2(1+Гm,n)

ωm,n是边缘设备m服务用户n所占用的带宽,总的可达传输速率是所有并发传输链路的传输速率之和。

同理,如果第n个用户直接通过k信道直接向宏蜂窝发射信息,其传输速率可以表示为:

其中ωk,n,是n个用户向宏蜂窝网络通过k信道传输信息占用的带宽和信噪比,bk,n∈{0,1}表示第k个信道是否被第n个用户使用;

步骤(2.2)建立计算模型,对于每个MEC均有资源集合μm={Qm,Rm,fm,Em},其中Qm表示MEC服务器的最大计算资源,Rm表示MEC服务器最大可用存储容量,fm表示MEC服务器的计算能力,Em表示MEC服务器CPU每运转一周消耗的能量。

对于数据中心云服务器有σc={fc,Ec},fc表示中心云服务器的计算能力,Ec表示中心云服务器CPU每运转一周消耗的能量。在这里中心云服务器拥有足够的存储资源及计算资源保证任务可以被正常执行。

对于宏蜂窝覆盖范围内的一个用户,其任务可以表示为ln,j={dn,j,tn,j,cn,j,qn,j,n∈N,j∈J},dn,j表示用户n要迁移的任务j的大小,tn,j表示用户n对任务j的最大可容忍时延,cn,j示用户n完成任务j所需的CPU周期数。qn,j表示用户n要计算任务j所需的计算资源。

第n个用户将第j个任务上传到第m个边缘服务器的上传时延为:

第m个边缘服务器处理第j个任务的计算时延为

第n个用户将第j个任务通过k信道上传到到数据中心云服务器的上传时延为

因为数据中心云服务器具有强大的计算能力,任务在数据中心云上处理的时间可以忽略。任务在服务器上处理后,最终的计算结果返回用户,很多研究表明,下传最终的计算结果的数据量与上传的数据量相比是很小的,所以可以忽略下发时延;

步骤(2.3)、建立联合计算迁移和资源分配的优化问题表述

目标是在计算资源约束,传输功率有限和用户接收端服务质量的要求下,通过联合对于用户的每一项任务如何选择接入的服务器,子信道和功率分配,使系统总延迟最小化。

对于任意一项任务tn,j,其时延 为传输时延,为计算时延。所以整个系统迁移和计算N个用户的J个任务的系统时延为:

具体优化问题如下:

其目标函数代表整个系统的时延。约束条件C1表示n用户执行其产生的第j个计算任务时只能选择一种接入方式,选择接入到移动边缘设备或者云设备。约束条件C2代表边缘设备的计算资源有限,分配给边缘设备的计算量不能超过其计算资源。约束条件C3代表无论选择边缘设备迁移还是中心云服务器迁移都要满足其服务质量的要求,在这里用最小信噪比来表示服务质量的要求。.约束条件C4代表每个用户上传任务时所分配传输功率受到用户可达的最大传输功率限制。

进一步的步骤(3)所述,每辆车迁移任务时获取所有移动边缘设备存储与计算资源占用情况以及所有任务信息,具体包括每个MEC的资源集合μm,数据中心云服务器的资源集合σc,需要执行任务的相关信息tn,j

μm={Qm,Rm,fm,Em},其中Qm表示MEC服务器的最大计算资源,Rm表示MEC服务器最大可用存储容量,fm表示MEC服务器的计算能力,Em表示MEC服务器CPU每运转一周消耗的能量。

σc={fc,Ec},fc表示中心云服务器的计算能力,Ec表示中心云服务器CPU每运转一周消耗的能量。在这里中心云服务器拥有足够的存储资源及计算资源保证任务可以被正常执行。

tn,j={dn,j,tn,j,cn,j,qn,j,n∈N,j∈J},dn,j表示用户n要迁移的任务j的大小,tn,j表示用户n对任务j的最大可容忍时延,cn,j表示用户n完成任务j所需的CPU周期数。qn,j表示用户n要计算任务j所需的计算资源。

进一步的,步骤(4)所述采用分布式的资源分配方法,在考虑每条计算迁移链路服务质量要求的情况下,以合理高效的计算迁移和资源分配达到系统时延最小化为目标构建深度强化学习模型,包括如下具体步骤:

步骤(4.1)、具体地定义状态空间S为与计算迁移和资源分配有关的信息,包括每个MEC的资源集合μm,数据中心云服务器的资源集合σc,需要执行任务的相关信息tn,j,即

st={μm,σc,tn,j}

将每辆车视为智能体,每次车基于当前状态st∈S选择无线接入方式,子信道和发射功率;

步骤(4.2)、定义动作空间A为无线接入方式,发射功率和选择的信道,表示为

无线接入方式λ:每辆车有M+1种任务迁移决策,令λn={0,1,2,..,M},λn={1,2,..,M}表示车辆n选择将其计算任务迁移到RSU m上的边缘服务器执行,而λn=0是车辆n决定将其计算任务迁移到数据中心云服务器上执行;

子信道C:选择MEC进行任务迁移,在RSU的可用带宽下有I个子信道可以选择,I={1,2,...,I};选择数据中心云服务器进行任务迁移,在宏蜂窝的可用带宽下有K个子信道可以选择

传输功率P:车辆n在上传j任务时选择不同的发射功率,但受到其最大发射功率的限制;

步骤(4.3)、定义奖励函数R,联合计算迁移和资源分配的目标是车选择无线接入方式、子信道和发射功率,在满足每条计算迁移链路服务质量要求的情况下,以合理高效的计算迁移和资源分配达到系统时延最小化为目标。因此奖励函数可以表示为:

为了获得长期的良好回报,应同时考虑眼前的回报和未来的回报。因此,强化学习的主要目标是找到一种策略来最大化预期的累积折扣回报,

其中β∈[0,1]是折扣因子;

步骤(4.4)、依据建立好的S,A和R,在Q学习的基础上建立深度强化学习模型,评估函数Q(st,at)表示从状态st执行动作at后产生的折扣奖励,Q值更新函数为:

其中rt为即时奖励函数,γ为折扣因子,st为车在t时刻的获取的移动边缘服务器、云服务器和现有任务状态信息,st+1表示车在执行at后的状态,A为动作at构成的动作空间。

进一步的,步骤(5)所述考虑连续动作空间中的联合优化问题,利用包含深度学习拟合,软更新,回放机制三个方面的DDPG算法优化深度强化学习模型,包括如下具体步骤:

步骤(5.1)、初始化训练回合数P;

步骤(5.2)、初始化P回合中的时间步t;

步骤(5.3)、在线Actor策略网络根据输入状态st,输出动作at,并获取即时的奖励rt,同时转到下一状态st+1,从而获得训练数据(st,at,rt,st+1);

步骤(5.4)、将训练数据(st,at,rt,st+1)存入经验回放池中;

步骤(5.5)、从经验回放池中随机采样m个训练数据(st,at,rt,st+1)构成数据集,发送给在线Actor策略网络、在线Critic评价网络、目标Actor策略网络和目标Critic评价网络;

步骤(5.6)、定义在线Critic评价网络的损失函数通过神经网络的梯度反向传播来更新Critic当前网络的所有参数θ;

步骤(5.7)、定义在线Actor策略网络的给抽样策略梯度通过神经网络的梯度反向传播来更新Actor当前网络的所有参数δ;

步骤(5.8)、在线训练次数达到目标网络更新频率,根据在线网络参数δ和θ分别更新目标网络参数δ′和θ′;

步骤(5.9)、判断是否满足t<K,K为p回合中的总时间步,若是,t=t+1,进入步骤5c,否则,进入步骤5j;

步骤(5.10)、判断是否满足p<I,I为训练回合数设定阈值,若是,p=p+1,进入步骤5b,否则,优化结束,得到优化后的深度强化学习模型。

进一步的,步骤(6)所述根据优化后的深度强化学习模型,得到最优车用户无线接入方式,发射功率和信道分配策略,包括如下具体步骤:

步骤(6.1)、利用DDPG算法训练好的深度强化学习模型,输入系统某时刻的状态信息st

步骤(6.2)、输出最优动作策略得到最优的车无线接入方式分配信道和用户发射功率

本发明采用以上技术方案与现有技术相比,具有以下技术效果:

1.移动边缘设备部署在路侧,利用深度强化学习优化策略获得最优的车用户无线接入方式、信道分配和发射功率联合优化策略;

2.车用户通过选择合适的无线接入方式、发射功率和分配信道,在满足链路服务质量的约束下,最小化系统时延;

3.本发明使用DDPG算法可以有效解决车路云协同的无线接入方式、信道分配和功率选择的联合优化问题,可以在一系列连续动作空间的优化中表现稳定;

4.在保证资源分配合理,计算迁移链路的服务质量要求以及计算复杂度低的情况下,本发明提出的一种基于车路云协同的联合计算迁移和资源分配方法在最小化系统时延方面是优越的。

附图说明

图1为基于车路云协同的联合计算迁移和资源分配方法的流程图。

图2为基于车路云协同的联合计算迁移和资源分配模型示意图。

图3为边缘计算和云计算协同的示意图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明:

本发明公开了一种基于车路云协同的联合计算迁移和资源分配方法,本发明的核心思想在于:移动边缘设备部署在路侧,采用分布的资源分配方法,将每辆车视为智能体,通过建立深度强化学习模型,利用DDPG算法优化深度强化学习模型。根据优化后的深度强化学习模型,得到最优的车无线接入方式、用户发射功率和信道分配策略。

下面对本发明做进一步详细描述。

步骤(1)构建了基于车-路-云协同的车载网络模型,车辆具有独特的无线接入模式即车辆可以接入云或者移动边缘设备;

步骤(1)所述构建了基于车-路-云协同的车载网络模型,车辆具有独特的无线接入模式即车辆可以接入云或者移动边缘设备,具体如下:

如附图2所示,构建了基于车-路-云协同的车载网络模型。在这个模型中,车辆具有独特的无线接入模式即车辆可以接入云或者移动边缘设备。云计算和移动边缘计算相结合,弥补了移动边缘设备计算和存储能力有限的问题。网络模型包括配备了用于执行计算密集型任务的计算服务器的宏蜂窝、路边单元(RoadSide Units,RSU)和车辆。

1)宏蜂窝:配备数据中心云服务器,具有强大的计算能力和存储资源。但是其由移动运营商管理,通过宏蜂窝迁移消息会收取额外的费用,而且其带宽正变得越来越饱和。

2)路边单元:其安装在道路旁,可以提供无线通信来连接车辆。MEC服务器可以部署于RSU中,具有一定的计算能力和存储能力,可以为各种异构网络设备提供服务,将迁移数据进行本地处理。

3)车辆:随着传感器和通信技术的发展,相近的车辆可以以端到端的形式进行通信。车辆主要用于收集数据信息,例如交通堵塞、交通事故或路面损坏等,然后将信息打包成消息,向服务器发出应用请求来处理和管理数据。

车辆可以通过宏蜂窝或RSU上传生成的消息。通过宏蜂窝进行消息转发,造成的延迟几乎可以忽略不计,但是会增加额外的成本,例如移动运营商收取的一些费用。将消息传递到合适的RSU。虽然RSU的报文迁移是免费的,但会造成额外的延迟,且RSU的计算资源可能不足以满足车辆的需求。

步骤(2)建立包括n个用户迁移J个任务的通信模型和计算模型,进而建立联合计算迁移和资源分配模型;

步骤(2)所诉的建立包括N个用户迁移J个任务的通信模型和计算模型,进而建立联合计算迁移和资源分配模型,包括如下具体步骤:

步骤(2.1)、建立通信模型,宏蜂窝和RSU两种无线电接入具有不同频率。假设有M个RSU安装在道路两旁,用表示,将RSU的可用带宽分为I个信道,用I={1,2,...,I}表示,将宏蜂窝网络用的带宽划分为一组子信道用表示。有N个用户J个计算任务需要迁移,分别用N={1,2,...,N}和J={1,2,...,J}表示。

用Pm,n表示第n个用户到第m个边缘设备的发射功率,第m个边缘设备服务的第n个用户的信噪比SINR可以通过计算得到

其中hm,n表示第n个用户到第m个边缘设备的子信道增益,δ2表示噪声功率,ρn[i]∈{0,1}表示第i个信道是否被第n个用户使用,ρn[i]=1表示用户n使用i信道,ρn[i]=0表示用户n没有使用i信道。

第n个用户向第m个边缘设备的传输速率可以表示为:

Rm,n=ωm,n log2(1+Гm,n) (2)

ωm,n是边缘设备m服务用户n所占用的带宽,总的可达传输速率是所有并发传输链路的传输速率之和。

同理,如果第n个用户直接通过k信道直接向宏蜂窝发射信息,其传输速率可以表示为:

其中ωk,n,是n个用户向宏蜂窝网络通过k信道传输信息占用的带宽和信噪比,bk,n∈{0,1}表示第k个信道是否被第n个用户使用。

步骤(2.2)、建立计算模型,对于每个MEC均有资源集合μm={Qm,Rm,fm,Em},其中Qm表示MEC服务器的最大计算资源,Rm表示MEC服务器最大可用存储容量,fm表示MEC服务器的计算能力,Em表示MEC服务器CPU每运转一周消耗的能量。

对于数据中心云服务器有σc={fc,Ec},fc表示中心云服务器的计算能力,Ec表示中心云服务器CPU每运转一周消耗的能量。在这里中心云服务器拥有足够的存储资源及计算资源保证任务可以被正常执行。

对于宏蜂窝覆盖范围内的一个用户,其任务可以表示为ln,j={dn,j,tn,j,cn,j,qn,j,n∈N,j∈J},dn,j表示用户n要迁移的任务j的大小,tn,j表示用户n对任务j的最大可容忍时延,cn,j表示用户n完成任务j所需的CPU周期数。qn,j表示用户n要计算任务j所需的计算资源

第n个用户将第j个任务上传到第m个边缘服务器的上传时延为:

第m个边缘服务器处理第j个任务的计算时延为:

第n个用户将第j个任务通过k信道上传到到数据中心云服务器的上传时延为:

因为数据中心云服务器具有强大的计算能力,任务在数据中心云上处理的时间可以忽略。任务在服务器上处理后,最终的计算结果返回用户,很多研究表明,下传最终的计算结果的数据量与上传的数据量相比是很小的,所以可以忽略下发时延。

步骤(2.3)、建立联合计算迁移和资源分配的优化问题表述

目标是在计算资源约束,传输功率有限和用户接收端QoS的要求下,通过联合对于用户的每一项任务如何选择接入的服务器,子信道和功率分配,使系统总延迟最小化。

对于任意一项任务tn,j,其时延刁传输时延,为计算时延。所以整个系统迁移和计算N个用户的J个任务的系统时延为:

具体优化问题如下:

其目标函数代表整个系统的时延。约束条件C1表示n用户执行其产生的第j个计算任务时只能选择一种接入方式,选择接入到移动边缘设备或者云设备。约束条件C2代表边缘设备的计算资源有限,分配给边缘设备的计算量不能超过其计算资源。约束条件C3代表无论选择边缘设备迁移还是中心云服务器迁移都要满足其服务质量的要求,在这里用最小信噪比来表示服务质量的要求。.约束条件C4代表每个用户上传任务时所分配传输功率受到用户可达的最大传输功率限制。

步骤(3)每辆车迁移任务时获取周边移动边缘设备的资源集合μm,数据中心云服务器的资源集合σc,以及任务信息tn,j

步骤(3)所述,每辆车迁移任务时获取所有移动边缘设备存储与计算资源占用情况以及所有任务信息,具体包括每个MEC的资源集合μm,数据中心云服务器的资源集合σc,需要执行任务的相关信息tn,j

μm={Qm,Rm,fm,Em},其中Qm表示MEC服务器的最大计算资源,Rm表示MEC服务器最大可用存储容量,fm表示MEC服务器的计算能力,Em表示MEC服务器CPU每运转一周消耗的能量。

σc={fc,Ec},fc表示中心云服务器的计算能力,Ec表示中心云服务器CPU每运转一周消耗的能量。在这里中心云服务器拥有足够的存储资源及计算资源保证任务可以被正常执行。

tn,j={dn,j,tn,j,cn,j,qn,j,n∈N,j∈J},dn,j表示用户n要迁移的任务j的大小,tn,j表示用户n对任务j的最大可容忍时延,cn,j表示用户n完成任务j所需的CPU周期数。qn,j表示用户n要计算任务j所需的计算资源。

步骤(4)所述的采用分布式的资源分配方法,在考虑每条计算迁移链路服务质量要求的情况下,以合理高效的计算迁移和资源分配达到系统时延最小化为目标构建深度强化学习模型,包括如下具体步骤:

步骤(4.1)、具体地定义状态空间S为与计算迁移和资源分配有关的信息,包括每个MEC的资源集合μm,数据中心云服务器的资源集合σc,需要执行任务的相关信息tn,j,即

st={μm,σc,tn,j} (9)

将每辆车视为智能体,每次车基于当前状态st∈S选择无线接入方式,子信道和发射功率;

步骤(4.2)、定义动作空间A为无线接入方式,发射功率和选择的信道,表示为

无线接入方式λ:每辆车有M+1种任务迁移决策,令λn={0,1,2,..,M},λn={1,2,..,M}表示车辆n选择将其计算任务迁移到RSU m上的边缘服务器执行,而λn=0是车辆n决定将其计算任务迁移到数据中心云服务器上执行。

子信道C:选择MEC进行任务迁移,在RSU的可用带宽下有I个子信道可以选择,I={1,2,...,I};选择数据中心云服务器进行任务迁移,在宏蜂窝的可用带宽下有M个子信道可以选择

传输功率P:车辆n在上传j任务时选择不同的发射功率,但受到其最大发射功率的限制。

步骤(4.3)、定义奖励函数R,联合计算迁移和资源分配的目标是车选择无线接入方式、子信道和发射功率,在满足每条计算迁移链路服务质量要求的情况下,以合理高效的计算迁移和资源分配达到系统时延最小化为目标。因此奖励函数可以表示为:

为了获得长期的良好回报,应同时考虑眼前的回报和未来的回报。因此,强化学习的主要目标是找到一种策略来最大化预期的累积折扣回报,

其中β∈[0,1]是折扣因子;

步骤(4.4)、依据建立好的S,A和R,在Q学习的基础上建立深度强化学习模型,评估函数Q(st,at)表示从状态st执行动作at后产生的折扣奖励,Q值更新函数为:

其中rt为即时奖励函数,γ为折扣因子,st为车在t时刻的获取的移动边缘服务器、云服务器和现有任务状态信息,st+1表示车在执行at后的状态,A为动作at构成的动作空间。

步骤(5)所述的考虑连续动作空间中的联合优化问题,利用包含深度学习拟合,软更新,回放机制三个方面的DDPG算法优化深度强化学习模型;

深度学习拟合指DDPG算法基于Actor-Critic框架,分别使用参数为θ和δ的深度神经网络来拟合确定性策略a=μ(s|θ)和动作值函数Q(s,a|δ)。

软更新指动作值网络的参数在频繁梯度更新的同时,又用于计算策略网络的梯度,使得动作值网络的学习过程很可能出现不稳定的情况,所以提出采用软更新方式来更新网络。

分别为策略网络和动作值网络创建在线网络和目标网络两个神经网络:

训练过程中利用梯度下降不断更新网络,目标网络的更新方式如下

θ′=τθ+(1-τ)θ (13)

δ′=τδ+(1-τ)δ (14)

经验回放机制是指与环境交互时产生的状态转换样本数据具有时序关联性,易造成动作值函数拟合的偏差。因此,借鉴深度Q学习算法的经验回放机制,将采集到的样本先放入样本池,然后从样本池中随机选出一些小批量样本用于对网络的训练。这种处理去除了样本间的相关性和依赖性,解决了数据间相关性及其非静态分布的问题,使得算法更容易收敛。步骤(5)所述的利用包含深度学习拟合,软更新,回放机制三个方面的DDPG算法优化深度强化学习模型,包括如下步骤:

步骤(5.1)、初始化训练回合数P;

步骤(5.2)、初始化P回合中的时间步t;

步骤(5.3)、在线Actor策略网络根据输入状态st,输出动作at,并获取即时的奖励rt,同时转到下一状态st+1,从而获得训练数据(st,at,rt,st+1);

步骤(5.4)、将训练数据(st,at,rt,st+1)存入经验回放池中;

步骤(5.5)、从经验回放池中随机采样m个训练数据(st,at,rt,st+1)构成数据集,发送给在线Actor策略网络、在线Critic评价网络、目标Actor策略网络和目标Critic评价网络;

步骤(5.6)、设置Q估计为

yi=ri+γQ′(Si+1,μ′(si+1|θ′)|δ′) (15)

定义在线Critic评价网络的损失函数为

通过神经网络的梯度反向传播来更新Critic当前网络的所有参数θ;

步骤(5.7)、定义在线Actor策略网络的给抽样策略梯度为

通过神经网络的梯度反向传播来更新Actor当前网络的所有参数δ;

步骤(5.8)、在线训练次数达到目标网络更新频数,根据在线网络参数δ和θ分别更新目标网络参数δ′和θ′;

步骤(5.9)、判断是否满足t<K,K为p回合中的总时间步,若是,t=t+1,进入步骤5c,否则,进入步骤5j;

步骤(5.10)、判断是否满足p<I,I为训练回合数设定阈值,若是,p=p+1,进入步骤5b,否则,优化结束,得到优化后的深度强化学习模型。

步骤(6)根据优化后的深度强化学习模型,得到最优车用户无线接入方式,发射功率和信道分配策略,包括如下步骤:

步骤(6.1)。利用DDPG算法训练好的深度强化学习模型,输入系统某时刻的状态信息sk(t);

步骤(6.2)、输出最优动作策略得到最优的车无线接入方式分配信道和用户发射功率

在图1中,描述了一种基于车路云协同的联合计算迁移和资源分配方法的流程,移动边缘设备部署在路侧,和云服务器协同计算,利用DDPG优化深度强化学习模型获得最优的用户无线接入方式、信道分配和发射功率联合优化策略。

在图2中,描述了基于DDPG的联合计算迁移和资源分配模型,移动边缘设备部署在路侧。

在图3中,描述了移动边缘设备与云服务器协同的场景。云计算和移动边缘云计算应该相互协调,相互补充,从而可以更好地满足移动用户需求。

根据对本发明的说明,本领域的技术人员应该不难看出,本发明的基于车路云协同的联合计算迁移和资源分配方法可以减小系统时延并且能保证系统性能。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

17页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:车辆控制装置、车辆、记录介质和车辆控制方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类