一种基于强化学习的无线异构车联网边缘卸载方案

文档序号：1802680 发布日期：2021-11-05 浏览：16次 >En<

阅读说明：本技术 一种基于强化学习的无线异构车联网边缘卸载方案 (Wireless heterogeneous Internet of vehicles edge unloading scheme based on reinforcement learning ) 是由李帆远林艳闫帅彭诺蘅张一晋束锋于 2020-06-12 设计创作，主要内容包括：本发明公开了一种基于强化学习的无线异构车联网边缘卸载方案。在该方案中,用户车辆支持V2I、V2V两种卸载方式。实施本发明首先需要AP在每时隙的开头观察并收集路段中的环境信息,包括路段中所有基站车辆、用户车辆的位置以及所有V2I信道和V2V信道的信道增益。其次,基于收集到的环境状态,通过DQN网络,确定该时隙内所有用户车辆的任务卸载选择。然后,AP将卸载选择广播到所有相关车辆,使各用户车辆卸载任务至目标边缘服务器。最后,在时隙的末尾,AP接收所有用户车辆对这一时隙计算率的反馈,并以该反馈的函数作为回报,进而训练DQN网络。本发明可以实现在不同车辆数目、随机变化的车联网环境中通过训练获得用户车辆的最佳计算任务卸载选择,为计算密集型以及时延敏感性计算任务的车联网应用提供决策。(The invention discloses a wireless heterogeneous Internet of vehicles edge unloading scheme based on reinforcement learning. In the scheme, the user vehicle supports two unloading modes of V2I and V2V. Implementing the present invention first requires the AP to observe and collect environmental information in the road segment at the beginning of each time slot, including the location of all base station vehicles, user vehicles, and the channel gains of all V2I channels and V2V channels in the road segment. Secondly, based on the collected environment states, task unloading selection of all the user vehicles in the time slot is determined through the DQN network. The AP then broadcasts the offload selection to all relevant vehicles, causing each user vehicle to offload tasks to the target edge server. And finally, at the end of the time slot, the AP receives the feedback of all the user vehicles to the calculation rate of the time slot, and takes the feedback function as a return to train the DQN network. The method can achieve the purpose of obtaining the optimal calculation task unloading selection of the user vehicle through training in the vehicle networking environment with different vehicle numbers and random variation, and provides decision for the vehicle networking application of calculation intensive and delay sensitive calculation tasks.)

技术领域

本发明涉及物联网技术领域，特别涉及移动边缘计算和车联网。

背景技术

移动边缘计算(Mobile Edge Computing,MEC)的概念最早是由欧洲电信标准协会(ETSI)于2014年提出的，被定义为在无线电接入网中的用户附近提供IT和云计算能力的一个新平台。在以MEC为基础的物联网(Internet of Things,IoT)中，设备可以将所有或者部分计算任务卸载至MEC服务器，以加速任务的计算，节省设备的能源。此时，主要的技术问题变成了是否、何时、多少计算任务应该被卸载。目前，许多文献针对该问题设计了最佳策略，这些策略满足的性能需求也多种多样。然而，目前的文献中，车辆在MEC网络中仅仅作为接受服务的客户存在，并且MEC网络中的边缘服务器为静态。由于大量用户设备爆炸性的服务需求，这可能导致“服务陷阱(Service Hole)”，即传统边缘服务器无法应对所有用户的通信、计算需求爆发。此外，在有关DQN的文献中，由于采用离散化的信道增益作为输入状态向量，维度的增加会严重损害其性能，并且当模型需求较高的信道量化精度时，算法收敛缓慢。

发明内容

为了克服现有技术中存在的不足，本发明提供一个基于强化学习的无线异构车联网边缘卸载方案，其中车辆与传统MEC架构中的基站都可以作为边缘服务器提供计算卸载服务给用户；实现本发明目的的技术方案为：基于强化学习的无线异构车联网边缘卸载方案，具体步骤为：

步骤1、在每时隙的开端，AP观察并收集路段中的环境信息，包括路段中所有基站车辆、用户车辆的位置和所有V2I信道和V2V信道的信道增益。

步骤2、由收集到的环境状态，根据DQN网络，确定该时隙所有用户车辆的任务卸载选择。选择包括V2I卸载方案和V2V卸载方案。

步骤3、AP将卸载选择广播到所有相关车辆，使各用户车辆卸载任务至目标边缘服务器。

步骤4、在每时隙的末尾，AP接收所有用户车辆对这一时隙计算率的反馈。

步骤5、以该反馈的函数为回报，训练DQN网络。

步骤6、返回步骤1，直到路段中没有任何用户车辆。

本发明与现有技术相比，显著优点为：本发明提出的卸载方案可以扩大计算服务的范围，提高MEC网络的可扩展性。在满足最大可接受时延的条件下，本发明提出的方案在一定程度上提高了资源利用率，同时有较快的收敛速度。

附图说明

图1为本发明的流程图。

图2为V2I卸载方案基础设施和卸载步骤的示意图。

图3为V2I卸载过程的一个典型示例，由3个时隙组成，展示了新任务进入队列、队列中任务因完成出队的过程。

图4为V2V卸载方案基础设施和卸载步骤的示意图。

图5为实施例1中DQN算法的收敛性能。其横坐标为训练episode数，纵坐标为卸载方案的总计算率。

图6为实施例1中本发明提出的卸载方案和纯V2V、纯V2I两个参考方案，在不同的车辆数目中的性能对比。

具体实施方式

下面结合附图和具体实例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

假设所有的用户车辆都有自己的计算密集型任务，且车辆的计算单元无法在规定的时延内完成该任务，所以必须将其卸载到基站车辆或者AP上。将时间分成若干个时隙(time slot)，用户车辆可以在每个时隙里，选择卸载自身的计算任务至路段中任意边缘服务器中。若用户车辆在某一个时隙里选择卸载任务至基站车辆，则称其选用车辆到车辆(Vehicle to Vehicle,V2V)卸载方案；若选择卸载至AP，则称其选用车辆到基站(Vehicleto Infrastructure,V2I)卸载方案。考虑在某一时隙n∈t每一个用户车辆选择哪一个卸载目标的问题。令

c_i，n∈{-1，0，1，...，N_U-1}

为用户车辆i∈U在时隙t的选择变量，其中当c_i＝-1时，用户车辆i选择V2I卸载方式，即卸载任务到AP上。当c_i≥0时，用户车辆i选择V2V卸载方式，且c_i的值为目标基站车辆的序号。

本发明采用DQN算法，通过观察车联网环境和接收用户车辆的计算率反馈，帮助训练DQN网络，最终使车联网中所有用户车辆做出最佳的计算任务卸载选择。方案的流程图如图1所示。

为了实现V2I方案，引入一个任务队列(Queue)。该队列可用任意存储器如SRAM、DDR实现。任务从用户车辆上传到AP后进入到队尾。同时，MEC服务器从队头取出计算任务计算。模型的架构如图2所示。对于每一个任务的完成，需要经历以下四个阶段：

1)阶段1：用户车辆上传任务文件至AP；

2)阶段2：任务进入队列等待计算；

3)阶段3：任务在MEC服务器上计算；

4)阶段4：回传任务计算结果到用户车辆。

如图3，考虑一个由3个时隙组成的V2I并行卸载过程，以进一步阐述V2I卸载方式的步骤。在时隙0，队列初始为空，MEC服务器无任务可执行，为空闲状态。用户车辆0和用户车辆1选择以V2I方式上传任务文件，在时隙0的末尾将任务task0和任务task1加入队列等待计算。在时隙1的开头，MEC服务器从队头取出任务task0进行计算。同时，用户车辆2、3选择以V2I方式上传任务文件，在时隙1的末尾将任务task2和任务task3加入队列等待计算。在时隙2的开头，MEC服务器从队头取出任务task1、2进行计算，而该时隙没有用户车辆选择V2I卸载。最后，时隙2的末尾队列里有任务task3，等待未来的时隙计算。

和V2I方式相似，被用户车辆以V2V方式选择的基站车辆需要在一个时隙之内完成三个阶段的工作:

1)阶段1：首先接收用户车辆传送过来的ITF；

2)阶段2：然后在车载计算单元上计算该ITF，得到相应的OTF；

3)阶段3：最后将OTF回传给用户车辆。

令b为时间分配因子，满足0<b<1.阶段1耗费的时间设为bT，阶段2耗费的时间为(1-b)T。由于一般情况下，OTF的大小远小于ITF，故忽略阶段3的时间消耗。一对用户车辆和基站车辆选择V2V方式卸载的情况如图4所示。

实施例1

本发明采用本章在Python平台上对算法进行实施，并基于TensorFlow和Keras实现深度神经网络。考虑一个双车道，长为500米的单行路段。路段上分布有4个基站车辆和4个用户车辆。神经网络采用5层结构，其中所有三个隐藏层都有128个节点，采用relu激活函数，输出层采用线性激活函数。DQN智能体的学习率为0.001，ε＝0.1。对于串行模型和并行模型分别有γ＝0.1和γ＝0.8。

图5展示了本发明提出的基于强化学习的无线异构边缘卸载方案的收敛性能。可以观察到，随着episode数的增加，模型的计算率呈明显的增加趋势，直到达到一个相对稳定的值。所以，本发明提出的方案有较好的收敛性。由于车辆移动和通信信道都有一定的随机性，所以在收敛时可观察到较大的计算率波动。

图6描述了在路段中不同的基站和用户车辆数下，三种卸载方案能达到的计算率。这里假定基站车辆数量和用户车辆数量相同，且其他一切参数相同。为了减少模型的随机波动，数据为50次实施的平均值。纯V2V(V2V only)方案和纯V2I(V2I only)方案为对比方案。在纯V2V方案中，所有用户车辆在每个时隙都选择以V2V方式卸载；在纯V2I方案中，所有用户车辆在每个时隙都选择以V2I方式卸载。

在这三种方案中，本发明提出的方案能达到最高的计算率。其原因如下：相对于纯V2V方案和纯V2I方案，本发明提出的方案的DQN经过足够长时间的强化学习训练。所以，本发明提出的方案可以实现在不同的车辆位置和信道状态下选择最优卸载方案，能够更加充分利用AP和基站车辆的计算资源。

11页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种基于多智能体强化学习的车联网频谱共享方法

一种基于强化学习的无线异构车联网边缘卸载方案

相关技术

网友询问留言