一种用于认知无线网络的切片资源分配方法及系统

文档序号:1116589 发布日期:2020-09-29 浏览:30次 >En<

阅读说明:本技术 一种用于认知无线网络的切片资源分配方法及系统 (Slice resource allocation method and system for cognitive wireless network ) 是由 郑伟军 张勇 陈嵘 王文华 郄文博 马滕腾 钱啸 陈鼎 方景辉 吴国庆 唐锦江 于 2020-05-26 设计创作,主要内容包括:本发明实施例提供一种用于认知无线网络的切片资源分配方法及系统。该方法包括:基于增强型移动宽带切片和超高可靠超低时延通信切片,建立认知无线网络切片资源分配模型;基于Actor-Critic深度强化学习算法对所述认知无线网络切片资源分配模型进行深度强化学习,得到切片资源分配最优解;其中,所述Actor-Critic深度强化学习算法包括定义用户状态和当前时刻到下一时刻的动作,并由所述用户状态和所述动作构建系统奖励函数。本发明实施例通过在认知网络资源分配中,结合切片技术和Actor-Critic深度强化学习算法,在有限的频谱资源和受限的发射功率情况下,对资源进行最优分配,使得系统吞吐量最大。(The embodiment of the invention provides a slice resource allocation method and system for a cognitive radio network. The method comprises the following steps: establishing a cognitive wireless network slice resource allocation model based on the enhanced mobile broadband slice and the ultra-high reliable ultra-low time delay communication slice; performing deep reinforcement learning on the cognitive wireless network slice resource allocation model based on an Actor-Critic deep reinforcement learning algorithm to obtain an optimal slice resource allocation solution; the Actor-Critic deep reinforcement learning algorithm comprises a user state and an action from the current moment to the next moment, and a system reward function is constructed by the user state and the action. In the embodiment of the invention, in the cognitive network resource allocation, the slicing technology and the Actor-Critic deep reinforcement learning algorithm are combined, and the resources are optimally allocated under the conditions of limited spectrum resources and limited transmitting power, so that the system throughput is maximum.)

一种用于认知无线网络的切片资源分配方法及系统

技术领域

本发明涉及无线通信技术领域,尤其涉及一种用于认知无线网络的切片资源分配方法及系统。

背景技术

随着无线通信技术的快速发展,无线设备(例如车辆,移动电话,平板电脑和各种无线传感器)的使用已迅速增加,促进了第五代(5G)无线通信的发展,在5G无线网络中,预计数据速率将是当前速率的10倍,并且强大的连接性和100%的覆盖范围有望提供更好的服务质量和用户体验。而实际中,频谱资源是有限的,出于安全和稳定的考虑,频谱使用是受监管的。通常将频谱访问权限授予许可用户,并且不允许未许可用户在频谱的非许可区域上发送和接收数据。因此,在频谱资源的限制和用户数量的增加之间出现矛盾,如何智能进行认知无线网络中的资源分配成为研究的热点。

在认知无线网络中,未授权用户(次用户)被允许在频谱的许可区域内进行通信,只要频谱的该部分未被授权用户(主用户)使用即可。网络切片技术是5G网络重要特征之一,网络切片本质上就是将运营商的物理网络划分为多个虚拟网络,每个虚拟网络根据不同的服务需求,比如时延、安全性、带宽和可靠性等来划分,以灵活的应对不同的应用场景如5G网络提出了三大应用领域,增强型移动宽带、超高可靠超低时延通信和大规模物联网,从而满足不同的通信特征和通信需求。

除此之外,强化学***稳些,但后者因为策略函数的解空间比较大,难以进行充分的采样,导致方差较大,并容易收敛到局部最优解。

发明内容

本发明实施例提供一种用于认知无线网络的切片资源分配方法及系统,用以解决现有技术中存在的问题或至少部分地解决存在的问题。

第一方面,本发明实施例提供一种用于认知无线网络的切片资源分配方法,包括:

基于增强型移动宽带切片和超高可靠超低时延通信切片,建立认知无线网络切片资源分配模型;

基于Actor-Critic深度强化学习算法对所述认知无线网络切片资源分配模型进行深度强化学习,得到切片资源分配最优解;其中,所述Actor-Critic深度强化学习算法包括定义用户状态和当前时刻到下一时刻的动作,并由所述用户状态和所述动作构建系统奖励函数。

进一步地,所述基于Actor-Critic深度强化学习算法对所述认知无线网络切片资源分配模型进行深度强化学习,得到切片资源分配最优解;其中,所述Actor-Critic深度强化学习算法包括定义用户状态和当前时刻到下一时刻的动作,并由所述用户状态和所述动作构建系统奖励函数,之前还包括:

获取全连接神经网络模型构建Actor-Critic深度强化学习算法网络。

进一步地,所述基于增强型移动宽带切片和超高可靠超低时延通信切片,建立认知无线网络切片资源分配模型,具体包括:

定义增强型移动宽带的主用户吞吐量和超高可靠超低时延通信的主用户中断概率;

基于所述主用户吞吐量和所述主用户中断概率,以系统吞吐量最大为目标,定义系统优化目标和系统约束条件,构建所述认知无线网络切片资源分配模型。

进一步地,所述定义增强型移动宽带的主用户吞吐量和超高可靠超低时延通信的主用户中断概率,进一步包括:

所述主用户吞吐量由任一增强型移动宽带主用户带宽和任一增强型移动宽带主用户在任一信道上的信干噪比获得,其中所述信干噪比由任一增强型移动宽带主用户发射器到主用户接收器的信道增益、任一增强型移动宽带主用户发射器到次用户接收器的信道增益、任一增强型移动宽带主用户发射器在任一信道上的发射功率和任一增强型移动宽带次用户发射器在任一信道上的发射功率获得;

所述主用户中断概率由任一超高可靠超低时延通信用户的延迟时间、任一超高可靠超低时延通信用户的最大延迟时间和最大数据到达率获得。

进一步地,所述基于所述主用户吞吐量和所述主用户中断概率,以系统吞吐量最大为目标,定义系统优化目标和系统约束条件,构建所述认知无线网络切片资源分配模型,具体包括:

以系统中所有次用户的吞吐量之和最大为所述系统优化目标;

定义任一增强型移动宽带用户速率不低于第一预设值;

定义任一超高可靠超低时延通信用户不满足低时延的概率小于第二预设值;

定义一个次用户只能占用一个信道;

定义次用户发射器功率不超过第三预设值。

进一步地,所述基于Actor-Critic深度强化学习算法对所述认知无线网络切片资源分配模型进行深度强化学习,得到切片资源分配最优解;其中,所述Actor-Critic深度强化学习算法包括定义用户状态和当前时刻到下一时刻的动作,并由所述用户状态和所述动作构建系统奖励函数,具体包括:

定义所有次用户为智能体,以及任一时刻所有主用户的信干噪比状态函数;

基于所述信干噪比状态函数,得到所述智能体从当前时刻到下一时刻的动作函数,其中所述动作函数包括任一时刻次用户占用子载波状态表示和任一时刻次用户功率状态表示;

将所述智能体的奖励函数设置为所有次用户的吞吐量之和,根据增强型移动宽带用户是否满足速率约束条件以及超高可靠超低时延通信用户是否满足功率约束条件,得到所述奖励函数的结果。

进一步地,所述获取全连接神经网络模型构建Actor-Critic深度强化学习算法网络,具体包括:

获取三层线性神经网络,其中输入层的神经元数为第一预设参数,中间隐藏层的神经元数为第二预设参数,所述输入层和所述中间隐藏层采用ReLU作为激活函数,输出层的神经元数为第三预设参数,所述输出层采用sigmoid和softmax作为激活函数;

基于所述三层线性神经网络分别构建Actor网络和Critic网络。

第二方面,本发明实施例提供一种用于认知无线网络的切片资源分配系统,包括:

构建模块,用于基于增强型移动宽带切片和超高可靠超低时延通信切片,建立认知无线网络切片资源分配模型;

求解模块,用于基于Actor-Critic深度强化学习算法对所述认知无线网络切片资源分配模型进行深度强化学习,得到切片资源分配最优解;其中,所述Actor-Critic深度强化学习算法包括定义用户状态和当前时刻到下一时刻的动作,并由所述用户状态和所述动作构建系统奖励函数。

第三方面,本发明实施例提供一种电子设备,包括:

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述用于认知无线网络的切片资源分配方法的步骤。

第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现任一项所述用于认知无线网络的切片资源分配方法的步骤。

本发明实施例提供的用于认知无线网络的切片资源分配方法及系统,通过在认知网络资源分配中,结合切片技术和Actor-Critic深度强化学习算法,在有限的频谱资源和受限的发射功率情况下,对资源进行最优分配,使得系统吞吐量最大。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种用于认知无线网络的切片资源分配方法流程图;

图2为本发明实施例提供的Actor和Critic网络示意图;

图3为本发明实施例提供的一种用于认知无线网络的切片资源分配系统结构图;

图4为本发明实施例提供的电子设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

针对现有技术中的不足,本发明实施例提出了一种用于认知无线网络的切片资源分配方法,实现了次用户在保证主用户业务的同时,联合功率和信道分配,使得系统中所有次用户的吞吐量最大。

图1为本发明实施例提供的一种用于认知无线网络的切片资源分配方法流程图,如图1所示,包括:

S1,基于增强型移动宽带切片和超高可靠超低时延通信切片,建立认知无线网络切片资源分配模型;

S2,基于Actor-Critic深度强化学习算法对所述认知无线网络切片资源分配模型进行深度强化学习,得到切片资源分配最优解;其中,所述Actor-Critic深度强化学习算法包括定义用户状态和当前时刻到下一时刻的动作,并由所述用户状态和所述动作构建系统奖励函数。

具体地,考虑5G网络中的两个应用场景的资源分配,即增强型移动宽带和超高可靠超低时延通信,进行网络资源切片,对应的资源分配问题映射到一般强化学习算法模型中,建立认知无线网络切片资源分配模型,包括了对系统的优化目标和约束条件,进一步地,提出一种基于Actor-Critic的深度强化学习资源分配方法—CNAC算法,并提出奖励函数设置机制,将认知无线网络切片资源分配模型中的约束条件和优化目标同时放入奖励函数里,求解得到认知无线系统的资源分配最优解。

本发明实施例通过在认知网络资源分配中,结合切片技术和Actor-Critic深度强化学习算法,在有限的频谱资源和受限的发射功率情况下,对资源进行最优分配,使得系统吞吐量最大。

基于上述实施例,该方法中步骤S2之前还包括:

获取全连接神经网络模型构建Actor-Critic深度强化学习算法网络。

具体地,基于Actor-Critic深度强化学习算法采用神经网络结构,包含两个网络,Actor网络和Critic网络,两者采用相同的网络结构。

基于上述任一实施例,该方法中步骤S1具体包括:

定义增强型移动宽带的主用户吞吐量和超高可靠超低时延通信的主用户中断概率;

基于所述主用户吞吐量和所述主用户中断概率,以系统吞吐量最大为目标,定义系统优化目标和系统约束条件,构建所述认知无线网络切片资源分配模型。

其中,所述定义增强型移动宽带的主用户吞吐量和超高可靠超低时延通信的主用户中断概率,进一步包括:

所述主用户吞吐量由任一增强型移动宽带主用户带宽和任一增强型移动宽带主用户在任一信道上的信干噪比获得,其中所述信干噪比由任一增强型移动宽带主用户发射器到主用户接收器的信道增益、任一增强型移动宽带主用户发射器到次用户接收器的信道增益、任一增强型移动宽带主用户发射器在任一信道上的发射功率和任一增强型移动宽带次用户发射器在任一信道上的发射功率获得;

所述主用户中断概率由任一超高可靠超低时延通信用户的延迟时间、任一超高可靠超低时延通信用户的最大延迟时间和最大数据到达率获得。

其中,所述基于所述主用户吞吐量和所述主用户中断概率,以系统吞吐量最大为目标,定义系统优化目标和系统约束条件,构建所述认知无线网络切片资源分配模型,具体包括:

以系统中所有次用户的吞吐量之和最大为所述系统优化目标;

定义任一增强型移动宽带用户速率不低于第一预设值;

定义任一超高可靠超低时延通信用户不满足低时延的概率小于第二预设值;

定义一个次用户只能占用一个信道;

定义次用户发射器功率不超过第三预设值。

具体地,首先建立认知无线网络切片资源分配模型,此处考虑增强型移动宽带(eMBB)切片用户和超高可靠超低时延通信(URLLC)切片用户。

定义eMBB切片的主用户m吞吐量满足:

cm,k(t)≥μ0,m∈M1

其中,

Figure BDA0002509844720000071

cm,k(t)表示第m个用户在信道k的数据传输速率,gm,k和gnm,k分别表示主用户m的发射器到主用户m接收器的信道增益和主用户m的发射器到次用户接收器n的信道增益,pm(k)表示主用户发射器在第k个信道上的发射功率,pn,k(t)表示次用户发射器在第k个信道上的发射功率,Bm表示用户m的带宽,B表示整个认知系统的带宽,μ0表示用户m的最低吞吐量需求。

对于URLLC切片用户,假设切片2用户数据包的到达过程可以用M/M/1/∞排队系统来表示,且数据包长度遵循指数分布,主用户m的中断概率是m∈M2。其中,dm表示用户m的延迟时间,dm,β表示用户m的最大延迟时间,rm表示最大数据到达率。

进一步地,分配方法以系统吞吐量最大为目标,提出的优化目标和约束条件如下:

Figure BDA0002509844720000083

此处,约束条件C1表示eMBB切片用户速率最低不能低于μ0,C2表示URLLC切片用户不满足低时延的概率小于最小值τ,C3表示一个信道最多只能被一个次用户占用,C4为次用户发射器发射功率约束。

基于上述任一实施例,该方法中步骤S2具体包括:

定义所有次用户为智能体,以及任一时刻所有主用户的信干噪比状态函数;

基于所述信干噪比状态函数,得到所述智能体从当前时刻到下一时刻的动作函数,其中所述动作函数包括任一时刻次用户占用子载波状态表示和任一时刻次用户功率状态表示;

将所述智能体的奖励函数设置为所有次用户的吞吐量之和,根据增强型移动宽带用户是否满足速率约束条件以及超高可靠超低时延通信用户是否满足功率约束条件,得到所述奖励函数的结果。

具体地,在前述实施例的基础上,提出一种基于Actor-Critic的深度强化学习资源分配方法——CNAC算法,将所有的次用户看成一个智能体,将t时刻所有主用户的SINR作为状态,用st表示为:

st={SINR1(t),SINR2(t),...,SINRM(t)}

智能体从st到st+1做出的动作表示为:

表示在t时刻次用户占用子载波的情况,

Figure BDA0002509844720000093

表示次用户功率情况。

由于问题目标是认知系统吞吐量最大,并且考虑到两个切片的用户业务需求不同即约束不同,根据拉格朗日对偶法,此处将智能体的奖励函数r(st,at)设置为所有次用户的吞吐量的和

如果eMBB用户满足速率约束且URLLC用户满足功率约束,则reward设置为次用户的吞吐量和;当eMBB用户没达到速率约束要求,reward设置为0;当URLLC用户没达到速率要求时,reward设置为0。

基于上述任一实施例,所述获取全连接神经网络模型构建Actor-Critic强化学习算法网络,具体包括:

获取三层线性神经网络,其中输入层的神经元数为第一预设参数,中间隐藏层的神经元数为第二预设参数,所述输入层和所述中间隐藏层采用ReLU作为激活函数,输出层的神经元数为第三预设参数,所述输出层采用sigmoid和softmax作为激活函数;

基于所述三层线性神经网络分别构建Actor网络和Critic网络。

具体地,Actor-Critic深度强化学习算法网络包含两个网络,分别是Actor网络和Critic网络,如图2所示,Actor基于Policy算法,功能是做出决策,Critic对Actor的决策进行评价,根据状态、动作和奖励,产生TD error,再去指导Actor之后的决策。

可以理解的是,Actor网络和Critic网络采用相同的神经网络结构,CNAC算法神经网络部分,主体采用三层线性神经网络,输入层的神经元数为16,激活函数为relu,中间隐藏层的神经元数为30,激活函数为relu,输出层的神经元数为12,使用sigmoid和softmax两个激活函数。

神经网络采用了dropout技术,增加网络泛化能力的同时,也降低了网络的方差,防止了过拟合的发生。为了加快网络的训练,在网络的反向传播过程中,采用AdamOptimizers优化器。

基于上述任一实施例,在本发明实施例基础上,进行仿真实验,并使用DQN(Deep QNetwork)算法进行对比实验,实验结果表明提出的CNAC算法结果能更快进行收敛,在稳定性和中断率上表现地更好。

图3为本发明实施例提供的一种用于认知无线网络的切片资源分配系统结构图,如图3所示,包括:构建模块31和求解模块32;其中:

构建模块31用于基于增强型移动宽带切片和超高可靠超低时延通信切片,建立认知无线网络切片资源分配模型;求解模块32用于基于Actor-Critic深度强化学习算法对所述认知无线网络切片资源分配模型进行深度强化学习,得到切片资源分配最优解;其中,所述Actor-Critic深度强化学习算法包括定义用户状态和当前时刻到下一时刻的动作,并由所述用户状态和所述动作构建系统奖励函数。

本发明实施例提供的系统用于执行上述对应的方法,其具体的实施方式与方法的实施方式一致,涉及的算法流程与对应的方法算法流程相同,此处不再赘述。

本发明实施例通过在认知网络资源分配中,结合切片技术和Actor-Critic强化学习算法,在有限的频谱资源和受限的发射功率情况下,对资源进行最优分配,使得系统吞吐量最大。

图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行如下方法:基于增强型移动宽带切片和超高可靠超低时延通信切片,建立认知无线网络切片资源分配模型;基于Actor-Critic深度强化学习算法对所述认知无线网络切片资源分配模型进行深度强化学习,得到切片资源分配最优解;其中,所述Actor-Critic深度强化学习算法包括定义用户状态和当前时刻到下一时刻的动作,并由所述用户状态和所述动作构建系统奖励函数。

此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:基于增强型移动宽带切片和超高可靠超低时延通信切片,建立认知无线网络切片资源分配模型;基于Actor-Critic深度强化学习算法对所述认知无线网络切片资源分配模型进行深度强化学习,得到切片资源分配最优解;其中,所述Actor-Critic深度强化学习算法包括定义用户状态和当前时刻到下一时刻的动作,并由所述用户状态和所述动作构建系统奖励函数。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

13页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:利用复合式编码提高认知无线电系统带宽的方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!