一种基于Sum tree采样的深度双Q网络动态功率控制方法

文档序号:1966278 发布日期:2021-12-14 浏览:18次 >En<

阅读说明:本技术 一种基于Sum tree采样的深度双Q网络动态功率控制方法 (Deep double-Q network dynamic power control method based on Sum tree sampling ) 是由 刘德荣 刘骏 王永华 林得有 王宇慧 于 2021-08-20 设计创作,主要内容包括:本发明涉及无线电通信技术领域,公开了一种基于SumTree采样的深度双Q网络动态功率控制方法,其采用深度双Q网络进行动作价值估计时,先在当前Q网络中先找出最大Q值对应的动作,然后再利用这个选择出来的动作在目标网络里面去计算目标Q值,可以有效减小过度估计,降低损失,提高频谱分配效率,并且本发明是深度双Q网络训练时的采用是结合优先级和随机抽样,使所有样本都有被抽取到的可能性,既提高了重要经验样本利用率,又可防止样本的多样性降低,避免造成系统的过拟合,加快算法收敛速度,因此,本发明通过结合优先级和随机抽样与深度双Q网络算法,可提高动态功率控制的成功率。(The invention relates to the technical field of radio communication, and discloses a deep double-Q network dynamic power control method based on SumTree sampling, when the deep double-Q network is adopted to estimate the action value, firstly the action corresponding to the maximum Q value is found out in the current Q network, then, the selected action is utilized to calculate the target Q value in the target network, so that the overestimation can be effectively reduced, the loss is reduced, the spectrum allocation efficiency is improved, in addition, the invention combines priority and random sampling during deep double-Q network training to ensure that all samples have the possibility of being extracted, thereby not only improving the utilization rate of important experience samples, but also preventing the diversity reduction of the samples, avoiding the overfitting of a system and accelerating the convergence speed of an algorithm, therefore, the invention can improve the success rate of dynamic power control by combining the priority and the random sampling and the deep double-Q network algorithm.)

一种基于Sum Tree采样的深度双Q网络动态功率控制方法

技术领域

本发明涉及无线电通信技术领域,特别是涉及一种基于Sum Tree采样的深度双Q网络动态功率控制方法。

背景技术

J.Mitola最早于1999年完整地提出认知无线电(Cognitive Radio,CR)技术的概念,其目的是为了缓解频谱资源短缺和频谱利用率低等问题。认知无线电可以对周围的环境进行学习,并基于学习的结果对自身的行为做出相应的调整。而认知无线电技术在频谱分配中一个重要的作用就是:对取得频谱使用权的主用户(Primary User,PU)正常使用不产生干扰的前提下,次用户(Second User,SU)通过对周围无线电环境的感知,选择合适的机会进行频谱接入,以提高频谱资源的利用率。

在认知无线网络中,当频谱信道处于空闲状态或者次用户对主用户的干扰不超出主用户能够容忍的最大门限值的情况下,次用户可以自由地使用空闲频谱,此时无需考虑主用户与次用户之间的功率干扰问题。但是当授权频谱被占用或者干扰超出最大门限值的情况下,次用户既希望以较高的发射功率进行通信,满足其信息传递中对服务质量(Quality of Service,QoS)的要求,同时也要考虑过大的发射功率对主用户通信质量的影响。所以,在基于认知无线电技术的功率控制方法中,次用户需要通过不断的学习,从而以合适的发射功率完成信息传输任务。

频谱分配中功率控制问题可以建模为马尔可夫决策过程(DTMDP)和使用无模型强化学习(RL)来解决。Q-learning是最流行的RL算法之一,它通过与环境的互动获得即时奖励反馈来学习行为值函数,由于Q-learning是一种渐进的优化过程,其缺点是在行动选择时收敛速度较慢。深度Q网络(deep Q-networks,DQN)是一种新兴的深度RL算法,它将RL过程与一类神经网络(deep neural network)相结合,逼近Q动作值函数,神经网络可以弥补q学习在泛化和函数逼近能力方面的局限性。深度双Q网络(Double DQN)是在普通DQN的基础上做了算法的改进,由于普通DQN本来就有2个网络,所以Double DQN无需引入新的网络,只是将目标中现实值的求取操作分解为使用不同的网络来进行动作选择和动作评估。

有研究者将优先经验回放和Q-learning算法结合起来,应用于动态频谱接入,但是Q-learning算法无法有效克服强化学习高维且连续状态下使用的限制。也有研究者将DQN算法应用于频谱分配中,并且和强化学习方法相比系统各项性能有较大的提高,但是普通DQN在从经验池中抽取经验的过程时,没有区分样本的优先级,存在着重要经验利用率不高、收敛速度慢等问题。

中国发明专利申请CN112383922A(公开日为2021年02月19日)公开了一种一种基于优先经验重放的深度强化学习频谱共享方法,所述方法包括以下几个步骤:构建频谱共享模型;在频谱共享模型下,将频谱共享问题建模为深度强化学习中智能体与环境交互的马尔科夫决策过程(MDP),训练基于样本优先经验重放的深度强化学习模型,获得认知用户功率传输的学习价值信息;根据所获取的认知用户功率传输学习价值信息判断频谱大数据下频谱共享控制决策,其中,所述控制决策实现了认知用户通过调节自身传输功率在不影响主用户通信质量下共享主用户的频谱,达到了可用频谱资源的高效利用。虽然该专利是基于优先经验重放采样的,但是随着训练过程的进行,优先级大的样本会被频繁采样到,这样会使得样本的多样性降低,造成系统的过拟合;并且,该专利是对深度Q网络进行训练的,深度Q网络会大概率选择过估计的value,进而导致value的过乐观估计,进而造成频谱共享效率降低。

发明内容

本发明的目的是提供一种能够有效减小过度估计和损失,加快算法收敛速度,提高动态功率控制的成功率的基于Sum Tree采样的深度双Q网络动态功率控制方法。

为了实现上述目的,本发明提供了一种基于Sum Tree采样的深度双Q网络动态功率控制方法,包括:

S1、构建频谱共享模型,频谱共享模型包括一个主基站、M个主用户和N个次用户,主用户和次用户随机分布在网路环境中,主用户和次用户以非协作的方式共用同一无线网络;

S2、在步骤S1构建的频谱共享模型下,将频谱分配中功率控制问题建模为深度强化学习中的马尔可夫决策过程,训练基于结合优先级和随机抽样的深度双Q网络;深度双Q网络训练完成后输出次用户的功率发射策略;

S3、次用户根据步骤S2得到的次用户的功率发射策略得到合适的发射功率进行通信。

作为优选方案,在步骤S1中,次用户是以下垫式接入到主用户的信道中;主用户自适应控制自身发射功率,次用户根据基于优先级经验回放的深度双Q网络的训练结果更新发射功率;频谱共享模型通过信噪比衡量链路质量,

第i个主用户的信噪比为:

第j个次用户的信噪比为:

其中hii和hjj分别表示第i个主用户、第j个次用户的信道增益,Pi(t)和Pj(t)分别表示t时刻第i个主用户和第j个次用户的发射功率,hij(t)、hji(t)、hkj(t)分别表示第i个主用户与第j个次用户、第j个次用户与第i个主用户、第k个次用户与第j个次用户之间的信道增益,Ni(t)和Nj(t)分别表示第i个主用户和第j个次用户接收到的环境噪声;

频谱共享模型通过所有次用户总的吞吐量来判断功率分配效果,第j个次用户吞吐量与信噪比之间的关系为:

Tj(t)=W log2(1+γj(t))。

作为优选方案,主用户的发射功率控制策略如下:

其中,μi是主用户信噪比的设定阈值;该策略下主用户在每个时间点t采用逐步更新的方式控制发送功率。当t时刻主用户i的信噪比γi(t)≤μi且主用户i预测t+1时刻信噪比γ′i(t)≥μi时,主用户增加发射功率;当t时刻主用户i的信噪比γi(t)≥μi且主用户i预测t+1时刻信噪比γ′i(t)≥μi时,主用户减小发射功率;其他情况下保持当前发射功率不变;第i个主用户预测t+1时刻的信噪比为:

作为优选方案,步骤S2包括:

S2.1、初始化经验池,设定经验池为Sum Tree存储结构;初始化深度双Q网络的Q网络和目标网络的权重参数θ;

S2.2、将频谱分配中功率控制问题建模为深度强化学习中的马尔可夫决策过程,建立状态空间S(t)、定义动作空间A(t)以及定义奖励函数Rt

S2.3、积累具有优先级的经验池;

S2.4、训练深度双Q网络。

作为优选方案,在步骤S2.2中,状态空间S(t)的建立过程如下:

频谱共享模型包括若干辅助基站,辅助基站接收主用户和次用户的信息并把信息传输给次用户;

假设环境中有X个辅助基站,将各个辅助基站的接收信号强度作为状态空间,即:

S(t)=[s1(t),s2(t),...,sk(t),...,sx(t)];

其中,第K个辅助基站接收的信号强度为:

其中,lik(t)、ljk(t)分别表示t时刻辅助基站与主、次用户之间的距离,Pi(t)和Pj(t)分别表示t时刻第i个主用户和第j个次用户的发射功率,l0(t)表示基准距离,τ表示路径损耗指数,σ(t)表示系统的平均噪声功率。在t时刻,次用户k在状态sk(t)下选择某个动作,此时次用户将进入sk(t)的下一个状态sk(t+1)。

作为优选方案,在步骤S2.2中,将次用户在每个时隙选择的发射功率设置为动作值,每个次用户的发射功率为离散化的值,由各个次用户在同一时隙的发射功率组成动作空间,即:

A(t)=[P1(t),P2(t),...,Pn(t)];

每个次用户可以选择H种不同的发射值,所以本系统模型共有Hn种可选择动作空间。

作为优选方案,在步骤S2.2中,奖励函数Ri建立的过程如下:

定义主用户信噪比低于设定阈值时为发送失败,奖励设为-r。定义主用户信噪比大于等于设定阈值,同时存在或者任意次用户信噪比大于等于设定阈值,并且主用户发射功率也大于等于次用户发射功率之和,称之为成功发送数据,获得奖励r。定义仅有主用户信噪比高于设定阈值,次用户信噪比都低于设定阈值,此时获得奖励为0,即:

作为优选方案,步骤S2.3包括:

S2.3.1、根据初始状态S0(t)和次用户的全部动作A0(t),计算各动作对应的Q值;

S2.3.2、主用户自适应控制自身发射功率;

S2.3.3、次用户基于贪婪算法选择动作,以ε概率随机选择动作At,或者以1-ε概率选择动作At=maxaQ(st,a;θ,α,β);

S2.3.4、根据奖励函数得到奖励Rt,到达下一个状态St+1

S2.3.5、将样本数据(St,At,Rt,γt+1,St+1)存储到经验池中的叶子节点中,并根据各样本的时序差分误差确定优先级;

S2.3.6、将步骤S2.3.4得到的St+1作为输入状态,重复步骤2.3.1至S2.3.5,直至经验池中的叶子节点被储存满。

作为优选方案,步骤S2.4包括:

S2.4.1、从步骤S2.3中的经验池通过Sum Tree采样和随机采样结合的方法进行采样;

S2.4.2、计算采样重要性权重Wj

S2.4.3、计算网络损失函数L(θ)=E[(Qtarget-Q(s,a;θ))2],更新深度双Q网络的两个神经网络的权重参数θ;

S2.4.4、更新样本的优先级;

S2.4.5、基于梯度下降法更新梯度;

S2.4.6、再次更新深度双Q网络的两个神经网络的权重参数θ=θ+η·Δ,重置Δ=0;

S2.4.7、再次更新样本的优先级;

S2.4.8、更新目标Q网络的权重参数θ;

S2.4.9、重复步骤S2.4.1直至S(t)为终止状态,返回步骤步骤S2.3。

作为优选方案,在步骤S2.4.1中,抽取到样本j的优先级概率为:

其中,pj和pk分别表示样本j和任意样本k的优先级;

样本j的优先级为:

pj=|TDerror(j)|+∈;

其中,∈是一个非常小的正常数,这样可保证pj>0,而α为优先级指数,α=0时为随机均匀采样,k代表采样的批量数;

并且,根据样本重要性权重来纠正偏差:

其中,wj表示权重系数,N代表经验池大小,β表示非均匀概率补偿系数,当β=1时就完全补偿了p(j)。

与现有技术相比,本发明的有益效果在于:

本发明通过采用深度双Q网络进行动作价值估计时,先在当前Q网络中先找出最大Q值对应的动作,然后再利用这个选择出来的动作在目标网络里面去计算目标Q值,可以有效减小过度估计,降低损失,提高频谱分配效率,并且本发明是深度双Q网络训练时的采用是结合优先级和随机抽样,使所有样本都有被抽取到的可能性,既提高了重要经验样本利用率,又可防止样本的多样性降低,避免造成系统的过拟合,加快算法收敛速度,因此,本发明通过结合优先级和随机抽样与深度双Q网络算法,可提高动态功率控制的成功率。

附图说明

图1是本发明实施例的动态功率控制方法的流程图。

图2是本发明实施例的频谱共享模型示意图。

图3是本发明实施例的Sum Tree存储单元结构示意图。

图4是本发明实施例的深度双Q网络原理框图。

图5是本发明实施例的算法的伪代码。

图6是本发明实施例的相同环境下三种算法的损失函数对比图。

图7是本发明实施例的三种算法探索步数的对比图。

图8是本发明实施例的三种算法功率控制成功率的对比图。

具体实施方式

下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

如图1所示,本发明实施例优选实施例的一种基于Sum Tree采样的深度双Q网络动态功率控制方法,包括:

S1、构建频谱共享模型,频谱共享模型包括一个主基站、M个主用户和N个次用户,主用户和次用户随机分布在网路环境中,主用户和次用户以非协作的方式共用同一无线网络;

S2、在步骤S1构建的频谱共享模型下,将频谱分配中功率控制问题建模为深度强化学习中的马尔可夫决策过程,训练基于结合优先级和随机抽样的深度双Q网络;深度双Q网络训练完成后输出次用户的功率发射策略;

S3、次用户根据步骤S3得到的次用户的功率发射策略得到合适的发射功率进行通信。

如图2所示,频谱共享模型包括若干辅助基站,主用户、次用户、辅助基站随机分布在网络环境中。在步骤S1中,次用户是以下垫式接入到主用户的信道中,并且次用户可以根据从辅助基站那里获取的信息自适应地调整其传输参数。即次用户将不断学习从辅助基站接收的信号并选择合适的发射功率,以最大化网络效用为目标。

主用户自适应控制自身发射功率,次用户根据基于优先级经验回放的深度双Q网络的训练结果更新发射功率。信噪比(signal to interference plus noise ratio,SINR)是衡量链路质量的重要指标。本实施例的频谱共享模型通过信噪比衡量链路质量,

第i个主用户的信噪比为:

第j个次用户的信噪比为:

其中hii和hjj分别表示第i个主用户、第j个次用户的信道增益,Pi(t)和Pj(t)分别表示t时刻第i个主用户和第j个次用户的发射功率,hij(t)、hji(t)、hkj(t)分别表示第i个主用户与第j个次用户、第j个次用户与第i个主用户、第k个次用户与第j个次用户之间的信道增益,Ni(t)和Nj(t)分别表示第i个主用户和第j个次用户接收到的环境噪声;

频谱共享模型通过所有次用户总的吞吐量来判断功率分配效果。本模型信道增益、发射功率和环境噪声等是动态变化的,根据香农定理,第j个次用户吞吐量与信噪比之间的关系为:

Tj(t)=W log2(1+γj(t))。

在该动态变化的系统中,要保证系统的功率分配效果最佳,就是要保证次用户能够通过不断学习来调整自身发射功率,从而所有次用户总的吞吐量达到最大。

本实施例的主用户的发射功率控制策略如下:

其中,μi是主用户信噪比的设定阈值;该策略下主用户在每个时间点t采用逐步更新的方式控制发送功率。当t时刻主用户i的信噪比γi(t)≤μi且主用户i预测t+1时刻信噪比γ′i(t)≥μi时,主用户增加发射功率;当t时刻主用户i的信噪比γi(t)≥μi且主用户i预测t+1时刻信噪比γ′i(t)≥μi时,主用户减小发射功率;其他情况下保持当前发射功率不变;第i个主用户预测t+1时刻的信噪比为:

具体地,步骤S2包括:

S2.1、初始化经验池,设定经验池为Sum Tree存储结构;初始化深度双Q网络的Q网络和目标网络的权重参数θ;

S2.2、将频谱分配中功率控制问题建模为深度强化学习中的马尔可夫决策过程,建立状态空间S(t)、定义动作空间A(t)以及定义奖励函数Rt

S2.3、积累具有优先级的经验池;

S2.4、训练深度双Q网络。

在步骤S2.1中,本实施例使用一种二叉树结构的存储单元作为记忆库的存储结构,如图3所示。Sum Tree存储结构从上往下一共有四层节点结构,最顶部的那个节点称之为根节点,最底层一行称之为叶子节点,中间两行称之为内部节点。所有经验样本的数据都是储存在叶子节点,不仅如此,叶子节点还会存储样本的优先级。除叶子节点外的所有节点都是不存储数据的,但是会保存下级的左右子节点优先级之和,并且把子节点优先级之和用数字显示出来。

本系统模型的主用户和次用户为非合作的关系,次用户以下垫式接入主用户信道,主次用户均不可获知双方的功率发射策略。在信号传输过程中,辅助基站发挥着重要作用,它负责收集主用户和次用户的通信信息,并将获得的信息传输给次用户,本实施例的辅助基站接收的信息为主用户与次用户的信噪比,辅助基站接收到的信噪比信息是作为深度强化学习的状态进行输入的。在步骤S2.2中,状态空间S(t)的建立过程如下:

频谱共享模型包括若干辅助基站,辅助基站接收主用户和次用户的信息并把信息传输给次用户;

假设环境中有X个辅助基站,将各个辅助基站的接收信号强度作为状态空间,即:

S(t)=[s1(t),s2(t),...,sk(t),...,sx(t)];

其中,第K个辅助基站接收的信号强度为:

其中,lik(t)、ljk(t)分别表示t时刻辅助基站与主、次用户之间的距离,Pi(t)和Pj(t)分别表示t时刻第i个主用户和第j个次用户的发射功率,l0(t)表示基准距离,τ表示路径损耗指数,σ(t)表示系统的平均噪声功率。在t时刻,次用户k在状态sk(t)下选择某个动作,此时次用户将进入sk(t)的下一个状态sk(t+1)。

另外,在步骤S2.2中,将次用户在每个时隙选择的发射功率设置为动作值,每个次用户的发射功率为离散化的值,由各个次用户在同一时隙的发射功率组成动作空间,即:

A(t)=[P1(t),P2(t),...,Pn(t)];

每个次用户可以选择H种不同的发射值,所以本系统模型共有Hn种可选择动作空间。

奖励函数是深度强化学习中神经网络进行有效训练和学习的重要环节。本实施例在步骤S2.2中,奖励函数Ri建立的过程如下:

定义主用户信噪比低于设定阈值时为发送失败,奖励设为-r。定义主用户信噪比大于等于设定阈值,同时存在或者任意次用户信噪比大于等于设定阈值,并且主用户发射功率也大于等于次用户发射功率之和,称之为成功发送数据,获得奖励r。定义仅有主用户信噪比高于设定阈值,次用户信噪比都低于设定阈值,此时获得奖励为0,即:

具体地,步骤S2.3包括:

S2.3.1、根据初始状态S0(t)和次用户的全部动作A0(t),计算各动作对应的Q值;

S2.3.2、主用户自适应控制自身发射功率;

S2.3.3、次用户基于贪婪算法选择动作,以ε概率随机选择动作At,或者以1-ε概率选择动作At=maxaQ(st,a;θ,α,β);其中,α和β是指优先级指数;θ是网络的权重参数;

S2.3.4、根据奖励函数得到奖励Rt,到达下一个状态St+1

S2.3.5、将样本数据(St,At,Rt,γt+1,St+1)存储到经验池中的叶子节点中,并根据各样本的时序差分误差确定优先级;

S2.3.6、将步骤S2.3.4得到的St+1作为输入状态,重复步骤2.3.1至S2.3.5,直至经验池中的叶子节点被储存满。

深度双Q网络有一个环境、一个回放记忆单元、两个结构相同但参数不同的神经网络和误差函数,如图4所示。为避免深度Q网络因大概率选择过估计的value,而导致value的过乐观估计,深度双Q网络进行解耦合:

不再是直接在目标Q网络里面找各个动作中最大Q值,而是先在当前Q网络中先找出最大Q值对应的动作,然后再利用这个选择出来的动作在目标网络里面去计算目标Q值。

在步骤S2.3.1中,

本实施例的步骤S2.4包括:

S2.4.1、从步骤S2.3中的经验池通过Sum Tree采样和随机采样结合的方法进行采样;

S2.4.2、计算采样重要性权重Wj

S2.4.3、计算网络损失函数L(θ)=E[(Qtarget-Q(s,a;θ))2],更新深度双Q网络的两个神经网络的权重参数θ;其中,Qtarget是目标Q网络;s是状态,a是动作,这是深度强化学习的参数;

S2.4.4、更新样本的优先级;

S2.4.5、基于梯度下降法更新梯度;

S2.4.6、再次更新深度双Q网络的两个神经网络的权重参数θ=θ+η·Δ,重置Δ=0;其中,η为预设值,为Δ为权重差值;

S2.4.7、再次更新样本的优先级;

S2.4.8、更新目标Q网络的权重参数θ;

S2.4.9、重复步骤S2.4.1直至S(t)为终止状态,返回步骤步骤S2.3。

具体地,本实施例的算法的伪代码如图5所示。

普通的DQN算法在经验池中采样时一般是使用等概率的采样方式,并没有考虑到不同样本之间重要性的差异,这就会导致采样的大量样本数据是包含失败信息的,样本数据的使用率较低。Sum tree采样是根据优先级来对样本进行训练,而优先级取决于TD误差(时序差分误差Temporal-Difference error,TD-error)的大小,TD误差的值越大说明神经网络的反向传播作用越强,样本被学习的重要性就越高,相应的优先级也越高,应该优先训练这些样本。

但如果单一按照优先级进行采样,随着训练过程的进行,TD误差大的样本会被频繁采样到,这样会使得样本的多样性降低,可能会造成系统的过拟合。所以本文在采样时还会加入随机性,不单单只抽取优先级高的样本,优先级低的样本也会有一定概率被抽到,只是优先级越高抽到的概率越大,但是所有样本都有被抽取到的可能性。

为了保证采样能够按照优先级进行,并且所有样本都有被抽到的可能,本实施例采用结合优先级和随机抽样的方法,既能保证优先级转移也能保证最低优先级的非零概率采样。

在步骤S2.4.1中,抽取到样本j的优先级概率为:

其中,pj和pk分别表示样本j和任意样本k的优先级,α为优先级指数;

样本j的优先级为:

pj=|TDerror(j)|+∈;

其中,∈是一个非常小的正常数,这样可保证pj>0,而α为优先级指数,α=0时为随机均匀采样,k代表采样的批量数;

并且,根据样本重要性权重来纠正偏差:

其中,ωj表示权重系数,N代表经验池大小,β表示非均匀概率补偿系数,当β=1时就完全补偿了p(j)。

Sum tree采样以TD误差作为优先级抽取经验池中的样本,替代了均匀随机抽取,采样的优先级概率与TD误差正相关,TD误差大的样本会被频繁采样到,但这样会使得样本的多样性降低,所以本实施例在采样时还会加入随机性,优先级低的样本也会有一定概率被抽到,既提高了重要经验利用率,同时加快了收敛速度。

本实施例提出基于Sum tree采样的Double DQN动态功率控制方法,是基于Python平台进行实验仿真的,因核心算法为Sum tree采样结合Double DQN,故后文及实验将其简称为ST_double DQN算法。在相同仿真环境下,将natural DQN算法、double DQN算法和ST_double DQN算法进行性能对比。每种算法都将迭代40000次,每1000次将各项指标的性能结果显示一次。

如图6所示,图6为相同环境下上述三种算法的损失函数对比图,从图中可以看到,三种深度强化学习算法在经过一定回合的学习之后均能够达到收敛。natural DQN算法在前20回合出现较大波动,并且收敛的平均损失值也是最大的;double DQN算法在前20回合也有较大波动,但波动幅度与natural DQN算法相比较小一些;本文提出的ST_double DQN算法能够在5个回合的训练内将损失值迅速降至0.25以内,在10个回合内快速达到收敛,并且收敛的平均损失值是最小的,说明本方法具有更好的适应性和学习能力。

如图7所示,图7为三种算法探索步数的对比图。从仿真结果可以看到,无论哪种算法,次用户一般都能够在3.5步之内探索出成功的功率发射策略。natural DQN算法和double DQN算法随着训练次数的增加,探索步数大致稳定在2.0-3.0步之间即可成功发射功率。而本文提出的ST_double DQN算法,在经过在线学习以后,从第19步开始,可以在少于2.0步的探索就能找到成功的功率发射策略。因此,相比natural DQN算法和double DQN算法,本文所提出的算法找到合适功率控制策略不仅稳定性更好,而且所需的平均探索步数最少,可以有效提高系统的性能。

如图8所示,图8是三种算法功率控制成功率的对比图。本实验训练的总次数为40000次,每1000次定义为图像所显示的一个回合,在每个回合内选取15次训练进行测试,若测试中次用户能够选择成功的接入动作则视为成功完成传输任务,成功的次数与测试总次数的比值定义为功率控制的成功率。仿真结果中,natural DQN算法和double DQN算法的成功率波动幅度很大,并且始终没有收敛,很不稳定。而ST_double DQN算法,虽然初始阶段波动也比较大,但是在24回合后就能够收敛并达到100%的测试成功率。因此,本文提出的ST_double DQN算法在面对动态变化的环境时,依然能够保持很好的适应性,有效提高了功率控制的成功率和频谱的利用率。

综上,本发明实施例提供一种基于Sum Tree采样的深度双Q网络动态功率控制方法,其采用深度双Q网络进行动作价值估计时,先在当前Q网络中先找出最大Q值对应的动作,然后再利用这个选择出来的动作在目标网络里面去计算目标Q值,使用深度双Q网络算法来解耦目标Q值动作的选择和目标Q值的计算,可以有效减小过度估计,降低损失,提高频谱分配效率,并且本实施例是深度双Q网络训练时的采用是结合优先级和随机抽样,对经验样本赋予不同优先级并在采样时还加入随机性,使所有样本都有被抽取到的可能性,既提高了重要经验样本利用率,又可防止样本的多样性降低,避免造成系统的过拟合,加快算法收敛速度,提高网络性能。并且实验仿真结果也表明,本发明通过结合优先级和随机抽样与深度双Q网络算法,可提高动态功率控制的成功率。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。

19页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于NOMA系统下的逐天线功率鲁棒优化方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!