基于分布式强化学习的多小区协同波束赋形方法

文档序号：72477 发布日期：2021-10-01 浏览：37次 >En<

阅读说明：本技术 基于分布式强化学习的多小区协同波束赋形方法 (Multi-cell cooperative beam forming method based on distributed reinforcement learning ) 是由高贞贞廖学文吴丹青张金罗伟于 2021-07-07 设计创作，主要内容包括：本发明公开了基于分布式强化学习的多小区协同波束赋形方法,包括以下步骤：为基站j建立一个权重为θ-j的训练DQN和一个权重为θ′-j的目标DQN以及一个空的经验池M-j；用随机权重初始化训练DQN；每隔M个时隙重复以下步骤：基站之间交互自己到所有用户的信道状态信息；每个基站生成未来多组M个时隙的全局信道样本；每个基站随机采取行动,并将相应的经验存储在其经验池M-j中；每个基站进行网络训练。本发明能在极低开销的情况下,性能优于对比的贪婪方案和随机方案,接近于需要全局信息的最优方案。(The invention discloses a multi-cell cooperative beam forming method based on distributed reinforcement learning, which comprises the following steps: establishing a weight of theta for base station j j Of and one weight is θ' j Target DQN and an empty experience pool M j (ii) a Training the DQN by using random weight initialization; repeating the following steps every M time slots: the base stations interact channel state information from the base stations to all users; each base station generates a plurality of groups of global channel samples of M time slots in the future; each base station takes action randomly and stores the corresponding experience in its experience pool M j Performing the following steps; each base station performs network training. The invention can be superior to a greedy scheme and a random scheme for comparison in performance under the condition of extremely low overhead, and is close to an optimal scheme requiring global information.)

技术领域

本发明属于无线通信

技术领域

，尤其涉及基于分布式强化学习的多小区协同波束赋形方法。

背景技术

传统的移动通信系统通常采用蜂窝架构设计，它可以在蜂窝场景中提高吞吐量并节省能耗。然而，由于小区在它们之间共享频谱的频带部分，这可能会导致严重的小区间干扰，从而损害系统容量。多小区协同波束赋形因为可以通过联合控制相邻基站的发射功率和波束形成来减轻小区间干扰并最大化系统容量，被认为是干扰管理的关键技术之一。

一般来说，蜂窝通信系统的系统容量由所有用户的可达速率之和表示，即和速率。显然，最大化和速率是一个NP难和非凸问题，因此很难获得最优解。基于一些优化技术，已经开发了许多次优方法来处理这个问题，例如分数规划算法，加权最小均方误差算法，以及分支定界算法。这些算法可以接近最佳性能，然而它们都必须知道全局信道状态信息，并且需要多次迭代计算出最优解，因此这些方案在实际中执行时的高开销和高计算复杂度都是不可忍受的。分布式强化学习已被证明是一种新兴的有效技术，可解决通信和网络领域的各种问题，如物联网、异构网络和无人机网络。在这些网络中，智能体(如基站)根据本地信息做出自己的决策，以优化网络性能。基于强化学习的协同波束赋形的研究正处于起步阶段。电子科技大学的梁应敞等针对多小区多输入单输出系统，基于分布式深度强化学习每个基站训练自己的深度Q网络，根据本地信息和相邻基站之间交换的有限信息使用适当的波束向量和发射功率。东京工业大学的Shuaifeng Jiang等同样针对多小区多输入单输出系统，基于分布式强化学习输入全局信道信息得到发射功率和波束向量。然而，此方法要求每个基站知道全局的信道状态信息，大大增加了执行时的开销。

发明内容

有鉴于此，本发明提出一种基于分布式强化学习的多小区多输入单输出协同波束赋形方法，该方法让每个基站训练自己的深度Q学习网络(DQN)，输入为基站-服务用户的信道信息，利用和速率作为奖励训练，输出最优的发射功率和码字索引。同时本发明每隔固定时隙，让基站交换一次信道状态信息，基站根据收到的其他基站的信道信息，构成全局信道状态信息生成未来的信道样本重新训练网络，来达到提高网络在未来固定时隙内的泛化性从而提高网络性能的目的。

为达到上述目的，本发明提供了一种基于全局信息训练本地信息执行和信道预测训练的低开销高性能的协同波束赋形方法。考虑一个多小区多输入单输出场景，有K个小区，每个基站配备N_t根天线，每个用户配备单根天线。每个基站在相同时频资源上只服务一个用户，每个用户都会收到来自服务基站的有用信号和其他基站的干扰信号。

具体地，本发明公开的基于分布式强化学习的多小区协同波束赋形方法，包括以下步骤：

S1：为基站j，j∈[1，K]建立一个权重为θ_j的训练DQN和一个权重为θ′_j的目标DQN以及一个空的经验池M_j；

S2：用随机权重初始化训练DQN，令θ_j＝θ，j∈[1，K]；

S3：每隔M个时隙重复步骤S4到S7；

S4：基站之间交互自己到所有用户的信道状态信息；

S5：每个基站生成未来多组M个时隙的全局信道样本；

S6：每个基站随机采取行动，并将相应的经验<s_j，a_j，r_j，s′_j>存储在其经验池M_j中；

S7：每个基站进行网络训练。

进一步地，所述网络训练的步骤包括：

S70：基站j观察其在时隙t的状态，s_j(t)，j∈[1，K]；

S71：在时隙t时，基站j基于状态s_j(t)根据ε-greedy策略选择动作,a_j，j∈[1，K]；

S72：根据s_j和a_j，j∈[1，K]计算全局奖励r(t)；

S73：基站j观察其在时隙t+1的新状态s′_j(t)，j∈[1，K]；

S74：基站j将经验<s_j(t)，a_j(t)，r_j(t)，r′_j(t)>存储在其经验池M_j中，j∈[1，K]；

S75：基站j从经验池M_j中采样得到小批量样本；

S76：基站j使用逆向传播更新其训练DQN的权重θ_j,j∈[1，K]；

S77：基站j每隔T_step时隙更新一次目标DQN权重θ′_j,j∈[1，K]；

S78：直至收敛或达到最大训练次数。

进一步地，每个时隙基站到用户信道建模为瑞利信道，相邻时隙之间的信道被认为是相关的，可以表示为：

其中，表示t时隙第j个基站到第k个用户的信道，h_j，k(0)中每个元素服从均值为0方差为1的独立复高斯分布，e_j，k(t)表示与信道独立的白高斯噪声，其中每个元素也同样服从均值为0方差为1的独立复高斯分布，ρ表示表示相邻时隙之间的瑞利衰落向量的相关系数。

进一步地，当基站之间交互时隙t自己到所有用户的信道信息[h_1，1(t)，h_1，2(t)，…，h_1，K(t)]之后，每个基站构成一个全局信道状态信息矩阵，H(t)＝[h_1，1(t)，h_1，2(t)，…，h_1，K(t)，…，h_K，K(t)]，并利用相邻信道的相关性生成多组未来M时隙的全局信道n∈[1，N]，N为生成的全局信道组数。

进一步地，在训练时需要全局信息指导训练，在执行时仅需要本地信息。

进一步地，每个DQN网络的所述状态由基站j到自己服务用户j的信道状态信息h_j，j(t)构成，采用I/Q变换将所述信道状态信息h_j，j(t)分成同相和正交分量，将所述同相向量和正交向量组成向量基站j的DQN网络的所述状态表示为：

进一步地，基站发射的波束成形向量w_j(t)是一个连续的复向量：

其中，为基站j采取的归一化波束成形向量，p_j(t)为基站j的发射功率；

对于所述归一化波束成形向量使用从码本中选择码字的方式进行离散化，对于发射功率定义每个基站的可用发射功率集合

其中p_max为基站最大发射功率，Q_pow为可用离散功率等级；

基站j的DQN网络的所述动作为：

a_j＝{(P_j，c_j)，p_j∈P，c_j∈C}

其中p和c分别为采取的发射功率和码字索引，为码字索引集合，Q_code为码本内的码字数。

进一步地，在t时隙时用户j的接收信号表示为：

其中为用户j处的加性高斯白噪声；

用户j的速率表示为：

C_j(w_j(t))＝log(1+SINR_j(t))

其中SINR_j为基站j在t时隙的信干噪比，表示为：

和速率表示为：

基站j的DQN网络的奖励为：

r_j(t)＝C(t)。

进一步地，所述M为0到300的整数。

本发明的有益效果如下：

每隔M个时隙，基站之间互相交换基站本地到所有用户的信道状态信息，根据得到全局信道状态信息生成多组未来M时隙的信道，利用生成的未来信道样本对分布式强化学习网络进行训练，从而达到提升网络性能的目的。本发明的分布式强化学习其输入为基站本地到服务用户的信道状态信息，无需任何基站之间的信息交换，大大降低了执行时的开销。

仿真证明本发明在极低开销的情况下，性能优于对比的贪婪方案和随机方案，接近于需要全局信息的最优方案。

附图说明

图1为三小区的MISO协作波束赋形系统模型示意图；

图2为本发明框架图；

图3为本发明的流程图；

图4为本发明与其它方案的和速率随时隙数M的变化曲线。

具体实施方式

下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

下面结合附图对本发明做进一步详细描述：

参见图1，考虑一个多小区多输入单输出场景，有K个小区，每个基站配备N_t根天线，每个用户配备单根天线。每个基站在相同时频资源上只服务一个用户，每个用户都会收到来自服务基站的有用信号和其他基站的干扰信号。整个协同波束赋形过程描述如图2所示，描述如下：

首先，每隔M时隙，基站之间交换基站到所有用户的信道状态信息，这样每个基站根据收到的全局信道状态信息生成未来M时隙的全局信道状态信息进行训练。每个时隙基站到用户信道建模为瑞利信道，相邻时隙之间的信道被认为是相关的，可以表示为：

其中，表示t时隙第j个基站到第k个用户的信道，h_j，k(0)中每个元素服从均值为0方差为1的独立复高斯分布，e_j，k(t)表示与信道独立的白高斯噪声，其中每个元素也同样服从均值为0方差为1的独立复高斯分布，ρ表示表示相邻时隙之间的瑞利衰落向量的相关系数。当基站之间交互时隙t自己到所有用户的信道信息[h_1，1(t)，h_1，2(t)，…，h_1，K(t)]之后，每个基站都可以构成一个全局信道状态信息矩阵，H(t)＝[h_1，1(t)，h_1，2(t)，…，h_1，K(t)，…，h_K，K(t)]。从式1可以看出，知道H(t)和ρ后，可以利用相邻信道的相关性生成多组未来M时隙的全局信道n∈[1，N]，N为生成的全局信道组数。

然后，为提高网络性能，本发明利用生成的全局信道状态信息训练每个基站的DQN网络。本发明定义分布式DQN网络的三要素，即状态、动作和奖励。每个DQN网络的状态由基站j到自己服务用户j的信道状态信息h_j，j(t)构成，因为神经网络无法处理复数，本发明采用I/Q变换，将复数向量分成同相(实部)和正交(虚部)分量，将两部分向量组成一个向量因此，基站j的DQN网络的状态为：

DQN网络的动作通常是一组离散的实值,发射的波束成形向量w_j(t)是一个连续的复向量。因此，本发明对连续复向量进行离散化处理。波束成形向量由两部分构成，如下式所示：

为基站j采取的归一化波束成形向量，p_j(t)为基站j的发射功率。对于归一化波束成形向量本发明使用从码本中选择码字的方式进行离散化，对于发射功率本发明定义了每个基站的可用发射功率集合

其中p_max为基站最大发射功率，Q_pow为可用离散功率等级。因此基站j的DQN网络的动作为：

a_j＝{(p_j，c_j)，p_j∈P，c_j∈C} (4)

其中p和c分别为采取的发射功率和码字索引，为码字索引集合，Q_code为码本内的码字数。

DQN网络的奖励为和速率，因为和速率是一个根据全局信息计算出的指标，使用和速率作为奖励可以达到全局信息训练本地信息执行的目的，不仅可以提高性能，而且可以使网络更快收敛。在多小区多输入单输出场景中，每个用户与其他小区中的用户共享相同的频带，存在小区间干扰。在t时隙时用户j的接收信号可以表示为：

其中为用户j处的加性高斯白噪声。用户j的速率可以表示为：

C_j(w_j(t))＝log(1+SINR_j(t)) (6)

其中SINR_j为基站j在t时隙的信干噪比，表示为：

和速率可以表示为：

因此基站j的DQN网络的奖励为：

r_j(t)＝C(t) (9)

如图3和算法1所示，本发明的分布式强化学习方法的伪代码如下：

算法1.分布式强化学习方法伪代码

为了验证本发明提出的基于分布式强化学习的协同波束赋形方案的性能，本发明进行了如下仿真：

假设信道参数服从标准单位复高斯随机分布。源节点发射功率为P，在目的节点处的噪声方差为假设基站和用户进行了精确的信道估计，图4给出了本发明、贪婪方案和随机方案的和速率随时隙数M的变化曲线，实验中有4个基站，用户有1根天线，每个基站配备4根发射天线，可用离散功率等级为4，码字数为4。贪婪方案是指每个基站都最大化其服务用户的吞吐量，随机方案指每个基站随机的选择码字和发射功率，通过遍历得到的最优性能作为上界。从图3可以看出，当M＝1时，本发明的性能可以达到最优性能的95％，随着时隙数M增加，本发明的性能在下降。时隙数M在[0,300]整个范围内，本发明都优于贪婪方案和随机方案。

本发明的有益效果如下：

仿真证明本发明在极低开销的情况下，性能优于对比的贪婪方案和随机方案，接近于需要全局信息的最优方案。

上述实施例为本发明的一种实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

13页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种抑制单干扰源的自适应对消方法及系统

基于分布式强化学习的多小区协同波束赋形方法

相关技术

网友询问留言