一种基于强化学习的蜂窝移动通信系统协作式信号发送方法

文档序号:195392 发布日期:2021-11-02 浏览:35次 >En<

阅读说明:本技术 一种基于强化学习的蜂窝移动通信系统协作式信号发送方法 (Cellular mobile communication system cooperative signal sending method based on reinforcement learning ) 是由 梁应敞 贾浩楠 何振清 于 2021-08-13 设计创作,主要内容包括:本发明公开了一种基于强化学习的蜂窝移动通信系统协作式信号发送方法,包括以下步骤:(1)在基站发射端,每个基站首先收集本基站下用户的干扰信息和等效信道信息,并将这些信息以及上一个时刻的各个用户分配得到功率信息发送给其他基站;(2)每个基站根据本地用户的信道信息确定各个用户的波束方向;(3)根据其他基站交互的信息通过训练好的强化学习神经网络中,神经网络经过运算后输出该基站下给每个用户分配的功率;(4)每个基站就根据波束方向和功率来生成波束赋形向量,并用该波束赋形向量为发送信号做处理。本发明适用于配置了大规模天线阵列的移动蜂窝网络,能提高整个蜂窝网络的总传输速率。(The invention discloses a collaborative signal sending method of a cellular mobile communication system based on reinforcement learning, which comprises the following steps: (1) at a transmitting end of a base station, each base station firstly collects interference information and equivalent channel information of users under the base station, distributes the information and each user at the previous moment to obtain power information and sends the power information to other base stations; (2) each base station determines the beam direction of each user according to the channel information of the local user; (3) according to the interactive information of other base stations, in a trained reinforcement learning neural network, the neural network outputs the power distributed to each user by the base station after operation; (4) each base station generates a beamforming vector according to the beam direction and the power, and processes the transmission signal by using the beamforming vector. The invention is suitable for the mobile cellular network configured with large-scale antenna arrays, and can improve the total transmission rate of the whole cellular network.)

一种基于强化学习的蜂窝移动通信系统协作式信号发送方法

技术领域

本发明属于无线通信领域,具体涉及一种基于强化学习的蜂窝移动通信系统协作式信号发送方法。

背景技术

蜂窝移动通信(Cellular Mobile Communication)是目前世界上最主要的无线通信系统。随着移动通信技术的发展,蜂窝小区正在朝密集化发展,小区间的距离逐渐缩短,同频小区间干扰成为了影响通信质量的主要问题。传统的协作式解决方案首先需要基站之间交互大量的信道状态信息(Channel State Information,CSI),然后每个基站独立设计波束赋形(Beamforming)方案来尽量避免小区间干扰。然而现在的基站往往具备大规模天线阵列,需要基站间交互的CSI信息量相当大,使得这类方案不易实现。

发明内容

本发明的目的,就是针对降低同频小区间干扰的问题,提出一种基于强化学习的蜂窝移动通信系统协作式信号发送方法,使得小区间只需要交互较少的信息就可以避免小区间干扰。

为了解决以上技术问题,本发明采用如下技术方案:

一种基于强化学习的蜂窝移动通信系统协作式信号发送方法,包括以下步骤:

(1)在基站发射端,每个基站首先收集本基站下用户的干扰信息和等效信道信息,并将这些信息以及上一个时刻的各个用户分配得到功率信息发送给其他基站;

(2)每个基站根据本地用户的信道信息确定各个用户的波束方向;

(3)根据其他基站交互的信息通过训练好的强化学习神经网络中,神经网络经过运算后输出该基站下给每个用户分配的功率;

(4)每个基站就根据波束方向和功率来生成波束赋形向量,并用该波束赋形向量为发送信号做处理。

进一步地,步骤(1)中基站的天线阵列为均匀矩形阵列,共有N2个天线。

进一步地,所述的基站到用户的信道由两部分组成:大尺度衰落和小尺度衰落。

进一步地,步骤(3)的网络中,从第i个基站的第(x,y)根天线到第j个基站下的第k个用户的信道可以表示为其中大尺度衰落为pathloss=28.0+22lgD+20lgfc,D表示为用户到基站的物理距离,fc为工作载波频率;当第j个基站下的用户k在基站i的扇区m范围中时,Sm(θ)≡1,其他情况下Sm(θ)≡0;P为传播多径数目,gi,j,k,p为每一条路径的小尺度衰落,假设小尺度衰落均是独立同分布的随机变量,即g~CN(0,1),其是指随机变量服从均值为0,方差为1的复高斯分布;d为天线间距离,携带了传输路径的俯仰角和方位角信息。

进一步地,在所述的信道情况下,第j个基站下的第k个用户接收到的信号可以表示为:

其中右式中第一项为第j个基站下的第k个用户所需要的信号;第二项为第j个基站下给其他用户发送信号对用户k造成的干扰,也称为小区内干扰;第三项为其他基站发射的信号对第j个基站下的第k个用户造成的干扰,也称为小区间干扰;最后一项为该用户的接收机系统噪声。

进一步地,步骤(3)中整个神经网络的工作流程共分为两个阶段,离线训练阶段和在线决策阶段;在在线决策阶段中,神经网络只需要在线决策网络输出动作,然后将状态转换过程存储至经验回放单元;在离线训练阶段,每一次训练从经验回放单元中采取一批数据分别输入目标决策网络和目标Q值网络中,前者输出每一个状态下采取的动作策略,后者输出每一个状态下的动作策略的价值

yi=ri+γQ'(si+1,μ'(si+1μ')|θQ')。

进一步地,所述的神经网络由输入层、隐藏层以及输出层构成。

进一步地,隐藏层的激活函数为线性整流函数,其表达式为f(x)=max(0,x)。

进一步地,输出层为了输出向量归一化,选择softmax函数,其表达式为

本发明具有以下有益效果:

在基站发射端,每个基站首先收集本基站下用户的干扰信息和等效信道信息,并将这些信息以及上一个时刻的各个用户分配得到功率信息发送给其他基站。随后,每个基站根据本地用户的信道信息确定各个用户的波束方向,再根据其他基站交互的信息通过训练好的强化学习神经网络中,神经网络经过运算后输出该基站下给每个用户分配的功率。这样每个基站就根据波束方向和功率来生成波束赋形向量,并用该波束赋形向量为发送信号做处理。

本发明与传统方法不同之处在于,基站间所需要交互信息的信息量远低于传统方案,交互的信息量与基站天线数无关,适用于配置了大规模天线阵列的移动蜂窝网络,能提高整个蜂窝网络的总传输速率。

此外,本发明不需要基站之间交互大量信道信息来设计波束赋形矢量,而是通过分布式地设计波束方向和波束功率来优化整个蜂窝网络的传输速率。

附图说明

图1为本发明的蜂窝通信网络系统模型图;

图2为本发明的蜂窝通信网络的基站发送机工作流程图;

图3为本发明的蜂窝网络基站发送机强化学习神经网络结构图;

图4为本发明的强化学习神经网络结构图;

图5为本发明的基于强化学习的波束赋形算法和其他分布式算法的性能对比图。

具体实施方式

本发明考虑常见的多蜂窝移动通信系统的下行传输情况,如图1所示的蜂窝通信网络系统模型,为说明方便,图1中只画出了三个蜂窝,我们实际考虑一个蜂窝网络系统共由L个蜂窝构成,每个蜂窝中包括一个基站(Base Station,BS)和K个用户设备(UserEquipment,UE)。每一个基站都只服务在其蜂窝范围内的用户,但在服务其用户时会干扰到其他蜂窝中的用户。基站在下行传输数据的过程中,需要设计给每一个用户设计波束成形向量来消除小区内和小区间干扰。本发明设计了一种多基站协助式的波束成形设计方案,如图2所示,每个基站在工作时首先于各个基站之间交互决策所需要的信息,然后基站根据信息分别做出波束方向决策和波束功率决策,最后根据决策方案发送信号。

在这个蜂窝网络中,我们假设基站的天线阵列都为均匀矩形阵列,共有N2个天线。基站到用户的信道由两部分组成:大尺度衰落和小尺度衰落。如图1所示,在网络中,从第i个基站的第(x,y)根天线到第j个基站下的第k个用户的信道可以表示为其中大尺度衰落为pathloss=28.0+22lgD+20lgfc,D表示为用户到基站的物理距离,fc为工作载波频率。当第j个基站下的用户k在基站i的扇区m范围中时,Sm(θ)≡1,其他情况下Sm(θ)≡0。P为传播多径数目,gi,j,k,p为每一条路径的小尺度衰落,本发明中,假设小尺度衰落均是独立同分布的随机变量,即g~CN(0,1),其是指随机变量服从均值为0,方差为1的复高斯分布。d为天线间距离,都携带了传输路径的俯仰角和方位角信息。为叙述方便,我们将所有天线信道展开成N2×1的向量h。

在上面的信道情况下,第j个基站下的第k个用户接收到的信号可以表示为:

其中右式中第一项为第j个基站下的第k个用户所需要的信号。第二项为第j个基站下给其他用户发送信号对用户k造成的干扰,也称为小区内干扰。第三项为其他基站发射的信号对第j个基站下的第k个用户造成的干扰,也称为小区间干扰。最后一项为该用户的接收机系统噪声。用户接收到的信号质量可以用信号与干扰加噪声比(Signal toInterference plus Noise Ratio,SINR)来描述,那么第j个基站下的第k个用户的SINR可以表示为:

该用户的单位带宽数据可达速率可以表示为:

Rj,k=log2(1+SINRj,k), (3)

图2为本发明的蜂窝通信网络的基站发送机工作流程图。传统的多蜂窝波束赋形的解决方案中,交互信息是最消耗传输带宽和时间的过程,因为需要传输所有用户多天线信道信息。而在用户数较多,基站天线数较多的情况下,要传输所有用户的信道信息是不可实现的。本发明所需要交互的信息只包含每个用户的等效信道信息以及受到每个基站的干扰信息,其信息量远低于传统方案,使得本发明更贴近实际。在信息交互之后,每个基站根据本地用户的信道信息确定每个用户的波束方向。这里使用迫零算法的思路,令确定每个用户的波束方向,随后对每个用户的波束赋形矢量做能量归一化,即这样波束方向决策就完成了。随后,每个基站将交互得到的信息输入强化学习神经网络中,神经网络经过运算后输出每个用户的功率决策η=[η12,···,ηK]。最后,基站根据上述的方向决策和功率决策生成波束赋形矢量并给用户发送下行数据。

图3为本发明的蜂窝网络基站发送机强化学习神经网络结构图。本发明采取的强化学习方法为深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)。该神经网络的主体由两部分构成:演员网络和评论网络。演员网络根据输入的状态向量s经过运算做出决策并输出动作向量a,演员网络参数更新通过优化器计算决策梯度后反馈给决策网络进行参数更新,每过一段时间,在线决策网络的参数通过软更新的方式更新到目标决策网络中。而对于评论网络,其本质目的是输出决策网络所采取动作的价值高低,价值函数的定义可以表示为Qμ(st,at)=E[r(st,at)+γQμ(st+1,μ(st+1))],其表示在状态st下采取动作at后,且如果持续执行策略μ的情况下的动作价值。本发明的目标是使得整个蜂窝通信网络的和速率最大,因此,用于强化学习训练的奖励参数设置为即网络和速率。

整个神经网络的工作流程共分为两个阶段,离线训练阶段和在线决策阶段。在在线决策阶段中,神经网络只需要在线决策网络输出动作,然后将状态转换过程存储至经验回放单元。而在离线训练阶段,每一次训练从经验回放单元中采取一批数据分别输入目标决策网络和目标Q值网络中,前者输出每一个状态下采取的动作策略,后者输出每一个状态下的动作策略的价值yi=ri+γQ'(si+1,μ'(si+1μ')|θQ')。随后在线Q值网络通过计算其输出值与yi的差异从而计算出梯度并更新参数,在线策略网络则计算策略梯度并更新参数。为了让神经网络探索新的动作,避免陷入局部最优,本发明在在线决策网络做出的动作上加入噪声,使得网络有能力探索新的动作和状态。

图4为本发明的DDPG神经网络内部结构图。神经网络由输入层、隐藏层以及输出层构成。本发明中的四个网络结构相似,只有在输入层的神经元个数上有所差异。隐藏层的激活函数为线性整流函数(Rectified Linear Unit,ReLU),其表达式为f(x)=max(0,x)。输出层为了输出向量归一化,选择了softmax函数,其表达式为

下面,本发明将根据仿真结果来阐述本发明提出方案的性能。首先,本发明选择最为常见的六边形蜂窝网络结构,设定小区数L=3,小区基站间隔500米,小区扇区数3个,基站高度25米,用户设备高度1.5米,载波频率fc=3.5GHz,基站天线数N2=64,天线间间距为λ/2,基站最大发射功率Pmax=105mW,用户噪声功率强化学习参数方面,网络学习率为10-3,回放记忆单元大小为5000,折扣系数γ=0.1,数据批大小512,隐藏层神经元个数400,神经网络算法均使用PyTorch实现。

图5为本发明的基于强化学习的波束赋形算法和其他分布式算法的性能对比图。其他三种对比算法分别为分布式发送匹配滤波算法(Transmitted Matched Filter,TMF),分布式迫零算法(ZF)以及分布式零梯度算法(Zero Gradient,ZG),该仿真图设置用户数为K=10。在同样的条件下,可以看出基于强化学习的算法收敛之后的性能都能够超过其他分布式算法,而且需要的参数量远比分布式零梯度算法要少。

本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

11页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种微带相控天线的波束切换装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!