波束权值参数调整方法、装置、设备及存储介质

文档序号：490353 发布日期：2022-01-04 浏览：5次 >En<

阅读说明：本技术 波束权值参数调整方法、装置、设备及存储介质 (Beam weight parameter adjusting method, device, equipment and storage medium ) 是由陈磊光李诗扬范娟曾昭才邹卫新陈刚吴梓颖冯鹄志肖昀珊陈孟香于 2021-10-27 设计创作，主要内容包括：本申请提供一种波束权值参数调整方法、装置、设备及存储介质。该方法包括：若监测到波束权值参数调整指令,则确定目标楼宇对应的当前各楼层用户数量以及用户在对应的楼层的驻留时长；根据目标楼宇对应的当前各楼层用户数量、用户在对应的楼层的驻留时长及基站信息确定目标楼宇当前状态信息；将目标楼宇当前状态信息输入至训练的强化学习模型中,获得目标楼宇对应的最优波束权值参数组合；根据最优波束权值参数组合对目标楼宇对应的基站的波束权值参数进行调整。本申请的方法,在波束权值参数调整时加入了用户在楼宇中所处楼层以及在楼层的停留时间,使得调整后的基站波束更好地覆盖楼宇,有效地提高下行平均速率。(The application provides a method, a device, equipment and a storage medium for adjusting beam weight parameters. The method comprises the following steps: if a beam weight parameter adjusting instruction is monitored, determining the number of users on each current floor corresponding to the target building and the residence time of the users on the corresponding floor; determining the current state information of the target building according to the number of users on each current floor corresponding to the target building, the residence time of the users on the corresponding floors and the base station information; inputting the current state information of the target building into a trained reinforcement learning model to obtain an optimal beam weight parameter combination corresponding to the target building; and adjusting the beam weight parameter of the base station corresponding to the target building according to the optimal beam weight parameter combination. According to the method, the floor where the user is located in the building and the residence time of the user on the floor are added during the adjustment of the beam weight parameter, so that the adjusted base station beam can better cover the building, and the downlink average rate is effectively improved.)

技术领域

本申请涉及通信技术，尤其涉及一种波束权值参数调整方法、装置、设备及存储介质。

背景技术

随着无线通信网络从长期演进(long term evolution，LTE)网络到第五代移动通信技术(5th generation mobile networks，5G)网络的发展，对于5G多通道基站设备，基站可发射多个波束，不同波束覆盖不同区域，5G基站可以通过多波束扫描的方式，提升网络的空间覆盖性能。

基站可以根据不同的覆盖场景灵活设置不同的初始波束配置，但是现网中的覆盖场景是多种多样的，仅使用初始波束配置，无法保证小区楼宇整体覆盖的最优，现有的调整方法是根据当前用户业务量以及潜在用户的业务量分布进一步得到波束优化的权值进行基站波束的调整。

但是用户在小区楼宇内是所处位置不同的，且用户的位置并不是固定不变的，仅根据用户业务量优化波速的方式并没有考虑到用户在小区楼宇内所处位置不同的问题。

发明内容

本申请提供一种波束权值参数调整方法、装置、设备及存储介质，用以解决现有的波束调整的方式并没有考虑到用户在小区楼宇内所处位置不同的问题。

第一方面，本申请提供一种波束权值参数调整方法，包括：

若监测到波束权值参数调整指令，则确定目标楼宇对应的当前各楼层用户数量以及用户在对应的楼层的驻留时长，所述波束为基站向目标楼宇的用户终端发射的波束；

根据目标楼宇对应的当前各楼层用户数量、用户在对应的楼层的驻留时长及目标楼宇对应的基站信息确定目标楼宇当前状态信息；

将目标楼宇当前状态信息输入至训练的强化学习模型中，获得目标楼宇对应的最优波束权值参数组合；

根据所述最优波束权值参数组合对目标楼宇对应的基站的波束权值参数进行调整。

第二方面，本申请提供一种波束权值参数调整装置，包括：

确定单元，用于若监测到波束权值参数调整指令，则确定目标楼宇对应的当前各楼层用户数量以及用户在对应的楼层的驻留时长，所述波束为基站向目标楼宇的用户终端发射的波束；

确定单元，还用于根据目标楼宇对应的当前各楼层用户数量、用户在对应的楼层的驻留时长及目标楼宇对应的基站信息确定目标楼宇当前状态信息；

输入单元，用于将目标楼宇当前状态信息输入至训练的强化学习模型中，获得目标楼宇对应的最优波束权值参数组合；

调整单元，用于根据所述最优波束权值参数组合对目标楼宇对应的基站的波束权值参数进行调整。

第三方面，本发明提供一种电子设备，包括：处理器和存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，使得所述处理器执行如第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如第一方面所述的方法。

本申请提供的一种波束权值参数调整方法、装置、设备及存储介质，若监测到波束权值调整指令，确定目标楼宇当前各楼层用户数量以及用户在对应的楼层的驻留时长，根据当前各楼层用户数量、用户在对应的楼层的驻留时长及基站信息确定目标楼宇当前状态信息，将该状态信息输入至预先训练的强化学习模型中，得到目标楼宇对应的最优波束权值参数组合，从而根据最优波束权值参数组合调整基站的波束权值参数，在波束权值参数调整时加入了用户在楼宇中所处楼层以及在楼层的停留时间，相比现有的基于用户业务量的调整方式来说考虑的更全面，使得调整后的基站波束更好地覆盖楼宇，有效地提高下行平均速率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本发明提供的波束权值参数调整方法的网络架构示意图；

图2是本发明实施例一提供的波束权值参数调整方法的流程示意图；

图3是本发明实施例二提供的波束权值参数调整方法的流程示意图；

图4是本发明实施例三提供的波束权值参数调整方法的流程示意图；

图5是本发明实施例四提供的波束权值参数调整方法的流程示意图；

图6是本发明实施例五提供的波束权值参数调整方法的流程示意图；

图7是本发明实施例六提供的波束权值参数调整方法的流程示意图；

图8是本发明一实施例提供的波束权值参数调整装置的结构示意图；

图9是用来实现本发明实施例的波束权值参数调整方法的电子设备的框图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

基站可以根据不同的覆盖场景灵活设置不同的初始波束配置，但是现网中的覆盖场景是多种多样的，仅使用初始波束配置，无法保证小区楼宇整体覆盖的最优，现有技术中，所采用的调整方式首先根据目标小区波束的吞吐量分布得到目标小区当前用户的业务量分布，根据目标小区波束的噪声分布和同频邻区波束的吞吐量分布得到潜在用户的业务量分布，根据用户的业务量分布以及潜在用户的业务量分布，获取按每一权值调整前和按每一权值调整后的用户业务量分布以及获取目标小区波束按每一权值调整后吞吐量预期增益，最终根据每一波束权值对应的吞吐量预期增益，选取用于波束优化的权值进行波束调整。

而在实际中用户在小区楼宇内所处位置不同的，用户的位置并不是固定不变的，现有的基于用户业务量优化波速的方式并没有考虑到用户在小区楼宇内所处位置不同的问题。

所以针对现有技术中的波束调整的方式并没有考虑到用户在小区楼宇内所处位置不同的问题，发明人在研究中发现，在波束权值参数调整时加入用户在楼宇中所处楼层以及在楼层的停留时间两种参数，具体地，若监测到波束权值调整指令，确定目标楼宇当前各楼层用户数量以及用户在对应的楼层的驻留时长，根据当前各楼层用户数量、用户在对应的楼层的驻留时长及基站信息确定目标楼宇当前状态信息，将该状态信息输入至预先训练的强化学习模型中，得到目标楼宇对应的最优波束权值参数组合，从而根据最优波束权值参数组合调整基站的波束权值参数，在波束权值参数调整时加入了用户在楼宇中所处楼层以及在楼层的停留时间，相比现有的基于用户业务量的调整方式来说考虑的更全面，使得调整后的基站波束更好地覆盖楼宇，有效地提高下行平均速率。

所以发明人基于上述的创造性发现，提出了本发明实施例的技术方案。下面对本发明实施例提供的波束权值参数调整方法的网络架构及应用场景进行介绍。

如图1所示，本发明实施例提供的波束权值参数调整方法对应的网络架构中包括：电子设备1及基站2，电子设备1与基站2进行通信连接，其中，电子设备1包括服务器或网关设备。基站2与目标楼宇3对应，目标楼宇3包括多个楼层，用户分布在不同楼层，用户使用用户终端。基站2向目标楼宇3中的用户的用户终端发射波束。电子设备1若监测到波束权值参数调整指令，则确定目标楼宇对应的当前各楼层用户数量以及用户在对应的楼层的驻留时长；根据目标楼宇对应的当前各楼层用户数量、用户在对应的楼层的驻留时长及目标楼宇对应的基站信息确定目标楼宇当前状态信息；将目标楼宇当前状态信息输入至训练的强化学习模型中，获得目标楼宇对应的最优波束权值参数组合，电子设备1基于最优波束权值参数组合生成调整指令，电子设备1将该调整指令发送至基站2，基站2解析调整指令获得最优波束权值参数组合，基站2将当前波束权值参数组合更新为最优波束权值参数组合，通过调整波束权值参数从而改变基站对目标楼宇的波束覆盖状态，从而提高对应的下行平均速率。在波束权值参数调整时加入了用户在楼宇中所处楼层以及在楼层的停留时间，相比现有的基于用户业务量的调整方式来说考虑的更全面，使得调整后的基站波束更好地覆盖楼宇，有效地提高下行平均速率。

以下将参照附图来具体描述本发明的实施例。

实施例一

图2是本发明实施例一提供的波束权值参数调整方法的流程示意图，如图2所示，本实施例提供的波束权值参数调整方法的执行主体为波束权值参数调整装置，该波束权值参数调整装置位于电子设备中，则本实施例提供的波束权值参数调整方法包括以下步骤：

步骤101，若监测到波束权值参数调整指令，则确定目标楼宇对应的当前各楼层用户数量以及用户在对应的楼层的驻留时长，波束为基站向目标楼宇的用户终端发射的波束。

本实施例中，监测是否接收到波束的波束权值参数调整指令，波束为基站向目标楼宇的用户终端发射的波束，其中，波束权值参数包括Dl256QamSwitch、SsbPeriod、OccupiedRbNum、DlAdditionalDmrsPos、MaxMimoLayerNum、NrDuCellId和TrsBeamPattern，若监测到波束权值参数调整指令，进一步确定目标楼宇对应的当前各楼层用户数量以及用户在对应的楼层的驻留时长，具体地，采集目标楼宇对应的信令数据，信令数据中包括用户终端标识码、用户终端标识码对应的楼层标识码、用户终端标识码对应的业务开始时间以及对应的业务结束时间。基于信令数据确定目标楼宇对应的当前各楼层用户数量以及用户在对应的楼层的驻留时长。

其中，运维人员可通过对应的终端发送波束权值调整参数指令，波束权值参数调整装置监测是否接收到波束权值调整指令。或者波束权值参数调整装置与终端连接，该终端间隔预设时间自动向波束权值调整参数装置发送波束权值参数调整指令，其中，预设时间为可根据实际情况设置，例如，预设时间可设置为1h。或者波束权值参数调整装置内部设置计时单元，计时单元间隔预设时间向波束权值参数调整装置的接收单元发送波束权值参数调整指令，若监测到波束权值参数调整指令，进一步确定目标楼宇对应的当前各楼层用户数量以及用户在对应的楼层驻留时长。

步骤102，根据目标楼宇对应的当前各楼层用户数量、用户在对应的楼层的驻留时长及目标楼宇对应的基站信息确定目标楼宇当前状态信息。

本实施例中，基站信息包括基站标识、对应的楼层标识码、基站经度、基站纬度、基站距离、天线挂高、天线下倾角。统计目标楼宇对应的当前各个楼层用户数量以及用户在对应的楼层的驻留时长，进一步根据当前各楼层用户数量、用户在对应的楼层的留住时长和基站信息生成目标楼宇当前状态信息，基于目标楼宇当前状态信息可以得到对应的最优波束权值参数组合。

步骤103，将目标楼宇当前状态信息输入至训练的强化学习模型中，获得目标楼宇对应的最优波束权值参数组合。

本实施例中，学习强化模型包括马尔科夫模型和神经网络模型，首先定义学习强化模型的马尔可夫模型中的状态信息集合、动作信息集合以及奖惩信息，预先对强化学习模型进行训练，得到训练的强化学习模型，将目标楼宇当前状态信息集合中的状态信息输入至训练的强化学习模型中，获得目标楼宇对应的最优波束权值参数组合。

其中，强化学习是通过Agent也就是动作的发起者，对环境造成一个影响，环境接收该动作后状态发生变化，同时产生一个强化信号(奖或惩)反馈给Agent，Agent根据强化信号和环境当前状态再选择一个动作，选择的原则是使受到正强化的概率增大。深度Q网络(DQN)是强化学习中的一种算法，DQN是将Q learning和卷积神经网络(CNN)集合在一起，QlearningQ(s,a)是在某一时刻的状态s下，采取动作a，动作能够获得收益的期望，环境会根据Agent的动作反馈对应的奖惩r。

步骤104，根据最优波束权值参数组合对目标楼宇对应的基站的波束权值参数进行调整。

本实施例中，波束权值参数包括Dl256QamSwitch、SsbPeriod、OccupiedRbNum、DlAdditionalDmrsPos、MaxMimoLayerNum、NrDuCellId和TrsBeamPattern，上述波束权值参数有其各自对应的取值，不同的取值对应的不同组合方式，将目标楼宇对应的基站的当前波束权值参数组合调整为最优波束权值参数组合，以对目标楼宇对应的基站的波束权值参数进行调整，具体地，波束权值参数调整装置控制基站进行波束权值参数的调整，具体地，波束权值参数调整装置发送调整指令至对应的基站，基站解析调整指令获得最优波束权值参数组合，基站用最优波束权值参数组合更新当前波束权值参数组合，通过改变波束权值参数有效地提高下行平均速率。

本实施例中，若监测到波束权值调整指令，确定目标楼宇当前各楼层用户数量以及用户在对应的楼层的驻留时长，根据当前各楼层用户数量、用户在对应的楼层的驻留时长及基站信息确定目标楼宇当前状态信息，将该状态信息输入至预先训练的强化学习模型中，得到目标楼宇对应的最优波束权值参数组合，从而根据最优波束权值参数组合调整基站的波束权值参数，在波束权值参数调整时加入了用户在楼宇中所处楼层以及在楼层的停留时间，相比现有的基于用户业务量的调整方式来说考虑的更全面，使得调整后的基站波束更好地覆盖楼宇，有效地提高下行平均速率。

需要说明的是，波束权值参数调整装置也可设置在基站内，基站若监测到波束权值参数调整指令，则确定目标楼宇对应的当前各楼层用户数量以及用户在对应的楼层的驻留时长，根据目标楼宇对应的当前各楼层用户数量、用户在对应的楼层的驻留时长及目标楼宇对应的基站信息确定目标楼宇当前状态信息，将目标楼宇当前状态信息输入至训练的强化学习模型中，获得目标楼宇对应的最优波束权值参数组合，根据最优波束权值参数组合对目标楼宇对应的基站的波束权值参数进行调整，具体地，控制基站的波束发射装置基于最优波束权值参数组合进行波束调整。

实施例二

图3是本发明实施例二提供的波束权值参数调整方法的流程示意图，如图3所示，在本发明实施例一提供的波束权值参数调整方法的基础上，对步骤101的确定目标楼宇对应的当前各楼层用户数量以及用户在对应的楼层的驻留时长进行了进一步的细化，包括以下步骤：

步骤1011，获取目标楼宇对应的信令数据XDR，XDR包括用户终端标识码、用户终端标识码对应的楼层标识码、用户终端标识码对应的业务开始时间以及对应的业务结束时间。

本实施例中，采集目标楼宇对应的信令数据XDR，XDR数据包括用户终端标识码、用户终端标识码对应的楼层标识码、用户终端标识对应的业务类型、用户终端标识码对应的业务开始时间以及对应的业务结束时间，其中，用户终端标识码为MSISDN即用户手机号码，楼层标识码为CELL ID即基站小区识别码。

步骤1012，根据楼层标识码确定目标楼宇对应的楼层标识码对应的当前各楼层用户数量，并根据用户终端标识码对应的业务开始时间以及对应的业务结束时间确定用户终端标识码对应的用户在当前楼层标识码对应的楼层的驻留时长。

本实施例中，用户的楼层标识码相同，说明用户在目标楼宇中的同一楼层，统计相同楼层标识码对应的用户数量，基于楼层标识码确定目标楼宇对应的楼层标识码对应的当前各个楼层的用户数量，进一步根据用户终端标识码对应的业务开始时间以及对应的结束时间计算用户终端标识码对应的用户在当前楼层标识码对应的楼层的驻留时长，具体地，计算用户终端标识码对应的结束时间与对应的业务开始时间的差值，得到时间差值，将时间差值确定为用户在当前楼层标识码对应的楼层的驻留时长。

实施例三

图4是本发明实施例三提供的波束权值参数调整方法的流程示意图，如图4所示，在本发明实施例二提供的波束权值参数调整方法的基础上，对步骤102进行了进一步的细化，包括以下步骤：

步骤1021，获取基站信息，基站信息包括对应的目标楼宇信息、对应的楼层标识码。

本实施例中，获取基站信息，基站信息包括基站标识、对应的楼层标识码、基站经度、基站纬度、基站距离、天线挂高、天线下倾角。

步骤1022，基于预设关键字段将目标楼宇对应的当前楼层标识码对应的各楼层用户数量以及用户在当前楼层标识码对应的楼层的驻留时长与基站信息进行关联，获得关联信息，并将关联信息确定为目标楼宇当前状态信息。

本实施例中，获取预设关键字段，预设关键字段为基站信息与目标楼宇对应的当前楼层标识码对应的各楼层用户数量以及用户在当前楼层标识码对应的楼层的驻留时长共有的关键字段，例如，预设关键字段设置为楼层标识码，根据楼层标识码将基站信息与目标楼宇对应的当前楼层标识码对应的各楼层用户数量以及用户在当前楼层标识码对应的楼层的驻留时长进行关联，从而获得对应的关联信息，将关联信息确定为目标楼宇当前状态信息。

实施例四

图5是本发明实施例四提供的波束权值参数调整方法的流程示意图，如图5所示，在本发明实施例一提供的波束权值参数调整方法的基础上，步骤103之前，还包括以下步骤：

步骤1031，构建学习强化模型的马尔可夫模型中的状态信息集合、动作信息集合以及奖惩信息。

本实施例中，学习强化模型由马尔可夫模型和神经网络模型构成，首先定义学习强化模型的马尔可夫模型中的状态信息集合、动作信息集合以及奖惩信息，其中，状态信息集合包括多个状态信息，动作信息集合包括多个动作信息，根据下行平均速率以及预设用户变化函数构建奖惩信息。其中，基于目标楼宇当前状态信息构建马尔可夫模型的状态信息集合，基于波束权值参数组合构建马尔可夫模型的动作信息集合，基于状态信息集合中各状态信息以及动作信息集合中各动作信息得到对应的奖惩信息。

步骤1032，构建经验池，基于状态信息集合、动作信息集合以及奖惩信息得到对应的多个经验值，将多个经验值加入至构建的经验池中。

本实施例中，构建经验池，经验池用于存放经验值，基于状态信息集合、动作信息集合以及奖惩信息得到对应的多个经验值，将多个经验值加入至经验池中，直至经验池中的经验值数量达到预设数量。

步骤1033，随机从经验池中选择多个经验值作为训练样本，采用训练样本训练学习强化模型的神经网络模型，得到训练后的学习强化模型的神经网络模型。

本实施例中，经验池中存储大量的经验值，由于样本之间具有相关性，选择连续的样本进行学习，效果并不好，随机化会破坏样本之间的相关性，因此随机从经验池中选择多个经验值作为强化学习模型的训练样本，采用训练样本对强化学习模型进行训练，得到训练后的学习强化模型对应的神经网络模型。

实施例五

图6是本发明实施例五提供的波束权值参数调整方法的流程示意图，如图6所示，在本发明实施例四提供的波束权值参数调整方法的基础上，对步骤1031进行了进一步的细化，包括以下步骤：

步骤1031a，获取目标楼宇状态信息，基于目标楼宇状态信息构建学习强化模型的马尔可夫模型中的状态信息集合。

本实施例中，获取目标楼宇当前状态信息，基于目标楼宇状态信息构建为马克可夫模型中的状态信息集合，将目标楼宇状态信息确定为马克可夫模型中的状态信息集合。

步骤1031b，获取目标楼宇状态信息对应的基站的波束权值参数组合，基于波束权值参数组合构建学习强化模型的马尔可夫模型中的动作信息集合，并基于下行平均速率以及预设用户变化函数构建奖惩信息。

本实施例中，基于目标楼宇状态信息对应的基站波束权值参数确定对应的基站的波束权值参数组合，其中，波束权值参数Dl256QamSwitch、SsbPeriod、OccupiedRbNum、DlAdditionalDmrsPos、MaxMimoLayerNum、NrDuCellId和TrsBeamPattern。

其中，Dl256QamSwitch参数归属类型为NRDUCELLALGOSWITCH，Dl256QamSwitch参数取值开启和关闭，表示固定下行256QAM的开启或关闭，主要用于控制小区高阶调制功能是否开启。SsbPeriod参数归属类型为NRDUCELL，SsbPeriod参数设置可从MS5，MS10，MS20，MS40，MS80，MS160中选取一个，SsbPeriod参数用于固定配置SSB周期。OccupiedRbNum参数归属类型为NRDUCELLPDCCH，OccupiedRbNum参数取值范围为0～22，OccupiedRbNum参数表示基站每个PDCCH符号上占用频域范围。DlAdditionalDmrsPos参数归属类型为NRDUCELLPDSCH，参数设置可从NOT CONFIG、POS1和POS2选取一个，DlAdditionalDmrsPos参数用于配置下行附加DMRS的位置。MaxMimoLayerNum参数归属类型为NRDUCELLPDSCH，MaxMimoLayerNum参数设置可从LAYER2，LAYER4，LAYER6，LAYER8，LAYER10，LAYER12，LAYER14和LAYER16中选取一个，MaxMimoLayerNum参数用于控制基站MIMO空分复用最大传输层数。NrDuCellId参数归属类型为MOD NRDUCELL，NrDuCellId参数设置可从MS20，MS40，MS80和MS160选取一个，NrDuCellId参数用于表示SIB1的发送周期。TrsBeamPattern参数归属类型为NRDUCELLTRPBEAM，TrsBeamPattern参数设置可从PATTERN1和PATTERN2选取一个，TrsBeamPattern参数用于配置TRS的波束类型。

其中，Dl256QamSwitch有2种设置方式，SsbPeriod有5种设置方式，OccupiedRbNum有23种设置方式，DlAdditionalDmrsPos有3种设置方式，MaxMimoLayerNum有8种设置方式，NrDuCellId有4种设置方式，TrsBeamPattern有4种设置方式，波束权值参数组合方式共有2*6*23*3*8*4*2＝13248，基于上述波束权值参数组合构建学习强化模型的马尔可夫模型中的动作信息集合。

本实施例中，基于下行平均速率以及预设用户变化函数构建马尔可夫模型的奖惩信息。

实施例六

图7是本发明实施例六提供的波束权值参数调整方法的流程示意图，如图7所示，在本发明实施例四提供的波束权值参数调整方法的基础上，对步骤1032进行了进一步的细化，包括以下步骤：

步骤1032a，从状态信息集合中选择状态信息以及动作信息集合选择动作信息，执行动作信息对应的动作，得到对应的下一状态信息以及对应的奖惩信息。

本实施例中，从状态信息集合中选择状态信息，并从动作信息集合中选择信息，执行动作信息对应的动作，得到下一状态信息以及对应的奖惩信息。

步骤1032b，将选择的状态信息、选择的动作信息、对应的下一状态信息以及对应的奖惩信息作为一组经验值，将该经验值加入至构建的经验池中，并执行从状态信息集合中选择状态信息以及动作信息集合选择动作信息的步骤，直至经验池中的经验值数量达到预设数量。

本实施例中，将一组选择的状态信息、选择的动作信息、对应的下一状态信息以及对应奖惩信息作为一组经验值，将经验池存入经验池中，再次从状态信息集合中选择状态信息，并从动作信息集合中选择信息，执行动作信息对应的动作，得到下一状态信息以及对应的奖惩信息，再次得到一组经验值，直至经验池中的经验值数量达到预设数量，若经验池中的经验值数量达到预设数量，进一步对强化学习模型进行训练，其中，预设数量根据实际情况设定。

实施例七

在本发明实施例四提供的波束权值参数调整方法的基础上，对步骤1033进行了进一步的细化，包括以下步骤：

步骤1033a，构建神经网络模型对应的预估网络模型以及目标网络模型，并定义对应的损失函数，预估网络模型表示为：Q(s,a；θ)，目标网络模型表示为：Ytarget＝r+γmaxQ(s,a；θ)，其中，s为状态信息，a为动作信息，θ为权重参数，r为奖惩信息，损失函数表示为：loss＝(Q-y_target)²。

本实施例中，构建两个神经网络模型，分别为预估网络模型以及目标网络模型，其中，预估网络模型用于评估当前状态、动作对应的价值函数，预估网络模型表示为：

Q(s，a；θ) 公式(1)

其中，s为状态信息，a为动作信息，θ为权重参数。

本实施例中，目标网络模型表示为：

Y_targe＝r+γmax Q(s,a；θ) 公式(2)

其中，s为状态信息，a为动作信息，θ为权重参数，r为奖惩信息。

本实施例中，定义损失函数，损失函数表示为：

loss＝(Q-Y_target)² 公式(3)

步骤1033b，将训练样本输入至预估网络模型中，通过最优损失函数，利用神经网络的梯度反向传播来更新预估网络模型的权重参数，以获得最优权重参数，得到训练后的学习强化模型的神经网络模型。

本实施例中，将训练样本输入至预估网络模型中，通过最优损失函数的方式，并利用神经网络的梯度反向传播更新预估网络模型的权重参数，从而获得最优权重参数，当权重参数为最优权重参数时，Q值最大，得到训练后的学习强化模型的神经网络模型。

实施例八

在本发明实施例一提供的波束权值参数调整方法的基础上，步骤104之后，还包括以下步骤：

步骤105，获取调整前预设时间内对应的第一下行平均速率以及调整后预设时间内对应的第二下行平均速率，将第一下行平均速率与第二下行平均速率进行比较。

本实施例中，获取调整前的波束权值参数组合下对应的第一下行平均速率以及获取调整后的最优波束权值参数组合下对应的第二下行平均速率。将调整前的波束权值参数组合下对应的第一下行平均速率与调整后的最优波束权值参数组合下对应的第二下行平均速率进行比较，根据比较结果发送提示信息至终端。

步骤106，若第一下行平均速率小于或等于第二下行平均速率，则发送调整成功的提示信息至对应的终端。

本实施例中，若调整前的波束权值参数组合下对应的第一下行平均速率小于或等于第二下行平均速率，说明通过调整基站的波束权值参数使得下行平均速率得到了提高，向运维人员的终端发送调整成功的提示信息，以便运维人员及时掌握基站的最新动态。

步骤107，若第一下行平均速率大于第二下行平均速率，则发送调整失败的提示信息至对应的终端。

本实施例中，若调整前的波束权值参数组合下对应的第一下行平均速率大于第二下行平均速率，说明即使调整了基站的波束权值参数，下行平均速率并没有得到改善，这种情况可能是由于其他原因造成的，因此需要通知运维人员进行维修，向运维人员的终端发送调整失败的提示信息，以便运维人员及时掌握基站的最新动态。

图8是本发明一实施例提供的波束权值参数调整装置的结构示意图，如图8所示，本实施例提供的波束权值参数调整装置200包括确定单元201，输入单元202，调整单元203。

确定单元201，用于若监测到波束权值参数调整指令，则确定目标楼宇对应的当前各楼层用户数量以及用户在对应的楼层的驻留时长，波束为基站向目标楼宇的用户终端发射的波束。确定单元201，还用于根据目标楼宇对应的当前各楼层用户数量、用户在对应的楼层的驻留时长及目标楼宇对应的基站信息确定目标楼宇当前状态信息。输入单元202，用于将目标楼宇当前状态信息输入至训练的强化学习模型中，获得目标楼宇对应的最优波束权值参数组合。调整单元203，用于根据最优波束权值参数组合对目标楼宇对应的基站的波束权值参数进行调整。

可选地，确定单元，还用于获取目标楼宇对应的信令数据XDR，XDR包括用户终端标识码、用户终端标识码对应的楼层标识码、用户终端标识码对应的业务开始时间以及对应的业务结束时间；根据楼层标识码确定目标楼宇对应的楼层标识码对应的当前各楼层用户数量，并根据用户终端标识码对应的业务开始时间以及对应的业务结束时间确定用户终端标识码对应的用户在当前楼层标识码对应的楼层的驻留时长。

可选地，确定单元，还用于获取基站信息，基站信息包括对应的目标楼宇信息、对应的楼层标识码；基于预设关键字段将目标楼宇对应的当前楼层标识码对应的各楼层用户数量以及用户在当前楼层标识码对应的楼层的驻留时长与基站信息进行关联，获得关联信息，并将关联信息确定为目标楼宇当前状态信息。

可选地，波束权值参数调整装置还包括构建单元。

构建单元，用于构建学习强化模型的马尔可夫模型中的状态信息集合、动作信息集合以及奖惩信息；构建经验池，基于状态信息集合、动作信息集合以及奖惩信息得到对应的多个经验值，将多个经验值加入至构建的经验池中；随机从经验池中选择多个经验值作为训练样本，采用训练样本训练学习强化模型的神经网络模型，得到训练后的学习强化模型的神经网络模型。

可选地，构建单元，还用于获取目标楼宇状态信息，基于目标楼宇状态信息构建学习强化模型的马尔可夫模型中的状态信息集合；获取目标楼宇状态信息对应的基站的波束权值参数组合，基于波束权值参数组合构建学习强化模型的马尔可夫模型中的动作信息集合，并基于下行平均速率以及预设用户变化函数构建奖惩信息。

可选地，构建单元，还用于从状态信息集合中选择状态信息以及动作信息集合选择动作信息，执行动作信息对应的动作，得到对应的下一状态信息以及对应的奖惩信息；将选择的状态信息、选择的动作信息、对应的下一状态信息以及对应的奖惩信息作为一组经验值，将该经验值加入至构建的经验池中，并执行从状态信息集合中选择状态信息以及动作信息集合选择动作信息的步骤，直至经验池中的经验值数量达到预设数量。

可选地，构建单元，还用于构建神经网络模型对应的预估网络模型以及目标网络模型，并定义对应的损失函数，预估网络模型表示为：Q(s,a；θ)，目标网络模型表示为：Ytarget＝r+γmax Q(s,a；θ)，其中，s为状态信息，a为动作信息，θ为权重参数，r为奖惩信息，损失函数表示为：loss＝(Q-Y_target)²；将训练样本输入至预估网络模型中，通过最优损失函数，利用神经网络的梯度反向传播来更新预估网络模型的权重参数，以获得最优权重参数，得到训练后的学习强化模型的神经网络模型。

可选地，波束权值参数调整装置还包括发送单元。

发送单元，用于获取调整前预设时间内对应的第一下行平均速率以及调整后预设时间内对应的第二下行平均速率，将第一下行平均速率与第二下行平均速率进行比较；若第一下行平均速率小于或等于第二下行平均速率，则发送调整成功的提示信息至对应的终端；若第一下行平均速率大于第二下行平均速率，则发送调整失败的提示信息至对应的终端。

图9是用来实现本发明实施例的波束权值参数调整方法的电子设备的框图，如图9所示，该电子设备300包括：存储器301，处理器302。

存储器301存储计算机执行指令；

处理器302执行存储器301存储的计算机执行指令，使得处理器执行上述任意一个实施例提供的方法。

在示例性实施例中，还提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行上述任意一个实施例中的方法。

在示例性实施例中，还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行上述任意一个实施例中的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求书指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

20页详细技术资料下载

波束权值参数调整方法、装置、设备及存储介质

相关技术

网友询问留言