一种流媒体推荐与传输方法、装置和计算机可读存储介质

文档序号：1921658 发布日期：2021-12-03 浏览：11次 >En<

阅读说明：本技术 一种流媒体推荐与传输方法、装置和计算机可读存储介质 (Streaming media recommendation and transmission method, device and computer-readable storage medium ) 是由王希栋边森于 2020-05-28 设计创作，主要内容包括：本发明实施例提供了一种流媒体推荐与传输方法、装置和计算机可读存储介质,所述方法包括：从基站获取观测数据；基于所述观测数据建立推荐策略强化学习框架和传输策略强化学习框架；基于所述观测数据、推荐策略强化学习框架和传输策略强化学习框架,确定并向基站发送：要向用户推荐的文件索引以及基站在当前帧所需提供的平均数据率,用于基站向用户推荐相应文件并调整文件传输的发射功率；基于文件播放的反馈信息持续训练所述推荐策略强化学习框架和传输策略强化学习框架。(The embodiment of the invention provides a streaming media recommendation and transmission method, a device and a computer readable storage medium, wherein the method comprises the following steps: acquiring observation data from a base station; establishing a recommendation strategy reinforcement learning framework and a transmission strategy reinforcement learning framework based on the observation data; determining and sending to a base station based on the observation data, a recommended strategy reinforcement learning framework and a transmission strategy reinforcement learning framework: the file index to be recommended to the user and the average data rate required to be provided by the base station at the current frame are used for the base station to recommend the corresponding file to the user and adjust the transmission power of the file transmission; and continuously training the recommendation strategy reinforcement learning framework and the transmission strategy reinforcement learning framework based on the feedback information played by the file.)

技术领域

本发明涉及移动通信技术领域，尤其涉及一种流媒体推荐与传输方法、装置和计算机可读存储介质。

背景技术

目前，低能耗流媒体传输方案是基于一段预测窗中的预测信息优化传输策略的，无法对策略进行灵活的调整；而且方案的主要目标是最大化用户体验，并没有考虑流媒体的传输能耗；此外，相关方案也没有考虑用户可能提前终止播放造成的传输能量的浪费。

发明内容

有鉴于此，本发明实施例期望提供一种流媒体推荐与传输方法、装置和计算机可读存储介质。

为达到上述目的，本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种流媒体推荐与传输方法，该方法应用于中央单元，包括：

从基站获取观测数据；

基于所述观测数据建立推荐策略强化学习框架和传输策略强化学习框架；

基于所述观测数据、推荐策略强化学习框架和传输策略强化学习框架，确定并向基站发送：要向用户推荐的文件索引以及基站在当前帧所需提供的平均数据率，用于基站向用户推荐相应文件并调整文件传输的发射功率；

基于文件播放的反馈信息持续训练所述推荐策略强化学习框架和传输策略强化学习框架。

其中，所述观测数据包括但不限于如下信息：

用户在文件请求历史中播放时间比大于预设门限的文件索引；

用户观看所请求文件的时间以及文件的总播放时长；

用户在当前帧以及过去帧的平均信道增益向量；

用户当前缓存中剩余的待播放数据量；

用户所接入的基站在当前时隙的发射功率。

其中，所述基于所述观测数据建立推荐策略强化学习框架，包括：

将推荐策略强化学习框架中的状态设置为所述观测数据中的用户在文件请求历史中播放时间比大于预设门限的文件索引；将动作设置为所述观测数据中的当前时间步要向用户推荐的文件索引；将奖励函数设置为所述观测数据中的文件的播放时间比；

基于推荐策略强化学习框架中的所述状态、动作和奖励，利用深度强化学习算法进行推荐策略的学习。

其中，基于所述观测数据建立传输策略强化学习框架，包括：

将传输策略强化学习框架中的状态设置为所述观测数据中的用户当前缓存中剩余的待播放数据量与过去帧的平均信道增益；将动作设置为所述观测数据中的基站在当前帧所需提供的平均数据率，并给出基站在每个时隙的发射功率关于平均数据率与信道信息的函数关系；将奖励函数设置为所述观测数据中的当前帧的传输能耗负值与体现用户服务质量的惩罚项之和；

基于传输策略强化学习框架中的状态、动作和奖励，利用深度强化学习算法进行传输策略的学习。

其中，强化学习算法为深度Q网络DQN算法时，基于所述观测数据、推荐策略强化学习框架，确定并向基站发送要向用户推荐的文件索引，包括：

将所述观测数据中的用户在文件请求历史中播放时间比大于预设门限的文件索引作为用于学习推荐策略的DQN的输入，输出为每个推荐策略强化学习框架的动作的Q值估计；

采用ε-greedy的方式执行策略，选择执行的动作发送到用户所接入的基站。

其中，强化学习算法为深度策略梯度DDPG算法时，基于所述观测数据、传输策略强化学习框架，确定并向基站发送基站在当前帧所需提供的平均数据率，包括：

将所述观测数据中的用户当前缓存中剩余的待播放数据量与过去帧的平均信道增益作为DDPG算法中actor网络的输入，输出为传输策略强化学习框架的动作；DDPG算法中critic网络的输入为传输策略强化学习框架的状态与动作、输出为对应的Q值；

DDPG在执行动作时通过在输出增加噪声项来鼓励对动作空间的探索，选择执行的动作发送到用户所接入的基站。

其中，所述基于文件播放的反馈信息持续训练所述推荐策略强化学习框架和传输策略强化学习框架，包括：

确定当前帧结束时，记录传输策略强化学习框架的奖励函数以及下一个状态，并记录状态转移样本；随机选取预设批量样本进行传输策略强化学习框架中网络参数的更新；

确定当前文件播放终止时，记录推荐策略强化学习框架的奖励函数以及下一个状态，并记录状态转移样本；随机选取预设批量样本进行推荐策略强化学习框架中网络参数的更新。

本发明实施例还提供了一种流媒体推荐与传输方法，该方法应用于基站，包括：

接收中央单元发送的要向用户推荐的文件索引以及基站在当前帧所需提供的平均数据率；所述文件索引和平均数据率为中央单元基于观测数据、推荐策略强化学习框架和传输策略强化学习框架确定的；

基于所述要向用户推荐的文件索引向用户推荐相应文件，基于所述基站在当前帧所需提供的平均数据率调整所述文件传输的发射功率。

其中，所述基于所述基站在当前帧所需提供的平均数据率调整所述文件传输的发射功率，包括：

基于基站在当前帧所需提供的平均数据率，并根据基站在每个时隙的发射功率关于平均数据率与信道信息的函数关系，确定当前帧中每一个时隙的发射功率；

基于确定的结果调整文件传输的发射功率。

本发明实施例还提供了一种流媒体推荐与传输装置，该装置应用于中央单元，包括：

数据观测模块，用于从基站获取观测数据；

框架建立模块，用于基于所述观测数据建立推荐策略强化学习框架和传输策略强化学习框架；

处理模块，用于基于所述观测数据、推荐策略强化学习框架和传输策略强化学习框架，确定并向基站发送：要向用户推荐的文件索引以及基站在当前帧所需提供的平均数据率，用于基站向用户推荐相应文件并调整文件传输的发射功率；

模型训练模块，用于基于文件播放的反馈信息持续训练所述推荐策略强化学习框架和传输策略强化学习框架。

本发明实施例还提供了一种流媒体推荐与传输装置，该装置应用于基站，包括：

接收模块，用于接收中央单元发送的要向用户推荐的文件索引以及基站在当前帧所需提供的平均数据率；所述文件索引和平均数据率为中央单元基于观测数据、推荐策略强化学习框架和传输策略强化学习框架确定的；

推荐模块，用于基于所述要向用户推荐的文件索引向用户推荐相应文件；

调整模块，用于基于所述基站在当前帧所需提供的平均数据率调整所述文件传输的发射功率。

本发明实施例还提供了一种流媒体推荐与传输装置，该装置包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行上述方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本发明实施例提供的流媒体推荐与传输方法、装置和计算机可读存储介质，从基站获取观测数据；基于所述观测数据建立推荐策略强化学习框架和传输策略强化学习框架；基于所述观测数据、推荐策略强化学习框架和传输策略强化学习框架，确定并向基站发送：要向用户推荐的文件索引以及基站在当前帧所需提供的平均数据率，用于基站向用户推荐相应文件并调整文件传输的发射功率；基于文件播放的反馈信息持续训练所述推荐策略强化学习框架和传输策略强化学习框架。本发明实施例建立基于无模型的推荐策略强化学习框架和传输策略强化学习框架，可以根据流媒体传输环境的变化灵活地对策略进行在线调整，降低由于用户提前终止播放的概率所造成的传输能量浪费，而且在保证用户服务质量的同时降低无线流媒体传输所造成的基站能量消耗。

本发明实施例无需路测建立信号地图、无需把预测信息转换为决策所需的知识、从而降低了系统实现和计算复杂度，易于实现；无需GPS数据、从而避免了用户隐私问题。

而且，本发明实施例通过利用计算能力强、覆盖范围大的中央单元进行集中式训练，将传输策略强化学习框架中的动作选择为基站在每一帧所需提供的平均数据率(以帧为单位做决策)，通过设置发射功率与平均数据率和瞬时信道信息的对应关系，基站可以在收到由中央单元给出的帧内平均数据率的需求后，在每一个时隙根据实时信道信息进行分布式的发射功率调整。相比在每一个时隙均由中央单元作出决策，可以大幅降低中央单元与基站间的信令开销。

附图说明

图1为本发明实施例所述流媒体推荐与传输方法流程示意图一；

图2为本发明实施例所述流媒体推荐与传输方法流程示意图二；

图3为本发明实施例所述流媒体推荐与传输装置结构示意图一；

图4为本发明实施例所述流媒体推荐与传输装置结构示意图二；

图5为本发明实施例所述流媒体推荐与传输方法流程示意图三。

具体实施方式

下面结合附图和实施例对本发明进行描述。

本发明实施例提供了一种流媒体推荐与传输方法，如图1所示，该方法应用于中央单元，包括：

步骤101：从基站获取观测数据；

步骤102：基于所述观测数据建立推荐策略强化学习框架和传输策略强化学习框架；

步骤103：基于所述观测数据、推荐策略强化学习框架和传输策略强化学习框架，确定并向基站发送：要向用户推荐的文件索引以及基站在当前帧所需提供的平均数据率，用于基站向用户推荐相应文件并调整文件传输的发射功率；

步骤104：基于文件播放的反馈信息持续训练所述推荐策略强化学习框架和传输策略强化学习框架。

本发明实施例建立基于无模型的推荐策略强化学习框架和传输策略强化学习框架，可以根据流媒体传输环境的变化灵活地对策略进行在线调整，降低由于用户提前终止播放的概率所造成的传输能量浪费，而且在保证用户服务质量的同时降低无线流媒体传输所造成的基站能量消耗。

本发明实施例中，所述观测数据包括但不限于如下信息：

用户在文件请求历史中播放时间比大于预设门限的文件索引；

用户观看所请求文件的时间以及文件的总播放时长；

用户在当前帧以及过去帧的平均信道增益向量；

用户当前缓存中剩余的待播放数据量；

用户所接入的基站在当前时隙的发射功率。

本发明实施例中，所述基于所述观测数据建立推荐策略强化学习框架，包括：

基于推荐策略强化学习框架中的所述状态、动作和奖励，利用深度强化学习算法进行推荐策略的学习。

本发明实施例中，基于所述观测数据建立传输策略强化学习框架，包括：

基于传输策略强化学习框架中的状态、动作和奖励，利用深度强化学习算法进行传输策略的学习。

本发明一个实施例中，强化学习算法为深度Q网络DQN算法时，基于所述观测数据、推荐策略强化学习框架，确定并向基站发送要向用户推荐的文件索引，包括：

采用ε-greedy的方式执行策略，选择执行的动作发送到用户所接入的基站。

本发明一个实施例中，强化学习算法为深度策略梯度DDPG算法时，基于所述观测数据、传输策略强化学习框架，确定并向基站发送基站在当前帧所需提供的平均数据率，包括：

DDPG在执行动作时通过在输出增加噪声项来鼓励对动作空间的探索，选择执行的动作发送到用户所接入的基站。

本发明实施例中，所述基于文件播放的反馈信息持续训练所述推荐策略强化学习框架和传输策略强化学习框架，包括：

本发明实施例还提供了一种流媒体推荐与传输方法，如图2所示，该方法应用于基站，包括：

步骤201：接收中央单元发送的要向用户推荐的文件索引以及基站在当前帧所需提供的平均数据率；所述文件索引和平均数据率为中央单元基于观测数据、推荐策略强化学习框架和传输策略强化学习框架确定的；

步骤202：基于所述要向用户推荐的文件索引向用户推荐相应文件，基于所述基站在当前帧所需提供的平均数据率调整所述文件传输的发射功率。

本发明实施例中，所述基于所述基站在当前帧所需提供的平均数据率调整所述文件传输的发射功率，包括：

基于确定的结果调整文件传输的发射功率。

为了实现上述方法实施例，本发明实施例还提供了一种流媒体推荐与传输装置，如图3所示，该装置应用于中央单元，包括：

数据观测模块301，用于从基站获取观测数据；

框架建立模块302，用于基于所述观测数据建立推荐策略强化学习框架和传输策略强化学习框架；

处理模块303，用于基于所述观测数据、推荐策略强化学习框架和传输策略强化学习框架，确定并向基站发送：要向用户推荐的文件索引以及基站在当前帧所需提供的平均数据率，用于基站向用户推荐相应文件并调整文件传输的发射功率；

模型训练模块304，用于基于文件播放的反馈信息持续训练所述推荐策略强化学习框架和传输策略强化学习框架。

本发明实施例中，所述观测数据包括但不限于如下信息：

用户在文件请求历史中播放时间比大于预设门限的文件索引；

用户观看所请求文件的时间以及文件的总播放时长；

用户在当前帧以及过去帧的平均信道增益向量；

用户当前缓存中剩余的待播放数据量；

用户所接入的基站在当前时隙的发射功率。

本发明实施例中，所述框架建立模块302基于所述观测数据建立推荐策略强化学习框架，包括：

基于推荐策略强化学习框架中的所述状态、动作和奖励，利用深度强化学习算法进行推荐策略的学习。

本发明实施例中，所述框架建立模块302基于所述观测数据建立传输策略强化学习框架，包括：

基于传输策略强化学习框架中的状态、动作和奖励，利用深度强化学习算法进行传输策略的学习。

本发明一个实施例中，强化学习算法为深度Q网络DQN算法时，处理模块303基于所述观测数据、推荐策略强化学习框架，确定并向基站发送要向用户推荐的文件索引，包括：

采用ε-greedy的方式执行策略，选择执行的动作发送到用户所接入的基站。

本发明一个实施例中，强化学习算法为深度策略梯度DDPG算法时，处理模块303基于所述观测数据、传输策略强化学习框架，确定并向基站发送基站在当前帧所需提供的平均数据率，包括：

DDPG在执行动作时通过在输出增加噪声项来鼓励对动作空间的探索，选择执行的动作发送到用户所接入的基站。

本发明实施例中，所述模型训练模块304基于文件播放的反馈信息持续训练所述推荐策略强化学习框架和传输策略强化学习框架，包括：

本发明实施例还提供了一种流媒体推荐与传输装置，如图4所示，该装置应用于基站，包括：

接收模块401，用于接收中央单元发送的要向用户推荐的文件索引以及基站在当前帧所需提供的平均数据率；所述文件索引和平均数据率为中央单元基于观测数据、推荐策略强化学习框架和传输策略强化学习框架确定的；

推荐模块402，用于基于所述要向用户推荐的文件索引向用户推荐相应文件；

调整模块403，用于基于所述基站在当前帧所需提供的平均数据率调整所述文件传输的发射功率。

本发明实施例中，所述调整模块403基于所述基站在当前帧所需提供的平均数据率调整所述文件传输的发射功率，包括：

基于确定的结果调整文件传输的发射功率。

本发明实施例还提供了一种流媒体推荐与传输装置，该装置包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行：

从基站获取观测数据；

基于所述观测数据建立推荐策略强化学习框架和传输策略强化学习框架；

基于文件播放的反馈信息持续训练所述推荐策略强化学习框架和传输策略强化学习框架。

其中，所述观测数据包括但不限于如下信息：

用户在文件请求历史中播放时间比大于预设门限的文件索引；

用户观看所请求文件的时间以及文件的总播放时长；

用户在当前帧以及过去帧的平均信道增益向量；

用户当前缓存中剩余的待播放数据量；

用户所接入的基站在当前时隙的发射功率。

所述基于所述观测数据建立推荐策略强化学习框架时，所述处理器还用于运行所述计算机程序时，执行：

基于推荐策略强化学习框架中的所述状态、动作和奖励，利用深度强化学习算法进行推荐策略的学习。

基于所述观测数据建立传输策略强化学习框架时，所述处理器还用于运行所述计算机程序时，执行：

基于传输策略强化学习框架中的状态、动作和奖励，利用深度强化学习算法进行传输策略的学习。

强化学习算法为深度Q网络DQN算法时，基于所述观测数据、推荐策略强化学习框架，确定并向基站发送要向用户推荐的文件索引时，所述处理器还用于运行所述计算机程序时，执行：

采用ε-greedy的方式执行策略，选择执行的动作发送到用户所接入的基站。

所述处理器还用于运行所述计算机程序时，执行：

强化学习算法为深度策略梯度DDPG算法时，基于所述观测数据、传输策略强化学习框架，确定并向基站发送基站在当前帧所需提供的平均数据率时，所述处理器还用于运行所述计算机程序时，执行：

DDPG在执行动作时通过在输出增加噪声项来鼓励对动作空间的探索，选择执行的动作发送到用户所接入的基站。

所述基于文件播放的反馈信息持续训练所述推荐策略强化学习框架和传输策略强化学习框架时，所述处理器还用于运行所述计算机程序时，执行：

本发明实施例还提供了一种流媒体推荐与传输装置，该装置包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行：

基于所述要向用户推荐的文件索引向用户推荐相应文件，基于所述基站在当前帧所需提供的平均数据率调整所述文件传输的发射功率。

所述基于所述基站在当前帧所需提供的平均数据率调整所述文件传输的发射功率时，所述处理器还用于运行所述计算机程序时，执行：

基于确定的结果调整文件传输的发射功率。

需要说明的是：上述实施例提供的装置在进行流媒体推荐与传输时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将设备的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的装置与相应方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在示例性实施例中，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备，如移动电话、计算机、平板设备、个人数字助理等。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，执行：

从基站获取观测数据；

基于所述观测数据建立推荐策略强化学习框架和传输策略强化学习框架；

基于文件播放的反馈信息持续训练所述推荐策略强化学习框架和传输策略强化学习框架。

其中，所述观测数据包括但不限于如下信息：

用户在文件请求历史中播放时间比大于预设门限的文件索引；

用户观看所请求文件的时间以及文件的总播放时长；

用户在当前帧以及过去帧的平均信道增益向量；

用户当前缓存中剩余的待播放数据量；

用户所接入的基站在当前时隙的发射功率。

所述基于所述观测数据建立推荐策略强化学习框架时，所述计算机程序被处理器运行时，还执行：

基于推荐策略强化学习框架中的所述状态、动作和奖励，利用深度强化学习算法进行推荐策略的学习。

基于所述观测数据建立传输策略强化学习框架时，所述计算机程序被处理器运行时，还执行：

基于传输策略强化学习框架中的状态、动作和奖励，利用深度强化学习算法进行传输策略的学习。

强化学习算法为深度Q网络DQN算法时，基于所述观测数据、推荐策略强化学习框架，确定并向基站发送要向用户推荐的文件索引时，所述计算机程序被处理器运行时，还执行：

采用ε-greedy的方式执行策略，选择执行的动作发送到用户所接入的基站。

所述计算机程序被处理器运行时，还执行：

强化学习算法为深度策略梯度DDPG算法时，基于所述观测数据、传输策略强化学习框架，确定并向基站发送基站在当前帧所需提供的平均数据率时，所述计算机程序被处理器运行时，还执行：

DDPG在执行动作时通过在输出增加噪声项来鼓励对动作空间的探索，选择执行的动作发送到用户所接入的基站。

所述基于文件播放的反馈信息持续训练所述推荐策略强化学习框架和传输策略强化学习框架时，所述计算机程序被处理器运行时，还执行：

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，执行：

基于所述要向用户推荐的文件索引向用户推荐相应文件，基于所述基站在当前帧所需提供的平均数据率调整所述文件传输的发射功率。

所述基于所述基站在当前帧所需提供的平均数据率调整所述文件传输的发射功率时，所述计算机程序被处理器运行时，还执行：

基于确定的结果调整文件传输的发射功率。

下面结合场景实施例对本发明进行描述。

本申请发明实施例为一种基于无模型学习的低能耗无线流媒体推荐与传输策略，通过建立基于无模型的强化学习框架，可以根据环境的变化灵活地对策略进行在线调整，降低由于用户提前终止播放的概率所造成的传输能量浪费，在保证用户服务质量的同时尽可能降低无线流媒体传输所造成的基站能量消耗。

在一个多小区的系统中，每个小区中设有一个基站，各基站与中央单元相连。用户可以在多个小区间进行移动，并接入平均信道增益最大的基站。每当用户可能需要流媒体服务时(例如打开流媒体应用程序或刚观看完一个流媒体文件)，中心单元会控制用户所接入的基站向用户推荐一个流媒体文件。用户可能接受所推荐的文件并请求该文件进行播放。用户也可能没有接受基站所推荐的文件而另外请求一个文件进行播放。称用户观看单个文件的时长为一个时间步的时长，记用户在第j个时间步观看文件的时长为T_j，文件推荐以时间步为单元进行。记用户在第j个时间步所请求的文件总播放时长为L_j，当用户对所请求文件不感兴趣时，可能会提前终止文件的播放，则有T_j≤L_j，并称T_j/L_j为播放时间比。

设每个流媒体文件被分成N_c个片段，每个片段的播放时长包含了M帧。每一帧的时长为ΔT(秒级)，由N_s个时隙构成，每个时隙的时长为τ＝ΔT/M(毫秒级)。基站的发射功率分配以时隙为单元进行。

设置为用户在第t帧的平均信道增益向量，其中α_n，t表示该用户与平均信道增益第ⁿ强基站间的平均信道增益；a_n,t中的n指1到N_b中的任意整数。a_1,t表示该用户与平均信道最强基站间的平均信道增益，a_n,t表示该用户与平均信道第n强基站间的平均信道增益，a_Nb,t表示该用户与平均信道第N_b强基站间的平均信道增益。中央单元从基站获取并记录观测数据，学习推荐与传输策略，并给出当前时间步需要向用户推荐的文件以及基站在当前帧为需要用户提供的平均数据率。具体地，中央单元的观测数据至少包括但不限于如下信息：

用户在最近文件请求历史中播放时间比大于门限θ(0-1之间的任意数值，如：0.8)的J个文件索引f_j-1，…，f_j-J；

用户观看所请求文件的时间T_j以及文件的总播放时长L_j；

用户在当前帧以及过去N_t帧(预设的过去帧的数量)的平均信道增益向量

用户当前缓存中剩余的待播放数据量B_t；

用户所接入的基站在当前时隙的发射功率p_ti。

本发明实施例先分别从推荐策略强化学习框架与传输策略强化学习框架的建立进行说明。

一、推荐策略的强化学习框架

文件推荐的目的是通过向用户推荐其感兴趣的视频，增加用户播放完整视频的概率，从而降低视频传输所造成的能量浪费。下面分别设置推荐策略强化学习框架中的状态动作以及奖励

考虑到用户的观看历史记录能够反映用户的喜好，推荐策略强化学习框架中的状态设置为动作设置为当前时间步所需推荐的文件索引。奖励函数设置为用户的播放时间比

在设置了推荐策略强化学习框架中的状态、动作以及奖励后，可以采用已有深度强化学习算法进行推荐策略的学习，例如DQN算法。令Q^rec(s，a；θ^rec)表示用于学习推荐策略的DQN，其输入为状态输出为每个动作的Q值估计、网络参数为θ^rec。DQN采用ε-greedy的方式执行策略，以ε的概率随机选取动作执行，以1-ε的概率选择执行。DQN的参数θ^rec根据下式进行在线迭代更新

其中为从历史观测中随机选取的样本索引集合，δ^rec为DQN的学习率，为目标DQN，其结构与Q^rec相同，目标DQN的参数根据进行更新，w^rec为目标DQN的更新速率。

二、传输策略的强化学习框架

传输策略的目的是通过在每个时隙灵活调整基站发射功率，在保证用户播放视频不中断的前提下降低流媒体传输所造成的基站能量消耗。下面分别设置传输策略强化学习框架中的状态动作以及奖励

由于基站需要传输数据量应根据信道状况以及用户缓存中剩余待播放的数据量调整，传输策略强化学习框架中的状态设置为

动作设置为第t帧基站所需提供的平均数据率，即

当确定用户所接入的基站在第t帧所需提供的平均数据率(由传输策略的强化学习算法输出动作得到)后，基站在第t帧第i个时隙的发射功率由下式给出：

其中σ²为噪声的功率，g_ti为第t帧第i个时隙中用户与其所接入基站间的小尺度衰落增益，可以通过二分法求解下面方程得到：

其中W为传输带宽。特别地，当小尺度衰落服从瑞利分布时，有：

其中为指数积分。

奖励函数设置为：

其中为基站在第t帧的发射传输能耗，λ为惩罚因子，S_t+1表示在下一帧需要播放的片段大小，其中B_t+1＝max{B_t+R_t-S_tI_end(t)，0}为下一个时间步用户缓存中的待播放数据量，R_t为用户在第t帧接收的数据量，示性函数I_end(t)＝1表示第t帧结束时当前片段已经播放完毕，反之则I_end(t)＝0。惩罚项-λ(S_t+1-B_t+1)×min{B_t+1-S_t+1，0}仅在B_t+1-S_t+1＜，即下一帧要播放的片段没有提前传输到用户的缓存时起作用。惩罚项的作用是保证用户的服务质量，即避免播放出现中断。

在设置了传输策略强化学习框架中的状态、动作以及奖励后，可以采用已有深度强化学习算法进行传输策略的学习，考虑到状态与动作均属于连续空间，可以采用深度策略梯度(DDPG)算法。DDPG算法基于actor-critic架构，actor网络的输入为状态输出为动作参数为critic网络的输入为状态与动作输出为对应的Q值。DDPG在执行动作时通过在输出增加噪声项来鼓励对动作空间的探索，即执行动作

Critic网络参数根据下式进行更新：

其中为从历史观测中随机选取的样本索引集合，为critic网络的学习率，与分别为目标actor网络与critic网络，其结构分别与μ^tr和Q^tr相同，并根据进行参数更新，w^tr为更新速率。

Actor网络参数根据下式进行更新：

其中为actor网络的学习速率。

基于上述两种强化学习框架，本发明实施例方法的实现步骤如图5所示，包括：

步骤501：初始化强化学习框架：设定强化学习算法中的学习速率δ^rec、以及目标网络更新速率w^rec、w^tr，随机初始化神经网络参数θ^rec、

步骤502：中央单元根据观测得到状态以概率ε随机选择动作以概率1-ε选择动作并发送至用户所接入的基站；

步骤503：用户所接入的基站根据中央单元给出的动作向用户推荐文件；

步骤504：中央单元根据观测得到状态选择动作并发送至用户所接入的基站；

步骤505：用户所接入的基站根据以及当前信道信息，采用二分法求解式(3)得到并根据式(2)计算当前帧中每一个时隙的发射功率；

步骤506：若确定当前帧结束，中央单元观测奖励以及下一个状态(下一帧的状态)，记录状态转移样本之后执行步骤507；否则，返回步骤505；

步骤507：中央单元从历史状态转移样本中随机选取一小批量样本根据式(6)、式(7)更新critic与actor网络参数根据更新目标critic网络与actor网络参数，持续训练强化学习框架；

步骤508：若确定用户结束文件播放或文件播放完毕，中央单元观测奖励以及下一个状态(下一个时间步的状态)，记录状态转移样本之后执行步骤509；否则，返回步骤504；

步骤509：中央单元从历史观测记录中随机选取一小批量样本根据式(1)更新DQN网络参数根据更新目标DQN网络参数，返回步骤502，持续训练强化学习框架。

需要说明的是，本发明实施例所设置的强化学习框架不仅限于上文所述的DQN算法与DDPG算法，还可以采用其他强化学习算法、如竞争双深度Q网络(Dueling DDQN)，优势actor-critic(A2C)与近邻策略优化(PPO)等算法。

本发明实施例基于无模型的强化学习，无需对未来信息进行准确的预测，可以根据环境(网络)的变化灵活地对推荐与传输策略进行在线调整。本发明实施例无需路测建立信号地图、无需把预测信息转换为决策所需的知识、从而降低了系统实现和计算复杂度，易于实现；无需GPS数据、从而避免了用户隐私问题。

而且，本发明实施例在保证用户服务质量的同时能够显著降低无线流媒体传输能耗。通过利用计算能力强、覆盖范围大的中央单元进行集中式训练，将传输策略强化学习框架中的动作选择为基站在每一帧所需提供的平均数据率(以帧为单位做决策)，通过设置发射功率与平均数据率和瞬时信道信息的对应关系，基站可以在收到由中央单元给出的帧内平均数据率的需求后，在每一个时隙根据实时信道信息进行分布式的发射功率调整。相比在每一个时隙均由中央单元作出决策，可以大幅降低中央单元与基站间的信令开销。

此外，本发明实施例基于用户在文件请求历史中播放时间比大于预设门限的文件索引信息，通过推荐策略强化学习框架的应用向用户推荐感兴趣的文件，降低用户提前终止文件播放的概率，从而减少传输资源的浪费。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

22页详细技术资料下载

一种流媒体推荐与传输方法、装置和计算机可读存储介质

相关技术

网友询问留言