边缘网络环境下基于XGBoost算法的VOD业务缓存优化方法

文档序号:1218997 发布日期:2020-09-04 浏览:12次 >En<

阅读说明:本技术 边缘网络环境下基于XGBoost算法的VOD业务缓存优化方法 (XGboost algorithm-based VOD (video on demand) service cache optimization method in edge network environment ) 是由 张晖 孙叶钧 赵海涛 孙雁飞 倪艺洋 朱洪波 于 2020-04-20 设计创作,主要内容包括:本发明公开了一种边缘网络环境下基于XGBoost算法的VOD业务缓存优化方法,包括如下步骤:采集视频数据;以平均访问量为预测目标,用XGBoost算法进行回归建模获得预测模型;利用预测模型对平均访问量进行预测;根据预测结果建立缓存优化模型;使用背包算法求解优化模型,得到最终缓存方案。本发明考虑到边缘服务器需要处理大量的视频信息,以及机器学习在大数据处理中出色的数据分析能力,从而使得边缘服务器最大限度地减少业务访问时延,提高了边缘服务器的缓存效率,并且该方案非常简单而易于实现,具有很好的应用前景。(The invention discloses a VOD service cache optimization method based on XGboost algorithm in edge network environment, comprising the following steps: collecting video data; taking the average visit amount as a prediction target, and performing regression modeling by using an XGboost algorithm to obtain a prediction model; predicting the average visit quantity by using a prediction model; establishing a cache optimization model according to the prediction result; and (5) solving the optimization model by using a knapsack algorithm to obtain a final caching scheme. The invention considers that the edge server needs to process a large amount of video information and the excellent data analysis capability of machine learning in big data processing, thereby leading the edge server to reduce service access delay to the utmost extent and improving the cache efficiency of the edge server.)

边缘网络环境下基于XGBoost算法的VOD业务缓存优化方法

技术领域

本发明属于边缘网络技术领域,具体涉及一种边缘网络环境下基于XGBoost算法的VOD业务缓存优化方法。

背景技术

随着科学技术的发展,各种制式的端口和设备,以及各种各样的服务和应用接入到互联网,致使网络中的业务请求呈现***式增长,继而网络中的数据流量也出现了井喷式的增长,其中主要就是视频流量的增长。核心网是分发业务和提供服务环节中的重要组成部分。核心网的主要功能之一是把通过不同制式的设备和接口进入网络的请求,按照业务需求接入到不同服务网上,从而使每个业务请求得到应有的服务。核心网的另一主要功能是作为服务方,处理各个接口提交的业务请求。核心网本身包含多个不同的服务网,当业务请求到来时,核心网要为业务提供服务,而随着业务量的爆发,核心网提供的服务量急剧增长,因此,不管在业务请求处理还是在提供业务服务上,核心网都承担了巨大的负载压力。

边缘网络是最靠近用户的一部分网络。边缘网络一方面是为核心网分担业务请求处理压力,另一方面是将服务提供也下放到边缘网络,将业务所需的服务若边缘网络有能力处理则在边缘网络侧处理。然而,由于边缘网络的计算能力有限,要最大限度的为核心网分流,关键在于如何提高服务效率,而边缘缓存是提高服务效率的关键所在。边缘缓存是指将业务使用频率较高的资源缓存在边缘服务器上,当与之相关的业务再次到来时,直接从缓存中获取资源即可,边缘服务器无法满足的业务需求则再从核心网获取。

此外,随着大数据时代的到来,通过机器学习高效地获取知识,已逐渐成为各个领域技术发展的主要推动力之一,边缘网络领域也不例外。在大数据时代,随着数据的爆发式增长,各种需要分析的新的数据种类也在不断涌现,如语义理解、图像分析、网络数据的分析等,使得机器学习在大数据环境下具有极其重要的作用。

现有的视频缓存算法往往是依赖于视频流行度,其中最为普遍接受的是视频流行度服从zipf分布,这是基于用户行为统计的方式得出的结论,这种方式往往具有较大的滞后性,且参考指标有限,因此在业务指标多元化的现在,机器学习具有更好的业务指标分析能力。而对视频业务的预测将直接影响到边缘服务器的缓存效率,缓存命中率高,用户在边缘侧获取数据,时延就会降低,否则用户转而从核心网获取数据,时延就大大增加了。

发明内容

发明目的:为了克服现有技术中存在的不足,提供一种边缘网络环境下基于XGBoost算法的VOD业务缓存优化方法,利用机器学习中的XGBoost算法对VOD业务访问量进行回归建模和预测,并在此基础上提出了一种新的基于XGBoost算法的VOD业务缓存优化方法。

技术方案:为实现上述目的,本发明提供一种边缘网络环境下基于XGBoost算法的VOD业务缓存优化方法,包括如下步骤:

S1:采集视频数据;

S2:以平均访问量为预测目标,用XGBoost算法进行回归建模获得预测模型;

S3:利用预测模型对平均访问量进行预测;

S4:根据预测结果建立缓存优化模型;

S5:使用背包算法求解优化模型,得到最终缓存方案。

进一步的,所述步骤S2中预测模型的获取具体为:以平均访问量作为因变量,其余特征作为自变量进行回归训练,且进行数据集的划分,输出各个特征值的重要性排名,根据排名对特征进行删选得到最终建模特征值,根据建模特征值建模形成预测模型。

进一步的,所述根据建模特征值建模形成预测模型中使用组合调参方式进行参数调整,得到输出平方误差最小的模型,即为最终模型。

进一步的,所述步骤S4中缓存优化模型的建立具体为:

设定边缘服务器的缓存空间大小为S,视频体积集合为V={v1,v2,…,vK},视频访问量集合为PV={pv1,pv2,…,pvK},其中K为视频总数,由此得到如下缓存优化模型:

其中

Figure BDA0002457891770000022

为视频的最佳缓存选择方案,ak=0表示视频k不需要进行缓存,ak=1表示视频k需要进行缓存;式子

Figure BDA0002457891770000023

有两种可能性,当ak=0时,该式为0,无实际意义,当ak=1时,表示视频k的访问量与视频k体积的比值,该值是为了权衡访问量和视频体积,所以定义式子

Figure BDA0002457891770000031

表示视频k的缓存性价比;约束条件

Figure BDA0002457891770000032

表示缓存视频的体积总和应小于边缘服务器的缓存空间。

进一步的,所述步骤S5中优化模型的求解过程具体为:

令c(i,j)为当前边缘服务器剩余容量为j时,前i部视频的最佳缓存方式对应的性价比之和,即

得到如下递推关系式:

Figure BDA0002457891770000034

式(3)的第二个式子说明如下:当边缘服务器的剩余容量对于当前要进行缓存的第i部视频来说容量充足时,第i部视频并不一定是最佳缓存选择视频,因此会出现两种情况,第一种情况是第i部视频不是最佳选择,即第i部视频没有缓存,ai=0,这种情况下有:

c(i,j)=c(i-1,j) (4)

第二种情况是第i部视频是最佳选择,即第i部视频需要被缓存,ai=1,即:

式(5)中,vi是第i部视频的体积,c(i,j-vi)是处理第i部视频之前,由前面的决策得到的最佳性价比之和,在此基础上加上第i部视频的性价比,即为缓存第i部视频之后总的性价比;

比较上述两种情况得到的性价比大小,取最大值即为边缘服务器的剩余容量对于当前要进行缓存的第i部视频来说容量充足的情况下得到的性价比之和,最终得到最佳缓存方案

本发明利用机器学习中的XGBoost算法,对VOD业务的访问量进行建模和预测。在此基础上提出一种缓存优化模型,从而最大限度的减小业务时延,并提高边缘服务器的缓存效率。一方面,该方案中的XGBoost算法预测准确度高且非常适用于分布式场合;另一方面,该方案又非常简单而易于实现,具有很好的应用前景。

本发明充分发挥机器学习在大数据处理上的优势,为边缘侧赋能。使用缓存的好处在于资源获取速度快,且缓存是可以随时替换的,可以灵活满足业务随时间变化对于资源内容使用的变化。

有益效果:本发明与现有技术相比,考虑到边缘服务器需要处理大量的视频信息,以及机器学***均访问量进行回归建模和预测,从而在此基础上提出了一种新的视频缓存优化模型,并使用背包算法对模型进行求解。机器学习在对大量数据的学习和分析上有巨大的优势,尤其是对现在多元化的用户指标分析,因此在预测上具有很高的正确率,因此,基于这样的预测结果,优化模型计算得到的优化结果更接近于实际的优化结果,从而大大提高边缘服务器的缓存命中率,当大量业务到达时,从边缘侧直接获取数据的概率得到了很大的提升,使得边缘服务器最大限度地减少业务访问时延,并且该方案非常简单而易于实现,具有很好的应用前景。

附图说明

图1为本发明方法的流程示意图;

图2为视频预测周平均访问量与实际周平均访问量比较图;

图3为视频预测周平均访问量性价比与实际周平均访问量性价比比较图;

图4为周平均访问量预测准确率、周平均访问量性价比预测准确率和缓存命中率随时间变化示意图。

具体实施方式

下面结合附图和具体实施例,进一步阐明本发明。

如图1所示,本发明提供一种边缘网络环境下基于XGBoost算法的VOD业务缓存优化方法,其具体过程如下:

1)基于XGBoost算法对VOD业务的访问量进行建模和预测

1.1)采集样本视频数据和数据预处理

随机在视频播放平台上采集100000部VOD视频的相关信息,从中进行信息提取,得到的信息包括视频访问量、上线时间、电影热度榜名次、热度、点赞数、评论数、视频评分等,并将数据小数点位数对齐,剩余小数做四舍五入处理。由于视频上线时间不一,因此将上线时间量化为上线天数,其余数据为保证数据的时间对齐,将各数据以某时刻为起点,以周为时间间隔进行处理,得到视频访问量、上线时间、电影热度榜名次、热度、点赞数、评论数、视频评分等的周平均值,不能为小数的值(如上线时间、热度榜名次等)四舍五入取整。上线时间不足一周的视频,缺失数据用0补齐。

1.2)用XGBoost算法建模和预测

用XGBoost算法建模之前,首先对数据进行空值处理,当视频信息不全时会出现信息缺失,从而影响模型训练,使用sklearn的preprocessing包中的Imputer类对数据进行预处理,使用中位数进行空值填充,将数据集中的60%作为训练集,40%作为测试集,以上线时间、电影热度排名、热度、点赞数、评论数、评分作为自变量,访问量作为因变量进行回归训练。使用10折交叉验证进行数据集的划分,输出各个特征值的重要性排名,将重要性过低的特征去除,降低模型复杂度,得到最终建模特征值。

在建模过程中,使用组合调参方式进行参数调整,得到输出平方误差最小的模型,即为最终模型,并用该模型预测下周视频周访问量。

2)建立缓存优化模型

假设边缘服务器的缓存空间大小为S,视频体积集合为V={v1,v2,…,vK},视频访问量集合为PV={pv1,pv2,…,pvK},其中K为视频总数,由此可以得到如下缓存优化模型:

其中为视频的最佳缓存选择方案,ak=0表示视频k不需要进行缓存,ak=1表示视频k需要进行缓存;式子有两种可能性,当ak=0时,该式为0,无实际意义,当ak=1时,表示视频k的访问量与视频k体积的比值,该值是为了权衡访问量和视频体积。假设视频k预测得到的访问量很高,但同时该视频的体积非常大,会占用很大的边缘服务器缓存内存,如果这样的视频个数较多,那么势必会使边缘服务器内可以缓存的视频大大减少,缓存效果反而得不到保证,因此,定义式子

Figure BDA0002457891770000054

表示视频k的缓存性价比,优化目的即为使视频缓存性价比最大化;此外,约束条件表示缓存视频的体积总和应小于边缘服务器的缓存空间。

3)使用背包算法求解优化模型

上述优化模型表示的问题本质上其实是一个0-1背包问题,即:有K个物品,每个物品有其本身的价值,价值体现为式边缘服务器即为背包,其容量是一定的,问题即为如何往该背包里装具有最大价值总和的物品。背包问题本身属于动态规划问题,动态规划求解思路和分治思想类似,都是把大问题分解为一个一个的小问题,通过寻找大问题和小问题之间的关系,解决一个一个的小问题,即可得到大问题的解。求解过程分为三个步骤,首先是建模,其次是寻找约束,最后是寻找递推关系式,寻找递推关系式的思路如下:

当往边缘服务器内缓存视频时,有两种可能,第一种是边缘服务器的剩余容量比当前正要往边缘服务器内放的第i部视频体积小,边缘服务器装不下当前要缓存的视频,即此时第i部视频的价值与第i-1部视频的价值是一样的。第二种情况是当前边缘服务器的剩余容量比当前正要往边缘服务器内放的第i部视频的体积要大,但是装了第i部视频以后不一定能达到最优,因此需要在装与不装之间进行选择。

按照上述思路,令c(i,j)为当前边缘服务器剩余容量为j时,前i部视频的最佳缓存方式对应的性价比之和,即

Figure BDA0002457891770000061

可以得到如下递推关系式:

式(3)的第二个式子说明如下:当边缘服务器的剩余容量对于当前要进行缓存的第i部视频来说容量充足时,第i部视频并不一定是最佳缓存选择视频,因此会出现两种情况,第一种情况是第i部视频不是最佳选择,即第i部视频没有缓存,ai=0,这种情况下有:

c(i,j)=c(i-1,j) (4)

第二种情况是第i部视频是最佳选择,即第i部视频需要被缓存,ai=1,即:

式(5)中,vi是第i部视频的体积,c(i,j-vi)是处理第i部视频之前,由前面的决策得到的最佳性价比之和,在此基础上加上第i部视频的性价比,即为缓存第i部视频之后总的性价比。

比较上述两种情况得到的性价比大小,取最大值即为边缘服务器的剩余容量对于当前要进行缓存的第i部视频来说容量充足的情况下得到的性价比之和,最终得到最佳缓存视频集合

Figure BDA0002457891770000071

根据上述内容归纳,本发明方案主要包括三个内容:一是以周为单位,使用XGBoost算法对VOD业务的访问量进行建模和预测;二是在边缘服务器缓存空间有限的条件下,建立缓存优化模型;三是根据预测结果,使用背包算法求解优化模型。

本实施例利用已有数据仿真结果来说明本发明的优化效果。令测试视频集为c={c1,c2,…cL},测试视频集内的视频预测周平均访问量集合为pv={pv1,pv2,…,pvL},实际视频的周平均访问量集合为pv'={pv1',pv'2,…,pv'L},定义周平均访问量预测准确率为:

Figure BDA0002457891770000072

视频预测周平均访问量与实际周平均访问量比较图仿真结果如图2所示。经过计算可以得到Ppv=93.8%。

令测试视频集中视频的预测周平均访问量性价比集合为cp={cp1,cp2,…,cpL},实际周平均访问量性价比集合为cp'={cp1',cp'2,…,cp'L},定义周平均访问量性价比预测准确率:

Figure BDA0002457891770000073

视频预测周平均访问量性价比与实际周平均访问量性价比比较图如图3所示。经过计算可以得到Pcp=93.3%。

假设在边缘服务器内缓存的视频集合为cA,实际周平均访问量性价比降序排序后的视频集合为cB,其中集合cA和cB长度相等,定义缓存命中率为:

Figure BDA0002457891770000074

经过计算得到Pc=94.9%

从以上仿真结果可以看到,周平均访问量预测准确率、周平均访问量性价比预测准确率和缓存命中率都较高,说明本发明在提升边缘服务器缓存效率上的效果是很明显的,另外,缓存命中率高也说明了到达边缘服务器的业务大概率地得到需要的资源,从而减少业务时延。

图4是周平均访问量预测准确率、周平均访问量性价比预测准确率和缓存命中率随时间变化示意图,说明本发明得出的最佳缓存集合随时间波动并没有很大,预测算法更新成本较小。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种VANET中基于时变线性的加速强化学习边缘缓存方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类