边缘网络环境下基于随机森林算法的vod业务缓存替换方法

文档序号:1218996 发布日期:2020-09-04 浏览:13次 >En<

阅读说明:本技术 边缘网络环境下基于随机森林算法的vod业务缓存替换方法 (VOD service cache replacement method based on random forest algorithm under edge network environment ) 是由 张晖 孙叶钧 赵海涛 孙雁飞 倪艺洋 朱洪波 于 2020-04-20 设计创作,主要内容包括:本发明公开了一种边缘网络环境下基于随机森林算法的VOD业务缓存替换方法,包括如下步骤:采集视频数据;使用随机森林填充法处理视频数据缺失值,建立预测模型;通过预测模型对平均访问时长进行预测;根据预测结果建立缓存替换模型;使用隐枚举法求解缓存替换模型,得到最终替换方案。本发明考虑到边缘服务器需要处理大量的视频信息,以及机器学习在大数据处理中出色的分析能力,首先利用机器学习中的随机森林算法对视频的周平均访问时长进行预测,从而在此基础上提出了一种新的视频缓存替换模型,并使用隐枚举法对模型进行求解,从而使边缘服务器最大限度地减轻核心网负载,且该方案非常简单而易于实现,具有很好的应用前景。(The invention discloses a VOD service cache replacement method based on a random forest algorithm under an edge network environment, which comprises the following steps: collecting video data; processing a video data missing value by using a random forest filling method, and establishing a prediction model; predicting the average access duration through a prediction model; establishing a cache replacement model according to the prediction result; and solving the cache replacement model by using a hidden enumeration method to obtain a final replacement scheme. In consideration of the fact that the edge server needs to process a large amount of video information and the excellent analysis capability of machine learning in big data processing, the method firstly predicts the weekly average access duration of the video by using a random forest algorithm in the machine learning, thereby providing a new video cache replacement model on the basis, and solves the model by using a hidden enumeration method, so that the edge server furthest lightens the load of a core network.)

边缘网络环境下基于随机森林算法的VOD业务缓存替换方法

技术领域

本发明属于边缘网络技术领域,具体涉及一种边缘网络环境下基于随机森林算法的VOD业务缓存替换方法。

背景技术

随着科学技术的发展,各种制式的端口和设备,以及各种各样的服务和应用接入到互联网,致使网络中的业务请求呈现***式增长,继而网络中的数据流量也出现了井喷式的增长,其中主要就是视频流量的增长。核心网是分发业务和提供服务环节中的重要组成部分。核心网的主要功能之一是把通过不同制式的设备和接口进入网络的请求,按照业务需求接入到不同服务网上,从而使每个业务请求得到应有的服务。核心网的另一主要功能是作为服务方,处理各个接口提交的业务请求。核心网本身包含多个不同的服务网,当业务请求到来时,核心网要为业务提供服务,而随着业务量的爆发,核心网提供的服务量急剧增长,因此,不管在业务请求处理还是在提供业务服务上,核心网都承担了巨大的负载压力。

边缘网络是最靠近用户的一部分网络。边缘网络一方面是为核心网分担业务请求处理压力,另一方面是将服务提供也下放到边缘网络,将业务所需的服务若边缘网络有能力处理则在边缘网络侧处理。然而,由于边缘网络的计算能力有限,要最大限度的为核心网分流,关键在于如何提高服务效率,而边缘缓存是提高服务效率的关键所在。边缘缓存是指将业务使用频率较高的资源缓存在边缘服务器上,当与之相关的业务再次到来时,直接从缓存中获取资源即可,边缘服务器无法满足的业务需求则再从核心网获取。

此外,随着大数据时代的到来,通过机器学习高效地获取知识,已逐渐成为各个领域技术发展的主要推动力之一,边缘网络领域也不例外。在大数据时代,随着数据的爆发式增长,各种需要分析的新的数据种类也在不断涌现,如语义理解、图像分析、网络数据的分析等,使得机器学习在大数据环境下具有极其重要的作用。

现有的缓存替换方案大多依然以视频流行度作为主要标准之一,加以一些辅助标准如视频相似度,从而减少重复缓存相似且流行度低的视频。视频流行度反映的是视频单位时长内的访问量,针对视频业务而言,边缘服务器内缓存的视频访问总量高并不能代表其为核心网分担的负载大,而视频访问时长表示的是视频使用的时间,更适合反映边缘服务器承担的负载,再加之辅助标准,如视频体积等因素,以此来进行缓存替换效果将会更理想。

发明内容

发明目的:为了克服现有技术中存在的不足,提供一种边缘网络环境下基于随机森林算法的VOD业务缓存替换方法。

技术方案:为实现上述目的,本发明提供一种边缘网络环境下基于随机森林算法的VOD业务缓存替换方法,包括如下步骤:

S1:采集视频数据;

S2:使用随机森林填充法处理视频数据缺失值,建立预测模型;

S3:通过预测模型对平均访问时长进行预测;

S4:根据预测结果建立缓存替换模型;

S5:使用隐枚举法求解缓存替换模型,得到最终替换方案。

进一步的,所述步骤S2中预测模型的建立具体为:

以平均访问时长作为因变量,其余特征作为自变量进行回归训练,且进行数据集的划分,输出各个特征值的重要性排名,根据排名对特征进行删选得到最终建模特征值,根据建模特征值建模形成预测模型。

进一步的,所述步骤S4中缓存替换模型的建立流程具体为:

假设边缘服务器的缓存空间大小为S,测试集中无法被边缘服务器缓存的视频存储在云上,测试集所有视频的预测访问时长集合为T={t1,t2,…,tK},视频体积集合为V={v1,v2,…,vK},其中K为测试集内的视频总数,缓存替换前边缘服务器内有缓存视频个数为R;云中有视频Q部,K=R+Q;建立缓存替换模型如下式所示:

Figure BDA0002457891610000021

其中为视频的最佳缓存替换方案,ai代表边缘服务器中第i部视频,ai=0表示视频i需要被替换,ai=1表示视频i不需要被替换,bj代表的是云中的第j部视频,bj=0代表视频j不用继续在云中存储,需要被替换进边缘服务器,bj=1代表视频j依然在云中存储,不需要被替换进边缘服务器;式子代表以访问时长替换标准时的边缘服务器替换性价比,其有两种可能性,当ai=0时,该式为0,无实际意义,当ai=1时,表示视频i的访问时长与视频i体积的比值;

定义式子表示视频i的缓存替换性价比;同样,式子代表视频j的云缓存替换性价比,当bj=1时,该式为0,无实际意义。

进一步的,所述步骤S5中缓存替换模型的求解过程为:

令总访问时长性价比为:

假设边缘服务器的容量为S,将每次计算得到的新总访问时长为TC',为减少枚举个数,令初始条件为

Figure BDA0002457891610000034

其中{a1,a2,…,aK}部分为缓存替换前的视频缓存集合,{b1,b2,…,bQ}部分为云中视频初始缓存视频集合,将初始条件代入式(2),得到初始总访问时长性价比TC0,新增约束条件:

TC>TC0 (3)

将约束条件式(3)、缓存替换模型中的两个约束式进行迭代计算,得到最优的替换方案。

进一步的,所述迭代计算具体为:

将约束条件式(3)作为约束式①、缓存替换模型中的两个约束式分别作为约束式②和约束式③,具体计算过程如下:

1)从后往前替换集合{a1,a2,…,aK}中的一部已缓存视频,即将该视频的ai=1置为ai=0;

2)从后往前遍历集合{b1,b2,…,bQ},计算新的总访问时长TC;

3)比较TC和TC0,若TC≥TC0,则将TC0置为新的值TC,即令TC0=TC,继续步骤4,否则重新进行步骤1,进行下一次迭代,TC0不变;

4)计算约束条件②,若满足,则进行步骤5,否则重新进行步骤1,进行下一次迭代,TC0不变;

5)计算约束条件③,若满足,则本次迭代满足所有约束条件,TC0即为新值,并在此处进行剪枝,即停止遍历集合{b1,b2,…,bQ},从步骤1开始进行下一次迭代。

本发明考虑到边缘服务器需要处理大量的视频信息,以及机器学***均访问时长进行预测,并在此基础上提出了一种新的视频缓存替换方案。一方面,该方案利用随机森林算法进行建模,预测准确度高;另一方面,该方案又非常简单而易于实现,具有很好的应用前景。

有益效果:本发明与现有技术相比,考虑到边缘服务器需要处理大量的视频信息,以及机器学***均访问时长进行预测,从而在此基础上提出了一种新的视频缓存替换模型,并使用隐枚举法对模型进行求解。在边缘服务器容量一定的情况下,使边缘服务器内缓存视频的周平均访问时长最长,访问时长代表了边缘服务器为核心网分担的负载大小,本发明的替换模型可以使边缘服务器在容量一定的条件下最大限度地减轻核心网负载,且该方案非常简单而易于实现,具有很好的应用前景。

附图说明

图1为本发明方法的流程示意图;

图2为缓存替换示意图;

图3为视频周平均总共访问时长与实际周平均访问时长比较图;

图4为视频周平均访问时长性价比与实际周平均访问时长性价比比较图;

图5为视频周平均访问时长预测准确率和周平均访问时长性价比预测准确率随时间变化图;

图6为缓存替换率和周访问时长增加率随时间变化图。

具体实施方式

下面结合附图和具体实施例,进一步阐明本发明。

如图1所示,本发明提供一种边缘网络环境下基于随机森林算法的VOD业务缓存替换方法,其主要包括三大部分,分别为一、利用随机森林对视频访问时长进行建模和预测;二、基于预测结果提出缓存替换模型;三、利用隐枚举法求解缓存替换模型;其具体的过程如下:

一、使用随机森林算法对VOD视频周平均访问时长回归建模和预测

(1)采集样本视频数据和数据预处理

在视频播放平台的电影片库中随机采集100000部视频信息得到样本数据集,将样本数据集中的视频数据进行预处理:以周为单位,对视频信息在一周内的数据取平均,视频信息包括上线时间、电影热度榜名次、热度、点赞数、评论数、评分和视频访问时长等。数据保留一位小数,对无法为小数的数据,如电影热度榜名次和上线天数,则将求得的平均数四舍五入取整。对于上线时间不足一周的视频,将剩余天数对应的数据用0补齐。访问时长是指连续访问时长,即若访问日志中两次访问的时间间隔小于60秒,用户误点或者是跳过广告,不属于是停止播放,因此该间断时间不计为间断时间。

(2)使用随机森林算法建模和预测

接着使用随机森林填充法处理数据缺失值,假设某一特征存在缺失,则把该特征当成标签,将剩余特征令为一个新的特征矩阵。如果其他特征也存在缺失值,则遍历所有的特征,从缺失值最少的特征开始,缺失值越少,则所需要的准确信息也越少。在填补一个特征时,需先将其他特征值的缺失值用0代替,每次循环一次,有缺失值的特征便会减少一个。

将数据集中的60%作为训练集,40%作为测试集,以上线时间、电影热度榜名次、热度、点赞数、评论数和评分为自变量,周平均访问时长为预测对象进行建模形成预测模型,得到预测值。输出特征重要性,剔除掉重要性较低的特征,减小模型复杂度,调整参数,使模型预测准确率达到较理想的值,得到最终模型,使用建好的模型预测下周的视频周平均访问时长。

二、建立缓存替换模型

假设某边缘服务器的缓存空间大小为S,测试集中无法被边缘服务器缓存的视频存储在云上,测试集所有视频的预测访问时长集合为T={t1,t2,…,tK},视频体积集合为V={v1,v2,…,vK},其中K为测试集内的视频总数,缓存替换前边缘服务器内有缓存视频个数为R;云中有视频Q部,K=R+Q,其中缓存替换示意图如图2所示,图中的缓存替换顺序并不代表实际替换过程是按序替换的。建立缓存替换模型如下式所示:

其中

Figure BDA0002457891610000052

为视频的最佳缓存替换方案,ai代表的是边缘服务器中第i部视频,ai=0表示视频i需要被替换,ai=1表示视频i不需要被替换,bj代表的是云中的第j部视频,bj=0代表视频j不用继续在云中存储,需要被替换进边缘服务器,bj=1代表视频j依然在云中存储,不需要被替换进边缘服务器;式子

Figure BDA0002457891610000061

代表以访问时长替换标准时的边缘服务器替换性价比,其有两种可能性,当ai=0时,该式为0,无实际意义,当ai=1时,表示视频i的访问时长与视频i体积的比值,该值是为了权衡访问时长和视频体积。

假设视频i预测得到的访问时长很高,但同时该视频的体积非常大,会占用很大的边缘服务器缓存内存,如果这样的视频个数较多,那么势必会使边缘服务器内可以缓存的视频大大减少,缓存替换效果反而得不到保证,因此定义式子表示视频i的缓存替换性价比,优化目的即为使视频缓存替换性价比最大化;同样,式子代表视频j的云缓存替换性价比,当bj=1时,该式为0,无实际意义,当bj=0时,其物理意义同上;第一个约束条件表示云中缓存替换到边缘服务器内的视频总体积不能大于边缘服务器内被缓存替换掉的视频总体积,否则边缘服务器内将缓存不下替换进来的视频;第二个约束条件表示边缘服务器内没有被替换掉的视频和从云中替换进边缘服务器的视频体积总和不能大于边缘服务器的缓存空间。

三、使用隐枚举法求解缓存替换模型

上述模型本质上是个0-1整形规划问题,采用隐枚举法求解该问题,检查变量为0或者1组合的一部分,比较目标函数值,以求得最优解。

首先寻找一个可行解,产生过滤条件,过滤条件即为满足目标函数值优于计算过的可行解目标函数值的约束条件。令总访问时长性价比为:

Figure BDA0002457891610000064

假设边缘服务器的容量为S,将每次计算得到的新总访问时长为TC',为减少枚举个数,令初始条件为其中{a1,a2,…,aK}部分集合为缓存替换前的视频缓存集合,{b1,b2,…,bQ}部分为云中视频初始缓存视频集合,将初始条件代入式(2),得到初始总访问时长性价比TC0,新增约束条件:

TC>TC0 (3)

其中TC为每次迭代后得到的总访问时长性价比,为了在迭代过程中有效的剪枝,并使替换效率最高,将优化目标按照系数有序排列,将集合{a1,a2,…,aK}中的变量按照性价比系数从大到小排列,将集合{b1,b2,…,bQ}中的变量按照性价比系数从小到达排列,在遍历时,两部分集合都从右往左遍历,这样排序的目的是将性价比较小的视频优先进行替换,在替换时,从云中性价比较高的视频开始替换,达到剪枝效果。

将新增约束条件式(3)作为约束式①,缓存替换模型(1)中的约束式依次为约束式②和约束式③,计算过程如下:

(1)从后往前替换集合{a1,a2,…,aK}中的一部已缓存视频,即将该视频的ai=1置为ai=0;

(2)从后往前遍历集合{b1,b2,…,bQ},计算新的总访问时长TC;

(3)比较TC和TC0,若TC≥TC0,则将TC0置为新的值TC,即令TC0=TC,继续步骤(4),否则重新进行步骤(1),进行下一次迭代,TC0不变;

(4)计算约束条件②,若满足,则进行步骤(5),否则重新进行步骤(1),进行下一次迭代,TC0不变;

(5)计算约束条件③,若满足,则本次迭代满足所有约束条件,TC0即为新值,并在此处进行剪枝,即停止遍历集合{b1,b2,…,bQ},从步骤(1)开始进行下一次迭代。

在上述迭代过程中,集合{b1,b2,…,bQ}中同时从1变为0的这部视频代表替换集合{a1,a2,…,aK}中从1变为0的那一部视频,在实际视频替换中,一部视频可能由于体积较大存在同时被两部或三部及以上视频替换的情况非常少,因此不考虑多部视频替换一部视频的情况,即在遍历集合{b1,b2,…,bQ}时,集合{b1,b2,…,bQ}内2位及以上同时变化的情况不考虑,由此极大地减少了迭代次数和计算量,最终得到最优的

Figure BDA0002457891610000071

替换方案。

本实施例利用已有数据仿真结果来说明本发明的缓存替换效果。首先是随机森林算法预测效果。令测试视频集为c={c1,c2,…cK},其预测周平均访问时长集合为t={t1,t2,…tK},实际视频的周平均访问时长集合为t'={t'1,t'2,…t'K},则周平均访问时长预测正确率为:

Figure BDA0002457891610000072

上式第二项表示预测得到的访问时长误差占实际总访问时长的比值,该值越小表示预测效果越好。周平均总共访问时长与实际周平均访问时长比较图如图3所示,经过计算得到Pat=95.1%。

假设预测周平均访问时长性价比集合为tp={tp1,tp2,…,tpK},实际周平均访问时长性价比集合为tp'={tp'1,tp'2,…,tp'K},则定义周平均访问时长性价比预测正确率为:

周平均访问时长性价比与实际周平均访问时长性价比比较图如图4所示,经过计算得到Ptp=94.7%。

以上结果说明本发明中的随机森林预测结果准确率非常高。接下来对缓存替换模型的替换效果进行仿真验证。假设缓存替换前缓存的视频集为c,其中u为边缘服务器内所缓存的视频个数,缓存替换后的视频集为c',定义视频的缓存替换率为:

Figure BDA0002457891610000082

经过计算Pre=11.6%。

假设缓存替换前边缘服务器内缓存视频的周平均访问时长为tc={t1,t2,…,tu},缓存替换后边缘服务器内缓存视频的周平均访问时长为tc'={t1,t2,…,tu},定义访问时长增加率,表达式如下:

式(7)表示缓存替换后视频的周平均访问时长之和与缓存替换前视频的周平均访问时长之和之差与缓存替换前视频的周平均访问时长之和之比,若Pt≤0,则说明缓存替换后视频的访问时长不及缓存替换前视频的访问时长或与缓存替换前没有差别,即缓存替换后边缘服务器为核心网分担的负载不增或者更小了,缓存替换效果非常差。若Pt>0,则说明缓存替换后视频的访问时长大于缓存替换前视频的访问时长,即缓存替换后边缘服务器为核心网分担的负载更大了,Pt值越大,缓存替换后的边缘服务器为核心网分担的负载就越多。经过计算,Pt=8.7%,说明本发明缓存替换模型有效增加了边缘服务器为核心网分担的负载量。

周预测模型和缓存替换模型随时间变化仿真图如图5和图6所示,由此可知,周平均访问时长预测准确率和周平均访问时长性价比预测准确率随时间的推移在降低,而缓存替换率和访问时长增长率随时间的推移在升高,其中缓存替换率的升高趋势较快,但曲线整体随时间变化趋势比较平稳,没有较大的波动,因此本发明在实际应用中的算法更新频次,节约计算资源。

13页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:边缘网络环境下基于XGBoost算法的VOD业务缓存优化方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类