一种基于特征降维的移动网络流量异常检测方法及系统

文档序号:1925817 发布日期:2021-12-03 浏览:15次 >En<

阅读说明:本技术 一种基于特征降维的移动网络流量异常检测方法及系统 (Mobile network flow abnormity detection method and system based on feature dimension reduction ) 是由 张娇阳 孙黎 于 2021-08-03 设计创作,主要内容包括:本发明公开了一种基于特征降维的移动网络流量异常检测方法及系统,包括:根据城市基站分布,将城市区域划分为M×N的网格区域,使用pandas聚合每个网格区域的蜂窝流量值,得以小时为单位的蜂窝流量总值;将检测时间段划分为K个时隙,形成时间序列向量,将所述时间序列向量作为原始蜂窝流量向量x-(j);使用LSTM自编码器对所有网格区域的原始蜂窝流量向量x-(j)提取低维流量特征c-(j);确认所有网格区域对应的低维流量特征中的可疑异常的低维流量特征;使用K-means聚类对可疑异常的低维流量特征进行异常确认,完成基于特征降维的移动网络流量异常检测,该方法及系统能够实现移动网络流量的异常检测,且具有处理区域数量多及处理数据时间短的特点。(The invention discloses a mobile network flow abnormity detection method and system based on feature dimension reduction, comprising the following steps: dividing the urban area into M multiplied by N grid areas according to the distribution of urban base stations, and aggregating the cellular flow value of each grid area by using pandas to obtain the cellular flow total value taking hour as a unit; dividing the detection time period into K time slots to form a time sequence vector, and taking the time sequence vector as an original cellular flow vector x j (ii) a Raw cellular traffic vector x for all mesh regions using LSTM autoencoder j Extracting low dimensional flow features c j (ii) a Confirming suspicious abnormal low-dimensional flow characteristics in the low-dimensional flow characteristics corresponding to all grid areas; and performing anomaly confirmation on the low-dimensional flow characteristics of the suspected anomaly by using K-means clustering to finish mobile network flow anomaly detection based on characteristic dimension reduction.)

一种基于特征降维的移动网络流量异常检测方法及系统

技术领域

本发明涉及一种异常检测方法及系统,具体涉及一种基于特征降维的移动网络流量异常检测方法及系统。

背景技术

异常检测是无线网络数据分析和管理中的重要任务之一。无线网络中的异常是指偏离正常/预期行为的模式,这些模式可能是无线网络中的网络拥挤、DDoS放大攻击、端口/服务扫描以及网络故障引发的虚假流量。异常检测对服务提供商而言非常有价值。检测已经发生的用户流量异常可为网络运营商提供更多热点区域相关信息,审视已有资源分配方案的合理性、指导网络资源的动态分配和调整,并提出智能的故障诊断解决方案。

现有的异常检测研究工作中,K-means聚类方法由于其简易性,被广泛应用到异常检测任务当中。基于K-means聚类的异常检测方法通过将数据划分为正常流量集群和异常流量集群的方式来检测异常。但是,该异常检测的方法依然存在一些问题,直接利用聚类算法检测异常可以检测到高流量区域的异常,但会忽略低流量区域存在的异常。另外有基于流量模式的K-means聚类的异常检测方法,在大规模长时间序列检测问题中,存在处理区域数量有限、处理数据时长有限等缺陷。

发明内容

本发明的目的在于克服上述现有技术的缺点,提供了一种基于特征降维的移动网络流量异常检测方法及系统,该方法及系统能够实现移动网络流量的异常检测,且具有处理区域数量多及处理数据时间短的特点。

为达到上述目的,本发明所述的基于特征降维的移动网络流量异常检测方法包括以下步骤:

根据城市基站分布,将城市区域划分为M×N的网格区域,其中,M及N均为正整数,使用pandas聚合每个网格区域的蜂窝流量值,得以小时为单位的蜂窝流量总值;

将检测时间段划分为K个时隙,形成时间序列向量,将所述时间序列向量作为原始蜂窝流量向量xj

使用LSTM自编码器对所有网格区域的原始蜂窝流量向量xj提取低维流量特征cj

确认所有网格区域对应的低维流量特征中的可疑异常的低维流量特征;

使用K-means聚类对可疑异常的低维流量特征进行异常确认,完成基于特征降维的移动网络流量异常检测。

检测时间段分为672个时隙。

对于任意的网格区域j,原始蜂窝流量向量

xj=[xj[1],xj[2]L xj[p]L xj[K]]T,其中,xj[p]表示网格区域j在第p小时内的手机流量总值。

LSTM自编码器的编码部分每步输入24维流量向量,共输入28步,隐藏层设置为3层;编码所得流量特征为2维向量;将特征向量逐步输入解码器中,共输入28步,解码器的隐藏层设置为3层,得重构数据;将输入自编码器的流量数据与自编码器输出的重构数据的均方误差作为优化目标训练LSTM自编码器。

使用K-means聚类对可疑异常的低维流量特征进行异常确认的具体过程为:

利用各可疑异常的低维流量特征形成异常簇;

采用戴维堡丁指数DBI确定最佳聚类数,再使用欧氏距离度量样本距离,以此为聚类划分准则,将聚类质心最大且同一簇中样本量最少的样本标记为异常的低维流量特征,同时确认网格中异常的低维流量特征发生的时间段。

一种基于特征降维的移动网络流量异常检测系统,包括:

分类模块,用于根据城市基站分布,将城市区域划分为M×N的网格区域,其中,M及N均为正整数,使用pandas聚合每个网格区域的蜂窝流量值,得以小时为单位的蜂窝流量总值;

划分模块,用于将检测时间段划分为K个时隙,形成时间序列向量,将所述时间序列向量作为原始蜂窝流量向量xj

提取模块,用于使用LSTM自编码器对所有网格区域的原始蜂窝流量向量xj提取低维流量特征cj

初步确认模块,用于确认所有网格区域对应的低维流量特征中的可疑异常的低维流量特征;

异常确认模块,用于使用K-means聚类对可疑异常的低维流量特征进行异常确认,完成基于特征降维的移动网络流量异常检测。

检测时间段分为672个时隙。

对于任意的网格区域j,原始蜂窝流量向量xj=[xj[1],xj[2]L xj[p]L xj[K]]T,其中,xj[p]表示网格区域j在第p小时内的手机流量总值。

本发明具有以下有益效果:

本发明所述的基于特征降维的移动网络流量异常检测方法及系统在具体操作时,不直接针对所有网格检测用户异常,利用LSTM自编码器对所有网格区域的原始蜂窝流量向量xj提取低维流量特征cj,再基于K-means聚类对可疑异常的低维流量特征进行异常确认,实现对大规模高维流量数据的异常检测功能,有助于服务提供商来管理和控制网络以及优化网络资源分配,处理数据时间短的特点。

附图说明

图1为LSTM自编码器的示意图;

图2为特征空间样本分布图;

图3a为异常网格3667内的蜂窝流量图;

图3b为异常网格3983内的蜂窝流量图;

图3c为异常网格4181内的蜂窝流量图;

图3d为异常网格4621内的蜂窝流量图;

图4a为异常网格3667内流量异常检测的结果图;

图4b为异常网格3983内流量异常检测的结果图;

图4c为异常网格4181内流量异常检测的结果图;

图4d为异常网格4621内流量异常检测的结果图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,不是全部的实施例,而并非要限制本发明公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要的混淆本发明公开的概念。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

在附图中示出了根据本发明公开实施例的结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明所述的基于特征降维的移动网络流量异常检测方法包括以下步骤:

1)根据城市基站分布,将城市区域划分为M×N的网格区域,其中,M及N均为正整数,使用pandas聚合每个网格区域的蜂窝流量值,得以小时为单位的蜂窝流量总值;

将检测时间段划分为K个时隙,形成时间序列向量,将所述时间序列向量作为原始蜂窝流量向量xj检测时间段分为672个时隙,对于任意的网格区域j,原始蜂窝流量向量xj=[xj[1],xj[2]L xj[p]L xj[672]]T,其中,xj[p]表示网格区域j在第p小时内的手机流量总值。

2)使用LSTM自编码器对所有网格区域的原始蜂窝流量向量xj提取低维流量特征cj

其中,LSTM自编码器的编码部分每步输入24维流量向量,共输入28步,隐藏层设置为3层;编码所得流量特征为2维向量;将特征向量逐步输入解码器中,共输入28步,解码器的隐藏层设置为3层,得重构数据;将输入自编码器的流量数据与自编码器输出的重构数据的均方误差作为优化目标训练LSTM自编码器。

3)确认所有网格区域对应的低维流量特征中的可疑异常的低维流量特征;

4)使用K-means聚类对可疑异常的低维流量特征进行异常确认,完成基于特征降维的移动网络流量异常检测。

使用K-means聚类对可疑异常的低维流量特征进行异常确认的具体过程为:

利用各可疑异常的低维流量特征形成异常簇;

采用戴维堡丁指数DBI确定最佳聚类数,再使用欧氏距离度量样本距离,以此为聚类划分准则,将聚类质心最大且同一簇中样本量最少的样本标记为异常的低维流量特征,同时确认网格中异常的低维流量特征发生的时间段。

步骤4)的具体过程为:

采用戴维森堡丁指数(DBI)确定聚类集群的最佳数目式中,N为集群的数目,为集群i(j)内所有样本到质心的平均距离,mi,j为集群i和集群j之间的距离,其中,Mi为集群i中活动流量样本的数量,为集群i内活动流量样本,ai(aj)为集群的质心,||·||2为欧几里得范数,当DBI最小时,所对应的N即为最佳的集群数量;然后在所有出现可疑异常的网格内选取一个月内每个时刻的移动网络流量数据作为输入样本,使用欧氏距离计算两个活动样本之间的距离其中,簇Ci的均值向量最小化平方误差一定程度上刻画了簇内样本围绕均值向量的紧密程度,E值越小簇内样本相似度越高,最后,因为异常流量值与正常流量值有很大的差异,所以异常流量样本将组成单独的集群,将具有最少样本数量且流量值数量级别最高的集群认定为异常。

图2为经过特征降维后得到3000个网格的特征空间样本分布。

图3a至图3d为可疑异常出现的网格内的流量记录图;

图4a至图4d为可疑异常出现的网格内得异常检测结果图;

三种异常检测方法在高、低流量区域内性能比较如表1所示:

表1

本发明所述的基于特征降维的移动网络流量异常检测系统,包括:

分类模块,用于根据城市基站分布,将城市区域划分为M×N的网格区域,其中,M及N均为正整数,使用pandas聚合每个网格区域的蜂窝流量值,得以小时为单位的蜂窝流量总值;

划分模块,用于将检测时间段划分为K个时隙,形成时间序列向量,将所述时间序列向量作为原始蜂窝流量向量xj

提取模块,用于使用LSTM自编码器对所有网格区域的原始蜂窝流量向量xj提取低维流量特征cj

初步确认模块,用于确认所有网格区域对应的低维流量特征中的可疑异常的低维流量特征;

异常确认模块,用于使用K-means聚类对可疑异常的低维流量特征进行异常确认,完成基于特征降维的移动网络流量异常检测。

检测时间段分为672个时隙。

对于任意的网格区域j,原始蜂窝流量向量xj=[xj[1],xj[2]L xj[p]L xj[K]]T,其中,xj[p]表示网格区域j在第p小时内的手机流量总值。

13页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于IRS辅助的无线通信传输方法、装置、终端及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!