一种基于自动标注的终端行为预测方法

文档序号：191777 发布日期：2021-11-02 浏览：23次 >En<

阅读说明：本技术 一种基于自动标注的终端行为预测方法 (Terminal behavior prediction method based on automatic labeling ) 是由张宁波严雅洁于 2021-08-03 设计创作，主要内容包括：本发明公开了一种基于自动标注的终端行为预测方法,包括数据预处理、频繁行为模式挖掘、行为模式聚类、行为识别和行为预测五个步骤,通过将行为识别模型和行为预测模型良好结合,可以无需人为干预、自动地对操作数据序列进行行为标注,解决了目前物联网场景下的终端行为预测模型不能自动地进行行为标注的问题,该方法具有较高的行为识别和行为预测准确率,并且节省了行为标注过程所需要的大量时间成本和人力成本,实现了物联网环境下终端行为识别和行为预测的一体化以及终端行为预测模型的进一步智能化。(The invention discloses a terminal behavior prediction method based on automatic labeling, which comprises five steps of data preprocessing, frequent behavior pattern mining, behavior pattern clustering, behavior recognition and behavior prediction.)

一种基于自动标注的终端行为预测方法

技术领域

本发明涉及网络技术领域，尤其涉及一种基于自动标注的终端行为预测方法。

背景技术

近年来，物联网技术飞速发展，给人类的日常生活带来了巨大的提升。智能终端设备的数量显著增加，智能化的万物互联已成为未来物联网发展的必然趋势。在LTE-A网络中，核心网中的呼叫记录(call detailed records,CDR)实时存储了人与人(Human toHuman,H2H)通信的呼叫、短信和数据业务信息，包括终端身份(User Equipment Identity,UE ID)信息、基站位置、语音呼叫的方向和通讯类型(短讯SMS/呼叫call)、数据流量等信息。根据CDR数据，可以提取出隐藏的可预测的信息，预测终端未来的行为，让网络运营商提前做出应对策略，提升运营商的服务效率。类似地，在5G网络中，核心网也实时存储了物联网终端的行为事件日志(event detailed records，EDR)数据。EDR数据包括UE ID、终端操作序列、操作执行时间、操作时长、占用物理资源等信息。通过这些数据，我们也可以预测物联网终端的接入行为。

现有的终端行为预测模型通过对终端操作序列进行人为地行为标注得到终端行为序列，能够用于终端行为预测模型的建模。其中行为标注过程需要人为干预，耗费大量的时间成本和人力成本，在实际应用中具有局限性。

传统的终端行为预测模型的建模过程包括以下几个步骤。

步骤1：终端EDR数据预处理：处理异常特征数据，得到能被进行行为标注的ERD数据。

步骤2：人为行为标注：一组连续的操作事件对应终端的一个行为，相关的研究人员进行人为地行为标注，将终端操作序列标注成对应的终端行为序列，用于终端行为预测。

步骤3：行为预测：基于标注好的历史终端行为数据和当前终端行为，通过预测模型对终端的行为进行下一时刻的预测。

现有的终端行为预测模型需要人为地对操作事件层级的数据进行行为层级的标注，因此预测模型需要人为干预，阻碍了终端行为预测模型的智能化，在实际应用中有一定的局限性。除此之外，当终端数据规模非常大时，终端行为标注和验证过程的工作量和时间成本会显著增加。

发明内容

本发明的目的是提供一种基于自动标注的终端行为预测方法，实现一种可以自动标注、无需人为干预、具有高准确率的终端行为预测模型，减少时间成本和人力成本，进一步提高终端行为预测模型的智能化和实用性。

为了实现上述目的，本发明提供如下技术方案：

本发明提供一种基于自动标注的终端行为预测方法，包括以下步骤：

S1、数据预处理：获取终端当前行为数据，对终端操作序列进行编号，然后从终端操作序列数据中筛选出不频繁的操作事件，并对处理后的操作数据重新编号；

S2、频繁行为模式挖掘：对步骤1处理后的操作数据进行频繁行为模式挖掘，直至挖掘不到新的行为模式时停止迭代，使得行为模式序列满足最小描述长度原则；

S3、行为模式聚类：对步骤2挖掘到的频繁行为模式进行聚类，得到聚类中心以及每个行为模式归属的类别；

S4、行为识别：采用HMM模型对聚类后的结果进行终端的行为识别，标注得到终端当前行为和历史行为；

S5、行为预测：将当前终端行为输入到经过训练的预测模型中，得到预测的下一时刻的终端行为，行为预测模型是基于神经网络的预测模型通过对训练样本进行训练得到，训练样本包括终端的历史行为。

进一步地，步骤S1中终端当前行为数据包括终端EDR数据和日志信息，根据终端EDR数据进行自动标注获取终端当前行为。

进一步地，终端EDR数据至少包括以下信息的一种：UE ID、终端操作序列、操作执行时间、操作时长和占用物理资源信息。

进一步地，步骤S2方法具体为：

S201、利用滑动窗口寻找长度为L的不重复的通用行为模式：初始迭代次数为1，设置滑动窗口大小为L，寻找长度为L的行为模式，将重复的行为模式合并后，作为初始通用行为模式；

S202、判断长度为L+1的行为模式是长度为L的通用行为模式的变体还是一个新的通用行为模式：对长度为L+1的行为模式与长度为L的通用行为模式进行相似度比较，其中两个行为模式的相似度用编辑距离来衡量，如果相似度大于给定阈值，就认为长度为L+1的行为模式是长度为L的通用行为模式的变体；否则，就认为是一个新的长度为L+1的通用行为模式；通用行为模式和它对应的变体用一个字典来存储；

S203、通过最小描述长度原则来衡量通用行为模式是否需要剪枝，将已经挖掘到的不符合最小描述长度原则的通用行为模式以及通用行为模式的变体都剪掉，当再也找不到通用行为模式后就停止迭代。

进一步地，步骤S3中行为模式聚类的方法：初始时随机选取聚类中心，根据编辑距离对进行聚类中心进行不断地迭代更新直至收敛。

进一步地，步骤S4中的行为识别对应于HMM模型的解码问题，HMM模型的解码问题采用Viterbi算法求解。

进一步地，把终端操作序列作为观察序列，把聚类后的终端行为模式作为隐藏状态，从而计算Viterbi算法所需的参数，包括观察概率矩阵、初始状态概率矩阵和状态转移概率矩阵。

进一步地，初始状态概率矩阵的计算方法为：这一类中所有行为模式出现的总次数除以所有类中所有行为模式出现的总次数。。

进一步地，状态转移概率矩阵的计算方法为：在行为模式提取过程中，标记并记录与操作序列数据相对应的每个行为模式的起始位置和结束位置，对于一个类中的每个行为模式，将记录的开始和结束下标与其他类中的每个行为模式的开始和结束下标进行比较，如果这些下标不存在包含关系，则转移状态数加1，然后将每一类的转移状态数除以总转移状态数，得到每一类到其他每个类之间的转移概率。

进一步地，观察概率矩阵是由每个操作的总出现次数除以每个类中所有操作的总出现次数计算得到。

与现有技术相比，本发明的有益效果为：

本发明提供的基于自动标注的终端行为预测方法，包括数据预处理、频繁行为模式挖掘、行为模式聚类、行为识别和行为预测五个步骤，通过将行为识别模型和行为预测模型良好结合，可以无需人为干预、自动地对操作数据序列进行行为标注，解决了目前物联网场景下的终端行为预测模型不能自动地进行行为标注的问题，该方法具有较高的行为识别和行为预测准确率，并且节省了行为标注过程所需要的大量时间成本和人力成本，实现了物联网环境下终端行为识别和行为预测的一体化以及终端行为预测模型的进一步智能化。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于自动标注的终端行为预测方法的流程图。

图2为本发明实施例提供的频繁行为模式挖掘的流程图。

具体实施方式

为了更好地理解本技术方案，下面结合附图对本发明的方法做详细的说明。

本发明提供的基于自动标注的终端行为预测方法，将行为识别模型和行为预测模型良好结合，主要分为数据预处理、频繁行为模式挖掘、行为模式聚类、行为识别和行为预测五个步骤，如图1所示。其中：

步骤1：数据预处理：首先对终端操作序列进行编号，然后从终端操作序列中筛选出不频繁的操作事件，并对处理后的操作数据重新编号。假设终端操作数据有X种操作事件，先进行随机编号(0～X-1)，当频繁度阈值设置为f时，应该筛选出出现次数的频繁度大于频繁度阈值的f*X种操作事件并保留这些操作事件，同时剔除掉小于频繁度阈值的(1-f)*X种操作事件，并对保留的f*X种操作事件重新进行编号。

步骤2：频繁行为模式挖掘：对步骤1处理后的操作数据进行频繁行为模式挖掘，其步骤流程如图2所示。

第一步是利用滑动窗口寻找长度为L的不重复的通用行为模式。具体地，初始迭代次数为1，设置滑动窗口大小为L，寻找长度为L的行为模式，将重复的行为模式合并后，作为初始通用行为模式(其中滑动窗口初始大小L设置为2)。假设操作数据序列为[3,5,6,7,6,7…]，长度为N，当滑动窗口初始大小L设置为2时，对操作数据进行滑动窗口提取，提取到的行为模式有N-L+1个，分别为[3,5]，[5,6]，[6,7]，[7,6]，[6,7]…，对于重复的行为模式[6,7]，进行合并，只保留一个。

第二步是判断长度为L+1的行为模式是长度为L的通用行为模式的变体还是一个新的通用行为模式，这一步是一个合并的过程。对长度为L+1的行为模式与长度为L的通用行为模式进行相似度比较，其中两个行为模式的相似度用编辑距离来衡量。如果相似度大于给定阈值，那么就认为长度为L+1的行为模式是长度为L的通用行为模式的变体；否则，就认为是一个新的长度为L+1的通用行为模式。一个通用行为模式可能有很多个变体。为了方便比较，提高查询效率，把通用行为模式和它对应的变体用一个字典来存储。假设相似度阈值为0.6，假设提取到的长度为L(L＝2)的通用行为模式为[6,7]，挖掘到的长度为L+1(3)的行为模式为[5,6,7]，比较这两个行为模式之间的相似度，由于两者之间的相似度大于设定阈值，那么就认为行为模式[5,6,7]是通用行为模式[6,7]的一个变体，在字典中存储通用行为模式及其变体。

第三步是剪枝操作，这一步在迭代的最后进行，通过最小描述长度原则来衡量通用行为模式是否需要剪枝。具体地，将已经挖掘到的不符合最小描述长度原则的通用行为模式以及通用行为模式的变体都剪掉，最大程度地寻找频繁行为模式。经过剪枝操作，可以极大地消除行为模式的冗余。当再也找不到通用行为模式后就停止迭代。假设经过步骤2后，能够得到M个终端通用行为模式，这些行为模式以及其变体，都存储在字典中。

步骤3：行为模式聚类：对步骤2挖掘到的频繁行为模式进行聚类，从聚类结果中得到每个行为模式属于哪个类(哪种行为)。

首先要对行为模式进行预处理。经过频繁模式挖掘后的终端行为模式由操作事件组成。在聚类算法中，模式由状态组成。因此状态对应于模式的事件，但是状态还可以包含额外的信息，比如操作时长、占用物理资源信息、操作事件的类型、以及持续时间等。我们将对应于同一种操作的所有连续状态合并后形成一个扩展状态。比如，如果某一个操作连续重复触发几次，且没有另一个操作事件打断该序列，那么这些重复的操作事件将被合并成一个持续时间更长的操作事件，并将持续时间(重复触发次数)记录下来作为状态属性。经过这种处理后，操作事件序列就被转换为扩展状态序列，行为模式的表示更为简洁和紧凑，并且更容易比较两个行为模式是否相似，降低了计算的复杂度。

行为模式的聚类方法以K-means聚类方法为例进行说明，但不局限于此方法。为了计算两个行为之间的相似性，需要定义两个扩展状态序列之间的距离。由于操作序列和扩展状态序列并不是数值序列，而是类别序列。序列中数据的数值代表的是类别，而不代表空间中的位置，因此衡量两个行为序列之间的相似性时不可以使用常用的标量度量距离，而是要采用编辑距离。编辑距离的作用主要是用来比较两个字符串之间的相似度。编辑距离是指两个字串之间，由一个转成另一个所需的最少编辑操作次数，如果它们的距离越大，说明它们越是不同。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符和删除一个字符。由编辑距离的定义来看，编辑距离适用于比较扩展状态序列(类别序列)之间的距离。对步骤2挖掘到的行为模式进行聚类，初始时随机选取聚类中心，根据编辑距离对进行聚类中心进行不断地迭代更新直至收敛。经过聚类后，能够得到聚类中心，以及每个行为模式属于哪一类。假设经过步骤2后，挖掘到了M个终端行为模式，它们隶属于5类终端行为，那么经过聚类后能够得到5个聚类中心，并且能够得到每个行为模式属于哪一类(对应类的编号为1-5)，比如[2,3,1,5,5,4,…]，每个位置上的编号就代表这个位置上的行为模式属于哪类。

步骤4：行为识别：采用隐马尔科夫模型(Hidden Markov Model，HMM)进行终端的行为识别。

行为识别对应与HMM模型的解码问题，HMM的解码问题采用Viterbi算法求解。对于Viterbi算法，通常采用动态规划来解决HMM模型的译码问题，它可以找到概率最大的路径(最优路径)，其中一条路径对应于HMM模型中的一个隐藏状态序列。在HMM模型中，将终端操作序列视为观察序列，将聚类后的结果视为隐藏状态。

对所述终端历史数据进行终端行为标注时，在频繁行为模式挖掘过程中，无需预先知道行为序列的长度范围，即并不是按照设定好的序列长度范围对不同长度的行为模式进行挖掘，而是进行不断地迭代，使得行为模式序列满足最小描述长度原则；对行为模式进行剪枝操作，去除冗余，直至挖掘不到新的行为模式时停止迭代。

通过聚类处理，可以知道每个行为模式的类别，从而计算观察概率矩阵、初始状态概率矩阵和状态转移概率矩阵。

初始状态概率计算：经过聚类处理后，所有挖掘到的终端行为模式会被分到对应的类中，因此每一类行为中都有若干个行为模式。对于每个类(每个簇)，初始状态概率定义为这一类中行为模式的个数除以所有类中所有行为模式的总个数。

转移概率的计算过程比较复杂，在行为模式提取过程中，标记并记录与操作数据相对应的每个行为模式的起始位置和结束位置(下标)，并且从聚类过程的结果中可以知道每种行为模式的类别。因此，对于一个类中的每个行为模式，将记录的开始和结束下标与其他类中的每个行为模式的开始和结束下标进行比较。如果这些下标不存在包含关系，则认为是存在状态转移，那么转移状态数加1。然后将每一类的转移状态数除以总转移状态数，得到每一类到其他每个类之间的转移概率。假设经过步骤3聚类得到5类行为，分别是A,B,C,D,E，要分别计算每一类到其他类之间的转移概率以及每一类转移到自己类的概率。对于A类行为来说，需要计算A->A,A->B,A->C,A->D,A->E之间的转移概率。

观测概率的计算：将终端操作序列视为观察序列，首先要统计终端操作数据中每个操作事件的出现次数，假设终端操作数据有X种操作事件，分别统计这X种操作事件的出现次数，那么观测概率由每个操作的出现次数除以所有操作的总出现次数计算得到。

步骤5：行为预测：对操作序列数据，进行频繁行为模式挖掘、行为模式聚类以及行为识别后，无需人为标注以及核对工作，操作数据就自动被标注成对应的终端行为。得到终端当前行为以及终端历史行为。所述终端的历史行为由于所述终端的历史数据通过行为标注得到。

对标注过的终端行为数据，基于神经网络构建终端的行为预测模型。基于神经网络的预测模型能有效地对时间序列数据进行建模，并且其预测结果具有较高准确度。以Long Short Term Memory(LSTM)网络为例，但不局限于此方法。基于LSTM网络的预测模型能够对具有长期依赖性的时间序列数据进行有效地预测建模，LSTM网络适用于标注后的终端行为数据的预测建模，因为终端行为数据是一长串时间变化的、具有长期时间依赖性的序列数据，而且终端行为的预测过程取决于以前的行为。基于本发明方法，终端行为自动标注的整体准确率能够达到89.3％，终端行为预测的top2准确率能够达到92.37％。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，但这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

9页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种基于卷积神经网络的椰子存放时间识别方法

一种基于自动标注的终端行为预测方法

相关技术

网友询问留言