一种基于机器学习算法的未报备手机号识别方法

文档序号：1941657 发布日期：2021-12-07 浏览：14次 >En<

阅读说明：本技术 一种基于机器学习算法的未报备手机号识别方法 (Machine learning algorithm-based method for identifying unreported mobile phone numbers ) 是由曹润萱刘苏伟王彦青张少杰彭刚张将将孙书梅于 2021-08-26 设计创作，主要内容包括：一种基于机器学习算法的未报备手机号识别方法,包括：获取当前时间段内基站中所有手机号码,挑选用户已报备过的号码构成已报备号码群、非用户已报备过的号码构成待识别号码群；为每个手机号码构建交往圈号码群：获取手机号码的所有通信号码,然后计算手机号码和每个通信号码的通话特征参数,再采用K-Means算法将所有通信号码划分成多个簇,最后计算手机号码和每个簇的亲密度指数,挑选多个簇合并生成交往圈号码群；计算待识别号码和每个已报备号码的交往圈重合度,从中挑选最大值,并判断最大值是否大于重合度阈值,如果是,则待识别号码是最大值对应的已报备号码的未报备手机号。本发明属于信息技术领域,能快速有效地识别未报备手机号。(A method for identifying an unreported mobile phone number based on a machine learning algorithm comprises the following steps: acquiring all mobile phone numbers in a base station in the current time period, selecting numbers which are provided by a user to form a provided number group, and numbers which are not provided by the user to form a to-be-identified number group; constructing a contact circle number group for each mobile phone number: acquiring all communication numbers of the mobile phone number, calculating the mobile phone number and call characteristic parameters of each communication number, dividing all the communication numbers into a plurality of clusters by adopting a K-Means algorithm, calculating the intimacy indexes of the mobile phone number and each cluster, and selecting and combining the clusters to generate a traffic circle number group; and calculating the contact circle contact ratio of the number to be identified and each reported number, selecting the maximum value from the contact circle contact ratios, judging whether the maximum value is greater than a contact ratio threshold value, and if so, judging that the number to be identified is the unreported mobile phone number of the reported number corresponding to the maximum value. The invention belongs to the technical field of information, and can quickly and effectively identify an unreported mobile phone number.)

技术领域

本发明涉及一种基于机器学习算法的未报备手机号识别方法，属于信息技术领域。

背景技术

在学校、单位、部队等场所，常要求学生或员工上报手机号便于管理，但部分人可能在除已上报手机号之外还另有其他手机号，并使用这些手机号进行一些违反规定的行为，这类没有上报的手机号被称为未报备手机号。但学校这些场所常存在未报备手机检测困难的情况，需要寻找一种方法快速有效地识别未报备手机号，然后进行如定时关停、屏蔽等操作，从而防止人员学习、工作效率的下降。

一般来说，未报备手机号的识别会遇到如下问题：

1、时间成本与硬件成本高。随着手机设备的发展，数据量增长速度惊人增加，直接将数据信息通过模型训练将会造成硬件设备的消耗，模型的性能无法达到要求，所用时间也会超出计划范围。

2、缺乏标准。很难定义一个规则去区别是否为某用户未报备的手机号，也没有标准的标签去定义未报备手机号。

因此，如何快速有效地识别未报备手机号，已成为现有技术中亟待解决的技术问题之一。

发明内容

有鉴于此，本发明的目的是提供一种基于机器学习算法的未报备手机号识别方法，能快速有效地识别未报备手机号。

为了达到上述目的，本发明提供了一种基于机器学习算法的未报备手机号识别方法，包括有：

步骤一、获取当前时间段内出现在基站中的所有手机号码，从而构成基站号码群，然后根据用户的报备记录，从基站号码群中挑选用户已报备过的手机号码构成已报备号码群，并将基站号码群中非用户已报备过的手机号码构成待识别号码群；

步骤二、为待识别号码群和已报备号码群中的每个手机号码分别构建各自的交往圈号码群：获取每个手机号码在历史时间段内的所有通信号码，然后计算每个手机号码和其每个通信号码的通话特征参数，再采用K-Means算法，将其所有通信号码划分成多个簇，最后计算每个手机号码和其每个簇的亲密度指数，并据此挑选多个簇合并生成每个手机号码的交往圈号码群；

步骤三、分别计算待识别号码群中的每个待识别号码和已报备号码群中的每个已报备号码的交往圈重合度，然后从每个待识别号码和所有已报备号码的交往圈重合度中挑选最大值，并判断所述最大值是否大于重合度阈值，如果是，则待识别号码是最大值所对应的已报备号码的未报备手机号，如果否，则待识别号码不是未报备手机号。

与现有技术相比，本发明的有益效果是：本发明先剔除可以直接识别未报备手机号的部分数据，然后再通过K-Means算法进行建模并划分用户交往圈，最后通过交往圈重合度的计算，最终识别用户未报备手机号，能有效节约运算成本、并提高识别效率。

附图说明

图1是本发明一种基于机器学习算法的未报备手机号识别方法的流程图。

图2是图1步骤一和步骤二之间，根据待识别号码群中的每个待识别号码的用户身份证、手机app使用习惯、或者交往圈关系，判断待识别号码是否是未报备号，并将识别出的未报备号从待识别号码群中剔除的具体流程图。

图3是图1步骤二中，计算每个手机号码和其每个簇的亲密度指数，并据此挑选多个簇合并生成每个手机号码的交往圈号码群的具体流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

如图1所示，本发明一种基于机器学习算法的未报备手机号识别方法，包括有：

步骤二、为待识别号码群和已报备号码群中的每个手机号码分别构建各自的交往圈号码群：获取每个手机号码在历史时间段内的所有通信号码，然后计算每个手机号码和其每个通信号码的通话特征参数，再采用K-Means算法(即k均值聚类算法)，将其所有通信号码划分成多个簇，最后计算每个手机号码和其每个簇的亲密度指数，并据此挑选多个簇合并生成每个手机号码的交往圈号码群，通话特征参数可以包括有：通话时长、总通话占比、呼出比例、两方在工作日通话时间、两方在周末通话时间等；

步骤三、分别计算待识别号码群中的每个待识别号码和已报备号码群中的每个已报备号码的交往圈重合度，然后从每个待识别号码和所有已报备号码的交往圈重合度中挑选最大值，并判断所述最大值是否大于重合度阈值，如果是，则待识别号码是最大值所对应的已报备号码的未报备手机号，如果否，则待识别号码不是未报备手机号，重合度阈值可以根据实际业务需要而设定。

本发明的步骤一和步骤二之间，还可以根据待识别号码群中的每个待识别号码的用户身份证、手机app使用习惯、或者交往圈关系，判断待识别号码是否是未报备号，并将识别出的未报备号从待识别号码群中剔除，从而有效减少后续计算工作量。如图2所示，步骤一和步骤二之间，对于待识别号码群中的每个待识别号码，还可以包括有：

步骤A1、判断待识别号码所属的用户身份证下是否还存在有其他号码，如果是，则继续步骤A2；如果否，则继续步骤A3；

步骤A2、判断是否待识别号码和其他号码之间不存在有通话记录、且其他号码存在于已报备号码群中，如果是，则待识别号码是所述其他号码的未报备手机号，从待识别号码群中删除所述待识别号码，本流程结束；如果否，则继续步骤A3；

步骤A3、计算待识别号码的手机app特征参数，并将待识别号码的手机app特征参数逐一和已报备号码群中的每个已报备号码的手机app特征参数进行比对，如果两者的手机app特征参数相同，则待识别号码是和其手机app特征参数相同的已报备号码的未报备手机号，从待识别号码群中删除待识别号码，本流程结束；如果否，则继续步骤A4；

手机app特征参数可以是：手机上安装的app种类、各app使用时长、使用时间段等参数；

步骤A4、获取待识别号码的关系号码，并判断关系号码是否存在于已报备号码群中，如果是，则待识别号码是其关系号码的未报备手机号，从待识别号码群中删除待识别号码。

步骤A4中，待识别号码的关系号码可以是：与待识别号码存在有主副号码关系的号码，或与待识别号码之间存在有代充值、代缴费、电子券或话费赠送等行为的号码。

如图3所示，步骤二中，计算每个手机号码和其每个簇的亲密度指数，并据此挑选多个簇合并生成每个手机号码的交往圈号码群，可以进一步包括有：

步骤21、计算手机号码和其每个簇中的每个通信号码的通话时长指数和通话频率指数，其中，通话时长指数是手机号码和通信号码的通话时长与手机号码的通话总时长的比值，通话频率指数是手机号码和通信号码的通话次数和手机号码的通话总次数的比值；

步骤22、计算手机号码和其每个簇中的每个通信号码的亲密度指数：q_ij＝A_ij·W_a+B_ij·W_b其中，A_ij、B_ij分别是手机号码和其第i个簇中的第j个通信号码的通话时长指数、通话频率指数，W_a和W_b分别是通话时长指数和通话频率指数的权重系数，其值可以根据实际业务需要而设定；

步骤23、计算手机号码和其每个簇的亲密度指数：其中，Q_i是手机号码和其第i个簇的亲密度指数，n是手机号码的第i个簇中的通信号码数；

步骤24、将手机号码和其所有簇的亲密度指数按照从高到低排序，然后将所有亲密度指数大于指数阈值的簇合并生成每个手机号码的交往圈号码群，指数阈值可以根据实际业务需要而设定。

步骤三中，计算待识别号码群中的每个待识别号码和已报备号码群中的每个已报备号码的交往圈重合度的计算公式可以如下：其中，CH_uv是待识别号码群中的第u个待识别号码和已报备号码群中的第v个已报备号码的交往圈重合度，S_uv是第u个待识别号码和第v个已报备号码的交往圈号码群中的重合号码数，sum_v是第v个已报备号码的交往圈号码群中的号码数。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

9页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种车内通话方法、装置、系统及车辆

一种基于机器学习算法的未报备手机号识别方法

相关技术

网友询问留言