一种异常短消息的检测方法、装置及电子设备

文档序号:572465 发布日期:2021-05-18 浏览:27次 >En<

阅读说明:本技术 一种异常短消息的检测方法、装置及电子设备 (Abnormal short message detection method and device and electronic equipment ) 是由 全俊斌 李彬 钟雪慧 何振财 乔雅莉 郝建忠 孙际勇 于 2019-11-18 设计创作,主要内容包括:本发明实施例公开了一种异常短消息的检测方法、装置及电子设备,所述方法包括:获取待检测的目标短消息,获取所述目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的相似度,基于所述相似度,判断所述目标短消息是否为异常短消息。通过本方法,可以通过目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的相似度,对目标短消息是否为异常短消息进行判断,减少了异常短消息检测的处理过程,提高了异常短消息的检测效率以及检测准确性。(The embodiment of the invention discloses a method and a device for detecting an abnormal short message and electronic equipment, wherein the method comprises the following steps: the method comprises the steps of obtaining a target short message to be detected, obtaining the similarity between an information sequence corresponding to the content of the target short message and a theme public sequence of an abnormal short message theme group, and judging whether the target short message is an abnormal short message or not based on the similarity. By the method, whether the target short message is the abnormal short message or not can be judged according to the similarity between the information sequence corresponding to the content of the target short message and the topic public sequence of the topic group of the abnormal short message, the processing process of abnormal short message detection is reduced, and the detection efficiency and the detection accuracy of the abnormal short message are improved.)

一种异常短消息的检测方法、装置及电子设备

技术领域

本发明涉及通信技术领域,尤其涉及一种异常短消息的检测方法、装置及电子设备。

背景技术

随着移动通信技术的不断发展,短消息作为移动通信的增值服务之一,在为人们提供价格低廉和便捷的通信服务的同时,也滋生了大量垃圾短消息(如短信),垃圾短消息中通常包括宣传广告、虚假信息或恶意链接等不良信息,会对人们的生活造成较大的干扰,所以如何检测垃圾短消息逐渐成为人们关注的焦点。

目前,可以对短消息的文本内容是否包含预设关键字,来判断短消息是否为垃圾短消息。例如,假设预设关键字为“打折促销”、“低价风暴”,如果检测到短消息的文本内容中包含上述两个预设关键字,则可以确定该短息为垃圾短消息。

但是,通过上述匹配预设关键字来检测短消息是否为垃圾短消息的方式,存在以下问题:由于需要人工审核确定预设关键字,所以存在较高的人力成本,且随着垃圾短消息内容的不断变化,人工识别关键字的复杂程度也会越来越高,导致垃圾短消息的检测效率低,检测准确性差。

发明内容

本发明实施例的目的是提供一种异常短消息的检测方法、装置及电子设备,以解决现有技术中由于通过人工审核确定的预设关键字来对垃圾短消息进行检测,导致的垃圾短消息的检测效率较低,检测准确性较差的问题。

为解决上述技术问题,本发明实施例是这样实现的:

第一方面,本发明实施例提供的一种异常短消息的检测方法,所述方法包括:

获取待检测的目标短消息;

获取所述目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的相似度;

基于所述相似度,判断所述目标短消息是否为异常短消息。

可选地,所述获取所述目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的相似度之前,还包括:

获取预定时长内的异常短消息;

计算每两个所述异常短消息的内容对应的信息序列之间的相似度;

基于每两个所述异常短消息的内容对应的信息序列之间的相似度,将所述异常短消息划分为一个或多个所述异常短消息主题组。

可选地,所述计算所述异常短消息中每两个所述异常短消息的内容对应的信息序列之间的相似度,包括:

基于预设提取算法,提取每两个所述异常短消息的内容对应的信息序列之间的第一公共子序列;

将所述每两个所述异常短消息的内容对应的信息序列之间的第一公共子序列代入公式

得到所述每两个所述异常短消息之间的相似度,其中,S为所述每两个所述异常短消息的内容对应的信息序列之间的相似度,c为所述每两个所述异常短消息的内容对应的信息序列之间的第一公共子序列的字符串长度,a、b分别为所述每两个所述异常短消息的内容对应的信息序列的字符串长度。

可选地,所述方法还包括:

在所述异常短消息主题组中包含两个及以上所述异常短消息的情况下,基于所述预设提取算法,提取所述异常短消息主题组中,每两个所述异常短消息的内容对应的信息序列之间的第二公共子序列;

如果所述异常短消息主题组中存在两个及以上的所述第二公共子序列,则基于所述预设提取算法,提取所述两个及以上的第二公共子序列之间的第三公共子序列,并将所述第三公共子序列确定为所述异常短消息主题组的主题公共序列;

如果所述异常短消息主题组中存在一个所述第二公共子序列,则将所述第二公共子序列确定为所述异常短消息主题组的主题公共序列。

可选地,所述获取所述目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的相似度,包括:

基于所述预设提取算法,提取所述目标短消息的内容对应的信息序列与所述异常短消息主题组的主题公共序列之间的第四公共子序列;

基于所述异常短消息主题组的主题公共序列与所述第四公共子序列之间的相似度,确定所述目标短消息的内容对应的信息序列与所述异常短消息主题组的主题公共序列之间的相似度。

可选地,所述获取待检测的目标短消息,包括:

获取待检测的第一短消息以及对应的号码信息;

获取与所述号码信息对应的行为信息;

在检测到所述行为信息满足异常初判条件的情况下,将所述第一短消息确定为所述待检测的目标短消息。

可选地,所述在检测到所述行为信息满足异常初判条件的情况下,将所述第一短消息确定为所述待检测的目标短消息,包括:

在所述行为信息中的短消息发送比、短消息发送量、接收方号码离散度以及接收方号段平均号码量都满足预设初判条件的情况下,将所述第一短消息确定为所述待检测的目标短消息。

第二方面,本发明实施例提供了一种异常短消息的检测装置,所述装置包括:

第一获取模块,用于获取待检测的目标短消息;

第一计算模块,用于获取所述目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的相似度;

异常检测模块,用于基于所述相似度,判断所述目标短消息是否为异常短消息。

可选地,所述装置,还包括:

第二获取模块,用于获取预定时长内的异常短消息;

第二计算模块,用于计算每两个所述异常短消息的内容对应的信息序列之间的相似度;

划分模块,用于基于每两个所述异常短消息的内容对应的信息序列之间的相似度,将所述异常短消息划分为一个或多个所述异常短消息主题组。

可选地,所述第二计算模块,包括:

第一提取单元,用于基于预设提取算法,提取每两个所述异常短消息的内容对应的信息序列之间的第一公共子序列;

第一确定单元,用于将所述每两个所述异常短消息的内容对应的信息序列之间的第一公共子序列代入公式

得到所述每两个所述异常短消息之间的相似度,其中,S为所述每两个所述异常短消息的内容对应的信息序列之间的相似度,c为所述每两个所述异常短消息的内容对应的信息序列之间的第一公共子序列的字符串长度,a、b分别为所述每两个所述异常短消息的内容对应的信息序列的字符串长度。

可选地,所述装置还包括:

序列提取模块,用于在所述异常短消息主题组中包含两个及以上所述异常短消息的情况下,基于所述预设提取算法,提取所述异常短消息主题组中,每两个所述异常短消息的内容对应的信息序列之间的第二公共子序列;

第一确定模块,用于如果所述异常短消息主题组中存在两个及以上的所述第二公共子序列,则基于所述预设提取算法,提取所述两个及以上的第二公共子序列之间的第三公共子序列,并将所述第三公共子序列确定为所述异常短消息主题组的主题公共序列;

第二确定模块,用于如果所述异常短消息主题组中存在一个所述第二公共子序列,则将所述第二公共子序列确定为所述异常短消息主题组的主题公共序列。

可选地,所述第一计算模块,包括:

第二提取单元,用于基于所述预设提取算法,提取所述目标短消息的内容对应的信息序列与所述异常短消息主题组的主题公共序列之间的第四公共子序列;

第二确定单元,用于基于所述异常短消息主题组的主题公共序列与所述第四公共子序列之间的相似度,确定所述目标短消息的内容对应的信息序列与所述异常短消息主题组的主题公共序列之间的相似度。

可选地,所述第一获取模块,包括:

第一获取单元,用于获取待检测的第一短消息以及对应的号码信息;

第二获取单元,用于获取与所述号码信息对应的行为信息;

消息确定单元,用于在检测到所述行为信息满足异常初判条件的情况下,将所述第一短消息确定为所述待检测的目标短消息。

可选地,所述消息确定单元,用于:

在所述行为信息中的短消息发送比、短消息发送量、接收方号码离散度以及接收方号段平均号码量都满足预设初判条件的情况下,将所述第一短消息确定为所述待检测的目标短消息。

第三方面,本发明实施例提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述实施例提供的异常短消息的检测方法的步骤。

第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述实施例提供的异常短消息的检测方法的步骤。

由以上本发明实施例提供的技术方案可见,本发明实施例通过获取待检测的目标短消息,获取目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的相似度,基于相似度,判断目标短消息是否为异常短消息。这样,可以通过目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的相似度,对目标短消息是否为异常短消息进行判断,而不需要通过人工审核确定预设关键字的方式来对短消息的内容进行检测,减少了异常短消息检测的处理过程,降低人工成本的同时,提高异常短消息的检测效率以及检测准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一种异常短消息的检测方法实施例;

图2为本发明另一种异常短消息的检测方法实施例;

图3为本发明一种异常短消息的检测装置实施例;

图4为本发明一种电子设备实施例。

具体实施方式

本发明实施例提供一种异常短消息的检测方法、装置及电子设备。

为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

实施例一

如图1所示,本发明实施例提供一种异常短消息的检测方法,该方法的执行主体可以为服务器,该服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群。该方法具体可以包括以下步骤:

在S102中,获取待检测的目标短消息。

其中,目标短消息可以是任意待检测的短消息。

在实施中,随着移动通信技术的不断发展,短消息作为移动通信的增值服务之一,在为人们提供价格低廉和便捷的通信服务的同时,也滋生了大量垃圾短消息,垃圾短消息中通常包括宣传广告、虚假信息或恶意链接等不良信息,会对人们的生活造成较大的干扰,所以如何检测出垃圾短消息逐渐成为人们关注的焦点。目前,可以对短消息的文本内容是否包含人工审核确认的预设关键字,以判断短消息是否为垃圾短消息。例如,假设人工审核确认的预设关键字为“打折促销”、“低价风暴”,如果检测到短消息的文本内容中包含上述两个预设关键字,则可以确定该短息为垃圾短消息。

但是,通过上述匹配预设关键字来检测短消息是否为垃圾短消息的方式,存在以下问题:由于需要人工审核确定预设关键字,所以存在较高的人力成本,且随着垃圾短消息内容的不断变化,人工识别关键字的复杂程度也会越来越高,导致垃圾短消息的检测效率较低,检测准确性较差。

此外,还可以通过设置短消息发送号码黑名单对短消息的发送号码进行检测,以确定该短消息是否为垃圾短消息。例如,可以通过搜集到的用户投诉或举报的短消息的发送号码,建立垃圾短消息发送号码黑名单,在检测到短消息的发送号码位于该黑名单时,可以确定该短消息为垃圾短消息。

或者,还可以对短消息的发送行为进行分析,以确定该短消息是否为垃圾短消息。例如,可以对短消息的行为规律进行分析(如可以对发送短消息所使用的流量、短消息的长度或接收号码分布等进行分析),并确定该短消息是否为垃圾短消息。

但是,上述两种短消息检测方法也存在检测准确性较差的问题,为此,本发明实施例提供另一种实现方案,具体可以包括以下内容:

可以在预设时间周期内,实时在线获取任意通讯号码或指定通讯号码发送的短消息,获取的短消息可以作为待检测的目标短消息,其中,获取的待检测的目标短消息可以为一条或多条短消息。

在S104中,获取目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的相似度。

其中,异常短消息主题组可以为预先存储的与异常短消息主题相对应的异常短消息的集合,或者异常短消息主题组也可以是包含与异常短消息主题相对应的主题公共序列的集合,不同的异常短消息主题组的异常短消息主题可以不同,对应包含的异常短消息也可以不同(或对应包含的主题公共序列可以不同),例如,异常短消息主题组1对应的异常短消息主题可以为“虚假宣传”,异常短消息主题组2对应的异常短消息主题可以为“恶意链接”,则异常短消息主题组1中包含的异常短消息可以为与“虚假宣传”对应的短消息,异常短消息主题组2中包含的异常短消息可以为与“恶意链接”对应的短消息,即这两个异常短消息主题组包含的异常短消息不同。目标短消息的内容对应的信息序列可以是对目标短消息的内容进行处理(如内容读取(即读取目标短消息的文本数据))、中文分词、停用词去除以及过短文本过滤等处理后,得到包含一个或多个字词的文本序列,然后可以基于预设编码方式对文本序列中的字词进行编码,得到包含一个或多个字符的字符串序列(即信息序列),主题公共序列可以是异常短消息主题组中所有异常短消息的内容对应的信息序列的最长公共子序列,此外,如果异常短消息组中只包含一个异常短消息,则该异常短消息组的主题公共序列可以是该异常短消息的内容对应的信息序列。

在实施中,服务器在获取到目标短消息后,可以对目标短消息的内容进行处理,以得到目标短消息的内容对应的信息序列。例如,服务器获取到目标短消息后,可以读取目标短消息的内容,读取的目标短消息的内容可以包括发送方号码、接收方号码、短消息发送时间以及短消息文本内容等。可以将“发送方号码_接收方号码_短消息发送时间”作为该目标短消息的文本ID,并将该目标短消息的文本内容作为对应的value值,建立目标短消息的文本ID与文本内容的对应关系,建立的对应关系可以如:{文本ID1:文本内容,文本ID2:文本内容,...}。

服务器在读取目标短消息的内容后,可以通过自然语言分词模块对文本内容进行分词(即对目标短消息的内容进行中文分词处理),将目标短消息的文本内容当众的连续自然语句分割成单独的字词,并将分词处理后的文本内容输出为:{字词1,字词2,字词3,...}的格式,并替代文本ID对应的文本内容。

然后,服务器可以通过停用词去除处理,去除分词处理后的文本内容中包含的语气助词、副词、介词、连接词以及非中文字符等预设停用词。最后通过短文本过滤处理将文本内容中字符长度低于预设长度阈值的文本进行过滤,以减少后续数据处理的工作量。

经过上述处理后,可以得到目标短消息的内容对应的文本序列,然后,服务器可以基于预设编码方式,将文本序列转换为信息序列,并获取目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的相似度。

其中,相似度的计算方法可以有多种,例如,服务器可以根据目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间相同字词(或字符)的个数,以及目标短消息的内容对应的信息序列所包含的字词的个数,确定对应相似度。例如,目标短消息的内容对应的信息序列(如文本序列)为:{“打折”,“促销”,“周末”,“超低价”},异常短消息主题组的主题公共序列可以为:{“打折”,“促销”,“双十一”,“风暴”},则目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间相同的字词的个数为2,对应的目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的相似度为可以100*2/4=50%。

上述目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的相似度的算法是一种可选地、可实现的计算方法,在实际应用场景中,还可以有多种不同的相似度计算方法,可以根据实际应用场景的不同有所不同,本发明实施例对此不作具体限定。

如果有多个异常短消息主题组,则可以分别计算目标短消息的内容对应的信息序列与每个异常短消息主题组的主题公共序列之间的相似度。

在S106中,基于相似度,判断目标短消息是否为异常短消息。

在实施中,如果相似度大于预设相似度阈值,则服务器可以判断该目标短消息为异常短消息。或者,如果存在多个异常短消息主题组(即存在多个相似度),则可以对这多个相似度中是否存在大于预设相似度阈值的相似度进行检测,并根据检测结果,确定该目标短消息是否为异常短消息。

目标短消息是否为异常短消息的判断方法可以有多种,除上述两种判断方法外,还可以有多种不同的判断方法,可以根据实际应用场景的不同而有所不同,本发明实施例对此不作限定。

本发明实施例提供一种异常短消息的检测方法,通过获取待检测的目标短消息,获取目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的相似度,基于相似度,判断目标短消息是否为异常短消息。这样,可以通过目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的相似度,对目标短消息是否为异常短消息进行判断,而不需要通过人工审核确定预设关键字的方式来对短消息的内容进行检测,减少了异常短消息检测的处理过程,降低人工成本的同时,提高异常短消息的检测效率以及检测准确性。

实施例二

如图2所示,本发明实施例提供一种异常短消息的检测方法,该方法的执行主体可以为服务器,该服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群。该方法具体可以包括以下步骤:

在S202中,获取待检测的第一短消息以及对应的号码信息。

其中,第一短消息对应的号码信息可以包括发送第一短消息的发送方号码,以及接收第一短消息的接收方号码等信息。

在实施中,服务器可以基于预设获取周期,获取待检测的短消息,然后可以基于预设号码白名单,剔除获取的短消息中正常业务类的短消息,并将剔除正常业务类的短消息后的短消息确定为待检测的第一短消息。例如,可以剔除短消息中,由预设短消息发送端口(如运营商预设的发送端口)发送的短消息,并将剔除处理后的短消息确定为第一短消息。

在S204中,获取与号码信息对应的行为信息。

其中,获取的行为信息可以包括发送目标短消息的发送方号码在预定时间内发送短消息的数量以及接收短消息的数量,以及目标短消息的接收方号码在预定时间内发送短消息的数量以及接收短消息的数量等信息。

在实施中,服务器可以获取号码信息在预定时间内的短消息日志,然后通过解析短消息日志,获取对应的行为信息。

在S206中,在检测到行为信息满足异常初判条件的情况下,将第一短消息确定为待检测的目标短消息。

在实施中,在检测行为信息是否满足异常初判条件之前,服务器可以对第一短消息进行筛选,例如,如果存在两条或多条第一短消息的发送方号码相同、接收方号码相同、发送时间相同(或相近),则可以将这多条第一短消息确定为同一短消息,以减少后续处理的工作量。

在对第一短消息的行为信息是否满足异常初判条件进行判断时,服务器可以基于第一短消息的行为信息中的发送行为特征,对第一短消息是否满足异常初判条件进行判断。其中,行为信息中的发送行为特征可以包括短消息发送比、短消息发送量、接收方号码离散度以及接收方号段平均号码量等。

在行为信息中的短消息发送比、短消息发送量、接收方号码离散度以及接收方号段平均号码量都满足预设初判条件的情况下,可以将第一短消息确定为待检测的目标短消息。

例如,短消息发送比可以是预设时间内发送方号码发送短消息的数量与接收短消息的数量之间的比值,短消息发送量可以是预设时间内发送方号码方发送的短消息的数量,接收方号码离散度可以是接收方号码去重个数与发送方发送短消息的数量之间的比值,接收方号段平均号码量可以是接收方号码去重个数与接收方号码号段个数之间的比值。如果第一短消息的行为信息中的上述这个四个发送行为特征都满足异常初判条件,则可以确定第一短消息为待检测的目标短消息。

在S208中,获取预定时长内的异常短消息。

其中,异常短消息可以是根据用户的举报信息确定的短消息。

在S210中,计算每两个异常短消息的内容对应的信息序列之间的相似度。

上述S210的具体处理过程可以参见上述实施例一中S104中的相关内容,在此不再赘述。

在实际应用中,上述S210的处理方式可以多种多样,以下再提供一种可选的实现方式,具体可以参见下述步骤一和步骤二处理。

步骤一,基于预设提取算法,提取每两个异常短消息的内容对应的信息序列之间的第一公共子序列。

其中,第一公共子序列可以是每两个异常短消息的内容对应的信息序列中,所有相同的子序列中字符串长度最长的子序列,子序列可以是在不改变原信息序列的字符顺序的情况下,从原信息序列中去掉任意字符而获得的新序列。

在实施中,对于异常短消息1和异常短消息2,可以经过内容处理、中文分词、停用词去除以及过短文本过滤等处理后,得到对应的包含一个或多个字词的文本序列1和文本序列2,然后可以基于预设编码方式对文本序列1和文本序列2中的字词进行编码,并得到对应的包含一个或多个字符的字符串序列A和字符串序列B(即信息序列A和信息序列B)。可以基于信息序列A和信息序列B,构建动态表,并基于信息序列A和信息序列B中的字符,确定对应的动态值。

假设信息序列A包含m个字符,分别为“acbdfegjyd”(即m=10),信息序列B包含n个字符分别为“ibcdefg”(即n=7),则基于信息序列A和信息序列B,可以构建如表1所示的动态表1,其中,动态表1中的第一行的动态值可以设置为信息序列A分别与信息序列B以及信息序列B中包含的每个字符的对应动态值,第一列的动态值可以设置为信息序列B分别与信息序列A以及信息序列A中包含的每个字符的对应动态值,即动态表1中第一行和第一列对应的动态值全为0,且信息序列A中第i个字符与信息序列B中第j个字符的动态值为C[i+1][j+1]。

表1

B i b c d e f g
A 0 0 0 0 0 0 0 0
a 0
c 0
b 0
d 0
f 0
e 0
g 0
j 0
y 0
d 0

在初步构建的动态表1的基础上,可以对信息序列A中第i个字符和信息序列B中第j个字符进行比对,以得到信息序列A中第i个字符和信息序列B中第j个字符对应的动态值C[i+1][j+1]。例如,如果信息序列A中第i个字符和信息序列B中第j个字符相同,则可以将对应的C[i+1][j+1]的值设置为C[i][j]+1,如果信息序列A第i个字符和信息序列B中第j个字符不同,则可以将对应的C[i+1][j+1]的值设置为C[i+1][j]和C[i][j+1]中的最大值,经过上述计算,可以得到动态表2,如下表2所示。

表2

B i b c d e f g
A 0 0 0 0 0 0 0 0
a 0 0 0 0 0 0 0 0
c 0 0 0 1 1 1 1 1
b 0 0 1 1 1 1 1 1
d 0 0 1 1 2 2 2 2
f 0 0 1 1 2 2 3 3
e 0 0 1 1 2 3 3 3
g 0 0 1 1 2 3 3 4
j 0 0 1 1 2 3 3 4
y 0 0 1 1 2 3 3 4
d 0 0 1 1 2 3 3 4

在得到动态表后,可以基于预设提取算法,提取出信息序列A和信息序列B之间的第一公共子序列,即得到异常短消息1和异常短消息2的内容对应的信息序列之间的第一公共子序列。

例如,假设第一公共子序列为L且初始L为空,可以以C[m+1][n+1]为基准点,并将C[m+1][n+1]设为C[x][y],然后对C[x-1][y]和C[x][y-1]的值是否均小于C[x][y]进行判断,如果C[x-1][y]和C[x][y-1]的值均小于C[x][y],则表明该信息序列A中第i个字符与信息序列B中第j个字符相同,可以将信息序列A中的第i个字符加入到第一公共子序列L中,同时将基准点设置为C[x-1][y-1];如果仅有C[x][y-1]小于C[x][y],则可以将基准点设置为C[x-1][y];如果仅有C[x-1][y]小于C[x][y],则可以将基准点设置为C[x-1][y];如果C[x-1][y]和C[x][y-1]的值与C[x][y]的值相等,则可以将基准点设置为C[x-1][y]。在基于上述过程进行循环判断,直到基准点对应动态值为0时,结束循环,并得到第一公共子序列L。

基于上述循环判断过程,对表2中的信息序列A和信息序列B进行第一公共子序列的提取,可以得到对应的第一公共子序列L为“gfdc”。

步骤二,将每两个异常短消息的内容对应的信息序列之间的第一公共子序列代入公式

得到每两个异常短消息之间的相似度,其中,S为每两个异常短消息的内容对应的信息序列之间的相似度,c为每两个异常短消息的内容对应的信息序列之间的第一公共子序列的字符串长度,a、b分别为每两个异常短消息的内容对应的信息序列的字符串长度。

在S212中,基于每两个异常短消息的内容对应的信息序列之间的相似度,将异常短消息划分为一个或多个异常短消息主题组。

在实施中,可以随机选取一个异常短消息1,并将其放入异常短消息主题组1,然后在随机获取一个异常短消息2,并计算异常短消息1和异常短消息2的内容对应的信息序列之间的相似度,如果该相似度大于预设分组相似度阈值,则可以将异常短消息2放入异常短消息主题组1中,如果该相似度不大于预设分组相似度阈值,则可以将异常短消息2放入异常短消息主题组2中,以此类推,直到所有异常短消息都归入对应的异常短消息主题组中。

在S214中,在异常短消息主题组中包含两个及以上异常短消息的情况下,基于预设提取算法,提取异常短消息主题组中,每两个异常短消息的内容对应的信息序列之间的第二公共子序列。

在实施中,可以基于上述S212中动态表的构建方法,构建异常短消息主题组中每两个异常短消息的内容对应的信息序列之间的动态表,在基于上述S212中的预设提取算法,提取出每两个异常短消息的内容对应的信息序列之间的第二公共子序列。

此外,如果异常短消息主题组中只包含一个异常短消息,则可以将该异常短消息的内容对应的信息序列作为第二公共子序列。

在执行完上述S214后,可以提取每个异常短消息主题组的主题公共序列,在提取每个异常短消息主题组的主题公共序列时,可以根据异常短消息主题组中包含的第二公共子序列的数量,确定后续的执行步骤,即如果异常短消息组中包含两个及以上第二公共子序列,则可以继续执行S216,如果异常短消息组中仅包含一个第二公共子序列,则可以继续执行S218。

在S216中,如果异常短消息主题组中存在两个及以上的第二公共子序列,则基于预设提取算法,提取两个及以上的第二公共子序列之间的第三公共子序列,并将第三公共子序列确定为异常短消息主题组的主题公共序列。

在实施中,假设异常短消息主题组中包含3个异常短消息,且分别为异常短消息1、异常短消息2和异常短消息3,则可以获取异常短消息1和异常短消息2的内容对应的信息序列之间的第二公共子序列1,然后可以将异常短消息3的内容对应的信息序列作为第二公共子序列2,并基于预设提取算法,提取出第二公共子序列1和第二公共子序列2之间的第三公共子序列,并将第三公共子序列确定为异常短消息主题组的主题公共序列。

在S218中,如果异常短消息主题组中存在一个第二公共子序列,则将第二公共子序列确定为异常短消息主题组的主题公共序列。

在S220中,基于预设提取算法,提取目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的第四公共子序列。

上述S220的具体处理过程可以参见上述S210中的相关内容,在此不再赘述。

在步骤S222中,基于异常短消息主题组的主题公共序列与第四公共子序列之间的相似度,确定目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的相似度。

在实施中,可以将第四公共子序列的字符串长度与异常短消息主题组的主题公共序列的字符串长度的比值,作为目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的相似度。

在S224中,基于相似度,判断目标短消息是否为异常短消息。

上述S224的具体处理过程可以参见上述实施例一中S106中的相关内容,在此不再赘述。

此外,在判断出目标短消息为异常短消息后,可以输出该目标短消息的发送方号码、接收方号码以及对应的异常短消息主题组的主题名称等信息。

本发明实施例提供一种异常短消息的检测方法,通过获取待检测的目标短消息,获取目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的相似度,基于相似度,判断目标短消息是否为异常短消息。这样,可以通过目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的相似度,对目标短消息是否为异常短消息进行判断,而不需要通过人工审核确定预设关键字的方式来对短消息的内容进行检测,减少了异常短消息检测的处理过程,降低人工成本的同时,提高异常短消息的检测效率以及检测准确性。

实施例三

以上为本发明实施例提供的异常短消息的检测方法,基于同样的思路,本发明实施例还提供一种异常短消息的检测装置,如图3所示。

该异常短消息的检测装置包括:第一获取模块301、第一计算模块302和异常检测模块303,其中:

第一获取模块301,用于获取待检测的目标短消息;

第一计算模块302,用于获取所述目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的相似度;

异常检测模块303,用于基于所述相似度,判断所述目标短消息是否为异常短消息。

在本发明实施例中,所述装置,还包括:

第二获取模块,用于获取预定时长内的异常短消息;

第二计算模块,用于计算每两个所述异常短消息的内容对应的信息序列之间的相似度;

划分模块,用于基于每两个所述异常短消息的内容对应的信息序列之间的相似度,将所述异常短消息划分为一个或多个所述异常短消息主题组。

在本发明实施例中,所述第二计算模块,包括:

第一提取单元,用于基于预设提取算法,提取每两个所述异常短消息的内容对应的信息序列之间的第一公共子序列;

第一确定单元,用于将所述每两个所述异常短消息的内容对应的信息序列之间的第一公共子序列代入公式

得到所述每两个所述异常短消息之间的相似度,其中,S为所述每两个所述异常短消息的内容对应的信息序列之间的相似度,c为所述每两个所述异常短消息的内容对应的信息序列之间的第一公共子序列的字符串长度,a、b分别为所述每两个所述异常短消息的内容对应的信息序列的字符串长度。

在本发明实施例中,所述装置还包括:

序列提取模块,用于在所述异常短消息主题组中包含两个及以上所述异常短消息的情况下,基于所述预设提取算法,提取所述异常短消息主题组中,每两个所述异常短消息的内容对应的信息序列之间的第二公共子序列;

第一确定模块,用于如果所述异常短消息主题组中存在两个及以上的所述第二公共子序列,则基于所述预设提取算法,提取所述两个及以上的第二公共子序列之间的第三公共子序列,并将所述第三公共子序列确定为所述异常短消息主题组的主题公共序列;

第二确定模块,用于如果所述异常短消息主题组中存在一个所述第二公共子序列,则将所述第二公共子序列确定为所述异常短消息主题组的主题公共序列。

在本发明实施例中,所述第一计算模块302,包括:

第二提取单元,用于基于所述预设提取算法,提取所述目标短消息的内容对应的信息序列与所述异常短消息主题组的主题公共序列之间的第四公共子序列;

第二确定单元,用于基于所述异常短消息主题组的主题公共序列与所述第四公共子序列之间的相似度,确定所述目标短消息的内容对应的信息序列与所述异常短消息主题组的主题公共序列之间的相似度。

在本发明实施例中,所述第一获取模块301,包括:

第一获取单元,用于获取待检测的第一短消息以及对应的号码信息;

第二获取单元,用于获取与所述号码信息对应的行为信息;

消息确定单元,用于在检测到所述行为信息满足异常初判条件的情况下,将所述第一短消息确定为所述待检测的目标短消息。

在本发明实施例中,所述消息确定单元,用于:

在所述行为信息中的短消息发送比、短消息发送量、接收方号码离散度以及接收方号段平均号码量都满足预设初判条件的情况下,将所述第一短消息确定为所述待检测的目标短消息。

本发明实施例提供一种异常短消息的检测装置,通过获取待检测的目标短消息,获取目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的相似度,基于相似度,判断目标短消息是否为异常短消息。这样,可以通过目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的相似度,对目标短消息是否为异常短消息进行判断,而不需要通过人工审核确定预设关键字的方式来对短消息的内容进行检测,减少了异常短消息检测的处理过程,降低人工成本的同时,提高异常短消息的检测效率以及检测准确性。

实施例四

图4为实现本发明各个实施例的一种电子设备的硬件结构示意图,

该电子设备400包括但不限于:射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409、处理器410、以及电源411等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本发明实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中,处理器410,用于获取待检测的目标短消息;

处理器410,还用于获取所述目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的相似度;

处理器410,还用于基于所述相似度,判断所述目标短消息是否为异常短消息。

此外,处理器410,还用于获取预定时长内的异常短消息;

另外,所述处理器410,还用于计算每两个所述异常短消息的内容对应的信息序列之间的相似度;

此外,处理器410,还用于基于每两个所述异常短消息的内容对应的信息序列之间的相似度,将所述异常短消息划分为一个或多个所述异常短消息主题组。

另外,所述处理器410,还用于基于预设提取算法,提取每两个所述异常短消息的内容对应的信息序列之间的第一公共子序列;

此外,处理器410,还用于将所述每两个所述异常短消息的内容对应的信息序列之间的第一公共子序列代入公式

另外,所述处理器410,还用于得到所述每两个所述异常短消息之间的相似度,其中,S为所述每两个所述异常短消息的内容对应的信息序列之间的相似度,c为所述每两个所述异常短消息的内容对应的信息序列之间的第一公共子序列的字符串长度,a、b分别为所述每两个所述异常短消息的内容对应的信息序列的字符串长度。

此外,处理器410,还用于在所述异常短消息主题组中包含两个及以上所述异常短消息的情况下,基于所述预设提取算法,提取所述异常短消息主题组中,每两个所述异常短消息的内容对应的信息序列之间的第二公共子序列;

另外,所述处理器410,还用于如果所述异常短消息主题组中存在两个及以上的所述第二公共子序列,则基于所述预设提取算法,提取所述两个及以上的第二公共子序列之间的第三公共子序列,并将所述第三公共子序列确定为所述异常短消息主题组的主题公共序列;

此外,处理器410,还用于如果所述异常短消息主题组中存在一个所述第二公共子序列,则将所述第二公共子序列确定为所述异常短消息主题组的主题公共序列。

另外,所述处理器410,还用于基于所述预设提取算法,提取所述目标短消息的内容对应的信息序列与所述异常短消息主题组的主题公共序列之间的第四公共子序列;

此外,处理器410,还用于基于所述异常短消息主题组的主题公共序列与所述第四公共子序列之间的相似度,确定所述目标短消息的内容对应的信息序列与所述异常短消息主题组的主题公共序列之间的相似度。

另外,所述处理器410,还用于获取待检测的第一短消息以及对应的号码信息;

此外,处理器410,还用于获取与所述号码信息对应的行为信息;

另外,所述处理器410,还用于在检测到所述行为信息满足异常初判条件的情况下,将所述第一短消息确定为所述待检测的目标短消息。

此外,处理器410,还用于在所述行为信息中的短消息发送比、短消息发送量、接收方号码离散度以及接收方号段平均号码量都满足预设初判条件的情况下,将所述第一短消息确定为所述待检测的目标短消息。

本发明实施例提供一种电子设备,通过获取待检测的目标短消息,获取目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的相似度,基于相似度,判断目标短消息是否为异常短消息。这样,可以通过目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的相似度,对目标短消息是否为异常短消息进行判断,而不需要通过人工审核确定预设关键字的方式来对短消息的内容进行检测,减少了异常短消息检测的处理过程,降低人工成本的同时,提高异常短消息的检测效率以及检测准确性。

应理解的是,本发明实施例中,射频单元401可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器410处理;另外,将上行的数据发送给基站。通常,射频单元401包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元401还可以通过无线通信系统与网络和其他电子设备通信。

电子设备通过网络模块402为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元403可以将射频单元401或网络模块402接收的或者在存储器409中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元403还可以提供与电子设备400执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元403包括扬声器、蜂鸣器以及受话器等。

输入单元404用于接收音频或视频信号。输入单元404可以包括图形处理器(Graphics Processing Unit,GPU)4041和麦克风4042,图形处理器4041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元406上。经图形处理器4041处理后的图像帧可以存储在存储器409(或其它存储介质)中或者经由射频单元401或网络模块402进行发送。麦克风4042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元401发送到移动通信基站的格式输出。

电子设备400还包括至少一种传感器405,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板4061的亮度,接近传感器可在电子设备400移动到耳边时,关闭显示面板4061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器405还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。

显示单元406用于显示由用户输入的信息或提供给用户的信息。显示单元406可包括显示面板4061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板4061。

用户输入单元407可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元407包括触控面板4071以及其他输入设备4072。触控面板4071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板4071上或在触控面板4071附近的操作)。触控面板4071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器410,接收处理器410发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板4071。除了触控面板4071,用户输入单元407还可以包括其他输入设备4072。具体地,其他输入设备4072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。

进一步的,触控面板4071可覆盖在显示面板4061上,当触控面板4071检测到在其上或附近的触摸操作后,传送给处理器410以确定触摸事件的类型,随后处理器410根据触摸事件的类型在显示面板4061上提供相应的视觉输出。虽然在图4中,触控面板4071与显示面板4061是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触控面板4071与显示面板4061集成而实现电子设备的输入和输出功能,具体此处不做限定。

接口单元408为外部装置与电子设备400连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元408可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到电子设备400内的一个或多个元件或者可以用于在电子设备400和外部装置之间传输数据。

存储器409可用于存储软件程序以及各种数据。存储器409可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器409可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器410是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器409内的软件程序和/或模块,以及调用存储在存储器409内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器410可包括一个或多个处理单元;优选的,处理器410可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器410中。

电子设备400还可以包括给各个部件供电的电源411(比如电池),优选的,电源411可以通过电源管理系统与处理器410逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

优选的,本发明实施例还提供一种电子设备,包括处理器410,存储器409,存储在存储器409上并可在所述处理器410上运行的计算机程序,该计算机程序被处理器410执行时实现上述异常短消息的检测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

实施例五

本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述异常短消息的检测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-OnlyMemory,简称ROM)、随机存取存储器(RandomAccess Memory,简称RAM)、磁碟或者光盘等。

本发明实施例提供一种计算机可读存储介质,通过获取待检测的目标短消息,获取目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的相似度,基于相似度,判断目标短消息是否为异常短消息。这样,可以通过目标短消息的内容对应的信息序列与异常短消息主题组的主题公共序列之间的相似度,对目标短消息是否为异常短消息进行判断,而不需要通过人工审核确定预设关键字的方式来对短消息的内容进行检测,减少了异常短消息检测的处理过程,降低人工成本的同时,提高异常短消息的检测效率以及检测准确性。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

23页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种锥体区块链移动终端认证方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!