垃圾电话数据处理方法及系统

文档序号:1878433 发布日期:2021-11-23 浏览:29次 >En<

阅读说明:本技术 垃圾电话数据处理方法及系统 (Junk phone data processing method and system ) 是由 陈帅 于 2021-08-20 设计创作,主要内容包括:本发明公开了一种垃圾电话数据处理方法及系统,包括号码风险等级以及风险类型标签的定义;用户根据风险类型标签对可疑号码进行标记;系统以原始的记录形式,快速存储用户标记的号码信息并进行预处理,然后将处理后的数据存入数据库软件中;根据风险等级定义,计算每个号码的风险权重后保存或者更新数据库软件中的号码风险权重信息;在线查询电话号码的风险等级,并且生成加密的高风险号码离线数据库,便于用户对电话号码的风险等级进行离线查询。本发明提供的垃圾电话数据处理方法及系统直接对接用户并进行数据处理,每天系统会根据用户上报的数据实时更新,每日更新使单次数据量减少,从而提高更新的效率。(The invention discloses a junk phone data processing method and a system, comprising the definition of number risk level and risk type label; the user marks the suspicious number according to the risk type label; the system rapidly stores the number information marked by the user in an original recording form, preprocesses the number information, and then stores the processed data into database software; according to the risk grade definition, calculating the risk weight of each number, and then storing or updating number risk weight information in database software; and inquiring the risk level of the telephone number online, and generating an encrypted high-risk number offline database, so that a user can conveniently perform offline inquiry on the risk level of the telephone number. The junk call data processing method and the junk call data processing system provided by the invention can directly butt joint the user and process data, the system can update in real time every day according to the data reported by the user, and the daily update reduces the single data volume, thereby improving the updating efficiency.)

垃圾电话数据处理方法及系统

技术领域

本发明涉及数据处理技术领域,具体涉及一种垃圾电话数据处理方法及系统。

背景技术

垃圾电话是指向用户拨打的用户不愿意接听或者拒绝接听的推销、诈骗或者其它类型的电话,垃圾电话的泛滥,已经严重影响到人们正常生活、运营商形象乃至社会稳定。

虽然现在有很多垃圾电话的处理方法和系统,但是现有垃圾电话数据收集主要是定期批量更新旧的数据集,在效率和时效性上都有所欠缺,而且批量更新会导致整个系统运行效率慢,定期处理导致信息更新不及时和垃圾电话数据过时,人们在日常生活中依旧会不断遭受到新的垃圾电话的骚扰。

发明内容

为此,本发明实施例提供一种垃圾电话数据处理方法及系统,以解决现有技术存在的垃圾电话数据定期批量更新,导致运行效率慢,垃圾电话数据过时的问题。

为了实现上述目的,本发明实施例提供如下技术方案:

第一方面,一种垃圾电话数据处理方法,包括:

获取并解析用户标记的号码信息;所述用户标记的号码信息包括号码、风险标签代码和时间戳;

将解析后的所述用户标记的号码信息存入数据库软件中;

对于每一个所述用户标记的号码信息,根据其中的风险标签代码和预先设定的风险等级定义,计算号码的风险权重值;

若所述号码为首次标记,则在数据库软件中记录该号码的风险权重值;

若所述号码为在数据库软件中已有记录,则在数据库软件中更新该号码的风险权重值;

根据最新的所述风险权重值,在线查询号码的风险等级,并生成加密的高风险号码离线数据库,用于用户对电话号码的风险等级进行离线查询。

进一步的,对于用户的标记请求,采用异步处理的存储方式,通过网站服务器软件Nginx的日志记录系统,自动保存为日志文件,并被上传至云端平台;所述用户标记的号码信息是来自所述云端平台存储的日志文件;

所述用户标记的号码信息,在自动保存为日志文件之前,还使用AES加密算法作了加密处理。

进一步的,在计算号码的风险权重时,使用多进程分页查询数据库表,根据各个标签的评分值,进行累加计算号码的风险权重,最后将号码解析成国家区号和号码的格式,与号码对应的风险权重值一起存入到所述数据存储模块中。

进一步的,所述累加计算方法是将号码存到一个以号码-权重值为键值对的集合中,最后将所述集合中的号码解析成国家区号和号码的格式。

进一步的,解析用户标记的号码信息时通过正则表达式匹配,按行过滤日志文件中的关键信息,最后处理生成JSON格式的文件。

进一步的,还包括:离线数据库模块按国家分类,将高风险的号码导入到加密的数据库文件中,并与之前保存的离线数据库文件进行对比,生成差分文件。

进一步的,所述风险标签包括:推销、诈骗、生活服务、其他、正常号码和响铃一声6种类型。

进一步的,所述风险等级包括:高风险、中风险和安全3个等级。

进一步的,更新号码的风险权重值时是根据标签的评分值对该电话号码的风险权重进行累加或者累减。

第二方面,一种垃圾电话数据处理系统,包括:

网络传输模块,用于将用户标记的可疑号码信息加密上传到日志记录模块;

日志记录模块,用于保存可疑号码信息

云平台上传模块,用于每天定时将保存有可疑号码信息的日志文件压缩后上传到云端平台;

云平台下载模块,用于每天定时从云端平台将压缩的日志文件下载下来后进行解压;

日志预处理模块,用于将解压后的日志文件进行处理生成JSON格式的文件;

权重计算模块,用于根据标签模块中的评分规则,计算号码的风险权重;

标签模块,用于存储风险类型标签和风险等级;

数据存储模块,用于存储号码和与号码对应的风险权重值;

离线数据库模块,用于按国家分类,将高风险的号码导入到加密的数据库文件中,并与之前保存的离线数据库文件进行对比,生成差分文件;

接口模块,用于用户对风险号码的查询;

容灾模块,用于中断后恢复遗漏数据。

本发明至少具有以下有益效果:本发明提供一种垃圾电话数据处理方法及系统,用户根据风险类型标签对可疑号码进行标记;日志记录模块以原始的记录形式,快速存储用户标记的号码信息;云平台下载模块获取用户标记的号码数据,并通过日志预处理模块将号码信息从日志文件处理成便于解析的JSON 文件,然后将解析后的数据存入数据存储模块中;根据风险等级定义,计算每个号码的风险权重,然后保存或者更新数据存储模块中的号码风险权重信息;在线查询电话号码的风险等级,并且生成加密的高风险号码离线数据库,便于用户对电话号码的风险等级进行离线查询。本发明提供的垃圾电话数据处理方法及系统可自我修正,采用每日更新、直接对接用户的方式进行数据处理,每天系统会根据用户上报的数据实时更新,由于每日更新使的单次更新数据量减少,从而提高更新的效率;直接对接用户,使的数据更新更及时。

附图说明

为了更清楚地说明现有技术以及本发明,下面将对现有技术以及本发明实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的附图。

本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本发明提供的一种流程图;

图2为本发明提供的另一种流程图;

图3为本发明提供的系统结构图。

附图标记说明:

1-网络传输模块;2-日志模块;21-日志来记录模块;22-云平台上传模块; 3-容灾模块;4-云平台下载模块;5-日志预处理模块;6-权重计算模块; 7-标签模块;8-数据存储模块;81-离线数据库模块;9-接口模块。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)旨在区别指代的对象。对于具有时序流程的方案,这种术语表述方式不必理解为描述特定的顺序或先后次序,对于装置结构的方案,这种术语表述方式也不存在对重要程度、位置关系的区分等。

此外,术语“包括”、“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包括了一系列步骤或单元的过程、方法、系统、产品或设备不必限于已明确列出的那些步骤或单元,而是还可包含虽然并未明确列出的但对于这些过程、方法、产品或设备固有的其它步骤或单元,或者基于本发明构思进一步的优化方案所增加的步骤或单元。

请参阅图1至图2,图1是以垃圾电话数据处理系统为执行主体来说明本发明,图2是以客户端、第三方、垃圾电话数据处理系统分别为主体来说明本发明。

一种垃圾电话数据处理方法:

用户根据风险类型标签对可疑号码进行标记;

风险类型标签和风险等级位于系统的标签模块,是系统的核心模块,决定了垃圾电话号码的评判标准,具体划分如下:

风险类型标签共定义6种类型:推销(Telemarketer)、机器人Robocall(Robocall)、诈骗(Scam)、生活服务(Life service)、其他(Other)和正常号码(Normalcall),和1种自动记录的风险类型:响铃一声One Ring(One Ring)。各个类型的评分标准如下:

表1:风险类型评分标准

Telemarketer Robocall Scam Life service Other Normal call One Ring
20 30 40 -5 0 -10 15

风险级别划分为3个等级:高风险(High Risk)、中风险(Medium Risk) 和安全(Low Risk)。各个风险等级的权重值划分如下:

表2:风险等级权重值

High Risk Medium Risk Low Risk
[60,+∞) [30,60) (-∞,30)

当用户对一个电话号码标记了风险类型标签,系统的权重计算模块会根据标签的评分值对该电话号码的风险权重进行累加或者累减;如果一个号码被误标记了,用户可以重新对该号码标记风险标签,这样权重计算模块就可以对数据存储模块中的风险号码数据进行自我修正。

用户客户端通过网络传输模块将标记的可疑号码信息加密上传到日志记录模块进行保存;

当用户标记一个号码时,系统通过网络传输模块将号码、风险标签代码、时间戳等信息发送到日志模块,网络传输模块会将传输的信息通过AES(高级加密标准,AdvancedEncryption Standard)加密算法加密,以保证数据的安全性。

云平台上传模块每天定时将保存有可疑号码信息的日志文件压缩后上传到云端平台;

具体的,为了更快的处理用户的网络请求,系统采用的是异步处理的存储方式,即先记录后处理的方法。用户标记的号码信息上传到系统的日志记录模块,日志记录模块通过网站(Web)服务器软件Nginx的日志记录系统,自动请求将信息保存到日志文件中,系统服务器端无需做任何处理。云平台上传模块每天定时将这些日志文件压缩后上传到云端平台。

云平台下载模块每天定时从云端平台将压缩的日志文件下载下来后进行解压;

日志预处理模块将解压后的日志文件进行处理生成JSON格式的文件;

解压后得到的日志文件记录形式不便于后续处理,系统的日志预处理模块会在这里通过正则表达式匹配,按行过滤日志文件中的关键信息,转换成JSON 格式的文件。然后系统会保留一份日志和JSON文件的副本,供后续核对校验等使用。

权重计算模块根据标签模块中的评分规则,计算号码的风险权重;

将风险权重值存储到数据存储模块。

得到日志预处理模块处理后的数据后,系统的权重计算模块会根据标签模块中的评分规则,计算号码的风险权重。为了提高系统的处理速度,这里会开启多进程分页查询数据库表。然后根据各个标签的评分值,进行累加计算号码的风险权重,累加方法是将号码存到一个以号码-权重值为键值对的集合中。最后将集合中的号码解析成国家区号和号码的格式,与号码对应的风险权重值一起存入到数据存储模块中。

多进程分页查询数据库表如下:

表3:raw_log原始数据表

表4:phone_weight号码权重表

字段 类型 说明
id int 自增id
raw_phone varchar 原始电话号码
cc varchar 国际号码区号
phone varchar 去掉国际代码的号码
tag_w int 自己定义的tag累加权重
risk_w int 第三方风险等级权重,只加一次
first_level1_tag_code varchar 标记最多的一级tagcode
first_level1_tag varchar 标记最多的一级tag
first_level1_tag_count int 标记最多的一级tag数量
second_level1_tag_code varchar 标记第二多的一级tagcode
second_level1_tag varchar 标记第二多的一级tag
second_level1_tag_count int 标记第二多的一级tag数量
reverse_phone varchar 原始号码的反转字符串
length_phone int 原始号码的字符串长度

表5:phone_level1_tag_count号码一级tag个数表

表6:hit_rate每天号码命中率表

字段 类型 说明
id int 自增id
log_date varchar 电话号码
all_count int 当天记录总数
hit_count int 在当前数据库中的命中次数
rate float 当天命中率

表7:run_status记录运行状态表

字段 类型 说明
run_date varchar 执行的日期(主键)
status_code int 执行的步骤代码
type_code int 执行步骤里的第几小步(db2weight)
run_index int 执行到第几个

为了支持用户进行离线查询号码的风险信息,系统的离线数据库模块还会按国家分类,将高风险的号码导入的加密的数据库文件中,并与之前生成的离线数据库文件进行对比,生成差分文件,让用户可以进行增量更新,减少下载时的文件大小。

本发明还能获取号码在系统中的风险等级:系统的应用程序接口(API)接口模块提供了用户对风险号码的查询功能。首先会判断传入的号码是否带有+ 号,如果带有+号,将号码解析成国家区号和号码,然后根据区号和号码查询数据库中的号码权重表;如果不带+号,则判断是否传入了国家代码,再将国家代码转化为国家区号,去查询数据库号码权重表;如果既不带+号,又不带国家代码,就根据请求的网络协议(IP)地址获取国家代码,去查询数据库。最后如果IP地址也没有,则将号码倒转,在数据库中进行模糊匹配查询,这样可以提高查询的速度。

本发明的系统还具有容灾性:系统拥有支持中断后恢复遗漏的数据的功能。系统的容灾模块会在运行时先获取上次成功的日期,然后和当前要执行的日期比较,如果差值大于1,就会从上次成功的下一天开始执行。并且在执行的过程中会记录每一步骤的进度,用于恢复操作。

请参阅图3,一种垃圾电话数据处理系统,包括:

网络传输模块1,用于将用户标记的可疑号码信息加密上传到日志记录模块21;

日志记录模块21,用于保存可疑号码信息

云平台上传模块22,用于每天定时将保存有可疑号码信息的日志文件压缩后上传到云端平台;

云平台下载模块4,用于每天定时从云端平台将压缩的日志文件下载下来后进行解压;

日志预处理模块5,用于将解压后的日志文件进行处理生成JSON格式的文件;

权重计算模块6,用于根据标签模块7中的评分规则,计算号码的风险权重;

标签模块7,用于存储风险类型标签和风险等级;

数据存储模块8,用于存储号码和与号码对应的风险权重值;

离线数据库模块81,用于按国家分类,将高风险的号码导入到加密的数据库文件中,并与之前保存的离线数据库文件进行对比,生成差分文件;

接口模块9,用于用户对风险号码的查询;

容灾模块3,用于中断后恢复遗漏数据。

以上实施例的各技术特征可以进行任意的组合(只要这些技术特征的组合不存在矛盾),为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述;这些未明确写出的实施例,也都应当认为是本说明书记载的范围。

上文中通过一般性说明及具体实施例对本发明作了较为具体和详细的描述。应当指出的是,在不脱离本发明构思的前提下,显然还可以对这些具体实施例作出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种技能组转接系统及其工作方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类