一种网页风险发现的方法

文档序号:1937642 发布日期:2021-12-07 浏览:21次 >En<

阅读说明:本技术 一种网页风险发现的方法 (Webpage risk discovery method ) 是由 吴琼 牛广方 余智华 于 2021-04-30 设计创作,主要内容包括:本发明公开了一种网页风险发现的方法,包括下列步骤:S1、数据采集阶段,使用高效蔓延的基本原理,获取到网站大量的网页;S2、数据流转阶段,使用Confluent接入Kafka中数据,调用风险识别服务后,将数据存储至Elasticsearch中,完成整个数据流转;S3、风险识别阶段,针对采集到的数据进行分词,与风险规则库中数据进校对,将符合风险规则数据保存;S4、数据存储阶段,针对采集的原始数据进行处理,然后对处理后的数据,根据数据类型、规模、用途按需存储;S5、风险发现整体流程完成。有益效果:在海量网页数据中能够快速的定位风险网站。(The invention discloses a method for discovering webpage risks, which comprises the following steps: s1, in the data acquisition stage, a large number of web pages of the website are acquired by using a basic principle of efficient spreading; s2, in a data circulation stage, using the Confluent to access the data in the Kafka, and after the risk identification service is called, storing the data in an elastic search to complete the whole data circulation; s3, in a risk identification stage, performing word segmentation on the acquired data, checking the data in a risk rule base, and storing the data meeting the risk rules; s4, a data storage stage, namely processing the acquired original data, and then storing the processed data according to the data type, scale and use as required; and S5, finishing the overall risk discovery process. Has the advantages that: the risk website can be quickly positioned in massive webpage data.)

一种网页风险发现的方法

技术领域

本发明涉及数据风险识别领域,具体来说,涉及一种网页风险发现的方法。

背景技术

在实际业务中,采集各通道数据临时存储至消息队列,数据流转平台会接收消息队列实时数据,调用风险识别服务,并将结果集合放入全文检索库。

通常情况下,信息是通过新闻、微信、微博等多种渠道发布的,那么如何快速、高效的过滤出风险信息,这是用户业务场景通常更关注的。

针对相关技术中的问题,目前尚未提出有效的解决方案。

发明内容

本发明的目的在于提供一种网页风险发现的方法,旨在快速准确的进行风险发现,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:

一种网页风险发现的方法,包括下列步骤:

S1、数据采集阶段,使用高效蔓延的基本原理,获取到网站大量的网页;

S2、数据流转阶段,使用Confluent接入Kafka中数据,调用风险识别服务后,将数据存储至Elasticsearch中,完成整个数据流转;

S3、风险识别阶段,针对采集到的数据进行分词,与风险规则库中数据进校对,将符合风险规则数据保存;

S4、数据存储阶段,针对采集的原始数据进行处理,然后对处理后的数据,根据数据类型、规模、用途按需存储;

S5、风险发现整体流程完成。

进一步的,所述步骤S1数据采集阶段,使用高效蔓延的基本原理,获取到网站大量的网页具体步骤包括:

S11、使用高效蔓延的基本原理,利用网页之间的相互链接关系,不断的蔓延获取本域名下所有网页。

S12、网页采集器首先从网站首页出发,采集下来首页下的所有该网页;

S13、通过对获取到的网页进行分析,找出这些网页中所包含的链接;

S14、进一步对这些链接使用redis进行查重后,做了新的种子URL,S15、重复步骤S11-S14,从而可以比较全面的获取到网站大量的网页。

进一步的,所述步骤S2数据流转阶段,使用Confluent接入Kafka中数据,调用风险识别服务后,将数据存储至Elasticsearch中,完成整个数据流转具体步骤包括:

S21、通过API,实现公共调用的接口提供给使用者;

S22、使用者只需要通过编辑配置文件,就能启动任务开始交换数据;

S23、使用Confluent接入Kafka中数据,调用风险识别服务后,将数据存储至Elasticsearch中,完成整个数据流转。

进一步的,所述步骤S4数据存储阶段,针对采集的原始数据进行处理,然后对处理后的数据,根据数据类型、规模、用途按需存储具体包括以下步骤:

S41、针对采集的原始数据,根据数据标准进行清洗和规范化;

S42、基于数据总线提供数据汇聚、缓存、转发功能的数据通道;

S43、实际需求实现多源异构数据的融合处理;

S44、然后对处理后的数据,根据数据类型、规模、用途按需存储。

与现有技术相比,本发明具有以下有益效果:本发明涉及方法通过网站、微信、微博等多通道同时采集信息,通过分词算法分析过滤风险信息,自动识别出网站是否违规,使其在海量网页数据中能够快速的定位风险网站。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种网页风险发现的方法中步骤S3的结构示意图;

图2是根据本发明实施例的一种网页风险发现的方法的流程图。

具体实施方式

在对本发明进一步描述之前,先简要对发明中提到的术语进行说明,如下:

通道

通过新闻、微博、微信、即时通信软件等传播网络舆情的渠道称为通道。

Redis

Redis即远程字典服务,是一个高性能的key-value存储系统,并且支持主从同步。用于数据惟一键值,避免采集重复数据。

Confulent

Confluent Platform是一个流数据平台,能够组织管理来自不同数据源的数据,拥有稳定高效的系统。

Kafka

Kafka是一种高吞吐量的分布式发布订阅消息系统,可实现高速的数据交换、缓冲及转换、迁移,具有高吞吐量、高稳定性等特点。

Postgres

PostgreSQL是一个功能强大的开源对象关系型数据库系统,他使用和扩展了SQL语言,并结合了许多安全存储和扩展最复杂数据工作负载的功能。用于使用全文检索功能。

ES

ES全称Elasticsearch,Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。用于分布式全文搜索,解决人们对于搜素的众多要求。本发明中用于存储风险详情数据,供业务人员使用。

下面,结合附图以及具体实施方式,对发明做出进一步的描述:

请参阅图1-2,根据本发明实施例的一种网页风险发现的方法,包括以下步骤:

S1、数据采集阶段,使用高效蔓延的基本原理,获取到网站大量的网页;

S2、数据流转阶段,使用Confluent接入Kafka中数据,调用风险识别服务后,将数据存储至Elasticsearch中,完成整个数据流转;

S3、风险识别阶段,针对采集到的数据进行分词,与风险规则库中数据进校对,将符合风险规则数据保存;

S4、数据存储阶段,针对采集的原始数据进行处理,然后对处理后的数据,根据数据类型、规模、用途按需存储;

S5、风险发现整体流程完成。

其中,所述步骤S1数据采集采集阶段具体包括:

S11、使用高效蔓延的基本原理:利用网页之间的相互链接关系,不断的蔓延获取本域名下所有网页;

S12、网页采集器首先从网站首页出发,采集下来首页下的所有该网页;

S13、通过对获取到的网页进行分析,找出这些网页中所包含的链接;

S14、进一步对这些链接使用redis进行查重后,做了新的种子URL;

S15、重复步骤S11-S14这个过程不断进行,可对网站进行深度层次设置,从而可以比较全面的获取到网站大量的网页。

所述步骤S2、数据流转阶段具体包括以下步骤:

S21、为了使存储系统之间交换数据能够高效、简单,则需要一款自动化的数据交换工具,即封装所有用到的存储系统的API,实现公共调用的接口提供给使用者;

S22、而使用者只需要通过编辑配置文件,就能启动任务开始交换数据;

S23、与此同时,因为不同的存储系统需要的数据结构存在异同,所以在数据交换的过程中,需要对数据进行处理,这个过程采用流处理的思想,即一条一条的处理。使用Confluent接入Kafka中数据,调用风险识别服务后,将数据存储至Elasticsearch中,完成整个数据流转。

所述步骤S4数据存储阶段具体包括以下步骤:

S41、针对采集的原始数据,根据数据标准进行清洗和规范化,为后续的数据分析提供基础数据支撑;

S42、主要基于数据总线提供数据汇聚、缓存、转发功能的数据通道;

S43、基于实际需求实现多源异构数据的融合处理;

S44、然后对处理后的数据,根据数据类型、规模、用途按需存储。

在实际应用时,本发明使用了如下的技术:

1)分词

本发明基于python-Jieba技术分词,包括:分词、自定义词典、去停用词。

分词

jieba.cut方法接受两个输入参数:

第一个参数为需要分词的字符串;

cut_all参数用来控制是否采用全模式。

jieba.cut_for_search方法接受一个参数:需要分词的字符串,该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细。

注意:待分词的字符串可以是gbk字符串、utf-8字符串或者unicode。

jieba.cut以及jieba.cut_for_search返回的结构都是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),也可以用list(jieba.cut(…))转化为list。

2)自定义词典

在进行中文分词过程中,通常会遇到一些专用词语无法精准的切分,比如“云计算”会被分割为“云”、“计算”,因此它为开发者提供了添加自定义词典功能,从而保证更好的分词正确率。其函数原型如下:

load_userdict(f)

该函数只有一个参数,表示载入的自定义词典路径,f为文件类对象或自定义词典路径下的文件。词典的格式为:一个词占一行,每行分为三部分。

去停用词

停用词过滤主要是自己构造停用词表文本文件,并将文本中的内容读入list,对分词后的结果逐个检查是否在停用词列表中,如果在就过滤掉,最后得到过滤后的结果。

基础部分:移除一句话中的停用词并输出结果;

对csv文件中的文本进行分词并移除txt文档中规定的停用词,最后写入csv文件中。

TF-IDF词典

TF-IDF(Term Frequency–Inverse Document Frequency),即“词频-逆文本频率”,是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。它由两部分组成,TF和IDF。

词频(Term Frequency,TF)

指的是某一个给定的词语在该文件中出现的频率。计算公式如下:

逆向文件频率(Inverse Document Frequency,IDF)

是一个词语普遍重要性的度量。计算公式如下:

注意:分母之所以要加1是为了避免分母为0

3)关键词抽取

TF-IDF作为提取关键词的重要手段,TF-IDF对文本所有候选关键词进行加权处理,根据权值对关键词进行排序。假设Dn为测试语料的大小,该算法的关键词抽取步骤如下所示:

对于给定的文本D进行分词、词性标注和去除停用词等数据预处理操作。本分采用Jieba分词,保留'n','nz','v','vd','vn','l','a','d'这几个词性的词语,最终得到n个候选关键词,即D=[t1,t2,…,tn];

计算词语ti在文本D中的词频;

计算词语ti在整个语料的IDF

Dt为语料库中词语ti出现的文档个数。

计算得到词语ti的TF-IDF=TF*IDF,并重复(2)—(4)得到所有候选关键词的TF-IDF数值;

对候选关键词计算结果进行倒序排列,得到排名前TopN个词汇作为文本关键词。

4)词向量

基于TI-DIF词典和腾讯开源词向量,来得到自己的词向量集合。

综上所述,本发明公开了一种网页风险发现的方法,所述方法通过网站、微信、微博等多通道同时采集信息,通过分词算法分析过滤风险信息,自动识别出网站是否违规。使其在海量网页数据中能够快速的定位风险网站。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

8页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种度量文章传播影响力的方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!