基于大数据的网络数据抓取方法

文档序号:1324304 发布日期:2020-07-14 浏览:1次 >En<

阅读说明:本技术 基于大数据的网络数据抓取方法 (Network data capturing method based on big data ) 是由 张俊杰 耿雁萍 于 2020-03-17 设计创作,主要内容包括:本发明提供了一种基于大数据的网络数据抓取方法,包括将监听终端配置为代理服务器;目标APP通过所述代理服务器向目标服务器发送通信数据;所述代理服务器模拟所述目标APP向所述目标服务器发送通信数据;所述代理服务器根据大数据分析获得目标字段;配置抓取规则,所述代理服务器根据所述目标字段抓取所述目标服务器发送的数据。本发明通过将监听终端配置为代理服务器,代理服务器模拟所述目标APP向所述目标服务器发送通信数据,在通过大数据分析或者目标字段之后,配置抓取规则,所述代理服务器根据所述目标字段抓取所述目标服务器发送的数据。从而能够自动抓取网络新闻热点,无需人工进行配置,高效化、智能化。(The invention provides a network data capturing method based on big data, which comprises the steps that a monitoring terminal is configured to be a proxy server; the target APP sends communication data to a target server through the proxy server; the proxy server simulates the target APP to send communication data to the target server; the proxy server obtains a target field according to big data analysis; and configuring a capturing rule, and capturing data sent by the target server by the proxy server according to the target field. The monitoring terminal is configured as a proxy server, the proxy server simulates the target APP to send communication data to the target server, a capture rule is configured after big data analysis or a target field is passed, and the proxy server captures the data sent by the target server according to the target field. Therefore, network news hotspots can be automatically captured, manual configuration is not needed, and high efficiency and intellectualization are achieved.)

基于大数据的网络数据抓取方法

技术领域

本发明涉及数据抓取技术领域,具体的说是一种基于大数据的网络数据抓取方法。

背景技术

目前,随着移动互联网的迅速发展,移动终端APP(Application,应用程序)成为了人们上网的主战场,因此针对移动终端APP的数据的抓取需求更大,例如新浪APP、腾讯新闻APP、百度APP、今日头条APP等新闻类的APP里面的数据抓取。

目前,针对数据抓取的框架主要有WebCollector、Nutch、PySpider、WebMagic等。现有的抓取方法是直接由网页的URL作为入口地址。

但是,发明人发现,移动终端APP与服务器进行通信时,由于请求通信数据包中通常会包含很多参数签名,如果无法获知这些参数的签名算法,爬虫常常因为无法获知这些参数的签名算法,而导致无法模拟移动终端APP与服务器进行通信的请求,也就无法抓取到移动APP中的数据内容。另外,目前的移动终端APP常常会根据当前的新闻热点向用户进行推送,而目前缺乏针对新闻热点进行自动抓取的方法,常常需要人工配置抓取规则,显得不够智能。

发明内容

根据以上现有技术的不足,本发明提出了基于大数据的网络数据抓取方法,致力于解决前述背景技术中的技术问题之一。

本发明解决其技术问题采用以下技术方案来实现:

基于大数据的网络数据抓取方法,包括

将监听终端配置为代理服务器;

目标APP通过所述代理服务器向目标服务器发送通信数据;

所述代理服务器模拟所述目标APP向所述目标服务器发送通信数据;

所述代理服务器根据大数据分析获得目标字段;

配置抓取规则,所述代理服务器根据所述目标字段抓取所述目标服务器发送的数据。

作为一种可选的实施方式,所述代理服务器模拟所述目标APP向所述目标服务器发送通信数据,包括

所述代理服务器重复N次抓取所述目标APP向所述目标服务器发送的通信数据,其中,N为大于等于2的正整数;

对每次抓取的所述通信数据进行比对,获得所述通信数据中的恒定参数和变量参数;

反编译工具对所述目标APP进行反编译,获得所述目标APP的源码;

以变量参数为作为关键词,在所述源码中查找包含所述关键词的函数,将所述函数定义为候选函数;

反编译工具对所述源码进行动态调试,当某一候选函数的输出等于所述变量参数的值,则该候选函数为目标函数;

根据所述目标函数的明文和加密方式,获得变量参数的构造方法;

根据所述恒定参数和所述变量参数的构造方法,所述代理服务器模拟所述目标APP向所述目标服务器发送通信数据。

作为一种可选的实施方式,所述反编译工具为Android代码编译器。

作为一种可选的实施方式,所述代理服务器根据大数据分析获得目标字段,包括

所述代理服务器根据大数据分析获得热搜数据;

所述代理服务器抓取预设时间段内所述目标服务器主动推送的热搜数据;

所述代理服务器根据所述热搜数据获得所述目标字段。

作为一种可选的实施方式,所述配置抓取规则包括配置抓取优先级、配置抓取效率及配置抓取字段。

作为一种可选的实施方式,所述代理服务器根据所述目标字段抓取所述目标服务器发送的数据,包括

预设时间内,所述代理服务器重复M次抓取所述目标服务器发送的数据,其中,M为大于等于2的正整数;

针对每次抓取的数据,将该数据与所述目标字段比对,若该数据包含有所述目标字段,则再将该数据与数据库内已存储的数据进行比对,若该数据与所述数据库中已存储的数据不重合,则将该数据存储于所述数据库内。

作为一种可选的实施方式,所述监听终端包括Scrapy框架。

本发明的有益效果是:

本发明通过将监听终端配置为代理服务器,代理服务器模拟所述目标APP向所述目标服务器发送通信数据,在通过大数据分析或者目标字段之后,配置抓取规则,所述代理服务器根据所述目标字段抓取所述目标服务器发送的数据。从而能够自动抓取网络新闻热点,无需人工进行配置,高效化、智能化。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1为本

具体实施方式

的逻辑示意图;

图2为本具体实施方式的所述代理服务器模拟所述目标APP向所述目标服务器发送通信数据的逻辑示意图。

具体实施方式

下面通过对实施例的描述,本发明的具体实施方式如所涉及的各构件的形状、构造、各部分之间的相互位置及连接关系、各部分的作用及工作原理、制造工艺及操作使用方法等,作进一步详细的说明,以帮助本领域技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。

为了实现上述发明目的,如图1所示,本发明提供了一种基于大数据的网络数据抓取方法,包括

S10、将监听终端配置为代理服务器;

S20、目标APP通过所述代理服务器向目标服务器发送通信数据;

S30、所述代理服务器模拟所述目标APP向所述目标服务器发送通信数据;

S40、所述代理服务器根据大数据分析获得目标字段;

S50、配置抓取规则,所述代理服务器根据所述目标字段抓取所述目标服务器发送的数据。

本发明通过将监听终端配置为代理服务器,代理服务器模拟所述目标APP向所述目标服务器发送通信数据,在通过大数据分析或者目标字段之后,配置抓取规则,所述代理服务器根据所述目标字段抓取所述目标服务器发送的数据。从而能够自动抓取网络新闻热点,无需人工进行配置,高效化、智能化。

作为一种可选的实施方式,如图2所示,所述代理服务器模拟所述目标APP向所述目标服务器发送通信数据,包括

S31、所述代理服务器重复N次抓取所述目标APP向所述目标服务器发送的通信数据,其中,N为大于等于2的正整数;

S32、对每次抓取的所述通信数据进行比对,获得所述通信数据中的恒定参数和变量参数;

S33、反编译工具对所述目标APP进行反编译,获得所述目标APP的源码;

S34、以变量参数为作为关键词,在所述源码中查找包含所述关键词的函数,将所述函数定义为候选函数;

S35、反编译工具对所述源码进行动态调试,当某一候选函数的输出等于所述变量参数的值,则该候选函数为目标函数;

S36、根据所述目标函数的明文和加密方式,获得变量参数的构造方法;

S37、根据所述恒定参数和所述变量参数的构造方法,所述代理服务器模拟所述目标APP向所述目标服务器发送通信数据。

如此,通过抓取并分析通信数据,找出请求数据包中的恒定参数和变量参数,然后通过反编译等方式针对变量参数进行破译,破解移动终端的应用程序和服务器的通信协议,获取变量参数的构造方法,根据所述恒定参数和所述变量参数的构造方法,所述代理服务器模拟所述目标APP向所述目标服务器发送通信数据,进而实现对移动终端APP的数据的抓取。

可选的,所述反编译工具为Android代码编译器。

作为一种可选的实施方式,所述代理服务器根据大数据分析获得目标字段,包括

所述代理服务器根据大数据分析获得热搜数据;

所述代理服务器抓取预设时间段内所述目标服务器主动推送的热搜数据;

所述代理服务器根据所述热搜数据获得所述目标字段。

如此,能够自动获取网络上的热搜新闻。

作为一种可选的实施方式,所述配置抓取规则包括配置抓取优先级、配置抓取效率及配置抓取字段。

作为一种可选的实施方式,所述代理服务器根据所述目标字段抓取所述目标服务器发送的数据,包括

预设时间内,所述代理服务器重复M次抓取所述目标服务器发送的数据,其中,M为大于等于2的正整数;

针对每次抓取的数据,将该数据与所述目标字段比对,若该数据包含有所述目标字段,则再将该数据与数据库内已存储的数据进行比对,若该数据与所述数据库中已存储的数据不重合,则将该数据存储于所述数据库内。

可选的,所述监听终端包括Scrapy框架。

上面对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围之内。本发明的保护范围应该以权利要求书所限定的保护范围为准。

8页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:小程序的数据获取方法、装置、计算机设备和存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!