面向广告投放的主从分布内容爬取机器人

文档序号:1846147 发布日期:2021-11-16 浏览:5次 >En<

阅读说明:本技术 面向广告投放的主从分布内容爬取机器人 (Master-slave distributed content crawling robot for advertisement delivery ) 是由 刘文平 于 2021-08-23 设计创作,主要内容包括:本发明根据面向广告投放实际抓取要求设计并实现了基于Redis的分布式内容爬取机器人,通过分布式网络部署方式进行抓取与存储,一是根据广告投放训练集与测试集分类采集的要求,提出多线程分布式网络内容爬取机器人,设计基于标签的多站点分类采集规则,基于多任务并发调度策略实现任务速率可控、均衡分配的调度核心、多线程池化并发抓取,实现自动化Web规则配置与系统状态监测;二是提出分布式内容爬取机器人部署方案,并进行集成测试与抓取结果评估。本发明设计的分布式架构可以大幅提高内容爬取机器人的效率,并对特定数据进行有效存储,能够满足广告投放的实际需求,具有重要的现实意义和巨大的运用价值。(The distributed content crawling robot based on Redis is designed and realized according to the actual grabbing requirement for advertisement putting, grabbing and storing are carried out in a distributed network deployment mode, firstly, according to the requirement of classified acquisition of an advertisement putting training set and a test set, a multi-thread distributed content crawling robot is provided, a multi-site classified acquisition rule based on a label is designed, a scheduling core with controllable task rate and balanced distribution and multi-thread pooling concurrent grabbing are realized based on a multi-task concurrent scheduling strategy, and automatic Web rule configuration and system state monitoring are realized; and secondly, a distributed content crawling robot deployment scheme is provided, and integrated test and grabbing result evaluation are performed. The distributed architecture designed by the invention can greatly improve the efficiency of the content crawling robot, effectively store specific data, meet the actual demand of advertisement putting, and has important practical significance and great application value.)

面向广告投放的主从分布内容爬取机器人

技术领域

本发明涉及一种主从分布内容爬取机器人,特别涉及一种面向广告投放的主从分布内容爬取机器人,属于内容爬取机器人技术领域。

背景技术

随着网络技术的跨越式发展,特别是移动互联网的到来极大丰富了网络数据与信息量,互联网的营销意义与广告价值日益显著。与通过传统媒体的投放方式相比,互联网广告具有独特的优势,首先其展示素材丰富,可以将声音图片文字等多维元素有机融合在一起,并且其价格远低于同等效果的传统媒体广告。其次,网络广告天生具有强交互性,在拉近广告主与用户间距离的同时还可以方便的统计出广告投放效果,另外广告内容针对性强,传播范围广且不受时空限制,具有独特的优势。

互联网广告的演化大致经历了三个阶段,目前以用户行为为主导的广告投放变得越来越重要,投放系统已经能够收集用户行为信息,通过特征分析等手段向用户推荐其最感兴趣的广告。但无论广告投放模式如何发展,都离不开一个高效的网络内容爬取系统对海量数据的收集索引更新等这些基础性工作,网络内容爬取作为搜索引擎的核心组件,自然也是广告投放系统中必不可少的组成部分,网络内容爬取系统的效率将直接关系到整个投放系统的性能。目前Google等大型机构已研发出一些网络内容爬取系统架构,但这些解决方案仅为用户提供了简单的不可定制的搜索接口。

现有技术开源世界中有大量的网络内容爬取项目存在,但很大一部分是集中式网络内容爬取系统,面对现如今爆炸性的海量数据采集,其信息采集效率与采集规模难以满足实际应用需要,另外集中式内容爬取系统的运行模式,容易受到内存、处理器等硬件与带宽方面的资源限制,一旦出现故障,整个系统将陷入瘫痪。而分布式网络内容爬取采用多机带来的硬件资源与网络资源相对集中式内容爬取系统有显著的速度与规模优势,可以轻松解决系统资源带来的瓶颈问题。但开源内容爬取程序多是通用性内容爬取系统,可定制性差,无法满足广告投放的实际需求,因此对面向广告投放的分布式内容爬取系统的研发具有重要的现实意义和巨大的运用价值。

Google-bot是谷歌公司提供搜索服务的基础性爬虫,采用之前抓取过的数据与网站主提交的站点地图来产生种子URL列表,从种子开始提取网页中链接到抓取队列,更新旧链接,去除死链接,加入新链接到Google索引器。但Google-bot也面临着巨大的挑战,同时抓取数千个网页,要与已存储的网页区分开的同时还要持续检测网页更新来自动判别更新间隔。更新策略对一个优秀的内容爬取机器人系统来说至关重要,重复抓取没有变化的网页将严重影响内容爬取机器人效率。

综上所述,现有技术的面向广告投放的内容爬取系统存在不足,本发明的难点和待解决的问题主要集中在以下方面:

第一,现有技术的网络内容爬取系统多是通用性内容爬取系统,针对广告投放的可定制性差,无法结合互联网广告投放系统针对性的处理网页信息,无法结合广告投放需求索引和管理网页信息,不具有广告内容爬取系统的速度与规模优势,无法满足广告投放的实际需求,同时仅为用户提供了简单的不可定制的搜索接口,缺乏可扩展性,无法面向广告投放使用;

第二,现有技术开源的网络内容爬取项目,很大一部分是集中式网络内容爬取系统,面对现如今爆炸性的海量数据采集,其信息采集效率与采集规模难以满足广告投放实际应用需要,另外集中式内容爬取系统的运行模式,容易受到内存、处理器等硬件与带宽方面的资源限制,一旦出现故障,整个系统将陷入瘫痪,无法解决系统资源带来的瓶颈问题,由于广告投放需同时抓取数千个网页,要与已存储的网页区分开的同时还要持续检测网页更新来自动判别更新间隔,现有技术缺少有效的更新策略,重复抓取没有变化的网页,严重影响内容爬取效率;

第三,现有技术缺少针对基于内容相关性的广告投放需求设计的分布式内容爬取系统,无法对要投放广告的页面进行分类采集后作为训练集,同时也无法提供对待投放广告的网页信息进行缓存的功能,缺少对广告投放系统页面的实时分析能力,缺少轻量级主从式分布式内容爬取架构,缺少多任务下的URL均衡调度策略、爬取器的并发抓取策略、已有网页信息的更新策略,无法将爬取的网页信息作分析处理并进行分布式存储,现有技术的内容爬取系统复杂难部署,难以为整个广告投放平台提供数据支持。

随着网络规模的不断延伸,移动网络的快速普及,新信息的不断出现,互联网上的信息量变得极其庞大并且更新频繁,因此,设计实现一个满足广告投放需求的内容爬取系统程序变得具有极大的挑战性,不仅新网页持续出现,已有的网页也频繁被更新,每周更新的网页数量占到全网的四成以上。分布式网络抓取是把分布式系统的设计思想与网络内容爬取相结合的创新产物,当多个网络抓取器分布在网络的不同地址段或者地理上的不同地域位置并协同工作时,就构成了一个分布式爬取器。通过任务单元调度分配给不同结点并行抓取,每个结点能够充分利用自身硬件与网络资源,完成爬行任务。

24页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:关于网站爬虫中点击类型超链接的自动化处理方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!