一种基于大数据的信息采集平台及其系统

文档序号:421474 发布日期:2021-12-21 浏览:10次 >En<

阅读说明:本技术 一种基于大数据的信息采集平台及其系统 (Big data-based information acquisition platform and system thereof ) 是由 陈锦回 于 2021-09-06 设计创作,主要内容包括:本发明涉及信息采集技术领域,且公开了一种基于大数据的信息采集平台及其系统;本基于大数据的信息采集平台包括配置中心、计算中心、存储中心、分析中心、展现中心和监控中心,本发明通过设置数据整合系统对数据源的数据进行整合,且通过数据分类系统对数据进行分类,并根据分类结果提取不同分类数据集的关键词特征,再根据需要提取的数据特征对照不同数据集中的关键词特征进行对照爬取采集,可进行多类型数据的采集,且对不同类型的数据进行分开采集,使得采集过程更简单,采集时间更短,且可避免因数据采集过多造成的采集延迟或瘫痪的状况的出现,为用户带来更加良好的使用感受。(The invention relates to the technical field of information acquisition, and discloses an information acquisition platform based on big data and a system thereof; the information acquisition platform based on the big data comprises a configuration center, a calculation center, a storage center, an analysis center, a display center and a monitoring center, the data integration system is arranged to integrate the data of the data source, the data classification system classifies the data, the keyword features of different classification data sets are extracted according to the classification result, the keyword features in different data sets are contrasted according to the data features extracted according to the requirements for crawling acquisition, the acquisition of various types of data can be carried out, the data of different types are separately acquired, the acquisition process is simpler, the acquisition time is shorter, the occurrence of the conditions of delayed acquisition or paralysis caused by excessive data acquisition can be avoided, and better use feeling is brought to users.)

一种基于大数据的信息采集平台及其系统

技术领域

本发明属于信息采集技术领域,具体为一种基于大数据的信息采集平台及其系统。

背景技术

大数据,IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,大数据有大量、高速、多样、低价值密度、真实性五大特点,它并没有统计学的抽样方法,只是观察和追踪发生的事情。大数据的用法倾向于预测分析、用户行为分析或某些其他高级数据分析方法的使用。

随着信息时代的发展,大数据类型也变得越来越复杂多样,但现有的大数据的信息采集中采集的数据类型比较单一,且采集过程较为复杂,采集时长较长,在数据较多时,还可能出现采集延迟或采集瘫痪的情况,为用户带来较为不好的使用体验;因此,针对目前的状况,现需对其进行改进。

发明内容

针对上述情况,为克服现有技术的缺陷,本发明提供一种基于大数据的信息采集平台及其系统,有效的解决了随着信息时代的发展,大数据类型也变得越来越复杂多样,但现有的大数据的信息采集中采集的数据类型比较单一,且采集过程较为复杂,采集时长较长,在数据较多时,还可能出现采集延迟或采集瘫痪的情况,为用户带来较为不好的使用体验的问题。

为实现上述目的,本发明提供如下技术方案:一种基于大数据的信息采集平台,所述大数据信息采集平台包括配置中心、计算中心、存储中心、分析中心、展现中心和监控中心;

配置中心;所述配置中心用于用户对需要采集的数据信息的属性、特征以及存储信息进行配置;

计算中心;所述计算中心用于对平台采集到的数据源信息进行整合以及分类;

存储中心;所述存储中心用于对平台采集到的数据源信息进行整合以及分类存储;

分析中心;所述分析中心用于对平台采集到的数据源信息进行分析以及采集;

展现中心;所述展现中心用于对平台所采集到的数据信息进行整合以及搜索展示;

监控中心;所述监控中心用于对上述计算中心、存储中心和分析中心的所有工作流程进行实时监控。

优选的,一种基于大数据的信息采集平台的系统,包括中心数据处理系统,所述中心数据处理系统用于对整个信息采集平台的所有数据进行传输与存储;

链接系统;所述链接系统用于将信息采集平台和大数据平台建立链接,所述链接采用加密算法进行加密;

数据整合系统;所述数据整合系统用于对大数据平台的数据源信息进行整合,所述数据整合系统通过ETL数据抽取、实时数据采集、文件数据采集、数据库实时复制的方式从大数据平台抽取和采集结构化的源数据、半结构化的源数据以及非结构化的源数据到信息采集平台,并按照时间顺序将上述源数据进行整合排序;

数据分类系统;所述数据分类系统用于对上述数据整合系统中采集的结构化的源数据、半结构化的源数据以及非结构化的源数据进行分类,所述分类标准为ETL数据数据集、实时数据集、文件数据集以及数据库集;

数据分析系统;所述数据分析系统用于对经过上述数据分类系统分类的ETL数据数据集、实时数据集、文件数据集以及数据库集进行关键词特征分析、提取以及整合,所述数据分析系统具体为基于Hadoop技术的多样化数据整合中心;

数据采集系统;所述数据采集系统用于根据用户配置的需要采集的数据信息的属性和特征,对上述经过关键词特征分析、提取以及整合后的ETL数据数据集、实时数据集、文件数据集以及数据库集进行一对一或一对多的数据采集;

数据存储系统;所述数据存储系统用于对上述数据采集系统采集到的数据进行分类存储,所述数据存储系统在进行分类存储后自动生成存储日志信息,且所述数据存储系统包括临时Redis数据库;

采集监控系统;所述采集监控系统用于对上述数据采集系统的工作流的运行状态以及工作流的实时采集速率进行监控,所述采集监控系统具体为基于flume程序的量化监控中心,所述采集监控系统包括MongoDB状态信息存储模块;

数据反馈系统;所述数据反馈系统用于在上述系统工作完成后进行反馈日志的生成。

优选的,所述信息采集平台的系统框架采用springmvc,且采用jpa作为持久层框架。

优选的,所述加密算法具体为基于非对称加密技术、DLP终端加密技术、CASB代理网关技术以及数据库加密网关技术的集成式数据加密技术。

优选的,所述数据采集系统包括多个数据流采集模块,所述数据采集系统具体为基于SDK采集技术以及API采集技术的数据获取中心。

优选的,所述数据存储系统的分类存储位置具体为:所述结构化数据存储至分布式文件系统HDFS中,所述半结构化数据存储至列式数据库或键式数据库,所述非结构化数据存储至行式数据库。

优选的,所述MongoDB状态信息存储模块用于存储日志信息以及监控存储的数据。

优选的,一种基于大数据的信息采集平台系统的使用方法,包括以下步骤:

S1:数据配置:用户通过配置中心对采集的数据信息的属性、特征以及存储信息进行配置;

S2:数据分析:在将信息采集平台和大数据平台建立链接后,通过ETL数据抽取、实时数据采集、文件数据采集、数据库实时复制的方式从大数据平台抽取和采集结构化的源数据、半结构化的源数据以及非结构化的源数据到信息采集平台,再根据上述步骤S1中用户配置的需要采集的数据信息的属性和特征,对源数据的数据进行关键词特征分析、提取以及整合;

S3:数据采集:在上述步骤S2的基础上,对ETL数据数据集、实时数据集、文件数据集以及数据库集进行采集的数据信息的属性、特征匹配对照,并根据对照结果采集相匹配的数据,在数据采集过程中,通过采集监控系统对工作流的运行状态以及工作流的实时采集速率进行监控;

S4:数据存储:在步骤S3的基础上,对采集到的数据进行分类存储,并在分类存储后自动生成存储日志信息,完成数据的采集。

与现有技术相比,本发明的有益效果是:1、本发明,通过设置数据整合系统对数据源的数据进行整合,且通过数据分类系统对数据进行分类,并根据分类结果提取不同分类数据集的关键词特征,再根据需要提取的数据特征对照不同数据集中的关键词特征进行对照爬取采集,可进行多类型数据的采集,且对不同类型的数据进行分开采集,使得采集过程更简单,采集时间更短,且可避免因数据采集过多造成的采集延迟或瘫痪的状况的出现,为用户带来更加良好的使用感受;

2、本发明,对数据采集过程进行工作流的运行状态以及工作流的实时采集速率进行监控,可为用户提供较为详细的采集状态信息,为后期数据复查过程带来了提供了数据支持;

3、本发明,通过不同中心对数据采集过程中不同步骤进行管理,使得用户可根据需要查看数据采集过程中不同步骤的工作流,从而使得工作流程透明化,便于用户提取对应步骤的信息,便于操作管理,易于使用。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。

在附图中:

图1为本发明平台框图;

图2为本发明系统框图;

图3为本发明流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明提供一种技术方案:一种基于大数据的信息采集平台,大数据信息采集平台包括配置中心、计算中心、存储中心、分析中心、展现中心和监控中心;

配置中心;配置中心用于用户对需要采集的数据信息的属性、特征以及存储信息进行配置;

计算中心;计算中心用于对平台采集到的数据源信息进行整合以及分类;

存储中心;存储中心用于对平台采集到的数据源信息进行整合以及分类存储;

分析中心;分析中心用于对平台采集到的数据源信息进行分析以及采集;

展现中心;展现中心用于对平台所采集到的数据信息进行整合以及搜索展示;

监控中心;监控中心用于对上述计算中心、存储中心和分析中心的所有工作流程进行实时监控。

通过不同中心对数据采集过程中不同步骤进行管理,使得用户可根据需要查看数据采集过程中不同步骤的工作流,从而使得工作流程透明化,便于用户提取对应步骤的信息,便于操作管理,易于使用。

如图2所示,本发明提供一种技术方案:一种基于大数据的信息采集平台的系统,包括中心数据处理系统,中心数据处理系统用于对整个信息采集平台的所有数据进行传输与存储;

链接系统;链接系统用于将信息采集平台和大数据平台建立链接,链接采用加密算法进行加密;

数据整合系统;数据整合系统用于对大数据平台的数据源信息进行整合,数据整合系统通过ETL数据抽取、实时数据采集、文件数据采集、数据库实时复制的方式从大数据平台抽取和采集结构化的源数据、半结构化的源数据以及非结构化的源数据到信息采集平台,并按照时间顺序将上述源数据进行整合排序;

数据分类系统;数据分类系统用于对上述数据整合系统中采集的结构化的源数据、半结构化的源数据以及非结构化的源数据进行分类,分类标准为ETL数据数据集、实时数据集、文件数据集以及数据库集;

数据分析系统;数据分析系统用于对经过上述数据分类系统分类的ETL数据数据集、实时数据集、文件数据集以及数据库集进行关键词特征分析、提取以及整合,数据分析系统具体为基于Hadoop技术的多样化数据整合中心;

数据采集系统;数据采集系统用于根据用户配置的需要采集的数据信息的属性和特征,对上述经过关键词特征分析、提取以及整合后的ETL数据数据集、实时数据集、文件数据集以及数据库集进行一对一或一对多的数据采集;

数据存储系统;数据存储系统用于对上述数据采集系统采集到的数据进行分类存储,数据存储系统在进行分类存储后自动生成存储日志信息,且数据存储系统包括临时Redis数据库;

采集监控系统;采集监控系统用于对上述数据采集系统的工作流的运行状态以及工作流的实时采集速率进行监控,采集监控系统具体为基于flume程序的量化监控中心,采集监控系统包括MongoDB状态信息存储模块;

数据反馈系统;数据反馈系统用于在上述系统工作完成后进行反馈日志的生成。

其中,信息采集平台的系统框架采用springmvc,且采用jpa作为持久层框架;加密算法具体为基于非对称加密技术、DLP终端加密技术、CASB代理网关技术以及数据库加密网关技术的集成式数据加密技术;数据采集系统包括多个数据流采集模块,数据采集系统具体为基于SDK采集技术以及API采集技术的数据获取中心;数据存储系统的分类存储位置具体为:结构化数据存储至分布式文件系统HDFS中,半结构化数据存储至列式数据库或键式数据库,非结构化数据存储至行式数据库;MongoDB状态信息存储模块用于存储日志信息以及监控存储的数据。

通过设置数据整合系统对数据源的数据进行整合,且通过数据分类系统对数据进行分类,并根据分类结果提取不同分类数据集的关键词特征,再根据需要提取的数据特征对照不同数据集中的关键词特征进行对照爬取采集,可进行多类型数据的采集,且对不同类型的数据进行分开采集,使得采集过程更简单,采集时间更短,且可避免因数据采集过多造成的采集延迟或瘫痪的状况的出现,为用户带来更加良好的使用感受。

如图3所示,本发明提供一种技术方案:一种基于大数据的信息采集平台系统的使用方法,包括以下步骤:

S1:数据配置:用户通过配置中心对采集的数据信息的属性、特征以及存储信息进行配置;

S2:数据分析:在将信息采集平台和大数据平台建立链接后,通过ETL数据抽取、实时数据采集、文件数据采集、数据库实时复制的方式从大数据平台抽取和采集结构化的源数据、半结构化的源数据以及非结构化的源数据到信息采集平台,再根据上述步骤S1中用户配置的需要采集的数据信息的属性和特征,对源数据的数据进行关键词特征分析、提取以及整合;

S3:数据采集:在上述步骤S2的基础上,对ETL数据数据集、实时数据集、文件数据集以及数据库集进行采集的数据信息的属性、特征匹配对照,并根据对照结果采集相匹配的数据,在数据采集过程中,通过采集监控系统对工作流的运行状态以及工作流的实时采集速率进行监控;

S4:数据存储:在步骤S3的基础上,对采集到的数据进行分类存储,并在分类存储后自动生成存储日志信息,完成数据的采集。

通过上述方法,对数据采集过程进行工作流的运行状态以及工作流的实时采集速率进行监控,可为用户提供较为详细的采集状态信息,为后期数据复查过程带来了提供了数据支持。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

9页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种矿山机械物联网系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!