一种基于云计算分布式网络视频数据挖掘采集系统

文档序号:1846149 发布日期:2021-11-16 浏览:3次 >En<

阅读说明:本技术 一种基于云计算分布式网络视频数据挖掘采集系统 (Distributed network video data mining and collecting system based on cloud computing ) 是由 黄铁成 于 2021-09-03 设计创作,主要内容包括:本发明提供一种基于云计算分布式网络视频数据挖掘采集系统,包括互联网大平台,互联网大平台连接有数据采集模块,数据采集模块连接有数据预处理模块,数据预处理模块连接有管理调度模块,管理调度模块连接有终端设备,本发明:通过设有的数据采集模块,爬虫或开放API采集数据将爬取的信息传至接收数据并通过发送请求发送到资源解析处,资源解析将信息中的时间、音频、视屏和位置信息进行分类别收集,解析后的信息发送到统计站进行统计,敏感信息剔除后保留在存储箱内部,设有的数据预处理模块,将获取的数据进行解码处理,管理调度模块将处理后的数据进行分类统计,最终分布存储。(The invention provides a distributed network video data mining and collecting system based on cloud computing, which comprises an internet large platform, wherein the internet large platform is connected with a data collecting module, the data collecting module is connected with a data preprocessing module, the data preprocessing module is connected with a management scheduling module, and the management scheduling module is connected with terminal equipment, and the cloud computing distributed network video data mining and collecting system comprises the following components: through the data acquisition module that is equipped with, crawler or open API data collection will crawl the information and pass to the received data and send resource analysis department through sending the request, resource analysis carries out the classification with time, audio frequency, look screen and the positional information in the information and collects, information after the analysis is sent to the statistics station and is counted, sensitive information rejects the back and remains in the storage box inside, the data preprocessing module that is equipped with decodes the data that will acquire, the management scheduling module carries out classification statistics with the data after handling, final distributed storage.)

一种基于云计算分布式网络视频数据挖掘采集系统

技术领域

本发明涉及数据挖掘技术领域,具体为一种基于云计算分布式网络视频数据挖掘采集系统。

背景技术

数据挖掘又译为资料探勘、数据采矿。是一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法。它是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。主要有数据准备、规律寻找和规律表示3个步骤。现有的数据挖掘任务在对于数据的海量发掘过程中存在的异常、敏感类信息无法进行筛选和剔除,数据种类无法进行区分再统计,使得数据无法有效的整理。

发明内容

本发明的目的在于提供一种基于云计算分布式网络视频数据挖掘采集系统,旨针对现有的数据挖掘任务在对于数据的海量发掘过程中存在的异常、敏感类信息无法进行筛选和剔除,数据种类无法进行区分再统计,使得数据无法有效的整理的问题。

为实现上述目的,本发明提供如下技术方案:一种基于云计算分布式网络视频数据挖掘采集系统,包括互联网大平台,所述互联网大平台连接有数据采集模块,所述数据采集模块连接有数据预处理模块,所述数据预处理模块连接有管理调度模块,所述管理调度模块连接有终端设备。

为了使得爬取网络数据,作为本发明的一种优选方案:所述数据采集模块包括爬虫或开放API采集数据,所述爬虫或开放API采集数据连接有接收数据,所述接收数据连接有发送请求,所述接收数据连接有资源解析,所述发送请求连接于资源解析,所述资源解析连接有存储箱。

为了使得分类信息数据,作为本发明的一种优选方案:所述资源解析分别连接有时间采集、音频采集、视屏采集和位置采集,所述时间采集、音频采集、视屏采集和位置采集均连接有统计站,所述统计站连接有评估部。

为了使得进行保留筛选的数据,作为本发明的一种优选方案:所述评估部连接有垃圾桶,所述评估部连接有传输站,所述传输站连接于存储箱。

为了使得转换收集的数据,作为本发明的一种优选方案:所述数据预处理模块包括解码单元、噪音清洗和分辨率,所述噪音清洗连接QNC模块。

为了使得对数据进行进一步处理,作为本发明的一种优选方案:所述解码单元包括MUC处理器,所述MUC处理器连接有数据接收端口,所述MUC处理器连接有解码处理器,所述数据接收端口连接于解码处理器内部,所述解码处理器双向连接有模/数转换器,所述解码处理器连接有数/模转换器。

为了使得对挖掘的信息进行分类,作为本发明的一种优选方案:所述管理调度模块包括数据备份、类别统计、站点标记和分布式存储,所述数据备份、类别统计和站点标记均与分布式存储连接,所述分布式存储连接有拷贝端口。

为了使得对挖掘的数据进行应用,作为本发明的一种优选方案:所述终端设备连接有管理员调度。

为了使得各模块相互传输,作为本发明的一种优选方案:所述数据采集模块、数据预处理模块、管理调度模块和终端设备和互联网大平台之间通过局域网网络传输连接。

为了使得电子设备运行,作为本发明的一种优选方案:所述数据采集模块、数据预处理模块、管理调度模块、终端设备和管理员调度均与外接电源电性连接。

与现有技术相比,本发明提供的一种基于云计算分布式网络视频数据挖掘采集系统具备以下有益效果:

1)通过设有的数据采集模块,爬虫或开放API采集数据将爬取的信息传至接收数据并通过发送请求发送到资源解析处,资源解析将信息中的时间、音频、视屏和位置信息进行分类别收集,解析后的信息发送到统计站进行统计,对于无用或敏感信息进行剔除,剩余的信息数据通过传输站保留在存储箱内部,并为下一步处理提供数据源;

2)通过设有的数据预处理模块,将获取的数据进行解码,对于需要转换的数据进行转换处理,音频和视屏中的瑕疵处理,进行降噪处理提高画质清晰度,使得挖掘的数据具有较好的使用性,设有的管理调度模块将处理后的数据进行分类统计,对于爬取后的页面链接和站点等进行标记,最终分布存储,方便进行拷贝分析。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1为本发明整体结构示意图;

图2为本发明数据采集模块结构示意图;

图3为本发明数据预处理模块结构示意图;

图4为本发明解码单元结构示意图;

图5为本发明管理调度模块结构示意图。

图中:1、互联网大平台;2、数据采集模块;21、爬虫或开放API采集数据;22、接收数据;23、发送请求;24、资源解析;241、时间采集;242、音频采集;243、视屏采集;244、位置采集;25、存储箱;26、统计站;27、评估部;28、垃圾桶;29、传输站;3、数据预处理模块;31、解码单元;32、噪音清洗;33、分辨率;34、QNC260模块;35、MUC处理器;36、数据接收端口;37、解码处理器;38、模/数转换器;39、数/模转换器;4、管理调度模块;41、数据备份;42、类别统计;43、站点标记;44、分布式存储;45、拷贝端口;5、终端设备;6、局域网;7、管理员调度。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

请参阅图1-5,本发明提供以下技术方案:一种基于云计算分布式网络视频数据挖掘采集系统,包括互联网大平台1,互联网大平台1连接有数据采集模块2,数据采集模块2连接有数据预处理模块3,数据预处理模块3连接有管理调度模块4,管理调度模块4连接有终端设备5。

在本实施例中:数据采集模块2包括爬虫或开放API采集数据21,爬虫或开放API采集数据21连接有接收数据22,接收数据22连接有发送请求23,接收数据22连接有资源解析24,发送请求23连接于资源解析24,资源解析24连接有存储箱25。

具体的,通过爬虫或开放API采集数据21将互联网大平台1上的数据进行广泛的爬取,得到的信息通过接收数据22直接发送至资源解析24进行解析,对于需要授权的部分数据发送至发送请求23,发送请求23通过复制链接给资源解析24进行解析资源,解析后的资源先行存放在存储箱25内部。

在本实施例中:资源解析24分别连接有时间采集241、音频采集242、视屏采集243和位置采集244,时间采集241、音频采集242、视屏采集243和位置采集244均连接有统计站26,统计站26连接有评估部27。

具体的,资源解析24将信息解析后将信息中的数据分解,时间采集241将解析时间进行记录,音频采集242和视屏采集243将信息中的图像和声音进行采集,并通过位置采集244记录采集的链接位置,最后数据发送统计站26进行统计数据量,统计站26将信息发送给评估部27进行数据评估。

在本实施例中:评估部27连接有垃圾桶28,评估部27连接有传输站29,传输站29连接于存储箱25。

具体的,评估后的数据进行处理,将部分敏感信息和垃圾信息进行剔除,投送至垃圾桶28内部,剩余的所需信息通过传输站29传输到存储箱25内部,并为数据预处理模块3提供资源调用。

在本实施例中:数据预处理模块3包括解码单元31、噪音清洗32和分辨率33,噪音清洗32连接QNC260模块34。

具体的,评估后的数据进入到数据预处理模块3内部,经过噪音清洗32进行清洗处理,噪音清洗32连接的QNC260模块34可以最大程度的降低音频中存在的嘈杂,对于需要转换的数据则通过解码单元31进行处理。

在本实施例中:解码单元31包括MUC处理器35,MUC处理器35连接有数据接收端口36,MUC处理器35连接有解码处理器37,数据接收端口36连接于解码处理器37内部,解码处理器37双向连接有模/数转换器38,解码处理器37连接有数/模转换器39。

具体的,需要解码的数据通过MUC处理器35进行处理,通过解码处理器37将模/数转换器38和数/模转换器39中的音频数据流解码还原成为模拟视音频信号,处理完成的信息通过数据接收端口36进行传输至外部,进行下一步处理。

在本实施例中:管理调度模块4包括数据备份41、类别统计42、站点标记43和分布式存储44,数据备份41、类别统计42和站点标记43均与分布式存储44连接,分布式存储44连接有拷贝端口45。

具体的,经过筛选处理并经过清洗解码后的信息数据进入到管理调度模块4中,通过数据备份41将数据进行备份,并进行类别统计42,通过站点标记43将信息的站点进行标记,便于统计后续重访次数,处理后的数据最终通过分布式存储44进行存放。

在本实施例中:终端设备5连接有管理员调度7。

具体的,终端设备5接收处理后的信息,并最终与管理员调度7搭接,通过管理员调度7来进行分配使用挖掘的信息资源。

在本实施例中:数据采集模块2、数据预处理模块3、管理调度模块4和终端设备5和互联网大平台1之间通过局域网6网络传输连接。

具体的,在数据采集过程、预处理过程和管理调度过程中各模块之间以及终端设备5均通过局域网6来实现数据的传送与运行处理,互联网大平台1则通过局域网6来为数据采集提供信息获取地。

在本实施例中:数据采集模块2、数据预处理模块3、管理调度模块4、终端设备5和管理员调度7均与外接电源电性连接。

具体的,当数据采集模块2、数据预处理模块3、管理调度模块4、终端设备5和管理员调度7与外接电源接通后设备开始进入运行状态对数据进行挖掘梳理,当与外接电源断开连接后,则停止运行。

最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

9页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种船期智能匹配推送方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!