一种大数据流转方法、装置、电子设备及存储介质

文档序号:1952724 发布日期:2021-12-10 浏览:19次 >En<

阅读说明:本技术 一种大数据流转方法、装置、电子设备及存储介质 (Big data stream transfer method and device, electronic equipment and storage medium ) 是由 许吉来 孔亮 罗晓峰 于 2021-09-14 设计创作,主要内容包括:本发明提供一种大数据流转方法、装置、电子设备及存储介质,若与预设调度时间对应的数据流转任务的数据流转方向为数据抽取,从数据抽取配置信息指示的源数据库中,抽取相应的数据至数据抽取配置信息指示的Hadoop数据库中相应的第一目标数据表;根据数据抽取转换配置规则和数据抽取配置信息对第一目标数据表进行数据重组;若为数据推送,根据与数据流转任务匹配的数据推送配置信息和数据推送转换配置规则,对数据推送配置信息指示的Hadoop数据库中相应的第二目标数据表进行数据重组后,将其数据推送至相应的源数据库中相应的源数据表。本发明可以实现数据在Hadoop与关系型数据库之间快速、高效的流转。(The invention provides a big data streaming method, a big data streaming device, electronic equipment and a storage medium, wherein if the data streaming direction of a data streaming task corresponding to preset scheduling time is data extraction, corresponding data is extracted from a source database indicated by data extraction configuration information to a corresponding first target data table in a Hadoop database indicated by the data extraction configuration information; performing data reorganization on the first target data table according to the data extraction conversion configuration rule and the data extraction configuration information; and if the data is pushed, according to the data pushing configuration information and the data pushing conversion configuration rule matched with the data circulation task, performing data recombination on a corresponding second target data table in the Hadoop database indicated by the data pushing configuration information, and then pushing the data to a corresponding source data table in a corresponding source database. The invention can realize the rapid and efficient circulation of data between the Hadoop and the relational database.)

一种大数据流转方法、装置、电子设备及存储介质

技术领域

本发明涉及大数据技术领域,更具体地说,涉及一种大数据流转方法、装置、电子设备及存储介质。

背景技术

随着大数据时代到来,以互联网为代表的现代信息科技正从根本上改变着传统银行经营模式。数据海量化、多样化、传输快速化和价值化等特征,已给商业银行市场竞争带来了全新的挑战,构建以云计算、大数据为核心的多样化的生态系统已是当务之急。Hadoop凭借其低廉的软硬件成本、强大的并行计算能力,提供了商业银行大数据解决方案。虽然Hadoop存储数据有很多优势,但是在Hadoop与关系型数据库之间仍难以实现数据快速、高效的流转。

因此,如何提供一种数据流转方法,以实现数据在Hadoop与关系性数据库之间快速、高效的流转,是本申请亟需解决的问题。

发明内容

有鉴于此,本发明提供一种大数据流转方法、装置、电子设备及存储介质,以实现数据在Hadoop与关系性数据库之间快速、高效的流转为目的。

本发明第一方面公开一种大数据流转方法,所述方法包括:

当达到预设调度时间时,获取与所述预设调度时间对应的数据流转任务,其中,所述数据流转任务携带有数据流转任务编号;

判断所述数据流转任务的数据流转方向是否为数据抽取,或者为数据推送;

若所述数据流转任务的数据流转方向为数据抽取,获取与所述数据流转任务编号匹配的数据抽取配置信息;

从所述数据抽取配置信息指示的源数据库中,抽取相应的数据至所述数据抽取配置信息指示的Hadoop数据库中相应的第一目标数据表;

获取与所述数据抽取配置信息匹配的数据抽取转换配置规则,并根据所述数据抽取转换配置规则和所述数据抽取配置信息对所述第一目标数据表进行数据重组;

若所述数据流转任务的数据流转方向为数据推送,获取与所述数据流转任务编号匹配的数据推送配置信息,以及获取与所述数据推送配置信息匹配的数据推送转换配置规则;

根据所述数据推送转换配置规则和所述数据推送配置信息,对所述数据推送配置信息指示的Hadoop数据库中相应的第二目标数据表进行数据重组,并将其对应的数据推送至所述数据推送信息指示的源数据库中的相应的源数据表中。

可选的,所述数据抽取配置信息包括数据库抽取配置信息和数据表抽取配置信息,所述从所述数据抽取配置信息指示的源数据库中,抽取相应的数据至所述数据抽取配置信息指示的Hadoop数据库中相应的第一目标数据表,包括:

从所述数据库抽取配置信息指示的源数据库中,抽取所述数据表抽取配置信息指示的源数据表中的数据至所述数据库抽取配置信息指示的Hadoop数据库中所述数据表抽取配置信息指示的第一目标数据表。

可选的,所述获取与所述数据抽取配置信息匹配的数据抽取转换配置规则;并根据所述数据抽取转换配置规则和所述数据抽取配置信息对所述第一目标数据表进行数据重组,包括:

获取与所述数据抽取配置信息匹配的数据抽取转换配置规则,所述数据抽取转换配置规则包括多种数据处理方式;

根据所述数据抽取转换配置规则中的各种所述数据处理方式和所述数据表抽取配置信息对所述第一目标数据表进行数据重组。

可选的,所述数据推送配置信息包括数据库推送配置信息和数据表推送配置信息,所述根据所述数据推送转换配置规则和所述数据推送配置信息,对所述数据推送配置信息对所述数据推送配置信息指示的Hadoop数据库中相应的第二目标数据表进行数据重组,并将其对应的数据推送至所述数据推送信息指示的源数据库中的相应的源数据表中,包括:

根据所述数据推送转换配置规则指示的各种所述数据处理方式和所述数据表推送配置信息,对所述数据库推送配置信息指示的Hadoop数据库中所述数据表推送配置信息指示的第二目标数据表进行数据重组;

将进行数据重组后的所述第二目标数据表中的数据推送至所述数据库推送配置信息指示的源数据库中所述数据表推送配置信息指示的源数据表中。

本发明第二方面公开一种大数据流转装置,所述装置包括:

第一获取单元,用于当达到预设调度时间时,获取与所述预设调度时间对应的数据流转任务,其中,所述数据流转任务携带有数据流转任务编号;

判断单元,用于判断所述数据流转任务的数据流转方向是否为数据抽取,或者为数据推送;

第二获取单元,用于若所述数据流转任务的数据流转方向为数据抽取,获取与所述数据流转任务编号匹配的数据抽取配置信息;

数据抽取单元,用于从所述数据抽取配置信息指示的源数据库中,抽取相应的数据至所述数据抽取配置信息指示的Hadoop数据库中相应的第一目标数据表;

第一数据重组单元,用于获取与所述数据抽取配置信息匹配的数据抽取转换配置规则;并根据所述数据抽取转换配置规则和所述数据抽取配置信息对所述第一目标数据表进行数据重组;

第三获取单元,用于若所述数据流转任务的数据流转方向为数据推送,获取与所述数据流转任务编号匹配的数据推送配置信息,以及获取与所述数据推送配置信息匹配的数据推送转换配置规则;

第二数据重组单元,用于根据所述数据推送转换配置规则和所述数据推送配置信息,对所述数据推送配置信息指示的Hadoop数据库中相应的第二目标数据表进行数据重组,并将其对应的数据推送至所述数据推送信息指示的源数据库中的相应的源数据表中。

可选的,所述数据抽取配置信息包括数据库抽取配置信息和数据表抽取配置信息,所述数据抽取单元,包括:

数据抽取子单元,用于从所述数据库抽取配置信息指示的源数据库中,抽取所述数据表抽取配置信息指示的源数据表中的数据至所述数据库抽取配置信息指示的Hadoop数据库中所述数据表抽取配置信息指示的第一目标数据表。

可选的,所述第一数据重组单元,包括:

第四获取单元,用于获取与所述数据抽取配置信息匹配的数据抽取转换配置规则,所述数据抽取转换配置规则包括多种数据处理方式;

第三数据重组单元,用于根据所述数据抽取转换配置规则中的各种所述数据处理方式和所述数据表抽取配置信息对所述第一目标数据表进行数据重组。

可选的,所述述数据推送配置信息包括数据库推送配置信息和数据表推送配置信息,所述第二数据重组单元,包括:

第四数据重组单元,用于根据所述数据推送转换配置规则指示的各种所述数据处理方式和所述数据表推送配置信息,对所述数据库推送配置信息指示的Hadoop数据库中所述数据表推送配置信息指示的第二目标数据表进行数据重组;

数据推送单元,用于将进行数据重组后的所述第二目标数据表中的数据推送至所述数据库推送配置信息指示的源数据库中所述数据表推送配置信息指示的源数据表中。

本发明第三方面公开一种电子设备,所述电子设备包括处理器和存储器,所述存储器用于存储大数据流转的程序代码和数据,所述处理器用于调用所述存储器中的程序指令执行如上述本发明第一方面公开的大数据流转方法。

本发明第四方面公开一种存储介质,所述存储介质包括存储程序,其中,在所述程序运行时控制所述存储介质所在设备执行如上述本发明第一方面公开的大数据流转方法。

本发明提供一种大数据流转方法、装置、电子设备及存储介质,当达到预设调度时间时,获取与预设调度时间对应的数据流转任务,其中,数据流转任务携带有数据流转任务编号;判断数据流转任务的数据流转方向是否为数据抽取,或者为数据推送;若数据流转任务的数据流转方向为数据抽取,获取与数据流转任务编号匹配的数据抽取配置信息;从数据抽取配置信息指示的源数据库中,抽取相应的源数据表中的数据至数据抽取配置信息指示的Hadoop数据库中相应的第一目标数据表;获取与数据抽取配置信息匹配的数据抽取转换配置规则,并根据数据抽取转换配置规则和数据抽取配置信息对第一目标数据表进行数据重组;若数据流转任务的数据流转方向为数据推送,获取与数据流转任务编号匹配的数据推送配置信息以及获取与数据推送配置信息匹配的数据推送转换配置规则,并根据数据推送转换配置规则和数据推送配置信息对数据推送配置信息指示的Hadoop数据库中相应的第二目标数据表进行数据重组,并将其对应的数据推送至数据推送信息指示的源数据库中的相应的源数据表中,从而实现数据在Hadoop数据库与关系性数据库之间快速、高效的流转。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种大数据流转方法的流程示意图;

图2为本发明实施例提供的一种大数据流转装置的结构示意图;

图3为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意,本发明公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意,本发明公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。

Hadoop:是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的性能进行高速运算和存储。

Sqoop:是一款开源的工具,主要用于在Hadoop(Hive)与源数据库(Oracle数据库、MySQL数据库、Postgresql数据库等)间进行数据的传递,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

参见图1,示出了本发明实施例提供的一种数据流转方法的流程示意图,该数据流转方法具体包括以下步骤:

S101:当达到预设调度时间时,获取与预设调度时间对应的数据流转任务,其中,数据流转任务携带有数据流转任务编号。

在本申请实施例中,可以预先设置多个数据流转任务,以及为每个数据流转任务设置相应的预设调度时间,以及相应的编号。其中,设置数据流转任务的目的是为了实现源数据库(关系型数据库)与Hadoop数据库之间的数据流转。

需要说明的是,数据流转任务可以为数据抽取任务,或者数据推送任务,当数据流转任务为数据抽取任务时,该数据流转任务的数据流转方向为数据抽取;当数据流转任务为数据推送任务时,该数据流转任务的数据流转方向为数据推送。

需要说明的是,当某个预设调度时间对应有多个数据流转任务时,还可以为这个预设调度时间对应的各个数据流转任务设置相应的调度顺序,以及相应的调度状态。其中,调度状态可以为等待执行、正在导入、导入完成、导入错误、导入重做错误、非调度状态。

还需要说明的是,还可以设置相应的调度批次。

在具体执行步骤S101的过程中,当数据流转系统当前的时间达到预设调度时间时,获取与该预设调度时间对应的数据流转任务,该数据流转任务中携带有数据流转任务编号。

S102:判断数据流转任务的数据流转方向是否为数据抽取,或者为数据推送;若数据流转任务的数据流转方向为数据抽取,执行步骤S103;若数据流转任务的数据流转方向为数据推送,执行步骤S106。

在具体执行步骤S102的过程中,在获取预设调度时间对应的数据流转任务后,进一步判断该数据流转任务是否为数据抽取任务,如果是,则可以确定该数据流转任务的数据流转方向为数据抽取;如果不是,则可以确定该数据流转任务为数据推送任务,进而可以确定该数据流转任务的数据流转方向为数据推送。

S103:获取与数据流转任务编号匹配的数据抽取配置信息。

在具体执行步骤S103的过程中,在确定数据流转任务的数据流转方向为数据抽取的情况下,可以获取预先设置的与该数据流转任务编号匹配的数据抽取配置信息,其中,数据抽取配置信息包括数据库抽取配置信息和数据表抽取配置信息。

在本申请实施例中,可以预先为每个数据抽取任务设置相应的数据抽取配置信息,其中,数据库抽取配置信息和数据表抽取配置信。

具体的,数据库抽取配置信息包括数据库配置编号、源数据库类型、源数据库名称、源数据库IP地址、源数据库端口号、源数据库schema、Hadoop数据库schema等信息。数据表抽取配置信包括:数据抽取转换配置规则编号、数据表配置编号、数据库配置编号、源数据表名称、目标数据表名称、增量导入字段(可选)、数据表分区字段(可选)、数据表多时点字段(可选)等信息。

其中,数据表的类型可以为主档或者明细。

S104:从数据抽取配置信息指示的源数据库中,抽取相应的数据至数据抽取配置信息指示的Hadoop数据库中相应的第一目标数据表。

在具体执行步骤S104的过程中,在获取到与数据流转任务编号匹配的数据抽取配置信息后,可以调用Sqoop组件从数据库抽取配置信息指示的源数据库名称对应的源数据库中,抽取数据表抽取配置信息指示的源数据表名称对应的源数据表中的数据至数据库抽取配置信息指示的Hadoop数据库schema对应的Hadoop数据库中数据表抽取配置信息指示的目标数据表名称对应的目标数据表(为了便于区分,将数据表抽取配置信息指示的目标数据表名称对应的目标数据表成为第一目标数据表)。

在本申请实施例中,除了可以根据数据库配置信息中指示的源数据库名称确定相应的源数据库以外,还可以根据数据库配置信息中指示的源数据库IP地址确定相应的源数据库。

S105:获取与数据抽取配置信息匹配的数据抽取转换配置规则,并根据数据抽取转换配置规则和数据抽取配置信息对第一目标数据表进行数据重组。

在本申请实施例中,可以预先为Hadoop数据库中的每张目标数据表设置相应的数据抽取转换配置规则,具体的,可以在数据抽取转换配置规则中数据抽取转换配置编号、字符转码方式、目标存储格式、数据是否去重、数据压缩方式、数据表类型(主档、明细)、预设map任务并发数、是否进行小文件合并、是否增量导入、数据表是否分区、是否多时点等数据处理方式。

需要说明的是,目标存储格式可以为compress、Parquet、Hfile、txt等等,可以根据实际应用进行设置,本申请实施例不加以限定。

需要说明的是,map任务并发数据可以设置为2、4、6、12。可以根据实际应用进行设置,本申请实施例不加以限定。

在具体执行步骤S105的过程中,在获取到与数据流转任务编号匹配的数据抽取配置信息后,可以根据数据抽取配置信息中的数据表抽取配置信息中指示的数据抽取转换配置编号,从预先设置的多个数据抽取转换配置规则中,获取与该数据抽取转换配置编号匹配的数据抽取转换配置规则。

在获取到相应的数据抽取转换配置规则后,根据数据抽取转换配置规则中的各个数据处理方式和数据表抽取配置信息,对第一目标数据表进行数据重组。

在本申请实施例中,若数据抽取转换配置规则中的数据处理方式包括字符转码方式、目标存储格式、数据去重、数据压缩方式、数据表类型(主档)、增量导入、数据表分区、多时点,根据数据表抽取配置信息中配置的数据表分区字段对该第一目标数据表中的数据进行分区,根据数据表抽取配置信息中配置的增量接入字段获取第一目标数据表中的增量数据,根据数据表抽取配置信息中配置的数据表类型(主档)对第一目标数据表进行主档和明细的区分,以及根据数据表抽取配置信息中配置的多时点字段为第一目标数据表设置多时点,最后根据数据抽取转换配置规则指示的字符转码方式对第二目标数据表中的字符进行转码,对进行字符转码后的第一目标数据表进行去重后,并根据数据压缩方式对其进行数据压缩。

进一步在,在本申请实施例中,由于Hadoop是一个由Apache基金会所开发的分布式系统(Hadoop Distributed File System,HDFS)基础架构,因此,在对Hadoop数据库中的第一目标数据表进行相应的数据重组之后,若数据抽取转换配置规则中的数据处理方式还包括对HDFS进行小文件合并,则对Hadoop数据库中与进行数据重组后的第一目标数据表相关的各个小文件进行合并。

进一步的,在本申请实施例中,还可以根据预先设置的数据清洗规则,对Hadoop数据库中进行数据重组后的第一目标数据表中的数据进行数据清洗,以检查进行数据重组后的第一目标数据表中的数据一致性,发现并纠正该数据表中的错误,处理无效值和缺失值。

S106:获取与数据流转任务编号匹配的数据推送配置信息,以及获取与数据推送配置信息匹配的数据推送转换配置规则。

在具体执行步骤S106的过程中,在确定数据流转任务的数据流转方向为数据推送的情况下,可以获取预先设置的与该数据流转任务编号匹配的数据推送配置信息,其中,数据推送配置信息包括数据库推送配置信息和数据表推送配置信息。

在本申请实施例中,可以为每个数据推送任务设置相应的数据推送配置信息,其中,数据库推送配置信息和数据表推送配置信。

具体的,数据库推送配置信息包括数据库配置编号、Hadoop数据库类型、Hadoop数据库名称、Hadoop数据库IP地址、Hadoop数据库端口号、Hadoop数据库schema、源数据库schema等信息。数据表推送配置信息包括:数据推送转换配置规则编号、数据表配置编号、数据库配置编号、源数据表名称、目标数据表名称、增量导入字段(可选)、数据表分区字段(可选)、数据表多时点字段(可选)等信息。

在本申请实施例中,可以预先为Hadoop数据库中的每张目标数据表设置相应的数据推送转换配置规则,具体的,可以在数据推送转换配置规则中数据推送转换配置编号、字符转码方式、目标存储格式、数据是否去重、数据压缩方式、数据表类型(主档、明细)、预设map任务并发数、是否进行小文件合并、是否增量导入、数据表是否分区、是否多时点等数据处理方式。

需要说明的是,目标存储格式可以为compress、Parquet、Hfile、txt等等,可以根据实际应用进行设置,本申请实施例不加以限定。

需要说明的是,map任务并发数据可以设置为2、4、6、12。可以根据实际应用进行设置,本申请实施例不加以限定。

S107:根据数据推送转换配置规则和数据推送配置信息,对数据推送配置信息指示的Hadoop数据库中相应的第二目标数据表进行数据重组,并将其对应的数据推送至数据推送信息指示的源数据库中的相应的源数据表中。

在具体执行步骤S107的过程中,在获取到与数据流转任务编号匹配的数据推送配置信息后,可以根据数据抽取配置信息中的数据表抽取配置信息中指示的数据抽取转换配置编号,从预先设置的多个数据抽取转换配置规则中,获取与该数据抽取转换配置编号匹配的数据抽取转换配置规则。

在获取到相应的数据抽取转换配置规则后,根据数据抽取转换配置规则中的各个数据处理方式和数据表推送配置信息,对数据推送配置信息指示的Hadoop数据库中相应的第二目标数据表进行数据重组,并调用Sqoop组件将进行数据重组后的第二目标数据表中数据推送至数据库推送配置信息的源数据库中数据表推送信息指示的源数据表中。

在本申请实施例中,若数据推送转换配置规则中的数据处理方式包括字符转码方式、目标存储格式、数据去重、数据压缩方式、数据表类型(主档)、增量导入、数据表分区、多时点,根据数据表推送配置信息中配置的数据表分区字段对该第二目标数据表中的数据进行分区,根据数据表推送配置信息中配置的增量接入字段获取第二目标数据表中的增量数据,根据数据表推送配置信息中配置的数据表类型(主档)对第二目标数据表进行主档和明细的区分,以及根据数据表推送配置信息中配置的多时点字段为第二目标数据表设置多时点,最后根据数据推送转换配置规则指示的字符转码方式对第二目标数据表中的字符进行转码,对进行字符转码后的第二目标数据表进行去重后,并根据数据压缩方式对其进行数据压缩。

进一步在,在本申请实施例中,由于Hadoop是一个由Apache基金会所开发的分布式系统(Hadoop Distributed File System,HDFS)基础架构,若数据推送转换配置规则中的数据处理方式还包括对HDFS进行小文件合并,则对Hadoop数据库中与进行数据重组后的第二目标数据表相关的各个小文件进行合并。

进一步的,在本申请实施例中,还可以根据预先设置的数据清洗规则,对Hadoop数据库中进行数据重组后的第二目标数据表中的数据进行数据清洗,以检查进行数据重组后的第二目标数据表中的数据一致性,发现并纠正该数据表中的错误,处理无效值和缺失值。

本发明提供一种数据流转方法,当达到预设调度时间时,获取与预设调度时间对应的数据流转任务,其中,数据流转任务携带有数据流转任务编号;判断数据流转任务的数据流转方向是否为数据抽取,或者为数据推送;若数据流转任务的数据流转方向为数据抽取,获取与数据流转任务编号匹配的数据抽取配置信息;从数据抽取配置信息指示的源数据库中,抽取相应的源数据表中的数据至数据抽取配置信息指示的Hadoop数据库中相应的第一目标数据表;获取与数据抽取配置信息匹配的数据抽取转换配置规则,并根据数据抽取转换配置规则和数据抽取配置信息对第一目标数据表进行数据重组;若数据流转任务的数据流转方向为数据推送,获取与数据流转任务编号匹配的数据推送配置信息以及获取与数据推送配置信息匹配的数据推送转换配置规则,并根据数据推送转换配置规则和数据推送配置信息对数据推送配置信息指示的Hadoop数据库中相应的第二目标数据表进行数据重组,并将其对应的数据推送至数据推送信息指示的源数据库中的相应的源数据表中,从而实现数据在Hadoop数据库与关系性数据库之间快速、高效的流转。

基于本发明实施例公开的大数据流转方法,本发明实施例还对应公开一种数据流转装置,如图2所示,该大数据流转装置包括:

第一获取单元21,用于当达到预设调度时间时,获取与预设调度时间对应的数据流转任务,其中,数据流转任务携带有数据流转任务编号;

判断单元22,用于判断数据流转任务的数据流转方向是为数据抽取,还是为数据推送;

第二获取单元23,用于若数据流转任务的数据流转方向为数据抽取,获取与数据流转任务编号匹配的数据抽取配置信息;

数据抽取单元24,用于从数据抽取配置信息指示的源数据库中,抽取相应的数据至数据抽取配置信息指示的Hadoop数据库中相应的第一目标数据表;

第一数据重组单元25,用于获取与数据抽取配置信息匹配的数据抽取转换配置规则;并根据数据抽取转换配置规则和数据抽取配置信息对第一目标数据表进行数据重组;

第三获取单元26,用于若数据流转任务的数据流转方向为数据推送,获取与数据流转任务编号匹配的数据推送配置信息,以及获取与数据推送配置信息匹配的数据推送转换配置规则;

第二数据重组单元27,用于根据数据推送转换配置规则和数据推送配置信息,对数据推送配置信息对数据推送配置信息指示的Hadoop数据库中相应的第二目标数据表进行数据重组,并将其对应的数据推送至数据推送信息指示的源数据库中的相应的源数据表中。

上述本发明实施例公开的数据流转装置中各个单元具体的原理和执行过程,与上述本发明实施例公开的数据流转方法相同,可参见上述本发明实施例公开的数据流转方法中相应的部分,这里不再进行赘述。

本发明提供一种数据流转装置,当达到预设调度时间时,获取与预设调度时间对应的数据流转任务,其中,数据流转任务携带有数据流转任务编号;判断数据流转任务的数据流转方向是否为数据抽取,或者为数据推送;若数据流转任务的数据流转方向为数据抽取,获取与数据流转任务编号匹配的数据抽取配置信息;从数据抽取配置信息指示的源数据库中,抽取相应的源数据表中的数据至数据抽取配置信息指示的Hadoop数据库中相应的第一目标数据表;获取与数据抽取配置信息匹配的数据抽取转换配置规则,并根据数据抽取转换配置规则和数据抽取配置信息对第一目标数据表进行数据重组;若数据流转任务的数据流转方向为数据推送,获取与数据流转任务编号匹配的数据推送配置信息以及获取与数据推送配置信息匹配的数据推送转换配置规则,并根据数据推送转换配置规则和数据推送配置信息对数据推送配置信息指示的Hadoop数据库中相应的第二目标数据表进行数据重组,并将其对应的数据推送至数据推送信息指示的源数据库中的相应的源数据表中,从而实现数据在Hadoop数据库与关系性数据库之间快速、高效的流转。

可选的,数据抽取配置信息包括数据库抽取配置信息和数据表抽取配置信息,数据抽取单元,包括:

数据抽取子单元,用于从数据库抽取配置信息指示的源数据库中,抽取数据表抽取配置信息指示的源数据表中的数据至数据库抽取配置信息指示的Hadoop数据库中数据表抽取配置信息指示的第一目标数据表。

可选的,第一数据重组单元,包括:

第四获取单元,用于获取与数据抽取配置信息匹配的数据抽取转换配置规则,数据抽取转换配置规则包括多种数据处理方式;

第三数据重组单元,用于根据数据抽取转换配置规则中的各种数据处理方式和数据表抽取配置信息对第一目标数据表进行数据重组。

可选的,述数据推送配置信息包括数据库推送配置信息和数据表推送配置信息,第二数据重组单元,包括:

第四数据重组单元,用于根据数据推送转换配置规则指示的各种数据处理方式和数据表推送配置信息,对数据库推送配置信息指示的Hadoop数据库中数据表推送配置信息指示的第二目标数据表进行数据重组;

数据推送单元,用于将进行数据重组后的第二目标数据表中的数据推送至数据库推送配置信息指示的源数据库中数据表推送配置信息指示的源数据表中。

本申请实施例还提供一种电子设备,该电子设备包括:处理器以及存储器,处理器以及存储器通过通信总线相连;其中,处理器,用于调用并执行存储器中存储的程序;存储器,用于存储程序,该程序用于实现大数据流转方法。

下面参考图3,其示出了适于用来实现本发明公开实施例的电子设备的结构示意图。本发明公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图3示出的电子设备仅仅是一个示例,不应对本发明公开实施例的功能和使用范围带来任何限制。

如图3所示,电子设备可以包括处理装置(例如中央处理器、图形处理器等)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储装置306加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有电子设备操作所需的各种程序和数据。处理装置301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。

通常,以下装置可以连接至I/O接口305:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置307;包括例如磁带、硬盘等的存储装置308;以及通信装置309。通信装置309可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置309从网络上被下载和安装,或者从存储装置308被安装,或者从ROM 302被安装。在该计算机程序被处理装置301执行时,执行本发明公开实施例的方法中限定的上述功能。

更进一步的,本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机可执行指令,计算机可执行指令用于执行大数据流转方法。

上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:当达到预设调度时间时,获取与所述预设调度时间对应的数据流转任务,其中,所述数据流转任务携带有数据流转任务编号;判断所述数据流转任务的数据流转方向是否为数据抽取,或者为数据推送;若所述数据流转任务的数据流转方向为数据抽取,获取与所述数据流转任务编号匹配的数据抽取配置信息;从所述数据抽取配置信息指示的源数据库中,抽取相应的数据至所述数据抽取配置信息指示的Hadoop数据库中相应的第一目标数据表;获取与所述数据抽取配置信息匹配的数据抽取转换配置规则;并根据所述数据抽取转换配置规则和所述数据抽取配置信息对所述第一目标数据表进行数据重组;若所述数据流转任务的数据流转方向为数据推送,获取与所述数据流转任务编号匹配的数据推送配置信息,以及获取与所述数据推送配置信息匹配的数据推送转换配置规则;根据所述数据推送转换配置规则和所述数据推送配置信息,对所述数据推送配置信息指示的Hadoop数据库中相应的第二目标数据表进行数据重组,并将其对应的数据推送至所述数据推送信息指示的源数据库中的相应的源数据表中。

在本发明公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

需要说明的是,本发明公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。

16页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种数据同步方法、装置、电子设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!