一种数据处理方法及装置

文档序号:1889378 发布日期:2021-11-26 浏览:3次 >En<

阅读说明:本技术 一种数据处理方法及装置 (Data processing method and device ) 是由 李长亮 樊骏锋 汪美玲 于 2020-05-21 设计创作,主要内容包括:本发明实施例提供了一种数据处理方法及装置,上述方法包括:获得待处理的结构化数据;以结构化数据的标识为节点标识、且以结构化数据包含的字段值为节点属性,生成每一结构化数据所对应节点的节点数据;根据预设的关系字段信息,生成各个结构化数据所对应节点间的关系数据,其中,所述预设的关系字段信息包括:结构化数据中存在关系的字段值以及存在关系的字段值间的关系信息;获得包含节点数据以及关系数据的文件,并将文件导入至图数据库中。应用本发明实施例提供的方案进行数据处理时,提高了数据处理的效率。(The embodiment of the invention provides a data processing method and a device, wherein the method comprises the following steps: obtaining structured data to be processed; generating node data of a node corresponding to each structured data by taking the identifier of the structured data as a node identifier and taking a field value contained in the structured data as a node attribute; generating relationship data between nodes corresponding to each structured data according to preset relationship field information, wherein the preset relationship field information comprises: the method comprises the steps of structuring data, wherein the field values of relations exist in the data and relation information among the field values of relations exists; files containing node data and relationship data are obtained and imported into a graph database. When the scheme provided by the embodiment of the invention is applied to data processing, the efficiency of data processing is improved.)

一种数据处理方法及装置

技术领域

本发明涉及计算机技术领域,特别是涉及一种数据处理方法及装置。

背景技术

图数据库是一种存储关系型数据的数据库。图数据库中存储的关系型数据包括:各个节点的节点数据以及表示各个节点间关系的关系数据。由于图数据库存储了各个节点间关系的关系数据,在图数据库中查询节点的节点数据的效率较高。另外,在实际应用中常常会涉及对结构化数据的查询,因此,可以将上述结构化数据导入至图数据库中,这样可以基于图数据库实现对结构化数据的查询,从而提高上述结构化数据的查询效率。

由于关系型数据是非结构化数据,因此,难以直接将结构化数据导入图数据库中。现有技术中,在将结构化数据导入至图数据库中时,工作人员手动生成结构化数据的文件,电子设备通过调用图数据库的导入接口将文件导入至图数据库中。然而,由于是由工作人员手动生成文件的,当结构化数据的数据量巨大时,生成文件的工作量加大、效率较低,从而使得数据导入的效率较低,降低了数据处理效率。

发明内容

本发明实施例的目的在于提供一种数据处理方法及装置,以提高数据处理效率。具体技术方案如下:

第一方面,本发明实施例提供了一种数据处理方法,上述方法包括:

获得待处理的结构化数据;

以所述结构化数据的标识为节点标识、且以所述结构化数据包含的字段值为节点属性,生成每一结构化数据所对应节点的节点数据;

根据预设的关系字段信息,生成各个结构化数据所对应节点间的关系数据,其中,所述预设的关系字段信息包括:所述结构化数据中存在关系的字段值、以及存在关系的字段值间的关系信息;

获得包含所述节点数据以及所述关系数据的文件,并将所述文件导入至图数据库中。

本发明的一个实施例中,上述根据预设的关系字段信息,生成各个结构化数据所对应节点间的关系数据,包括:

确定所述节点属性中包括预设的关系字段信息中的所述字段值的节点;

根据所述预设的关系字段信息中的所述关系信息,生成所确定节点间的关系数据。

本发明的一个实施例中,上述获得待处理的结构化数据,包括:

从预设的数据源中获得结构化数据,对所获得的结构化数据进行数据清洗;

基于预设的标识映射关系,将清洗后的结构化数据中字段值对应的字段标识映射为节点属性对应的属性标识,将映射标识后的结构化数据作为待处理的结构化数据。

本发明的一个实施例中,上述将映射标识后的结构化数据作为待处理的结构化数据,包括:

按照预设的字段值格式,对映射标识后的结构化数据中的字段值进行格式调整,将调整后的结构化数据作为待处理的结构化数据。

本发明的一个实施例中,上述获得包含所述节点数据以及所述关系数据的文件,包括:

按照预设的文件格式需求,生成包含所述节点数据以及所述关系数据的文件,并按照预设的文件存储需求,存储所述文件。

第二方面,本发明实施例提供了一种数据处理装置,上述装置包括:

结构化数据获得模块,用于获得待处理的结构化数据;

节点数据生成模块,用于以所述结构化数据的标识为节点标识、且以所述结构化数据包含的字段值为节点属性,生成每一结构化数据所对应节点的节点数据;

关系数据生成模块,用于根据预设的关系字段信息,生成各个结构化数据所对应节点间的关系数据,其中,所述预设的关系字段信息包括:所述结构化数据中存在关系的字段值、以及存在关系的字段值间的关系信息;

数据导入模块,用于获得包含所述节点数据以及所述关系数据的文件,并将所述文件导入至图数据库中。

本发明的一个实施例中,上述关系数据生成模块,包括:

节点确定子模块,用于确定所述节点属性中包括预设的关系字段信息中的所述字段值的节点;

关系数据生成子模块,用于根据所述预设的关系字段信息中的所述关系信息,生成所确定节点间的关系数据。

本发明的一个实施例中,上述结构化数据获得模块,包括:

数据清洗子模块,用于从预设的数据源中获得结构化数据,对所获得的结构化数据进行数据清洗;

标识映射子模块,用于基于预设的标识映射关系,将清洗后的结构化数据中字段值对应的字段标识映射为节点属性对应的属性标识,将映射标识后的结构化数据作为待处理的结构化数据。

本发明的一个实施例中,上述所述标识映射子模块据,具体用于基于预设的标识映射关系,将清洗后的结构化数据中字段值对应的字段标识映射为节点属性对应的属性标识,按照预设的字段值格式,对映射标识后的结构化数据中的字段值进行格式调整,将调整后的结构化数据作为待处理的结构化数据。

本发明的一个实施例中,上述数据处理模块,具体用于按照预设的文件格式需求,生成包含所述节点数据以及所述关系数据的文件,并按照预设的文件存储需求,存储所述文件,将所述文件导入至图数据库中。

第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现上述第一方面所述的方法步骤。

第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法步骤。

由以上可见,应用本发明实施例提供的方案进行数据处理时,以待处理的结构化数据的标识为节点标识、且以上述结构化数据包含的字段值为节点属性,生成每一结构化数据所对应节点的节点数据;并根据预设的关系字段信息中的存在关系的字段值、以及存在关系的字段值间的关系信息,生成各个结构化数据所对应节点间的关系数据,并将包含所生成节点数据以及关系数据的文件导入至图数据库中。相较于现有技术,不需要工作人员手动生成文件,减少了生成文件的工作量,能够提高数据导入的效率,从而提高了数据处理的效率。

另外,由于图数据中存储的关系型数据包括各个节点的节点数据,其中,节点的节点数据包括:节点标识以及节点属性。因此,以结构化数据的标识为节点标识、且以结构化数据包含的字段值为节点属性能够较为准确地生成每一结构化数据所对应节点的节点数据。又由于图数据库中存储的关系型数据还包括表示各个节点间关系的关系数据,也就是上述关系数据用于表示节点间的关系,而预设的关系字段信息包括:结构化数据中存在关系的字段值以及存在关系的字段值间的关系信息,上述关系信息用于表示存在关系的字段值间的关系,因此,根据预设的关系字段信息,能够较为准确地生成各个结构化数据所对应节点间的关系数据。从而使得所获得的包含所生成节点数据以及关系数据的文件为图数据中能够存储的关系型数据,提高了数据导入效率,进一步提高了数据处理的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种图数据库的示意图;

图2为本发明实施例提供的第一种数据处理方法的流程示意图;

图3为本发明实施例提供的第二种数据处理方法的流程示意图;

图4为本发明实施例提供的第三种数据处理方法的流程示意图;

图5为本发明实施例提供的第四种数据处理方法的流程示意图;

图6为本发明实施例提供的第一种数据处理装置的结构示意图;

图7为本发明实施例提供的第二种数据处理装置的结构示意图;

图8为本发明实施例提供的第三种数据处理装置的结构示意图;

图9为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

首先,对本发明实施例涉及到的概念进行解释。

1、结构化数据

结构化数据是用统一的数据结构表示的数据。例如,结构化数据可以用二维表结构来表示。

以表1为例,表1示出了一种存储结构化数据的二维表。

表1

姓名 性别 年龄
张三 20
李四 30

在表1中,“姓名、性别、年龄”为各个字段标识。字段标识用于区分字段值。

具体的,“张三、李四”分别为字段标识为姓名的字段值,“男、女”分别为字段标识为性别的字段值,“20、30”分别为字段标识为年龄的字段值。

由表1可知,每一行的结构化数据可以表示一个实体的信息。其中,一行结构化数据也可以称为一条结构化数据。

2、图数据库

图数据库是一种存储关系型数据的数据库。常见的图数据库包括:Neo4j、JanusGraph等。

图数据库中存储的关系型数据包括:各个节点的节点数据以及表示各个节点间关系的关系数据。

其中,节点的节点数据可以包括:节点标识以及节点属性。

具体的,节点标识用于区分不同的节点。

节点属性为节点的属性,不同的节点具有不同的节点属性,一个节点所具有的节点属性与该节点对应的实体相关。例如:假设有两个节点,其中第一个节点对应的实体为实体1,第二个节点对应的实体为实体2,实体1的实体属性包括:小明、男、18岁,实体2的实体属性包括:小红、女、19岁,那么第一个节点的节点属性为:小明、男、18岁,第二个节点的节点属性为;小红、女、19岁。

一个节点的各个节点属性对应各个属性标识,不同节点的节点属性可以对应同一属性标识。

例如:沿用上述例子,假设属性标识为名称、性别、年龄。

第一个节点的节点属性为小明对应属性标识为名称、节点属性为男对应属性标识为性别、节点属性为18岁对应属性标识为年龄。

第二个节点的节点属性为小红对应属性标识为名称、节点属性为女对应属性标识为性别、节点属性为19岁对应属性标识为年龄。

节点属性对应属性标识为名称的节点属性包括:小明、小红。

节点属性对应属性标识为性别的节点属性包括:男、女。

节点属性对应属性标识为年龄的节点属性包括:18岁、19岁。

上述关系数据用于表示节点间的关系。

以图1为例,图1为本发明实施例提供的一种图数据库的示意图。在图1中,各个椭圆框表示各个节点,椭圆框内的文字为节点的节点数据,椭圆框间带有箭头的连线表示连线两侧的椭圆框对应的节点间存在关系,椭圆框间带有箭头的连线上的文字表示连线两侧的椭圆框对应的节点间关系的关系数据。

图1中包括两个节点。其中,“节点1、中国”为左侧节点的节点数据,具体的,“节点1”为左侧节点的节点标识,“中国”为左侧节点的节点属性。

类似的,“节点2、北京”为右侧节点的节点数据,具体的,“节点2”为右侧节点的节点标识,“北京”为右侧节点的节点属性。

由于左侧节点与右侧节点间带有箭头的连线从右侧节点指向左侧节点,因此,左侧节点与右侧节点间存在关系。又由于带有箭头的连线上的文字为:属于,因此,左侧节点与右侧节点间的关系数据为:右侧节点属于左侧节点。

参见图2,图2为本发明实施例提供的第一种数据处理方法的流程示意图,上述方法包括S201-S204。

S201:获得待处理的结构化数据。

具体的,可以从预设的结构化数据库中获得待处理的结构化数据。上述预设的结构化数据库可以是工作人员或者用户预先设定的结构化数据库。

本发明的一个实施例中,可以接收用户或者工作人员预先设定的数据处理参数信息,上述数据处理参数信息包括:数据库链接、数据源的名称、数据存储路径等。具体的,可以根据数据库链接确定数据源,从数据源中获得待处理的结构化数据,还可以根据数据源的名称确定数据源,从数据源中获得待处理的结构化数据,还可以根据数据存储路径获得待处理的结构化数据。

S202:以结构化数据的标识为节点标识、且以结构化数据包含的字段值为节点属性,生成每一结构化数据所对应节点的节点数据。

由于图数据库中存储的关系型数据包括:各个节点的节点数据以及表示各个节点间关系的关系数据。其中,节点的节点数据包括:节点标识以及节点属性。因此,可以以结构化数据的标识为节点标识、且以结构化数据包含的字段值为节点属性,生成每一结构化数据所对应节点的节点数据。

上述节点标识用于区分不同节点,不同的节点对应不同的节点标识,也就是节点与节点标识是一一对应的关系。由于节点标识是基于结构化数据的标识所确定的,因此,本发明的一个实施例中,可以以每一条结构化数据为单位,确定每一条结构化数据的标识。

例如:以上述表1为例,可以将表1中第一行的结构化数据的标识确定为ID1,第二行的结构化数据的标识确定为ID2。

这样,以每一条结构化数据为单位,能够使得所确定的每一条结构化数据的标识具有唯一性。

具体的,在生成每一结构化数据所对应节点的节点数据时,将结构化数据的标识作为节点标识、且将结构化数据包含的字段值作为节点属性。

例如:沿用上述表1以及上述例子,第一行的结构化数据的标识为ID1,因此,第一行的结构化数据所对应节点的节点标识为ID1。第二行的结构化数据的标识为ID2,因此,第二行的结构化数据所对应节点的节点标识为ID2。

第一行的结构化数据包含的字段值为“张三、男、20”,因此,第一行的结构化数据所对应节点的节点属性为“张三、男、20”。第二行的结构化数据包含的字段值为“李四、女、30”,因此,第二行的结构化数据所对应节点的节点属性为“李四、女、30”。

S203:根据预设的关系字段信息,生成各个结构化数据所对应节点间的关系数据。

上述预设的关系字段信息包括:结构化数据中存在关系的字段值、以及存在关系的字段值间的关系信息。

上述预设的关系字段信息可以用以下方式表示。

第一种方式:预设的关系字段信息包括:起始字段值、终止字段值、表示起始字段值与终止字段值间关系的关系信息。

例如:预设的关系字段信息包括:起始字段值为北京,终止字段值为中国,关系信息为;北京与中国间的关系为属于关系。

第二种方式:预设的关系字段信息为:包括结构化数据中存在关系的字段值以及存在关系的字段值间的关系信息的一句话。

例如:假设预设的关系字段信息为:北京是中国的首都。对上述预设的关系字段信息进行语义识别,可以获得结构化数据中存在关系的字段值为:中国、北京,并对上述预设的关系字段信息进行语义分析,可以确定“中国”与“北京”间的关系为:北京属于中国、且北京是中国的首都。因此可以确定“北京”为起始字段值,“中国”为终止字段值。上述存在关系的字段值间的关系信息为:北京属于中国、且北京是中国的首都。

上述预设的关系字段信息可以由工作人员或者用户预先设定的。

由于上述节点间的关系数据用于表示节点间的关系,而上述预设的关系字段信息能够用于反映存在关系的字段值间的关系。因此,可以根据预设的关系字段信息,生成各个结构化数据所对应节点间的关系数据。

具体的,根据预设的关系字段信息中字段值以及关系信息,可以获得各个结构化数据所对应节点间的关系,根据所获得的关系,生成各个结构化数据所对应节点间的关系数据。

S204:获得包含节点数据以及关系数据的文件,并将文件导入至图数据库中。

由于图数据库是一种存储关系型数据的数据库。而图数据库中存储的关系型数据包括:各个节点的节点数据以及表示各个节点间关系的关系数据。因此,基于上述S202、S203中所生成的节点数据以及关系数据,可以获得包含所生成的节点数据以及关系数据的文件,将文件导入至图数据库中。

在上述将文件导入至图数据库中时,可以调用图数据库的文件导入接口,从而将文件导入至图数据库中。还可以基于cypher语言或者基于编程语言的第三方插件方法将文件导入至图数据库中。

本发明的一个实施例中,可以按照以下方式实现上述S204中获得包含节点数据以及关系数据的文件。

按照预设的文件格式需求,生成包含节点数据以及关系数据的文件,并按照预设的文件存储需求,存储文件。

具体的,上述预设的文件格式需求、预设的文件存储需求可以是由工作人员或者用户预先设定的。预设的文件格式需求规定了所生成的文件格式,例如:上述文件格式可以是PDF、XML等格式。预设的文件存储需求规定了所生成的文件格式的存储方式,例如:上述存储方式可以包括按照预设的存储路径进行存储、在预设位置进行存储等。

例如:假设预设的文件格式需求规定了文件格式为XML格式,预设的文件存储需求规定了按照存储路径1存储所生成的文件。那么可以生成包含所生成节点数据以及关系数据的XML格式的文件,并按照存储路径1存储上述文件。

这样,按照预设的文件格式需求以及预设的文件存储需求生成文件,以使得所获得的文件符合文件格式需求以及文件存储需求,保证文件能够导入至图数据库中。

由以上可见,应用本实施例提供的方案进行数据处理时,以待处理的结构化数据的标识为节点标识、且以上述结构化数据包含的字段值为节点属性,生成每一结构化数据所对应节点的节点数据;并根据预设的关系字段信息中的存在关系的字段值、以及存在关系的字段值间的关系信息,生成各个结构化数据所对应节点间的关系数据,并将包含所生成节点数据以及关系数据的文件导入至图数据库中。相较于现有技术,不需要工作人员手动生成文件,减少了生成文件的工作量,能够提高数据导入的效率,从而提高了数据处理的效率。

另外,由于图数据中存储的关系型数据包括各个节点的节点数据,其中,节点的节点数据包括:节点标识以及节点属性。因此,以结构化数据的标识为节点标识、且以结构化数据包含的字段值为节点属性能够较为准确地生成每一结构化数据所对应节点的节点数据。又由于图数据库中存储的关系型数据还包括表示各个节点间关系的关系数据,也就是上述关系数据用于表示节点间的关系,而预设的关系字段信息包括:结构化数据中存在关系的字段值以及存在关系的字段值间的关系信息,上述关系信息用于表示存在关系的字段值间的关系,因此,根据预设的关系字段信息,能够较为准确地生成各个结构化数据所对应节点间的关系数据。从而使得所获得的包含所生成节点数据以及关系数据的文件为图数据中能够存储的关系型数据,提高了数据导入效率,进一步提高了数据处理的效率。

参见图3,图3为本发明实施例提供的第二种数据处理方法的流程示意图,在上述S201中可以包括S201A-S201B。

S201A:从预设的数据源中获得结构化数据,对所获得的结构化数据进行数据清洗。

上述预设的数据源可以是用户或者工作人员预先设定的数据源。

由于数据源中存储了结构化数据库的信息,因此,可以根据数据源中的结构化数据库的信息,确定结构化数据库,从所确定的结构化数据库中获得结构化数据。具体的,可以根据预设的数据源名称确定数据源。

由于所获得的结构化数据中可能包含无效数据、重复数据等数据,因此,可以对所获得的结构化数据进行数据清洗。上述数据清洗方法又可以称为数据预处理方法。

本发明的一个实施例中,上述数据清洗可以包括:数据去重、字段合并。

具体的,数据去重为:删除所获得的结构化数据中发生重复的数据。字段合并为:将所获得的结构化数据中属于同一字段的字段值进行合并。

S201B:基于预设的标识映射关系,将清洗后的结构化数据中字段值对应的字段标识映射为节点属性对应的属性标识,将映射标识后的结构化数据作为待处理的结构化数据。

由于结构化数据中字段值对应的字段标识与节点属性对应的属性标识可能会不一致,在这种情况下,可能会使得数据导入失败。因此,可以将清洗后的结构化数据中字段值对应的字段标识映射为节点属性对应的属性标识。

上述预设的标识映射关系可以为工作人员或者用户预先设定的标识映射关系。

具体的,可以获得清洗后的结构化数据中字段值对应的字段标识,基于预设的标识映射关系,将各个字段标识映射为各个属性标识。

例如:假设预设的标识映射关系如表2所示。

表2

姓名 Name
年龄 Age

在表2中,左列中各个数据表示字段标识,右列中各个数据表示属性标识。由表2可知,预设的标识映射关系为:“姓名-Name”、“年龄-Age”。

所获得的清洗后结构化数据如表3所示。

表3

姓名 年龄
小明 5
小红 6

在表3中,“姓名、年龄”为字段标识,“小明、小红”为字段标识为姓名的字段值,“5、6”为字段标识为年龄的字段值。

基于预设的标识映射关系,映射后的结构化数据如表4所示。

表4

Name Age
小明 5
小红 6

在表4中,“Name、Age”为映射后的字段标识,“小明、小红”为字段标识为Name的字段值,“5、6”为字段标识为Age的字段值。

这样,对从预设的数据源中所获得的结构化数据进行数据清洗,能够剔除所获得的结构化数据中无效数据、重复数据等数据。并且,基于预设的标识映射关系,将清洗后的结构化数据中字段值对应的字段标识映射为节点属性对应的属性标识,能够提高数据导入的成功率,从而提高数据处理的效率。

本发明的一个实施例中,可以按照以下方式实现上述S201A2中的将映射标识后的结构化数据作为待处理的结构化数据。

按照预设的字段值格式,对映射标识后的结构化数据中的字段值进行格式调整,将调整后的结构化数据作为待处理的结构化数据。

上述预设的字段值格式可以是工作人员或者用户预先设定的。具体的,字段值格式可以规定时间格式、字体大小格式等。

由于映射标识后的结构化数据中的字段值格式可能不统一或者不规范,因此,按照预设的字段值格式,可以对映射标识后的结构化数据中的字段值进行格式调整,能够提高数据导入的成功率,从而提高了数据处理的效率。

参见图4,图4为本发明实施例提供的第三种数据处理方法的流程示意图,在上述S203中可以包括S203A-S203B。

S203A:确定节点属性中包括预设的关系字段信息中的字段值的节点。

由于在上述S202中,所生成节点的节点数据包括节点标识以及节点属性,其中,节点属性是根据结构化数据包含的字段值所确定的。而预设的关系字段信息中包括结构化数据中存在关系的字段值,因此,可以确定节点属性中包括预设的关系字段信息中的字段值的节点。

具体的,可以根据预设的关系字段信息中的字段值,在上述S202中生成的节点属性中查找与上述字段值相同的节点属性,这一查找过程又可以称为特征匹配。根据查找到的节点属性,确定与上述节点属性对应的节点。确定上述节点的过程又可以称为实体链接。

例如:假设有三个节点,第一个节点的节点属性为中国,第二个节点的节点属性为北京,第三个节点的节点属性为上海。预设的关系字段信息中的字段值为:中国、北京。由于节点1的节点属性包括上述字段值中的中国,节点2的节点属性包括上述字段值中的北京。因此,可以确定第一个节点、第二个节点。

S203B:根据预设的关系字段信息中的关系信息,生成所确定节点间的关系数据。

由于上述节点间的关系数据用于表示节点间的关系,而上述预设的关系字段信息能够用于反映存在关系的字段值间的关系,因此,可以根据预设的关系字段信息,生成各个结构化数据所对应节点间的关系数据。

具体的,在上述S203A确定节点后,根据预设的关系字段信息中的关系信息,可以确定所确定的节点间的关系,根据所确定的关系,生成关系数据。

例如:假设预设的关系字段信息中的关系信息为:北京是中国的首都,根据上述关系信息,可以确定节点属性为北京的节点a与节点属性为中国的节点b间的关系,进而生成节点a与节点b间的关系数据。

这样,由于节点属性是根据结构化数据包含的字段值所确定的,预设的关系字段信息中包括结构化数据中存在关系的字段值,因此,能够较为准确地确定节点属性中包括预设的关系字段信息中的字段值的节点。另外,由于预设的关系字段信息中的关系信息能够表示存在关系字段值间的关系,因此,能够更为准确地生成节点间的关系数据。

以下以一个具体实施例对本发明实施例提供的方案进行具体说明。参见图5,图5为本发明实施例提供的第四种数据处理方法的流程示意图。图5中包括S501-S507。

S501:获得待处理的结构化数据。

接收用户或者工作人员预先设定的数据处理参数信息,上述数据处理参数信息包括:数据库链接、数据源的名称、数据存储路径等。可以根据数据库链接确定数据源,从数据源中获得待处理的结构化数据,还可以根据数据源的名称确定数据源,从数据源中获得待处理的结构化数据,还可以根据数据存储路径获得待处理的结构化数据。

S502:对待处理的结构化数据进行预处理。

上述预处理可以包括:数据去重、字段合并等。

S503:标识映射。

基于预设的标识映射关系,将预处理后的结构化数据中字段值对应的字段标识映射为节点属性对应的属性标识。

S504:生成节点的节点数据。

以结构化数据的标识为节点标识、且以结构化数据包含的字段值为节点属性,生成每一结构化数据所对应节点的节点数据。

S505:生成节点间的关系数据。

根据预设的关系字段信息,按照实体链接方式,生成各个结构化数据所对应节点间的关系数据。

S506:对所生成的节点数据以及关系数据进行后处理。

其中,上述后处理可以包括:生成包含所生成节点数据以及关系数据的文件、按照预设的文件格式需求生成包含所生成节点数据以及关系数据的文件、按照预设的文件存储需求存储文件等。

S507:将处理后的数据导入至图数据库中。

与上述数据处理方法相对应,本发明实施例还提供了一种数据处理装置。

参见图6,图6为本发明实施例提供的第一种数据处理装置的结构示意图,上述装置包括601-604。

结构化数据获得模块601,用于获得待处理的结构化数据;

节点数据生成模块602,用于以结构化数据的标识为节点标识、且以结构化数据包含的字段值为节点属性,生成每一结构化数据所对应节点的节点数据;

关系数据生成模块603,用于根据预设的关系字段信息,生成各个结构化数据所对应节点间的关系数据,其中,所述预设的关系字段信息包括:结构化数据中存在关系的字段值、以及存在关系的字段值间的关系信息;

数据导入模块604,用于获得包含所述节点数据以及所述关系数据的文件,并将所述文件导入至图数据库中。

由以上可见,应用本实施例提供的方案进行数据处理时,以待处理的结构化数据的标识为节点标识、且以上述结构化数据包含的字段值为节点属性,生成每一结构化数据所对应节点的节点数据;并根据预设的关系字段信息中的存在关系的字段值、以及存在关系的字段值间的关系信息,生成各个结构化数据所对应节点间的关系数据,并将包含所生成节点数据以及关系数据的文件导入至图数据库中。相较于现有技术,不需要工作人员手动生成文件,减少了生成文件的工作量,能够提高数据导入的效率,从而提高了数据处理的效率。

另外,由于图数据中存储的关系型数据包括各个节点的节点数据,其中,节点的节点数据包括:节点标识以及节点属性。因此,以结构化数据的标识为节点标识、且以结构化数据包含的字段值为节点属性能够较为准确地生成每一结构化数据所对应节点的节点数据。又由于图数据库中存储的关系型数据还包括表示各个节点间关系的关系数据,也就是上述关系数据用于表示节点间的关系,而预设的关系字段信息包括:结构化数据中存在关系的字段值以及存在关系的字段值间的关系信息,上述关系信息用于表示存在关系的字段值间的关系,因此,根据预设的关系字段信息,能够较为准确地生成各个结构化数据所对应节点间的关系数据。从而使得所获得的包含所生成节点数据以及关系数据的文件为图数据中能够存储的关系型数据,提高了数据导入效率,进一步提高了数据处理的效率。

参见图7,图7为本发明实施例提供的第二种数据处理装置的结构示意图,上述关系数据生成模块603包括603A-603B。

节点确定子模块603A,用于确定所述节点属性中包括预设的关系字段信息中的所述字段值的节点;

关系数据生成子模块603B,用于根据所述预设的关系字段信息中的所述关系信息,生成所确定节点间的关系数据。

这样,由于节点属性是根据结构化数据包含的字段值所确定的,预设的关系字段信息中包括结构化数据中存在关系的字段值,因此,能够较为准确地确定节点属性中包括预设的关系字段信息中的字段值的节点。另外,由于预设的关系字段信息中的关系信息能够表示存在关系字段值间的关系,因此,能够更为准确地生成节点间的关系数据。

参见图8,图8为本发明实施例提供的第三种数据处理装置的结构示意图,上述结构化数据获得模块601包括601A-601B。

数据清洗子模块601A,用于从预设的数据源中获得结构化数据,对所获得的结构化数据进行数据清洗;

标识映射子模块601B,用于基于预设的标识映射关系,将清洗后的结构化数据中字段值对应的字段标识映射为节点属性对应的属性标识,将映射标识后的结构化数据作为待处理的结构化数据。

这样,对从预设的数据源中所获得的结构化数据进行数据清洗,能够剔除所获得的结构化数据中无效数据、重复数据等数据。并且,基于预设的标识映射关系,将清洗后的结构化数据中字段值对应的字段标识映射为节点属性对应的属性标识,能够提高数据导入的成功率,从而提高数据处理的效率。

本发明的一个实施例中,上述标识映射子模块据,具体用于基于预设的标识映射关系,将清洗后的结构化数据中字段值对应的字段标识映射为节点属性对应的属性标识,按照预设的字段值格式,对映射标识后的结构化数据中的字段值进行格式调整,将调整后的结构化数据作为待处理的结构化数据。

由于映射标识后的结构化数据中的字段值格式可能不统一或者不规范,因此,按照预设的字段值格式,可以对映射标识后的结构化数据中的字段值进行格式调整,能够提高数据导入的成功率,从而提高了数据处理的效率。

本发明的一个实施例中,上述数据处理模块,具体用于按照预设的文件格式需求,生成包含所述节点数据以及所述关系数据的文件,并按照预设的文件存储需求,存储所述文件,将所述文件导入至图数据库中。

这样,按照预设的文件格式需求以及预设的文件存储需求生成文件,以使得所获得的文件符合文件格式需求以及文件存储需求,保证文件能够导入至图数据库中。

与上述数据处理方法相对应,本发明实施例还提供了一种电子设备。

参见图9,图9为本发明实施例提供的一种电子设备的结构示意图,包括处理器901、通信接口902、存储器903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信,

存储器903,用于存放计算机程序;

处理器901,用于执行存储器903上所存放的程序时,实现本发明实施例提供的数据处理方法。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例提供的数据处理方法。

在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行时实现本发明实施例提供的数据处理方法。

由以上可见,应用本实施例提供的方案进行数据处理时,以待处理的结构化数据的标识为节点标识、且以上述结构化数据包含的字段值为节点属性,生成每一结构化数据所对应节点的节点数据;并根据预设的关系字段信息中的存在关系的字段值、以及存在关系的字段值间的关系信息,生成各个结构化数据所对应节点间的关系数据,并将包含所生成节点数据以及关系数据的文件导入至图数据库中。相较于现有技术,不需要工作人员手动生成文件,减少了生成文件的工作量,能够提高数据导入的效率,从而提高了数据处理的效率。

另外,由于图数据中存储的关系型数据包括各个节点的节点数据,其中,节点的节点数据包括:节点标识以及节点属性。因此,以结构化数据的标识为节点标识、且以结构化数据包含的字段值为节点属性能够较为准确地生成每一结构化数据所对应节点的节点数据。又由于图数据库中存储的关系型数据还包括表示各个节点间关系的关系数据,也就是上述关系数据用于表示节点间的关系,而预设的关系字段信息包括:结构化数据中存在关系的字段值以及存在关系的字段值间的关系信息,上述关系信息用于表示存在关系的字段值间的关系,因此,根据预设的关系字段信息,能够较为准确地生成各个结构化数据所对应节点间的关系数据。从而使得所获得的包含所生成节点数据以及关系数据的文件为图数据中能够存储的关系型数据,提高了数据导入效率,进一步提高了数据处理的效率。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

20页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于局部天区误差校正的面向星表数据的时序重构方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!