一种基于统一访问分布式集成多源异构数据的方法及系统

文档序号:1831336 发布日期:2021-11-12 浏览:13次 >En<

阅读说明:本技术 一种基于统一访问分布式集成多源异构数据的方法及系统 (Method and system for integrating multi-source heterogeneous data based on uniform access distribution ) 是由 岑维聪 吕广宪 李运硕 冯德志 陆一鸣 刘鹏 王国庆 于 2020-11-23 设计创作,主要内容包括:本申请公开了一种基于统一访问分布式集成多源异构数据的方法及系统。其中,该方法,将多源异构数据按照数据类型分别存储在不同数据库中,数据类型包括结构化数据、半结构化数据以及非结构化数据;在数据应用模块向统一访问服务模块发送数据操作请求后,基于预先建立的数据融合访问模型,利用数据网关组件对数据操作请求进行加密;利用语义解析运行引擎组件对数据操作请求进行解析,并且利用数据缓存组件将对数据操作请求进行存储;利用数据路由组件调度与数据操作请求对应的多源异构数据;利用数据管理组件,基于统一访问分布式将与数据操作请求对应的多源异构数据进行集成,得到集成结果。(The application discloses a method and a system for integrating multi-source heterogeneous data based on uniform access distribution. The method comprises the steps of respectively storing multi-source heterogeneous data in different databases according to data types, wherein the data types comprise structured data, semi-structured data and unstructured data; after the data application module sends a data operation request to the unified access service module, the data operation request is encrypted by using a data gateway component based on a pre-established data fusion access model; analyzing the data operation request by utilizing a semantic analysis running engine component, and storing the data operation request by utilizing a data cache component; scheduling multi-source heterogeneous data corresponding to the data operation request by using the data routing component; and integrating the multi-source heterogeneous data corresponding to the data operation request based on the uniform access distribution by using the data management component to obtain an integration result.)

一种基于统一访问分布式集成多源异构数据的方法及系统

技术领域

本申请涉及大数据技术领域,特别是涉及一种基于统一访问分布式集成多 源异构数据的方法及系统。

背景技术

电网大数据时代的到来,意味着电网企业的数据已告别以往数据类型较为 单一、增长较为缓慢的时代,智能变电站系统、设备与资产管理、现场移动检 修系统、GIS系统、智能表计等,将带来几何级增长的数据量,以及更加复杂 的数据来源,如何快速应用这巨量的多样化数据,使其发挥更大的价值,需要 应用大数据理念与技术。

国网公司的海量数据处理平台实施重点在海量数据存储管理和简单查询应 用等方面,其关键实现只是完成了大数据技术理念中的体量大的技术特性,并 没有深度涉及多样性、价值挖掘和快速处理等,也根本未涉及到分布式处理技 术。

全业务统一数据中心的数据规格形态各异,既有关系型数据库中结构化的 数据,又有存储于XML、Excel等文件中的半结构化的数据以及非结构化的数 据,这样复杂的数据现状使得各系统间数据的共享成为一大难题。因此,需要 统一访问服务来高效的解决跨系统数据共享,解决企业在进行资源整合、共享 和服务过程中面临的一大难题。

针对上述的现有技术中存在的全业务统一数据中心的数据规格形态各异, 既有关系型数据库中结构化的数据,又有存储于XML、Excel等文件中的半结 构化的数据以及非结构化的数据,这样复杂的数据现状使得各系统间数据的共 享成为一大难题的技术问题,目前尚未提出有效的解决方案。

发明内容

本公开的实施例提供了一种基于统一访问分布式集成多源异构数据的方法 及系统,以至少解决现有技术中存在的全业务统一数据中心的数据规格形态各 异,既有关系型数据库中结构化的数据,又有存储于XML、Excel等文件中的 半结构化的数据以及非结构化的数据,这样复杂的数据现状使得各系统间数据 的共享成为一大难题的技术问题。

根据本公开实施例的一个方面,提供了一种基于统一访问分布式集成多源 异构数据的方法,包括:将多源异构数据按照数据类型分别存储在不同数据库 中,数据类型包括结构化数据、半结构化数据以及非结构化数据;在数据应用 模块向统一访问服务模块发送数据操作请求后,基于预先建立的数据融合访问 模型,利用数据网关组件对数据操作请求进行加密;利用语义解析运行引擎组 件对数据操作请求进行解析,并且利用数据缓存组件将对数据操作请求进行存 储;利用数据路由组件调度与数据操作请求对应的多源异构数据;利用数据管 理组件,基于统一访问分布式将与数据操作请求对应的多源异构数据进行集成, 得到集成结果。

根据本公开实施例的另一方面,还提供了一种基于统一访问分布式集成多 源异构数据的系统,该系统包括数据存储模块、统一访问服务模块以及数据应 用模块,数据存储模块用于将多源异构数据按照数据类型分别存储在不同数据 库中,数据类型包括结构化数据、半结构化数据以及非结构化数据;统一访问 服务模块用于在数据应用模块向统一访问服务模块发送数据操作请求后,基于 预先建立的数据融合访问模型,数据操作请求进行加密、解析以及存储,基于 统一访问分布式对多源异构数据进行集成,获得集成结果;以及数据应用模块 用于调用统一访问服务模块,实现业务需求。

在本发明中,通过统一访问服务能够灵活高效的处理海量数据、使用统一 的访问接口透明访问分布异构的数据库,中间件抽象了底层分布环境的复杂性 和异构性,对应用层和数据源层进行解耦,降低了通信信息系统的开发难度, 提高了系统的可维护性和可扩展性,实现能够处理海量数据和透明访问异构数 据库的数据访问系统。进而解决了现有技术中存在的全业务统一数据中心的数 据规格形态各异,既有关系型数据库中结构化的数据,又有存储于XML、Excel 等文件中的半结构化的数据以及非结构化的数据,这样复杂的数据现状使得各 系统间数据的共享成为一大难题的技术问题。

附图说明

此处所说明的附图用来提供对本公开的进一步理解,构成本申请的一部分, 本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限 定。在附图中:

图1是根据本公开实施例1的第一个方面所述的一种基于统一访问分布式 集成多源异构数据的方法的流程示意图;

图2是根据本公开实施例所述的数据存储结构的示意图;

图3是根据本公开实施例所述的统一访问服务框架的示意图;以及

图4是根据本公开实施例所述的一种基于统一访问分布式集成多源异构数 据的系统的示意图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不 同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详 尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的 范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。 在附图中,相同的单元/元件使用相同的附图标记。

除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术 人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术 语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理 想化的或过于正式的意义。

根据本实施例的第一个方面,提供了一种基于统一访问分布式集成多源异 构数据的方法100。图1示出了该方法的流程示意图,参考图1所示,该方法 包括:

S102:将多源异构数据按照数据类型分别存储在不同数据库中,数据类型 包括结构化数据、半结构化数据以及非结构化数据;

S104:在数据应用模块向统一访问服务模块发送数据操作请求后,基于预 先建立的数据融合访问模型,利用数据网关组件对数据操作请求进行加密;

S106:利用语义解析运行引擎组件对数据操作请求进行解析,并且利用数 据缓存组件将对数据操作请求进行存储;

S108:利用数据路由组件调度与数据操作请求对应的多源异构数据;

S110:利用数据管理组件,基于统一访问分布式将与数据操作请求对应的 多源异构数据进行集成,得到集成结果。

具体地,本发明分为两个方面:数据存储和数据统一访问服务。

数据存储主要面向全类型数据(结构化、半结构化、实时、非结构化)的 存储、查询,以海量规模存储、快速查询读取为特征。在低成本硬件(X86)、 磁盘的基础上,采用包括分布式文件系统、分布式关系型数据库、NoSQL数据 库、实时数据库、内存数据库等业界典型功能系统,支撑数据处理高级应用。

(1)关系数据存储

关系型数据库主要定位一方面是作为元数据、主数据的存储,另一方面作 为部分管理、运维类应用的底层数据库,与原有业务系统数据进行交换和联合 查询。关系型数据库作为分布式文件系统与分布式数据库的补充和强化,可以 满足各类数据的存储需求。

(2)分布式文件系统

分布式文件系统是建立在低成本X86硬件上的分布式文件系统集群,采用 主从结构,由主节点负责分布式文件系统的元数据管理和提供统一的命名空间, 由数量众多的数据节点负责数据IO处理和计算。

在国网大数据平台中采用统一的底层分布式文件系统,所有数据汇聚存储 在该文件系统之上,支持纠删码功能以及文件加密存储,同时数据文件将被划 分成一个或多个数据块,并分散存储在不同的数据节点上,数据块有多个冗余, 以解决硬件故障导致的数据丢失问题。

(3)分布式数据库

分布式数据库存储解决关系型数据库在处理海量数据时的理论和实现上的 局限性,实现海量数据的OLTP类秒级检索查询和OLAP类高速数据分析应用 需求。通常实时分布式数据库由管理服务器与多个数据服务器组成。

统一访问服务,基于数据融合访问模型,提供数据路由、数据网关等功能, 形成数据服务组件,实现分布式文件系统、分布式数据仓库、非关系型数据库、 关系型数据库的标准SQL数据操作、安全权限控制和数据缓存,支撑业务应用 统一访问各类数据资源。

数据应用向统一访问服务发送数据操作请求,数据网关对请求进行加密和 下发,语义解析运行引擎对请求进行解析,解析后优先访问数据缓存,服务通 过数据路由调度各个数据节点之间的数据,将执行结果返回到数据缓存中去。 在获得操作结果后,服务将结果继续通过数据网关返回给数据应用。

(1)定义统一的数据访问接口

定义统一的访问接口,这样应用系统可以通过远程访问中间件的接口与数 据库进行交互,方便系统的集成和维护。

(2)屏蔽底层数据库差异,提供透明访问功能

服务屏蔽底层数据库差异的机制,应用系统能够透明的访问布在不同的网 络节点上的数据库,就像访问本地数据库一样。

(3)对海量数据的快速查询

将用户的查询请求分解为多个子查询,实现分布式并行查询,从而高效的 利用系统资源,能够快速响应用户查询请求。

(4)对数据集传输

统一访问服务支持网络传递数据结果集的功能,应用系统能够在本地进行 数据集操作。

(5)提供良好的事务安全性

统一访问服务保证在多用户访问时,维护数据库的数据一致性和完整性。

从而,根据一种基于统一访问分布式集成多源异构数据的方法100,通过 统一访问服务能够灵活高效的处理海量数据、使用统一的访问接口透明访问分 布异构的数据库,中间件抽象了底层分布环境的复杂性和异构性,对应用层和 数据源层进行解耦,降低了通信信息系统的开发难度,提高了系统的可维护性 和可扩展性,实现能够处理海量数据和透明访问异构数据库的数据访问系统。 进而解决了现有技术中存在的全业务统一数据中心的数据规格形态各异,既有 关系型数据库中结构化的数据,又有存储于XML、Excel等文件中的半结构化 的数据以及非结构化的数据,这样复杂的数据现状使得各系统间数据的共享成 为一大难题的技术问题。

可选地,将多源异构数据按照数据类型分别存储在不同数据库中,包括: 将主数据以及元数据存储在关系型数据库中;通过分布式文件系统批量加载多 源异构数据以及压缩多源异构数据数据;以及通过分布式数据库实现多源异构 数据的联机事务处理类秒级检索查询和联机分析处理类高速数据分析。

具体地,参考图2所示,将主数据以及元数据存储在关系型数据库中。通 过分布式文件系统批量加载多源异构数据以及压缩多源异构数据数据,并且实 现文件存储以及多副本和容错。通过分布式数据库实现多源异构数据的联机事 务处理类秒级检索查询和联机分析处理类高速数据分析,例如:列式存储、内 存存储、快速读写以及线性扩展。本方法中将数据分为三种存储方式:关系型 数据库、分布式文件系统、分布式数据库。不同类型存储方式负责不同职责。

可选地,该方法还包括:将集成结果返回至数据存储组件,并将集成结果 发送至数据应用模块,实现业务需求。

从而,通过统一访问服务能够灵活高效的处理海量数据、使用统一的访问 接口透明访问分布异构的数据库,中间件抽象了底层分布环境的复杂性和异构 性,对应用层和数据源层进行解耦,降低了通信信息系统的开发难度,提高了 系统的可维护性和可扩展性,实现能够处理海量数据和透明访问异构数据库的 数据访问系统。进而解决了现有技术中存在的全业务统一数据中心的数据规格 形态各异,既有关系型数据库中结构化的数据,又有存储于XML、Excel等文 件中的半结构化的数据以及非结构化的数据,这样复杂的数据现状使得各系统 间数据的共享成为一大难题的技术问题。

根据本实施例的第一个方面,提供了一种基于统一访问分布式集成多源异 构数据的系统400。参考图4所示,该系统400包括数据存储模块410、统一访 问服务模块420以及数据应用模块430,数据存储模块410用于将多源异构数 据按照数据类型分别存储在不同数据库中,数据类型包括结构化数据、半结构 化数据以及非结构化数据;统一访问服务模块420用于在数据应用模块向统一 访问服务模块发送数据操作请求后,基于预先建立的数据融合访问模型,数据 操作请求进行加密、解析以及存储,基于统一访问分布式对多源异构数据进行 集成,获得集成结果;以及数据应用模块430用于调用统一访问服务模块,实现业务需求。

参考图3所示,图3为统一访问服务框架。在数据应用模块与数据存储模 块之间添加了一个统一访问服务模块,该模块包括数据路由组件、语义解析运 行引擎组件、数据缓存组件、数据管理组件以及数据网关组件组成。数据应用 模块向统一访问服务模块发送数据操作请求,数据网关组件对请求进行加密和 下发,语义解析运行引擎组件对请求进行解析,解析后优先访问数据缓存组件, 服务通过数据路由组件调度各个数据节点之间的数据,将执行结果返回到数据 缓存组件中去。在获得操作结果后,统一访问服务模块将结果继续通过数据网 关组件返回给数据应用模块。

可选地,统一访问服务模块420包括网关组件、语义解析运行引擎组件、 数据缓存组件、数据路由组件以及数据管理组件。

可选地,数据网关组件用于对数据操作请求进行加密。

可选地,语义解析运行引擎组件对数据操作请求进行解析。

可选地,数据缓存组件将对数据操作请求进行存储。

可选地,利用数据路由组件调度与数据操作请求对应的多源异构数据。

可选地,利用数据管理组件,基于统一访问分布式将与数据操作请求对应 的多源异构数据进行集成,得到集成结果。

从而,从而,根据一种基于统一访问分布式集成多源异构数据的系统400, 通过统一访问服务能够灵活高效的处理海量数据、使用统一的访问接口透明访 问分布异构的数据库,中间件抽象了底层分布环境的复杂性和异构性,对应用 层和数据源层进行解耦,降低了通信信息系统的开发难度,提高了系统的可维 护性和可扩展性,实现能够处理海量数据和透明访问异构数据库的数据访问系 统。进而解决了现有技术中存在的全业务统一数据中心的数据规格形态各异, 既有关系型数据库中结构化的数据,又有存储于XML、Excel等文件中的半结 构化的数据以及非结构化的数据,这样复杂的数据现状使得各系统间数据的共 享成为一大难题的技术问题。

本发明的实施例的基于统一访问分布式集成多源异构数据的系统400与本 发明的另一个实施例的基于统一访问分布式集成多源异构数据的系统方法100 相对应,在此不再赘述。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计 算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结 合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包 含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中 的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和 直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产 品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入 式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算 机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备 以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的 指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流 程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处 理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基 本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要 求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申 请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及 其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

11页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于GIS的多能协同展示方法和装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!