一种数据仓库全面检索信息的方法、装置、设备和介质

文档序号:190529 发布日期:2021-11-02 浏览:24次 >En<

阅读说明:本技术 一种数据仓库全面检索信息的方法、装置、设备和介质 (Method, device, equipment and medium for comprehensively retrieving information of data warehouse ) 是由 邹丹 王喆 张晓宇 徐贵红 王沛然 孙思齐 于 2021-07-01 设计创作,主要内容包括:本发明提供了一种数据仓库全面检索信息的方法、装置、设备和介质,其中,该方法包括:将输入的检索信息与主数据属性文本进行匹配,得到与检索信息相匹配的目标信息;其中,主数据属性文本是根据主数据属性信息的历史变更记录建立的数据链路;将目标信息作为检索信息输入数据仓库进行检索,得到检索结果。根据主数据属性信息的历史变更记录建立的数据链路,将汇集至数据服务平台的数据与主数据关联,使主数据生命周期中的多个版本数据可以被有效利用,根据数据链路得到目标信息,将目标信息作为检索信息进行检索,使检索全面而高效。(The invention provides a method, a device, equipment and a medium for comprehensively retrieving information of a data warehouse, wherein the method comprises the following steps: matching the input retrieval information with the main data attribute text to obtain target information matched with the retrieval information; the main data attribute text is a data link established according to the history change record of the main data attribute information; and inputting the target information as retrieval information into a data warehouse for retrieval to obtain a retrieval result. The data link established according to the history change record of the attribute information of the main data associates the data collected to the data service platform with the main data, so that a plurality of version data in the life cycle of the main data can be effectively utilized, the target information is obtained according to the data link, and the target information is used as retrieval information for retrieval, so that the retrieval is comprehensive and efficient.)

一种数据仓库全面检索信息的方法、装置、设备和介质

技术领域

本发明涉及检索领域,尤其涉及一种数据仓库全面检索信息的方法、装置、设备和介质。

背景技术

数据仓库(Data Warehouse,简称DW或DWH)是为企业所有级别的决策制定过程提供所有类型数据支持的战略集合。数据仓库中的数据是按照一定的主题域进行组织,主题是指用户使用数据仓库进行决策时所关心的重点,一个主题通常与多个操作型信息系统相关。铁路数据服务平台目前作为铁路唯一的数据仓库平台,汇集了铁路若干重要业务系统的数据。

由于系统建设规范性和数据规范性不足,导致汇集至数据服务平台的数据无法与主数据进行关联,使主数据生命周期中的多个版本数据无法被有效利用,导致数据的检索缺乏有效性,并且数据的检索也存在不全面的问题。

为了解决铁路业务数据不规范问题,需要在数据汇集工作前开展数据清洗。但是,基于标准开展的数据清洗,耗时耗力,且无法响应快速变化的业务需求。

发明内容

本发明提供一种数据仓库全面检索信息的方法、装置、设备和介质,用以解决现有技术中汇集至数据服务平台的数据无法与主数据进行关联,导致数据的检索缺乏有效性及数据检索不全面的缺陷,可以实现对数据的全面有效检索。

第一方面,本发明提供一种数据仓库全面检索信息的方法,包括:将输入的检索信息与主数据属性文本进行匹配,得到与所述检索信息相匹配的目标信息;其中,所述主数据属性文本是根据主数据属性信息的历史变更记录建立的数据链路;将所述目标信息作为检索信息输入数据仓库进行检索,得到检索结果。

根据本发明提供的数据仓库全面检索信息的方法,所述主数据属性文本中的每一条数据链路对应一个主数据,所述数据链路中的每一个节点包括主数据的属性值、所述属性值的起始时间和所述属性值的截止时间。

根据本发明提供的数据仓库全面检索信息的方法,所述将输入的检索信息与主数据属性文本进行匹配,得到与所述检索信息相匹配的目标信息,包括:将所述检索信息中的关键词与所述主数据属性文本中数据链路的属性值进行匹配,得到与所述关键词相匹配的数据链路;将所述检索信息中的时间范围与确定的所述数据链路的起始时间和/ 或截止时间进行匹配,确定与所述时间范围相匹配的属性值,作为所述目标信息。

根据本发明提供的数据仓库全面检索信息的方法,所述将输入的检索信息与主数据属性文本进行匹配,得到与所述检索信息相匹配的目标信息,包括:基于词向量相似度匹配,对所述检索信息与所述主数据属性文本进行匹配,得到与所述检索信息相匹配的主数据属性信息,作为所述目标信息;或者,基于弹性搜索,对所述检索信息与所述主数据属性文本进行匹配,得到与所述检索信息相匹配的主数据属性信息,作为所述目标信息。

根据本发明提供的数据仓库全面检索信息的方法,所述将输入的检索信息与主数据属性文本进行匹配,得到与所述检索信息相匹配的目标信息,还包括:判断对所述检索信息与所述主数据属性文本进行匹配,是否得到与所述检索信息相匹配的主数据属性信息;若未得到与所述检索信息相匹配的主数据属性信息,将所述检索信息与预先建立的同义词表进行匹配,得到与所述检索信息相匹配的同义词,作为所述目标信息。

第二方面,本发明提供一种数据仓库全面检索信息的装置,包括:匹配模块,用于将输入的检索信息与主数据属性文本进行匹配,得到与所述检索信息相匹配的目标信息;其中,所述主数据属性文本是根据主数据属性信息的历史变更记录建立的数据链路;检索模块,用于将所述目标信息作为检索信息输入数据仓库进行检索,得到检索结果。

根据本发明提供的数据仓库全面检索信息的装置,所述匹配模块,包括:第一匹配单元,用于将所述检索信息中的关键词与所述主数据属性文本中数据链路的属性值进行匹配,得到与所述关键词相匹配的数据链路;第二匹配单元,用于将所述检索信息中的时间范围与确定的所述数据链路的起始时间和/或截止时间进行匹配,确定与所述时间范围相匹配的属性值,作为所述目标信息。

根据本发明提供的数据仓库全面检索信息的装置,所述匹配模块,还包括:第三匹配单元,用于基于词向量相似度匹配,对所述检索信息与所述主数据属性文本进行匹配,得到与所述检索信息相匹配的主数据属性信息,作为所述目标信息;或者,第四匹配单元,用于基于弹性搜索,对所述检索信息与所述主数据属性文本进行匹配,得到与所述检索信息相匹配的主数据属性信息,作为所述目标信息;判断单元,用于判断对所述检索信息与所述主数据属性文本进行匹配,是否得到与所述检索信息相匹配的主数据属性信息;第五匹配单元,用于若未得到与所述检索信息相匹配的主数据属性信息,将所述检索信息与预先建立的同义词表进行匹配,得到与所述检索信息相匹配的同义词,作为所述目标信息。

第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的数据仓库全面检索信息的方法的步骤。

第四方面,本发明提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的数据仓库全面检索信息的方法的步骤。

本发明提供了一种数据仓库全面检索信息的方法、装置、设备和介质,通过将输入的检索信息与主数据属性文本进行匹配,得到与检索信息相匹配的目标信息;其中,主数据属性文本是根据主数据属性信息的历史变更记录建立的数据链路;将目标信息作为检索信息输入数据仓库进行检索,得到检索结果。根据主数据属性信息的历史变更记录建立的数据链路将汇集至数据服务平台的数据与主数据关联,使主数据生命周期中的多个版本数据可以被有效利用,根据数据链路得到目标信息,将目标信息作为检索信息进行检索,使检索全面而高效。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种数据仓库全面检索信息的方法的流程示意图;

图2是本发明实施例提供的一条数据链路的示意图;

图3是本发明实施例提供的一种获取目标信息方法的流程示意图;

图4是本发明实施例提供的数据仓库全面检索信息的方法的一种应用场景的示意图;

图5是本发明实施例提供的一种数据仓库全面检索信息的装置的组成结构示意图;

图6是本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1是本发明实施例提供的一种数据仓库全面检索信息的方法的流程示意图。如图1所示,该数据仓库全面检索信息的方法包括以下步骤:

S101,将输入的检索信息与主数据属性文本进行匹配,得到与检索信息相匹配的目标信息;其中,主数据属性文本是根据主数据属性信息的历史变更记录建立的数据链路。

在步骤S101中,主数据是指在整个企业范围内各个系统间要共享的数据。例如,在铁路系统中,主数据可以是车站名,或者也可以是线路名,或者还可以是列车型号等数据。本发明实施例对主数据的类型不作限定。

主数据属性文本中的每一条数据链路对应一个主数据,数据链路中的每一个节点包括主数据的属性值、属性值的起始时间和属性值的截止时间。当前正在使用的主数据的属性值的截止时间记为0。图2 是本发明实施例提供的一条数据链路的示意图。如图2所示,该条数据链路对应的主数据具有3个不同的属性值,每个属性值具有对应的起始时间和截止时间。本发明实施例中,数据链路对应的主数据具有的属性值的数目可以根据实际历史变更记录确定。

将检索信息与主数据属性文本的每一条数据链路中的主数据的属性值进行匹配,得到匹配的数据链路。该条数据链路中,与检索信息相匹配的主数据的属性值即为目标信息。

S102,将目标信息作为检索信息输入数据仓库进行检索,得到检索结果。

在步骤S102中,数据仓库是为企业所有级别的决策制定过程提供所有类型数据支持的战略集合。数据仓库对单个数据进行存储,旨在为需要业务智能的企业提供指导业务、流程改进、监视时间、成本、质量以及控制。

本发明实施例提供的一种数据仓库全面检索信息的方法,通过将输入的检索信息与主数据属性文本进行匹配,得到与检索信息相匹配的目标信息;其中,主数据属性文本是根据主数据属性信息的历史变更记录建立的数据链路;将目标信息作为检索信息输入数据仓库进行检索,得到检索结果。根据主数据属性信息的历史变更记录建立的数据链路将汇集至数据服务平台的数据与主数据关联,使主数据生命周期中的多个版本数据可以被有效利用,根据数据链路得到目标信息,将目标信息作为检索信息进行检索,使检索全面而高效。

图3是本发明实施例提供的一种获取目标信息方法的流程示意图。如图3所示,在该实施例中检索信息既包括检索的关键词又包括时间范围,该获取目标信息方法,包括:

S301,将检索信息中的关键词与主数据属性文本中数据链路的属性值进行匹配,得到与关键词相匹配的数据链路。

在步骤S301中,将关键词与属性值进行匹配的方法,可以是基于自然语言处理(Natural Language Processing,简称NLP)的词向量相似度匹配,对检索信息与主数据属性文本进行匹配,得到与检索信息相匹配的主数据属性信息,作为目标信息;或者,也可以基于弹性搜索(Elasticsearch),对检索信息与主数据属性文本进行匹配,得到与检索信息相匹配的主数据属性信息,作为目标信息。本发明实施例对匹配方法不作限定。通常,基于词向量相似度匹配用来对较短的文本进行匹配,例如词、短语等,基于弹性搜索用来对较长的文本进行匹配,例如语句等。文本的长短与匹配方法的使用无绝对限制,例如,可以先利用词向量相似度匹配与主数据属性文本进行匹配,如果无法得到需要的结果,那么可以继续通过弹性搜索与主数据属性文本进行匹配。

S302,将检索信息中的时间范围与确定的数据链路的起始时间和 /或截止时间进行匹配,确定与时间范围相匹配的属性值,作为目标信息。

在步骤302中,将时间范围与起始时间和/或截止时间进行匹配,可以将确定的数据链路中截止时间晚于时间范围的属性值作为目标信息,例如时间范围为在某一时间点之后;或者也可以是将确定的数据链路中起始时间早于时间范围的属性值作为目标信息,例如时间范围为在某一时间点之前;或者还可以将确定的数据链路中截止时间早于时间范围起始时间晚于时间范围的属性值作为目标信息,例如时间范围为在某一时间段内。

在一些可选的例子中,将输入的检索信息与主数据属性文本进行匹配,得到与检索信息相匹配的目标信息,还可以包括:判断对检索信息与主数据属性文本进行匹配,是否得到与检索信息相匹配的主数据属性信息;若未得到与检索信息相匹配的主数据属性信息,可以将检索信息与预先建立的同义词表进行匹配,得到与检索信息相匹配的同义词,作为所述目标信息。

判断检索信息与主数据属性文本是否匹配,可以通过比较二者是否具有相同的文字来确定。比如,检索信息是蓟州站,主数据属性文本是蓟州,蓟州南、蓟县南。由于二者具有相同的文字,可以确定检索系信息与主数据属性文本是匹配的。本发明实施例对判断检索信息与主数据属性文本是否匹配的方法不作限定。

当检索信息不是文本信息而是以一串数字组成的代码信息时,检索信息与主数据属性文本是无法匹配的。这种情况下,将检索信息与预先建立的同义词表进行匹配。同义词表可以是由文本信息、代码信息以及其它相关信息在内的信息构成的。以车站名的同义词表为例,车站名的同义词表可以包括车站名的汉语文本信息、英文文本信息、车站名的代码信息、车站名的经纬度信息和车站名所属地信息等。将检索信息中的代码信息与同义词表进行匹配,若该代码信息属于车站名的代码信息,可在车站名的同义词表中匹配到相应的代码信息,从而得到对应的车站名的本文信息作为目标信息。

在另一些可选的例子中,将输入的检索信息与主数据属性文本进行匹配,得到与检索信息相匹配的目标信息,可以先利用词向量相似度匹配与主数据属性文本进行匹配,如果无法得到需要的结果,那么可以继续通过弹性搜索与主数据属性文本进行匹配,如果还无法得到需要的结果,那么可以继续通过同义词表与检索信息进行匹配。也就是说,可以按照预设的顺序采用遍历所有匹配方法的方式与检索信息进行匹配,直至得到满足需要的目标信息。

图4是本发明实施例提供的数据仓库全面检索信息的方法的一种应用场景的示意图。如图4所示,在检索系统内输入蓟州站作为关键词进行检索,检索系统调取根据主数据属性信息的历史变更记录建立的数据链路,将关键词与数据链路进行词向量相似度匹配,得到匹配的车站名数据链路,该条数据链路的信息包括:蓟县南于2017年 7月31日变更为蓟州南,蓟州南于2018年12月1日变更为蓟州,且沿用至今。检索的时间范围是获取2017年1月以后的相关数据,根据主数据的属性值对应的截至时间晚于时间范围的匹配原则,蓟县南、蓟州南和蓟州作为目标信息。将目标信息蓟县南、蓟州南和蓟州分别输入至数据仓库分别进行检索,将合并的检索结果作为最终的检索结果。

图5是本发明实施例提供的一种数据仓库全面检索信息的装置示意图。如图5所示,该数据仓库全面检索信息的装置,包括:

匹配模块,用于将输入的检索信息与主数据属性文本进行匹配,得到与检索信息相匹配的目标信息;其中,主数据属性文本是根据主数据属性信息的历史变更记录建立的数据链路;主数据属性文本中的每一条数据链路对应一个主数据,数据链路中的每一个节点包括主数据的属性值、所述属性值的起始时间和所述属性值的截止时间。

检索模块,用于将目标信息作为检索信息输入数据仓库进行检索,得到检索结果。

可选地,匹配模块,包括:

第一匹配单元,用于将检索信息中的关键词与主数据属性文本中数据链路的属性值进行匹配,得到与关键词相匹配的数据链路;

第二匹配单元,用于将检索信息中的时间范围与确定的数据链路的起始时间和/或截止时间进行匹配,确定与时间范围相匹配的属性值,作为所述目标信息。

可选地,匹配模块,还包括:

第三匹配单元,用于基于词向量相似度匹配,对检索信息与主数据属性文本进行匹配,得到与检索信息相匹配的主数据属性信息,作为所述目标信息;或者,

第四匹配单元,用于基于弹性搜索,对检索信息与主数据属性文本进行匹配,得到与检索信息相匹配的主数据属性信息,作为目标信息;

判断单元,用于判断对检索信息与主数据属性文本进行匹配,是否得到与检索信息相匹配的主数据属性信息;

第五匹配单元,用于若未得到与检索信息相匹配的主数据属性信息,将检索信息与预先建立的同义词表进行匹配,得到与检索信息相匹配的同义词,作为目标信息。

图6是本发明实施例提供的一种电子设备的实体结构示意图。如图6所示,该电子设备可以包括:处理器(processor)601、通信接口 (Communications Interface)602、存储器(memory)603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信。处理器601可以调用存储器603中的逻辑指令,以执行数据仓库全面检索信息的方法,该方法包括:

将输入的检索信息与主数据属性文本进行匹配,得到与所述检索信息相匹配的目标信息;其中,所述主数据属性文本是根据主数据属性信息的历史变更记录建立的数据链路;将所述目标信息作为检索信息输入数据仓库进行检索,得到检索结果。

此外,上述的存储器603中的逻辑指令可以通过软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的数据仓库全面检索信息的方法,该方法包括:

将输入的检索信息与主数据属性文本进行匹配,得到与所述检索信息相匹配的目标信息;其中,所述主数据属性文本是根据主数据属性信息的历史变更记录建立的数据链路;将所述目标信息作为检索信息输入数据仓库进行检索,得到检索结果。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法所提供的数据仓库全面检索信息的方法,该方法包括:

将输入的检索信息与主数据属性文本进行匹配,得到与所述检索信息相匹配的目标信息;其中,所述主数据属性文本是根据主数据属性信息的历史变更记录建立的数据链路;将所述目标信息作为检索信息输入数据仓库进行检索,得到检索结果。

以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:用于意图识别的方法以及相应的系统、计算机设备和介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!