基于多源数据的元数据的生成系统

文档序号：1937613 发布日期：2021-12-07 浏览：18次 >En<

阅读说明：本技术 基于多源数据的元数据的生成系统 (Metadata generation system based on multi-source data ) 是由刘羽林方张正义左为于 2021-11-09 设计创作，主要内容包括：本发明涉及一种基于多源数据的元数据的生成系统,包括原始数据库、元数据库、映射表数据库、处理器和存储有计算机程序的存储器,所述原始数据库用于存储从N个数据源{P-(1),P-(2),…P-(N)}获取的原始数据,P-(n)为第n个数据源,n的取值范围为1到N；所述元数据库用于存储元数据记录,所述元数据记录包括M个元数据字段{D-(1),D-(2),…D-(M)},D-(m)为元数据的第m个元数据字段名称,m的取值范围为1到M；所述映射表数据库用于存储每一数据源P-(n)对应的映射表R-(n),R-(n)用于存储P-(n)的原始数据字段与{D-(1),D-(2),…D-(M)}的映射关系。本发明能够快速准确地将多源数据转换为相同数据结构的元数据,提高多源数据的信息提取效率和准确性。(The invention relates to a generation system of metadata based on multi-source data, which comprises a raw database, a metadata database, a mapping table database, a processor and a memory for storing computer programs, wherein the raw database is used for storing N data sources { P } 1 ，P 2 ，…P N Acquired raw data, P n Is the nth data source, and the value range of N is 1 to N; the metadata repository is for storing metadata records comprising M metadata fields { D } 1 ，D 2 ，…D M },D m The name of the mth metadata field of the metadata is obtained, and the value range of M is 1 to M; the mapping table database is used for storing each data source P n Corresponding mapping table R n ，R n For storing P n And { D 1 ，D 2 ，…D M And (5) mapping relation of the data. The method can quickly and accurately convert the multi-source data into the metadata with the same data structure, and improve the information extraction efficiency and accuracy of the multi-source data.)

基于多源数据的元数据的生成系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于多源数据的元数据的生成系统。

背景技术

随着互联网的迅速普及和发展，大量数据信息在网络中产生和传播，如何从海量不同数据源的自然语言文本中及时准确地抽取目标信息变得日益迫切。但是，海量自然语言文本具有数据量大，不同数据源的数据结构不统一，更新快等特点。在对海量文本数据进行目标信息抽取之前，若能将来自不同数据源的数据处理生成统一数据结构的元数据，那么将大大提高目标信息抽取的效率。由此可知，如何快速准确地基于多源数据构建结构的相同结构的元数据成为亟待解决的技术问题。

发明内容

本发明目的在于，提供一种基于多源数据的元数据的生成系统，能够快速准确将多源数据转换为相同数据结构的元数据。

根据本发明第一方面，提供了一种基于多源数据的元数据的生成系统，包括原始数据库、元数据库、映射表数据库、处理器和存储有计算机程序的存储器，所述原始数据库用于存储从N个数据源{P₁，P₂，…P_N}获取的原始数据，P_n为第n个数据源，n的取值范围为1到N；所述元数据库用于存储元数据记录，所述元数据记录包括M个元数据字段{D₁，D₂，…D_M},D_m为元数据的第m个元数据字段名称，m的取值范围为1到M；所述映射表数据库用于存储每一数据源P_n对应的映射表R_n，R_n用于存储P_n的原始数据字段与{D₁，D₂，…D_M}的映射关系，当所述处理器执行所述计算机程序时，实现以下步骤：

步骤S1、从{P₁，P₂，…P_N}中获取原始数据{Q₁，Q₂，…Q_N}，Q_n为从P_n获取的原始数据， Q_n包括nx个原始数据字段，为Q_n的第i个原始数据字段名称，i的取值范围为1到nx；

步骤S2、遍历，判断是否缺失至少一个预设的第一原始数据字段，若缺失，则将Q_n 滤除，否则，将Q_n存储至所述原始数据库中，并识别Q_n的文本标签，若为预设的第一文本标签，则执行步骤S3，若为预设的第二文本标签，则执行步骤S4；

步骤S3、从Q_n提取至少一个预设的第二原始数据字段对应的第二原始数据，遍历所述元数据库，判断是否已经存在包括所述第二原始数据的元数据记录，若存在，则将Q_n滤除，否则，执行步骤S4；

步骤S4、从所述映射表数据库中调取R_n，基于R_n生成Q_n对应的元数据记录，存储至所述元数据库中。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明提供的一种基于多源数据的元数据的生成系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明通过构建原始数据库、元数据库、映射表数据库，建立起多个数据源和元数据结构的映射关系，准确快速地将每一数据源的数据按照元数据的结构生成元数据记录，提高后续对多源数据的目标信息的提取效率和准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明实施例提供的基于多源数据的元数据的生成系统示意图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种基于多源数据的元数据的生成系统的具体实施方式及其功效，详细说明如后。

本发明实施例提供了一种基于多源数据的元数据的生成系统，如图1所示，包括原始数据库、元数据库、映射表数据库、处理器和存储有计算机程序的存储器，所述原始数据库用于存储从N个数据源{P₁，P₂，…P_N}获取的原始数据，P_n为第n个数据源，n的取值范围为1到N，可以理解的是，N值根据具体的应用需求而定，且可根据具体需求增加或减少。所述元数据库用于存储元数据记录，所述元数据记录包括M个元数据字段{D₁，D₂，…D_M},D_m为元数据的第m个元数据字段名称，m的取值范围为1到M，M值和具体的元数据字段均根据具体的应用需求来设定。所述映射表数据库用于存储每一数据源P_n对应的映射表R_n，R_n用于存储P_n的原始数据字段与{D₁，D₂，…D_M}的映射关系，需要说明的是，R_n可以根据数据源原始数据字段的变化或元数据字段的变化而更新，初始的R_n可根据用户输入的标注信息来确定。当所述处理器执行所述计算机程序时，实现以下步骤：

需要说明的是，不同数据源对应的原始数据结构可能不同，因此，赌赢的原始数据字段数量或名称可能也不相同。

作为示例，第一原始数据字段可为标题字段和作者字段，若Q_n中没有标题字段和/或作者字段，则判断该条数据为噪声数据，需要直接将其滤除，减少不必要的计算量，提高数据处理的准确性。

作为一种实施例，可以将第一文本标签设置为论文标签，将第二文本标签设置为新闻标签，这样当获取论文文本时，则需要先判断元数据库中是否已存在相同论文，若存在，则无需再重复存储。

步骤S4、从所述映射表数据库中调取R_n，基于R_n生成Q_n对应的元数据记录，存储至所述元数据库中。

本发明实施例所述系统通过构建原始数据库、元数据库、映射表数据库，建立起多个数据源和元数据结构的映射关系，准确快速地将每一数据源的数据按照元数据的结构生成元数据记录，提高后续对多源数据的信息的提取效率和准确性，需要说明的是，将多源数据的原始数据转换为相同结构的元数据后，应用场景不仅限于信息提取，还可适用于其他信息处理场景，本发明对比不做具体限定。

作为一种实施例，所述系统还包括预先构建的样本训练集合和基于所述样本训练集合训练得到的分类模型，分类模型的具体架构在此不做限定。所述样本训练集合中包括预先标注好的具有映射关系的原始数据字段名称和元数据字段名称对，可以理解的是，原始样本训练集合中的样本基于用户输入的映射关系进行标注，能够确保准确度。当所述处理器执行所述计算机程序时，还实现以下步骤：

步骤S10、基于所述样本训练集合中的原始数据字段名称和元数据字段名称对，构建正样本输入向量，输出真值设置为1；

步骤S20、从所述样本训练集合中获取样本原始数据字段名称，并从{D₁，D₂，…D_M}中随机抽取与该样本原始数据字段名称不具有映射关系的元数据字段名称构建负样本输入向量，输出真值设置为0；

步骤S30、基于所述正样本、负样本以及每一样本对应的输出真值训练得到所述分类模型。

需要说明的是，每一数据源的数据结构是可能发生变化的，当数据源的数据结构发生变化时，对应的原始数据字段集合也会发生变化，此时如果再基于现有的映射数据库中的映射关系来获取元数据记录，则会造成部分关键数据的丢失，降低元数据构建的准确性，基于此，作为一种实施例，所述系统还包括显示单元，所述步骤S1和步骤S2之间还包括：

步骤S11、从所述原始数据库中获取Q_n上一时刻对应的原始数据字段名称集合，判断与Q_n上一时刻对应的原始数据字段名称集合是否一致，若一致，则直接执行步骤S2，否则，执行步骤S12；

通过步骤S11可以快速准确地检测每一数据源的原始数据字段是否发生变化。

步骤S12、获取相较于Q_n上一时刻对应的原始数据字段名称集合中新增的原始字段名称,j的取值范围为1到nx;

步骤S13、将分别与每一D_m构建输入向量，并输入所述分类模型中，得到与每一D_m的相似概率值;

步骤S14、将大于预设相似概率阈值的对应的D_m，与组成候选映射对，将所有候选映射对以及对应的相似概率值输出至所述显示单元；

通过步骤S12-步骤S14能够准确快速地为新增的原始数据字段确定候选的映射关系，并及时呈现给用户，供用户基于实际应用情况选择。需要说明的是，新增的原始数据字段可以是新增类型原始数据对应的原始数据字段，也可以是已有类型原始数据变更了原始数据字段名称。但只要数据源对应的数据接收发生变化，所述系统均能准确快速加以识别，并推送候选的映射关系进行显示。

步骤S15、将接收到用户输入的确认信息的候选映射对中的D_m与构建映射关系，并更新至所述映射表数据库中，执行步骤S2。

通过步骤S15中获取用户确认信息确定D_m与的映射关系，保证了映射关系库更新的准确性。

需要说明的是，随着映射表数据库的更新，原始的分类模型的准确性会逐渐降低，从而影响元数据构建的准确性，为了提高元数据构建的准确性，作为一种实施例，所述步骤S15还包括：

步骤S151、基于D_m与组成候选映射对构建新增预先标注好的具有映射关系的原始数据字段名称和元数据字段名称对，添加到所述样本训练集合中；

步骤S152、每间隔预设的时间段，基于当前的样本训练集合重新执行步骤S10-步骤S30，更新所述分类模型。

通过步骤S151-步骤S152可以基于映射数据库的更新，对应更新样本训练集合，在基于更新后的样本训练集合对应更新分类模型，提高分类模型的准确性，从而提高了生成元数据的准确性。

作为一种实施例，所述步骤S4包括：

步骤S41、初始化i=1;

步骤S42、基于检索R_n，若R_n中不存在对应的映射关系，则直接执行步骤S43，否则，获取对应的D_m，将对应的原始数据存储至对应的D_m字段中，执行步骤S43；

需要说明的是，数据源的原始数据中的字段数量是极有可能大于元数据字段数量的，本发明所述系统仅需提取元数据对应的元数据字段信息即可，因此当R_n中不存在对应的映射关系是，无需对对应的原始数据进行处理，但可以理解的是，在原始数据库中对应的原始数据有对应的存储，当后续对元数据字段进行扩展时，历史未添加在元数据中的数据仍可以重新基于新的映射关系进行添加。

步骤S43、判断i是否小于nx，若是，则设置i=i+1,返回执行步骤S42，否则，基于所有对应的D_m字段中的数据生成Q_n对应的元数据记录，存储至所述元数据库中。

需要说明的是，数据源对应的原始数据中也可能不存在某一个或多个D_m对应的，若不存在至少一个D_m对应的，则将不存在对应的D_m字段中设置为D_m字段预设默认数据，也可以直接在该D_m字段设置为空，具体根据后续所需要的应用需求来设定。

作为一种实施例，有些字段中对数据类型有具体需求，所述步骤S42中，将对应的原始数据存储至对应的D_m字段中之前，还包括：

步骤S421、若对应的D_m字段设置有预设的目标数据类型，则判断对应的原始数据是否为D_m对应的目标数据类型，若是，则直接将对应的原始数据存储至对应的D_m 字段中，否则，将对应的原始数据转换为D_m对应的目标数据类型后再存储至对应的D_m 字段中。

例如，对于元数据中的时间字段的目标数据类型可以设置为数值型，如果原始数据对应的字段为字符串类型，则可将字符串类型转换为数值型后存储。

作为一种实施例，元数据字段具有可扩展性，当所述处理器执行所述计算机程序时，还实现以下步骤：

步骤S100、在所述元数据库中的{D₁，D₂，…D_M}基础上新增E个元数据字段{D_M+1，D_M+2，…D_M+E}，D_y为第y个新增元数据字段，y的取值范围为M+1到M+E；

步骤S200、基于每一数据源的、{D_M+1，D_M+2，…D_M+E}以及所述分类模型，获取与D_y的映射关系，更新所述映射表数据库；

具体的映射关系建立方式和更新与步骤S12-步骤S14中的实现方式相类似，在此不做赘述。

步骤S300、获取目标历史元数据标识，基于所述目标历史元数据标识从所述原始数据库中获取对应的原始数据，并基于更新后的R_n，从所述原始数据中提取D_y对应的数据存储至D_y字段中。

需要说明的是，目标历史元数据标识指的是需要同步扩展的历史元数据对应的标识，基于原始数据标识和历史原始数据标识之间的对应关系，可以从原始数据库中获取对应的原始数据，来获取D_y字段对应的信息。

需要说明的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

10页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种基于广告业务的数据处理方法、系统、装置及介质

基于多源数据的元数据的生成系统

相关技术

网友询问留言