一种自动化进行数据资产盘点的方法和系统

文档序号:1963732 发布日期:2021-12-14 浏览:14次 >En<

阅读说明:本技术 一种自动化进行数据资产盘点的方法和系统 (Method and system for automatically checking data assets ) 是由 赵洋 温强 曹贺 历彦铭 朱百佳 于 2021-08-31 设计创作,主要内容包括:本发明公开了一种自动化进行数据资产盘点的方法和系统,包括定义元数据标准对应的属性要求,获取数据资产元数据集合;然后定义业务系统元数据自动化抽取方法和模型,获取业务系统中元数据集合;基于深度学习算法,定义和训练元数据标准与元数据自动识别和相似度匹配模型,获取自动化匹配算法;对业务系统元数据集合使用模型进行自动化识别和匹配,实现数据资产自动化盘点,获取数据资产目录和数据资产地图。本发明通过对业务系统中的元数据集合,自动化抽取和生成待盘点数据,使用深度学习模型实现自动化的数据匹配,以此生成数据资产目录和数据资产地图,从而实现全面掌控数据资产的存储、去向和用户,实现全面掌控数据资产的价值。(The invention discloses a method and a system for automatically checking data assets, which comprises defining attribute requirements corresponding to metadata standards and acquiring a data asset metadata set; then defining a method and a model for automatically extracting metadata of the service system, and acquiring a metadata set in the service system; defining and training a metadata standard and metadata automatic identification and similarity matching model based on a deep learning algorithm to obtain an automatic matching algorithm; and automatically identifying and matching the metadata set use model of the service system, realizing automatic inventory of the data assets, and acquiring a data asset directory and a data asset map. The invention automatically extracts and generates the data to be checked by the metadata set in the service system, and uses the deep learning model to realize automatic data matching so as to generate the data asset directory and the data asset map, thereby realizing the comprehensive control of the storage, the destination and the user of the data assets and realizing the comprehensive control of the value of the data assets.)

一种自动化进行数据资产盘点的方法和系统

技术领域

本发明涉及数据资产盘点管理技术领域,具体来说,涉及一种自动化进行数据资产盘点的方法和系统。

背景技术

国内企业经过多年的数字化和信息化建设,已经拥有种类繁多、体量庞大的各类数据,并且随着业务范围、客户规模均不断扩大,所产生的数据规模也在飞速增长,这对数据资产的掌控能力提出了更高要求。数据资产盘点工作是掌控数据资产内容、明确数据资产存量和认知数据资产价值的关键环节,只有对数据进行标准化、规范化和系统化的归并、整理以及分类,才能够达到数据资产价值最大化。目前,大多数企业的数据资产盘点工作还处在探索阶段,缺少完整的数据标准和盘点方法论支持,大多数企业还主要依靠人工盘点,工作繁琐,效率低下。

目前数据资产盘点的主要存在以下问题:

(1)数据资产定义不完善

企业在发展的过程中积累了大量的数据,但是如何将数据转化成数据资产,缺少全面的数据标准化定义,无法对数据进行全面的盘点形成高价值的数据资产;

(2)资产盘点基于人工,工作效率低下,准确率低

企业在信息化建设过程中建设了几十套甚至上百套业务系统,但是业务系统数据结构定义不统一,不同业务系统同样指标或字段定义不一致,缺少统一的数据命名规范和标准,数据资产的盘点过程繁琐且耗费大量人力物力,工作效率低;缺少数据资产关联关系,无法准确掌握数据资产的应用全貌。

发明内容

针对相关技术中的上述技术问题,本发明提出一种自动化进行数据资产盘点的方法和系统,能够克服现有技术方法的上述不足。

为实现上述技术目的,本发明的技术方案是这样实现的:

一种自动化进行数据资产盘点的方法,包括以下步骤:

S1: 定义元数据标准对应的属性要求,获取数据资产元数据集合;

S2: 然后定义业务系统元数据自动化抽取方法和模型,获取业务系统中元数据集合;

S3: 基于深度学习算法,定义和训练元数据标准与元数据自动识别和相似度匹配模型,获取自动化匹配算法;

S4: 对业务系统元数据集合使用模型进行自动化识别和匹配,实现数据资产自动化盘点,获取数据资产目录和数据资产地图。

进一步地,步骤S1具体包括以下步骤:

S11: 对业务数据元标准主题域进行定义,获取元数据标准的主题域分类集合;

S12: 据步骤S11中定义的元数据标准主题域定义业务元数据标准;

S13: 依据定义的业务元数据标准集合,定义技术元数据集合。

进一步地,步骤S2具体包括以下步骤:

S21: 根据业务系统的数据库类型,生成业务系统元数据抽取分类集合,并定义数据结构自动化抽取方法和模型;

S22: 依据数据结构自动化抽取模型,提取各业务系统元数据定义规则,汇总生成业务系统待匹配字段元数据列表。

进一步地,步骤S4具体包括以下步骤:

S41: 对待识别的业务系统元数据集合进行数据预处理;

S42: 依据BiLSTM + CRF模型,对待识别的业务系统元数据集合进行数据识别,获取元数据标准与业务系统元数据的映射关系集合;

S43: 利用数据映射关系集合,生成全业务系统的数据资产目录关联关系和数据资产地图。

根据本发明的另一方面,提供了一种自动化进行数据资产盘点系统,包括元数据分类和元数据标准模块、业务系统数据适配和元数据抽取模块、自动化识别模型训练和模型应用模块、数据资产目录和数据资产地图模块,其中,

所述元数据分类和元数据标准模块,用于定义业务系统元数据标准包括技术元数据标准和业务元数据标准的数据集合;

所述业务系统数据适配和元数据抽取模块,用于对全部业务系统的数据结构定义,定义自动化抽取业务系统中元数据的内容,包括字段英文名称、中文名称、字段类型长度的自动化抽取,获取业务系统待匹配元数据库;

所述自动化识别模型训练和模型应用模块,基于BiLSTM + CRF模型,对业务系统待匹配元数据库进行自动化识别和映射,获取业务系统元数据标准映射结果;

所述数据资产目录和数据资产地图模块,应用业务系统元数据标准映射结果,获得全业务系统的数据资产目录,并依据映射关系,获取基于元数据标准的数据资产地图。

进一步地,所述元数据分类和元数据标准模块包括元数据分类子模块、元数据标准子模块,其中,

所述元数据分类子模块用于管理元数据的主题域分类信息,确定元数据的归属,形成元数据分类集合;

所述元数据标准子模块用于管理元数据标准信息,确定数据资产的管理范围,形成元数据标准集合。

进一步地,所述业务系统数据适配和元数据抽取模块包括业务系统数据适配模型子模块、业务系统元数据抽取子模块,其中,

所述业务系统数据适配模型子模块,依据业务系统的选用数据库类型,定义自动化抽取业务系统数据结构抽取模型;

所述业务系统元数据抽取子模块,依据业务系统数据适配模型,配置业务系统元数据自动化抽取任务,形成业务系统待匹配元数据集合。

进一步地,所述自动化识别模型训练和模型应用模块包括模型管理子模块、模型应用子模块,其中,

所述模型管理子模块,依据BiLSTM + CRF模型进行模型的训练,获取可应用模型集合;

所述模型应用子模块,应用模型对业务系统待匹配元数据集合进行识别,获取符合元数据标准的已匹配业务系统元数据集合。

进一步地,所述数据资产目录和数据资产地图生成模块包括数据资产目录子模块、数据资产地图子模块,其中,

所述数据资产目录子模块,依据已匹配业务系统元数据集合,生成数据资产的多级目录,形成数据资产关联关系集合;

所述数据资产地图子模块,依据已匹配业务系统元数据集合,生成数据资产的图形化关联关系可视化展示地图。

本发明的有益效果:通过对业务系统中的元数据集合,自动化抽取和生成待盘点数据,基于元数据标准,使用深度学习模型实现自动化的数据匹配,以此生成数据资产目录和数据资产地图。本发明在数据资产盘点领域提出了一种全新的技术实现方式,这样能够保证业务系统中的元数据集合能够通过深度学习模型实现与元数据标准的自动化匹配和映射,定义新的业务系统抽取规则无需二次开发,只需要增加对应适配器及抽取模型,即可实现对不同系统的元数据进行自动化的数据资产盘点,大幅降低了人工盘点带来的时间和准确率问题,快速提升资产盘点的效率,从而实现全面掌控数据资产的存储、去向和用户,实现全面掌控数据资产的价值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明实施例所述的自动化进行数据资产盘点的方法和系统的方法流程框图。

图2是根据本发明实施例所述的自动化进行数据资产盘点的方法和系统的系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围,为了方便理解本发明的上述技术方案,以下通过具体使用方式上对本发明的上述技术方案进行详细说明。

如图1所示,根据本发明实施例所述的自动化进行数据资产盘点的方法,包括首先,定义业务数据元标准主题域,定义的元数据标准主题域定义业务元数据标准,依据定义的业务元数据标准集合,定义技术元数据集合,获取元数据标准的主题域分类集合。

所述技术元数据包括元数据标准的字段英文名称、字段中文名称、字段描述、数据类型、值域、代码编码规则以及数据格式。例如:元数据集合Metadata = {{"RECORDS":[{

"标准编码":1,

"字段英文名称":" Customer Name",

"字段中文名称":"姓名",

"字段描述":"描述在法律上认可的自然人名称,该名称一般记录在国家授权部门颁发给自然人的有效证件上。",

"数据类型":"文本类",

"值域":"/",

"代码编码规则":"/",

"数据格式":"anc..80"},

{……} ]}}。

所述主题域分类集合,如下:

主题域分类集合themedata = {{"RECORDS":[

{"主题":"当事人",

"一级分类":"个人客户",

"二级分类":"管理信息",

"三级分类":"客户识别",

"主题编号":"01",

"一级分类编号":" DSR ",

"二级分类编号":"01",

"三级分类编号":"0"},

{……}}

] }}。

定义业务系统元数据自动化抽取方法和模型,根据业务系统的数据库类型,生成业务系统元数据抽取分类集合,获取业务系统中元数据集合,并定义数据结构自动化抽取方法和模型,依据数据结构自动化抽取模型,提取各业务系统元数据定义规则,汇总生成业务系统待匹配字段元数据列表。

所述待匹配字段元数据列表,例如信贷系统元数据列表,如下:

Metadata = {{"RECORDS":[{

"模式名(Schema) ": "ngiccs",

"表英文名": "admin_sm_org",

"字段序号": "1",

"字段英文名": "ORG_ID",

"字段中文名": "记录编号",

"字段数据类型":"varchar(32) ",

"是否主键": "Y",

"是否允许空值":"Y",

"是否代码字段":"N",

"是否引用代码表": "/",

"字段注释说明":"/"},

{……} ]}}。

再基于深度学习算法、业务系统原始数据和元数据标准,定义和训练元数据标准与元数据自动识别和相似度匹配模型,获取自动化匹配算法,进行人工标注和映射,获得模型训练集,所述模型训练集如下:

Metadata = {{"RECORDS":[

{"业务系统名":"信贷系统",

"业务系统数据库名":"NCMS",

"业务系统表名":"CMS_BIZ_BUSINESS",

"业务系统字段名":"CUSTID",

"业务系统字段中文名称":"客户号",

"元数据类型":"业务元数据",

"数据标准编号":"05XY0202010018",

"标准中文名称":"借款人名称"},

{……} ]}}。

再构建BiLSTM + CRF模型, BiLSTM+CRF模型由look-up层、BiLSTM层和CRF层,模型构建流程为,首先,业务系统元数据进入look-up层被表示成词向量和字向量序列,BiLSTM层将输入的词向量和字向量序列通过双向的LSTM神经网络输出各个字符的所有元数据标准标签及其得分,最后通过CRF层学习各元数据之间的依赖关系,输出符合元数据标准的匹配业务系统字段集合。例如:Metadata = {{

"RECORDS":[

{"业务系统名":"信贷系统",

"业务系统数据库名":"NCMS",

"业务系统表名":"CMS_BIZ_BUSINESS",

"业务系统字段名":"CUSTID",

"业务系统字段中文名称":"客户号",

"元数据类型":"业务元数据",

"数据标准编号":"05XY0202010018",

"标准中文名称":"借款人名称"},

{"业务系统表名":"CMS_AC_OPERATOR",

"业务系统字段名":"STATUS",

"业务系统字段中文名称":"正常,挂起,注销,锁定...",

"元数据类型":"业务元数据",

"数据标准编号":"02JG0201030002",

"标准中文名称":"员工状态"},

{"业务系统表名":"CMS_AC_OPERATOR",

"业务系统字段名":"OPERATORNAME",

"业务系统字段中文名称":"操作员名称",

"元数据类型":"业务元数据",

"数据标准编号":"01DSR0101020001",

"标准中文名称":"所属客户经理姓名"},

{"业务系统字段中文名称":"CMS_BIZ_BHHT",

"元数据类型":"BHTYPE",

"数据标准编号":"保函种类",

"标准中文名称":"业务元数据",

"":"05XY0207020001",

"":"保函类别"},

{"业务系统表名":"CMS_BIZ_BHHT",

"业务系统字段名":"SYRCUSTID",

"业务系统字段中文名称":"受益人客户编号",

"元数据类型":"业务元数据",

"数据标准编号":"05XY0207020003",

"标准中文名称":"保函受益人名称"},

{……} ]}}。

依据BiLSTM + CRF模型,对待识别的业务系统元数据集合进行数据预处理,获取元数据标准与业务系统元数据的映射关系集合,利用数据映射关系集合,生成全业务系统的数据资产目录关联关系和数据资产地图。对业务系统元数据集合使用模型进行自动化识别和匹配,实现数据资产自动化盘点,获取数据资产目录和数据资产地图。

如图2所示,本发明还提供了一种自动化进行数据资产盘点系统,包括元数据分类和元数据标准模块、业务系统数据适配和元数据抽取模块、自动化识别模型训练和模型应用模块、数据资产目录和数据资产地图模块,其中,

所述元数据分类和元数据标准模块包括元数据分类子模块、元数据标准子模块;用于定义业务系统元数据标准包括技术元数据标准和业务元数据标准的数据集合。所述元数据分类子模块用于管理元数据的主题域分类信息,确定元数据的归属,形成元数据分类集合;所述元数据标准子模块用于管理元数据标准信息,确定数据资产的管理范围,形成元数据标准集合。

所述业务系统数据适配和元数据抽取模块包括字段英文名称、中文名称、字段类型长度的自动化抽取,获取业务系统待匹配元数据库;用于对全部业务系统的数据结构定义,定义自动化抽取业务系统中元数据的内容。包括业务系统数据适配模型子模块、业务系统元数据抽取子模块,所述业务系统数据适配模型子模块,依据业务系统的选用数据库类型,定义自动化抽取业务系统数据结构抽取模型;所述业务系统元数据抽取子模块,依据业务系统数据适配模型,配置业务系统元数据自动化抽取任务,形成业务系统待匹配元数据集合。

所述自动化识别模型训练和模型应用模块,基于BiLSTM + CRF模型,对业务系统待匹配元数据库进行自动化识别和映射,获取业务系统元数据标准映射结果。所述自动化识别模型训练和模型应用模块包括模型管理子模块、模型应用子模块,所述模型管理子模块,依据BiLSTM + CRF模型进行模型的训练,获取可应用模型集合;所述模型应用子模块,应用模型对业务系统待匹配元数据集合进行识别,获取符合元数据标准的已匹配业务系统元数据集合。

所述数据资产目录和数据资产地图生成模块包括数据资产目录子模块、数据资产地图子模块,所述数据资产目录子模块,依据已匹配业务系统元数据集合,生成数据资产的多级目录,形成数据资产关联关系集合;所述数据资产地图子模块,依据已匹配业务系统元数据集合,生成数据资产的图形化关联关系可视化展示地图;应用业务系统元数据标准映射结果,获得全业务系统的数据资产目录,并依据映射关系,获取基于元数据标准的数据资产地图。

综上所述,借助于本发明的上述技术方案,通过对业务系统中的元数据集合,自动化抽取和生成待盘点数据,基于元数据标准,使用深度学习模型实现自动化的数据匹配,以此生成数据资产目录和数据资产地图。本发明在数据资产盘点领域提出了一种全新的技术实现方式,这样能够保证业务系统中的元数据集合能够通过深度学习模型实现与元数据标准的自动化匹配和映射,定义新的业务系统抽取规则无需二次开发,只需要增加对应适配器及抽取模型,即可实现对不同系统的元数据进行自动化的数据资产盘点,大幅降低了人工盘点带来的时间和准确率问题,快速提升资产盘点的效率,从而实现全面掌控数据资产的存储、去向和用户,实现全面掌控数据资产的价值。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

11页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于数据库的面料成分检索方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!