核心数据识别方法及系统

文档序号:105610 发布日期:2021-10-15 浏览:31次 >En<

阅读说明:本技术 核心数据识别方法及系统 (Core data identification method and system ) 是由 周春雷 季良 董新微 梁云丹 贾崟 张玮 王婷 张璧君 黄怡 于 2021-07-23 设计创作,主要内容包括:本发明公开了一种核心数据识别方法及系统,该方法包括:确定核心数据的评判因素;根据所述核心数据的评判因素划分出核心数据的各个判断因子以及所述各个判断因子的权重从而构建出核心数据识别模型;确定所述各个判断因子的算法模型;导入待识别核心数据的数据资源;根据所述核心数据识别模型以及所述算法模型对导入的数据资源进行核心数据的识别。本发明提供的核心数据识别方法及系统构建了核心数据识别模型,基于该核心数据识别模型可以快速自动识别出核心数据。(The invention discloses a core data identification method and a system, wherein the method comprises the following steps: determining evaluation factors of the core data; dividing each judgment factor of the core data and the weight of each judgment factor according to the judgment factor of the core data so as to construct a core data identification model; determining an algorithm model of each judgment factor; importing data resources of core data to be identified; and identifying the core data of the imported data resources according to the core data identification model and the algorithm model. The core data identification method and the system provided by the invention construct the core data identification model, and the core data can be quickly and automatically identified based on the core data identification model.)

核心数据识别方法及系统

技术领域

本发明是关于自然语言处理技术领域,特别是关于一种核心数据识别方法及系统。

背景技术

核心数据的识别是很多企业数据管理中的工作重点,当前大部分企业都是依赖人工的方式进行核心数据的识别,普遍缺少通过技术手段开展核心数据识别的方式,当前人工识别这种方法占用业务人员大量的工作时间,效率比较低。

公开于该

背景技术

部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容

本发明的目的在于提供一种核心数据识别方法及系统,其构建了核心数据识别模型,基于该核心数据识别模型可以快速自动识别出核心数据。

为实现上述目的,本发明提供了一种核心数据识别方法,其包括:确定核心数据的评判因素;根据所述核心数据的评判因素划分出核心数据的各个判断因子以及所述各个判断因子的权重从而构建出核心数据识别模型;确定所述各个判断因子的算法模型;导入待识别核心数据的数据资源;根据所述核心数据识别模型以及所述算法模型对导入的数据资源进行核心数据的识别。

在本发明的一实施方式中,所述评价因素包括:数据覆盖的系统范围、数据的业务关联性、数据对决策的影响程度、数据与企业级数据模型的关联度、数据的安全敏感度;所述判断因子包括:数据覆盖范围因子、业务关联性因子、指标关联性因子、数据共享性因子以及管理关联性因子。

在本发明的一实施方式中,所述核心数据识别模型为:

其中,M为核心数据系数的值,A是所述数据覆盖范围因子的值,f1是所述数据覆盖范围因子的权重值,B是所述业务关联性因子的值,f2是所述业务关联性因子的权重值,C是所述指标关联性因子的值,f3是所述指标关联性因子的权重值,D是所述数据共享性因子的值,f4是所述数据共享性因子的权重值,E是所述管理关联性因子的值,f5是所述管理关联性因子的权重值。

在本发明的一实施方式中,所述各个判断因子的算法模型包括:语义相似度算法模型、语法相似度算法模型、语料向量相似度算法模型。

在本发明的一实施方式中,导入待识别核心数据的数据资源包括:从powerdesigner数据导入接口、erwin数据导入接口、xml数据导入接口、word数据导入接口、或excel数据导入接口直接导入待识别核心数据的数据资源,且通过oracle数据接口、mysql数据接口、或db2数据接口直接从数据库中获取元数据信息,将该元数据信息作为待识别核心数据的数据资源存储至集中仓储库;建立数据资源目录,对导入的各类数据资源进行分类。

在本发明的一实施方式中,根据所述核心数据识别模型以及所述算法模型对导入的数据资源进行核心数据的识别包括:对构建的所述核心数据识别模型进行测试,根据测试结果修正所述核心数据识别模型的系数;基于修正的所述核心数据识别模型对导入的数据资源进行核心数据的识别。

在本发明的一实施方式中,所述对构建的所述核心数据识别模型进行测试包括:选定一个数据样本集,通过业务判断其中的核心数据,作为数据样例;采用所述核心数据识别模型对选定的所述数据样本集进行计算,将计算结果与数据样例进行对比分析,测试核心数据识别的准确性。

基于同样的发明构思,本发明还提供了一种核心数据识别系统,其包括:评判因素确定模块用于确定核心数据的评判因素;识别模型构建模块与所述评判因素确定模块相耦合,用于根据所述核心数据的评判因素划分出核心数据的各个判断因子以及所述各个判断因子的权重从而构建出核心数据识别模型;算法模型确定模块用于确定所述各个判断因子的算法模型;导入模块用于导入待识别核心数据的数据资源;识别模块与所述识别模型构建模块、所述算法模型确定模块以及所述导入模块均相耦合,用于根据所述核心数据识别模型以及所述算法模型对导入的数据资源进行核心数据的识别。

基于同样的发明构思,本发明还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施方式所述的核心数据识别方法的步骤。

基于同样的发明构思,本发明还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施方式所述的核心数据识别方法的步骤。

与现有技术相比,根据本发明的核心数据识别方法及系统,在电网行业内创新性地提出核心数据识别模型,明确核心数据识别的关键因素和权重的设置,基于该核心数据识别模型可以快速自动识别出核心数据。实现了各专业、各系统核心数据高效、准确识别,准确界定数据管理的工作对象和范围,帮助企业将有限的资源投入到对核心数据的管理上去,大大降低数据管理成本,提高管理成效。而且可以通过电网公司的数据进行可行性验证,对于推动行业数据管理工作的发展具有重要意义。

附图说明

图1是根据本发明一实施方式的核心数据识别方法的步骤组成;

图2是根据本发明一实施方式的核心数据识别系统的模块组成。

具体实施方式

下面结合附图,对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。

除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。

为了克服现有技术的问题,本发明提供了一种核心数据识别方法及系统,其构建了核心数据识别模型,基于该核心数据识别模型可以快速自动识别出核心数据。

图1是根据本发明一实施方式的核心数据识别方法的步骤组成。该方法包括:步骤S1~步骤S5。

在步骤S1中,确定核心数据的评判因素。核心数据是对公司持续经营的成功所至关重要的一小部分数据。核心数据识别的目的是从庞大的数据群中提取出有效的、有价值的数据,开展数据管理,提高数据管理成效。可通过以下标准判断核心数据:1、数据的覆盖范围,指数据覆盖的系统范围,这类数据的质量问题可能影响多个系统或者业务的开展;2、数据的业务关联性,这类数据的质量问题会导致无法正常开展业务,例如设备位置信息、人员年龄信息等;3、数据对决策的影响程度,如资产类型、表示电量、用户欠费信息等,均是用于计算重要指标的数据;4、数据在系统间的共享程度,即数据与企业级数据模型的关联度。5、数据的安全敏感度,如与公司重点监管的高敏感度数据清单的一致性。因此所述评价因素包括:数据覆盖的系统范围、数据的业务关联性、数据对决策的影响程度、数据与企业级数据模型的关联度、数据的安全敏感度。

在步骤S2中,根据所述核心数据的评判因素划分出核心数据的各个判断因子以及所述各个判断因子的权重从而构建出核心数据识别模型。

具体而言,将核心数据的评判因素解析为具体的判断因子,包括数据覆盖范围、业务关联性、指标关联性、数据共享性和管理关联性五个因子,确定各因子的权重,构建核心数据识别模型。

其中,所述核心数据识别模型为:

其中,M为核心数据系数的值,A是所述数据覆盖范围因子的值,f1是所述数据覆盖范围因子的权重值,B是所述业务关联性因子的值,f2是所述业务关联性因子的权重值,C是所述指标关联性因子的值,f3是所述指标关联性因子的权重值,D是所述数据共享性因子的值,f4是所述数据共享性因子的权重值,E是所述管理关联性因子的值,f5是所述管理关联性因子的权重值。

在步骤S3中,确定所述各个判断因子的算法模型。所述各个判断因子的算法模型包括:语义相似度算法模型、语法相似度算法模型、语料向量相似度算法模型。可选地,该步骤还包括对算法模型进行管理,如对语义相似度算法模型进行在线管理,建立数据模型调用的通用接口,根据不同算法模型的要求管理每个模型的输入因素、权重以及输出。

具体而言,基于算法模型分析一个数据项与各个系统的关键词的关联性,确定一个数据项的数据覆盖范围因子的值。例如:客户信息表,如果多个系统中都存在客户信息表,那么表明该信息的覆盖范围程度比较高,需要重点关注。

基于算法模型分析一个数据项和关键业务术语之间的相似度,确定一个数据项和关键业务的关联性,即业务关联性因子的值。

基于算法模型分析一个数据项和关键分析指标之间的关联性,确定一个数据项对关键指标的支持程度,即指标关联性因子的值。

基于算法模型分析一个数据项和SG-CIM模型之间的关联度,确定数据项的共享性,即数据关联性因子的值。

基于算法模型分析一个数据项和负面清单中数据的关联关系,确定数据项的安全敏感度,即管理关联性因子的值。

在步骤S4中,导入待识别核心数据的数据资源。

导入待识别核心数据的数据资源包括:从powerdesigner数据导入接口、erwin数据导入接口、xml数据导入接口、word数据导入接口、或excel数据导入接口直接导入待识别核心数据的数据资源,且通过oracle数据接口、mysql数据接口、或db2数据接口直接从数据库中获取元数据信息,将该元数据信息作为待识别核心数据的数据资源存储至集中仓储库;建立数据资源目录,对导入的各类数据资源进行分类,方便用户以可视化的方式对数据进行查询。

在步骤S5中,根据所述核心数据识别模型以及所述算法模型对导入的数据资源进行核心数据的识别。

具体而言,根据所述核心数据识别模型以及所述算法模型对导入的数据资源进行核心数据的识别包括:对构建的所述核心数据识别模型进行测试,根据测试结果修正所述核心数据识别模型的系数;基于修正的所述核心数据识别模型对导入的数据资源进行核心数据的识别。

其中,所述对构建的所述核心数据识别模型进行测试包括:选定一个数据样本集,通过业务判断其中的核心数据,作为数据样例;采用所述核心数据识别模型对选定的所述数据样本集进行计算,将计算结果与数据样例进行对比分析,测试核心数据识别的准确性。

可选地,一实施方式中,对核心数据识别之后还包括:根据管理的要求建立核心数据的分类标签体系,例如分为核心数据、重要数据、一般数据等,制定每类数据的分类标准以及管理要求,并且建立核心数据标签和核心数据识别算法模型之间的关联关系,方便算法的升级和调整。如分为核心数据、重要数据、一般数据,经过模型计算得分为0.7及以上的数据为核心数据,应作为数据管理第一优先级的数据,做重点关注、优先管理;经过模型计算的得分为0.4至0.7之间的数据为重要数据,应作为数据管理第二优先级数据;经过模型计算得分低于0.4的数据为一般数据,应作为数据管理第三优先级数据。并且在企业数据资源目录中选择需要进行识别管理的数据范围,启动核心数据识别进行,系统自动启动多线程的并发处理,对相关数据之间的关联关系,核心数据标签等进行标识,明确各部分数据中哪些数据属于核心数据、哪些数据属于重要数据等,建立明确的标签,方便公司后续数据管理工作的开展。

基于同样的发明构思,如图2所示的实施方式还提供了一种核心数据识别系统,其包括:评判因素确定模块10、识别模型构建模块11、算法模型确定模块12、导入模块13、识别模块14。

评判因素确定模块10用于确定核心数据的评判因素。其中,所述评价因素包括:数据覆盖的系统范围、数据的业务关联性、数据对决策的影响程度、数据与企业级数据模型的关联度、数据的安全敏感度。

识别模型构建模块11与所述评判因素确定模块10相耦合,用于根据所述核心数据的评判因素划分出核心数据的各个判断因子以及所述各个判断因子的权重从而构建出核心数据识别模型。其中,所述判断因子包括:数据覆盖范围因子、业务关联性因子、指标关联性因子、数据共享性因子以及管理关联性因子。

所述核心数据识别模型为:

其中,M为核心数据系数的值,A是所述数据覆盖范围因子的值,f1是所述数据覆盖范围因子的权重值,B是所述业务关联性因子的值,f2是所述业务关联性因子的权重值,C是所述指标关联性因子的值,f3是所述指标关联性因子的权重值,D是所述数据共享性因子的值,f4是所述数据共享性因子的权重值,E是所述管理关联性因子的值,f5是所述管理关联性因子的权重值。

算法模型确定模块12用于确定所述各个判断因子的算法模型。所述各个判断因子的算法模型包括:语义相似度算法模型、语法相似度算法模型、语料向量相似度算法模型。

导入模块13用于导入待识别核心数据的数据资源。具体地,所述导入模块13用于从powerdesigner数据导入接口、erwin数据导入接口、xml数据导入接口、word数据导入接口、或excel数据导入接口直接导入待识别核心数据的数据资源,且通过oracle数据接口、mysql数据接口、或db2数据接口直接从数据库中获取元数据信息,将该元数据信息作为待识别核心数据的数据资源存储至集中仓储库;建立数据资源目录,对导入的各类数据资源进行分类。

识别模块14与识别模型构建模块11、算法模型确定模块12、导入模块13均相耦合,用于根据所述核心数据识别模型以及所述算法模型对导入的数据资源进行核心数据的识别。具体地,所述识别模块14包括:对构建的所述核心数据识别模型进行测试,根据测试结果修正所述核心数据识别模型的系数;基于修正的所述核心数据识别模型对导入的数据资源进行核心数据的识别。

可选地,一实施方式中,所述系统还用于:根据管理的要求建立核心数据的分类标签体系,例如分为核心数据、重要数据、一般数据等,制定每类数据的分类标准以及管理要求,并且建立核心数据标签和核心数据识别算法模型之间的关联关系,方便算法的升级和调整。如分为核心数据、重要数据、一般数据,经过模型计算得分为0.7及以上的数据为核心数据,应作为数据管理第一优先级的数据,做重点关注、优先管理;经过模型计算的得分为0.4至0.7之间的数据为重要数据,应作为数据管理第二优先级数据;经过模型计算得分低于0.4的数据为一般数据,应作为数据管理第三优先级数据。并且在企业数据资源目录中选择需要进行识别管理的数据范围,启动核心数据识别进行,系统自动启动多线程的并发处理,对相关数据之间的关联关系,核心数据标签等进行标识,明确各部分数据中哪些数据属于核心数据、哪些数据属于重要数据等,建立明确的标签,方便公司后续数据管理工作的开展。

基于同样的发明构思,一实施方式中还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施方式所述的核心数据识别方法的步骤。

基于同样的发明构思,一实施方式中还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现实现上述任一实施方式所述的核心数据识别方法的步骤。

综上,根据本实施方式的核心数据识别方法及系统,在电网行业内创新性地提出核心数据识别模型,明确核心数据识别的关键因素和权重的设置,基于该核心数据识别模型可以快速自动识别出核心数据。实现了各专业、各系统核心数据高效、准确识别,准确界定数据管理的工作对象和范围,帮助企业将有限的资源投入到对核心数据的管理上去,大大降低数据管理成本,提高管理成效。而且可以通过电网公司的数据进行可行性验证,对于推动行业数据管理工作的发展具有重要意义。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种培训信息获取方法、装置、电子设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!