数据纠错方法、装置及系统

文档序号:1170274 发布日期:2020-09-18 浏览:21次 >En<

阅读说明:本技术 数据纠错方法、装置及系统 (Data error correction method, device and system ) 是由 毛长汇 于 2020-06-11 设计创作,主要内容包括:本发明涉及数据处理技术领域,具体提供了一种数据纠错方法、装置及系统,旨在解决如何准确且高效地对海量繁杂的互联网数据进行数据纠错的技术问题。为此目的,根据本发明一个实施例的数据纠错方法是基于预设的Drools规则引擎和/或预设的LSTM神经网络模型算法对海量繁杂的互联网数据如从互联网获取到的目标对象的对象属性信息进行高效且准确的数据纠错。基于Drools规则引擎具备的易于调整以及易于管理等优点,本实施例可以灵活地设置纠错规则,随时调整纠错规则中的数据,从而满足不同用户不同的数据纠错需求。基于预设的LSTM神经网络模型算法进行数据纠错,不仅能够模拟人工审核方式,还克服了人工审核方式存在的耗时长、效率低的缺陷。(The invention relates to the technical field of data processing, in particular provides a data error correction method, a device and a system, and aims to solve the technical problem of accurately and efficiently correcting data of massive and complicated internet data. To this end, the data error correction method according to an embodiment of the present invention is to perform efficient and accurate data error correction on massive and complicated internet data, such as object attribute information of a target object obtained from the internet, based on a preset Drools rule engine and/or a preset LSTM neural network model algorithm. Based on the advantages of the Drools rule engine such as easy adjustment and easy management, the present embodiment can flexibly set the error correction rule and adjust the data in the error correction rule at any time, thereby satisfying different data error correction requirements of different users. The data error correction is carried out based on the preset LSTM neural network model algorithm, so that not only can a manual auditing mode be simulated, but also the defects of long time consumption and low efficiency existing in the manual auditing mode are overcome.)

数据纠错方法、装置及系统

技术领域

本发明涉及数据处理技术领域,具体涉及一种数据纠错方法、装置及系统。

背景技术

随着互联网技术的应用发展,很多用户都选择使用从互联网上获取目标对象如客户的数据信息,然后对这些数据信息进行数据清洗(例如:去除数据信息中与数据内容无关的图片、广告等)以及存储等处理。由于互联网数据的数据来源较为杂乱,这些互联网数据通常存在较多的数据错误、冲突、矛盾等问题,而这些问题又无法通过常规的数据清洗方法解决,只能采用人工审核的方式进行数据纠错。但是,受限于效率低、耗时长等因素,这种人工审核的方式并不适用于对大数据量的互联网数据进行数据纠错。

相应地,本领域需要一种新的数据纠错方案来解决上述问题。

发明内容

为了克服上述缺陷,提出了本发明,以提供解决或至少部分地解决如何准确且高效地对海量繁杂的互联网数据进行数据纠错的技术问题的数据纠错方法、装置及系统。

第一方面,提供一种数据纠错方法,该方法包括:

获取目标对象的对象属性信息,所述对象属性信息包括目标对象的对象特征和对象简介;

调用预设的Drools规则引擎中的纠错规则,根据所述纠错规则对所述对象特征进行纠错并输出第一纠错结果;

和/或,基于预设的LSTM神经网络模型算法对所述目标对象的对象简介进行文本分析,根据文本分析结果分别获取所述对象简介中与每个对象特征各自对应的简介特征,根据每个对象特征以及每个对象特征各自对应的简介特征的比较结果输出第二纠错结果;

其中,所述第一纠错结果与所述第二纠错结果均包括信息错误原因以及发生错误的对象属性信息副本。

在上述数据纠错方法的一个技术方案中,所述方法还包括:

获取当前纠错结果的反馈信息;

根据所述反馈信息启动相应的数据处理端,以响应与所述反馈信息预先关联的用户处理请求;

其中,所述反馈信息包括同意修改错误信息和拒绝修改错误信息,与所述同意修改错误信息预先关联的用户处理请求包括修改目标对象的对象特征;若当前纠错结果是第一纠错结果,则与所述拒绝修改错误信息预先关联的用户处理请求包括修改所述预设的Drools规则引擎中的纠错规则;若当前纠错结果是第二纠错结果,则与所述拒绝修改错误信息预先关联的用户处理请求包括不修改目标对象的对象特征。

在上述数据纠错方法的一个技术方案中,“基于预设的LSTM神经网络模型算法对所述目标对象的对象简介进行文本分析,根据文本分析结果分别获取所述对象简介中与每个对象特征各自对应的简介特征,以及根据每个对象特征以及每个对象特征各自对应的简介特征的比较结果输出第二纠错结果”的步骤具体包括:

对所述目标对象的对象简介进行分词处理,根据分词处理结果获取所述对象简介中每个词语各自对应的词向量,根据所述词向量获取所述对象简介的对象简介向量;

获取当前待纠错的对象特征的对象特征向量;

基于预设的LSTM神经网络模型并根据所述对象简介向量,获取在所述对象简介中与当前待纠错的对象特征对应的简介特征的简介特征向量,以及判断所述简介特征向量与所述对象特征向量是否一致;若不一致,则输出第二纠错结果。

在上述数据纠错方法的一个技术方案中,所述预设的LSTM神经网络模型的模型训练方法包括:

获取预设训练集中对象样本的对象属性信息,所述对象属性信息包括对象样本的对象特征和对象简介;

对所述对象样本的对象简介进行分词处理,根据分词处理结果获取所述对象简介中每个词语各自对应的词向量,根据所述词向量获取所述对象简介的对象简介向量;

获取所述对象样本的每个对象特征各自对应的对象特征向量;

将所述对象简介向量分别与每个对象特征向量进行向量拼接,得到每个对象特征向量各自对应的全文向量;

基于每个全文向量并利用机器学习算法对预先构建的LSTM神经网络模型进行模型训练。

第二方面,提供一种数据纠错系统,该系统包括:

数据获取装置,其被配置成获取目标对象的对象属性信息,所述对象属性信息包括目标对象的对象特征和对象简介;

数据纠错装置,其被配置成调用预设的Drools规则引擎中的纠错规则,根据所述纠错规则对所述对象特征进行纠错并输出第一纠错结果;和/或基于预设的LSTM神经网络模型算法对所述目标对象的对象简介进行文本分析,根据文本分析结果分别获取所述对象简介中与每个对象特征各自对应的简介特征,根据每个对象特征以及每个对象特征各自对应的简介特征的比较结果输出第二纠错结果;

其中,所述第一纠错结果与所述第二纠错结果均包括信息错误原因以及发生错误的对象属性信息副本。

在上述数据纠错系统的一个技术方案中,所述系统还包括数据纠错处理装置,所述数据纠错处理装置被配置成执行以下操作:

获取当前纠错结果的反馈信息;

根据所述反馈信息启动相应的数据处理端,以响应与所述反馈信息预先关联的用户处理请求;

其中,所述反馈信息包括同意修改错误信息和拒绝修改错误信息,与所述同意修改错误信息预先关联的用户处理请求包括修改目标对象的对象特征;若当前纠错结果是第一纠错结果,则与所述拒绝修改错误信息预先关联的用户处理请求包括修改所述预设的Drools规则引擎中的纠错规则;若当前纠错结果是第二纠错结果,则与所述拒绝修改错误信息预先关联的用户处理请求包括不修改目标对象的对象特征。

在上述数据纠错系统的一个技术方案中,还包括:

所述数据纠错装置被配置成执行以下操作:

对所述目标对象的对象简介进行分词处理,根据分词处理结果获取所述对象简介中每个词语各自对应的词向量,根据所述词向量获取所述对象简介的对象简介向量;

获取当前待纠错的对象特征的对象特征向量;

基于预设的LSTM神经网络模型并根据所述对象简介向量,获取在所述对象简介中与当前待纠错的对象特征对应的简介特征的简介特征向量,以及判断所述简介特征向量与所述对象特征向量是否一致;若不一致,则输出第二纠错结果。

在上述数据纠错系统的一个技术方案中,还包括:

所述数据纠错装置包括模型训练模块,所述模型训练模块被配置成执行以下操作:

获取预设训练集中对象样本的对象属性信息,所述对象属性信息包括对象样本的对象特征和对象简介;

对所述对象样本的对象简介进行分词处理,根据分词处理结果获取所述对象简介中每个词语各自对应的词向量,根据所述词向量获取所述对象简介的对象简介向量;

获取所述对象样本的每个对象特征各自对应的对象特征向量;

将所述对象简介向量分别与每个对象特征向量进行向量拼接,得到每个对象特征向量各自对应的全文向量;

基于每个全文向量并利用机器学习算法对预先构建的LSTM神经网络模型进行模型训练。

第三方面,提供一种存储装置,该存储装置其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行上述任一项所述的数据纠错方法。

第四方面,提供一种控制装置,该控制装置包括处理器和存储装置,所述存储装置适于存储多条程序代码,所述程序代码适于由所述处理器加载并运行以执行上述任一项所述的数据纠错方法。

本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:

在实施本发明的技术方案中,可以基于预设的Drools规则引擎和/或预设的LSTM神经网络模型算法对海量繁杂的互联网数据如从互联网获取到的目标对象的对象属性信息进行高效且准确的数据纠错。具体而言,基于预设的Drools规则引擎进行数据纠错包括:调用预设的Drools规则引擎中的纠错规则,根据纠错规则对对象属性信息中的对象特征进行纠错并输出第一纠错结果。基于预设的LSTM神经网络模型算法进行数据纠错包括:基于预设的LSTM神经网络模型算法对对象属性信息中的对象简介进行文本分析,分别获取对象简介中与每个对象特征各自对应的简介特征,进而根据每个对象特征以及每个对象特征各自对应的简介特征的比较结果输出第二纠错结果。其中,第一纠错结果与第二纠错结果均包括信息错误原因以及发生错误的对象属性信息副本。

基于Drools规则引擎具备的易于调整以及易于管理等优点,本发明实施例可以灵活地设置纠错规则,随时调整纠错规则中的数据,而不用去修改加载该Drools规则引擎的系统的代码,从根本上把数据纠错的处理逻辑与系统代码分离,从而满足不同用户不同的数据纠错需求。基于预设的LSTM神经网络模型算法进行数据纠错的方式,不仅能够模拟人工审核,还克服了人工审核存在的耗时长、效率低的缺陷。进一步,当同时基于预设的Drools规则引擎以及预设的LSTM神经网络模型算法对目标对象的对象属性信息纠错分析时,可以极大地提高数据纠错的全面性以及准确性。

附图说明

下面参照附图来描述本发明的

具体实施方式

,附图中:

图1是根据本发明的一个实施例的数据纠错方法的主要步骤流程示意图;

图2是根据本发明的一个实施例的数据纠错系统的主要结构框图;

附图标记列表:

11:数据获取装置;12:数据纠错装置。

具体实施方式

下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。

在本发明的描述中,“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路,各种合适的感应器,通信端口,存储器,也可以包括软件部分,比如程序代码,也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质,比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合,比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似,可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。

由于互联网数据的数据来源较为纷杂,因而这些互联网数据通常存在较多的数据错误、冲突、矛盾等问题。一个例子:从互联网采集到的一段文字信息是“医生A的籍贯是山西省西安市”,而西安市的所属省份是陕西省,因而这段文字信息显然存在数据错误。对于这类数据问题,目前传统的数据纠错方法主要是通过人工审核的方式实现。但是受限于耗时长、效率低等因素,这种人工审核的方式并不适用于对大数据量的互联网数据进行数据纠错。

在本发明实施例中,可以基于预设的Drools规则引擎和/或预设的LSTM神经网络模型算法对海量繁杂的互联网数据如从互联网获取到的目标对象的对象属性信息进行高效且准确的数据纠错。具体而言,基于预设的Drools规则引擎进行数据纠错包括:调用预设的Drools规则引擎中的纠错规则,根据纠错规则对对象属性信息中的对象特征(例如:如果目标对象是医生A,那么该对象特征包括但不限于:医生A的名字、年龄、学历、联系方式、工作单位等)进行纠错并输出第一纠错结果。基于预设的LSTM神经网络模型算法进行数据纠错包括:基于预设的LSTM神经网络模型算法对对象属性信息中的对象简介(例如:如果目标对象是医生A,该对象简介就是医生A的医生简介)进行文本分析,分别获取对象简介中与每个对象特征各自对应的简介特征,进而根据每个对象特征以及每个对象特征各自对应的简介特征的比较结果输出第二纠错结果。其中,第一纠错结果与第二纠错结果包括但不限于:信息错误原因、发生错误的对象属性信息副本、纠错时间和修改建议等,以便于用户更直观地查看错误信息。

Drools规则引擎是一个易于调整以及易于管理的开源业务规则引擎,基于Drools规则引擎,可以灵活地设置纠错规则,随时调整纠错规则中的数据,而不用去修改加载该Drools规则引擎的系统的代码,从根本上把数据纠错的处理逻辑与系统代码分离,从而满足不同用户不同的数据纠错需求。

目标对象的对象简介(例如:用户的个人简介信息)通常包含了目标对象的一部分对象特征(例如:用户的名字和年龄等),换言之,目标对象的对象特征以及对象简介存在一部分信息重复/交叉。通过LSTM神经网络模型算法对目标对象的对象简介进行文本分析,根据文本分析结果获取在对象简介中与目标对象的某个对象特征(例如:用户的年龄)对应的简介特征(对象简介中记载的用户的年龄),如果上述对象特征与相应的简介特征一致,则表示上述对象特征是正确的,无需进行纠错。如果上述对象特征与相应的简介特征不一致,则表示上述对象特征可能出错,需要进行纠错,因而在检测到上述对象特征与相应的简介特征不一致后输出纠错结果,提醒用户修改对象特征。这种基于预设的LSTM神经网络模型算法进行数据纠错的方式,不仅能够模拟人工审核,还克服了人工审核存在的耗时长、效率低的缺陷。进一步,在本发明实施例中,如果同时基于预设的Drools规则引擎以及预设的LSTM神经网络模型算法对目标对象的对象属性信息纠错分析,将会极大提高数据纠错的准确性。

在本发明的一个应用场景中,某个医药企业的客户关系管理系统(CustomerRelationship Management,CRM)中存储了大数据量的从互联网上采集到的医生数据。这个医生数据主要包括医生主数据以及医生关联数据,医生主数据主要包括医生的名字、年龄、性别、工作单位以及医生简介等数据,医生关联数据主要包括医生发表的文献、参加的会议信息等数据。其中,医生主数据中通常会存在数据错误、冲突、矛盾等问题。一个例子:医生主数据包括“医生A的籍贯是山西省西安市”,而西安市的所属省份是陕西省,因而这段文字信息显然存在数据错误。在此情况下,可以根据本发明一个实施例的数据纠错方法对客户关系管理系统中的医生主数据进行纠错。其中,某个医生的医生主数据就是这个医生的对象属性信息,医生主数据中的医生简介是对象属性信息中的对象简介,而医生主数据中除了医生简介以外的其他信息则是对象属性信息中的对象特征。

一个例子:某个医生的医生主数据包括:

省:北京

市:北京

国家:中国

医院:北京协和医院

科室:儿外科

姓名:张三

年龄段:40-50

性别:男

职称:主任医师

医生简介:张三,男,副主任医师,外科学博士,中华医学会小儿外科分会肿瘤学组委员,上海医学会小儿外科学分会委员,中国抗癌协会儿童肿瘤专业委员会青年委员会副主任委员。曾于美国斯坦福大学医学院访问学习。主持及参与多项国家级课题,发表相关论文10余篇,获第三届、第四届全国小儿肿瘤外科学术交流会暨第三届海峡两岸儿童肿瘤研讨会青年医师优秀论文二等奖,三等奖,第五届中国肿瘤学术大会中青年优秀论文三等奖。熟悉小儿常见病多发病的诊治,儿童实体肿瘤的综合治疗。

在根据本发明一个实施例的数据纠错方法对上述医生主数据进行纠错分析后得出医生简介中关于职称的简介特征“副主任医师”与对象特征中医生职称特征“主任医师”不一致,则表示医生职称特征可能出错,需要进行纠错,随后输出纠错结果,该纠错结果中的信息错误原因可以是“职称与对象简介不一致”。

参阅附图1,图1是根据本发明的一个实施例的数据纠错方法的主要步骤流程示意图。如图1所示,在本发明实施例中数据纠错方法可以包括以下步骤:

步骤S101:获取目标对象的对象属性信息。

目标对象指的是,进行数据纠错的目标,即对该目标的相关数据进行数据纠错。目标对象的对象属性信息指的是,能够表示目标对象的某种特征/特性的数据。一个例子:如果目标对象是医生A,那么医生A的对象属性信息包括但不限于:医生A的名字、年龄、学历、联系方式、工作单位以及简介等。

一个实施方式中,可以实时获取外部系统输入的目标对象的对象属性信息。在本实施方式中,可以在用于执行数据纠错方法的装置中设置专门用于与外部系统进行通信,以获取外部系统中存储的对象属性信息的获取模块。一个例子:上述“专门用于与外部系统进行通信,以获取外部系统中存储的对象属性信息的获取模块”可以是基于应用程序接口(Application Programming Interface,API)构建的模块,外部系统可以通过调用API接口,以使“用于执行数据纠错方法的装置”能够通过该API接口获取到外部系统向其输出的对象属性信息。其中,API接口的接口请求方式是POST型,以便于外部系统能够向“用于执行数据纠错方法的装置”预先指定的地址(例如:https://gateway.datacorrect.cn/doctor-info/input)输出对象属性信息。

一个实施方式中,可以定时获取外部系统中存储的目标对象的对象属性信息。在本实施方式中,可以通过直接访问数据库的方式,定时且批量地获取外部系统中数据库存储的对象属性信息。通过这种数据获取方式,能够保证对数据库中存储的所有对象属性信息进行全面的纠错分析,防止发生漏检的问题。

步骤S102:基于预设的Drools规则引擎和/或预设的LSTM神经网络模型算法对目标对象的对象属性信息进行纠错并输出纠错结果。下面分别对基于预设的Drools规则引擎以及预设的LSTM神经网络模型算法进行数据纠错的具体步骤进行说明。

1、基于预设的Drools规则引擎进行数据纠错。

规则引擎是一种嵌套在应用程序种的组件,它实现了将业务规则从应用程序代码中分离出来,使复杂的业务规则实现变得简单,也可以动态修改业务规则,从而快速的响应需求变更。而Drools规则引擎是一个RETE算法并用Java语言编写的开放源码规则引擎,其中,RETE算法是卡内基梅隆大学的Charles L.Forgy博士在1974年发表的论文中所阐述的算法。Drools规则引擎具备易于调整以及易于管理等优点,基于Drools规则引擎,可以灵活地设置纠错规则,随时调整纠错规则中的数据,而不用去修改加载该Drools规则引擎的系统的代码,从根本上把数据纠错的处理逻辑与系统代码分离,从而满足不同用户不同的数据纠错需求

具体而言,在本实施例中可以调用预设的Drools规则引擎中的纠错规则,根据调取的纠错规则对目标对象的对象特征进行纠错并输出第一纠错结果。一个例子:如果目标对象的对象属性信息是某个医药企业的客户关系管理系统中存储的医生主数据,那么Drools规则引擎中的纠错规则可以包括但不限于以下规则:

纠错规则1:省份与城市不符

纠错规则2:省份与国家不符

纠错规则3:医院名称长度大于10个字符

纠错规则4:医生姓名为空

纠错规则5:医生姓名长度超过20个字符

纠错规则6:医生年龄段小于20-30

纠错规则7:医生年龄段大于100-110

纠错规则8:手机号合法性校验

纠错规则9:工作年限大于80

纠错规则10:工作年限大于医生年龄段

通过逐一调用上述纠错规则1-10对医生A的医生主数据进行纠错。如果根据纠错规则1对“医生A的籍贯是山西省西安市”进行纠错,可以得出医生A的籍贯特征存在数据错误,进而可以输出纠错结果,该纠错结果可以包括信息错误原因以及发生错误的对象属性信息副本(“医生A的籍贯是山西省西安市”的复制信息),信息错误原因可以是“省份与城市不符”。

2、基于预设的LSTM神经网络模型算法进行数据纠错。

在本实施例中,可以基于预设的LSTM神经网络模型算法并按照下述步骤对目标对象的对象属性信息进行纠错:

基于预设的LSTM神经网络模型算法对目标对象的对象简介进行文本分析,根据文本分析结果分别获取对象简介中与每个对象特征各自对应的简介特征,根据每个对象特征以及每个对象特征各自对应的简介特征的比较结果输出第二纠错结果。若当前对象特征以及与其对应的简介特征一致,则表示当前对象特征是正确的,无需进行纠错。如果当前对象特征以及与其对应的简介特征不一致,则表示当前对象特征可能出错,需要进行纠错,因此可以输出纠错结果,以提醒用户检查错误信息和/或修改错误信息。

一个实施方式中,可以基于预设的LSTM神经网络模型算法并按照下述步骤对目标对象的对象属性信息进行纠错:

步骤11:获取预设训练集中对象样本的对象属性信息。

对象属性信息包括对象样本的对象特征和对象简介。其中,对象特征以及对象简介分别与前述步骤S101中所述的对象特征与对象简介相同,为了描述简洁,在此不再赘述。

步骤12:对步骤11获取到的对象样本的对象简介进行分词处理,根据分词处理结果获取对象简介中每个词语各自对应的词向量,根据词向量获取对象简介的对象简介向量。

一个例子:对象样本是医生A,该医生A的对象简介如下:

A,男,主任医师,教授,肾内科副主任,内科学系副主任,硕士研究生导师,江苏无锡人,1993年毕业于北京医科大学,毕业后在北京协和医院内科工作,任住院医师,住院总医师。2000年毕业于中国协和医科大学,获医学博士学位。继续在北京协和医院肾内科工作,任肾内科主治医师。2002.6-2003.6作为访问学者于英国伦敦大学学院皇家自由医院肾内科工作。2003年底担任北京协和医院肾内科副主任。2004年被北京协和医院聘为副主任医师,副教授。2005年被中国协和医科大学聘为硕士研究生导师。2008年***评审获主任医师资格。主要从事各种原发和继发性肾脏病的临床诊治工作。擅长难治性肾病综合征,IgA肾病,狼疮性肾炎等疾病的治疗。科研方面,主要从事肾脏脂质代谢和肾脏病理方面的研究。2000年以来以第一作者或通讯作者在国外和国内核心刊物上发表论文共40余篇,其中论著20余篇。

首先,根据上述对象简介中的标点符号,将上述对象简介划分为多个句子,具体如下。

<A>,<男>,<主任医师>,<教授>,<肾内科副主任>,<内科学系副主任>,<硕士研究生导师>,<江苏无锡人>,<1993年毕业于北京医科大学>,<毕业后在北京协和医院内科工作>,<任住院医师>,<2000年毕业于中国协和医科大学>,<获医学博士学位>,<继续在北京协和医院肾内科工作>,<任肾内科主治医师>,<2002.6-2003.6作为访问学者于英国伦敦大学学院皇家自由医院肾内科工作>,<2003年底担任北京协和医院肾内科副主任>,<2004年被北京协和医院聘为副主任医师>,...,<2000年以来以第一作者或通讯作者在国外和国内核心刊物上发表论文共40余篇>,<其中论著20余篇>。

然后,对上述每个句子分别进行分词处理,得到如下分词处理结果:

<A>,<男>,<主任医师>,<教授>,<肾内科>,<副主任>,<内科学>,<系>,<副主任>,<硕士研究生导师>,<江苏>,<无锡人>,<1993年>,<毕业于>,<北京医科大学>,<毕业>,<后>,<在>,<北京协和医院>,<内科>,<工作>,<任>,<住院医师>,<2000年>,<毕业于>,<中国协和医科大学>,<获>,<医学博士学位>,<继续>,<在>,<北京协和医院>,<肾内科>,<工作>,<任>,<肾内科>,<主治医师>,<2002.6>,<->,<2003.6>,<作为>,<访问学者>,<于>,<英国伦敦大学学院皇家自由医院>,<肾内科>,<工作>,<2003年>,<底>,<担任>,<北京协和医院>,<肾内科>,<副主任>,<2004年>,<被>,<北京协和医院>,<聘为>,<副主任医师>,...,<2000年>,<以来>,<以>,<第一作者>,<或>,<通讯作者>,<在>,<国外>,<和>,<国内>,<核心刊物>,<上>,<发表论文>,<共>,<40>,<余篇>,<其中>,<论著>,<20>,<余篇>

最后,分别获取上述每个词语各自对应的词向量,对这些词向量进行向量拼接得到对象简介的对象简介向量。

步骤13:获取对象样本的每个对象特征各自对应的对象特征向量。在本实施方式中,可以基于自然语言处理技术领域中常规的自然语言识别方法先获取对象特征的语义信息,然后根据该语义信息获取相应的对象特征向量。

步骤14:将对象简介向量分别与每个对象特征向量进行向量拼接,得到每个对象特征向量各自对应的全文向量。

步骤15:基于每个全文向量并利用机器学习算法对预先构建的LSTM神经网络模型进行模型训练。

步骤16:根据模型训练后的LSTM(Long Short-Term Memory)神经网络模型对目标对象的对象属性信息进行纠错分析,具体包括如下步骤:

步骤161:对目标对象的对象简介进行分词处理,根据分词处理结果获上述对象简介中每个词语各自对应的词向量,根据词向量获取对象简介的对象简介向量。

步骤162:获取当前待纠错的对象特征的对象特征向量。

步骤163:基于预设的LSTM神经网络模型并根据对象简介向量,获取在对象简介中与当前待纠错的对象特征对应的简介特征的简介特征向量,以及判断简介特征向量与对象特征向量是否一致;若不一致,则输出第二纠错结果。

具体而言,首先将对象简介向量分别与每个对象特征向量进行向量拼接,得到全文向量。然后将每个全文向量依次输入到预设的LSTM神经网络模型中进行纠错分析。LSTM神经网络模型能够获取在对象简介中与当前输入的全文向量中的对象特征向量对应的对象简介向量,进而判断简介特征向量与对象特征向量是否一致。

要说明的是,上述步骤11-步骤16是一个完整的LSTM神经网络模型的训练与使用过程。在一些实施方式中,如果LSTM神经网络模型已经训练完成,可以在步骤S101之后忽略步骤11-15,转而直接执行步骤16。

进一步,根据本发明的一个实施例的数据纠错方法,在执行步骤S102之后可以包括如下步骤S103-步骤S104。

步骤S103:获取经过步骤S102得到的纠错结果的反馈信息。

纠错结果的反馈信息指包括同意修改错误信息和拒绝修改错误信息,同意修改错误信息指的是同意修改当前纠错结果提示的错误,拒绝修改错误信息指的是拒绝修改当前纠错结果提示的错误。

步骤S104:根据反馈信息启动相应的数据处理端,以响应与该反馈信息预先关联的用户处理请求。

与同意修改错误信息预先关联的用户处理请求可以包括修改目标对象的对象特征。一个例子:如果纠错结果提示的错误信息是医生职称特征与医生简介中的职称信息不一致,则会启动医生职称特征的数据处理端,以便于用户在当前数据处理端中修改医生职称特征。

若纠错结果是第一纠错结果,则与拒绝修改错误信息预先关联的用户处理请求可以包括修改预设的Drools规则引擎中的纠错规则。一个例子:在基于预设的Drools规则引擎对目标对象的对象属性信息进行纠错后得到的纠错结果提示的错误信息是:工作年限小于80。然而,由于“错误信息是工作年限小于80”是合理的,因此其被判定为错误信息显然是错误的。在收到当前纠错结果的拒绝修改错误信息后,则立刻启动纠错规则“工作年限大于80”的数据处理端,以便于用户修改这个纠错规则。例如:将纠错规则修改为“工作年限小于80”。

若纠错结果是第二纠错结果,则与拒绝修改错误信息预先关联的用户处理请求可以包括不修改目标对象的对象特征,即在接收到拒绝修改错误信息保持当前对象特征不变,不做任何修改。

需要指出的是,尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述,但是本领域技术人员可以理解,为了实现本发明的效果,不同的步骤之间并非必须按照这样的顺序执行,其可以同时(并行)执行或以其他顺序执行,这些变化都在本发明的保护范围之内。

参阅附图2,图2是根据本发明的一个实施例的数据纠错系统的主要结构框图。如图2所示,本发明实施例中数据纠错系统主要包括数据获取装置11和数据纠错装置12。数据获取装置11可以被配置成获取目标对象的对象属性信息,对象属性信息包括目标对象的对象特征和对象简介。数据纠错装置12可以被配置成调用预设的Drools规则引擎中的纠错规则,根据纠错规则对对象特征进行纠错并输出第一纠错结果;和/或基于预设的LSTM神经网络模型算法对目标对象的对象简介进行文本分析,分别获取对象简介中与每个对象特征各自对应的简介特征,以及根据每个对象特征以及每个对象特征各自对应的简介特征的比较结果输出第二纠错结果。其中,第一纠错结果与第二纠错结果均包括信息错误原因以及发生错误的对象属性信息副本。在一个实施方式中,具体实现功能的描述可以参见步骤S101-步骤S102所述。

在一个实施方式中,图2所示的数据纠错系统可以包括数据纠错处理装置,该数据纠错处理装置可以被配置成执行以下操作:

获取当前纠错结果的反馈信息;根据反馈信息启动相应的数据处理端,以响应与反馈信息预先关联的用户处理请求。其中,反馈信息包括同意修改错误信息和拒绝修改错误信息,与同意修改错误信息预先关联的用户处理请求包括修改目标对象的对象特征;若当前纠错结果是第一纠错结果,则与拒绝修改错误信息预先关联的用户处理请求包括修改预设的Drools规则引擎中的纠错规则;若当前纠错结果是第二纠错结果,则与拒绝修改错误信息预先关联的用户处理请求包括不修改目标对象的对象特征。在一个实施方式中,具体实现功能的描述可以参见步骤S103-步骤S104所述。

在一个实施方式中,数据纠错装置12可以被配置成执行以下操作:对目标对象的对象简介进行分词处理,根据分词处理结果获取对象简介中每个词语各自对应的词向量,根据词向量获取对象简介的对象简介向量;获取当前待纠错的对象特征的对象特征向量;基于预设的LSTM神经网络模型并根据对象简介向量,获取在对象简介中与当前待纠错的对象特征对应的简介特征的简介特征向量,以及判断简介特征向量与对象特征向量是否一致;若不一致,则输出第二纠错结果。在一个实施方式中,具体实现功能的描述可以参见步骤S102所述。

在一个实施方式中,数据纠错装置12可以包括模型训练模块,模型训练模块被配置成执行以下操作:

获取预设训练集中对象样本的对象属性信息,对象属性信息包括对象样本的对象特征和对象简介;对对象样本的对象简介进行分词处理,根据分词处理结果获取对象简介中每个词语各自对应的词向量,根据词向量获取对象简介的对象简介向量;获取对象样本的每个对象特征各自对应的对象特征向量;将对象简介向量分别与每个对象特征向量进行向量拼接,得到每个对象特征向量各自对应的全文向量;基于每个全文向量并利用机器学习算法对预先构建的LSTM神经网络模型进行模型训练。在一个实施方式中,具体实现功能的描述可以参见步骤S102所述。

上述数据纠错系统以用于执行图1所示的数据纠错方法实施例,两者的技术原理、所解决的技术问题及产生的技术效果相似,本技术领域技术人员可以清楚地了解到,为了描述的方便和简洁,数据纠错系统的具体工作过程及有关说明,可以参考数据纠错方法的实施例所描述的内容,此处不再赘述。

进一步,本发明还提供了一种存储装置。在该存储装置实施例中存储装置可以被配置成存储执行上述方法实施例的数据纠错方法的程序,该程序可以由处理器加载并运行以实现上述数据纠错方法。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该存储装置可以是包括各种电子设备形成的存储装置设备,可选的,本发明实施例中存储是非暂时性的计算机可读存储介质。

进一步,本发明还提供了一种控制装置。在该控制装置实施例中,控制装置包括处理器和存储装置,存储装置可以被配置成存储执行上述方法实施例的数据纠错方法的程序,处理器可以被配置成用于执行存储装置中的程序,该程序包括但不限于执行上述方法实施例的数据纠错方法的程序。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该控制装置可以是包括各种电子设备形成的控制装置设备,可选的,本发明实施例中控制装置是服务器。

本领域技术人员能够理解的是,本发明实现上述一实施例的方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

进一步,应该理解的是,由于各个模块的设定仅仅是为了说明本发明的系统的功能单元,这些模块对应的物理器件可以是处理器本身,或者处理器中软件的一部分,硬件的一部分,或者软件和硬件结合的一部分。因此,图中的各个模块的数量仅仅是示意性的。

本领域技术人员能够理解的是,可以对系统中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理,因此,拆分或合并之后的技术方案都将落入本发明的保护范围内。

至此,已经结合附图所示的一个实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

16页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:推荐语句生成装置、推荐语句生成方法和计算机可读记录介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!