药品信息归一化的方法、装置、存储介质及电子设备

文档序号:1363089 发布日期:2020-08-11 浏览:30次 >En<

阅读说明:本技术 药品信息归一化的方法、装置、存储介质及电子设备 (Medicine information normalization method and device, storage medium and electronic equipment ) 是由 张黎 于 2020-04-17 设计创作,主要内容包括:本公开的实施例提供了一种药品信息归一化的方法、装置、计算机可读介质及电子设备。该方法包括:从病历数据中提取药品信息的多个字段信息,确定所述多个字段信息组成的组合字段;根据第一词典和所述组合字段,识别所述组合字段对应的标准字段,当确定所述第一词典中不存在所述组合字段对应的标准字段,则确定所述组合字段对应的多个独立字段;根据第二词典和所述多个独立字段,识别每一独立字段对应的标准字段;根据每一独立字段对应的标准字段对所述组合字段进行归一化处理。在进行归一化处理之前,对病历数据进行组合字段以及独立字段的标准字段识别,提升了归一化处理的效率以及准确性。(The embodiment of the disclosure provides a medicine information normalization method and device, a computer readable medium and electronic equipment. The method comprises the following steps: extracting a plurality of field information of the medicine information from the medical record data, and determining a combined field formed by the plurality of field information; according to a first dictionary and the combined field, identifying a standard field corresponding to the combined field, and when determining that the standard field corresponding to the combined field does not exist in the first dictionary, determining a plurality of independent fields corresponding to the combined field; identifying a standard field corresponding to each independent field according to a second dictionary and the plurality of independent fields; and normalizing the combined field according to the standard field corresponding to each independent field. Before normalization processing is carried out, standard field identification of a combined field and an independent field is carried out on medical record data, and the efficiency and accuracy of normalization processing are improved.)

药品信息归一化的方法、装置、存储介质及电子设备

技术领域

本公开涉及计算机技术以及信息处理技术领域,具体而言,涉及一种药品信息归一化的方法、装置、存储介质及电子设备。

背景技术

在电子信息化的今天,各医疗机构每天都会产生众多医疗数据,随着医疗行业信息化程度的不断提高和完善,行业电子病历系统数据量在不断增长,传统的基于数据库的数据处理,开始出现速度慢、规则多、维护困难等问题,医疗行业需要引入机器学习、深度学习等人工智能手段,对人工无法覆盖的数据进行处理以改善效率。然而这些人工智能手段给出的结果,往往存在着解释性问题。例如,以药品医嘱数据为例,机器学习、深度学习这些算法模块可以综合多字段信息,给出某个标准化结果的置信度(概率)。

为了解决算法的解释性问题,提升算法的准确性,相关技术中通常采用:1.将医院数据库的待标准化原始数据进行统计归类,对高频、常用数据进行人工标注。2.由技术人员设计正则表达式规则,实现数据的清洗以及泛化匹配,体现为SQL(Structured QueryLanguage,结构化查询语言)或者处理函数。3.在数据展示环节,以标准化病历提供数据支持。

以上技术中,由人工标记高频、常用数据,需要设计各种各样的正则表达式,造成了人工成本高,效率低,容易出错,增加了技术困难,而且,整个标准化应用范围窄,解释性差,归一化结果不准确。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开实施例提供一种药品信息归一化的方法、装置、计算机可读介质及电子设备,进而至少在一定程度上提升药品信息归一化的效率及准确率。

本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。

根据本公开实施例的一个方面,提供了一种药品信息归一化的方法,其中,包括:从病历数据中提取药品信息的多个字段信息,确定所述多个字段信息组成的组合字段;根据第一词典和所述组合字段,识别所述组合字段对应的标准字段,当确定所述第一词典中不存在所述组合字段对应的标准字段,则确定所述组合字段对应的多个独立字段;根据第二词典和所述多个独立字段,识别每一独立字段对应的标准字段;根据每一独立字段对应的标准字段对所述组合字段进行归一化处理。

在本公开的一些示例性实施例中,基于前述方案,所述方法还包括:当确定所述第二词典中不存在每一独立字段的对应的标准字段,获取所述第二词典中不存在对应的标准字段的独立字段;从所述独立字段中提取出字段分词;根据第三词典和所述字段分词,识别所述字段分词对应的标准字段;根据所述字段分词对应的标准字段确定所述每一独立字段对应的标准字段。

在本公开的一些示例性实施例中,基于前述方案,根据所述字段分词对应的标准字段确定所述每一独立字段对应的标准字段,包括:若在所述第二词典中存在对应的标准字段的独立字段,根据所述独立字段在第二词典中对应的标准字段以及所述第二词典中不存在对应的标准字段的独立字段的字段分词对应的标准字段,确定所述每一独立字段对应的标准字段;若在所述第二词典中不存在对应的标准值的独立字段,根据每一独立字段的字段分词对应的标准字段确定所述每一独立字段对应的标准字段。

在本公开的一些示例性实施例中,基于前述方案,所述方法还包括:当确定所述第三词典中不存在所述第二词典中不存在对应的标准字段的独立字段的字段分词的标准字段,基于所述独立字段的初始字段确定所述独立字段的标准字段。

在本公开的一些示例性实施例中,基于前述方案,从病历数据中提取药品信息的多个字段信息,确定所述多个字段信息组成的组合字段,包括:从病历数据中提取药品信息的多个字段信息;以连接符对所述多个字段进行拼接,确定所述多个字段信息组成的组合字段。

在本公开的一些示例性实施例中,基于前述方案,根据每一独立字段对应的标准字段对所述组合字段进行归一化处理,包括:获取归一化处理的学习模型;基于所述学习模型以及每一独立字段对应的标准字段对所述组合字段进行归一化处理。

在本公开的一些示例性实施例中,基于前述方案,基于所述学习模型以及每一独立字段对应的标准字段对所述组合字段进行归一化处理,包括:基于所述学习模块的输入格式对每一独立字段对应的标准字段进行拼接,生成所述组合字段对应的标准组合字段;基于所述学习模块以及所述标准组合字段对所述组合字段进行归一化处理。

根据本公开实施例的一个方面,提供了一种药品信息归一化的装置,包括:提取模块,配置为从病历数据中提取药品信息的多个字段信息,确定所述多个字段信息组成的组合字段;确定模块,配置为根据第一词典和所述组合字段,识别所述组合字段对应的标准字段,当确定所述第一词典中不存在所述组合字段对应的标准字段,则确定所述组合字段对应的多个独立字段;识别模块,配置为根据第二词典和所述多个独立字段,识别每一独立字段对应的标准字段;归一化模块,配置为根据每一独立字段对应的标准字段对所述组合字段进行归一化处理。

在本公开的一些示例性实施例中,基于前述方案,所述识别模块,包括:获取单元,配置为当确定所述第二词典中不存在每一独立字段的对应的标准字段,获取所述第二词典中不存在对应的标准字段的独立字段;提取单元,配置为从所述独立字段中提取出字段分词;识别单元,配置为根据第三词典和所述字段分词,识别所述字段分词对应的标准字段;确定单元,配置为根据所述字段分词对应的标准字段确定所述每一独立字段对应的标准字段。

在本公开的一些示例性实施例中,基于前述方案,所述确定单元,配置为若在所述第二词典中存在对应的标准字段的独立字段,根据所述独立字段在第二词典中对应的标准字段以及所述第二词典中不存在对应的标准字段的独立字段的字段分词对应的标准字段,确定所述每一独立字段对应的标准字段;以及,若在所述第二词典中不存在对应的标准值的独立字段,根据每一独立字段的字段分词对应的标准字段确定所述每一独立字段对应的标准字段。

在本公开的一些示例性实施例中,基于前述方案,所述确定单元,还配置为当确定所述第三词典中不存在所述第二词典中不存在对应的标准字段的独立字段的字段分词的标准字段,基于所述独立字段的初始字段确定所述独立字段的标准字段。

在本公开的一些示例性实施例中,基于前述方案,所述提取模块,配置为从病历数据中提取药品信息的多个字段信息;以及以连接符对所述多个字段进行拼接,确定所述多个字段信息组成的组合字段。

在本公开的一些示例性实施例中,基于前述方案,所述归一化模块,包括:获取单元,配置为获取归一化处理的学习模型;归一化单元,配置为基于所述学习模型以及每一独立字段对应的标准字段对所述组合字段进行归一化处理。

在本公开的一些示例性实施例中,基于前述方案,所述归一化单元,配置为基于所述学习模块的输入格式对每一独立字段对应的标准字段进行拼接,生成所述组合字段对应的标准组合字段;基于所述学习模块以及所述标准组合字段对所述组合字段进行归一化处理。

根据本公开实施例的一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述实施例中所述的药品信息归一化的方法。

根据本公开实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的药品信息归一化的方法。

本公开实施例中,从病历数据中提取药品信息的多个字段信息,确定所述多个字段信息组成的组合字段;根据第一词典和所述组合字段,识别所述组合字段对应的标准字段,当确定所述第一词典中不存在所述组合字段对应的标准字段,则确定所述组合字段对应的多个独立字段;根据第二词典和所述多个独立字段,识别每一独立字段对应的标准字段;根据每一独立字段对应的标准字段对所述组合字段进行归一化处理。在进行归一化处理之前,对病历数据进行组合字段以及独立字段的标准字段识别,提升了归一化处理的效率以及准确性。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

在附图中:

图1示出了可以应用本公开实施例的药品信息归一化的方法或装置的示例性系统架构100的示意图;

图2示意性示出了根据本公开的一个实施例的药品信息归一化的方法的流程图;

图3示意性示出了根据本公开的另一个实施例的药品信息归一化的方法的流程图;

图4示意性示出了根据本公开的一个实施例的病历数据流的示意图;

图5示意性示出了根据本公开的一实施例的药品信息归一化的装置的框图;

图6示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。

此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本公开实施例的药品信息归一化的方法或装置的示例性系统架构100的示意图。

如图1所示,系统架构100可以包括终端设备101、102、103中的一种或多种,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器。例如终端设备103(也可以是终端设备101或102)向服务器105发送信息处理的请求,服务器105可以基于该请求从病历数据中提取药品信息的多个字段信息,确定所述多个字段信息组成的组合字段;根据第一词典和所述组合字段,识别所述组合字段对应的标准字段,当确定所述第一词典中不存在所述组合字段对应的标准字段,则确定所述组合字段对应的多个独立字段;根据第二词典和所述多个独立字段,识别每一独立字段对应的标准字段;根据每一独立字段对应的标准字段对所述组合字段进行归一化处理。并将归一化处理结果发送至终端103,终端103可以显示该归一化处理结果。

图2示意性示出了根据本公开的一个实施例的药品信息归一化的方法的流程图。本公开实施例所提供的方法可以由任意具备计算处理能力的电子设备处理,例如上述图1实施例中的服务器105和/或终端设备102、103,在下面的实施例中,以服务器105为执行主体为例进行举例说明,但本公开并不限定于此。

如图2所示,本公开实施例提供的药品信息归一化的方法可以包括以下步骤:

在步骤S210中,从病历数据中提取药品信息的多个字段信息,确定所述多个字段信息组成的组合字段。

本公开实施例中,病历数据可以是来自医院以及各业务线用户反馈、标注的坏样本的病历数据,坏样本是指经过算法模块归一化后的错误的样本。

本公开实施例中,基于对坏样本进行归一化处理,这些坏样本数据的数据量远远小于相关技术中的需要进行人工标注的高频、常用数据,而且,基于坏样本对归一化处理进行调整,增加了整个归一化处理的泛化性以及可解释性,提升了归一化处理的准确性。

本公开实施例中,在获取到病历数据的各字段后,可以从中提取出药品医嘱部分的多个字段信息,以提取出药品信息的多个字段。或者,若仅获取到病历的标识,需要查找医院信息系统获取到该病历的各个字段,然后从中提取出药品医嘱部分的多个字段,以提取出药品信息的多个字段。需要指出的是,病历数据中不仅可以包括药品医嘱,还可以包括患者信息等。

本公开实施例中,药品信息的字段可以包括但不限于:药品名、通用名、剂型、厂商。

本公开实施例中,在提取药品信息的多个字段信息后,可以将多个字段信息进行拼接,确定这些字段信息组成的组合字段。

本公开实施例中,在将多个字段信息进行拼接时,可以以预设置的连接符对多个字段信息进行拼接,该连接符可以与后续进行标准字段拼接的连接符相同。

需要说明的是,从病历数据中提取的药品信息的每个字段都具有其初始值,例如,“商品名”:“氨非咖敏”,其中,“商品名”为字段名称,“氨非咖敏”为该字段的初始值。

例如,将药品医嘱中的多个字段:商品名、通用名、剂型、生产厂商的初始值以‘@[email protected]’进行拼接,得到拼接后的组合字段:[email protected][email protected]{甲}阿司匹灵肠溶片(拜阿)[0.1g*30片]@[email protected]片剂@[email protected]

在步骤S220中,根据第一词典和所述组合字段,识别所述组合字段对应的标准字段,当确定所述第一词典中不存在所述组合字段对应的标准字段,则确定所述组合字段对应的多个独立字段。

需要说明的是,标准字段是指某字段的初始值的标准化、归一化的名称,例如,“氨非咖敏”的标准字段为“氨酚咖敏”。

本公开实施例中,预设置有第一词典,第一词典可以用KeyDict表示,该第一词典中记录有多个组合字段与其对应的标准字段的对应关系。在获取到多个字段组成的组合字段后,从该第一词典中识别该组合字段对应的标准字段。

例如,表1为本发明实施例提供的部分第一词典:

表1

基于上述表1,可以得到组合字段:[email protected][email protected]{甲}阿司匹灵肠溶片(拜阿)[0.1g*30片]@[email protected]片剂@[email protected]的标准字段。

需要说明的是,第一词典中可以存在多个组合字段对应一个标准字段的情况。上述第一词典中的标准字段,可以按照S210中的对多个字段信息进行拼接时的拼接顺序以及连接符进行拼接,从而同一个组合字段最多对应一个标准字段。该拼接顺序可能不同于下文中进行归一化处理所涉及到的拼接顺序,而且该多个字段信息可能并不全部都是下文中进行归一化的拼接字段,因此,在获取到多个字段信息的标准字段后,需要按照下文中进行归一化的拼接字段以及拼接顺序进行拼接。

本公开实施例中,当确定第一词典中不存在组合字段对应的标准字段,则确定该组合字段对应的多个独立字段。

根据本发明实施例,若多个字段信息已拼接,则可以按照拼接时的连接符将组合字段拆分成多个独立字段,也可以直接获取到多个字段中的每个独立字段。其中,独立字段,例如,“商品名”:“拜阿司匹灵”,又例如,“通用名”:“阿司匹林肠溶片”。

需要指出的是,提取的药品信息的每个字段即为一个独立字段。

在步骤S230中,根据第二词典和所述多个独立字段,识别每一独立字段对应的标准字段。

本公开实施例中,预设置有第二词典,第二词典可以用FieldDict标识,该第二词典中记录有独立字段与其对应的标准字段的对应关系。在获取到独立字段后,从该第二词典中查找每一独立字段对应的标准字段。独立字段可以包括多个分词,也可以包括不适合分词提取的字段。

例如,表2为本发明实施例提供的部分第二词典:

独立字段 标准字段
{甲}阿司匹灵肠溶片(拜阿) 阿司匹林肠溶片
沙丁胺醇雾化溶液 吸入用硫酸沙丁胺醇溶液

表2

如表2所示,需要指出的是,独立字段以及标准字段中可以包括字段名称。根据表2,若独立字段为:“沙丁胺醇雾化溶液”,则查找表2,可以得到该独立字段的标准字段:“吸入用硫酸沙丁胺醇溶液”。

在S240中,根据每一独立字段对应的标准字段对所述组合字段进行归一化处理。

本公开实施例中,可以获取归一化处理的学习模型。该学习模型可以是基于机器学习或深度学习构建的模型,用于进一步的对字段进行归一化处理,得到字段对应的归一化结果的概率。通过将学习模型依赖的多个字段,以特定的连接符进行拼接后作为学习模型可识别的输入,使得学习模型可以进一步的计算出组合字段的归一化结果。

本公开实施例中,在确定每一独立字段的标准字段后,可以基于学习模型以及每一独立字段对应的标准字段对所述组合字段进行归一化处理。

本公开实施例中,可以基于学习模型的输入格式,从独立字段的标准字段中确定拼接字段以及拼接顺序,并按照所述拼接字段以及所述拼接顺序对所述标准字段进行拼接,获取拼接的标准组合字段。

需要指出的是,在进行拼接时,可以以预设置的连接符将各个独立字段的标准字段进行拼接。基于学习模型确定的拼接字段可以是获取到标准字段的全部或者部分,基于学习模型确定的拼接顺序可以与多个字段的组合字段的拼接顺序不同。

例如,多个独立字段的标准字段分别为:{“拜阿司匹灵”,“阿司匹林肠溶片”,“拜耳”,“片剂”},按照学习模型的输入格式,拼接字段以及拼接顺序为:商品名、通用名、剂型以及生产厂商的标准字段,其中,各个标准字段之间以预设置的连接符@[email protected]作为拼接,进行拼接后,得到的标准组合字段为“拜阿司匹灵@[email protected]阿司匹林肠溶片@[email protected]片剂@[email protected]拜耳”。

需要说明的是,标准组合字段是由独立字段的标准字段组成的。

本公开实施例中,从病历数据中提取药品信息的多个字段信息,确定所述多个字段信息组成的组合字段;根据第一词典和所述组合字段,识别所述组合字段对应的标准字段,当确定所述第一词典中不存在所述组合字段对应的标准字段,则确定所述组合字段对应的多个独立字段;根据第二词典和所述多个独立字段,识别每一独立字段对应的标准字段;根据每一独立字段对应的标准字段对所述组合字段进行归一化处理。在进行归一化处理之前,对病历数据进行组合字段以及独立字段的标准字段识别,提升了归一化处理的效率以及准确性。

图3示意性示出了根据本公开的另一个实施例的药品信息归一化的方法的流程图,本公开实施例所提供的方法可以由任意具备计算处理能力的电子设备处理,例如上述图1实施例中的服务器105和/或终端设备102、103,在下面的实施例中,以服务器105为执行主体为例进行举例说明,但本公开并不限定于此。

如图3所示,本公开实施例提供的药品信息归一化的方法可以包括以下步骤:

在步骤S301中,当确定所述第二词典中不存在每一独立字段的对应的标准字段,获取所述第二词典中不存在对应的标准字段的独立字段。

本公开实施例中,若第二词典中可以仅存在部分或者不存在每个独立字段对应的标准字段,此时,则获取到这些第二词典中不存在对应的标准字段的独立字段。

在步骤S302中,从所述独立字段中提取出字段分词。在步骤S303中,根据第三词典和所述字段分词,识别所述字段分词对应的标准字段。

本公开实施例中,预设置有第三词典,该第三词典可以用TermDict表示,该第三词典中记录有字段分词与其对应的标准字段的对应关系。在获取到第二词典中不存在标准字段的每个独立字段的字段分词后,从该第三词典中查找该字段分词对应的标准字段。其中第三字典中标准字段的形成可以基于对独立字段的分析,从中提取有效特征词或同义词,避免算法策略因为无法识别某些医疗数据导致的切词问题以及语义问题。

例如,表3为本发明实施例提供的部分第三词典:

字段分词 标准字段
氨非咖敏 氨酚咖敏

表3

如表3所示,需要指出的是,可以存在多个字段分词对应一个标准字段的情况。根据表3,若某个独立字段的字段分词为“氨非咖敏”,则可以得到该独立字段的标准字段为“氨酚咖敏”。

本公开实施例中,当确定所述第三词典中不存在所述第二词典中不存在对应的标准字段的独立字段的字段分词的标准字段,基于所述独立字段的初始字段确定所述独立字段的标准字段。

例如,假设独立字段为“氨非加敏”,第二词典中不存在该独立字段的标准字段,且第三词典中也不存在该字段的标准字段,则将“氨非加敏”确定为该独立字段的标准字段。

在步骤S304中,根据所述字段分词对应的标准字段确定所述每一独立字段对应的标准字段。

本公开实施例中,在进行归一化处理之前,基于第一词典、第二词典以及第三词典,对病历数据进行多层级的(组合字段到独立字段甚至到分词字段的识别)、由粗粒度到细粒度的核查,来确定标准字段,提升了标准化的准确性以及查找到标准值的效率,从而提升了归一化处理的效率以及准确性。

图4示意性示出了根据本公开的一个实施例的病历数据流的示意图,本公开实施例所提供的方法可以由任意具备计算处理能力的电子设备处理,例如上述图1实施例中的服务器105和/或终端设备102、103,在下面的实施例中,以服务器105为执行主体为例进行举例说明,但本公开并不限定于此。

如图4所示,提取到药品信息的3个字段,分别为A、B、C,首先进行组合字段的标准字段识别,将其拼接为:A+B+C的组合字段,查找第一词典,查找该组合字段对应的标准字段。若未查找到标准标准,进行独立字段的标准字段识别,分别查找字段A、B、C各自对应的标准字段,假设其中A字段的标准字段为A’,B、C字段没有查找到标准字段,没有查找到所有独立字段的标准字段,则将没有查找到标准字段的独立字段进行字段分词的标准字段的识别,例如,从C中提取到字段分词C1,查找到第三词典中C1对应的标准值字段C’,假设第三词典中不存在B中提取的字段分词的标准字段,则将B作为该字段的标准值。进一步的,结合独立字段确定的标准字段以及独立字段的字段分词确定的标准字段,得到所有字段的标准字段,例如,A、B、C字段对应的标准值分别为A’、B、C’。进一步的,对各独立字段的标准字段进行拼接,得到标准组合字段为:A’@[email protected]’@[email protected],将该标准组合字段输入至归一化处理的学习模型,进行归一化处理,得到归一化结果K1=V1,K2=V2,K3=V3等多个归一化字段,其中,K表示字段名称,V表示对应的归一化结果。

本公开上述实施例中,通过组合字段、独立字段以及字段分词这多层级顺序进行标准字段的识别,相比于传统的单层干预机制,提高了标准化效率以及准确性,从而提升归一化处理的效率以及准确性,同时,提升了归一化处理的学习模型对少量坏样本输入下的泛化能力。

以下介绍本公开的装置实施例,可以用于执行本公开上述的药品信息归一化的方法。对于本公开装置实施例中未披露的细节,请参照本公开上述的药品信息归一化的方法的实施例。

图5示意性示出了根据本公开的一实施例的药品信息归一化的装置的框图。

参照图5所示,根据本公开的一个实施例的药品信息归一化的装置500,可以包括:提取模块510、确定模块520、识别模块530以及归一化模块540。

提取模块510可以配置为从病历数据中提取药品信息的多个字段信息,确定所述多个字段信息组成的组合字段。

确定模块520可以配置为根据第一词典和所述组合字段,识别所述组合字段对应的标准字段,当确定所述第一词典中不存在所述组合字段对应的标准字段,则确定所述组合字段对应的多个独立字段。

获取模块530可以配置为根据第二词典和所述多个独立字段,识别每一独立字段对应的标准字段。

输入模块540可以配置为根据每一独立字段对应的标准字段对所述组合字段进行归一化处理。

本公开实施例中,从病历数据中提取药品信息的多个字段信息,确定所述多个字段信息组成的组合字段;根据第一词典和所述组合字段,识别所述组合字段对应的标准字段,当确定所述第一词典中不存在所述组合字段对应的标准字段,则确定所述组合字段对应的多个独立字段;根据第二词典和所述多个独立字段,识别每一独立字段对应的标准字段;根据每一独立字段对应的标准字段对所述组合字段进行归一化处理。在进行归一化处理之前,对病历数据进行多层级的标准字段识别,提升了归一化处理的效率以及准确性。

图6示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。需要说明的是,图6示出的电子设备的计算机系统600仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统操作所需的各种程序和数据。CPU601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的系统中限定的各种功能。

需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块和/或单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的模块和/或单元也可以设置在处理器中。其中,这些模块和/或单元的名称在某种情况下并不构成对该模块和/或单元本身的限定。

作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现如图2或图3或图4所示的各个步骤。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

18页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:数据处理方法、数据处理装置、存储介质和电子设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!