医疗文本数据的处理方法、装置、计算机设备和存储介质

文档序号:1087406 发布日期:2020-10-20 浏览:7次 >En<

阅读说明:本技术 医疗文本数据的处理方法、装置、计算机设备和存储介质 (Medical text data processing method and device, computer equipment and storage medium ) 是由 许水琴 于 2020-06-23 设计创作,主要内容包括:本申请涉及人工智能技术领域,提供医疗文本数据的处理方法、装置、计算机设备和存储介质,包括:获取医疗文本数据;分别输入至第一识别模型、第二识别模型以及第三识别模型中;分别通过第一识别模型、第二识别模型、第三识别模型预测医疗文本数据中每个字符对应的第一标注结果、第二标注结果、第三标注结果;判断第一标注结果、第二标注结果、第三标注结果是否相同;当标注结果相同时,将第一标注结果确定为字符对应的标注结果;提取医疗文本数据中的命名实体,进行支付测算处理。本申请中通过多个模型的预测一致性,来提升模型预测的准确率,从而提升命名实体识别的准确率。本申请中的方案可应用于智慧医疗领域中,从而推动智慧城市的建设。(The application relates to the technical field of artificial intelligence, and provides a method, a device, computer equipment and a storage medium for processing medical text data, wherein the method comprises the following steps: acquiring medical text data; respectively inputting the data into a first recognition model, a second recognition model and a third recognition model; predicting a first labeling result, a second labeling result and a third labeling result corresponding to each character in the medical text data through the first recognition model, the second recognition model and the third recognition model respectively; judging whether the first labeling result, the second labeling result and the third labeling result are the same; when the labeling results are the same, determining the first labeling result as a labeling result corresponding to the character; and (4) extracting the named entities in the medical text data, and performing payment measurement and calculation processing. According to the method and the device, the accuracy of model prediction is improved through the prediction consistency of the multiple models, and therefore the accuracy of named entity recognition is improved. The scheme in this application can be applied to in the wisdom medical treatment field to promote the construction in wisdom city.)

医疗文本数据的处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能的技术领域,特别涉及一种医疗文本数据的处理方法、装置、计算机设备和存储介质。

背景技术

传统的支付测算的主要流程为:人工采集历史数据,收集近三年实施区不同医疗机构中住院的病案首页信息和费用明细;人工将数据保存到excel表格里;对excel数据进行人工分析筛选二次处理;人工筛选支付数据计算相关指标数据,同时预测未来的支付标准,生成相应的测算结果。此传统方法存在诸多弊端,例如:1、程序繁琐,有比较大的滞后性;2、占用人力物力;3、人工操作容易出差错,且不同的人计算方法有各种差异,标准不统一,造成测算结果不准确;4、方法不利于复用,造成大量重复劳力。

因此,目前出现采用支付预算工具进行自动化支付测算,如基于drg支付的支付测算工具。在基于drg支付的支付测算工具中,需要准确识别出医疗文本数据中包括的医院名称、地域、科室等命名实体;而目前的识别准确率较低,不利于进行支付测算。

发明内容

本申请的主要目的为提供一种医疗文本数据的处理方法、装置、计算机设备和存储介质,旨在克服目前无法准确识别医疗文本数据中包括的命名实体的缺陷。

为实现上述目的,本申请提供了一种医疗文本数据的处理方法,包括以下步骤:

获取医疗文本数据;

将所述医疗文本数据分别输入至第一识别模型、第二识别模型以及第三识别模型中;其中,所述第一识别模型为基于公开数据集训练BiLSTM-CRF模型所得到,所述第二识别模型为基于医疗领域数据集训练BiLSTM-CRF模型所得到,所述第三识别模型为基于所述公开数据集以及医疗领域数据集训练BiLSTM-CRF模型所得到;

通过所述第一识别模型预测所述医疗文本数据中每个字符对应为各个标注的第一概率;通过所述第二识别模型预测所述医疗文本数据中每个字符对应为各个标注的第二概率;通过所述第三识别模型预测所述医疗文本数据中每个字符对应为各个标注的第三概率;其中,所述第一概率最大的标注作为所述第一识别模型预测所述字符的第一标注结果,所述第二概率最大的标注作为所述第二识别模型预测所述字符的第一标注结果,所述第三概率最大的标注作为所述第三识别模型预测所述字符的第三标注结果;

分别判断每个所述字符对应的所述第一标注结果、第二标注结果、第三标注结果是否相同;

若相同,则将所述第一标注结果确定为所述字符对应的标注结果;

根据所述标注结果,提取所述医疗文本数据中的命名实体,将所述命名实体输入至支付测算工具中进行支付测算处理。

进一步地,所述分别判断每个所述字符对应的所述第一标注结果、第二标注结果、第三标注结果是否相同的步骤之后,包括:

若不相同,则根据所述第一识别模型预测所述字符为所述第三标注结果的第一概率、所述第二识别模型预测所述字符为所述第三标注结果的第二概率、所述第三识别模型预测所述字符为第三标注结果的第三概率,以及所述第一识别模型、第二识别模型、第三识别模型的预测结果对应的预设权重,计算所述字符预测为所述第三标注结果的总概率;

判断所述总概率是否大于阈值,若是,则将所述第三标注结果作为所述字符对应的标注结果;

根据所述标注结果,提取所述医疗文本数据中的命名实体,将所述命名实体输入至支付测算工具中进行支付测算处理。

进一步地,所述将所述医疗文本数据分别输入至第一识别模型、第二识别模型以及第三识别模型中的步骤之前,包括:

依次将医疗领域数据集中的样本数据输入至第一识别模型、第二识别模型以及第三识别模型中进行预测,得到每个样本数据对应的标注结果;其中,所述样本数据包括正确标注结果;

根据预测得到的所有所述样本数据对应的标注结果以及所述样本数据的正确标注结果,分别计算所述第一识别模型、第二识别模型以及第三识别模型预测结果的准确率;

计算所述第一识别模型、第二识别模型以及第三识别模型预测结果的准确率的比值,并根据所述比值确定所述第一识别模型、第二识别模型以及第三识别模型的预测结果对应的预设权重。

进一步地,所述将所述医疗文本数据分别输入至第一识别模型、第二识别模型以及第三识别模型中的步骤之前,包括:

基于所述公开数据集训练BiLSTM-CRF模型得到所述第一识别模型,基于所述医疗领域数据集训练BiLSTM-CRF模型得到所述第二识别模型,基于所述公开数据集以及医疗领域数据集训练BiLSTM-CRF模型得到第三识别模型;

从所述第一识别模型、第二识别模型以及第三识别模型中随机选择出两个模型,并依次从无标注数据集中选择一个无标注目标数据输入至选择出的两个模型中进行预测,得到两个模型对应的预测标注结果;

若两个所述模型对应的预测标注结果相同,则将所述无标注目标数据添加对应的预测标注结果之后,输入至未选择的第三个模型中进行迭代训练。

进一步地,所述将所述医疗文本数据分别输入至第一识别模型、第二识别模型以及第三识别模型中的步骤之前,包括:

获取一个预设的目标文本;其中,所述目标文本为医疗领域的文本数据;

将所述公开数据集中的每一个样本分别添加至所述目标文本中,分别对应生成一个公开数据训练文本,将生成的所有公开数据训练文本依次输入至所述BiLSTM-CRF模型中训练得到所述第一识别模型;

将所述医疗领域数据集中的每一个样本分别添加至所述目标文本中,分别对应生成一个医疗数据训练文本,将生成的所有医疗数据训练文本依次输入至所述BiLSTM-CRF模型中训练得到所述第二识别模型;

迭代从所述公开数据集以及医疗领域数据集中分别选择一个样本,并共同添加至所述目标文本中,对应生成一个目标数据训练文本,将生成的所有目标数据训练文本依次输入至所述BiLSTM-CRF模型中训练得到所述第三识别模型。

本申请还提供了一种医疗文本数据的处理装置,包括:

第一获取单元,用于获取医疗文本数据;

第一输入单元,用于将所述医疗文本数据分别输入至第一识别模型、第二识别模型以及第三识别模型中;其中,所述第一识别模型为基于公开数据集训练BiLSTM-CRF模型所得到,所述第二识别模型为基于医疗领域数据集训练BiLSTM-CRF模型所得到,所述第三识别模型为基于所述公开数据集以及医疗领域数据集训练BiLSTM-CRF模型所得到;

预测单元,用于通过所述第一识别模型预测所述医疗文本数据中每个字符对应为各个标注的第一概率;通过所述第二识别模型预测所述医疗文本数据中每个字符对应为各个标注的第二概率;通过所述第三识别模型预测所述医疗文本数据中每个字符对应为各个标注的第三概率;其中,所述第一概率最大的标注作为所述第一识别模型预测所述字符的第一标注结果,所述第二概率最大的标注作为所述第二识别模型预测所述字符的第一标注结果,所述第三概率最大的标注作为所述第三识别模型预测所述字符的第三标注结果;

判断单元,用于分别判断每个所述字符对应的所述第一标注结果、第二标注结果、第三标注结果是否相同;

第一确定单元,用于若所述第一标注结果、第二标注结果、第三标注结果相同,则将所述第一标注结果确定为所述字符对应的标注结果;

第一处理单元,用于根据所述标注结果,提取所述医疗文本数据中的命名实体,将所述命名实体输入至支付测算工具中进行支付测算处理。

进一步地,所述医疗文本数据的处理装置还包括:

第一计算单元,用于若不相同,则根据所述第一识别模型预测所述字符为所述第三标注结果的第一概率、所述第二识别模型预测所述字符为所述第三标注结果的第二概率、所述第三识别模型预测所述字符为第三标注结果的第三概率,以及所述第一识别模型、第二识别模型、第三识别模型的预测结果对应的预设权重,计算所述字符预测为所述第三标注结果的总概率;

第二确定单元,用于判断所述总概率是否大于阈值,若是,则将所述第三标注结果作为所述字符对应的标注结果;

第二处理单元,用于根据所述标注结果,提取所述医疗文本数据中的命名实体,将所述命名实体输入至支付测算工具中进行支付测算处理。

进一步地,所述医疗文本数据的处理装置还包括:

第二输入单元,用于依次将医疗领域数据集中的样本数据输入至第一识别模型、第二识别模型以及第三识别模型中进行预测,得到每个样本数据对应的标注结果;其中,所述样本数据包括正确标注结果;

第二计算单元,用于根据预测得到的所有所述样本数据对应的标注结果以及所述样本数据的正确标注结果,分别计算所述第一识别模型、第二识别模型以及第三识别模型预测结果的准确率;

第三计算单元,用于计算所述第一识别模型、第二识别模型以及第三识别模型预测结果的准确率的比值,并根据所述比值确定所述第一识别模型、第二识别模型以及第三识别模型的预测结果对应的预设权重。

进一步地,所述医疗文本数据的处理装置,还包括:

预训练单元,用于基于所述公开数据集训练BiLSTM-CRF模型得到所述第一识别模型,基于所述医疗领域数据集训练BiLSTM-CRF模型得到所述第二识别模型,基于所述公开数据集以及医疗领域数据集训练BiLSTM-CRF模型得到第三识别模型;

选择单元,用于从所述第一识别模型、第二识别模型以及第三识别模型中随机选择出两个模型,并依次从无标注数据集中选择一个无标注目标数据输入至选择出的两个模型中进行预测,得到两个模型对应的预测标注结果;

迭代训练单元,用于若两个所述模型对应的预测标注结果相同,则将所述无标注目标数据添加对应的预测标注结果之后,输入至未选择的第三个模型中进行迭代训练。

进一步地,所述医疗文本数据的处理装置,还包括:

第二获取单元,用于获取一个预设的目标文本;其中,所述目标文本为医疗领域的文本数据;

第一训练单元,用于将所述公开数据集中的每一个样本分别添加至所述目标文本中,分别对应生成一个公开数据训练文本,将生成的所有公开数据训练文本依次输入至所述BiLSTM-CRF模型中训练得到所述第一识别模型;

第二训练单元,用于将所述医疗领域数据集中的每一个样本分别添加至所述目标文本中,分别对应生成一个医疗数据训练文本,将生成的所有医疗数据训练文本依次输入至所述BiLSTM-CRF模型中训练得到所述第二识别模型;

第三训练单元,用于迭代从所述公开数据集以及医疗领域数据集中分别选择一个样本,并共同添加至所述目标文本中,对应生成一个目标数据训练文本,将生成的所有目标数据训练文本依次输入至所述BiLSTM-CRF模型中训练得到所述第三识别模型。

本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请提供的医疗文本数据的处理方法、装置、计算机设备和存储介质,包括:获取医疗文本数据;将所述医疗文本数据分别输入至第一识别模型、第二识别模型以及第三识别模型中;其中,三个模型的训练样本不同;通过所述第一识别模型预测所述医疗文本数据中每个字符对应为各个标注的第一概率;通过所述第二识别模型预测所述医疗文本数据中每个字符对应为各个标注的第二概率;通过所述第三识别模型预测所述医疗文本数据中每个字符对应为各个标注的第三概率;分别判断每个所述字符对应的所述第一标注结果、第二标注结果、第三标注结果是否相同;当标注结果相同时,则将所述第一标注结果确定为所述字符对应的标注结果;根据所述标注结果,提取所述医疗文本数据中的命名实体,将所述命名实体输入至支付测算工具中进行支付测算处理。本申请中需要通过多个模型的预测一致性,来提升模型预测的准确率,从而提升命名实体识别的准确率,以便于在支付测算工具中准确进行测算。

附图说明

图1是本申请一实施例中医疗文本数据的处理方法步骤示意图;

图2是本申请一实施例中医疗文本数据的处理装置结构框图;

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

参照图1,本申请一实施例中提供了一种医疗文本数据的处理方法,包括以下步骤:

步骤S1,获取医疗文本数据;

步骤S2,将所述医疗文本数据分别输入至第一识别模型、第二识别模型以及第三识别模型中;其中,所述第一识别模型为基于公开数据集训练BiLSTM-CRF模型所得到,所述第二识别模型为基于医疗领域数据集训练BiLSTM-CRF模型所得到,所述第三识别模型为基于所述公开数据集以及医疗领域数据集训练BiLSTM-CRF模型所得到;

步骤S3,通过所述第一识别模型预测所述医疗文本数据中每个字符对应为各个标注的第一概率;通过所述第二识别模型预测所述医疗文本数据中每个字符对应为各个标注的第二概率;通过所述第三识别模型预测所述医疗文本数据中每个字符对应为各个标注的第三概率;其中,所述第一概率最大的标注作为所述第一识别模型预测所述字符的第一标注结果,所述第二概率最大的标注作为所述第二识别模型预测所述字符的第一标注结果,所述第三概率最大的标注作为所述第三识别模型预测所述字符的第三标注结果,各个所述标注分别为B、I、E、O、S;

步骤S4,分别判断每个所述字符对应的所述第一标注结果、第二标注结果、第三标注结果是否相同;

步骤S5,若相同,则将所述第一标注结果确定为所述字符对应的标注结果;

步骤S6,根据所述标注结果,提取所述医疗文本数据中的命名实体,将所述命名实体输入至支付测算工具中进行支付测算处理。

在本实施例中,上述方法应用于智慧城市的智慧医疗场景中,从而推动智慧城市的建设。具体地,可应用于数字医疗的医疗信息化场景中。在支付测算场景中的数据采集阶段,目前的医疗场景中的支付测算中,其所采集的数据通常为各医疗机构的医疗文本数据,该医疗文本数据通常为医疗机构中住院的病案首页信息和费用明细;其中,包括较多的命名实体信息,例如,医疗机构名称、科室名称、主治医师名称、医疗机构所在地、费用中的药物名称等;在drg支付测算工具中,基于上述医疗文本数据进行支付测算时,需要识别出上述医疗文本数据中的各个命名实体以进行分类处理。因此,将上述医疗文本数据输入至系统之后,首先需要进行命名实体识别处理。

具体地,如上述步骤S1所述的,上述医疗文本数据可从各个医疗机构的电子系统中所获得,其为记载有大量医疗信息的文本文件。

如上述步骤S2所述的,预先训练有三个可使用的识别模型,分别为第一识别模型、第二识别模型以及第三识别模型;该三个识别模型均基于BiLSTM-CRF模型训练所得到,不同点在于训练上述BiLSTM-CRF模型所采用的训练样本有所不同,而当训练样本不同时,其最终得到的识别模型在预测结果上也会有所不同。

其中,上述公开数据集为大数据中公开的大量具有命名实体标注的数据集,其数据量大,来源广泛,数据获取容易;因此,基于上述公开数据集训练BiLSTM-CRF模型所得到的第一识别模型,由于训练样本的数据量较大,使得最终得到的第一识别模型具有较强的鲁棒性。

由于相同的词在不同领域可以具有不同的含义,因此需要针对不同的领域进行特定的命名实体标注以得到训练样本,上述医疗领域数据集即为针对医疗领域,特别进行过命名实体标注的数据集,上述医疗领域数据集专业针对性强,但是数据量较小。因此,基于上述医疗领域数据集训练BiLSTM-CRF模型所得到的第二识别模型,其对医疗领域中的命名实体识别具有较强的专业识别能力,但是鲁棒性较差。

上述第三识别模型为基于所述公开数据集以及医疗领域数据集训练BiLSTM-CRF模型所得到,该第三识别模型的训练样本采用了公开数据集以及医疗领域数据集,因此其不仅具有很强的鲁棒性,而且专业识别能力强,可提升模型的泛化能力。

在本实施例中,将上述医疗文本数据分别输入至第一识别模型、第二识别模型以及第三识别模型中进行结果预测。可以理解的是,上述第一识别模型、第二识别模型以及第三识别模型所预测的结果为所述医疗文本数据中每个字符对应为各个标注的概率,当在某个标注的概率最大时,则可以表明该字符为对应的该标注;其中,各个所述标注分别为B、I、E、O、S;B代表实体开头,I代表实体内部,O代表非实体,E代表实体结尾,S表示单字实体。举例来说,若一医疗文本为头孢25元每盒,则可以将该医疗文本中的字符依次标注为头-B,孢-I,2-I,5-I,元-E,每-O,盒-O;再根据上述标注,将标注B以及标注E之间的字符结合起来作为一个整体,该整体即是从上述文本中提取出的命名实体。医疗领域中通常不会使用单个字的命名实体,因此,本实施例中可以不提取出标注为S的单字实体。

上述第一识别模型、第二识别模型以及第三识别模型中集成有相同的词嵌入模型,以对上述医疗文本数据进行字向量的构建,例如目前通用的word2vec模型。

如上述步骤S3所述的,分别通过上述第一识别模型、第二识别模型以及第三识别模型预测上述医疗文本数据中每个字符的结果,由于上述第一识别模型、第二识别模型以及第三识别模型稍有不同,且其对医疗文本数据中的关注维度会有所不同,因此其相应预测出的结果也可能会有所不同。

如上述步骤S4-S5所述的,分别判断每个所述字符对应的所述第一标注结果、第二标注结果、第三标注结果是否相同,若预测出的结果一致,则可认定为预测结果正确,将上述第一标注结果、第二标注结果、第三标注结果中的任一结果作为所述字符对应的标注结果;若预测结果不同,则预测结果存在偏差,准确性不高。

本实施例中,采用三个识别模型分别进行结果预测,采用投票一致性原则来表达预测结果的置信度,增加了模型预测结果的可靠性,使模型的识别效果更好,对依赖文本数据中的命名实体识别效果更好,并提升了模型识别的泛化能力。

最后,如上述步骤S6所述的,根据标注结果,则可以提取出上述医疗文本数据中的命名实体;进一步地,将上述医疗文本数据中提取出的命名实体分类输入至支付测算工具中对应区域进行后续处理。在本实施例中,采用上述命名实体的提取方法,提高了命名实体的提取准确率,便于后续支付测算的统计。具体地,本实施例中,基于drg支付进行上述支付测算处理,包括:

导入所述医疗文本数据中的命名实体;创建对码任务进行对码处理;对码成功则新增质控任务进行质控处理;若质控成功,则新增分组任务进行分组处理;若分组成功,则新增裁剪任务进行裁剪处理;若裁剪成功,则新增测算任务进行支付测算;若测算成功,则新增模拟任务进行模拟处理。上述基于drg支付的支付测算工具为用户提供快速、智能的测算服务,该系统主要追求的目标:简单性、适应性、可扩展性。在实际应用中,用户只需导入相关数据然后简单的点击以上几个流程中的按钮,流程自动流转,自动完成对码,质控,分组,测算,分析,简单好用,避免大量重复劳力。

在一实施例中,上述从医疗文本数据中提取出的命名实体、第一识别模型、第二识别模型以及第三识别模型均可存储于区块链中。上述区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在一实施例中,当上述第一标注结果、第二标注结果、第三标注结果不同时,其可能是其中部分模型预测不准确,而其他模型的预测结果准确;因此,当上述第一标注结果、第二标注结果、第三标注结果不同的,可以进一步地如下述方案确定出所述字符对应的标注结果。

所述分别判断每个所述字符对应的所述第一标注结果、第二标注结果、第三标注结果是否相同的步骤S4之后,包括:

步骤S5a,若不相同,则根据所述第一识别模型预测所述字符为所述第三标注结果的第一概率、所述第二识别模型预测所述字符为所述第三标注结果的第二概率、所述第三识别模型预测所述字符为第三标注结果的第三概率,以及所述第一识别模型、第二识别模型、第三识别模型的预测结果对应的预设权重,计算所述字符预测为所述第三标注结果的总概率;

步骤S5b,判断所述总概率是否大于阈值,若是,则将所述第三标注结果作为所述字符对应的标注结果;

步骤S5c,根据所述标注结果,提取所述医疗文本数据中的命名实体,将所述命名实体输入至支付测算工具中进行支付测算处理。

在本实施例中,由于上述第三识别模型采用的训练样本是公开数据集以及医疗领域数据集,其模型识别的准确率可以得到相应提高,上述第三识别模型在上述三个识别模型中的预测结果准确率最高。因此,可以将上述第三识别模型预测的第三标注结果作为待选标注结果,而其他两个识别模型中也具有对应预测所述字符为第三标注结果的概率;因此,可以将上述三个识别模型分别预测所述字符为第三标注结果的概率进行加权计算,得到三个识别模型预测得到的所述字符为所述第三标注结果的总概率。可以理解的是,上述加权计算中采用的预设权重为上述模型训练时所预设的。

在得到三个识别模型预测得到的所述字符为所述第三标注结果的总概率之后,判断该总概率是否大于阈值,若大于阈值,则置信度较高,因此可将所述第三标注结果作为所述字符对应的标注结果。若小于阈值,则置信度低,此时,则可以从上述第三识别模型所预测得到的预测结果中选取第三概率排名第二的预测结果作为待选标注结果,再进行如上述总概率计算的步骤,进而得到所述字符对应的标注结果。

在一实施例中,所述将所述医疗文本数据分别输入至第一识别模型、第二识别模型以及第三识别模型中的步骤S2之前,包括:

a、依次将医疗领域数据集中的样本数据输入至第一识别模型、第二识别模型以及第三识别模型中进行预测,得到每个样本数据对应的标注结果;其中,所述样本数据包括正确标注结果;

b、根据预测得到的所有所述样本数据对应的标注结果以及所述样本数据的正确标注结果,分别计算所述第一识别模型、第二识别模型以及第三识别模型预测结果的准确率;

在本实施例中,由于上述三个识别模型的识别准确率不同,因此可以使用一个已知的医疗领域数据集中的样本数据输入到上述第一识别模型、第二识别模型以及第三识别模型中进行预测,以预测结果,并判断上述预测结果与正确标注结果是否一致,若一致,则认为正确,若不一致,则认为不正确;根据预测结果中与正确标注结果相同的个数与上述样本数据的总个数,确定述第一识别模型、第二识别模型以及第三识别模型预测结果的准确率。

c、计算所述第一识别模型、第二识别模型以及第三识别模型预测结果的准确率的比值,并根据所述比值确定所述第一识别模型、第二识别模型以及第三识别模型的预测结果对应的预设权重。

其中,所述第一识别模型、第二识别模型以及第三识别模型的预测结果的预设权重之间的比值为所述第一识别模型、第二识别模型以及第三识别模型预测结果的准确率的比值。例如,上述所述第一识别模型、第二识别模型以及第三识别模型预测结果的准确率分别为0.7、0.75、0.85,则上述准确率之间的比值为0.7:0.75:0.85;上述预设权重之间的比值也为0.7:0.75:0.85,则最终上述第一识别模型、第二识别模型以及第三识别模型的预测结果的预设权重分别为:0.3、0.33、0.37。

上述第一识别模型、第二识别模型以及第三识别模型预测结果的准确率不同时,其所占的比重也有所不同,可以理解的是,当其准确率越高时,是预测结果的权重比例更大。

在一个实施例中,所述将所述医疗文本数据分别输入至第一识别模型、第二识别模型以及第三识别模型中的步骤S2之前,包括:

S21,基于所述公开数据集训练BiLSTM-CRF模型得到所述第一识别模型,基于所述医疗领域数据集训练BiLSTM-CRF模型得到所述第二识别模型,基于所述公开数据集以及医疗领域数据集训练BiLSTM-CRF模型得到第三识别模型;

S22,从所述第一识别模型、第二识别模型以及第三识别模型中随机选择出两个模型,并依次从无标注数据集中选择一个无标注目标数据输入至选择出的两个模型中进行预测,得到两个模型对应的预测标注结果;

S23,若两个所述模型对应的预测标注结果相同,则将所述无标注目标数据添加对应的预测标注结果之后,输入至未选择的第三个模型中进行迭代训练。

在本实施例中,为了继续训练上述第一识别模型、第二识别模型以及第三识别模型,并使得上述第一识别模型、第二识别模型以及第三识别模型针对同一文本数据的预测结果一致,因此,在训练得到上述第一识别模型、第二识别模型以及第三识别模型之后,从所述第一识别模型、第二识别模型以及第三识别模型随机选择出两个模型,并从一个无标注数据集(即没有添加标注的未知数据集)中依次选择一个无标注目标数据输入至选择出的两个模型中进行预测,得到两个模型对应的预测标注结果;当两个所述模型对应的预测标注结果相同时,则表明这两个模型预测结果的置信度高;此时,再将上述选择出的无标注目标数据添加对应的预测标注结果之后,输入至未选择的第三个模型中进行迭代训练,直至无标注数据集中的无标注目标数据不再更新,则完成训练。经过上述训练之后,则可以使得上述上述第一识别模型、第二识别模型以及第三识别模型针对同一文本数据的预测结果一致。而且,上述训练方式中,采用三个模型的投票一致性来表达模型置信度,增加了模型的可靠性,使模型训练效果更好;同时,将无标注数据集也加入到了模型的训练中,增加了训练数据量,提升了模型训练效果。优选地,在上述三个模型对上述医疗文本数据进行命名实体之后,还可以将上述医疗文本数据作为上述三个模型的训练样本进行迭代训练。本实施例中的训练方法采用了一部分没有标注的数据集(即未知数据集)进行训练,这是一种创新的半监督式训练方法,增加训练数据量;同时,采用三个模型的投票一致性进行迭代训练,提高模型的置信度。

在一实施例中,所述将所述医疗文本数据分别输入至第一识别模型、第二识别模型以及第三识别模型中的步骤S2之前,包括:

S201,获取一个预设的目标文本;其中,所述目标文本为医疗领域的文本数据;

S202,将所述公开数据集中的每一个样本分别添加至所述目标文本中,分别对应生成一个公开数据训练文本,将生成的所有公开数据训练文本依次输入至所述BiLSTM-CRF模型中训练得到所述第一识别模型;

S203,将所述医疗领域数据集中的每一个样本分别添加至所述目标文本中,分别对应生成一个医疗数据训练文本,将生成的所有医疗数据训练文本依次输入至所述BiLSTM-CRF模型中训练得到所述第二识别模型;

S204,迭代从所述公开数据集以及医疗领域数据集中分别选择一个样本,并共同添加至所述目标文本中,对应生成一个目标数据训练文本,将生成的所有目标数据训练文本依次输入至所述BiLSTM-CRF模型中训练得到所述第三识别模型。

在本实施例中,训练上述第一识别模型、第二识别模型以及第三识别模型时,为了进一步地提高模型对医疗文本数据的标注准确率,将上述第一识别模型、第二识别模型以及第三识别模型的训练样本分别添加至一个医疗领域的文本数据中,进而再使用添加有训练样本的医疗领域的文本数据输入至BiLSTM-CRF模型中迭代训练得到对应的模型;由于训练过程中糅合了训练样本在医疗领域的文本数据中的特性,使得训练得到的模型在后续对医疗文本数据进行预测时具有更强的泛化能力,提升模型预测效果。

参照图2,本申请一实施例中还提供了一种医疗文本数据的处理装置,包括:

第一获取单元10,用于获取医疗文本数据;

第一输入单元20,用于将所述医疗文本数据分别输入至第一识别模型、第二识别模型以及第三识别模型中;其中,所述第一识别模型为基于公开数据集训练BiLSTM-CRF模型所得到,所述第二识别模型为基于医疗领域数据集训练BiLSTM-CRF模型所得到,所述第三识别模型为基于所述公开数据集以及医疗领域数据集训练BiLSTM-CRF模型所得到;

预测单元30,用于通过所述第一识别模型预测所述医疗文本数据中每个字符对应为各个标注的第一概率;通过所述第二识别模型预测所述医疗文本数据中每个字符对应为各个标注的第二概率;通过所述第三识别模型预测所述医疗文本数据中每个字符对应为各个标注的第三概率;其中,所述第一概率最大的标注作为所述第一识别模型预测所述字符的第一标注结果,所述第二概率最大的标注作为所述第二识别模型预测所述字符的第一标注结果,所述第三概率最大的标注作为所述第三识别模型预测所述字符的第三标注结果;

判断单元40,用于分别判断每个所述字符对应的所述第一标注结果、第二标注结果、第三标注结果是否相同;

第一确定单元50,用于若所述第一标注结果、第二标注结果、第三标注结果相同,则将所述第一标注结果确定为所述字符对应的标注结果;

第一处理单元60,用于根据所述标注结果,提取所述医疗文本数据中的命名实体,将所述命名实体输入至支付测算工具中进行支付测算处理。

在一实施例中,所述医疗文本数据的处理装置还包括:

第一计算单元,用于若不相同,则根据所述第一识别模型预测所述字符为所述第三标注结果的第一概率、所述第二识别模型预测所述字符为所述第三标注结果的第二概率、所述第三识别模型预测所述字符为第三标注结果的第三概率,以及所述第一识别模型、第二识别模型、第三识别模型的预测结果对应的预设权重,计算所述字符预测为所述第三标注结果的总概率;

第二确定单元,用于判断所述总概率是否大于阈值,若是,则将所述第三标注结果作为所述字符对应的标注结果;

第二处理单元,用于根据所述标注结果,提取所述医疗文本数据中的命名实体,将所述命名实体输入至支付测算工具中进行支付测算处理。

在一实施例中,所述医疗文本数据的处理装置还包括:

第二输入单元,用于依次将医疗领域数据集中的样本数据输入至第一识别模型、第二识别模型以及第三识别模型中进行预测,得到每个样本数据对应的标注结果;其中,所述样本数据包括正确标注结果;

第二计算单元,用于根据预测得到的所有所述样本数据对应的标注结果以及所述样本数据的正确标注结果,分别计算所述第一识别模型、第二识别模型以及第三识别模型预测结果的准确率;

第三计算单元,用于计算所述第一识别模型、第二识别模型以及第三识别模型预测结果的准确率的比值,并根据所述比值确定所述第一识别模型、第二识别模型以及第三识别模型的预测结果对应的预设权重。

在一实施例中,所述医疗文本数据的处理装置,还包括:

预训练单元,用于基于所述公开数据集训练BiLSTM-CRF模型得到所述第一识别模型,基于所述医疗领域数据集训练BiLSTM-CRF模型得到所述第二识别模型,基于所述公开数据集以及医疗领域数据集训练BiLSTM-CRF模型得到第三识别模型;

选择单元,用于从所述第一识别模型、第二识别模型以及第三识别模型中随机选择出两个模型,并依次从无标注数据集中选择一个无标注目标数据输入至选择出的两个模型中进行预测,得到两个模型对应的预测标注结果;

迭代训练单元,用于若两个所述模型对应的预测标注结果相同,则将所述无标注目标数据添加对应的预测标注结果之后,输入至未选择的第三个模型中进行迭代训练。

在一实施例中,所述医疗文本数据的处理装置,还包括:

第二获取单元,用于获取一个预设的目标文本;其中,所述目标文本为医疗领域的文本数据;

第一训练单元,用于将所述公开数据集中的每一个样本分别添加至所述目标文本中,分别对应生成一个公开数据训练文本,将生成的所有公开数据训练文本依次输入至所述BiLSTM-CRF模型中训练得到所述第一识别模型;

第二训练单元,用于将所述医疗领域数据集中的每一个样本分别添加至所述目标文本中,分别对应生成一个医疗数据训练文本,将生成的所有医疗数据训练文本依次输入至所述BiLSTM-CRF模型中训练得到所述第二识别模型;

第三训练单元,用于迭代从所述公开数据集以及医疗领域数据集中分别选择一个样本,并共同添加至所述目标文本中,对应生成一个目标数据训练文本,将生成的所有目标数据训练文本依次输入至所述BiLSTM-CRF模型中训练得到所述第三识别模型。

在本实施例中,上述装置实施例中的各个单元的具体实现,请参照上述方法实施例中所述,在此不再进行赘述。

参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储医疗文本数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种医疗文本数据的处理方法。

本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种医疗文本数据的处理方法。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。

综上所述,为本申请实施例中提供的医疗文本数据的处理方法、装置、计算机设备和存储介质,包括:获取医疗文本数据;将所述医疗文本数据分别输入至第一识别模型、第二识别模型以及第三识别模型中;其中,三个模型的训练样本不同;通过所述第一识别模型预测所述医疗文本数据中每个字符对应为各个标注的第一概率;通过所述第二识别模型预测所述医疗文本数据中每个字符对应为各个标注的第二概率;通过所述第三识别模型预测所述医疗文本数据中每个字符对应为各个标注的第三概率;分别判断每个所述字符对应的所述第一标注结果、第二标注结果、第三标注结果是否相同;当标注结果相同时,则将所述第一标注结果确定为所述字符对应的标注结果;根据所述标注结果,提取所述医疗文本数据中的命名实体,将所述命名实体输入至支付测算工具中进行支付测算处理。本申请中需要通过多个模型的预测一致性,来提升模型预测的准确率,从而提升命名实体识别的准确率,以便于在支付测算工具中准确进行测算。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。

19页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种面向PDF格式论文的生物医学实体识别方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!