基于BiLSTM模型的标准实体文本确定方法、装置及存储介质
阅读说明:本技术 基于BiLSTM模型的标准实体文本确定方法、装置及存储介质 (Standard entity text determination method and device based on BilSTM model and storage medium ) 是由 文天才 周雪忠 诸强 李明洋 于 2021-08-31 设计创作,主要内容包括:本发明提供基于BiLSTM模型的标准实体文本确定方法、装置及存储介质,方法包括:针对接收到的待匹配文本实体,选取与其对应的候选实体集;针对候选实体集中的每一候选实体,分别与待匹配文本实体构成文本实体对;针对每个文本实体对,采用预设神经匹配神经网络计算文本实体对的第一相似度特征向量,及采用文本统计方法、全连接网络计算文本实体对的第二相似度特征向量;采用拼接网络将每个文本实体对的第一相似度特征向量与第二相似度特征向量拼接形成每个实体对的相似度向量,并根据每个文本实体对的相似度向量输出每个实体对中两个实体文本的相似度;将相似度最高的文本实体对中的候选文本实体确定为与待匹配文本实体对应的标准文本实体。(The invention provides a method, a device and a storage medium for determining standard entity texts based on a BilSTM model, wherein the method comprises the following steps: aiming at a received text entity to be matched, selecting a candidate entity set corresponding to the text entity to be matched; aiming at each candidate entity in the candidate entity set, respectively forming a text entity pair with the text entity to be matched; aiming at each text entity pair, calculating a first similarity characteristic vector of the text entity pair by adopting a preset neural matching neural network, and calculating a second similarity characteristic vector of the text entity pair by adopting a text statistical method and a full-connection network; splicing the first similarity characteristic vector and the second similarity characteristic vector of each text entity pair by adopting a splicing network to form a similarity vector of each entity pair, and outputting the similarity of two entity texts in each entity pair according to the similarity vector of each text entity pair; and determining the candidate text entity in the text entity pair with the highest similarity as the standard text entity corresponding to the text entity to be matched.)
技术领域
本发明涉及自然语言文本信息处理及医疗大数据挖掘技术领域,尤涉及一种基于BiLSTM模型的标准实体文本确定方法、装置及存储介质。
背景技术
自然语言处理过程中存在实体名称歧义性问题,医学疾病诊断记录包含病人诊断的主要疾病名称、次要诊断疾病名称(即伴随疾病名称)以及诊断疾病的手术等信息。对同一种疾病名称,由于疾病种类的繁多、医生经验差异等,同一疾病名称往往存在多种不同的表达形式,给医学电子病历数据的规范化带来很大挑战。但是由于目前医学文本主要是医生通过手写输入,无可避免地出现输入错误,导致在对错误术语与标准术语间进行匹配时出现困难。同时,另一方面,同样的一个疾病诊断实体,由于人们多样化的表达方式,也会随之产生大量不规范的候选名称,比如,“Bartter综合征”和“肾小球旁器增生症”,在字面上它们可能会被看成两个完全不同的临床疾病实体,但是从医学标准知识库中可以确定它们应唯一对应到标准实体“巴特综合征”。
针对上述问题,如果是对少量数据的标准化处理则多采用人工方式进行。但对于大量需要处理的术语,则显得较为费时费力。候选实体消歧的任务是对于文本中给定的实体指称(指称指实体在某一文章或领域内的名称),将其和知识库中对应的实体建立映射关系。候选实体消歧旨在解决文本中广泛存在的名称歧义问题,在自然语言处理应用中发挥着重要的作用,可以用于有效解决语义网络、信息检索、信息抽取、自动问答等自然处理任务。因此,基于计算机模式进行医学术语标准化就成为一种解决大规模医学候选实体消歧的有效手段。
目前,有关候选实体消歧的算法多基于英文,中文研究相对匮乏,而对于医学实体消歧问题的研究则更少有见到,但针对医学领域疾病实体的消歧任务,由于疾病名称的多样化以及诊断信息不完整,无法直接利用一般候选实体消歧的方法,且若利用现有的候选实体消歧的方法确定医疗实体标准化任务中的标准实体文本时,其适用性相对较低,得到的结果与实际的标准实体文本差距较大,标准实体文本确定结果的准确性相对较低、效率不高。
发明内容
有鉴于此,本发明实施例提供了一种基于BiLSTM模型的标准实体文本确定的方法、装置及存储介质,以解决现有候选实体消歧的方法确定医疗实体标准化任务中的标准实体文本时,其适用性相对较低,得到的结果与实际的标准实体文本差距较大,标准实体文本确定结果的准确性相对较低、效率不高的问题。
第一方面,根据本发明实施例提供的一种基于BiLSTM模型的标准实体文本确定方法,包括:
针对接收到的待匹配文本实体,选取与其对应的候选实体集;
针对候选实体集中的每一个候选实体,分别与待匹配文本实体构成文本实体对;
针对每个文本实体对,采用预设神经匹配神经网络计算文本实体对的第一相似度特征向量,及采用文本统计方法、全连接网络计算文本实体对的第二相似度特征向量;
采用拼接网络将每个文本实体对的第一相似度特征向量与第二相似度特征向量拼接形成每个实体对的相似度向量,并根据每个文本实体对的相似度向量输出每个实体对中两个实体文本的相似度;
将相似度最高的文本实体对中的候选文本实体确定为与所述待匹配文本实体对应的标准文本实体。
优选地,所述采用预设神经匹配神经网络计算文本实体对的第一相似度特征向量,包括:
分别采用RNN模型和CNN神经网络依次对文本实体对中的待匹配文本实体和候选实体进行编码分别形成待匹配文本实体RNN码、待匹配文本实体CNN码、候选实体RNN码及候选实体CNN码;
计算待匹配文本实体RNN码相对于候选实体RNN码的正向注意力权重,及和候选实体RNN码相对于待匹配文本实体RNN码的反向注意力权重;
根据正向注意力权重、反向注意力权重、候选实体RNN码、待匹配文本实体RNN码、候选实体CNN码及待匹配文本实体CNN码确定候选实体最大池化向量、候选实体平均池化向量、待匹配文本实体最大池化向量和待匹配文本实体平均池化向量;
基于全连接网络,根据候选实体最大池化向量、候选实体平均池化向量、待匹配文本实体最大池化向量和待匹配文本实体平均池化向量确定文本实体对中待匹配文本与候选文本的相似度,并根据每个文本实体对的相似度确定其对应的第一特征向量。
优选地,所述预设神经匹配神经网络的损失函数为:
其中,损失的输入是一个输入实体对xi和xj,fi和fj分别表示的是输入实体对编码后映射的向量;m表示的是输入样本之间的距离边界值,是提前设定好的超参数;y为输入的标签。当yi不等于yj,输入实体不匹配,损失函数值为公式的右半部分,此时样本对的欧氏距离越大,损失值就越大。
优选地,所述待匹配实体为文字实体、英文缩写实体或者中英文混合实体。
优选地,若所述待匹配文本为文字实体,则所述针对接收到的待匹配文本实体,选取与其对应的候选实体集,包括:
计算待匹配文本实体与数据库中存储的待候选实体的Jaccard系数;
选取Jaccard系数不大于预设值的待候选实体,构成待候选实体集;
从待候选实体集中筛选与所述待匹配文本实体语义相同的待候选实体,构成候选实体集。
优选地,所述计算待匹配文本实体与数据库中存储的待候选实体的Jaccard系数,包括:
采用第一数学模型,计算待匹配文本实体与数据库中存储的待候选实体的Jaccard系数;所述第一数学模型为:
其中,A为构成待匹配实体的文字或字母的集合;Bi为构成第i个待候选实体的文字或字母的集合。
优选地,若所述待匹配实体为英文缩写实体或者中英文混合实体,则所述针对接收到的待匹配文本实体,选取与其对应的候选实体集,包括:
采用训练好的第三神经网络,以所述待匹配实体为输入,以与所述待匹配文本匹配的候选实体为输出,与同一个待匹配实体对应的候选实体构成候选实体集。
第二方面,根据本发明实施例提供的一种基于BiLSTM模型的标准实体文本确定装置,包括:
选取模块,用于针对接收到的待匹配文本实体,选取与其对应的候选实体集;
组队模块,用于针对候选实体集中的每一个候选实体,分别与待匹配文本实体构成文本实体对;
特征向量模块,用于针对每个文本实体对,采用预设神经匹配神经网络计算文本实体对的第一相似度特征向量,及采用文本统计方法、全连接网络计算文本实体对的第二相似度特征向量;
相似度模块,用于采用拼接网络将每个文本实体对的第一相似度特征向量与第二相似度特征向量拼接形成每个实体对的相似度向量,并根据每个文本实体对的相似度向量输出每个实体对中两个实体文本的相似度;
实体确定模块,用于将相似度最高的文本实体对中的候选文本实体确定为与所述待匹配文本实体对应的标准文本实体。
第三方面,根据本发明实施例提供的一种基于BiLSTM模型的标准实体文本确定装置,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行上述任一项所述的一种基于BiLSTM模型的标准实体文本确定方法。
第四方面,根据本发明实施例提供的一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现上述任一项所述的一种基于BiLSTM模型的标准实体文本确定方法。
本发明实施例提供的一种基于BiLSTM模型的标准实体文本确定方法、装置及存储介质,至少具有如下有益效果:
本发明实施例提供的一种基于BiLSTM模型的标准实体文本确定方法、装置及存储介质,可以通过接收到的待匹配文本实体,选取与其对应的候选实体集,并针对候选实体集中的每一个候选实体,分别与待匹配文本实体构成文本实体对,通过对文本实体对进行模型训练,提高了文本数据的使用率,避免只对术语本身进行训练造成的训练数据单一,训练结果不准确的情况,提高了在适用性。通过预设神经匹配神经网络对文本实体对进行训练,通过预设神经匹配神经网络的孪生网络架构模型同步对文本实体对中的每个数据进行同时训练,便于通过相似度向量方式衡量文本实体对的语义相似度,得到第一相似度特征向量,且易于后面对编码后的向量进行拼接整合,减少了模型的复杂度,提高训练效率,通过文本统计方法、全连接网络计算得到文本实体对的第二相似度特征向量;通过将第一相似度特征向量和第二相似度特征向量进行拼接整合,并计算每个文本实体对的相似度,比较每个文本实体对的相似度大小,确定相似度最大的文本实体对对应的标准文本。最终确定的相似对最大的实体文本对对应的标准实体和实际标准文本结果一致性率较高,提高了医疗实体标准化任务中确定标准文本实体结果的准确性,提高确定标准实体文本的效率。
附图说明
为了更清楚地说明本发明
具体实施方式
或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于BiLSTM模型的标准实体文本确定方法的流程图;
图2为本发明实施例提供的另一种基于BiLSTM模型的标准实体文本确定方法的流程图;
图3为本发明实施例提供的再一种基于BiLSTM模型的标准实体文本确定方法的流程图;
图4为本发明实施例提供的再一种基于BiLSTM模型的标准实体文本确定方法的流程图;
图5为本发明实施例提供的一种基于BiLSTM的孪生网络模型图;
图6为本发明实施例提供的一种基于孪生网络架构融合注意力机制模型图;
图7为本发明实施例提供的一种融合深度匹配模型图;
图8为本发明实施例提供的部分英文简称对照图;
图9为本发明实施例提供的一种基于BiLSTM模型的标准实体文本确定装置的模块图;
图10为本发明实施例提供的一种基于BiLSTM模型的标准实体文本确定装置的示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
在候选实体召回阶段,根据字符串的字面相似性、文本统计特征和Elasticsearch搜索引擎检索等方式构建候选实体集,这一阶段的文本匹配只相当于粗筛。而非标准文本数据具有多样化的表达方式,汉语文本中不同的词可能具有相同的含义,有些具有相似表达的诊断原始词在词序上又有所差别。粗筛过程中用到的文本匹配方式准确率较低,无法满足我们的需要,所以还可以对它们进行语义相似度的匹配。在候选实体消歧阶段,利用文本语义匹配信息可以提高实体标准化质量。
目前基于深度学习的语义相似度匹配主要有两种框架,一种是Siamese孪生网络,它使用参数共享的对称网络对输入实体对进行建模,另一种是交互式匹配框架,模型一般更加复杂,但它加强了输入的文本实体对之间交互表示的学习。本申请将基于这两种框架中的文本匹配思想,提出了适应临床术语标准化任务的语义相似度匹配和分类模型。
目前基于BERT的模型也被广泛应用于文本匹配领域,但它的参数大小和推理时间开销十分巨大,在实际生产环境中,这些开销不可忽略,因此本申请首先考虑基于BiLSTM网络模型,并首先考虑孪生网络架构。目前已经有研究人员如Paul等人使用基于孪生网络架构的模型去解决标准化问题,它面向的是招聘网站中的职位名称实体,例如,将字符串“Software Engineer Java/J2EE”根据需要映射到提前规定好的的编码“JavaDeveloper”。本申请将该框架引入到医疗实体化中。孪生网络模型的一般流程是对一对输入实体分别编码,同时保证两个实体的模型参数共享,这样可以减小模型的复杂度,然后对编码后的向量进行拼接整合,最后通过相似度度量方式衡量两个输入实体对的语义相似度。
本申请的基于BiLSTM的孪生网络结构如图5所示,主要包括输入层、词嵌入表示层、编码层、整合层和相似度预测层。该模型的输入是一个诊断原始词m和诊断标准编码词e的实体对,首先通过词嵌入表示层得到它们字级别的嵌入式向量,具体利用了由Li等人基于百度百科的文本数据训练的词向量模型得到。在编码层,使用的是BiLSTM,该编码器首先将输入编码为特征向量,双向LSTMs的传输状态包括前后两个方向,这样能更好的捕捉到医疗实体的信息。
本发明实施例提供一种基于BiLSTM模型的标准实体文本确定方法,参见图1、图6和图7所示,包括:
步骤S11、针对接收到的待匹配文本实体,选取与其对应的候选实体集;有一系列传统的计算文本相似度的算法用于生成候选实体集。包括:基于传统文本统计的方法,如融合共现性评价的Dice距离算法;将文本映射到向量空间,再利用余弦相似度计算等方法;基于编辑距离、字符级别、字符串序列的相似度算法。为了提取更丰富和全面的特征信息,本实施例利用了候选实体召回阶段中的使用传统统计特征方法得到的结果,首先将其作为传统文本特征信息编码,然后将其引入到深度匹配网络模型中。针对接收到的待匹配文本实体,选取与其对应的候选实体集。
步骤S12、针对候选实体集中的每一个候选实体,分别与待匹配文本实体构成文本实体对;
步骤S13、针对每个文本实体对,采用预设神经匹配神经网络计算文本实体对的第一相似度特征向量,及采用文本统计方法、全连接网络计算文本实体对的第二相似度特征向量;对于输入的候选实体集中的每一个候选实体,分别与待匹配文本实体构成文本实体对,一方面继续使用一般的深度学习语义匹配模型,提取输入实体对的语义匹配特征,这里的模型可以使用任意的深度语义匹配模型,得到特征向量v1。另一方面,传统文本特征指的是对于诊断原始词和标准编码文本对的传统特征信息进行提取并完成归一化工作,离线计算后保存结果,传统语言特征包括基于向量空间的余弦相似度、杰卡德相似度和BM25相似度。然后将这些结果归一化通过一个全连接层得到非线性特征向量v2。
步骤S14、采用拼接网络将每个文本实体对的第一相似度特征向量与第二相似度特征向量拼接形成每个实体对的相似度向量,并根据每个文本实体对的相似度向量输出每个实体对中两个实体文本的相似度;特征向量v1和v2可以采用直接拼接的方式,然后再通过一个全连接层。最后进行分类,通过一个softmax层得到语义相似度评分结果。本实施例使用准确率(accuracy)来评价实体标准化的结果,指的是给出正确预测的诊断原始词加标准编码的组合个数,与测试集中待预测集合大小的比值,准确率公式如下:
其中f表示模型,n表示测试集的大小,D为测试集,label为标签。
步骤S15、将相似度最高的文本实体对中的候选文本实体确定为与所述待匹配文本实体对应的标准文本实体。
在一般的实体链接问题中,对于待标准化实体或者标准编码部分往往有充足的相关描述和上下文信息,可以用来帮助模型的训练。但在医疗实体标准化任务中,实验数据里的绝大部分文本都只有这个术语名称本身,没有其它信息可以被提供使用。通过接收到的待匹配文本实体,选取与其对应的候选实体集,并针对候选实体集中的每一个候选实体,分别与待匹配文本实体构成文本实体对,通过对文本实体对进行模型训练,提高了文本数据的使用率,避免只对术语本身进行训练造成的训练数据单一,训练结果不准确的情况,提高了在适用性。通过预设神经匹配神经网络对文本实体对进行训练,通过预设神经匹配神经网络的孪生网络架构模型同步对文本实体对中的每个数据进行同时训练,便于通过相似度向量方式衡量文本实体对的语义相似度,得到第一相似度特征向量,且易于后面对编码后的向量进行拼接整合,减少了模型的复杂度,提高训练效率,通过文本统计方法、全连接网络计算得到文本实体对的第二相似度特征向量;通过将第一相似度特征向量和第二相似度特征向量进行拼接整合,并计算每个文本实体对的相似度,比较每个文本实体对的相似度大小,确定相似度最大的文本实体对对应的标准文本。最终确定的相似对最大的实体文本对对应的标准实体和实际标准文本结果一致性率较高,提高了医疗实体标准化任务中确定标准文本实体结果的准确性,提高确定标准实体文本的效率。
结合上述实施例,在本发明实施例中,孪生网络框架侧重于对每个句子的基本信息进行建模,忽略了编码过程中两个句子之间的相互作用。基于此,本实施例提出了一种融合表示学习和交互学习特点的语义相似度匹配模型。该模型使用了基于多层CNN的孪生网络从输入实体对中提取文本中的关键信息,并采用基于注意力机制的RNNs捕捉两句话之间的交互效果。与传统的顺序编码相比,引入基于孪生网络的CNNs可以降低计算复杂度,捕获更多细粒度特征,然后结合CNN和RNN,可以更好地把握两个实体之间的相似性和差异性,最后设计融合层,将两个输入实体对表示结合起来计算最终的相似度。参见图2和图6所示,步骤S13中,所述采用预设神经匹配神经网络计算文本实体对的第一相似度特征向量,包括:
步骤S131、分别采用RNN模型和CNN神经网络依次对文本实体对中的待匹配文本实体和候选实体进行编码分别形成待匹配文本实体RNN码、待匹配文本实体CNN码、候选实体RNN码及候选实体CNN码;输入编码层结构上分为RNN编码器和CNN编码器两部分。RNN主要用来捕捉文本的序列信息,CNN主要用来捕捉文本的关键词信息。下文将简单介绍这两种编码器:
1)RNN编码器
使用BiLSTM编码器对输入的待标准化诊断原始词和标准实体进行编码来捕捉句子序列的特征信息,诊断原始词a=(a1,…ala),可能对应的标准实体b=(b1,…blb),通过BiLSTM编码器后,分别得到其在时间i节点上的生成的隐藏层状态ai和bj,计算公式如下:
2)CNN编码器
模型在RNN编码的基础上,使用CNN来进行二次编码,利用CNN卷积核的特质来捕捉词粒度的特征信息,得到新的编码信息编码。Improved CNN借鉴了NIN(网络中内嵌微型网络)的思想,选用多层感知机代替广义线性模型,提高特征的抽象表达能力。
通过在输入编码层中结合BiLSTM和CNN,模型可以更加充分的去捕捉两个待比较的诊断文本的细粒度特征信息。然后在后续的交互建模层中该增强型的输入编码器会同时使用RNN编码和RNN加CNN编码来捕捉输入文本对之间的交互信息。
步骤S132、计算待匹配文本实体RNN码相对于候选实体RNN码的正向注意力权重,及和候选实体RNN码相对于待匹配文本实体RNN码的反向注意力权重;该模型和ESIM模型相似,都属于基于“交互式”的文本匹配模型,所以在输入编码完成后,通过Attention注意力机制去捕捉两个待链接实体文本对之间直接的交互信息,这里使用到的是软注意力对齐来得到实体的句子表征。软注意力机制对齐,首先利用BiLSTM输出的RNN编码去计算得到两个待比较的诊断原始词和标准编码实体之间的软注意力权重得到eij。这里针对待比较的两个实体文本,所以可以再得到的两个不同的注意力权重,分别是实体提及a相对标准编码实体b得到的和反过来实体b相对实体a的分别通过加权和计算得到。这样可以同时去捕捉两个实体之间更全面的交互信息。计算公式如下:
步骤S133、根据正向注意力权重、反向注意力权重、候选实体RNN码、待匹配文本实体RNN码、候选实体CNN码及待匹配文本实体CNN码确定候选实体最大池化向量、候选实体平均池化向量、待匹配文本实体最大池化向量和待匹配文本实体平均池化向量;通过软注意力对齐得到实体交互句子表征之后使用最大池化和均值池化进一步去捕捉文本的特征信息,并且在之后和RCNN编码信息相结合,具体的计算过程如下所示:
其中va和vb为和计算差分和得到,ave和max分别为均值和最大值池化。
和以往的基于交互式的文本匹配方法不同的是,该模型同时使用RNN和CNN来进行交互建模以获得两个文本的具有交互性的表征。通过结合RNN和CNN的优点,可以捕捉更细粒度的特征。同时,由于CNN卷积核特有的参数共享机制,模型的参数量也能得到进一步缩小。
步骤S134、基于全连接网络,根据候选实体最大池化向量、候选实体平均池化向量、待匹配文本实体最大池化向量和待匹配文本实体平均池化向量确定文本实体对中待匹配文本与候选文本的相似度,并根据每个文本实体对的相似度确定其对应的第一特征向量。本实施例使用了一个特殊的整合层,在全局性的相似度建模中融合两个文本的向量表示。将RCNN的输入编码和经过均值或最大池化后的软注意力权重输出到整合层,同时引入了门限机制进行全局性的相似度建模。整合层的主要目的是为了更好的融合两个待比较实体的交互表征,为了方便后面计算两个输入待匹配实体的相似度,P和Q表示两个文本的文本表征,°表示两个矩阵对应位置元素进行乘积,然后使用差异和元素乘积组合两个文本表示,Wf和bf是可训练的参数:
m(P,Q)=tanh(Wf[P;Q;P°Q;P-Q]+bf)
整合层还做了一些高阶交互进行建模,g表示门限机制,m表示不同的门限选通机制,整合层最后将两个输出连接:
o′a=g(oa,ob)·m(oa,ob)+(1-g(oa,ob))·oa
o′b=g(ob,oa)·m(ob,oa)+(1-g(ob,oa))·ob
mout=[o′a,o′b]
进一步地,在最后的预测层,模型将前一步的输出输入到一个两层的全连接层MLP中去计算两个文本相似的概率。整个模型是端到端来训练的,练中使用的是交叉熵损失函数。
在将输入的实体对映射到特征空间后,每一个实体序列都有一个特征向量表示,之后可以通过相似度计算方式评价它们之间的相似度。对于该孪生网络模型,本实施例使用的是交叉熵损失函数,在我们的诊断数据中存在许多非常相似的数据,交叉熵损失函数可以计算欧氏距离衡量它们之间的差异度,训练过程中,我们的目标是使相似的目标之间的空间距离减小,对于不相似的部分使它们之间的距离增大,交叉熵损失函数的计算公式如下:
其中,交叉熵损失的输入是一个输入实体对xi和xj,fi和fj分别表示的是输入实体对编码后映射的向量;m表示的是输入样本之间的距离边界值,是提前设定好的超参数,y为输入的标签;当yi不等于yj,输入实体不匹配,损失函数值为公式的右半部分,此时样本对的欧氏距离越大,损失值就越大。
结合上述实施例,在本发明实施例中,参见图3所示,步骤S11中,所述待匹配实体为文字实体、英文缩写实体或者中英文混合实体。若所述待匹配文本为文字实体,则所述针对接收到的待匹配文本实体,选取与其对应的候选实体集,包括:
步骤S111、计算待匹配文本实体与数据库中存储的待候选实体的Jaccard系数;
步骤S112、选取Jaccard系数不大于预设值的待候选实体,构成待候选实体集;
步骤S113、从待候选实体集中筛选与所述待匹配文本实体语义相同的待候选实体,构成候选实体集。
若所述待匹配实体为英文缩写实体或者中英文混合实体,则所述针对接收到的待匹配文本实体,选取与其对应的候选实体集,包括:
步骤S114、采用训练好的第三神经网络,以所述待匹配实体为输入,以与所述待匹配文本匹配的候选实体为输出,与同一个待匹配实体对应的候选实体构成候选实体集。
结合上述实施例,在本发明实施例中,参见图4所示,步骤S111中,所述计算待匹配文本实体与数据库中存储的待候选实体的Jaccard系数,包括:
步骤S1111、采用第一数学模型,计算待匹配文本实体与数据库中存储的待候选实体的Jaccard系数;所述第一数学模型为:
其中,A为构成待匹配实体的文字或字母的集合;Bi为构成第i个待候选实体的文字或字母的集合。
本实施例首先基于电子病历中导出的数据完成了数据预处理和候选实体召回工作,得到了一个诊断原始词数据集,和一个与之对应的候选实体集合。这些数据经过专业的医学研究人员依照国际疾病分类ICD-10的标准编码词表人工标注,又得到了一份初始的<诊断原始词,标准编码词>数据集。此时仅有正样本数据,无法完成实验,而负样本构造的质量好坏是影响候选实体消歧阶段模型训练的重要影响因素。本实施例拿到的人工标注样本中缺乏负样本,首先要基于现有的数据去构建负样本数据集,最后再根据需要扩充正样本数量,解决正负样本不平衡问题。
(1)负样本训练集数据来源:对于训练集中的负样本,借鉴了候选实体召回阶段的实验成果,具体的训练集数据包括:
召回阶段中TOP20的召回数据,选择了其中不是正样本的数据作为负样本;
基于本文从预设数据库(如万方临床诊疗知识库)中抓取的一部分同义疾病词数据,选择一部分作为难样本;
根据专家标注的数据,和标准编码库随机抽取一部分标签作为负样本;
根据前文构建的负样本数量,采取随机替换删除的方式增加正样本数量,以实现样本数量的平衡。
(2)基于Jaccard系数构建训练集。一般情况下,研究人员通常采用人工方式进行负样本数据集的构建,但是人工构建不仅需要扎实的专业知识,而且工作量很大,另外人工构造难免存在一定的失误,可能会出现一部分标注错误的情况,因此本实施例提出了一种自动化的构建医疗术语标准化训练集的方法,该算法的伪代码如表1所示。
表1基于Jaccard系数的负样本构造算法
本文提出的构建方法基于Jaccard系数,给定两个医疗诊断实体,其字符串集合分别为A和B,采用第一数学模型计算两个实体的Jaccard系数。
具体在构建过程中,首先遍历ICD-10标准编码表,然后分别计算它们与当前诊断原始词的Jaccard系数,和标准词与自身以外的标准编码词的Jaccard系数,最终选择Jaccard系数大于给定阈值的实体对加入到负样本数据集,从而提高训练数据集的质量。
(3)实体指称扩展。
实体指称项扩展是提高候选实体与标准实体覆盖率的重要步骤,在电子病历数据中通常出现对术语的缩写、简称和个人习惯特色表达等问题,构建歧义和别名词表、缩写全称映射表等方式,一方面可以以规则匹配的方式作为实验结果补充,一方面可以结合全称或同义词作为实验学习样本中的难样本。本实施例通过使用构建歧义和别名词表、构建缩写全称映射表的方式来扩展候选实体集。
1)构建英文简称对照表,部分示例如图8所示:
2)构建同义词表,同义词表中的同义词数据抓取自某临床诊疗知识库网页数据,一共获取了1210对同义词对。部分同义诊断词如表2所示。
表2同义词表
(4)数据集构建
除了由专家人工标注的<诊断原始词,标准编码>正样本外,本实施例通过各类映射词表随机替换,并通过召回阶段的筛选和基于Jaccard系数构造了负样本集合,并重新交给专家对数据集进行审核,最后得到了一个17905条的医疗实体标准化数据集,如表3所示。
表3医疗实体标准化数据集
实验设置:
在基于Jaccard系数构建负样本的实验中,将阈值t设置为了0.7。对于语义相似度匹配模型部分,开发环境为ubuntu18.04系统,基于python3.6和pytorch1.4开发。选择了BM25算法作为基线实验模型,BM25是经典的概率检索算法,分别基于孪生网络和基于交互增强的语义匹配模型进行实验,并融入传统语言统计特征作为对比。实验中模型的字向量的维度是128,参数设置上,融入统计特征的匹配模型中传统语言特征的全连接层维度为100,实验输出的是相似度评分最高的结果作为预测的链接标准实体,准确率结果单位为(%)。
实验结果分析:
在实验设置中,选择了相似度评分最高的结果作为预测的链接标准实体,在查看实验结果后发现部分临床术语具有多蕴涵的特点,如表5所示,其影响了实验结果的准确率。本实验仅考虑了单蕴涵情况(在1500条测试数据中,取其中1230条单链接实体的标准化预测结果)。其中,BM25为实验的基线模型,实验结果对比如表4所示,模型方面,在其他条件相同的情况下,深度语义匹配模型对于BM25基线模型都有了显著提升。对于深度语义匹配模型,基于孪生网络的实验结果相对较低,考虑到的原因是该模型对输入实体对的基本信息进行建模,忽略了编码过程中两个实体之间的交互作用信息。基于注意力机制的交互增强模型的实验结果有5.56%的提升,此外,在融入传统语言特征后,两种网络结构的模型准确率都有1.5%以上的提升。但是引入注意力机制的交互增强匹配模型的提升效果相对不明显,这可能是因为该交互增强的匹配模型本身的特征提取能力已经较强,人工提取特征再交给模型的方式提升效果有限,因此在未来的研究中将主要考虑从提高模型自己的特征提取能力方向入手。
表4单蕴涵实体消歧准确率
对于实验结果中的未被准确预测的结果,抽取了部分代表性错误样例,如表5所示。错误案例中大多数情况为疾病中的核心症状相同,但修饰部位却不同的情况,如“额骨”和“颅骨”。而错误结果中最多的就是诊断文本的多蕴涵情况,证明了多蕴涵问题的不可忽视。
表4-5实验错误样例
通过上述方法实施例及实验结果可以看出,本申请的一种基于BiLSTM模型的标准实体文本确定方法,通过孪生网络模型和基于注意力机制和交互增强的文本匹配模型相融合,传统语言特征信息融入到前者的深度学习模型中去,通过实验结果证明了该标准实体文本确定方法的有效性,提高了标准实体文本确定的效率,提高了标准实体文本确定结果的准确性。
实施例2
图9是本发明实施例提供的一种基于BiLSTM模型的标准实体文本确定装置的模块图,本实施例以该装置应用于图1所示的一种基于BiLSTM模型的标准实体文本确定方法进行说明。该装置至少包括以下几个模块:
选取模块51,用于针对接收到的待匹配文本实体,选取与其对应的候选实体集;
组队模块52,用于针对候选实体集中的每一个候选实体,分别与待匹配文本实体构成文本实体对;
特征向量模块53,用于针对每个文本实体对,采用预设神经匹配神经网络计算文本实体对的第一相似度特征向量,及采用文本统计方法、全连接网络计算文本实体对的第二相似度特征向量;
相似度模块54,用于采用拼接网络将每个文本实体对的第一相似度特征向量与第二相似度特征向量拼接形成每个实体对的相似度向量,并根据每个文本实体对的相似度向量输出每个实体对中两个实体文本的相似度;
实体确定模块55,用于将相似度最高的文本实体对中的候选文本实体确定为与所述待匹配文本实体对应的标准文本实体。
本申请实施例提供的一种基于BiLSTM模型的标准实体文本确定装置,可用于如上实施例1中执行的方法,相关细节参考上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
需要说明的是:上述实施例中提供的一种基于BiLSTM模型的标准实体文本确定装置在进行基于BiLSTM模型的标准实体文本确定方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将一种基于BiLSTM模型的标准实体文本确定装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的一种基于BiLSTM模型的标准实体文本确定装置与一种基于BiLSTM模型的标准实体文本确定方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
实施例3
本发明实施例提供的一种基于BiLSTM模型的标准实体文本确定装置,用于一种基于BiLSTM模型的标准实体文本确定,如图10所示,该电子设备包括处理器1001和存储器1002,其中处理器1001和存储器1002可以通过总线或者其他方式连接,图10中以通过总线连接为例。
处理器1001可以为中央处理器(Central Processing Unit,CPU)也可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、图形处理器(GraphicsProcessing Unit,GPU)、嵌入式神经网络处理器(Neural-network Processing Unit,NPU)或者其他专用的深度学习协处理器、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器1002作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中一种基于BiLSTM模型的标准实体文本确定方法对应的程序指令/模块。处理器1001通过运行存储在存储器1002中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例1中的一种基于BiLSTM模型的标准实体文本确定方法。
存储器1002可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器1001所创建的数据等。此外,存储器1002可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器1002可选包括相对于处理器1001远程设置的存储器,这些远程存储器可以通过网络连接至处理器1001。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器1002中,当被所述处理器1001执行时,执行如图1所示一种基于BiLSTM模型的标准实体文本确定方法。
本发明实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的一种基于BiLSTM模型的标准实体文本确定方法。其中,所述非暂态计算机可读存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述非暂态计算机可读存储介质还可以包括上述种类的存储器的组合。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置或非暂态计算机可读存储介质均可涉及或包含计算机程序产品。
因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
显然,以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。因此,本申请专利的保护范围应以所附权利要求为准。
- 上一篇:一种医用注射器针头装配设备
- 下一篇:业务信息的结构化处理方法、装置、设备及存储介质