一种基于多轮阅读理解的实体对齐方法及装置

文档序号:1816621 发布日期:2021-11-09 浏览:8次 >En<

阅读说明:本技术 一种基于多轮阅读理解的实体对齐方法及装置 (Entity alignment method and device based on multi-round reading understanding ) 是由 邓礼志 于皓 张�杰 吴信东 吴明辉 于 2021-08-18 设计创作,主要内容包括:本发明涉及一种基于多轮阅读理解的实体对齐方法及装置,该方法包括:对原始文本进行NER处理,得到至少一个实体及其类别标签;基于类别标签分别构造每个实体对应的问句,并从标准实体库中召回该实体的候选词作为各个问句的选项;分别将各个问句及对应的选项输入预先训练的文本分类模型,得到原始文本当中不同实体的各个候选词的关联度评分,根据评分结果确定一个实体的对齐结果,完成该实体的对齐工作;按照完成对齐的实体更新问句,并迭代执行上一步,直到完成原始文本所有实体的对齐工作,最后输出结果。本发明通过多轮阅读理解的方式,再进行后续实体对齐的时候引入已对齐实体的结果信息,能够提高实体对齐的效果。(The invention relates to an entity alignment method and device based on multi-round reading understanding, wherein the method comprises the following steps: performing NER processing on the original text to obtain at least one entity and a category label thereof; constructing question sentences corresponding to each entity respectively based on the category labels, and recalling candidate words of the entities from a standard entity library as options of each question sentence; inputting each question sentence and the corresponding option into a pre-trained text classification model respectively to obtain the relevance grade of each candidate word of different entities in the original text, determining the alignment result of one entity according to the grade result, and finishing the alignment work of the entity; and updating the question sentence according to the aligned entities, iteratively executing the previous step until the alignment work of all the entities of the original text is completed, and finally outputting the result. According to the invention, the result information of the aligned entity is introduced when the subsequent entity alignment is carried out in a multi-round reading and understanding mode, so that the entity alignment effect can be improved.)

一种基于多轮阅读理解的实体对齐方法及装置

技术领域

本发明涉及文本处理中的实体对齐领域,具体涉及一种基于多轮阅读理解的实体对齐方法及装置。

背景技术

在这个数据爆炸的时代,知识抽取尤为重要。然而同一个概念可能有着不同的表述,同一个表述可能有着不同的概念。如何更好的解决一词多义和多词一义成为一个亟待解决的问题。

目前解决这一问题的一种比较传统的做法是利用规则词典、编辑距离、TFIDF等特征提取的方式进行实体对齐。该方案主要依赖对齐前后有相同字的基础上进行索引,对于完全不同的实体mention则完全无法识别。

另一种技术则是利用最新强大的预训练语言模型或图神经网络模型对提及和知识库中的实体描述内容进行特征表示学习,继而通过计算两者特征的相似度进行关联紧密性的判定,这类方法克服了前一种传统方法无法识别完全不同的mention的问题,但仍然存在对齐模型准确率较低的问题。

发明内容

针对现有技术存在的上述问题,本发明提供一种基于多轮阅读理解的实体对齐方法及装置,通过充分利用已对齐实体和类别信息的先验知识,利用阅读理解这一技术手段,进一步提高实体对齐这一技术的识别精度,有助于文本理解的智能化,服务于对话系统和搜索引擎。

根据本发明实施例的第一方面,提供一种基于多轮阅读理解的实体对齐方法,包括:

对原始文本进行NER处理,得到至少一个实体及其类别标签;

基于所述类别标签分别构造每个实体对应的问句,并从标准实体库中召回该实体的候选词作为各个问句的选项;

分别将各个问句及对应的选项输入预先训练的文本分类模型,得到所述原始文本当中不同实体的各个候选词的关联度评分,根据评分结果确定一个实体的对齐结果,完成该实体的对齐工作;

按照完成对齐的实体更新问句,并迭代执行上一步,直到完成所述原始文本所有实体的对齐工作,最后输出结果。

进一步,所述基于所述类别标签分别构造每个实体对应的问句,具体包括:

针对每个实体,用该实体的类别标签对应的疑问词替换原句当中的实体,构建一个问句。

进一步,所述根据评分结果确定一个实体的对齐结果,具体包括:

选择其中评分最高的候选词作为对应实体的对齐结果。

进一步,所述的文本分类模型采用bert模型。

根据本发明实施例的第二方面,提供一种基于多轮阅读理解的实体对齐装置,包括:

实体识别模块,用于对原始文本进行NER处理,得到至少一个实体及其类别标签;

问句构建及选项召回模块,用于基于所述类别标签分别构造每个实体对应的问句,并从标准实体库中召回该实体的候选词作为各个问句的选项;

实体对齐模块,用于分别将各个问句及对应的选项输入预先训练的文本分类模型,得到所述原始文本当中不同实体的各个候选词的关联度评分,根据评分结果确定一个实体的对齐结果,完成该实体的对齐工作;

迭代模块,用于按照完成对齐的实体更新问句,并迭代执行上一步,直到完成所述原始文本所有实体的对齐工作,最后输出结果。

进一步,所述问句构建及选项召回模块,具体用于:

针对每个实体,用该实体的类别标签对应的疑问词替换原句当中的实体,构建一个问句。

进一步,所述实体对齐模块,具体用于:

选择其中评分最高的候选词作为对应实体的对齐结果。

进一步,所述的文本分类模型采用bert模型。

根据本发明实施例的第三方面,提供一种终端设备,包括:

处理器;以及

存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。

根据本发明实施例的第四方面,提供一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。

本发明的实施例提供的技术方案可以包括以下有益效果:

一方面基于阅读理解的思想,充分利用了NER后实体的类别这一先验信息,另一方面通过多轮阅读理解的方式,再进行后续实体对齐的时候引入已对齐实体的结果信息,能够提高实体对齐的效果,更好完成大数据时代的知识提取工作。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

附图说明

通过结合附图对本发明示例性实施方式进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显,其中,在本发明示例性实施方式中,相同的参考标号通常代表相同部件。

图1为本发明实施例提供的一种基于多轮阅读理解的实体对齐方法的流程图。

具体实施方式

下面将参照附图更详细地描述本发明的优选实施方式。虽然附图中显示了本发明的优选实施方式,然而应该理解,可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。

在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本发明可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

以下结合附图详细描述本发明实施例的技术方案。

参见图1,本发明实施例提供的一种基于多轮阅读理解的实体对齐方法,包括以下步骤:

步骤1:对原始文本进行NER(Named Entity Recognition,命名实体识别)处理,得到至少一个实体及其类别标签;

比如原始文本为“在法国公开赛当中,莎拉波娃终于战胜了李娜”,处理完得到“比赛:法国公开赛,人物:萨拉波娃,李娜”。这一步的NER方法不限,非本专利重点内容。

步骤2:基于所述类别标签分别构造每个实体对应的问句,并从标准实体库中召回该实体的候选词作为各个问句的选项;

可选地,步骤2具体包括:针对每个实体,用该实体的类别标签对应的疑问词替换原句当中的实体,构建一个问句。

这一步的目的是构造阅读理解任务的问句,并从标准实体库中召回实体候选词,以便后续通过模型选择计算不同实体候选词和问句的关联度结果。这一步当中的召回方法不限,非本专利重点内容。

以“在法国公开赛当中,莎拉波娃终于战胜了李娜”为例进行说明,分别构造3个问句如下:

“在哪个比赛当中,莎拉波娃终于战胜了李娜”,选项为召回的结果:“A:法国网球公开赛B:法国羽毛球公开赛...”

“在法国公开赛当中,谁终于战胜了李娜”,选项为召回的结果:“A:琳达·萨拉波娃(作家)B:玛利亚·莎拉波娃(网球运动员)...”

“在法国公开赛当中,萨拉波娃终于战胜了谁”,选项为召回的结果:“A:李娜(网球运动员)B:李娜(女演员)...”

步骤3:分别将各个问句及对应的选项输入预先训练的文本分类模型,得到所述原始文本当中不同实体的各个候选词的关联度评分,根据评分结果确定一个实体的对齐结果,完成该实体的对齐工作;

可选地,该步骤中,所述根据评分结果确定一个实体的对齐结果,具体包括:

选择其中评分最高的候选词作为对应实体的对齐结果。

比如,在步骤2的3个问句当中选项的关联度评分结果分别是(1)A 0.5B 0.5(2)A0.2B 0.8(3)A 0.6B 0.4其中第2个问句中B选项的得分为0.8,超过其他问题的选项最高分0.6和0.5,所以第二个问题选B选项是第一轮阅读理解所收获的答案,从而将原始文本中的实体“萨拉波娃”对齐到标准实体“玛利亚·莎拉波娃(网球运动员)”。

可选地,在该实施例中,所述的文本分类模型可采用bert模型。采用bert模型时,需要按照bert的输入格式构造训练数据,举例如下:

输入:[CLS]在[法国公开赛]当中,萨拉波娃终于战胜了谁[SEP]法国网球公开赛[SEP]

输出:1

输入:[CLS]在[法国公开赛]当中,萨拉波娃终于战胜了谁[SEP]法国羽毛球公开赛[SEP]

输出:0

这样,bert模型即可对输入的问句,分别对每个候选词给出预测分数,例如:

输入:【CLS】在法国网球公开赛当中,玛利亚·莎拉波娃(网球运动员)终于战胜了谁?【SEP】李娜(网球运动员)【SEP】

预测:0-1之间的分数

通过bert模型将得到原始文本当中不同实体的候选词关联度评分,选择其中评分最高的作为第一轮阅读理解的答案。

步骤4:按照完成对齐的实体更新问句,并迭代执行上一步,直到完成所述原始文本所有实体的对齐工作,最后输出结果。

具体的,基于步骤3得到的第一个答案,如果没有完成所有实体的对齐,则进行步骤2、3的迭代。具体问句更新为:

(1)“在哪个比赛当中,玛利亚·莎拉波娃(网球运动员)终于战胜了李娜”,选项为召回的结果:“A:法国网球公开赛B:法国羽毛球公开赛...”

(2)“在法国公开赛当中,玛利亚·莎拉波娃(网球运动员)终于战胜了谁”,选项为召回的结果:“A:李娜(网球运动员)B:李娜(女演员)...”

其他细节参见步骤2和3,通过不断迭代,直到完成原始文本所有实体的对齐工作,最后输出结果。

这一步中,由于充分利用文本当中已经对齐好的mention这一先验知识,能够辅助后续mention的对齐工作,从而提高模型的准确度。比如“在法国公开赛当中,莎拉波娃终于战胜了李娜”,通过上一步已先知道了萨拉波娃是指网球运动员“玛利亚·萨拉波娃”,那么利用这一条先验知识,将更容易知道“李娜”同样指的是网球运动员“李娜”。

与上述方法实施例相对应地,本发明实施例提供一种基于多轮阅读理解的实体对齐装置,包括:

实体识别模块,用于对原始文本进行NER处理,得到至少一个实体及其类别标签;

问句构建及选项召回模块,用于基于所述类别标签分别构造每个实体对应的问句,并从标准实体库中召回该实体的候选词作为各个问句的选项;

实体对齐模块,用于分别将各个问句及对应的选项输入预先训练的文本分类模型,得到所述原始文本当中不同实体的各个候选词的关联度评分,根据评分结果确定一个实体的对齐结果,完成该实体的对齐工作;

迭代模块,用于按照完成对齐的实体更新问句,并迭代执行上一步,直到完成所述原始文本所有实体的对齐工作,最后输出结果。

可选地,在该实施例中,所述问句构建及选项召回模块,具体用于:

针对每个实体,用该实体的类别标签对应的疑问词替换原句当中的实体,构建一个问句。

可选地,在该实施例中,所述实体对齐模块,具体用于:

选择其中评分最高的候选词作为对应实体的对齐结果。

可选地,在该实施例中,所述的文本分类模型采用bert模型。

关于上述实施例中的系统,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不再做详细阐述说明。

本发明的方法可以实现为一种计算设备,计算设备包括存储器和处理器。

处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM)和永久存储装置。其中,ROM可以存储处理器或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器上存储有可执行代码,当可执行代码被处理器处理时,可以使处理器执行上文述及的方法中的部分或全部。

此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中部分或全部步骤的计算机程序代码指令。

或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤的部分或全部。

上文中已经参考附图详细描述了本发明的方案。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。本领域技术人员也应该知悉,说明书中所涉及的动作和模块并不一定是本发明所必须的。另外,可以理解,本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,本发明实施例装置中的模块可以根据实际需要进行合并、划分和删减。

本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种知识库中知识的自动关联方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!