一种事件抽取判断方法及系统

文档序号:1963734 发布日期:2021-12-14 浏览:17次 >En<

阅读说明:本技术 一种事件抽取判断方法及系统 (Event extraction and judgment method and system ) 是由 于兴文 于 2021-06-02 设计创作,主要内容包括:本发明公开了一种事件抽取判断方法与系统,涉及信息处理领域,其技术要点是,包括以下步骤:获取自然语料,对所述自然语料进行预处理,以获得目标语料;基于目标语料,运用算法库分别对其进行事件类型判断,以分别获得多组目标类型结果;基于所述多组目标类型结果,输出最优类型结果;基于命名实体识别与模式匹配算法,提取目标语料的目标事件元素,并对目标事件元素进行判别;基于最优类型结果与目标事件元素的对应关系,输出事件抽取结果。通过算法库在事件类型抽取上具有更高的精度。同时,通过两阶段式的召回精筛提升事件元素抽取的准确率,提升了整个事件抽取任务在具体业务场景下的算法精度。(The invention discloses an event extraction judgment method and system, relating to the field of information processing and having the technical key points that the method comprises the following steps: acquiring a natural corpus, and preprocessing the natural corpus to acquire a target corpus; based on the target corpus, respectively judging the event types of the target corpus by using an algorithm library so as to respectively obtain a plurality of groups of target type results; outputting an optimal type result based on the multiple groups of target type results; extracting target event elements of the target corpus based on named entity recognition and pattern matching algorithm, and distinguishing the target event elements; and outputting an event extraction result based on the corresponding relation between the optimal type result and the target event element. The event type extraction has higher precision through the algorithm library. Meanwhile, the accuracy of event element extraction is improved through the two-stage recall fine screening, and the algorithm precision of the whole event extraction task in a specific service scene is improved.)

一种事件抽取判断方法及系统

技术领域

本发明涉及信息处理领域,具体为一种事件抽取判断方法及系统。

背景技术

随着互联网的高速发展,越来越多的信息以电子文本的形式呈现给用户。 为了帮助用户在海量信息中快速找到所需要的信息,提出了信息抽取的概念。 信息抽取是指从自然语言文本中抽取事实信息,并且以结构化的形式描述信 息。事件抽取是信息抽取中的一个重要研究方向,主要是指从含有事件信息 的文本数据中抽取出感兴趣的事件信息,并且将用自然语言表达事件以结构 化的形式呈现,比如,什么人、什么地方、什么时间、做了什么事,可见, 事件抽取在现今的海量信息时代具有极为广阔的应用前景。

事件抽取是从描述事件信息的文本中抽取出用户感兴趣的事件并以结 构化的形式呈现出来,这样便能从海量的自然文本中抽取事件,目前市场上 聊天软件有很多,如日常交流常用的QQ、微信;工作中较长使用的叮叮。无 论工作还是学习,聊天软件都是当前人比不可少的网络工具。

聊天软件的用户间普遍采用自然语言作为交流手段,聊天的自然语言中 常常包含许多事件信息。这里所指的事件具体包括事件类型、事件元素两种 属性,其中事件元素根据事件类型的不同往往内容不同,不过大体包含时间、 地点、人物等字段。

目前,在聊天软件中的对于自然语言的事件抽取技术往往涉及到两个方 面,对事件类型的判断与事件元素的抽取。现有的事件抽取的方法有基于模 式匹配和基于机器学习的方法。其中专业领域的模式匹配需要定义大量的模 板进行事件的识别和抽取;基于传统机器学习的方法一般将事件抽取问题转 化为分类问题,基于短语或者句子层级的信息。通过对文本信息进行分句、 分词、实体识别、句法和依存关系,利用自然语言处理的工具提取候选词的 上下文的词义特征和语义特征,并构建特征向量,作为分类器的输入,运用 一个分类器来预测事件发生的触发词,并根据触发词类型,判断该事件所属 类型。

基于模式匹配的事件抽取方法,基于一定的模式(上下文环境),将待抽取 的句子与已有的模板进行匹配,其中模式的构建需要领域的专家知识,进行 人工建立,人力、时间成本较高,并且移植性较差,从一个领域移植到另一 个领域相当于重新建立;基于机器学习的事件抽取的方法,一是将事件抽取 分为实体提取和事件判别两个阶段,命名实体识别的误差会影响事件的判别, 会带来累计误差;二是对于具体的领域,往往需要构建大量的人工特征,特 征选择的过程代价是很大的,随着模型复杂性的提高,可维护性会变得越来越差。

发明内容

本发明的目的在于提供一种事件抽取判断方法与系统,以至少解决由于 模板本身灵活性差、形式复杂的特点,往往使事件抽取存在一定的误检率的 问题。

为实现上述目的,本发明提供如下技术方案:一种事件抽取判断方法, 包括以下步骤:

获取自然语料,对所述自然语料进行预处理,以获得目标语料;

基于目标语料,运用算法库分别对其进行事件类型判断,以分别获得多 组目标类型结果;

基于所述多组目标类型结果,输出最优类型结果;

基于命名实体识别与模式匹配算法,提取目标语料的目标事件元素,并 对目标事件元素进行判别;

基于最优类型结果与目标事件元素的对应关系,输出事件抽取结果。

本申请进一步配置为,对所述自然语料进行预处理,以获得目标语料,

包括对所述自然语料进行语义纠错、断句处理与生僻字处理。

本申请进一步配置为,所述基于目标语料,运用算法库分别对其进行事 件类型判断,以分别获得多组目标类型结果,所述算法库至少包括文本分类 算法、文本匹配算法与触发词匹配算法,其中;

文本分类算法对目标语料进行事件类型分类;

文本匹配算法通过构建样本向量库,所述样本向量库是通过收集样本语 料数据,收集样本语料数据中的强意图信息构建的,所述文本匹配算法通过 对目标语料进行向量化,收集其中目标强意图信息语料,与向量库中的向量 秋菊距离,进行事件类型分类;

触发词匹配算法通过触发词与触发模式,进行事件类型分类。

本申请进一步配置为,所述基于命名实体识别与模式匹配算法,提取目 标语料的目标事件元素,其中,将基于所述命名实体识别的识别结果,输入 所述模式匹配算法的模板字典进行修正与过滤。

本申请还提供一种事件抽取判断系统,其特征在于,包括数据预处理模 块、事件类型判断模块、事件元素抽取模块与事件输出模块;

所述数据预处理模块配置为,获取自然语料,对所述自然语料进行预处 理,以获得目标语料;

所述事件类型判断模块配置为,基于目标语料,运用算法库分别对其进 行事件类型判断,以分别获得多组目标类型结果,并基于所述多组目标类型 结果,输出最优类型结果;

所述事件元素抽取模块配置为,基于命名实体识别与模式匹配算法,提 取目标语料的目标事件元素,并对目标事件元素进行判别;

所述事件输出模块配置为,基于最优类型结果与目标事件元素的对应关 系,输出事件抽取结果。

本申请进一步配置为,还包括数据采集模块,所述数据采集模块配置为, 通过麦克风或键盘输入收集自然语料,并将所述自然语料发送给所述数据预 处理模块。

本申请还提供一种计算机可读的存储介质,所述存储介质中存储有计算 机程序,其中,所述计算机程序被设置为运行时执行前述提及的方法。

本申请还提供一种电子装置,包括存储器和处理器,所述存储器中存储 有计算机程序,所述处理器被设置为运行所述计算机程序以执行前述提及的 方法。

与现有技术相比,本发明的有益效果如下:在自然语料事件抽取的各个 阶段都进行了不同改进;融合文本消歧、依存句法分析、命名实体识别、文 本语义匹配、文本分类等多种自然语言处理技术。其可让整个事件挖掘过程 更加灵活智能,减少人工工作量;更采用模板与词典的方式对事件抽取的过 程与结果进行控制与兜底,保证事件抽取结果的可控性与准确性。

附图说明

图1为本申请实施例的一种事件抽取判断方法的移动终端的硬件结构框 图;

图2为本申请的方法总步骤流程图;

图3为本申请的抽取与判断方法详细步骤流程图;

图4为本申请的模块原理图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在 不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第 一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先 后次序。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者 类似的运算装置中执行。以运行在移动终端上为例,图1是本申请实施例的 一种事件抽取判断方法的移动终端的硬件结构框图。如图1所示,移动终端 可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括 但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储 数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备 106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构 仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包 括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模 块,如本申请实施例中的一种适用于高频变压器分布参数的测量方法对应的 计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而 执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高 速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、 闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步 包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连 接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、 移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实 例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输装置 106包括一个网络适配器(Network Interface Controller,简称为NIC),其可 通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传 输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无 线方式与互联网进行通讯。

如图2、图3所示,一种事件抽取判断方法,包括以下步骤:

获取自然语料,对所述自然语料进行预处理,以获得目标语料,包括对 所述自然语料进行语义纠错、断句处理与生僻字处理;

基于目标语料,运用算法库分别对其进行事件类型判断,以分别获得多 组目标类型结果;

基于所述多组目标类型结果,输出最优类型结果;

基于命名实体识别与模式匹配算法,提取目标语料的目标事件元素,并 对目标事件元素进行判别;

基于最优类型结果与目标事件元素的对应关系,输出事件抽取结果。

对所述自然语料进行预处理,预处理首先将聊天软件或其他交流环境获 取的聊天自然语言信息作为输入,作为自然语料,由于聊天语句较大可能存 在错别字、病句的情况,所以需要使用pycorrector语义纠错工具对输入的自 然语言数据进行处理。针对较长的自然语言需要进行断句处理,还需对部分 特殊字符与停用词进行处理与替换,以保证后续事件抽取质量。

基于目标语料,运用算法库分别对其进行事件类型判断,以分别获得多 组目标类型结果。其中;算法库至少包括文本分类算法、文本匹配算法与触 发词匹配算法,本实施例采用算法库中的上述三种算法进行同时的事件类型 判断,实际实施中,包括但不限于这三种算法,但采用多种算法同时计算的 想法依然在本实施例的中心思想中。

具体的,其一,通过文本分类算法,可使用albert+nn的自然语言分类算 法,对目标语料进行事件类型分类。

其二,文本匹配算法通过构建样本向量库,所述样本向量库是通过收集 样本语料数据,收集样本语料数据中的强意图信息构建的,所述文本匹配算 法通过对目标语料进行向量化,收集其中目标强意图信息语料,与向量库中 的向量秋菊距离,进行事件类型分类;其中,使用simbert+writen方法对聊天 信息进行向量化,将收集到的具有强意图的信息向量存储,构成待检索的向 量库,针对新的聊天自然语言信息可与向量库中的向量求取距离,以此判断 该文本的事件类型。

其三,触发词匹配算法通过触发词与触发模式,进行事件类型分类。其 中,采用较为传统的触发词与触发模式的方法对聊天文本进行匹配,判断其 事件类型。

三种算法计算完毕出三组事件计算结果后,基于所述多组目标类型结果, 输出最优类型结果,本实施例中采用树模型综合以上三种算法的结果,输出 一个最优的事件类型判断结果,其他的神经网络模型或传统模型算法均可在 样本训练后或人工输入参数后进行判断选一输出。

所述基于命名实体识别与模式匹配算法,提取目标语料的目标事件元素, 其中,将基于所述命名实体识别的识别结果,输入所述模式匹配算法的模板 字典进行修正与过滤。其中,同时使用命名实体识别与模式匹配两种算法对 事件元素进行判别与挖掘。对聊天自然语言采用albert+self-attation模型进行 命名实体识别,模型识别结果在部分情况下存在不稳定的特征。所以将ner 结果放入模板字典中进行修正与过滤。在此模块中,ner的方法起到大范围召 回事件元素的作用,而模板字典起到进一步的精筛。

由于综合使用文本分类算法、语义匹配算法、触发词匹配方法,本发明 在事件类型抽取上具有更高的精度。同时,将ner算法与模式识别的方法进行 结合,通过两阶段式的召回精筛提升事件元素抽取的准确率。本实施例整体 上提升了事件抽取任务在具体业务场景下的算法精度。

如图3和图4所示,本实施例还公开一种事件抽取判断系统,应用前述 的方法,包括数据预处理模块、事件类型判断模块、事件元素抽取模块与事 件输出模块;

所述数据预处理模块配置为,获取自然语料,对所述自然语料进行预处 理,以获得目标语料;

所述事件类型判断模块配置为,基于目标语料,运用算法库分别对其进 行事件类型判断,以分别获得多组目标类型结果,并基于所述多组目标类型 结果,输出最优类型结果;

所述事件元素抽取模块配置为,基于命名实体识别与模式匹配算法,提 取目标语料的目标事件元素,并对目标事件元素进行判别;

所述事件输出模块配置为,基于最优类型结果与目标事件元素的对应关 系,输出事件抽取结果。

还包括数据采集模块,所述数据采集模块配置为,通过麦克风或键盘输 入收集自然语料,并将所述自然语料发送给所述数据预处理模块。

本申请还提供一种计算机可读的存储介质,存储介质中存储有计算机程 序,其中,计算机程序被设置为运行时执行前述提及的方法。

本申请还提供一种电子装置,包括存储器和处理器,存储器中存储有计 算机程序,处理器被设置为运行所述计算机程序以执行前述提及的方法。

可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各 种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完 成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存 盘、只读存储器(Read-OnlyMemory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立 的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这 样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者 该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产 品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为 个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全 部或部分步骤。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施 例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通 过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如 所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分 方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特 征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦 合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可 以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作 为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方, 或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或 者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中, 也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单 元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单 元的形式实现。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普 通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润 饰,这些改进和润饰也应视为本申请的保护范围。

11页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:数据热度的分析方法、装置、设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!