一种基于词语解释的文本增强的方法和系统

文档序号:191252 发布日期:2021-11-02 浏览:26次 >En<

阅读说明:本技术 一种基于词语解释的文本增强的方法和系统 (Text enhancement method and system based on word interpretation ) 是由 赵鹏阳 杨红飞 于 2021-06-15 设计创作,主要内容包括:本申请涉及一种基于词语解释的文本增强的方法和系统,其中,该方法包括:获取待测文本,并获取该待测文本中目标词的解释句;接着对待测文本进行预处理,对以目标词为标签的文本分类任务,将目标词的解释句设置为标签,对不以目标词为标签的文本分类任务,将目标词的解释句加入文本中;最后,通过预处理后的文本对自然语言分类模型进行训练,解决了在对文本进行分类时,由于文本中有新词等相关语料不足的词时,存在的模型训练效果不好、准确率低的问题,提高了模型的准确率。(The application relates to a text enhancement method and system based on word interpretation, wherein the method comprises the following steps: acquiring a text to be detected, and acquiring an interpretation sentence of a target word in the text to be detected; secondly, preprocessing the text to be detected, setting an interpretation sentence of the target word as a label for a text classification task with the target word as a label, and adding the interpretation sentence of the target word into the text for a text classification task without the target word as a label; finally, the natural language classification model is trained through the preprocessed text, so that the problems of poor model training effect and low accuracy rate caused by insufficient words such as new words and the like in the text when the text is classified are solved, and the accuracy rate of the model is improved.)

一种基于词语解释的文本增强的方法和系统

技术领域

本申请涉及计算机领域,特别是涉及一种基于词语解释的文本增强的方法和系统。

背景技术

在人工智能的应用场景下,基于机器学习的自然语言处理任务需要大量的语料来训练模型。因此,自然语言处理模型的效果好坏,有相当一部分依赖于语料内容,当语料不足时,就会出现模型的准确率和召回率不够理想的问题;或者当语料数据不平衡,如文本分类中某几个标签的数据量远大于其他标签的数据量时,会造成模型过于关注数据量大的标签数据,使得样本不足的标签的准确率、召回率较低。因此,需要对文本进行增强,也就是从已有语料生成更多的语料,将语料进行扩充,现有常见的文本数据增强方法有:回译、非核心词替换和基于生成语言模型的文本增强等。

然而,在相关技术中,要求文本中不能涉及新词等相关语料不足的词,且都需要通过大量语料的训练才能得到比较准确的模型。在词语的相关语料不足的情况下,模型很难得到较好的效果。

目前针对相关技术中在对文本进行分类时,由于文本中有新词等相关语料不足的词时,存在的模型训练效果不好、准确率低的问题,尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种基于词语解释的文本增强的方法和系统,以至少解决相关技术中在对文本进行分类时,由于文本中有新词等相关语料不足的词时,存在的模型训练效果不好、准确率低的问题。

第一方面,本申请实施例提供了一种基于词语解释的文本增强的方法,所述方法包括:

获取待测文本,并获取所述待测文本中目标词的解释句;

对所述待测文本进行预处理,对以所述目标词为标签的文本分类任务,将所述目标词的解释句设置为标签,对不以所述目标词为标签的文本分类任务,将所述目标词的解释句加入所述文本;

通过预处理后的文本对自然语言分类模型进行训练。

在其中一些实施例中,所述对以所述目标词为标签的文本分类任务,将所述目标词的解释句设置为标签包括:

通过average pooling将所述目标词的解释句设置为标签,并将所述目标词的解释句转换为与词向量相同维度的标签向量。

在其中一些实施例中,所述将所述目标词的解释句转换为与词向量相同维度的标签向量包括:

对所述目标词的解释句进行分词处理,并获取各个分词对应的BERT预训练的词向量;

计算所述词向量在同一维度的平均值,得到与所述词向量相同维度的标签向量。

在其中一些实施例中,所述获取所述待测文本中目标词的解释句包括:

获取领域专家和语言专家对所述目标词的解释句,或者查找专业知识库,得到所述目标词的解释句。

第二方面,本申请实施例提供了一种基于词语解释的文本增强的系统,所述系统包括:

获取模块,用于获取待测文本,并获取所述待测文本中目标词的解释句;

预处理模块,用于对所述待测文本进行预处理,对以所述目标词为标签的文本分类任务,将所述目标词的解释句设置为标签,对不以所述目标词为标签的文本分类任务,将所述目标词的解释句加入所述文本;

训练模块,用于通过预处理后的文本对自然语言分类模型进行训练。

在其中一些实施例中,所述预处理模块,还用于通过average pooling将所述目标词的解释句设置为标签,并将所述目标词的解释句转换为与词向量相同维度的标签向量。

在其中一些实施例中,所述预处理模块,还用于对所述目标词的解释句进行分词处理,并获取各个分词对应的BERT预训练的词向量,

计算所述词向量在同一维度的平均值,得到与所述词向量相同维度的标签向量。

在其中一些实施例中,所述获取模块,还用于获取领域专家和语言专家对所述目标词的解释句,或者查找专业知识库,得到所述目标词的解释句。

第三方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于词语解释的文本增强的方法。

第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的基于词语解释的文本增强的方法。

相比于相关技术,本申请实施例提供的基于词语解释的文本增强的方法,获取待测文本,并获取该待测文本中目标词的解释句;接着对待测文本进行预处理,对以目标词为标签的文本分类任务,将目标词的解释句设置为标签,对不以目标词为标签的文本分类任务,将目标词的解释句加入文本中;最后,通过预处理后的文本对自然语言分类模型进行训练,解决了在对文本进行分类时,由于文本中有新词等相关语料不足的词时,存在的模型训练效果不好、准确率低的问题,提高了模型的准确率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例的基于词语解释的文本增强的方法的应用环境示意图;

图2是根据本申请实施例的基于词语解释的文本增强的方法的流程图;

图3是根据本申请实施例的基于词语解释的文本增强的系统的结构框图;

图4是根据本申请实施例的电子设备的内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。

除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。

本申请提供的基于词语解释的文本增强的方法,可以应用于如图1所示的应用环境中,图1是根据本申请实施例的基于词语解释的文本增强的方法的应用环境示意图,如图1所示。其中,终端设备11与服务器10通过网络进行通信。服务器10获取待测文本,并获取该待测文本中目标词的解释句;接着对待测文本进行预处理,对以目标词为标签的文本分类任务,将目标词的解释句设置为标签,对不以目标词为标签的文本分类任务,将目标词的解释句加入文本中;最后,通过预处理后的文本对自然语言分类模型进行训练,通过该训练好的分类模型对文本进行分类预测,得到的预测结果显示在终端设备11上。其中,终端设备11可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑,服务器10可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本实施例提供了一种基于词语解释的文本增强的方法,图2是根据本申请实施例的基于词语解释的文本增强的方法的流程图,如图2所示,该流程包括如下步骤:

步骤S201,获取待测文本,并获取所述待测文本中目标词的解释句;

可选的,本实施例中,待测文本目标词的解释句的获取,来源于本领域专家和语言专家用自然语言解释目标词的语句,或者查找专业知识库,从专业知识库中获取得到目标词的解释句;

步骤S202,对待测文本进行预处理,对以目标词为标签的文本分类任务,将目标词的解释句设置为标签,对不以目标词为标签的文本分类任务,将目标词的解释句加入文本;

优选的,本实施例中对以目标词为标签的文本分类任务,通过average pooling将目标词的解释句设置为标签,并将目标词的解释句转换为与词向量相同维度的标签向量,需要说明的是,本实施例还可以通过max pooling将目标词的解释句设置为标签。具体地,有一个文本分类任务,需要训练一个模型把某新闻分成三个类别,分别是“体育”、“经济”、“极客”,其中“极客”是该文本的目标词,通过领域专家和语言专家或专业知识库查找可将“极客”解释为“对技术狂热的人”。首先,将目标词“极客”的解释句“对技术狂热的人”设置为标签;然后对目标词“极客”的解释句“对技术狂热的人”进行分词处理,得到:[‘对’,’技术’,’狂热’,‘的’,‘人’];接着,获取各个分词对应的BERT预训练的词向量,即获取[‘对’,’技术’,’狂热’,‘的’,‘人’]分词对应的词向量分别为v1、v2、v3、v4、v5;最后计算词向量在同一维度的平均值,得到与词向量相同维度的标签向量,即计算v^=average(v1,v2,v3,v4,v5),得到的v^和词向量维度相同;

进一步地,对不以目标词为标签的文本分类任务,将目标词的解释句加入文本。例如有一个T文本,其中目标词为“极客”,那么就将“极客的意思是对技术狂热的人”这句话加入文本T的末尾。这样就可以保证解释句能将目标词和其解释联系起来,有利于文本分类;

本实施例将目标词进行解释,可以减少由于语义歧义存在的分类错误等问题,能有效提高文本分类的准确率,提高模型准确度;

步骤S203,通过预处理后的文本对自然语言分类模型进行训练。可选的。本实施例中可以通过经上述预处理后的文本对自然语言分类模型进行训练,需要说明的是,本实施例中对自然语言分类模型不做具体限定。

通过上述步骤S201至步骤S203,本实施例通过获取文本目标词解释句,并对解释句设置标签的方法,解决了在对文本进行分类时,由于文本中有新词等相关语料不足的词时,存在的模型训练效果不好、准确率低的问题,提高了模型的准确率。

需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例还提供了一种基于词语解释的文本增强的系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本申请实施例的基于词语解释的文本增强的系统的结构框图,如图3所示,该系统包括获取模块31、预处理模块32和训练模块33:

获取模块31,用于获取待测文本,并获取待测文本中目标词的解释句;预处理模块32,用于对待测文本进行预处理,对以目标词为标签的文本分类任务,将目标词的解释句设置为标签,对不以目标词为标签的文本分类任务,将目标词的解释句加入文本;训练模块33,用于通过预处理后的文本对自然语言分类模型进行训练。

通过上述系统,本实施例通过获取文本目标词解释句,并对解释句设置标签的方法,解决了在对文本进行分类时,由于文本中有新词等相关语料不足的词时,存在的模型训练效果不好、准确率低的问题,提高了模型的准确率。

需要说明的是,本申请中其他一些实施例中的具体示例可以参考上述一种基于词语解释的文本增强的方法中的实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。

此外,需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。

另外,结合上述实施例中的基于词语解释的文本增强的方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种基于词语解释的文本增强的方法。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于词语解释的文本增强的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

在一个实施例中,图4是根据本申请实施例的电子设备的内部结构示意图,如图4所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图4所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种基于词语解释的文本增强的方法,数据库用于存储数据。

本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种语义理解方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!