一种核心词确定方法和相关装置

文档序号:1889943 发布日期:2021-11-26 浏览:2次 >En<

阅读说明:本技术 一种核心词确定方法和相关装置 (Core word determining method and related device ) 是由 黄剑辉 于 2021-03-22 设计创作,主要内容包括:本申请实施例公开了一种核心词确定方法和相关装置,处理设备可以在通过融合张量进一步突出词向量和文本向量的相关信息的基础上,结合区块链技术和人工智能技术,通过词标签和词权重参数的差异对用于确定词权重参数的初始词权重模型进行监督训练,从而通过对调节该初始词权重模型进行调参来提高所确定词权重参数的准确度,使通过监督训练得到的词权重模型能够对文本中的核心词进行精准识别,提高识别准确率。(The embodiment of the application discloses a method and a related device for determining core words, wherein processing equipment can perform supervision training on an initial word weight model for determining word weight parameters through the difference between word labels and the word weight parameters on the basis of further highlighting related information of word vectors and text vectors through fusion tensors by combining a block chain technology and an artificial intelligence technology, so that the accuracy of the determined word weight parameters is improved by adjusting the initial word weight model, the core words in the text can be accurately identified through the word weight model obtained through supervision training, and the identification accuracy is improved.)

一种核心词确定方法和相关装置

技术领域

本申请涉及数据处理领域,特别是涉及一种核心词确定方法和相关装置。

背景技术

文本中的核心词能够体现出文本的核心语义成分,例如针对标题类文本的标题词权重任务(term-weights)就是进行句子核心语义成分识别,消除冗余成分影响的主要方式。

如何准确识别文本中的核心词是亟需解决的问题,相关技术中大多采用统计方式完成,统计为无监督方式,代表方式有词频-逆文本频率指数(term frequency–inversedocument frequency,TF-IDF),互信息(mutual information,MI)等。

统计方式主要基于文本的全局语料进行词频统计,考虑的数据维度较为单一,对文本中核心词的识别准确率难以符合预期。

发明内容

为了解决上述技术问题,本申请实施例提供了一种核心词确定方法和相关装置,使通过监督训练得到的词权重模型能够对文本中的核心词进行精准识别,提高识别准确率。

本申请实施例公开了如下技术方案:

第一方面,本申请实施例公开了一种核心词确定方法,所述方法包括:

获取包括样本文本和样本分词的词标签的训练样本,所述样本分词为所述样本文本的多个分词中的一个,所述词标签用于标识所述样本分词是否为所述样本文本的核心词;

将所述训练样本作为初始词权重模型的输入数据进行模型训练,所述初始词权重模型包括文本模块、词模块和融合模块,所述文本模块用于提取所述样本文本的文本向量,所述词模块用于提取所述样本分词的词向量,所述融合模块用于通过融合张量,根据所述文本向量和所述词向量生成文本融合向量;

通过所述初始词权重模型获取根据所述文本融合向量确定的词权重参数,所述词权重参数用于标识所述样本分词属于所述样本文本的核心词的概率;

根据所述词权重参数与所述词标签的差别,对所述融合张量进行参数调整;

通过训练得到的词权重模型识别目标文本中的核心词。

第二方面,本申请实施例公开了一种核心词确定装置,所述装置包括第一获取单元、训练单元、第二获取单元、调参单元和识别单元:

所述第一获取单元,用于获取包括样本文本和样本分词的词标签的训练样本,所述样本分词为所述样本文本的多个分词中的一个,所述词标签用于标识所述样本分词是否为所述样本文本的核心词;

所述训练单元,用于将所述训练样本作为初始词权重模型的输入数据进行模型训练,所述初始词权重模型包括文本模块、词模块和融合模块,所述文本模块用于提取所述样本文本的文本向量,所述词模块用于提取所述样本分词的词向量,所述融合模块用于通过融合张量,根据所述文本向量和所述词向量生成文本融合向量;

所述第二获取单元,用于通过所述初始词权重模型获取根据所述文本融合向量确定的词权重参数,所述词权重参数用于标识所述样本分词属于所述样本文本的核心词的概率;

所述调参单元,用于根据所述词权重参数与所述词标签的差别,对所述融合张量进行参数调整;

所述识别单元,用于通过训练得到的词权重模型识别目标文本中的核心词。

第三方面,本申请实施例公开了一种核心词确定方法,所述方法包括:

获取包括多个分词的目标文本;

通过词权重模型确定所述目标文本的文本向量,以及目标分词的词向量,其中,所述目标分词为所述多个分词中的一个分词,所述词权重模型包括文本模块、词模块和融合模块,所述文本模块用于提取所述目标文本的文本向量,所述词模块用于提取所述目标分词的词向量,所述融合模块用于通过融合张量,根据所述文本向量和所述词向量生成文本融合向量;

根据基于所述融合模块生成的所述文本融合向量,通过所述词权重模型确定所述目标分词的词权重参数,所述词权重参数用于标识所述目标分词属于所述目标文本的核心词的概率,所述融合张量用于在生成所述文本融合向量时,基于所述文本向量提升所述词向量中所述目标分词在所述目标文本中的上下文信息;

根据所述词权重参数确定所述目标分词是否为所述目标文本的核心词。

第四方面,本申请实施例公开了一种核心词确定装置,所述装置包括第三获取单元、第一确定单元、第二确定单元和第三确定单元:

所述第三获取单元,用于获取包括多个分词的目标文本;

所述第一确定单元,用于通过词权重模型确定所述目标文本的文本向量,以及目标分词的词向量,其中,所述目标分词为所述多个分词中的一个分词,所述词权重模型包括文本模块、词模块和融合模块,所述文本模块用于提取所述目标文本的文本向量,所述词模块用于提取所述目标分词的词向量,所述融合模块用于通过融合张量,根据所述文本向量和所述词向量生成文本融合向量;

所述第二确定单元,用于根据基于所述融合模块生成的所述文本融合向量,通过所述词权重模型确定所述目标分词的词权重参数,所述词权重参数用于标识所述目标分词属于所述目标文本的核心词的概率,所述融合张量用于在生成所述文本融合向量时,基于所述文本向量提升所述词向量中所述目标分词在所述目标文本中的上下文信息;

所述第三确定单元,用于根据所述词权重参数确定所述目标分词是否为所述目标文本的核心词。

第五方面,本申请实施例公开了一种计算机设备,所述设备包括处理器以及存储器:

所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;

所述处理器用于根据所述程序代码中的指令执行第一方面或第三方面中所述的核心词确定方法。

第六方面,本申请实施例公开了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行第一方面或第三方面中所述的数据处理方法。

由上述技术方案可以看出,为了提高核心词的确定准确度,可以获取包括样本文本和样本分词的此标签的训练样本,该样本分词为样本文本所对应多个分词中的一个,该词标签可以用于标识该样本分词是否为样本文本的核心词。从而,在训练用于确定分词权重的初始词权重模型时,可以将该训练样本作为初始词权重模型的输入数据进行监督训练。其中,该初始词权重模型中包括文本模块、词模块和融合模块,文本模块和词模块分别用于提取样本文本的文本向量和样本分词的词向量,融合模块可以用于通过融合张量,根据文本向量和词向量生成文本融合向量。在该融合过程中,文本向量和词向量能够分别学习到对方中有关自身的部分信息,从而使该文本融合向量中能够进一步突出该样本分词与该样本文本相关的信息。在训练过程中,可以先通过初始词权重模型获取根据文本融合向量确定的词权重参数,该词权重参数用于标识该样本分词属于样本文本的核心词的概率。从而,通过该词权重参数与词标签的差别,可以对融合张量进行参数调整,进而能够使该初始词权重模型能够学习到如何准确确定分词对应的词权重参数,因此通过该训练得到的词权重模型可以准确识别目标文本中的核心词,提高核心词的识别准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种实际应用场景中核心词确定方法的示意图;

图2为本申请实施例提供的一种核心词确定方法的流程图;

图3为本申请实施例提供的一种实际应用场景中核心词确定方法的示意图;

图4为本申请实施例提供的一种核心词确定方法的示意图;

图5为本申请实施例提供的一种核心词确定方法的示意图;

图6为本申请实施例提供的一种核心词确定装置的结构框图;

图7为本申请实施例提供的一种核心词确定装置的结构框图;

图8为本申请实施例提供的一种计算机设备的结构图;

图9为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图,对本申请的实施例进行描述。

识别文本中的核心词是对文本进行分析处理的常用手段,核心词识别的准确率对文本处理的合理性有着直接影响。在相关技术中,通常采用无监督的方式进行核心词识别,例如直接统计分词在文本中出现的频率等,这种无监督的识别方式的识别逻辑过于单一,对核心词识别的准确率较差。

为了解决上述技术问题,本申请实施例提供了一种核心词确定方法和相关装置,处理设备可以在通过融合张量进一步突出词向量和文本向量的相关信息的基础上,通过词标签和词权重参数的差异对用于确定词权重参数的初始词权重模型进行监督训练,从而通过对调节该初始词权重模型进行调参来提高所确定词权重参数的准确度,使通过监督训练得到的词权重模型能够对文本中的核心词进行精准识别,提高识别准确率。

可以理解的是,可以理解的是,该方法可以应用于处理设备上,该处理设备为具有核心词确定功能的处理设备,例如可以是具有核心词确定功能的终端设备或服务器。该方法由终端设备或服务器独立执行,也可以应用于终端设备和服务器通信的网络场景,通过终端设备和服务器配合运行。其中,终端设备可以为手机、台式计算机、个人数字助理(Personal Digital Assistant,简称PDA)、平板电脑等设备。服务器可以理解为是应用服务器,也可以为Web服务器,在实际部署时,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。

本申请实施例还可以应用有区块链技术,如在本申请所公开的核心词确定方法中,可以采用多个服务器进行模型训练等过程,其中多个服务器可组成为一区块链,而服务器为区块链上的节点。

此外,本申请还涉及人工智能(Artificial Intelligence,AI)技术。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中,本申请主要涉及自然语言处理技术和机器学习技术。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

在本申请实施例中,处理设备可以通过自然语言处理技术来获取训练样本,以及可以对获取到的目标文本进行分词处理,通过机器学习技术可以对初始词权重模型进行有监督的训练,使训练得到的词权重模型能够较为精准的进行核心词识别。

为了便于理解本申请提供的技术方案,接下来,将结合一种实际应用场景,对本申请实施例提供的一种核心词确定方法进行介绍。

参见图1,图1为本申请实施例提供的一种实际应用场景中核心词确定方法的示意图,在该实际应用场景中,处理设备为具有核心词确定功能的服务器101。

服务器101可以获取输入的训练样本,该训练样本中包括样本文本、样本分词以及样本分词对应的词标签,该词标签用于标识该样本分词是否为样本文本的核心词,其中核心词是指文本所对应的多个分词中最能够体现出文本核心语义的分词。服务器101可以将该训练样本作为初始词权重模型的输入数据进行训练,该初始词权重模型用于通过确定文本中各个分词对应的词权重参数来识别核心词,该词权重参数用于标识分词属于文本核心词的概率。由于词标签能够标识出该样本分词是否为核心词,因此,服务器101可以将该样本文本和样本分词可以作为训练样本,该词标签作为训练标签,对该初始词权重模型进行监督训练。

其中,初始词权重模型中包括文本模块、词模块和融合模块,文本模块能够基于样本文本提取得到文本向量,词模块能够基于样本分词提取得到词向量,融合模块能够通过融合张量,根据文本向量和词向量融合生成文本融合向量,在该向量融合的过程中,文本向量和词向量能够互相学习到与自身相关的部分信息,从而,通过该文本融合向量,初始词权重模型能够更好的获知样本分词在样本文本中的上下文信息,进而服务器101可以通过初始词权重模型,获取根据文本融合向量确定的准确度较高的词权重参数,该词权重参数能够用于标识该样本分词属于样本文本核心词的概率。

通过该词权重参数与词标签的差别,服务器101能够得到该初始词权重模型在识别样本文本核心词时的误差,因此服务器101可以根据该差别,对融合张量进行参数调整,使基于该融合张量确定出的词权重参数能够更加贴近于样本分词的词标签,从而通过该监督训练过程,服务器101可以提高初始词权重模型确定词权重参数的准确度。基于此,服务器可以利用通过监督训练得到的词权重模型,对文本的核心词进行准确识别。

接下来,将结合附图,对本申请实施例提供的一种核心词确定方法进行介绍。

参见图2,图2为本申请实施例提供的一种核心词确定方法的信令图,该方法包括:

S201:获取包括样本文本和样本分词的词标签的训练样本。

其中,样本文本可以为任意一种包括多个分词的样本,样本分词可以为该样本文本的多个分词中的一个,该词标签用于标识样本分词是否为该样本文本的核心词,核心词是指文本所对应的多个分词中最能够体现出文本核心语义的分词。例如,在一段文本“我今天10点钟吃午饭”中,可以得到“我”、“今天”、“10点钟”、“吃午饭”这几个分词,其中核心词可以为“吃午饭”。

具体来说,为了提高训练样本的完整性,该训练样本可以分为正样本和负样本,正样本是指训练样本中词标签标识该样本分词为核心词的样本,负样本是指训练样本中词标签标识样本分词不为核心词的样本。从而,通过正样本和负样本,处理设备可以从多个训练方向上对初始词权重模型进行训练,使模型能够更加精准的学习如何识别文本中的核心词。

S202:将训练样本作为初始词权重模型的输入数据进行模型训练。

为了能够精准的进行核心词识别,处理设备可以引入有监督的识别方式,例如可以采用有监督模型来进行识别。首先,处理设备可以获取初始词权重模型,然后采用有监督的方式对该初始词权重模型进行训练,提高其识别核心词的精度,该初始词权重模型具有一定识别核心词的能力。

其中,该初始词权重模型包括文本模块、词模块和融合模块,在训练过程中,该文本模块可以用于提取样本文本的文本向量,该文本向量能够在向量维度上表达样本文本的文本语义;词模块可以用于提取样本分词的词向量,该词向量能够在向量维度上表达样本分词的词语义。从而,基于该词向量和文本向量,该初始词权重模型能够基于语义等多种维度来分词该样本分词在样本文本的权重,该权重能够体现出样本分词的语义属于该样本文本的核心语义的概率。

为了进一步提高该初始词权重模型的识别精度,在本申请实施例中,处理设备可以在该初始词权重模型中设置融合模块,该融合模块可以用于通过融合张量,根据文本向量和词向量生成文本融合向量,该文本融合向量用于体现词向量和文本向量之间的关联关系。在该融合过程中,并不是直接将词向量和文本向量进行融合,而是结合有该初始词权重模型中的融合张量,该融合张量能够使该融合过程更加突出词向量和文本向量之间的关联性。通过结合有融合张量的向量融合过程,处理设备可以使词向量和文本向量更好的互相学习到对方中与自身相关的信息,从词向量的角度,处理设备可以使词向量学习到文本向量中与自身相关的上下文信息;从文本向量的角度,处理设备可以进一步突出该文本向量中与词向量相关的部分信息。

从而,基于该文本融合向量,该初始词权重模型能够更加准确的对词向量和文本向量之间的关联关系进行分词,进而能够更加准确的对该样本分词在该样本文本中的权重进行确定,最终识别出更加准确的核心词。

S203:通过初始词权重模型获取根据文本融合向量确定的词权重参数。

其中,该词权重参数用于标识样本分词属于样本文本的核心词的概率。在初始词权重模型基于文本融合向量进行分析时,若分析确定该词向量的语义与文本向量整体的语义相似程度越高,则说明该样本分词越能够体现出该样本文本的核心语义,所确定出的词权重参数也就越大。词权重参数越大,则该样本分词属于样本文本核心词的概率也就越高。

S204:根据词权重参数与词标签的差别,对融合张量进行参数调整。

上已述及,词标签能够用于标识样本分词是否为样本文本的核心词,而词权重参数可以用于标识样本分词属于样本文本的核心词的概率,因此,通过该词权重参数与词标签的差别,能够体现出该初始词权重模型在确定词权重参数时的误差。从而,为了提高词权重参数的确定精度,处理设备可以基于该误差,对该初始词权重模型中的相关参数进行调整。

其中,该词权重参数是基于文本融合向量确定的,在生成该文本融合向量时,由于处理设备并不是直接将词向量和文本向量进行融合,而是添加了融合张量作为确定该文本融合向量的参数,因此,在进行参数调整时,处理设备还可以反向对该融合张量进行调参,从而能够使融合模块能够更加合理的对词向量和文本向量进行融合,进而使该文本融合向量中能够更加突出词向量和文本向量的相关信息。基于此,在通过对融合张量进行调参后,处理设备能够得到信息更加有效的文本融合向量,提高训练后的词权重模型对词权重参数的确定精度。

S205:通过训练得到的词权重模型识别目标文本中的核心词。

其中,目标文本可以为任意一个包括多个分词的文本。由于经过对融合张量的调参后,训练得到的词权重模型已经具有较为准确的的核心词识别能力,因此,处理设备可以将该词权重模型应用于后续的核心词识别过程中,下面将对该应用过程进行详细介绍。

S206:获取包括多个分词的目标文本。

S207:通过词权重模型确定目标文本的文本向量,以及目标分词的词向量。

其中,目标分词可以为多个分词中的一个分词。该词权重模型中包括文本模块、词模块和融合模块,文本模块用于提取目标文本的文本向量,词模块用于提取目标分词的词向量,该文本向量用于从向量的维度对目标文本的语义进行表达,词向量用于从向量的维度对目标分词的语义进行表达,融合模块用于通过融合张量,根据文本向量和词向量生成文本融合向量。

S208:根据基于融合模块生成的文本融合向量,通过词权重模型确定目标分词的词权重参数。

通过向量融合,文本向量和词向量能够互相学习到与自身相关的信息,而融合张量能够进一步提高该向量融合的融合效果。例如,该融合张量可以用于在生成文本融合向量时,基于文本向量提升词向量中目标分词在目标文本中的上下文信息,该上下文信息有助于使该词权重模型对该目标分词的语义进行更加准确的理解。例如,在一段文本“如何在游戏A中玩出更高的分数”中,若目标分词为“游戏A”,则通过融合张量,可以把“在”、“玩出更高分数”这些上下文信息融入到词向量中,使词权重模型对“游戏A”的语义进行更好的理解。

通过上述过程,该文本融合向量不仅能够体现出词向量和文本向量自身的语义,还能够体现出该词向量和文本向量之间的关联信息,从而,基于通过融合张量确定出的文本融合向量,词权重模型能够更加准确的确定出该目标分词对应的词权重参数,该词权重参数用于标识目标分词属于目标文本的核心词的概率。

如图4所示,图4展示了一种通过词权重模型确定词权重参数的示意图,其中,encoder1和encoder2为两个编码器,分别用作文本模块和词模块,通过encoder1可以对目标文本进行编码,得到对应的文本向量;通过encoder2可以对目标分词进行编码,得到对应的词向量。如图所示,该目标文本可以为“这角色要输了,经济被压制,完全赢不了,手机给你来玩”,目标分词可以为“角色”,分别输入encoder1和encoder2中,得到对应的文本向量和词向量,然后将这些向量输入到融合模块fusion中,得到位于0~1之间的词权重参数。如图5所示,由该目标文本中的各个分词输入得到结果可以为【(角色:0.91)>(经济:0.81)>(压制:0.7)>(手机:0.3)>(要输了:0.2)>(赢不了:0.2)>(这:0.1)...】等,其中,“角色”的词权重参数最高,可以视为该目标文本的核心词。

S209:根据词权重参数确定目标分词是否为目标文本的核心词

处理设备可以通过目标分词所对应的词权重参数来确定该目标分词是否为核心词。其中,基于词权重参数确定核心词的方式可以包括多种,例如,处理设备可以将目标分词对应的词权重参数与目标文本中其他分词的词权重参数进行比较,若该目标分词所对应的词权重参数最高,则可以确定该目标分词为目标文本的核心词;或者,处理设备可以预设一个词权重参数阈值,若目标分词对应的词权重参数大于该词权重参数阈值,则确定该目标分词为该目标文本的核心词。

由上述技术方案可以看出,为了提高核心词的确定准确度,在融合过程中可以引入融合张量,通过融合张量,文本向量和词向量能够分别学习到对方中有关自身的部分信息,从而使该文本融合向量中能够进一步突出该样本分词与该样本文本相关的信息。在训练过程中,可以先通过初始词权重模型获取根据文本融合向量确定的词权重参数,该词权重参数用于标识该样本分词属于样本文本的核心词的概率。从而,通过该词权重参数与词标签的差别,可以对融合张量进行参数调整,进而能够使该初始词权重模型能够学习到如何准确确定分词对应的词权重参数,因此通过该训练得到的词权重模型可以准确识别目标文本中的核心词,提高核心词的识别准确率。

该方法具有较为广泛的应用场景,例如可以适用于大部分需要理解文本核心词、确定不同分词的词权重的场景,如理解文本标题、篇章中的句式等通用场景。

可以理解的是,文本的核心词通常可以被应用在对文本的搜索中,例如当用户想要搜索游戏A的相关攻略时,可以用“游戏A”作为核心词进行搜索。由此可见,在确定一段文本的核心词时,用户的搜索行为可以作为较为合理的确定依据之一。

在一种可能的实现方式中,在获取训练样本时,处理设备可以先获取历史搜索行为数据,该历史搜索行为数据用于标识搜索词以及通过该搜索词所打开页面的页面文本,该搜索词为用户在搜索该页面时所采用的搜索词。由于该搜索词可以应用于搜索该页面文本,因此在一定程度上该搜索词能够体现出该页面文本的核心语义,即该搜索词可以作为该页面文本对应的核心词。基于此,处理设备可以将该页面文本确定为样本文本,并将该页面文本对应的搜索词确定为页面文本的核心词,该搜索词作为样本分词时,对应的词标签可以标识该样本分词为核心词。从而,处理设备得到了一个具有样本文本和样本分词的词标签的训练样本。

其中,在通过搜索词所打开的页面中可能包括多种形式的内容,针对不同形式的内容,处理设备所确定该页面的页面文本的方式也可以有所不同。例如,若该页面中的内容为文本形式的内容,则处理设备可以直接将该页面内容确定为页面文本;若该页面中的内容为非文本形式,例如图片、音频等形式,则处理设备可以采用相应的转化形式,基于非文本形式的内容转化得到文本形式的内容。例如,当页面内容为图片形式的内容时,处理设备可以对该图片中的文字进行识别,将识别结果确定为对应的页面文本;当页面内容为音频形式的内容时,处理设备可以对音频进行语音识别,转化为相应的文本,将该文本作为对应的页面文本。从而,处理设备可以针对多种内容形式的文本来确定训练样本,进一步提高训练样本的丰富程度和灵活度。

此外,可以理解的是,某些页面可能对应于多个搜索词,这种情况下,处理设备可以对多个搜索词分别对应的搜索次数进行统计,并基于搜索词对应的搜索次数来确定页面文本对应的核心词。例如,处理设备可以将搜索次数最多的搜索词确定为该页面文本对应的核心词。

在对初始词权重模型的训练过程中,由于该词权重参数是基于融合张量、词向量和文本向量确定出的,因此,为了进一步提高初始词权重模型的训练精度,除了可以对融合张量进行调参外,处理设备还可以进一步提高词向量和文本向量的提取精度。

在一种可能的实现方式中,处理设备可以根据该词权重参数与词标签的差别,对文本模块、词模块和融合张量进行参数调整。通过该参数调整,除了能够通过融合张量在向量融合过程中得到更加适用于进行核心词识别的文本融合向量外,还可以使在通过文本模块和词模块提取出的文本向量和词向量中,能够更加突出对核心词识别有利的相关信息,从而进一步提高核心词识别的准确度。

在通过融合张量,根据文本向量和词向量得到文本融合向量的过程中,处理设备可以基于向量和张量的具体格式来采用相应的方式进行向量融合。例如,在一种可能的实现方式中,该文本向量的维度可以为第一维数,词向量的维度为第二维数,文本融合向量的维数为第三维数,该融合张量为三维张量,维度分别为第一维数、第三维数和第二维数。

在确定文本融合向量时,由于文本向量相当于一个(1,第一维数)的向量,而融合张量相当于(第一维数,第三维数,第二维数)的张量,因此处理设备可以通过模型中的融合模块,首先根据文本向量和融合张量得到初级融合向量,该初级融合向量的维度可以分别为第三维数和第二维数,即相当于(第三维数,第二维数)的向量。随后,由于该次词向量相当于(1,第二维数)的向量,该词向量的转置向量可以为(第二维数,1)的向量,因此可以根据该初级融合向量和词向量的转置向量得到该文本融合向量,该文本融合向量的维度为第三维数。

距离来说,该融合的具体公式可以如下所示:

ffusion=ftext*W*fword T

其中,ftext是维度为m的文本向量,fword是维度为n的词向量,W∈Rm*d*n是一个三维张量,其中d是文本融合向量ffusion的维度。处理设备最后可以通过模型将d维文本融合向量输入到全连接层,通过sigmoid函数等方式得到该分词对应的词权重参数。

上已述及,在向量融合过程中,通过该融合张量,可以基于文本向量提升词向量中目标分词在目标文本中的上下文信息,从而使词权重模型能够更好的理解该词向量的语义以及词向量与文本向量之间的关联关系。其中,向量融合的过程实际上可以是一个相互影响的过程,因此,在一种可能的实现方式中,该融合张量还可以用于在生成文本融合向量时,基于词向量提升文本向量中该目标分词在目标文本中的上下文信息,通过该融合张量,可以使该文本向量中有关目标分词的上下文信息得到进一步的突出,从而该词权重模型通过该文本融合向量不仅能够重点分析词向量中有关目标文本的部分信息,还能够对文本向量中有关词向量的部分信息进行重点分析,进一步加强该融合张量对于信息融合的融合效果,使该文本融合向量更加适用于核心词识别。

为了进一步扩大该词权重模型的适用范围,提高核心词确定的灵活度和适用性,处理设备在获取目标文本时,可以从多种形式的内容中进行文本提取。例如,在一种可能的实现方式中,该目标文本可以为文本标题、文本正文、图像中识别得到的文本,或音频中识别得到的文本。例如,处理设备可以获取一张包含有文本内容的图像,然后通过图像识别等技术识别出其中的文本作为目标文本。

为了便于理解本申请提供的技术方案,接下来,将结合一种实际应用场景,对本申请实施例提供的一种核心词确定方法进行介绍。

在该实际应用场景中,处理设备可以为一种核心词确定服务器,该服务器首先可以获取用于训练初始词权重模型的训练样本,例如图3所示,该样本文本的文本内容可以为“教你游戏A上600分的攻略”,该样本文本所包括的各个样本分词和对应的词标签分别为(游戏A,1)、(攻略,1)、(教你,0)、(的,0),其中数值为1的词标签表示该样本分词为该样本文本的核心词,数值为0的词标签表示该样本分词不为该样本文本的核心词。从而,基于该样本文本,服务器可以生成四条训练用输入数据,分别为{“样本文本”:“教你游戏A上600分的攻略”,“样本分词”:“游戏A”,“词标签(label)”:1},{“样本文本”:“教你游戏A上600分的攻略”,“样本分词”:“教你”,“label”:0},{“样本文本”:“教你游戏A上600分的攻略”,“样本分词”:“攻略”,“词标签(label)”:1},{“样本文本”:“教你游戏A上600分的攻略”,“样本分词”:“的”,“label”:0}。

该初始词权重模型整体架构由两个编码器构成,其中一个编码器主要用于编码样本文本得到文本向量,另一个编码器用于编码样本分词得到对应的词向量。该模型可以通过融合张量,将该词向量和文本向量通过张量乘法的方式得到文本融合向量,然后通过sigmoid函数得到该样本分词对应的词权重参数。

其中,样本文本的编码可以采用卷积神经网络(Convolutional NeuralNetworks,CNN)、长短期记忆网络(Long Short-Term Memory,LSTM)、长短期记忆网络结合注意力机制(LSTM+Attention)等多种方式来完成,在本实际应用场景中,可以引入Transformer的双向编码器bert来对样本文本进行编码。对样本分词的编码可以采用深度神经网络模型(Deep Neural Networks,DNN)来进行。当然,其他多种编码方式也可以适用于提取文本向量和词向量,此处不做限制。

基于上述实施例提供的一种核心词确定方法,本申请实施例还提供了一种核心词确定装置,参见图6,图6为本申请实施例提供的一种核心词确定装置600的结构框图,该装置600包括第一获取单元601、训练单元602、第二获取单元603、调参单元604和识别单元605:

第一获取单元601,用于获取包括样本文本和样本分词的词标签的训练样本,所述样本分词为所述样本文本的多个分词中的一个,所述词标签用于标识所述样本分词是否为所述样本文本的核心词;

训练单元602,用于将所述训练样本作为初始词权重模型的输入数据进行模型训练,所述初始词权重模型包括文本模块、词模块和融合模块,所述文本模块用于提取所述样本文本的文本向量,所述词模块用于提取所述样本分词的词向量,所述融合模块用于通过融合张量,根据所述文本向量和所述词向量生成文本融合向量;

第二获取单元603,用于通过所述初始词权重模型获取根据所述文本融合向量确定的词权重参数,所述词权重参数用于标识所述样本分词属于所述样本文本的核心词的概率;

调参单元604,用于根据所述词权重参数与所述词标签的差别,对所述融合张量进行参数调整;

识别单元605,用于通过训练得到的词权重模型识别目标文本中的核心词。

在一种可能的实现方式中,第一获取单元601具体用于:

获取历史搜索行为数据,所述历史搜索行为数据用于标识搜索词以及通过所述搜索词所打开页面的页面文本;

根据所述页面文本确定所述样本文本,并将所述页面文本对应的搜索词确定为所述页面文本的核心词。

在一种可能的实现方式中,调参单元604具体用于:

根据所述词权重参数与所述词标签的差别,对所述文本模块、所述词模块和所述融合张量进行参数调整。

在一种可能的实现方式中,所述文本向量的维度为第一维数,所述词向量的维度为第二维数,所述文本融合向量的维数为第三维数,所述融合张量为三维张量,维度分别为第一维数、第三维数和第二维数;训练单元602具体用于:

根据所述文本向量和所述融合张量得到初级融合向量,所述初级融合向量的维度分别为第三维数和第二维数;

根据所述初级融合向量和所述词向量的转置向量得到所述文本融合向量。

此外,基于上述实施例提供的一种核心词确定方法,本申请实施例还提供了一种核心词确定装置,参见图7,图7为本申请实施例提供的一种核心词确定装置700的结构框图,该装置700包括第三获取单元701、第一确定单元702、第二确定单元703和第三确定单元704:

第三获取单元701,用于获取包括多个分词的目标文本;

第一确定单元702,用于通过词权重模型确定所述目标文本的文本向量,以及目标分词的词向量,其中,所述目标分词为所述多个分词中的一个分词,所述词权重模型包括文本模块、词模块和融合模块,所述文本模块用于提取所述目标文本的文本向量,所述词模块用于提取所述目标分词的词向量,所述融合模块用于通过融合张量,根据所述文本向量和所述词向量生成文本融合向量;

第二确定单元703,用于根据基于所述融合模块生成的所述文本融合向量,通过所述词权重模型确定所述目标分词的词权重参数,所述词权重参数用于标识所述目标分词属于所述目标文本的核心词的概率,所述融合张量用于在生成所述文本融合向量时,基于所述文本向量提升所述词向量中所述目标分词在所述目标文本中的上下文信息;

第三确定单元704,用于根据所述词权重参数确定所述目标分词是否为所述目标文本的核心词。

在一种可能的实现方式中,所述融合张量还用于在生成所述文本融合向量时,基于所述词向量提升所述文本向量中所述目标分词在所述目标文本中的上下文信息。

在一种可能的实现方式中,所述目标文本为文本标题、文本正文、图像中识别得到的文本,或音频中识别得到的文本。

本申请实施例还提供了一种计算机设备,下面结合附图对该设备进行介绍。请参见图8所示,本申请实施例提供了一种设备,该设备还可以是终端设备,该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,简称PDA)、销售终端(Point of Sales,简称POS)、车载电脑等任意智能终端,以终端设备为手机为例:

图8示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图8,手机包括:射频(Radio Frequency,简称RF)电路810、存储器820、输入单元830、显示单元840、传感器850、音频电路860、无线保真(wireless fidelity,简称WiFi)模块870、处理器880、以及电源890等部件。本领域技术人员可以理解,图8中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

下面结合图8对手机的各个构成部件进行具体的介绍:

RF电路810可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器880处理;另外,将设计上行的数据发送给基站。通常,RF电路810包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,简称LNA)、双工器等。此外,RF电路810还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,简称GSM)、通用分组无线服务(GeneralPacket Radio Service,简称GPRS)、码分多址(Code Division Multiple Access,简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、长期演进(Long Term Evolution,简称LTE)、电子邮件、短消息服务(Short Messaging Service,简称SMS)等。

存储器820可用于存储软件程序以及模块,处理器880通过运行存储在存储器820的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器820可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器820可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元830可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元830可包括触控面板831以及其他输入设备832。触控面板831,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板831上或在触控面板831附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板831可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器880,并能接收处理器880发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板831。除了触控面板831,输入单元830还可以包括其他输入设备832。具体地,其他输入设备832可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元840可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元840可包括显示面板841,可选的,可以采用液晶显示器(Liquid CrystalDisplay,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板841。进一步的,触控面板831可覆盖显示面板841,当触控面板831检测到在其上或附近的触摸操作后,传送给处理器880以确定触摸事件的类型,随后处理器880根据触摸事件的类型在显示面板841上提供相应的视觉输出。虽然在图8中,触控面板831与显示面板841是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板831与显示面板841集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器850,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板841的亮度,接近传感器可在手机移动到耳边时,关闭显示面板841和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。

音频电路860、扬声器861,传声器862可提供用户与手机之间的音频接口。音频电路860可将接收到的音频数据转换后的电信号,传输到扬声器861,由扬声器861转换为声音信号输出;另一方面,传声器862将收集的声音信号转换为电信号,由音频电路860接收后转换为音频数据,再将音频数据输出处理器880处理后,经RF电路810以发送给比如另一手机,或者将音频数据输出至存储器820以便进一步处理。

WiFi属于短距离无线传输技术,手机通过WiFi模块870可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块870,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。

处理器880是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器820内的软件程序和/或模块,以及调用存储在存储器820内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器880可包括一个或多个处理单元;优选的,处理器880可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器880中。

手机还包括给各个部件供电的电源890(比如电池),优选的,电源可以通过电源管理系统与处理器880逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。

在本实施例中,该终端设备所包括的处理器880还具有以下功能:

获取包括样本文本和样本分词的词标签的训练样本,所述样本分词为所述样本文本的多个分词中的一个,所述词标签用于标识所述样本分词是否为所述样本文本的核心词;

将所述训练样本作为初始词权重模型的输入数据进行模型训练,所述初始词权重模型包括文本模块、词模块和融合模块,所述文本模块用于提取所述样本文本的文本向量,所述词模块用于提取所述样本分词的词向量,所述融合模块用于通过融合张量,根据所述文本向量和所述词向量生成文本融合向量;

通过所述初始词权重模型获取根据所述文本融合向量确定的词权重参数,所述词权重参数用于标识所述样本分词属于所述样本文本的核心词的概率;

根据所述词权重参数与所述词标签的差别,对所述融合张量进行参数调整;

通过训练得到的词权重模型识别目标文本中的核心词。

或:

获取包括多个分词的目标文本;

通过词权重模型确定所述目标文本的文本向量,以及目标分词的词向量,其中,所述目标分词为所述多个分词中的一个分词,所述词权重模型包括文本模块、词模块和融合模块,所述文本模块用于提取所述目标文本的文本向量,所述词模块用于提取所述目标分词的词向量,所述融合模块用于通过融合张量,根据所述文本向量和所述词向量生成文本融合向量;

根据基于所述融合模块生成的所述文本融合向量,通过所述词权重模型确定所述目标分词的词权重参数,所述词权重参数用于标识所述目标分词属于所述目标文本的核心词的概率,所述融合张量用于在生成所述文本融合向量时,基于所述文本向量提升所述词向量中所述目标分词在所述目标文本中的上下文信息;

根据所述词权重参数确定所述目标分词是否为所述目标文本的核心词。

本申请实施例还提供一种服务器,请参见图9所示,图9为本申请实施例提供的服务器900的结构图,服务器900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,简称CPU)922(例如,一个或一个以上处理器)和存储器932,一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中,存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器922可以设置为与存储介质930通信,在服务器900上执行存储介质930中的一系列指令操作。

服务器900还可以包括一个或一个以上电源926,一个或一个以上有线或无线网络接口950,一个或一个以上输入输出接口958,和/或,一个或一个以上操作系统941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于图9所示的服务器结构。

本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行前述各个实施例所述的核心词确定方法中的任意一种实施方式。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

25页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于元学习的大规模多标签文本分类方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!