一种信息处理的方法以及装置

文档序号:1338296 发布日期:2020-07-17 浏览:26次 >En<

阅读说明:本技术 一种信息处理的方法以及装置 (Information processing method and device ) 是由 涂兆鹏 杨宝嵩 王星 于 2018-11-19 设计创作,主要内容包括:本发明实施例公开了一种信息处理的方法,包括:获取待处理文本信息所对应的目标文本序列,目标文本序列中包括多个元素;根据目标文本序列获取上下文向量,所述上下文向量用于体现所述元素间的依存关系;根据上下文向量对目标文本信息所对应的目标文本序列进行编码处理,得到文本编码结果。本发明实施例采用与离散序列相关的上下文向量对该离散序列进行编码,由此,强化离散序列中各个元素之间的依存关系,从而增强神经网络模型的性能,提升模型的学习能力。(The embodiment of the invention discloses an information processing method, which comprises the following steps: acquiring a target text sequence corresponding to text information to be processed, wherein the target text sequence comprises a plurality of elements; obtaining a context vector according to a target text sequence, wherein the context vector is used for reflecting the dependency relationship among the elements; and coding the target text sequence corresponding to the target text information according to the context vector to obtain a text coding result. The embodiment of the invention adopts the context vector related to the discrete sequence to encode the discrete sequence, thereby strengthening the dependency relationship among elements in the discrete sequence, enhancing the performance of the neural network model and improving the learning capability of the model.)

一种信息处理的方法以及装置

本申请对申请号为201811376563.5,申请日为2018年11月19日,发明名称为“一种文本翻译的方法、信息处理的方法以及装置”的中国专利申请提出分案申请。

技术领域

本发明涉及人工智能领域,尤其一种信息处理的方法以及装置。

背景技术

注意力机制已经成为大多数深度学习模型中的一个基本模块,它可以动态地按照需求选择网络中的相关表示。研究表明,在机器翻译以及图像注释等任务中,注意力机制作用显著。

目前,基于注意力机制现已提出一种自关注神经网络(self-attention network,SAN)模型,该SAN模型可以对离散序列中的每个元素计算一个注意力权重,为了便于理解,请参阅图1,图1为现有方案中SAN模型对离散序列建模的一个基本架构示意图,如图所示,SAN网络可以直接计算出神经网络中隐藏状态之间的依存关系,每个上层网络表示都会与下层网络表示建立直接连接。

请参阅图2,图2为现有方案中SAN模型表示两个词语之间关系的一个示意图,如图所示,使用注意力机制的SAN模型在计算两个词语(如图2中的“talk”与“Sharon”)之间的依存度时,仅考虑到两个词之间的关系,因此,对于离散序列而言,元素在整个离散序列中的网络表示较弱,从而降低了神经网络模型的性能。

发明内容

本发明实施例提供了一种文本翻译的方法、信息处理的方法以及装置,采用与离散序列相关的上下文向量对该离散序列进行编码,由此,强化离散序列中各个元素之间的依存关系,从而增强神经网络模型的性能,提升模型的学习能力。

有鉴于此,本发明的第一方面提供了一种文本翻译的方法,包括:

获取目标文本信息所对应的目标文本序列,其中,所述目标文本序列中包括多个元素;

根据所述目标文本序列获取上下文向量;

根据所述上下文向量以及所述目标文本序列确定目标请求向量以及目标键向量,其中,所述目标请求向量与所述目标文本序列中的元素具有对应关系,所述目标键向量与所述目标文本序列中的元素具有对应关系;

根据所述目标请求向量以及所述目标键向量确定所述目标文本序列所对应的逻辑相似度;

采用所述逻辑相似度对所述目标文本信息所对应的所述目标文本序列进行编码处理,得到文本编码结果;

对所述文本编码结果进行解码处理,以得到所述目标文本信息所对应的文本翻译结果。

本发明的第二方面提供了一种信息处理的方法,包括:

获取待处理文本信息所对应的目标文本序列,其中,所述目标文本序列中包括多个元素;

根据所述目标文本序列获取上下文向量;

根据所述上下文向量以及所述目标文本序列确定目标请求向量以及目标键向量,其中,所述目标请求向量与所述目标文本序列中的元素具有对应关系,所述目标键向量与所述目标文本序列中的元素具有对应关系;

根据所述目标请求向量以及所述目标键向量确定所述目标文本序列所对应的逻辑相似度;

采用所述逻辑相似度对所述目标文本信息所对应的所述目标文本序列进行编码处理,得到文本编码结果。

本发明的第三方面提供了一种文本翻译装置,包括:

获取模块,用于获取目标文本信息所对应的目标文本序列,其中,所述目标文本序列中包括多个元素;

所述获取模块,还用于根据所述目标文本序列获取上下文向量;

确定模块,用于根据所述获取模块获取的所述上下文向量以及所述目标文本序列确定目标请求向量以及目标键向量,其中,所述目标请求向量与所述目标文本序列中的元素具有对应关系,所述目标键向量与所述目标文本序列中的元素具有对应关系;

所述确定模块,还用于根据所述目标请求向量以及所述目标键向量确定所述目标文本序列所对应的逻辑相似度;

编码模块,用于采用所述确定模块确定的所述逻辑相似度对所述目标文本信息所对应的所述目标文本序列进行编码处理,得到文本编码结果;

解码模块,用于对所述编码模块编码的所述文本编码结果进行解码处理,以得到所述目标文本信息所对应的文本翻译结果。

本发明的第四方面提供了一种信息处理装置,包括:

获取模块,用于获取待处理文本信息所对应的目标文本序列,其中,所述目标文本序列中包括多个元素;

所述获取模块,用于根据所述目标文本序列获取上下文向量;

确定模块,用于根据所述获取模块获取的所述上下文向量以及所述目标文本序列确定目标请求向量以及目标键向量,其中,所述目标请求向量与所述目标文本序列中的元素具有对应关系,所述目标键向量与所述目标文本序列中的元素具有对应关系;

所述确定模块,还用于根据所述目标请求向量以及所述目标键向量确定所述目标文本序列所对应的逻辑相似度;

编码模块,用于采用所述确定模块确定的所述逻辑相似度对所述目标文本信息所对应的所述目标文本序列进行编码处理,得到文本编码结果。

本发明的第五方面提供了一种文本翻译装置,包括:存储器、收发器、处理器以及总线系统;

其中,所述存储器用于存储程序;

所述处理器用于执行所述存储器中的程序,包括如下步骤:

获取目标文本信息所对应的目标文本序列,其中,所述目标文本序列中包括多个元素;

根据所述目标文本序列获取上下文向量;

根据所述上下文向量以及所述目标文本序列确定目标请求向量以及目标键向量,其中,所述目标请求向量与所述目标文本序列中的元素具有对应关系,所述目标键向量与所述目标文本序列中的元素具有对应关系;

根据所述目标请求向量以及所述目标键向量确定所述目标文本序列所对应的逻辑相似度;

采用所述逻辑相似度对所述目标文本信息所对应的所述目标文本序列进行编码处理,得到文本编码结果;

对所述文本编码结果进行解码处理,以得到所述目标文本信息所对应的文本翻译结果;

所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。

本发明的第六方面提供了一种信息处理装置,其特征在于,包括:存储器、收发器、处理器以及总线系统;

其中,所述存储器用于存储程序;

所述处理器用于执行所述存储器中的程序,包括如下步骤:

获取待处理文本信息所对应的目标文本序列,其中,所述目标文本序列中包括多个元素;

根据所述目标文本序列获取上下文向量;

根据所述上下文向量以及所述目标文本序列确定目标请求向量以及目标键向量,其中,所述目标请求向量与所述目标文本序列中的元素具有对应关系,所述目标键向量与所述目标文本序列中的元素具有对应关系;

根据所述目标请求向量以及所述目标键向量确定所述目标文本序列所对应的逻辑相似度;

采用所述逻辑相似度对所述目标文本信息所对应的所述目标文本序列进行编码处理,得到文本编码结果;

所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。

本发明的第七方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出,本发明实施例具有以下优点:

本发明实施例中,提供了一种信息处理的方法,首先,获取待处理文本信息所对应的目标文本序列,其中,目标文本序列中包括多个元素,然后根据目标文本序列获取上下文向量,再利用上下文向量以及目标文本序列确定目标请求向量以及目标键向量,其中,目标请求向量与目标文本序列中的元素具有对应关系,键向量与目标文本序列中的元素具有对应关系,最后,根据目标请求向量以及目标键向量确定目标文本序列所对应的逻辑相似度,并采用该逻辑相似度对目标文本信息所对应的目标文本序列进行编码处理,得到文本编码结果。通过上述方式,采用与离散序列相关的上下文向量对该离散序列进行编码,由此,强化离散序列中各个元素之间的依存关系,从而增强神经网络模型的性能,提升模型的学习能力。

附图说明

图1为现有方案中SAN模型对离散序列建模的一个基本架构示意图;

图2为现有方案中SAN模型表示两个词语之间关系的一个示意图;

图3为本发明实施例中文本翻译系统的一个架构示意图;

图4为本发明实施例中SAN模型的计算流程示意图;

图5为本发明实施例中文本翻译的方法一个实施例示意图;

图6为本发明实施例中信息处理的方法一个实施例示意图;

图7为本发明实施例中全局上下文向量的一个实施例示意图;

图8为本发明实施例中深度上下文向量的一个实施例示意图;

图9为本发明实施例中深度全局上下文向量的一个实施例示意图;

图10为本发明实施例中堆式多头自关注网络的一个结构示意图;

图11为本发明应用场景中采用SAN模型进行翻译的一个对比示意图;

图12为本发明实施例中文本翻译装置一个实施例示意图;

图13为本发明实施例中信息处理装置一个实施例示意图;

图14为本发明实施例中信息处理装置另一个实施例示意图;

图15为本发明实施例中终端设备一个结构示意图;

图16为本发明实施例中服务器一个结构示意图。

具体实施方式

本发明实施例提供了一种文本翻译的方法、信息处理的方法以及装置,采用与离散序列相关的上下文向量对该离散序列进行编码,由此,强化离散序列中各个元素之间的依存关系,从而增强神经网络模型的性能,提升模型的学习能力。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解,本发明所提供的自关注神经网络(self-attention network,SAN)模型是一种基于自关注机制(self-attention mechanism)的神经网络结构模型。基于SAN模型的应用也非常广泛,利用问答系统、声学建模、自然语言推理、句子分类以及文本翻译等,SAN模型会为离散序列中的每个元素对计算一个注意力权重,因此,相比于传统的序列建模方法循环神经网络(recurrent neural network,RNN),SAN模型可以更直接地捕获长距离依赖关系。例如:在新一代的神经网络机器翻译(neural machine translation,NMT)架构中,翻译能够完全使用注意力机制,并在多个语言对的翻译任务中取得了优于使用RNN进行建模的NMT系统的翻译质量。

SAN模型的强项是捕获元素之间的依赖关系,经研究发现,上下文信息具有增强网络表达依赖关系的能力,尤其对于注意力模型而言,利用上下文信息可以加强SAN模型,此外,本发明采用离散序列的内部元素来表示上下文信息,避免依赖外部资源,从而大幅提升了SAN模型的简易性与灵活性,容易部署与实现。

下面将以SAN模型应用于文本翻译场景为例进行介绍,请参阅图3,图3为本发明实施例中文本翻译系统的一个架构示意图,如图所示,将本发明提供的SAN模型部署于服务器上,在终端设备向服务器发送文本信息之后,由服务器对这些文本信息进行编码处理和解码处理,从而生成翻译结果,服务器再将翻译结果发送至终端设备,由终端设备展示翻译结果。可选地,在实际应用中,SAN模型也可以部署在终端设备上,即由终端设备在离线的状态下也可以采用该SAN模型对文本信息进行翻译,并生成翻译结果,由终端设备展示翻译结果。可以理解的是,终端设备包含但不仅限于平板电脑、手机、笔记本电脑、个人电脑(personal computer,PC)以及掌上电脑。

在本发明所提供的SAN模型中大致分为四个文本处理步骤,分别为生成词向量,编码,采用注意力机制以及预测。首先,在第一步中,词向量表将高维的稀疏二值向量映射成低维的稠密向量。举个例子,假设我们收到的文本是一串美国信息交换标准代码(AmericanStandard Code for Information Interchange,ASCII)字符,共有256种可能值,于是我们把每一种可能值表示为一个256维的二值向量。字符“a”的向量只有在第97维的值等于1,其它维度的值都等于0。字符“b”的向量只有在第98维的值等于1,其它维度的值都等于0。这种表示方法称为“one hot”形式。不同字符的向量表示完全不一样。大部分神经网络模型首先都会把输入文本切分成若干个词语,然后将词语都用词向量表示。另一些模型用其它信息扩展了词向量表示。比如,除了词语的标识之外,还会输入一串标签。然后可以学习得到标签向量,将标签向量拼接为词向量。这可以让你将一些位置敏感的信息加入到词向量表示中。然而,有一个更强大的方式来使词语表示呈现出语境相关。

在第二步中,假设得到了词向量的序列,编码这一步是将其转化为句子矩阵,矩阵的每一行表示每个词在上下文中所表达的意思。这一步可以采用双向RNN模型,当然,长短期记忆网络(Long Short-Term Memory,LSTM)和门控循环单元(Gated Recurrent Unit,GRU)结构的模型效果都不错。每一行向量通过两部分计算得到:第一部分是正向计算,第二部分是逆向计算,然后拼接两部分得到完整的向量。

在第三步中,将第二步得到的矩阵压缩为一个向量表示,因此可以被送入标准的前馈神经网络进行预测。注意力机制对于其它压缩方法的优势在于它输入一个辅助的上下文向量。最后,在预测的步骤中,可以在文本内容被压缩成一个向量之后,学习最终的目标表达,即一种类别标签、一个实数值或者一个向量等。也可以将网络模型看做是状态机的控制器,如一个基于转移的解析器,由此来做结构化预测。

为了便于理解,请参阅图4,图4为本发明实施例中SAN模型的计算流程示意图,如图所示,基于SAN模型的计算方法,每个元素的网络表示生成过程如下:

步骤S1中,给定一个输入序列,SAN模型的第一层网络将输入序列中离散的元素转换为连续的空间表示;

步骤S2中,根据输入序列的空间表示生成上下文向量;

步骤S3中,采用三个不同的可学习参数矩阵,对输入序列的空间表示进行线性变化,从而得到请求向量序列、键向量序列和值向量序列,然后结合上下文向量,使用点积建模请求与每个键值对之间的逻辑相似度;

步骤S4中,掩盖层属于可选层,由于在实际操作中每个输入序列的长度有可能不一致,通过掩盖层可以将所有输入序列设置为同样长度的序列,即将最长的序列作为标准,较短的序列通过补零的方式将其设置为与最长序列相等的长度;

步骤S5中,对一个输入序列中各个元素进行归一化处理,假设有五个元素,那么这五个元素归一化之后的权重之和为1;

步骤S6中,根据步骤S5计算得到的权重,当前元素的输出向量由每个值的加权求和获得,实际计算中对权重与值进行点积计算。

本发明提供了一种不需要引入额外信息的上下文增强模型,由此提升自关注网络的性能。下面将对本发明中文本翻译的方法进行介绍,请参阅图5,本发明实施例中文本翻译的方法一个实施例包括:

101、获取目标文本信息所对应的目标文本序列,其中,目标文本序列中包括多个元素;

本实施例中,首先获取待处理文本信息,该待处理文本信息可以为一个离散的输入序列,如H={h1,...,hI},然后采用神经网络的嵌入(embedding)层将离散的元素转换成连续的空间表示,即得到目标文本序列。

其中,embedding层用于在神经网络的开始层将输入信息转换成向量,使用embedding层的第一步是通过索引对待处理文本信息进行编码,给每一个不同的待处理文本信息分配一个索引,接下来会创建嵌入矩阵,决定每一个索引需要分配多少个“潜在因子”,这意味着想要多长的向量,这样,就可以使用嵌入矩阵来表示待处理文本信息,而不是庞大的编码向量。

102、根据目标文本序列获取上下文向量;

本实施例中,根据目标文本序列生成相应的上下文向量。其中,该上下文向量由网络中内部表示学习而来,保证了SAN模型的简单性与易用性。在实际应用中,可以利用三种方式来表示上下文向量。分别为,利用当前层表示计算全局上下文向量,利用历史层表示计算语法语义上下文向量,以及利用历史层全局上下文向量同时获取全局信息与句法语义上下文表示。

103、根据上下文向量以及目标文本序列确定目标请求向量以及目标键向量,其中,目标请求向量与目标文本序列中的元素具有对应关系,目标键向量与目标文本序列中的元素具有对应关系;

本实施例中,利用上下文向量以及目标文本序列确定目标请求向量以及目标键向量,其中,目标请求向量与目标文本序列中的元素具有对应关系,键向量与目标文本序列中的元素具有对应关系。比如,目标请求向量中的Q1与目标文本序列h1对应,目标键向量中的K1与目标文本序列h1对应。

104、根据目标请求向量以及目标键向量确定目标文本序列所对应的逻辑相似度;

本实施例中,根据目标请求向量以及目标键向量生成目标文本序列所对应的逻辑相似度。由上述步骤可知,目标请求向量包含多个元素,且目标键向量也包括多个元素,每个元素与目标文本序列中的元素具有对应关系。因此,在确定目标文本序列所对应的逻辑相似度时,即对目标请求向量中每个元素与目标键向量中每个元素进行关联,比如,逻辑相似度表示为e,那么eij表示目标请求向量中第i个元素与目标键向量中的第j个元素的相似度。

105、采用逻辑相似度对目标文本信息所对应的目标文本序列进行编码处理,得到文本编码结果;

本实施例中,采用逻辑相似度对目标文本信息所对应的目标文本序列进行编码处理。假设目标文本信息为“today is a nice day”,那么需要对这句话中的五个元素(词语)进行转换,得到目标文本序列,然后采用逻辑相似度对对该目标文本序列进行第一次编码。在第一次编码的基础上还可以进行第二次编码,以此类推,假设有五层网络,则需要对目标文本序列进行五次编码,直到最后输出一个文本编码结果。

106、对文本编码结果进行解码处理,以得到目标文本信息所对应的文本翻译结果。

本实施例中,在翻译的场景中,源端完成目标文本序列的编码后,将文本编码结果传输给目的端,由目标端对文本编码结果进行解码,解码往往是一个元素(词语)一个元素(词语)的生成,也就是每次解码后生成一个词语。文本编码结果是一个词语的词向量和上下文向量表示,采用词向量和上下文向量计算得到新的网络向量表示,然后经过softmax层后得到一个词语,再用这个词语做下一个词语的计算,直到输出该目标文本信息的翻译结果,如“today is a nice day”的结果是“今天是个好日子”。

本发明实施例中,提供了一种文本翻译的方法,首先获取目标文本信息所对应的目标文本序列,其中,目标文本序列中包括多个元素;根据目标文本序列获取上下文向量,根据上下文向量以及目标文本序列确定目标请求向量以及目标键向量,其中,目标请求向量与目标文本序列中的元素具有对应关系,键向量与目标文本序列中的元素具有对应关系,根据目标请求向量以及目标键向量确定目标文本序列所对应的逻辑相似度,采用逻辑相似度对目标文本信息所对应的目标文本序列进行编码处理,得到文本编码结果,对文本编码结果进行解码处理,以得到目标文本信息所对应的文本翻译结果。通过上述方式,采用与离散序列相关的上下文向量对该离散序列进行编码,由此,强化离散序列中各个元素之间的依存关系,能够利用上下文信息灵活地学习不同词语之间的网络表示,从而提升机器翻译的质量。

下面将对本发明中信息处理的方法进行介绍,请参阅图6,本发明实施例中信息处理的方法一个实施例包括:

201、获取待处理文本信息所对应的目标文本序列,其中,目标文本序列中包括多个元素;

本实施例中,首先获取待处理文本信息,该待处理文本信息可以为一个离散的输入序列,如H={h1,...,hI},然后采用神经网络的嵌入(embedding)层将离散的元素转换成连续的空间表示,即得到目标文本序列。

embedding层用于在神经网络的开始层将输入信息转换成向量,使用embedding层的第一步是通过索引对待处理文本信息进行编码,给每一个不同的待处理文本信息分配一个索引,接下来会创建嵌入矩阵,决定每一个索引需要分配多少个“潜在因子”,这意味着想要多长的向量,这样,就可以使用嵌入矩阵来表示待处理文本信息,而不是庞大的编码向量。

202、根据目标文本序列获取上下文向量;

本实施例中,根据目标文本序列生成相应的上下文向量。其中,该上下文向量由网络中内部表示学习而来,保证了SAN模型的简单性与易用性。在实际应用中,可以利用三种方式来表示上下文向量。分别为,利用当前层表示计算全局上下文向量,利用历史层表示计算语法语义上下文向量,以及利用历史层全局上下文向量同时获取全局信息与句法语义上下文表示。

203、根据上下文向量以及目标文本序列确定目标请求向量以及目标键向量,其中,目标请求向量与目标文本序列中的元素具有对应关系,键向量与目标文本序列中的元素具有对应关系;

本实施例中,利用上下文向量以及目标文本序列确定目标请求向量以及目标键向量,其中,目标请求向量与目标文本序列中的元素具有对应关系,键向量与目标文本序列中的元素具有对应关系。比如,目标请求向量中的Q1与目标文本序列h1对应,目标键向量中的K1与目标文本序列h1对应。

204、根据目标请求向量以及目标键向量确定目标文本序列所对应的逻辑相似度;

本实施例中,根据目标请求向量以及目标键向量生成目标文本序列所对应的逻辑相似度。由上述步骤可知,目标请求向量包含多个元素,且目标键向量也包括多个元素,每个元素与目标文本序列中的元素具有对应关系。因此,在确定目标文本序列所对应的逻辑相似度时,即对目标请求向量中每个元素与目标键向量中每个元素进行关联,比如,逻辑相似度表示为e,那么eij表示目标请求向量中第i个元素与目标键向量中的第j个元素的相似度。

205、采用逻辑相似度对目标文本信息所对应的目标文本序列进行编码处理,得到文本编码结果。

本实施例中,采用逻辑相似度对目标文本信息所对应的目标文本序列进行编码处理。假设目标文本信息为“today is a nice day”,那么需要对这句话中的五个元素(词语)进行转换,得到目标文本序列,然后采用逻辑相似度对对该目标文本序列进行第一次编码。再第一次编码的基础上还可以进行第二次编码,以此类推,假设有五层网络,则需要对目标文本序列进行五次编码,直到最后输出一个文本编码结果。

本发明实施例中,提供了一种信息处理的方法,首先,获取待处理文本信息所对应的目标文本序列,其中,目标文本序列中包括多个元素,然后根据目标文本序列获取上下文向量,再利用上下文向量以及目标文本序列确定目标请求向量以及目标键向量,其中,目标请求向量与目标文本序列中的元素具有对应关系,键向量与目标文本序列中的元素具有对应关系,最后,根据目标请求向量以及目标键向量确定目标文本序列所对应的逻辑相似度,并采用该逻辑相似度对目标文本信息所对应的目标文本序列进行编码处理,得到文本编码结果。通过上述方式,采用与离散序列相关的上下文向量对该离散序列进行编码,由此,强化离散序列中各个元素之间的依存关系,从而增强神经网络模型的性能,提升模型的学习能力。

可选地,在上述图6对应的实施例的基础上,本发明实施例提供的信息处理的方法第一个可选实施例中,根据目标文本序列获取上下文向量,可以包括:

获取目标文本序列中每个元素的向量;

根据目标文本序列中每个元素的向量计算目标文本序列的平均值,其中,平均值用于表示上下文向量。

本实施例中,介绍了一种利用目标文本序列全局生成上下文向量的方法。具体地,一个目标文本序列中所有元素所对应的上下文向量由一个统一的上下文向量决定,这就需要总结一层中的所有元素表示的信息。

传统的自我关注网络单独计算两个元素(如“talk”和“Sharon”)之间的关注权重,而不考虑目标文本序列的整体信息。本发明实施例则考虑整个目标文本序列对每个元素的影响,请参阅图7,图7为本发明实施例中全局上下文向量的一个实施例示意图,如图所示,采用目标文本序列中的均值作为输入层的表示。需要注意的是,这里的上下文向量并不是矩阵,因为这是针对一层目标文本序列进行均值化计算后得到的。具体地,首先获取目标文本序列H,其中,该H包括了多个元素,即H={h1,...,hI},即1至I个元素。然后根据目标文本序列中每个元素的向量计算目标文本序列的平均值,即采用如下公式计算得到平均值:

其中,c表示目标文本序列的平均值,该平均值即为上下文向量。

假设目标文本序列包括ABC三个元素,A、B和C均为一个向量,这时需要获取如下元素之间的关系:A和A、A和B、A和C、B和A、B和B、B和C、C和A、C和B以及C和C,根据这些元素之间的向量关系求平均值。

其次,本发明实施例中,提供了一种基于全局文本序列获取上下文向量的方法,即获取目标文本序列中每个元素的向量,根据目标文本序列中每个元素的向量计算目标文本序列的平均值,该平均值表示为上下文向量。通过上述方式,可以通过整个文本序列得到上下文向量,为方案的实现提供了可行的方式,从而提升方案的可操作性。

可选地,在上述图6对应的实施例的基础上,本发明实施例提供的信息处理的方法第二个可选实施例中,根据目标文本序列获取上下文向量,可以包括:

获取目标文本序列所对应的L层文本序列,其中,L层文本序列为在目标文本序列之前生成的网络层,L为大于或等于1的整数;

根据L层文本序列生成上下文向量。

本实施例中,介绍了一种利用目标文本序列深度生成上下文向量的方法。具体地,神经网络模型往往具有多层网络,深度上下文向量表示相互作用的多层网络。为了便于介绍,请参阅图8,图8为本发明实施例中深度上下文向量的一个实施例示意图,如图所示,假设目标文本序列为第(L+1)层,那这个时候需要获取之前所有层的输入,即第一层至第L层的文本序列,将多层文本序列进行拼接,得到深度上下文向量C:

C=[H1,...,HL];

需要说明的是,这里的上下文向量C为一个矩阵,图8中的H1表示第一层网络的文本序列,H2表示第二层网络的文本序列,H3表示当前层的目标文本序列,对于“talk”和“Sharon”而言,相当于将底下两层的网络拼接在一起,如果一层网络的维度为512,则拼接后得到的维度为1024,即深度dc=n×Ld。

其次,本发明实施例中,提供了一种基于深度文本序列获取上下文向量的方法,即先获取目标文本序列所对应的L层文本序列,其中,L层文本序列为在目标文本序列之前生成的网络层,L为大于或等于1的整数,然后根据L层文本序列生成上下文向量。通过上述方式,可以通过多个深度的文本序列得到上下文向量,为方案的实现提供了可行的方式,从而提升方案的可操作性。

可选地,在上述图6对应的实施例的基础上,本发明实施例提供的信息处理的方法第三个可选实施例中,根据目标文本序列获取上下文向量,可以包括:

获取目标文本序列所对应的L层文本序列,其中,L层文本序列为在目标文本序列之前生成的网络层,L为大于或等于1的整数;

根据L层文本序列获取L层第一上下文向量,其中,每层第一上下文向量为每层文本序列中元素的平均值;

根据目标文本序列获取第二上下文向量,其中,第二上下文向量为目标文本序列中元素的平均值;

根据L层第一上下文向量以及第二上下文向量,计算得到上下文向量。

本实施例中,介绍了一种利用目标文本序列深度以及目标文本序列全局生成上下文向量的方法。具体地,神经网络模型往往具有多层网络,深度上下文向量表示相互作用的多层网络,全局上下文向量表示一个目标文本序列中所有元素表示的信息。为了便于介绍,请参阅图9,图9为本发明实施例中深度全局上下文向量的一个实施例示意图,如图所示,假设目标文本序列为第(L+1)层,那这个时候需要获取之前所有层的输入,即第一层至第L层的文本序列,这里需要采用如图6对应的第一个可选实施例提供的方式,计算每层文本序列的全局上下文向量,得到{c1,...,cL},其中,c1表示第一层文本序列中元素的平均值,称为第一上下文向量,c2表示第二层文本序列中元素的平均值,也称为第一上下文向量。最后,需要得到当前层所对应的目标文本序列中个元素的平均值,即cL+1,其中,cL+1称为第二上下文向量。

将多层上下文向量表示进行拼接,得到维度为(L+1)d的深度全局上下文向量c,即:

c=[c1,...,cL+1];

需要说明的是,这里的c为向量,而非矩阵。

其次,本发明实施例中,提供了一种基于深度和全局文本序列获取上下文向量的方法,即先根据L层文本序列获取L层第一上下文向量,其中,每层第一上下文向量为每层文本序列中元素的平均值,然后根据目标文本序列获取第二上下文向量,其中,第二上下文向量为目标文本序列中元素的平均值,最后根据L层第一上下文向量以及第二上下文向量,计算得到上下文向量。通过上述方式,可以通过多个深度的全局文本序列得到上下文向量,为方案的实现提供了可行的方式,从而提升方案的可操作性。

可选地,在上述图6以及图6对应的第一至第三个实施例中任一项的基础上,本发明实施例提供的信息处理的方法第四个可选实施例中,根据上下文向量以及目标文本序列确定目标请求向量以及目标键向量,可以包括:

根据目标文本序列计算原始请求向量、原始键向量以及原始值向量,其中,原始值向量用于确定目标文本序列所对应的目标输出向量;

根据上下文向量、原始请求向量以及原始键向量,计算请求向量标量以及键向量标量;

根据上下文向量、请求向量标量以及键向量标量,计算目标请求向量以及目标键向量。

本实施例中,将介绍如何结合上下文向量生成目标请求向量以及目标键向量。在本发明中,提出了一种自我关注的模型,且该模型可以基于文本序列合并上下文向量。首先,根据目标文本序列计算原始请求向量、原始键向量以及原始值向量,其中,原始值向量用于确定目标文本序列所对应的目标输出向量。然后可以根据上下文向量、原始请求向量以及原始键向量,计算请求向量标量以及键向量标量,其中,该标量表示为0至1之间,用于控制上下文向量与原始请求向量的强弱关系,以及上下文向量与原始值向量的强弱关系,在0至1的范围内,标量越大表示关联性越强。

最后,根据上下文向量、请求向量标量以及键向量标量,计算目标请求向量以及目标键向量。

再次,本发明实施例中,介绍了一种如何根据上下文向量以及目标文本序列确定目标请求向量以及目标键向量的方式,即首先根据目标文本序列计算原始请求向量、原始键向量以及原始值向量,然后根据上下文向量、原始请求向量以及原始键向量,计算请求向量标量以及键向量标量,最后根据上下文向量、请求向量标量以及键向量标量,计算目标请求向量以及目标键向量。通过上述方式,将上下文向量融合到目标请求向量以及目标键向量中,从而增强原请求向量和原键向量的特征表达,进而强化了整个文本序列的网络表达,由此提升模型学习性能。

可选地,在上述图6对应的第四个实施例的基础上,本发明实施例提供的信息处理的方法第五个可选实施例中,根据目标文本序列计算原始请求向量、原始键向量以及原始值向量,可以包括:

采用如下方式计算原始请求向量、原始键向量以及原始值向量:

其中,Q表示原始请求向量,K表示原始键向量,V表示原始值向量,H表示目标文本序列,WQ表示第一参数矩阵,WK表示第二参数矩阵,WV表示第三参数矩阵,第一参数矩阵、第二参数矩阵以及第三参数矩阵为预先训练得到的参数矩阵;

根据上下文向量、原始请求向量以及原始键向量,计算请求向量标量以及键向量标量,可以包括:

采用如下方式计算请求向量标量以及键向量标量:

其中,λQ表示请求向量标量,λK表示键向量标量,σ(·)表示sigmoid非线性变化,C表示上下文向量,UQ表示第四参数矩阵,UK表示第五参数矩阵,第四参数矩阵以及第五参数矩阵为预先训练得到的参数矩阵,表示第一线性变换因子,表示第二线性变换因子,表示第三线性变换因子,表示第四线性变换因子;

根据上下文向量、请求向量标量以及键向量标量,计算目标请求向量以及目标键向量,可以包括:

采用如下方式计算目标请求向量以及目标键向量:

其中,表示目标请求向量,表示目标键向量。

本实施例中,将根据具体的公式计算原始请求向量、原始键向量以及原始值向量,计算请求向量标量以及键向量标量,以及计算目标请求向量以及目标键向量。

具体地,首先需要生成源端向量表示的序列,即得到待处理文本信息所对应的目标文本序列H={h1,...,hI},然后将下层的输出作为当前层的输入。采用如下方式计算原始请求向量、原始键向量以及原始值向量:

其中,Q表示原始请求向量,K表示原始键向量,V表示原始值向量,H表示目标文本序列,WQ表示第一参数矩阵,WK表示第二参数矩阵,WV表示第三参数矩阵,第一参数矩阵、第二参数矩阵以及第三参数矩阵为预先训练得到的参数矩阵,也就是{WQ,WK,WV}都是可训练的参数矩阵,参数矩阵可表示为d×d,d表示输入隐藏状态的维度(可以取值512或者1024等,此处不做限定)。当然,在实际应用中,参数矩阵也可以表示为d1×d2

基于上述求得的原始请求向量Q以及原始键向量K,结合上下文向量可以计算请求向量标量以及键向量标量,即:

其中,λQ表示请求向量标量,λK表示键向量标量,σ(·)表示逻辑sigmoid非线性变化,用于将标量映射到0~1之间的值。C表示上下文向量,UQ表示第四参数矩阵,UK表示第五参数矩阵,第四参数矩阵以及第五参数矩阵为预先训练得到的参数矩阵,表示第一线性变换因子,表示第二线性变换因子,表示第三线性变换因子,表示第四线性变换因子。

这里的第四参数矩阵UQ以及第五参数矩阵UK为dc×d的可训练参数矩阵。第一线性变换因子以及第二线性变换因子为d×1的线性变换因子,用于将d维向量线性映射为标量。第三线性变换因子以及第四线性变换因子为d×1的线性变换因子,用于将Q中的每个向量(d维)线性映射为一个标量(1维)。

最后,采用如下方式计算目标请求向量以及目标键向量:

其中,表示目标请求向量,表示目标键向量。由此,获取带有上下文向量的目标请求向量与目标键向量。将原始请求向量与上下文向量加权求和,权重为标量λQ,将原始键向量与上下文向量加权求和,权重为标量λK,同时用于动态调整上下文表示参与到最终目标请求向量与目标键向量之中的比例,

进一步地,本发明实施例中,提供了具体的计算方式,可以根据目标文本序列计算原始请求向量、原始键向量以及原始值向量,根据上下文向量、原始请求向量以及原始键向量,计算请求向量标量以及键向量标量,以及根据上下文向量、请求向量标量以及键向量标量,计算目标请求向量以及目标键向量。通过上述方式,为方案的实现提供了具体的操作方式,采用公式的计算明确了如何得到参数,从而保证了方案的可行性和可操作性。

可选地,在上述图6对应的实施例的基础上,本发明实施例提供的信息处理的方法第六个可选实施例中,根据目标请求向量以及目标键向量确定目标文本序列所对应的逻辑相似度,可以包括:

采用如下方式计算逻辑相似度:

其中,e表示逻辑相似度,表示目标请求向量,表示目标键向量,表示目标键向量的转置,d表示模型隐藏状态向量的维度。

本实施例中,在获取到带有上下文向量的目标请求向量与目标键向量。之后,利用如下公式可以计算得到逻辑相似度的矩阵,即:

其中,e表示逻辑相似度,表示目标请求向量,表示目标键向量,表示目标键向量的转置,d表示模型隐藏状态向量的维度。这里的e表示一个矩阵,其中,eij表示目标请求向量的第i个元素与目标键向量的第j个元素的逻辑相似度。

其次,本发明实施例中,提供了一种根据目标请求向量以及目标键向量计算目标文本序列所对应的逻辑相似度的方式。通过上述方式,为方案的实现提供了具体的操作方式,采用公式的计算明确了如何得到参数,从而保证了方案的可行性和可操作性。

可选地,在上述图6对应的实施例的基础上,本发明实施例提供的信息处理的方法第七个可选实施例中,采用逻辑相似度对目标文本信息所对应的目标文本序列进行编码处理,得到文本编码结果,可以包括:

根据逻辑相似度确定目标文本序列所对应的权重值,其中,权重值用于表示目标文本序列中各个元素之间的关系;

根据目标文本序列所对应的权重值确定目标输出向量;

采用目标输出向量对目标文本信息所对应的目标文本序列进行编码处理,得到文本编码结果。

本实施例中,在得到逻辑相似度之后,可以根据逻辑相似度对目标文本信息所对应的目标文本序列进行编码处理,得到文本编码结果。具体为,首先根据逻辑相似度确定目标文本序列所对应的权重值,其中,权重值用于表示目标文本序列中各个元素之间的关系,即可以采用如下公式计算每个键值对的权重值α:

α=softmax(e);

根据得到的权重值α,由于当前元素的输出向量是由每个值加权求和所获得的,因此,在实际计算中,需要对权重与值进行点积计算,即:

O=α·V;

其中,O表示目标输出向量,V表示原始值向量。每层网络都需要计算输出向量,直至编码完每个元素的网络表示。

其次,本发明实施例中,介绍了如何采用逻辑相似度对目标文本信息所对应的目标文本序列进行编码处理,以得到文本编码结果。首先,根据逻辑相似度确定目标文本序列所对应的权重值,然后根据目标文本序列所对应的权重值确定目标输出向量,最后采用目标输出向量对目标文本信息所对应的目标文本序列进行编码处理,得到文本编码结果。通过上述方式,在对文本信息进行编码的过程中,采用了包含上下文向量的输出向量,从而强化离散序列的局部信息,改善模型学习的质量,更好地应用于不同的产品。

可选地,在上述图6对应的实施例的基础上,本发明实施例提供的信息处理的方法第八个可选实施例中,获取待处理文本信息所对应的目标文本序列之后,还可以包括;

将目标文本序列拆分为X个文本子序列,其中,X为大于1的整数;

根据上下文向量以及目标文本序列确定目标请求向量以及目标键向量,可以包括:

根据上下文向量以及X个文本子序列,生成X个请求向量以及X个键向量,其中,每个文本子序列对应一个请求向量以及一个键向量;

根据目标请求向量以及目标键向量确定目标文本序列所对应的逻辑相似度,可以包括:

分别对每个文本子序列以及每个文本子序列所对应的请求向量以及键向量进行计算,得到X个子逻辑相似度;

采用逻辑相似度对目标文本信息所对应的目标文本序列进行编码处理,得到文本编码结果,可以包括:

根据每个子逻辑相似度确定每个文本子序列所对应的子权重值,其中,子权重值用于表示文本子序列中各个元素之间的关系;

根据每个文本子序列所对应的子权重值确定子输出向量;

根据每个文本子序列所对应的子输出向量生成目标输出向量;

采用目标输出向量对目标文本信息所对应的目标文本序列进行编码处理,得到文本编码结果。

本实施例中,介绍了一种利用堆式多头自关注(Stacked Multi-Head Self-Attention)网络对目标文本序列进行编码的方法。为了便于理解,请参阅图10,图10为本发明实施例中堆式多头自关注网络的一个结构示意图,首先将目标文本序列拆分为X个文本子序列(即得到X个头部),假设X为4,即将整个目标文本序列拆分成4个文本子序列。然后对每个文本子序列生成相应的请求向量以及键向量,其中,每个头部所对应的文本子序列在计算请求向量以及键向量时采用的参数矩阵均不同,以使其获得不同的特征向量,进而令不同的头部可以关注于不同的局部信息,最后通过线性变换将每个头部得到的输出的向量特征整合传递到下一层。

接下来,依次对每个文本子序列以及每个文本子序列所对应的请求向量以及键向量进行计算,得到X个子逻辑相似度。再根据每个子逻辑相似度确定每个文本子序列所对应的子权重值,根据每个文本子序列所对应的子权重值确定子输出向量,根据每个文本子序列所对应的子输出向量生成目标输出向量,采用目标输出向量对目标文本信息所对应的目标文本序列进行编码处理,多次重复,直至编码完成网络表示。得到文本编码结果。

其中,在Stacked Multi-Head Self-Attention网络中,请求(Query,Q)、键(Key,K)和值(Value,V)首先进过一个线性变换,然后输入到放缩点积,注意这里要做β次,也就是所谓的多头,每一次算一个头部。而且每次Q、K以及V进行线性变换的参数矩阵是不一样的。将β次的放缩点积结果进行拼接,再进行一次线性变换得到的值作为多头关注的结果。这样的好处是可以允许模型在不同的表示子空间里学习到相关的信息,后面还会根据关注可视化来验证。

在编码器到解码器的地方使用了多头关注进行连接,K、V和Q分别是编码器的层输出(这里K=V)和解码器中都头关注的输入。利用解码器和编码器关注来进行翻译对齐。然后在编码器和解码器中都使用了多头自注意力自关注来学习文本的表示。自关注即K=V=Q,例如输入一个句子,那么里面的每个词都要和该句子中的所有词进行关注计算。目的是学习句子内部的词依赖关系,捕获句子的内部结构。

其次,本发明实施例中,提出了一种利用多头注意力机制的方法来实现编码,即先将目标文本序列拆分为X个文本子序列,其中,X为大于1的整数,然后根据上下文向量以及X个文本子序列,生成X个请求向量以及X个键向量,分别对每个文本子序列以及每个文本子序列所对应的请求向量以及键向量进行计算,得到X个子逻辑相似度,最后根据每个子逻辑相似度确定每个文本子序列所对应的子权重值,根据每个文本子序列所对应的子权重值确定子输出向量,根据每个文本子序列所对应的子输出向量生成目标输出向量,并采用目标输出向量对目标文本信息所对应的目标文本序列进行编码处理,得到文本编码结果。通过上述方式,整个网络使用了残差连接和对层进行了规范化,从而可以更好的优化深度网络,并且训练速度比主流模型更快。

为了便于介绍,以机器翻译为例,将用于测试的长句分为10个小组,对句子的长度和长句的双语评估研究(bilingual evaluation understudy,BLEU)分数进行了评估,请参阅图11,图11为本发明应用场景中采用SAN模型进行翻译的一个对比示意图,如图所示,图11中的横坐标表示句子长度,纵坐标表示采用上下文向量强化的SAN模型与基准模型之间的BLEU差值。由此可见,采用上下文向量强化的SAN模型在不同句子长度上的翻译质量明显优于现有的基准模型。对于较长的句子(比如超过20个字的句子)而言,涉及到复杂的句法和深层的语义,因此更加需要依赖元素关系。

请参阅表1,表1为本发明提供的网络模型在机器翻译系统上的效果示意。

表1

BLEU分数一般提高超过0.5个点即表示显著提高,Δ是指提高的绝对数值,参数数量的单位为百万(M),训练速度单位为每秒迭代次数,因此,由表1可知,本发明所提出方法显著提升翻译质量,特别地,所提出方法在较长句子的翻译上表现更为出色。

下面对本发明中的文本翻译装置进行详细描述,请参阅图12,图12为本发明实施例中文本翻译装置一个实施例示意图,文本翻译装置30包括:

获取模块301,用于获取目标文本信息所对应的目标文本序列,其中,所述目标文本序列中包括多个元素;

所述获取模块301,还用于根据所述目标文本序列获取上下文向量;

确定模块302,用于根据所述获取模块301获取的所述上下文向量以及所述目标文本序列确定目标请求向量以及目标键向量,其中,所述目标请求向量与所述目标文本序列中的元素具有对应关系,所述目标键向量与所述目标文本序列中的元素具有对应关系;

所述确定模块302,还用于根据所述目标请求向量以及所述目标键向量确定所述目标文本序列所对应的逻辑相似度;

编码模块303,用于采用所述确定模块302确定的所述逻辑相似度对所述目标文本信息所对应的所述目标文本序列进行编码处理,得到文本编码结果;

解码模块304,用于对所述编码模块303编码的所述文本编码结果进行解码处理,以得到所述目标文本信息所对应的文本翻译结果。

本实施例中,获取模块301获取目标文本信息所对应的目标文本序列,其中,所述目标文本序列中包括多个元素,所述获取模块301根据所述目标文本序列获取上下文向量,确定模块302根据所述获取模块301获取的所述上下文向量以及所述目标文本序列确定目标请求向量以及目标键向量,其中,所述目标请求向量与所述目标文本序列中的元素具有对应关系,所述目标键向量与所述目标文本序列中的元素具有对应关系,所述确定模块302根据所述目标请求向量以及所述目标键向量确定所述目标文本序列所对应的逻辑相似度,编码模块303采用所述确定模块302确定的所述逻辑相似度对所述目标文本信息所对应的所述目标文本序列进行编码处理,得到文本编码结果,解码模块304对所述编码模块303编码的所述文本编码结果进行解码处理,以得到所述目标文本信息所对应的文本翻译结果。

本发明实施例中,提供了一种文本翻译装置,首先获取目标文本信息所对应的目标文本序列,其中,目标文本序列中包括多个元素;根据目标文本序列获取上下文向量,根据上下文向量以及目标文本序列确定目标请求向量以及目标键向量,其中,目标请求向量与目标文本序列中的元素具有对应关系,键向量与目标文本序列中的元素具有对应关系,根据目标请求向量以及目标键向量确定目标文本序列所对应的逻辑相似度,采用逻辑相似度对目标文本信息所对应的目标文本序列进行编码处理,得到文本编码结果,对文本编码结果进行解码处理,以得到目标文本信息所对应的文本翻译结果。通过上述方式,采用与离散序列相关的上下文向量对该离散序列进行编码,由此,强化离散序列中各个元素之间的依存关系,能够利用上下文信息灵活地学习不同词语之间的网络表示,从而提升机器翻译的质量。

下面对本发明中的信息处理装置进行详细描述,请参阅图13,图13为本发明实施例中信息处理装置一个实施例示意图,信息处理装置40包括:

获取模块401,用于获取待处理文本信息所对应的目标文本序列,其中,所述目标文本序列中包括多个元素;

所述获取模块401,用于根据所述目标文本序列获取上下文向量;

确定模块402,用于根据所述获取模块401获取的所述上下文向量以及所述目标文本序列确定目标请求向量以及目标键向量,其中,所述目标请求向量与所述目标文本序列中的元素具有对应关系,所述目标键向量与所述目标文本序列中的元素具有对应关系;

所述确定模块402,还用于根据所述目标请求向量以及所述目标键向量确定所述目标文本序列所对应的逻辑相似度;

编码模块403,用于采用所述确定模块402确定的所述逻辑相似度对所述目标文本信息所对应的所述目标文本序列进行编码处理,得到文本编码结果。

本实施例中,获取模块401获取待处理文本信息所对应的目标文本序列,其中,所述目标文本序列中包括多个元素,所述获取模块401根据所述目标文本序列获取上下文向量,确定模块402根据所述获取模块401获取的所述上下文向量以及所述目标文本序列确定目标请求向量以及目标键向量,其中,所述目标请求向量与所述目标文本序列中的元素具有对应关系,所述目标键向量与所述目标文本序列中的元素具有对应关系,所述确定模块402根据所述目标请求向量以及所述目标键向量确定所述目标文本序列所对应的逻辑相似度,编码模块403采用所述确定模块402确定的所述逻辑相似度对所述目标文本信息所对应的所述目标文本序列进行编码处理,得到文本编码结果。

本发明实施例中,提供了一种信息处理装置,首先,获取待处理文本信息所对应的目标文本序列,其中,目标文本序列中包括多个元素,然后根据目标文本序列获取上下文向量,再利用上下文向量以及目标文本序列确定目标请求向量以及目标键向量,其中,目标请求向量与目标文本序列中的元素具有对应关系,键向量与目标文本序列中的元素具有对应关系,最后,根据目标请求向量以及目标键向量确定目标文本序列所对应的逻辑相似度,并采用该逻辑相似度对目标文本信息所对应的目标文本序列进行编码处理,得到文本编码结果。通过上述方式,采用与离散序列相关的上下文向量对该离散序列进行编码,由此,强化离散序列中各个元素之间的依存关系,从而增强神经网络模型的性能,提升模型的学习能力。

可选地,在上述图13所对应的实施例的基础上,本发明实施例提供的信息处理装置40的另一实施例中,

所述获取模块401,具体用于获取所述目标文本序列中每个元素的向量;

根据所述目标文本序列中每个元素的向量计算所述目标文本序列的平均值,其中,所述平均值用于表示所述上下文向量。

其次,本发明实施例中,提供了一种基于全局文本序列获取上下文向量的方法,即获取目标文本序列中每个元素的向量,根据目标文本序列中每个元素的向量计算目标文本序列的平均值,该平均值表示为上下文向量。通过上述方式,可以通过整个文本序列得到上下文向量,为方案的实现提供了可行的方式,从而提升方案的可操作性。

可选地,在上述图13所对应的实施例的基础上,本发明实施例提供的信息处理装置40的另一实施例中,

所述获取模块401,具体用于获取所述目标文本序列所对应的L层文本序列,其中,所述L层文本序列为在所述目标文本序列之前生成的网络层,所述L为大于或等于1的整数;

根据所述L层文本序列生成所述上下文向量。

其次,本发明实施例中,提供了一种基于深度文本序列获取上下文向量的方法,即先获取目标文本序列所对应的L层文本序列,其中,L层文本序列为在目标文本序列之前生成的网络层,L为大于或等于1的整数,然后根据L层文本序列生成上下文向量。通过上述方式,可以通过多个深度的文本序列得到上下文向量,为方案的实现提供了可行的方式,从而提升方案的可操作性。

可选地,在上述图13所对应的实施例的基础上,本发明实施例提供的信息处理装置40的另一实施例中,

所述获取模块401,具体用于获取所述目标文本序列所对应的L层文本序列,其中,所述L层文本序列为在所述目标文本序列之前生成的网络层,所述L为大于或等于1的整数;

根据所述L层文本序列获取L层第一上下文向量,其中,每层第一上下文向量为每层文本序列中元素的平均值;

根据所述目标文本序列获取第二上下文向量,其中,所述第二上下文向量为所述目标文本序列中元素的平均值;

根据所述L层第一上下文向量以及所述第二上下文向量,计算得到所述上下文向量。

其次,本发明实施例中,提供了一种基于深度和全局文本序列获取上下文向量的方法,即先根据L层文本序列获取L层第一上下文向量,其中,每层第一上下文向量为每层文本序列中元素的平均值,然后根据目标文本序列获取第二上下文向量,其中,第二上下文向量为目标文本序列中元素的平均值,最后根据L层第一上下文向量以及第二上下文向量,计算得到上下文向量。通过上述方式,可以通过多个深度的全局文本序列得到上下文向量,为方案的实现提供了可行的方式,从而提升方案的可操作性。

可选地,在上述图13所对应的实施例的基础上,本发明实施例提供的信息处理装置40的另一实施例中,

所述确定模块402,具体用于根据所述目标文本序列计算原始请求向量、原始键向量以及原始值向量,其中,所述原始值向量用于确定所述目标文本序列所对应的目标输出向量;

根据所述上下文向量、所述原始请求向量以及所述原始键向量,计算请求向量标量以及键向量标量;

根据所述上下文向量、所述请求向量标量以及所述键向量标量,计算所述目标请求向量以及所述目标键向量。

再次,本发明实施例中,介绍了一种如何根据上下文向量以及目标文本序列确定目标请求向量以及目标键向量的方式,即首先根据目标文本序列计算原始请求向量、原始键向量以及原始值向量,然后根据上下文向量、原始请求向量以及原始键向量,计算请求向量标量以及键向量标量,最后根据上下文向量、请求向量标量以及键向量标量,计算目标请求向量以及目标键向量。通过上述方式,将上下文向量融合到目标请求向量以及目标键向量中,从而增强原请求向量和原键向量的特征表达,进而强化了整个文本序列的网络表达,由此提升模型学习性能。

可选地,在上述图13所对应的实施例的基础上,本发明实施例提供的信息处理装置40的另一实施例中,

所述确定模块402,具体用于采用如下方式计算所述原始请求向量、所述原始键向量以及所述原始值向量:

其中,所述Q表示所述原始请求向量,所述K表示所述原始键向量,所述V表示所述原始值向量,所述H表示所述目标文本序列,所述WQ表示第一参数矩阵,所述WK表示第二参数矩阵,所述WV表示第三参数矩阵,所述第一参数矩阵、所述第二参数矩阵以及所述第三参数矩阵为预先训练得到的参数矩阵;

采用如下方式计算所述请求向量标量以及所述键向量标量:

其中,所述λQ表示所述请求向量标量,所述λK表示所述键向量标量,所述σ(·)表示sigmoid非线性变化,所述C表示所述上下文向量,所述UQ表示第四参数矩阵,所述UK表示第五参数矩阵,所述第四参数矩阵以及所述第五参数矩阵为预先训练得到的参数矩阵,所述表示第一线性变换因子,所述表示第二线性变换因子,所述表示第三线性变换因子,所述表示第四线性变换因子;

采用如下方式计算所述目标请求向量以及所述目标键向量:

其中,所述表示所述目标请求向量,所述表示所述目标键向量。

进一步地,本发明实施例中,提供了具体的计算方式,可以根据目标文本序列计算原始请求向量、原始键向量以及原始值向量,根据上下文向量、原始请求向量以及原始键向量,计算请求向量标量以及键向量标量,以及根据上下文向量、请求向量标量以及键向量标量,计算目标请求向量以及目标键向量。通过上述方式,为方案的实现提供了具体的操作方式,采用公式的计算明确了如何得到参数,从而保证了方案的可行性和可操作性。

可选地,在上述图13所对应的实施例的基础上,本发明实施例提供的信息处理装置40的另一实施例中,

所述确定模块402,具体用于采用如下方式计算所述逻辑相似度:

其中,所述e表示所述逻辑相似度,所述表示所述目标请求向量,所述表示所述目标键向量,所述表示所述目标键向量的转置,所述d表示模型隐藏状态向量的维度。

其次,本发明实施例中,提供了一种根据目标请求向量以及目标键向量计算目标文本序列所对应的逻辑相似度的方式。通过上述方式,为方案的实现提供了具体的操作方式,采用公式的计算明确了如何得到参数,从而保证了方案的可行性和可操作性。

可选地,在上述图13所对应的实施例的基础上,本发明实施例提供的信息处理装置40的另一实施例中,

所述编码模块403,具体用于根据所述逻辑相似度确定所述目标文本序列所对应的权重值,其中,所述权重值用于表示所述目标文本序列中各个元素之间的关系;

根据所述目标文本序列所对应的权重值确定目标输出向量;

采用所述目标输出向量对所述目标文本信息所对应的所述目标文本序列进行编码处理,得到所述文本编码结果。

其次,本发明实施例中,介绍了如何采用逻辑相似度对目标文本信息所对应的目标文本序列进行编码处理,以得到文本编码结果。首先,根据逻辑相似度确定目标文本序列所对应的权重值,然后根据目标文本序列所对应的权重值确定目标输出向量,最后采用目标输出向量对目标文本信息所对应的目标文本序列进行编码处理,得到文本编码结果。通过上述方式,在对文本信息进行编码的过程中,采用了包含上下文向量的输出向量,从而强化离散序列的局部信息,改善模型学习的质量,更好地应用于不同的产品。

可选地,在上述图13所对应的实施例的基础上,请参阅图14,本发明实施例提供的信息处理装置40的另一实施例中,所述信息处理装置40还包括拆分模块404;

所述拆分模块404,用于所述获取模块401获取待处理文本信息所对应的目标文本序列之后,将所述目标文本序列拆分为X个文本子序列,其中,所述X为大于1的整数;

所述确定模块402,具体用于根据所述上下文向量以及所述X个文本子序列,生成X个请求向量以及X个键向量,其中,每个文本子序列对应一个请求向量以及一个键向量;

分别对所述每个文本子序列以及所述每个文本子序列所对应的请求向量以及键向量进行计算,得到X个子逻辑相似度;

所述编码模块403,具体用于根据每个子逻辑相似度确定所述每个文本子序列所对应的子权重值,其中,所述子权重值用于表示文本子序列中各个元素之间的关系;

根据所述每个文本子序列所对应的子权重值确定子输出向量;

根据所述每个文本子序列所对应的子输出向量生成目标输出向量;

采用所述目标输出向量对所述目标文本信息所对应的所述目标文本序列进行编码处理,得到所述文本编码结果。

其次,本发明实施例中,提出了一种利用多头注意力机制的方法来实现编码,即先将目标文本序列拆分为X个文本子序列,其中,X为大于1的整数,然后根据上下文向量以及X个文本子序列,生成X个请求向量以及X个键向量,分别对每个文本子序列以及每个文本子序列所对应的请求向量以及键向量进行计算,得到X个子逻辑相似度,最后根据每个子逻辑相似度确定每个文本子序列所对应的子权重值,根据每个文本子序列所对应的子权重值确定子输出向量,根据每个文本子序列所对应的子输出向量生成目标输出向量,并采用目标输出向量对目标文本信息所对应的目标文本序列进行编码处理,得到文本编码结果。通过上述方式,整个网络使用了残差连接和对层进行了规范化,从而可以更好的优化深度网络,并且训练速度比主流模型更快。

本发明实施例还提供了另一种终端设备,如图15所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant,PDA)、销售终端(point of sales,POS)、车载电脑等任意终端设备,以终端设备为手机为例:

图15示出的是与本发明实施例提供的终端设备相关的手机的部分结构的框图。参考图15,手机包括:射频(radio frequency,RF)电路510、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真(wireless fidelity,WiFi)模块570、处理器580、以及电源590等部件。本领域技术人员可以理解,图15中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

下面结合图15对手机的各个构成部件进行具体的介绍:

RF电路510可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器580处理;另外,将设计上行的数据发送给基站。通常,RF电路510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。此外,RF电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystem of mobile communication,GSM)、通用分组无线服务(general packet radioservice,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。

存储器520可用于存储软件程序以及模块,处理器580通过运行存储在存储器520的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元530可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元530可包括触控面板531以及其他输入设备532。触控面板531,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板531可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器580,并能接收处理器580发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531,输入单元530还可以包括其他输入设备532。具体地,其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元540可包括显示面板541,可选的,可以采用液晶显示器(liquid crystaldisplay,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板541。进一步的,触控面板531可覆盖显示面板541,当触控面板531检测到在其上或附近的触摸操作后,传送给处理器580以确定触摸事件的类型,随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图15中,触控面板531与显示面板541是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板531与显示面板541集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器550,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板541的亮度,接近传感器可在手机移动到耳边时,关闭显示面板541和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。

音频电路560、扬声器561,传声器562可提供用户与手机之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号,传输到扬声器561,由扬声器561转换为声音信号输出;另一方面,传声器562将收集的声音信号转换为电信号,由音频电路560接收后转换为音频数据,再将音频数据输出处理器580处理后,经RF电路510以发送给比如另一手机,或者将音频数据输出至存储器520以便进一步处理。

WiFi属于短距离无线传输技术,手机通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图15示出了WiFi模块570,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器520内的软件程序和/或模块,以及调用存储在存储器520内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器580可包括一个或多个处理单元;可选的,处理器580可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器580中。

手机还包括给各个部件供电的电源590(比如电池),可选的,电源可以通过电源管理系统与处理器580逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。

在本发明实施例中,该终端所包括的处理器580还具有以下功能:

获取目标文本信息所对应的目标文本序列,其中,所述目标文本序列中包括多个元素;

根据所述目标文本序列获取上下文向量;

根据所述上下文向量以及所述目标文本序列确定目标请求向量以及目标键向量,其中,所述目标请求向量与所述目标文本序列中的元素具有对应关系,所述目标键向量与所述目标文本序列中的元素具有对应关系;

根据所述目标请求向量以及所述目标键向量确定所述目标文本序列所对应的逻辑相似度;

采用所述逻辑相似度对所述目标文本信息所对应的所述目标文本序列进行编码处理,得到文本编码结果;

对所述文本编码结果进行解码处理,以得到所述目标文本信息所对应的文本翻译结果。

在本发明实施例中,该终端所包括的处理器580还具有以下功能:

获取待处理文本信息所对应的目标文本序列,其中,所述目标文本序列中包括多个元素;

根据所述目标文本序列获取上下文向量;

根据所述上下文向量以及所述目标文本序列确定目标请求向量以及目标键向量,其中,所述目标请求向量与所述目标文本序列中的元素具有对应关系,所述目标键向量与所述目标文本序列中的元素具有对应关系;

根据所述目标请求向量以及所述目标键向量确定所述目标文本序列所对应的逻辑相似度;

采用所述逻辑相似度对所述目标文本信息所对应的所述目标文本序列进行编码处理,得到文本编码结果。

可选地,该终端所包括的处理器580具体用于执行如下步骤:

获取所述目标文本序列中每个元素的向量;

根据所述目标文本序列中每个元素的向量计算所述目标文本序列的平均值,其中,所述平均值用于表示所述上下文向量。

可选地,该终端所包括的处理器580具体用于执行如下步骤:

获取所述目标文本序列所对应的L层文本序列,其中,所述L层文本序列为在所述目标文本序列之前生成的网络层,所述L为大于或等于1的整数;

根据所述L层文本序列生成所述上下文向量。

可选地,该终端所包括的处理器580具体用于执行如下步骤:

获取所述目标文本序列所对应的L层文本序列,其中,所述L层文本序列为在所述目标文本序列之前生成的网络层,所述L为大于或等于1的整数;

根据所述L层文本序列获取L层第一上下文向量,其中,每层第一上下文向量为每层文本序列中元素的平均值;

根据所述目标文本序列获取第二上下文向量,其中,所述第二上下文向量为所述目标文本序列中元素的平均值;

根据所述L层第一上下文向量以及所述第二上下文向量,计算得到所述上下文向量。

可选地,该终端所包括的处理器580具体用于执行如下步骤:

根据所述目标文本序列计算原始请求向量、原始键向量以及原始值向量,其中,所述原始值向量用于确定所述目标文本序列所对应的目标输出向量;

根据所述上下文向量、所述原始请求向量以及所述原始键向量,计算请求向量标量以及键向量标量;

根据所述上下文向量、所述请求向量标量以及所述键向量标量,计算所述目标请求向量以及所述目标键向量。

可选地,该终端所包括的处理器580具体用于执行如下步骤:

采用如下方式计算所述原始请求向量、所述原始键向量以及所述原始值向量:

其中,所述Q表示所述原始请求向量,所述K表示所述原始键向量,所述V表示所述原始值向量,所述H表示所述目标文本序列,所述WQ表示第一参数矩阵,所述WK表示第二参数矩阵,所述WV表示第三参数矩阵,所述第一参数矩阵、所述第二参数矩阵以及所述第三参数矩阵为预先训练得到的参数矩阵;

采用如下方式计算所述请求向量标量以及所述键向量标量:

其中,所述λQ表示所述请求向量标量,所述λK表示所述键向量标量,所述σ(·)表示sigmoid非线性变化,所述C表示所述上下文向量,所述UQ表示第四参数矩阵,所述UK表示第五参数矩阵,所述第四参数矩阵以及所述第五参数矩阵为预先训练得到的参数矩阵,所述表示第一线性变换因子,所述表示第二线性变换因子,所述表示第三线性变换因子,所述表示第四线性变换因子;

采用如下方式计算所述目标请求向量以及所述目标键向量:

其中,所述表示所述目标请求向量,所述表示所述目标键向量。

可选地,该终端所包括的处理器580具体用于执行如下步骤:

采用如下方式计算所述逻辑相似度:

其中,所述e表示所述逻辑相似度,所述表示所述目标请求向量,所述表示所述目标键向量,所述表示所述目标键向量的转置,所述d表示模型隐藏状态向量的维度。

可选地,该终端所包括的处理器580具体用于执行如下步骤:

根据所述逻辑相似度确定所述目标文本序列所对应的权重值,其中,所述权重值用于表示所述目标文本序列中各个元素之间的关系;

根据所述目标文本序列所对应的权重值确定目标输出向量;

采用所述目标输出向量对所述目标文本信息所对应的所述目标文本序列进行编码处理,得到所述文本编码结果。

可选地,该终端所包括的处理器580还用于执行如下步骤:

将所述目标文本序列拆分为X个文本子序列,其中,所述X为大于1的整数;

该终端所包括的处理器580具体用于执行如下步骤:

根据所述上下文向量以及所述X个文本子序列,生成X个请求向量以及X个键向量,其中,每个文本子序列对应一个请求向量以及一个键向量;

分别对所述每个文本子序列以及所述每个文本子序列所对应的请求向量以及键向量进行计算,得到X个子逻辑相似度;

根据每个子逻辑相似度确定所述每个文本子序列所对应的子权重值,其中,所述子权重值用于表示文本子序列中各个元素之间的关系;

根据所述每个文本子序列所对应的子权重值确定子输出向量;

根据所述每个文本子序列所对应的子输出向量生成目标输出向量;

采用所述目标输出向量对所述目标文本信息所对应的所述目标文本序列进行编码处理,得到所述文本编码结果。

图16是本发明实施例提供的一种服务器结构示意图,该服务器600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)622(例如,一个或一个以上处理器)和存储器632,一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器622可以设置为与存储介质630通信,在服务器600上执行存储介质630中的一系列指令操作。

服务器600还可以包括一个或一个以上电源626,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口658,和/或,一个或一个以上操作系统641,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图16所示的服务器结构。

在本发明实施例中,该服务器所包括的CPU 622还具有以下功能:

获取目标文本信息所对应的目标文本序列,其中,所述目标文本序列中包括多个元素;

根据所述目标文本序列获取上下文向量;

根据所述上下文向量以及所述目标文本序列确定目标请求向量以及目标键向量,其中,所述目标请求向量与所述目标文本序列中的元素具有对应关系,所述目标键向量与所述目标文本序列中的元素具有对应关系;

根据所述目标请求向量以及所述目标键向量确定所述目标文本序列所对应的逻辑相似度;

采用所述逻辑相似度对所述目标文本信息所对应的所述目标文本序列进行编码处理,得到文本编码结果;

对所述文本编码结果进行解码处理,以得到所述目标文本信息所对应的文本翻译结果。

在本发明实施例中,该服务器所包括的CPU 622还具有以下功能:

获取待处理文本信息所对应的目标文本序列,其中,所述目标文本序列中包括多个元素;

根据所述目标文本序列获取上下文向量;

根据所述上下文向量以及所述目标文本序列确定目标请求向量以及目标键向量,其中,所述目标请求向量与所述目标文本序列中的元素具有对应关系,所述目标键向量与所述目标文本序列中的元素具有对应关系;

根据所述目标请求向量以及所述目标键向量确定所述目标文本序列所对应的逻辑相似度;

采用所述逻辑相似度对所述目标文本信息所对应的所述目标文本序列进行编码处理,得到文本编码结果。

可选地,该服务器所包括的CPU 622具体用于执行如下步骤:

获取所述目标文本序列中每个元素的向量;

根据所述目标文本序列中每个元素的向量计算所述目标文本序列的平均值,其中,所述平均值用于表示所述上下文向量。

可选地,该服务器所包括的CPU 622具体用于执行如下步骤:

获取所述目标文本序列所对应的L层文本序列,其中,所述L层文本序列为在所述目标文本序列之前生成的网络层,所述L为大于或等于1的整数;

根据所述L层文本序列生成所述上下文向量。

可选地,该服务器所包括的CPU 622具体用于执行如下步骤:

获取所述目标文本序列所对应的L层文本序列,其中,所述L层文本序列为在所述目标文本序列之前生成的网络层,所述L为大于或等于1的整数;

根据所述L层文本序列获取L层第一上下文向量,其中,每层第一上下文向量为每层文本序列中元素的平均值;

根据所述目标文本序列获取第二上下文向量,其中,所述第二上下文向量为所述目标文本序列中元素的平均值;

根据所述L层第一上下文向量以及所述第二上下文向量,计算得到所述上下文向量。

可选地,该服务器所包括的CPU 622具体用于执行如下步骤:

根据所述目标文本序列计算原始请求向量、原始键向量以及原始值向量,其中,所述原始值向量用于确定所述目标文本序列所对应的目标输出向量;

根据所述上下文向量、所述原始请求向量以及所述原始键向量,计算请求向量标量以及键向量标量;

根据所述上下文向量、所述请求向量标量以及所述键向量标量,计算所述目标请求向量以及所述目标键向量。

可选地,该服务器所包括的CPU 622具体用于执行如下步骤:

采用如下方式计算所述原始请求向量、所述原始键向量以及所述原始值向量:

其中,所述Q表示所述原始请求向量,所述K表示所述原始键向量,所述V表示所述原始值向量,所述H表示所述目标文本序列,所述WQ表示第一参数矩阵,所述WK表示第二参数矩阵,所述WV表示第三参数矩阵,所述第一参数矩阵、所述第二参数矩阵以及所述第三参数矩阵为预先训练得到的参数矩阵;

采用如下方式计算所述请求向量标量以及所述键向量标量:

其中,所述λQ表示所述请求向量标量,所述λK表示所述键向量标量,所述σ(·)表示sigmoid非线性变化,所述C表示所述上下文向量,所述UQ表示第四参数矩阵,所述UK表示第五参数矩阵,所述第四参数矩阵以及所述第五参数矩阵为预先训练得到的参数矩阵,所述表示第一线性变换因子,所述表示第二线性变换因子,所述表示第三线性变换因子,所述表示第四线性变换因子;

采用如下方式计算所述目标请求向量以及所述目标键向量:

其中,所述表示所述目标请求向量,所述表示所述目标键向量。

可选地,该服务器所包括的CPU 622具体用于执行如下步骤:

采用如下方式计算所述逻辑相似度:

其中,所述e表示所述逻辑相似度,所述表示所述目标请求向量,所述表示所述目标键向量,所述表示所述目标键向量的转置,所述d表示模型隐藏状态向量的维度。

可选地,该服务器所包括的CPU 622具体用于执行如下步骤:

根据所述逻辑相似度确定所述目标文本序列所对应的权重值,其中,所述权重值用于表示所述目标文本序列中各个元素之间的关系;

根据所述目标文本序列所对应的权重值确定目标输出向量;

采用所述目标输出向量对所述目标文本信息所对应的所述目标文本序列进行编码处理,得到所述文本编码结果。

可选地,该服务器所包括的CPU 622还用于执行如下步骤:

将所述目标文本序列拆分为X个文本子序列,其中,所述X为大于1的整数;

该服务器所包括的CPU 622具体用于执行如下步骤:

根据所述上下文向量以及所述X个文本子序列,生成X个请求向量以及X个键向量,其中,每个文本子序列对应一个请求向量以及一个键向量;

分别对所述每个文本子序列以及所述每个文本子序列所对应的请求向量以及键向量进行计算,得到X个子逻辑相似度;

根据每个子逻辑相似度确定所述每个文本子序列所对应的子权重值,其中,所述子权重值用于表示文本子序列中各个元素之间的关系;

根据所述每个文本子序列所对应的子权重值确定子输出向量;

根据所述每个文本子序列所对应的子输出向量生成目标输出向量;

采用所述目标输出向量对所述目标文本信息所对应的所述目标文本序列进行编码处理,得到所述文本编码结果。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

39页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种便携式智能指向型翻译装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!