基于降维桶模型的文本翻译方法及装置

文档序号：1170298 发布日期：2020-09-18 浏览：13次 >En<

阅读说明：本技术 基于降维桶模型的文本翻译方法及装置 (Text translation method and device based on dimension reduction barrel model ) 是由骆加维吴信朝周宸王虎许康颂于 2020-04-28 设计创作，主要内容包括：本发明公开了一种基于降维桶模型的文本翻译方法及装置,涉及人工智能技术领域,主要目的在于能够通过引入降维桶算法,解决NLP翻译任务中长文本深度语义传递的问题,通过降低计算复杂度,从而扩充单次输入文本长度,提高翻译结果准确性和翻译效率。所述方法包括：接收文本翻译请求,所述请求中携带有待翻译文本数据；通过降维桶算法对所述待翻译文本数据进行处理,将输出的置信度最高的词语确定为文本翻译结果；利用所述文本翻译结果响应所述文本翻译请求。本发明适用于基于降维桶模型的文本翻译。(The invention discloses a text translation method and a text translation device based on a dimension reduction barrel model, relates to the technical field of artificial intelligence, and mainly aims to solve the problem of deep semantic transfer of long texts in an NLP (non-line-of-sight) translation task by introducing a dimension reduction barrel algorithm, expand the length of a single input text and improve the accuracy of a translation result and the translation efficiency by reducing the calculation complexity. The method comprises the following steps: receiving a text translation request, wherein the request carries text data to be translated; processing the text data to be translated through a dimension reduction barrel algorithm, and determining the word with the highest output confidence coefficient as a text translation result; and responding to the text translation request by using the text translation result. The method is suitable for text translation based on the dimension reduction barrel model.)

基于降维桶模型的文本翻译方法及装置

技术领域

本发明涉及人工智能技术领域，特别是涉及一种基于降维桶模型的文本翻译方法及装置。

背景技术

机器翻译是自然语言处理的一个分支，目前来说机器翻译主要用应用于后台工作，在机器人相关领域主要负责不同语种之间的翻译。机器翻译的技术从最初的根据机器翻译的seq2seq，到Bidaf，mlstm和r-net等依靠RNN为基础的模型和依靠transformer的端对端模型，18年底bert模型在多个任务中全面超越传统模型。模型的升级带来的是性能的优化以及准确率的提高。

目前，通常以Bert模型作为机器翻译模型。然而，Bert模型本身存在天然缺陷，即MASK机制下，掩码词语是相互独立的，丢失了深层语义；另外，在长文本任务中，模型的断句不合理等，也会导致深层语义无法通过长文本传递的问题。从而造成翻译结果准确性差，翻译效率较低。

发明内容

有鉴于此，本发明提供一种基于降维桶模型的文本翻译方法及装置，主要目的在于能够通过引入降维桶算法，解决NLP翻译任务中长文本深度语义传递的问题，通过降低计算复杂度，从而扩充单次输入文本长度，提高翻译结果准确性和翻译效率。

依据本发明一个方面，提供了一种基于降维桶模型的文本翻译方法，包括：

接收文本翻译请求，所述请求中携带有待翻译文本数据；

通过降维桶算法对所述待翻译文本数据进行处理，将输出的置信度最高的词语确定为文本翻译结果；

利用所述文本翻译结果响应所述文本翻译请求。

进一步地，所述通过降维桶算法对所述待翻译文本数据进行处理，将输出的置信度最高的词语确定为文本翻译结果，包括：

利用预先训练的降维桶模型对所述带翻译文本数据进行处理，将输出的置信度最高的词语确定为文本翻译结果。

进一步地，所述利用预先训练的降维桶模型对所述待翻译文本数据进行处理，将输出的置信度最高的词语确定为文本翻译结果，包括：

根据获取的输入向量进行归一化处理得到注意力分数，并利用所述注意力分数划分降维桶结构；

利用预设不同数量级的注意力分数进行降维桶结构补充；

利用降维算法对所述降维桶结构进行降维处理；

对降维处理得到的注意力分数进行共享权重更新，得到共享的注意力分数，并经过归一化处理，输出置信度最高的词语作为文本翻译结果。

进一步地，所述通过降维桶注意力模型对所述待翻译文本数据进行处理之前，所述方法还包括：

利用预设的词向量算法，将待翻译文本中的词语转换为词向量。

进一步地，所述利用预设的词向量算法，将带翻译文本中的词语转换为词向量之前，所述方法还包括：

根据预设的位置编码算法以及所述词向量，得到位置编码向量，并将所述词向量与位置向量拼接为输入向量。

进一步地，所述方法还包括：

对所述输入向量进行因式分解处理，得到所述输入向量的双向信息。

进一步地，所述对所述输入向量进行因式分解处理，得到所述输入向量的双向信息之前，所述方法还包括：

根据Bert模型，以及所述输入向量的双向信息，训练降维桶模型。

依据本发明二个方面，提供了一种基于降维桶模型的文本翻译装置，包括：

接收单元，用于接收文本翻译请求，所述请求中携带有待翻译文本数据；

处理单元，用于通过降维桶算法对所述待翻译文本数据进行处理，将输出的置信度最高的词语确定为文本翻译结果；

响应单元，用于利用所述文本翻译结果响应所述文本翻译请求。

所述处理单元具体可以用于利用预先训练的降维桶模型对所述待翻译文本数据进行处理，将输出的置信度最高的词语确定为文本翻译结果。

进一步地，所述处理单元，包括：

划分模块，用于根据获取的输入向量进行归一化处理得到注意力分数，并利用所述注意力分数划分降维桶结构；

补充模块，用于利用预设不同数量级的注意力分数进行降维桶结构补充；

降维模块，用于利用降维算法对所述降维桶结构进行降维处理；

更新模块，用于对降维处理得到的注意力分数进行共享权重更新，得到共享的注意力分数，并经过归一化处理，输出置信度最高的词语作为文本翻译结果。

进一步地，所述装置还包括：

转换单元，用于利用预设的词向量算法，将待翻译文本中的词语转换为词向量。

进一步地，所述装置还包括：

拼接单元，用于根据预设的位置编码算法以及所述词向量，得到位置编码向量，并将所述词向量与位置向量拼接为输入向量。

进一步地，所述装置还包括：

分解单元，用于对所述输入向量进行因式分解处理，得到所述输入向量的双向信息。

进一步地，所述装置还包括：

训练单元，用于根据Bert模型，以及所述输入向量的双向信息，训练降维桶模型。

依据本发明第三方面，提供了一种存储介质，所述存储介质中存储有至少一可执行指令，所述执行指令使处理器执行以下步骤：接收文本翻译请求，所述请求中携带有待翻译文本数据；通过降维桶算法对所述待翻译文本数据进行处理，将输出的置信度最高的词语确定为文本翻译结果；利用所述文本翻译结果响应所述文本翻译请求。

依据本发明第四方面，提供了一种计算机设备，包括处理器、存储器、通信接口和通信总线所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信，所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行以下步骤：接收文本翻译请求，所述请求中携带有待翻译文本数据；通过降维桶算法对所述待翻译文本数据进行处理，将输出的置信度最高的词语确定为文本翻译结果；利用所述文本翻译结果响应所述文本翻译请求。

本发明提供一种基于降维桶模型的文本翻译方法及装置，与现有技术以通过自注意力机制进行文本数据翻译相比，本发明通过接收文本翻译请求，所述请求中携带有待翻译文本数据；通过降维桶算法对所述待翻译文本数据进行处理，将输出的置信度最高的词语确定为文本翻译结果；利用所述文本翻译结果响应所述文本翻译请求。从而能够通过引入降维桶算法，解决NLP翻译任务中长文本深度语义传递的问题，通过降低计算复杂度，扩充单次输入文本长度，提高翻译结果准确性和翻译效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的

具体实施方式

。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种基于降维桶模型的文本翻译方法流程图；

图2示出了本发明实施例提供的一种基于降维桶模型的文本翻译装置的结构示意图；

图3示出了本发明实施例提供的一种计算机设备的实体结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

如背景技术所述，目前，通常以Bert模型作为机器翻译模型。然而，Bert模型本身存在天然缺陷，即MASK机制下，掩码词语是相互独立的，丢失了深层语义；另外，在长文本任务中，模型的断句不合理等，也会导致深层语义无法通过长文本传递的问题，从而造成文本数据翻译的结果准确率低。

为了解决上述问题，本发明实施例提供了一种基于降维桶模型的文本翻译方法，如图1所示，所述方法包括：

101、接收文本翻译请求，所述请求中携带有待翻译文本数据。

对于本发明实施例，可以以翻译处理设备为主体，接收不同网络来源发送的文本翻译请求。所述待翻译文本数据具体可以包括TXT等文本型的数据，如32位的数值型数据等。具体地，接收文本翻译请求后，可以解析所述请求，得到请求中携带的待翻译文本数据。

102、通过降维桶算法对所述待翻译文本数据进行处理，将输出的置信度最高的词语确定为文本翻译结果。

其中，所述降维桶算法具体可以为预先训练的降维桶模型，即通过降维桶注意力机制构建的Bert模型。所述置信度可以为得到的注意力分数，所述Bert模型(BidirectionalEncoder Representations from Transformer)，所述Bert模型可以用于利用大规模无标注语料训练、获得文本的包含丰富语义信息的语义表示，然后将文本的语义表示在特定NLP任务中作微调，最终应用于该NLP任务。具体地，在得到待翻译文本数据时，可以通过降维桶算法对所述待翻译文本数据进行处理，从而得到置信度最高的词语确定为文本翻译结果。

需要说明的是，本发明实施例，通过利用降维桶注意力机制构建Bert模型，可以解决NLP翻译任务中超长文本深度语义传递的问题，通过降低计算复杂度，扩充单次输入模型的文本长度。

103、利用所述文本翻译结果响应所述文本翻译请求。

对于本发明实施例，得到所述文本翻译结果后，可以利用所述翻译结果响应所述文本翻译请求，从而将所述文本翻译结果显示在客户端的展示界面，或用于其他用途等。

进一步的，为了更好的说明上述文本翻译方法的过程，作为对上述实施例的细化和扩展，本发明实施例提供了几种可选实施例，但不限于此，具体如下所示：

在本发明的一个可选实施例，所述步骤102具体可以包括：利用预先训练的降维桶模型对所述待翻译文本数据进行处理，将输出的置信度最高的词语确定为文本翻译结果。

其中，所述降维桶模型可以为利用降维桶注意力机制构建的Bert模型，可以通过划分不同数量级的桶结构，进而进行降维计算，实现长文本输入和翻译。

对于本发明实施例，所述利用预先训练的降维桶模型对所述待翻译文本数据进行处理，将输出的置信度最高的词语确定为文本翻译结果，具体可以包括：根据获取的输入向量进行归一化处理得到注意力分数，并利用所述注意力分数划分降维桶结构；利用预设不同数量级的注意力分数进行降维桶结构补充；利用降维算法对所述降维桶结构进行降维处理；对降维处理得到的注意力分数进行共享权重更新，得到共享的注意力分数，并经过归一化处理，输出置信度最高的词语作为文本翻译结果。

其中，利用降维桶注意力机制进行特征提取的过程具体可以包括：S1桶划分；S2桶补充；S3降维计算；S4桶归一化；S5顶层共享权重更新。

具体地，所述桶划分的过程可以包括：由于计算普通注意力机制的过程中，使用softmax进行归一化后，得到的注意力分数可以如下：[1.7349562e^-1，4.2673022e^-1，3.8612169e^-1，8.6378390e^-3，1.5820753e^-4，5.8201298e^-5，2.1411061e^-5]，可以明显看出，占当前词语注意力权重的数值分为2个部分，一个是占比重较大的前三个词注意力数值都是10^-1的数量级，而除了前三位后续的注意力打分数值都是可以忽略的10^-3、10^-4甚至更小。因此可以将分数放入两个桶结构中，比如利用1.7349562e^-1，4.2673022e^-1，3.8612169e^-1，8.6378390e^-3这4个分数构建一个高分桶结构，以及剩下所有的注意力分数放入低分桶，以便于能够有效将与当前词语有关的词向量特征进一步强化。

具体地，所述桶补充的具体过程可以包括：由于在桶划分的过程中，为了增强模型的泛化性，有效的让模型学习更多的词语特征，同时避免模型只关注与当前词最有关的词，将最大的10^-3数量级的注意力数值也放入了高分桶，高注意力分值的桶内元素顺序保持原先输入桶注意力层的词语序，可以划分得到与这个词高度相关的桶。通常情况下，由于长文本的词语数量较多，可以选取前32或者前64位的注意力数值进行高分桶词语的选取，并在高分桶中加入小一个数量级别的分数词语。

具体地，所述降维计算的具体过程可以包括：剔除当前词计算注意力分数，重新进行归一化计算。对桶内元素进行归一化处理。将当前词的分数替换成-inf负无穷，这样在归一化计算中，当前词语的分数为0，可以有效降低小量级自注意力机制中本体词所占比重过高的的问题。需要说明的是，本申请中的降维打分机制有效降低了注意力机制带来的高计算复杂度。一般的注意力机制的计算复杂度为O(L²)，其中L为输入文本长度(一般为512，1024)；使用桶划分后，计算复杂度O(1)为常数级别((64-1)*(64-1)，(32-1)*(32-1))。

具体地，所述桶归一化的具体过程可以包括：通过softmax归一化，将所述计算得到的注意力分数进行归一化，以便于进行后续计算处理。具体的softmax归一化公式如下：

具体地，所述共享权重更新的具体过程可以包括：当编码器有6层时，可以在顶层第六层进行共享权重更新。经过桶打分后，在中间编码器的计算过程中，只计算桶注意力分数，在最后一层输入时，将注意力机制进行共享，得到经过降维桶机制共享注意力分数。

对于本发明实施例，所述降维桶内注意力分数的计算过程示例如下：例如，对于获取的一个词语序列，共包括10个词，需要预测第9个词语，如下所示：

9当前词

首先，对所述序列进行桶划分，计算其他词语与当前词语的注意力分数，并分别划入高分桶结构和低分桶结构，所述高分桶结构可以如下所示：

其次，为了避免模型只关注与当前词最有关的词，则选取分数排序靠前的词语补入高分桶结构，具体可以根据需求选择top32或top64的词语，本申请不做明确规定。

再次，对所述高分桶结构进行降维计算，并进行归一化处理。

最后，多层桶注意力分数计算后，进行注意力权重共享更新，输出权重大的词语。

1(更新)

4(更新)

6(更新)

7(更新)

9当前词

需要说明的是，本发明实施例中的残差机制，叠加部分可以为上一层输入与绝对位置编码相加所得到。同时，将位置编码引入残差机制，将自主注意力机制的输出与位置编码相加(output+positional embedding)再进行归一化(normalization)。能够避免向后传播过程中的梯度***与梯度消失的情况。在输入第二层线性变化的激活层前加入上层输入，能够降低抽象表征在解码器做梯度更新的过程中的交叉熵并且加快收敛速率。

另外，还可以通过交叉注意力机制进行解码器和编码器的特征转换。所述交叉注意力机制为NLP任务中常用的解码器编码器特征转换方法。因为翻译任务属于文本生成型任务的一种，因此每一次输出新的字符时候，需要对编码器(encoder)的输出进行加权打分。所述解码器(decoder)原理与编码器基本一致。只是在解码器输入端要对编码进行加权平均后再输入解码器。在解码器顶端将高维度张量做线性变换得到维度与词库长度相同的张量，再经过softmax层将所有词语的可能性归一化，进而找到最高置信度字作为结果输出。在将一种语言的文本输入翻译器后，在解码器端逐字输出翻译后的文本。

在本发明的一个可选实施例，所述方法还包括：利用预设的词向量算法，将待翻译文本中的词语转换为词向量。

其中，所述词向量算法具体可以为预先训练的GloVe词向量训练模型，所述GloVe是一个基于全局词频统计(count-based&overall statistics)的词表征(wordrepresentation)工具，可以利用词与相邻词之间的共现次数来学习词向量，最终得到带有语义信息的词向量表达，具体可以用于将一个单词转换为一个由实数组成的向量，对所述获取的单词进行预训练，获取映射在同一向量空间中的所有单词的词向量，所述单词中包括掩码词(MASK)，词向量维度为D。具体过程可以包括：1)：预设一个语料库，根据语料库构建一个共现矩阵，共现矩阵中的每个元素代表某一个单词在上下文单词中的特定大小的上下窗口内共同出现的次数，具体为根据两个单词在上下文窗口的距离d，定义一个用于计算权重的衰减函数；2)：构建字词向量和共现矩阵之间的近似关系，关系可以用如下公式表示：

其中，

和

是最终要求解的字词向量，是w_i的转置；b_i和是两个字词向量的偏置项；i和j分别表示字词向量的编号，X_ij为输出结果；3)：根据以下公式构造损失函数J：

其中，V代表整个词典库，损失函数J使用的是均方误差，同时添加一个权重函数f(x)；权重函数f(x)的公式如下：

其中，x_max表示某字词另一字词上下文中出现的最高次数，在此可以设置为120，α取值为0.76，经过GloVe词表征工具训练后得到语料库的字词向量表，设定字词向量表表示为：

其中d_v是字词向量的维度，|V|是上面构建的整个字典库的大小；

通过查找字词向量表将原语句数据中的字词映射为向量后，文本语句表示为X＝(x₁，x₂，...，x_n)，

同理，对目标序列中的字词在字词向量表中进行查找，得到向量化后的目标序列：

在本发明的另一个可选实施例，所述方法还可以包括：根据预设的位置编码算法以及所述词向量，得到位置编码向量，并将所述词向量与位置向量拼接为输入向量。

需要说明的是，由于多头注意力机制建模序列的方式，是一种词袋(bag ofwords)的特点，即该机制视一个序列为扁平的结构，不论看上去距离多远的词，在多头注意力机制中都为1。这样的建模方式，实际上会丢失词之间的相对距离关系。例如：“牛吃了草”、“草吃了牛”，“吃了牛草”三个句子建模出来的每个词对应的表示，会是一致的。为了缓解这个问题，本发明实施例在Transformer中将词在句子中所处的位置映射成向量，补充到其嵌入层中去，也就是根据预设的位置编码算法对所述词向量上下文进行处理，得到位置编码向量。考虑到文本翻译任务中使用的是长文本，为了保持文本长距离的记忆，本发明实施例使用相对位置编码。

其中，所述位置编码向量可以随机初始化得到并在模型中训练，或者通过正弦函数或余弦函数来生成。随机初始化得到并在模型中训练的具体过程可以如下：计算上下文中每个字词相对目标序列的位置距离，得到位置距离信息，规定若一个目标序列由多个字词组成，且某上下文属于该目标序列，则该上下文与该目标序列的位置距离为0，通过位置距离信息计算所有上下文字词相对目标序列的位置权重。例如，首先计算目标序列中的首字符在整个原语句数据中上下文的位置，记录其索引号为k，接着计算上下文中每个字词距离该目标序列中的首字符位置的距离，记为l，假设目标序列的总长度为m，距离计算公式如下：

其中，l_i表示当前上下文中的第i个字词距离目标序列的距离。

如上述公式中所示，在目标序列左侧的上下文的距离均小于0，在目标序列右侧的上下文的距离均大于0，而在目标序列中间的所有字词的距离均设置为0，文本语句中每个字词距离目标序列的位置权重可由以下公式计算：

其中，n为文本的总长度，m为目标序列的总长度，|l_i|为距离的绝对值，w_i表示原语句中第i个字词距离目标序列的位置权重。

另外，所述通过正弦函数或余弦函数来生成位置向量可以包括：

其中，如果词嵌入的长度为d_pos，则需要构造一个长度同样为d_pos的位置编码向量PE。其中p表示词的位置，PE_i(p)表示第p个词位置向量中的第i个元素的值，然后将词向量与位置向量直接相加。该位置编码不仅仅包含了绝对位置信息，由sin(α+β)＝sinαcosβ+cosαsinβ以及cos(α+β)＝cosαcosβ-sinαsinαβ，这意味着p+k的位置向量可表示为位置p位置向量的线性变换，使得相对位置信息也得到了表达。在得到词向量与位置编码向量之后，将两者相加可以得到每个单词的输入向量X_embedding。

在本发明的又一个可选实施例，所述方法还可以包括：对所述输入向量进行因式分解处理，得到所述输入向量的双向信息。

其中，具体因式分解的过程可以包括：给定长度为T的序列xx，总共有T！种排列方法，也就对应T！种链式分解方法。例如，给定序列x＝x₁x₂x₃，那么一共可以有3！＝6种分解方法，分别是：

p(x)＝p(x₁)p(x₂|x₁)p(x₃|x₁x₂)→1→2→3

p(x)＝p(x₁)p(x₂|x₁x₃)p(x₃|x₁)→1→3→2

p(x)＝p(x₁|x₂)p(x₂)p(x₃|x₁x₂)→2→1→3

p(x)＝p(x₁|x₂x₃)p(x₂)p(x₃|x₂)→2→3→1

p(x)＝p(x₁|x₃)p(x₂|x₁x₃)p(x₃)→3→1→2

p(x)＝p(x₁|x₁x₃)p(x₂|x₃)p(x₃)→3→2→1

其中，p(x₂|x₁x₃)指的是第一个词是x₁并且第三个词是x₃的条件下第二个词是x₂的概率，也就是说原来词的顺序是保持的。翻译器遍历T！种分解方法，并且这个模型的参数是共享的，那么这个模型应该就能学习到各种上下文。普通的从左到右或者从右往左的语言模型只能学习一种方向的依赖关系，比如先“猜”一个词，然后根据第一个词“猜”第二个词，根据前两个词“猜”第三个词，……。而排列语言模型会学习各种顺序的猜测方法，比如上面的最后一个式子对应的顺序3→1→2，它是先“猜”第三个词，然后根据第三个词猜测第一个词，最后根据第一个和第三个词猜测第二个词。需要说明的是，在获得因式分解序列后，在此使用mask掩码机制不是为了将其作为预测词语而是为了让其不参与此序列的预测。也就是通过每一次mask一个单词，依据上下文进行预测，再随机mask另外一个单词，依据上下文进行预测，直至所有单词都被mask，并且被预测完成。从而得到预训练模型。

需要说明的是，上述因式分解步骤可以在模型预训练时执行，由于所述降维桶模型的本质是由降维桶自注意力机制构建的Bert模型，而Bert模型在预训练时，需要经过Masked LM过程，即通过mask掩码词预测，调整模型参数，得到预训练后的降维桶模型。而由于掩码词语是相互独立的，也就是说，Bert模型是15％的词语掩码后，通过剩余85％的词语预测15％的掩码，而忽略了上下文语义关系。因此，本发明实施例通过因式分解处理，能够把所有上下文词语都包括在训练过程中，从而提高模型的精度。

在本发明的再一个可选实施例，所述方法还包括：根据Bert模型，以及所述输入向量的双向信息，训练降维桶模型。

对于本发明实施例，由于传统autoregressive模型是单向推断的，而Bert模型是双向推断。因此，综合两者的优点并且考虑到所述Bert模型在预训练任务中的掩码机制的弊端，在下游任务微调中并不会出现mask，因此可以采用因式分解的方法，在语序保持不变的情况下，通过随机选择词语前后在attention长度限制以内的85％的词语作为语境嵌入(contextual embedding)。另外，通过降维桶注意力机制构建的Bert模型能够解决NLP翻译任务中超长文本深度语义传递的问题，通过降低计算复杂，扩充单次输入模型的文本长度。

本发明提供一种基于降维桶模型的文本翻译方法，与现有技术以通过自注意力机制进行文本数据翻译相比，本发明通过接收文本翻译请求，所述请求中携带有待翻译文本数据；通过降维桶算法对所述待翻译文本数据进行处理，将输出的置信度最高的词语确定为文本翻译结果；利用所述文本翻译结果响应所述文本翻译请求。从而能够通过引入降维桶算法，解决NLP翻译任务中长文本深度语义传递的问题，通过降低计算复杂度，扩充单次输入文本长度，提高翻译结果准确性和翻译效率。

进一步地，作为图1的具体实现，本发明实施例提供了一种基于降维桶模型的文本翻译装置，如图2所示，所述装置包括：接收单元21、处理单元22和响应单元23。

所述接收单元21，可以用于接收文本翻译请求，所述请求中携带有待翻译文本数据；

所述处理单元22，可以用于通过降维桶算法对所述待翻译文本数据进行处理，将输出的置信度最高的词语确定为文本翻译结果；

所述响应单元23，可以用于利用所述文本翻译结果响应所述文本翻译请求。

所述处理单元22具体可以用于利用预先训练的降维桶模型对所述待翻译文本数据进行处理，将输出的置信度最高的词语确定为文本翻译结果。

进一步地，所述处理单元22，包括：

划分模块221，可以用于根据获取的输入向量进行归一化处理得到注意力分数，并利用所述注意力分数划分降维桶结构；

补充模块222，可以用于利用预设不同数量级的注意力分数进行降维桶结构补充；

降维模块223，可以用于利用降维算法对所述降维桶结构进行降维处理；

更新模块224，可以用于对降维处理得到的注意力分数进行共享权重更新，得到共享的注意力分数，并经过归一化处理，输出置信度最高的词语作为文本翻译结果。

进一步地，所述装置还包括：

转换单元24，可以用于利用预设的词向量算法，将待翻译文本中的词语转换为词向量。

进一步地，所述装置还包括：

拼接单元25，可以用于根据预设的位置编码算法以及所述词向量，得到位置编码向量，并将所述词向量与位置向量拼接为输入向量。

进一步地，所述装置还包括：

分解单元26，可以用于对所述输入向量进行因式分解处理，得到所述输入向量的双向信息。

进一步地，所述装置还包括：

训练单元27，可以根据Bert模型，以及所述输入向量的双向信息，训练降维桶模型。

需要说明的是，本发明实施例提供的一种基于降维桶模型的文本翻译装置所涉及各功能模块的其他相应描述，可以参考图1所示方法的对应描述，在此不再赘述。

基于上述如图1所示方法，相应的，本发明实施例还提供了一种存储介质，所述存储介质中存储有至少一可执行指令，所述执行指令使处理器执行以下步骤：接收文本翻译请求，所述请求中携带有待翻译文本数据；通过降维桶算法对所述待翻译文本数据进行处理，将输出的置信度最高的词语确定为文本翻译结果；利用所述文本翻译结果响应所述文本翻译请求。

基于上述如图1所示方法和如图2所示装置的实施例，本发明实施例还提供了一种计算机设备，如图3所示，处理器(processor)31、通信接口(Communications Interface)32、存储器(memory)33、以及通信总线34。其中：处理器31、通信接口32、以及存储器33通过通信总线34完成相互间的通信。通信接口34，用于与其它设备比如用户端或其它服务器等的网元通信。处理器31，用于执行程序，具体可以执行上述基于降维桶模型的文本翻译方法实施例中的相关步骤。具体地，程序可以包括程序代码，该程序代码包括计算机操作指令。处理器31可能是中央处理器CPU，或者是特定集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

终端包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。存储器33，用于存放程序。存储器33可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。程序具体可以用于使得处理器31执行以下操作：接收文本翻译请求，所述请求中携带有待翻译文本数据；通过降维桶算法对所述待翻译文本数据进行处理，将输出的置信度最高的词语确定为文本翻译结果；利用所述文本翻译结果响应所述文本翻译请求。

通过本发明的技术方案，能够通过接收文本翻译请求，所述请求中携带有待翻译文本数据；通过降维桶算法对所述待翻译文本数据进行处理，将输出的置信度最高的词语确定为文本翻译结果；利用所述文本翻译结果响应所述文本翻译请求。从而通过引入降维桶算法，解决NLP翻译任务中长文本深度语义传递的问题，通过降低计算复杂度，扩充单次输入文本长度，提高翻译结果准确性和翻译效率。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

16页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：基于同义词数据增强的汉越神经机器翻译方法

基于降维桶模型的文本翻译方法及装置

相关技术

网友询问留言