一种基于transformer的距离参量对齐翻译方法

文档序号：1556962 发布日期：2020-01-21 浏览：18次 >En<

阅读说明：本技术 一种基于transformer的距离参量对齐翻译方法 (Distance parameter alignment translation method based on transformer ) 是由闫明明陈绪浩李迅波罗华成赵宇段世豪于 2019-09-27 设计创作，主要内容包括：发明公开了一种基于transformer的距离参量对齐翻译方法,应用在基于注意力机制的transformer框架模型上；包括：在训练过程中将注意力机制输入的两种语言的词向量进行计算,得到一个相对距离参量的张量；对此距离张量进行归一化,得到计算规格的新的距离张量。该张量可以参与到注意力机制函数的输出对齐张量的计算中,源语言与目标语言的翻译中,对齐的句子之间词向量的距离代表它们的差异程度,故引入距离参量加入对齐函数的计算,可以有效的加大不同词的对齐概率差异,使得对齐更有效。上述带有距离权重机制的神经翻译方法,能够有效的提升注意力函数的对齐效果,提高翻译效果与分值。该算法可以应用于所有含有注意力机制的模型,不需要修改模型框架。(The invention discloses a distance parameter alignment translation method based on a transformer, which is applied to a transformer frame model based on an attention mechanism; the method comprises the following steps: calculating word vectors of two languages input by an attention mechanism in a training process to obtain a tensor of a relative distance parameter; the distance tensor is normalized to obtain a new distance tensor of the calculation specification. The tensor can participate in the calculation of the output alignment tensor of the attention mechanism function, and in the translation of a source language and a target language, the distance of word vectors between aligned sentences represents the difference degree of the words, so that the distance parameter is introduced to the calculation of the alignment function, the alignment probability difference of different words can be effectively increased, and the alignment is more effective. The neural translation method with the distance weight mechanism can effectively improve the alignment effect of the attention function and improve the translation effect and the score. The algorithm can be applied to all models with attention mechanism, and the model framework does not need to be modified.)

技术领域

本发明涉及的神经机器翻译，具体来讲是一种涉及带有距离权重机制的神经机器翻译方法。

背景技术

神经网络机器翻译是最近几年提出来的一种机器翻译方法。相比于传统的统计机器翻译而言，神经网络机器翻译能够训练一张能够从一个序列映射到另一个序列的神经网络，输出的可以是一个变长的序列，这在翻译、对话和文字概括方面能够获得非常好的表现。神经网络机器翻译其实是一个编码-译码系统，编码把源语言序列进行编码，并提取源语言中信息，通过译码再把这种信息转换到另一种语言即目标语言中来，从而完成对语言的翻译。

自2013年提出了神经机器翻译系统之后，随着计算机的计算力发展的迅速，神经机器翻译也得到了迅速的发展，先后提出了seq-seq模型，transformer模型等等，2013年，Nal Kalchbrenner和Phil Blunsom提出了一种用于机器翻译的新型端到端编码器-解码器结构。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量，然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。2017年谷歌发布了一种新的机器学习模型Transformer，该模型在机器翻译及其他语言理解任务上的表现远远超越了现有算法。框架的目的是去完成更广泛的任务，而神经机器翻译只是其中之一。

传统技术存在以下技术问题：

在注意力函数对齐过程中，现有的框架是先计算输入的两个句子词向量的相似度，再进行一系列计算得到对齐函数。在此过程中，并没有用到相对距离引入计算，缺少了词向量距离在对齐函数的参与。如我们在计算“吃”与“eat”的对齐度时，他们的词向量距离基本为0，计算“吃”与“距离”的对齐度时，他们的词向量距离就很大，我们引入词向量距离，就能够加大对齐度的差异，使得相似的单词对应度更高，不相似的单词对齐度更低，使翻译效果更好。

发明内容

因此，为了解决上述不足，本发明在此提供一种基于transformer的距离参量对齐翻译方法。

本发明是这样实现的，构造一种基于transformer的距离参量对齐翻译方法，应用基于注意力机制的transformer模型中，其特征在于；包括：在翻译过程中计算源语言与目标语言输入句子的词向量距离，得到一个距离张量；计算出距离参量带入计算过程；

将距离张量引入到注意力机制中计算，注意力的输出对齐张量减去一部分距离张量，得到效率更高的输出对齐张量；能够有效提高对齐的效果，提高翻译分值。

根据本发明所述一种基于transformer的距离参量对齐翻译方法，其特征在于；具体按照如下方式实施；

第一步：生成该时刻语义向量

s_t＝tanh(W[s_t-1,y_t-1])

e_ti＝s_tW_ah_i

第二步：传递隐层信息并预测

将源语言与目标语言的词向量的张量Q，K作为计算的初始量，计算Q与K的欧式距离，得到的是一个张量距离；对距离张量进行归一化函数归一化，得到新的距离张量距离,最后将距离代入output进行计算：过程如下：

步骤1：令隐藏层输出向量为ki，进行点积运算QKt，得到Si.

步骤2：进行softmax归一化，得到Ai对齐权重，计算公式为

步骤3：再计算目标语言单词词向量zj与源语言单词词向量vi向量相减,输出的向量进行softmax函数归一化得到距离张量hi；

步骤4：引入距离张量进行计算，得到改进后的对齐权重ai,计算公式为ai＝Ai-0.5hi；

步骤5：得将ai与Vi进行相乘，得到attention(Q，K，V)，计算公式为

步骤6：重复1-5步骤计算6次，得到我们最终输出矩阵；

步骤7：最终输出矩阵参与后续运算。

本发明具有如下优点：本发明涉及一种基于transformer的距离参量对齐翻译方法，应用在基于注意力机制的transformer框架模型上；包括：在训练过程中将注意力机制输入的两种语言的词向量进行计算(不同的计算方式可以得到不同的相对词向量距离)，得到一个相对距离参量的张量；对此距离张量进行归一化，得到计算规格的新的距离张量。该张量可以参与到注意力机制函数的输出对齐张量的计算中，源语言与目标语言的翻译中，对齐的句子之间词向量的距离代表它们的差异程度，故引入距离参量加入对齐函数的计算，可以有效的加大不同词的对齐概率差异，使得对齐更有效。上述带有距离权重机制的神经翻译方法，能够有效的提升注意力函数的对齐效果，提高翻译效果与分值。该算法可以应用于所有含有注意力机制的模型，不需要修改模型框架。

具体实施方式

下面对本发明进行详细说明，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明通过改进在此提供一种基于transformer的距离参量对齐翻译方法，应用基于注意力机制的transformer模型中，其特征在于，包括：

在翻译过程中计算源语言与目标语言输入句子的词向量距离，得到一个距离张量；计算出距离参量带入计算过程。

transformer框架介绍：

Encoder:由6个相同的layers组成,每一层包含两个sub-layers.第一个sub-layer就是多头注意力层然后是一个简单的全连接层。其中每个sub-layer都加了残差连接和归一)。

Decoder:由6个相同的Layer组成，但这里的layer和encoder不一样，这里的layer包含了三个sub-layers,其中有一个self-attention layer,encoder-decoder attentionlayer最后是一个全连接层。前两个sub-layer都是基于multi-head attention layer。这里有个特别点就是masking,masking的作用就是防止在训练的时候使用未来的输出的单词。

注意力模型：

原本的encoder-decoder模型虽然非常经典，但是局限性也非常大。较大的局限性就在于编码和解码之间的联系就是一个固定长度的语义向量C。也就是说，编码器要将整个序列的信息压缩进一个固定长度的向量中去。但是这样做有两个弊端，一是语义向量无法完全表示整个序列的信息，二是先输入的内容携带的信息会被后输入的信息稀释掉。输入序列越长，这个现象就越严重。这就使得在解码的时候一开始就没有获得输入序列足够的信息，那么解码时准确率就要打一定折扣。

为了解决上述问题，注意力模型被提出了。该模型在产生输出的时候，会产生一个注意力范围来表示接下来输出的时候要重点关注输入序列的哪些部分，然后根据关注的区域来产生下一个输出，如此反复。注意力和人的一些行为特征有一定相似之处，人在看一段话的时候，通常只会重点注意具有信息量的词，而非全部词，即人会赋予每个词的注意力权重不同。注意力模型虽然增加了模型的训练难度，但提升了文本生成的效果。

第一步：生成该时刻语义向量

s_t＝tanh(W[s_t-1,y_t-1])

e_ti＝s_tW_ah_i

第二步：传递隐层信息并预测

在此的改进就是在注意力函数中修改。

步骤1：令隐藏层输出向量为ki，进行点积运算QKt，得到Si.

步骤2：进行softmax归一化，得到Ai对齐权重，计算公式为

步骤3：再计算目标语言单词词向量zj与源语言单词词向量vi向量相减,输出的向量进行softmax函数归一化得到距离张量hi。

步骤4:引入距离张量进行计算，得到改进后的对齐权重ai,计算公式为ai＝Ai-0.5hi；

步骤5：得将ai与Vi进行相乘，得到attention(Q，K，V)，计算公式为

步骤6：重复1-5步骤计算6次，得到我们最终输出矩阵。

步骤7：最终输出矩阵参与后续运算。

本发明涉及一种基于transformer的距离参量对齐翻译方法，应用在基于注意力机制的transformer框架模型上；包括：在训练过程中将注意力机制输入的两种语言的词向量进行计算(不同的计算方式可以得到不同的相对词向量距离)，得到一个相对距离参量的张量；对此距离张量进行归一化，得到计算规格的新的距离张量。该张量可以参与到注意力机制函数的输出对齐张量的计算中，源语言与目标语言的翻译中，对齐的句子之间词向量的距离代表它们的差异程度，故引入距离参量加入对齐函数的计算，可以有效的加大不同词的对齐概率差异，使得对齐更有效。上述带有距离权重机制的神经翻译方法，能够有效的提升注意力函数的对齐效果，提高翻译效果与分值。该算法可以应用于所有含有注意力机制的模型，不需要修改模型框架。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

6页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种基于transformer注意力机制输出的优化对齐方法

一种基于transformer的距离参量对齐翻译方法

相关技术

网友询问留言