一种基于transformer注意力机制输出的优化对齐方法

文档序号：1556963 发布日期：2020-01-21 浏览：11次 >En<

阅读说明：本技术 一种基于transformer注意力机制输出的优化对齐方法 (Optimal alignment method based on transformer attention mechanism output ) 是由闫明明陈绪浩李迅波罗华成赵宇段世豪于 2019-09-27 设计创作，主要内容包括：本发明公开了一种基于transformer注意力机制输出的优化对齐方法；应用在基于注意力机制的transformer框架模型上。包括：注意力机制函数的输入是源语言与目标语言的词向量Q、K,在翻译框架中会输出一个对齐张量输出,使用多个注意力机制函数可以输出多个对齐张量输出,并且由于计算过程中有随机参数的变化,所以每个输出是不同的。对多个对齐张量输出先求出他们各自的二范数值Ti,然后使用余弦相似度公式来计算最优值；得到的最优值作为最终输出的对齐张量参与整个翻译过程。引入正则化的计算方式,可以计算出多个输出的最恰当的输出,能够有效的提升注意力机制函数的对齐效果,提高翻译效果与分值。该算法可以应用于所有含有注意力机制的模型,不需要修改模型框架。(The invention discloses an optimized alignment method based on transformer attention mechanism output; the method is applied to a transformer frame model based on an attention mechanism. The method comprises the following steps: the input to the attention mechanism function is the word vector Q, K in the source and target languages, one alignment tensor output is output in the translation framework, multiple alignment tensor outputs can be output using multiple attention mechanism functions, and each output is different due to the variation of random parameters in the calculation process. Firstly, respective two-norm values Ti of a plurality of alignment tensor outputs are obtained, and then a cosine similarity formula is used for calculating an optimal value; and the obtained optimal value is used as the finally output alignment tensor to participate in the whole translation process. By introducing a regularization calculation mode, the most appropriate output of a plurality of outputs can be calculated, the alignment effect of the attention mechanism function can be effectively improved, and the translation effect and the score are improved. The algorithm can be applied to all models with attention mechanism, and the model framework does not need to be modified.)

技术领域

本发明涉及的神经机器翻译，具体来讲是一种基于transformer注意力机制输出的优化对齐方法。

背景技术

神经网络机器翻译是最近几年提出来的一种机器翻译方法。相比于传统的统计机器翻译而言，神经网络机器翻译能够训练一张能够从一个序列映射到另一个序列的神经网络，输出的可以是一个变长的序列，这在翻译、对话和文字概括方面能够获得非常好的表现。神经网络机器翻译其实是一个编码-译码系统，编码把源语言序列进行编码，并提取源语言中信息，通过译码再把这种信息转换到另一种语言即目标语言中来，从而完成对语言的翻译。

而该模型在产生输出的时候，会产生一个注意力范围来表示接下来输出的时候要重点关注输入序列的哪些部分，然后根据关注的区域来产生下一个输出，如此反复。注意力机制和人的一些行为特征有一定相似之处，人在看一段话的时候，通常只会重点注意具有信息量的词，而非全部词，即人会赋予每个词的注意力权重不同。注意力机制模型虽然增加了模型的训练难度，但提升了文本生成的效果。在该专利中，我们就是在注意力机制函数中进行改进。

自2013年提出了神经机器翻译系统之后，随着计算机的计算力发展的迅速，神经机器翻译也得到了迅速的发展，先后提出了seq-seq模型，transformer模型等等，2013年，Nal Kalchbrenner和Phil Blunsom提出了一种用于机器翻译的新型端到端编码器-解码器结构。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量，然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。2017年谷歌发布了一种新的机器学习模型Transformer，该模型在机器翻译及其他语言理解任务上的表现远远超越了现有算法。

Seq2seq框架，全称Sequence to Sequence。它是一种通用的编码器——解码器框架，可用于机器翻译、文本摘要、会话建模、图像字幕等场景中。Seq2Seq并不是GNMT(GoogleNeural Machine Translation)系统的官方开源实现。框架的目的是去完成更广泛的任务，而神经机器翻译只是其中之一。

传统技术存在以下技术问题：

在注意力机制函数对齐过程中，现有的框架是先计算输入的两个句子词向量的相似度，再进行一系列计算得到对齐函数。而每个对齐函数在计算时会输出一遍，再以该次的输出作为下次的输入进行计算。这样单个线程的计算，很有可能导致误差的累积。我们引进正则化计算方法，就是为了找出多个计算过程中的最优解。达到最佳翻译效果。

发明内容

因此，为了解决上述不足，本发明在此提供一种基于transformer注意力机制输出的优化对齐方法。

本发明是这样实现的，构造一种基于transformer注意力机制输出的优化对齐方法，应用基于注意力机制的transformer模型中，其特征在于；包括：在翻译过程中计算源语言与目标语言输入句子的词向量，同时得到多个函数输出输出(i)；

对多个输出输出计算张量的二范数得到T(i)，将多个输出(i)按照公式进行正则化处理

得到的输出作为最终输出。

根据本发明所述一种基于transformer注意力机制输出的优化对齐方法，其特征在于；具体按照如下方式实现；

第一步：生成该时刻语义向量

s_t＝tanh(W[s_t-1,y_t-1])

e_ti＝s_tW_ah_i

第二步：传递隐层信息并预测

将源语言与目标语言的词向量的张量Q，K作为计算的初始量，计算出多个注意力函数的输出，多个输出中因为各参数矩阵的原因，必有各自误差，我们将各输出进行正则化约束运算得到最终输出,最后将距离代入output进行计算：过程如下：

步骤1：令隐藏层输出向量为ki，进行点积运算QKt，得到Si.

步骤2：进行softmax归一化，得到Ai对齐权重，计算公式为；

步骤3：得将ai与Vi进行相乘，得到attention(Q，K，V)，计算公式为

步骤4：重复计算多次attention函数。得到output1，output2、、、、、、output(i)；

步骤5：将得到的output1，output2、、、、、、output(i)，按照计算公式得到

Output即是我们得到的最终输出；

步骤6：最终输出参与后续运算。

本发明具有如下优点：本发明涉及一种基于transformer注意力机制输出的优化对齐方法。应用在基于注意力机制的transformer框架模型上。包括：注意力机制函数的输入是源语言与目标语言的词向量Q、K，在翻译框架中会输出一个对齐张量输出，使用多个注意力机制函数可以输出多个对齐张量输出，并且由于计算过程中有随机参数的变化，所以每个输出是不同的。对多个对齐张量输出先求出他们各自的二范数值Ti(i＝0，1，2.......)，然后使用余弦相似度公式来计算最优值

得到的最优值作为最终输出的对齐张量参与整个翻译过程。引入正则化的计算方式，可以计算出多个输出的最恰当的输出，能够有效的提升注意力机制函数的对齐效果，提高翻译效果与分值。该算法可以应用于所有含有注意力机制的模型，不需要修改模型框架。

具体实施方式

下面将对本发明进行详细说明，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明通过改进在此提供一种基于transformer注意力机制输出的优化对齐方法，应用基于注意力机制的transformer模型中，其特征在于；包括：在翻译过程中计算源语言与目标语言输入句子的词向量，同时得到多个函数输出输出(i)；

对多个输出输出计算张量的二范数得到T(i)，将多个输出(i)按照公式进行正则化处理得到的输出作为最终输出。

transformer框架介绍：

Encoder:由6个相同的layers组成,每一层包含两个sub-layers.第一个sub-layer就是多头注意力层然后是一个简单的全连接层。其中每个sub-layer都加了残差连接和归一)。

Decoder:由6个相同的Layer组成，但这里的layer和encoder不一样，这里的layer包含了三个sub-layers,其中有一个self-attention layer,encoder-decoder attentionlayer最后是一个全连接层。前两个sub-layer都是基于multi-head attention layer。这里有个特别点就是masking,masking的作用就是防止在训练的时候使用未来的输出的单词。

注意力模型：

encoder-decoder模型虽然非常经典，但是局限性也非常大。较大的局限性就在于编码和解码之间的联系就是一个固定长度的语义向量C。也就是说，编码器要将整个序列的信息压缩进一个固定长度的向量中去。但是这样做有两个弊端，一是语义向量无法完全表示整个序列的信息，二是先输入的内容携带的信息会被后输入的信息稀释掉。输入序列越长，这个现象就越严重。这就使得在解码的时候一开始就没有获得输入序列足够的信息，那么解码时准确率就要打一定折扣。

为了解决上述问题，在Seq2Seq出现一年之后，注意力模型被提出了。该模型在产生输出的时候，会产生一个注意力范围来表示接下来输出的时候要重点关注输入序列的哪些部分，然后根据关注的区域来产生下一个输出，如此反复。注意力和人的一些行为特征有一定相似之处，人在看一段话的时候，通常只会重点注意具有信息量的词，而非全部词，即人会赋予每个词的注意力权重不同。注意力模型虽然增加了模型的训练难度，但提升了文本生成的效果。

第一步：生成该时刻语义向量

s_t＝tanh(W[s_t-1,y_t-1])

e_ti＝s_tW_ah_i

第二步：传递隐层信息并预测

在此的改进就是在注意力函数中修改。

步骤1：令隐藏层输出向量为ki，进行点积运算QKt，得到Si.

步骤2：进行softmax归一化，得到Ai对齐权重，计算公式为

步骤3：得将ai与Vi进行相乘，得到attention(Q，K，V)，计算公式为

步骤4：重复计算多次attention函数；得到output1，output2、、、、、、output(i)。

步骤5：将得到的output1，output2、、、、、、output(i)，按照计算公式得到

Output即是我们得到的最终输出。

步骤6：最终输出参与后续运算。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

6页详细技术资料下载

一种基于transformer注意力机制输出的优化对齐方法

相关技术

网友询问留言