一种基于知识图谱的蒙汉非自回归机器翻译方法

文档序号:1846599 发布日期:2021-11-16 浏览:12次 >En<

阅读说明:本技术 一种基于知识图谱的蒙汉非自回归机器翻译方法 (Knowledge graph-based Mongolian non-autoregressive machine translation method ) 是由 苏依拉 程永坤 王涵 张妍彤 仁庆道尔吉 吉亚图 于 2021-07-14 设计创作,主要内容包括:一种基于知识图谱的蒙汉非自回归机器翻译方法,通过知识图谱三元组构建蒙汉双语命名实体语义网,并基于多特征对齐构建命名实体词典;然后借助知识图谱三元组表示蒙古语稀有词组成分布并进行稀有词切分,过程中进行交互式增强生成对抗训练,并添加交互信息指导生成对抗,得到全面的稀有词知识图谱三元组集;对经过处理之后的蒙汉平行语料库进行知识蒸馏,在教师模型通过知识蒸馏为学生模型提取语料时,构建蒙汉平行语料库的知识图谱;在进行非自回归机器翻译时,利用知识图谱作为投影矩阵训练集,经过双向嵌入映射共同训练得到投影矩阵,并进行解码信息润色。本发明可在保证翻译速率提高的前提下,提高机器翻译的译文质量。(A knowledge graph-based Mongolian Chinese non-autoregressive machine translation method comprises the steps of constructing a Mongolian Chinese bilingual named entity semantic net through knowledge graph triples, and constructing a named entity dictionary based on multi-feature alignment; then expressing the composition distribution of Mongolian rare words by means of knowledge map triples, segmenting the rare words, performing interactive enhancement to generate confrontation training in the process, adding interactive information to guide the confrontation generation, and obtaining a comprehensive rare word knowledge map triplet set; knowledge distillation is carried out on the processed Mongolian Chinese parallel corpus, and a knowledge graph of the Mongolian Chinese parallel corpus is constructed when a teacher model extracts corpora for a student model through knowledge distillation; when non-autoregressive machine translation is carried out, a knowledge graph is used as a projection matrix training set, a projection matrix is obtained through bidirectional embedding mapping co-training, and decoding information is performed for color enhancement. The invention can improve the translation quality of machine translation on the premise of ensuring the improvement of the translation rate.)

一种基于知识图谱的蒙汉非自回归机器翻译方法

技术领域

本发明属于机器翻译技术领域,特别涉及一种基于知识图谱的蒙汉非自回归机器翻译方法。

背景技术

机器翻译(MT)是利用计算机将一种语言自动翻译到另外一种语言,且转换过程中保持含义不变。现有的机器翻译模型研究多是以自回归机器翻译模型(AT)进行研究,比如现如今研究热点模型Transformer,该模型的出现以其高效的编码效率,多层的注意力效果叠加使的翻译质量得到大幅度提升。但是Transformer模型本身存在着:Exposure Bias(错误传递性)和解码器不能并行解码情况,这大大浪费了GPU的计算资源,使的翻译效果达不到研究者的理想状态。

考虑到现有的自回归机器翻译模型不能充分的利用GPU的计算能力,基于此提出利用非自回归机器翻译模型(NAT),它能充分的利用GPU的计算能力,使翻译的速度效率提高7.2倍左右。但是非自回归机器翻译模型本身也因为过快的翻译,引发了连续性重复翻译和漏译现象,这是因为在解码时并行解码,使得目标序列之间纯独立性并行解码,而缺失了目标序列间的依赖性。

目前,针对非自回归机器翻译提出一系列的方法进行改进,引入隐变量、迭代翻译、知识蒸馏等技术。但由于种种原因并未取得理想的效果,因此本文提出了将知识图谱(KG)引入非自回归机器翻译中,借助知识图谱构建形成蒙汉平行语料库的语义网人性化的润色翻译的译文,最终达到翻译高速率,质量高质化的目标。

发明内容

为了克服上述现有技术的缺点,本发明的目的在于提供一种基于知识图谱的蒙汉非自回归机器翻译方法,旨在保证翻译速率提高的前提下,提高机器翻译的译文质量。

为了实现上述目的,本发明采用的技术方案是:

一种基于知识图谱的蒙汉非自回归机器翻译方法,包括如下步骤:

步骤1,通过知识图谱三元组构建蒙汉双语命名实体语义网,以充分利用命名实体的上下文信息,其中所述命名实体为未登录词一部分且被知识图谱三元组表示,结合蒙汉双语命名实体的互信息特征、音译特征和同现特征进行多特征对齐,构建命名实体词典;

步骤2,利用现有蒙古语词干表和蒙古语词缀表,借助知识图谱三元组来表示蒙古语稀有词组成分布,即将知识图谱三元组(subject,relate,object)变成(词干,词缀,词),利用Transformer-CRF算法进行稀有词切分,在稀有词切分与知识图谱稀有词生成过程中进行交互式增强生成对抗训练,并添加交互信息Flag指导生成对抗,最终通过生成对抗Softmax输出值0或者1配合Flag取值-1或者1来反向指导稀有词知识图谱三元组的构建,得到全面的稀有词知识图谱三元组集;

步骤3,对经过步骤1和步骤2处理之后的蒙汉平行语料库进行知识蒸馏,在教师模型通过知识蒸馏为学生模型提取语料时,构建蒙汉平行语料库的知识图谱;

步骤4,在进行非自回归机器翻译时,利用步骤3构建的知识图谱作为投影矩阵训练集,经过双向嵌入映射共同训练得到投影矩阵先由源语言嵌入线性映射,然后经投影矩阵到目标嵌入层,转换成解码器输入信息作为解码器润色层模块的润色来源,在润色层模块中将映射得到的信息和传递层模块输出信息融合,由迭代回泽模型进行翻译来反向指导隐藏状态的属性,进行最后的解码信息润色。

与现有技术相比,本发明的有益效果是:

(1)、本发明针对未登录词中命名实体对齐问题,提出利用知识图谱构建命名实体语义网可以很好的利用命名实体的上下文信息,在此基础上结合双语命名实体的互信息特征,音译特征和共现特征来进行多特征对齐,取得了目前命名实体对齐方法中最优异的成果。

(2)、本发明针对稀有词问题,提出利用知识图谱三元组进行构建蒙古语稀有词形态组成结构,词干,词缀,词用三元组subject,relate,object表示。考虑到蒙古语词缀有限,词干复杂而多变,因此本发明提出在训练时首先利用Transformer-CRF进行稀有词切分,再结合构建出来的稀有词知识图谱三元组进行生成对抗网络的训练,并提出添加一个交互性信息Flag进行反向指导切分和生成过程,此时的生成对抗网络不仅仅是一个对抗的博弈过程,在生成对抗输出结果后根据Softmax的取值结合交互信息Flag会构建更多的稀有词知识图谱三元组集,从而更好的反向指导切分的过程。最终的理想目标是将所有的稀有词用知识图谱三元组进行构建。

(3)、在进行教师模型通过知识图谱提取序列知识为学生模型训练时,本发明也引入了知识图谱对蒙古语和汉语进行双语知识图谱三元组构建对齐,借助知识图谱的推理能力和人性化的分析能力在后面的研究中来优化解码目标。

(4)、本发明针对目前的非自回归解码器的输入信息不全面,提出利用双向映射的方法共同训练一个投影矩阵即在源语言嵌入后将嵌入矩阵Ex映射到目标嵌入层空间,转变成目标嵌入矩阵Ey,反过来同理,最终是通过上述的双方向映射过程来共同学习一个投影矩阵将Ex转变成Ey,将转换后的信息Ey作为解码器的输入也是润色层的直接融合信息之一。

(5)、本发明在对非自回归模型解码器的结构也进行了修改,从下往上主要分为,嵌入层模块,传递层模块,润色层模块,顶层模块。其中最重要优化点在于润色层模块,考虑到非自回归解码器在解码时目标语言信息纯独立进行解码会出现多峰问题,故本发明在解码信息即将进入到最后一层顶层模块时在润色层模块对传递信息进行修改,首先是将通过投影矩阵映射嵌入的解码信息在润色层与传递层模块输出的信息进行融合,在接下来的隐藏状态层通过一个迭代回泽模型进行生成对抗,即在对抗训练过程中使隐藏状态信息得到补全和重叠部分消除。

(6)、本发明借助知识图谱技术构建出双语命名实体对齐词典,更是通过生成对抗训练出一个好的稀有词知识图谱三元组集合来指导以后的稀有词的切分,解决了未登录词的问题。

附图说明

图1是本发明整体框架结构图。

图2多特征命名实体对齐结构图。

图3Transformer-CRF词切分结构图。

图4交互式生成对抗结构图。

图5基于Transformer的非自回归翻译模型结构。

图6自回归翻译模型Transformer结构图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

首先本发明从所用的语料库中拿出一对平行句子 “两个村隔一条河”作为下面流程的实例。

如图1所示,本发明一种基于知识图谱的蒙汉非自回归机器翻译方法,包括如下步骤:

步骤1,通过知识图谱三元组构建蒙汉双语命名实体语义网,其中命名实体为未登录词的一部分被知识图谱三元组表示。本发明针对命名实体对齐问题,引入了知识图谱三元组对命名实体进行构建形成以命名实体为中心的上下文语义网,可以很好的利用命名实体上下文信息进行对齐。

在此基础上,结合蒙汉双语命名实体的互信息特征、音译特征和同现特征进行多特征对齐,构建命名实体词典。

参考图2,结合命名实体的互信息特征即联系程度,命名实体互信息计算公式如下所示,借助频率也可计算其对应概率,计算相似度公式如下所示:

其中,α表示汉语命名实体,β表示蒙古语命名实体,Scorem(α,β)表示α与β的互信息特征相似度,I(Asou,Atar)表示Asou,Atar的互信息,Asou,Atar分别表示蒙古语和汉语片段,p(Asou,Atar)表示Asou,Atar在上下文中共现概率,p(Asou),p(Atar)分别表示Asou,Atar的独立概率;N表示平行语料中总句对数,r(Asou,Atar)表示Asou,Atar在语料库同时出现的句对数,r(Asou),r(Atar)分别表示Asou,Atar出现的句对数。

考虑到蒙古语中有些命名实体词可以用发音近似的汉字将其翻译过来,此时译音的汉字不再有其汉字的意思,只保存它发音和书写样式,故提出利用音译特征进行对齐,将α转为字序列α=(α12,...,αn),β转为音节序列β=(β12,...,βm),则音译特征相似度Scoretranslite(α,β)的计算公式如下:

其中,αi∈(α12,...,αn),(α12,...,αn)是α转换得到的字序列,βj∈(β12,...,。m),(β12,...,βm)是β转换得到的音节序列,i,j分别表示转换后序列中的位置序号,n,m分别表示字序列和音节序列的长度,p(αij)表示在条件βj下αi的概率,p(βji)表示在条件αi下βj的概率。

考虑到蒙古语和汉语命名实体在平行句子对中,如是出现的次数相同,那么也会对命名实体对齐产生一点的影响意义,故本发明也将实体共现特征作为命名实体对齐的的标准之一,共现特征相似度Scoreco-occu(α,β)的计算公式如下:

其中,Num(α,β)表示α和β在平行语料中出现的次数,Num(α)表示α在汉语语料中出现的次数,Num(β)表示β在蒙古语语料中出现次数。

本发明在命名实体对齐中,以命名实体知识图谱三元组构建的基础上进行多个特征融合,并对不同特征进行权重分配,这充分考虑到命名实体对齐过程中不同特征重要性的比例,故将上述3个特征进行融合得到蒙汉命名实体对齐的相似程度,即多特征对齐,融合后特征相似度Scoreall(α,β)的计算公式如下:

其中,λj代表第j个特征对应的权重,Scorej(α,β)表示α与β第j个特征的相似度。

步骤2,蒙古语词组成是由词干和词缀,形成复杂多变的词汇,本发明利用现有蒙古语词干表和蒙古语词缀表,借助知识图谱三元组来表示蒙古语稀有词组成分布,即将知识图谱三元组(subject,relate,object)变成(词干,词缀,词),例如:词是由词干和词缀组成,则由三元组中的“subject”表示词干,“relate”表示词缀,“object”表示组成词,故出现 参考图3,利用Transformer-CRF算法进行稀有词切分,利用知识图谱三元组构建稀有词组成分布集。因此本发明在稀有词切分与知识图谱稀有词生成过程中进行交互式增强生成对抗训练,并添加交互信息Flag指导生成对抗,最终通过生成对抗Softmax输出值0或者1配合Flag取值-1或者1来反向指导稀有词知识图谱三元组的构建,理想的生成对抗训练可以得到全面的稀有词知识图谱三元组集。

具体地,本步骤中,将利用Transformer-CRF算法进行稀有词切分看作生成器G,将稀有词知识图谱三元组的构建看作判别器D,将生成器G的输出做为判别器D的输入,并引入交互信息Flag做为指导生成对抗训练,Flag=1代表输入数据为知识图谱构建的真实数据,Flag=-1表示输入是由生成器G生成的伪数据,根据生成对抗输出的Softmax的取值来指导知识图谱生成新的稀有词三元组集,如图4所示。

下面为生成对抗训练生成器D和判别器G的过程:

1)、用知识图谱构建的稀有词真实数据集训练判别器D的参数θd,模型损失函数为:

Loss=∑(seg,tri,1)∈scross-entropy(pre,ω)

2)、锁定生成器G,用生成器G切分出来的数据样本继续训练判别器D的参数θd,损失函数为:

Loss=∑(seg,tri,-1)∈sCross_Entropy(pre,ω)

3)、锁定判别器D,用知识图谱构建的稀有词数据训练生成器G,其损失函数为:

Loss=∑(seg,tri,1)∈sCross_Entropy(pre,ω)+Loss(G)

其中,seg表示Transformer-CRF词切分后的数据集,tri表示三元组构建的稀有词数据集,s表示训练的样本集,pre表示输入的概率,ω表示词切分后的词干和词缀是否在三元组中存在,Loss(G)表示生成器自身的损失函数,-1和1表示Flag的取值,表示总时间,Softmax(t)表示第t步Softmax层的输出,word(t)表示第t步的输入单词,Cross_Entropy(pre,ω)表示交叉熵的输出结果。

在进行生成对抗训练的过程中根据判别器最终的判别结果值,借助交互信息Flag的取值可以指导词切分和词构建过程,这会提高知识图谱三元组构建稀有词的泛化能力,反过来又会提高Transformer-CRF词切分的准度,最终的理想状态是取得所有稀有词的知识图谱三元组。

步骤3,对经过步骤1和步骤2处理之后的蒙汉平行语料库进行知识蒸馏(KD),在教师模型通过知识蒸馏为学生模型提取语料时,进行蒙汉平行语料库的知识图谱构建,比如对平行句子和“两个村隔一条河”在进行蒙汉知识蒸馏的过程中也构建出来了蒙汉对齐的两个知识图谱三元组。

本发明考虑到现有的非自回归机器翻译取得良好成绩的方法中多使用了知识蒸馏技术,即借助教师模型(AT)通过知识蒸馏(KD)过程为学生模型(NAT)提供对应的训练数据。本发明在进行知识蒸馏的过程同时也进行知识图谱三元组的构建,借助知识图谱的三元组构建双语料的语义网,进行知识图谱双语料的对齐,在图谱的对齐过程中不仅仅是主题语义句子的对齐还有三元组中词的对齐。

步骤4,采用图5所示的基于Transformer的非自回归翻译模型,在进行非自回归机器翻译时,利用步骤3构建的知识图谱作为投影矩阵训练集,经过双向嵌入映射共同训练得到投影矩阵先由源语言嵌入线性映射,然后经投影矩阵到目标嵌入层,投影得到的信息作为解码器的输入信息,并直接输送到润色层模块作为润色来源,在润色层模块中将映射得到的信息和传递层模块输出信息融合,由迭代回泽模型进行翻译来反向指导隐藏状态的属性,进行最后的解码信息润色,而若没有上面的步骤蒙古语翻译出来的汉语可能就会出现多峰问题“两个村隔隔隔一条河河”。

具体地,本步骤是在进行源语言嵌入和目标语言反向嵌入时,训练一个投影矩阵最终通过将源语言的嵌入矩阵Esou映射到目标嵌入层,得到的目标嵌入作为解码器的输入,计算如下:

其中,Etar表示目标语言的嵌入矩阵,fM表示映射函数,反向亦是如此。

其中,投影矩阵的训练过程如下:

步骤1)、在嵌入映射的过程中利用训练集中的蒙汉平行句子,通过最小化嵌入平行句子双方的距离Lalign来规范投影矩阵的学习;具体过程如下:

Lalign(x,y)=||fE(E'(x))-E'(y)||

其中,Lalign(x,y)表示源语言和目标语言嵌入后的双方距离,fE是嵌入函数,||*||来保证取值结果为正,E'(x)和E'(y)分别表示源语言x和目标语言y的嵌入,E'(xi)表示源语言x的第i个嵌入,E'(yj)表示目标语言y的第j个嵌入,Tx表示x的长度,Ty表示y的长度,i,j分别表示位序。

步骤2)、通过训练知识蒸馏过程中构建出的蒙汉平行语料库的知识图谱,利用知识图谱三元组中的实体词对齐来规范投影矩阵的学习;具体过程如下:

a)、经过TransE进行知识图谱三元组的结构嵌入,在TransE中附加权值增加注意力的学习,通过注意力的学习可以更好地对齐知识图谱三元组中的实体,则其中的最小化目标函数fse的计算公式如下:

其中,|K|为知识蒸馏过程中构建的蒙古语和汉语知识图谱中三元组的总数,count(r)为联系属性r出现的次数,表示权值,kr表示K中符合属性的三元组集,表示K中不符合属性的三元组集,g(*)表示组合函数,σ表示属性出现概率。

b)、利用结构嵌入使蒙汉知识图谱三元组中的实体具有相似的嵌入,然后再进行实体嵌入,则蒙汉嵌入实体相似度Submap为:

其中,Sub1,Sub2分别表示蒙古语知识图谱和汉语知识图谱三元组中的实体,G2表示汉语知识图谱。

解决非自回归机器翻译解码器的输入信息后,本发明将解码器结构进行分层模块优化处理,解码器整体包括嵌入层模块、传递层模块、润色层模块和顶层模块。其中嵌入层模块为解码器的最下层,将目标语言词嵌入转化成词向量;传递层模块为解码器中最下面的N-1层,将来自嵌入层模块的向量在传递层模块中利用隐藏层计算来增强信息强度,且传递层模块N-1层中的每层主要包含自我注意、位置注意、词性注意、源侧注意、前馈层;润色层模块在解码信息进入到顶层前对传递的信息润色修改,主要是利用激活函数ReLu,将源语言嵌入经过投影矩阵得来的目标嵌入信息与来自传递层模块输出的信息进行融合,融合后的输出信息经过一个迭代回泽模型进行反向翻译来作为润色的最后一步,以达到解码的目标信息的最高标准化;顶层模块使用自回归Transformer解码器一层结构进行最终的解码输出。

嵌入层是最为基础的一层,其输入来源有两个,一个是源语言信息的复制,作为解码器的主线输入;另外一个是源语言嵌入矩阵线性映射,经投影矩阵后到目标嵌入层作为解码器的输入,利用得到的解码器输入来直接传送到润色层加以利用,其中源语言复制如下,

x'=copy(x)

其中,x表示源语言,x'表示复制过来的源语。

传递层模块就是借助非自回归解码器的最下N-1层对输入的信息进行隐藏状态的操作,但是由于解码过程中目标语言的相互独立性,整个过程是并不令人满意的,需要对其传递层模块输出来的信息进行一个润色修饰。润色层模块的存在主要是考虑到仅仅利用源语言来进行解码,这种缺失目标语言依赖信息的方法并不会取得优异的成绩,另直接在底层使用得来的映射信息因在解码时的独立性也会出现重译和漏译现象,故本发明将取得的映射信息直接在润色层模块来修饰传递层模块输出的信息,在最后即将进入到顶层模块前,利用迭代回泽模型对融合后的信息进行最后的一个润色修改,保证隐藏状态中输出的融合信息能够最高标准化,迭代回泽使用的是自回归模型Transformer,该过程类似于生成对抗网络,利用隐藏层的输出作为回泽模型的输入,隐藏层类似于生成器(G),回泽模型类似于判别器(D),回泽模型根据生出来数据来查看隐藏状态中的信息是否遗漏或者重复,反过来隐藏层类似于生成器一直想要生出最好的隐藏状态信息来使判别器满意。过程如下

润色融合:

迭代回泽:

生成对抗训练过程:

其中,H表示传递层输出的隐藏状态,H'表示融合后的隐藏状态,U表示权重矩阵,Relu代表激活函数,xt表示t时刻解码出的信息,表示回泽源语言x所用的总时间,x<t表示在t时刻前的回泽源语言;E(·)表示分布函数期望,p(z)为噪声分布,p(x)为真实分布,D(x)表示判别器函数,G(z)表示生成器函数。

最后经过顶层模块输出被送到Softmax层通过计算解码出目标语言,其中顶层模块与原始的自回归模型Transformer的解码器中的子层一样,主要包括自我注意、词性注意、源侧注意、前馈层。故通过上述步骤的过程,尤其是润色层模块的润色,最终的输出结果即为“两个村隔一条河”,这个正确的译文答案。

本发明具体实现步骤可描述如下:

1.对于命名实体对齐一直是影响低资源语言翻译质量的一大问题,本发明对于蒙古语和汉语的命名实体对齐,先引入了知识图谱对蒙汉命名实体句子进行三元组构建,在此基础上配合命名实体的互信息特征,音译特征和共现特征进行多特征命名实体对齐并通过分配权重值来构建命名实体词典,整个多特征对齐过程如附图2所示。

2.稀有词的解决研究方法一直不停的研究,本发明借助知识图谱三元组(subject,relate,object)来表示稀有词的形态分布即词干(subject)+词缀(relate)=组成词(object)。具体的知识图谱三元组稀有词集构建过程如附图4,首先是借助附图3的Transformer-CRF进行词切分过程,利用知识图谱三元组构建稀有词集,词切分和词生成过程类似于生成对抗网络,为的都是要训练出来一个最好的切分器和生成器,故本发明将词切分比如成生成器(G),词生成比如成判别器(D),进行交互式增强生成对抗训练,并在训练过程中添加交互信息Flag来双向指导词切分和词生成过程,此次生成对抗训练的目的一方面是优化词切分和词生成,更是根据生成对抗训练的输出结果结合Flag来指导知识图谱稀有词三元组集的增加,来反向指导Transformer-CRF的词切分精度,最终的理想目标是生成目前所有的蒙古语稀有词三元组集。

3.对于非自回归机器翻译一直都存在着多模态问题即连续性重复翻译和漏译结构如附图5所示,故本发明提出在语料训练时利用双向嵌入映射的方法将源语言嵌入映射到目标嵌入层,反过来将目标嵌入映射到源嵌入层,双向嵌入映射来共同学习一个投影矩阵最终得到的目标嵌入信息作为润色层模块的直接来源之一。

4.在进行教师模型为学生模型进行知识蒸馏的过程中本发明引入了知识图谱三元组来构建一个平行的双语知识图谱G1,G2

5.在上述基础完成以后,即针对非自回归模型解码器结构进行了优化,将解码器结构整体划分层模块:嵌入层模块、传递层模块、润色层模块、顶层模块。重点优化在于润色层模块的出现,在将源语言复制过来的信息直接作为解码器的输入经嵌入层模块、传递层模块进入润色层模块后与双向嵌入后学习到的信息进行融合润色后,在经润色层模块输出前利用一个迭代回泽翻译模型对输出的信息进行一个最后的润色以达到最理想的输出解码信息,最后经过附图6顶层模块的自回归Transformer解码器层进行输出,整个过程即为附图1的非自回归翻译模型的整体框架结构图,这个过程很大程度的缓解了出现连续性翻译和漏译的现象,保证了翻译速度提高的前题下,大幅度的增加BLEU值。

19页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:翻译的方法、装置及电子设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!