文本翻译方法及相关装置、电子设备、存储介质

文档序号:1905209 发布日期:2021-11-30 浏览:22次 >En<

阅读说明:本技术 文本翻译方法及相关装置、电子设备、存储介质 (Text translation method and related device, electronic equipment and storage medium ) 是由 张为泰 于 2021-08-25 设计创作,主要内容包括:本申请公开了一种文本翻译方法及相关装置、电子设备、存储介质,其中,文本翻译方法包括:获取待翻译文本和若干参考文本;其中,待翻译文本以源语种表示,待翻译文本中含有多义词,若干参考文本以目标语种表示,且各个参考文本中均含有多义词的释义词语;提取待翻译文本中多义词的第一语义表示,并分别提取各个参考文本中释义词语的第二语义表示;基于第一语义表示和第二语义表示的聚类结果,获取多义词在待翻译文本中以目标语种释义的翻译词语;基于翻译词语对待翻译文本进行翻译,得到以目标语种表示的翻译文本。上述方案,能够提高翻译准确性。(The application discloses a text translation method, a related device, electronic equipment and a storage medium, wherein the text translation method comprises the following steps: acquiring a text to be translated and a plurality of reference texts; the method comprises the steps that a text to be translated is represented by a source language, the text to be translated contains polysemous words, a plurality of reference texts are represented by target languages, and each reference text contains paraphrase words of the polysemous words; extracting first semantic representations of polysemous words in the text to be translated, and respectively extracting second semantic representations of paraphrase words in each reference text; acquiring a translation word of the polysemous word in the target language paraphrased in the text to be translated based on the clustering result of the first semantic representation and the second semantic representation; and translating the text to be translated based on the translation words to obtain the translated text expressed in the target language. By the scheme, translation accuracy can be improved.)

文本翻译方法及相关装置、电子设备、存储介质

技术领域

本申请涉及自然语言处理技术领域,特别是涉及一种文本翻译方法及相关装置、电子设备、存储介质。

背景技术

机器翻译是利用计算机将源语种的待翻译文本转换为目标语种的过程。经历了数十年的发展与进步,机器翻译从基于规则到基于统计,再到当前基于神经网络,其翻译能力得到极大的提升。

目前,基于神经网络的机器翻译在海量平行语料和大模型的加持下,对于常见句子和词语,已经取得了较好效果。然而,在面对多义词时,特别是在人类社会活动中不断被赋予新含义的多义词,翻译准确性欠佳,甚至大打折扣。有鉴于此,如何提高翻译准确性成为亟待解决的问题。

发明内容

本申请主要解决的技术问题是提供一种文本翻译方法及相关装置、电子设备、存储介质,能够提高翻译准确性。

为了解决上述技术问题,本申请第一方面提供了一种文本翻译方法,包括:获取待翻译文本和若干参考文本;其中,待翻译文本以源语种表示,待翻译文本中含有多义词,若干参考文本以目标语种表示,且各个参考文本中均含有多义词的释义词语;提取待翻译文本中多义词的第一语义表示,并分别提取各个参考文本中释义词语的第二语义表示;基于第一语义表示和第二语义表示的聚类结果,获取多义词在待翻译文本中以目标语种释义的翻译词语;基于翻译词语对待翻译文本进行翻译,得到以目标语种表示的翻译文本。

为了解决上述技术问题,本申请第二方面提供了一种文本翻译装置,包括:文本获取模块、语义提取模块、语义聚类模块和语种翻译模块,文本获取模块,用于获取待翻译文本和若干参考文本;其中,待翻译文本以源语种表示,待翻译文本中含有多义词,若干参考文本以目标语种表示,且各个参考文本中均含有多义词的释义词语;语义提取模块,用于提取待翻译文本中多义词的第一语义表示,并分别提取各个参考文本中释义词语的第二语义表示;语义聚类模块,用于基于第一语义表示和第二语义表示的聚类结果,获取多义词在待翻译文本中以目标语种释义的翻译词语;语种翻译模块,用于基于翻译词语对待翻译文本进行翻译,得到以目标语种表示的翻译文本。

为了解决上述技术问题,本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的文本翻译方法。

为了解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面中的文本翻译方法。

上述方案,获取待翻译文本和若干参考文本,且待翻译文本以源语种表示,待翻译文本中含有多义词,若干参考文本以目标语种表示,且各个参考文本中均含有多义词的释义词语,在此基础上,提取待翻译文本中多义词的第一语义表示,并分别提取各个参考文本中释义词语的第二语义表示,以及基于第一语义表示和第二语义表示的聚类结果,获取多义词在待翻译文本中以目标语种释义的翻译词语,从而基于翻译词语对待翻译文本进行翻译,得到以目标语种表示的翻译文本,故通过刻画多义词在源语种表示的待翻译文本中的第一语义表示,及其释义词语在目标语种表示的参考文本中的第二语义表示,并基于第一语义表示和第二语义表示进行聚类,有利于准确判断多义词以目标语种释义的翻译词语,在此基础上再对待翻译文本进行翻译,能够有助于尽可能地排除多义词的无关义项对翻译的干扰,进而能够显著提升对多义词的翻译效果,有利于提升翻译准确性。

附图说明

图1是本申请文本翻译方法一实施例的流程示意图;

图2是本申请文本翻译方法一实施例的过程示意图;

图3是语义提取模型一实施例的框架示意图;

图4是本申请文本翻译装置一实施例的框架示意图;

图5是本申请电子设备一实施例的框架示意图;

图6是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图,对本申请实施例的方案进行详细说明。

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。

请参阅图1,图1是本申请文本翻译方法一实施例的流程示意图。

具体而言,可以包括如下步骤:

步骤S11:获取待翻译文本和若干参考文本。

本公开实施例中,待翻译文本以源语种表示,待翻译文本中含有多义词,若干参考文本以目标语种表示,且各个参考文本中均含有多义词的释义词语。

在一个实施场景中,源语种和目标语种的具体语种可以根据实际应用需要进行设置。例如,在中译英场景中,源语种可以为中文,目标语种可以为英文;或者,在中译日场景中,源语种可以为中文,目标语种可以为日文。其他场景可以以此类推,在此不再一一举例。

在一个实施场景中,多义词含有若干种义项,各个参考文本中可以含有其中一种义项的释义词语。以中译英场景为例,对于多义词“小米”而言,其含有两种义项,一种义项表示禾本科狗尾草属一年生草本,另一种义项表示小米公司,对于第一种义项而言,其释义词语为“millet”,对于第二种义项而言,其释义词语为“Xiaomi”。其他场景可以以此类推,在此不再一一举例。

在一个实施场景中,为了尽可能地提高翻译效果,若干参考文本中释义词语可以覆盖多义词的全部义项。仍以多义词“小米”为例,待翻译文本可以为“小米未来10年规划受人瞩目。”,各个参考文本中释义词语的集合可以覆盖多义词“小米”的全部义项,如可以包括但不限于如下参考文本:“I like to eat millet and noodles”、“Buy me a Xiaomimobile phone”等等,在此不做限定。其他场景可以以此类推,在此不再一一举例。上述方式,多义词含有若干种义项,且若干参考文本中释义词语覆盖若干种义项,故能够有利于从全部义项对应的释义词语中确定出多义词在待翻译文本中以目标语种释义的翻译词语,有利于提升翻译效果。

在一个实施场景中,请结合参阅图2,图2是本申请文本翻译方法一实施例的过程示意图。如图2所示,为了便于文本翻译,可以预先构建多义词知识库,多义词知识库可以包括若干多义词,且每一多义词包含多个义项以及每一义项在目标语种中的释义词语。仍以中译英场景为例,如前所述,随着人类社会活动,一些词语往往会被赋予新的内涵,如多义词知识库可以包括但不限于如下多义词:小米、米粉等等,其中,多义词“小米”的义项及其释义词语如前所述,多义词“米粉”的义项包括小米产品粉丝(释义词语为Mi Fan)和特色小吃(释义词语为vermicelli)。此外,还可以构建单语数据库,且单语数据库中包含候选文本,每一候选文本中含有源语种表示的多义词、目标语种表示的释义词语中任一者。以多义词“小米”为例,候选文本可以包括但不限于:“小米是一家互联网公司”、“I like to eatmillet and noodles”、“Buy me aXiaomi mobile phone”、“小米是主食吗”等等,在此不做限定。在此情况下,可以基于待翻译文本中的多义词在多义词知识库中搜索到多义词的释义词语,并根据多义词的释义词语在单语数据库中检索得到参考文本。请继续结合参阅图2,以待翻译文本“小米未来10年规划受人瞩目”中多义词“小米”为例,可以在多义词知识库中查找到该多义词的释义词语“Xiaomi”和“millet”,在此基础上,可以在单语数据库中检索包含释义词语“Xiaomi”、“millet”的参考文本:“I like to eat millet and noodles”、“Buy me a Xiaomi mobile phone”。其他情况可以以此类推,在此不再一一举例。

在一个实施场景中,如图2所示,若干参考文本也可以以目标语种表示,或者以源语种表示,且参考文本中可以含有多义词的释义词语,也可以含有多义词本身。也就是说,也可以直接在单语数据库中检索包含多义词及其释义词语的候选文本,作为参考文本。

需要说明的是,在待翻译文本中未检测到多义词的情况下,可以直接对待翻译文本进行翻译,得到以目标语种表示的翻译文本。

在一个实施场景中,可以对待翻译文本进行分词处理,得到待翻译文本的若干分词,对于每一分词,可以将该分词本身、分词及其相邻分词的第一组合词语,以及第一组合词语及其相邻分词的第二组合词语作为待检索词语,并在前述多义词知识库中检索是否存在待检索词语,如果存在,则说明待翻译文本中存在多义词,反之则说明待翻译文本中不存在多义词。以待翻译文本“小米未来10年规划受人瞩目”为例,可以将其进行分词处理,得到如下分词:“小”、“米”、“未来”、“10”、“年”、“规划”、“受人”、“瞩目”,则对于分词“小”而言,可以将其本身,以及“小米”、“小米未来”、“小米未来10”、“小米未来10年”等等作为待检索词语,对于其他分词可以以此类推得到待检索词语,在此不再赘述。在此基础上,可以在多义词知识库中检索是否存在待检索词语,经检索可以确定待检索词语“小米”存在于多义词知识库中,则可以确定待翻译文本中存在多义词“小米”。其他情况可以以此类推,在此不再一一举例。

在一个实施场景中,为了提高翻译效率,可以预先训练一个翻译模型,从而可以在待翻译文本中未检测到多义词的情况下,直接利用翻译模型将待翻译文本进行翻译,得到以目标语种表示的翻译文本。具体地,翻译模型可以包括但不限于:OpenNMT、tf-seq2seq等等,在此不做限定。具体翻译过程,可以参阅关于诸如OpenNMT、tf-seq2seq等机器翻译模型的技术细节,在此不再赘述。

步骤S12:提取待翻译文本中多义词的第一语义表示,并分别提取各个参考文本中释义词语的第二语义表示。

在一个实施场景中,可以获取输入文本的若干分词,且若干分词包括目标词语,在此基础上,可以基于目标词语及其参考词语的语义信息,得到目标词语的词语语义表示,且参考词语包括位于目标词语之前和/或之后的分词,在此过程中,当输入文本为待翻译文本的情况下,目标词语为多义词,词语语义表示为第一语义表示,而在输入文本为参考文本的情况下,目标词语为释义词语,词语语义表示为第二语义表示。上述方式,由于通过目标词语的语义信息及其参考词语的语义信息,得到目标词语的词语语义表示,故能够建模输入文本的语序信息和语法结构,同时参考词语为目标词语之前和/或之后的分词,即参考与目标词语位置邻近的分词,由于位置邻近的分词具有更强的语义关系,故此有利于提升词语语义表示的准确性。

在一个具体的实施场景中,可以通过分词工具对输入文本进行分词,从而得到输入文本的若干分词。具体地,分词工具可以包括但不限于:结巴分词、HanLP、SnowNLP等等,在此不做限定。

在一个具体的实施场景中,参考词语可以包括目标词语前一个分词、目标词语后一个分词中至少一者,在此不做限定。

在一个具体的实施场景中,为了提升语义提取效率,可以采用神经网络提取词语语义表示。神经网络具体可以包括但不限于:Bi-LSTM(Bi-directional Long Short-TermMemory,双向长短期记忆网络)等,在此不做限定。需要说明的是,在采用Bi-LSTM的情况下,对于目标词语而言,一方面可以参考其自身的语义信息以及位于其之前一个分词的语义信息,得到一个语义表示,另一方面可以参考其自身的语义信息以及位于其之后一个分词的语义信息,得到一个语义表示,再将两个语义表示进行拼接,即可得到目标词语的词语语义表示。此外,为了进一步提取深层语义,在采用Bi-LSTM的情况下,神经网络可以包括多层(如,2层、3层等)Bi-LSTM,在第i层Bi-LSTM提取到各个分词的词语语义表示之后,对于每一分词而言,在第i+1层Bi-LSTM处理过程中,可以基于其本身在第i层提取到的词语语义表示以及位于其之前一个分词在第i层提取到的词语语义表示,得到一个在第i+1层的语义表示,并基于其本身在第i层提取到的词语语义表示以及位于其之后一个分词在第i层提取到的词语语义表示,得到一个在第i+1层的语义表示,再将第i+1层两个语义表示进行拼接,即可得到每一分词在第i+1层输出的词语语义表示。其他情况可以以此类推,在此不再一一举例。

在一个实施场景中,可以获取输入文本的若干分词,且若干分词中包含目标词语,在此基础上,基于若干分词分别对目标词语的注意力权重,得到目标词语的词语语义表示,在此过程中,当输入文本为待翻译文本的情况下,目标词语为多义词,词语语义表示为第一语义表示,而在输入文本为参考文本的情况下,目标词语为释义词语,词语语义表示为第二语义表示。上述方式,由于通过若干分词分别对目标词语的注意力权重,得到目标词语的词语语义表示,能够尽可能大范围地捕获目标词语与其他各个位置分词之间的关系,并强化目标词语的语义特征,有利于提升词语语义表示的准确性。

在一个具体的实施场景中,可以基于注意力机制获取若干分词分别对目标词语的注意力权重。具体地,注意力机制可以包括但不限于:自注意力机制(self-attention)等,在此不做限定。注意力权重的具体获取过程,可以参阅诸如自注意力机制等注意力机制的技术细节,在此不再赘述。

在一个具体的实施场景中,可以利用若干分词分别对目标词语的注意力权重对若干分词的词语语义表示进行加权处理,以更新得到目标词语的词语语义表示。需要说明的是,若干分词的词语语义表示可以是通过诸如BERT(Bidirectional EncoderRepresentation from Transformers,即双向Transformer的Encoder表示)等预训练语言模型得到的,具体获取过程,可以参阅诸如BERT等预训练语言模型,在此不再赘述。此外,为了提取深层语义,可以采用多次注意力机制不断挖掘目标词语与各个分词之间的语义关系。具体地,在第i次注意力机制之后,可以得到各个分词的词语语义表示,则在第i+1次注意力机制时,对于每一分词,可以获取各个分词对该分词的注意力权重,并利用各个分词对该分词的注意力权重对各个分词在第i次注意力机制之后所提取的词语语义表示进行加权处理,以更新得到该分词在第i+1次注意力机制之后的词语语义表示,如此类推,直至最后一次注意力机制为止,为了便于描述,可以将最后一次注意力机制称为第N次注意力机制,可以得到各个分词在第N次注意力机制之后的词语语义表示,即可得到目标词语在第N次注意力机制之后的词语语义表示,并将其作为目标词语最终的词语语义表示。

在一个具体的实施场景中,在分词为虚词的情况下,该分词对目标词语的注意力权重低于预设阈值。具体地,预设阈值可以根据实际情况进行设置,如在完全无需参考虚词的情况下,虚词对目标词语的注意力权重可以直接设置为0;或者,在需要适当参考虚词的情况下,预设阈值可以设置为0.1、0.05、0.01等,在此不做限定。需要说明的是,虚词表示无实际意义的词语,如中文中的“在”、“嗯”、“的”等词语,或者如英文中的“in”、“of”、“on”等词语。上述方式,在分词为虚词的情况下,将分词对目标词语的注意力权重设置为低于预设阈值,能够尽可能地降低虚词对目标词语语义的影响,有利于提升语义表示的准确性。

在一个实施场景中,可以获取输入文本的若干分词,且若干分词中包含目标词语,在此基础上,可以基于目标词语及其参考词语的语义信息,得到目标词语的第一词语表示,并基于若干分词分别对目标词语的注意力权重,得到目标词语的第二词语表示,且参考词语包括位于目标词语之前和/或之后的分词,以及将第一词语表示和第二词语表示进行融合,得到目标词语的融合语义表示,在此过程中,当输入文本为待翻译文本的情况下,目标词语为多义词,融合语义表示为第一语义表示,而在输入文本为参考文本的情况下,目标词语为释义词语,融合语义表示为第二语义表示。上述方式,一方面通过目标词语的语义信息及其参考词语的语义信息,得到目标词语的第一词语表示,故能够建模输入文本的语序信息和语法结构,同时参考词语为目标词语之前和/或之后的分词,即参考与目标词语位置邻近的分词,由于位置邻近的分词具有更强的语义关系,有利于提升第一词语表示的准确性,另一方面通过若干分词分别对目标词语的注意力权重,得到目标词语的第二词语表示,能够尽可能大范围地捕获目标词语与其他各个位置分词之间的关系,并强化目标词语的语义特征,有利于提升第二词语表示的准确性,在此基础上通过融合两方面分别提取到的第一词语表示和第二词语表示,能够有利于提升融合语义表示的准确性。

在一个具体的实施场景中,基于目标词语及其参考词语的语义信息提取第一词语表的具体过程,可以参阅前述相关描述,在此不再赘述。

在一个具体的实施场景中,可以利用若干分词分别对目标词语的注意力权重对若干分词的词语语义表示进行加权处理,得到第二词语表示,且在分词为虚词的情况下,分词对目标词语的注意力权重低于预设阈值。具体可以参阅前述相关描述,在此不再赘述。

在一个具体的实施场景中,为了强化语种特征,若干分词中还可以包括标识字符,且标识字符用于表示输入文本采用的语种。例如,在输入文本以英文表示时,输入文本的若干分词中可以包括标识字符“EN”,以表示英文语种,或者,在输入文本采用中文表示时,输入文本的若干分词中可以包括标识字符“ZH”,以表示中文语种。其他情况可以以此类推,在此不再一一举例。上述方式,通过在若干分词中设置标识字符,且标识字符用于表示输入文本采用的语种,能够在语义提取过程中,强化输入文本的语种特征。

在一个具体的实施场景中,可以基于第一词语表示和第二词语表示之间的相关度,得到第一词语表示的第一加权因子和第二词语表示的第二加权因子,在此基础上,利用第一加权因子、第二加权因子分别对第一词语表示、第二词语表示进行加权处理,得到融合语义表示。具体地,第一词语表示和第二词语表示之间的相关度,可以通过两者之间的点乘运算得到。为了便于描述,可以将第一词语表示记为h1,第二词语表示记为h2,则第一加权因子可以表示为:

G1=h1*h2 T……(1)

上述公式(1)中,T表示转置,第二加权因子G2可以由1-G1计算得到。在此基础上,可以由G1*h1+G2*h2计算得到。上述方式,基于第一词语表示和第二词语表示之间的相关度,得到第一词语表示的第一加权因子和第二词语表示的第二加权因子,并利用第一加权因子、第二加权因子分别对第一词语表示、第二词语表示进行加权处理,得到融合语义表示,故能够不同程度地参考从两种维度分别获取到的词语表示,有利于提升目标词语的词语表示的准确性。

在一个实施场景中,请结合参阅图2,第一语义表示和第二语义表示可以以向量形式予以表示。向量的具体维度在此不做限定,如可以为128维、256维、512维等等,在此不做限定。

在一个实施场景中,如图2所示,为了提升语义表示的提取效率,可以预先训练一个语义提取模型,在此基础上,可以利用语义提取模型分别提取待翻译文本的第一语义表示和参考文本的第二语义表示。语义提取模型的具体训练过程,可以参阅下述公开实施例,在此暂不赘述。

在一个具体的实施场景中,请结合参阅图3,图3是语义提取模型一实施例的框架示意图。如图3所示,语义提取模型包括第一语义提取网络、第二语义提取网络和语义融合网络,且语义融合网络用于融合第一语义提取网络和第二语义提取网络分别提取到的词语表示。需要说明的是,第一语义提取网络具体用于基于目标词语及其参考词语的语义信息,得到目标词语的第一词语表示,第二语义提取网络具体用于基于若干分词分别对目标词语的注意力权重,得到目标词语的第二词语表示,语义融合网络具体用于将第一词语表示和第二词语表示进行融合,得到目标词语的融合语义表示。上述方式,语义提取模型包括第一语义提取网络、第二语义提取网络和语义融合网络,且语义融合网络用于融合第一语义提取网络和第二语义提取网络分别提取到的词语表示,即通过第一语义提取网络、第二语义提取网络和语义融合网络三者协同即可提取到词语表示,有利于提升词语表示的提取效率。

在一个具体的实施场景中,请继续参阅图3,第一语义提取网络可以包括多层(如两层、三层等)BiLSTM(即双向长短期记忆网络),第二语义提取网络可以包括多层(如,两层、三层)注意力机制网络(如,自注意力机制网络),双向长短期记忆网络和注意力机制网络的具体含义可以分别参阅两者的技术细节,在此不再赘述。语义融合网络用于融合第一词语表示和第二词语表示,具体可以参阅前述公式(1)及其相关描述,在此不再赘述。如图3所示,以待翻译文本“小米未来10年规划受人瞩目。”为例,其若干分词可以包括:标识字符“ZH”、分词w1“小米”、分词w2“未来”、……、分词wn“。”,并获取上述分词的词向量,具体可以通过诸如BERT等预训练语言模型获取得到,在此不再赘述。在此之后,将上述若干分词的词向量输入第一语义提取网络和第二语义提取网络进行处理,经第一语义提取网络处理,可以得到各个分词的第一词语表示,经第二语义提取网络处理,可以得到各个分词的第二词语表示,在此基础上,对于每一分词,可以基于语义融合网络融合该分词的第一词语表示和第二词语表示,得到该分词的融合语义表示。在此基础上,可以得到待翻译文本中多义词“小米”的第一语义表示。参考文本中释义词语的第二语义表示,可以以此类推提取得到,在此不再赘述。

步骤S13:基于第一语义表示和第二语义表示的聚类结果,获取多义词在待翻译文本中以目标语种释义的翻译词语。

具体地,可以将第一语义表示和第二语义表示进行聚类,得到若干聚类集合,并将第一语义表示所在的聚类集合作为目标集合,在此基础上,可以进一步统计目标集合内第二语义表示对应的释义词语的总数,并将总数最大的释义词语,作为翻译词语。上述方式,通过第一语义表示和第二语义表示的聚类结果,在诸多释义词语中确定出多义词以目标语种释义的翻译词语,有助于提高翻译词语的准确性。

在一个实施场景中,可以采用包括但不限于K-means等聚类算法对第一语义表示和第二语义表示进行聚类。具体聚类过程,可以参阅K-means等聚类算法的技术细节,在此不再赘述。

在一个实施场景中,仍以待翻译文本“小米未来10年规划受人瞩目。”为例,参考文本可以包括:“Buy me a Xiaomi mobile phone”、“I like to eat millet andnoodles.”,经聚类可以得到两个聚类集合,其中一个聚类集合包含待翻译文本“小米未来10年规划受人瞩目。”中多义词“小米”的第一语义表示和参考文本“Buy me a Xiaomimobile phone”中释义词语“Xiaomi”的第二语义表示,另一聚类集合包括参考文本“I liketo eat millet and noodles.”中释义词语“millet”的第二语义表示,故此可以统计第一个聚类集合中各个第二语义表示对应释义词语的总数:释义词语“Xiaomi”1个,除此之外再无其他释义词语的第二语义表示,从而可以将释义词语“Xiaomi”作为待翻译文本中多义词“小米”以目标语种释义的翻译词语。其他情况可以以此类推,在此不再一一举例。

在一个实施常场景中,如前所述,也可以直接在单语数据库中检索包含多义词及其释义词语的候选文本,作为参考文本,在此情况下,请结合参阅图2,仍以待翻译文本“小米未来10年规划受人瞩目。”为例,参考文本可以包括:“Buy me a Xiaomi mobile phone”、“I like to eat millet and noodles.”、“小米是主食吗”、“小米是一家互联网公司”,经聚类可以得到两个聚类集合,其中一个聚类集合包含待翻译文本“小米未来10年规划受人瞩目。”中多义词“小米”的第一语义表示、参考文本“Buy me a Xiaomi mobile phone”中释义词语“Xiaomi”的第二语义表示、参考文本“小米是一家互联网公司”中多义词“小米”的第二语义表示,另一聚类集合包括参考文本“I like to eat millet and noodles.”中释义词语“millet”的第二语义表示和参考文本“小米是主食吗”中多义词“小米”的第二语义表示,故此可以统计第一个聚类集合中各个第二语义表示对应释义词语的总数:释义词语“Xiaomi”1个,除此之外再无其他释义词语的第二语义表示,从而可以将释义词语“Xiaomi”作为待翻译文本中多义词“小米”以目标语种释义的翻译词语。其他情况可以以此类推,在此不再一一举例。

步骤S14:基于翻译词语对待翻译文本进行翻译,得到以目标语种表示的翻译文本。

具体地,可以将翻译词语拼接至待翻译文本,得到待翻译文本的更新文本,并将更新文本翻译为目标语种,得到翻译文本。上述方式,将翻译词语拼接至待翻译文本进行翻译,有利于显式地将多义词的翻译词语表示在待翻译文本中,从而能够在翻译过程中对多义词的翻译提供直接且准确地提示,有利于提升翻译文本的准确性。

在一个具体的实施场景中,在拼接过程中,为了突显待翻译文本中多义词及其翻译词语,可以在多义词与其他分词之间,多义词与翻译词语之间、翻译词语与其他词语之间分别插入预设符号。请结合参阅图2,仍以待翻译文本“小米未来10年规划受人瞩目。”为例,预设符号可以设置为‘###’,则将多义词“小米”的翻译词语“Xiaomi”采用预设符合拼接至待翻译文本之后,可以得到更新文本“###小米###Xiaomi###未来10年规划受人瞩目。”需要说明的是,预设符号也可以设置为诸如*、@、&等文本中较为少见的特殊符号,在此不做限定。其他待翻译文本可以以此类推,在此不再一一举例。

在一个具体的实施场景中,如前所述,为了提高翻译效率,可以预先训练一个翻译模型,在此基础上,可以将更新文本输入翻译模型,得到以目标语种表示的翻译文本。需要说明的是,翻译模型可以包括但不限于:OpenNMT、tf-seq2seq等,在此不做限定。此外,为了进一步提升翻译模型的准确性,训练翻译模型的样本文本中可以包括多义词以及多义词以目标语种表示的翻译文本,且样本文本标注有样本翻译文本。例如,样本文本可以包括但不限于:“###小米###Xiaomi###是一家互联网公司”、“今天###米粉###Mi Fan###欢聚一堂,迎接新产品发布”等等,在此不做限定。翻译模型的具体训练过程,可以参阅诸如OpenNMT、tf-seq2seq等翻译模型的技术细节,在此不再赘述。

上述方案,获取待翻译文本和若干参考文本,且待翻译文本以源语种表示,待翻译文本中含有多义词,若干参考文本以目标语种表示,且各个参考文本中均含有多义词的释义词语,在此基础上,提取待翻译文本中多义词的第一语义表示,并分别提取各个参考文本中释义词语的第二语义表示,以及基于第一语义表示和第二语义表示的聚类结果,获取多义词在待翻译文本中以目标语种释义的翻译词语,从而基于翻译词语对待翻译文本进行翻译,得到以目标语种表示的翻译文本,故通过刻画多义词在源语种表示的待翻译文本中的第一语义表示,及其释义词语在目标语种表示的参考文本中的第二语义表示,并基于第一语义表示和第二语义表示进行聚类,有利于准确判断多义词以目标语种释义的翻译词语,在此基础上再对待翻译文本进行翻译,能够有助于尽可能地排除多义词的无关义项对翻译的干扰,进而能够显著提升对多义词的翻译效果,有利于提升翻译准确性。

在一些公开实施例中,语义提取模型是利用若干样本文本训练得到的,且样本文本中含有样本多义词,样本多义词的具体含义,可以参阅前述公开实施例中关于多义词的相关描述,在此不再赘述。具体地,可以将样本文本进行分词处理,得到若干样本分词,并分别获取若干样本分词的样本词向量,再将若干样本分词的样本词向量输入至语义提取模型,得到各个样本分词的样本词语表示。需要说明的是,可以基于遮蔽词语预测来训练语义提取模型,即在每次训练语义提取模型时,可以随机遮蔽(即mask)至少一个样本分词,也就是说,上述若干样本分词还包括至少一个遮蔽字符(如,可以表示为[mask]),在提取到各个样本分词的样本词语表示之后,可以基于样本词语表示来预测遮蔽字符对应的预测字符,并根据遮蔽字符对应的实际字符与遮蔽字符对应的预测字符之间的差异,调整语义提取模型的网络参数。基于遮蔽词语预测来训练模型的具体过程,可以参阅诸如BERT等模型的预训练过程,在此不再赘述。

在一个实施场景中,在对样本文本进行分词之后,可以检测样本多义词最左侧字符的左侧是否为空格,并检测样本多义词最右侧字符的右侧是否为空格,若两者均满足,则可以将样本多义词最左侧字符至样本多义词最右侧字符合并,否则不合并,即保持样本多义词的分词后状态。请参阅表1,表1是样本文本分词示意表。如表1所示,对于样本文本“小米未来10年规划受人瞩目。”而言,其分词之后,样本多义词“小米”被分为“小”和“米”,且最左侧字符“小”的左侧为空格,最右侧字符“米”的右侧为空格,故可以将“小”和“米”合并为“小米”,故分词之后可以表示为“小米未来10年规划受人瞩目”;类似地,对于样本文本“小米家居会取得更大成功。”而言,其分词之后,“小米家居”被分为“小”、“米家”和“居”,且最最侧字符“小”的左侧为空格,最后侧字符“米”的右侧不为空格,故“小”和“米”不能合并。其他情况可以以此类推,在此不再一一举例。

表1样本文本分词示意表

合并前 合并后
小米未来10年规划受人瞩目。 小米未来10年规划受人瞩目。
小米家居会取得更大成功 小米家居会取得更大成功

在一个实施场景中,样本文本可以包括若干样本分词,若干样本文本包括样本原始文本和样本增强文本,且样本增强文本是基于样本原始文本得到的,其中,样本增强文本是将样本原始文本中样本候选分词替换为样本目标分词得到的,且样本候选分词是样本原始文本中除样本多义词之外的样本分词,样本目标分词与样本候选分词语义相同,且在样本原始文本以源语种表示的情况下,样本候选分词以目标语种表示,在样本原始文本以目标语种表示的情况下,样本候选分词以源语种表示。请参阅表2,表2是样本原始文本和样本增强文本示意表。如表2所示,对于样本原始文本“小米未来10年规划受人瞩目。”而言,可以选择样本分词“10年”作为样本候选分词,则样本目标分词为“ten years”,则对应的样本增强文本为“小米未来ten years规划受人瞩目。”;而对于样本原始文本“Millet is kind offood.”而言,可以选择样本分词“food”作为样本候选分词,则样本目标分词为“食物”,则对应的样本增强文本为“Millet is kind of食物”上述方式,对于非多义词,通过源语种和目标语种互换,能够更加拉近源语种和目标语种在相同词语或句子上的语义表示,有利于更加准确地提升语义提取模型的跨语种表示能力。

表2样本原始文本和样本增强文本示意表

样本原始文本 样本增强文本
小米未来10年规划受人瞩目。 小米未来ten years规划受人瞩目。
Millet is a kind of food. Millet is kind of食物.

请参阅图4,图4是本申请文本翻译装置40一实施例的框架示意图。文本翻译装置40包括:文本获取模块41、语义提取模块42、语义聚类模块43和语种翻译模块44,文本获取模块41,用于获取待翻译文本和若干参考文本;其中,待翻译文本以源语种表示,待翻译文本中含有多义词,若干参考文本以目标语种表示,且各个参考文本中均含有多义词的释义词语;语义提取模块42,用于提取待翻译文本中多义词的第一语义表示,并分别提取各个参考文本中释义词语的第二语义表示;语义聚类模块43,用于基于第一语义表示和第二语义表示的聚类结果,获取多义词在待翻译文本中以目标语种释义的翻译词语;语种翻译模块44,用于基于翻译词语对待翻译文本进行翻译,得到以目标语种表示的翻译文本。

上述方案,通过刻画多义词在源语种表示的待翻译文本中的第一语义表示,及其释义词语在目标语种表示的参考文本中的第二语义表示,并基于第一语义表示和第二语义表示进行聚类,有利于准确判断多义词以目标语种释义的翻译词语,在此基础上再对待翻译文本进行翻译,能够有助于尽可能地排除多义词的无关义项对翻译的干扰,进而能够显著提升对多义词的翻译效果,有利于提升翻译准确性。

在一些公开实施例中,多义词含有若干种义项,且若干参考文本中释义词语覆盖若干种义项。

因此,多义词含有若干种义项,且若干参考文本中释义词语覆盖若干种义项,故能够有利于从全部义项对应的释义词语中确定出多义词在待翻译文本中以目标语种释义的翻译词语,有利于提升翻译效果。

在一些公开实施例中,语义提取模块42包括分词子模块,用于获取输入文本的若干分词;其中,若干分词中包含目标词语;语义提取模块42包括提取子模块,用于基于目标词语及其参考词语的语义信息,得到目标词语的第一词语表示,并基于若干分词分别对目标词语的注意力权重,得到目标词语的第二词语表示;其中,参考词语包括位于目标词语之前和/或之后的分词;语义提取模块42包括融合子模块,用于将第一词语表示和第二词语表示进行融合,得到目标词语的融合语义表示;其中,在输入文本为待翻译文本的情况下,目标词语为多义词,融合语义表示为第一语义表示,在输入文本为参考文本的情况下,目标词语为释义词语,融合语义表示为第二语义表示。

因此,一方面通过目标词语的语义信息及其参考词语的语义信息,得到目标词语的第一词语表示,故能够建模输入文本的语序信息和语法结构,同时参考词语为目标词语之前和/或之后的分词,即参考与目标词语位置邻近的分词,由于位置邻近的分词具有更强的语义关系,有利于提升第一词语表示的准确性,另一方面通过若干分词分别对目标词语的注意力权重,得到目标词语的第二词语表示,能够尽可能大范围地捕获目标词语与其他各个位置分词之间的关系,并强化目标词语的语义特征,有利于提升第二词语表示的准确性,在此基础上通过融合两方面分别提取到的第一词语表示和第二词语表示,能够有利于提升融合语义表示的准确性。

在一些公开实施例中,提取子模块具体用于利用若干分词分别对目标词语的注意力权重对若干分词的词语语义表示进行加权处理,得到第二词语表示;其中,在分词为虚词的情况下,分词对目标词语的注意力权重低于预设阈值。

因此,在分词为虚词的情况下,将分词对目标词语的注意力权重设置为低于预设阈值,能够尽可能地降低虚词对目标词语语义的影响,有利于提升语义表示的准确性。

在一些公开实施例中,若干分词中还包括标识字符,标识字符用于表示输入文本采用的语种。

因此,通过在若干分词中设置标识字符,且标识字符用于表示输入文本采用的语种,能够在语义提取过程中,强化输入文本的语种特征。

在一些公开实施例中,融合子模块包括因子确定单元,用于基于第一词语表示和第二词语表示之间的相关度,得到第一词语表示的第一加权因子和第二词语表示的第二加权因子;融合子模块包括加权处理单元,用于利用第一加权因子、第二加权因子分别对第一词语表示、第二词语表示进行加权处理,得到融合语义表示。

因此,基于第一词语表示和第二词语表示之间的相关度,得到第一词语表示的第一加权因子和第二词语表示的第二加权因子,并利用第一加权因子、第二加权因子分别对第一词语表示、第二词语表示进行加权处理,得到融合语义表示,故能够不同程度地参考从两种维度分别获取到的词语表示,有利于提升目标词语的词语表示的准确性。

在一些公开实施例中,第一语义表示和第二语义表示均是利用语义提取模型提取得到的,语义提取模型是利用若干样本文本训练得到的,样本文本中含有样本多义词。

因此,通过利用语义提取模型提取第一语义表示和第二语义表示,且语义提取模型是利用若干样本文本训练得到的,样本文本中含有样本多义词,能够有利于提高语义提取效率。

在一些公开实施例中,样本文本包括若干样本分词,若干样本文本包括样本原始文本和样本增强文本,且样本增强文本是基于样本原始文本得到的;其中,样本增强文本是将样本原始文本中样本候选分词替换为样本目标分词得到的,且样本候选分词是样本原始文本中除样本多义词之外的样本分词,样本目标分词与样本候选分词语义相同,且在样本原始文本以源语种表示的情况下,样本候选分词以目标语种表示,在样本原始文本以目标语种表示的情况下,样本候选分词以源语种表示。

因此,对于非多义词,通过源语种和目标语种互换,能够更加拉近源语种和目标语种在相同词语或句子上的语义表示,有利于更加准确地提升语义提取模型的跨语种表示能力。

在一些公开实施例中,语义提取模型包括第一语义提取网络、第二语义提取网络和语义融合网络,且语义融合网络用于融合第一语义提取网络和第二语义提取网络分别提取到的词语表示。

因此,语义提取模型包括第一语义提取网络、第二语义提取网络和语义融合网络,且语义融合网络用于融合第一语义提取网络和第二语义提取网络分别提取到的词语表示,即通过第一语义提取网络、第二语义提取网络和语义融合网络三者协同即可提取到词语表示,有利于提升词语表示的提取效率。

在一些公开实施例中,语义聚类模块43包括聚类子模块,用于将第一语义表示和第二语义表示进行聚类,得到若干聚类集合,并将第一语义表示所在的聚类集合,作为目标集合;语义聚类模块43包括统计子模块,用于统计目标集合内第二语义表示对应的释义词语的总数;语义聚类模块43包括确定子模块,用于将总数最大的释义词语,作为翻译词语。

因此,上述方式,通过第一语义表示和第二语义表示的聚类结果,在诸多释义词语中确定出多义词以目标语种释义的翻译词语,有助于提高翻译词语的准确性。

在一些公开实施例中,语种翻译模块44包括拼接子模块,用于将翻译词语拼接至待翻译文本,得到待翻译文本的更新文本;语种翻译模块44包括翻译子模块,用于将更新文本进行翻译为目标语种,得到翻译文本。

因此,将翻译词语拼接至待翻译文本进行翻译,有利于显式地将多义词的翻译词语表示在待翻译文本中,从而能够在翻译过程中对多义词的翻译提供直接且准确地提示,有利于提升翻译文本的准确性。

请参阅图5,图5是本申请电子设备50一实施例的框架示意图。电子设备50包括相互耦接的存储器51和处理器52,存储器51中存储有程序指令,处理器52用于执行程序指令以实现上述任一文本翻译方法实施例中的步骤。具体地,电子设备50可以包括但不限于:台式计算机、笔记本电脑、服务器、手机、平板电脑等等,在此不做限定。

具体而言,处理器52用于控制其自身以及存储器51以实现上述任一文本翻译方法实施例中的步骤。处理器52还可以称为CPU(Central Processing Unit,中央处理单元)。处理器52可能是一种集成电路芯片,具有信号的处理能力。处理器52还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器52可以由集成电路芯片共同实现。

上述方案,通过刻画多义词在源语种表示的待翻译文本中的第一语义表示,及其释义词语在目标语种表示的参考文本中的第二语义表示,并基于第一语义表示和第二语义表示进行聚类,有利于准确判断多义词以目标语种释义的翻译词语,在此基础上再对待翻译文本进行翻译,能够有助于尽可能地排除多义词的无关义项对翻译的干扰,进而能够显著提升对多义词的翻译效果,有利于提升翻译准确性。

请参阅图6,图6是本申请计算机可读存储介质60一实施例的框架示意图。计算机可读存储介质60存储有能够被处理器运行的程序指令61,程序指令61用于实现上述任一文本翻译方法实施例中的步骤。

上述方案,通过刻画多义词在源语种表示的待翻译文本中的第一语义表示,及其释义词语在目标语种表示的参考文本中的第二语义表示,并基于第一语义表示和第二语义表示进行聚类,有利于准确判断多义词以目标语种释义的翻译词语,在此基础上再对待翻译文本进行翻译,能够有助于尽可能地排除多义词的无关义项对翻译的干扰,进而能够显著提升对多义词的翻译效果,有利于提升翻译准确性。

在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

19页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种翻译模型的训练方法、装置和用于翻译模型训练的装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!