一种机器翻译模型性能检测方法、以及相关设备

文档序号:1889979 发布日期:2021-11-26 浏览:12次 >En<

阅读说明:本技术 一种机器翻译模型性能检测方法、以及相关设备 (Machine translation model performance detection method and related equipment ) 是由 刘乐茂 李冠林 朱聪慧 于 2021-02-26 设计创作,主要内容包括:本申请实施例公开了一种机器翻译模型性能检测方法、以及相关设备,本申请实施例获取第一语言类型的源文本,以及获取与所述源文本对应的第二语言类型的目标文本;利用所述第一语言类型的多个第一目标词分别替换所述源文本中的第二目标词,得到多个候选文本;通过机器翻译模型对所述多个候选文本进行翻译,得到每个候选文本对应的所述第二语言类型的第一翻译文本;通过机器翻译模型对所述源文本进行翻译,得到所述第二语言类型的第二翻译文本;根据所述第一翻译文本与所述目标文本之间的第一相似度,与所述第二翻译文本与所述目标文本之间的第二相似度,检测所述机器翻译模型的翻译性能指标。提高了对机器翻译模型性能检测准确性。(The embodiment of the application discloses a method for detecting the performance of a machine translation model and related equipment, and the method comprises the steps of obtaining a source text of a first language type and obtaining a target text of a second language type corresponding to the source text; replacing second target words in the source text with the plurality of first target words of the first language type respectively to obtain a plurality of candidate texts; translating the candidate texts through a machine translation model to obtain a first translation text of the second language type corresponding to each candidate text; translating the source text through a machine translation model to obtain a second translation text of the second language type; and detecting a translation performance index of the machine translation model according to a first similarity between the first translation text and the target text and a second similarity between the second translation text and the target text. The accuracy of detecting the performance of the machine translation model is improved.)

一种机器翻译模型性能检测方法、以及相关设备

技术领域

本申请涉及自然语言处理技术领域,具体涉及一种机器翻译模型性能检测方法、以及相关设备。

背景技术

机器翻译技术是指使用计算机设备将一种自然语言(一般称为源语言或源端)的原文翻译为另一种自然语言(一般称为目标语言或目标端)的译文的技术。由于机器翻译可以通过计算机设备自主完成,所以与人工翻译相比,可以以在相对短的时间内处理大量的翻译工作。

现有技术中,可以通过机器翻译模型实现机器翻译,例如,统计机器翻译模型(Statistical Machine Translation,SMT),机器翻译模型一般是依赖于词或短语的对齐表(Phrase Table)将源语言翻译为目标语言,并且在判定机器翻译模型性能时,是将机器翻译模型翻译得到的目标语言与源语言对应的标准语言进全局比对,而机器翻译模型的架构、参数数量、以及训练数据体量等日趋复杂与大规模化,使得无法通过机器翻译模型的内部构造充分认知性能瓶颈的来源,也无法有效的控制给定任意输入后机器翻译模型的预测相对于使用者的可接纳程度,因此全局比对方式使得机器翻译模型性能的判定的准确性较低。

发明内容

本申请实施例提供一种机器翻译模型性能检测方法、以及相关设备,其中,相关设备可以包括机器翻译模型性能检测装置、计算机设备及存储介质等,可以提高对机器翻译模型性能检测准确性。

为解决上述技术问题,本申请实施例提供以下技术方案:

本申请实施例提供了一种机器翻译模型性能检测方法,包括:

获取第一语言类型的源文本,以及获取与所述源文本对应的第二语言类型的目标文本;

利用所述第一语言类型的多个第一目标词分别替换所述源文本中的第二目标词,得到多个候选文本;

通过机器翻译模型对所述多个候选文本进行翻译,得到每个候选文本对应的所述第二语言类型的第一翻译文本;

通过所述机器翻译模型对所述源文本进行翻译,得到所述第二语言类型的第二翻译文本;

根据所述第一翻译文本与所述目标文本之间的第一相似度,与所述第二翻译文本与所述目标文本之间的第二相似度,检测所述机器翻译模型的翻译性能指标。

根据本申请的一个方面,还提供了一种机器翻译模型性能检测装置,包括:

获取单元,用于获取第一语言类型的源文本,以及获取与所述源文本对应的第二语言类型的目标文本;

替换单元,用于利用所述第一语言类型的多个第一目标词分别替换所述源文本中的第二目标词,得到多个候选文本;

第一翻译单元,用于通过机器翻译模型对所述多个候选文本进行翻译,得到每个候选文本对应的所述第二语言类型的第一翻译文本;

第二翻译单元,用于通过所述机器翻译模型对所述源文本进行翻译,得到所述第二语言类型的第二翻译文本;

检测单元,用于根据所述第一翻译文本与所述目标文本之间的第一相似度,与所述第二翻译文本与所述目标文本之间的第二相似度,检测所述机器翻译模型的翻译性能指标。

根据本申请的一个方面,还提供了一种计算机设备,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行本申请实施例提供的任一种机器翻译模型性能检测方法。

根据本申请的一个方面,还提供了一种存储介质,所述存储介质用于存储计算机程序,所述计算机程序被处理器加载,以执行本申请实施例提供的任一种机器翻译模型性能检测方法。

本申请实施例可以获取第一语言类型的源文本,以及获取与源文本对应的第二语言类型的目标文本,利用第一语言类型的多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本;然后可以通过机器翻译模型对多个候选文本进行翻译,得到每个候选文本对应的第二语言类型的第一翻译文本,以及通过机器翻译模型对源文本进行翻译,得到第二语言类型的第二翻译文本;此时可以根据第一翻译文本与目标文本之间的第一相似度,与第二翻译文本与目标文本之间的第二相似度,检测机器翻译模型的翻译性能指标。该方案通过机器翻译模型对词替换后得到的候选文本和源文本进行翻译,并基于第一翻译文本与目标文本之间的第一相似度,与第二翻译文本与目标文本之间的第二相似度进行统计分析,以精准检测机器翻译模型的翻译性能指标,提高了对机器翻译模型性能检测准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的机器翻译模型性能检测方法应用的场景示意图;

图2是本申请实施例提供的机器翻译模型性能检测方法的流程示意图;

图3是本申请实施例提供的不同替换策略对机器翻译模型的翻译性能指标影响的示意图;

图4是本申请实施例提供的不同替换策略对机器翻译模型的翻译性能指标影响的另一示意图;

图5是本申请实施例提供的机器翻译模型性能检测方法的流程示意图;

图6是本申请实施例提供的源文本中第二目标词替换后得到候选文本的翻译文本与目标文本之间相似度分布的示意图;

图7是本申请实施例提供的源文本中第二目标词替换后得到候选文本的翻译文本与目标文本之间相似度分布的另一示意图;

图8是本申请实施例提供的源文本中第二目标词替换后得到候选文本的翻译文本与目标文本之间相似度分布的另一示意图;

图9是本申请实施例提供的源文本中第二目标词替换后得到候选文本的翻译文本与目标文本之间相似度分布的另一示意图;

图10是本申请实施例提供的源文本中第二目标词替换后得到候选文本的翻译文本与目标文本之间相似度分布的另一示意图;

图11是本申请实施例提供的源文本中第二目标词替换后得到候选文本的翻译文本与目标文本之间相似度分布的另一示意图;

图12是本申请实施例提供的机器翻译模型性能检测装置的示意图;

图13是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请实施例提供一种机器翻译模型性能检测方法、以及相关设备,其中,相关设备可以包括机器翻译模型性能检测装置、计算机设备及存储介质等。

请参阅图1,图1为本申请实施例所提供的机器翻译模型性能检测方法应用的场景示意图,该机器翻译模型性能检测方法应用可以包括机器翻译模型性能检测装置,该机器翻译模型性能检测装置具体可以集成在服务器或终端等计算机设备中,其中,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。该终端可以是手机、平板电脑、笔记本电脑、台式电脑、车载设备或者可穿戴设备等。服务器与终端之间可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。

其中,计算机设备可以用于获取第一语言类型的源文本,以及获取与源文本对应的第二语言类型的目标文本,利用第一语言类型的多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本;然后可以通过机器翻译模型对多个候选文本进行翻译,得到每个候选文本对应的第二语言类型的第一翻译文本,以及通过机器翻译模型对源文本进行翻译,得到第二语言类型的第二翻译文本;此时可以根据第一翻译文本与目标文本之间的第一相似度,与第二翻译文本与目标文本之间的第二相似度,检测机器翻译模型的翻译性能指标,提高了对机器翻译模型性能检测准确性。

需要说明的是,图1所示的机器翻译模型性能检测方法应用的场景示意图仅仅是一个示例,本申请实施例描述的机器翻译模型性能检测方法应用以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着机器翻译模型性能检测方法应用的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。

以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。

本申请实施例提供的机器翻译模型性能检测方法可以涉及人工智能中的机器学习技术等技术,例如,可以通过包含人工智能中的机器学习技术的机器翻译模型对文本进行翻译等,下面先对人工智能技术和机器学习技术进行说明。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、以及机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、以及算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、以及式教学习等技术。

在本实施例中,将从机器翻译模型性能检测装置的角度进行描述,该机器翻译模型性能检测装置具体可以集成在服务器等计算机设备中。

请参阅图2,图2是本申请一实施例提供的机器翻译模型性能检测方法的流程示意图。该机器翻译模型性能检测方法可以包括:

S101、获取第一语言类型的源文本,以及获取与源文本对应的第二语言类型的目标文本。

其中,第一语言类型和第二语言类型可以根据实际需要进行灵活设置,例如,第一语言类型可以是中文,源文本可以是中文文本,第二语言类型可以是英文,目标文本可以是英文文本;或者是,第一语言类型可以是英文,源文本可以是英文文本,第二语言类型可以是中文,目标文本可以是中文文本;或者是,第一语言类型可以是中文,源文本可以是中文文本,第二语言类型可以是日文,目标文本可以是日文文本;或者是,第一语言类型可以是中文,源文本可以是中文文本,第二语言类型可以是德文,目标文本可以是德文文本;或者是,第一语言类型可以是中文,源文本可以是中文文本,第二语言类型可以是法文,目标文本可以是法文文本;等等。

源文本和目标文本的长度、个数和具体内容等,可以根据实际需要进行灵活设置,具体在此处不做限定,例如,源文本和目标文本可以是一个句子、一段文字或一篇文章等,源文本可以包括多个,每个源文本可以对应一个目标文本。

可以从计算机设备的本地数据库中获取第一语言类型的源文本,或者可以从服务器上下载第一语言类型的源文本,或者可以接收用户输入的第一语言类型的源文本,或者可以采集用户录入的语音信息,并将语音信息转换为第一语言类型的源文本,等等。以及,可以通过训练好的翻译模型获取与源文本对应的第二语言类型的目标文本,或者可以接收用户翻译好的与源文本对应的第二语言类型的目标文本,或者可以从预先存储第二语言类型文本的数据库中获取与源文本匹配的第二语言类型的目标文本,等等。当然,源文本和目标文本的获取方式还可以根据实际需要进行灵活设置,具体在此处不做限定。

S102、利用第一语言类型的多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本。

其中,第一目标词的数量以及具体内容可以根据实际需要进行灵活设置,例如,第一目标词可以是第一语言类型对应的一个字、两个字组成的词、或短语等,可以从第一语言类型的词表中筛选出多个词作为第一目标词,该词表存储有多个不同的词。在得到源文本后,可以对源文本进行词划分,得到组成源文本X的n个词:X=[x1,x2,x3,...,xn],然后从n个词中筛选出第二目标词(即被替换词),此时可以将多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本。例如,若第一目标词包括“你”、“我”、“他”、以及“我们”,第二目标词为x3,则可以利用“你”替换源文本中第二目标词x3,得到候选文本1,利用“我”替换源文本中第二目标词x3,得到候选文本2,利用“他”替换源文本中第二目标词x3,得到候选文本3,利用“我们”替换源文本中第二目标词x3,得到候选文本4。

在一实施方式中,利用第一语言类型的多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本可以包括:基于源文本和目标文本,通过机器翻译模型的损失函数计算源文本中第二目标词对应的梯度值;根据梯度值从第一语言类型的词表中采样出多个第一目标词;将多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本。

其中,机器翻译模型的类型以及结构等可以根据实际需要进行灵活设置,例如,机器翻译模型可以是神经机器翻译模型(Neural Machine Translation,NMT),或者是统计机器翻译模型(Statistical Machine Translation,SMT)等。

为了提高替换的可靠性,可以利用梯度采样替换策略对源文本中的第二目标词进行替换,具体地,可以基于源文本和目标文本,通过机器翻译模型的损失函数L(X,Y;theta)计算源文本中第二目标词对应的梯度值,例如,可以计算该损失函数在第二目标词的词向量上的梯度值。其中,X可以表示源文本,Y可以表示目标文本,theta可以表示机器翻译模型的参数。

然后,可以根据梯度值从第一语言类型的词表中采样出多个第一目标词,在一实施方式中,根据梯度值从第一语言类型的词表中采样出多个第一目标词可以包括:根据梯度值按照预设学习率对源文本中第二目标词的词向量进行更新,得到更新后词向量;将更新后词向量与第一语言类型的词表对应的词向量矩阵进行点积操作,得到源文本中第二目标词的词向量与词向量矩阵中每个词向量之间的相似度向量;根据相似度向量从第一语言类型的词表中,采样出与源文本中第二目标词相似度大于预设相似度阈值的多个第一目标词。

例如,为了提高第一目标词筛选的可靠性,可以根据梯度值按照预设学习率对源文本中第二目标词的词向量进行更新,得到更新后词向量,例如,更新后词向量embedding=第二目标词的词向量-预设学习率*梯度值,其中,预设学习率的具体取值可以根据实际需要进行灵活设置,例如,预设学习率可以取1.0。

可以将更新后词向量与第一语言类型的词表对应的词向量矩阵进行点积操作,得到源文本中第二目标词的词向量与词向量矩阵中每个词向量之间的相似度向量,该相似度向量可以是词表大小维的向量,该词向量矩阵可以是词表中每个词的词向量构成的向量矩阵。此时可以根据相似度向量从第一语言类型的词表中,采样(例如无放回采样)出与源文本中第二目标词相似度大于预设相似度阈值的多个第一目标词。例如,可以利用多项式分布从词表中采样出相似度较大的词作为第一目标词。在得到第一目标词后,可以将多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本。

在一实施方式中,利用第一语言类型的多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本可以包括:从第一语言类型的词表中筛选出多个候选词;将多个候选词分别替换源文本中的第二目标词,得到多个替换文本;通过机器翻译模型的损失函数,计算替换文本和目标文本之间的损失值;筛选出损失值最小所对应的预设个数候选词,得到多个第一目标词;将多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本。

为了提高替换的准确性,可以利用层次采样替换策略对源文本中的第二目标词进行替换,具体地,可以从第一语言类型的词表中随机或按照预设筛选策略筛选出多个候选词,将多个候选词分别替换源文本中的第二目标词,得到多个替换文本。例如,若候选词包括词1、词2和词3,第二目标词为xi,则可以利用词1替换源文本中第二目标词xi,得到替换文本1,利用词2替换源文本中第二目标词xi,得到替换文本2,利用词3替换源文本中第二目标词xi,得到替换文本3。然后可以通过机器翻译模型的损失函数L(X’,Y;theta),计算替换文本和目标文本之间的损失值,其中,X’可以表示替换文本,Y可以表示目标文本,theta可以表示机器翻译模型的参数。此时可以筛选出损失值最小所对应的预设个数替换文本,将该预设个数替换文本对应的候选词作为多个第一目标词,将多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本。

在一实施方式中,利用第一语言类型的多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本可以包括:确定源文本中的替换位置;从第一语言类型的词表中随机筛选出多个第一目标词;将多个第一目标词分别替换源文本中替换位置对应的第二目标词,得到多个候选文本。

为了提高替换的便捷性,可以利用随机采样替换策略对源文本中的第二目标词进行替换,具体地,可以对源文本进行位置划分,得到多个替换位置,从多个替换位置中筛选出待替换的替换位置,从第一语言类型的词表中随机筛选出多个第一目标词,将多个第一目标词分别替换源文本中替换位置对应的第二目标词,得到多个候选文本。

在一实施方式中,利用第一语言类型的多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本可以包括:确定源文本中第二目标词的属性信息;根据属性信息从第一语言类型的词表中筛选出多个第一目标词;将多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本。

为了提高替换的灵活性,可以利用属性采样替换策略对源文本中的第二目标词进行替换,其中,属性信息可以包括第二目标词的词性或语义信息等,具体地,可以对源文本进行词划分,得到多个词,从多个词中随机或按照预设筛选策略筛选出第二目标词,确定该第二目标词的属性信息,例如,可以分析第二目标词的词性或对第二目标词进行语义分析,得到第二目标词的属性信息。然后可以根据第二目标词的属性信息从第一语言类型的词表中,筛选出与第二目标词的属性信息匹配的多个第一目标词(例如词性相同或语义信息类似的第一目标词),将多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本。

S103、通过机器翻译模型对多个候选文本进行翻译,得到每个候选文本对应的第二语言类型的第一翻译文本。

在得到多个候选文本后,可以通过机器翻译模型分别对每个候选文本进行翻译,得到每个候选文本对应的第二语言类型的第一翻译文本,以及可以计算第一翻译文本与目标文本之间的第一相似度(例如sentence BLEU:子级别的机器翻译评价标准,数值越高表示效果越好)。例如,可以将第一翻译文本与目标文本进行逐字比对,以检测第一翻译文本与目标文本之间存在的相同部分,并计算该相同部分所占的百分比作为第一相似度。又例如,可以将第一翻译文本与目标文本进行逐字比对和语义比对,并根据比对结果计算第一翻译文本与目标文本之间的第一相似度。第一相似度越高,说明第一翻译文本与目标文本之间越相似,反之,第一相似度越低,说明第一翻译文本与目标文本之间越不相似。

S104、通过机器翻译模型对源文本进行翻译,得到第二语言类型的第二翻译文本。

在得到源文本后,可以通过机器翻译模型对源文本进行翻译,得到源文本对应的第二语言类型的第二翻译文本,以及可以计算第二翻译文本与目标文本之间的第二相似度。例如,可以将第二翻译文本与目标文本进行逐字比对,以检测第二翻译文本与目标文本之间存在的相同部分,并计算该相同部分所占的百分比作为第二相似度。又例如,可以将第二翻译文本与目标文本进行逐字比对和语义比对,并根据比对结果计算第二翻译文本与目标文本之间的第二相似度;等等。

在一实施方式中,获取第一翻译文本与目标文本之间的第一相似度,以及第二翻译文本与目标文本之间的第二相似度可以包括:通过机器翻译模型获取第一翻译文本与目标文本之间的第一初始相似度,以及第二翻译文本与目标文本之间的第二初始相似度;利用重排序算法计算候选文本的第一翻译分值,以及源文本的第二翻译分值;根据第一翻译分值对第一初始相似度调整,得到第一翻译文本与目标文本之间的第一相似度,以及根据第二翻译分值对第二初始相似度进行调整,得到第二翻译文本与目标文本之间的第二相似度。

其中,重排序算法可以用于计算文本的翻译分值,例如,对于源文本A,在未知源文本A对应的目标文本的情况下,可以计算源文本A能够翻译为目标文本的翻译分值,翻译分值越高,说明对源文本A的翻译结果越接近目标文本,反之,翻译分值越低,说明对源文本A的翻译结果越不接近目标文本。为了提高相似度计算的准确性,可以基于重排序算法计算得到的翻译分值对机器翻译模型获取到的相似度进行微调,例如,可以通过机器翻译模型获取第一翻译文本与目标文本之间的第一初始相似度,以及第二翻译文本与目标文本之间的第二初始相似度,以及利用重排序算法计算候选文本的第一翻译分值,以及利用重排序算法计算源文本的第二翻译分值。然后可以根据第一翻译分值对第一初始相似度调整,得到第一翻译文本与目标文本之间的第一相似度,以及根据第二翻译分值对第二初始相似度进行调整,得到第二翻译文本与目标文本之间的第二相似度。例如,可以将第一翻译分值作为第一翻译文本与目标文本之间的第一相似度,将第二翻译分值作为第二翻译文本与目标文本之间的第二相似度,或者,可以取第一翻译分值和第一初始相似度的均值作为第一翻译文本与目标文本之间的第一相似度,取第二翻译分值和第二初始相似度的均值作为第二翻译文本与目标文本之间的第二相似度,等等。

S105、根据第一翻译文本与目标文本之间的第一相似度,与第二翻译文本与目标文本之间的第二相似度,检测机器翻译模型的翻译性能指标。

其中,机器翻译模型的翻译性能指标可以包括翻译的准确性以及稳定性等,在得到第一翻译文本与目标文本之间的第一相似度,以及第二翻译文本与目标文本之间的第二相似度后,可以根据第一相似度和第二相似度检测机器翻译模型的翻译性能指标。

例如,可以将源文本与候选文本作为测试样例,获取每个测试样例在机器翻译模型上的泛化屏障词,泛化屏障词可以是影响机器翻译模型准确翻译的词,可以分析该词的词性或语义等,以说明该类词性或语义的词影响机器翻译模型的准确翻译,表示该词是否阻碍了机器翻译模型在该测试样例上的成功泛化。泛化屏障词检测算法可以用于检测样例级别的输入中导致模型在该样例上泛化较差的词的集合。

需要说明的是,可以将本实施例中对机器翻译模型的翻译性能指标的检测称为细粒度分析,细粒度的表现可以是,给定机器翻译模型输入后,如何判断机器翻译模型在该输入上的具体表现,可以将这种样例级别(Instance-level Analysis)的分析称为细粒度的分析。细粒度的分析能传达更丰富的错误信息,从而有利于更有效的理解机器翻译模型的行为,认识机器翻译模型的能与不能,从而更有针对的提出有效的解决方案。

需要说明的是,除了可以在有目标文本的情形下进行检测之外,还可以采用无目标文本的场景进行替代,例如采用质量评估模型作为标准损失的替代,以根据标准损失检测机器翻译模型的翻译性能指标。

在一实施方式中,根据第一翻译文本与目标文本之间的第一相似度,与第二翻译文本与目标文本之间的第二相似度,检测机器翻译模型的翻译性能指标可以包括:获取第一翻译文本与目标文本之间的第一相似度,以及第二翻译文本与目标文本之间的第二相似度;从多个候选文本对应的第一翻译文本中筛选出第一相似度大于第二相似度的候选文本,得到目标候选文本;根据目标候选文本分析源文本中第二目标词的词性分布;根据词性分布确定机器翻译模型的翻译性能指标。

为了提高对机器翻译模型的翻译性能指标检测的准确性,可以根据源文本中第二目标词的词性分布确定机器翻译模型的翻译性能指标,具体地,可以从多个候选文本对应的第一翻译文本中筛选出第一相似度大于第二相似度的候选文本,得到目标候选文本;例如,源文本对应的第二翻译文本Yo与目标文本Y之间的第一相似度为b0,b个候选文本对应的第一翻译文本与目标文本Y之间的第一相似度有b个,此时要从b个第一相似度中筛选出大于b0的值,将大于b0的第一相似度对应的候选文本作为目标候选文本。然后,可以获取目标候选文本对应的源文本,并确定该目标候选文本对应的源文本中第二目标词的词性,一个或多个源文本中第二目标词的词性可以形成词性分布,此时可以根据词性分布确定机器翻译模型的翻译性能指标,例如,可以分析影响机器翻译模型准确翻译的词性,以获取机器翻译模型的泛化屏障词。其中,词性可以包括名词、动词、形容词、代词、介词、副词以及连词等。

在一实施方式中,根据目标候选文本分析源文本中第二目标词的词性分布可以包括:将目标候选文本按照源文本中第二目标词的替换位置划分为多组候选文本;计算每组候选文本对应的相似度的均值;根据均值最大的前预设组候选文本确定源文本中第二目标词的词性分布。

在分析源文本中第二目标词的词性分布的过程中,可以将目标候选文本按照源文本中第二目标词的替换位置划分为多组候选文本,例如,对于源文本A对应的候选文本组可以包括:利用第一目标词1、第一目标词2、第一目标词3、第一目标词4、以及第一目标词5等分别替换源文本A中替换位置a的第二目标词得到的候选文本组1,利用第一目标词1、第一目标词6、第一目标词7、以及第一目标词8等分别替换源文本A中替换位置b的第二目标词得到的候选文本组2,利用第一目标词9、第一目标词10、第一目标词11、第一目标词12、以及第一目标词13等分别替换源文本A中替换位置c的第二目标词得到的候选文本组3,等等。然后,可以计算每组候选文本对应的相似度的均值,例如,计算候选文本组1中5个候选文本对应的第一相似度的均值(truncated mean,tm),从同一个源文本对应的多个候选文本组中,筛选出均值(也可以称为tm值)最大的前预设组候选文本(例如,筛选出tm值最大的k%候选文本),并统计均值最大的前预设组候选文本所对应的源文本中第二目标词的词性分布。其中,前预设组以及k%等具体取值可以根据实际需要进行灵活设置,

以下将进行举例说明,基于泛化屏障词检测,可以使用修改源文本中第二目标词获取更好的翻译候选用于进行重排序(re-ranking),进而选出更好的翻译预测。泛化屏障词的词性分布分析:基于上述泛化屏障词检测算法,可以得到源文本X中各第二目标词对应的tm值,通过排序得到具有较高tm值的第二目标词,通过取具有top-k(k=10%、20%或30%)的第二目标词作为源文本X上的泛化屏障词,通过分析这些第二目标词的词性分布来抓取第二目标词的特性。如下表格1和表2分别展示了中-英方向与英-中方向上泛化屏障词的词性分布(即第二目标词的词性分布)。作为参照,给出了源文本中所有词的词性的自然分布(即源文本中包含的词的词性分布)。通过比较屏障词占比相较于自然分布词占比的变化(增减)从而判断某类词性的词更倾向于是一个泛化屏障词与否。

通过观察表1和表2可以得出的结论包括:1.在所有词性类别上,泛化屏障词均广泛存在,且与词性的自然分布是接近的;2.介词(Prep.)与标点符号(Punc.)的更倾向于成为泛化屏障词;3.表达内容或实义的词更不会倾向于成为泛化屏障词。

上述结论的价值在于:1.反映了机器翻译模型对上下文的敏感程度,即越是上下文相关的词,越影响其他词的翻译;2.可以作为特征用于训练泛化屏障词的检测分类器;3.可以引导系统设计者更加注意某些类别词对于源文本(也可以称为源端)整句语义的影响,从而给出阻断上下文语义干扰的潜在方法。

表1:中-英翻译方向上,中文上泛化屏障词的词性分布

词性类别 k=10% k=20% k=30% 自然分布
字节对编码BPE 9.80%- 10.74%- 11.26%- 12.00%
名词Noun 22.17%- 22.43%- 21.85%- 24.07%
代词Pron. 1.94%- 2.18%+ 2.25%+ 2.15%
动词Verb. 11.57%+ 11.28%+ 11.00%- 11.26%
形容词Adj 6.74%- 7.19%- 7.26%- 8.19%
副词Adv. 3.24%+ 3.07%+ 2.83%- 2.93%
介词Prep. 12.94%+ 13.05%+ 13.39%+ 11.88%
标点符号Punc. 16.04%+ 13.98%+ 13.30%+ 10.41%
限定词Det. 8.11%- 8.84%- 9.42%+ 9.05%
连词C&C 1.94%- 2.06%- 2.05%- 2.20%

表2:英-中翻译方向上,英文上泛化屏障词的词性分布

词性类别 k=10% k=20% k=30% 自然分布
字节对编码BPE 14.32%- 15.10%- 15.28%- 15.33%
名词Noun 16.52%- 16.23%- 15.83%- 17.63%
专有名称Prop.N. 6.56%- 6.75%- 6.37%- 7.44%
代词Pron. 1.75%- 1.91%- 2.32%- 2.35%
动词Verb. 18.37%+ 18.33%- 18.56%+ 18.36%
形容词Adj 2.50%- 2.56%- 2.60%- 3.19%
副词Adv. 4.30%+ 4.27%+ 4.14%+ 4.07%
介词Prep. 4.70%+ 4.65%+ 4.58%+ 3.83%
标点符号Punc. 16.65%+ 14.49%+ 14.40%+ 11.44%
数量词Q&M 3.95%- 4.49%- 4.59%- 4.87%
连词C&C 1.84%- 1.79%- 1.99%- 2.23%

其中,表1和表2中,k=10%可以表示从源文本对应的多个候选文本组中,筛选出均值(即tm值)最大的前10%候选文本组,以统计10%候选文本组所对应的源文本中第二目标词的词性分布。自然分别可以表示源文本中各个词的词性分布,“9.80%-”中的“-”可以表示9.80%比自然分布12.00%小,“11.57%+”中的“+”可以表示11.57%+比自然分布11.26%大,各个词性对应的百分比可以是表示各个词性占源文本中词的比例。

在一实施方式中,利用第一语言类型的多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本可以包括:按照不同替换策略利用第一语言类型的多个第一目标词分别替换源文本中的词,得到每种替换策略对应的多个候选文本。根据第一翻译文本与目标文本之间的第一相似度,与第二翻译文本与目标文本之间的第二相似度,检测机器翻译模型的翻译性能指标可以包括:分别从基于每种替换策略替换得到的多个候选文本对应的第一翻译文本中筛选出第一相似度大于第二相似度的候选文本,得到每种替换策略对应的目标候选文本;将每种替换策略对应的目标候选文本按照源文本中第二目标词的替换位置划分为多组候选文本,并计算每组候选文本对应的相似度的均值;按照均值从高至低的顺序对每种替换策略对应的候选文本进行排序,根据排序结果分析每种替换策略对应的源文本的重合度;根据重合度确定机器翻译模型的翻译性能指标。

为了提高对机器翻译模型的翻译性能指标检测的可靠性,可以根据不同替换策略对应的重合度确定机器翻译模型的翻译性能指标,其中,替换策略可以包括上述的梯度采样替换策略、层次采样替换策略、以及随机采样替换策略等。具体地,可以按照梯度采样替换策略、层次采样替换策略、以及随机采样替换策略等不同替换策略,利用第一语言类型的多个第一目标词分别替换源文本中的词,得到每种替换策略对应的多个候选文本。在检测机器翻译模型的翻译性能指标的过程中,可以分别从基于每种替换策略替换得到的多个候选文本对应的第一翻译文本中筛选出第一相似度大于第二相似度的候选文本,得到每种替换策略对应的目标候选文本;以及将每种替换策略对应的目标候选文本按照源文本中第二目标词的替换位置划分为多组候选文本,并计算每组候选文本对应的相似度的均值;按照均值从高至低的顺序对每种替换策略对应的候选文本进行排序,根据排序结果分析每种替换策略对应的源文本的重合度,根据重合度确定机器翻译模型的翻译性能指标。

以下将进行举例说明,例如,如图3所示,反映了不同替换策略生成候选文本对机器翻译模型的精确性的影响,可以看出在不同的候选文本b下,随着候选文本b数量的上升,精确性越高,且各替换策略对应的精确性几乎相当。图3中,横坐标可以表示对源文本中第二目标词进行替换得到的候选文本b的数量,纵坐标可以表示为不同替换策略对应的源文本的重合度(例如k%词是否相同)。

与其他源文本词类别的重合度分析:可以将泛化屏障词识别算法得到的top-k的源文本中第二目标词与其他一些类别进行比较,重合度可以如表3所示。可以看出,低频词(Frequency)、高翻译熵(Entropy)的词与错误词(Exception)均与屏障词的重合度与随机筛选的词和屏障词的重合度相当,说明泛化屏障词与低频词、高翻译熵的词以及错误词之间有本质的区别。一个原因可能是这三种类别对应的词均为全局的,而屏障词则是样例级别的分析Instance-level Analysis下的产物,很可能存在很大的差异;另一原因可能是,泛化屏障词可能本身是被翻译正确了,但却影响其他词的翻译,而低频词、高翻译熵的词与错误词大多数为该词本身就不容易被正确翻译。

表3:英-中、中-英翻译方向上,泛化屏障词与已有其他类别词的重合度关系

在一实施方式中,源文本包括多个,根据第一翻译文本与目标文本之间的第一相似度,与第二翻译文本与目标文本之间的第二相似度,检测机器翻译模型的翻译性能指标可以包括:分别从每个源文本对应的多个候选文本对应的第一翻译文本中筛选出第一相似度大于第二相似度的候选文本,得到每个源文本对应的目标候选文本;将每个源文本对应的目标候选文本按照源文本中第二目标词的替换位置划分为多组候选文本,并计算每组候选文本对应的相似度的均值;计算均值最大的候选文本组中候选文本对应的相似度的方差值;根据方差值确定机器翻译模型的翻译性能指标。

为了准确检测机器翻译模型的翻译性能的稳定性,可以根据候选文本对应的相似度的方差值确定机器翻译模型的翻译性能指标,例如,如图4所示,在稳定性上,层次采样替换策略(可以简称为层次采样)的方差最小,基于梯度采样和随机采样的方差是相似的,因此可以优选采用层次采样对tm值进行计算。图4中,横坐标可以表示对源文本中第二目标词进行替换得到的候选文本b的数量,纵坐标可以表示排序相关性,k%候选文本中两两之间的重排是否相关,通过方差体现,方差越小,稳定性越高。

在一实施方式中,根据第一翻译文本与目标文本之间的第一相似度,与第二翻译文本与目标文本之间的第二相似度,检测机器翻译模型的翻译性能指标之后,机器翻译模型性能检测方法还可以包括:根据机器翻译模型的翻译性能指标对机器翻译模型进行调整,得到调整后机器翻译模型;通过调整后机器翻译模型对待翻译文本进行翻译。

在检测得到机器翻译模型的翻译性能指标后,可以根据机器翻译模型的翻译性能指标对机器翻译模型的参数进行调整,得到调整后机器翻译模型。在后续对文本翻译时,可以通过调整后机器翻译模型对待翻译文本进行准确翻译。

需要说明的是,通过分析修改源文本中第二目标词能带来的重排序相关指标的增益来反映泛化屏障词无监督检测的重要性以及修改源文本中第二目标词产生重排序候选的可行性。为了接近真实的重排序任务,可以修改源文本中的每一个第二目标词去生成候选文本对应的翻译文件(可以称为翻译候选),而并非在已知目标文本的情况下去修改候选文本。通过候选文本的相似度值(越大越好)、差异性(越小越好)与对目标文本的召回率(越大越好)来衡量其与标准束搜索beam search产生的top-m候选进行对比。可以发现,各指标均是修改屏障词得到的候选更优,即验证了通过修改源文本中第二目标词(也可以称为修改源端词)得到更优翻译候选的可能性。

表4:英-中、中-英翻译方向上,修改源端词得到的翻译候选与束搜索beamsesarch得到翻译候选比较

本申请实施例可以获取第一语言类型的源文本,以及获取与源文本对应的第二语言类型的目标文本,利用第一语言类型的多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本;然后可以通过机器翻译模型对多个候选文本进行翻译,得到每个候选文本对应的第二语言类型的第一翻译文本,以及通过机器翻译模型对源文本进行翻译,得到第二语言类型的第二翻译文本;此时可以根据第一翻译文本与目标文本之间的第一相似度,与第二翻译文本与目标文本之间的第二相似度,检测机器翻译模型的翻译性能指标。该方案通过机器翻译模型对词替换后得到的候选文本和源文本进行翻译,并基于第一翻译文本与目标文本之间的第一相似度,与第二翻译文本与目标文本之间的第二相似度进行统计分析,以精准检测机器翻译模型的翻译性能指标,提高了对机器翻译模型性能检测准确性。

根据上述实施例所描述的方法,以下将举例作进一步详细说明。

本实施例以机器翻译模型性能检测装置集成在计算机设备为例,并以源文本为中文,目标文本为英文为例,请参阅图5,图5为本申请实施例提供的机器翻译模型性能检测方法的流程示意图。该方法流程可以包括:

S201、获取中文的源文本,以及获取与源文本对应的英文的目标文本。

例如,计算机设备可以从本地数据库中获取源文本,或者可以接收用户输入的源文本,或者可以采集用户录入的语音信息,并将语音信息转换为中文的源文本,等等。以及,计算机设备可以通过训练好的翻译模型获取与源文本对应的目标文本,或者可以接收用户翻译好的目标文本,等等。

S202、按照替换策略利用中文的多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本。

其中,替换策略可以包括梯度采样替换策略、层次采样替换策略、以及随机采样替换策略等,计算机设备可以按照一种或多种替换策略利用中文的多个第一目标词分别替换源文本中的第二目标词,得到每种替换策略对应的多个候选文本。

例如,利用梯度采样替换策略对源文本中的第二目标词进行替换可以包括:基于源文本和目标文本,通过机器翻译模型的损失函数计算源文本中第二目标词对应的梯度值,根据梯度值按照预设学习率对源文本中第二目标词的词向量进行更新,得到更新后词向量;将更新后词向量与中文的词表对应的词向量矩阵进行点积操作,得到源文本中第二目标词的词向量与词向量矩阵中每个词向量之间的相似度向量;根据相似度向量从中文的词表中,采样出与源文本中第二目标词相似度大于预设相似度阈值的多个第一目标词,将多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本。

又例如,利用层次采样替换策略对源文本中的第二目标词进行替换可以包括:从中文的词表中筛选出多个候选词,将多个候选词分别替换源文本中的第二目标词,得到多个替换文本;通过机器翻译模型的损失函数,计算替换文本和目标文本之间的损失值,筛选出损失值最小所对应的预设个数候选词,得到多个第一目标词,将多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本。

又例如,利用随机采样替换策略对源文本中的第二目标词进行替换可以包括:确定源文本中的替换位置,从第一语言类型的词表中随机筛选出多个第一目标词,将多个第一目标词分别替换源文本中替换位置对应的第二目标词,得到多个候选文本。

S203、通过机器翻译模型对多个候选文本进行翻译,得到每个候选文本对应的英文的第一翻译文本。

S204、通过机器翻译模型对源文本进行翻译,得到源文本对应的英文的第二翻译文本。

S205、获取第一翻译文本与目标文本之间的第一相似度,以及第二翻译文本与目标文本之间的第二相似度。

在得到多个候选文本后,可以通过机器翻译模型分别对每个候选文本进行翻译,得到每个候选文本对应的英文的第一翻译文本,以及可以计算第一翻译文本与目标文本之间的第一相似度。在得到源文本后,可以通过机器翻译模型对源文本进行翻译,得到源文本对应的英文的第二翻译文本,以及可以计算第二翻译文本与目标文本之间的第二相似度。

S206、从多个候选文本对应的第一翻译文本中筛选出第一相似度大于第二相似度的候选文本,得到目标候选文本。

S207、根据目标候选文本分析源文本中第二目标词的词性分布。

例如,可以将目标候选文本按照源文本中第二目标词的替换位置划分为多组候选文本,计算每组候选文本对应的相似度的均值,根据均值最大的前预设组候选文本确定源文本中第二目标词的词性分布。

S208、根据词性分布确定机器翻译模型的翻译性能指标。

例如,可以根据词性分布确定影响机器翻译模型的精准翻译性能的泛化屏障词,该泛化屏障词检测可以利用类似的反事实样例——即对输入进行微调(仅修改一个词),并观察大量修改样例(即候选文本)所带来的该样例(即源文本)的平均性能提升,从而判断被修改词对于机器翻译模型在该样例上泛化性能的影响。可以充分考虑源文本各词的强相互作用(即上下文相关),且针对具体的某一输入样例可得到该样例中存在的特有屏障词,更符合样例级别分析Instance-level Analysis的内在逻辑。即在已知目标文本的情况下检测样例级别的泛化屏障词,利用反事实产生的更优的翻译输出的平均质量来衡量原始输入的源文本中被修改部分成为泛化屏障的风险。由于反事实需要对源文本某词进行词表大小次修改,提出近似的采样方法大大降低复杂度,且充分利用层次采样中确定性降低检测算法对风险估计方差。该检测算法可以用于分析机器翻译模型的缺陷,且具体到对哪类词的建模的考量上。还可以统计不同的两个机器翻译模型对于相同的输入中泛化屏障词检测的差异。

S209、根据机器翻译模型的翻译性能指标对机器翻译模型进行调整,得到调整后机器翻译模型,以通过调整后机器翻译模型对待翻译文本进行翻译。

在检测得到机器翻译模型的翻译性能指标后,可以根据机器翻译模型的翻译性能指标对机器翻译模型的参数进行调整,得到调整后机器翻译模型。在后续对文本翻译时,可以通过调整后机器翻译模型对待翻译文本进行准确翻译。

以下将进行举例说明,例如,中文的源文本Source为:基因科学家的目标是:提供诊断工具以发现致病的缺陷基因,终而提供可阻止这些基因产生障碍的疗法。

与源文本对应的英文的目标文本Reference为:the goal of geneticists is toprovide diagnostic tools to identify defective genes that cause diseases soas to arrive eventually at treatments that can prevent those genes frommalfunctioning.

通过机器翻译模型对源文本进行翻译得到的翻译文本Original hypothesis为:the goal of genetic scientists is to provide diagnostic tools to discover thedefects of the disease and,in the end,to provide treatments that can preventthe production of these genes.

通过机器翻译模型对候选文本翻译得到较好的翻译文本(替换后更好的翻译结果)Much better hypothesis为:the goal of gene scientists is to providediagnostic tools to detect genes that cause diseases,and eventually providetreatments that can prevent these genes from producing obstacles.

可以利用中文的多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本,例如,可以利用多个第一目标词替换源文本中“诊断”、“工具”、“可”、“缺陷”、“终”或“而”等。

如图6所示,图6为利用多个第一目标词替换源文本中“诊断”得到相似度分布的直方图,其中,横坐标可以表示tm值,纵坐标可以表示候选文本的数量。图7为利用多个第一目标词替换源文本中“工具”得到相似度分布的直方图,图8为利用多个第一目标词替换源文本中“可”得到相似度分布的直方图,图9为利用多个第一目标词替换源文本中“缺陷”得到相似度分布的直方图,图10为利用多个第一目标词替换源文本中“终”得到相似度分布的直方图,图11为利用多个第一目标词替换源文本中“而”得到相似度分布的直方图。可以看出,产生的反事实样例相似度sentence BLEU分布直方图,在将源文本中第二目标词“缺陷”改为“根据”后,机器翻译模型能够产生出更好的预测结果,换句话说,“缺陷”该词的存在,导致了“致病基因”与“阻止...产生障碍的疗法”的翻译。

为了衡量各替换策略,可以通过多个(例如50个)源文本的精确tm值得到的排序后的输入源文本X计算tm值位于前k的词的重合程度,来衡量替换策略的准确率;以及,可以通过两次不同采样后得到的两个排序后输入源文本X的相关性rank correlation来反映不同替换策略的方差。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对机器翻译模型性能检测方法的详细描述,此处不再赘述。

本申请实施例可以获取中文的源文本,以及获取与源文本对应的英文的目标文本,按照替换策略利用中文的多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本;然后可以通过机器翻译模型对多个候选文本进行翻译,得到每个候选文本对应的英文的第一翻译文本,以及通过机器翻译模型对源文本进行翻译,得到英文的第二翻译文本;此时可以根据第一翻译文本与目标文本之间的第一相似度,与第二翻译文本与目标文本之间的第二相似度,检测机器翻译模型的翻译性能指标,以根据翻译性能指标对机器翻译模型进行调整,使得调整后的机器翻译模型可以精准对文本进行翻译,提高了对机器翻译模型性能检测准确性。

为便于更好的实施本申请实施例提供的机器翻译模型性能检测方法,本申请实施例还提供一种基于上述机器翻译模型性能检测方法的装置。其中名词的含义与上述机器翻译模型性能检测方法中相同,具体实现细节可以参考方法实施例中的说明。

请参阅图12,图12为本申请实施例提供的机器翻译模型性能检测装置的结构示意图,其中该机器翻译模型性能检测装置可以包括获取单元301、替换单元302、第一翻译单元303、第二翻译单元304、以及检测单元305等。

其中,获取单元301,用于获取第一语言类型的源文本,以及获取与所述源文本对应的第二语言类型的目标文本。

替换单元302,用于利用所述第一语言类型的多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本。

第一翻译单元303,用于通过机器翻译模型对多个候选文本进行翻译,得到每个候选文本对应的第二语言类型的第一翻译文本。

第二翻译单元304,用于通过机器翻译模型对源文本进行翻译,得到第二语言类型的第二翻译文本。

检测单元305,用于根据第一翻译文本与目标文本之间的第一相似度,与第二翻译文本与目标文本之间的第二相似度,检测机器翻译模型的翻译性能指标。

在一实施方式中,替换单元302具体可以用于:基于源文本和目标文本,通过机器翻译模型的损失函数计算源文本中第二目标词对应的梯度值;根据梯度值从第一语言类型的词表中采样出多个第一目标词;将多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本。

在一实施方式中,替换单元302具体可以用于:根据梯度值按照预设学习率对源文本中第二目标词的词向量进行更新,得到更新后词向量;将更新后词向量与第一语言类型的词表对应的词向量矩阵进行点积操作,得到源文本中第二目标词的词向量与词向量矩阵中每个词向量之间的相似度向量;根据相似度向量从第一语言类型的词表中,采样出与源文本中第二目标词相似度大于预设相似度阈值的多个第一目标词。

在一实施方式中,替换单元302具体可以用于:从第一语言类型的词表中筛选出多个候选词;将多个候选词分别替换源文本中的第二目标词,得到多个替换文本;通过机器翻译模型的损失函数,计算替换文本和目标文本之间的损失值;筛选出损失值最小所对应的预设个数候选词,得到多个第一目标词;将多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本。

在一实施方式中,替换单元302具体可以用于:确定源文本中的替换位置;从第一语言类型的词表中随机筛选出多个第一目标词;将多个第一目标词分别替换源文本中替换位置对应的第二目标词,得到多个候选文本。

在一实施方式中,替换单元302具体可以用于:确定源文本中第二目标词的属性信息;根据属性信息从第一语言类型的词表中筛选出多个第一目标词;将多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本。

在一实施方式中,检测单元305具体可以用于:获取第一翻译文本与目标文本之间的第一相似度,以及第二翻译文本与目标文本之间的第二相似度;从多个候选文本对应的第一翻译文本中筛选出第一相似度大于第二相似度的候选文本,得到目标候选文本;根据目标候选文本分析源文本中第二目标词的词性分布;根据词性分布确定机器翻译模型的翻译性能指标。

在一实施方式中,检测单元305具体可以用于:将目标候选文本按照源文本中第二目标词的替换位置划分为多组候选文本;计算每组候选文本对应的相似度的均值;根据均值最大的前预设组候选文本确定源文本中第二目标词的词性分布。

在一实施方式中,检测单元305具体可以用于:通过机器翻译模型获取第一翻译文本与目标文本之间的第一初始相似度,以及第二翻译文本与目标文本之间的第二初始相似度;利用重排序算法计算候选文本的第一翻译分值,以及源文本的第二翻译分值;根据第一翻译分值对第一初始相似度调整,得到第一翻译文本与目标文本之间的第一相似度,以及根据第二翻译分值对第二初始相似度进行调整,得到第二翻译文本与目标文本之间的第二相似度。

在一实施方式中,替换单元302具体可以用于:按照不同替换策略利用第一语言类型的多个第一目标词分别替换源文本中的词,得到每种替换策略对应的多个候选文本;检测单元305具体可以用于:分别从基于每种替换策略替换得到的多个候选文本对应的第一翻译文本中筛选出第一相似度大于第二相似度的候选文本,得到每种替换策略对应的目标候选文本;将每种替换策略对应的目标候选文本按照源文本中第二目标词的替换位置划分为多组候选文本,并计算每组候选文本对应的相似度的均值;按照均值从高至低的顺序对每种替换策略对应的候选文本进行排序,根据排序结果分析每种替换策略对应的源文本的重合度;根据重合度确定机器翻译模型的翻译性能指标。

在一实施方式中,源文本包括多个,检测单元305具体可以用于:分别从每个源文本对应的多个候选文本对应的第一翻译文本中筛选出第一相似度大于第二相似度的候选文本,得到每个源文本对应的目标候选文本;将每个源文本对应的目标候选文本按照源文本中第二目标词的替换位置划分为多组候选文本,并计算每组候选文本对应的相似度的均值;计算均值最大的候选文本组中候选文本对应的相似度的方差值;根据方差值确定机器翻译模型的翻译性能指标。

在一实施方式中,机器翻译模型性能检测装置还可以包括:

调整单元,用于根据机器翻译模型的翻译性能指标对机器翻译模型进行调整,得到调整后机器翻译模型;

翻译单元,用于通过调整后机器翻译模型对待翻译文本进行翻译。

本申请实施例可以由获取单元301获取第一语言类型的源文本,以及获取与源文本对应的第二语言类型的目标文本,由替换单元302利用第一语言类型的多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本;然后可以由第一翻译单元303通过机器翻译模型对多个候选文本进行翻译,得到每个候选文本对应的第二语言类型的第一翻译文本,以及由第二翻译单元304通过机器翻译模型对源文本进行翻译,得到第二语言类型的第二翻译文本;此时可以由检测单元305根据第一翻译文本与目标文本之间的第一相似度,与第二翻译文本与目标文本之间的第二相似度,检测机器翻译模型的翻译性能指标。该方案通过机器翻译模型对词替换后得到的候选文本和源文本进行翻译,并基于第一翻译文本与目标文本之间的第一相似度,与第二翻译文本与目标文本之间的第二相似度进行统计分析,以精准检测机器翻译模型的翻译性能指标,提高了对机器翻译模型性能检测准确性。

本申请实施例还提供一种计算机设备,该计算机设备可以是计算机设备,如图13所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图13中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:

处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:

获取第一语言类型的源文本,以及获取与源文本对应的第二语言类型的目标文本;利用第一语言类型的多个第一目标词分别替换源文本中的第二目标词,得到多个候选文本;通过机器翻译模型对多个候选文本进行翻译,得到每个候选文本对应的第二语言类型的第一翻译文本;通过机器翻译模型对源文本进行翻译,得到第二语言类型的第二翻译文本;根据第一翻译文本与目标文本之间的第一相似度,与第二翻译文本与目标文本之间的第二相似度,检测机器翻译模型的翻译性能指标。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对机器翻译模型性能检测方法的详细描述,此处不再赘述。

根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中各种可选实现方式中提供的方法。

本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机指令来完成,或通过计算机指令控制相关的硬件来完成,该计算机指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。为此,本申请实施例提供一种存储介质(即计算机可读存储介质),其中存储有计算机程序,计算机程序可以包括计算机指令,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种机器翻译模型性能检测方法。

以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种机器翻译模型性能检测方法中的步骤,因此,可以实现本申请实施例所提供的任一种机器翻译模型性能检测方法所能实现的有益效果,详见前面的实施例,在此不再赘述。

以上对本申请实施例所提供的一种机器翻译模型性能检测方法、以及相关设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

28页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:数据处理方法、装置、电子设备及介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!