数据处理方法、装置、电子设备及介质

文档序号:1889980 发布日期:2021-11-26 浏览:5次 >En<

阅读说明:本技术 数据处理方法、装置、电子设备及介质 (Data processing method, device, electronic equipment and medium ) 是由 颜建昊 王福升 孟凡东 于 2021-03-26 设计创作,主要内容包括:本申请实施例公开了一种数据处理方法、装置、电子设备及介质,应用于机器学习技术领域。其中方法包括:获取样本文本数据和对应的翻译文本数据,将样本文本数据输入第一翻译模型得到每个文本词语分别对应的第一翻译结果,并将样本文本数据输入第二翻译模型得到每个文本词语分别对应的第二翻译结果,获取每个文本词语分别对应的翻译词语的重要指标参数,并根据重要指标参数从N个文本词语中确定目标文本词语,根据目标文本词语对应的第一翻译结果、对应的第二翻译结果和对应的翻译词语,确定模型翻译损失函数,并根据模型翻译损失函数修正第一翻译模型,得到目标翻译模型。采用本申请实施例,可以提高所获取到的目标翻译模型的准确性。(The embodiment of the application discloses a data processing method, a data processing device, electronic equipment and a medium, which are applied to the technical field of machine learning. The method comprises the following steps: the method comprises the steps of obtaining sample text data and corresponding translation text data, inputting the sample text data into a first translation model to obtain a first translation result corresponding to each text word, inputting the sample text data into a second translation model to obtain a second translation result corresponding to each text word, obtaining important index parameters of the translation word corresponding to each text word, determining a target text word from N text words according to the important index parameters, determining a model translation loss function according to the first translation result corresponding to the target text word, the corresponding second translation result and the corresponding translation word, and correcting the first translation model according to the model translation loss function to obtain a target translation model. By adopting the embodiment of the application, the accuracy of the acquired target translation model can be improved.)

数据处理方法、装置、电子设备及介质

技术领域

本申请涉及机器学习技术领域,尤其涉及一种数据处理方法、装置、电子设备及介质。

背景技术

随着计算机技术的不断发展,人工智能(AI)技术也越发成熟,其中人工智能技术就涉及到机器学习的相关技术。

现有技术中,可以通过机器学习相关技术来对模型进行训练,训练得到的模型可以应用于对数据进行预测(如文本翻译预测)。通过将样本数据输入待训练的模型中,模型可以预测得到针对所输入的样本数据的预测结果,进而可通过该预测结果以及样本数据实际的数据属性之间的差异实现待训练的模型的模型参数的修正,最终得到训练完成的目标模型。而对于输入模型的样本数据而言,由于该样本数据的内容以及类型是各式各样的,该样本数据通常包含有会对模型训练产生负面影响的数据,因此直接使用该样本数据来修正模型参数,会导致训练得到的模型并不准确。

发明内容

本申请实施例提供了一种数据处理方法、装置、电子设备及介质,可以提高所获取到的目标翻译模型的准确性。

一方面,本申请实施例提供了一种数据处理方法,该方法包括:

获取样本文本数据和所述样本文本数据的翻译文本数据;所述样本文本数据包括N个文本词语,N为正整数;所述翻译文本数据包括所述N个文本词语中每个文本词语对应的翻译词语;所述样本文本数据和所述翻译文本数据具有不同的文本类型;

将所述样本文本数据输入第一翻译模型,在所述第一翻译模型中生成所述每个文本词语分别对应的第一翻译结果,并将所述样本文本数据输入第二翻译模型,在所述第二翻译模型中生成所述每个文本词语分别对应的第二翻译结果;

获取所述每个文本词语分别对应的翻译词语的重要指标参数,并根据所述每个文本词语分别对应的翻译词语的重要指标参数,从所述N个文本词语中确定目标文本词语;

根据所述目标文本词语对应的第一翻译结果、所述目标文本词语对应的第二翻译结果以及所述翻译文本数据中所述目标文本词语对应的翻译词语,确定模型翻译损失函数,并根据所述模型翻译损失函数修正所述第一翻译模型的模型参数,得到目标翻译模型。

一方面,本申请实施例提供了一种数据处理装置,该装置包括:

获取模块,用于获取样本文本数据和所述样本文本数据的翻译文本数据;所述样本文本数据包括N个文本词语,N为正整数;所述翻译文本数据包括所述N个文本词语中每个文本词语对应的翻译词语;所述样本文本数据和所述翻译文本数据具有不同的文本类型;

处理模块,用于将所述样本文本数据输入第一翻译模型,在所述第一翻译模型中生成所述每个文本词语分别对应的第一翻译结果,并将所述样本文本数据输入第二翻译模型,在所述第二翻译模型中生成所述每个文本词语分别对应的第二翻译结果;

确定模块,用于获取所述每个文本词语分别对应的翻译词语的重要指标参数,并根据所述每个文本词语分别对应的翻译词语的重要指标参数,从所述N个文本词语中确定目标文本词语;

所述确定模块,还用于根据所述目标文本词语对应的第一翻译结果、所述目标文本词语对应的第二翻译结果以及所述翻译文本数据中所述目标文本词语对应的翻译词语,确定模型翻译损失函数,并根据所述模型翻译损失函数修正所述第一翻译模型的模型参数,得到目标翻译模型。

一方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,处理器与存储器相互连接,其中,存储器用于存储计算机程序指令,处理器被配置用于执行该计算机程序指令实现上述方法中的部分或全部步骤。

一方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序指令,该计算机程序指令被处理器执行时,用于执行上述方法中的部分或全部步骤。

相应地,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述提供的数据处理方法。

本申请实施例中可以获取样本文本数据和对应的翻译文本数据,将样本文本数据输入第一翻译模型,在第一翻译模型中生成每个文本词语分别对应的第一翻译结果,并将样本文本数据输入第二翻译模型,在第二翻译模型中生成每个文本词语分别对应的第二翻译结果,获取每个文本词语分别对应的翻译词语的重要指标参数,根据每个文本词语分别对应的翻译词语的重要指标参数,从N个文本词语中确定目标文本词语,根据目标文本词语对应的第一翻译结果、目标文本词语对应的第二翻译结果以及翻译文本数据中目标文本词语对应的翻译词语,确定模型翻译损失函数,并根据模型翻译损失函数修正第一翻译模型的模型参数,得到目标翻译模型。通过实施上述方案,可以对样本文本数据进行处理,并从样本文本数据包含的文本词语中选择目标文本词语进行知识蒸馏,这有效地防止过拟合现象,并提高知识蒸馏效率,以及提高所获取到的目标翻译模型的准确性。

附图说明

为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种应用架构示意图;

图2为本申请实施例提供的一种数据处理方法的流程示意图;

图3为本申请实施例提供的一种确定目标翻译模型的场景示意图;

图4为本申请实施例提供的一种数据处理方法的流程示意图;

图5为本申请实施例提供的一种确定目标队列的场景示意图;

图6a为本申请实施例提供的一种模型训练的流程示意图;

图6b为本申请实施例提供的一种模型训练的流程示意图;

图7为本申请实施例提供的一种数据处理装置的结构示意图;

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。

本申请实施例提供一种数据处理方法,可以使训练得到的目标翻译模型能更准确地对文本进行翻译。

本申请实施例提出的数据处理方法实现于电子设备,该电子设备可以服务器,也可以是终端。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。

本申请实施例涉及机器学习技术领域,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

请参见图1,图1为根据本申请的技术方案所提出的应用架构,该应用架构可实现本申请实施例的数据处理方法。具体的,图1包括电子设备,以及电子设备中部署有第一翻译模型、第二翻译模型、以及存储了用于训练的相关数据,电子设备可以将相关数据中的样本文本数据输入第一翻译模型,由第一翻译模型输出第一翻译结果,并将相关数据中的样本文本数据输入第二翻译模型,由第二翻译模型输出第二翻译结果,电子设备可根据第一翻译结果、第二翻译结果以及相关数据中的翻译文本数据等并执行本申请的技术方案以实现第一翻译模型的训练。其中,第二翻译模型是预先训练好的模型,用于训练第二翻译模型的相关数据与用于训练第一翻译模型的相关数据可以相同也可以不同,第二翻译模型具备的模型翻译性能表明该模型可以实现较高准确率的文本翻译,通过由第二翻译模型生成的第二翻译结果对第一翻译模型进行训练,使得可以将第二翻译模型的模型翻译性能传递至第一翻译模型,进而实现训练得到的目标翻译模型具备与第二翻译模型相似的模型翻译性能,以及在第一翻译模型的训练过程中,修正的是第一翻译模型的模型参数,第二翻译模型的模型参数可以是保持不变的。

可选的,在一些实施例中,电子设备可以通过本申请技术方案对训练数据进行处理,并从训练数据中选取合适的样本数据进行知识蒸馏,以实现选择性知识蒸馏。其中,本申请涉及的知识蒸馏(Knowledge Distillation,KD)即为将一个模型根据输入的样本数据生成的知识传递给另一个模型进行学习,知识蒸馏包括老师模型(Teacher Model)和学生模型(Student Model),老师模型为在知识蒸馏中传递知识的模型,学生模型为在知识蒸馏中学习接受知识的模型。可以理解的是,知识蒸馏中的学生模型即为上述提及的图1中的第一翻译模型,知识蒸馏中的老师模型即为上述提及的图1中的第二翻译模型。

可选的,在一些实施例中,电子设备可根据实际的业务需求,执行该数据处理方法。例如,本申请技术方案可应用于语种翻译模型训练场景中(如中英翻译、英德翻译等),电子设备在获取样本文本数据(如中文训练样本句)和样本文本数据的翻译文本数据(如中文训练样本句对应的英文翻译语句)时,执行本数据处理方法,从样本文本数据包括的N个文本词语中确定目标文本词语,并基于该目标文本词语进行知识蒸馏,以及根据知识蒸馏后得到的额外的监督学习信号等可确定模型翻译损失函数,并根据模型翻译损失函数修正第一翻译模型的模型参数,得到目标翻译模型,由此实现对语种翻译模型的训练,并达到更好的模型训练效果和知识蒸馏的效果,以及实现更好的翻译性能和准确性。又如,本申请技术方案还可以应用于模型压缩场景中,通过执行本申请的数据处理方法,可以实现模型压缩和减小模型的体积,从而在目标翻译模型的实际应用中,可以更好地进行部署,减少计算和存储资源的开销,并降低应用成本,以及提高翻译效率,给用户带来更好的使用感受。

可选的,本申请涉及的数据如样本文本数据包括的每个文本词语分别对应的翻译词语的重要指标参数等,可以存储于数据库中,或者可以存储于区块链中,如通过区块链分布式存储,本申请不作限定。

可以理解,上述场景仅是作为示例,并不构成对于本申请实施例提供的技术方案的应用场景的限定,本申请的技术方案还可应用于其他场景。例如,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。

本申请实施例提供的方案涉及人工智能的机器学习等技术,具体通过如下实施例进行说明:

基于上述的描述,本申请实施例提出了一种数据处理方法,该方法可以由上述提及的电子设备来执行。如图2所示,本申请实施例中的数据处理方法的流程可以包括:

S201、获取样本文本数据和该样本文本数据的翻译文本数据。

其中,样本文本数据可以有一个或多个,利用每个样本文本数据对第一翻译模型进行训练时,其过程和原理相同,以及可以通过该一个或者多个样本文本数据对第一翻译模型进行若干次迭代训练,得到最终训练完成的模型(如下述目标翻译模型)。因此,下述以一个样本文本数据对第一翻译模型进行训练的过程为例进行说明。此外,由于一个样本文本数据由一句或多句训练样本句组成,因此可以根据组成一个样本文本数据的训练样本句,得到样本文本数据包括的N个文本词语,N为正整数,N的具体取值根据实际应用场景决定。

其中,翻译文本数据可以包括N个文本词语中每个文本词语对应的翻译词语;样本文本数据和翻译文本数据具有不同的文本类型。可以理解的,本申请实施例可以应用于任意语种翻译模型训练过程,如中英翻译、英德翻译等。若在中英翻译场景下,样本文本数据的文本类型为中文,对应的翻译文本数据的文本类型为英文,样本文本数据可以是一句或多句中文训练样本句,此处以一句中文训练样本句为例进行说明,相应的,对应的翻译文本数据为该中文训练样本句对应的英文翻译语句。

在一种可能的实施方式中,对样本文本数据(又称源端语句)进行分词得到N个文本词语,并在对应的翻译文本数据(又称正确的目标端语句)中确定每个文本词语对应的翻译词语。例如,样本文本数据为“我很高兴”,包括3个文本词语“我”、“很”、“高兴”,则对应的翻译文本数据为“I'm very happy”,以及文本词语“我”对应的翻译词语为“I'm”、文本词语“很”对应的翻译词语为“very”、文本词语“高兴”对应的翻译词语为“happy”。

S202、将样本文本数据输入第一翻译模型,在第一翻译模型中生成每个文本词语分别对应的第一翻译结果,并将样本文本数据输入第二翻译模型,在第二翻译模型中生成每个文本词语分别对应的第二翻译结果。

在一个可能的实施方式中,第一翻译结果包括每个文本词语对应翻译词库中每个词语的预测概率,在第一翻译模型中生成的每个文本词语分别对应的第一翻译结果具体方式可以是,预先定义翻译词库,该翻译词库包含多个词语,以及,翻译词库用于将类型A的文本数据翻译为类型B的文本数据,类型B为该翻译词库所属的文本类型,翻译词库的文本类型与翻译文本数据相同,以及对于样本文本数据对应的翻译文本数据来说,是通过从翻译词库的词语中获取到样本文本数据对应的翻译文本数据的,因此翻译文本数据中的翻译词语属于翻译词库,第一翻译模型会基于翻译词库生成每个文本词语针对翻译词库中每个词语的预测概率,即第一翻译模型会预测文本词语对应的预测翻译词语是翻译词库中的各个词语的概率,并将第一翻译模型生成的每个文本词语针对翻译词库中各个词语的预测概率确定为第一翻译结果。其中,将样本文本数据输入第二翻译模型,在第二翻译模型生成每个文本词语分别对应的第二翻译结果的具体方式可以同生成第一翻译结果的具体方式,本申请实施例在此不再赘述。

示例性的,样本文本数据包含的文本词语为“XX”,“XX”可以是任意一个词语,翻译词库中的词语为“A”、“B”、“C”、“D”、“E”,将该文本词语输入第一翻译模型,第一翻译模型会生成“XX”对应的预测翻译词语是翻译词库中的各个词语的概率,如,由第一翻译模型得到文本词语“XX”对应的预测翻译词语为翻译词库中词语“A”的预测概率为20%、词语“B”的预测概率为10%、词语“C”的预测概率为40%、词语“D”的预测概率为5%、词语“E”的预测概率为25%,并将上述预测概率作为该文本词语“XX”的第一翻译结果。

S203、获取每个文本词语分别对应的翻译词语的重要指标参数,并根据每个文本词语分别对应的翻译词语的重要指标参数,从N个文本词语中确定目标文本词语。

其中,翻译词语的重要指标参数可以通过计算翻译词语的重要评估指标值得到,重要评估指标值为衡量一个文本词语难易程度的指标,一个文本词语的重要评估指标值越大,表明该文本词语对于第一翻译模型的训练来说是越困难的样本,也是越重要的样本,通过根据重要评估指标值确定的目标文本词语进行模型训练,可以有效地提升训练出来的模型的收益,也可以使得训练出来的模型具有更高的翻译准确性和翻译效率,以及可以使得训练出来的模型学到更多有效的特征。可选的,重要评估指标值可以为每个文本词语分别对应的翻译词语的交叉熵值(Cross Entropy,CE)。

在一个可能的实施方式中,N个文本词语包括第i个文本词语,i为小于或等于N的正整数,以及第i个文本词语的第一翻译结果包括第i个文本词语针对翻译词库中每个词语的预测概率,获取第i个文本词语对应的翻译词语的重要指标参数具体方式可以是,将第i个文本词语的第一翻译结果中第i个文本词语对应的翻译词语的预测概率确定为目标预测概率,并根据目标预测概率生成第i个文本词语对应的翻译词语的重要指标参数。其中,确定目标预测概率的具体方式可以是,根据第i个文本词语对应的翻译词语在第一翻译结果中找到为对应翻译词语的预测概率,并将该对应翻译词语的预测概率确定为目标预测概率。根据目标预测概率生成第i个文本词语对应的翻译词语的重要指标参数具体可以是,根据交叉熵损失函数确定第i个文本词语对应的翻译词语的交叉熵值,并将该交叉熵值确定为重要指标参数,其中,交叉熵损失函数为:

其中,|V|是翻译词库的大小,1是指示函数,p(·|·)是给定第一翻译模型情况下的预测概率,θS为第一翻译模型的模型参数,yi为第i个文本词语对应的预测翻译词语,为第i个文本词语对应的正确翻译词语,x为样本文本数据。

示例性的,样本文本数据包含的文本词语为“XX”,翻译词库中的词语为“A”、“B”、“C”、“D”、“E”,将该文本词语输入第一翻译模型,生成的第一翻译结果为文本词语“XX”对应的预测翻译词语为翻译词库中词语“A”的预测概率为20%、词语“B”的预测概率为10%、词语“C”的预测概率为40%、词语“D”的预测概率为5%、词语“E”的预测概率为25%,若文本词语“XX”对应的正确翻译词语为“C”,则将词语“C”的预测概率40%确定为目标预测概率,并代入交叉熵损失函数得到文本词语“XX”对应翻译词语的交叉熵值。

在一种可能的实施方式中,根据每个文本词语分别对应的翻译词语的重要指标参数,从N个文本词语中确定目标文本词语的具体方式可以是,根据每个文本词语分别对应的翻译词语的重要指标参数的由小到大的顺序,对N个文本词语进行排序,得到排序后的N个文本词语,获取样本选择数量K,将排序后的N个文本词语中前K个文本词语确定为目标文本词语。其中,K为小于或等于N的非负整数。

可选的,样本选择数量K可以是通过对应的翻译词语的重要指标参数大于预设阈值的文本词语数量确定的,例如,样本文本数据包含的文本词语为“A1”、“B1”、“C1”、“D1”、“E1”,其中,文本词语为“A1”对应的翻译语句的重要指标参数为0.7、文本词语为“B1”对应的翻译语句的重要指标参数为0.9、文本词语为“C1”对应的翻译语句的重要指标参数为0.4、文本词语为“D1”对应的翻译语句的重要指标参数为0.1、文本词语为“E1”对应的翻译语句的重要指标参数为0.55,根据重要指标参数由大到小的顺序进行排序,即“B1”、“A1”、“E1”、“C1”、“D1”,若设阈值为0.6,则样本选择数量K为2,以及确定的目标文本词语为“A1”、“B1”。

可选的,样本选择数量K还可以是根据选择排序后前r%的文本词语数量确定,例如,样本文本数据包含的文本词语为“A2”、“B2”、“C2”、“D2”、“E2”其中,文本词语为“A2”对应的翻译语句的重要指标参数为0.7、文本词语为“B2”对应的翻译语句的重要指标参数为0.9、文本词语为“C2”对应的翻译语句的重要指标参数为0.4、文本词语为“D2”对应的翻译语句的重要指标参数为0.1、文本词语为“E2”对应的翻译语句的重要指标参数为0.55,根据重要指标参数由大到小的顺序进行排序,即“B2”、“A2”、“E2”、“C2”、“D2”,若设r%为20%,则样本选择数量K为1,以及确定的目标文本词语为“B2”。

可选的,样本选择数量K还可以通过对应的翻译词语的重要指标参数大于预设阈值且为排序后前r%的文本词语数量确定,例如,样本文本数据包含的文本词语为“A3”、“B3”、“C3”、“D3”、“E3”,其中,文本词语为“A3”对应的翻译语句的重要指标参数为0.7、文本词语为“B3”对应的翻译语句的重要指标参数为0.9、文本词语为“C3”对应的翻译语句的重要指标参数为0.4、文本词语为“D3”对应的翻译语句的重要指标参数为0.1、文本词语为“E3”对应的翻译语句的重要指标参数为0.55,根据重要指标参数由大到小的顺序进行排序,即“B3”、“A3”、“E3”、“C3”、“D3”,若设r%为40%,设阈值为0.8,则样本选择数量K为1,以及确定的目标文本词语为“B3”。

S204、根据目标文本词语对应的第一翻译结果、目标文本词语对应的第二翻译结果以及翻译文本数据中目标文本词语对应的翻译词语,确定模型翻译损失函数,并根据模型翻译损失函数修正第一翻译模型的模型参数,得到目标翻译模型。

在一个可能的实施方式中,在知识蒸馏过程中,第一翻译模型通过学习第二翻译模型输出的第二翻译结果来获取额外的监督学习信息,对于词语级别的知识蒸馏,将交叉熵损失函数中的独热(one-hot)标签替换为第二翻译模型输出的第二翻译结果,得到交叉熵损失函数

其中,q(yi=k|y<i,x;θT)是第二翻译模型输出的第二翻译结果,θT和θS分别为第二翻译模型和第一翻译模型的模型参数。

因此,根据目标文本词语对应的第一翻译结果、目标文本词语对应的第二翻译结果以及翻译文本数据中目标文本词语对应的翻译词语,得到的模型翻译损失函数为:其中,α可看做权重,用于平衡两个交叉熵损失函数的值。

在一个可能的实施方式中,根据模型翻译损失函数修正第一翻译模型的模型参数通过在模型训练过程中优化模型翻译损失函数实现,即最小化翻译损失函数进而得到目标翻译模型。可以理解的是,此处仅是以一次模型训练为例,在训练过程中可通过多次对第一翻译模型执行上述的训练方法,在多次模型训练过程中,可以使用相同或不同的样本文本数据进行训练,模型训练次数可由技术人员根据实际训练情况决定,可以是多次对第一翻译模型进行训练直至模型收敛时,即损失函数实现最小化时,完成对模型的训练,从而得到最终的目标翻译模型。在多次模型训练过程中,不论使用的是相同的样本文本数据还是不同的样本文本数据,任意次模型训练的过程和原理相同,均可执行上述步骤。

示例性的,请参见图3,图3为提供的一种确定目标翻译模型的场景示意图,样本文本数据包括N个文本词语(词1、词2、……、词n),将样本文本数据输入第一翻译模型得到每个文本词语分别对应的第一翻译结果,以及将样本文本数据输入第二翻译模型得到每个文本词语分别对应的第二翻译结果,并获取每个文本词语分别对应的翻译词语的重要指标参数,进而根据每个文本词语分别对应的翻译词语的重要指标参数,从N个文本词语中确定目标文本词语,获取目标文本词语所对应的第一翻译结果和所对应的第二翻译结果,并基于目标文本词语对应的第一翻译结果、目标文本词语对应的第二翻译结果以及翻译文本数据中目标文本词语对应的翻译词语,对第一翻译模型的模型参数进行修正,从而得到目标翻译模型。

本申请实施例中,电子设备获取样本文本数据和该样本文本数据的翻译文本数据,将样本文本数据输入第一翻译模型,在第一翻译模型中生成每个文本词语分别对应的第一翻译结果,并将样本文本数据输入第二翻译模型,在第二翻译模型中生成每个文本词语分别对应的第二翻译结果,获取每个文本词语分别对应的翻译词语的重要指标参数,并根据每个文本词语分别对应的翻译词语的重要指标参数,从N个文本词语中确定目标文本词语,根据目标文本词语对应的第一翻译结果、目标文本词语对应的第二翻译结果以及翻译文本数据中目标文本词语对应的翻译词语,确定模型翻译损失函数,并根据模型翻译损失函数修正第一翻译模型的模型参数,得到目标翻译模型。通过实施上述方案,可以对样本文本数据进行处理,并从样本文本数据包含的文本词语中选择合适的目标文本词语进行知识蒸馏,这可以在一定程度上避免部分文本词语进行知识蒸馏时可能会对整体蒸馏效果产生负面影响,以及有效地防止过拟合现象,从而提高知识蒸馏效率和效果,以及有效地提高所获取到的目标翻译模型的翻译准确性。

请参见图4,图4是本申请实施例提供的一种数据处理方法的流程示意图,该方法可以由上述提及的电子设备执行。如图4所示,本申请实施例中数据处理方法的流程可以包括:

S401、获取样本文本数据和该样本文本数据的翻译文本数据。其中,步骤S401的具体实施方式可以参见上述实施例中步骤S201的相关描述,此处不再赘述。

S402、将样本文本数据输入第一翻译模型,在第一翻译模型中生成每个文本词语分别对应的第一翻译结果,并将样本文本数据输入第二翻译模型,在第二翻译模型中生成每个文本词语分别对应的第二翻译结果。其中,步骤S402的具体实施方式可以参见上述实施例中步骤S202的相关描述,此处不再赘述。

S403、获取每个文本词语分别对应的翻译词语的重要指标参数。

在一个可能的实施方式中,重要指标参数可以通过一种或多种重要评估指标值确定,其中,重要评估指标值可以包括以下任一种或多种:翻译词语的交叉熵值、翻译词语的词频、翻译词语的长度。

可选的,若重要评估指标值包括翻译词语的交叉熵值,则具体的获取方式可以参加步骤S203中计算得到翻译词语的交叉熵值的相关描述,此处不再赘述;可选的,若重要评估指标值包括翻译词语的词频,则具体的获取方式可以是:获取所有用于模型训练的样本文本数据对应的翻译文本数据,并计算所有翻译文本数据中的翻译词语数量(设为W),以及计算所有翻译文本数据包括的翻译词语中为指定翻译词语的词语数量(设为M),则该指定翻译文本的词频=M/W,例如,文本词语I对应的翻译词语I为英语单词“happy”,以及所有翻译文本数据中的翻译词语数量为1000,所有翻译文本数据包括的翻译词语中为翻译词语I“happy”的词语数量为10,则翻译词语I的词频为10/1000=0.01;可选的,若重要评估指标值包括翻译词语的长度,则具体的获取方式可以是:计算翻译词语的字符长度,例如,文本词语I对应的翻译词语I为英语单词,则该翻译词语I的字符长度为构成英语单词的字母数量,即若翻译词语I为英语单词“happy”,则该翻译词语的长度为5。

在一种可能的实施方式中,若重要评估指标值包括翻译词语的词频,由于选取的是词频较小的翻译词语,因此可以对翻译词语的词频进行处理,即可以将翻译词语的词语输入公式:-log(词频)得到处理后的翻译词语的词频,并将处理后的翻译词语的词频确定为重要评估指标值。

在一种可能的实施方式中,N个文本词语包括第i个文本词语,i为小于或等于N的正整数,若重要指标参数通过一种重要评估指标值确定,则将第i个文本词语对应的翻译词语的重要评估指标值确定为第i个文本词语对应的翻译词语的重要指标参数;若重要指标参数通过至少两种重要评估指标值确定,则确定第i个文本词语对应的翻译词语的重要指标参数的具体方式为,在获取到第i个文本词语的至少两种重要评估指标值时,对至少两种评估指标值进行聚合,进而得到第i个文本词语对应的翻译词语的重要指标参数。其中,对至少两种评估指标值进行聚合得到第i个文本词语对应的翻译词语的重要指标参数的具体方式可以是,获取至少两种重要评估指标值中每种重要评估指标值分别对应的评估权重,根据每种重要评估指标值分别对应的评估权重,对每种重要评估指标值进行加权,得到每种重要评估指标值分别对应的加权指标值,根据每种重要评估指标值分别对应的加权指标值,确定第i个文本词语对应的翻译词语的重要指标参数。可选的,根据每种重要评估指标值分别对应的加权指标值,确定第i个文本词语对应的翻译词语的重要指标参数具体可以是将每种重要评估指标值分别对应的加权指标值进行求和,得到第i个文本词语对应的翻译词语的重要指标参数。评估权重可由技术人员根据实际模型训练过程,或者,根据第二翻译模型和第一翻译模型的结构设计,或者根据样本文本数据和翻译文本数据的文本类型等因素确定。

示例性的,重要指标参数通过三种重要评估指标值确定,三种重要评估指标值分别为翻译词语的交叉熵值(用指标值1表示)、翻译词语的词频(处理后)(用指标值2表示)、翻译词语的长度(用指标值3表示),若第i个文本词语为“An”,以及第i个文本词语“An”对应的翻译词语的指标值1为1.6、指标值2为0.3、指标值3为0.04,设指标值1的评估权重为1.6、指标值2的评估权重为0.3、指标值3的评估权重为0.04,因此根据评估权重对对应的重要评估指标值进行加权,得到指标1对应的加权指标值为0.64、指标值2对应的加权指标值为0.3、指标值3对应的加权指标值为0.2,,将对应的加权指标值进行求和得到第i个文本词语对应的翻译词语的重要指标参数为1.14。

S404、根据每个文本词语分别对应的翻译词语的重要指标参数的由大到小的顺序,对N个文本词语进行排序,得到排序后的N个文本词语,并获取样本选择数量K,将排序后的N个文本词语中前K个文本词语确定为目标文本词语。

其中,K为小于或等于N的非负整数。

在一个可能的实施方式中,进行排序的N个文本词语可以是来自一次模型训练过程中的一句训练样本句或多句训练样本句。若包括N个文本词语的样本文本数据为多句训练样本句,即对第一翻译模型的一次训练划分一批量(batch)训练样本句,并将该一批量训练样本句作为样本文本数据,进而可确定一批量训练样本句中包括的每个文本词语的重要指标参数,可以理解的是,当对第一翻译模型进行下一次训练的时候,可以为下一次训练划分一批量新的训练样本句。

可选的,确定一批量训练样本句中每个文本词语分别对应的翻译词语的重要指标参数的具体方式同确定一句训练样本句中各个文本词语对应的翻译词语的重要指标参数,即,将一批量训练样本句以一句训练样本句为单位,分别获取每句训练样本句包括的文本词语,以及对应的翻译文本数据,并分别确定每句训练样本句包括的文本词语对应的翻译词语的重要指标参数,并将基于一批量训练样本句得到的N个文本词语根据该N个文本词语对应的翻译词语的重要指标参数的由大到小的顺序,对N个文本词语进行排序,进而得到排序后的N个文本词语。基于此,当进行排序的N个文本词语来自同一批量的训练样本句时,选择目标文本词语的方法又称为局部选择方法。可选的,获取样本选择数量K的具体方式可以是根据选择排序后前r%的文本词语数量确定,还可以是通过对应的翻译词语的重要指标参数大于预设阈值的文本词语数量确定,还可以是通过对应的翻译词语的重要指标参数大于预设阈值且为排序后前r%的文本词语数量确定。

在一个可能的实施方式中,进行排序的N个文本词语还可以来自多次模型训练过程中的多句训练样本句,即来自不同批量的训练样本句,则在此种方式下,获取样本文本数据的具体方式为:获取第一翻译模型在第j-1次模型训练过程中的Z个文本词语,将Z个文本词语添加到先入先出队列(First Input First Output,FIFO)中,在第一翻译模型的第j次模型训练过程中,获取新增样本文本数据,并将新增样本文本数据所包含的文本词语添加到包含Z个文本词语的先入先出队列,得到目标队列,根据目标队列中的文本词语确定样本文本数据。其中,j为大于1的正整数,Z等于N。新增样本文本数据可以为一批量训练样本句。即每一次进行模型训练时,都会获取新的训练样本句,并获取到新的训练样本句包括的多个文本词语,并将该多个文本词语添加到先入先出队列,此时先入先出队列中包含此前一次或多次模型训练中的多个批量训练样本句包括的多个文本词语,当此次模型训练新的训练样本句包括的多个文本词语添加到先入先出队列之后,得到此次模型训练的目标队列,并根据目标队列中的N个文本词语确定样本文本数据,因此样本文本数据包括此次模型训练中新的训练样本句包括的多个文本词语,还包括此前模型训练中的训练样本句包括的多个文本词语。

可以理解的是,当新增样本文本数据所包含的文本词语添加到先入先出队列中时,会相应的移出该队列中最先进入的文本词语,例如,如图5所示,图5表示,当第j次模型训练过程中的新增样本文本数据包括文本词语添加到先入先出队列中时,先入先出队列中已包含此前模型训练过程中的部分文本词语(如第j-1次、第j-2次),在第j次模型训练过程中,随着将新增样本文本数据包括文本词语添加至先入先出队列,最先进入先入先出队列的文本词语将被移出,由此得到目标队列,目标队列中包括第j次模型训练的新增样本文本数据所包含的所有文本词语,以及此前模型训练过程中的部分文本词语(如第j-1次),并根据目标队列中的文本词语确定第j次模型训练的样本文本数据,以及从目标队列的文本词语中获取目标文本词语。此外,在将新增样本文本数据所包含的文本词语添加到先入先出队列后,若先入先出队列中文本词语数量未超过先入先出队列所能容纳的最大数量时,不会对先入先出队列中的文本词语进行移出。进一步的,在第j次模型训练过程中,根据目标队列中的N个文本词语可确定样本文本数据,将样本文本数据中新的训练样本句输入第一翻译模型,得到新的训练样本句包括的多个文本词语中每个文本词语分别对应的第一翻译结果,并将样本文本数据中除新的训练样本句之外的训练样本句在此前模型训练过程中生成的每个文本词语分别对应的第一翻译结果和新的训练样本句包括的多个文本词语中每个文本词语分别对应的第一翻译结果确定为第j次模型训练的样本文本数据包括的N个文本词语中每个文本词语分别对应的第一翻译结果,第二翻译结果同理。以及,获取新的训练样本句包括的多个文本词语中每个文本词语分别对应的翻译词语的重要指标参数,并将样本文本数据中除新的训练样本句之外的训练样本句在此前模型训练过程中获得的每个文本词语分别对应的翻译词语的重要指标参数和新的训练样本句包括的多个文本词语中每个文本词语分别对应的翻译词语的重要指标参数确定为N个文本词语中每个文本词语分别对应翻译词语的重要指标参数,并基于该每个文本词语分别对应的翻译词语的重要指标参数确定目标文本词语。基于此,当进行排序的N个文本词语来自不同批量的训练样本句时,选择目标文本词语的方法又称为全局选择方法,全局选择方法可以。可选的,确定目标文本词语的具体方式可以同局部选择方法中确定目标文本词语的实施方式。

其中,部分文本词语进行知识蒸馏时可能会对整体蒸馏效果产生负面影响,因此通过结合第一翻译模型的训练情况自适应地选择合适的目标文本词语进行知识蒸馏,能够对第一翻译模型的训练有正向收益,目标文本词语也可称为困难样本,在第一翻译模型训练过程中是较为困难的样本,需要通过第二翻译模型进行知识蒸馏,获得额外的监督学习信号,第一翻译模型可通过学习该额外的监督学习信号,以实现更好的训练效果。重要指标参数即为衡量一个文本词语难易程度的指标。

示例性的,批量I包括的文本词语为“A1”、“A2”、“A3”、“A4”、“A5”,设批量II包括的文本词语为“B1”、“B2”、“B3”、“B4”,设批量III包括的文本词语为“C1”、“C2”、“C3”、“C4”、“C5”,(1)若选择目标文本词语的方法为局部选择方法时,则,第z次模型训练时将批量I作为样本文本数据对第一翻译模型进行训练,以及获取批量I中每个文本词语对应的翻译词语的重要指标参数,并从批量I包括的文本词语中选择目标文本词语进行知识蒸馏,第z+1次模型训练时将批量II作为样本文本数据对第一翻译模型进行训练,以及获取批量II中每个文本词语对应的翻译词语的重要指标参数,并从批量II包括的文本词语中选择目标文本词语进行知识蒸馏,第z+2次模型训练时将批量III作为样本文本数据对第一翻译模型进行训练,以及获取批量III中每个文本词语对应的翻译词语的重要指标参数,并从批量III包括的文本词语中选择目标文本词语进行知识蒸馏。例如,如图6a所示,图6a为使用局部选择方法选择目标文本词语并进行模型训练的流程示意图,图6a中包括第一翻译模型、第二翻译模型、用于模型训练的相关数据(多个批量的训练样本句、训练样本句对应的翻译文本数据、翻译词库等)、用于执行模型训练步骤的服务器,相关数据存储于服务器中,具体为:

①、服务器为第z次模型训练划分一批量的训练样本句,得到批量I,并将该批量I作为第z次模型训练的样本文本数据。

②、服务器将批量I输入第一翻译模型得到第一翻译结果,并将批量I输入第二翻译模型得到第二翻译结果。

③、服务器获取批量I中每个文本词语对应的翻译词语的重要指标参数,并根据重要指标参数从批量I中每个文本词语中确定目标文本词语。

④、服务器根据目标文本词语对应的第一翻译结果、目标文本词语对应的第二翻译结果、翻译文本数据中目标文本词语对应的翻译词语,对第一翻译模型进行训练。

⑤、服务器为第z+1次模型训练划分一批量的训练样本句,得到批量II,并将该批量II作为第z+1次模型训练的样本文本数据。

⑥、服务器将批量II输入第一翻译模型得到第一翻译结果,将批量II输入第二翻译模型得到第二翻译结果。

⑦、服务器获取批量II中每个文本词语对应的翻译词语的重要指标参数,并根据重要指标参数从批量II中每个文本词语中确定目标文本词语。

⑧、服务器根据目标文本词语对应的第一翻译结果、目标文本词语对应的第二翻译结果、翻译文本数据中目标文本词语对应的翻译词语,对第一翻译模型进行训练。可以理解的是,当进行第z+2次模型训练时,同样执行上述步骤。

(2)若选择目标文本词语的方法为全局选择方法时,则,第z次模型训练时将批量I作为新增样本文本数据,并将批量I包括的文本词语添加到先入先出队列中,设先入先出队列所能容纳的最大数量为8个文本词语,以及先入先出队列中此前未添加文本词语,因此先入先出队列中的文本词语为“A1”、“A2”、“A3”、“A4”、“A5”,得到目标队列,并根据目标队列中的文本词语确定样本文本数据,以及获取批量I中每个文本词语对应的翻译词语的重要指标参数,并从批量I包括的文本词语中选择目标文本词语进行知识蒸馏,第z+1次模型训练时将批量II作为新增样本文本数据,并将批量II包括的文本词语添加到先入先出队列中,由于此时先入先出队列中已有批量I的5个文本词语,因此将批量II包括的文本词语移进先入先出队列得到的目标队列有批量I中的部分文本词语和批量II的文本词语,即目标队列包括文本词语“A2”、“A3”、“A4”、“A5”、“B1”、“B2”、“B3”、“B4”,并将目标队列确定为第z+1次模型训练的样本文本数据,以及获取样本文本数据中为批量II的文本词语对应的翻译文本的重要指标参数和样本文本数据中为批量I的文本词语对应的翻译文本在第z次模型训练过程中得到的重要指标参数,并根据样本文本数据中各个文本词语对应的翻译文本的重要指标参数确定目标文本词语,即根据文本词语“A2”、“A3”、“A4”、“A5”分别对应的翻译文本在第z次模型训练过程中获得的重要指标参数,以及根据文本词语“B1”、“B2”、“B3”、“B4”分别对应的翻译文本在第z+1次模型训练过程中获得的重要指标参数在各个文本词语中确定在第z+1次模型训练过程中进行知识蒸馏的目标文本词语,同理,第z+2次模型训练时将批量III作为新增样本文本数据,并将批量III包括的文本词语添加到先入先出队列中,得到目标队列,其中文本词语包括“B2”、“B3”、“B4”、“C1”、“C2”、“C3”、“C4”、“C5”,获取样本文本数据中为批量III的文本词语对应的翻译文本的重要指标参数和样本文本数据中为批量II的文本词语对应的翻译文本在第z+1次模型训练过程中得到的重要指标参数,根据样本文本数据中各个文本词语对应的翻译文本的重要指标参数确定目标文本词语,即根据文本词语“B2”、“B3”、“B4”分别对应的翻译文本在第z+1次模型训练过程中获得的重要指标参数,以及根据文本词语“C1”、“C2”、“C3”、“C4”、“C5”分别对应的翻译文本在第z+2次模型训练过程中获得的重要指标参数在各个文本词语中确定在第z+2次模型训练过程中进行知识蒸馏的目标文本词语。例如,如图6b所示,图6b为使用全局选择方法选择目标文本词语并进行模型训练的流程示意图,图6b中包括第一翻译模型、第二翻译模型、用于模型训练的相关数据(多个批量的训练样本句、训练样本句对应的翻译文本数据、翻译词语等)、用于执行模型训练步骤的服务器,相关数据存储于服务器中,具体为:

S1、服务器获取第z次模型训练的目标队列I,并根据目标队列I确定样本文本数据,目标队列I包括批量I的文本词语:服务器为第z次模型训练划分一批量的训练样本句,得到批量I,并将该批量I作为第z次模型训练的新增样本文本数据,以及将批量I包括的文本词语添加到先入先出队列中,设先入先出队列中此前未添加文本词语,因此先入先出队列中包括批量I的文本词语,得到目标队列I,并根据目标队列I包括的文本词语确定第z次模型训练的样本文本数据。

S2、服务器将批量I输入第一翻译模型得到第一翻译结果,并将批量I输入第二翻译模型得到第二翻译结果。

S3、服务器获取批量I中每个文本词语对应的翻译词语的重要指标参数,并根据重要指标参数从批量I的每个文本词语中确定目标文本词语。

S4、服务器根据目标文本词语对应的第一翻译结果、目标文本词语对应的第二翻译结果、翻译文本数据中目标文本词语对应的翻译词语,对第一翻译模型进行训练。

S5、服务器获取第z+1次模型训练的目标队列II,并根据目标队列II确定样本文本数据,目标队列II包括批量I和批量II的文本词语:服务器为第z+1次模型训练划分一批量的训练样本句,得到批量II,并将该批量II作为第z+1次模型训练的新增样本文本数据,以及将批量II包括的文本词语添加到先入先出队列中,此时的先入先出队列即为第z次模型训练的目标队列I,设若批量II包括的全部文本词语添加到先入先出队列中时该队列包含的文本词语数量超过所能容纳的最大数量,因此在移入批量II的文本词语时,相应的移出最先进行该队列中的部分文本词语,假设此时先入先出队列中包括批量I的部分文本词语和批量II的文本词语,由此得到目标队列II,并根据目标队列II包括的文本词语确定第z+1次模型训练的样本文本数据。

S6、服务器将批量II输入第一翻译模型得到批量II对应的第一翻译结果,将批量II输入第二翻译模型得到批量II对应的第一翻译结果。

S7、服务器获取批量II中每个文本词语对应的翻译词语的重要指标参数,并根据批量II中每个文本词语对应的翻译词语的重要指标参数以及批量I中处于目标队列II中的文本词语对应的翻译词语的重要指标参数从目标队列II的每个文本词语中确定目标文本词语。目标文本词语可以来自批量I也可以来自批量II。

S8、服务器根据目标文本词语对应的第一翻译结果、目标文本词语对应的第二翻译结果、翻译文本数据中目标文本词语对应的翻译语句,对第一翻译模型进行训练。可以理解的是,当进行第z+2次模型训练时,同样执行上述步骤。

S405、根据目标文本词语对应的第一翻译结果、目标文本词语对应的第二翻译结果以及翻译文本数据中目标文本词语对应的翻译词语,确定模型翻译损失函数,并根据模型翻译损失函数修正第一翻译模型的模型参数,得到目标翻译模型。

其中,确定模型翻译损失函数和得到目标翻译模型的具体方式可以参见步骤S204的相关描述,此处不再赘述。

在一个可能的实施方式中,在得到目标翻译模型之后,可以对该目标翻译模型进行测试,具体方式可以是,获取待翻译文本数据,将待翻译文本数据输入目标翻译模型,基于目标翻译模型输出待翻译文本数据的目标翻译文本数据。其中,待翻译文本数据与样本文本数据具有相同的文本类型,目标翻译文本数据与翻译文本数据具有相同的文本类型。

可选的,通过对本申请技术方案的大量测试得知,本申请提出的一种数据处理方法在一定程度上提高了模型的翻译效率和准确度,以及知识蒸馏的效率和效果。例如,在英德翻译场景中,将神经机器翻译(Neural Machine Translation,NMT)模型Transformer模型作为第一翻译模型进行训练,并对基于本申请技术方案训练得到的目标翻译模型进行测试发现,BLEU分数值(双语评估替换,Bilingual Evaluation Understudy)有了较大的提升,即可以显著提升翻译模型的翻译效果。又如,在中英翻译场景中,将Transformer模型作为第一翻译模型进行训练,并对基于本申请技术方案训练得到的目标翻译模型进行测试发现,对比不使用知识蒸馏的Transformer模型的翻译效果,以及对比不对样本数据进行选择的知识蒸馏的Transformer模型的翻译效果来看,BLEU分数值均有较大的提升,并说明本申请技术方案可以应用于不同语种的翻译模型训练场景,以及可以取得稳定的翻译效果提升。此外,除了应用于Transformer模型训练,还可以应用于RNN(循环神经网络,RecurrentNeural Network)、LSTM(长短期记忆网络,Long Short-Term Memory)、GRU(门限循环单元,Gated Recurrent Unit)等模型训练上,通过测试表示模型训练效果均有较大的提升。

本申请实施例中,电子设备获取样本文本数据和该样本文本数据的翻译文本数据,将样本文本数据输入第一翻译模型,在第一翻译模型中生成每个文本词语分别对应的第一翻译结果,并将样本文本数据输入第二翻译模型,在第二翻译模型中生成每个文本词语分别对应的第二翻译结果,获取每个文本词语分别对应的翻译词语的重要指标参数,根据每个文本词语分别对应的翻译词语的重要指标参数的由大到小的顺序,对N个文本词语进行排序,得到排序后的N个文本词语,并获取样本选择数量K,将排序后的N个文本词语中前K个文本词语确定为目标文本词语,根据目标文本词语对应的第一翻译结果、目标文本词语对应的第二翻译结果以及翻译文本数据中目标文本词语对应的翻译词语,确定模型翻译损失函数,并根据模型翻译损失函数修正第一翻译模型的模型参数,得到目标翻译模型。通过实施上述方案,可以对样本文本数据进行处理,以及结合第一翻译模型的训练情况动态地从样本文本数据包含的文本词语中选择合适的目标文本词语进行知识蒸馏,这可以在一定程度上避免部分文本词语进行知识蒸馏时可能会对整体蒸馏效果产生负面影响,以及有效地防止过拟合现象,从而提高知识蒸馏效率和效果,以及有效地提高所获取到的目标翻译模型的翻译准确性。

请参见图7,图7为本申请提供的一种数据处理装置的结构示意图。需要说明的是,附图7所示的数据处理装置,用于执行本申请图2和图4所示实施例的方法,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示,经参照本申请图2和图4所示的实施例。该测试数据处理装置700可包括:获取模块701、处理模块702、确定模块703。其中:

获取模块701,用于获取样本文本数据和样本文本数据的翻译文本数据;样本文本数据包括N个文本词语,N为正整数;翻译文本数据包括N个文本词语中每个文本词语对应的翻译词语;样本文本数据和翻译文本数据具有不同的文本类型;

处理模块702,用于将样本文本数据输入第一翻译模型,在第一翻译模型中生成每个文本词语分别对应的第一翻译结果,并将样本文本数据输入第二翻译模型,在第二翻译模型中生成每个文本词语分别对应的第二翻译结果;

确定模块703,用于获取每个文本词语分别对应的翻译词语的重要指标参数,并根据每个文本词语分别对应的翻译词语的重要指标参数,从N个文本词语中确定目标文本词语;

确定模块703,还用于根据目标文本词语对应的第一翻译结果、目标文本词语对应的第二翻译结果以及翻译文本数据中目标文本词语对应的翻译词语,确定模型翻译损失函数,并根据模型翻译损失函数修正第一翻译模型的模型参数,得到目标翻译模型。

在一种可能的实施方式中,N个文本词语包括第i个文本词语,i为小于或等于N的正整数;该第i个文本词语的第一翻译结果包括第i个文本词语针对翻译词库中每个词语的预测概率;翻译文本数据中的翻译词语属于翻译词库;确定模块703在用于获取每个文本词语分别对应的翻译词语的重要指标参数时,具体用于:

将第i个文本词语的第一翻译结果中第i个文本词语对应的翻译词语的预测概率确定为目标预测概率;

根据目标预测概率生成第i个文本词语对应的翻译词语的重要指标参数。

在一种可能的实施方式中,N个文本词语包括第i个文本词语,i为小于或等于N的正整数;确定模块703在用于获取每个文本词语分别对应的翻译词语的重要指标参数时,具体用于:

获取第i个文本词语的至少两种重要评估指标值;

对至少两种重要评估指标值进行聚合,得到第i个文本词语对应的翻译词语的重要指标参数。

在一种可能的实施方式中,确定模块703在用于对至少两种重要评估指标值进行聚合,得到第i个文本词语对应的翻译词语的重要指标参数时,具体用于:

获取至少两种重要评估指标值中每种重要评估指标值分别对应的评估权重;

根据每种重要评估指标值分别对应的评估权重,对每种重要评估指标值进行加权,得到每种重要评估指标值分别对应的加权指标值;

根据每种重要评估指标值分别对应的加权指标值,确定第i个文本词语对应的翻译词语的重要指标参数。

在一种可能的实施方式中,确定模块703在用于根据每个文本词语分别对应的翻译词语的重要指标参数,从N个文本词语中确定目标文本词语时,具体用于:

根据每个文本词语分别对应的翻译词语的重要指标参数的由大到小的顺序,对N个文本词语进行排序,得到排序后的N个文本词语;

获取样本选择数量K,将排序后的N个文本词语中前K个文本词语确定为目标文本词语;K为非负整数。

在一种可能的实施方式中,获取模块701在用于获取样本文本数据时,具体用于:

获取第一翻译模型在第j-1次模型训练过程中的Z个文本词语;j为大于1的正整数,Z等于N;

将Z个文本词语添加到先入先出队列;

在第一翻译模型的第j次模型训练过程中,获取新增样本文本数据,并将新增样本文本数据所包含的文本词语添加到包含该Z个文本词语的先入先出队列,得到目标队列;

根据目标队列中的文本词语确定样本文本数据。

在一种可能的实施方式中,处理模块702还用于:

获取待翻译文本数据;待翻译文本数据与样本文本数据具有相同的文本类型;

将待翻译文本数据输入目标翻译模型,基于目标翻译模型输出待翻译文本数据的目标翻译文本数据;目标翻译文本数据与翻译文本数据具有相同的文本类型。

本申请实施例中,获取模块获取样本文本数据和样本文本数据的翻译文本数据,处理模块将样本文本数据输入第一翻译模型,在第一翻译模型中生成每个文本词语分别对应的第一翻译结果,并将样本文本数据输入第二翻译模型,在第二翻译模型中生成每个文本词语分别对应的第二翻译结果,确定模块获取每个文本词语分别对应的翻译词语的重要指标参数,并根据每个文本词语分别对应的翻译词语的重要指标参数,从N个文本词语中确定目标文本词语,确定模块根据目标文本词语对应的第一翻译结果、目标文本词语对应的第二翻译结果以及翻译文本数据中目标文本词语对应的翻译词语,确定模型翻译损失函数,并根据模型翻译损失函数修正第一翻译模型的模型参数,得到目标翻译模型。通过实施上述方案,可以对样本文本数据进行处理,并从样本文本数据包含的文本词语中选择合适的目标文本词语进行知识蒸馏,这可以在一定程度上避免部分文本词语进行知识蒸馏时可能会对整体蒸馏效果产生负面影响,以及有效地防止过拟合现象,从而提高知识蒸馏效率和效果,以及有效地提高所获取到的目标翻译模型的翻译准确性。

在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以是两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现,本申请不做限定。

请参加图8,图8为本申请实施例提供的一种电子设备的结构示意图。如图8所示,该电子设备800包括:至少一个处理801、存储器802。可选的,该电子设备还可包括网络接口803。其中,处理器801、存储器802以及网络接口803之间可以交互数据,网络接口803受处理器的控制用于收发消息,存储器802用于存储计算机程序,该计算机程序包括程序指令,处理器801用于执行存储器802存储的程序指令。其中,处理器801被配置用于调用该程序指令执行上述方法。

存储器802可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器802也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;存储器802还可以包括上述种类的存储器的组合。

处理器801可以是中央处理器801(central processing unit,CPU)。在一个实施例中,处理器801还可以是图形处理器801(Graphics Processing Unit,GPU)。处理器801也可以是由CPU和GPU的组合。

在一个实施例中,存储器802用于存储程序指令。处理器801可以调用该程序指令,执行以下步骤:

获取样本文本数据和样本文本数据的翻译文本数据;样本文本数据包括N个文本词语,N为正整数;翻译文本数据包括N个文本词语中每个文本词语对应的翻译词语;样本文本数据和翻译文本数据具有不同的文本类型;

将样本文本数据输入第一翻译模型,在第一翻译模型中生成每个文本词语分别对应的第一翻译结果,并将样本文本数据输入第二翻译模型,在第二翻译模型中生成每个文本词语分别对应的第二翻译结果;

获取每个文本词语分别对应的翻译词语的重要指标参数,并根据每个文本词语分别对应的翻译词语的重要指标参数,从N个文本词语中确定目标文本词语;

根据目标文本词语对应的第一翻译结果、目标文本词语对应的第二翻译结果以及翻译文本数据中目标文本词语对应的翻译词语,确定模型翻译损失函数,并根据模型翻译损失函数修正第一翻译模型的模型参数,得到目标翻译模型。

在一种可能的实施方式中,N个文本词语包括第i个文本词语,i为小于或等于N的正整数;该第i个文本词语的第一翻译结果包括第i个文本词语针对翻译词库中每个词语的预测概率;翻译文本数据中的翻译词语属于翻译词库;处理器801在用于获取每个文本词语分别对应的翻译词语的重要指标参数时,具体用于:

将第i个文本词语的第一翻译结果中第i个文本词语对应的翻译词语的预测概率确定为目标预测概率;

根据目标预测概率生成第i个文本词语对应的翻译词语的重要指标参数。

在一种可能的实施方式中,N个文本词语包括第i个文本词语,i为小于或等于N的正整数;处理器801在用于获取每个文本词语分别对应的翻译词语的重要指标参数时,具体用于:

获取第i个文本词语的至少两种重要评估指标值;

对至少两种重要评估指标值进行聚合,得到第i个文本词语对应的翻译词语的重要指标参数。

在一种可能的实施方式中,处理器801在用于对至少两种重要评估指标值进行聚合,得到第i个文本词语对应的翻译词语的重要指标参数时,具体用于:

获取至少两种重要评估指标值中每种重要评估指标值分别对应的评估权重;

根据每种重要评估指标值分别对应的评估权重,对每种重要评估指标值进行加权,得到每种重要评估指标值分别对应的加权指标值;

根据每种重要评估指标值分别对应的加权指标值,确定第i个文本词语对应的翻译词语的重要指标参数。

在一种可能的实施方式中,处理器801在用于根据每个文本词语分别对应的翻译词语的重要指标参数,从N个文本词语中确定目标文本词语时,具体用于:

根据每个文本词语分别对应的翻译词语的重要指标参数的由大到小的顺序,对N个文本词语进行排序,得到排序后的N个文本词语;

获取样本选择数量K,将排序后的N个文本词语中前K个文本词语确定为目标文本词语;K为非负整数。

在一种可能的实施方式中,处理器801在用于获取样本文本数据时,具体用于:

获取第一翻译模型在第j-1次模型训练过程中的Z个文本词语;j为大于1的正整数,Z等于N;

将Z个文本词语添加到先入先出队列;

在第一翻译模型的第j次模型训练过程中,获取新增样本文本数据,并将新增样本文本数据所包含的文本词语添加到包含Z个文本词语的先入先出队列,得到目标队列;

根据目标队列中的文本词语确定样本文本数据。

在一种可能的实施方式中,处理器801还用于:

获取待翻译文本数据;待翻译文本数据与样本文本数据具有相同的文本类型;

将待翻译文本数据输入目标翻译模型,基于目标翻译模型输出待翻译文本数据的目标翻译文本数据;目标翻译文本数据与翻译文本数据具有相同的文本类型。

具体实现中,本申请实施例中所描述的装置、处理器801、存储器802等可执行上述方法实施例所描述的实现方式,也可执行本申请实施例所描述的实现方式,在此不再赘述。

本申请实施例中还提供一种计算机(可读)存储介质,该计算机存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时,可执行上述方法实施例中所执行的部分或全部步骤。可选的,该计算机存储介质可以是易失性的,也可以是非易失性的。

在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于计算机存储介质中,该计算机存储介质可以为计算机可读存储介质,该程序在执行时,可包括如上述各方法的实施例的流程。其中,该计算机存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

以上所揭露的仅为本申请的部分实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于本申请所涵盖的范围。

29页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:语料翻译方法、装置及电子设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!