语料处理的方法、装置、可读存储介质和电子设备

文档序号：1022100 发布日期：2020-10-27 浏览：11次 >En<

阅读说明：本技术 语料处理的方法、装置、可读存储介质和电子设备 (Corpus processing method and device, readable storage medium and electronic equipment ) 是由魏文扬陈坦访王伟玮李奘于 2020-05-29 设计创作，主要内容包括：本发明实施例公开了一种语料处理的方法、装置、可读存储介质和电子设备。本发明实施例通过获取源语料序列；将所述源语料序列输入到预先训练的机器翻译模型；根据所述机器翻译模型对所述源语料序列进行分词处理,确定分词处理后的预处理源语料序列,所述分词处理包括初步分词处理和字节对编码BPE分词处理,所述BPE分词处理是通过存储在所述机器翻译模型中的字节对编码BPE词表进行的；确定所述预处理源语料序列中实体词对应的实体向量信息和关系向量信息；根据所述预处理源语料序列的所述实体向量信息和所述关系向量信息,确定出目标语料序列。通过上述方法,由于机器翻译模型中引入了字节对编码BPE词表以及知识图谱,因此提高了机器翻译的准确性。(The embodiment of the invention discloses a corpus processing method, a corpus processing device, a readable storage medium and electronic equipment. The method comprises the steps of obtaining a source material sequence; inputting the source material sequence into a machine translation model trained in advance; performing word segmentation processing on the source corpus sequence according to the machine translation model, and determining a preprocessed source corpus sequence after word segmentation processing, wherein the word segmentation processing comprises preliminary word segmentation processing and byte pair encoding BPE word segmentation processing, and the BPE word segmentation processing is performed on an encoding BPE word list through bytes stored in the machine translation model; determining entity vector information and relation vector information corresponding to entity words in the preprocessing source corpus sequence; and determining a target corpus sequence according to the entity vector information and the relation vector information of the preprocessing source corpus sequence. By the method, the accuracy of machine translation is improved because the BPE vocabulary and the knowledge graph of byte pair encoding are introduced into the machine translation model.)

技术领域

本发明涉及数据处理领域，具体涉及一种语料处理的方法、装置、可读存储介质和电子设备。

背景技术

随着社会的进步，来自不同国家和地区，使用不同语言的人们之间的交流越来越多，但是由于不同国家的大部分人只掌握本国的语言，不擅长其他国家的语言，交流存在障碍，因此，需要将不同国家的语言互译，帮助人们突破交流的障碍，进行更好的沟通。

现有技术中，采用机器翻译技术将一种自然语言翻译为另一种语言，机器翻译技术的应用场景非常广泛，帮助人们进行沟通交流，虽然机器翻译技术近几年不断发展，翻译效果也在不断接近人类，但还是存在一些不足之处，例如，对于未登录词，机器翻译技术可能无法正确的翻译；另外，还有一些具有不同意思的同一个词，即一词多义的情况，机器翻译技术可能无法分辨场景的区别，将这样的词翻译为常用意思，而非正确的意思，造成翻译错误。

综上所述，如何提高机器翻译的准确性，是目前需要解决的问题。

发明内容

有鉴于此,本发明实施例提供了一种语料处理的方法、装置、可读存储介质和电子设备，能够提高机器翻译技术的准确性。

第一方面，本发明实施例提供了一种语料处理的方法，该方法包括：获取源语料序列；将所述源语料序列输入到预先训练的机器翻译模型；根据所述机器翻译模型对所述源语料序列进行分词处理，确定分词处理后的预处理源语料序列，其中，所述分词处理包括初步分词处理和字节对编码BPE分词处理，所述BPE分词处理是通过存储在所述机器翻译模型中的字节对编码BPE词表进行的；确定所述预处理源语料序列中实体词对应的实体向量信息和关系向量信息，其中，所述实体词为所述预处理源语料序列在所述BPE词表中查找到的词，所述实体向量信息和关系向量信息根据存储在所述机器翻译模型中的知识图谱的实体向量信息和知识图谱的关系向量信息确定的；根据所述预处理源语料序列的所述实体向量信息和所述关系向量信息，确定出目标语料序列。

优选地，训练所述机器翻译模型的步骤包括：获取平行语料、和字节对编码BPE词表以及向量信息，其中，所述向量信息包括知识图谱的实体向量信息、以及知识图谱的关系向量信息，所述平行语料为双语语料；通过所述平行语料、和字节对编码BPE词表以及所述向量信息，通过设定的方法训练所述机器翻译模型。

优选地，该方法还包括：获取初始平行语料；将所述初始平行语料进行语料清洗；确定所述平行语料。

优选地，该方法还包括：构建知识图谱对应的三元组库，其中，所述知识图谱为双语知识图谱；将所述三元组库按照设定算法生成知识图谱的实体向量信息以及知识图谱的关系向量信息。

优选地，所述设定算法为TransE算法。

优选地，该方法还包括：生成字节对编码BPE词表；将所述节对编码BPE词表保存到所述机器翻译模型的嵌入层。

优选地，所述机器翻译模型为自注意力机制模型。

第二方面，本发明实施例提供了一种语料处理的装置，该装置包括：获取单元，用于获取源语料序列；输入单元，用于将所述源语料序列输入到预先训练的机器翻译模型；处理单元，用于根据所述机器翻译模型对所述源语料序列进行分词处理，确定分词处理后的预处理源语料序列，其中，所述分词处理包括初步分词处理和字节对编码BPE分词处理，所述BPE分词处理是通过存储在所述机器翻译模型中的字节对编码BPE词表进行的；第一确定单元，用于确定所述预处理源语料序列中实体词对应的实体向量信息和关系向量信息，其中，所述实体词为所述预处理源语料序列在所述BPE词表中查找到的词，所述实体向量信息和关系向量信息根据存储在所述机器翻译模型中的知识图谱的实体向量信息和知识图谱的关系向量信息确定的；第二确定单元，用于根据所述预处理源语料序列的所述实体向量信息和所述关系向量信息，确定出目标语料序列。

第三方面，本发明实施例提供了一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令在被处理器执行时实现如第一方面、或第一方面任一种可能中任一项所述的方法。

第四方面，本发明实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如下步骤：如第一方面、或第一方面任一种可能中任一项所述的方法。

本发明实施例通过获取源语料序列；将所述源语料序列输入到预先训练的机器翻译模型；根据所述机器翻译模型对所述源语料序列进行分词处理，确定分词处理后的预处理源语料序列，其中，所述分词处理包括初步分词处理和字节对编码BPE分词处理，所述BPE分词处理是通过存储在所述机器翻译模型中的字节对编码BPE词表进行的；确定所述预处理源语料序列中实体词对应的实体向量信息和关系向量信息，其中，所述实体词为所述预处理源语料序列在所述BPE词表中查找到的词，所述实体向量信息和关系向量信息根据存储在所述机器翻译模型中的知识图谱的实体向量信息和知识图谱的关系向量信息确定的；根据所述预处理源语料序列的所述实体向量信息和所述关系向量信息，确定出目标语料序列。通过上述方法，由于机器翻译模型中引入了字节对编码BPE词表以及知识图谱，因此提高了机器翻译的准确性。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明第一实施例的语料处理的方法的流程图；

图2是本发明第一实施例的知识图谱示意图；

图3是本发明第一实施例的自注意力机制模型的流程图；

图4是本发明第二实施例的训练机器翻译模型的流程图；

图5是本发明第二实施例的训练机器翻译模型的流程图；

图6是本发明第二实施例的训练机器翻译模型的流程图；

图7是本发明第二实施例的训练机器翻译模型的流程图；

图8是本发明第二实施例的训练机器翻译模型的流程图；

图9是本发明第二实施例的训练机器翻译模型的流程图；

图10是本发明第三实施例的应用场景图；

图11是本发明第四实施例的语料处理的装置的示意图；

图12是本发明第五实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明公开进行描述，但是本发明公开并不仅仅限于这些实施例。在下文对本发明公开的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明公开。为了避免混淆本发明公开的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个申请文件中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明公开的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明公开的描述中，除非另有说明，“多个”的含义是两个或两个以上。

通常采用机器翻译技术将一种自然语言翻译为另一种语言，即将源语言翻译为目标语言；机器翻译技术的应用场景非常广泛，例如，即时通信平台或者海外客户咨询服务中，都需要通过机器翻译技术帮助人们进行沟通交流，虽然机器翻译技术近几年不断发展，翻译效果也在不断接近人类，但还是存在一些不足之处，例如，对于一些没见过的词，即未登录词(out of vocabulary,OOV)，机器翻译技术可能无法正确的翻译,甚至会因为OOV翻译出完全错误的句子；另外，还有一些词，在不同的句子场景下，会具有不同的意思，即一词多义的情况，机器翻译技术可能无法分辨场景的区别，将这样的词翻译为常用意思，而非正确的意思，造成翻译错误，造成翻译错误的原因是由于机器翻译对于平行语料的依赖性，若没在语料中见过这样的词或句子场景，很难能给出正确的翻译结果。因此，如何提高机器翻译的准确性，是目前需要解决的问题。

图1是本发明第一实施例的语料处理的方法的流程图。如图1所示，具体包括如下步骤：

步骤S100、获取源语料序列。

本发明实施例中，假设源语料序列为英语，例如，“I eat a bad apple”。

步骤S101、将所述源语料序列输入到预先训练的机器翻译模型。

具体的，将所述源语料序列输入到预先训练的机器翻译模型的输入嵌入层，其中，所述输入层中包括字节对编码BPE词表、知识图谱的实体向量信息、和知识图谱的关系向量信息。

步骤S102、根据所述机器翻译模型对所述源语料序列进行分词处理，确定分词处理后的预处理源语料序列，其中，所述分词处理包括初步分词处理和字节对编码BPE分词处理，所述BPE分词处理是通过存储在所述机器翻译模型中的字节对编码BPE词表进行的。

举例说明，首先将“I eat a bad apple”进行初步分词处理，获得初步分词处理后的源语料序列为I/eat/a/bad apple，然后将初步分词处理后的源语料序列进一步的进行BPE分词处理，确定出BPE分词处理后的预处理源语料序列I/eat/a/[email protected]/apple，具体的，bad apple根据BPE词表拆分为[email protected]和apple。

在一种可能的实现方式中，所述初步分词的处理方法可以采用机械式分词法，例如，基于词典分词；基于语法和规则的分词法，基于统计的分词法等，本发明实施例对其不做限定。

步骤S103、确定所述预处理源语料序列中实体词对应的实体向量信息和关系向量信息，其中，所述实体词为所述预处理源语料序列在所述BPE词表中查找到的词，所述实体向量信息和关系向量信息根据存储在所述机器翻译模型中的知识图谱的实体向量信息和知识图谱的关系向量信息确定的。

本发明实施例中，将I/eat/a/[email protected]/apple输入到预先训练的机器翻译模型，由于机器翻译模型的嵌入层中包括字节对编码BPE词表、知识图谱的实体向量信息、和知识图谱的关系向量信息，确定I/eat/a/[email protected]/apple中各分词分别对应的向量信息，例如，[email protected]、apple对应的实体向量信息，[email protected]属于bad apple的一部分，即[email protected]是bad apple的子词，因此[email protected]和bad apple之间的关系为“is-subword-of”，进而确定apple与bad apple之间的关系“is-subword-of”对应的关系向量信息；具体的，所述知识图谱的实体向量信息和知识图谱的关系向量信息为分布式向量表示。

本发明实施例中，可以通过知识图谱发现eat和apple之间有一个food(食物)的关系，所以在翻译apple时，将会加入food相关的分布式向量表示，将bad apple翻译成为“坏的苹果”。

在一种具体的实现方式中，知识图谱实际上是一种语义网络，该语义网络中有多个节点，每个节点称为实体，三元组是知识图谱中最小的结构单元，其形式可以为：实体，关系，实体，具体如图2所示。

可选的，机器翻译模型为自注意力机制模型，自注意力机制模型的流程图，如图3所示，图3中左侧为编码器(Encoder)部分，右侧为解码器(Decoder)部分，编码器的输入为一段源语料序列，编码器将所述源语料序列转换为固定长度的向量，然后解码器将该固定长度的向量转换为目标语料序列输出，在编码器的输入嵌入层引入了字节对编码BPE词表、和知识图谱的实体向量信息、和知识图谱的关系向量信息，提高了自注意力机制模型翻译的准确性。

本发明实施例中，编码器部分和解码器部分的具体结构为transformer，transformer结构是由编码器部分和解码器部分结构堆叠组成，具体的，所述Transformer结构由自注意结构(self-attention)与其他结构一起组成，编码器部分包括多头自注意结构、前馈网络(Feed forward network)、残差连接、加和(add)与标准(norm)层；解码器部分包括隐藏的(masked)多头自注意结构、前馈网络、残差连接、加和和标准层、线型的(linear)和柔性最大值传输函数(softmax)的决策函数组合，其中，解码器中包括两层多头自注意结构，第一层masked多头自注意结构可以放置机器翻译模型获取到到翻译的全部信息。图2中编码器的输入包括输入嵌入层(Input Embeding)以及位置编码(positionalencoding)，解码器的输入包括输出嵌入层以及位置编码；编码器的输入嵌入层中包括字节对编码BPE词表、知识图谱的实体向量信息、和知识图谱的关系向量信息；所述解码器的输出嵌入层输入的为输出概率(Output Probabilities)输出的部分翻译内容，将输出的部分翻译内容与编码器输出的源语料序列提炼的信息进行比对，确定出为翻译的部分，继续通过解码器进行翻译，最终通过线型的(linear)和柔性最大值传输函数(softmax)的决策函数组合输出完成的目标语料序列。

在一种可能的实现方式中，所述源语料序列还可以称为源语言序列，所述目标语料序列还可以称为目标语言序列。

本发明实施例中，采用自注意力机制模型，可以并行化计算，即同时可以翻译多个句子，提高了自注意力机制模型的训练速度，且自注意力机制模型的自注意结构能够学习句子内部之间的依赖关系，会更好的捕获句子的内部结构，进而完全捕获长距离的依赖关系，让翻译的结果更合理。可选的，训练所述自注意力机制模型时的采用的损失函数为交叉熵损失函数，采用的优化器为Adam。

在一种可选的实现方式中，机器翻译模型也可以是基于长短期记忆网络(LongShort-Term Memory，LSTM)，具体的，LSTM是循环神经网络(Recurrent Neural Network，RNN)中的一种；机器翻译模型还可以是基于卷积神经网络(Convolutional NeuralNetworks，CNN)。

步骤S104、根据所述预处理源语料序列的所述实体向量信息和所述关系向量信息，确定出目标语料序列。

本发明实施例中，确定源语料序列“I eat a bad apple”的目标语料序列为“我吃了一个坏的苹果”。

图4是本发明第二实施例的一种训练所述机器翻译模型的步骤流程图，具体如图4所示，包括：

步骤S400、获取平行语料、字节对编码BPE词表以及向量信息，其中，所述向量信息包括知识图谱的实体向量信息、以及知识图谱的关系向量信息，所述平行语料为双语语料。

本发明实施例中，所述双语语料为源语料和目标语料，例如，源语料是中文，目标语料是英文；源语料是英文，目标语料是中文；本发明实施例对其不做限定；假设源语料是英文，例如：“Obama is president of USA”,目标语料是中文，例如，上述英文语句对应的中文“奥巴马是美国总统”。

步骤S401、通过所述平行语料、字节对编码BPE词表以及所述向量信息，通过设定的方法训练所述机器翻译模型。

具体的，通过所述平行语料、字节对编码BPE词表以及知识图谱的实体向量信息、以及知识图谱的关系向量信息，通过变压器(transformer)训练所述机器翻译模型。

本发明实施例中，将平行语料进行初步分词处理，将初步分词处理后的平行语料通过字节对编码BPE词表进行BPE分词处理，确定BPE分词处理后的平行语料，例如，平行语料中的英文句子为“Peter is a bad apple.”，进行BPE分词处理后，确定出的BPE分词处理后的句子为“Peter is a [email protected]”(皮特是一个坏人)；并确定出BPE分词处理后的句子对应知识图谱的实体向量信息、以及知识图谱的关系向量信息；然后通过transformer训练所述机器翻译模型。

图5本发明第二实施例的一种训练所述机器翻译模型的步骤流程图，具体如图5所示，在步骤S400之前，该方法还包括以下步骤：

步骤S4021、获取初始平行语料。

具体的，在字典、互联网或者***中获取相同词条的双语语料作为初始平行语料，其中，所述相同词条即意思相同的词条。

步骤S4022、将所述初始平行语料进行语料清洗。

本发明实施例中，过所述初始平行语料进行清洗，具体的清洗方式可以为过滤掉长句子，所述长句子即词汇数超过一定数量的句子，过滤掉特殊符号的句子，过滤掉重复的句子等。

步骤S4023、确定所述平行语料。

图6本发明第二实施例的一种训练所述机器翻译模型的步骤流程图，具体如图6所示，在步骤S400之前，该方法还包括以下步骤：

步骤S4031、构建知识图谱对应的三元组库，其中，所述知识图谱为双语知识图谱。

本发明实施例中，所述知识图谱的每个节点表示一个实体，每一条边表示实体与实体之间的关系，据此，实体、实体与实体之间的关系可以建立三元组，例如，一个具体的三元组表示可以为<实体a，关系r，实体b>；由于知识图谱中包括很多个实体，以及实体与实体之间的关系，因此可以把知识图谱简化为很多对上述三元组表示。

举例说明，将字节对编码BPE词表引入知识图谱，假设，词汇“bad apple”进行BPE分词处理后得到，“[email protected]”和“apple”，知识图谱的三元组为<[email protected]，is-subword-of(子词)，bad apple>和<apple，is-subword-of，bad apple>。

步骤S4032、将所述三元组库按照设定算法生成知识图谱的实体向量信息以及知识图谱的关系向量信息。

具体的，通过TransE算法将三元组库中包括的三元组生成知识图谱的实体向量信息以及知识图谱的关系向量信息，例如，“[email protected]”和“apple”生成的是知识图谱的实体向量信息，is-subword-of生成的是知识图谱的关系向量信息。

在一种可能的实现方式中，在三元组库的基础上，需要获得实体、实体与实体之间的关系的向量表示，例如，三元组<实体a，关系r，实体b>在通过向量表示时，即实体a的向量加上实体与实体之间的关系r的向量，应尽可能与实体b的向量相等；即d(a，r，b)＝||a+r–b||尽可能小。

具体的，在生成三元组库对应的向量关系时，首先进行随机初始化，将所有的实体、实体与实体之间的关系设定初始值。然后通过随机抽样三元组库中的三元组，以及三元组库中的三元组替换构建假组合，其中，所述假组合即没有关系的三元组，共同组成一个批处理，然后通过随机梯度下降更新参数，最后通过多轮迭代后获得最终的实体、实体与实体之间的关系的向量表示。

本发明实施例中，所述知识图谱是通过海量的知识储备建立的，由于知识数量较多，因此降低了未登录词OOV词的出现概率。通过知识图谱建立三元组库，将海量的实体映射成固定长度的知识图谱的实体向量序列，并确定出实体与实体之间的关系，确定出知识图谱的关系向量序列，例如，“bad”和“apple”是“bad apple”的一部分，进而解决BPE中subword(子词)不含有单元语义的问题；进一步的，利用知识图谱中的实体与实体之间的关系，通过分布式向量表示的方式引入机器翻译模型，与实体向量序列结合，解决一词多义问题；例如，“I eat a bad apple(我吃了一个坏苹果)”和”Peter is a bad apple(皮特是一个坏人)”,“bad apple”是同一个词具有多种意思，通过知识图谱可以分别捕捉到不同语句中的“eat(吃)”和“Peter(人名)”，因此可以正确的翻译出“bad apple”在不同语句中的不同意思，通过上述方式可以提高翻译的准确性。

图7本发明第二实施例的一种训练所述机器翻译模型的步骤流程图，具体如图7所示，在步骤S400之前，该方法还包括以下步骤：

步骤S4041、生成字节对编码BPE词表。

本发明实施例中，字节对编码BPE技术通过统计高频短词之间的共现关系，构建BPE词表；利用所述BPE词表，在遇到未登录词OOV时，可以通过BPE词表将OOV词进行切割，切割为常见的短词；具体的，词组通常都有常见的前缀或尾缀，将一个OOV词分为两个常见短词，通过翻译上述常见短词可以在一定程度上减少OOV词的影响；举例说明，将“bad apple”通过BPE词表分割为“[email protected]”和“apple”。

步骤S4042、将所述节对编码BPE词表保存到所述机器翻译模型的嵌入层。

本发明实施例中，将节对编码BPE词表保存到所述机器翻译模型的嵌入层中，不仅可以减少OOV词的影响，还可以提高机器翻译模型的翻译速度。

本发明实施例中，上述图5中包括的步骤S4021、步骤S4022和步骤S4023，图6中包括的步骤S4031和步骤S4032,以及图7中包括的步骤S4041和步骤S4042，没有固定的先后顺序，也可以并行执行，若并行执行，具体流程图，如图8所示。

本发明实施例中，对一种语料处理的方法进行详细说明，具体流程图，如图9所示，具体如下：

步骤S900、通过字节对编码BPE技术生成BPE词表。

具体的，“bad apple”通过BPE词表拆成”[email protected]”和“apple”。

步骤S901、将所述BPE词表保存到存在机器翻译模型的嵌入层。

步骤S902、构建知识图谱对应的三元组库。

具体的，在字典、互联网或者***中获取相同词条的双语语料作为初始平行语料，组成双语知识库，将所述双语知识库经过实体识别，关系识别等的方法进行处理，将识别的实体及相应的对应关系进行对齐，形成用于翻译模型的知识图谱，利用所述知识图谱来构建三元组库。例如，其中一个三元组为<obama(奥巴马),is president of(是…的总统),USA(美国)>；通过BPE词表将“bad apple”拆分成”[email protected]”和“apple”后，确定三元组为<[email protected]，is-subword-of，bad apple>和<apple，is-subword-of，bad apple>。

步骤S903、将所述三元组库按照TransE算法生成知识图谱的实体向量信息以及知识图谱的关系向量信息。

具体的，所述知识图谱的实体向量信息以及知识图谱的关系向量信息可以为分布式向量表示。

举例说明，根据三元组<[email protected]，is-subword-of，bad apple>可以确定“[email protected]”，“badapple”，“apple”和“is-subword-of”的分布式向量表示。

在一种可能的实现方式中，所述TransE算法是基于实体和关系的分布式向量表示，例如，三元组为<实体a，关系r，实体b>，采用TransE算法是为了是实体a的向量加上关系r的向量，应尽可能与实体b的向量相等，即||a+r–b||尽可能小，采用TransE算法对所述学科知识图谱进行知识推理，可以完善知识图谱。

步骤S904、获取初始平行语料。

步骤S905、将所述初始平行语料进行语料清洗。

具体的，初始平行语料通过以下清洗方式进行清洗，例如，清洗方式可以为过滤掉长句子，所述长句子即词汇数超过一定数量的句子，过滤掉特殊符号的句子，过滤掉重复的句子等。

步骤S906、确定所述平行语料。

步骤S907、将所述平行语料以及所述向量信息输入到机器翻译模型的嵌入层。

步骤S908、根据所述平行语料、字节对编码BPE词表以及所述向量信息，通过transformer训练所述机器翻译模型。

步骤S909、保存训练完成的所述机器翻译模型。

步骤S910、采用所述机器翻译模型对需要翻译的语料序列进行翻译。

具体的，可以进行线上翻译或离线翻译，本发明实施例对其不做限定。采用线上翻译或离线翻译的方式，可以快速迭代，部署方便。

图10是本发明第三实施例的应用场景图，包括服务器和用户终端，其中，所述服务器还可以称为数据中心、平台、系统等，用户终端可以为手机、平板等可以进行用户交流的设备，所述服务器为至少一个，所述用户终端的数量为多个，用户在用户终端的应用程序中输入或接收源语料序列，需要将源语料序列翻译成目标语料序列，服务器通过获取源语料序列；将所述源语料序列进行分词处理，确定分词处理后的预处理源语料序列；将所述预处理源语料序列输入到预先训练的机器翻译模型,其中，所述预先训练的机器翻译模型中包括字节对编码BPE词表、和知识图谱的实体向量信息、和关系向量信息；确定出目标语料序列。通过上述方法，由于机器翻译模型中引入了字节对编码BPE词表以及知识图谱，因此提高了机器翻译的准确性，并且根据BPE词表进行分词处理，还可以提高机器翻译的速度。

图11是本发明第四实施例的语料处理的装置示意图。如图11所示，本实施例的装置包括获取单元1101、输入单元1102、处理单元1103、第一确定单元1104和第二确定单元1105。

其中，获取单元1101，用于获取源语料序列；输入单元1102，用于将所述源语料序列输入到预先训练的机器翻译模型；处理单元1103，用于根据所述机器翻译模型对所述源语料序列进行分词处理，确定分词处理后的预处理源语料序列，其中，所述分词处理包括初步分词处理和字节对编码BPE分词处理，所述BPE分词处理是通过存储在所述机器翻译模型中的字节对编码BPE词表进行的；第一确定单元1104，用于确定所述预处理源语料序列中实体词对应的实体向量信息和关系向量信息，其中，所述实体词为所述预处理源语料序列在所述BPE词表中查找到的词，所述实体向量信息和关系向量信息根据存储在所述机器翻译模型中的知识图谱的实体向量信息和知识图谱的关系向量信息确定的；第二确定单元1105，用于根据所述预处理源语料序列的所述实体向量信息和所述关系向量信息，确定出目标语料序列。

进一步地，该装置还包括：训练单元，用于获取平行语料、和字节对编码BPE词表以及向量信息，其中，所述向量信息包括知识图谱的实体向量信息、以及知识图谱的关系向量信息，所述平行语料为双语语料；通过所述平行语料、和字节对编码BPE词表以及所述向量信息，通过设定的方法训练所述机器翻译模型。

进一步地，所述获取单元还用于：获取初始平行语料；将所述初始平行语料进行语料清洗；确定所述平行语料。

进一步地，该装置还包括：生成单元，用于构建知识图谱对应的三元组库，其中，所述知识图谱为双语知识图谱；将所述三元组库按照设定算法生成知识图谱的实体向量信息以及知识图谱的关系向量信息。

进一步地，所述设定算法为TransE算法。

进一步地，所述生成单元还用于：生成字节对编码BPE词表；将所述节对编码BPE词表保存到所述机器翻译模型的嵌入层。

进一步地，所述机器翻译模型为自注意力机制模型。

图12是本发明第五实施例的电子设备的示意图。在本实施例中，电子设备为服务器。应理解，还可以为其他电子设备，如树莓派。如图12所示，该电子设备：至少包括一个处理器1201；以及，与至少一个处理器1201通信连接的存储器1202；以及，与扫描装置通信连接的通信组件1203，通信组件1203在处理器1201的控制下接收和发送数据；其中，存储器1202存储有可被至少一个处理器1201执行的指令，指令被至少一个处理器1201执行以实现：获取源语料序列；将所述源语料序列输入到预先训练的机器翻译模型；根据所述机器翻译模型对所述源语料序列进行分词处理，确定分词处理后的预处理源语料序列，其中，所述分词处理包括初步分词处理和字节对编码BPE分词处理，所述BPE分词处理是通过存储在所述机器翻译模型中的字节对编码BPE词表进行的；确定所述预处理源语料序列中实体词对应的实体向量信息和关系向量信息，其中，所述实体词为所述预处理源语料序列在所述BPE词表中查找到的词，所述实体向量信息和关系向量信息根据存储在所述机器翻译模型中的知识图谱的实体向量信息和知识图谱的关系向量信息确定的；根据所述预处理源语料序列的所述实体向量信息和所述关系向量信息，确定出目标语料序列。

进一步地，所述处理器还用于执行：获取平行语料、字节对编码BPE词表以及向量信息，其中，所述向量信息包括知识图谱的实体向量信息、以及知识图谱的关系向量信息，所述平行语料为双语语料；通过所述平行语料、字节对编码BPE词表以及所述向量信息，通过设定的方法训练所述机器翻译模型。

进一步地，所述处理器还用于执行：获取初始平行语料；将所述初始平行语料进行语料清洗；确定所述平行语料。

进一步地，所述处理器还用于执行：构建知识图谱对应的三元组库，其中，所述知识图谱为双语知识图谱；将所述三元组库按照设定算法生成知识图谱的实体向量信息以及知识图谱的关系向量信息。

进一步地，所述设定算法为TransE算法。

进一步地，所述处理器还用于执行：生成字节对编码BPE词表；将所述节对编码BPE词表保存到所述机器翻译模型的嵌入层。

进一步地，所述机器翻译模型为自注意力机制模型。

具体地，该电子设备包括：一个或多个处理器1201以及存储器1202，图12中以一个处理器1201为例。处理器1201、存储器1202可以通过总线或者其他方式连接，图12中以通过总线连接为例。存储器1202作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器1201通过运行存储在存储器1202中的非易失性软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述语料处理的方法。

存储器1202可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储选项列表等。此外，存储器1202可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器1202可选包括相对于处理器1201远程设置的存储器，这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器1202中，当被一个或者多个处理器1201执行时，执行上述任意方法实施例中的语料处理的方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果，未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本发明的第六实施例涉及一种非易失性存储介质，用于存储计算机可读程序，所述计机可读程序用于供计算机执行上述部分或全部的方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施例是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

24页详细技术资料下载

语料处理的方法、装置、可读存储介质和电子设备

相关技术

网友询问留言