带有两阶段解码器的用于语言理解和生成的预训练框架

文档序号：49493 发布日期：2021-09-28 浏览：21次 >En<

阅读说明：本技术 带有两阶段解码器的用于语言理解和生成的预训练框架 (Pre-training framework for language understanding and generation with two-stage decoder ) 是由俞凯陈露马达陈志� 于 2021-07-05 设计创作，主要内容包括：本发明实施例提供一种带有两阶段解码器的用于语言理解和生成的预训练框架,包括：编码器,用于接收条件生成任务中的加噪文本,编码得到加噪文本序列,其中,加噪文本包括：片段遮盖和/或句子打乱的文本；解码器,用于接收编码器输出的加噪文本序列,在第一解码阶段,重构加噪文本序列,得到重构文本,生成对应加噪文本序列的意义表示；在第二解码阶段,基于重构文本和意义表示,生成后续文本。本发明实施例还提供一种二阶段解码器。本发明实施例在第一解码阶段进行重构加理解,在第二解码阶段中既保障了文本的理解,又可以生成后续文本,使得预训练质量更好。显式的理解可以应用于下游任务,方便获取上下文信息,适用任务更广。(An embodiment of the present invention provides a pre-training framework for language understanding and generation with a two-stage decoder, including: the encoder is used for receiving the noise-added text in the condition generation task and encoding the noise-added text to obtain a noise-added text sequence, wherein the noise-added text comprises: text with segment covering and/or sentence scrambling; the decoder is used for receiving the noise-added text sequence output by the encoder, reconstructing the noise-added text sequence in a first decoding stage to obtain a reconstructed text and generating a meaning expression corresponding to the noise-added text sequence; in a second decoding stage, subsequent text is generated based on the reconstructed text and the meaning representation. The embodiment of the invention also provides a two-stage decoder. The embodiment of the invention carries out reconstruction and comprehension in the first decoding stage, not only guarantees comprehension of the text in the second decoding stage, but also can generate the subsequent text, so that the pre-training quality is better. Explicit understanding can be applied to downstream tasks, and the method is convenient for obtaining context information and has wider applicable tasks.)

技术领域

本发明涉及智能语音领域，尤其涉及一种带有两阶段解码器的用于语言理解和生成的预训练框架。

背景技术

自我监督预训练提高了自然语言生成(NLG)任务的技术水平，各种语言生成(条件生成)任务的目的是根据给定的文档(条件)生成自然语言句子，如面向任务的对话中的上下文到响应(Context-to-Response)、会话响应生成等。

为了实现预训练，有各种类型的用于条件文本生成任务的预训练模型。大多数这些模型分为两类。第一类模型，例如MASS(Masked Sequence to Sequence，遮盖式的序列到序列)和BART(Bidirectional and Auto-Regressive Transformers，双向自回归Transformer)，在给定损坏的文本的情况下解码出遮盖的部分或回复原始文本。第二种类型的模型，例如PALM(Pre-training Autoencoding&Autoregressive Language Model，预训练自编码和自回归语言模型)，根据上下文生成后续文本。前者具有很好的上下文理解能力，而后者则擅长预测未来的文本。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

MASS和BART只是重建原文本或者原文本中的遮盖部分，没有对后续文本的生成做相关预训练，导致后续生成能力不足，自然语言生成较差。PALM只是对后续文本的生成做相关预训练，没有显式生成相关理解，由于理解能力不足，后续生成的文本会出现与上下文不通顺，或者错误的情况。

发明内容

为了至少解决现有技术中没有对后续文本的生成做相关预训练，导致后续生成能力不足，没有显式生成相关理解，致使后续生成文本能力不足、不通顺的问题

第一方面，本发明实施例提供一种二阶段解码器，包括：

在第一解码阶段，重构编码器的输出，得到重构文本，生成对应所述输出的意义表示；

在第二解码阶段，基于所述重构文本和意义表示，生成后续文本。

第二方面，本发明实施例提供一种带有两阶段解码器的用于语言理解和生成的预训练框架，包括：

编码器，用于接收条件生成任务中的加噪文本，编码得到加噪文本序列，其中，所述加噪文本包括：片段遮盖和/或句子打乱的文本；

解码器，用于接收所述编码器输出的加噪文本序列，

在第一解码阶段，重构所述加噪文本序列，得到重构文本，生成对应所述加噪文本序列的意义表示；

在第二解码阶段，基于所述重构文本和意义表示，生成后续文本。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的带有两阶段解码器的用于语言理解和生成的预训练框架中二阶段解码器的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的带有两阶段解码器的用于语言理解和生成的预训练框架中二阶段解码器的步骤。

本发明实施例的有益效果在于：在第一解码阶段进行重构加理解，在第二解码阶段中既保障了文本的理解，又可以生成后续文本，使得预训练质量更好。同时，显式的理解可以应用于下游任务；以单个解码器为主，在两个阶段联合训练过程中，相比于两个解码器，方便获取上下文信息。同时也适用于摘要提取和问答类任务的实现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种二阶段解码器的结构图；

图2是本发明一实施例提供的一种带有两阶段解码器的用于语言理解和生成的预训练框架的结构图；

图3是本发明一实施例提供的一种带有两阶段解码器的用于语言理解和生成的预训练框架的预训练模型架构图；

图4是本发明一实施例提供的一种带有两阶段解码器的用于语言理解和生成的预训练框架的PLUTO的不同微调方向的架构图；

图5是本发明一实施例提供的一种带有两阶段解码器的用于语言理解和生成的预训练框架的用于汇总的测试数据集的结果图；

图6是本发明一实施例提供的一种带有两阶段解码器的用于语言理解和生成的预训练框架的CoQA开发数据集的结果图；

图7是本发明一实施例提供的一种带有两阶段解码器的用于语言理解和生成的预训练框架的在Cornell Movie Dialog Corpus的测试数据集上的结果图(越低越好)；

图8是本发明一实施例提供的一种带有两阶段解码器的用于语言理解和生成的预训练框架的对话训练数据的线性化示意图；

图9是本发明一实施例提供的一种带有两阶段解码器的用于语言理解和生成的预训练框架的MultiWOZ 2.0上的上下文响应结果图；

图10是本发明一实施例提供的一种带有两阶段解码器的用于语言理解和生成的预训练框架的CamRest676上的上下文响应结果图；

图11是本发明一实施例提供的一种带有两阶段解码器的用于语言理解和生成的预训练框架的GLUE基准测试结果图；

图12是本发明一实施例提供的一种带有两阶段解码器的用于语言理解和生成的预训练框架的PPL对康奈尔大学电影对话语料库的PLUTO-2和PART-2与不同的预训练示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种二阶段解码器的结构图，包括如下结构：

S11：在第一解码阶段，重构编码器的输出，得到重构文本，生成对应所述输出的意义表示；

S12：在第二解码阶段，基于所述重构文本和意义表示，生成后续文本。

在本实施方式中，本方法的二阶段解码器属于Transformer编码器-解码器框架。要注意的是，本方法的二阶段解码器是一个解码器进行两个解码阶段，而并非是两个小解码器组成的一个大解码器。这样的设计考虑到在预训练时，实际输入是加噪文本，这个加噪文本的理解表示可以是它的原文本，回复是它的后续文本，原文本和后续文本是有上下文关系的，一个解码器可以捕捉它们之间的上下文关系(解码器是个语言模型，GPT)，如果解码器分成两部分则丢失了语言模型的建模。

对于S 11，形式上，对于条件生成任务，令x＝[x₁，x₂，...，x_m]表示条件文本序列，r＝[r₁，r₂，...，r_k]表示x的理解序列，y＝[y₁，y₂，...，y_n]表示连贯的文本序列。给定条件x，将其输入编码器，两阶段解码器在第一阶段中，将首先生成理解r，然后预测连贯文本y。公式如下：

其中，意义表示也就是上述公式中的understanding对应的理解序列r，重构文本也就是上述公式中Generation对应的预测连贯文本y。

对于S12，在预训练步骤中，编码器会接收带有f(x)的加噪文本/损坏的文本，编码器的输出会输入至二阶段解码器中，其中，f(x)是一个噪声函数，从而得到：

P(x，y|f(x))＝P(x|f(x))·P(y|f(x)，x)

作为一种实施方式，所述重构编码器的输出，得到重构文本，生成对应所述输出的意义表示包括：

在第一解码阶段，接收条件生成任务中编码器输出的加噪文本序列，得到重构文本，生成对应所述条件生成任务中编码器输出的意义表示，其中，所述加噪包括：片段遮盖和/或句子打乱。

参考BART，本方法引入了文本填充和句子排列来破坏条件文本。为了构建大量的训练前数据，从大量的未标注语料中选择大量的文本片段。定义最大长度(令牌)的数量为每个片段的片段1，本方法削减几个连续的令牌从一开始一样条件文本和其余假设下的相干文本随后文本捕获之前的上下文的理解人类的书面文本(这些片段为遮盖或句子打乱的文本)。将x的长度设为L的80％，y的长度设为20％。因为连贯的文本一般比较短，比如摘要和生成性问答。这种设置可以加强训练前和微调之间的相关性。

与BART方法不同，本方法将会基于重构后连贯的文本生成后续文本，而不是在第二个解码阶段从损坏的文本中生成后续文本。与PALM不同，本方法通过去噪目标明确地生成理解，并基于理解生成后续文本，从而提高后续文本生成的效果。

作为一种实施方式，所述意义表示是显式的，以用于处理下游的摘要或问答类任务。

由于PALM的理解是内隐的，在预训练和一些需要产生理解的下游理解任务之间存在一定的差距。例如，对于面向任务对话中的Context-to-Response任务，响应依赖于根据信念状态从数据库查询的结果，而由于理解隐性，无法准确的确定相应的结果。

而本方法所确定的MR(Meaning Representation，意义表示)是显式的，MR可以是条件的某些部分(提取摘要和QA)、重写摘要或理解(状态)，甚至是准确的文本作为条件。在第一解码阶段，产生对条件的理解，并在第二解码阶段预测连贯文本。其中，条件对应的条件文本序列具体是指在一些任务中的给定文本序列，例如在文本摘要任务中，给定文本要求模型输出摘要，给定的文本则是条件文本。再比如问答任务中，给定文章和问题要求模型输出答案，其中的文章和问题则是条件文本。

通过该实施方式可以看出，在第一解码阶段进行重构加理解，在第二解码阶段中既保障了文本的理解，又可以生成后续文本，使得预训练质量更好。同时，显式的理解可以应用于下游任务；以单个解码器为主，在两个阶段联合训练过程中，相比于两个解码器，方便获取上下文信息。同时也适用于摘要提取和问答类任务的实现。

如图2所示为本发明一实施例提供的一种带有两阶段解码器的用于语言理解和生成的预训练框架的结构图，包括如下结构：

S21：编码器，用于接收条件生成任务中的加噪文本，编码得到加噪文本序列，其中，所述加噪文本包括：片段遮盖和/或句子打乱的文本；

S22：解码器，用于接收所述编码器输出的加噪文本序列，

在第一解码阶段，重构所述加噪文本序列，得到重构文本，生成对应所述加噪文本序列的意义表示；

在第二解码阶段，基于所述重构文本和意义表示，生成后续文本。

在本实施方式中，解码器为前述所述的二阶段解码器。带有两阶段解码器的用于语言理解和生成的预训练框架也可以称为PLUTO(Pre-training framework for LanguageUnderstanding and generation with Two stage decOding)，具体结构如图3所示。PLUTO的解码器有两个阶段:(理解、重构)和(生成)。在下游任务中，不同任务所对应的阶段不同，应该根据具体的下游任务决定在哪个阶段生成。

例如，摘要任务可以看作是对文档的一种理解。因此，在第一个解码阶段生成。但是对于对话回应的生成，在第一阶段就给出答案是不合适的，因为回应并不是对问题的直接理解。在实际场景中，应该先理解问题，然后生成响应。因此，在第二阶段创建响应更合适。可以把问题本身看作是一种理解。

作为一种实施方式，所述条件生成任务包括：文本摘要任务；

编码器，用于接收文本摘要任务的文本，编码得到文本序列；

解码器，用于接收所述编码器输出的文本序列，

在第一解码阶段，重构所述文本序列，得到重构后可理解的连贯文本序列，并生成所述文本序列的意义表示；

在第二解码阶段，基于所述连贯文本序列和意义表示，生成文本摘要。

在本实施方式中，如图4(b)所示摘要任务中，x代表问题(在文本摘要任务中，这些问题指的就是整体的文本)。经过编码器编码后，输入至解码器进行二阶段的解码，得到重构可理解的连贯文本序列，以及对应的意义表示。这样，在第二解码阶段中，可以基于连贯文本序列和意义表示，生成文本摘要。

作为另一种实施方式，所述条件生成任务包括：问答任务；

编码器，用于接收问答任务的文本，编码得到文本序列，其中所述文本序列包括：题目文本序列以及与题目文本相关的问题序列；

解码器，用于接收所述编码器输出的文本序列，

在第一解码阶段，重构所述问题序列，得到重构后可理解的问题序列，并生成所述问题序列的意义表示；

在第二解码阶段，基于所述题目文本序列、重构后可理解的问题序列以及意义表示，生成回复答案。

在本实施方式中，如图(a)所示的生成式问答任务中，x是指问题，p是指文章，并不是两个问题。这个任务是说给定一个文章p，然后询问有关于这个文章的问题x，类似于中学英语中的阅读理解。然后针对这个任务，本方法的模型第一阶段重建这个问题x，表示对问题的理解，第二阶段则是生成答案。

通过该实施方式可以看出，PLUTO有一个两阶段解码器，首先以理解为主，然后才生成连贯的后续文本。这种两级解码机制结合了文本预训练目标的去噪和预测，增强了PLUTO的理解和生成能力。

对本方法进行实验，PLUTO在编码器和解码器中都有12层，隐藏大小为1024。在训练前的语料库中，本方法使用了BookCorpus(数据集)和最新的英文维基百科(共计16GB)。Kenizer(开源工具)和BART使用相同的方法，最大长度L设置为512。为了创建前面提到的文本片段，有一个滑动窗口，最多包含一个句子的L标记。像PALM一样，参数是用BART初始化的，使用了384个批次，100K轮，以及一个峰值学习率为1e-5的线性学习率调度器。

在摘要任务中微调，有一个文档和一个针对文档的摘要。此任务的微调非常直观。将摘要视为对文档的一种理解，并在第一个解码阶段生成它。设置:为了总结，本方法在3个数据集上进行了实验：CNN/DailyMail、XSum和Gigaword。对所有数据集上的预训练PLUTO进行了20K轮的微调。将CNN/DailyMail和XSum的批量大小设置为80，将Gigaword的批量大小设置为256。对CNN/DailyMail使用线性学习率调度程序，对其他两个使用cosine学习率调度程序，峰值学习率为3e-5。在生成过程中，将CNN/DailyMail的光束大小设置为4，XSum设置为6，Gigaword设置为5。为了评估模型，使用ROUGE(例如有，自动文摘ROUGE评估方法)脚本。

所有结果如图5所示。在CNN/DailyMail上，PLUTO的性能优于此处列出的所有基线。这些预训练模型基线的预训练语料是匹配良好的。在XSum上，与BART的最佳结果相比，PLUTO获得了较高的Rouge-1，并匹配Rouge-2和Rouge-L。在Gigaword上，PLUTO的性能比BART好，但不如PALM。总的来说，PLUTO的性能比BART好，说明本方法的两阶段解码的有效性。

微调生成式问答(QA)，使用CoQA，一个对话式问答数据集。CoQA中的例子是会话式的，模型应该根据对话历史(包括当前回合的问题)和一篇文章生成答案。本方法研究了两种微调方法(1)类似于UniLM，连接对话历史和通道，并将连接馈送编码器，解码器在第一阶段生成响应。(2)使用本方法的两阶段译码方法。在第一阶段，重建当前回合的问题，并在第二阶段预测答案。

设置类似于UniLM和ERNIE-GEN，微调PLUTO以在CoQA上即时生成答案。在微调期间，将批量大小设置为64。利用峰值学习率3e-5的线性学习率调度程序并优化本方法框架对应模型10K轮。在推理过程中，将beam size设置为5。评估脚本来自官网。

所有结果如图6所示。本方法的两阶段译码方法大大改进了BART和PLUTO。即使是具有两阶段解码的生成方法也优于提取UniLM。另外，PLUTO-2的效果最好，说明本方法的预培训工作做得很好。令人惊讶的是，PLUTO-1的性能优于BART-1。从而把这归因于PLUTO对通道和对话历史有更好的理解。在CoQA中，几乎所有的答案都是段落的子跨度或是/否。因此，答案可以被认为是对话历史与篇章串联的一种意义表征。与BART相比，重构受第二译码阶段的生成影响。培训前的目标可能有助于更好地理解。

设置在MASS和PALM之后，在康奈尔电影对话语料库上进行了响应生成任务的实验。但是不会将PPL(perplexity)结果与它们进行比较。因为BART分词器的词汇与两者不同，将PPL值与不同的词汇进行比较是不公平的。在他们之后，对完整数据(110K)和10K随机采样数据进行了实验。在微调期间，将批量大小设置为64，并使用峰值学习率为3e-5的线性学习率调度程序。分别针对完整数据和10K随机采样训练数据优化本方法的模型20K轮和2K轮。为了评估本方法的模型，使用了困惑度(PPL)。

在图7中报告了结果。与第一阶段的译码相比，BART和PLUTO经过两阶段译码的微调后都获得了更好的性能，说明两阶段译码方法是有效的。此外，PLUTO在两阶段解码中表现最好，甚至在10K数据上比巴特在110K数据上的第一阶段解码更好，这表明本方法的训练前目标是必要的。

在微调任务中，模型应根据对话历史(包括当前轮次的用户话语)生成响应。与CoQA上的QA不同，应该首先生成信念状态以查询数据库。将对话数据线性化，如图8所示具体的预训练步骤。用户：hi i am looking for a train to arrive in cambridge by 08:15.(嗨，我正在寻找08:15到达剑桥的火车。)系统：certainly,where will you bedeparting form？(当然，你要从哪里出发？)用户：i'll be leaving from bishopsstortford on monday(星期一离开主教斯托福德)。通过解码器可以确定：

[train]destination cambridge departuer bishops stortford[/s]0001[resp]it look like the[value_id]is what you are looking for departing[value_departure]at[value_leave]and arriving in[value_destination]at[value_arrive]would you like to book[e]

([火车]目的地剑桥出发地主教斯托福德[/s]0001[resp]看起来[value_id]是您正在寻找的，从[value_departure]出发[value_leave]到达[value_destination][value_arrive]。您想预订吗[e])

对话历史被连接为编码器的输入。将信念状态视为对对话历史的理解，解码器会在第一阶段生成它。给定信念阶段，查询结果，例如满足用户要求的实体数量，将被编码为二进制序列。然后，解码器可以预测置信阶段的响应条件和查询结果。

继续在MultiWOZ 2.0和CamRest676上为面向任务的对话框中的Context-to-Response任务验证PLUTO。在DAMD之后，对所有系统响应进行非表面化，以减少表面语言的多样性。在微调过程中，将批处理大小设置为32，并使用线性学习率调度器优化本方法的模型10K轮，MultiWOZ2.0的峰值学习率为3e-5。对于CamRest676，批处理大小为64，使用峰值学习率为3e-5的余弦学习率调度器优化PLUTO 20 epoch。在生成过程中，将两个数据集的波束大小设置为5。之后报告了Inform、Success和BLEU。前两个评估任务完成情况:系统是否返回一个适当的实体(Inform)并回答用户权限(Success)所要求的所有问题。BLEU评估回应的流畅性。综合得分(combined)也使用combined＝(Inform+Success)×0.5+BLEU作为综合质量测量。使用与MinTL(BART)和DAMD相同的评估脚本。

结果如图9显示了MultiWOZ 2.0上的结果并列出了各种模型使用的注释。顶部使用预言机信念状态，PLUTO在除Inform之外的所有指标中表现最好。与SOLOIST不同，SOLOIST在标记的面向任务的对话语料库上进行了预训练，包括Schema和Taskmaster，BART和PLUTO不使用任何标记的面向任务的对话。BART在Success和BLUE上的表现优于SOLOIST，但在Inform上表现较差。与BART相比，PLUTO的综合得分进一步提高了1.86分。Inform和Success主要贡献了改进，表明PLUTO可以产生更令人满意的响应。底部是端到端的设置，模型应该生成信念状态。除了对话话语上下文，MniTL(BART)将先前的信念状态输入到编码器。本方法使用图8提到的线性化并为BART获得更好的结果。PLUTO在Inform中又获得了0.9的分数，最终取得了最好的综合成绩。

CamRest676上的结果如图10所示。BART和PLUTO都实现了更高的Inform，因为CamRest676上的信念状态是如此直接。然而，PLUTO在Success和BLEU中的表现要好得多，达到了一个新的最先进的综合得分，这表明本方法的两阶段预训练是有效的。

微调和结果此外，本方法在几个判别任务上评估PLUTO。特别是，在GLUEBenchmark上测试了本方法的模型。只使用第一个解码阶段，因为判别任务是理解任务。与BART类似，相同的输入被输入到编码器和解码器。第一阶段最后一个解码器令牌的最终隐藏状态被输入到一个新的多类线性分类器中。所有结果如图11所示。PLUTO与BART和RoBERTa的性能相匹配。平均而言，PLUTO的性能略好于BART，但不如RoBERTa。其中，GLUE数据集包括：MNLI，QQP，QNLI，SST-2，CoLA，STS-B，MRPC，RTE，WNLI。

为了验证本方法的训练前目标的有效性，在Cornell电影对话语料库上探索了PLUTO的性能与训练前步骤之间的关系(见图12)。当训练数据为110K和10K时，困惑随着训练前轮次的增加而减小，这表明了本方法的预训练工作。

PLUTO的参数由BART初始化。可能会有一个问题，PLUTO对抗BART的性能提升是否来自额外的预训练步骤。为了打消这种顾虑，这里本方法使用与PLUTO相同的预训练数据继续预训练BART 40K轮。

图12显示PLUTO在相同的预训练步骤中的表现优于BART，表明PLUTO的预训练目标更有效。而且，随着BART预训练步数的增加，没有明显的性能提升，如图12中虚线所示。没有两阶段解码机制的BART的性能趋势非常稳定，表明PLUTO的改进不是来自进一步的预训练。

最后，总的来说，与PLUTO最相似的两种预训练方法是BART和PALM。与BART不同，PLUTO采用两阶段解码器分别模拟理解和生成。与PALM不同，PLUTO显式地生成理解，这与需要开发信念状态的面向任务的对话中的Context-to-Response更相关。此外，PALM的预训练目标与摘要任务的相关性较小，因为生成的文本往往与文档重合，并且是一种理解，而不是像响应那样的后续文本。在PLUTO中，可以在解码的第一阶段生成摘要。本方法提出了建立在Transformer之上的PLUTO。尽管它与BART相似，但PLUTO有一个两阶段解码器，首先理解然后生成连贯的文本。这种两级解码机制结合了文本预训练目标的去噪和预测，增强了PLUTO的理解和生成能力。

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的带有两阶段解码器的用于语言理解和生成的预训练框架中二阶段解码器的步骤。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的带有两阶段解码器的用于语言理解和生成的预训练框架中二阶段解码器的步骤。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

16页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：将后处理生成的word数据转换成结构化数据的方法及系统

带有两阶段解码器的用于语言理解和生成的预训练框架

相关技术

网友询问留言