利用作为弱监督的神经任务表示的模型不可知跨语言转移中的计算需求的最小化

文档序号：590123 发布日期：2021-05-25 浏览：4次 >En<

阅读说明：本技术 利用作为弱监督的神经任务表示的模型不可知跨语言转移中的计算需求的最小化 (Minimization of computational demand in model-agnostic cross-language transfers with neural task representations as a weak supervisor ) 是由 S·K·乔哈尔 M·盖蒙 P·潘特尔于 2019-10-11 设计创作，主要内容包括：一种用于将神经模型从第一语言转移为第二语言的任务不可知框架,该框架可以通过仅依赖于第一语言的标记的数据集合、两种语言之间的并行数据集合、标记的损失函数和未标记的损失函数来准确地形成第二语言的模型中的预测,来将计算和货币成本最小化。模型可以被联合训练,或在两阶段过程中被训练。(A task-agnostic framework for transferring a neural model from a first language to a second language can minimize computational and monetary costs by accurately forming predictions in a model of the second language by relying only on labeled data sets of the first language, parallel data sets between the two languages, labeled loss functions, and unlabeled loss functions. The models may be trained jointly, or in a two-stage process.)

技术领域

本主题技术总体上涉及将神经模型从一种语言转移为第二种语言的神经模型。更具体地，本主题技术涉及利用作为弱监督的表示投影将神经模型从一种语言转移为第二种语言。

背景技术

目前，自然语言处理在很大程度上以英语为中心，而对用英语以外的其他语言工作的模型的需求比以往任意时候都大。然而，将模型从一种语言转移为另一种语言的任务可能会很昂贵：就诸如注释成本、工程时间和工作量等因素而言。

在自然语言处理(NLP)和深度学习中的当前研究已经产生了可以在诸如语音识别和机器翻译等几个关键研究领域实现人文均等(human parity)的系统。也就是说，这些系统在与人类相同或比人类更高的级别执行。然而，许多这种研究围绕以英语为中心的模型、方法和数据集合进行。

据估计，只有大约3.5亿人是以英语为母语的人，而另有5亿到10亿人将英语作为第二语言。这最多占世界人口的20％。随着语言技术进入人们的数字生活，需要能够理解世界上其他80％的NLP应用。然而，从头开始构建这样的系统可能是昂贵的、耗时的并且在技术上具有挑战性。

发明内容

根据本技术的一个方面，一种用于跨语言神经模型转移的方法可以包括：基于标记的损失函数，在第一语言的注释的数据上训练具有多个层的第一语言的第一神经模型，其中对第一神经模型的训练包括定义和更新第一神经模型的层中的每层的参数；以及基于未标记的损失函数在第一语言和第二语言之间的并行数据上训练具有多个层的第二语言的第二神经模型，其中第二神经模型的训练包括复制第一神经模型的除最低层之外的所有层，以及定义和更新第二神经模型的最低层的参数。

训练可以是两阶段的训练过程，其中在第二模型的训练之前先对第一模型进行完全训练，或者替代地在联合训练过程中，可以在对第一模型的初始训练之后共同训练第一模型和第二模型两者。

以下描述和附图详细阐述了所要求保护的主题的某些示意性方面。然而，这些方面仅指示可以采用本发明原理的各种方式中的几种，并且所要求保护的主题旨在包括所有这些方面及其等同物。当结合附图考虑时，根据本发明的以下详细描述，所要求保护的主题的其他优点和新颖特征将变得显而易见。

附图说明

参考以下附图描述了非限制性和非穷举性示例。

图1示出了根据实施例的用于跨语言神经模型转移的框架；

图2示出了根据实施例的神经模型架构；

图3示出了根据实施例的描绘用于跨语言神经模型转移的方法的流程图；

图4示出了根据另一实施例的描绘用于跨语言神经模型转移的方法的流程图；

图5示出了在其中实施例可以被实现的计算机系统的示例性框图。

具体实施方式

在下面的具体实施方式中，参考形成其一部分的附图，并且在附图中通过图示的方式示出了特定实施例或示例。在不脱离本公开的情况下，可以组合这些方面，可以利用其他方面，并且可以进行结构上的改变。实施例可以被实践为方法、系统或设备。因此，实施例可以采取硬件实现、完全软件实现或结合软件和硬件方面的实现的形式。因此，以下详细描述不应被理解为限制性的，并且本公开的范围由所附权利要求及其等同物来限定。

从头开始构建NLP系统是昂贵的、费时的且在技术上具有挑战性的一个原因是高性能的NLP模型通常依赖于大量高质量的注释数据，这是以注释器时间、精力和货币为代价的。注释的数据是用一些附加的工件进行注释的某种语言工件(例如任意文本)。例如可以针对准则来检查文本，并且可以基于该准则将标签或注释添加到文本。举例来说，准则可以是情感，并且标签或注释可以包括正面情感或负面情感。

其他示例性准则包括样式分类，其中标签可以包括工件是正式的还是非正式的；意图理解，其中标签可以包括从多个预定意图(例如调度事件、请求信息或提供更新)中选择的工件的意图的预测；消息路由，其中标签可以包括多个接收者中的主要接收者的预测；任务持续时间，其中标签可以包括事件持续时间的预测；或结构化内容识别，其中标签可以包括对工件类别的预测(例如将电子邮件分类为诸如航班行程、运输通知或酒店预订的类别)。

鉴于从头开始构建系统的巨大成本，研究界为构建用于其他语言的工具所做的许多努力都依赖于将现有的英语模型转移为其他语言。

先前将英语模型转移为其他语言的努力依赖于机器翻译(MT)，以将训练数据或测试数据从英语翻译为目标语言。其他努力还考虑了利用双语词典以直接转移特征。

构建最先进的MT系统需要专业知识和大量的训练数据，这是昂贵的。同时，如果手动完成，构建双语词典可能同样昂贵，如果自动引入，则包含显著的噪音。

其他研究包括在图像识别的上下文中对神经网络组件的可转移性的研究。这项研究说明了传统技术中的技术问题，即网络的更高层倾向于更加专业化和领域特定的，因此更不普遍化。

然而，根据本公开的实施例的技术解决方案包括相反的跨语言转移的框架：具体地，网络的较高层在不同语言的模型之间共享，同时保持单独的语言特定的嵌入(即网络较低层的参数)。通过共享网络的更高层，可以用多种语言生成准确的模型，而无需依赖MT、双语词典或以模型语言注释的数据。

跨域共享信息也与多任务学习有关。该领域的工作可以大致分为两种方法：硬参数共享和软参数共享。在硬参数共享中，模型与某些特定于任务的层共享公共架构，而在软参数共享中，任务具有它们自己的参数集合，这些参数集合受到某些共享代价的约束。

包括标签投影、特征投影和弱监督的先前研究与本公开的实施例不同，本公开的实施例被吸引到将任务特征化、模型学习和跨语言转移集成在联合方案中但同时还具有足够的灵活性以适应各种目标应用的的神经框架。

在解决传统技术面临的技术问题时，本公开的一般框架的实施例可以容易且有效地将神经模型从一种语言转移成其他语言。一方面，该框架依赖于任务表示作为弱监督的形式，并且是模型和任务不可知的。通常，神经网络包括一系列节点，该一系列节点被布置在包括输入层和预测层的层中。输入层和预测层之间的神经网络部分可以包括将输入变换为表示的一层或多层。输入层之后的每一层都在前一层上训练，因此每一层的特征复杂度和抽象度都会增加。任务表示捕获了预测问题的抽象描述，并被体现为神经网络模型中预测层之前的一层。通过利用公开的框架，可以以最小的努力将许多现有的神经架构移植到其他语言。

根据本公开的实施例的用于转移神经模型的唯一要求是并行数据和在任务表示上定义的损失。

根据本公开的实施例的框架可以通过以下项来减少货币和计算成本：放弃对机器翻译或双语词典的依赖，同时准确地捕获跨各种语言的语义丰富且有意义的表示。通过消除对翻译手段的任意依赖或与翻译手段交互，该框架可以减少由处理器处理的指令数量，从而增加系统速度、节省存储器并降低功耗。

关于这些和其他一般考虑，下面描述本公开的实施例。另外，尽管已经讨论了相对具体的问题，但是应当理解，实施例不应当限于解决以上确定的具体问题。

在下文中，描述了根据实施例的框架，该框架可以以最小的成本和努力将现有的第一语言的神经模型转移为第二语言。

具体来说，框架：(i)模型和任务不可知，并且因此可应用于各种新的和现有的神经架构；(ii)只需要平行的语料库，并且不需要目标语言训练数据、翻译系统或双语词典；(iii)具有定义任务表示上的损失的唯一的建模要求，从而大大减少了将模型从一种语言转移为另一种语言所涉及的工程努力、货币成本和计算成本。

当高质量的MT系统不可应用于目标语言或专用领域时，实施例特别有用。传统上，需要MT系统、双语词典或枢纽字典(pivot lexicon)将模型从一种语言转移为另一种语言；然而，根据实施例，这些都不需要，以与传统解决方案相当或甚至超过传统解决方案的速率来准确地预测结果。

更详细地描述了根据实施例的用于将神经模型从第一语言转移为第二语言的框架。为了示例，示出并描述了其中第一语言是英语并且第二语言是法语的实施例。当然，本技术不限于此，并且应当理解，第一语言和第二语言的唯一限制是它们不是相同语言的相同方言。

图1示出了用于将英语神经模型200转移为法语神经模型300的示例性框架100。如图1所示，该框架包括训练部分或模块101以及测试部分或模块102。图1描绘了联合训练和两阶段训练的实现，下面将对其进行详细讨论。

训练部分101描绘了英语神经模型200和法语神经模型300。如图1所示，训练部分101描绘了英语神经模型200如何被训练，以及英语神经模型200如何被转移到法语神经模型300。框架100的训练部分101利用标记的英语数据D_L和未标记的并行数据D_P，未标记的并行数据D_P包括英语并行数据PE和法语并行数据PF。

标记的数据是通常直接由人类补充了上下文信息的数据，也可以被称为注释的数据。

只要并行数据在语言之间是对齐的，它就可以在任意级别上被对齐，包括字符级别、词语级别、句子级别、段落级别或其他级别。

根据如图1和2所示的示例实施例，将标记的英语数据D_L提供给英语神经模型200。

英语神经模型200可以是神经NLP模型，并且可以包括三个不同的组件：嵌入层201、适合任务的模型架构202和预测层203。

更详细地，英语神经NLP模型200包括第一层，即嵌入层201，其将语言单元w(字符、词语、句子、段落、伪段落等)转移为语言单位w的数学表示。数学表示可以优选地是主要包括非零值的矢量的密集表示，或者可以替代地是包括许多零值的矢量的稀疏表示。

第三层是预测层203，其用于在输出标签的空间上产生概率分布。根据示例实施例，预测层203可以包括softmax函数。

在预测层203和嵌入层201之间是适合任务的模型架构202。

由于框架100是模型和任务不可知的，因此适合任务的模型架构202的结构可以包括任意数量的层和任意数量的参数。即，适合任务的模型架构202是使模型适合于特定任务或应用的，并且网络的配置和层数不影响通用框架的应用。

因此，为了简单起见，将适合任务的模型架构202描绘为包括x层网络202a(其中x是层的非零整数)，和作为紧接在预测层203之前的层的任务表示层202b。

如图1所示，测试部分102包括法语模型300、法语嵌入层301、适合任务的模型架构302、和预测层303。根据框架100的实施例，测试部分102表示利用法语模型300对未标记的法语数据D_F进行分类。

图2示出了根据一个实施例的神经模型200和300的模型架构的示例。神经模型200和300可以被配置为分层递归神经网络(RNN)400，但是应当理解，这仅是示例性的，并且架构不限于此。

如图2所示，数据集合被嵌入层401嵌入到语言单元的序列w₁₁-w_nm中。语言单元的序列w₁₁-w_nm被句子RNN 402转换为句子表示403，并且句子表示403的序列被审阅级RNN 404转换为由审阅RNN404的任务表示405。任务表示405然后被转换为预测层406，预测层406用于在输出标签407的空间上生成概率分布。输出标签407的数量等于预测任务的结果的数量。

根据一个实施例，RNN可以包括例如门控循环单元(GRU)。然而，应当理解，本公开不限于此，并且RNN也可以是长短期存储器网络(LSTM)或其他网络。

根据实施例的模型转移依赖于两个特征。首先，适合任务的架构和预测层被跨语言共享。其次，进行成功预测所需的所有信息都被包含在任务表示层中。

如图1所示，在英语模型200被转移为法语模型300的情况下，英语模型200和法语模型300之间的唯一区别是英语模型200和法语模型300的嵌入层201、301中所包括的特定于语言的嵌入，分别如嵌入的对比阴影线所示。其次，英语模型200和法语模型300的任务表示层204、304包含进行成功预测所需的所有信息。

成功的模型转移的指示是，当考虑并行数据时，法语模型和英国模型会预测同一件事。也就是说，预测的内容是无关的，但是模型转移的成功是基于法语模型和英语模型的预测的相同性。当方案是标签投影时，预测的内容可以是实际标签。可替代地，在目标是以两种语言产生相同任务表示的情况下，可以利用表示投影。与基于标签投影的监督相比，表示投影是弱监督的一种较软形式，并且是根据实施例的优选投影。

为了更好地说明根据实施例的框架，考虑任务T和标记的数据D_L＝{(x_i，y_i)|0≤i≤N}，其中x_i是英语输入，y_i是采用K个可能值的输出，使得每个x_i都用值y_i注释，而N是标记的数据D_L中包括的语言单元的数量。在不失一般性的情况下，假设输入x_i＝{e_il，...，e_il}是英语词语的序列。此外，并行数据集合D_P＝{(e_j，f_j)|0≤j≤M}，其中e_j＝{e_jl，...，e_jl}和f_j＝{f_jl，...，f_jl}分别是并行英语和法语语言单元，并且M是在并行数据D_P中包括的语言单元对的数量。

英语嵌入层201中包括的英语嵌入可以表示为使得英语词汇V_E中每个词语都有矢量英语词汇包括在输入x_i中找到的所有词语。可以将在法语嵌入层301中包括的法语嵌入表示为使得法语词汇V_F中的每个词语都有矢量

在共享模型架构的情况下，矢量和的维数d必须相同。英语序列e_j＝{e_j1,…,e_jm}到矢量序列的映射被表示为并且法语序列f_j＝{f_j1,…,f_jn}到矢量序列的映射被表示为x层模型202b被表示为带有参数θ_μ的μ，其以嵌入序列作为输入，并产生任务表示。具体来说，对于英语输入x_i，任务表示被表示为：

最后，预测层203被表示为具有参数θ_π的π，其在K个输出变量上产生概率分布：

其中π_k是该层的第k个神经元，并且简写被用于表示然后，根据一个实施例的框架优化了两个损失。

标记的损失：假设模型包含标记的英语数据D_L作为输入，则针对组合网络优化了以下损失：

其中ΔL是在和变量y_i之间定义的损失函数。例如在二进制情况下，Δ_L可能是交叉熵损失，尽管应当理解，这仅是示例性的，并且框架不限于此。

未标记的损失：模型生成的英语任务表示被用作针对法语侧的并行数据的弱监督。具体来说：

其中ΔP是在并行输入上产生的任务表示之间的损失函数。由于任务表示是矢量，因此它们之间的均方误差例如可能是适当的损失，尽管框架不限于此。

然后，最终优化由给出，其中α是控制两个损耗分量之间混合强度的超参数。

与常规框架相反，在根据实施例的框架中，对于MT没有要求，因为训练和测试数据都没有被翻译过。也不使用任意其他资源，诸如枢纽字典或双语词典。唯一的要求是并行数据和损失函数的定义。模型架构μ和标记的损失是为仅英语模型定义的属性。

利用定义明确的损失函数Δ_L和Δ_P，训练由通过网络的反向传播误差和更新模型的参数构成。

图3和图4示出了根据实施例的用于将神经模型从第一语言转移为第二语言的两种方法。详细地，图3示出了两阶段训练方法，图4示出了联合训练方法。

如图3所示，在两阶段训练中，在步骤S301中定义模型架构。由于框架是模型不可知的，因此可以如图2所示定义模型，但是应该理解，框架不限于这种方式。

在步骤S302中定义标记的损失并且在步骤S303中，通过找到在第一语言的标记数据D_L上训练第一模型200。在此上下文中，“*”表示步骤S303中针对arg max函数的优化值。

在训练了第一模型200之后，在步骤S304中冻结第一模型的嵌入U以及共享模型参数θ_μ和θ_π。

在步骤S305中定义未标记的损失并且在步骤S306中通过优化在并行数据D_P上训练未标记的损失。即，在两阶段训练的第二阶段中，仅第二模型的第二嵌入V在并行数据上被更新。

在步骤S307中，将第一模型200的嵌入层201的第一嵌入U替换为第二模型300的嵌入层301的第二嵌入V。该组合模型是更新的第二模型300。因此，更新的第二模型300包括参数V*、θ_μ、θ_π。

如图4所示，在联合训练中，在步骤S401中定义模型架构。由于框架是模型不可知的，因此可以如图2所示定义模型，但是应该理解，框架不限于这种方式。

在步骤S402中定义标记的损失并且在步骤S403中，通过找到在标记的数据D_L上训练标记的损失。

在步骤S404中定义未标记的损失并且在步骤S405中通过优化来在并行数据D_P上训练未标记的损失。L是标记的损失和未标记的损失的加权组合，并且由给出，其中α是控制两个损失分量之间混合强度的超参数。

在联合训练中，当处理并行数据D_P时，在步骤S404中更新第一模型200和第二模型300两者的参数。

在步骤S406中，将第一模型200的嵌入层201的第一嵌入U替换为第二模型300的嵌入层301的第二嵌入V。此组合模型是更新的第二模型300。因此，更新的第二模型300包括参数V*、θ*_μ、θ*_π。

示例模型转移：情感分类

为了更好地说明根据实施例的通用框架，在以下说明性示例中，将情感分类器从一种语言转移到另一种语言。

在此示例中，情感分类器预测语言工件是正面的还是负面的。根据实施例，唯一必要的步骤是定义模型架构μ和两个损失函数和

给定预测任务的二进制性质，预测层可以被给定为具有一个输出神经元的S形层，该输出神经元计算出正面标签的概率：标记的损失可能是交叉熵损失：

在并行方面，未标记的损失可能是均方误差损失：

其中d^T是任务表示R^T的维度，R^T(i)表示其第i个维度。

虽然以上示例为二进制系统定义了损失函数，但是应该理解，可以为其他系统定义其他损失函数，并且系统可以具有任意数量的可能输出。

跨语言词语关联

为了证明任务表示为弱监督，表1示出了根据一个实施例的联合模型中的若干带有情感的英语词语，以及它们最接近的法语邻居(通过在它们各自的嵌入上的矢量余弦距离)。

表1

从上表1可以看出，英语中的正面(或负面)情感术语的定义与法语中最接近的邻居正面(或负面)术语相似。尽管法语中最接近的邻居术语不一定是直接翻译，甚至不一定是同义词，但情感预测任务不需要翻译；标识出回应相同情感的词语就足够了。因此，根据实施例的用于模型转移的框架能够识别跨语言的情感相似性，而无需直接监督并且仅使用来自表示投影的弱模糊信号。

机器翻译利用

虽然框架不需要MT，但是根据一个实施例，MT可以被利用。

例如可以利用训练时翻译(TrnT)，其将训练数据从第一语言翻译成另一种语言，然后训练该语言中的情感模型。可以利用测试时间翻译(TstT)，其以第一语言训练情感模型并且使用训练后的情感模型来对在测试时间被翻译成第一语言的语言工件进行分类。

因此，根据实施例的框架尽管可能甚至没有翻译引擎，也可以可选地与翻译器结合使用。

多模态模型转移

该框架可以应用于多模式(而不是多语言)转移。即，可以在包括语言、图像、视频、音频剪辑等的不同模式之间转移模型。例如可以将情感理解转移到图像，而不需要显式的图像注释。在这样的多模式转移中，注释的数据可以包括第一语言的标记的情感数据。并行数据可以包括具有第一语言的字幕的图像。一旦在注释的并行数据上训练了框架，该框架就可以预测没有字幕的图像的情感。

图5示出了示例性计算机或处理系统的示意图，该示例性计算机或处理系统可以实现本文的本公开实施例中所描述的系统、方法和计算机程序产品中的任意一个，诸如英语神经模型200和法语神经模型300。该计算机系统仅是合适的处理系统的一个示例，并且不旨在对本文所述方法的实施例的使用范围或功能提出任意限制。所示的处理系统可以与许多其他通用或专用计算系统环境或配置一起操作。可能适合与图5中所示的处理系统一起使用的众所周知的计算系统、环境和/或配置的示例可以包括但不限于个人计算机系统、服务器计算机系统、瘦客户端、胖客户端、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机系统、大型计算机系统以及包括上述系统或设备中的任意一个的分布式云计算环境等。

计算机系统可以在由计算机系统执行的诸如程序模块的计算机系统可执行指令的一般上下文中描述。通常，程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。可以在分布式云计算环境中实践计算机系统，在分布式云计算环境中，任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中，程序模块可以位于包括存储器存储设备的本地和远程计算机系统存储介质中。

计算机系统的组件可以包括但不限于服务器500，一个或多个处理器或处理单元510以及系统存储器520。处理器510可以包括执行本文所述方法的软件模块。该模块可以被编程到处理器510的集成电路中、或者可以从存储器520或网络(未示出)加载、或其组合。

计算机系统可以包括各种计算机系统可读介质。这种介质可以是计算机系统可访问的任意可用介质，并且可以包括易失性和非易失性介质、可移除和不可移除介质。

易失性存储器可以包括随机存取存储器(RAM)和/或高速缓存存储器或其他存储器。其他可移除/不可移除、易失性/非易失性计算机系统存储介质可包括用于从可移除非易失性磁盘(例如“软盘”)读取和写入的磁盘驱动器，以及可以提供一种用于读取或写入诸如CD-ROM、DVD-ROM或其他光学介质的可移除非易失性光盘的光盘驱动器。

如本领域的技术人员将理解的，框架的各方面可以体现为系统、方法或计算机程序产品。因此，所公开技术的各方面可以采取以下形式：完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)、或组合了软件和硬件方面的实施例，其在本文中通常都可以统称为“电路”、“模块”或“系统”。此外，所公开的技术的方面可以采取计算机程序产品的形式，该计算机程序产品体现在其上体现有计算机可读程序代码的一个或多个计算机可读介质中。

可以利用一个或多个计算机可读介质的任意组合。所述计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁性、光学、电磁、红外或半导体系统、装置或设备、或前述的任意合适的组合。计算机可读存储介质的更具体的示例(非详尽列表)将包括以下各项：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、便携式光盘只读存储器(CD-ROM)、光学存储设备、磁存储设备或上述的任意合适组合。在本文的上下文中，计算机可读存储介质可以是任意有形介质，该任意有形介质可以包含或存储供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合使用的程序。

一种计算机可读信号介质可以包括例如在基带中或作为载波的一部分的传播的数据信号，该传播的数据信号具有在其中体现的计算机可读程序代码。这样的传播信号可以采取多种形式中的任意一种，包括但不限于电磁、光学或其任意合适的组合。计算机可读信号介质可以是任意计算机可读介质，该任意计算机可读介质不是计算机可读存储介质，并且可以通信、传播或传送供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合使用的程序。

可以使用任意适当的介质来发送在计算机可读介质上体现的程序代码，包括但不限于无线、有线、光缆、RF等、或者上述的任意适当的组合。

用于执行所公开技术的各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写，所述编程语言包括：面向对象的编程语言，诸如Java、Smalltalk、C++等；以及常规的过程编程语言，诸如“C”编程语言或类似的编程语言；脚本语言，诸如Perl、VBS或类似的语言；和/或功能语言，诸如Lisp和ML；以及面向逻辑的语言，诸如Prolog。程序代码可以完全在用户计算机上，部分在用户计算机上，作为独立软件包，部分在用户计算机上，部分在远程计算机上或完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接到用户计算机，或者可以与外部计算机建立连接(例如通过使用因特网服务提供商的因特网)。

参考根据实施例的方法、装置(系统)和计算机程序产品的流程图图示和/或框图描述了所公开技术的各方面。将理解的是，流程图图示和/或框图的每个框以及流程图图示和/或框图中的框的组合可以由计算机程序指令来实现。可以将这些计算机程序指令提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，从而使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图一个框或多个框中指定的功能/动作的部件。

这些计算机程序指令也可以被存储在计算机可读介质中，该计算机可读介质可以指导计算机、其他可编程数据处理设备或其他设备以特定方式运行，从而使在计算机可读介质中存储的指令产生制品，该制品包括实现流程图和/或框图一个或多个框中指定的功能/动作的指令。

计算机程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使得一系列操作步骤在计算机、其他可编程设备或其他设备上执行以产生计算机实现的过程，使得在计算机或其他可编程装置上执行的指令提供了用于实现流程图和/或框图一个或多个框中指定的功能/动作的过程。

附图中的流程图和框图示出了根据各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。就这一点而言，流程图或框图中的每个框可以表示代码的模块、段或部分，其包括用于实现指定的(多个)逻辑功能的一个或多个可执行指令。还应注意，在一些替代实现中，框中指出的功能可以不按图中指出的顺序发生。例如取决于所涉及的功能，连续示出的两个框实际上可以基本上同时执行，或者框有时可以以相反的顺序执行。还应注意，框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作的基于专用硬件的系统、或专用硬件和计算机指令的组合来实现。

计算机程序产品可以包括能够实现本文描述的方法的实现并且当被加载到计算机系统中时能够执行所述方法的所有各个特征。在本上下文中，计算机程序、软件程序、程序或软件是指以任意语言、代码或符号的指令集合的任意表达，其旨在使具有信息处理能力的系统直接或在以下任意一个或两个之后执行特定功能：(a)转换为另一种语言、代码或符号；和/或(b)以不同材料形式复制。

在此使用的术语仅出于描述特定实施例的目的，并且不旨在限制本公开。如本文所使用的，单数形式“一”、“一个”和“该”也旨在包括复数形式，除非上下文另外明确指出。将进一步理解，术语“包括”和/或“包含”在本说明书中使用时，指定存在所述特征、整数、步骤、操作、元件和/或组件，但是不排除一个或多个其他特征、整数、步骤、操作、元素、组件和/或其组的存在或添加。

以下权利要求中的所有部件或步骤加上功能元件的对应结构、材料、动作和等同物，如果有的话，旨在包括用于与如明确要求保护的其他要求保护的元件组合执行功能的任意结构、材料或动作。所公开的技术的描述已经出于说明和描述的目的被呈现，但是并不旨在是穷举的或限制性的。在不脱离本公开的范围和精神的情况下，许多修改和变型对于本领域普通技术人员将是显而易见的。实施例被选择和描述，以便于最好地解释本公开的原理和实际应用，并使本领域的其他普通技术人员能够理解本公开的各种实施例，这些实施例具有适于所设想的特定用途的各种修改。

本公开的各个方面可以体现为体现在计算机或机器可用或可读介质中的程序、软件或计算机指令，当在计算机、处理器和/或机器上执行时，所述程序、软件或计算机指令使计算机或机器执行方法的步骤。还提供了一种机器可读的程序存储设备，该程序存储设备有形地体现了该机器可执行的指令程序，以执行本公开中描述的各种功能和方法。

本公开的系统和方法可以在通用计算机或专用计算机系统上实现并运行。在本申请中可以使用的术语“计算机系统”和“计算机网络”可以包括固定和/或便携式计算机硬件、软件、外围设备和存储设备的各种组合。该计算机系统可以包括联网或以其他方式链接以协作执行的多个单独组件，或者可以包括一个或多个独立组件。本申请的计算机系统的硬件和软件组件可以包括并且可以被包括在诸如台式机、膝上型计算机和/或服务器的固定和便携式设备中。模块可以是实现某些“功能”的设备、软件、程序或系统的组件，其可以体现为软件、硬件、固件、电子电路等。

尽管已经描述了特定实施例，但是本领域技术人员将理解，存在等同于所描述的实施例的其他实施例。因此，应理解的是，本公开不受限于所示的具体实施例，而是仅由所附权利要求书的范围限制。

概念

概念1：一种用于转移跨语言神经模型的系统，包括：处理器和存储器，其中第一神经模型和第二神经模型被存储在存储器中，其中所述第一神经模型的语言或方言不同于所述第二神经模型的语言或方言；以及操作环境，使用处理器执行命令，以基于标记的损失函数在注释的数据上训练第一神经模型，以定义和更新第一神经模型的多个层中的每层的参数；并且基于未标记的损失函数在第一语言或方言与第二语言或方言之间的并行数据上训练第一神经模型和第二神经模型，以更新第一神经模型的多个层中的每层，并且定义和更新第二神经模型的多个层中的每层的参数，其中除了第一神经模型的最低层之外的所有层都被复制到第二神经模型。

概念2.根据任意(多个)先前或之后的概念的系统，其中所述第一神经模型包括：第一嵌入层，第一嵌入层将所述第一语言或方言的语言单元转换为矢量表示；第一任务适合的模型架构，具有包括一个或多个层的预定的网络配置；以及第一预测层，其中所述第一任务适当模型架构中包括的所述层中的一层是第一任务表示层，以及其中所述第一任务表示层紧接在所述第一预测层之前

概念3.根据任意(多个)先前或之后概念的系统，其中第二神经模型包括：第二嵌入层，将所述第二语言或方言的语言单元转换为矢量表示；第二任务适合的模型架构，具有包括一个或多个层的预定的网络配置；以及第二预测层。

概念4.根据任意(多个)先前或之后概念的系统，其中任务适合的模型架构的任务包括以下中的一项：情感分类、样式分类、意图理解、消息路由、持续时间预测或结构化内容识别。

概念5.根据任意(多个)先前或之后概念的系统，其中所述第二神经模型在没有所述第二语言或方言的注释的数据的情况下被训练。

概念6.根据任意(多个)先前或之后概念的系统，其中所述第二神经模型在没有翻译系统、词典或枢纽字典的情况下被训练。

概念7.根据任意(多个)先前或之后概念的系统，其中训练资源包括所述第一语言或方言的注释的数据以及所述第一语言或方言和第二语言或方言两者中的未注释的并行数据。

概念8.一种用于跨语言神经模型转移的计算机实现的方法，包括：将第一语言的注释的数据供应给第一语言的第一神经模型；基于标记的损失函数在注释的数据上训练所述第一语言的所述第一神经模型，以定义和更新所述第一语言的所述第一神经模型的参数；将所述第一语言和所述第二语言之间的未注释的并行数据供应给所述第一语言的所述第一神经模型和第二语言的第二神经模型；在所述并行数据上训练所述第一语言的所述第一神经模型和所述第二语言的所述第二神经模型，以更新所述第一语言的所述第一神经模型的所述参数，并且定义和更新所述第二语言的所述第二神经模型的参数；以及将所述第一语言的所述第一神经模型的所述参数的一部分合并到所述第二语言的所述第二神经模型。

概念9.根据任意(多个)先前或之后概念的系统，其中神经模型的任务包括以下中的一项：情感分类、样式分类、意图理解、消息路由、持续时间预测或结构化内容识别。

概念10.根据任意(多个)先前或之后概念的系统，其中所述第二语言的所述第二神经模型在没有所述第二语言的注释的数据、翻译系统、词典和枢纽字典的情况下被训练。

概念11.根据任意(多个)先前或之后概念的系统，其中训练资源包括所述第一语言的注释的数据和所述第一语言和所述第二语言两者中的未注释的并行数据。

概念12.根据任意(多个)先前或之后概念的系统，其中在所述注释的数据上训练所述第一语言的所述第一神经模型以定义和更新所述第一神经模型的参数包括优化所述第一语言的所述第一神经模型的所述标记的损失函数。

概念13.根据任意(多个)先前或之后概念的系统，其中在所述并行数据上训练所述第一语言的所述第一神经模型和所述第二语言的所述第二神经模型以更新所述第一语言的所述第一神经模型的参数，并且定义和更新所述第二语言的所述第二神经模型的参数包括：优化由所述第一语言的所述第一神经模型和所述第二语言的所述第二神经模型在所述并行数据上产生的任务表示之间的损失函数。

概念14：一种用于跨语言神经模型转移的计算机实现的方法，包括：将第一语言的注释的数据供应给第一语言的第一神经模型，基于标记的损失函数在所述注释的数据上训练所述第一语言的所述第一神经模型来定义和更新所述第一语言的所述第一神经模型的参数；冻结所述第一语言的所述第一神经模型的所述参数；将所述第一语言和所述第二语言之间的未注释的并行数据供应给所述第一语言的所述第一神经模型和所述第二语言的所述第二神经模型；在所述未注释的并行数据上训练所述第二语言的所述第二神经模型，以定义和更新所述第二语言的所述第二神经模型的参数；以及将所述第一语言的所述第一神经模型的所述参数的一部分合并到所述第二语言的所述第二神经模型。

概念15.根据任意(多个)先前或之后概念的系统，其中神经模型的任务包括以下中的一项：情感分类、样式分类、意图理解、消息路由、持续时间预测或结构化内容识别。

概念16.根据任意(多个)先前或之后概念的系统，其中第二语言的第二神经模型在没有第二语言的注释的数据的情况下被训练。

概念17.根据任意(多个)先前或之后概念的系统，其中第二语言的所述第二神经模型在没有翻译系统、词典或枢纽字典的情况下被训练。

概念18.根据任意(多个)先前或之后概念的系统，其中训练资源包括第一语言的注释的数据和第一语言和第二语言两者中未注释的并行数据。

概念19.根据任意(多个)先前或之后概念的系统，其中在注释的数据上训练第一语言的第一神经模型以定义和更新第一语言的第一神经模型的参数包括：优化第一语言的第一神经模型的标记的损失函数。

概念20.根据任意(多个)先前或之后概念的系统，其中在未注释的并行数据上训练第二语言的第二神经模型以定义和更新第二语言的第二神经模型的参数包括：优化任务表示之间的未标记损失函数，所述任务表示是由第一语言的第一神经模型和第二语言的第二神经模型在未注释的并行数据上产生的。

21页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：用于提供跨多个电器的便携式自然语言处理接口的系统和方法

利用作为弱监督的神经任务表示的模型不可知跨语言转移中的计算需求的最小化

相关技术

网友询问留言