可控的基于风格的文本转换

文档序号：1087374 发布日期：2020-10-20 浏览：3次 >En<

阅读说明：本技术 可控的基于风格的文本转换 (Controllable style-based text conversion ) 是由 A·米什拉 P·贾因 A·P·阿扎德 K·桑卡拉纳拉亚南于 2020-03-25 设计创作，主要内容包括：本文提供了用于多风格文本转换的方法、系统和计算机程序产品。计算机实现的方法包括获得输入文本和选择用于转换输入文本的一组风格规范。该组风格规范包括从多个书写风格领域中选择的一个或多个目标书写风格领域、针对目标书写风格领域中的每个目标书写风格领域的权重和用于输入文本的转换的一组语言学方面中的每个语言学方面的权重。针对目标书写风格领域的权重表示目标书写风格领域对输入文本的转换的相对影响。该计算机实现的方法还包括利用无监督神经网络至少部分地基于该组风格规范生成一个或多个经风格转换的输出文本。(Methods, systems, and computer program products for multi-style text conversion are provided herein. A computer-implemented method includes obtaining input text and selecting a set of style specifications for converting the input text. The set of style specifications includes one or more target writing style fields selected from a plurality of writing style fields, a weight for each target writing style field in the target writing style fields, and a weight for each linguistic aspect in a set of linguistic aspects of a conversion of the input text. The weights for the target writing style field represent the relative impact of the target writing style field on the conversion of the input text. The computer-implemented method also includes generating, with the unsupervised neural network, one or more style-converted output texts based at least in part on the set of style specifications.)

可控的基于风格的文本转换

技术领域

本发明涉及信息技术，并且更特别地，涉及文本转换。

背景技术

自然语言生成技术被用于多种应用领域(包括翻译器、概述器和对话生成器)。自动对话系统或会话系统例如可用来创建具有不同对话流的各种工作区，以用于实现用于客户支持、用户交互等的聊天机器人。聊天机器人是能够经由听觉和/或文本处理执行会话通信的计算机程序或其它软件。自然语言生成技术可被用来生成此类会话通信的部分。

发明内容

本发明的实施例提供可控的基于风格的文本转换的技术。

在一个实施例中，计算机实现的方法包括以下步骤：获得输入文本；选择用于转换输入文本的一组风格规范，该组风格规范包括：从多个书写风格领域中选择的一个或多个目标书写风格领域；针对目标书写风格领域中的每个目标书写风格领域的权重，该权重表示目标书写风格领域对输入文本的转换的相对影响；以及用于输入文本的转换的一组语言学方面中的每个语言学方面的权重；以及利用无监督神经网络，至少部分地基于该组风格规范来生成一个或多个经风格转换的输出文本。该步骤由至少一个处理设备来执行。

在另一个实施例中，计算机实现的方法包括以下步骤：接收将要根据控制向量中指定的一组风格控制参数来进行风格转换的输入文本片段；将输入文本片段传递到包括多个门控循环(gated recurrent)单元的无监督神经网络；利用提供编码器的被布置成叠层的该多个门控循环单元中的第一子集来确定输入文本片段的隐藏表示；以及利用提供解码器的该多个门控循环单元中的第二子集来生成经风格转换的输出文本片段，解码器利用非线性函数生成经风格转换的输出文本片段中的每个词，该非线性函数基于(i)经风格转换的输出文本片段的先前生成的词的嵌入、(ii)控制向量、(iii)通过关注输入文本片段的隐藏表示所获得的向量、以及(iv)无监督神经网络的解码器的隐藏状态，输出经风格转换的输出文本片段中的给定词的概率分布。该步骤由至少一个处理设备来执行。

本发明的另一实施例或其元素可以以有形地包含计算机可读指令的制品的形式来实现，该指令在实现时使计算机执行如本文所描述的多个方法步骤。此外，本发明的另一实施例或其元素可以以装置的形式实现，该装置包括存储器和至少一个处理器，该处理器耦接至存储器并配置为执行提出的方法步骤。更进一步地，本发明的另一实施例或其元素可以以执行本文描述的方法步骤或其元素的装置的形式来实现；该装置可包括硬件模块或硬件和软件模块的组合，其中软件模块存储在有形计算机可读存储介质(或多个此类介质)中。

本发明的这些及其它目标、特征和益处将从其以下说明性实施例的详细说明中变得显而易见，该实施例应与附图相结合来阅读。

附图说明

图1示出了根据本发明的示例性实施例的可调多风格文本转换系统。

图2示出了根据本发明的示例性实施例的利用图1系统的文本转换的示例。

图3示出了根据本发明的示例性实施例的另一可调多格式文本转换系统。

图4示出了根据本发明的示例性实施例的用于可控的基于风格的文本转换的处理。

图5示出了根据本发明的示例性实施例的另一用于可控的基于风格的文本转换的处理。

图6示出了根据本发明的示例性实施例的计算机系统，根据该计算机系统可实现本发明的技术的一个或多个组件/步骤。

图7示出了根据本发明的示例性实施例的云计算环境。

图8示出了根据本发明的示例性实施例的抽象模型层。

具体实施方式

本发明的说明性实施例可在本文中针对可控的基于风格的文本转换的说明性方法、系统和设备的上下文中描述。然而，应理解，本发明的实施例不限于这些说明性方法、系统和设备，而是更广泛地适用于其它适当的方法、系统和设备。

在各种应用场景中，希望转换文本。例如，文本转换是自然语言生成(NLG)领域中重要的问题。可使用文本转换系统，例如翻译器、概述器、对话生成器等。然而，需要用于在“风格”领域中执行文本转换的技术，在该领域中希望按照某组定义的输入风格规范来生成给定输入文本的风格变化。

说明性实施例使得能够根据多个可调风格规范将一条文本转换为其风格变体，其中，每个风格规范或要求可被模糊定义(例如，目标文本应在用户指定的某一级别或程度上遵循特定领域的特定于领域的独特风格)或清楚定义(例如，目标文本应呈现出与如用户指定的语言学方面(例如情感强度、正式性、语气等)相关的某些语言学特性)。

例如，考虑以下场景。用户希望将一条文本转换成使得被转换的文本关注输入的特定方面并且从多个领域(例如广告领域和法律领域)借用独特的书写风格。进一步地，与法律领域相比，用户想要来自广告领域的更强影响。用户打开界面，这里用户输入或者以其它方式提供将要转换的文本片段。用户还利用界面选择将影响目标文本的风格的一组N个领域。因为向用户发送弹窗或其它通知或要求，以提供特定的N个领域中的每个领域的风格对目标文本的影响的期望程度，界面可以是交互式的。界面后续可经由附加的输入字段询问用户，以允许用户提供有关目标文本的语气、正式性、强度等的一般特定于语言的控制。系统接收这些各种输入并生成输入文本片段的风格变体。

传统技术未能提供这种多风格文本转换。例如，输入文本可经过多个文本生成器，其中根据输出词概率使用随机采样(例如，80％来自第一风格的第一文本生成器，20％来自第二风格的第二文本生成器)。在此情况下，采样是随机的，并且如此可能以降低流畅度和适当性的方式将来自每个文本生成器的词融合。进一步地，不能保证输出将符合任何提供的特定于风格的控制。

图1示出了能够进行可控的风格文本转换的系统100。在一些实施例中，系统100使用无监督神经网络，并且适合于针对不同的风格要求或规范的各种参数的增加和移除。系统100包括文本输入模块102，在该模块中用户能够打字或以其它方式输入或提供将要转换风格的输入文本片段。系统100还包括领域选择模块104，在该模块中用户能够选择输出文本的各种领域。基于所选择的目标领域，系统100使用允许用户对所选择的目标书写风格领域中的不同领域适当地进行加权的交互界面来利用基于领域的风格确定模块106以获得基于领域的独特书写风格(例如，其可被模糊定义)。系统100同样使用允许用户对不同语言学方面适当地进行加权的交互界面来利用语言学方面确定模块108以获得目标文本的语言学方面(例如，其可被清楚定义)。将输入文本片段与针对基于领域的独特书写风格和语言学方面的权重一起输入到文本转换模块110，该文本转换模块110经由文本输出模块112生成经转换的文本输出。

现在将描述图1系统的使用示例。考虑已经创建有文本编辑器“编辑器1”并且想免费发行该编辑器以用于非商业用途的软件开发者。软件开发者已经编写文本编辑器的基本产品描述：“编辑器1是免费文字编辑器。它支持基于RegEx的搜索。将编辑器1与编辑器2整合是容易的。”然而，软件开发者可认为这种描述太普通，以至于不能使人们使用该新的文本编辑器。软件开发者因此提供文本编辑器的基本产品描述作为输入文本片段202(例如，被提供为系统100的文本输入模块102的输入)。输入文本剪切器202与目标书写风格领域204的选择(例如，被提供为经由系统100的领域选择模块104的输入)一起，所生成的文本应根据该选择处理风格特色。在此示例中，目标书写风格领域204包括“默认”领域、“学术”或“技术”领域、“广告”领域、和“法律”领域。应理解，仅通过示例来介绍这些领域，可选择各种其它领域，包括但不限于电子商业、卫生保健、旅游等。软件开发者通过调节针对每个目标书写风格领域204的滑动条来利用交互界面206(例如，通过系统100的基于领域的风格确定模块106提供)以如所示的控制目标书写风格领域204的相对影响。软件开发者通过调节针对不同的语言学方面的滑动条来进一步利用交互界面208(例如，通过系统100的语言学方面确定模块108提供)以如所示的控制所生成的文本的措词的情感强度和语气或正式性。

向文本转换模块210(例如，系统100的文本转换模块110)提供各种信息，该文本转换模块210提供输出文本212“是否希望使用具有基于RegEx的搜索能力的文本编辑器？立即尝试出色的编辑器1。根据GNU-GPL许可，对于非商业用途是完全免费的。”应理解，所生成的输出文本212将根据所选择的目标领域204、基于领域的独特书写风格规范206和语言学方面规范208变化。例如，如果“法律”领域不是目标领域204的一部分，则所生成的输出文本212可能是“是否希望使用具有RegEx搜索能力的文本编辑器？免费尝试出色的编辑器1。”然而，软件开发者可能担心此产品说明会引导其他用户认为该新的文本编辑器在商业设置中***并且法律方面不清楚。通过如经由基于领域的独特风格规范206指定的以相对低的影响将“法律”领域添加到目标领域204，所生成的输出文本212如图2所示，该输出文本212包括有关根据GNU-GPL许可并且指示文本编辑器对于非商业用途免费的附加语言。

在一些实施例中，提供例如系统100的系统，其被配置为根据多个可调风格规范将一条文本转换为其风格变体。该可调风格规范可被模糊定义，例如在特定于领域的独特书写风格的情况下，其中目标或输出文本应按照用户在运行时指定的特定比例遵循该特定于领域的独特书写风格。该可调风格规范还可被清楚地定义，例如在清楚地定义语言学方面的情况下，其中目标或输出文本应根据用户在运行时指定的语言学方面参数来进行风格处理。例如在各个风格规范的比例作为实数输入提供的情况下(例如，参见图2的元素206和208)，风格规范或要求是可调的。

一些实施例中的系统将以下作为输入：(i)文本片段；(ii)来自具有D个领域的一整组的一组N个领域；(iii)选项的领域的N^s个风格强度；和(iv)语言学方面的L个参数。此输入用来生成输出文本，输出文本是(i)输入文本片段的经风格转换的版本而且符合风格规范(ii)-(iv)。一些实施例的系统的特征可在于以下能力：通过考虑每个代表领域D的大规模未标记语料库以及针对L个语言学方面参数中的每个语言学方面参数通过依靠可测量该语言学方面参数的自然语言处理(NLP)工具，学习在无监督设置下以用户指定的适合比例针对每个领域执行风格转换。一些实施例中的系统的特征也在于普遍性，因为只要特定于领域的未标记语料库和NLP工具是可用的，系统可以针对任何有限组的书写风格领域和语言学参数来训练。

对于D个不同的领域和L个不同的语言学参数，一些实施例中的系统利用D个特定于领域的未标记语料库(例如，被认为包含针对D个领域的独特的特定于领域的书写风格)和L个NLP工具。可将系统视为包括四个主要组件：共享的编码器和解码器、领域独特风格强度记分器(domain unique-style strength scorer)、语言方面记分器和领域分类器。现在参考图3描述这些组件的示例，图3显示了生成风格文本转换的系统的工作流程。

在训练阶段或期间，图3系统利用语料库301和NLP工具训练领域独特风格强度记分器模块306、语言方面记分器综合模块310和领域分类器模块312。用具体的语料库来训练共享的编码器模块314、解码器316-1、316-2、……316-D(统称为解码器316)和共享的解码器模块318，并且通过使获得输出文本片段319的流畅度、转换的适当性和语义相关性相对于输入文本片段313和风格规范的复合损失最小化来训练整个网络。在测试阶段或期间，利用领域分类器模块312实时地确定输入文本的领域，并且基于输入文本的领域来选择解码器316中的一个适当的解码器316。使用共享的编码器模块314对输入文本进行编码，使编码的信息与输入风格参数一起通过所选择的解码器316并且直到共享的解码器模块318，该共享的解码器模块318生成经转换的输出(例如，输出文本片段319)。

现在将描述用于准备领域独特风格强度记分器模块306、语言方面记分器综合模块310和领域分类器模块312的技术。领域独特风格强度记分器模块306将文本作为输入并且提供得分列表，每个得分表示文本以何种程度遵循领域的风格。在一些实施例中，领域独特风格强度记分器模块306利用神经回归器(regressor)。对于训练领域独特风格强度记分器模块306，利用从输入语料库301输出领域强度(DS)标记的语料库303的基于DS的标记模块302来针对每个语句准备标记的独热(one-hot)列表(例如，如果语句属于某一领域，则对应得分是1，否则得分是0)。基于相关网络的训练模块304得到DS标记的语料库303并且为领域独特风格强度记分器模块306提供训练。

语言方面记分器综合模块310将文本作为输入，并且计算与一组语言或语言学方面中的每个相对应的得分。语言方面记分器综合模块310可利用多个回归器或分类器(例如，取决于输出的性质)，每个回归器或分类器负责测量某一语言方面。在一些实施例中，使用例如支持向量回归(Support Vector Regressions)的技术，在受监督的设置下训练语言方面记分器综合模块310的回归器或分类器，对于该技术，通过用NLP模块308提供的NLP工具来处理多个输入语料库301，生成标记数据。例如，如果用户希望测量两个语言学方面(例如，情感强度和正式性)，则可使用来自NLP工具库的相应NLP工具来生成具有语言方面强度标记语料库309形式的标记数据，该数据被提供给语言方面记分器综合模块310以用于训练。

领域分类器模块312将文本作为输入，并且确定文本所属的领域。对于训练，领域分类器模块312将不同的领域的输入语料库301与其相关联的领域标记一起使用。通过领域分类器模块312可利用各种分类技术，包括无监督的机器学习技术。

如下配置核心编码器和解码器(例如，共享的编码器模块314、解码器316和共享的解码器模块318)。对于D个领域，核心编码器和解码器应具有D个输入文本片段313、共享的编码器模块314、D个解码器316和共享的解码器模块318。共享的编码器模块314的输入是输入文本片段313 C₁、C₂、……C_D。共享的编码器模块将这些片段编码为相应的嵌入，这些嵌入被提供给适当的解码器316。解码器316能够采用所示的附加输入，这些输入对应于被称为

的特定于领域的(“动态”或“dyn”)规范和被称为的语言方面(“静态”或“stat”)规范。在一些实施例中，共享的编码器模块314、解码器316和共享的解码器模块318利用循环的神经单元。

为了训练核心编码器和解码器，利用迭代过程，其中每次考虑来自一个特定于领域的语料库的一个输入文本片段。在每个步骤中，选择来自一个语料库的文本片段C_i。在以下描述中，假定选择了来自领域1的文本片段C₁。将默认动态规范

设置为1，将其余的(其中i≠1)设置为0。使用NLP模块308计算片段的默认语言或语言学方面，并且将其余的

(其中i≠1)设置为0向量。C₁通过共享的编码器模块314进行编码并通过D个解码器316，D个解码器316同样接收

和

作为输入。使解码器316的输出通过共享的解码器模块318，该共享的解码器模块318将不同的解码器输出进行组合以生成输出文本片段GC₁。使输出GC₁通过领域独特风格强度记分器模块306和语言方面记分器综合模块310，其针对所有领域和所有语言方面分别生成

和

的得分向量321。

使用一组损失323、325和327实现对转换的学***方损失。为了最佳化和有效性(validation)，可使用标准神经设置。

为了测试核心编码器和解码器，输入文本C被预处理(例如，规范化)并经过领域分类器模块312，以检测输入文本的默认领域。对于用户指定的每个领域，启动相应解码器316，并停用其它解码器(例如，它们接收零值输入)。将输入文本C与领域强度和语言方面值一起适当地输入系统，并返回输出GC。

图3系统利用针对所涉及的每个领域的特定于领域的语料库301。核心编码器和解码器(例如，共享的编码器模块314、解码器316和共享的解码器模块318)被假设为利用深度学***台(例如，Tensorflow、Pytorch、keras、caffe等)或其它类型的深度学***台来实现。对于每个可调语言方面参数，假定NLP模块308包括用于测量该参数的NLP工具(例如，分类器、回归器、量度计算系统等)。进一步地，图3系统的各个方面假定NLP框架对于文本规范化、词语切分、学习嵌入、语义相关性测量等的可用性和用途。

为了扩展图3系统以添加或去除领域或语言方面参数，使用下列技术。为了添加新的领域独特风格，应获得针对该领域的相关联的特定于领域的语料库。应将用于新添加领域的单独的解码器316附加到系统，并重新训练该系统。为了添加新的语言方面参数，获得用于测量该参数的相应NLP框架，并且该系统用现有数据集再次进行训练。对于移除领域或语言方面参数，将相应的组件从图3系统中移除，并再次训练不是必须的，但是可依照期望执行。

本文描述的用于多风格文本转换的系统可用于多种应用领域，包括各种NLG系统，例如智能对话系统、劝说NLG系统、加强服务，及其它类型的NLG相关服务，包括自动规范、人工创建器、自动内容编写器等。

在一些实施例中，提供用于可控自然语言转换的框架。意识到对平行语料库的要求对于可控的生成任务事实上是不能持续的，在一些实施例中引入了无监督的训练方案。该框架利用深度神经编码器-解码器，该编码器-解码器通过辅助模块用文本转换知识来加强，该辅助模块在本文中也被称为记分器。基于NLP工具，记分器基于其动作确定编码器-解码器的学习方案。该框架可应用于各种文本转换任务，其中在运行时可由用户控制基于风格的转换的类型和程度。

自动文本风格转换是文本到文本NLG的关键目标。针对这种文本到文本转换的常规方式往往受到监督，利用统计学机器翻译模型，或者是基于模板和规则的。受监督的NLG要求大规模平行语料库以用于训练，这是拓展到多种用例的主要障碍。例如，在单独的自动对话系统的上下文中，存在如下多个场景，其中，系统答复(其可能来自数据库)需要针对其语气(例如，礼貌、兴奋等)、正式性级别(例如，基于用户个性的非正式、正式等)或复杂性(例如，诸如在法律或者医学领域中简化语言学或特定于领域的术语)进行转换。随着这种要求和用例继续增长，获得针对这种文本转换任务的大规模平行语料库事实上是不能持续的。

从科学的视角来看，所有这种使用多个平行语料库的受监督处理试图针对每个任务同时学习语言转换(例如，以保持语义)和风格转换二者。关于此进行了很多观察。首先，由于保持语言语义对于转换是必需的，而仅文本的属性或风格需要改变，因此将这两个方面断开联系应该是可能的。第二，与用其输出示例来指定每个输入文本的所要求的转换相比，在输出阶段(例如，用NLP技术)独立地检验这些方面在计算上是更节省的。第三，应该可控制输出所要求的预期属性(例如，可读性等级、礼貌等级等)的程度或幅度。在开发基于风格的文本转换的无监督方式时，考虑这些观察。

在一些实施例中，该框架仅依赖于用于与NLP模块的整体一起进行初始化的未标记文本。本文所描述的框架可用于用户选择的控制的各种风格转换任务子集。例如，再次参考图2，用户选择的控制或风格规范可包括不同目标书写风格领域属性(例如，学术、广告、法律)，其具有它们的相应等级，强度或其它权重(例如，在如上所述图2的元素206中0到1的规范化比例中)。有利地，本文所描述的框架能够用模糊定义的目标书写风格领域特征(可能与清楚定义的语言学方面相组合)执行基于风格的文本转换。作为语言学风格转换的一个示例，考虑输入文本的“正式化”的任务，其与多个NLG应用程序有关，诸如在顺应和调整领域的正式会话生成、电子邮件应答组成、摘要文档生成等。此外，这种用于文本正式化的系统可以以与辅助人工翻译者的计算机辅助翻译(CAT)系统类似的方式辅助专业作者，从而为内容创造的成本有效和时间有效的解决方案铺平道路。

在一些实施例中，使用利用未标记文本预先训练的编码器-解码器模块来建立框架。(例如，对于基于领域的独特风格和语言学方面)解码器可额外地将特定于用户的控制参数作为输入。通过使用辅助模块或记分器获得期望转换的知识，这基于编码器-解码器的动作决定该编码器-解码器的学习方案。该得分可基于生成得分的NLP工具，得分指示例如所生成的文本多正式、所生成的文本是否流畅、以及所生成的文本是否具有与输入类似的语义、所生成的文本是否对应所选择的目标书写风格领域等。框架可在多个迭代中进行训练，其中每个迭代包括探索(exploration)和利用(exploitation)两个阶段。在探索阶段，解码器随机地对用于给定输入的候选文本进行采样并且借助于记分器自动地生成用于可控生成的训练数据。在利用阶段，编码器-解码器用如此生成的示例来进行再训练。

由于以下事实无监督NLG是有挑战性的：(i)输出空间更复杂和结构化，使得无监督学习更困难；(ii)在没有参考输出文本的情况下用于评价NLG系统的量度不易捉摸。在一些系统中，可使用用于采用无监督的基于自动编码器的辞典归纳技术的无监督语言翻译的体系结构。这种方式主要集中于跨语言转换，并且需要来自不同的语言的多个未标记语料库。因而，这些方式对于单个语言内的可控文本转换目标很难扩展，并且进一步地在语言翻译中没有基于风格的控制的概念。用于可控生成的技术可利用或考虑控制参数，如情感、时态等，并生成符合控制的随机语句。然而，这些系统不转换给定输入文本，而仅仅是基于用户提供的控制随机地对文本进行采样。

在其它方式中，使变分自编码器(VAE)与成果预测模块共同地训练，以校正输入，使得输出具有更高的期望结果。然而，VAE/成果预测系统可能不能保持输入和输出之间语义的相关性，而相关性对于许多文本转换任务是必需的。更进一步地，VAE/成果预测系统不考虑外部控制参数。其它方式可基于：基于情感和属性的无监督风格变换、通过使用翻译语料库的反向翻译的半监督变换、使用语言学特征的正式-非正式文本分类、使用编码器-解码器模型的礼貌会话生成等。然而，这些方式不执行可控的文本转换。类似地，用于正式文本生成和释义生成的生成框架是基于模板的或者受监督的，并且不是可控的。合并了基于NLP的记分器的语言生成系统是无监督的，但是在训练时遭遇收敛问题。

在一些实施例使用的框架被设计成接收文本输入(例如，语句)以及一组控制参数(例如，模糊定义的基于领域的独特风格参数和清楚定义的语言学方面参数)。

图3的核心编码器和解码器可利用包括预先训练以及探索与利用的多个迭代的框架和学习方案。如图3所示，每个解码器316包括控制输入(对于目标书写风格领域)和

(对于语言学方面)。控制输入可经过嵌入层。

图3的核心编码器和解码器可被预先训练，使得在探索的第一迭代中共享的解码器模块318生成与输入C相同的输出GC。由于采样的语句被认为具有更好的得分(或它们不会被选中)，所以探索的第一迭代保证合成的数据GC的输出不同于输入C并且具有比输入C更好的累积得分(例如，得分向量GV_dyn和GV_stat)。在利用期间，共享的编码器模块314、解码器316和共享的解码器模块318使用探索期间生成的数据进行训练。

共享的编码模块314、解码器316和共享的解码器模块318可在分类设置中进行训练，其中将成批的标记数据馈入多个迭代中并且使各种损失(例如L₁、L₂、L₃和L₄)最小化。

图4描绘了用于可控的基于风格的文本转换的处理流程400。处理流程400从步骤402开始，获得将要转换的输入文本。在步骤404中，选择用于转换在步骤402中获得的输入文本的一组风格规范。该组风格规范包括：从多个书写风格领域中选择的一个或多个目标书写风格领域；针对每个目标书写风格领域的权重，该权重表示目标书写风格领域对于输入文本的转换的相对影响；以及用于输入文本的转换的一组语言学方面中的每个语言学方面的权重。该多个书写风格领域可包括默认领域、学术领域、技术领域、广告领域、法律领域、医学领域等。该组语言学方面可包括正式性、情感强度、语气等。

在一些实施例中，步骤404包括提供与所选择的目标书写风格领域对经风格转换的输出文本的期望相对影响成比例的实数输入作为所选择的目标书写风格领域的权重。步骤404还可包括提供与语言学方面对经风格转换的输出文本的期望影响相对应的实数输入作为该组语言学方面中的每一个语言学方面的权重。

处理流程400继续步骤406，利用无监督神经网络，至少部分地基于该组风格规范生成一个或多个经风格转换的输出文本。无监督神经网络可包含包括多个GRU的深度学习网络。

在一些实施例中，步骤406包括：生成用于输入文本的嵌入，利用多个解码器的子集中的每个解码器生成特定于领域的经风格转换的输出文本，该多个解码器的该子集与所选择的目标书写风格领域相关联并且被提供了用于输入文本的嵌入、所选择的目标书写风格领域的权重、和该组语言学方面的权重；生成经风格转换的输出文本中的给定的经风格转换的输出文本作为来自该多个解码器的该子集中的每个解码器的特定于领域的经风格转换的输出文本的组合。

处理流程400可更进一步包括训练无监督神经网络。训练无监督神经网络可包括：生成用于来自多个领域中的给定领域的给定训练文本的嵌入；利用与该多个书写风格领域相关联的多个解码器生成特定于领域的经风格转换的训练输出文本，解码器中的给定解码器对应于被提供了用于一组训练书写风格领域和该组语言学方面的一组训练权重的给定领域，解码器中的其它解码器对应于该多个领域中被提供了用于训练书写风格领域和该组语言学方面的零值权重的其它领域；以及生成给定的经风格转换的训练输出文本作为来自该多个解码器的特定于领域的经风格转换的训练输出文本的组合。

训练无监督神经网络可进一步包括：确定给定的经风格转换的训练输出文本的领域风格得分向量，该领域风格得分向量包括得分列表，其中每个得分表示该给定的经风格转换的训练输出文本以何种程度遵循一组训练书写风格领域中的一个训练书写风格领域的风格；以及确定该给定的经风格转换的输出文本的语言学方面得分向量，该语言学方面得分向量包括与该组语言学方面中的每个语言学方面对应的得分，该得分使用针对该语言学方面训练的自然语言处理工具来计算。训练无监督神经网络可进一步包括：计算多个损失量度和最小化这种损失量度。损失量度可包括：指示(i)该组训练书写风格领域的训练权重与(ii)领域风格得分向量中的得分之间的差距的第一控制损失；指示(i)该组语言学方面的训练权重与(ii)语言学方面得分向量中的得分之间的差距的第二控制损失；通过比较训练输入文本的流畅度与该给定的经风格转换的训练输出文本的流畅度计算的重建损失；以及通过该多个解码器执行对该给定的经风格转换的训练输出文本的反向翻译计算的反向翻译损失。

图5描述了用于可控的基于风格的文本转换的处理流程500。处理流程500从步骤502开始，接收将要根据控制向量中指定的一组风格控制参数来进行风格转换的输入文本片段。在步骤504中，将输入文本片段传递到包括多个GRU的无监督神经网络。在步骤506中利用提供编码器的被布置成叠层的该多个GRU中的第一子集来确定输入文本片段的隐藏表示。在步骤508中利用提供解码器的该多个GRU中的第二子集来生成经风格转换的输出文本片段。解码器利用非线性函数生成经风格转换的输出文本片段中的每个词，该非线性函数基于(i)经风格转换的输出文本片段的先前生成的词的嵌入、(ii)控制向量、(iii)通过关注输入文本片段的隐藏表示所获得的向量、以及(iv)无监督神经网络的解码器的隐藏状态，输出经风格转换的输出文本片段中的给定词的概率分布。

处理流程500可进一步包括通过利用多个训练输入文本片段重复步骤504、506和508来训练无监督神经网络。对于与训练输入文本片段中的给定训练输入文本片段对应的每个所生成的经风格转换的输出文本片段，训练可包括：产生所生成的经风格转换的输出文本片段的一组变体；至少部分地基于该给定的训练输入文本片段的语义相关性、如使用指定语言模型测量的所生成的经风格转换的输出文本片段的给定变体的流畅度、以及所生成的经风格转换的输出文本片段的给定变体的可读性等级得分，选择所生成的经风格转换的输出文本片段的变体中的给定变体；以及确定与所生成的经风格转换的输出文本片段的给定变体相关联的一组风格控制参数。利用所生成的经风格转换的输出文本片段的给定变体和它的相关联的一组风格控制参数作为标记训练数据来训练无监督神经网络的编码器和解码器。

步骤502中接收的输入可包括诸如通过嵌入查找操作以嵌入形式编码的文本。可使用长短期记忆(LSTM)单元将在训练过程中的嵌入进一步编码为深度表示。总体上，这提供了共享的编码器(例如，图3中的共享的编码器模块316)。对于考虑的每个领域(例如，目标书写风格领域)，存在可能同样通过LSTM单元构建的解码器(例如，图3的解码器316中的一个解码器)。此类LSTM单元可被布置在双向网络中。解码器将编码的深度表示作为输入，以及控制向量或其一部分。例如，控制向量可具有一组动态(例如，特定于目标书写风格领域的)和静态(例如，特定于语言或语言学方面的)控制值。将来自多个目标书写风格领域的所有此类解码器的输出进行组合并且发送给可能同样由LSTM单元构建的共享的解码器(例如，图3中的共享的解码器模块318)。共享的解码器然后预测输出的语句。使用解码器输出，可计算不同的得分。这些得分可以是表示输出的各个方面的实数，包括(i)输出有多流畅或语法上正确，(ii)输出有多合适或与输入有多相关，和(iii)输出以何种程度符合作为输入给出的控制向量(例如，动态和静态控制值)。得分的倒数可被认为是损失。对于得分的计算，可使用语言或语言学方面记分器(例如，图3中的语言方面记分器综合模块310)和领域强度记分器(例如，图3中的领域独特风格强度记分器模块306)。

在训练过程中，目标是最小化损失。在测试或实时使用期间，将输入文本馈入共享的编码器并通过共享的编码器编码。将控制向量(例如，包括动态和静态控制值)和来自共享的编码器的编码输出提供给解码器，其输出被串接并经过共享的解码器。由共享的解码器预测的输出文本是具有由控制向量中的控制值指定的期望特性的语句或其它文本片段。

本发明的实施例包括处于任何可能的技术细节集成等级的系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明各方面的计算机可读程序指令的一个计算机可读存储介质(或多个计算机可读存储介质)。

计算机可读存储介质可以是可保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备，或前述设备的任何适当的组合。计算机可读存储介质的更具体示例的非穷举列表包括下列：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、诸如在其上存储有指令的打孔卡或凹槽内凸起结构，以及前述设备的任何的适当组合。本文所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或其它自由传播的电磁波、通过波导或其它传输介质传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

本文所描述的计算机可读程序指令可从计算机可读存储介质下载至相应的计算/处理设备或经由网络例如因特网、局域网、广域网和/或无线网络下载至外部计算机或外存储设备。网络可包含铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以用于存储在相应的计算/处理设备中的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据，或者以一种或多种编程语言的任意组合编写的源编码或目标代码，该编程语言包括面向对象编程语言，诸如Smalltalk、C++等，以及过程式编程语言，诸如“C”编程语言或者类似的编程语言。计算机可读程序指令可完全地在用户计算机上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分地在用户计算机上并且部分地在远程计算机上执行、或者完全在远程计算机或服务器上来执行。在涉及远程计算机的情形中，远程计算机可通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者可连接至外部计算机(例如，利用因特网服务提供商来通过因特网连接)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程序逻辑阵列(PLA)的电子电路可通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以将电子电路个性化，从而执行本发明的各方面。

在本文中参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图来描述本发明的各方面。应该理解，流程图和/或框图中的每个方框，以及流程图和/或框图中方框的组合可通过计算机可读程序指令来实现。

可将这些计算机可读程序指令提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，创建实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可将这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其它设备以特定方式工作，使得其中存储有指令的计算机可读存储介质包括一个制品，该制品包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各方面的指令。

还可将计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤，以产生计算机实现的处理，从而使得在计算机、其它可编程装置或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图示出了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系结构、功能、和操作。在这点上，流程图或框图中的每个方框可代表模块、程序段或指令的一部分，该模块、程序段或指令的一部分包含用于实现规定的逻辑功能的一个或多个可执行指令。在一些替换实施方式中，方框中所标注的功能可以以不同于附图中所标注的顺序发生。例如，接连示出的两个方框实际上可基本上并行地执行，或者有时这些方框可以以相反的顺序执行，这取决于所涉及的功能。同样需注意，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合可通过执行规定的功能或动作或者实施专用硬件和计算机指令的组合的基于专用硬件的系统来实现。

一个或多个实施例可利用在通用计算机或工作站上运行的软件。参考图6，在计算节点610中存在计算机系统/服务器612，其可在多个其它通用或专用计算机系统环境或配置下操作。可能适用于计算机系统/服务器612的众所周知的计算系统、环境和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子产品、网络PC、小型计算机系统、大型计算机系统、可移动和可穿戴设备和包括任何上述系统或设备的分布式云计算环境等。

计算机系统/服务器612可在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般上下文中描述。通常，程序模块可包括执行特定任务或实现特定抽象数据类型的例程、程序、目标程序、组件、逻辑、数据结构等。计算机系统/服务器612可在分布式云计算环境中实践，其中任务由通过通信网络链接的远程处理设备来执行。在分布式云计算环境中，程序模块可位于包括存储器存储设备的本地和远程计算机系统存储介质二者中。

如图6所示，计算节点610中的计算机系统/服务器612以通用计算设备的形式示出。计算机系统/服务器612的组件可包括但不限于：一个或多个处理器或处理单元616、系统存储器628和将包括系统存储器628的各种系统组件耦接至处理器616的总线618。

总线618代表几种类型的总线结构中的一种或多种，包括存储器总线或存储器控制器、***总线、加速图形端口，处理器或使用多种总线结构中的任何一种结构的局域总线。举例来说，此类体系结构包括但不限于工业标准结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局域总线和***组件互连(PCI)总线。

计算机系统/服务器612典型地包括多种计算机系统可读介质。这种介质可以是任何能够被计算机系统/服务器612访问的可用的介质，并且它包括易失性和非易失性介质、可移动的和不可移动的介质二者。

系统存储器628可包括易失性存储器形式的计算机系统可读介质，诸如随机存取存储器(RAM)630和/或高速缓存存储器632。计算机系统/服务器612可进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅举例来说，存储器系统634可用于读写不可移动的、非易失性磁介质(图中未显示，通常称为“硬盘驱动器”)。尽管图中未显示，但是可提供用于对可移动的非易失性磁盘(例如，“软盘”)读写的磁盘驱动器，以及对可移动的非易失性光盘(诸如CD-ROM、DVD-ROM或其它光学介质)读写的光盘驱动器。在这些情况下，每个驱动器可通过一个或多个数据介质接口连接至总线618。如文本所描绘和描述的那样，存储器628可包括至少一个程序产品，该程序产品具有一组(例如，至少一个)被配置为执行本发明实施例的功能的程序模块。具有一组(至少一个)程序模块642的程序/实用工具640可存储在(举例来说，而不是限制)存储器628，以及操作系统、一个或多个应用程序、其它程序模块和程序数据。操作系统、一个或多个应用程序、其它程序模块和程序数据中的每一个或其组合可包括对连网环境的实现。程序模块642通常执行本文描述的本发明实施例的功能和/或方法。

计算机系统/服务器612还可与一个或多个外部设备614(诸如键盘、指向设备、显示器624等)通信、还可与一个或多个使用户能够与计算机系统/服务器612交互的设备通信、和/或与使计算机系统/服务器612能够与一个或多个其它计算设备进行通信的任何设备(例如，网卡、调制解调器等)通信。这种通信可经由I/O接口622进行。然而，计算机系统/服务器612可经由网络适配器620与一个或多个网络(诸如LAN、通用WAN和/或公共网络(例如，因特网))通信。如图所示，网络适配器620经由总线618与计算机系统/服务器612的其它组件通信。应了解，虽然图中未显示，但是其它硬件和/或软件组件可与计算机系统/服务器612结合使用。示例包括但不限于微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器和数据档案存储器系统等。

首先应当理解，尽管本公开包括关于云计算的详细描述，但其中记载的技术方案的实现却不限于云计算环境，而是能够结合现在已知或以后开发的任何其它类型的计算环境而实现。

云计算是一种服务交付模式，用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源，例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。

特征包括：

按需自助式服务：云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。

广泛的网络接入：计算能力可以通过标准机制在网络上获取，这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。

资源池：提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者，其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下，消费者不能控制或甚至并不知晓所提供的资源的确切位置，但可以在较高抽象程度上指定位置(例如国家、州或数据中心)，因此具有位置无关性。

迅速弹性：能够迅速、有弹性地(有时是自动地)部署计算能力，以实现快速扩展，并且能迅速释放来快速缩小。在消费者看来，用于部署的可用计算能力往往显得是无限的，并能在任意时候都能获取任意数量的计算能力。

可测量的服务：云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力，自动地控制和优化资源效用。可以监测、控制和报告资源使用情况，为服务提供者和消费者双方提供透明度。

服务模型如下：

软件即服务(SaaS)：向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外，消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。

平台即服务(PaaS)：向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用，这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构，但对其部署的应用具有控制权，对应用托管环境配置可能也具有控制权。

基础架构即服务(IaaS)：向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构，但是对操作系统、存储和其部署的应用具有控制权，对选择的网络组件(例如主机防火墙)可能具有有限的控制权。

部署模型如下：

私有云：云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。

共同体云：云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。

公共云：云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。

混合云：云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成，这些云依然是独特的实体，但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。

云计算环境是面向服务的，特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。

现在参考图7，其中显示了示例性的云计算环境750。如图所示，云计算环境750包括云计算消费者使用的本地计算设备可以与其相通信的一个或者多个云计算节点710，本地计算设备例如可以是个人数字助理(PDA)或移动电话754A，台式电脑754B、笔记本电脑754C和/或汽车计算机系统754N。云计算节点710之间可以相互通信。可以在包括但不限于如上所述的私有云、共同体云、公共云或混合云或者它们的组合的一个或者多个网络中将云计算节点710进行物理或虚拟分组(图中未显示)。这样，云的消费者无需在本地计算设备上维护资源就能请求云计算环境750提供的基础架构即服务(IaaS)、平台即服务(PaaS)和/或软件即服务(SaaS)。应当理解，图7显示的各类计算设备54A-N仅仅是示意性的，云计算节点710以及云计算环境750可以与任意类型网络上和/或网络可寻址连接的任意类型的计算设备(例如使用网络浏览器)通信。

现在参考图8，其中显示了云计算环境750(图7)提供的一组功能抽象层。首先应当理解，图8所示的组件、层以及功能都仅仅是示意性的，本发明的实施例不限于此。如图8所示，提供下列层和对应功能：

硬件和软件层860包括硬件和软件组件。硬件组件的例子包括：主机861；基于RISC(精简指令集计算机)体系结构的服务器862；服务器863；刀片服务器864；存储设备865；网络和网络组件866。软件组件的例子包括：网络应用服务器软件867以及数据库软件868。

虚拟层870提供一个抽象层，该层可以提供下列虚拟实体的例子：虚拟服务器871、虚拟存储872、虚拟网络873(包括虚拟私有网络)、虚拟应用和操作系统874，以及虚拟客户端875。

在一个示例中，管理层880可以提供下述功能：资源供应功能881：提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取；计量和定价功能882：在云计算环境内对资源的使用进行成本跟踪，并为此提供帐单和***。在一个例子中，该资源可以包括应用软件许可。安全功能：为云的消费者和任务提供身份认证，为数据和其它资源提供保护。用户门户功能883：为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能884：提供云计算资源的分配和管理，以满足必需的服务水平。服务水平协议(SLA)计划和履行功能885：为根据SLA预测的对云计算资源未来需求提供预先安排和供应。

工作负载层890提供云计算环境可能实现的功能的示例。在该层中，可提供的工作负载或功能的示例包括：地图绘制与导航891；软件开发及生命周期管理892；虚拟教室的教学提供893；数据分析处理894；交易处理895；以及。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

26页详细技术资料下载

可控的基于风格的文本转换

相关技术

网友询问留言