基于神经网络的信息处理方法及装置、介质和电子设备

文档序号：1544893 发布日期：2020-01-17 浏览：7次 >En<

阅读说明：本技术 基于神经网络的信息处理方法及装置、介质和电子设备 (Information processing method and device based on neural network, medium and electronic equipment ) 是由王星郝杰涂兆鹏史树明于 2019-09-02 设计创作，主要内容包括：本发明公开了一种基于神经网络的信息处理方法、基于神经网络的信息处理装置、计算机可读介质和电子设备,涉及人工智能技术领域。该信息处理方法包括：获取与输入信息对应的目标信息序列,并基于目标信息序列确定出短语级表示序列；其中,短语级表示序列中包括多个短语元素；对短语级表示序列进行线性变换,得到与短语级表示序列对应的请求向量序列、键向量序列和值向量序列；计算请求向量序列与键向量序列之间的逻辑相似度,并对逻辑相似度进行非线性变换,得到与各短语元素对应的注意力权重分布；基于注意力权重分布和值向量序列,确定输入信息对应的第一网络表示序列。本发明可以提高自关注神经网络的性能。(The invention discloses an information processing method based on a neural network, an information processing device based on the neural network, a computer readable medium and electronic equipment, and relates to the technical field of artificial intelligence. The information processing method includes: acquiring a target information sequence corresponding to input information, and determining a phrase level representation sequence based on the target information sequence; wherein the phrase level representation sequence comprises a plurality of phrase elements; performing linear transformation on the phrase-level representation sequence to obtain a request vector sequence, a key vector sequence and a value vector sequence corresponding to the phrase-level representation sequence; calculating the logic similarity between the request vector sequence and the key vector sequence, and carrying out nonlinear transformation on the logic similarity to obtain the attention weight distribution corresponding to each phrase element; based on the attention weight distribution and the value vector sequence, a first network representation sequence corresponding to the input information is determined. The invention can improve the performance of the self-attention neural network.)

技术领域

本公开涉及人工智能技术领域，具体而言，涉及一种基于神经网络的信息处理方法、基于神经网络的信息处理装置、计算机可读介质和电子设备。

背景技术

注意力机制(Attention Mechanism)己经成为大多数深度学习模型中的一个基本模块，它可以动态地按照需求选择网络中的相关表示，尤其在机器翻译、图像注释等生成任务中，注意力机制作用显著。

SAN(Self-Attention Network，自关注神经网络)是一种基于自关注机制的神经网络模型，属于注意力机制模型中的一种。SAN模型能够为输入序列中的每个元素计算一个注意力权重，从而可以捕获长距离依赖关系，各个元素对应的网络表示不会受到各元素间距离的影响。

然而，SAN模型的处理过程仅停留在词级别的处理，使得在对一些信息进行处理时，效果不佳。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种基于神经网络的信息处理方法、基于神经网络的信息处理装置、计算机可读介质和电子设备，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的自关注神经网络的信息处理效果不理想的问题。

根据本公开的第一方面，提供一种基于神经网络的信息处理方法，包括：获取与输入信息对应的目标信息序列，并基于所述目标信息序列确定出短语级表示序列；其中，所述短语级表示序列中包括多个短语元素；对所述短语级表示序列进行线性变换，得到与所述短语级表示序列对应的请求向量序列、键向量序列和值向量序列；计算所述请求向量序列与所述键向量序列之间的逻辑相似度，并对所述逻辑相似度进行非线性变换，得到与各所述短语元素对应的注意力权重分布；基于所述注意力权重分布和所述值向量序列，确定所述输入信息对应的第一网络表示序列。

根据本公开的第二方面，提供一种基于神经网络的信息处理装置，包括短语级序列确定模块、线性变换模块、注意力权重确定模块和网络表示序列确定模块。

具体的，短语级序列确定模块用于获取与输入信息对应的目标信息序列，并基于所述目标信息序列确定出短语级表示序列；其中，所述短语级表示序列中包括多个短语元素；线性变换模块用于对所述短语级表示序列进行线性变换，得到与所述短语级表示序列对应的请求向量序列、键向量序列和值向量序列；注意力权重确定模块用于计算所述请求向量序列与所述键向量序列之间的逻辑相似度，并对所述逻辑相似度进行非线性变换，得到与各所述短语元素对应的注意力权重分布；网络表示序列确定模块用于基于所述注意力权重分布和所述值向量序列，确定所述输入信息对应的第一网络表示序列。

可选地，短语级序列确定模块包括短语分割单元、特征融合单元和特征组合单元。

具体的，短语分割单元用于对所述目标信息序列进行短语分割，形成多个短语组；特征融合单元用于对每一短语组中的特征进行特征融合，生成与各所述短语组对应的特征向量；特征组合单元用于将各所述短语组对应的特征向量进行组合，以生成所述短语级表示序列。

可选地，短语分割单元包括第一分割子单元。

具体的，第一分割子单元用于按照预定短语长度对所述目标信息序列进行短语分割，形成多个短语组。

可选地，短语分割单元包括第二分割子单元。

具体的，第二分割子单元用于按照所述输入信息的句法结构对所述目标信息序列进行短语分割，形成多个短语组。

可选地，特征组合单元被配置为执行：将各所述短语组对应的特征向量进行组合，生成中间表示序列；对所述中间表示序列中的各所述短语组对应的特征向量进行依存关系强化，以生成所述短语级表示序列。

可选地，线性变换模块被配置为执行：利用三个能够进行训练的参数矩阵，分别对所述短语级表示序列进行线性变换，得到与所述短语级表示序列对应的请求向量序列、键向量序列和值向量序列。

可选地，基于神经网络的信息处理装置还包括网络表示序列组合模块。

具体的，网络表示序列组合模块被配置为执行：确定所述输入信息对应的词级表示序列；其中，所述词级表示序列中包括多个词元素；生成与所述词级表示序列对应的请求向量序列、键向量序列和值向量序列，并确定与各所述词元素对应的注意力权重分布；基于与各所述词元素对应的注意力权重分布以及与所述词级表示序列对应的值向量序列，确定所述输入信息对应的第二网络表示序列；利用所述第一网络表示序列和所述第二网络表示序列，确定与所述输入信息对应的最终的网络表示序列。

根据本公开的第三方面，提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述基于神经网络的信息处理方法。

根据本公开的第四方面，提供一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述基于神经网络的信息处理方法。

在本公开的一些实施例所提供的技术方案中，确定与输入信息对应的短语级表示序列，得到与该短语级表示序列对应的请求向量序列、键向量序列和值向量序列，基于请求向量序列和键向量序列计算短语级表示序列中各短语元素的注意力权重分布，利用注意力权重分布和值向量序列，确定输入信息对应的网络表示序列。一方面，相比于一些技术仅利用词级别进行处理，本公开的整个过程中，利用短语级表示序列，可以提高自关注神经网络的信息处理性能；另一方面，可以将本公开的方案应用于机器翻译领域，能够大大提升翻译质量；再一方面，短语级表示序列中短语的配置，灵活度高，可多种配置方案并行处理，将结果合并或比较后，进一步确保信息处理的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本发明实施例的基于神经网络的信息处理方法或基于神经网络的信息处理装置的示例性系统架构的示意图；

图2示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图；

图3示意性示出了根据本公开的示例性实施方式的基于神经网络的信息处理方法的流程图；

图4示出了根据本公开的示例性实施方式的确定出网络表示序列的过程的示意图；

图5示意性示出了根据本公开的示例性实施方式的堆叠式多头自关注神经网络的结构图；

图6示出了在机器翻译场景中采用不同方法的结果比对示意图；

图7示意性示出了根据本公开的示例性实施方式的基于神经网络的信息处理装置的方框图；

图8示意性示出了根据本公开的示例性实施方式的短语级序列确定模块的方框图；

图9示意性示出了根据本公开的示例性实施方式的短语分割单元的方框图；

图10示意性示出了根据本公开的另一示例性实施方式的短语分割单元的方框图；

图11示意性示出了根据本公开的另一示例性实施方式的短语级序列确定模块的方框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的步骤。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。另外，下面所有的术语“第一”、“第二”仅是为了区分的目的，不应作为本公开内容的限制。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例提供的方案主要涉及人工智能的自然语言处理领域。具体通过如下内容来进行说明。

图1示出了可以应用本发明实施例的基于神经网络的信息处理方法或基于神经网络的信息处理装置的示例性系统架构的示意图。

如图1所示，系统架构1000可以包括终端设备1001、1002、1003中的一种或多种，网络1004和服务器1005。网络1004用以在终端设备1001、1002、1003和服务器1005之间提供通信链路的介质。网络1004可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器1005可以是多个服务器组成的服务器集群等。

用户可以使用终端设备1001、1002、1003通过网络1004与服务器1005交互，以接收或发送消息等。终端设备1001、1002、1003可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。

服务器1005可以是提供各种服务的服务器。例如，服务器1005可以获取由终端设备1001、1002、1003发送的输入信息，确定输入信息对应的目标信息序列，并将目标信息序列转换为短语级表示序列，其中，短语级表示序列中包括多个短语元素。接下来，服务器1005可以对短语级表示序列进行线性变换，得到与该短语级表示序列对应的请求向量序列、键向量序列和值向量序列，计算请求向量序列与键向量序列之间的逻辑相似度，并对逻辑相似度进行非线性变换，得到与各短语元素对应的注意力权重分布。随后，服务器1005可以基于该注意力权重分布和值向量序列，确定与输入信息对应的网络表示序列。

基于短语的划分粒度的不同，也就是说，划分出短语的长度不同，可以得到多组与输入信息对应的网络表示序列，并将这些网络表示序列进行拼接，得到最终的能够准确表示输入信息的网络表示序列。然后，例如，服务器1005可以将网络表示序列应用于机器翻译的场景中，得到相比于现有技术更加准确的翻译结果。

需要说明的是，本公开示例性实施方式的基于神经网络的信息处理方法一般由服务器1005执行，相应地，下面描述的基于神经网络的信息处理装置一般配置在服务器1005中。

图2示出了适于用来实现本公开示例性实施方式的电子设备的计算机系统的结构示意图。

需要说明的是，图2示出的电子设备的计算机系统200仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图2所示，计算机系统200包括中央处理单元(CPU)201，其可以根据存储在只读存储器(ROM)202中的程序或者从存储部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中，还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。

以下部件连接至I/O接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207；包括硬盘等的存储部分208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入存储部分208。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分209从网络上被下载和安装，和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。

图3示意性示出了本公开的示例性实施方式的基于神经网络的信息处理方法的流程图。参考图3，所述基于神经网络的信息处理方法可以包括以下步骤：

S32.获取与输入信息对应的目标信息序列，并基于所述目标信息序列确定出短语级表示序列；其中，所述短语级表示序列中包括多个短语元素。

在本公开的示例性实施方式中，输入信息是待进行变换后输出相应的网络表示序列的信息。输入信息可以包括一组有序排列的元素，以包括I个元素的输入信息为例，输入信息可以被表示为序列H＝{h₁,h₂,…,h_I}。

例如，在机器翻译的场景中，输入信息可以是待翻译文本信息，输入信息中的各个元素是文本信息中的各个词。本公开对待翻译文本信息的语言不进行特殊限制，例如，待翻译文本信息的语言类型可以为中文、英文、德文、日文等。例如，待翻译文本信息为“Bushheld a talk with Sharon”，此时，序列H为{Bush,held,a,talk,with,Sharon}。

目标信息序列可以是与输入信息对应的隐向量，可以被表示为Z＝{z₁,z₂,…,z_I}。具体的，可以采用神经网络的嵌入(embedding)层将输入信息中离散的元素转换成连续的空间表示，即得到目标信息序列。

例如，首先，可以通过索引对输入信息进行编码，给每一个不同的输入信息分配一个索引；接下来，可以创建嵌入矩阵，并确定每一个索引需要的向量长度。由此，可以使用嵌入矩阵来表示输入信息，而不是庞大的编码向量。

在本公开的示例性实施方式中，服务器可以基于目标信息序列确定出与输入信息对应的短语级表示序列。其中，短语级表示序列中包括多个短语元素。

首先，服务器可以对目标信息序列进行短语级分割，以形成多个短语组。

根据本公开的一些实施例，可以按照预定短语长度对目标信息序列进行短语分割，形成多个短语组。其中，预定短语长度可以指分割后短语组中包含的词的数量，其是可以进行调整的超参数。例如，针对包含10个词的语句，如果预定短语长度为2，则可以被分割成5个短语组。

根据本公开的另一些实施例，可以按照输入信息的句法结构对目标信息序列进行短语分割，形成多个短语组。例如，借助于句法树，可以按照语句中名词短语(NP)、动词短语(VP)、介词短语(PP)等对目标信息序列进行短语分割。另外，针对不同的句法结构规则，分割出短语的长度也会存在差异，也就是说，短语的粒度不一样。

在形成多个短语组后，可以对每一短语组中的特征进行特征融合，生成与各短语组对应的特征向量，也就是说，得到短语级别的向量表示，一个短语组对应一个向量表示。具体的，可以通过卷积神经网络、循环神经网络等方法实现特征融合，本示例性实施方式中对此不做特殊限定。

接下来，可以将各短语组对应的特征向量进行组合，以生成与输入信息对应的短语级表示序列，本公开中可以将短语级表示序列记为Hg。

此外，在本公开的一些实施例中，在确定出多个短语组后，可以将各短语组对应的特征向量进行组合，生成中间表示序列。接下来，对中间表示序列中各短语组对应的特征向量进行依存关系强化，以生成与输入信息对应的短语级表示序列。

具体的，可以将中间表示序列输入一神经元排序模型ON-LSTM(Ordered NeuronsLong Short-Term Memory，有序神经元长短期记忆网络)，得到短语级表示序列Hg。

通过强化短语之间的依存关系，进一步提升了神经网络的性能。

S34.对所述短语级表示序列进行线性变换，得到与所述短语级表示序列对应的请求向量序列、键向量序列和值向量序列。

在本公开的示例性实施方式中，线性变换可以将属于一个向量空间的向量映射到另一个向量空间。具体的，服务器可以分别通过三个能够进行训练的参数矩阵对短语级表示序列进行线性变换，将算预计表示序列分别映射到三个不同的向量空间中，得到与短语级表示序列对应的请求向量序列、键向量序列和值向量序列。

在本公开的一个实施例中，基于神经网络的信息处理方法应用于SAN模型中，在这种情况下，请求向量序列、键向量序列和值向量序列均由短语级表示序列进行线性变换得到。

在本公开的另一个实施例中，基于神经网络的信息处理方法还可以应用于包括Encoder-Decoder(编码器-解码器)结构的神经网络模型中，在这种情况下，键向量序列和值向量序列由编码器对短语级表示序列进行编码得到，是编码器的输出。请求向量序列为解码器的输入，比如可以是目标端向量表示序列，目标端向量表示序列可以是解码器输出的输出序列中各个元素对应的向量表示。

服务器可以通过下述公式1、公式2和公式3，确定出与短语级表示序列对应的请求向量序列Q、键向量序列K和值向量序列V：

Q＝Hg·W_Q (公式1)

K＝Hg·W_K (公式2)

V＝Hg·W_V (公式3)

其中，短语级表示序列中各短语元素为d维列向量，即，短语级表示序列可以是1个d维列向量构成的向量序列，记为1×d的矩阵。三个能够进行训练的参数矩阵W_Q、W_K和W_V均为d×d的矩阵。请求向量序列Q、键向量序列K和值向量序列V均为1×d的矩阵。

S36.计算所述请求向量序列与所述键向量序列之间的逻辑相似度，并对所述逻辑相似度进行非线性变换，得到与各所述短语元素对应的注意力权重分布。

逻辑相似度用于度量输入信息中的短语元素之间的相似度，从而使得输出的网络表示序列考虑了短语元素之间的联系，进而使得生成的网络表示序列能够更准确地表达每个短语元素的特征，涵盖更丰富的信息。

在本公开的一个实施例中，基于神经网络的信息处理方法可以应用于编码器-解码器结构的神经网络模型中，则请求向量序列为目标端向量表示序列，计算得到的逻辑相似度用于表示目标端向量表示序列与输入信息对应的键向量序列之间的相似度。基于该相似度为相应的值向量序列分配注意力权重，可以使得每个短语元素的网络表示能够考虑目标端输入的目标端向量表示序列的影响。

服务器可以通过余弦相似度的方式计算请求向量序列Q与键向量序列K之间的逻辑相似度矩阵e，具体参考公式4：

其中，K^T表示键向量序列K的转置矩阵，d为输入信息中每个短语元素的维度，也是网络隐藏状态向量的维度，公式4中除以

是为了减小内积，降低计算复杂度。

在计算出逻辑相似度后，可以根据逻辑相似度进行非线性变换，得到各短语元素对应的注意力权重关系。针对每个键值对的权重值α，参考公式5：

α＝softmax(e) (公式5)

S38.基于所述注意力权重分布和所述值向量序列，确定所述输入信息对应的第一网络表示序列。

针对确定出的注意力权重关系和对应的值向量序列，可以利用公式6确定出与输入信息对应的第一网络表示序列O：

O＝α·V (公式6)

下面参考图4，对根据本公开的示例性实施方式的确定出网络表示序列的过程进行说明。

在步骤S402中，对输入信息H进行嵌入处理得到目标信息序列Z；在步骤S404中，对目标信息序列Z进行短语级转换，得到短语级表示序列Hg；在步骤S406中，对短语级表示序列Hg进行线性变换，则到与短语级表示序列Hg对应的请求向量序列Q、键向量序列K和值向量序列V；在步骤S408中，计算请求向量序列Q与键向量序列K之间的逻辑相似度e；在步骤S410中，对逻辑相似度e进行非线性变换，得到权重值α；在步骤S412中，将权重值α与值向量序列V进行点积运算，得到与输入信息对应的一个网络表示序列O。

应当注意的是，上述是以短语方式对输入信息进行处理，确定出第一网络表示序列。然而，还可以将第一网络表示序列与其他形式的网络表示序列结合，以确定出与输入信息对应的最终的网络表示序列。这些其他形式可以例如包括以单个词的形式、以其他短语划分的形式等。

根据本公开的一些实施例，首先，服务器可以确定输入信息对应的词级表示序列，其中，词级表示序列中包括多个词元素；随后，生成与该词级表示序列对应的请求向量序列、键向量序列和值向量序列，并确定与各词元素对应的注意力权重分布；接下来，基于与各词元素对应的注意力权重分布以及与词级表示序列对应的值向量序列，确定输入信息对应的第二网络表示序列。确定第二网络表示序列的方式与上述确定第一网络表示序列的方式类似，在此不再赘述。

然后，可以将第一网络表示序列与第二网络表示序列结合，以确定与输入信息对应的最终的网络表示序列。

本公开示例性实施方式还提供了一种利用堆叠式多头自关注(Stacked Multi-Head Self-Attention)网络。

参考图5，首先，输入信息可以被分割成m个输入子序列，即确定出多头的数量为m，其中，m为大于1的正整数，如图所示，m例如为4。每个输入子序列分别对应不同的短语粒度，容易理解的是，在短语粒度为1的情况下，对应于针对单个词进行处理。

随后，利用自关注神经网络，针对每个输入子序列，分别生成相应的请求向量序列、键向量序列和值向量序列，其中，每个自关注神经网络中的参数矩阵均不同。

接下来，分别对每个输入子序列以及每个输入子序列对应的请求向量序列和键向量序列进行计算，得到m个子逻辑相似度。再根据每个子逻辑相似度确定每个输入子序列对应的子权重值，根据各子权重值以及值向量序列确定子输出向量，将各子输出向量进行拼接，以生成与输入信息对应的网络表示序列，多次重复，直至编码完成网络表示。

就应用本公开示例性实施方式的基于神经网络的信息处理方法的效果而言，以机器翻译为例，对语句的双语评估研究(Bilingual Evaluation Understudy，BLEU)分数进行了评估。

参考图6，本公开第一实施例为对输入语句进行短语级处理并强化短语之间的依存关系的实施例，本公开第二实施例为对输入语句进行短语级处理而未强化短语之间的依存关系的实施例。另外，图中横坐标表示短语长度，纵坐标表示本公开方案与基准模型之间的BLEU差值。由此可见，本公开第一实施例和第二实施例的方案在不同短语长度上的翻译质量均明显优于基准模型。

另外，为了说明，本公开还给出了上述方法在机器翻译系统上的处理效果，具体参见表1。

表1

BLEU分数一般提高超过0.5个点即可说明效果显著提高，Δ表示提高的绝对数值，参数数量的单位为百万(M)，训练速度单位为每秒迭代次数，因此，由表1可知，本公开的方案显著地提升了翻译质量，特别的，在对短语之间进行依存关系强化后，效果尤其明显。

需要说明的是，除机器翻译的应用场景外，采用本公开示例性实施方式的基于神经网络的信息处理方法确定出的网络表示，还可以应用于其他场景中，并取得较好的效果。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步的，本示例实施方式中还提供了一种基于神经网络的信息处理装置。

图7示意性示出了本公开的示例性实施方式的基于神经网络的信息处理装置的方框图。参考图7，根据本公开的示例性实施方式的基于神经网络的信息处理装置7可以包括短语级序列确定模块71、线性变换模块73、注意力权重确定模块75和网络表示序列确定模块77。

具体的，短语级序列确定模块71可以用于获取与输入信息对应的目标信息序列，并基于所述目标信息序列确定出短语级表示序列；其中，所述短语级表示序列中包括多个短语元素；线性变换模块73可以用于对所述短语级表示序列进行线性变换，得到与所述短语级表示序列对应的请求向量序列、键向量序列和值向量序列；注意力权重确定模块75可以用于计算所述请求向量序列与所述键向量序列之间的逻辑相似度，并对所述逻辑相似度进行非线性变换，得到与各所述短语元素对应的注意力权重分布；网络表示序列确定模块77可以用于基于所述注意力权重分布和所述值向量序列，确定所述输入信息对应的第一网络表示序列。

利用本公开示例性实施方式的基于神经网络的信息处理装置，一方面，相比于一些技术仅利用词级别进行处理，本公开的整个过程中，利用短语级表示序列，可以提高自关注神经网络的信息处理性能；另一方面，可以将本公开的方案应用于机器翻译领域，能够大大提升翻译质量；再一方面，短语级表示序列中短语的配置，灵活度高，可多种配置方案并行处理，将结果合并或比较后，进一步确保信息处理的准确性。

根据本公开的示例性实施例，参考图8，短语级序列确定模块71可以包括短语分割单元801、特征融合单元803和特征组合单元805。

具体的，短语分割单元801可以用于对所述目标信息序列进行短语分割，形成多个短语组；特征融合单元803可以用于对每一短语组中的特征进行特征融合，生成与各所述短语组对应的特征向量；特征组合单元805可以用于将各所述短语组对应的特征向量进行组合，以生成所述短语级表示序列。

根据本公开的示例性实施例，参考图9，短语分割单元801可以包括第一分割子单元901。

具体的，第一分割子单元901可以用于按照预定短语长度对所述目标信息序列进行短语分割，形成多个短语组。

根据本公开的示例性实施例，参考图10，短语分割单元801可以包括第二分割子单元101。

具体的，第二分割子单元101可以用于按照所述输入信息的句法结构对所述目标信息序列进行短语分割，形成多个短语组。

根据本公开的示例性实施例，特征组合单元805可以被配置为执行：将各所述短语组对应的特征向量进行组合，生成中间表示序列；对所述中间表示序列中的各所述短语组对应的特征向量进行依存关系强化，以生成所述短语级表示序列。

根据本公开的示例性实施例，线性变换模块73可以被配置为执行：利用三个能够进行训练的参数矩阵，分别对所述短语级表示序列进行线性变换，得到与所述短语级表示序列对应的请求向量序列、键向量序列和值向量序列。

根据本公开的示例性实施例，参考图11，相比于基于神经网络的信息处理装置7，基于神经网络的信息处理装置11还可以包括网络表示序列组合模块111。

具体的，网络表示序列组合模块111可以被配置为执行：确定所述输入信息对应的词级表示序列；其中，所述词级表示序列中包括多个词元素；生成与所述词级表示序列对应的请求向量序列、键向量序列和值向量序列，并确定与各所述词元素对应的注意力权重分布；基于与各所述词元素对应的注意力权重分布以及与所述词级表示序列对应的值向量序列，确定所述输入信息对应的第二网络表示序列；利用所述第一网络表示序列和所述第二网络表示序列，确定与所述输入信息对应的最终的网络表示序列。

由于本发明实施方式的程序运行性能分析装置的各个功能模块与上述方法发明实施方式中相同，因此在此不再赘述。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

21页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：基于实时学习的融合型词义嵌入方法

基于神经网络的信息处理方法及装置、介质和电子设备

相关技术

网友询问留言