文本匹配方法、装置、计算机可读存储介质和计算机设备

文档序号：699318 发布日期：2021-05-04 浏览：4次 >En<

阅读说明：本技术 文本匹配方法、装置、计算机可读存储介质和计算机设备 (Text matching method and device, computer readable storage medium and computer equipment ) 是由梁涛李振阳张晗李超马连洋衡阵于 2020-01-20 设计创作，主要内容包括：本申请涉及一种文本匹配方法、装置、计算机可读存储介质和计算机设备,所述方法包括：获取第一文本的第一词向量序列,以及,获取第二文本的第二词向量序列；分别计算所述第一词向量序列与所述第二词向量序列之间的词向量相似度,得到相似度矩阵；获取所述相似度矩阵中的行向量序列与列向量序列,并基于所述行向量序列与所述列向量序列的双向关联信息,构建双向关联信息编码向量矩阵；提取所述双向关联信息编码向量矩阵中的文本匹配特征,并根据所述文本匹配特征生成文本匹配度标识；所述文本匹配度标识用于标记所述第一文本与所述第二文本之间的匹配度。采用本方法,可有效提升文本匹配的准确率。(The application relates to a text matching method, a text matching device, a computer readable storage medium and a computer device, wherein the method comprises the following steps: acquiring a first word vector sequence of a first text, and acquiring a second word vector sequence of a second text; respectively calculating word vector similarity between the first word vector sequence and the second word vector sequence to obtain a similarity matrix; acquiring a row vector sequence and a column vector sequence in the similarity matrix, and constructing a bidirectional association information coding vector matrix based on bidirectional association information of the row vector sequence and the column vector sequence; extracting text matching features in the bidirectional associated information coding vector matrix, and generating a text matching degree identifier according to the text matching features; the text matching degree identification is used for marking the matching degree between the first text and the second text. By adopting the method, the accuracy of text matching can be effectively improved.)

技术领域

本申请涉及计算机信息处理技术领域，特别是涉及一种文本匹配方法、装置、计算机可读存储介质和计算机设备。

背景技术

随着信息技术的快速发展，信息处理技术的应用早已深入到人们生活的方方面面，例如，文本匹配技术早已被广泛应用于媒体内容推荐场景，即通过对文本信息的匹配建立文本关联关系，以便在实际的媒体内容推荐场景中可通过预先建立的文本关联关系为用户提供相应的关联内容。

然而，现有的文本匹配技术多是停留在对词级信息关联的挖掘中，仅通过对短文本的相似性关联进行挖掘，而没有考虑到这种相似性关系背后的内在关联信息，无疑会造成其后续针对文本匹配操作的准确率较低。

因此，现有技术中的文本匹配方法存在文本匹配准确率低的问题。

发明内容

基于此，有必要针对现有技术中文本匹配方法存在着文本匹配准确率低的技术问题，提供一种文本匹配方法、装置、计算机可读存储介质和计算机设备。

一方面，本发明实施例提供一种文本匹配方法，包括：获取第一文本的第一词向量序列，以及，获取第二文本的第二词向量序列；分别计算第一词向量序列与第二词向量序列之间的词向量相似度，得到相似度矩阵；获取相似度矩阵中的行向量序列与列向量序列，并基于行向量序列与列向量序列的双向关联信息，构建双向关联信息编码向量矩阵；提取双向关联信息编码向量矩阵中的文本匹配特征，并根据文本匹配特征生成文本匹配度标识；文本匹配度标识用于标记第一文本与第二文本之间的匹配度。

另一方面，本发明实施例提供一种文本匹配装置，包括：词向量序列获取模块，用于获取第一文本的第一词向量序列，以及，获取第二文本的第二词向量序列；相似度矩阵获取模块，用于分别计算第一词向量序列与第二词向量序列之间的词向量相似度，得到相似度矩阵；向量矩阵构建模块，用于获取相似度矩阵中的行向量序列与列向量序列，并基于行向量序列与列向量序列的双向关联信息，构建双向关联信息编码向量矩阵；匹配度标识生成模块，用于提取双向关联信息编码向量矩阵中的文本匹配特征，并根据文本匹配特征生成文本匹配度标识；文本匹配度标识用于标记第一文本与第二文本之间的匹配度。

又一方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：获取第一文本的第一词向量序列，以及，获取第二文本的第二词向量序列；分别计算第一词向量序列与第二词向量序列之间的词向量相似度，得到相似度矩阵；获取相似度矩阵中的行向量序列与列向量序列，并基于行向量序列与列向量序列的双向关联信息，构建双向关联信息编码向量矩阵；提取双向关联信息编码向量矩阵中的文本匹配特征，并根据文本匹配特征生成文本匹配度标识；文本匹配度标识用于标记第一文本与第二文本之间的匹配度。

再一方面，本发明实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：获取第一文本的第一词向量序列，以及，获取第二文本的第二词向量序列；分别计算第一词向量序列与第二词向量序列之间的词向量相似度，得到相似度矩阵；获取相似度矩阵中的行向量序列与列向量序列，并基于行向量序列与列向量序列的双向关联信息，构建双向关联信息编码向量矩阵；提取双向关联信息编码向量矩阵中的文本匹配特征，并根据文本匹配特征生成文本匹配度标识；文本匹配度标识用于标记第一文本与第二文本之间的匹配度。

上述文本匹配方法、装置、计算机可读存储介质和计算机设备，服务器可通过获取第一文本的第一词向量序列与第二文本的第二词向量序列来计算词向量相似度，从而得到相似度矩阵，进而利用该相似度矩阵中的行向量序列与列向量序列及其对应的双向关联信息构建双向关联信息编码向量矩阵，以便从双向关联信息编码向量矩阵中提取文本匹配特征，并根据该文本匹配特征生成用于标记第一文本与第二文本之间匹配度的文本匹配度标识。采用本方法，不仅使用了两文本间表层的相似性特征，更利用了该相似性特征深入挖掘获取了两文本深层的关联信息，从而有效提升了文本匹配的准确率。

附图说明

图1为一个实施例中文本匹配方法的应用环境图；

图2为一个实施例中计算机设备的结构框图；

图3为一个实施例中文本匹配方法的流程示意图；

图4为一个实施例中词向量序列获取步骤的流程示意图；

图5为一个实施例中相似度矩阵获取步骤的流程示意图；

图6为一个实施例中向量矩阵获取步骤的流程示意图；

图7为一个实施例中双向关联信息获取步骤的流程示意图；

图8为另一个实施例中向量矩阵获取步骤的流程示意图；

图9为一个实施例中文本匹配度标识生成步骤的流程示意图；

图10为一个具体实施例中文本匹配方法的流程示意图；

图11为一个实施例中文本匹配装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，本发明实施例所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换，以使这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

图1为一个实施例中文本匹配方法的应用环境图。参照图1，该文本匹配方法可应用于媒体内容推荐系统。该媒体内容推荐系统包括终端110和服务器120，两者之间通过网络连接。具体地，服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现，终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种，网络包含但不限于：广域网、城域网或局域网。

上述媒体内容推荐系统，可以是一种以海量数据挖掘为基础的媒体内容相似性查询推荐工具，它能够在信息过载的环境中帮助用户快速筛选出他们感兴趣的信息，为用户提供个性化的决策支持和信息服务。同时，媒体内容推荐系统可以指为用户进行媒体内容推荐的系统，例如：文章推荐系统指的是为用户进行文章推荐的系统，该文章推荐系统可以借助应用程序(如：腾讯新闻)等文章阅读平台实现。然而，实际应用中运用媒体内容推荐系统实现媒体内容的推荐之前，还需对海量数据进行相似性挖掘，即预先挖掘建立两个个体信息之间的关联关系，如文本内容之间的相似性挖掘(也可称为文本匹配)，因此，为便于描述，以下以媒体内容推荐系统为例阐述文本匹配方法，需要理解的是，本发明实施例并不限于媒体内容推荐系统，还可以应用于其他的系统中，如视频推荐系统、热点召回系统等。

图2示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器120。如图2所示，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本分析数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本匹配方法。

本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

如图3所示，在一个实施例中，提供了一种文本匹配方法。本实施例主要以该方法应用于上述图1中的服务器120来举例说明。参照图3，该文本匹配方法具体包括如下步骤：

S302，获取第一文本的第一词向量序列，以及，获取第二文本的第二词向量序列。

其中，第一文本与第二文本均可是当前所需待挖掘相似性匹配关系的文本内容，且还可以是长文本或短文本等规格经过预先处理过的文本。

其中，第一词向量序列与第二词向量序列可以是分别由第一文本与第二文本经过分词量化后生成的词向量序列，例如，第一文本经分词后得到至少两个的文本分词，而该至少两个的文本分析经向量转化后可得到至少两个的文本词向量，即第一词向量序列。

具体地，在进行文本匹配之前，服务器120可首先接收到由终端110发送确定的第一文本与第二文本，进而将第一文本与第二文本进行分词并向量化，转换为第一文本对应的第一词向量序列、第二文本对应的第二词向量序列，并以此为依据完成后续的向量匹配操作。

S304，分别计算第一词向量序列与第二词向量序列之间的词向量相似度，得到相似度矩阵。

其中，词向量相似度可以是指第一词向量序列与第二词向量序列之间有关词义、词性、词频等词向量特征的相似性比例程度，相似度的取值范围可以表现为数值范围，如0-1、0-10等，也可以表现为百分比范围，如0-100％。

具体地，由于本申请是针对第一文本与第二文本进行匹配计算，因此需对第一词向量序列与第二词向量序列中的多个词向量进行逐个计算，也即是说服务器120在获取得到第一文本和第二文本，并分别对其进行分词量化得到多于一个的第一词向量与第二词向量之后，将逐个计算第一词向量与第二词向量之间的cosine相似度，以得到多组相似度结果构建形成相似度矩阵。

S306，获取相似度矩阵中的行向量序列与列向量序列，并基于行向量序列与列向量序列的双向关联信息，构建双向关联信息编码向量矩阵。

其中，行向量序列可以是相似度矩阵经过行方向分割后形成的、包括多个向量的行向量序列。

其中，列向量序列可以是相似度矩阵经过列方向分割后形成的、包括多个向量的列向量序列。

其中，双向关联信息可以是对行向量序列与列向量序列进行双向关联信息挖掘后生成的信息，而其中的双向可以是指由第一文本至第二文本、由第二文本至第一文本进行关联查询的两个方向。

具体地，服务器120获取得到相似度矩阵后，可首先确定该相似度矩阵的行向和列向，并进行行和列的单向分割，得到行向量序列与列向量序列，进而可将该行向量序列与列向量序列共同输入至双向关联信息挖掘网络，如Bi-LSTM(Bi-deractional Long Short-Term Memory，双向长短期记忆网络)，用以捕捉两文本之间双向的语义依赖，并利用挖掘得到的双向关联信息构建双向关联信息编码向量矩阵，以便于后续进行矩阵特征提取和匹配。

S308，提取双向关联信息编码向量矩阵中的文本匹配特征，并根据文本匹配特征生成文本匹配度标识；文本匹配度标识用于标记第一文本与第二文本之间的匹配度。

其中，文本匹配特征可以是预先学习设定待提取的文本特征。

其中，文本匹配度标识可以是记录第一文本与第二文本之间匹配关系的标识，例如，文本匹配标识、文本不匹配标识。

具体地，服务器120基于行向量序列与列向量序列的双向关联信息，构建得到双向关联信息编码向量矩阵之后，可进一步提取该双向关联信息编码向量矩阵中的文本匹配特征，针对文本匹配特征的提取方式，可以是通过机器学习模型或深度学习模型进行特征提取，例如将双向关联信息编码向量矩阵输入至卷积神经网络模型进行文本匹配特征的提取，进而利用该文本匹配特征生成文本匹配度标识，同时，文本匹配度标识的生成方式可以是计算文本匹配特征的相似度，将计算结果作为生成文本匹配度标识的依据。

本实施例中，服务器可通过获取第一文本的第一词向量序列与第二文本的第二词向量序列来计算词向量相似度，从而得到相似度矩阵，进而利用该相似度矩阵中的行向量序列与列向量序列及其对应的双向关联信息构建双向关联信息编码向量矩阵，以便从双向关联信息编码向量矩阵中提取文本匹配特征，并根据该文本匹配特征生成用于标记第一文本与第二文本之间匹配度的文本匹配度标识。采用本方法，不仅使用了两文本间表层的相似性特征，更利用了该相似性特征深入挖掘获取了两文本深层的关联信息，从而有效提升了文本匹配的准确率。

如图4所示，在一个实施例中，步骤S302中获取第一文本的第一词向量序列，以及，获取第二文本的第二词向量序列，具体包括如下步骤：

S3022，获取第一文本与第二文本。

具体地，服务器120执行文本匹配任务之前，首先需获取第一文本与第二文本，而该第一文本与第二文本可以是用户通过终端110确定发送的，即利用终端110与服务器120之前的网络连接，向服务器120发送用户提交的第一文本和第二文本。

S3024，分别对第一文本与第二文本进行分词，得到第一文本的第一词序列与第二文本的第二词序列。

其中，第一词序列与第二词序列均可是分别第一文本与第二文本进行分词处理得到的单词序列。

具体地，服务器120获取得到第一文本与第二文本之后，可通过预设的分词算法对第一文本与第二文本进行分词处理，从而得到第一文本经分词后的第一词序列，以及第二文本经分词后的第二词序列，需要理解的是，上述预设的分词算法可以是基于字符串匹配的分词算法、基于理解的分词算法以及基于统计的分词算法。

更具体地，基于字符串匹配的分词算法可以是一种机械分词算法，可通过预先建立的词典将待分词的字符串与词典中的元素进行匹配，若能匹配成功，则将改词切分出来，同时，按扫描方向的不同，字符串匹配分词算法可分为正相匹配和逆向匹配，按不同长度的匹配优先度，可以划分为最大匹配和最小匹配；基于理解的分词算法可以是在分词时同时进行句法、语义分析，利用句法信息和语义信息来处理分词的算法；基于统计的分词算法可以是利用相邻字出现的频率来衡量组词的可能性，当频率高于预设阈值时，可判定该相邻字构成一个词。

S3026，根据预存的数据向量映射关系，确定第一词序列的映射向量作为第一词向量序列，以及，确定第二词序列的映射向量作为第二词向量序列。

其中，预存的数据向量映射关系可以是一种数据映射机制，即将字符映射成其对应的实数向量。

具体地，服务器120可通过预存的数据向量映射关系，确定与第一词序列存在映射关系的实数向量作为第一词向量序列，同时，确定与第二词序列存在映射关系的实数向量作为第二词向量序列，而其中的映射关系可以是一对一的映射关系，因此上述确定的第一词向量序列与第二词向量序列可以是唯一确定的词向量序列。

本实施例中，通过对第一文本和第二文本进行分词量化，利用量化后的词向量序列计算相似度，可有效提升文本匹配的准确率。

如图5所示，在一个实施例中，步骤S304中分别计算第一词向量序列与第二词向量序列之间的词向量相似度，得到相似度矩阵，具体包括如下步骤：

S3042，确定第一词向量序列中至少两个的第一词向量，以及，确定第二词向量序列中至少两个的第二词向量。

其中，第一词向量与第二词向量可是第一词向量序列、第二词向量序列中对应存在的单位个体词向量。

具体地，服务器120在计算词向量相似度之前，首先需确定第一词向量序列与第二词向量序列中当前在待匹配计算的词向量，进而将第一词向量与第二词向量逐个计算其相似度，得到的相似度结果可构建相似度矩阵。

S3044，分别将至少两个的第一词向量与至少两个的第二词向量进行相乘，得到至少两个的词向量相似度。

具体地，服务器120计算第一词向量与第二词向量之间相似度的方式可以是将第一词向量与第二词向量逐个进行相乘计算来实现。

S3046，根据至少两个的词向量相似度进行矩阵构建，得到相似度矩阵。

具体地，服务器120可利用词向量相乘得到的词向量相似度来构建相似度矩阵，且矩阵的排序方式与第一词向量与第二词向量的相乘计算顺序对应。

本实施例中，通过分别计算向量之间的相似度来构建相似度矩阵，可有效提升文本匹配的准确率。

如图6所示，在一个实施例中，步骤S306中获取相似度矩阵中的行向量序列与列向量序列，并基于行向量序列与列向量序列的双向关联信息，构建双向关联信息编码向量矩阵，具体包括如下步骤：

S3062，将相似度矩阵进行向量行列分割，得到行向量序列与列向量序列。

具体地，服务器120将相似度矩阵进行向量行列分割的方式，可以是对相似度矩阵进行行、列方向的向量提取方式，进而得到针对该相似度矩阵进行行向提取的行向量序列，与针对该相似度矩阵进行列向提取的列向量序列。

S3064，通过双向长短期记忆网络，获取行向量序列与列向量序列的双向关联信息。

其中，双向长短期记忆网络是RNN网络(Recurrent Neural Network)中的一种，适用于对时序数据的建模，如文本数据，可在自然语言处理任务中用于建模上下文信息。

具体地，服务器120可通过双向长短期记忆网络，获取行向量序列与列向量序列的双向关联信息，即将行向量序列与列向量序列共同输入至双向长短期记忆网络，进行双向关联信息的挖掘，进而获取到行向量序列与列向量序列分别对应的双向关联信息。

S3066，对双向关联信息进行编码，并根据编码后的双向关联信息，获取双向关联信息编码向量矩阵。

具体地，对双向关联信息进行编码可以是服务器120控制双向长短期记忆网络进行的编码操作，得到双向关联信息编码，利用该双向关联信息编码可构建用于进行文本匹配特征提取的关联信息编码向量矩阵。

本实施例中，不仅使用了两文本间表层的相似性特征，更通过双向长短期记忆网络对该相似性特征进行深入挖掘，从而获取了两文本深层的关联信息，最终提升了文本匹配的准确率。

如图7所示，在一个实施例中，步骤S3064中通过双向长短期记忆网络，获取行向量序列与列向量序列的双向关联信息，具体包括如下步骤：

S30642，将行向量序列与列向量序列分别输入至双向长短期记忆网络；

S30644，获取双向长短期记忆网络输出的第一双向关联信息与第二双向关联信息，作为双向关联信息；第一双向关联信息与第二双向关联信息为双向长短期记忆网络根据行向量序列与列向量序列分别进行双向关联信息挖掘的信息。

具体地，服务器120可通过将行向量序列与列向量序列分别输入至双向长短期记忆网络，来获取双向长短期记忆网络输出的第一双向关联信息与第二双向关联信息，从而得到行向量序列与列向量序列的双向关联信息。

本实施例中，通过双向长短期记忆网络来获取行向量序列与列向量序列的双向关联信息，可有效提升文本匹配的准确率。

如图8所示，在一个实施例中，双向关联信息包括第一双向关联信息与第二双向关联信息，步骤S3066中对双向关联信息进行编码，并根据编码后的双向关联信息，获取双向关联信息编码向量矩阵，具体包括如下步骤：

S30662，分别对第一双向关联信息与第二双向关联信息进行编码，得到第一双向关联信息编码与第二双向关联信息编码；

S30664，将第一双向关联信息编码与行向量序列进行组合，得到第一信息编码向量矩阵，以及，将第二双向关联信息编码与列向量序列进行组合，得到第二信息编码向量矩阵；

S30666，确定第一信息编码向量矩阵与第二信息编码向量矩阵，作为双向关联信息编码向量矩阵。

具体地，服务器120可控制双向长短期记忆网络对第一双向关联信息与第二双向关联信息进行编码，从而得到第一双向关联信息编码与第二双向关联信息编码，进而将第一双向关联信息编码与行向量序列进行组合以获取第一信息编码向量矩阵、将将第二双向关联信息编码与列向量序列进行组合以获取第二信息编码向量矩阵，最终得到行向量序列或列向量序列对应的双向关联信息编码向量矩阵。

本实施例中，通过对双向关联信息编码向量矩阵的构建来获取后续用于计算文本相似度的文本匹配特征，可有效提升文本匹配的准确率。

如图9所示，在一个实施例中，步骤S308中提取双向关联信息编码向量矩阵中的文本匹配特征，并根据文本匹配特征生成文本匹配度标识，具体包括如下步骤：

S3082，将双向关联信息编码向量矩阵输入至卷积神经网络模型；

S3084，获取卷积神经网络模型输出的特征信息，作为文本匹配特征；

S3086，将文本匹配特征输入至卷积神经网络模型的全连接层；

S3088，获取全连接层的输出结果，得到文本匹配度标识；输出结果为全连接层根据文本匹配特征进行匹配的结果；文本匹配度标识包括文本匹配标识、文本不匹配标识。

其中，卷积神经网络(Convolutional Neural Networks，CNN)是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。

具体地，服务器120可首先将双向关联信息编码向量矩阵输入至卷积神经网络模型，进获取该卷积神经网络模型输出的文本匹配特征，并将文本匹配特征输入至卷积神经网络模型的全连接层，由全连接层输出特征匹配结果，进而可由服务器120根据该结果生成文本匹配度标识，用以表示第一文本与第二文本是否匹配，需要理解的是，本实施例中涉及的文本匹配度标识可以是由数值1表示的文本匹配标识、由数值0表示的文本不匹配标识。

本实施例中，通过卷积神经网络模型获取文本匹配特征，并通过全连接层获取文本匹配的输出结果，从而得到文本匹配度标识，可有效提升文本匹配的准确率。

为了便于本领域技术人员深入理解本申请实施例，以下将结合图10说明一个具体示例。图10是本实施例中文本匹配方法的完整流程示意图，从图10中可见：服务器120首先要获取第一文本(短文本1)和第二文本(短文本2)，进而将第一文本(短文本1)和第二文本(短文本2)进行分词，得到第一词序列(词1-n)和第二词序列(词1-k)，然后针对第一词序列(词1-n)和第二词序列(词1-k)采用数据映射机制获取其分别对应的第一词向量(词向量1-n)和第二词向量(词向量1-k)，第一词向量(词向量1-n)和第二词向量(词向量1-k)可进行信息交互得到相似性矩阵N，而相似性矩阵N经过行、列分割后得到的行向量序列和列向量序列可进一步输入至双向长短期记忆网络，用以获取其输出的信息编码，该信息编码即可构建双向关联信息编码向量矩阵并用于输入至卷积神经网络，以此获取卷积神经网络输出的匹配特征信息并通过全连接层获取两文本的特征匹配结果，最终由服务器120利用该特征匹配结果生成文本匹配度标识，用于标记所述第一文本与所述第二文本之间的匹配度后应用于媒体内容推荐系统。

本实施例中，不仅使用了两文本间表层的相似性特征，更利用了该相似性特征深入挖掘获取了两文本深层的关联信息，从而有效提升了文本匹配的准确率。

应该理解的是，虽然图3-9的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非文本中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图3-9中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图11所示，在一个实施例中，提供了一种文本匹配装置1100，该装置1100可设置于文本匹配系统中，用于执行上述文本匹配方法，文本匹配装置1100具体包括：词向量序列获取模块1102、相似度矩阵获取模块1104、向量矩阵构建模块1106以及匹配度标识生成模块1108，其中：

词向量序列获取模块1102，用于获取第一文本的第一词向量序列，以及，获取第二文本的第二词向量序列；

相似度矩阵获取模块1104，用于分别计算第一词向量序列与第二词向量序列之间的词向量相似度，得到相似度矩阵；

向量矩阵构建模块1106，用于获取相似度矩阵中的行向量序列与列向量序列，并基于行向量序列与列向量序列的双向关联信息，构建双向关联信息编码向量矩阵；

匹配度标识生成模块1108，用于提取双向关联信息编码向量矩阵中的文本匹配特征，并根据文本匹配特征生成文本匹配度标识；文本匹配度标识用于标记第一文本与第二文本之间的匹配度。

在一个实施例中，词向量序列获取模块1102还用于获取第一文本与第二文本；分别对第一文本与第二文本进行分词，得到第一文本的第一词序列与第二文本的第二词序列；根据预存的数据向量映射关系，确定第一词序列的映射向量作为第一词向量序列，以及，确定第二词序列的映射向量作为第二词向量序列。

在一个实施例中，相似度矩阵获取模块1104还用于确定第一词向量序列中至少两个的第一词向量，以及，确定第二词向量序列中至少两个的第二词向量；分别将至少两个的第一词向量与至少两个的第二词向量进行相乘，得到至少两个的词向量相似度；根据至少两个的词向量相似度进行矩阵构建，得到相似度矩阵。

在一个实施例中，向量矩阵构建模块1106还用于将相似度矩阵进行向量行列分割，得到行向量序列与列向量序列；通过双向长短期记忆网络，获取行向量序列与列向量序列的双向关联信息；对双向关联信息进行编码，并根据编码后的双向关联信息，获取双向关联信息编码向量矩阵。

在一个实施例中，向量矩阵构建模块1106还用于将行向量序列与列向量序列分别输入至双向长短期记忆网络；获取双向长短期记忆网络输出的第一双向关联信息与第二双向关联信息，作为双向关联信息；第一双向关联信息与第二双向关联信息为双向长短期记忆网络根据行向量序列与列向量序列分别进行双向关联信息挖掘的信息。

在一个实施例中，向量矩阵构建模块1106还用于分别对第一双向关联信息与第二双向关联信息进行编码，得到第一双向关联信息编码与第二双向关联信息编码；将第一双向关联信息编码与行向量序列进行组合，得到第一信息编码向量矩阵，以及，将第二双向关联信息编码与列向量序列进行组合，得到第二信息编码向量矩阵；确定第一信息编码向量矩阵与第二信息编码向量矩阵，作为双向关联信息编码向量矩阵。

在一个实施例中，匹配度标识生成模块1108还用于将双向关联信息编码向量矩阵输入至卷积神经网络模型；获取卷积神经网络模型输出的特征信息，作为文本匹配特征；将文本匹配特征输入至卷积神经网络模型的全连接层；获取全连接层的输出结果，得到文本匹配度标识；输出结果为全连接层根据文本匹配特征进行匹配的结果；文本匹配度标识包括文本匹配标识、文本不匹配标识。

本实施例中，服务器可通过获取第一文本的第一词向量序列与第二文本的第二词向量序列来计算词向量相似度，从而得到相似度矩阵，进而利用该相似度矩阵中的行向量序列与列向量序列及其对应的双向关联信息构建双向关联信息编码向量矩阵，以便从双向关联信息编码向量矩阵中提取文本匹配特征，并根据该文本匹配特征生成用于标记第一文本与第二文本之间匹配度的文本匹配度标识。采用本方案，不仅使用了两文本间表层的相似性特征，更利用了该相似性特征深入挖掘获取了两文本深层的关联信息，从而有效提升了文本匹配的准确率。

在一个实施例中，本申请提供的文本匹配装置可以实现为一种计算机程序的形式，计算机程序可在如图2所示的计算机设备上运行。计算机设备的存储器中可存储组成该文本匹配装置的各个程序模块，比如，图11所示的词向量序列获取模块1102、相似度矩阵获取模块1104、向量矩阵构建模块1106以及匹配度标识生成模块1108。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的文本匹配方法中的步骤。

例如，图2所示的计算机设备可以通过如图11所示的文本匹配装置中的词向量序列获取模块1102执行步骤S302。计算机设备可通过相似度矩阵获取模块1104执行步骤S304。计算机设备可通过向量矩阵构建模块1106执行步骤S306。计算机设备可通过匹配度标识生成模块1108执行步骤S308。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述文本匹配方法的步骤。此处文本匹配方法的步骤可以是上述各个实施例的文本匹配方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述文本匹配方法的步骤。此处文本匹配方法的步骤可以是上述各个实施例的文本匹配方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

19页详细技术资料下载

文本匹配方法、装置、计算机可读存储介质和计算机设备

相关技术

网友询问留言