一种文档分析方法、装置及智能终端、存储介质

文档序号：701001 发布日期：2021-04-13 浏览：1次 >En<

阅读说明：本技术 一种文档分析方法、装置及智能终端、存储介质 (Document analysis method and device, intelligent terminal and storage medium ) 是由杨智威于 2020-12-29 设计创作，主要内容包括：本申请实施例公开了一种文档分析方法、装置及智能终端、存储介质,其中,所述方法包括：获取待分析的第一文档和第二文档；将所述第一文档拆分成M个内容段,将所述第二文档拆分成N个内容段,所述M和N为正整数；将所述M个内容段与所述N个内容段输入到分析模型,并获取所述分析模型输出的相似度分析结果；从所述相似度分析结果包括的M组相似度值中选择P个相似度值,其中,P为正整数；根据所述P个相似度值,确定所述第一文档和所述第二文档之间的相似度。采用本发明,可以更好地捕捉文档的整体信息,提高文档对比的精确度。(The embodiment of the application discloses a document analysis method, a document analysis device, an intelligent terminal and a storage medium, wherein the method comprises the following steps: acquiring a first document and a second document to be analyzed; splitting the first document into M content segments, and splitting the second document into N content segments, wherein M and N are positive integers; inputting the M content segments and the N content segments into an analysis model, and acquiring a similarity analysis result output by the analysis model; selecting P similarity values from M groups of similarity values included in the similarity analysis result, wherein P is a positive integer; and determining the similarity between the first document and the second document according to the P similarity values. By adopting the invention, the whole information of the document can be better captured, and the document comparison accuracy is improved.)

技术领域

本发明涉及计算机应用技术领域，尤其涉及一种文档分析方法、装置及智能终端、存储介质。

背景技术

文档分析技术在毕业论文查重、版权比对等重复率场景中都有广泛的应用。现有的文档分析技术在大部分重复率场景中是通过人工阅读的方式进行查重对比，这种方式效率低、审核标准不统一，无法保证精确度。

另外小部分重复率场景所使用的技术一般是将文章分成若干句子，再将句子进行分词处理，去除掉一些不必要的词汇，得到一个一个有效特征词，再基于大量的特征词来比对两个文章之间的相似度。但是，这种方法没有考虑语义信息，仅以特征词为粒度进行比较，无法体现任何上下文关系，相似度比对精确度较低。

发明内容

本申请实施例所要解决的技术问题在于，提供一种文档分析方法、装置及智能终端、存储介质，可以提高文档之间相似度比对的准确性。

一方面，本申请实施例提供了一种文档分析方法，包括：

获取待分析的第一文档和第二文档；

将所述第一文档拆分成M个内容段，将所述第二文档拆分成N个内容段，所述M和N为正整数；

将所述M个内容段与所述N个内容段输入到分析模型，并获取所述分析模型输出的相似度分析结果，所述相似度分析结果包括M组相似度值，由所述分析模型分析得到的所述M个内容段中任意一个内容段与N个内容段中每一个内容段之间的相似度值构成一组相似度值；

从所述相似度分析结果包括的M组相似度值中选择P个相似度值，其中，P为正整数；

根据所述P个相似度值，确定所述第一文档和所述第二文档之间的相似度。

在一个实施例中，所述将第一文档拆分成M个内容段，将第二文档拆分成N个内容段，包括：

根据目标符号组对所述第一文档进行内容分析，确定在所述第一文档中的分段拆分位置信息，并根据所述分段拆分位置信息将第一文档拆分成M个内容段；

根据目标符号组对所述第二文档进行内容分析，确定在所述第二文档中的分段拆分位置信息，并根据所述分段拆分位置信息将第二文档拆分成N个内容段；

所述目标符号组包括：句号与回车符号构成的符号组、问号与回车符号构成的符号组和感叹号与回车符号构成的符号组中的任意一个或多个。

在一个实施例中，所述将所述M个内容段与所述N个内容段输入到分析模型，并获取所述分析模型输出的相似度分析结果，包括：

将所述M个内容段与所述N个内容段分别输入所述分析模型的第一嵌入层和所述分析模型的第二嵌入层；

通过所述分析模型的第一嵌入层，将所述M个内容段转换为M个第一特征向量；

通过所述分析模型的第二嵌入层，将所述N个内容段转换为N个第二特征向量；

通过所述分析模型的两个长短期记忆网络LSTM分别对所述M个第一特征向量和所述N个第二特征向量进行记忆处理，获得M个第三特征向量和N个第四特征向量；

通过所述分析模型的语义匹配层将所述M个第三特征向量和所述N个第四特征向量输入所述分析模块的语义匹配层，得到所述分析模型输出的相似度分析结果。

在一个实施例中，该方法还包括：

所述分析模块的语义匹配层包括：拼接层、随机失活Dropout层和全连接层，所述拼接层用于将所述M个第三特征向量和所述N个第四特征向量进行拼接，所述Dropout层用于防止过拟合，所述全连接层用于确定所述M个第三特征向量和所述N个第四特征向量的相似度值，以便于根据所述全连接层确定的相似度值得到相似度分析结果。

在一个实施例中，P＝M，所述从所述相似度分析结果包括的M组相似度值中选择P个相似度值，包括：

从所述相似度分析结果包括的M组相似度值的每一组相似度值中选择最大相似度值，得到M个最大相似度值。

在一个实施例中，所述根据所述P个相似度值，确定所述第一文档和所述第二文档之间的相似度，包括：

将所述P个相似度值进行求平均处理，得到所述第一文档和所述第二文档之间的相似度值。

在一个实施例中，所述方法还包括：

获取训练样本，所述训练样本包括第一训练文档、第二训练文档，所述第一训练文档包括X个第一训练内容段，所述第二训练文档包括Y个第二训练内容段；

将所述第一训练文档包括的X个第一训练内容段、所述第二训练文档包括的Y个第二训练内容段、以及用于表示第一训练内容段和第二训练内容段之间相似度的标注信息输入到初始模型中，并获取所述初始模型输出的相似度训练分析结果；

根据所述相似度训练分析结果与标注信息之间的关联度，对所述初始模型进行优化更新。

另一方面，本申请实施例还提供了一种文档分析装置，包括：

获取模块，用于获取待分析的第一文档和第二文档；

拆分模块，用于将所述第一文档拆分成M个内容段，将所述第二文档拆分成N个内容段，所述M和N为正整数；

处理模块，用于将所述M个内容段与所述N个内容段输入到分析模型，并获取所述分析模型输出的相似度分析结果，所述相似度分析结果包括M组相似度值，由所述分析模型分析得到的所述M个内容段中任意一个内容段与N个内容段中每一个内容段之间的相似度值构成一组相似度值；

选择模块，用于从所述相似度分析结果包括的M组相似度值中选择P个相似度值，其中，P为正整数；

确定模块，用于根据所述P个相似度值，确定所述第一文档和所述第二文档之间的相似度。

再一方面，本申请实施例还提供了一种智能终端，该智能终端包括存储装置和处理器，所述存储装置中存储有计算机程序，所述处理器调用所述计算机程序，用于实现如本申请实施例中的方法。

相应地，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器运行的过程中，实现前述的文档分析方法。

本申请实施例可以通过获取待分析的第一文档和第二文档，并将第一文档拆分的M个内容段和第二文档拆分的N个内容段输入分析模型，进而可以根据分析模型获得的相似度分析结果，确定第一文档和第二文档之间的的相似度。可见，将待分析的文档拆分成内容段输入分析模型进行相似度分析的过程，可以将文档对比的对比粒度提升至段落，更好地捕捉文档的整体信息，提高文档对比的精确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的一种文档分析方法的流程示意图；

图1b是本申请实施例提供的一种文档分析的界面示意图；

图1c是本申请实施例提供的一种文档选取的界面示意图；

图2是本申请实施例提供的一种分析模块的具体结构示意图；

图3是本申请实施例提供的一种基于分析模型的处理方法的流程示意图；

图4是本申请实施例提供的一种文档分析装置的结构示意图；

图5是本申请实施例提供的一种智能终端的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例可用于对任何两个文档进行查重处理，引入分析模块，对两个文档拆分得到的段落分别进行比较，以确定两篇文档之间的相似度。相比于细化到单个特征词的比对而言，分析模型在对段落分析时，所参考的特征更多，至少参考了段落中不同句子之间、不同词语之间的关联关系，参考了各个句子、词语的上下文关系，因此，得到的相似度更加准确。

本申请实施例可应用于诸如毕业论文查重等场景下，也可以用在版权比对的场景下。例如，对于论文查重而言，可以依次获取待查重的两份毕业论文，可以对两份毕业论文进行内容分析，将两份毕业论文分别拆分为多个内容段。将多个内容段输入分析模型，分析模型对多个内容段进行相似度分析，获得相似度分析结果。根据得到的相似度分析结果可以确定两份毕业论文之间的相似度，进而得到两份毕业论文的查重结果。通过将毕业论文拆分成内容段进行对比分析的过程中，提高了论文对比的对比粒度，更好地捕捉毕业论文的整体信息，进而可以提高论文查重的精确度。

请参见图1a，是本申请实施例的一种文档分析方法的流程示意图，所述方法可以在一个智能终端上执行，该智能终端例如可以是一个服务器、也可以是智能手机、个人电脑、平板电脑、智能可穿戴设备等终端，所述方法包括以下步骤：

步骤S101，获取待分析的第一文档和第二文档。可以在智能终端上显示一个文档分析界面，该文档分析界面用于获取用户需要进行对比分析且存储在智能终端本地的第一文档和第二文档，该文档分析界面在录入了第一文档和第二文档后，还可以显示第一文档和第二文档拆分后的内容段以及文档对比结果。所述文档分析界面具体可参见图1b，在图1b中，包括了文档分析界面b10、第一文档输入按钮b101、第一文档显示区域b102、第二文档输入按钮b103、第二文档显示区域b104、第一文档内容段显示区域b105、第二文档内容段显示区域b106以及对比结果显示区域b107。

向图1b所示的界面输入的文档的方式有多种，在一个实施例中，可以由用户触发第一文档输入按钮b101的方式录入相应的文档，再点击了第一文档输入按钮b101后，智能终端显示出一个新窗口，该窗口为文件信息显示窗口。所述文档信息显示窗口具体可参见图1c，在图1c中，包括了文件信息显示窗口c10、本地文件显示区域c101以及确认按钮c102。该文件信息显示窗口c10用于用户选择并确认需要进行对比分析的第一文档和第二文档。

在文件信息显示窗口c10的本地文件显示区域c101中显示存储在本地的所有文件信息。用户可以在本地文件显示区域c101中选择需要进行对比分析的第一文档，然后触发确认按钮c102，即可视为将第一文档上传至智能终端。在文档上传成功后，智能终端关闭文件信息显示窗口c10，且在文档分析界面b10的第一文档显示区域b102显示第一文档的文档名称。

同理，用户触发第二文档输入按钮b102后，智能终端显示出文件信息显示窗口c10。用户可以在本地文件显示区域c101中选择需要进行对比分析的第二文档，然后触发确认按钮c102，即可视为将第二文档上传至智能终端。在文档上传成功后，智能终端关闭文件信息显示窗口c10，且在文档分析界面b10的第二文档显示区域b104显示第二文档的文档名称。

在一个实施例中，用户在智能终端本地端打开存储了待分析的第一文档和第二文档的存储区，将第一文档选中后拖动至文档分析界面b10的第一文档显示区域b102，即可视为用户将第一文档上传至智能终端。同理，用户将第二文档选中后拖动至文档分析界面b10的第二文档显示区域b104，即可视为用户将第二文档上传至智能终端。在文档上传成功后，第一文档显示区域b102显示第一文档的文档名称，第二文档显示区域b104显示第二文档的文档名称，即可视为智能终端已经获取到待分析的第一文档和第二文档。

在其他实施例中，用户还可以通过拖动需要分析的第一文档和第二文档至相应的显示区域来实现第一文档和第二文档的加载，以便于实现步骤S101，例如将第一文档拖入到第一文档显示区域b102，将第二文档拖入到第二文档显示区域b104，所描述的拖动可以为常见的选中第一文档或第二文档后，长按鼠标左键并移动鼠标实现拖动等方式来实现，本发明对此并不限制。

步骤S102，将所述第一文档拆分成M个内容段，将所述第二文档拆分成N个内容段，所述M和N为正整数。可以根据目标符号组对第一文档进行内容分析，确定第一文档中的分段拆分位置信息，并根据分段拆分位置信息将第一文档拆分成M个内容段。同时，根据目标符号组对第二文档进行内容分析，确定第二文档中的分段拆分位置信息，并根据分段拆分位置信息将第二文档拆分成N个内容段。

在一个实施例中，智能终端通过遍历第一文档的全部内容，找到符合目标符号组的符号。该目标符号组包括：句号与回车符号构成的符号组、问号与回车符号构成的符号组和感叹号与回车符号构成的符号组中的任意一个或多个。将符合目标符号组的符号位置信息视为分段拆分位置信息。然后根据分段拆分位置信息，将符合目标符号组的相邻两个符号之间的所有内容视为一个内容段，那么可以将第一文档拆分成M个内容段，且在文档分析界面b10的第一文档内容段显示区域b105显示M个内容段的具体内容。同时，对第二文档进行同理分析，将第二文档拆分成N个内容段，且在第二文档内容段显示区域b106显示N个内容段的具体内容。在本申请实施例中，是以目标符合组来作为参考进行段落划分的，这样可以明显避免对段落的误判，相对准确地划分得到每个文档段落。

步骤S103，将所述M个内容段与所述N个内容段输入到分析模型，并获取所述分析模型输出的相似度分析结果。所述相似度分析结果包括M组相似度值，由所述分析模型分析得到的所述M个内容段中任意一个内容段与N个内容段中每一个内容段之间的相似度值构成一组相似度值；

在一个实施例中，将M个内容段中任一个内容段与N个内容段中每一个内容段分别输入分析模型。通过分析模型的第一嵌入层，将M个内容段转换为M个第一特征向量。通过分析模型的第二嵌入层，将N个内容段转换为N个第二特征向量。然后使用分析模型的两个LSTM分别对M个第一特征向量和N个第二特征向量进行记忆处理，得到M个第三特征向量和N个第四特征向量。将M个第三特征向量和N个第四特征向量输入分析模型的语义匹配层进行语义匹配，得到分析模型输出的相似度分析结果包括M组相似度值。所述分析模型的具体结构可参考后续实施例的描述。

步骤S104，从所述相似度分析结果包括的M组相似度值中选择P个相似度值，其中，P为正整数。可以从相似度分析结果包括的M组相似度值的每一组相似度值中选择一个适合的相似度值，得到M个相似度值，再从M个相似度值中选择P个相似度值。

在一个实施例中，P＝M，从相似度分析结果包括的M组相似度值的每一组相似度值中选择最大相似度值，得到M(即P)个最大相似度值。

在一个实施例中，P＝M，对相似度分析结果包括的M组相似度值的每一组相似度值进行求平均处理，得到M(即P)个平均相似度值。

S105：根据所述P个相似度值，确定所述第一文档和所述第二文档之间的相似度。可以将P个相似度值进行求平均处理，得到第一文档和第二文档之间的相似度值。根据该相似度值确定第一文档和第二文档之间的相似度。

在一个实施例中，智能终端将P个相似度值进行求平均处理，得到第一文档和第二文档之间的相似度值，得到相似度分析结果。在获得相似度分析结果后，智能终端在文档分析界面b10的对比结果显示区域b107显示第一文档和第二文档之间的相似度值百分比。用户根据对比结果显示区域b107显示的相似度值百分比可以直观地获知第一文档和第二文档之间的相似度。

在一个实施例中，智能终端将P个相似度值进行求平均处理，得到第一文档和第二文档之间的相似度值，并将相似度值与阈值进行比较分析，该阈值可由用户自定义设定。当相似度值小于阈值时，相似度分析结果设为0，即第一文档和第二文档不相似；当相似度值不小于阈值时，相似度分析结果设为1，即第一文档和第二文档相似。在获得相似度分析结果后，智能终端在文档分析界面b10的对比结果显示区域b107显示相应字符。若相似度分析结果输出为0，则在对比结果显示区域b107中显示表明第一文档和第二文档不相似的字符，例如直接显示“不相似”；若相似度分析结果输出为1，则在对比结果显示区域b107中显示表明第一文档和第二文档相似的字符，例如直接显示“相似”。用户可以根据对比结果显示区域b107显示的字符可以获知第一文档和第二文档之间的相似度。

基于以上的文档分析步骤进一步举例说明如下：

1、获取第一文档和第二文档；

2、对第一文档和第二文档进行分段处理，得到第一文档对应的M个内容段以及第二文档对应的N个内容段；

在一个实施例中，第一文档为文档a，第二文档为文档b，文档a共有2个内容段，文档b共有3个内容段，则分段处理结果可以如表1所示：

表1

3、分别计算M个内容段中每个内容段与N个内容段中每个第内容段之间的相似度，得到M*N个相似度值；

具体实现中，可以基于训练完成的分析模型计算两两内容段之间的相似度，得到如表2所示数据：

表2

文档a	文档b	Score
			内容段a1	内容段b1	Score1
内容段a1	内容段b2	Score2
			内容段a1	内容段b3	Score3
内容段a2	内容段b1	Score4
			内容段a2	内容段b2	Score5
内容段a2	内容段b3	Score6

4、选取文档a的每个内容段对应的最大相似度值，并对各个最大相似度值处理，得到第一文档和第二文档之间的相似度值。对于文档a中每个内容段的相似度值中选出最大相似度值，假设为Score1和Score6，那么最终两篇文档的相似度值S＝(Score1+Score6)/2。

结合图2和图3，对分析模型的具体处理过程进行详细描述。在一个实施例中，请参见图2，是本申请实施例的一个分析模块的具体结构示意图。如图2所示，该分析模块的具体结构包括：内容段201、内容段202、第一嵌入层203、第二嵌入层204、LSTM205、LSTM206、语义匹配层207以及匹配得分208。

具体请参见图3，是本申请实施例的一种分析模型的处理方法的流程示意图，所述方法可以在一个智能终端上执行，该智能终端例如可以是一个服务器、终端设备，所述方法包括以下步骤：

步骤S301，将所述M个内容段与所述N个内容段分别输入所述分析模型的第一嵌入层和所述分析模型的第二嵌入层；

在一个实施例中，将第一文档拆分的M个内容段201分别输入分析模型的第一嵌入层203；将第二文档拆分的N个内容段202输入分析模型的第二嵌入层204。

步骤S302，通过所述分析模型的第一嵌入层，将所述M个内容段转换为M个第一特征向量；通过所述分析模型的第二嵌入层，将所述N个内容段转换为N个第二特征向量；

在一个实施例中，通过分析模型的第一嵌入层203，将M个内容段201转换为M个第一特征向量；通过分析模型的第二嵌入层204，将N个内容段202转换为N个第一特征向量。

步骤S303，通过所述分析模型的两个长短期记忆网络LSTM分别对所述M个第一特征向量和所述N个第二特征向量进行记忆处理，获得M个第三特征向量和N个第四特征向量；

在一个实施例中，通过分析模型的LSTM205，对M个第一特征向量进行记忆处理，得到M个第三特征向量；通过分析模型的LSTM206，对N个第二特征向量进行记忆处理，得到N个第三特征向量。

步骤S304，通过所述分析模型的语义匹配层将所述M个第三特征向量和所述N个第四特征向量输入所述分析模块的语义匹配层，得到所述分析模型输出的相似度分析结果。

在一个实施例中，将M个第三特征向量和N个第四特征向量输入分析模型的语义匹配层207。该分析模型的语义匹配层207包括：拼接层、随机失活Dropout层和全连接层。通过拼接层，将M个第三特征向量和N个第四特征向量进行拼接，得到拼接后的向量。将拼接后的向量输入Dropout层，防止过拟合。全连接层可以使用激活函数Relu函数和激活函数Softmax函数，通过全连接层确定M个第三特征向量中任一个第三特征向量和N个第四特征向量中每一个第四特征向量的相似度值，得到M组相似度值。将全连接层确定的M组相似度值输入匹配得分208，匹配得分208对M组相似度值进行选择并作求平均处理，得到分析模型输出的相似度分析结果。

所述分析模型在训练阶段可以基于大量的训练样本来进行。可以根据每次训练的训练结果对初始模型各个层中的参数进行优化调整，将最终优化调整后的初始模型作为实现文档分析的分析模型。

在一个实施例中，智能终端可以获取训练样本，该训练样本包括第一训练文档、第二训练文档。将第一训练文档根据目标符号组拆分成X个第一训练内容段201，将第二训练文档根据目标符号组拆分成Y个第二训练内容段202。

将X个第一训练内容段201分别输入初始模型的第一嵌入层203，将Y个第二训练内容段202分别输入初始模型的第一嵌入层203。通过初始模型的第一嵌入层203，将X个第一训练内容段201转换为X个第一训练特征向量；通过初始模型的第二嵌入层204，将Y个第二训练内容段202转换为Y个第二训练特征向量。通过初始模型的LSTM205，对X个第一训练特征向量进行记忆处理，得到X个第三训练特征向量；通过初始模型的LSTM206，对Y个第二训练特征向量进行记忆处理，得到Y个第四训练特征向量。

将X个第三训练特征向量和Y个第四训练特征向量输入初始模型的语义匹配层207。该初始模型的语义匹配层207包括：拼接层、随机失活Dropout层和全连接层。通过拼接层，将X个第三训练特征向量和Y个第四训练特征向量进行拼接，得到拼接后的向量。将拼接后的向量输入Dropout层，防止过拟合。通过全连接层确定X个第三训练特征向量和Y个第四训练特征向量的相似度值。将相似度值输入匹配得分208，匹配得分208对相似度值进行判断处理，得到相似度训练分析结果。将相似度训练分析结果与用于表示第一训练内容段和第二训练内容段之间相似度的标注信息进行关联度比较，根据比较结果确定训练正确性，进而对初始模型各个层中的参数进行优化调整，以使得再重新输入第一训练内容段和第二训练内容段对初始模型进行二轮训练。在进行多轮训练后，将最终优化调整后的初始模型作为分析模型，以便于对文档之间进行相似度分析。其关联度比较过程如下：

可选的，若第一训练内容段与第二训练内容段的标注信息为1，即第一训练内容段与第二训练内容段相似，且初始模型输出的相似度值大于预设阈值时，确定相似度训练分析结果与标注信息关联，则视为训练正确。

可选的，若第一训练内容段与第二训练内容段的标注信息为0，即第一训练内容段与第二训练内容段不相似，且初始模型输出的相似度值小于预设阈值时，确定相似度训练分析结果与标注信息关联，则视为训练正确。

基于以上的训练阶段举例说明如下：

1、准备初始模型所需的训练样本数据，得到如表3所示的结构化数据:

表3

其中，“第一训练内容段a”和“第二训练内容段b”分别表示两个独立的训练内容段，“标注信息”为第一训练内容段和第二训练内容段之间相似度的类别标注信息(1为相似，0为不相似)；

2、构建初始模型，具体结构为：2个嵌入层、2个长短期记忆网络LSTM、语义匹配层。其中，嵌入层用于将第一训练内容段a转换为第一训练特征向量，将第二训练内容段b转换为第二训练特征向量。LSTM用于对第一训练特征向量和第二训练特征向量进行记忆处理，且将第一训练特征向量转换为第三训练特征向量，将第二训练特征向量转换为第四训练特征向量。语义匹配层包括：拼接层、Dropout层、全连接层。拼接层用于将第三训练特征向量和第四训练特征向量进行拼接。Dropout层用于防止过拟合。全连接层可以使用激活函数Relu函数和Softmax函数，用于确定第三训练特征向量和第四训练特征向量的相似度值。

3、对上述初始模型进行训练的具体过程可以为，获取第一训练内容段a对应的第一训练特征向量以及第一训练内容段b对应的第二训练特征向量，将上述第一训练特征向量与第二训练特征向量输入至模型中，得到第一训练内容段a与第二训练内容段b之间的相似度训练分析结果。将相似度训练分析结果与标注信息进行比对，得到一轮训练结果，依据上述方式对模型进行多轮训练，当正确率高于预设阈值时，确定对于初始模型的训练完成。其中，对于相似的第一训练内容段a和第二训练内容段b，当初始模型输出的相似度值大于预设阈值时，确定训练正确；对于不相似的第一训练内容段a和第二训练内容段b，当初始模型输出的相似度值小于预设阈值时，确定训练正确。

请参见图4，是本申请提供的一种文档分析装置的结构示意图。如图4所示，该文档分析装置40可以包括：获取模块401、拆分模块402、处理模块403、选择模块404以及确认模块405；

获取模块401，用于获取待分析的第一文档和第二文档。

拆分模块402，用于将所述第一文档拆分成M个内容段，将所述第二文档拆分成N个内容段，所述M和N为正整数。

处理模块403，用于将所述M个内容段与所述N个内容段输入到分析模型，并获取所述分析模型输出的相似度分析结果，所述相似度分析结果包括M组相似度值，由所述分析模型分析得到的所述M个内容段中任意一个内容段与N个内容段中每一个内容段之间的相似度值构成一组相似度值。

选择模块404，用于从所述相似度分析结果包括的M组相似度值中选择P个相似度值，其中，P为正整数。

确定模块405，用于根据所述P个相似度值，确定所述第一文档和所述第二文档之间的相似度。

在一个实施例中，所述拆分模块402，用于根据目标符号组对所述第一文档进行内容分析，确定在所述第一文档中的分段拆分位置信息，并根据所述分段拆分位置信息将第一文档拆分成M个内容段；根据目标符号组对所述第二文档进行内容分析，确定在所述第二文档中的分段拆分位置信息，并根据所述分段拆分位置信息将第二文档拆分成N个内容段；所述目标符号组包括：句号与回车符号构成的符号组、问号与回车符号构成的符号组和感叹号与回车符号构成的符号组中的任意一个或多个。

在一个实施例中，所述处理模块403，用于将所述M个内容段与所述N个内容段分别输入所述分析模型的第一嵌入层和所述分析模型的第二嵌入层；通过所述分析模型的第一嵌入层，将所述M个内容段转换为M个第一特征向量；通过所述分析模型的第二嵌入层，将所述N个内容段转换为N个第二特征向量；通过所述分析模型的两个长短期记忆网络LSTM分别对所述M个第一特征向量和所述N个第二特征向量进行记忆处理，获得M个第三特征向量和N个第四特征向量；通过所述分析模型的语义匹配层将所述M个第三特征向量和所述N个第四特征向量输入所述分析模块的语义匹配层，得到所述分析模型输出的相似度分析结果。

在一个实施例中，所述分析模型的语义匹配层包括：拼接层、随机失活Dropout层和全连接层，所述拼接层用于将所述M个第三特征向量和所述N个第四特征向量进行拼接，所述Dropout层用于防止过拟合，所述全连接层用于确定所述M个第三特征向量和所述N个第四特征向量的相似度值，以便于根据所述全连接层确定的相似度值得到相似度分析结果。

在一个实施例中，P＝M，所述选择模块404，用于从所述相似度分析结果包括的M组相似度值的每一组相似度值中选择最大相似度值，得到M个最大相似度值。

在一个实施例中，所述确定模块405，用于将所述P个相似度值进行求平均处理，得到所述第一文档和所述第二文档之间的相似度值。

在一个实施例中，所述装置还可以包括：训练模块406，所述训练模块406，用于获取训练样本，所述训练样本包括第一训练文档、第二训练文档，所述第一训练文档包括X个第一训练内容段，所述第二训练文档包括Y个第二训练内容段；将所述第一训练文档包括的X个第一训练内容段、所述第二训练文档包括的Y个第二训练内容段、以及用于表示第一训练内容段和第二训练内容段之间相似度的标注信息输入到初始模型中，并获取所述初始模型输出的相似度训练分析结果；根据所述相似度训练分析结果与标注信息之间的关联度，对所述初始模型进行优化更新。

本发明实施例中，各个模块的具体实现可参考前述各实施例中相关内容的描述，不再赘述。

再请参见图5，是本发明实施例的一种智能终端的结构示意图，本发明实施例的智能终端可以为服务器，也可以为智能手机、个人电脑、平板电脑、智能可穿戴设备等。本发明实施例的所述智能终端可以包括存储装置501和处理器502，当然还可以包括网络接口503、通信接口504等用于交互数据的接口。还可以包括诸如电源模块、USB数据接口等接口模块。

所述存储装置501可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储装置501也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，固态硬盘(solid-state drive，SSD)等；存储装置501还可以包括上述种类的存储器的组合。

所述处理器502可以是中央处理器(central processing unit，CPU)。所述处理器502还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)等。上述PLD可以是现场可编程逻辑门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic，GAL)等。

所述网络接口503可以是各类接入到计算机网络的接口，所述通信接口904可以是移动通信接口504，能够接入4G/5G等移动通信网络。

可选地，所述存储装置501还用于存储计算机程序。所述处理器502可以调用所述计算机程序，实现如本申请图1a和图3实施例中所示的文档分析方法。

在一个实施例中，所述处理器502，调用所述存储装置中存储的计算机程序，用于获取待分析的第一文档和第二文档；将所述第一文档拆分成M个内容段，将所述第二文档拆分成N个内容段，所述M和N为正整数；将所述M个内容段与所述N个内容段输入到分析模型，并获取所述分析模型输出的相似度分析结果，所述相似度分析结果包括M组相似度值，由所述分析模型分析得到的所述M个内容段中任意一个内容段与N个内容段中每一个内容段之间的相似度值构成一组相似度值；从所述相似度分析结果包括的M组相似度值中选择P个相似度值，其中，P为正整数；根据所述P个相似度值，确定所述第一文档和所述第二文档之间的相似度。

在一个实施例中，所述处理器502，用于根据目标符号组对所述第一文档进行内容分析，确定在所述第一文档中的分段拆分位置信息，并根据所述分段拆分位置信息将第一文档拆分成M个内容段；根据目标符号组对所述第二文档进行内容分析，确定在所述第二文档中的分段拆分位置信息，并根据所述分段拆分位置信息将第二文档拆分成N个内容段；所述目标符号组包括：句号与回车符号构成的符号组、问号与回车符号构成的符号组和感叹号与回车符号构成的符号组中的任意一个或多个。

在一个实施例中，所述处理器502，用于将所述M个内容段与所述N个内容段分别输入所述分析模型的第一嵌入层和所述分析模型的第二嵌入层；通过所述分析模型的第一嵌入层，将所述M个内容段转换为M个第一特征向量；通过所述分析模型的第二嵌入层，将所述N个内容段转换为N个第二特征向量；通过所述分析模型的两个长短期记忆网络LSTM分别对所述M个第一特征向量和所述N个第二特征向量进行记忆处理，获得M个第三特征向量和N个第四特征向量；通过所述分析模型的语义匹配层将所述M个第三特征向量和所述N个第四特征向量输入所述分析模块的语义匹配层，得到所述分析模型输出的相似度分析结果。

在一个实施例中，所述分析模块的语义匹配层包括：拼接层、随机失活Dropout层和全连接层，所述拼接层用于将所述M个第三特征向量和所述N个第四特征向量进行拼接，所述Dropout层用于防止过拟合，所述全连接层用于确定所述M个第三特征向量和所述N个第四特征向量的相似度值，以便于根据所述全连接层确定的相似度值得到相似度分析结果。

在一个实施例中，P＝M，所述处理器502，用于从所述相似度分析结果包括的M组相似度值的每一组相似度值中选择最大相似度值，得到M个最大相似度值。

在一个实施例中，所述处理器502，用于将所述P个相似度值进行求平均处理，得到所述第一文档和所述第二文档之间的相似度值。

在一个实施例中，所述处理器502，还用于获取训练样本，所述训练样本包括第一训练文档、第二训练文档，所述第一训练文档包括X个第一训练内容段，所述第二训练文档包括Y个第二训练内容段；将所述第一训练文档包括的X个第一训练内容段、所述第二训练文档包括的Y个第二训练内容段、以及用于表示第一训练内容段和第二训练内容段之间相似度的标注信息输入到初始模型中，并获取所述初始模型输出的相似度训练分析结果；根据所述相似度训练分析结果与标注信息之间的关联度，对所述初始模型进行优化更新。

此外，这里需要指出的是：本申请还提供了一种计算机可读存储介质，且所述计算机可读存储介质中存储有前文提及的文档分析装置40所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图1a和图3中任一个所对应实施例中对所述数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明的部分实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

20页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种基于NER和NLU的骚扰信息判断方法及系统

一种文档分析方法、装置及智能终端、存储介质

相关技术

网友询问留言