一种基于双层数据格式的语义识别方法及系统

文档序号：169368 发布日期：2021-10-29 浏览：14次 >En<

阅读说明：本技术 一种基于双层数据格式的语义识别方法及系统 (Semantic recognition method and system based on double-layer data format ) 是由倪亚晖武斌赵锦春林雪于 2021-08-26 设计创作，主要内容包括：本发明公开了一种基于双层数据格式的语义识别方法及系统,根据第一格式转化指令将第一标准文献进行格式转化,获得第一转化结果,通过第一语语义解析指令将第一层格式数据进行数据解析,获得第一解析结果；将第二层格式数据进行初步段落划分,获得第一划分结果；通过第一词性解析指令对第一划分结果进行基于词性的组合划分,获得第二划分结果；通过第一词频聚类指令对第一划分结果进行词频组合聚类,获得第三划分结果；将第二划分结果、第三划分结果和第一解析结果输入类神经网络数据模型,获得第一语义识别结果。解决了现有技术中对文本解析的过程中存在不能根据文本的特性,进行智能化解析,进而导致解析不够智能准确的技术问题。(The invention discloses a semantic identification method and a semantic identification system based on a double-layer data format.A first standard document is subjected to format conversion according to a first format conversion instruction to obtain a first conversion result, and data analysis is carried out on first-layer format data through a first semantic analysis instruction to obtain a first analysis result; carrying out primary paragraph division on the second layer format data to obtain a first division result; performing part-of-speech-based combined division on the first division result through the first part-of-speech analysis instruction to obtain a second division result; performing word frequency combination clustering on the first division result through the first word frequency clustering instruction to obtain a third division result; and inputting the second division result, the third division result and the first analysis result into a neural network data model to obtain a first semantic recognition result. The method and the device solve the technical problem that in the prior art, intelligent analysis cannot be performed according to the characteristics of the text in the text analysis process, and further analysis is not intelligent and accurate enough.)

技术领域

本发明涉及语义解析算法相关领域，尤其涉及一种基于双层数据格式的语义识别方法及系统。

背景技术

语义分析(SemanticAnalysis)是人工智能的一个分支，是自然语言处理技术的几个核心任务，涉及语言学、计算语言学、机器学习，以及认知语言等多个学科，语义分析任务有助于促进其他自然语言处理任务的快速发展，人工智能中的语义分析技术，已经在图像识别、语音识别等多个领域取得了突破性进展。

语义分析指运用各种方法，学习与理解一段文本所表示的语义内容，任何对语言的理解都可以归为语义分析的范畴，语义分析关注通过建立有效的模型和系统，实现各个语言单位的自动语义分析，从而实现理解整个文本表达的真实语义，例如获取或区别单词的语义，从而解决文本处理中的同义词和一词多义的问题。

但本申请发明人在实现本申请实施例中发明技术方案的过程中，发现上述技术至少存在如下技术问题：

现有技术中对文本解析的过程中存在不能根据文本的特性，进行智能化解析，进而导致解析不够智能准确的技术问题。

发明内容

本申请实施例通过提供一种基于双层数据格式的语义识别方法及系统，解决了现有技术中对文本解析的过程中存在不能根据文本的特性，进行智能化解析，进而导致解析不够智能准确的技术问题，达到根据文本特性，对文本进行双层格式解析和校验，获得更加智能准确的解析结果的技术效果。

鉴于上述问题，提出了本申请实施例提供一种基于双层数据格式的语义识别方法及系统。

第一方面，本申请提供了一种基于双层数据格式的语义识别方法，其中，所述方法包括：获得第一格式转化指令，根据所述第一格式转化指令将第一标准文献进行格式转化，获得第一转化结果，其中，所述第一转化结果包括第一层格式数据和第二层格式数据，且所述第一层格式数据与所述第二层格式数据不同；获得第一语义解析指令，通过所述第一语语义解析指令将所述第一层格式数据进行数据解析，获得第一解析结果；获得第一段落划分指令，根据所述第一段落划分指令将所述第二层格式数据进行初步段落划分，获得第一划分结果；获得第一词性解析指令，通过所述第一词性解析指令对所述第一划分结果进行基于词性的组合划分，获得第二划分结果；获得第一词频聚类指令，通过所述第一词频聚类指令对所述第一划分结果进行词频组合聚类，获得第三划分结果；将所述第二划分结果、第三划分结果和所述第一解析结果输入类神经网络数据模型，获得第一语义识别结果。

另一方面，本申请还提供了一种基于双层数据格式的语义识别系统，所述系统包括：第一获得单元，所述第一获得单元用于获得第一格式转化指令，根据所述第一格式转化指令将第一标准文献进行格式转化，获得第一转化结果，其中，所述第一转化结果包括第一层格式数据和第二层格式数据，且所述第一层格式数据与所述第二层格式数据不同；第二获得单元，所述第二获得单元用于获得第一语义解析指令，通过所述第一语语义解析指令将所述第一层格式数据进行数据解析，获得第一解析结果；第三获得单元，所述第三获得单元用于获得第一段落划分指令，根据所述第一段落划分指令将所述第二层格式数据进行初步段落划分，获得第一划分结果；第四获得单元，所述第四获得单元用于获得第一词性解析指令，通过所述第一词性解析指令对所述第一划分结果进行基于词性的组合划分，获得第二划分结果；第五获得单元，所述第五获得单元用于获得第一词频聚类指令，通过所述第一词频聚类指令对所述第一划分结果进行词频组合聚类，获得第三划分结果；第六获得单元，所述第六获得单元用于将所述第二划分结果、第三划分结果和所述第一解析结果输入类神经网络数据模型，获得第一语义识别结果。

第三方面，本发明提供了一种基于双层数据格式的语义识别系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现第一方面所述方法的步骤。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

由于采用了获得第一格式转化指令，根据所述第一格式转化指令将第一标准文献进行格式转化，获得第一转化结果，其中，所述第一转化结果包括第一层格式数据和第二层格式数据，且所述第一层格式数据与所述第二层格式数据不同；获得第一语义解析指令，通过所述第一语语义解析指令将所述第一层格式数据进行数据解析，获得第一解析结果；获得第一段落划分指令，根据所述第一段落划分指令将所述第二层格式数据进行初步段落划分，获得第一划分结果；获得第一词性解析指令，通过所述第一词性解析指令对所述第一划分结果进行基于词性的组合划分，获得第二划分结果；获得第一词频聚类指令，通过所述第一词频聚类指令对所述第一划分结果进行词频组合聚类，获得第三划分结果；将所述第二划分结果、第三划分结果和所述第一解析结果输入类神经网络数据模型，获得第一语义识别结果，通过双层语义解析和划分，对文本进行智能化解析和校验，达到根据文本特性，对文本进行双层格式解析和校验，获得更加智能准确的解析结果的技术效果。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的

具体实施方式

。

附图说明

图1为本申请实施例一种基于双层数据格式的语义识别方法的流程示意图；

图2为本申请实施例一种基于双层数据格式的语义识别方法的获得第一划分结果的流程示意图；

图3为本申请实施例一种基于双层数据格式的语义识别方法的获得第一语义识别结果的流程示意图；

图4为本申请实施例一种基于双层数据格式的语义识别方法的对动词分析的流程示意图；

图5为本申请实施例一种基于双层数据格式的语义识别方法的对动词进一步分析的流程示意图；

图6为本申请实施例一种基于双层数据格式的语义识别方法的标准文献集合处理的流程示意图；

图7为本申请实施例一种基于双层数据格式的语义识别系统的模型构建的流程示意图；

图8为本申请实施例一种基于双层数据格式的语义识别系统的结构示意图；

图9为本申请实施例示例性电子设备的结构示意图。

附图标记说明：第一获得单元11，第二获得单元12，第三获得单元13，第四获得单元14，第五获得单元15，第六获得单元16，电子设备50，处理器51，存储器52，输入装置53，输出装置54。

具体实施方式

本申请实施例通过提供一种基于双层数据格式的语义识别方法及系统，解决了现有技术中对文本解析的过程中存在不能根据文本的特性，进行智能化解析，进而导致解析不够智能准确的技术问题，达到根据文本特性，对文本进行双层格式解析和校验，获得更加智能准确的解析结果的技术效果。下面结合附图，对本申请的实施例进行描述。本领域普通技术人员可知，随着技术的发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本申请的说明书和权利要求书及上述附图中的术语“第一”、第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

申请概述

语义分析指运用各种方法，学习与理解一段文本所表示的语义内容，任何对语言的理解都可以归为语义分析的范畴，语义分析关注通过建立有效的模型和系统，实现各个语言单位的自动语义分析，从而实现理解整个文本表达的真实语义，例如获取或区别单词的语义，从而解决文本处理中的同义词和一词多义的问题。现有技术中对文本解析的过程中存在不能根据文本的特性，进行智能化解析，进而导致解析不够智能准确的技术问题。

针对上述技术问题，本申请提供的技术方案总体思路如下：

本申请实施例提供了一种基于双层数据格式的语义识别方法，其中，所述方法包括：获得第一格式转化指令，根据所述第一格式转化指令将第一标准文献进行格式转化，获得第一转化结果，其中，所述第一转化结果包括第一层格式数据和第二层格式数据，且所述第一层格式数据与所述第二层格式数据不同；获得第一语义解析指令，通过所述第一语语义解析指令将所述第一层格式数据进行数据解析，获得第一解析结果；获得第一段落划分指令，根据所述第一段落划分指令将所述第二层格式数据进行初步段落划分，获得第一划分结果；获得第一词性解析指令，通过所述第一词性解析指令对所述第一划分结果进行基于词性的组合划分，获得第二划分结果；获得第一词频聚类指令，通过所述第一词频聚类指令对所述第一划分结果进行词频组合聚类，获得第三划分结果；将所述第二划分结果、第三划分结果和所述第一解析结果输入类神经网络数据模型，获得第一语义识别结果。

在介绍了本申请基本原理后，下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式。

实施例一

如图1所示，本申请实施例提供了一种基于双层数据格式的语义识别方法，其中，所述方法包括：

步骤S100：获得第一格式转化指令，根据所述第一格式转化指令将第一标准文献进行格式转化，获得第一转化结果，其中，所述第一转化结果包括第一层格式数据和第二层格式数据，且所述第一层格式数据与所述第二层格式数据不同；

具体而言，所述第一格式转化指令为对待解析的文献进行格式转化的指令，所述第一格式转化指令至少控制所述标准文献转化为两种格式，即所述第一层格式数据和所述第二层格式数据，且所述第一层格式数据与所述第二层格式数据的格式不同，优选的，所述第一层格式数据为文本数据，所述第二层格式数据为PDF数据，所述第一标准文献为待解析的文件，所述文件可通过扫描获得，将所述第一标准文献进行格式转化，获得所述第一转化结果。通过所述第一格式转化指令，将待处理的文献进行初步的双层格式转化，为后续进行进一步的文本解析奠定了基础。

步骤S200：获得第一语义解析指令，通过所述第一语语义解析指令将所述第一层格式数据进行数据解析，获得第一解析结果；

具体而言，所述第一语义解析指令为对文本进行解析的指令，根据所述第一层格式数据进行语义的解析，所述语义解析的过程为智能读取的过程，通过解析的文本信息，对公式、图片、文本进行对应的语义词典的构建，基于所述文本内容对所述第一层格式数据进行初步的语义解析，获得所述第一解析结果。

步骤S300：获得第一段落划分指令，根据所述第一段落划分指令将所述第二层格式数据进行初步段落划分，获得第一划分结果；

具体而言，所述第一段落划分指令为对第二层格式数据进行初步的段落分类的指令，根据PDF文本中的段落特征，依据特征的捕捉结果，对所述第二层格式数据进行基于段落的初步划分，进一步的，所述段落划分还包括对公式、图片、标注、注释、标题、索引进行划分的过程，根据所述划分的结果，获得所述第一划分结果。通过对所述第二层格式数据进行初步的解析，使得所述第二格式数据的段落划分准确，为后续获得更加准确的语义的解析结果夯实了基础。

步骤S400：获得第一词性解析指令，通过所述第一词性解析指令对所述第一划分结果进行基于词性的组合划分，获得第二划分结果；

具体而言，所述词性的解析为根据文字的可组合信息，依据文章阐述的内容，对文字进行组合和聚类的过程。首先对文章中出现的文字进行词性判断，一般而言，所述词性包括：名词、动词、形容词、数量词、代词、副词、介词、连词、叹词、助词、拟声词等。进一步来说，在根据词性组合进行组合划分后，还可进行进一步的划分，即根据词汇在段落中的作用，如主语部分、谓语动词部分、宾语部分、定语部分、状语部分等，获得所述第二划分结果。通过对所述第二层格式数据进行基于词性的划分，使得文章的后续的解析词性清晰，可获得更加准确的解析结果的技术效果。

步骤S500：获得第一词频聚类指令，通过所述第一词频聚类指令对所述第一划分结果进行词频组合聚类，获得第三划分结果；

具体而言，所述第一词频聚类指令为控制对文字进行高频词汇组合的指令，即通过大数据检索，基于出现的热点的词汇，高频的词汇，各种谐音、恶搞的文字梗等组合，进行非考量文章内容，依据热点词汇进行相邻文字组合的过程，通过所述第一词频聚类指令，对所述第一划分结果进行词频的组合聚类，获得所述第三划分结果。

步骤S600：将所述第二划分结果、第三划分结果和所述第一解析结果输入类神经网络数据模型，获得第一语义识别结果。

具体而言，所述类神经网络数据模型为机器学习中的神经网络模型，通过建立丰富的词汇资源库，对所述第二划分结果、所述第三划分结果和所述第一解析结果的比对分析，对所述段落表述的含义进行深度剖析，结合文章表述的主旨，对所述第二划分结果和所述第三划分结果展现出的语义进行比对处理，根据比对结果获得最终的语义解析的概率，基于所述概率选择最终的语义识别结果，即所述第一语义识别结果。通过对多种组合下的语义的选择，比对文本释义结果和PDF格式下的释义结果，进行最终的语义解析，使得获得的语义解析结果更加的准确，进而达到根据文本特性，对文本进行双层格式解析和校验，获得更加智能准确的解析结果的技术效果。

进一步而言，如图2所示，本申请实施例步骤S300还包括：

步骤S310：通过大数据获得标准文献数据集合，基于所述标准文献数据集合进行格式特征筛选，获得第一主题格式、第一标题格式和第一正文格式；

步骤S320：通过所述第一主题格式、所述第一标题格式和所述第一正文格式对所述第二层格式数据进行格式的划分，获得所述第一划分结果。

具体而言，所述标准文献数据集合为与所述待解析的文件相同种类/相同作者/相同科目下的文件的数据集合，且所述数据集合为所述第二层格式数据，根据所述第二层格式数据进行数据的分析，对所述标准文献集合中进行格式特征的提取，进一步来说，将所述标准文献数据集合中的文献进行相同大小缩放后，进行主题格式、标题格式、正文格式的特征筛选和提取。根据所述筛选和提取结果获得所述第一正文格式、所述第一主题格式、所述第一标题格式，在进行所述第二层格式数据的初步段落划分的过程中，将所述第二层格式数据缩放至相同大小比例后，依据所述第一主题格式、第一标题格式、第一正文格式的特征，进行格式划分，获得所述第一划分结果。

进一步的，如图3所示，所述将所述第二划分结果、第三划分结果和所述第一解析结果输入类神经网络数据模型，获得第一语义识别结果，本申请实施例步骤S600还包括：

步骤S610：当所述第二划分结果和所述第三划分结果不一致时，获得第一语义分析指令；

步骤S620：通过所述第一语义分析指令对所述第二划分结果和所述第三划分结果进行语义分析，获得第一释义结果和第二释义结果；

步骤S630：当所述第一释义结果和所述第二释义结果出现不同时，获得第一关键词及所述第一关键词的位置信息；

步骤S640：将所述第一关键词和所述位置信息输入第一位置偏向分析模型，获得第一标识结果；

步骤S650：通过所述第一标识结果和所述第一解析结果获得所述第一语义识别结果。

具体而言，当所述第三划分结果和所述第二划分结果的划分结果不一致时，此时表明可能文章存在异译，此时获得第一语义分析指令，通过所述第一语义分析指令，对所述第二划分结果下和所述第三划分结果下的段落释义进行分析，获得所述第一释义结果和所述第二释义结果，判断所述第一释义结果和所述第二释义结果是否相同。当所述第一释义结果与所述第一释义结果不同时，则所述第二划分结果和所述第三划分结果下的段落释义不同，此时获得导致释义出现分歧的关键词信息，并获得所述关键词的位置信息，根据所述导致文章出现异译的词类组合输入第一偏向分析模型，所述第一位置偏向分析模型为根据所述关键词的位置信息，结合文章的段落大意，对关键词的位置、组合进行偏向性分析的模型，基于所述偏向性分析模型，获得第一标识结果，通过所述第一标识结果和所述第一解析结果获得所述第一语义识别结果。通过对关键词的组合、位置进行偏向性分析，使得所述导致异译的词汇的位置分布分析结果更加准确，进而获得更加准确的文章释义。

进一步的，如图4所示，本申请实施例步骤S630还包括：

步骤S631：根据所述第一关键词获得第一语句；

步骤S632：获得第一语句分析指令，通过所述第一语句分析指令将所述第一语句进行词性标注，获得第一词性标注结果；

步骤S633：获得第一判断指令，通过所述第一判断指令判断所述第一词性标注结果中的动词标注结果是否唯一；

步骤S634：当所述动词标注结果不唯一时，对所述不唯一的动词标注结果进行核实，当核实无误后，对所述动词标注结果进行预定关系提取，获得第一提取结果；

步骤S635：根据所述第一提取结果获得所述第一语义识别结果。

具体而言，当所述第一释义结果和所述第二释义结果出现不同意思时，此时根据所述第一关键词获得所述关键词所在的第一语句，对所述第一语句进行深度的解析，首先对所述第一语句中的动词进行判定，即获得所述第一语句中的动词的数量，判断所述第一语句中的动词数量是否唯一，当所述第一语句中的动词数量不唯一时，则所述第一语句至少存在2个动词，对所述动词的信息进行核实，当所述动词信息核实无误后，则依据预定关系对所述动词标注结果进行提取，获得第一提取结果。进一步来说，所述预定关系提取的过程为提取所述第一语句中对应的主语、谓语、宾语的过程，即根据所述标注的动词，获得所述动词的主语和作用对象，对每个动词进行主谓宾的提取，来简化语句的分析逻辑，保留段落的主旨含义，以此来获得所述第一语义识别结果。通过所述动词关系提取，对歧义语句进行简化提取，达到获得所述第一语义识别结果更加准确的技术效果。

进一步而言，如图5所示，所述获得第一判断指令，通过所述第一判断指令判断所述第一词性标注结果中的动词标注结果是否唯一，本申请实施例步骤S633还包括：

步骤S6331：当所述动词标注结果判断唯一时，对所述动词标注结果进行预定关系提取，获得第二提取结果；

步骤S6332：获得第一全文比对指令，根据所述第一全文比对指令对所述第一关键词进行偏意校验，获得第一校验结果；

步骤S6333：将所位置信息和所述第一校验结果代入所述第二提取结果，获得所述第一语义识别结果。

具体而言，所述判断所述动词数量是否唯一的过程，当判断所述动词数量唯一时，此时表明所述第一语句中只存在一个动词，此时根据所述动词的标注信息，对所述动词进行预定关系的提取，获得所述第二提取结果，其中，所述预定关系提取仍然为对动词的主语和作用对象的提取过程。根据所述提取结果获得所述第二提取结果。获得所述第一全文比对指令，通过所述第一全文比对指令对所述产生异译的关键词进行偏意的校验，根据全文的信息对所述第一关键词出现的词义进行概率分析，依据概率获得所述第一校验结果。将所述关键词的位置信息和所述第一校验结果代入所述第二提取结果中的对应位置，对所述第一语句的释义进行进一步的分析，获得所述第一语义识别结果。通过动词的预定关系提取、偏意校验，结合关键词位置，进行语义的深度解析，进而达到使得获得的语义解析结果更加准确的技术效果。

进一步的，如图6所示，所述通过大数据获得标准文献数据集合，基于所述标准文献数据集合进行格式特征筛选，获得第一主题格式、第一标题格式和第一正文格式，本申请实施例步骤S310还包括：

步骤S311：获得第一缩放指令，根据所述第一缩放指令将所述标准文献数据集合进行标准化缩放，获得第二标准文献数据集合；

步骤S312：通过空格位置特征和空格数量特征进行特征提取，获得第一空格提取结果，其中，所述第一空格提取结果包括所述第一主题格式、所述第一标题格式、所述第一正文格式。

具体而言，对所述格式特征筛选，获得所述第一主题格式、所述第一标题格式和所述第一正文格式的过程，还包括首先对所述标准文献集合进行相同标准下的缩放，根据所述标准化的缩放结果获得第二标准文献数据集合，对所述第二标准文献集合中的空格的位置、空格的数量特征进行提取，获得第一空格提取结果。通过空格的位置特征、数量特征作为识别主题格式化、标题格式和正文格式的特征。

进一步的，如图7所示，所述将所述第二划分结果、第三划分结果和所述第一解析结果输入类神经网络数据模型，获得第一语义识别结果，本申请实施例步骤S600还包括：

步骤S660：构建所述类神经网络数据模型，其中，所述类神经网络数据模型通过多组训练数据训练获得，所述多组训练数据中的每组均包括：所述第二划分结果、所述第三划分结果、所述第一解析结果和标识语义解析结果的标识信息；

步骤S670：将所述第二划分结果、第三划分结果和所述第一解析结果输入类神经网络数据模型，获得所述第一语义识别结果。

具体而言，所述类神经网络数据模型为机器学习中的神经网络模型，它可以不断地进行学习和调整，是一个高度复杂的非线性动力学习系统。简单来说它是一个数学模型，通过大量训练数据的训练，将所述类神经网络数据模型训练至收敛状态后，基于输入数据，通过所述类神经网络数据模型进行分析可获得所述第一语义识别结果。

更进一步而言，所述训练的过程还包括监督学习的过程，每一组监督数据都包括所述第二划分结果、所述第三划分结果、所述第一解析结果和标识语义解析结果的标识信息，将所述第二划分结果、所述第三划分结果、所述第一解析结果输入到神经网络模型中，根据用来标识语义解析结果的标识信息对所述类神经网络数据模型进行监督学习，使得所述类神经网络数据模型的输出数据与监督数据一致，通过所述神经网络模型进行不断的自我修正、调整，直至获得的输出结果与所述标识信息一致，则结束本组数据监督学习，进行下一组数据监督学习；当所述神经网络模型的为收敛状态时，则监督学习过程结束。通过对所述模型的监督学习，进而使得所述模型处理所述输入信息更加准确，进而获得更加准确、合理的语义识别结果。

综上所述，本申请实施例所提供的一种基于双层数据格式的语义识别方法及系统具有如下技术效果：

1、由于采用了获得第一格式转化指令，根据所述第一格式转化指令将第一标准文献进行格式转化，获得第一转化结果，其中，所述第一转化结果包括第一层格式数据和第二层格式数据，且所述第一层格式数据与所述第二层格式数据不同；获得第一语义解析指令，通过所述第一语语义解析指令将所述第一层格式数据进行数据解析，获得第一解析结果；获得第一段落划分指令，根据所述第一段落划分指令将所述第二层格式数据进行初步段落划分，获得第一划分结果；获得第一词性解析指令，通过所述第一词性解析指令对所述第一划分结果进行基于词性的组合划分，获得第二划分结果；获得第一词频聚类指令，通过所述第一词频聚类指令对所述第一划分结果进行词频组合聚类，获得第三划分结果；将所述第二划分结果、第三划分结果和所述第一解析结果输入类神经网络数据模型，获得第一语义识别结果，通过双层语义解析和划分，对文本进行智能化解析和校验，达到根据文本特性，对文本进行双层格式解析和校验，获得更加智能准确的解析结果的技术效果。

2、由于采用了通过对关键词的组合、位置进行偏向性分析的方式，使得所述导致异译的词汇的位置分布分析结果更加准确，进而获得更加准确的文章释义的技术效果。

实施例二

基于与前述实施例中一种基于双层数据格式的语义识别方法同样发明构思，本发明还提供了一种基于双层数据格式的语义识别系统，如图8所示，所述系统包括：

第一获得单元11，所述第一获得单元11用于获得第一格式转化指令，根据所述第一格式转化指令将第一标准文献进行格式转化，获得第一转化结果，其中，所述第一转化结果包括第一层格式数据和第二层格式数据，且所述第一层格式数据与所述第二层格式数据不同；

第二获得单元12，所述第二获得单元12用于获得第一语义解析指令，通过所述第一语语义解析指令将所述第一层格式数据进行数据解析，获得第一解析结果；

第三获得单元13，所述第三获得单元13用于获得第一段落划分指令，根据所述第一段落划分指令将所述第二层格式数据进行初步段落划分，获得第一划分结果；

第四获得单元14，所述第四获得单元14用于获得第一词性解析指令，通过所述第一词性解析指令对所述第一划分结果进行基于词性的组合划分，获得第二划分结果；

第五获得单元15，所述第五获得单元15用于获得第一词频聚类指令，通过所述第一词频聚类指令对所述第一划分结果进行词频组合聚类，获得第三划分结果；

第六获得单元16，所述第六获得单元16用于将所述第二划分结果、第三划分结果和所述第一解析结果输入类神经网络数据模型，获得第一语义识别结果。

进一步的，所述系统还包括：

第七获得单元，所述第七获得单元用于通过大数据获得标准文献数据集合，基于所述标准文献数据集合进行格式特征筛选，获得第一主题格式、第一标题格式和第一正文格式；

第八获得单元，所述第八获得单元用于通过所述第一主题格式、所述第一标题格式和所述第一正文格式对所述第二层格式数据进行格式的划分，获得所述第一划分结果。

进一步的，所述系统还包括：

第九获得单元，所述第九获得单元用于当所述第二划分结果和所述第三划分结果不一致时，获得第一语义分析指令；

第十获得单元，所述第十获得单元用于通过所述第一语义分析指令对所述第二划分结果和所述第三划分结果进行语义分析，获得第一释义结果和第二释义结果；

第十一获得单元，所述第十一获得单元用于当所述第一释义结果和所述第二释义结果出现不同时，获得第一关键词及所述第一关键词的位置信息；

第十二获得单元，所述第十二获得单元用于将所述第一关键词和所述位置信息输入第一位置偏向分析模型，获得第一标识结果；

第十三获得单元，所述第十三获得单元用于通过所述第一标识结果和所述第一解析结果获得所述第一语义识别结果。

进一步的，所述系统还包括：

第十四获得单元，所述第十四获得单元用于根据所述第一关键词获得第一语句；

第十五获得单元，所述第十五获得单元用于获得第一语句分析指令，通过所述第一语句分析指令将所述第一语句进行词性标注，获得第一词性标注结果；

第十六获得单元，所述第十六获得单元用于获得第一判断指令，通过所述第一判断指令判断所述第一词性标注结果中的动词标注结果是否唯一；

第十七获得单元，所述第十七获得单元用于当所述动词标注结果不唯一时，对所述不唯一的动词标注结果进行核实，当核实无误后，对所述动词标注结果进行预定关系提取，获得第一提取结果；

第十八获得单元，所述第十八获得单元用于根据所述第一提取结果获得所述第一语义识别结果。

进一步的，所述系统还包括：

第十九获得单元，所述第十九获得单元用于当所述动词标注结果判断唯一时，对所述动词标注结果进行预定关系提取，获得第二提取结果；

第二十获得单元，所述第二十获得单元用于获得第一全文比对指令，根据所述第一全文比对指令对所述第一关键词进行偏意校验，获得第一校验结果；

第二十一获得单元，所述第二十一获得单元用于将所位置信息和所述第一校验结果代入所述第二提取结果，获得所述第一语义识别结果。

进一步的，所述系统还包括：

第二十二获得单元，所述第二十二获得单元用于获得第一缩放指令，根据所述第一缩放指令将所述标准文献数据集合进行标准化缩放，获得第二标准文献数据集合；

第二十三获得单元，所述第二十三获得单元用于通过空格位置特征和空格数量特征进行特征提取，获得第一提取结果，其中，所述第一提取结果包括所述第一主题格式、所述第一标题格式、所述第一正文格式。

进一步的，所述系统还包括：

第一构建单元，所述第一构建单元用于构建所述类神经网络数据模型，其中，所述类神经网络数据模型通过多组训练数据训练获得，所述多组训练数据中的每组均包括：所述第二划分结果、第三划分结果、所述第一解析结果和标识语义解析结果的标识信息；

第二十四获得单元，所述第二十四获得单元用于将所述第二划分结果、第三划分结果和所述第一解析结果输入类神经网络数据模型，获得所述第一语义识别结果。

前述图1实施例一中的一种基于双层数据格式的语义识别方法的各种变化方式和具体实例同样适用于本实施例的一种基于双层数据格式的语义识别系统，通过前述对一种基于双层数据格式的语义识别方法的详细描述，本领域技术人员可以清楚的知道本实施例中一种基于双层数据格式的语义识别系统的实施方法，所以为了说明书的简洁，在此不再详述。

示例性电子设备

下面参考图9来描述本申请实施例的电子设备。

图9图示了根据本申请实施例的电子设备的结构示意图。

基于与前述实施例中一种基于双层数据格式的语义识别方法的发明构思，本发明还提供一种基于双层数据格式的语义识别系统，下面，参考图9来描述根据本申请实施例的电子设备。该电子设备可以是可移动设备本身，或与其独立的单机设备，其上存储有计算机程序，该程序被处理器执行时实现前文所述方法的任一方法的步骤。

如图9所示，电子设备50包括一个或多个处理器51和存储器52。

处理器51可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备50中的其他组件以执行期望的功能。

存储器52可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器51可以运行所述程序指令，以实现上文所述的本申请的各个实施例的方法以及/或者其他期望的功能。

在一个示例中，电子设备50还可以包括：输入装置53和输出装置54，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

本发明实施例提供的一种基于双层数据格式的语义识别方法，其中，所述方法包括：获得第一格式转化指令，根据所述第一格式转化指令将第一标准文献进行格式转化，获得第一转化结果，其中，所述第一转化结果包括第一层格式数据和第二层格式数据，且所述第一层格式数据与所述第二层格式数据不同；获得第一语义解析指令，通过所述第一语语义解析指令将所述第一层格式数据进行数据解析，获得第一解析结果；获得第一段落划分指令，根据所述第一段落划分指令将所述第二层格式数据进行初步段落划分，获得第一划分结果；获得第一词性解析指令，通过所述第一词性解析指令对所述第一划分结果进行基于词性的组合划分，获得第二划分结果；获得第一词频聚类指令，通过所述第一词频聚类指令对所述第一划分结果进行词频组合聚类，获得第三划分结果；将所述第二划分结果、第三划分结果和所述第一解析结果输入类神经网络数据模型，获得第一语义识别结果。解决了现有技术中对文本解析的过程中存在不能根据文本的特性，进行智能化解析，进而导致解析不够智能准确的技术问题，达到根据文本特性，对文本进行双层格式解析和校验，获得更加智能准确的解析结果的技术效果。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令用以使得一台计算机设备执行本申请各个实施例所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从计算机可读存储介质向另计算机可读存储介质传输，所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

另外，本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应理解，在本申请实施例中，“与A相应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

总之，以上所述仅为本申请技术方案的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

19页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：基于语义理解的知识图谱构建方法、检索方法及其系统

一种基于双层数据格式的语义识别方法及系统

相关技术

网友询问留言