语义搭配词检查方法

文档序号：1889948 发布日期：2021-11-26 浏览：12次 >En<

阅读说明：本技术 语义搭配词检查方法 (Semantic collocation word checking method ) 是由谈辉张硕谢振平夏振涛李艳朱立烨于 2021-08-18 设计创作，主要内容包括：本发明提供一种语义搭配词检查方法,包括：对文章数据集进行搭配词提取,建立搭配词典；将待判断文本转化为文本向量；将文本向量输入深度学习模型,所述深度学习模型将文本向量输入编码器进行编码,将编码后的向量经过全连接层处理,得到文本的判断结果；若判断输入的待判断文本中搭配词搭配正确,则输出判断结果为正确。本发明的语义搭配词检查方法,其检错准确率、检错召回率、检错F值和检错正确率均可以达到90％以上。(The invention provides a semantic collocations word checking method, which comprises the following steps: extracting collocation words from the article data set, and establishing a collocation dictionary; converting the text to be judged into a text vector; inputting the text vector into a deep learning model, inputting the text vector into an encoder for encoding by the deep learning model, and processing the encoded vector through a full connection layer to obtain a judgment result of the text; if the matching word in the input text to be judged is correctly matched, the judgment result is output to be correct. The semantic collocation word checking method can achieve more than 90% of error detection accuracy, error detection recall rate, error detection F value and error detection accuracy.)

语义搭配词检查方法

技术领域

本发明涉及计算机领域，尤其涉及一种语义搭配词检查方法。

背景技术

随着互联网以及人工智能领域的快速发展，人们的生活与工作越来越多的与互联网联系在一起，并渴望机器能更深层地理解自然语言文本，希望在人机对话、机器翻译、语言教学等方面得到满意的服务。

在日常交往场景下，人们对词语搭配的准确性要求不高，因为受社会发展、网络流行、社会环境等因素影响，人们在日常交往中也会使用非标准的搭配组合。但是，搭配不当仍会导致交际沟通不畅的问题。

在特定场景下，比如工作汇报和公文写作，对当前语境中的搭配准确度都有很高的要求。现在针对文本字词纠错、语法结构校对的研究较多，针对词语搭配的研究较少，并且词语搭配的研究相对复杂，因此需要研究针对词语搭配关系的校对方法。

因此，有必要提供一种新的技术方案。

发明内容

为解决现有技术中存在的技术问题，本发明公开了一种语义搭配词检查方法，其检错准确率、检错召回率、检错F值和检错正确率均可以达到 90％以上。具体技术方案如下所述：

本发明提供一种语义搭配词检查方法，包括：

对多篇文章构成的数据集进行搭配词提取，建立搭配词典；

将待判断文本转化为文本向量；

将文本向量输入深度学习模型，所述深度学习模型将文本向量输入编码器进行编码，将编码后的向量经过全连接层处理，得到文本的判断结果；

若判断输入的待判断文本中搭配词搭配正确，则输出判断结果为正确。则。

进一步地，筛选并判断搭配词是否符合条件，具体采用如下公式(1) 来筛选搭配词：

其中，w为一个基础词，w_i为基础词的搭配词，freq_i为基础词w与它的搭配词w_i的频率，为该基础词的平均频率，为搭配词(w，w_i)在距离j上出现的次数，为搭配词(w，w_i)在所有距离上出现次数的平均值，所述可以衡量搭配词分布的均匀程度；

通过如下公式(2)判断搭配词(w，w_i)是否合理的三个条件是：

其中，k₀、k₁和U₀是自定义的阈值；

若搭配词(w，w_i)同时满足公式(2)时，则判断搭配词成立，并将成立的搭配词加入搭配词典，建立搭配词典知识库

进一步地，若待判断文本为长句，则将长句分割为多个短句存储在列表中，将列表中多个短句依次转化为短文本向量。

进一步地，将多个短文本向量依次输入深度学习模型，所述深度学习模型将短文本向量依次输入编码器进行编码，将编码后的短文本向量经过全连接层处理，得到短句的判断结果。

进一步地，若判断输入的至少一个短文本中含有搭配词错误，则输出判断结果错误。

进一步地，若判断输入的所有短文本中搭配词正确，则将多个短句依次拼接为原待判断文本，输出判断结果为正确。

进一步地，所述深度学习模型为已训练好的深度学习模型 CMM-ERNIE

进一步地，对模型的性能进行评价，具体采用如下公式(3)-(6)对模型输出结果进行评价：

其中，(P)为搭配精准率；(R)为搭配召回率；搭配F值；(A)为搭配准确率；(TP)记为真正例，实际为正预测为正；(FP)为假正例，实际为负但预测为正；(FN)为假反例，实际为正但预测为负；(TN)为真反例，实际为负预测为负。

本发明具有以下有益效果：

本发明的语义搭配词检查方法，其检错准确率、检错召回率、检错F 值和检错正确率均可以达到90％以上。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1本发明语义搭配词检查方法的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本发明将中文语境限定在公文领域，从网站上获取新闻报告、公文文本等语料。使用Frank Smadja在论文“Retrieving collocations from text:Xtract”中提出的Smadja算法进行搭配抽取，设定基础词统计候选搭配词的距离d＝5，经过统计学筛选后，将搭配组合保存到Excel表格。将正确的公文语料作为正样本，将正确的公文语料中的搭配词进行随机搭配词替换后，得到负样本。该语料属于公文性质语料，语法结构标准，搭配用词规范，符合本实验要求。

本发明提供一种语义搭配词检查方法，包括：构建词典→CMM策略结合词典进行遮蔽，构建模型训练所用数据集→训练模型→得到训练好的模型→将待判断文本输入模型→模型判断输入文本中是否含有搭配错误→输出。本发明提供一种语义搭配词检查方法，具体包括如下：

1、搭配抽取

在同一语境下，搭配词语之间存在一定关联，这种关联存在于相互位置、词语语义等信息中心，本文以党政公文语料为数据集，采用Smadja算法作为词语搭配提取的主要方法，以此构建词语搭配的知识库。需要说明的本发明中的数据集由多篇文章构成的数据集合。

Smadja提出了三个条件来筛选合理的搭配词。

记一个基础词w与它的搭配词w_i的频率是freq_i，该基础词的平均频率为为搭配词(w，w_i)在距离j上出现的次数，为搭配词(w，w_i)在所有距离上出现次数的平均值，即公式(1)：

公式(1)得到的可以衡量搭配分布的均匀程度，并作为公式(2)的变量计算筛选条件。

判断搭配词语(w，w_i)是否合理的三个条件是：

其中，公式(2)中，k₀、k₁和U₀是自定义的阈值，这里按照经验定义为,k₀＝1、k₁＝1和U₀＝10。当搭配同时满足公式(2)中的三个条件时，视为搭配成立，并将其加入搭配词典，以此建立搭配词典知识库。

2、搭配判断

在自然语言处理领域中，常见的Mask遮蔽策略有两种，用于处理非定长输入序列的Padding-mask，用于防止标签信息泄露的Seqence-mask。本发明提出针对搭配词判别的MASK遮蔽策略Collocation-mid-mask(下文简称CMM)，该策略对距离大于1的搭配组合进行了搭配组合中部信息的遮蔽。

CMM遮蔽策略从统计学提取出的搭配组合中，根据词典搭配信息，筛选出距离大于1的搭配组合，将基础词和搭配词中间的字词进行Mask遮蔽。在汉语中，基础词与搭配词中间的字词，往往是助词、介词、副词和搭配词的修饰词，所以基础词与搭配词中间的字词信息在搭配组合判断时是不重要的，进行遮蔽后，自注意力机制可以将更多的注意力分配给搭配组合的上下文信息，并且更好的利用句子中的先验知识。

模型训练：本文使用CMM遮蔽策略结合已构建完成的词典处理语料库构建数据集进行模型训练，采用百度提出的ERNIE-1.0深度学习模型作为模型架构基础，训练模型后保存，并将其命名为CMM-ERNIE。

如图1所示，搭配判断具体流程如下：例如，以“转变经济发展方式，优化经济结构”为待判断文本，过长文本将被分割为短句存储在列表中，得到[“转变经济方式”，“优化经济结构”]，将列表中的短文本依次转化为能反映文本特征的向量，通过已训练好的深度学习模型CMM-ERNIE进行搭配判断，模型接收文本向量，将文本向量输入编码器进行基于多头注意力机制的编码，编码后的向量经过全连接层处理后，得到短句的判断结果，判断结果为正确/错误，即该短句中是否含有搭配错误。依次输入并判断列表中短句是否有搭配错误，若短句列表中有至少一个短句有搭配错误，则认为输入的长句有搭配错误。将短句从前到后依次拼接为原来的长句。输出长句的判断结果为正确/错误，本例为正确。

3、实验分析

经上述已训练好的深度学习模型CMM-ERNIE判断后输出的结果为长句中是否有搭配错误，即输出为正确或错误。主要以模型评价指标中的“检错正确率”来判断结果的好坏。

本文采用搭配精准率(P)、搭配召回率(R)、搭配F值和搭配准确率(A)四项作为对CMM-ERNIE模型性能的评价指标。记真正例为(TP)，实际为正预测为正；假正例为(FP)，实际为负但预测为正；假反例(FN)，实际为正但预测为负；真反例(TN)，实际为负预测为负，其计算公式如下：

根据上述评价指标，经过实验得到实验结果，实验结果如表1所示。

表1实验结果比较

Table 1 Comparison of experimental results

由表1可知，本发明的语义搭配词检查方法，其检错准确率、检错召回率、检错F值和检错正确率均可以达到90％以上。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外，本领域人员可以将本说明书中描述的不同实施例或示例进行接合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改和变型。

9页详细技术资料下载

语义搭配词检查方法

相关技术

网友询问留言