一种语句处理方法、装置、设备及介质

文档序号:1043309 发布日期:2020-10-09 浏览:14次 >En<

阅读说明:本技术 一种语句处理方法、装置、设备及介质 (Statement processing method, device, equipment and medium ) 是由 史斌斌 颜水成 于 2020-06-24 设计创作,主要内容包括:本申请公开了一种语句处理方法、装置、设备及介质,应用于自然语言处理技术领域,用以解决现有技术中语法纠错方法存在召回率较低、准确度较差的问题。具体为:获取待检测语句;基于语法规则错误检测模型,获得待检测语句中的语法规则错误,对语法规则错误进行纠正,得到第一纠正语句;基于词语使用错误检测分类器,获得第一纠正语句中的词语使用错误,对词语使用错误进行纠正,得到第二纠正语句;基于全局语法错误纠正模型,获得目标纠正语句。这样,通过语法规则错误检测模型、词语使用错误检测分类器和全局语法错误纠正模型,对待检测语句进行三层语法错误检测,实现了对待检测语句中语法错误的全面检测,提高了语法错误检测的召回率和准确度。(The application discloses a sentence processing method, a sentence processing device and a sentence processing medium, which are applied to the technical field of natural language processing and are used for solving the problems of low recall rate and poor accuracy of a grammar error correction method in the prior art. The method specifically comprises the following steps: acquiring a sentence to be detected; obtaining grammatical rule errors in the sentences to be detected based on the grammatical rule error detection model, and correcting the grammatical rule errors to obtain first corrected sentences; obtaining word use errors in the first corrected sentences based on the word use error detection classifier, and correcting the word use errors to obtain second corrected sentences; and obtaining a target correction statement based on the global syntax error correction model. Therefore, three-layer grammar error detection is carried out on the sentence to be detected through the grammar rule error detection model, the word use error detection classifier and the global grammar error correction model, so that the comprehensive detection of the grammar errors in the sentence to be detected is realized, and the recall rate and the accuracy of the grammar error detection are improved.)

一种语句处理方法、装置、设备及介质

技术领域

本申请涉及自然语言处理技术领域,尤其涉及一种语句处理方法、装置、设备及介质。

背景技术

语法错误纠正是指对语言文本中的语法错误进行检测并纠正,其在作文评分、语法学习等多个领域得到了广泛应用。

然而,目前的语法错误纠正方法在语法纠错过程中的召回率和准确度较低,如何提高语法纠错的召回率和准确度是当前需要考虑的问题。

发明内容

本申请实施例提供了一种语句处理方法、装置、设备及介质,用以解决现有技术中的语法纠错方法存在召回率较低、准确度较差的问题。

本申请实施例提供的技术方案如下:

一方面,本申请实施例提供了一种语句处理方法,包括:

获取待检测语句;

基于语法规则错误检测模型,对待检测语句进行语法规则错误检测,得到待检测语句中的语法规则错误,并对待检测语句中的语法规则错误进行纠正,得到第一纠正语句;

基于词语使用错误检测分类器,对第一纠正语句进行词语使用错误检测,得到第一纠正语句中的词语使用错误,并对第一纠正语句中的词语使用错误进行纠正,得到第二纠正语句;

基于全局语法错误纠正模型,对第二纠正语句进行全局语法错误纠正,得到目标纠正语句。

在一种可能的实施方式中,获取待检测语句,包括:

对待检测语言文本进行句终标点符号识别,得到待检测语言文本中的句终标点符号;

以待检测语言文本中的句终标点符号为分割点,对待检测语言文本进行分割,得到至少一个语句;

将至少一个语句中的每个语句分别确定为待检测语句。

在一种可能的实施方式中,基于语法规则错误检测模型,对待检测语句进行语法规则错误检测,得到待检测语句中的语法规则错误,包括:

基于可容错的语法规则,对待检测语句进行语法解析,得到待检测语句的语法结构数据;

将语法结构数据输入语法规则错误检测模型,得到待检测语句中的语法规则错误。

在一种可能的实施方式中,对待检测语句中的语法规则错误进行纠正,得到第一纠正语句,包括:

基于待检测语句中的语法规则错误的错误类型,获取待检测语句中的语法规则错误的错误纠正规则;

按照待检测语句中的语法规则错误的错误纠正规则,对待检测语句中的语法规则错误进行纠正,得到第一纠正语句。

在一种可能的实施方式中,基于词语使用错误检测分类器,对第一纠正语句进行词语使用错误检测,得到第一纠正语句中的词语使用错误,包括:

对第一纠正语句进行分词处理,得到第一纠正语句的各个分词;

将第一纠正语句的各个分词输入针对各类词语使用错误分别建立的词语使用错误检测分类器,得到第一纠正语句中的词语使用错误。

在一种可能的实施方式中,对第一纠正语句中的词语使用错误进行纠正,得到第二纠正语句,包括:

基于第一纠正语句中的词语使用错误的错误类型,获取第一纠正语句中的词语使用错误的错误纠正规则;

按照第一纠正语句中的词语使用错误的错误纠正规则,对第一纠正语句中的词语使用错误进行纠正,得到第二纠正语句。

在一种可能的实施方式中,基于全局语法错误纠正模型,对第二纠正语句进行全局语法错误纠正,得到目标纠正语句,包括:

对第二纠正语句进行分词处理,得到第二纠正语句的各个分词;

将第二纠正语句的各个分词输入全局语法错误纠正模型,得到目标纠正语句。

在一种可能的实施方式中,基于全局语法错误纠正模型,对第二纠正语句进行全局语法错误纠正,得到目标纠正语句之后,还包括:

采用最小编辑距离算法,获得第二纠正语句与目标纠正语句之间的各个语句差异;

基于语句差异与语法错误之间的关联关系,获取各个语句差异对应的语法错误,并将各个语句差异对应的语法错误确定为第二纠正语句中的全局语法错误。

在一种可能的实施方式中,本申请实施例提供的语句处理方法还包括:

按照设定标注方式,在待检测语句中标注语法规则错误、词语使用错误和全局语法错误。

在一种可能的实施方式中,本申请实施例提供的语句处理方法还包括:

获取语法规则错误、词语使用错误和全局语法错误各自对应的错误详解信息;

按照设定显示方式,在待检测语句中显示语法规则错误、词语使用错误和全局语法错误各自对应的错误详解信息。

另一方面,本申请实施例提供了一种语句处理装置,包括:

语句获取单元,用于获取待检测语句;

第一检测单元,用于基于语法规则错误检测模型,对待检测语句进行语法规则错误检测,得到待检测语句中的语法规则错误;

第一纠正单元,用于对待检测语句中的语法规则错误进行纠正,得到第一纠正语句;

第二检测单元,用于基于词语使用错误检测分类器,对第一纠正语句进行词语使用错误检测,得到第一纠正语句中的词语使用错误;

第二纠正单元,用于对第一纠正语句中的词语使用错误进行纠正,得到第二纠正语句;

第三纠正单元,用于基于全局语法错误纠正模型,对第二纠正语句进行全局语法错误纠正,得到目标纠正语句。

在一种可能的实施方式中,在获取待检测语句时,语句获取单元具体用于:

对待检测语言文本进行句终标点符号识别,得到待检测语言文本中的句终标点符号;

以待检测语言文本中的句终标点符号为分割点,对待检测语言文本进行分割,得到至少一个语句;

将至少一个语句中的每个语句分别确定为待检测语句。

在一种可能的实施方式中,在基于语法规则错误检测模型,对待检测语句进行语法规则错误检测,得到待检测语句中的语法规则错误时,第一检测单元具体用于:

基于可容错的语法规则,对待检测语句进行语法解析,得到待检测语句的语法结构数据;

将语法结构数据输入语法规则错误检测模型,得到待检测语句中的语法规则错误。

在一种可能的实施方式中,在对待检测语句中的语法规则错误进行纠正,得到第一纠正语句时,第一纠正单元具体用于:

基于待检测语句中的语法规则错误的错误类型,获取待检测语句中的语法规则错误的错误纠正规则;

按照待检测语句中的语法规则错误的错误纠正规则,对待检测语句中的语法规则错误进行纠正,得到第一纠正语句。

在一种可能的实施方式中,在基于词语使用错误检测分类器,对第一纠正语句进行词语使用错误检测,得到第一纠正语句中的词语使用错误时,第二检测单元具体用于:

对第一纠正语句进行分词处理,得到第一纠正语句的各个分词;

将第一纠正语句的各个分词输入针对各类词语使用错误分别建立的词语使用错误检测分类器,得到第一纠正语句中的词语使用错误。

在一种可能的实施方式中,在对第一纠正语句中的词语使用错误进行纠正,得到第二纠正语句时,第二纠正单元具体用于:

基于第一纠正语句中的词语使用错误的错误类型,获取第一纠正语句中的词语使用错误的错误纠正规则;

按照第一纠正语句中的词语使用错误的错误纠正规则,对第一纠正语句中的词语使用错误进行纠正,得到第二纠正语句。

在一种可能的实施方式中,在基于全局语法错误纠正模型,对第二纠正语句进行全局语法错误纠正,得到目标纠正语句时,第三纠正单元具体用于:

对第二纠正语句进行分词处理,得到第二纠正语句的各个分词;

将第二纠正语句的各个分词输入全局语法错误纠正模型,得到目标纠正语句。

在一种可能的实施方式中,本申请实施例提供的语句处理装置还包括:

第三检测单元,用于在第三纠正单元基于全局语法错误纠正模型,对第二纠正语句进行全局语法错误纠正,得到目标纠正语句之后,采用最小编辑距离算法,获得第二纠正语句与目标纠正语句之间的各个语句差异,并基于语句差异与语法错误之间的关联关系,获取各个语句差异对应的语法错误,以及将各个语句差异对应的语法错误确定为第二纠正语句中的全局语法错误。

在一种可能的实施方式中,本申请实施例提供的语句处理装置还包括:

错误标注单元,用于按照设定标注方式,在待检测语句中标注语法规则错误、词语使用错误和全局语法错误。

在一种可能的实施方式中,本申请实施例提供的语句处理装置还包括:

错误解释单元,用于获取语法规则错误、词语使用错误和全局语法错误各自对应的错误详解信息,并按照设定显示方式,在待检测语句中显示语法规则错误、词语使用错误和全局语法错误各自对应的错误详解信息。

另一方面,本申请实施例提供了一种语句处理设备,包括:存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现本申请实施例提供的语句处理方法。

另一方面,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令被处理器执行时实现本申请实施例提供的语句处理方法。

本申请实施例的有益效果如下:

本申请实施例中,通过语法规则错误检测模型、词语使用错误检测分类器和全局语法错误纠正模型,对待检测语句进行三层语法错误检测,不仅可以实现对待检测语句中语法错误的全面检测,还可以实现对待检测语句中语法错误的精确检测,从而提高了语法错误检测的召回率和准确度,进而提升了最终获得的目标纠正语句的精准度。

本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地可以从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本申请实施例中语句处理系统的系统架构示意图;

图2为本申请实施例中语句处理方法的概况流程示意图;

图3为本申请实施例中语句处理方法的具体流程示意图;

图4为本申请实施例中语句处理装置的功能结构示意图;

图5为本申请实施例中语句处理设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及有益效果更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

为便于本领域技术人员更好地理解本申请,下面先对本申请涉及的技术用语进行简单介绍。

1、语法规则错误,为语句中不符合语法规则的错误。

2、语法规则错误检测模型,为基于可容错的语法规则建立的用于对语句中的语法规则错误进行检测的模型。

3、词语使用错误,为语句中用词不当的错误,本申请中,词语使用错误包括但不限于:用词错误和词性错误。

4、词语使用错误检测分类器,为基于深度神经网络建立的用于对语句中的词语使用错误进行检测的分类器,本申请中,一个词语使用错误检测分类器可以检测一类词语使用错误。

5、全局语法错误,为语句中除检测出的语法规则错误和词语使用错误之外剩余的其它语法错误。

6、全局语法错误纠正模型,为基于深度神经网络建立的用于对语句中除检测出的语法规则错误和词语使用错误之外剩余的其它语法错误进行检测的模型。

7、语法纠错客户端,为可以安装在手机、计算机、个人数字助理(PersonalDigital Assistant,PDA)等终端设备上,能够对待检测语言文本中的各个语句分别进行语法纠错,且支持用户互动的一种应用程序。

8、语法纠错服务器,为可以为语法纠错客户端提供数据库服务、模型搭建与优化服务等各类服务的后台运行设备。

需要说明的是,本申请中提及的“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样的用语在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。

在介绍了本申请涉及的技术用语后,接下来,对本申请实施例的应用场景和设计思想进行简单介绍。

为了解决现有技术中的语法纠错方法存在的召回率较低、准确度较差的问题,本申请实施例中,参阅图1所示,语法纠错客户端101可以安装在终端设备102上,通过终端设备102并利用通信网络与语法纠错服务器103进行通信连接。实际应用中,语法纠错服务器103可以根据语法纠错需求,预先搭建语法规则错误检测模型、词语使用错误检测分类器和全局语法错误纠正模型三种模型,并配置到语法纠错客户端101中;语法纠错客户端101接收到用户提交的待检测语言文本时,对该待检测语言文本进行分割,得到至少一个语句,并基于语法纠错服务器103配置的语法规则错误检测模型、词语使用错误检测分类器和全局语法错误纠正模型,分别对该至少一个语句进行三层语法错误检测及纠正,得到该至少一个语句各自对应的语法错误和目标纠正语句后,向用户显示该至少一个语句各自对应的语法错误和目标纠正语句。这样,通过语法规则错误检测模型、词语使用错误检测分类器和全局语法错误纠正模型,对待检测语句进行三层语法错误检测,不仅可以实现对待检测语句中语法错误的全面检测,还可以实现对待检测语句中语法错误的精确检测,从而提高了语法错误检测的召回率和准确度,进而提升了最终获得的目标纠正语句的精准度。

在介绍了本申请实施例的应用场景和设计思想之后,下面对本申请实施例提供的技术方案进行详细说明。

本申请实施例提供了一种语句处理方法,应用于如图1所示的语句处理系统中的语法纠错客户端101,参阅图2所示,本申请实施例提供的语句处理方法的概况流程如下:

步骤201:获取待检测语句。

实际应用中,用户可以通过在语法纠错客户端101上提交待检测语言文本,向语法纠错客户端101发起语法纠错请求,语法纠错客户端101接收到用户发起的语法纠错请求时,可以通过对用户提交的待检测语言文本进行语句分割,获得待检测语句。

具体的,语法纠错客户端101对用户提交的待检测语言文本进行语句分割,获得待检测语句时,可以采用但不限于以下方式:

首先,语法纠错客户端101对待检测语言文本进行句终标点符号识别,得到待检测语言文本中的句终标点符号,其中,句终标点符号包括但不限于:句号、问号、感叹号等。

然后,语法纠错客户端101以待检测语言文本中的句终标点符号为分割点,对待检测语言文本进行分割,得到至少一个语句。

最后,语法纠错客户端101将该至少一个语句中的每个语句分别确定为待检测语句。

步骤202:基于语法规则错误检测模型,对待检测语句进行语法规则错误检测,得到待检测语句中的语法规则错误,并对待检测语句中的语法规则错误进行纠正,得到第一纠正语句。

实际应用中,为了实现对待检测语句中语法规则错误的检测,本申请实施例中,语法纠错服务器103可以预先搭建一个语法规则错误检测模型。具体的,语法纠错服务器103在搭建语法规则错误检测模型时,可以采用但不限于以下方式:

第一种方式:机器学习方式。

首先,语法纠错服务器103可以采集样本语句集合。

实际应用中,语法纠错服务器103可以从网站上采集各类具有语法规则错误的样本语句并组成样本语句集合。

然后,语法纠错服务器103可以基于可容错的语法规则,对样本语句集合包含的各个样本语句分别进行语法解析,得到各个样本语句的语法结构数据。

其次,语法纠错服务器103可以将各个样本语句的语法结构数据输入待训练语法规则错误检测模型,获得各个样本语句的预测语法规则错误。

再次,语法纠错服务器103可以基于各个样本语句的预测语法规则错误和真实语法规则错误,采用损失函数,对待训练语法规则错误检测模型进行训练,得到各个模型参数,其中,真实语法规则错误是预先对样本语句中的各个语法规则错误分别进行标注后获得的。

最后,语法纠错服务器103可以基于各个模型参数,生成语法规则错误检测模型。

第二种方式:人工搭建方式。

首先,模型搭建人员可以预先设置各个语法规则错误的检测规则,并配置到语法纠错服务器103中。

然后,语法纠错服务器103可以根据配置的各个语法规则错误的检测规则,生成语法规则错误检测模型。

进一步的,语法纠错服务器103搭建语法规则错误检测模型之后,还可以将语法规则错误检测模型配置到语法纠错客户端101中,以便语法纠错客户端101可以基于语法规则错误检测模型,对待检测语句中的语法规则错误进行检测。此外,本申请实施例中,语法纠错服务器103还可以根据最新采集的样本语句集合,对语法规则错误检测模型进行优化,并将优化后的语法规则错误检测模型更新到语法纠错客户端101中,以便语法纠错客户端101可以基于最新的语法规则错误检测模型,对待检测语句中的语法规则错误进行检测。

实际应用中,语法纠错客户端101基于语法规则错误检测模型,对待检测语句中的语法规则错误进行检测时,可以采用但不限于以下方式:

首先,语法纠错客户端101可以基于可容错的语法规则,对待检测语句进行语法解析,得到待检测语句的语法结构数据。

然后,语法纠错客户端101可以将语法结构数据输入语法规则错误检测模型,得到待检测语句中的语法规则错误。

进一步的,语法纠错客户端101基于语法规则错误检测模型,检测出待检测语句中的语法规则错误后,即可对待检测语句中的语法规则错误进行纠正。具体的,语法纠错客户端101对待检测语句中的语法规则错误进行纠正时,可以采用但不限于以下方式:

首先,语法纠错客户端101可以基于待检测语句中的语法规则错误的错误类型,获取待检测语句中的语法规则错误的错误纠正规则。

然后,语法纠错客户端101按照待检测语句中的语法规则错误的错误纠正规则,对待检测语句中的语法规则错误进行纠正,得到第一纠正语句。

步骤203:基于词语使用错误检测分类器,对第一纠正语句进行词语使用错误检测,得到第一纠正语句中的词语使用错误,并对第一纠正语句中的词语使用错误进行纠正,得到第二纠正语句。

实际应用中,为了实现对第一纠正语句中词语使用错误的检测,本申请实施例中,语法纠错服务器103可以针对各类词语使用错误分别搭建一个词语使用错误检测分类器,使一个词语使用错误检测分类器可以检测一类词语使用错误。具体的,语法纠错服务器103在针对各类词语使用错误分别搭建词语使用错误检测分类器时,可以采用但不限于以下方式:

首先,语法纠错服务器103可以采集正确语句集合,并按照预先根据各类词语使用错误设定的概率分布,将正确语句集合包含的各个正确语句中的正确词语替换为错误词语,得到各类具有词语使用错误的样本语句。

实际应用中,语法纠错服务器103可以从网站上采集各个正确语句并组成正确语句集合。

然后,语法纠错服务器103可以按照词语使用错误的错误类型,对各个样本语句进行分类,得到各类词语使用错误的样本语句集合,并针对各类词语使用错误,获取该类词语使用错误的样本语句集合中各个样本语句的分词。

其次,语法纠错服务器103针对各类词语使用错误,可以将该类词语使用错误的样本语句集合中各个样本语句的分词,输入该类词语使用错误的待训练词语使用错误检测分类器,得到该类词语使用错误的样本语句集合中各个样本语句的预测词语使用错误。

再次,语法纠错服务器103针对各类词语使用错误,可以基于该类词语使用错误的样本语句集合中各个样本语句的预测词语使用错误和真实词语使用错误,采用损失函数,对该类词语使用错误的待训练词语使用错误检测分类器进行训练,得到该类词语使用错误的各个模型参数,其中,真实词语使用错误是预先对样本语句中的各个词语使用错误分别进行标注后获得的。

最后,语法纠错服务器103针对各类词语使用错误,可以基于该类词语使用错误的各个模型参数,生成该类词语使用错误的词语使用错误检测分类器。

进一步的,语法纠错服务器103针对各类词语使用错误分别搭建词语使用错误检测分类器之后,还可以将各类词语使用错误的词语使用错误检测分类器配置到语法纠错客户端101中,以便语法纠错客户端101可以基于各类词语使用错误的词语使用错误检测分类器,对第一纠正语句中的词语使用错误进行检测。此外,本申请实施例中,语法纠错服务器103还可以根据最新采集的样本语句集合,对各类词语使用错误的词语使用错误检测分类器进行优化,并将优化后的各类词语使用错误的词语使用错误检测分类器更新到语法纠错客户端101中,以便语法纠错客户端101可以基于各类词语使用错误对应的最新的词语使用错误检测分类器,对第一纠正语句中的语法规则错误进行检测。

实际应用中,语法纠错客户端101基于各类词语使用错误的词语使用错误检测分类器,对第一纠正语句中的词语使用错误进行检测时,可以采用但不限于以下方式:

首先,语法纠错客户端101可以对第一纠正语句进行分词处理,得到第一纠正语句的各个分词。

然后,语法纠错客户端101可以将第一纠正语句的各个分词输入针对各类词语使用错误分别建立的词语使用错误检测分类器,得到第一纠正语句中的词语使用错误。

进一步的,语法纠错客户端101基于各类词语使用错误的词语使用错误检测分类器,检测出第一纠正语句中的词语使用错误后,即可对第一纠正语句中的语法规则错误进行纠正。具体的,语法纠错客户端101对第一纠正语句中的语法规则错误进行纠正时,可以采用但不限于以下方式:

首先,语法纠错客户端101可以基于第一纠正语句中的词语使用错误的错误类型,获取第一纠正语句中的词语使用错误的错误纠正规则。

然后,语法纠错客户端101可以按照第一纠正语句中的词语使用错误的错误纠正规则,对第一纠正语句中的词语使用错误进行纠正,得到第二纠正语句。

步骤204:基于全局语法错误纠正模型,对第二纠正语句进行全局语法错误纠正,得到目标纠正语句。

实际应用中,为了实现对第二纠正语句中语法错误的全局检测,本申请实施例中,语法纠错服务器103可以预先搭建一个全局语法错误纠正模型。具体的,语法纠错服务器103在搭建全局语法错误纠正模型时,可以采用但不限于以下方式:

首先,语法纠错服务器103可以采集样本语句集合和纠正语句集合。

实际应用中,语法纠错服务器103可以从网站上采集各类具有语法错误的样本语句并组成样本语句集合,以及采集样本语句集合中的各个样本语句的真实纠正语句并组成纠正语句集合,其中,真实纠正语句是人工对样本语句中的各个语法错误分别进行纠正后获得的。

然后,语法纠错服务器103可以获取该样本语句集合中各个样本语句的分词。

其次,语法纠错服务器103可以将该样本语句集合中各个样本语句的分词输入待训练全局语法错误纠正模型,获得该样本语句集合中各个样本语句的预测纠正语句。

再次,语法纠错服务器103可以基于该样本语句集合中各个样本语句的预测纠正语句和纠正语句集合中各个样本语句的真实纠正语句,采用损失函数,对待训练全局语法错误纠正模型进行训练,得到各个模型参数。

最后,语法纠错服务器103可以基于各个模型参数,生成全局语法错误纠正模型。

进一步的,语法纠错服务器103在搭建全局语法错误纠正模型之后,可以将全局语法错误纠正模型配置到语法纠错客户端101中,以便语法纠错客户端101可以基于全局语法错误纠正模型,对第二纠正语句中的语法错误进行全局检测。此外,本申请实施例中,语法纠错服务器103还可以根据最新采集的样本语句集合,对全局语法错误纠正模型进行优化,并将优化后的全局语法错误纠正模型更新到语法纠错客户端101中,以便语法纠错客户端101可以基于最新的全局语法错误纠正模型,对第二纠正语句中的语法错误进行全局检测。

实际应用中,语法纠错客户端101基于全局语法错误纠正模型,对第二纠正语句中的语法错误进行全局检测时,可以采用但不限于以下方式:

首先,语法纠错客户端101可以对第二纠正语句进行分词处理,得到第二纠正语句的各个分词。

然后,语法纠错客户端101可以将第二纠正语句的各个分词输入全局语法错误纠正模型,得到目标纠正语句。

进一步的,语法纠错客户端101基于全局语法错误纠正模型,对第二纠正语句进行全局语法错误纠正,得到目标纠正语句之后,还可以基于第二纠正语句与目标纠正语句之间的差异,对第二纠正语句中的语法错误进行定位。具体的,语法纠错客户端101基于第二纠正语句与目标纠正语句之间的差异,对第二纠正语句中的全局语法错误进行定位时,可以采用但不限于以下方式:

首先,语法纠错客户端101可以采用最小编辑距离算法,获得第二纠正语句与目标纠正语句之间的各个语句差异。

然后,语法纠错客户端101可以基于语句差异与语法错误之间的关联关系,获取各个语句差异对应的语法错误。

最后,语法纠错客户端101可以将各个语句差异对应的语法错误确定为第二纠正语句中的全局语法错误。

进一步的,为了便于用户查看待检测语句中的语法错误,本申请实施例中,语法纠错客户端101检测出待检测语句中的语法规则错误、词语使用错误和全局语法错误之后,还可以按照设定标注方式,在待检测语句中标注语法规则错误、词语使用错误和全局语法错误。具体的,语法纠错客户端101可以采用高亮标注和(或)加粗标注等标注方式,在待检测语句中对语法规则错误、词语使用错误和全局语法错误进行标注。

此外,为了提高语法纠错的可解释性,本申请实施例中,语法纠错客户端101检测出待检测语句中的语法规则错误、词语使用错误和全局语法错误之后,还可以获取待检测语句中的语法规则错误、词语使用错误和全局语法错误各自对应的错误详解信息,并按照设定显示方式,在待检测语句中显示语法规则错误、使用错误和全局语法错误各自对应的错误详解信息。具体的,语法纠错客户端101可以为待检测语句中的语法规则错误、词语使用错误和全局语法错误分别创建批注框,并在批注框中显示相应语法错误的错误详解信息,其中,错误详解信息可以包括但不限于:错误类型、错误原因和修改方式等。

实际应用中,本申请实施例提供的语句处理方法可以应用于英文、中文、法文等多种语言文本的语句处理,下面仅以英文文本为例,对本申请实施例提供的语句处理方法作进一步详细说明,参阅图3所示,本申请实施例提供的语句处理方法的具体流程如下:

步骤301:语法纠错客户端101接收到用户通过提交英文文本发起的语法纠错请求时,对用户提交的英文文本进行句终标点符号识别,得到英文文本中的句终标点符号。

步骤302:语法纠错客户端101以英文文本中的句终标点符号为分割点,对英文文本进行分割,得到至少一个英文语句。

实际应用中,为了提高语句分割的准确度,语法纠错客户端101在对英文文本中的句终标点符号进行识别的过程中,可以将检测到的小数点中的句号以及英文名称中的句号确定为无效句终标点符号进行排除,从而可以提高句终标点符号检测的有效性,进而可以提升语句分割的准确度。

步骤303:语法纠错客户端101将该至少一个英文语句中的每个英文语句分别确定为待检测英文语句。

步骤304:语法纠错客户端101基于可容错的语法规则,对待检测英文语句进行语法解析,得到待检测英文语句的语法结构数据。

实际应用中,语法纠错客户端101可以基于可容错的英语资源语法(EnglishResource Grammar,ERG)语法规则,对待检测英文语句进行语法解析,从而得到待检测英文语句的语法结构数据。

步骤305:语法纠错客户端101将语法结构数据输入语法规则错误检测模型,得到待检测英文语句中的语法规则错误。

步骤306:语法纠错客户端101基于待检测英文语句中的语法规则错误的错误类型,获取待检测英文语句中的语法规则错误的错误纠正规则。

步骤307:语法纠错客户端101按照待检测英文语句中的语法规则错误的错误纠正规则,对待检测英文语句中的语法规则错误进行纠正,得到第一纠正英文语句。

步骤308:语法纠错客户端101对第一纠正英文语句进行分词处理,得到第一纠正英文语句的各个英文分词。

步骤309:语法纠错客户端101将第一纠正英文语句的各个英文分词输入针对各类词语使用错误分别建立的词语使用错误检测分类器,得到第一纠正英文语句中的词语使用错误。

步骤310:语法纠错客户端101基于第一纠正英文语句中的词语使用错误的错误类型,获取第一纠正英文语句中的词语使用错误的错误纠正规则。

步骤311:语法纠错客户端101按照第一纠正英文语句中的词语使用错误的错误纠正规则,对第一纠正英文语句中的词语使用错误进行纠正,得到第二纠正英文语句。

步骤312:语法纠错客户端101对第二纠正英文语句进行分词处理,得到第二纠正英文语句的各个英文分词。

步骤313:语法纠错客户端101将第二纠正英文语句的各个英文分词输入全局语法错误纠正模型,得到目标纠正英文语句。

步骤314:语法纠错客户端101采用最小编辑距离算法,获得第二纠正英文语句与目标纠正英文语句之间的各个语句差异。

步骤315:语法纠错客户端101基于语句差异与语法错误之间的关联关系,获取各个语句差异对应的语法错误。

步骤316:语法纠错客户端101将各个语句差异对应的语法错误确定为第二纠正英文语句中的全局语法错误。

步骤317:语法纠错客户端101采用高亮标注和(或)加粗标注等标注方式,在待检测英文语句中标注语法规则错误、词语使用错误和全局语法错误。

步骤318:语法纠错客户端101获取待检测英文语句中的语法规则错误、词语使用错误和全局语法错误各自对应的错误类型、错误原因和修改方式等错误详解信息。

步骤319:语法纠错客户端101为待检测英文语句中的语法规则错误、词语使用错误和全局语法错误分别创建批注框,并在批注框中显示相应语法错误的错误详解信息。

基于上述实施例,本申请实施例提供了一种语句处理装置,参阅图4所示,本申请实施例提供的语句处理装置400至少包括:

语句获取单元401,用于获取待检测语句;

第一检测单元402,用于基于语法规则错误检测模型,对待检测语句进行语法规则错误检测,得到待检测语句中的语法规则错误;

第一纠正单元403,用于对待检测语句中的语法规则错误进行纠正,得到第一纠正语句;

第二检测单元404,用于基于词语使用错误检测分类器,对第一纠正语句进行词语使用错误检测,得到第一纠正语句中的词语使用错误;

第二纠正单元405,用于对第一纠正语句中的词语使用错误进行纠正,得到第二纠正语句;

第三纠正单元406,用于基于全局语法错误纠正模型,对第二纠正语句进行全局语法错误纠正,得到目标纠正语句。

在一种可能的实施方式中,在获取待检测语句时,语句获取单元401具体用于:

对待检测语言文本进行句终标点符号识别,得到待检测语言文本中的句终标点符号;

以待检测语言文本中的句终标点符号为分割点,对待检测语言文本进行分割,得到至少一个语句;

将至少一个语句中的每个语句分别确定为待检测语句。

在一种可能的实施方式中,在基于语法规则错误检测模型,对待检测语句进行语法规则错误检测,得到待检测语句中的语法规则错误时,第一检测单元402具体用于:

基于可容错的语法规则,对待检测语句进行语法解析,得到待检测语句的语法结构数据;

将语法结构数据输入语法规则错误检测模型,得到待检测语句中的语法规则错误。

在一种可能的实施方式中,在对待检测语句中的语法规则错误进行纠正,得到第一纠正语句时,第一纠正单元403具体用于:

基于待检测语句中的语法规则错误的错误类型,获取待检测语句中的语法规则错误的错误纠正规则;

按照待检测语句中的语法规则错误的错误纠正规则,对待检测语句中的语法规则错误进行纠正,得到第一纠正语句。

在一种可能的实施方式中,在基于词语使用错误检测分类器,对第一纠正语句进行词语使用错误检测,得到第一纠正语句中的词语使用错误时,第二检测单元404具体用于:

对第一纠正语句进行分词处理,得到第一纠正语句的各个分词;

将第一纠正语句的各个分词输入针对各类词语使用错误分别建立的词语使用错误检测分类器,得到第一纠正语句中的词语使用错误。

在一种可能的实施方式中,在对第一纠正语句中的词语使用错误进行纠正,得到第二纠正语句时,第二纠正单元405具体用于:

基于第一纠正语句中的词语使用错误的错误类型,获取第一纠正语句中的词语使用错误的错误纠正规则;

按照第一纠正语句中的词语使用错误的错误纠正规则,对第一纠正语句中的词语使用错误进行纠正,得到第二纠正语句。

在一种可能的实施方式中,在基于全局语法错误纠正模型,对第二纠正语句进行全局语法错误纠正,得到目标纠正语句时,第三纠正单元406具体用于:

对第二纠正语句进行分词处理,得到第二纠正语句的各个分词;

将第二纠正语句的各个分词输入全局语法错误纠正模型,得到目标纠正语句。

在一种可能的实施方式中,本申请实施例提供的语句处理装置400还包括:

第三检测单元407,用于在第三纠正单元406基于全局语法错误纠正模型,对第二纠正语句进行全局语法错误纠正,得到目标纠正语句之后,采用最小编辑距离算法,获得第二纠正语句与目标纠正语句之间的各个语句差异,并基于语句差异与语法错误之间的关联关系,获取各个语句差异对应的语法错误,以及将各个语句差异对应的语法错误确定为第二纠正语句中的全局语法错误。

在一种可能的实施方式中,本申请实施例提供的语句处理装置400还包括:

错误标注单元408,用于按照设定标注方式,在待检测语句中标注语法规则错误、词语使用错误和全局语法错误。

在一种可能的实施方式中,本申请实施例提供的语句处理装置400还包括:

错误解释单元409,用于获取语法规则错误、词语使用错误和全局语法错误各自对应的错误详解信息,并按照设定显示方式,在待检测语句中显示语法规则错误、词语使用错误和全局语法错误各自对应的错误详解信息。

需要说明的是,本申请实施例提供的语句处理装置400解决技术问题的原理与本申请实施例提供的语句处理方法相似,因此,本申请实施例提供的语句处理装置400的实施可以参见本申请实施例提供的语句处理方法的实施,重复之处不再赘述。

在介绍了本申请实施例提供的语句处理方法和装置之后,接下来,对本申请实施例提供的语句处理设备进行简单介绍。

参阅图5所示,本申请实施例提供的语句处理设备500至少包括:处理器501、存储器502和存储在存储器502上并可在处理器501上运行的计算机程序,处理器501执行计算机程序时实现本申请实施例提供的语句处理方法。

需要说明的是,图5所示的语句处理设备500仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例提供的语句处理设备500还可以包括连接不同组件(包括处理器501和存储器502)的总线503。其中,总线503表示几类总线结构中的一种或多种,包括存储器总线、***总线、局域总线等。

存储器502可以包括易失性存储器形式的可读介质,例如随机存储器(RandomAccess Memory,RAM)5021和/或高速缓存存储器5022,还可以进一步包括只读存储器(ReadOnly Memory,ROM)5023。

存储器502还可以包括具有一组(至少一个)程序模块5024的程序工具5025,程序模块5024包括但不限于:操作子系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

语句处理设备500也可以与一个或多个外部设备504(例如键盘、遥控器等)通信,还可以与一个或者多个使得用户能与语句处理设备500交互的设备通信(例如手机、电脑等),和/或,与使得语句处理设备500与一个或多个其它语句处理设备500进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口505进行。并且,语句处理设备500还可以通过网络适配器506与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网(Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器506通过总线503与语句处理设备500的其它模块通信。应当理解,尽管图5中未示出,可以结合语句处理设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)子系统、磁带驱动器以及数据备份存储子系统等。

下面对本申请实施例提供的计算机可读存储介质进行介绍。本申请实施例提供的计算机可读存储介质存储有计算机指令,计算机指令被处理器执行时实现本申请实施例提供的语句处理方法。具体地,该可执行程序可以内置或者安装在语句处理设备500中,这样,语句处理设备500就可以通过执行内置或者安装的可执行程序实现本申请实施例提供的语句处理方法。

此外,本申请实施例提供的语句处理方法还可以实现为一种程序产品,该程序产品包括程序代码,当该程序产品可以在语句处理设备500上运行时,该程序代码用于使语句处理设备500执行本申请实施例提供的语句处理方法。

本申请实施例提供的程序产品可以采用一个或多个可读介质的任意组合,其中,可读介质可以是可读信号介质或者可读存储介质,而可读存储介质可以是但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合,具体地,可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、光纤、便携式紧凑盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请实施例提供的程序产品可以采用CD-ROM并包括程序代码,还可以在计算设备上运行。然而,本申请实施例提供的程序产品不限于此,在本申请实施例中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。

尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和纠正。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和纠正。

显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些纠正和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

21页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!