语法错误识别方法及装置

文档序号:1889936 发布日期:2021-11-26 浏览:37次 >En<

阅读说明:本技术 语法错误识别方法及装置 (Grammar error recognition method and device ) 是由 吴嫒博 刘萌 蔡晓凤 叶礼伟 滕达 覃伟枫 于 2021-03-16 设计创作,主要内容包括:本申请的实施例提供了一种语法错误识别方法及装置,涉及人工智能技术领域。本申请实施例中的语法错误识别方法包括获取待识别语句;基于待识别语句,生成待识别语句对应的语句特征向量,语句特征向量包括待识别语句所包含的各词汇对应的词向量和待识别语句所包含的各词汇在待识别语句所处位置的位置特征向量;基于待识别语句对应的语句特征向量,预测目标变换类别标签,目标变换类别标签是指待识别语句所包含的各词汇在变换为待识别语句对应的语法正确语句时的变换类别标签;基于待识别语句以及目标变换类别标签,确定待识别语句的语法错误类型。本申请实施例的技术方案提高了进行语法错误识别的精准度。(The embodiment of the application provides a grammar error recognition method and a grammar error recognition device, and relates to the technical field of artificial intelligence. The grammar error recognition method in the embodiment of the application comprises the steps of obtaining a sentence to be recognized; generating a sentence characteristic vector corresponding to the sentence to be recognized based on the sentence to be recognized, wherein the sentence characteristic vector comprises a word vector corresponding to each vocabulary contained in the sentence to be recognized and a position characteristic vector of each vocabulary contained in the sentence to be recognized at the position of the sentence to be recognized; predicting a target transformation category label based on the sentence characteristic vector corresponding to the sentence to be recognized, wherein the target transformation category label is a transformation category label of each vocabulary contained in the sentence to be recognized when the vocabulary is transformed into a grammar correct sentence corresponding to the sentence to be recognized; and determining the grammar error type of the sentence to be recognized based on the sentence to be recognized and the target transformation class label. According to the technical scheme, the accuracy of grammar error recognition is improved.)

语法错误识别方法及装置

技术领域

本申请涉及计算机技术领域,具体而言,涉及一种语法错误识别方法及装置。

背景技术

随着互联网技术的发展,语法错误识别是自然语言处理中的一个重要分支,其主要任务是检测一段文字中是否存在语法错误,并自动对所检测的语法错误进行改正。

相关技术中提出的语法错误识别方式,主要是通过人工提取特征,并依据专家经验来对机器学习模型进行训练,训练后的机器学习模型即可用于进行语法错误识别。在相关技术中的语法错误识别方式中,由于针对不同的错误类型,需要分别训练不同的机器学习模型来进行语法错误识别,没有普适的统一模型;此外,上述机器学习模型所提取的特征都是较浅层次的特征,使得机器学习模型进行语法错误识别的精准度较低。

发明内容

本申请的实施例提供了一种语法错误识别方法及装置,可以提高进行语法错误识别的精准度。

本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面,提供了一种语法错误识别方法,包括:获取待识别语句;基于所述待识别语句,生成所述待识别语句对应的语句特征向量,所述语句特征向量包括所述待识别语句所包含的各词汇对应的词向量和所述待识别语句所包含的各词汇在所述待识别语句所处位置的位置特征向量;基于所述待识别语句对应的语句特征向量,预测目标变换类别标签,所述目标变换类别标签是指所述待识别语句所包含的各词汇在变换为所述待识别语句对应的语法正确语句时的变换类别标签;基于所述待识别语句以及所述目标变换类别标签,确定所述待识别语句的语法错误类型。

根据本申请实施例的一个方面,提供了一种语法错误识别装置,包括:第一获取单元,用于获取待识别语句;第一生成单元,用于基于所述待识别语句,生成所述待识别语句对应的语句特征向量,所述语句特征向量包括所述待识别语句所包含的各词汇对应的词向量和所述待识别语句所包含的各词汇在所述待识别语句所处位置的位置特征向量;预测单元,用于基于所述待识别语句对应的语句特征向量,预测目标变换类别标签,所述目标变换类别标签是指所述待识别语句所包含的各词汇在变换为所述待识别语句对应的语法正确语句时的变换类别标签;语法错误确定单元,用于基于所述待识别语句以及所述目标变换类别标签,确定所述待识别语句的语法错误类型。

在本申请的一些实施例中,基于前述方案,所述语法错误确定单元包括:语法正确语句确定子单元,用于基于所述目标变换类别标签以及所述待识别语句,确定所述待识别语句对应的语法正确语句;语法错误识别子单元,用于基于所述语法正确语句以及预设的语法错误分类规则,对所述待识别语句进行语法错误分类识别,确定所述待识别语句的语法错误类型。

在本申请的一些实施例中,基于前述方案,所述预测单元包括:融合子单元,用于对所述待识别语句对应的语句特征向量进行融合处理,生成包含上下文语义信息的语义特征向量;全连接子单元,用于对所述语义特征向量进行全连接处理,得到处理后的语义特征向量;预测子单元,用于基于所述处理后的语义特征向量,预测所述目标变换类别标签。

在本申请的一些实施例中,基于前述方案,预测子单元,包括:生成模块,用于对所述处理后的语义特征向量进行归一化处理,生成所述待识别语句所包含的各词汇在变换为所述待识别语句对应的语法正确语句时的候选变换类别标签所对应的概率;选取模块,用于选取概率最大的候选变换类别标签,作为所述目标变换类别标签。

在本申请的一些实施例中,基于前述方案,语法错误识别子单元具体用于若所述目标变换类别标签所对应的概率高于预定概率阈值,则基于所述语法正确语句以及预设的语法错误分类规则,对所述待识别语句进行语法错误分类识别,确定所述待识别语句的语法错误类型。

在本申请的一些实施例中,基于前述方案,所述语法错误识别装置,还包括:纠错建议生成单元,用于基于所述待识别语句的语法错误类型和所述待识别语句,生成所述待识别语句对应的纠错建议信息。

在本申请的一些实施例中,基于前述方案,通过预训练的机器学习模型来生成所述目标变换类别标签及所述待识别语句对应的语句特征向量。

在本申请的一些实施例中,基于前述方案,所述语法错误识别装置,还包括:第二获取单元,用于获取用于对待训练的机器学习模型进行训练的训练集样本数据,所述训练集样本数据中的每条样本数据包括样本语句对,所述样本语句对包括语法错误样本语句和语法正确样本语句;分词单元,用于对所述语法错误样本语句和所述语法正确样本语句分别进行分词处理,得到所述语法错误样本语句对应的第一分词结果以及所述语法正确样本语句对应的第二分词结果;第二生成单元,用于基于所述第一分词结果,生成所述语法错误样本语句对应的语句特征向量;第三生成单元,用于基于所述第一分词结果及所述第二分词结果,生成样本变换类别标签,所述样本变换类别标签是指所述语法错误样本语句所包含的各词汇在变换为所述语法正确语句样本时的变换类别标签;训练单元,用于通过所述样本变换类别标签以及所述语法错误样本语句对应的语句特征向量对待训练的机器学习模型进行训练,得到预训练的机器学习模型。

在本申请的一些实施例中,基于前述方案,第三生成单元,包括:编辑子单元,用于针对所述第一分词结果所包含的每个词汇,对所述词汇进行编辑处理,以使得所述词汇变换为所述第二分词结果所包含的词汇;编辑距离确定子单元,用于基于所述词汇进行编辑处理的编辑处理类别,确定所述第一分词结果与所述第二分词结果之间的编辑距离;选择子单元,用于选择处于最小编辑距离前提下的所述词汇进行编辑处理的编辑处理类别,作为所述变换类别标签。

根据本申请实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的语法错误识别方法。

根据本申请实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的语法错误识别方法。

根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实施例中提供的语法错误识别方法。

在本申请的一些实施例所提供的技术方案中,通过基于待识别语句生成待识别语句对应的语句特征向量,并基于待识别语句对应的语句特征向量,预测目标变换类别标签,目标变换类别标签是指待识别语句所包含的各词汇在变换为待识别语句对应的语法正确语句时的变换类别标签,以及基于待识别语句以及目标变换类别标签,确定待识别语句的语法错误类型,相较于直接通过待识别语句所包含的特征去识别待识别语句所包含的语法错误,通过先确定待识别语句所包含的各词汇在变换为待识别语句对应的语法正确语句时的变换类别标签,由于变换类别标签可以更为显著的反映出待识别语句所存在的语法错误,进而可以有效提高对待识别语句进行语法错误识别的准确度。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。

图2示出了根据本申请的一个实施例的语法错误识别方法的流程图。

图3示出了根据本申请的一个实施例的语法错误识别方法的流程图。

图4示出了根据本申请的一个实施例的语法错误识别方法的步骤S340的具体流程图。

图5示出了根据本申请的一个实施例的语法错误识别方法的步骤S230的具体流程图。

图6示出了根据本申请的一个实施例的预训练的机器学习模型的结构示意图。

图7示出了根据本申请的一个实施例的语法错误识别方法的步骤S530的具体流程图。

图8示出了根据本申请的一个实施例的语法错误识别方法的步骤S240的具体流程图。

图9示出了根据本申请的一个实施例的进行作文批改的整体流程示意图。

图10示出了根据本申请的一个实施例的用于输入包含有作文的文本或图片的界面示意图。

图11根据本申请的一个实施例的对预训练的机器学习模型进行训练的整体流程示意图。

图12示出了本申请的一个实施例的对作文进行语法错误识别所得到的语法错误识别结果的界面示意图。

图13示出了根据本申请的一个实施例的语法错误识别装置的框图。

图14示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。

此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。

人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(ML,Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。比如,在本申请实施例中,通过输入待识别语句对应的语句特征向量至预训练的机器学习模型,并由该机器学习模型确定待识别语句所包含的各词汇在变换为待识别语句对应的语法正确语句时的目标变换类别标签,进而所确定的目标变换类别标签,确定待识别语句的语法错误类型。

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。

如图1所示,系统架构可以包括客户端101、网络102和服务端103。客户端101和服务端103之间通过网络102连接,并基于网络102进行数据交互,该网络可以包括各种连接类型,例如有线通信链路、无线通信链路等等。

应该理解,图1中的客户端101、网络102和服务端103的数目仅仅是示意性的。根据实现需要,可以具有任意数目的客户端101、网络102和服务端103。例如,服务端103可以为提供语法错误识别服务的服务器,也可以是服务器构成的服务器集群,在此不作限定。客户端101是与服务端103对应的客户端,该客户端可以为手机、平板、便携式计算机和台式计算机的一种或多种,当然,并不限定于此。

客户端101获取待识别语句;并基于待识别语句,生成待识别语句对应的语句特征向量,语句特征向量包括待识别语句所包含的各词汇对应的词向量和待识别语句所包含的各词汇在待识别语句所处位置的位置特征向量;基于待识别语句对应的语句特征向量,预测目标变换类别标签,目标变换类别标签是指待识别语句所包含的各词汇在变换为待识别语句对应的语法正确语句时的变换类别标签;基于待识别语句以及目标变换类别标签,确定待识别语句的语法错误类型。

以上可以看出,相较于直接通过待识别语句所包含的特征去识别待识别语句所包含的语法错误,通过先确定待识别语句所包含的各词汇在变换为待识别语句对应的语法正确语句时的变换类别标签,由于变换类别标签可以更为显著的反映出待识别语句所存在的语法错误,进而可以有效提高对待识别语句进行语法错误识别的准确度。

需要说明的是,本申请实施例所提供的语法错误识别方法一般由客户端101执行,相应地,语法错误识别装置一般设置于客户端101中。但是,在本申请的其它实施例中,服务端103也可以与客户端101具有相似的功能,从而执行本申请实施例所提供的语法错误识别方法的方案。以下对本申请实施例的技术方案的实现细节进行详细阐述。

图2示出了根据本申请的一个实施例的语法错误识别方法的流程图,该语法错误识别方法可以由客户端来执行,该客户端可以是图1中所示的客户端101。参照图2所示,该语法错误识别方法至少包括步骤S210至步骤S240,详细介绍如下。

在步骤S210中,获取待识别语句。

在本申请的一个实施例中,待识别语句是指需要进行语法错误识别的单个语句信息,如“I eat apples yesterday.”。待识别语句可以从输入至客户端的包含有语句信息的文本或图片中获取。若输入的是图片,则具体可以通过光学字符识别(OCR,OpticalCharacter Recognition)对输入的图片进行处理,确定图片中所包含的字符信息,作为待识别语句。

可以理解,输入至客户端的文本或图片中存在包含多个待识别语句时,对于文本而言,可以直接通过特定字符进行分句处理,如,通过标点符号等特定字符对文本进行分句处理,得到多个待识别语句。对于图片而言,则需要先对输入图片进行OCR光学字符识别,得到识别结果,再对识别结果进行分句处理,得到多个待识别语句。

在步骤S220中,基于待识别语句,生成待识别语句对应的语句特征向量,语句特征向量包括待识别语句所包含的各词汇对应的词向量和待识别语句所包含的各词汇在待识别语句所处位置的位置特征向量。

在本申请的一个实施例中,待识别语句对应的语句特征向量作为根据待识别语句所生成的特征信息,语句特征向量可以反映待识别语句所具有的特性信息。该语句特征向量包括待识别语句所包含的各词汇对应的词向量以及待识别语句所包含的各词汇在待识别语句所处位置的位置特征向量。

在生成待识别语句所包含的各词汇对应的词向量时,具体可以先对待识别语句进行分词处理,得到待识别语句对应的分词结果,分词结果包含待识别语句进行分词得到的各个词汇,并进一步根据分词结果中的各个词汇生成各个词汇对应的词向量。生成各个词汇对应的词向量时,可以是采用预训练的机器学习模型来实现,该机器学习模型可以是Word2vec词向量计算模型,或者是GloVe词向量模型等,在此不作限定。

在生成待识别语句所包含的各词汇在待识别语句所处位置的位置特征向量时,可以通过对待识别语句所包含的各词汇在待识别语句所处位置进行位置编码处理,得到位置特征向量。进行位置编码处理的方式可以是根据待识别语句所包含的各词汇在待识别语句所处位置信息生成对应的词向量,也可以采用正弦位置编码(Sinusoidal PositionEncoding)算法来生成位置特征向量,在此不作限定。

在步骤S230中,基于待识别语句对应的语句特征向量,预测目标变换类别标签,目标变换类别标签是指待识别语句所包含的各词汇在变换为待识别语句对应的语法正确语句时的变换类别标签。

在本申请的一个实施例中,变换类别标签是指错误语句在变换为正确语句的过程中,错误语句所包含的词汇所进行的变换操作对应的类别标签,它可以包括基本操作变换标签和特殊操作变换标签。

具体的,基本操作变换标签包括(keep)保留操作标签、(delete)删除操作标签、(replace)替换操作标签、(add)插入操作标签等常规类操作变换标签。以错误语句为“Ihas a apples.”,正确语句为“I have apples.”为例,那么错误语句中的词汇“I”所进行的变换操作对应的变换类别标签为保留操作标签,而错误语句中的词汇“a”所进行的变换操作对应的变换类别标签为删除操作标签。

特殊操作变换标签包括动词时态变换操作标签、名词单复数变换操作标签等。以错误语句为“I eat apples yesterday.”,正确语句为“I ate apples yesterday.”为例,错误语句中的词汇“eat”所进行的变换操作对应的变换类别标签为动词时态变换操作标签。

可以理解,动词时态变换操作标签还可以细分为“现在进行时态”、“动词不定式”、“动词过去形式”、“动词过去完成形式”等更为精细的操作变换标签。

在一个实施例中,基于待识别语句对应的语句特征向量,预测目标变换类别标签可以是通过预训练的机器学习模型来实现。预训练的机器学习模型是通过包含语法错误样本语句和语法正确样本语句的样本句子对的样本数据训练得到。

需要指出的是,在对预训练的机器学习模型进行训练时,需要根据待识别语句生成待识别语句对应的语句特征向量,以及根据错误样本语句和语法正确样本语句,生成样本变换类别标签的数据预处理过程,并根据数据预处理过程所得到的数据来训练机器学习模型。预训练的机器学习模型可以是BERT模型,也可以是RoBERTa模型和xlnet模型等。

参考图3,图3示出了根据本申请的一个实施例的语法错误识别方法的流程图,该实施例中的语法错误识别方法还可以包括步骤S310至步骤S350,详细描述如下。

在步骤S310中,获取用于对待训练的机器学习模型进行训练的训练集样本数据,训练集样本数据中的每条样本数据包括样本语句对,样本语句对包括语法错误样本语句和语法正确样本语句。

在本申请的一个实施例中,训练集样本数据是用于对待训练的机器学习模型进行训练的数据,训练集样本数据包含多个样本语句对。样本语句对是指由语法错误样本语句和语法错误样本语句对应的语法正确样本语句所组成的语句对。样本语句对可以从已有的语法练习题目的题目数据库中获取,可以是从包含大量样本语句对的其它数据库中获取,在此不作限定。

在步骤S320,对语法错误样本语句和语法正确样本语句分别进行分词处理,得到语法错误样本语句对应的第一分词结果以及语法正确样本语句对应的第二分词结果。

在本申请的一个实施例中,对于每个样本语句对所包含的语法错误样本语句和语法正确样本语句,可以对语法错误样本语句和语法正确样本语句分别进行分词处理,得到语法错误样本语句对应的第一分词结果以及语法正确样本语句对应的第二分词结果。

在步骤S330,基于第一分词结果,生成语法错误样本语句对应的语句特征向量。

在本申请的一个实施例中,在基于第一分词结果生成语法错误样本语句对应的语句特征向量时,具体可以采用预训练的机器学习模型来实现,该机器学习模型可以是Word2vec词向量计算模型,或者是GloVe词向量模型等,在此不作限定。

在步骤S340,基于第一分词结果及第二分词结果,生成样本变换类别标签,样本变换类别标签是指语法错误样本语句所包含的各词汇在变换为语法正确语句样本时的变换类别标签。

在本申请的一个实施例中,样本变换类别标签是指语法错误样本语句所包含的各词汇在变换为语法正确语句样本时的变换类别标签,以语法错误样本语句为“I hasapples.”,语法正确样本语句为“I have apples.”为例,预先设置变换类别标签为[“I hasapples.”,“I”-保留操作标签,“has”-动词时态变换操作标签,“apples”-保留操作标签,“.”-保留操作标签]。

在一个实施例中,确定样本变换类别标签的过程可以是由人工预制的。

在一个实施例中,在生成样本变换类别标签时,也可以通过基于编辑距离的对齐算法对第一分词结果及第二分词结果进行处理,从而生成语法错误样本语句所包含的各词汇在变换为语法正确语句样本时的变换类别标签。

参考图4,图4示出了根据本申请的一个实施例的语法错误识别方法的步骤S340的具体流程图,该步骤S340可以包括步骤S410至步骤S430,详细描述如下。

在步骤S410中,针对第一分词结果所包含的每个词汇,对词汇进行编辑处理,以使得词汇变换为第二分词结果所包含的词汇。

在本申请的一个实施例中,通过基于编辑距离的对齐算法确定样本变换类别标签时,所针对的对象是词汇。具体而言,针对第一分词结果所包含的每个词汇,将其分别与第二分词结果所包含的词汇进行对齐,对于进行对齐的两个词汇之间,通过对第一分词结果的词汇进行编辑处理,以使得词汇变换为第二分词结果与其对齐的词汇。执行对词汇进行编辑处理可以包括(keep)保留操作、(delete)删除操作、(replace)替换操作、(add)插入操作、动词时态变换操作以及名词单复数变换操作等。

在步骤S420中,基于词汇进行编辑处理的编辑处理类别,确定第一分词结果与第二分词结果之间的编辑距离。

在本申请的一个实施例中,第一分词结果与第二分词结果之间的编辑距离是指第一分词结果中的每个词汇进行编辑处理的编辑处理类别所对应的编辑距离之和。

可以理解,对于(keep)保留操作的词汇,可以认为该编辑处理类别对应的编辑距离值为0;而对于delete)删除操作、(replace)替换操作、(add)插入操作、动词时态变换操作以及名词单复数变换操作等其它编辑处理类别而言,可以认为该编辑处理类别对应的编辑距离值为预定的正常数。

在确定对第一分词结果中的每个词汇进行编辑处理的编辑处理类别,则可以根据各个编辑处理类别所对应的编辑距离值之和,确定第一分词结果与第二分词结果之间的编辑距离。

在步骤S430中,选择处于最小编辑距离前提下的词汇进行编辑处理的编辑处理类别,作为变换类别标签。

在本申请的一个实施例中,针对第一分词结果中的每个词汇进行编辑处理的编辑处理类别,将最小编辑距离前提下的词汇进行编辑处理的编辑处理类别作为变换类别标签。

还请继续参考图3,在步骤S350,通过样本变换类别标签以及语法错误样本语句对应的语句特征向量对待训练的机器学习模型进行训练,得到预训练的机器学习模型。

在本申请的一个实施例中,在得到语法错误样本语句对应的语句特征向量以及样本变换类别标签后,则根据语法错误样本语句对应的语句特征向量以及样本变换类别标签来对待训练的机器学习模型进行训练,得到预训练的机器学习模型。对机器学习模型进行训练的过程是调整机器学习模型对应的网络层中的各项系数,使得对于输入的待识别语句对应的语句特征向量,经过机器学习模型对应的网络层中的各项系数运算,输出得到待识别语句所包含的各词汇在变换为待识别语句对应的语法正确语句时的目标变换类别标签。

参考图5,图5示出了根据本申请的一个实施例的语法错误识别方法的步骤S230的具体流程图,步骤S230具体可以包括步骤S510至步骤S530。

参考图6,图6示出了根据本申请的一个实施例的预训练的机器学习模型的结构示意图,图6所示的预训练的机器学习模型具体可以包括transformer网络层602、全连接层(fully connected layers)603和Softmax网络层604。以下结合图5以及图6对步骤S510至步骤S530进行详细描述。

在步骤S510中,对待识别语句对应的语句特征向量进行融合处理,生成包含上下文语义信息的语义特征向量。

在本申请的一个实施例中,如图6所示,输入数据601为待识别语句对应的语句特征向量,该语句特征向量具体包括待识别语句所包含的各词汇对应的词向量和待识别语句所包含的各词汇在待识别语句所处位置的位置特征向量。输入数据601被输入至预训练的机器学习模型后,机器学习模型通过transformer网络层602对待识别语句对应的语句特征向量进行融合处理,生成包含上下文语义信息的语义特征向量。

transformer网络层602对待识别语句对应的语句特征向量进行融合处理生成一个语义特征向量,语义特征向量是指包含上下文语义信息的一种特征向量。transformer网络层602包括自注意力(self-attention)网络层,该自注意力网络层可以充分挖掘出每个词汇之间的关系,进而实现充分挖掘出待识别语句所包含的词汇之间的上下文语义关系,进而生成包含上下文语义信息的语义特征向量。

在步骤S520中,对语义特征向量进行全连接处理,得到处理后的语义特征向量。

在本申请的一个实施例中,对于经过transformer网络层602处理后得到的语义特征向量,机器学习模型通过全连接层(fully connected layers)603对语义特征向量进行全连接处理,得到处理后的语义特征向量。对语义特征向量进行全连接处理的过程,实际上是对进行语义特征向量进行卷积计算的过程,用于实现对语义特征向量进行降维处理,对语义特征向量进行降维处理可以进一步挖掘出待识别语句中的语义关系,以便于根据语义特征向量预测待识别语句在变换为语法正确语句时的目标变换类别标签。

在步骤S530中,基于处理后的语义特征向量,预测目标变换类别标签。

在本申请的一个实施例中,对于经过全连接层(fully connected layers)603得到的处理后的语义特征向量,机器学习模型通过Softmax网络层604对处理后的语义特征向量进行分类预测,预测得到目标变换类别标签,即得到待识别语句所包含的各词汇在变换为待识别语句对应的语法正确语句时的变换类别标签605。

参考图7,图7示出了根据本申请的一个实施例的语法错误识别方法的步骤S530的具体流程图,该实施例中的步骤S530具体可以包括步骤S710至步骤S720,详细描述如下。

在步骤S710中,对处理后的语义特征向量进行归一化处理,生成待识别语句所包含的各词汇在变换为待识别语句对应的语法正确语句时的候选变换类别标签所对应的概率。

在本申请的一个实施例中,机器学习模型通过Softmax网络层604对处理后的语义特征向量进行分类预测时,具体可以先通过预设的Softmax函数对处理后的语义特征向量进行归一化处理,进行归一化处理的结果包含待识别语句在变换为语法正确语句时,待识别语句所包含的各个词汇所进行的变换操作对应的各种候选变换类别标签所对应的概率,对于每个词汇而言,其所进行的变换操作对应的各种候选变换类别标签所对应的概率是0-1之间的实数,且各种候选变换类别标签所对应的概率之和为1。

在步骤S720中,选取概率最大的候选变换类别标签,作为待识别语句所包含的各词汇在变换为待识别语句对应的语法正确语句时的目标变换类别标签。

在本申请的一个实施例中,将选取概率最大的候选变换类别标签,作为待识别语句所包含的各词汇在变换为待识别语句对应的语法正确语句时的目标变换类别标签,既可实现预测待识别语句所包含的各词汇在变换为待识别语句对应的语法正确语句时的目标变换类别标签。

在图5以及图7所示实施例的技术方案中,通过预训练的机器学习模型,可以实现精准地确定待识别语句在变换为语法正确语句时,待识别语句所包含的各个词汇所进行的变换操作对应的目标变换类别标签,有利于提高进行语法错误识别的准确度。

还请继续参考图2,在步骤S240中,基于待识别语句以及目标变换类别标签,确定待识别语句的语法错误类型。

在本申请的一个实施例中,在得到目标变换类别标签后,则可以根据待识别语句以及所确定的目标变换类别标签,分析待识别语句所存在的语法错误,进而确定待识别语句的语法错误类型。

可选地,在基于待识别语句以及目标变换类别标签,确定待识别语句的语法错误类型时,可以根据待识别语句、以及预设的目标变换类别标签与语法错误类型之间的对应关系,确定待识别语句的语法错误类型。

参考图8,图8示出了根据本申请的一个实施例的语法错误识别方法的步骤S240的具体流程图,该步骤S240可以包括步骤S810至步骤S820,详细描述如下。

在步骤S810中,基于目标变换类别标签以及待识别语句,确定待识别语句对应的语法正确语句。

在本申请的一个实施例中,在基于目标变换类别标签以及待识别语句,确定待识别语句的语法错误类型时,具体可以基于目标变换类别标签以及待识别语句,先生成确定待识别语句对应的语法正确语句。具体的,可以对待识别语句所包含的各词汇执行目标变换类别标签对应的变换操作,并将执行变换操作后的变换结果作为待识别语句对应的语法正确语句。

在步骤S820中,基于语法正确语句以及预设的语法错误分类规则,对待识别语句进行语法错误分类识别,确定待识别语句的语法错误类型。

在本申请的一个实施例中,语法错误类型是指待识别语句所存在的语法错误类别,它可以包括冠词或限定词错误、动词时态错误、主谓一致错误、介词搭配错误、名词错误等。

语法错误分类规则为包含进行语法错误分类识别的多种规则,具体可以包括基于词汇的词性判断语法错误的语法错误规则、基于词汇的目标变换类别标签判断语法错误的语法错误规则及基于词汇交换位置判断语法错误的语法错误规则。如待识别语句为“I eatapples yesterday.”,待识别语句对应的语法正确语句为“I ate apples yesterday.”,基于词汇的词性判断语法错误的语法错误规则可以确定待识别语句是将动词过去时态“ate”写成一般现在时态“eat”,因此待识别语句的语法错误类型包含动词时态错误。

在本申请的一个实施例中,步骤S820具体可以包括:若目标变换类别标签所对应的概率高于预定概率阈值,则基于语法正确语句以及预设的语法错误分类规则,对待识别语句进行语法错误分类识别,确定待识别语句的语法错误类型。

在本申请的一个实施例中,预训练的机器学习模型还可以输出目标变换类别标签所对应的概率,在确定待识别语句是否存在语法错误时,还可以将目标变换类别标签所对应的概率与预定概率阈值进行比较,预定概率阈值为预设的用于确定待识别语句是否存在语法错误的错误阈值。当目标变换类别标签所对应的概率高于预定概率阈值时,则认为待识别语句是存在语法错误的,通过设定错误阈值,可以有效避免将没有语法错误的句子识别为存在语法错误的情况,提高对待识别语句进行语法错误识别的准确度。

以上可以看出,通过基于待识别语句生成待识别语句对应的语句特征向量,并基于待识别语句对应的语句特征向量,预测目标变换类别标签,目标变换类别标签是指待识别语句所包含的各词汇在变换为待识别语句对应的语法正确语句时的变换类别标签,以及基于待识别语句以及目标变换类别标签,确定待识别语句的语法错误类型,相较于直接通过待识别语句所包含的特征去识别待识别语句所包含的语法错误,通过先确定待识别语句所包含的各词汇在变换为待识别语句对应的语法正确语句时的变换类别标签,由于变换类别标签可以更为显著的反映出待识别语句所存在的语法错误,进而可以有效提高对待识别语句进行语法错误识别的准确度。

在本申请的一个实施例中,在基于目标变换类别标签,确定待识别语句的语法错误类型的步骤S240之后,本实施例中的语法错误识别方法,还包括:基于待识别语句的语法错误类型和待识别语句,生成待识别语句对应的纠错建议信息。

在一个实施例中,在确定待识别语句的语法错误类型后,则基于待识别语句的语法错误类型和待识别语句,生成待识别语句对应的纠错建议信息,纠错建议信息是指对待识别语句所存在的语法错误类型以及各语法错误类型对应的修改方式进行描述的一种信息。若待识别语句为“I eat apples yesterday.”且待识别语句对应的语法错误类型为动词时态错误,则所生成的待识别语句对应的纠错建议信息为“[动词时态错误]疑似eat错误,应替换为ate。”

通过所生成的纠错建议信息,以便于及时获知对待识别语句的语法错误进行修正的建议,以便于在语言学习或文本修改等场景中,达到学习学法的目的或对文本进行修改的目的。

下面以进行作文批改的场景为例,来说明语法错误识别方法的过程。

图9示出了根据本申请的一个实施例的进行作文批改的整体流程示意图,图10示出了本申请的一个实施例的用于输入包含有作文的文本或图片的界面示意图。

结合图9和图10,在对作文进行批改时,可以通过本申请实施例中的语法错误识别方法来对作文中的各个语句进行语法错误识别。首先,用户需要将进行批改的作文输入到智能手机、笔记本电脑等客户端中。

如图10所示,用户可以在客户端提供的显示界面中输入包含待识别语句的作文。具体的,可以在显示界面的文本编辑栏1001中以文本的形式输入需要进行批改的作文,也可以通过点击显示界面上的图片输入按钮1002(一键上传图片)切换至以图片的形式输入包含待识别语句的作文。在以文本或图片形式输入作文后,可以通过点击批改按钮1003触发对输入的作文进行语法错误识别。

当输入作文内容文本至客户端后,客户端通过特定字符对作文内容文本进行分句处理,如,通过标点符号等特定字符对文本进行分句处理,得到多个待识别语句。对于图片而言,客户端则需要先对输入图片进行OCR光学字符识别,得到包含作文内容文本的识别结果,再对识别结果进行分句处理,得到多个待识别语句。

客户端中预存有预训练的机器学习模型,多个待识别语句将被输入至预训练的机器学习模型中。预训练的机器学习模型具体可以包括transformer网络层、全连接层和Softmax网络层,上述网络层用于分别对多个待识别语句进行处理,预训练的机器学习模型进行处理所输出的结果为待识别语句所包含的各词汇在变换为待识别语句对应的语法正确语句时的变换类别标签。

图11示出了根据本申请的一个实施例的对预训练的机器学习模型进行训练的整体流程示意图。客户端中预存的预训练的机器学习模型是需要进行训练的,在对预训练的机器学习模型进行训练时,需要获取大量的样本数据对,样本语句对是指由语法错误样本语句和语法错误样本语句对应的语法正确样本语句所组成的语句对。样本语句对可以从已有的语法练习题目的题目数据库中获取,可以是从包含大量样本语句对的其它数据库中获取。针对样本语句对,确定语法错误样本语句所包含的各词汇在变换为语法正确语句样本时的变换类别标签,基于样本语句对以及语法错误样本语句所包含的各词汇在变换为语法正确语句样本时的变换类别标签生成输入至预训练的机器学习模型的训练样本数据,预训练的机器学习模型通过这些训练样本数据进行多轮迭代训练,在完成训练时,即可用于对待识别语句进行处理。

客户端获取预训练的机器学习模型输出的结果,即获取待识别语句对应的语法正确语句时的变换类别标签。在待识别语句存在语法错误的前提下,客户端会进一步基于待识别语句对应的语法正确语句时的变换类别标签,生成待识别语句的语法错误类型、纠错建议以及错误概率。可以理解,上述错误概率可用于与预定概率阈值进行比较,且只有在该错误概率高于预定概率阈值时,再输出语法错误类型以及对待识别语句的语法错误进行纠错的纠错建议。客户端会在显示界面对语法错误类型以及对待识别语句的语法错误进行纠错的纠错建议进行显示,以便于用户查看作文中存在语法错误的语句、存在语法错误的语句所存在的语法错误类型以及存在语法错误的语句所对应的纠错建议。

图12示出了本申请的一个实施例的对作文进行语法错误识别所得到的语法错误识别结果的界面示意图,如图所示,“Almost every child will complaining abouttheir parent sometimes.”为存在语法错误的语句1201,“[动词时态错误]”为语法错误的语句对应的语法错误类型1202,“可能存在将来时使用错误,此处建议将will complaining替换为complainS。”为存在语法错误的语句所对应的纠错建议1203。

相较于直接通过语句所包含的特征去识别作文中语句所包含的语法错误,通过先确定作文中语句所包含的各词汇在变换为该语句对应的语法正确语句时的变换类别标签,由于变换类别标签可以更为显著的反映出作文中语句所存在的语法错误,进而可以有效提高对作文进行语法错误识别的准确度。

以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的语法错误识别方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的方法的实施例。

图13示出了根据本申请的一个实施例的语法错误识别装置的框图。

参照图13所示,根据本申请的一个实施例的装置1300,包括:第一获取单元1310、第一生成单元1320、预测单元1330以及语法错误确定单元1340。其中,第一获取单元1310,用于获取待识别语句;第一生成单元1320,用于基于所述待识别语句,生成所述待识别语句对应的语句特征向量,所述语句特征向量包括所述待识别语句所包含的各词汇对应的词向量和所述待识别语句所包含的各词汇在所述待识别语句所处位置的位置特征向量;预测单元1330,用于基于所述待识别语句对应的语句特征向量,预测目标变换类别标签,所述目标变换类别标签是指所述待识别语句所包含的各词汇在变换为所述待识别语句对应的语法正确语句时的变换类别标签;语法错误确定单元1340,用于基于所述待识别语句以及所述目标变换类别标签,确定所述待识别语句的语法错误类型。

在本申请的一些实施例中,基于前述方案,述语法错误确定单元1340包括:语法正确语句确定子单元,用于基于所述目标变换类别标签以及所述待识别语句,确定所述待识别语句对应的语法正确语句;语法错误识别子单元,用于基于所述语法正确语句以及预设的语法错误分类规则,对所述待识别语句进行语法错误分类识别,确定所述待识别语句的语法错误类型。

在本申请的一些实施例中,基于前述方案,所述预测单元1330包括:融合子单元,用于对所述待识别语句对应的语句特征向量进行融合处理,生成包含上下文语义信息的语义特征向量;全连接子单元,用于对所述语义特征向量进行全连接处理,得到处理后的语义特征向量;预测子单元,用于基于所述处理后的语义特征向量,预测所述目标变换类别标签。

在本申请的一些实施例中,基于前述方案,预测子单元,包括:生成模块,用于对所述处理后的语义特征向量进行归一化处理,生成所述待识别语句所包含的各词汇在变换为所述待识别语句对应的语法正确语句时的候选变换类别标签所对应的概率;选取模块,用于选取概率最大的候选变换类别标签,作为所述目标变换类别标签。

在本申请的一些实施例中,基于前述方案,语法错误识别子单元具体用于若所述目标变换类别标签所对应的概率高于预定概率阈值,则基于所述语法正确语句以及预设的语法错误分类规则,对所述待识别语句进行语法错误分类识别,确定所述待识别语句的语法错误类型。

在本申请的一些实施例中,基于前述方案,所述语法错误识别装置,还包括:纠错建议生成单元,用于基于所述待识别语句的语法错误类型和所述待识别语句,生成所述待识别语句对应的纠错建议信息。

在本申请的一些实施例中,基于前述方案,通过预训练的机器学习模型来生成所述目标变换类别标签及所述待识别语句对应的语句特征向量。

在本申请的一些实施例中,基于前述方案,所述语法错误识别装置,还包括:第二获取单元,用于获取用于对待训练的机器学习模型进行训练的训练集样本数据,所述训练集样本数据中的每条样本数据包括样本语句对,所述样本语句对包括语法错误样本语句和语法正确样本语句;分词单元,用于对所述语法错误样本语句和所述语法正确样本语句分别进行分词处理,得到所述语法错误样本语句对应的第一分词结果以及所述语法正确样本语句对应的第二分词结果;第二生成单元,用于基于所述第一分词结果,生成所述语法错误样本语句对应的语句特征向量;第三生成单元,用于基于所述第一分词结果及所述第二分词结果,生成样本变换类别标签,所述样本变换类别标签是指所述语法错误样本语句所包含的各词汇在变换为所述语法正确语句样本时的变换类别标签;训练单元,用于通过所述样本变换类别标签以及所述语法错误样本语句对应的语句特征向量对待训练的机器学习模型进行训练,得到预训练的机器学习模型。

在本申请的一些实施例中,基于前述方案,第三生成单元,包括:编辑子单元,用于针对所述第一分词结果所包含的每个词汇,对所述词汇进行编辑处理,以使得所述词汇变换为所述第二分词结果所包含的词汇;编辑距离确定子单元,用于基于所述词汇进行编辑处理的编辑处理类别,确定所述第一分词结果与所述第二分词结果之间的编辑距离;选择子单元,用于选择处于最小编辑距离前提下的所述词汇进行编辑处理的编辑处理类别,作为所述变换类别标签。

图14示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

需要说明的是,图14示出的电子设备的计算机系统1400仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

如图14所示,计算机系统1400包括中央处理单元(Central Processing Unit,CPU)1401,其可以根据存储在只读存储器(Read-Only Memory,ROM)1402中的程序或者从储存部分1408加载到随机访问存储器(Random Access Memory,RAM)1403中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 1403中,还存储有系统操作所需的各种程序和数据。CPU 1401、ROM 1402以及RAM 1403通过总线1404彼此相连。输入/输出(Input/Output,I/O)接口1405也连接至总线1404。

以下部件连接至I/O接口1405:包括键盘、鼠标等的输入部分1406;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1407;包括硬盘等的储存部分1408;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1409。通信部分1409经由诸如因特网的网络执行通信处理。驱动器1410也根据需要连接至I/O接口1405。可拆卸介质1411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1410上,以便于从其上读出的计算机程序根据需要被安装入储存部分1408。

特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1409从网络上被下载和安装,和/或从可拆卸介质1411被安装。在该计算机程序被中央处理单元(CPU)1401执行时,执行本申请的系统中限定的各种功能。

需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

30页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于领域术语和关键句的中文问题自动生成方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!