一种基于反向翻译的英文文章自动语法纠错方法

文档序号:1905179 发布日期:2021-11-30 浏览:16次 >En<

阅读说明:本技术 一种基于反向翻译的英文文章自动语法纠错方法 (English article automatic grammar error correction method based on reverse translation ) 是由 杨东强 孙晓东 于 2021-07-26 设计创作,主要内容包括:本发明公开了一种基于反向翻译的英文文章自动语法纠错方法方法,通过分析现有学习者语料的错误类型分布,对常见的错误类型如动词、名词、部分介词、拼写和标点等建立混淆集。首先使用混淆集结合替换规则的方法对单语语料数据进行加噪处理,并将其用于训练基于反向翻译的自动错误生成模型。其次,通过将语法纠正模型产生的中间数据反馈输入到错误生成模型,并进行联合训练。最终通过优化的错误生成模型,输出接近学习者语料库的更高质量的合成训练语料,提高了纠错模型的泛化能力,帮助用户减少语法错误的发生率。(The invention discloses an English article automatic grammar error correction method based on reverse translation, which establishes a confusion set for common error types such as verbs, nouns, partial prepositions, spellings, punctuations and the like by analyzing the error type distribution of the corpus of the existing learners. Firstly, a method of combining an confusion set with a replacement rule is used for carrying out noise adding processing on the monolingual corpus data, and the monolingual corpus data is used for training an automatic error generation model based on reverse translation. And secondly, feeding back and inputting intermediate data generated by the grammar correction model to the error generation model, and performing joint training. Finally, through the optimized error generation model, the synthesized training corpus with higher quality close to the learner corpus is output, the generalization capability of the error correction model is improved, and the user is helped to reduce the incidence rate of grammar errors.)

一种基于反向翻译的英文文章自动语法纠错方法

技术领域

本发明涉及数据生成技术和英语学习技术领域,具体涉及英语语法错误生成模型和英语语法错误的自动纠错模型,帮助英语学习者减少语法错误的发生机率。

背景技术

英语语法纠错系统(Grammatical Error Correction,GEC)目的是将可能含有语法错误的句子作为输入,并希望在不改变语义的前提下将其转化为语法正确的句子。近年来,数据驱动的GEC方法成为主流,但面临训练语料数据稀疏的问题,其成为影响机器翻译模型的重要因素。在数据稀缺的情况下,越来越多的数据增广方法被提出。

数据增广的方法主要有基于概率的方法、基于反向翻译的方法、基于往返翻译的方法、基于修订历史的方法等。基于规则的数据增广方法简单有效,可以融合不同的词性特征,但是规则有限,只涵盖部分英语学习者所犯的语法错误,人工建立大量规则将会消耗大量成本;对于基于反向翻译的数据增广方法,可以覆盖更多的不同类型的语法错误,但为了防止反向模型产生不切实际的错误,训练高性能的反向翻译模型也面临高质量数据不足的问题。基于往返翻译的数据增广方法可以融合多种语言,具有扩展性,并不需要大量的标注数据。往返翻译训练得到的不同翻译模型会面临模型性能差异的问题,因此得到的源语句和目标语句质量也不相同,性能高的往返翻译模型得到的源语句可能不存在语法错误,性能低的机器翻译模型产生的不单纯是语法错误,可能包括语义信息丢失现象。基于修订历史的方法收集到人为修正的数据,但是数据嘈杂,合成数据需要过滤。目前,对于如何融合不同数据增广方法的优点,对不同数据增广方法之间的如何进行缺点互补,使预训练模型的获得较好的初始权重,还未生成共识。

7页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:关键词校正方法、装置、计算机设备和存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!