文本纠错方法、相关设备及可读存储介质

文档序号:1242923 发布日期:2020-08-18 浏览:3次 >En<

阅读说明:本技术 文本纠错方法、相关设备及可读存储介质 (Text error correction method, related device and readable storage medium ) 是由 杨子清 崔一鸣 伍大勇 王士进 胡国平 刘挺 于 2020-04-30 设计创作,主要内容包括:本申请公开了一种文本纠错方法、相关设备及可读存储介质,在获取待纠错文本之后,分别待纠错文本进行字级别乱序纠错和词级别乱序纠错,得到字级别乱序纠错后的文本以及词级别乱序纠错后的文本,基于字级别乱序纠错后的文本以及词级别乱序纠错后的文本,即可得到纠错后的最终文本,基于上述方案,能够实现对文本中出现的乱序进行纠错,且相对于人工纠错的方式,可以节省人力和时间,进而可以提升纠错效率。(The application discloses a text error correction method, related equipment and a readable storage medium, after a text to be corrected is obtained, word level disorder error correction and word level disorder error correction are respectively carried out on the text to be corrected, the text after the word level disorder error correction and the text after the word level disorder error correction are obtained, and based on the text after the word level disorder error correction and the text after the word level disorder error correction, a final text after error correction can be obtained.)

文本纠错方法、相关设备及可读存储介质

技术领域

本申请涉及自然语言处理技术领域,更具体的说,是涉及一种文本纠错方法、相关设备及可读存储介质。

背景技术

随着信息技术的发展,越来越多的信息以文本的形式呈现,但是,在一些场景中,文本中可能会出现乱序(如,“事业发展进入一个的崭新阶段”,其中“的”和“崭新”的顺序)。比如,不熟悉汉语语法的用户(如,小学生和学习汉语的外国人)编辑的中文文本可能会出现乱序;用户在电脑上编辑文本时,由于粘贴、复制等原因移动光标,容易导致光标位置,从而可能导致编辑的文本出现乱序等。

出现乱序的文本会影响文本阅读者对文本内容的正确理解,因此,对文本中出现的乱序进行纠错显得尤为必要。

目前,多采用人工纠错的方式,对文本的乱序进行检测与纠正,然而,人工纠错的方式,将消耗大量的人力及时间,效率低。

发明内容

鉴于上述问题,本申请提出了一种文本纠错方法、相关设备及可读存储介质。具体方案如下:

一种文本纠错方法,包括:

获取待纠错文本;

对所述待纠错文本进行字级别乱序纠错,得到字级别乱序纠错后的文本;

对所述待纠错文本进行词级别乱序纠错,得到词级别乱序纠错后的文本;

基于所述字级别乱序纠错后的文本,以及,所述词级别乱序纠错后的文本,得到纠错后的最终文本。

可选地,所述对所述待纠错文本进行字级别乱序纠错,得到字级别乱序纠错后的文本,包括:

对所述待纠错文本进行相邻字交换处理,得到字级别候选文本集合;所述字级别候选文本集合中的每个字级别候选文本为对所述待纠错文本进行相邻字交换处理后得到的文本;

从所述字级别候选文本集合中,确定目标文本集合;所述目标文本集合中的每个目标文本为语法合规的字级别候选文本;

基于所述目标文本集合,确定所述字级别乱序纠错后的文本。

可选地,所述从所述字级别候选文本集合中,确定目标文本集合,包括:

针对每个字级别候选文本,计算所述字级别候选文本的语法合规概率值以及,所述待纠错文本的语法合规概率值;

基于所述字级别候选文本的语法合规概率值,以及,所述待纠错文本的语法合规概率值,确定所述字级别候选文本是否为目标文本,确定的全部目标文本组成目标文本集合。

可选地,所述基于所述目标文本集合,确定所述字级别乱序纠错后的文本,包括:

针对目标文本集合中的每个目标文本,确定所述目标文本中与所述待纠错文本有区别的部分;

计算所述目标文本中与所述待纠错文本有区别的部分为所述目标文本中对应位置的字的第一概率值,和,所述目标文本中与所述待纠错文本有区别字的部分为所述待纠错文本中对应位置的字的第二概率值;

根据所述第一概率值和所述第二概率值,确定所述目标文本是否为字级别乱序纠错后的文本。

可选地,所述对所述待纠错文本进行词级别乱序纠错,得到词级别乱序纠错后的文本,包括:

对所述待纠错文本进行词交换处理,得到词级别候选文本集合;所述词级别候选文本集合中的每个词级别候选文本为对所述待纠错文本进行词交换处理后得到的文本;

基于所述词级别候选文本集合,确定所述词级别乱序纠错后的文本。

可选地,所述对所述待纠错文本进行词交换处理,包括:

从所述待纠错文本中确定乱序片段,所述乱序片段中至少包含两个词;

交换所述乱序片段中位于乱序开始位置的词和位于乱序结束位置的词,得到所述词级别候选文本。

可选地,所述从所述待纠错文本中确定乱序片段,包括:

将所述待纠错文本输入乱序片段确定模型,所述乱序片段确定模型输出所述待纠错文本中的乱序片段,所述乱序片段确定模型是以训练文本为训练样本,以训练文本标注的乱序片段为样本标签,训练得到的。

可选地,所述基于所述词级别候选文本集合,确定所述词级别乱序纠错后的文本,包括:

针对所述词级别候选文本集合中的每个词级别候选文本,计算所述词级别候选文本的语法合规概率值,以及,所述待纠错文本的语法合规概率值;

根据所述词级别候选文本的语法合规概率值,以及,所述待纠错文本的语法合规概率值,确定所述词级别候选文本是否为词级别乱序纠错后的文本。

可选地,所述基于所述字级别乱序纠错后的文本,以及,所述词级别乱序纠错后的文本,得到纠错后的最终文本,包括:

基于所述字级别乱序纠错后的文本,以及,所述词级别乱序纠错后的文本,确定所述待纠错文本的纠错片段,以及,与所述待纠错文本的纠错片段对应的纠错后的片段;

使用所述纠错后的片段替换所述待纠错文本中对应所述纠错后的片段的待纠错片段,得到纠错后的最终文本。

可选地,所述基于所述字级别乱序纠错后的文本,以及,所述词级别乱序纠错后的文本,确定所述待纠错文本的纠错片段,包括:

对所述字级别乱序纠错后的文本,以及,所述词级别乱序纠错后的文本中的每个文本,确定所述待纠错文本与所述文本有区别的部分;

确定所述待纠错文本与所述文本有区别的部分,是所述待纠错文本的纠错片段;

或者,判定所述待纠错文本与所述文本有区别的部分是否与配置的文本过滤规则匹配,如果不匹配,则确定所述待纠错文本与所述文本有区别的部分,是所述待纠错文本的纠错片段,如果匹配,则确定所述待纠错文本与所述文本有区别的部分,不是所述待纠错文本的纠错片段。

可选地,所述判定所述待纠错文本与所述文本有区别的部分是否与配置的文本过滤规则匹配,包括:

判定所述配置的文本过滤规则设定的不存在乱序的词中是否包括所述待纠错文本与所述文本有区别的部分;

如果包括,则确定所述待纠错文本与所述文本有区别的部分与配置的文本过滤规则匹配;

如果不包括,则确定所述待纠错文本与所述文本有区别的部分与配置的文本过滤规则不匹配。

一种文本纠错装置,包括:

获取单元,用于获取待纠错文本;

字级别乱序纠错单元,用于对所述待纠错文本进行字级别乱序纠错,得到字级别乱序纠错后的文本;

词级别乱序纠错单元,用于对所述待纠错文本进行词级别乱序纠错,得到词级别乱序纠错后的文本;

文本纠错单元,用于基于所述字级别乱序纠错后的文本,以及,所述词级别乱序纠错后的文本,得到纠错后的最终文本。

可选地,所述字级别乱序纠错单元,包括:

相邻字交换处理单元,用于对所述待纠错文本进行相邻字交换处理,得到字级别候选文本集合;所述字级别候选文本集合中的每个字级别候选文本为对所述待纠错文本进行相邻字交换处理后得到的文本;

第一过滤单元,用于从所述字级别候选文本集合中,确定目标文本集合;所述目标文本集合中的每个目标文本为语法合规的字级别候选文本;

第二过滤单元,用于基于所述目标文本集合,确定所述字级别乱序纠错后的文本。

可选地,所述第一过滤单元,包括:

第一语法合规概率值计算单元,用于针对每个字级别候选文本,计算所述字级别候选文本的语法合规概率值以及,所述待纠错文本的语法合规概率值;

目标文本确定单元,用于基于所述字级别候选文本的语法合规概率值,以及,所述待纠错文本的语法合规概率值,确定所述字级别候选文本是否为目标文本,确定的全部目标文本组成目标文本集合。

可选地,所述第二过滤单元,包括:

区别确定单元,用于针对目标文本集合中的每个目标文本,确定所述目标文本中与所述待纠错文本有区别的部分;

概率计算单元,用于计算所述目标文本中与所述待纠错文本有区别的部分为所述目标文本中对应位置的字的第一概率值,和,所述目标文本中与所述待纠错文本有区别字的部分为所述待纠错文本中对应位置的字的第二概率值;

字级别乱序纠错后的文本确定单元,用于根据所述第一概率值和所述第二概率值,确定所述目标文本是否为字级别乱序纠错后的文本。

可选地,所述词级别乱序纠错单元,包括:

词交换处理单元,用于对所述待纠错文本进行词交换处理,得到词级别候选文本集合;所述词级别候选文本集合中的每个词级别候选文本为对所述待纠错文本进行词交换处理后得到的文本;

词级别乱序纠错后的文本确定单元,用于基于所述词级别候选文本集合,确定所述词级别乱序纠错后的文本。

可选地,所述词交换处理单元,包括:

乱序片段确定单元,用于从所述待纠错文本中确定乱序片段,所述乱序片段中至少包含两个词;

交换单元,用于交换所述乱序片段中位于乱序开始位置的词和位于乱序结束位置的词,得到所述词级别候选文本。

可选地,所述乱序片段确定单元,具体用于:

将所述待纠错文本输入乱序片段确定模型,所述乱序片段确定模型输出所述待纠错文本中的乱序片段,所述乱序片段确定模型是以训练文本为训练样本,以训练文本标注的乱序片段为样本标签,训练得到的。

可选地,所述词级别乱序纠错后的文本确定单元,包括:

第二语法合规概率值计算单元,用于针对所述词级别候选文本集合中的每个词级别候选文本,计算所述词级别候选文本的语法合规概率值,以及,所述待纠错文本的语法合规概率值;

词级别候选文本处理单元,用于根据所述词级别候选文本的语法合规概率值,以及,所述待纠错文本的语法合规概率值,确定所述词级别候选文本是否为词级别乱序纠错后的文本。

可选地,所述文本纠错单元,包括:

确定单元,用于基于所述字级别乱序纠错后的文本,以及,所述词级别乱序纠错后的文本,确定所述待纠错文本的纠错片段,以及,与所述待纠错文本的纠错片段对应的纠错后的片段;

替换单元,用于使用所述纠错后的片段替换所述待纠错文本中对应所述纠错后的片段的待纠错片段,得到纠错后的最终文本。

可选地,所述确定单元,包括:

区别部分确定单元,用于对所述字级别乱序纠错后的文本,以及,所述词级别乱序纠错后的文本中的每个文本,确定所述待纠错文本与所述文本有区别的部分;

第一纠错片段确定单元,用于确定所述待纠错文本与所述文本有区别的部分,是所述待纠错文本的纠错片段;

或者,第二纠错片段确定单元,用于判定所述待纠错文本与所述文本有区别的部分是否与配置的文本过滤规则匹配,如果不匹配,则确定所述待纠错文本与所述文本有区别的部分,是所述待纠错文本的纠错片段,如果匹配,则确定所述待纠错文本与所述文本有区别的部分,不是所述待纠错文本的纠错片段。

可选地,所述第二纠错片段确定单元,包括:

过滤规则判定单元,用于判定所述配置的文本过滤规则设定的不存在乱序的词中是否包括所述待纠错文本与所述文本有区别的部分;如果包括,则确定所述待纠错文本与所述文本有区别的部分与配置的文本过滤规则匹配;如果不包括,则确定所述待纠错文本与所述文本有区别的部分与配置的文本过滤规则不匹配。

一种文本纠错设备,包括存储器和处理器;

所述存储器,用于存储程序;

所述处理器,用于执行所述程序,实现如上所述的文本纠错方法的各个步骤。

一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的文本纠错方法的各个步骤。

借由上述技术方案,本申请公开了一种文本纠错方法、相关设备及可读存储介质,在获取待纠错文本之后,分别待纠错文本进行字级别乱序纠错和词级别乱序纠错,得到字级别乱序纠错后的文本以及词级别乱序纠错后的文本,基于字级别乱序纠错后的文本以及词级别乱序纠错后的文本,即可得到纠错后的最终文本,基于上述方案,能够实现对文本中出现的乱序进行纠错,且相对于人工纠错的方式,可以节省人力和时间,进而可以提升纠错效率。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1为本申请实施例公开的文本纠错方法的流程示意图;

图2为本申请公开的一种乱序片段确定模型的示意图;

图3为本申请实施例公开的一种文本纠错装置结构示意图;

图4为本申请实施例公开的文本纠错设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

接下来,通过下述实施例对本申请提供的文本纠错方法进行介绍。

参照图1,图1为本申请实施例公开的文本纠错方法的流程示意图,该方法可以包括:

步骤S101:获取待纠错文本。

在本申请中,待纠错文本可以是采用各种书面语言表现的文本,比如,可以为中文文本。待纠错文本中可以包含一个句子、一个段落或者一个篇章,比如,新闻稿件等。

作为一种可实施方式,获取待纠错文本的方法可以包括,获取待纠错的原始文本,将所述待纠错的原始文本,作为所述待纠错文本。

但是,待纠错的原始文本的格式或内容可能无法满足纠错要求,因此,在本申请中,作为另一种可实施方式,可以对所述待纠错的原始文本进行预处理,预处理后的文本作为所述待纠错文本。预处理方式具体可以为文本清洗,文本清洗的具体方式包括但不限于使用语言技术平台工具对原始文本进行分句、删除空行、删除非法字符、删除编码错误导致的乱码、删除句首句尾的空白字符等。

需要说明的是,预处理后的文本如果为空,则表示文本中不存在乱序错误,直接返回空结果。预处理后的文本如果不为空,则继续执行后续步骤。

步骤S102:对所述待纠错文本进行字级别乱序纠错,得到字级别乱序纠错后的文本。

在本申请中,字级别乱序是指相邻两个单字的顺序颠倒,例如,在文本“我在还上班”中,“还”和“在”两个单字的顺序颠倒。需要说明的是,对所述待纠错文本进行字级别乱序纠错,得到字级别乱序纠错后的文本的具体实现方式将通过后续实施例详细说明。

步骤S103:对所述待纠错文本进行词级别乱序纠错,得到词级别乱序纠错后的文本。

在本申请中,词级别乱序是指多字词的顺序颠倒,多字词的顺序颠倒可以包括相邻两个多字词的顺序颠倒,例如,在文本“请身体保重”中,“身体”和“保重”两个多字词的顺序颠倒。多字词的顺序颠倒也可以包括不相邻两个多字词的顺序颠倒,例如,在文本“显示公开资料根据,目前…”中,“显示”和“根据”两个多字词的顺序颠倒。需要说明的是,对所述待纠错文本进行词级别乱序纠错,得到词级别乱序纠错后的文本的具体实现方式将通过后续实施例详细说明。

需要说明的是,在本申请中,对步骤S102和步骤S103的执行顺序不进行任何限定,二者可以顺序执行也可以同时执行。

步骤S104:基于所述字级别乱序纠错后的文本,以及,所述词级别乱序纠错后的文本,得到纠错后的最终文本。

在本申请中,可以对字级别乱序纠错后的文本,以及,所述词级别乱序纠错后的文本进行融合,得到纠错后的最终文本,具体的融合方式,将通过后续实施例详细说明。

需要说明的是,待纠错文本中可能不存在任何乱序,也可能只存在字级别乱序,也可能只存在词级别乱序,也可能同时存在字级别乱序和词级别乱序,在本申请中,不管待纠错文本中存在何种乱序,都执行步骤S102、步骤S103以及步骤S104。但是,字级别乱序纠错后的文本,和/或,词级别乱序纠错后的文本可能为空,纠错后的最终文本可能与所述待纠错文本相同,也可能与所述待纠错文本不同。

本实施例公开了一种文本纠错方法,在获取待纠错文本之后,分别待纠错文本进行字级别乱序纠错和词级别乱序纠错,得到字级别乱序纠错后的文本以及词级别乱序纠错后的文本,基于字级别乱序纠错后的文本以及词级别乱序纠错后的文本,即可得到纠错后的最终文本,基于上述方案,能够实现对文本中出现的乱序进行纠错,且相对于人工纠错的方式,可以节省人力和时间,进而可以提升纠错效率。

在本申请的另一个实施例中,对上述步骤S102对所述待纠错文本进行字级别乱序纠错,得到字级别乱序纠错后的文本的实现方式进行介绍,该实现方式可以包括以下步骤:

步骤S201:对所述待纠错文本进行相邻字交换处理,得到字级别候选文本集合;所述字级别候选文本集合中的每个字级别候选文本为对所述待纠错文本进行相邻字交换处理后得到的文本。

在本申请中,所述对所述待纠错文本进行相邻字交换处理的实现方式可以包括:从所述待纠错文本中确定两个相邻的目标字;交换所述目标字在所述待纠错文本中的顺序,得到所述字级别候选文本。

为便于理解,假设待纠错文本为“大兴安岭”,字级别候选文本集合为{“兴大安岭”,“大安兴岭”,“大兴岭安”}。

步骤S202:从所述字级别候选文本集合中,确定目标文本集合。

在本申请中,所述目标文本集合中的每个目标文本为语法合规的字级别候选文本。

需要说明的是,语法合规的字级别候选文本具体指的是字级别候选文本中进行相邻字交换处理后的字的语法合规。

在本申请中,所述从所述字级别候选文本集合中,确定目标文本集合的实现方式可以包括以下步骤:

步骤S2021:针对每个字级别候选文本,计算所述字级别候选文本的语法合规概率值以及,所述待纠错文本的语法合规概率值。

在本申请中,可以将所述待纠错文本,以及,每个字级别候选文本,输入语法合规概率值计算模型,所述语法合规概率值计算模型输出所述待纠错文本的语法合规概率值,以及,每个字级别候选文本的语法合规概率值。

需要说明的是,在本申请中,语法合规概率计算模型具体可以为基于语法正确的文本,例如新闻、小说、百科、日常对话等建立的n-gram语言模型。n-gram语言模型能够采用统计的方法从语料中统计并估算当前位置为待纠错文本以及每个字级别候选文本中对应字的概率,进而计算待纠错文本以及每个字级别候选文本的概率,该概率的值即可作为待纠错文本的语法合规概率值。n-gram语言模型能够采用统计的方法从语料中统计并估算当前位置为每个字级别候选文本中对应字的概率,进而计算每个字级别候选文本的概率,该概率的值即可作为每个字级别候选文本的语法合规概率值。

步骤S2022:基于所述字级别候选文本的语法合规概率值,以及,所述待纠错文本的语法合规概率值,确定所述字级别候选文本是否为目标文本,确定的全部目标文本组成目标文本集合。

在本申请中,可以计算所述字级别候选文本的语法合规概率值以及,所述待纠错文本的语法合规概率值之间的差值,判断所述差值是否大于第一预设阈值,如果大于,则确定所述字级别候选文本为目标文本,否则,确定所述字级别候选文本为非目标文本。

步骤S203:基于所述目标文本集合,确定所述字级别乱序纠错后的文本。

在本申请中,所述基于所述目标文本集合,确定所述字级别乱序纠错后的文本的实现过程可以包括以下步骤:

步骤S2031:针对目标文本集合中的每个目标文本,确定所述目标文本中与所述待纠错文本有区别的部分。

为便于理解,假设待纠错文本为“他带就着我们山上了”,目标文本集合为{“他就带着我们山上了”,“他带就着我们上山了”},对于“他就带着我们山上了”这一目标文本来说,该目标文本中与待纠错文本有区别的部分为“就带”。

步骤S2032:计算所述目标文本中与所述待纠错文本有区别的部分为所述目标文本对应位置的字第一概率值,以及,所述目标文本中与所述待纠错文本有区别字的部分为所述待纠错文本对应位置的字的第二概率值。

在本申请中,可以将目标文本与待纠错文本有区别的部分用[MASK]标记,使用基于transformer的神经网络语言模型预测[MASK]位置的字分别为目标文本对应位置的字的概率以及为待纠错文本对应位置的字的概率,预测得到的[MASK]位置的字为目标文本对应位置的字的概率,即为第一概率值,预测得到的[MASK]位置的字为待纠错文本对应位置的字的概率,即为第二概率值。

为便于理解,假设待纠错文本为“他带就着我们山上了”,目标文本为“他就带着我们山上了”,则将目标文本与待纠错文本有区别的部分用[MASK]标记后的文本则为“他[MASK][MASK]着我们山上了”,将该文本输入至基于transformer的神经网络语言模型,基于transformer的神经网络语言模型预测[MASK][MASK]为“就带”的概率为第一概率值,预测[MASK][MASK]为“带就”的概率为第二概率值。

需要说明的是,基于transformer的神经网络语言模型可以为BERT(Bidirectional Encoder Representations from Transformers,来自变换器的双向编码器表征量)模型、RoBERTa模型、RoBERTa-large中文预训练模型、RoBERTa-wwm-ext、RoBERTa-wwm-large-ext中的任意一个。

步骤S2033:根据所述第一概率值和所述第二概率值,确定所述目标文本是否为字级别乱序纠错后的文本。

在本步骤中,可以计算所述第一概率值减去所述第二概率值的差值,如果该差值大于第二预设阈值,则确定所述目标文本为字级别乱序纠错后的文本。

在本申请的另一个实施例中,对上述步骤S103对所述待纠错文本进行词级别乱序纠错,得到词级别乱序纠错后的文本的实现方式进行介绍,该实现方式可以包括以下步骤:

步骤S301:对所述待纠错文本进行词交换处理,得到词级别候选文本集合;所述词级别候选文本集合中的每个词级别候选文本为对所述待纠错文本进行词交换处理后得到的文本;

在本申请中,所述对所述待纠错文本进行词交换处理的实现方式可以包括:从所述待纠错文本中确定乱序片段,所述乱序片段中至少包含两个词;交换所述乱序片段中位于乱序开始位置的词和位于乱序结束位置的词,得到所述词级别候选文本。

为便于理解,假设待纠错文本为“汉语是最人们受欢迎之一的语言”,则乱序片段为“人们受”和“之一的语言”,将“人们受”中位于乱序开始位置的词“人们”和位于乱序结束位置的词“受”交换位置,得到词级别候选文本“汉语是最受人们欢迎之一的语言”,将“之一的语言”中位于乱序开始位置的词“之一”和位于乱序结束位置的词“的语言”交换位置,得到词级别候选文本“汉语是最人们受欢迎的语言之一”。

需要说明的是,在本申请中,所述从所述待纠错文本中确定乱序片段的实现方式可以包括:将所述待纠错文本输入乱序片段确定模型,所述乱序片段确定模型输出所述待纠错文本中的乱序片段。

在本申请中,乱序片段确定模型也可以为上述步骤S2032中提供的基于transformer的神经网络语言模型,不同的是,所述乱序片段确定模型是以训练文本为训练样本,以训练文本标注的乱序片段为样本标签,训练得到的。

为便于理解,附图2为本申请公开的一种乱序片段确定模型的示意图,基于该模型,将待纠错文本按字切分并输入给乱序片段确定模型,经过嵌入层、词向量、transformer计算得到各个位置上的隐层表示,全连接层预测各个位置对应的类别。作为一种可实施方式,类别可以包括正常、乱序起始、乱序中部、乱序结尾。乱序片段即为类别为乱序起始和乱序结尾的字组成的片段,或者类别为乱序起始、乱序中部和乱序结尾的字组成的片段。

步骤S302:基于所述词级别候选文本集合,确定所述词级别乱序纠错后的文本。

在本申请中,词级别候选文本集合不为空集时,所述基于所述词级别候选文本集合,确定所述词级别乱序纠错后的文本的实现方式可以包括如下步骤:

步骤S3021:针对所述词级别候选文本集合中的每个词级别候选文本,计算所述词级别候选文本的语法合规概率值,以及,所述待纠错文本的语法合规概率值。

可以将所述待纠错文本,以及,每个词级别候选文本,输入语法合规概率值计算模型,所述语法合规概率值计算模型输出所述待纠错文本的语法合规概率值,以及,每个词级别候选文本的语法合规概率值。

需要说明的是,在本申请中,语法合规概率计算模型具体可以为基于语法正确的文本,例如新闻、小说、百科、日常对话等建立的n-gram语言模型。n-gram语言模型能够采用统计的方法从语料中统计并估算当前位置为待纠错文本以及每个词级别候选文本中对应字的概率,进而计算待纠错文本以及每个词级别候选文本的概率,该概率的值即可作为待纠错文本的语法合规概率值。n-gram语言模型能够采用统计的方法从语料中统计并估算当前位置为每个词级别候选文本中对应字的概率,进而计算每个词级别候选文本的概率,该概率的值即可作为每个词级别候选文本的语法合规概率值。

步骤S3022:根据所述词级别候选文本的语法合规概率值,以及,所述待纠错文本的语法合规概率值,确定所述词级别候选文本是否为词级别乱序纠错后的文本。

在本申请中,所述根据所述词级别候选文本的语法合规概率值,以及,所述待纠错文本的语法合规概率值,确定所述词级别候选文本是否为词级别乱序纠错后的文本的实现方式可以包括:计算所述词级别候选文本的语法合规概率值减去所述待纠错文本的语法合规概率值的差值,如果该差值大于第三预设阈值,则确定所述词级别候选文本为词级别乱序纠错后的文本。

在本申请的另一个实施例中,对上述步骤S104所述基于所述字级别乱序纠错后的文本,以及,所述词级别乱序纠错后的文本,得到纠错后的最终文本的实现方式进行介绍,该实现方式可以包括以下步骤:

步骤S401:基于所述字级别乱序纠错后的文本,以及,所述词级别乱序纠错后的文本,确定所述待纠错文本的纠错片段,以及,与所述待纠错文本的纠错片段对应的纠错后的片段。

在本申请中,基于所述字级别乱序纠错后的文本,以及,所述词级别乱序纠错后的文本,确定所述待纠错文本的纠错片段的实现方式可以包括:

S4011:对所述字级别乱序纠错后的文本,以及,所述词级别乱序纠错后的文本中的每个文本,确定所述待纠错文本与所述文本有区别的部分;

为便于理解,假设待纠错文本为“他祝并他顺风一路”,字级别乱序纠错后的文本为“他并祝他顺风一路”,词级别乱序纠错后的文本为“他祝并他一路顺风”,待纠错文本与所述字级别乱序纠错后的文本有区别的部分为“祝并”,待纠错文本与所述词级别乱序纠错后的文本有区别的部分为“顺风一路”。

S4012:确定所述待纠错文本与所述文本有区别的部分,是所述待纠错文本的纠错片段。

为便于理解,假设待纠错文本为“他祝并他顺风一路”,字级别乱序纠错后的文本为“他并祝他顺风一路”,词级别乱序纠错后的文本为“他祝并他一路顺风”,待纠错文本与所述字级别乱序纠错后的文本有区别的部分为“祝并”,待纠错文本与所述词级别乱序纠错后的文本有区别的部分为“顺风一路”,则所述待纠错文本的纠错片段为“并祝”、“顺风一路”。

但是,某些情况下,一些实体词、新词、领域词,白名单内的词被认为存在的乱序并非是真正的乱序,比如,“中银大厦”与“银中大厦”相比,“中银大厦”更有名也在语料中更常见,但在合适的上下文中也的确存在“银中大厦”。再比如,在司法相关文书中,可能频繁出现了“案涉”一词,以通用领域的角度看,为“涉案”的乱序,但实际上为其领域专用词汇。等等。过上述词汇被认为存在乱序,可能导致文本纠错出现错误。

为解决上述问题,在本申请中,还可预先配置文本过滤规则,设定不存在乱序的词(如实体词、新词、领域词、白名单内的词等),在对所述字级别乱序纠错后的文本,以及,所述词级别乱序纠错后的文本中的每个文本,确定所述待纠错文本与所述文本有区别的部分之后,判定所述待纠错文本与所述文本有区别的部分是否与配置的文本过滤规则匹配,如果不匹配,则确定所述待纠错文本与所述文本有区别的部分,是所述待纠错文本的纠错片段,如果匹配,则确定所述待纠错文本与所述文本有区别的部分,不是所述待纠错文本的纠错片段。

其中,所述判定所述待纠错文本与所述文本有区别的部分是否与配置的文本过滤规则匹配的过程可以包括:判定所述配置的文本过滤规则设定的不存在乱序的词中是否包括所述待纠错文本与所述文本有区别的部分;如果包括,则确定所述待纠错文本与所述文本有区别的部分与配置的文本过滤规则匹配;如果不包括,则确定所述待纠错文本与所述文本有区别的部分与配置的文本过滤规则不匹配。

为便于理解,假设预先配置的文本过滤规则设定不存在乱序的词,待纠错文本为“案涉”,其字级别乱序纠错后的文本为“涉案”,则待纠错文本与字级别乱序纠错后的文本有区别的部分包括“案涉”,但是预先配置的文本过滤规则设定不存在乱序的词中有“案涉”一词,则确定“案涉”不是待纠错文本的纠错片段。

在本申请中,待纠错文本的纠错片段确定之后,还需要确定与待纠错文本的纠错片段对应的纠错后的片段,与待纠错文本的纠错片段对应的纠错后的片段为所述字级别乱序纠错后的文本,或,所述词级别乱序纠错后的文本中与所述纠错片段位置对应的文本片段。

需要说明的是,对一个纠错片段来说,如果只有字级别乱序纠错后的文本,或,词级别乱序纠错后的文本中存在与其对应的纠错后的片段,则该纠错后的片段即为该纠错片段对应的纠错后的片段,如果字级别乱序纠错后的文本和词级别乱序纠错后的文本中都存在与其对应的纠错后的片段,则获取字级别乱序纠错后的文本的语法合规概率值,以及词级别乱序纠错后的文本的语法合规概率值,确定语法合规概率值较大的文本中的纠错后的片段作为该纠错片段对应的纠错后的片段。

为便于理解,假设待纠错文本为“他祝并他顺风一路”,字级别乱序纠错后的文本为“他并祝他顺风一路”,词级别乱序纠错后的文本为“他祝并他一路顺风”,待纠错文本与所述字级别乱序纠错后的文本有区别的部分为“祝并”,待纠错文本与所述词级别乱序纠错后的文本有区别的部分为“顺风一路”,则所述待纠错文本的纠错片段为“并祝”、“顺风一路”。与所述待纠错文本的纠错片段“并祝”对应的纠错后的片段为“并祝”,与所述待纠错文本的纠错片段“顺风一路”对应的纠错后的片段为“一路顺风”。

步骤S402:使用所述纠错后的片段替换所述待纠错文本中对应所述纠错后的片段的待纠错片段,得到纠错后的最终文本。

为便于理解,基于上述步骤,使用“并祝”替换待纠错文本为“他祝并他顺风一路”中的“祝并”,并使用“一路顺风”替换待纠错文本为“他祝并他顺风一路”中的“顺风一路”,得到纠错后的最终文本为“他并祝他一路顺风”。

下面对本申请实施例公开的文本纠错装置进行描述,下文描述的文本纠错装置与上文描述的文本纠错方法可相互对应参照。

参照图3,图3为本申请实施例公开的一种文本纠错装置结构示意图。如图3所示,该文本纠错装置可以包括:

获取单元11,用于获取待纠错文本;

字级别乱序纠错单元12,用于对所述待纠错文本进行字级别乱序纠错,得到字级别乱序纠错后的文本;

词级别乱序纠错单元13,用于对所述待纠错文本进行词级别乱序纠错,得到词级别乱序纠错后的文本;

文本纠错单元14,用于基于所述字级别乱序纠错后的文本,以及,所述词级别乱序纠错后的文本,得到纠错后的最终文本。

可选地,所述字级别乱序纠错单元,包括:

相邻字交换处理单元,用于对所述待纠错文本进行相邻字交换处理,得到字级别候选文本集合;所述字级别候选文本集合中的每个字级别候选文本为对所述待纠错文本进行相邻字交换处理后得到的文本;

第一过滤单元,用于从所述字级别候选文本集合中,确定目标文本集合;所述目标文本集合中的每个目标文本为语法合规的字级别候选文本;

第二过滤单元,用于基于所述目标文本集合,确定所述字级别乱序纠错后的文本。

可选地,所述第一过滤单元,包括:

第一语法合规概率值计算单元,用于针对每个字级别候选文本,计算所述字级别候选文本的语法合规概率值以及,所述待纠错文本的语法合规概率值;

目标文本确定单元,用于基于所述字级别候选文本的语法合规概率值,以及,所述待纠错文本的语法合规概率值,确定所述字级别候选文本是否为目标文本,确定的全部目标文本组成目标文本集合。

可选地,所述第二过滤单元,包括:

区别确定单元,用于针对目标文本集合中的每个目标文本,确定所述目标文本中与所述待纠错文本有区别的部分;

概率计算单元,用于计算所述目标文本中与所述待纠错文本有区别的部分为所述目标文本中对应位置的字的第一概率值,和,所述目标文本中与所述待纠错文本有区别字的部分为所述待纠错文本中对应位置的字的第二概率值;

字级别乱序纠错后的文本确定单元,用于根据所述第一概率值和所述第二概率值,确定所述目标文本是否为字级别乱序纠错后的文本。

可选地,所述词级别乱序纠错单元,包括:

词交换处理单元,用于对所述待纠错文本进行词交换处理,得到词级别候选文本集合;所述词级别候选文本集合中的每个词级别候选文本为对所述待纠错文本进行词交换处理后得到的文本;

词级别乱序纠错后的文本确定单元,用于基于所述词级别候选文本集合,确定所述词级别乱序纠错后的文本。

可选地,所述词交换处理单元,包括:

乱序片段确定单元,用于从所述待纠错文本中确定乱序片段,所述乱序片段中至少包含两个词;

交换单元,用于交换所述乱序片段中位于乱序开始位置的词和位于乱序结束位置的词,得到所述词级别候选文本。

可选地,所述乱序片段确定单元,具体用于:

将所述待纠错文本输入乱序片段确定模型,所述乱序片段确定模型输出所述待纠错文本中的乱序片段,所述乱序片段确定模型是以训练文本为训练样本,以训练文本标注的乱序片段为样本标签,训练得到的。

可选地,所述词级别乱序纠错后的文本确定单元,包括:

第二语法合规概率值计算单元,用于针对所述词级别候选文本集合中的每个词级别候选文本,计算所述词级别候选文本的语法合规概率值,以及,所述待纠错文本的语法合规概率值;

词级别候选文本处理单元,用于根据所述词级别候选文本的语法合规概率值,以及,所述待纠错文本的语法合规概率值,确定所述词级别候选文本是否为词级别乱序纠错后的文本。

可选地,所述文本纠错单元,包括:

确定单元,用于基于所述字级别乱序纠错后的文本,以及,所述词级别乱序纠错后的文本,确定所述待纠错文本的纠错片段,以及,与所述待纠错文本的纠错片段对应的纠错后的片段;

替换单元,用于使用所述纠错后的片段替换所述待纠错文本中对应所述纠错后的片段的待纠错片段,得到纠错后的最终文本。

可选地,所述确定单元,包括:

区别部分确定单元,用于对所述字级别乱序纠错后的文本,以及,所述词级别乱序纠错后的文本中的每个文本,确定所述待纠错文本与所述文本有区别的部分;

第一纠错片段确定单元,用于确定所述待纠错文本与所述文本有区别的部分,是所述待纠错文本的纠错片段;

或者,第二纠错片段确定单元,用于判定所述待纠错文本与所述文本有区别的部分是否与配置的文本过滤规则匹配,如果不匹配,则确定所述待纠错文本与所述文本有区别的部分,是所述待纠错文本的纠错片段,如果匹配,则确定所述待纠错文本与所述文本有区别的部分,不是所述待纠错文本的纠错片段。

可选地,所述第二纠错片段确定单元,包括:

过滤规则判定单元,用于判定所述配置的文本过滤规则设定的不存在乱序的词中是否包括所述待纠错文本与所述文本有区别的部分;如果包括,则确定所述待纠错文本与所述文本有区别的部分与配置的文本过滤规则匹配;如果不包括,则确定所述待纠错文本与所述文本有区别的部分与配置的文本过滤规则不匹配。

参照图4,图4为本申请实施例公开的文本纠错设备的硬件结构框图,参照图4,文本纠错设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;

在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;

处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;

存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;

其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:

获取待纠错文本;

对所述待纠错文本进行字级别乱序纠错,得到字级别乱序纠错后的文本;

对所述待纠错文本进行词级别乱序纠错,得到词级别乱序纠错后的文本;

基于所述字级别乱序纠错后的文本,以及,所述词级别乱序纠错后的文本,得到纠错后的最终文本。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:

获取待纠错文本;

对所述待纠错文本进行字级别乱序纠错,得到字级别乱序纠错后的文本;

对所述待纠错文本进行词级别乱序纠错,得到词级别乱序纠错后的文本;

基于所述字级别乱序纠错后的文本,以及,所述词级别乱序纠错后的文本,得到纠错后的最终文本。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间发生任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还发生另外的相同要素。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

20页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于人工智能的话题挖掘方法、装置及电子设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!