一种信息自动纠错与校准系统及方法

文档序号:1953435 发布日期:2021-12-10 浏览:10次 >En<

阅读说明:本技术 一种信息自动纠错与校准系统及方法 (Automatic information error correction and calibration system and method ) 是由 骆飞 刘成书 骆闻心 于 2020-06-09 设计创作,主要内容包括:本发明涉及信息纠错与校准技术领域,具体的说是一种信息自动纠错与校准系统及方法,包括数据自动输入模块,数据预处理模块,疑似错误数据初步筛选模块,数据校准模块以及数据输出模块,所述自动输入模块与数据预处理模块相连接,所述数据预处理模块与疑似错误数据初步筛选模块相连接,所述疑似错误数据初步筛选模块与数据校准模块相连接,所述数据校准模块与数据输出模块相连接。发明提供的信息自动纠错与校准系统及方法具有通过程序化自动生成信息纠错、校准文章内容,无需人工干预,工作效率较高的优点。(The invention relates to the technical field of information error correction and calibration, in particular to an automatic information error correction and calibration system and method. The system and the method for automatically correcting and calibrating the information have the advantages that the contents of the information correction and calibration article are automatically generated by programming, manual intervention is not needed, and the working efficiency is high.)

一种信息自动纠错与校准系统及方法

技术领域

本发明涉及信息纠错与校准技术领域,具体的说是一种信息自动纠错与校准系统及方法。

背景技术

信息,指音讯、消息、通讯系统传输和处理的对象,泛指人类社会传播的一切内容。人通过获得、识别自然界和社会的不同信息来区别不同事物,得以认识和改造世界。在一切通讯和控制系统中,信息是一种普遍联系的形式。

现有技术通过人工对信息逐个进行审核、纠错、校准,效率低,正确率不稳定。

因此,有必要提供一种信息自动纠错与校准系统及方法解决上述技术问题。

发明内容

针对现有技术中的问题,本发明提供了一种信息自动纠错与校准系统及方法,通过程序化自动生成信息纠错、校准文章内容,无需人工干预,工作效率较高。

本发明解决其技术问题所采用的技术方案是:一种信息自动纠错与校准系统及方法,包括数据自动输入模块,数据预处理模块,疑似错误数据初步筛选模块,数据校准模块以及数据输出模块,所述自动输入模块与数据预处理模块相连接,所述数据预处理模块与疑似错误数据初步筛选模块相连接,所述疑似错误数据初步筛选模块与数据校准模块相连接,所述数据校准模块与数据输出模块相连接。

本发明的进一步设置为:所述数据自动输入模块内设有显示模块,支持可视化界面手动输入。

本发明的进一步设置为:所述数据自动输入模块内设有文本读取模块,支持文本文件中自动读取信息。

本发明的进一步设置为:所述数据自动输入模块内设有数据库读取模块,支持从多种数据库中自动读取信息。

本发明的进一步设置为:所述数据自动输入模块内设有编码转换模块,支持UTF-8、Unicode、GBK多种编码转换。

本发明的进一步设置为:所述数据预处理模块包括如下步骤:a)建立基准词表;b)对基准词进行预处理,统一为UTF-8编码的文本,并映射出拼音首字母序列;c)对输入信息进行预处理,转换为UTF-8编码的文本,并映射出拼音首字母序列,形成目标数据。

本发明的进一步设置为:所述疑似错误数据初步筛选模块包括如下步骤:

a)运用滑动窗口思想,以基准词首字母序列为窗口,遍历目标数据;

b)针对窗口内目标数据,计算其与基准词序列的编辑距离;

c)过滤目标数据的干扰信息,忽略编辑距离结果较大的情况,以减小模式匹配和数据校准的工作量;同时,根据编辑距离结果,动态调整窗口滑动的步幅,以减少不必要的计算,提高效率;

d)对编辑距离序列进行模式匹配,基准词和窗口内目标数据差异较大时,编辑距离较大,反之较小;当窗口数据和基准词最接近时,继续滑动,编辑距离会增大,此处即为可疑数据。

本发明的进一步设置为:所述数据校准模块包括如下步骤:

a)针对疑似错误数据,参考基准词和基准词的读音判断错误类型;如拼音首字母序列一致,但原文有差异,则为谐音别字;如首字母序列编辑为1-4之间,一般为漏字,错字;

b)根据错误类型和模式匹配找到准确的错误位置;从编辑距离开始增加的位置往前寻找,每种模式和错误类型都可以找到准确的错误起始位置;

c)参考常用说法排除误判;以上方法对长词有较好效果,短词变化多,容易出现误判;因此需要针对性的加入排除词库,以避免误判造成的信息冗余;

d)通过迭代训练和人工标注扩充基准词库和排除词库;通过将基准词库和排除词库应用到不同的目标数据,并对计算结果不断进行人工校对,可以持续提升有效性,最终基本脱离人工干预。

本发明的进一步设置为:所述数据输出模块包括如下步骤:a)标识出出错信息;b)标识出正确信息;c)统计出信息的出错率;d)自动将错误信息纠正为正确信,并且存储到指定类型的数据库。

本发明的有益效果:

本发明所述的一种信息自动纠错与校准系统及方法,通过信息进行建模,通过大数据算法及信息特征分析,将信息操作建立可视化平台,纠错、校准后正确信息自动生成,从而通过程序化自动生成信息纠错、校准文章内容,无需人工干预,工作效率较高。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1为本发明提供的信息自动纠错与校准系统及方法的一种较佳实施例的系统连接示意图;

图2是图1所示的数据自动输入模块的系统连接示意图。

图中:1、数据自动输入模块;11、显示模块;12、文本读取模块;13、数据库读取模块;14、编码转换模块;2、数据预处理模块;3、疑似错误数据初步筛选模块;4、数据校准模块;5、数据输出模块。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。

如图1-图2所示,本发明所述的一种信息自动纠错与校准系统及方法,包括数据自动输入模块1,数据预处理模块2,疑似错误数据初步筛选模块3,数据校准模块4以及数据输出模块5,所述自动输入模块与数据预处理模块2相连接,所述数据预处理模块2与疑似错误数据初步筛选模块3相连接,所述疑似错误数据初步筛选模块3与数据校准模块4相连接,所述数据校准模块4与数据输出模块5相连接。

进一步的,所述数据自动输入模块1内设有显示模块11,支持可视化界面手动输入。

进一步的,所述数据自动输入模块1内设有文本读取模块12,支持文本文件中自动读取信息。

进一步的,所述数据自动输入模块1内设有数据库读取模块13,支持从多种数据库中自动读取信息。

进一步的,所述数据自动输入模块1内设有编码转换模块14,支持UTF-8、Unicode、GBK多种编码转换。

进一步的,所述数据预处理模块2包括如下步骤:a)建立基准词表;b)对基准词进行预处理,统一为UTF-8编码的文本,并映射出拼音首字母序列;c)对输入信息进行预处理,转换为UTF-8编码的文本,并映射出拼音首字母序列,形成目标数据。

进一步的,所述疑似错误数据初步筛选模块3包括如下步骤:

a)运用滑动窗口思想,以基准词首字母序列为窗口,遍历目标数据;

b)针对窗口内目标数据,计算其与基准词序列的编辑距离;

c)过滤目标数据的干扰信息,忽略编辑距离结果较大的情况,以减小模式匹配和数据校准的工作量;同时,根据编辑距离结果,动态调整窗口滑动的步幅,以减少不必要的计算,提高效率;

d)对编辑距离序列进行模式匹配,基准词和窗口内目标数据差异较大时,编辑距离较大,反之较小;当窗口数据和基准词最接近时,继续滑动,编辑距离会增大,此处即为可疑数据。

进一步的,所述数据校准模块4包括如下步骤:

a)针对疑似错误数据,参考基准词和基准词的读音判断错误类型;如拼音首字母序列一致,但原文有差异,则为谐音别字;如首字母序列编辑为1-4之间,一般为漏字,错字;

b)根据错误类型和模式匹配找到准确的错误位置;从编辑距离开始增加的位置往前寻找,每种模式和错误类型都可以找到准确的错误起始位置;

c)参考常用说法排除误判;以上方法对长词有较好效果,短词变化多,容易出现误判;因此需要针对性的加入排除词库,以避免误判造成的信息冗余;

d)通过迭代训练和人工标注扩充基准词库和排除词库;通过将基准词库和排除词库应用到不同的目标数据,并对计算结果不断进行人工校对,可以持续提升有效性,最终基本脱离人工干预。

进一步的,所述数据输出模块5包括如下步骤:a)标识出出错信息;b)标识出正确信息;c)统计出信息的出错率;d)自动将错误信息纠正为正确信,并且存储到指定类型的数据库。

与相关技术相比较,本发明提供的信息自动纠错与校准系统及方法具有如下有益效果:

本发明提供一种信息自动纠错与校准系统及方法,通过信息进行建模,通过大数据算法及信息特征分析,将信息操作建立可视化平台,纠错、校准后正确信息自动生成,从而通过程序化自动生成信息纠错、校准文章内容,无需人工干预,工作效率较高。

本申请中涉及到电路和电器元件和模块均为现有技术,本领域技术人员完全可以实现,无需赘言,本发明保护的内容也不涉及对于软件的改进。

在本发明描述中,需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”、“固定”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施方式和说明书中的描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入本发明要求保护的范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

9页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:语音识别纠错方法、系统、装置及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!