一种适航领域历史数据补录系统及方法

文档序号:1832031 发布日期:2021-11-12 浏览:3次 >En<

阅读说明:本技术 一种适航领域历史数据补录系统及方法 (System and method for supplementing historical data in airworthiness field ) 是由 叶夏竹 孙立超 邱斌 粱馨 梅亚楠 聂骕 于 2021-08-10 设计创作,主要内容包括:发明公开了一种适航领域历史数据补录系统及方法,包括依次连接的输入模块、图像预处理模块、图文分析识别模块、文字识别模块和模版识别补录模块,图像预处理模块包括灰度化处理模块、图像降噪模块和图像二值化模块,文字识别模块用于对二值化图像中文字区域进行文字识别并提取出文字数据;模版识别补录模块包括模版比对模块、关键字提取模块和录入模块,模版比对模块用于进行比对并找到所对应的证件模版,关键字提取模块按照证件模版对二值化图像文字区域所对应的文字数据进行关键词提取并通过录入模块进行数据录入。本发明降低了人工补录数据的错误率及人工成本,提高了数据补录的效率及质量,能够存储原始数据,便于及时追溯。(The invention discloses a history data additional recording system and method in the airworthiness field, which comprises an input module, an image preprocessing module, an image-text analysis and identification module, a character identification module and a template identification additional recording module which are sequentially connected, wherein the image preprocessing module comprises a graying processing module, an image noise reduction module and an image binaryzation module, and the character identification module is used for performing character identification on a character area in a binaryzation image and extracting character data; the template identification and additional recording module comprises a template comparison module, a keyword extraction module and an entry module, wherein the template comparison module is used for comparing and finding the corresponding certificate template, and the keyword extraction module is used for extracting keywords from character data corresponding to the character area of the binary image according to the certificate template and entering data through the entry module. The invention reduces the error rate and labor cost of manual data logging, improves the efficiency and quality of data logging, can store the original data and is convenient for timely tracing.)

一种适航领域历史数据补录系统及方法

技术领域

本发明涉及适航审定运行管理领域,尤其涉及一种适航领域历史数据补录系统及方法。

背景技术

为了更好地服务于“大飞机工程”等国家重大战略,切实保障民用航空安全、促进大型客机等国家重点型号项目的审定工作,落实局党组关于加强适航审定体系、提高适航审定能力的要求,适航审定运行管理系统应运而生。由于在过去的时间里,各管理机构均是采用线下的形式颁发证件,导致大量纸质证件生成,为了保证适航审定运行管理系统的正常运行,需向系统内导入历史证件数据。所以在程序建设过程中,如何保障历史数据的准确补录,并且提升历史数据的补录效率成为了一个必须重视的问题。适航领域历史证件数据量庞大,依靠人工录入易出错并且耗时耗力。

发明内容

本发明的目的在于克服现有历史数据补录存在的问题,提供一种适航领域历史数据补录系统及方法,旨在减少相关管理机构录入证件信息的工作量,提高各工作单位的历史数据补录效率。

本发明的目的通过下述技术方案实现:

一种适航领域历史数据补录系统,包括依次连接的输入模块、图像预处理模块、图文分析识别模块、文字识别模块和模版识别补录模块,所述输入模块用于输入图像,图像包括扫描件和/或照片;所述图像预处理模块包括灰度化处理模块、图像降噪模块和图像二值化模块,所述灰度化处理模块用于对图像进行灰度化并对灰度化的图像进行加权平均,所述图像降噪模块用于对灰度化处理模块处理后的图像进行高斯滤波降噪处理,所述图像二值化模块用于对图像降噪模块处理后的图像按照阈值进行二值化处理并得到二值化图像;所述图文分析识别模块用于对二值化图像进行图片区域与文字区域分别识别并提取出文字区域,所述文字识别模块用于对二值化图像中文字区域进行文字识别并提取出文字数据;所述模版识别补录模块包括模版比对模块、关键字提取模块和录入模块,所述模版比对模块存储有证件模版数据库,证件模版数据库中包含有若干个证件模版,模版比对模块用于根据二值化图像的图片区域、文字区域在证件模版数据库中进行比对并找到所对应的证件模版,所述关键字提取模块按照模版比对模块所找到的证件模版对二值化图像文字区域所对应的文字数据进行关键词提取并通过录入模块进行数据录入。

为了更好地实现本发明适航领域历史数据补录系统,所述灰度化处理模块根据图像的R、G、B三通道进行灰度化处理,灰度化处理模块对图像的每个像素按照公式(1)进行加权平均处理,

WrR+WgG+WbB (1)

Wg>Wr>Wb,其中R表示图像中像素R通道所对应的像素值,G表示图像中像素G通道所对应的像素值,B表示图像中像素B通道所对应的像素值。

本发明适航领域历史数据补录系统优选的技术方案是:所述文字识别模块建立Tesseract文字识别引擎并通过Tesseract文字识别引擎进行文字识别并提取出文字数据。

本发明适航领域历史数据补录系统优选的技术方案是:所述录入模块包括录入窗口模块。

一种适航领域历史数据补录方法,其方法如下:

A、通过输入模块输入图像,图像是R、G、B三通道彩色图像,图像包括扫描件和/或照片(扫描件为适航各类证件扫描件,照片为适航各类证件照片);

B、输入模块将图像传输至图像预处理模块,图像预处理模块包括灰度化处理模块、图像降噪模块和图像二值化模块,灰度化处理模块对图像按照R、G、B三通道的像素值进行灰度化,R、G、B三通道的像素值均为0~255;并对图像的每个像素按照公式(1)进行加权平均处理,

WrR+WgG+WbB (1)

Wg>Wr>Wb,其中R表示图像中像素R通道所对应的像素值,G表示图像中像素G通道所对应的像素值,B表示图像中像素B通道所对应的像素值;

C、图像降噪模块对灰度化处理模块处理后的图像进行高斯滤波降噪处理,高斯滤波降噪处理采用高斯低通滤波进行去噪;图像二值化模块对图像降噪模块处理后的图像按照阈值进行二值化处理并得到二值化图像,大于或等于阈值的像素二值化后的灰度值为255,小于阈值的像素二值化后的灰度值为0;

D、图像预处理模块将处理后的二值化图像传输至图文分析识别模块,图文分析识别模块对二值化图像进行图片区域与文字区域识别处理并提取出文字区域;通过文字识别模块建立Tesseract文字识别引擎对二值化图像中文字区域进行文字识别并提取出文字数据;

E、图像预处理模块、文字识别模块分别连接有模版识别补录模块,模版识别补录模块包括模版比对模块、关键字提取模块和录入模块,模版比对模块存储有证件模版数据库,证件模版数据库中包含有若干个证件模版,模版比对模块根据二值化图像的图片区域、文字区域在证件模版数据库中进行比对并找到所对应的证件模版,关键字提取模块按照模版比对模块所找到的证件模版对二值化图像文字区域所对应的文字数据进行关键词提取并通过录入模块进行数据录入。

本发明适航领域历史数据补录方法优选的技术方案是:所述模版比对模块按照二值化图像的图片区域进行图像识别,并结合二值化图像文字区域的关键数据进行证件模版的对比识别。

本发明适航领域历史数据补录方法优选的技术方案是:所述关键字提取模块对文字数据进行关键词提取并去除无用信息数据;所述录入模块按照证件模版的结构进行数据录入。

本发明适航领域历史数据补录方法优选的技术方案是:本发明适航领域历史数据补录方法还包括如下方法:

F、录入模块具有录入窗口模块,通过录入窗口模块直接选取证件模块并输入数据进行录入。

本发明较现有技术相比,具有以下优点及有益效果:

(1)本发明能够对输入的扫描件和/或照片等图像进行图像处理,然后通过模版识别补录模块进行模版比对以选择正确模版,并根据模版结构提取出关键信息实现数据的补录作业,补录工作效率大大提高了,降低了人工成本和出错概率,能够存储原始数据,便于及时追溯。

(2)本发明大大降低了人工补录数据的错误率,显著减轻了工作人员补录数据的工作量,使工作人员的工作重心从繁杂的信息整理和录入抽离出来,提高了整体数据补录的效率。

附图说明

图1为本发明适航领域历史数据补录系统的原理结构框图;

图2为本发明适航领域历史数据补录方法的流程示意图;

图3为本发明第一种数据补录应用样例;

图4为本发明第二种数据补录应用样例。

具体实施方式

下面结合实施例对本发明作进一步地详细说明:

实施例

如图1所示,一种适航领域历史数据补录系统,包括依次连接的输入模块、图像预处理模块、图文分析识别模块、文字识别模块和模版识别补录模块,所述输入模块用于输入图像,图像包括扫描件和/或照片;所述图像预处理模块包括灰度化处理模块、图像降噪模块和图像二值化模块,所述灰度化处理模块用于对图像进行灰度化并对灰度化的图像进行加权平均,所述图像降噪模块用于对灰度化处理模块处理后的图像进行高斯滤波降噪处理,所述图像二值化模块用于对图像降噪模块处理后的图像按照阈值进行二值化处理并得到二值化图像;所述图文分析识别模块用于对二值化图像进行图片区域与文字区域分别识别并提取出文字区域,所述文字识别模块用于对二值化图像中文字区域进行文字识别并提取出文字数据;所述模版识别补录模块包括模版比对模块、关键字提取模块和录入模块,所述模版比对模块存储有证件模版数据库,证件模版数据库中包含有若干个证件模版,模版比对模块用于根据二值化图像的图片区域、文字区域在证件模版数据库中进行比对并找到所对应的证件模版,所述关键字提取模块按照模版比对模块所找到的证件模版对二值化图像文字区域所对应的文字数据进行关键词提取并通过录入模块进行数据录入。

根据本发明适航领域历史数据补录系统的一个实施例,本发明灰度化处理模块根据图像的R、G、B三通道进行灰度化处理,灰度化处理模块对图像的每个像素按照公式(1)进行加权平均处理,

WrR+WgG+WbB (1)

Wg>Wr>Wb,其中R表示图像中像素R通道所对应的像素值,G表示图像中像素G通道所对应的像素值,B表示图像中像素B通道所对应的像素值。

根据本发明适航领域历史数据补录系统的一个实施例,本发明文字识别模块建立Tesseract文字识别引擎并通过Tesseract文字识别引擎进行文字识别并提取出文字数据。

根据本发明适航领域历史数据补录系统的一个实施例,本发明录入模块包括录入窗口模块。

一种适航领域历史数据补录方法,其方法如下:

A、通过输入模块输入图像,图像是R、G、B三通道彩色图像,图像包括扫描件和/或照片,扫描件为适航各类证件扫描件,照片为适航各类证件照片;

B、输入模块将图像传输至图像预处理模块,图像预处理模块包括灰度化处理模块、图像降噪模块和图像二值化模块,灰度化处理模块对图像按照R、G、B三通道的像素值进行灰度化,R、G、B三通道的像素值均为0~255;并对图像的每个像素按照公式(1)进行加权平均处理,

WrR+WgG+WbB (1)

Wg>Wr>Wb,其中R表示图像中像素R通道所对应的像素值,G表示图像中像素G通道所对应的像素值,B表示图像中像素B通道所对应的像素值;

在本实施例中,经过扫描或拍照得到的图像是R、G、B三通道彩色图像(即输入模块所输入的图像),每个通道的像素级是0-255共256个数量级,灰度化则是将三通道彩色图像变成单通道图像,即0-255亮度逐渐增加。彩色图像分为R(Red)、G(Green)、B(Blue)三个分量,分别显示出红绿蓝等各种颜色,灰度化就是使彩色的R、G、B分量相等的过程。采用加权平均值算法对图像做灰度化处理。加权平均值法选择按照公式WrR+WgG+WbB,其中Wr、Wg、Wb分别是R、G、B的权值,通过选取不同的值从而生成不同的灰度图像。本实施例在openCV中cvtColor函数的参数COLOR_BGR2GRAY会实现图像灰度化,此时,本实施例选择如下参数:Wr=0.299,Wg=0.587,Wb=0.114,这样设置权重得到的灰度图像最佳。对R、G、B的值加权平均,经过灰度化,图像的数据量会减少。

C、图像降噪模块对灰度化处理模块处理后的图像进行高斯滤波降噪处理,高斯滤波降噪处理采用高斯低通滤波进行去噪;图像二值化模块对图像降噪模块处理后的图像按照阈值进行二值化处理并得到二值化图像,大于或等于阈值的像素二值化后的灰度值为255,小于阈值的像素二值化后的灰度值为0。

在本实施例中,扫描件由于扫描硬件本身的原因,图像会有很多噪声点,针对这一特征,图像降噪模块采用高斯低通滤波去噪,来达到理想的图片效果。高斯低通滤波器(GaussianLowPassFilter)为一种传递函数为高斯函数的线性平滑滤波器,同样也因为高斯函数是正态分布的密度函数。所以高斯低通滤波器用于去除服从正态分布(Normaldistribution)的噪声非常有效,由于图像通常是二维信号,因此图像去噪通常使用二维高斯函数作为传递函数,而高斯函数具有可分离的特性,因此先对行进行高斯滤波,再对列进行高斯滤波,通过这样的手段将二维高斯函数就降为一维高斯滤波。

在本实施例中,指将图像上像素点的灰度值设置为0或255,即非黑即白,最终是的图像展现为只有黑色和白色的效果。本实施例通过自适应阈值计算算法(又称为大津法,简称为OTSU45])根据像素的灰度值,将灰度图片划分为前景和背景两个类别,通过计算两个类别的类间方差(intra-classvariance)来判断前景和背景差异的显著程度。并且通过搜索使类间方差达到最优的类别划分界限作为最优阈值。所有灰度大于或等于阈值的像素被判定为属于特定物体,其灰度值为255表示,否则这些像素点被排除在物体区域以外,灰度值为0,表示背景或者例外的物体区域。

D、图像预处理模块将处理后的二值化图像传输至图文分析识别模块,图文分析识别模块对二值化图像进行图片区域与文字区域识别处理并提取出文字区域。图文分析识别模块通过版面分析把图像中的文本区域和图片区域识别出来,进行属性标定,在后续进行文字检测时,则可以直接对文本区域进行处理。

通过文字识别模块建立Tesseract文字识别引擎对二值化图像中文字区域进行文字识别并提取出文字数据;根据本发明适航领域历史数据补录方法的一个实施例,所述关键字提取模块对文字数据进行关键词提取并去除无用信息数据;所述录入模块按照证件模版的结构进行数据录入。Tesseract文字识别引擎具有非常高的识别正确率,Tesseract引擎通过分析连通区域,找到块区域,找到文本行和单词,字符识别四步得出识别结果。

E、图像预处理模块、文字识别模块分别连接有模版识别补录模块,模版识别补录模块包括模版比对模块、关键字提取模块和录入模块,模版比对模块存储有证件模版数据库,证件模版数据库中包含有若干个证件模版,模版比对模块根据二值化图像的图片区域、文字区域在证件模版数据库中进行比对并找到所对应的证件模版,关键字提取模块按照模版比对模块所找到的证件模版对二值化图像文字区域所对应的文字数据进行关键词提取并通过录入模块进行数据录入。根据本发明适航领域历史数据补录方法的一个实施例,所述模版比对模块按照二值化图像的图片区域进行图像识别,并结合二值化图像文字区域的关键数据进行证件模版的对比识别。

本实施例获取到文字识别结果后,由于本发明只需对某些证件上的关键信息进行记录,需要对识别出的文本信息进行过滤,去除文本中的无用信息,提取关键信息,本发明模版识别补录模块分为模版比对模块、关键字提取模块两大功能区,通过该模块的处理可以获得本发明适航领域历史数据补录系统需要的关键数据,并返回给本发明适航领域历史数据补录系统,本发明适航领域历史数据补录系统分析返回的证件信息,并创建相应的证件补录流程,将流程所需数据进行存储,完成数据补录。

在模版比对中,通过对适航类证件的整体分析,可以发现适航类证件存在以下问题:

a:证件文件历史数据量大,不同类型证件格式差异较大;

b:同一类证件存在多个历史版本;

针对该问题,本发明可以制作不同的证照模版,通过证照模版匹配,提取结构化数据,完成历史数据整合。将证件中用户需要的关键信息以固定格式变量的形式替代制作成相应版本的证件模版,例如:证件信息为(编号001型号001)模版可标注为(编号【certificateNumber】型号【model】)。模版比对既是将文字识别处理的结果与模版内容进行匹配,找到该证件对应的证照模版。

在关键字提取时,将模版比对匹配到的模版与文字识别结果进行比对,去除文本中的无用信息,关键字提取模块提取模版上固定格式的变量对应的证件内容,并对提取的关键字进行结构化处理,返回本发明适航领域历史数据补录系统需要的有效数据。

在实际使用时,本发明系统可采用三层体系架构技术:把各个功能模块划分为表示层(UI)、业务逻辑层(BLL)和数据访问层(DAL)三层架构,各层之间采用接口相互访问,并通过对象模型的实体类(Model)作为数据传递的载体,不同的对象模型的实体类一般对应于数据库的不同表,实体类的属性与数据库表的字段名一致。三层架构区分层次的架构实现了“高内聚,低耦合”的编程思想,降低层与层之间的依赖,各层互相独立,使得程序更容易移植、维护,有利于标准化及各层逻辑的复用,同时用户端只能通过业务逻辑层来调用数据访问层,减少了入口点,增加系统安全性。同时,本发明系统中应用服务适用于微服务架构,可将服务注册在注册中心上,并部署在多个应用服务器虚拟机,实现负载均衡,将合理工作量分摊到了多台虚拟机,增强系统容灾处理能力,优化了系统性能,业务计算能力大大提高。

根据本发明适航领域历史数据补录方法的一个实施例,本发明适航领域历史数据补录方法还包括如下方法:

F、录入模块具有录入窗口模块,通过录入窗口模块直接选取证件模块并输入数据进行录入。如图3所示,在本发明适航领域历史数据补录系统及方法(具体实现模块为录入窗口模块)进行用户手动补录形中(其补录界面第一种实例如图3所示),用户点击左侧菜单栏中的安全能力--项目补录模块--选择所要补录的项目即可进入项目补录页面,在选择相应的补录流程后,用户可以选择手动填充项目相关信息,也可以通过点击左下角的文件识别区域的上传纸质文件的扫描件或者照片,由系统进行文字识别,并与证件模版相匹配,筛选出该页面相关结构化数据,并自动填充到相应输入框中。

如图4所示,在本发明适航领域历史数据补录系统及方法(可采用输入模块进行图像的上传)自动补录形式据(本发明根据上传的图像进行自动补录处理),用户选择想要补录的项目后,上传项目相关纸质文件的扫描件或者照,例如TC流程中,用户上传申请书,受理通知书,型号合格证及型号合格证附件后,点击下一步,系统自动根据上传的文件进行识别后,将筛选出的结构化数据自动归类,并根据识别出的信息创建一条新的项目。再由用户对项目信息进行完善,从而完成项目补录。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:耐张线夹压接缺陷的X射线图像识别方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!