记入区域提取装置和记入区域提取程序

文档序号:1220302 发布日期:2020-09-04 浏览:11次 >En<

阅读说明:本技术 记入区域提取装置和记入区域提取程序 (Entry region extraction device and entry region extraction program ) 是由 松本光弘 片冈江利 渡边阳介 山本俊辅 菅野干人 小出高道 于 2018-08-24 设计创作,主要内容包括:在记入区域提取装置(10)中,学习部(22)从多个文件的图像(30)中学习与文件的种类对应的特征而得到学习模型(31)。特征区域提取部(23)使用学习模型(31)从文件样品的图像(40)中提取作为表示与文件样品的种类对应的特征的区域的特征区域(43)。记入区域提取部(25)从文件样品的图像(40)中的除了由特征区域提取部(23)提取出的特征区域(43)以外的剩余区域中,提取作为记入栏区域的记入区域(46)。(In a recording region extraction device (10), a learning unit (22) learns features corresponding to the types of documents from images (30) of a plurality of documents to obtain a learning model (31). A feature region extraction unit (23) extracts a feature region (43) from an image (40) of a document sample, the feature region being a region representing a feature corresponding to the type of the document sample, using a learning model (31). A posting region extraction unit (25) extracts a posting region (46) that is a posting column region from the remaining region in the image (40) of the document sample, excluding the feature region (43) extracted by the feature region extraction unit (23).)

记入区域提取装置和记入区域提取程序

技术领域

本发明涉及记入区域提取装置和记入区域提取程序。

背景技术

在专利文献1中记载有如下技术:将多个标准文档分别分割成多个小区域,按照每个小区域提取RGB成分的平均浓度和平均颜色的特征量,根据特征量的偏差量提取记入栏区域。

在专利文献2中记载有如下技术:对由神经网络生成的中间图像进行加工,根据损失函数的变化量提取并合成表示对象物的特征的区域的图像。

在专利文献3中记载有如下技术:通过对低分辨率图像进行局部自适应阈值处理和膨胀处理而进行彩色成分的局部自适应二值化,提取字符区域。

现有技术文献

专利文献

专利文献1:日本特开2010-061523号公报

专利文献2:日本特开2017-059090号公报

专利文献3:日本特开2007-251518号公报

发明内容

发明要解决的课题

专利文献1记载的技术容易受到偏差和噪声的影响,提取精度显著地受参数左右。小区域的确定方法和偏差量的阈值设定复杂,因此,即使应用专利文献1记载的技术,实际上也有可能无法得到充分的精度。

本发明的目的在于,从文件样品中高精度地提取记入栏区域。

用于解决课题的手段

本发明的一个方式的记入区域提取装置具有:

特征区域提取部,其使用学习模型,从至少一个文件样品的图像中提取作为表示与所述文件样品的种类对应的特征的区域的特征区域,所述学习模型是从包含根据文件的种类而确定的记入栏且按照每个文件单独地记入有各记入栏的多个文件的图像中,学习与文件的种类对应的特征而得到的;以及

记入区域提取部,其从所述文件样品的图像中的除了由所述特征区域提取部提取出的特征区域以外的剩余区域中,提取作为记入栏区域的记入区域。

所述特征区域提取部按照所述文件样品的图像的每个像素对与所述文件样品的种类对应的特征的显著性进行数值化,利用阈值对该显著性的数值进行二值化而将所述文件样品的图像分成所述特征区域和所述剩余区域。

该记入区域提取装置还具有对象区域提取部,该对象区域提取部从所述文件样品的图像中提取作为在所述文件样品中记载有对象的区域的一个以上的对象区域,作为所述记入区域的候选,

所述记入区域提取部从所述记入区域的候选中,排除由所述对象区域提取部提取出的对象区域中的与所述特征区域重叠的对象区域。

所述记入区域提取部对由所述对象区域提取部提取出的对象区域中的相互重叠的2个以上的对象区域进行合成。

所述记入区域提取部对由所述对象区域提取部提取出的对象区域中的彼此的距离为阈值以下的2个以上的对象区域进行合成。

所述记入区域提取部从所述记入区域的候选中,排除由所述对象区域提取部提取出的对象区域中的面积为阈值以下的对象区域。

所述对象区域提取部至少将字符和标记识别为所述对象。

该记入区域提取装置还具有记入区域合成部,在由所述特征区域提取部从多个文件样品的图像中提取出所述特征区域,且由所述记入区域提取部从不同文件样品的图像中的除了所述特征区域以外的剩余区域中提取出的2个以上的记入区域相互重叠的情况下,该记入区域合成部对该2个以上的记入区域进行合成。

本发明的一个方式的记入区域提取程序使计算机执行以下处理:

特征区域提取处理,使用学习模型,从至少一个文件样品的图像中提取作为表示与所述文件样品的种类对应的特征的区域的特征区域,所述学习模型是从包含根据文件的种类而确定的记入栏且按照每个文件单独地记入有各记入栏的多个文件的图像中学习与文件的种类对应的特征而得到的;以及

记入区域提取处理,从所述文件样品的图像中的除了通过所述特征区域提取处理提取出的特征区域以外的剩余区域中,提取作为记入栏区域的记入区域。

发明效果

在本发明中,在不精细地分割文件样品的图像的情况下,从该图像中的除了使用学习模型提取出的特征区域以外的剩余区域中提取记入栏区域,因此,能够抑制偏差和噪声的影响。因此,根据本发明,能够从文件样品中高精度地提取记入栏区域。

附图说明

图1是示出实施方式1的记入区域提取装置的结构的框图。

图2是示出实施方式1的记入区域提取装置的动作的流程图。

图3是示出实施方式1的记入区域提取装置进行的处理的流程的图。

图4是示出实施方式1的记入区域提取装置进行的二值化处理的例子的图。

图5是示出实施方式1的记入区域提取装置进行的特征区域提取处理的例子的图。

图6是示出实施方式1的记入区域提取装置进行的对象区域提取处理的例子的图。

图7是示出实施方式1的记入区域提取装置进行的记入区域提取处理的例子的图。

图8是示出实施方式1的记入区域提取装置进行的记入区域合并处理的例子的图。

图9是示出实施方式1的记入区域提取装置进行的记入区域合成处理的例子的图。

具体实施方式

以下,使用附图说明本发明的实施方式。在各图中,对相同或对应的部分标记相同的标号。在实施方式的说明中,对相同或对应的部分适当省略或者简化说明。另外,本发明不限于以下说明的实施方式,能够根据需要进行各种变更。例如,也可以部分地实施以下说明的实施方式。

实施方式1

使用图1~图9说明本实施方式。

***结构的说明***

参照图1,说明本实施方式的记入区域提取装置10的结构。

记入区域提取装置10是计算机。记入区域提取装置10具有处理器11,并且具有存储器12等其他硬件。处理器11经由信号线而与其他硬件连接,对这些其他硬件进行控制。

作为结构要素,记入区域提取装置10具有输入部21、学习部22、特征区域提取部23、对象区域提取部24、记入区域提取部25、记入区域合成部26和输出部27。输入部21、学习部22、特征区域提取部23、对象区域提取部24、记入区域提取部25、记入区域合成部26和输出部27的功能通过软件来实现。

处理器11是执行记入区域提取程序的装置。记入区域提取程序是实现输入部21、学习部22、特征区域提取部23、对象区域提取部24、记入区域提取部25、记入区域合成部26和输出部27的功能的程序。处理器11例如是CPU、GPU、DSP或它们中的几个或全部的组合。“CPU”是Central Processing Unit(中央处理单元)的缩写。“GPU”是Graphics ProcessingUnit(图形处理单元)的缩写。“DSP”是Digital Signal Processor(数字信号处理器)的缩写。

存储器12是存储记入区域提取程序的装置。存储器12例如是RAM、闪存或它们的组合。“RAM”是Random Access Memory(随机存取存储器)的缩写。

显示器50作为外部的硬件与记入区域提取装置10连接。

显示器50是将从记入区域提取程序输出的数据显示在画面上的设备。显示器50例如是LCD。“LCD”是Liquid Crystal Display(液晶显示器)的缩写。另外,显示器50也可以作为内部的硬件设置在记入区域提取装置10中。

在记入区域提取装置10中,作为内部的其他硬件设置有通信器件、输入设备或它们双方。

通信器件包含接收输入到记入区域提取程序的数据的接收器和发送从记入区域提取程序输出的数据的发送器。通信器件例如是通信芯片或NIC。“NIC”是NetworkInterface Card(网络接口卡)的缩写。

输入设备是由用户操作以将数据输入到记入区域提取程序的设备。输入设备例如是鼠标、键盘、触摸面板、扫描器或它们中的几个或全部的组合。

经由通信器件、输入设备或其他接口向记入区域提取装置10输入多个文件的图像30。各个文件包含根据文件的种类而确定的记入栏。各记入栏按照每个文件单独地记入。例如,作为文件的种类,具有账户开设申请表,在任何账户开设申请表中都公共地包含姓名的记入栏,但是,各个账户开设申请表的记入者不同,因此,记入栏中记入的姓名根据账户开设申请表而不同。

经由通信器件、输入设备或其他接口向记入区域提取装置10还输入至少一个文件样品的图像40。在本实施方式中,向记入区域提取装置10输入多个文件样品的图像40。

在存储器12中存储学习模型31,并且构建记入区域数据库41。学习模型31是从多个文件的图像30中学习与文件的种类对应的特征而得到的模型。记入区域数据库41是以图像数据或其他形式记录从多个文件样品各自的图像40中提取的记入栏区域的数据库。

记入区域提取程序被从存储器12读入处理器11中,由处理器11执行。在存储器12中不仅存储有记入区域提取程序,还存储有OS。“OS”是Operating System(操作系统)的缩写。处理器11一边执行OS一边执行记入区域提取程序。另外,也可以将记入区域提取程序的一部分或全部组装到OS中。

记入区域提取程序和OS也可以存储于辅助存储装置。辅助存储装置例如是HDD、闪存或它们的组合。“HDD”是Hard Disk Drive(硬盘驱动器)的缩写。记入区域提取程序和OS在存储于辅助存储装置的情况下,被加载到存储器12中,由处理器11执行。

记入区域提取装置10也可以具有替代处理器11的多个处理器。该多个处理器分担执行记入区域提取程序。各个处理器例如是CPU、GPU、DSP或它们中的几个或全部的组合。

由记入区域提取程序利用、处理或输出的数据、信息、信号值和变量值存储于存储器12、辅助存储装置或处理器11内的寄存器或者闪存。

记入区域提取程序是将由输入部21、学习部22、特征区域提取部23、对象区域提取部24、记入区域提取部25、记入区域合成部26和输出部27进行的处理分别作为输入处理、学习处理、特征区域提取处理、对象区域提取处理、记入区域提取处理、记入区域合成处理和输出处理使计算机执行的程序。记入区域提取程序可以记录在计算机能读取的介质中来提供,也可以存储到记录介质中来提供,还可以作为程序产品来提供。

记入区域提取装置10可以由1台计算机构成,也可以由多台计算机构成。在记入区域提取装置10由多台计算机构成的情况下,输入部21、学习部22、特征区域提取部23、对象区域提取部24、记入区域提取部25、记入区域合成部26和输出部27的功能也可以分散到各计算机中来实现。

***动作的说明***

参照图2,说明本实施方式的记入区域提取装置10的动作。记入区域提取装置10的动作相当于本实施方式的记入区域提取方法。

在步骤S101中,多个文件的图像30被输入到输入部21。具体而言,输入部21从用户受理扫描多个文件的操作。

在步骤S102中,学习部22从被输入到输入部21的多个文件的图像30中学习与文件的种类对应的特征而得到学习模型31。具体而言,学习部22使用CNN学习图像30的特征,使得能够对文件进行分类。即,学习部22根据作为步骤S101中的扫描结果的多张图像30,使用神经网络学习分类问题。“CNN”是Convolutional Neural Network(卷积神经网络)的缩写。

在步骤S103中,学习部22将得到的学习模型31写入存储器12中。具体而言,学习部22将作为步骤S102中的学习结果的学习模型31保存到存储器12中构建的数据库。

在步骤S104中,输入部21询问用户学习是否充分。在由用户判断为学习不充分的情况下,在步骤S105中,增加文件的数量,再次进行步骤S101的处理。在由用户判断为学习充分的情况下,在步骤S106中,将一个文件样品的图像40输入到输入部21。具体而言,输入部21从用户受理扫描一个文件的操作。

在步骤S107中,如图3~图5所示,特征区域提取部23使用学习模型31,从被输入到输入部21的文件样品的图像40中,提取作为表示与文件样品的种类对应的特征的区域的特征区域43。具体而言,特征区域提取部23按照文件样品的图像40的每个像素对与文件样品的种类对应的特征的显著性进行数值化而生成映射图42。然后,特征区域提取部23对生成的映射图42进行二值化而分成特征区域43和剩余区域。即,特征区域提取部23利用阈值对计算出的显著性的数值进行二值化而将文件样品的图像40分成特征区域43和剩余区域。

更加具体而言,如图3和图4所示,特征区域提取部23通过CAM或Grad-CAM等方法求出作为步骤S106中的扫描结果的1张图像40中的、与分类对象文件的种类对应的起火位置,由此生成热图作为映射图42。然后,特征区域提取部23利用阈值对起火位置进行分割而对热图进行二值化。即,特征区域提取部23将热图转换成黑白图像。“CAM”是ClassActivation Mapping(类激活映射)的缩写。“Grad-CAM”是Gradient-weighted ClassActivation Mapping(梯度加权类激活映射)的缩写。用于二值化的阈值可以是固定值,但是,也可以使得能够由用户通过GUI调整。“GUI”是Graphical User Interface(图形用户界面)的缩写。

在图5的例子中,在文件样品的图像40中,提取出记载有表示文件的种类的“账户开设申请表”这样的字符串和作为在账户开设申请表中公共的记入栏的标题的“姓名”、“出生日期”、“住址”、“电话号码”和“电子邮件”这样的字符串的区域作为一个特征区域43。判定为记入栏本身即按照每个账户开设申请表记入有不同的姓名、出生日期、住址、电话号码和电子邮件的区域不是特征区域43。

在步骤S108中,如图3和图6所示,对象区域提取部24从被输入到输入部21的文件样品的图像40中,提取作为在文件样品中记载有对象的区域的一个以上的对象区域45。在本实施方式中,对象区域提取部24至少将字符和标记识别为对象。另外,对象区域提取部24也可以将矩形框等图形识别为对象。

具体而言,如图3所示,对象区域提取部24在对作为步骤S106中的扫描结果的1张图像40进行黑色反转而转换成反转图像44之后,使反转图像44的白色部位膨胀或收缩,从而将相当于一个字符或一个标记的对象彼此识别为一块。由此,能够防止字符或标记的***。然后,对象区域提取部24提取对象的轮廓,提取包围提取出的轮廓的矩形作为对象区域45。对象区域45成为在以下步骤中被剪切的区域的候选。另外,对象区域提取部24也可以不对图像40进行黑色反转,而使图像40的黑色部位膨胀或收缩,从而将相当于一个字符或一个标记的对象彼此识别为一块。

在图6的例子中,表示文件的种类的“账户开设申请表”这样的字符串的各字符和作为在账户开设申请表中公共的记入栏的标题的“姓名”、“出生日期”、“住址”、“电话号码”以及“电子邮件”这样的字符串的各字符中的任意字符相当于对象。记入栏中记入的姓名、出生日期、住址、电话号码和电子邮件本身的字符串的各字符也相当于对象。在文件样品的图像40中,分别提取记载有这些对象的区域作为对象区域45。

另外,步骤S108的处理也可以与OCR一并应用或置换成OCR。“OCR”是OpticalCharacter Recognition(光学字符识别)的缩写。

在步骤S109中,如图3和图7所示,记入区域提取部25从文件样品的图像40中的除了由特征区域提取部23提取出的特征区域43以外的剩余区域中,提取作为记入栏区域的记入区域46。具体而言,记入区域提取部25从记入区域46的候选中,排除由对象区域提取部24作为记入区域46的候选提取出的对象区域45中的与特征区域43重叠的对象区域45,提取剩余的候选作为记入区域46。更加具体而言,记入区域提取部25从在步骤S108中提取出的区域的候选中排除与在步骤S107中求出的起火位置重叠的矩形,剪切剩余的矩形作为记入区域46。

在本实施方式中,记入区域提取部25对由对象区域提取部24提取出的对象区域45中的相互重叠的2个以上的对象区域45进行合成。具体而言,如图8所示,在某一矩形A101与另一矩形A102部分重叠的情况下,记入区域提取部25将它们合并成一个矩形A103。此外,如图8所示,在某一矩形A111包含在另一矩形A112中的情况下,记入区域提取部25将它们合并成一个矩形A113。

此外,在本实施方式中,记入区域提取部25对由对象区域提取部24提取出的对象区域45中的彼此的距离为阈值以下的2个以上的对象区域45进行合成。具体而言,如图8所示,在某一矩形A121与另一矩形A122相邻的情况下,记入区域提取部25将它们合并成一个矩形A123。距离的阈值可以设定为0,也可以设定为比0大的值。

此外,在本实施方式中,记入区域提取部25从记入区域46的候选中排除由对象区域提取部24提取出的对象区域45中的面积为阈值以下的对象区域45。具体而言,记入区域提取部25删除一定面积以下的矩形。

作为记入区域提取部25的合并条件的距离的阈值或者作为删除条件的面积的阈值也可以使得能够由用户通过GUI调整。也可以对合并条件加上面积的阈值。

在图7的例子中,“账户开设申请表”、“姓名”、“出生日期”、“住址”、“电话号码”和“电子邮件”这样的字符串的各字符的对象区域45与特征区域43重叠,因此,从记入区域46的候选中排除。然后,记入栏中记入的姓名、出生日期、住址、电话号码和电子邮件本身的字符串的各字符的对象区域45在按照每个字符串被合成之后,被作为记入区域46提取。即,5个字符串的记入范围分别被作为记入区域46提取。另外,针对姓名的字符串,在第1阶段,合并姓的各字符的对象区域45而得到对应于姓的一个矩形,合并名的各字符的对象区域45而得到对应于名的一个矩形。然后,在第2阶段,对应于姓的矩形和对应于名的矩形位于相互较近的距离,因此,合并这2个矩形而得到作为一个矩形的记入区域46。在该例子中,针对姓和名统一提取出一个记入区域46,但是,也可以较小地设定上述距离的阈值,以针对姓和名得到不同的记入区域46。

在步骤S110中,输入部21询问用户是否针对全部文件样品的图像40完成了处理。在由用户判断为未完成处理的情况下,再次进行步骤S106的处理。在由用户判断为完成了处理的情况下,进行步骤S111的处理。

在步骤S111中,如图3所示,在由记入区域提取部25从不同的文件样品的图像40中的除了特征区域43以外的剩余区域中提取出的2个以上的记入区域46相互重叠的情况下,记入区域合成部26对该2个以上的记入区域46进行合成。具体而言,在某一文件样品的一个矩形与另一文件样品的一个矩形重叠的情况下,记入区域合成部26将该2个矩形合并成一个矩形。由此,例如,当设在2个账户开设申请表中的一个账户开设申请表中,在住址栏内靠左的位置记入有住址,在另一个账户开设申请表中,在住址栏内靠右的位置记入有住址时,能够将整个住址栏识别为一个记入区域46。

这样,在本实施方式中,记入区域合成部26合并在多张文件之间重叠的矩形。作为其合并条件,也可以设定矩形彼此的重叠部分的面积。即,也可以根据重叠部分的面积来确定是否合并在多张文件之间重复的矩形。并且,记入区域合成部26也可以合并在多张文件之间位置接近的矩形。作为其合并条件,也可以设定矩形之间的距离。即,也可以根据距离确定是否合并在多张文件之间位置接近的矩形。作为这些合并条件的距离和面积的阈值也可以使得能够由用户通过GUI调整。在该情况下,用户能够放宽距离和面积的条件,并将矩形缩小至固定的个数。或者,也可以替代距离和面积的阈值,使得能够由用户指定将矩形的个数缩小至几个。在该情况下,记入区域合成部26放宽距离和面积的条件,并将矩形的个数自动地缩小至指定的个数。具体而言,如图9所示,记入区域合成部26通过调整距离的阈值,能够选择是否将某一文件样品的矩形A131与另一文件样品的矩形A132合并成一个矩形A133。

在步骤S112中,记入区域合成部26将在步骤S110中提取出且在步骤S111中适当合成后的记入区域46登记到记入区域数据库41中。记入区域46以任意的形式记录即可,但是,在本实施方式中,通过矩形的1个顶点的坐标和纵横的长度来记录。

在步骤S113中,输出部27将记入区域数据库41中登记的数据输出到显示器50的画面。

如以上说明的那样,在本实施方式中,特征区域提取部23根据由神经网络分类后的结果,提取图像40的特征区域43。对象区域提取部24确定图像40的字符串或***的标志等对象区域45。记入区域提取部25从特征区域43和对象区域45中提取记入区域46。

对象区域提取部24通过膨胀处理使1张文件的对象彼此成为一块,用矩形包围对象的轮廓,由此提取1张文件的对象区域45。

特征区域提取部23根据神经网络的分类结果和神经网络的隐藏层的输出结果,提取文件的特征区域43。

记入区域合成部26使针对从记入区域提取部25输出的1张文件的记入区域46多张重叠起来而对重叠的矩形进行合成。

***实施方式的效果的说明***

在本实施方式中,在不精细地分割文件样品的图像40的情况下,从该图像40中的除了使用学习模型31而提取出的特征区域43以外的剩余区域中提取记入栏区域,因此,能够抑制偏差和噪声的影响。因此,根据本实施方式,能够从文件样品中高精度地提取记入栏区域。

以往,在从文件取得人记入的信息的情况下,需要手动指定取得位置,或者对文件的模板进行定义,但是,根据本实施方式,能够自动地确定手动输入的字符或***等的区域。因此,在本实施方式中,根据神经网络的文件判別结果从判別结果和中间层的神经元中确定作为判別的主要原因的像素组即特征区域43,设除了特征区域43以外的对象区域45为记入区域46。即,在本实施方式中,根据神经网络的分类结果得到特征区域43。然后,通过设除了特征区域43以外的场所为除了文件的格式以外的区域,提取记入区域46。

根据本实施方式,能够在不对模板或文件的特征进行定义的情况下,从多张文件样品中自动地提取记入区域46。

根据本实施方式,由于能够使用文件的分类结果提取记入区域46,因此,能够节约计算资源。即,无需为了提取记入区域46而新构建CNN或者生成记入区域46的提取用的规则。

***其他结构***

在本实施方式中,输入部21、学习部22、特征区域提取部23、对象区域提取部24、记入区域提取部25、记入区域合成部26和输出部27的功能通过软件来实现,但是,作为变形例,输入部21、学习部22、特征区域提取部23、对象区域提取部24、记入区域提取部25、记入区域合成部26和输出部27的功能也可以通过软件与硬件的组合来实现。即,输入部21、学习部22、特征区域提取部23、对象区域提取部24、记入区域提取部25、记入区域合成部26和输出部27的功能的一部分可以通过专用硬件来实现,剩余部分通过软件来实现。

专用硬件例如是单一电路、复合电路、程序化的处理器、并行程序化的处理器、逻辑IC、GA、FPGA、ASIC或它们中的几个或全部的组合。“IC”是Integrated Circuit(集成电路)的缩写。“GA”是Gate Array(门阵列)的缩写。“FPGA”是Field-Programmable GateArray(现场可编程门阵列)的缩写。“ASIC”是Application Specific Integrated Circuit(面向特定用途的集成电路)的缩写。

处理器11和专用硬件均是处理电路。即,无论输入部21、学习部22、特征区域提取部23、对象区域提取部24、记入区域提取部25、记入区域合成部26和输出部27的功能通过软件来实现,还是通过软件与硬件的组合来实现,输入部21、学习部22、特征区域提取部23、对象区域提取部24、记入区域提取部25、记入区域合成部26和输出部27的动作都通过处理电路进行。

标号说明

10:记入区域提取装置;11:处理器;12:存储器;21:输入部;22:学习部;23:特征区域提取部;24:对象区域提取部;25:记入区域提取部;26:记入区域合成部;27:输出部;30:图像;31:学习模型;40:图像;41:记入区域数据库;42:映射图;43:特征区域;44:反转图像;45:对象区域;46:记入区域;50:显示器。

20页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种图像特征提取方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!