文本区域检测方法、装置、电子终端和计算机可读存储介质

文档序号：1490766 发布日期：2020-02-04 浏览：5次 >En<

阅读说明：本技术 文本区域检测方法、装置、电子终端和计算机可读存储介质 (Text region detection method, text region detection device, electronic terminal and computer-readable storage medium ) 是由谢朝霞于 2019-10-23 设计创作，主要内容包括：本申请实施例提供一种文本区域检测方法、装置、电子终端和计算机可读存储介质,涉及信息检测与图像处理技术领域。其中,文本区域检测方法包括：获取携带有文字信息的待识别图像；对所述待识别图像进行视觉显著性分析,得到该待识别图像中的显著性区域,作为候选文本区域；基于预设文本区域检测网络提取所述候选文本区域中包含的文字特征,并对提取到的所述文字特征进行分类得到所述候选文本区域中的背景区域以及包含文字特征的文本区域。本申请能够有效提高文本区域检测结果的准确性。(The embodiment of the application provides a text region detection method and device, an electronic terminal and a computer readable storage medium, and relates to the technical field of information detection and image processing. The text area detection method comprises the following steps: acquiring an image to be identified carrying character information; performing visual saliency analysis on the image to be recognized to obtain a saliency region in the image to be recognized as a candidate text region; extracting character features contained in the candidate text regions based on a preset text region detection network, and classifying the extracted character features to obtain background regions in the candidate text regions and text regions containing the character features. The method and the device can effectively improve the accuracy of the text region detection result.)

技术领域

本申请涉及信息检测与图像处理技术领域，具体而言，涉及文本区域检测方法、装置、电子终端和计算机可读存储介质。

背景技术

现有的OCR(Optical Character Recognition，光学字符识别)技术主要用于识别文件、书籍等具有印刷体字符的文档图像中的文字，且其识别准确率可以达到96％以上。但随着便携式电子移动设备的迅速发展和普及，越来越多的文本信息以自然场景图像为载体，导致单纯的文档图像识别已不能满足人们日益增长的需求。

例如，在自然场景下，由于图像拍摄方式的随意性，场景图像中的文本在字体、大小、排列方式等方面存在多样性，加之，图像背景也是异常复杂，如，图像背景可能是自然风景，也可能是户外街景或室内环境等，而这些因素无疑会导致文字识别复杂度增加，因此，如何通过识别文本区域与背景区域来提高以自然场景图像等为载体的文字识别准确率变得尤为重要。

发明内容

为了克服现有技术中的上述不足，本申请提供一种文本区域检测方法、装置、电子终端和计算机可读存储介质。

第一方面，本发明实施例提供一种文本区域检测方法，包括：

获取携带有文字信息的待识别图像；

对所述待识别图像进行视觉显著性分析，得到该待识别图像中的显著性区域，作为候选文本区域；

基于预设文本区域检测网络提取所述候选文本区域中包含的文字特征，并对提取到的所述文字特征进行分类得到所述候选文本区域中的背景区域以及包含文字特征的目标文本区域。

在可选的实施方式中，对所述待识别图像进行视觉显著性分析，得到该待识别图像中的显著性区域的步骤，包括：

利用超像素图像分割方法对所述待识别图像进行图像分割，得到多个超像素块；

分别计算各所述超像素块之间的相似度，根据该相似度确定各所述超像素块的显著性，得到所述待识别图像中的显著性区域。

在可选的实施方式中，利用超像素图像分割方法对所述待识别图像进行图像分割，得到多个超像素块的步骤，包括：

调整SLIC超像素算法中的种子点个数以及超像素边长，并基于调整后的SLIC超像素算法对所述待识别图像进行图像分割，得到多尺度下的多个超像素块。

在可选的实施方式中，所述相似度d(R_i,R_j)通过以下公式计算得到：

其中，R_i表示超像素块i，R_j表示超像素块j，d_col表示超像素块之间的颜色相似性，d_pos表示超像素块之间的距离相似性，1≤α≤10，且α为正整数。

在可选的实施方式中，在执行所述基于预设文本区域检测网络提取所述候选文本区域中包含的文字特征的步骤之前，所述方法还包括：

提取所述候选文本区域的区域坐标，根据所述区域坐标确定所述候选文本区域的区域类型；

根据所述候选文本区域的区域类型调整所述预设文本区域检测网络的卷积核。

在可选的实施方式中，所述区域类型包括区域形状、区域大小和区域角度中的一种或多种。

在可选的实施方式中，所述目标文本区域y表示为y＝∑x*k+b，其中，x是为候选文本区域对应的图像，k是卷积核，k＝n*m，m＝δ*n，δ>2，m、n均为自然数，b是偏置值。

第二方面，本发明实施例提供一种文本区域检测装置，包括：

图像获取模块，用于获取具有文字信息的待识别图像；

区域确定模块，用于对所述待识别图像进行视觉显著性分析，得到该待识别图像中的显著性区域，作为候选文本区域；

文本区域分类模块，用于基于预设文本区域检测网络提取所述候选文本区域中包含的文字特征，并对提取到的所述文字特征进行分类得到所述候选文本区域中的背景区域以及包含文字特征的目标文本区域。

第三方面，本发明实施例提供一种电子终端，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器可执行所述机器可执行指令以实现前述实施方式任一项所述的文本区域检测方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述实施方式中任一项所述的文本区域检测方法。

本申请给出的文本区域检测方法、装置、电子终端和计算机可读存储介质中，通过对待识别图像进行视觉显著性分析得到该待识别图像中的显著性区域以作为候选文本区域，进而基于预设文本区域检测网络对候选文本区域进行检测、分类得到所述候选文本区域中的背景区域以及包含文字特征的目标文本区域，以为后续的文字识别提供基础。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的电子终端的结构示意图。

图2为本申请实施例提供的文本区域检测方法的流程示意图。

图3为图2中所示的步骤S12的子流程示意图。

图4(a)、图4(b)和图4(c)为本申请实施例提供的候选文本区域的三种不同排列模式示意图。

图5为本申请提供的文本区域检测装置的功能模块示意图。

图标：10-电子终端；11-文本区域检测装置；110-图像获取模块；120-区域确定模块；130-文本区域分类模块；12-处理器；13-存储器；14-通信模块。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

如图1所示，为本申请实施例提供的一种电子终端10的方框结构示意图，该电子终端10可以执行，但不限于，本申请实施例提供的文本区域检测方法。其中，所述电子终端10可以包括，但不限于，图1所示的处理器12、存储器13及通信模块14。所述处理器12、存储器13以及通信模块14各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

其中，所述存储器13用于存储程序或者数据。该存储器13可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(ErasableProgrammable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory，EEPROM)等。

所述处理器12用于读/写所述存储器13中存储的数据或程序，并执行相应地功能。

所述通信模块14用于通过网络建立所述电子终端10与其它终端设备之间的通信连接，并用于通过网络收发数据，如接收待识别图像等。

应当理解的是，图1所示的结构仅为所述电子终端10的结构示意图，该电子终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。另外，在本申请实施例中，上述电子终端10可以是、但不限于，计算机、手机、IPad、服务器、移动上网设备等。

请结合参阅图2，为本申请实施例提供的文本区域检测方法的流程示意图，该文本区域检测方法可以由，但不限于文本区域检测装置11执行，该文本区域检测装置11可以由软件或/和硬件实现，也可配置在安装有如安卓(Android)等操作系统的电子终端10中，所应说明的是，本实施例中给出的文本区域检测方法并不以图2以及以下的具体顺序为限制。下面结合图2对文本区域检测方法的具体流程进行阐述，内容如下。

步骤S11，获取携带有文字信息的待识别图像。

其中，所述待识别图像可以是，但不限于，以自然风景、户外街景或室内环境等作为背景或载体的图像。例如，所述待识别图像可以是，但不限于，是利用摄像头或照相机等图像采集设备获取的包含文本信息的自然场景图像，如：交通提示图像、街道名称图像、广告标志图像、海报标语图像、书刊图像、包装印刷文字图像等。

另外，在一种实现方式中，所述待识别图像可以由所述电子终端10直接采集以获取，也可以是由独立于电子终端10的图像采集设备采集后发送给所述电子终端10等，本实施例在此不做限制。

步骤S12，对所述待识别图像进行视觉显著性分析，得到该待识别图像中的显著性区域，作为候选文本区域。

其中，由于在自然场景图像中，通常会包含大量树木、建筑、花草等非文本区域背景，而这些非文本区域背景和文本区域在图像纹理、颜色、结构等方面具有明显的特征差异，换言之，相对于非文本区域，自然场景图像中的文本区域更容易引起人眼的关注，因此，本申请实施例在通过步骤S11获取到所述待识别图像后，可利用但不限于人类视觉注意显著性机制等对待识别图像进行视觉显著性分析，以快速浏览待识别图像全局并准确获取所述待识别图像中的显著性区域，同时忽略所述待识别图像中的其他无关或不重要区域。

例如，假设所述待识别图像为自然场景图像，那么，在本实施例中，可利用人类视觉注意机制，再基于显著性视觉注意模型，获取自然场景图像中的候选文本区域，实现对自然场景图像中的显著性区域(候选文本区域)的检测与定位。其中，所述显著性视觉注意模型是通过提取待识别图像中的低层特征(如颜色、纹理等)，再利用超像素分割方法等构建的一种基于多尺度低层特征实现的模型，本实施例在此不再赘述。

作为可选地一种实现方式，如图3所示，上述步骤S12中的候选文本区域可通过下述步骤S121和步骤S122实现，内容如下。

步骤S121，利用超像素图像分割方法对所述待识别图像进行图像分割，得到多个超像素块。

其中，利用超像素图像分割方法对所述待识别图像进行图像分割，得到多个超像素块的过程可以包括：调整SLIC(Simple Linear Iterative Cluster)超像素算法中的种子点个数以及超像素边长，并基于调整后的SLIC超像素算法对所述待识别图像进行图像分割，得到多尺度下(如不同大小或不同规格)的多个超像素块。

步骤S122，分别计算各所述超像素块之间的相似度，根据该相似度确定各所述超像素块的显著性，得到所述待识别图像中的显著性区域。

其中，所述相似度d(R_i,R_j)可通过公式

计算得到，其中，R_i表示超像素块i，R_j表示超像素块j，d_col表示超像素块之间的颜色相似性，d_pos表示超像素块之间的距离相似性，1≤α≤10，且α为正整数。

在上述步骤S121和步骤S122中，首先结合所述待识别图像中的文字自身的结构特征，再利用SLIC超像素分割方法，通过改变SLIC方法中的种子点个数和超像素边长，获取自然场景图像的多尺度下的多个超像素块，能够加快对待识别图像中的显著性区域的定位速度。

此外，不同于现有的利用图像中的颜色特征、纹理特征、边缘特征和笔画特征等来对图像中的文本区域进行检测和定位的方法，本申请采用多尺度低层特征的视觉显著性模型来定位候选文本区域，不仅能够有效消除多余的背景以及非文本区域背景所带来的干扰，还能够更准确地对候选文本区域进行检测和定位，大幅提升候选文本区域的定位的精准性，为后续步骤S13中利用预设文本区域检测网络进行区域分类提供了保障。

步骤S13，基于预设文本区域检测网络提取所述候选文本区域中包含的文字特征，并对提取到的所述文字特征进行分类得到所述候选文本区域中的背景区域以及包含文字特征的目标文本区域。

其中，由于深度学习的CNN网络(Convolutional Neural Networks，卷积神经网络)中的特征提取的方法能够较好地模拟人类大脑理解对图像理解的方式，不仅可以提取图像边缘特征、颜色特征、高阶语义信息特征等，而且还能结合训练样本中的特性进行自主学习，从而在很大程度上降低人工设计和构造特征所带来的不确定性，提高网络识别结果的准确性。

基于此，在本实施例中，所述预设文本区域检测网络可以是，但不限于通过对现有的CNN网络进行样本训练得到。其中，为了确保CNN网络的泛化性，在进行训练样本的选取时，该训练样本既可以是包含携带文字信息的自然场景图像、街景图像等，还可以是包含有文件、书籍等印刷体字符的文档图像等，还可以同时包括自然场景图像、街景图像、文档图像等，本实施例在此不做具体限制。

综上，相对于现有的OCR技术等文字区域检测方法，本申请实施例中采用基于CNN网络实现的预设文本区域检测网络不仅可以提取更为鲁棒的文本语义特征，而且该预设文本区域检测网络模型的拟合能力和泛化能力较强，可以有效解决文本区域定位中所面临的文本多样性和场景图像复杂性等干扰问题，高效准确地提取和定位自然场景图像中的目标文本区域，为后续的文本检测提供了基础，同时可使得基于该目标文本区域实现的文字检测结果具有较高的准确率。可以理解的是，在基于所述目标文本区域进行文字检测时，可以基于但不限于如OCR技术中的文字检测方法实现。

进一步地，考虑到自然场景图像中的候选文本区域的排列模式形态各异，如图4(a)、4(b)、4(c)所示的候选文本区域可能水平排列、呈一定角度排列、竖直排列等，又如，候选文本区域的宽度可变等。在本申请实施例的一种可选的实现方式中，可通过在将候选文本区域对应的图像输入预设文本区域检测网络进行文字区域检测和分类之前，根据候选文本区域的形态对预设文本区域检测网络的卷积核进行自适应设计，以提高基于预设文本区域检测网络进行文本区域检测的准确性。该具体过程可以包括：提取所述候选文本区域的区域坐标，根据所述区域坐标确定所述候选文本区域的区域类型；根据所述候选文本区域的区域类型调整所述预设文本区域检测网络的卷积核。可选地，所述区域类型包括区域形状、区域大小和区域角度中的一种或多种。

例如，假设所述区域类型为区域形状，那么，所述区域坐标可以为所述候选文本区域的边缘坐标，进而根据该边缘坐标确定所述候选文本区域的区域形状，如矩形、三角形、圆形等，进而根据不同区域形状对应的δ值调整所述预设文本区域检测网络的卷积核k，其中，k＝n*m，m＝δ*n，δ>2，m、n均为自然数。

又例如，假设所述区域类型为区域角度，那么，所述区域坐标可以为所述候选文本区域中靠近预先设定的参照轴线(如水平坐标轴)的边线的边线坐标。计算所述边线坐标对应的线段与所述参照轴线之间的夹角，将该夹角作为区域角度，进而根据不同区域角度对应的δ值调整所述预设文本区域检测网络的卷积核k，其中，k＝n*m，m＝δ*n，δ>2，m、n均为自然数。

除上述几种调整所述预设文本区域检测网络的卷积核的方式之外，在本实施例的一种实现方式中，对于呈现一定角度排列的候选文本区域，还可以以预先设定的参照轴线(如水平坐标轴)为参照，将候选文本区域旋转调整为水平排列或竖直排列模式，再基于旋转后的候选文本区域对应的图像进行文本区域的识别。

基于设计、调整卷积核后的预设文本区域检测网络进行目标文本区域检测时，所述目标文本区域y可表示为y＝∑x*k+b，其中，x是为候选文本区域对应的图像，k是卷积核，k＝n*m，m＝δ*n，δ>2，m、n均为自然数，b是偏置值。可以理解的是，在执行本申请给出的文本区域检测方法之前，所述电子终端10中可预设有不同的区域类型与δ值之间的对应关系，进而根据该对应关系实现对卷积核的调整。

通过前述自适应卷积核的设计，本申请能够更加准确的提取异形结构的目标文本区域。另外，相对于现有的CNN网络中几何结构固定的卷积核，本申请实施例考虑到实际场景中文本的内在结构特性，将卷积核设定为k＝n*m，m＝δ*n，δ>2，m、n均为自然数，通过调整参数δ值，构造可以动态适应不同宽度候选区域的卷积核，能够实现对各种异形结构的候选文本区域的特征提取，以提高文本区域检测、识别的准确性。

进一步地，为了执行本申请实施例或各个可能的实现方式中的相应步骤，下面给出一种文本区域检测装置11的实现方式，可选地，该文本区域检测装置11可以采用上述图1所示的电子终端10的器件结构。在一种实现方式中，文本区域检测装置11可以理解为上述电子终端10中的处理器12，也可以理解为独立于上述电子终端10或处理器12之外的在电子终端10控制下实现上述文本区域检测方法的软件功能模块。

需要说明的是，本实施例所提供的文本区域检测装置11，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。该文本区域检测装置11可包括如图5所示的图像获取模块110、区域确定模块120和文本区域分类模块130。

所述图像获取模块110，用于获取具有文字信息的待识别图像；本实施例中，关于图像获取模块110的描述具体可参考上述步骤S11的详细描述，也即，步骤S11可以由图像获取模块110执行，因而在此不作更多说明。

所述区域确定模块120，用于对所述待识别图像进行视觉显著性分析，得到该待识别图像中的显著性区域，作为候选文本区域；本实施例中，关于区域确定模块120的描述具体可参考上述步骤S12的详细描述，也即，步骤S12可以由区域确定模块120执行，因而在此不作更多说明。

所述文本区域分类模块130，用于基于预设文本区域检测网络提取所述候选文本区域中包含的文字特征，并对提取到的所述文字特征进行分类得到所述候选文本区域中的背景区域以及包含文字特征的文本区域。本实施例中，关于文本区域分类模块130的描述具体可参考上述步骤S13的详细描述，也即，步骤S13可以由文本区域分类模块130执行，因而在此不作更多说明。

基于前述实施例给出的文本区域检测方法，本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中所述的文本区域检测方法。

综上所述，本申请给出的文本区域检测方法、装置、电子终端10和计算机可读存储介质中，通过对待识别图像进行视觉显著性分析得到该待识别图像中的显著性区域以作为候选文本区域，进而基于预设文本区域检测网络对候选文本区域进行检测、分类得到所述候选文本区域中的背景区域以及包含文字特征的文本区域，能够有效提高文本区域检测的准确性。

另外，相对于传统的利用图像中的文字颜色特征、边缘特征、纹理特征、笔画特征等直接提取图像文本区域特征的文本区域检测方法，本申请给出的上述文本区域检测方法在进行文本区域识别时，无需花费大量的时间和精力去设计和选择特征，同时还可有效对抗文本区域中存在的模糊、背景复杂、文本扭曲、粘连或噪声等因素的干扰，提高文本区域检测的准确性。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

13页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种模具生产过程中计数的方法

文本区域检测方法、装置、电子终端和计算机可读存储介质

相关技术

网友询问留言