一种文本图像方向矫正方法、装置及电子设备

文档序号：169635 发布日期：2021-10-29 浏览：19次 >En<

阅读说明：本技术 一种文本图像方向矫正方法、装置及电子设备 (Text image direction correction method and device and electronic equipment ) 是由李霄鹏袁景伟胡亚龙黄宇飞王岩于 2021-07-23 设计创作，主要内容包括：本发明属于图像处理技术领域,提供一种文本图像方向矫正方法、装置及电子设备,所述方法包括：获取第一文本图像；对所述第一文本图像按照N个预定旋转角度进行旋转操作,得到N个旋转图像,其中,N为大于等于二的自然数；根据所述N个旋转图像预估所述第一文本图像的矫正方向；根据所述第一文本图像的矫正方向对第一文本图像进行方向矫正。本发明根据第一文本图像同步旋转后得到的多个方向的旋转图像综合判断第一文本图像的矫正方向,具有更高的准确率；并且可快速识别文本图像的矫正方向,同时还可以识别不包含文字的文本图像的矫正方向,操作简便,识别快速,应用范围广的优点。(The invention belongs to the technical field of image processing, and provides a text image direction correction method, a text image direction correction device and electronic equipment, wherein the method comprises the following steps: acquiring a first text image; rotating the first text image according to N preset rotation angles to obtain N rotating images, wherein N is a natural number which is greater than or equal to two; predicting the correction direction of the first text image according to the N rotating images; and carrying out direction correction on the first text image according to the correction direction of the first text image. The correction direction of the first text image is comprehensively judged according to the rotating images in multiple directions obtained after the first text image is synchronously rotated, so that the correction method has higher accuracy; the correction direction of the text image can be quickly recognized, the correction direction of the text image without characters can be recognized, and the method has the advantages of simplicity and convenience in operation, quickness in recognition and wide application range.)

技术领域

本发明属于图像处理技术领域，特别适用于图像方向矫正技术，更具体的是涉及一种文本图像方向矫正方法、装置、电子设备及计算机可读介质。

本文所称文本图像指包含有文字和/或图案的图像；

本文所称文本图像方向指符合阅读习惯文本图像中文字和/或图案的的排列方向，例如文字为正的，不偏斜、不倒置；

本文所称识别方向或识别方向指题目识别过程中预定的字体或图案的方向，一般与阅读时文本、图像的通常排列方向一致。

背景技术

目前，市面上出现了越来越多的拍照搜题类产品。通过这类产品，用户只需要拍摄要搜索的题目图像并上传即可找到相同或者相似的题目及答案，大大方便了题目检索。

现有拍照搜题主要通过图像识别和题目搜索来实现，先将用户上传文本图像中的文字或者图案识别出来，再交给检索系统对题库中已有的题目进行快速搜索，从而找到相同或者相似题目及答案。而在实际中，用户拍摄的文本图像中字体或图案的方向(即文本图像方向)并不总是与题目识别时预定的字体或图案的识别方向(即通常阅读方向)一致，会出现题目识别时字体或图案倒着(或者偏斜的较严重)的情况，导致对字体或者图案的识别错误，影响题目搜索的准确率，降低用户体验。

发明内容

(一)要解决的技术问题

本发明旨在解决拍摄的文本图像的方向与识别方向不一致，导致题目识别错误的技术问题。

(二)技术方案

为解决上述技术问题，本发明的一方面提出一种文本图像方向矫正方法，所述方法包括如下步骤：

获取第一文本图像；

对所述第一文本图像按照N个预定旋转角度进行旋转操作，得到N个旋转图像，其中，N为大于等于二的自然数；

根据所述N个旋转图像预估所述第一文本图像的矫正方向，所述矫正方向指为便于后续图像识别对所述第一文本图像进行旋转操作后的方向；

根据所述第一文本图像的矫正方向对第一文本图像进行方向矫正。

根据本发明一种优选的实施方式，根据所述N个旋转图像预估所述第一文本图像的矫正方向，包括：

将所述N个旋转图像输入训练好的方向预估模型中评估各旋转图像的方向正确的概率；并将概率最大的旋转图像的方向作为所述第一文本图像的矫正方向。

可选地，所述方向预估模型为图像分类模型经训练后生成。

根据本发明一种优选的实施方式，所述方向预估模型包括：N个神经网络，和分别与所述N个神经网络连接的判断模块；所述N个神经网络分别计算输入的旋转图像的方向正确的概率；所述判断模块根据各旋转图像的方向正确的概率水平判断所述第一文本图像的矫正方向；

可选地，所述神经网络包括依次连接的浅层卷积网络和自注意力神经网络，所述自注意力神经网络与所述判断模块连接；所述浅层卷积网络用于提取旋转图像的特征数据；所述自注意力神经网络用于根据特征数据获取所述旋转图像的方向正确的概率；

可选地，所述浅层卷积网络包括：多个卷积块和一个全连接层；

可选地，每个所述卷积块包括卷积层、池化层、批量归一化层和激励层。

根据本发明一种优选的实施方式，所述自注意力神经网络基于Transformer模型；

可选地，所述自注意力神经网络包括：自注意力模块和二分类模块，所述自注意力模块用于将输入图像转化为满足所述二分类模块要求的规格，所述二分类模块用于得到所述旋转图像的方向正确的概率；

可选地，所述二分类模块包括全连接层和softmax层。

根据本发明一种优选的实施方式，对所述第一文本图像按照N个预定旋转角度进行旋转操作，得到N个旋转图像包括：

将所述第一文本图像转换为第一文本图像矩阵；

对所述第一文本图像矩阵进行矩阵操作，得到与所述N个旋转图像对应的N个旋转矩阵。

根据本发明一种优选的实施方式，所述预定旋转角度为四个，包括：所述第一文本图像不作旋转、将所述第一文本图像沿第一方向旋转90度、将所述第一文本图像方向沿第一方向旋转180度和将所述第一文本图像方向沿第一方向旋转270度；

所述对所述第一文本图像矩阵进行矩阵操作，得到与所述N个旋转图像对应的N个旋转图像矩阵，包括：

将所述第一文本图像矩阵直接作为所述第一旋转图像矩阵；

将所述第一文本图像矩阵进行转置后，再将转置后矩阵的竖直平分线作为对称轴对矩阵元素做轴对称处理，得到所述第二旋转图像矩阵；

将所述第一文本图像矩阵的竖直平分线作为对称轴对矩阵元素做轴对称处理后，再将处理后矩阵的水平平分线作为对称轴对矩阵元素做轴对称处理，得到所述第三旋转图像矩阵；

将所述第一文本图像矩阵进行转置后，再将转置后矩阵的水平平分线作为对称轴对矩阵元素做轴对称处理，得到所述第四旋转图像矩阵。

本发明第二方面提出一种拍照搜题方法，包括：

采集包含待搜索的目标题目的第一文本图像；

在进行目标题目识别前采用上述任一项所述的文本图像方向矫正方法对所述第一文本图像进行方向矫正；

对所述第一文本图像进行识别。

本发明第三方面提出一种文本图像方向矫正装置，所述装置包括：

获取模块，用于获取第一文本图像；

旋转模块，用于对所述第一文本图像按照N个预定旋转角度进行旋转操作，得到N个旋转图像，其中，N为大于等于二的自然数；

预估模块，用于根据所述N个旋转图像预估所述第一文本图像的矫正方向，所述矫正方向指为便于后续图像识别对所述第一文本图像进行旋转操作后的方向；

矫正模块，用于根据所述第一文本图像的矫正方向对第一文本图像进行方向矫正。

本发明第四方面提出一种电子设备，包括处理器和存储器，所述存储器用于存储计算机可执行程序，当所述计算机程序被所述处理器执行时，所述处理器执行所述的方法。

本发明第五方面还提出一种计算机可读介质，存储有计算机可执行程序，所述计算机可执行程序被执行时，实现所述的方法。

(三)有益效果

本发明通过对第一文本图像按照N个预定旋转角度进行旋转操作，得到N个旋转图像，根据所述N个旋转图像预估所述第一文本图像的矫正方向，例如可通过将所述N个旋转图像作为特征数据输入训练好的方向预估模型中获取矫正方向等方式；根据所述第一文本图像的矫正方向对第一文本图像进行方向矫正，从而保证文本图像方向与识别方向一致，提高题目识别准确率，提升用户体验。相较于现有技术，本发明根据第一文本图像旋转后得到的多个方向的旋转图像综合判断第一文本图像的矫正方向，具有更高的准确率；并且本发明只需输入文本图像，无需先检测和识别文字行，就可快速识别文本图像的矫正方向，同时还可以矫正不包含文字的文本图像的方向，操作简便，识别快速，应用范围广的优点。

本发明的预估模型可包括N个神经网络，和分别与所述N个神经网络连接的判断模块；所述N个神经网络分别计算输入的旋转图像的方向正确的概率；所述判断模块根据每个旋转图像的方向正确的概率水平判断所述第一文本图像的矫正方向。相较于传统的卷积神经网络，模型的识别效果更为准确。

附图说明

图1是本发明一种文本图像方向矫正方法的流程示意图；

图2a～2e是本发明对第一文本图像进行旋转操作的示意图；

图3a～3d是本发明矩阵的水平平分线和矩阵的竖直平分线的示意图；

图4是本发明方向预估模型的示意图；

图5是本发明神经网络的示意图；

图6是本发明预估所述第一文本图像的矫正方向的流程示意图；

图7是本发明一种文本图像方向矫正装置的结构示意图；

图8是本发明的一个实施例的电子设备的结构示意图；

图9是本发明的一个实施例的计算机可读记录介质的示意图。

具体实施方式

在对于具体实施例的介绍过程中，对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是，并不排除本领域技术人员可以在特定情况下，以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。

附图中的流程图仅是一种示例性的流程演示，不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤，也不代表必须按照图中所显示的顺序执行。例如，流程图中有的操作/步骤可以分解，有的操作/步骤可以合并或部分合并，等等，在不脱离本发明的发明主旨的情况下，流程图中显示的执行顺序可以根据实际情况改变。

附图中的框图一般表示的是功能实体，并不一定必然与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理单元装置和/或微控制器装置中实现这些功能实体。

各附图中相同的附图标记表示相同或类似的元件、组件或部分，因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解，虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分，但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说，这些定语仅是用来将一者与另一者区分。例如，第一器件亦可称为第二器件，但不偏离本发明实质的技术方案。此外，术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。

本文涉及的术语解释：

文本图像：含有文字内容或者图案内容或者二者兼有的图像，如试卷页、书籍页、书籍封皮等的照片。

文本图像方向矫正：将方向与识别方向不同的图像矫正为方向与识别方向相同的图像。

识别方向指识别过程例如题目识别中，设定的字体或图案的排列方向，一般在正常拍摄(严格按要求拍摄，不偏、不扭曲)时，图像中题目字体、图像的排列符合人们的阅读习惯，例如字体是正向的，不倒置不偏斜。

为解决上述技术问题，本发明提出一种文本图像方向矫正方法，通过对第一文本图像按照N个预定旋转角度进行旋转操作，得到N个旋转图像；然后，例如通过将所述N个旋转图像作为特征数据输入训练好的方向预估模型中，预估所述第一文本图像的矫正方向；最后根据所述第一文本图像的矫正方向对第一文本图像进行方向矫正，从而保证文本图像方向与识别方向一致，提高题目识别准确率，提升用户体验。

本发明可采用预估模型来根据所述N个旋转图像预估所述第一文本图像的矫正方向，所述预估模型包括N个神经网络，以及分别与所述N个神经网络连接的判断模块；所述N个神经网络分别计算输入的旋转图像方向正确的概率；所述判断模块根据每个旋转图像方向正确的概率水平判断所述第一文本图像的矫正方向。所述旋转图像方向正确指旋转图像的方向(第一文本图像旋转预设角度后的获得)与后续进行识别方向时要求的图像方向一致或接近。相较于传统的卷积神经网络，模型的识别效果更为准确。

其中，所述神经网络可包括依次连接的浅层卷积网络和自注意力神经网络；所述自注意力神经网络与所述判断模块连接。所述浅层卷积网络用于提取旋转图像的特征数据；所述自注意力神经网络包括：自注意力模块和二分类模块，所述自注意力神经网络用于根据特征数据获取所述旋转图像方向正确的概率。可选地，所述浅层卷积网络包括：多个卷积块和一个全连接层，每个卷积块可包括卷积层、池化层、批量归一化BN(BatchNormalization)层和激励relu层(ReLU层)。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

图1是本发明一种文本图像方向矫正方法的流程示意图，如图1所示，所述方法包括如下步骤：

S1、获取第一文本图像；

本步骤获取待方向矫正以便更好地进行图像识别等操作的第一文本图像，第一文本图像例如可以是拍照搜题场景下用户采集的包含待搜索的目标题目的照片。

本文中，第一文本图像可以是直接从采集端得到的未经任何处理的原始文本图像，也可以是所述原始文本图像进行了便于图像识别的图像处理(比如滤波处理、亮度处理等)后的图像。

本步骤例如可以直接通过摄像头、扫描仪等图像采集器来获取包含用户搜索的目标题目的第一文本图像；也可以从存储器中获取包含用户搜索的目标题目的第一文本图像。该第一文本图像中的目标题目可以只包含文字(比如高年级的阅读题目)，也可以只包含图案(比如幼儿园的题目)，还可以同时包含文字和图案(比如几何题目)，本发明不做具体限定。

S2、对所述第一文本图像按照N个预定旋转角度进行旋转操作，得到N个旋转图像；

为了提高方向预估的准确性，本发明会对第一文本图像按照多个预定旋转角度分别进行旋转操作，得到多个旋转图像，将多个旋转图像输入方向预估模型中预估对第一文本图像进行方向矫正时需旋转至的预定旋转角度(即矫正方向)。

其中，对第一文本图像的旋转可以同步旋转的方式进行，也可以通过例如图像处理实现旋转效果。

示例性的，本步骤可包括：

S21、将所述第一文本图像转换为第一文本图像矩阵；

一种具体实例中，可以采用python、matlab等将第一文本图像转换为对应的第一文本图像矩阵。

S22、对所述第一文本图像矩阵进行矩阵操作，得到与所述N个旋转图像对应的N个旋转矩阵。

本文中的预定旋转角度是指预先设定的将第一文本图像从起始方向旋转到终止方向所对应的角度。预定旋转角度的数目N是大于等于二的自然数。显然，本发明中，预定旋转角度的数量越多，方向预估模型的矫正方向预估准确度越高，但模型的计算量也越大。为了平衡预估准确度与计算量，本发明优选预定旋转角度的数目N为四个，包括：将第一文本图像方向不作旋转、将第一文本图像方向沿第一方向旋转90度、将第一文本图像方向沿第一方向旋转180度和将第一文本图像方向沿第一方向旋转270度。其中，第一方向可以是顺时针方向，也可以是逆时针方向。

下面结合附图2a～2e以第一方向为顺时针方向为例来说明对第一文本图像的旋转过程。

如图2a为第一文本图像，为了方便说明旋转过程，可以预先设定第一文本图像的起始方向，例如将第一文本图像的起始方向设定为第一文本图像中文字和/或图案惯常的自左向右的阅读方向，即图2a中箭头OA所指的从左向右的方向。这样，对于第一文本图像的旋转可以以第一文本图像的起始方向作为参照。第一预设旋转角度为零度，对于将第一文本图像不作旋转，将第一文本图像矩阵直接作为第一旋转图像矩阵，图2b为将第一文本图像起始方向OA不作旋转得到的第一旋转图像。第二预设旋转角度为相对OA沿顺时针方向旋转90度，对于将第一文本图像沿顺时针方向旋转90度，可通过将第一文本图像矩阵进行转置后再将转置后矩阵的竖直平分线作为对称轴对矩阵元素做轴对称处理，得到第二旋转图像矩阵。图2c为将第一文本图像起始方向OA沿顺时针方向旋转90度得到的第二旋转图像。

第三预设旋转角度为相对OA沿顺时针方向旋转180度，对于将第一文本图像沿第一方向旋转180度，可通过将第一文本图像矩阵的竖直平分线作为对称轴对矩阵元素做轴对称处理后，再将处理后矩阵的水平平分线作为对称轴对矩阵元素做轴对称处理，得到第三旋转图像矩阵；图2d为将第一文本图像起始方向OA沿顺时针方向旋转180度得到的第三旋转图像。第四预设旋转角度为相对OA沿顺时针方向旋转270度，对于将第一文本图像沿第一方向旋转270度，将第一文本图像矩阵进行转置后，再将转置后矩阵的水平平分线作为对称轴对矩阵元素做轴对称处理，得到第四旋转图像矩阵。图2e为将第一文本图像起始方向OA沿顺时针方向旋转90度得到的第四旋转图像。

其中，矩阵的水平平分线指矩阵中间行所在的直线，对于奇数行矩阵，中间行所在的直线指连接矩阵中间一行种各个元素的直线，如图3a中直线M1N1。对于偶数行矩阵，中间行所在的直线指将矩阵中间两行的行分割线，如图3b中直线M2N2。矩阵的竖直平分线指矩阵中间列所在的直线，对于奇数列矩阵，中间列所在的直线指连接矩阵中间一列种各个元素的直线，如图3c中直线M3N3。对于偶数列矩阵，中间列所在的直线指将矩阵中间两列的列分割线，如图3d中直线M4N4。

本文中，上述矩阵操作可以通过python的接口调用opencv内部的函数cv2.flip来完成。

S3、根据所述N个旋转图像预估所述第一文本图像的矫正方向；

所述矫正方向指为便于后续图像识别对所述第一文本图像进行旋转操作后的方向；该方向一般相对用户而言是符合阅读习惯的方向，即用户看图像中的字体是正的，不反也不偏斜。

本步骤可根据N个旋转图像预估第一文本图像的矫正方向，具体实现方式不做限定。例如，可以在第一文本图像添加测试文本，然后分别识别N个旋转图像的测试文本，根据识别正确率水平确定哪一个旋转图像的方向更接近正确的，即确定与识别方案最有效果对应的图像方向更接近。

本步骤还可评估上述N个旋转图像的哪一个方向可以作为所述第一文本图像的矫正方向，亦即确定第一图像方向矫正时按其中哪一个预设旋转角度进行旋转。一种具体实施方式中，可通过计算各旋转图像的方向正确的概率，选择概率最大的旋转图像对应的旋转角度确定第一文本图像的矫正方向。此实施方式可以通过下面的方向预估模型来实现。

示例性的，可将所述N个旋转图像输入训练好的方向预估模型中评估各旋转图像方向正确的概率；并将概率最大的旋转图像对应的预定旋转角度作为所述第一文本图像的矫正方向。所述旋转图像方向正确的概率指旋转图像的方向为识别方向的概率。方向预估模型可以分别根据各个旋转图像预估各个旋转图像方向为识别方向的概率，将概率最大的旋转图像方向对应的预定旋转角度作为第一文本图像的矫正方向，即第一文本图像方向需要矫正到的目标方向，该目标方向与识别方向一致，从而可以避免或减少题目识别过程中由于文字和/或图案倒置或偏斜导致的不能识别或识别正确率低的问题。其中，识别方向指题目识别过程中识别方案设定的输入图像的字体或图案的方向。

可选地，所述方向预估模型为图像分类模型经训练后生成。通过识别原图的各旋转图像的类别，来推测出原图像的方向，得到原图像矫正方向。

示例性的，如图4所示，所述方向预估模型30可包括：N个神经网络31，和分别与所述N个神经网络31连接的判断模块32；

所述N个神经网络31分别计算输入的旋转图像方向正确的概率；所述神经网络31包括依次连接的浅层卷积网络311和自注意力神经网络312；所述自注意力神经网络312与所述判断模块32连接。

所述判断模块32根据每个旋转图像方向正确的概率水平判断所述第一文本图像的矫正方向。

示例性的，为了提高方向判断的识别准确度，判断模块32可以根据每个旋转图像方向正确的概率综合判断所述第一文本图像的矫正方向。比如，直接将概率最大的旋转图像方向确定为第一文本图像的矫正方向，或者将概率最大的旋转图像方向与概率第二的旋转图像方向之间的指定方向作为第一文本图像的第一矫正方向。示例性的，所述浅层卷积网络310包括：多个卷积块(con1、con2、con3)和一个全连接层，所述浅层卷积网络用于提取旋转图像的特征数据；所述自注意力神经网络包括：自注意力模块和二分类模块，所述自注意力神经网络用于根据特征数据获取所述旋转图像方向正确的概率；可选地，每个卷积块包括卷积层、池化层、批量归一化BN层和激励relu层。

在一种实施方式中，如图5所示，所述浅层卷积网络310包括：三个卷积块：conv1、conv2和conv3，和一个全连接层。其中，每个卷积块由卷积层、池化层、BN(BatchNormalization，批量归一化)层和relu(Rectified Linear Units，激励)层组成。输入的旋转图像依次经过三个卷积块和全连接层，其中：例如，旋转图像矩阵的数据形式为[h1，w1，c1]，经过卷积块后的数据形式为[h2，w2，c2]，通过全连接层后得到的数据格式为[T，c3]。其中，h1，w1为旋转图像resize成固定大小的尺寸，比如，512*512，c1＝3，表示输入图像为彩色3通道图；h2，w2，c2为旋转图像对应特征图的大小，比如：16*16*128；T，c3为输出图像的尺寸，比如：16*256。

所述自注意力神经网络用于根据特征数据识别旋转图像方向是正确的(即与识别方向一致)的概率。其中，所述自注意力神经网络311可基于Transformer模型。

所述自注意力神经网络311包括：自注意力模块和二分类模块。所述自注意力模块用于将输入图像转化为满足所述二分类模块要求的规格，所述二分类模块用于得到所述旋转图像的方向正确的概率。

示例性的，自注意力模块包括位置相关的前馈网络和多头自注意层，位置相关的前馈网络在编码阶段对输入的数据进行编码的同时对其位置信息进行编码。多头自注意层在每个子层中使用自注意机制来关联输入数据及其在相同输入序列中的位置。此外，注意力被称为多头是因为几个注意力层是并行堆叠的，具有相同输入的不同线性变换。这有助于模型捕获输入的各个方面，并提高其表达能力。示例性的，自注意力模块输入数据尺寸为16*256，输出尺寸为16*200。所述二分类模块由全连接层和激活层(比如：softmax)组成。这种结构实现了并行处理、更短的训练时间和更高的转换精度，而没有任何重复组件。进一步地，当各旋转图像中方向正确的概率的最大值小于预设概率时，不确定第一文本图像的矫正方向，而是基于各旋转图像的方向正确的概率，确定下一次旋转的N个预定旋转角度，再继续上述的概率计算评判，直至其中的方向正确的概率最大值小于预设概率，再确定矫正方向。

示例性地，如果旋转图像A的预定旋转角度为逆时针转过45度；如果B图像的预定旋转角度为逆时针转过90度；后续计算出的旋转图像A的方向正确的概率最大，B其次(或者二者差不多)，则可以判断第一旋转图像的矫正方向在旋转图像A和旋转图像B的方向之间，且靠近旋转图像A的方向，即矫正方向在逆时针转过45度和90度之间，更接近90度。如果旋转图像A的方向正确的概率小于预设概率(实际按A图像对应的逆时针转过45度来矫正，识别正确率还不能接受)，则在这个范围内(或者也可以根据实际情况适当扩大范围)确定第二次旋转的角度，例如，逆时针转过60度、75度、80度、85度等等，继续计算按第二次旋转后各旋转图像的方向正确的概率，后续类似地进行迭代直至方向正确的概率最大值大于或等于预设概率，则根据概率最大的旋转图像的旋转角度确定矫正方向。

图6为本发明预估所述第一文本图像的矫正方向的流程示意图，图6中以四个预定旋转角度为例，该方法包括：

S61、采集第一文本图像；

S62、对所述第一文本图像按照四个预定旋转角度进行旋转操作，得到四个旋转图像。

其中，四个预定旋转角度包括：将第一文本图像方向不作旋转、将第一文本图像方向沿第一方向旋转90度、将第一文本图像方向沿第一方向旋转180度和将第一文本图像方向沿第一方向旋转270度。其中，第一方向可以是顺时针方向，也可以是逆时针方向。图6中每个箭头方向分别代表一种预定旋转方向。

S63、将四个旋转图像分别输入浅层卷积网络及自注意力模块中，预估每个旋转图像方向正确的概率，得到每个旋转图像的预估结果；

其中，浅层卷积网络标记为CNN。每个旋转图像的预估结果采用结果1～结果4来表示。

S64、根据每个旋转图像的预估结果判断所述第一文本图像的矫正方向；

为了提高方向预估模型的准确性，可以预先训练所述方向预估模型。

其中，训练集是由历史文本图像进行数据扩增而得到。其中，历史文本图像可以是包括试卷、书本页、封面等包含题目的图像。所述数据扩增指在原图像上增加高斯噪声和椒盐噪声后，再对图像进行crop操作。

S4、根据所述第一文本图像的矫正方向对第一文本图像进行方向矫正。

示例性的，按上述的0度、90度、180度和270度预设角度，如果所述矫正方向为将第一文本图像方向不作旋转，则本步骤对第一文本图像不做矫正，直接识别；如果所述矫正方向为将第一文本图像方向沿第一方向旋转90度，则本步骤将第一文本图像矩阵进行转置后将转置后矩阵的水平平分线作为对称轴对矩阵元素做轴对称处理，得到矫正后的第一文本图像，然后再进行识别；如果所述矫正方向为将第一文本图像方向沿第一方向旋转180度，则本步骤将第一文本图像矩阵的竖直平分线作为对称轴对矩阵元素做轴对称处理后，再将处理后矩阵的水平平分线作为对称轴对矩阵元素做轴对称处理，得到矫正后的第一文本图像，然后再进行识别；如果所述矫正方向为将第一文本图像方向沿第一方向旋转270度，则本步骤将第一文本图像矩阵进行转置后，再将转置后矩阵的竖直平分线作为对称轴对矩阵元素做轴对称处理，得到矫正后的第一文本图像，然后再进行识别。其中，第一方向与步骤S2中的第一方向相同，即旋转操作的第一方向为顺时针方向，则本步骤的第一方向也为顺时针方向，反之亦然。

本发明通过对第一文本图像按照N个预定旋转角度同步进行旋转操作，得到N个旋转图像，将所述N个旋转图像作为特征数据输入训练好的方向预估模型中识别所述第一文本图像的矫正方向；根据所述第一文本图像的矫正方向对第一文本图像进行方向矫正，从而保证文本图像方向与识别方向一致，提高题目识别准确率，提升用户体验。相较于现有技术，本发明根据第一文本图像同步旋转后得到的多个方向的旋转图像综合识别第一文本图像的矫正方向，具有更高的准确率；并且本发明只需输入文本图像，无需检测和识别文字行，就可快速识别文本图像的矫正方向，同时还可以识别不包含文字的文本图像的矫正方向，操作简便，识别快速，应用范围广的优点。

本发明实施例还提出一种拍照搜题方法，包括：

S101、采集包含待搜索的目标题目的第一文本图像；

S102、在进行目标题目识别前采用上述任一项所述的文本图像方向矫正方法对所述第一文本图像进行方向矫正；

S103、对所述第一文本图像进行识别。

图7是本发明提供的一种文本图像方向矫正装置的结构框架示意图，如图7所示，所述装置包括：

获取模块71，用于获取第一文本图像；

旋转模块72，用于对所述第一文本图像按照N个预定旋转角度进行旋转操作，得到N个旋转图像，其中，N为大于等于二的自然数；

预估模块73，用于根据所述N个旋转图像预估所述第一文本图像的矫正方向，所述矫正方向指为便于后续图像识别对所述第一文本图像进行旋转操作后的方向；

矫正模块74，用于根据所述第一文本图像的矫正方向对第一文本图像进行方向矫正。

示例性的，所述预估模块73，用于将所述N个旋转图像输入训练好的方向预估模型中评估各旋转图像的方向正确的概率；并将概率最大的旋转图像的方向作为所述第一文本图像的矫正方向。

可选地，所述方向预估模型为图像分类模型经训练后生成。

示例性的，所述方向预估模型包括：N个神经网络，和分别与所述N个神经网络连接的判断模块；所述N个神经网络分别计算输入的旋转图像的方向正确的概率；所述判断模块根据各旋转图像的方向正确的概率水平判断所述第一文本图像的矫正方向；

可选地，所述浅层卷积网络包括：多个卷积块和一个全连接层；

可选地，每个所述卷积块包括卷积层、池化层、批量归一化层和激励层。

示例性的，所述自注意力神经网络基于Transformer模型；

可选地，所述二分类模块包括全连接层和softmax层。

所述旋转模块72包括：

转换模块，用于将所述第一文本图像转换为第一文本图像矩阵；

操作模块，用于对所述第一文本图像矩阵进行矩阵操作，得到与所述N个旋转图像对应的N个旋转矩阵。

示例性的，所述预定旋转角度为四个，包括：所述第一文本图像不作旋转、将所述第一文本图像沿第一方向旋转90度、将所述第一文本图像方向沿第一方向旋转180度和将所述第一文本图像方向沿第一方向旋转270度；

所述操作模块，用于将所述第一文本图像矩阵直接作为所述第一旋转图像矩阵；将所述第一文本图像矩阵进行转置后，再将转置后矩阵的竖直平分线作为对称轴对矩阵元素做轴对称处理，得到所述第二旋转图像矩阵；将所述第一文本图像矩阵的竖直平分线作为对称轴对矩阵元素做轴对称处理后，再将处理后矩阵的水平平分线作为对称轴对矩阵元素做轴对称处理，得到所述第三旋转图像矩阵；将所述第一文本图像矩阵进行转置后，再将转置后矩阵的水平平分线作为对称轴对矩阵元素做轴对称处理，得到所述第四旋转图像矩阵。

图8是本发明的一个实施例的电子设备的结构示意图，该电子设备包括处理器和存储器，所述存储器用于存储计算机可执行程序，当所述计算机程序被所述处理器执行时，所述处理器执行文本图像方向矫正方法。

如图8所示，电子设备以通用计算设备的形式表现。其中处理器可以是一个，也可以是多个并且协同工作。本发明也不排除进行分布式处理，即处理器可以分散在不同的实体设备中。本发明的电子设备并不限于单一实体，也可以是多个实体设备的总和。

所述存储器存储有计算机可执行程序，通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行，以使得电子设备能够执行本发明的方法，或者方法中的至少部分步骤。

所述存储器包括易失性存储器，例如随机存取存储单元(RAM)和/或高速缓存存储单元，还可以是非易失性存储器，如只读存储单元(ROM)。

可选的，该实施例中，电子设备还包括有I/O接口，其用于电子设备与外部的设备进行数据交换。I/O接口可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

应当理解，图8显示的电子设备仅仅是本发明的一个示例，本发明的电子设备中还可以包括上述示例中未示出的元件或组件。例如，有些电子设备中还包括有显示屏等显示单元，有些电子设备还包括人机交互元件，例如按扭、键盘等。只要该电子设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤，均可认为是本发明所涵盖的电子设备。

图9是本发明的一个实施例的计算机可读记录介质的示意图。如图9所示，计算机可读记录介质中存储有计算机可执行程序，所述计算机可执行程序被执行时，实现本发明上述的文本图像方向矫正方法。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

通过以上对实施方式的描述，本领域的技术人员易于理解，本发明可以由能够执行特定计算机程序的硬件来实现，例如本发明的系统，以及系统中包含的电子处理单元、服务器、客户端、手机、控制单元、处理器等，本发明也可以由包含上述系统或部件的至少一部分的车辆来实现。本发明也可以由执行本发明的方法的计算机软件来实现，例如由直播设备的微处理器、电子控制单元，客户端、服务器端等执行的控制软件来实现。但需要说明的是，执行本发明的方法的计算机软件并不限于由一个或特定个的硬件实体中执行，其也可以是由不特定具体硬件的以分布式的方式来实现，对于计算机软件，软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM，U盘，移动硬盘等)中，也可以分布式存储于网络上，只要其能使得电子设备执行根据本发明的方法。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，本发明不与任何特定计算机、虚拟装置或者电子设备固有相关，各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

25页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种文本倾斜角度检测方法、系统及存储介质

一种文本图像方向矫正方法、装置及电子设备

相关技术

网友询问留言