一种基于ocr的字符分割方法

文档序号：1862009 发布日期：2021-11-19 浏览：3次 >En<

阅读说明：本技术 一种基于ocr的字符分割方法 (Character segmentation method based on OCR ) 是由秦应化李安吴昆� 于 2021-07-30 设计创作，主要内容包括：本发明涉及一种基于OCR的字符分割方法,包括：步骤1：基于OCR技术获取模板字库,模板字库包括标准字符及标准字符的特征数据；步骤2：利用OCR技术中的字符识别模型识别与待识别字符同批次的一部分字符,得到字符分割结果,人工标记分割结果中的错误项,并更新字符识别模型；步骤3：对待识别字符进行行扫描,基于更新后的字符识别模型对待识别字符进行初始识别,当某个字符的识别结果的得分小于第一阈值,则对该字符进行强制分割；步骤4：归一化处理；步骤5：根据归一化处理后的特征数据将某个字符和标准字符进行匹配,计算得到得分最高的标准字符,基于得分最高的标准字符确定当前字符分割的位置。本发明能够提高字符分割的精确度。(The invention relates to a character segmentation method based on OCR, which comprises the following steps: step 1: acquiring a template word stock based on an OCR technology, wherein the template word stock comprises standard characters and characteristic data of the standard characters; step 2: recognizing a part of characters in the same batch with the characters to be recognized by using a character recognition model in an OCR technology to obtain a character segmentation result, manually marking error items in the segmentation result, and updating the character recognition model; and step 3: scanning the character to be recognized, initially recognizing the character to be recognized based on the updated character recognition model, and forcibly segmenting the character when the score of the recognition result of a certain character is smaller than a first threshold value; and 4, step 4: normalization processing; and 5: and matching a certain character with the standard character according to the characteristic data after the normalization processing, calculating to obtain the standard character with the highest score, and determining the segmentation position of the current character based on the standard character with the highest score. The invention can improve the accuracy of character segmentation.)

一种基于OCR的字符分割方法

技术领域

本发明涉及光学字符识别领域，尤其涉及一种基于OCR的字符分割方法。

背景技术

在印刷文字、镭射打标等与光学字符识别相关的领域中，OCR（Optical CharacterRecognition，光学字符识别）都起着重要作用。目前每种产品上几乎都带有生产批号等类似信息，为了保证产品的可追溯性通常都需要用到OCR 技术。但是在实际打印文字信息时，由于不同的打印环境（运动打印、印刷，不同设备打印出现的不一致），会出现文字的变形、间距变化、尺寸变化等一些情况，当根据传统的OCR字符库中的标准字符训练好模型之后，模型很容易由于上述情况出现将两个字符合并成了一个或将一个字符切割成了两个的情况，继而会导致识别率降低。

因此，如何提供一种操作简单且能够提高后续字符识别率的基于OCR的字符分割方法是本领域技术人员亟待解决的一个技术问题。

发明内容

本发明提供一种基于OCR的字符分割方法，以解决上述技术问题。

为解决上述技术问题，本发明提供一种基于OCR的字符分割方法，包括如下步骤：

步骤1，数据收集：基于OCR技术获取模板字库，所述模板字库包括标准字符以及所述标准字符的特征数据，所述特征数据至少包括所述标准字符的灰度、尺寸、长宽比、面积重心、面积以及间距；

步骤2，人工标记：利用OCR技术中的字符识别模型识别与待识别字符同批次的一部分字符，得到字符分割结果，人工检查所述分割结果，标记所述分割结果中的错误项，并将所述错误项及其对应的特征数据收录至所述模板字库中，根据更新后的所述模板字库手动修改所述字符识别模型中各个所述特征数据的权重，得到更新后的字符识别模型；

步骤3，预分割：对所述待识别字符进行行扫描，基于更新后的字符识别模型对所述待识别字符进行初始识别，当某个字符的识别结果的得分小于第一阈值，则对该字符进行强制分割；

步骤4，归一化处理：将经过预分割后的字符的特征数据与所述模板字库中的特征数据进行归一化处理；

步骤5，精调分割位置：根据归一化处理后的特征数据将某个字符和所述标准字符进行匹配，计算得到得分最高的标准字符，基于得分最高的所述标准字符确定当前字符分割的位置。

较佳地，步骤1中，所述基于OCR技术获取模板字库的方法包括：收集所述标准字符的图片，利用所述OCR 技术分割得到所述模板字库。

较佳地，步骤2中，利用字符识别模型识别与待识别字符同批次的字符的数量为20~1000。

较佳地，步骤2中，所述根据更新后的所述模板字库手动修改所述字符识别模型中各个所述特征数据的权重包括：根据更新后的所述模板字库统计每种特征数据的数值分布，基于每种特征数据的稳定区间和变化规律手动修改所述权重。

较佳地，步骤3中，对所述待识别字符进行行扫描包括：设置以一个像素为扫描宽度，进行每一行字符的扫描。

较佳地，步骤3中，对所述字符进行强制分割的依据为：使每行字符的个数与一行能够容纳的标准字符的个数一致。

较佳地，步骤5中，在根据归一化处理后的特征数据将某个字符和所述标准字符进行匹配之前，先获取所述字符的特征点，并进行过滤处理。

较佳地，对所述字符的特征点进行过滤的条件包括：所述特征点的大小小于第二阈值。

与现有技术相比，本发明提供的基于OCR的字符分割方法具有如下优点：

1、本发明可以在现有的OCR技术中获得大量的样本形成模板字库，以及训练好的字符识别模型，无需大量样本的收集过程，也无需模型训练过程，大大简化了算法流程；

2、本发明只需将“与待识别字符同批次的一部分字符”作为样本对字符识别模型进行小批量数据的测试，并依据测试结果对字符识别模型的特征参数的权重进行手动分配，在不增加大量样本的前提下即可大大提高字符分割的准确性；

3、本发明中，特征参数的权重由现有技术中的静态参数转换为了动态参数，使之更接近实际生产情况，提高了字符分割准确率；

4、采用动态参数分割后得到的字符的特征数据，可提供给后续识别算法一定的比例权重，来达到更稳定的识别率；

5、先依据字符长度对字符进行预分割（强制分割），避免产生字符粘连的情况，再从标准字符中选取得分最高的标准字符作为分割当前字符的依据，确保当前字符与标准字符的匹配度，进一步确保分割准确。

附图说明

图1为本发明一

具体实施方式

中基于OCR的字符分割方法的流程图。

图2为本发明一具体实施方式中字符的间距的折线图。

图3为本发明一具体实施方式中字符的面积的折线图。

图4为本发明一具体实施方式中字符的高的折线图。

图5为本发明一具体实施方式中字符的宽的折线图。

图6为本发明一具体实施方式中字符的灰度的折线图。

具体实施方式

为了更详尽的表述上述发明的技术方案，以下列举出具体的实施例来证明技术效果；需要强调的是，这些实施例用于说明本发明而不限于限制本发明的范围。

本发明提供的基于OCR的字符分割方法，如图1所示，包括如下步骤：

步骤1，数据收集：基于OCR技术获取模板字库，所述模板字库包括标准字符以及所述标准字符的特征数据，所述特征数据至少包括所述标准字符的灰度、尺寸、长宽比、面积重心、面积以及间距，具体地，所述基于OCR技术获取模板字库的方法可以包括：收集所述标准字符的图片，利用所述OCR技术分割得到所述模板字库，例如，利用OCR技术中的字符识别模型扫描带有标准字符的图片，从而收集标准字符，继而获得标准字符的特征数据。

步骤2，人工标记：利用OCR技术中的字符识别模型识别与待识别字符同批次的一部分字符，得到字符分割结果。较佳地，同批次的字符可以包含统一的风格、字体、字号、形变量等特点，所述的同批次具体可以指同一批次的产品、同一种类的产品、一本说明书等等。另外，利用字符识别模型识别与待识别字符同批次的字符的数量为20~1000，该数量远远小于传统OCR技术中需要的训练样本的数量，但由于同批次的字符具有的风格统一等特点，且可以大大提高本批次字符分割的准确率。人工检查所述分割结果，标记所述分割结果中的错误项，并将所述错误项及其对应的特征数据收录至所述模板字库中，根据更新后的所述模板字库手动修改所述字符识别模型中各个所述特征数据的权重，得到更新后的字符识别模型。具体地，所述根据更新后的所述模板字库手动修改所述字符识别模型中各个所述特征数据的权重包括：根据更新后的所述模板字库统计每种特征数据的数值分布，基于每种特征数据的稳定区间和变化规律手动修改所述权重。本发明中，特征参数的权重由现有技术中的静态参数转换为了动态参数，使之更接近实际生产情况，提高了字符分割准确率；且采用动态参数分割后得到的字符的特征数据，可提供给后续识别算法一定的比例权重，来达到更稳定的识别率。

上文中，根据更新后的所述模板字库统计每种特征数据的数值分布，基于每种特征数据的稳定区间和变化规律手动修改所述权重，具体如下：

步骤a，通过同一批次产品进行传统OCR预识别，若传统算法由于分割或其他原因无法识别，则人工会进行强制调整后进行正确识别，搜集到这一批次产品每个字符特征信息，将每个字符的灰度、尺寸、长宽比、面积、间距五个特征信息为主要分析特征，其他特征信息作为辅助，存取到本地CSV文件；

步骤b，采用excel软件，导入通过步骤1得到的数据，生成字库内每个字符分析特征的折线图（参见图2-6所示）；计算特征相对于标准的浮动百分比，计算公式如下：

（δ=（+）*100%，其中：Max（value）是指最大值，standard（value）是指标准值，Min（value）是指最小值；

步骤c，获取每个特征浮动百分比，灰度浮动百分比：4.85%，宽度浮动百分比：9.6%，高度浮动百分比：17.11%，面积浮动百分比：12.21%，间距浮动百分比：18.25%。排序后，将浮动百分比最小的特征信息进行调整。默认每一个维度特征为均衡分配，根据当前浮动百分比数据，人为可调整每个特征维度的权重，浮动百分比稳定的特征则可提高后续作为分割时的权重。如5个特征，其每个特征默认为20%权重，则通过该数据可将灰度和宽度的权重提升到百分之25%，间距和面积的权重可降至百分之15%。

步骤3，预分割：对所述待识别字符进行行扫描，例如，设置以一个像素为扫描宽度，进行每一行字符的扫描。基于更新后的字符识别模型对所述待识别字符进行初始识别，当某个字符的识别结果的得分小于第一阈值，说明当前分割得到的字符与模板字库中收集的标准字符的特征数据的差异很大，则可认为该字符的特征数据有异常，则对该字符进行强制分割。对所述字符进行强制分割的依据为：使每行字符的个数与一行能够容纳的标准字符的个数一致。强制分割的具体方法可以包括：将前述获得的字符的识别结果的得分小于第一阈值的字符均分为两个字符，再按照从左向右扫描方式匹配模板字库中的标准字符，进行分割线的位置调整，直至得到的分割后的两个字符与标准字符的匹配度均最高为止。本发明先依据字符个数对字符进行预分割（强制分割），能够避免产生字符粘连的情况。

步骤4，归一化处理：将经过预分割后的字符的特征数据与所述模板字库中的特征数据进行归一化处理，从而得到各维度特征数据的百分比，便于后续计算。

步骤5，精调分割位置：根据归一化处理后的特征数据将某个字符和所述标准字符进行匹配，计算得到得分最高的标准字符，基于得分最高的所述标准字符确定当前字符分割的位置，例如自动调节当前字符选择框的矩形长宽。从标准字符中选取得分最高的标准字符作为分割当前字符的依据，能够确保当前字符与标准字符的匹配度，进一步确保分割准确，例如，当前字符与标准字符“B”的匹配度得分为90分，与标准字符“3”的匹配度得分为80分，则选取匹配度得分更高的标准字符“B”作为当前字符的分割标准。

较佳地，步骤5中，在根据归一化处理后的特征数据将某个字符和所述标准字符进行匹配之前，先获取所述字符的特征点，并进行过滤处理。具体地，对所述字符的特征点进行过滤的条件包括：所述特征点的大小（面积）小于第二阈值，或者特征点的位置与距离其最近的其他特征点的距离大于第三阈值。经过过滤处理，可以将较小的干扰点或者完全无关联的干扰点直接删除，降低干扰，减少计算量，提高准确度。

传统OCR技术中的分割方法存在不稳定性，出错率较高，本发明经过算法的优化，调整的位置能对对比度较低的缺口部分有良好的分割保证，不会发生将一个字符分割成多个的问题，也减少了字符粘连的情况，同时对字符间距较小也有明显的改善。

综上所述，本发明提供的基于OCR的字符分割方法，包括如下步骤：步骤1，数据收集：基于OCR技术获取模板字库，所述模板字库包括标准字符以及所述标准字符的特征数据，所述特征数据至少包括所述标准字符的灰度、尺寸、长宽比、面积重心、面积以及间距；步骤2，人工标记：利用OCR技术中的字符识别模型识别与待识别字符同批次的一部分字符，得到字符分割结果，人工检查所述分割结果，标记所述分割结果中的错误项，并将所述错误项及其对应的特征数据收录至所述模板字库中，根据更新后的所述模板字库手动修改所述字符识别模型中各个所述特征数据的权重，得到更新后的字符识别模型；步骤3，预分割：对所述待识别字符进行行扫描，基于更新后的字符识别模型对所述待识别字符进行初始识别，当某个字符的识别结果的得分小于第一阈值，则对该字符进行强制分割；步骤4，归一化处理：将经过预分割后的字符的特征数据与所述模板字库中的特征数据进行归一化处理；步骤5，精调分割位置：根据归一化处理后的特征数据将某个字符和所述标准字符进行匹配，计算得到得分最高的标准字符，基于得分最高的所述标准字符确定当前字符分割的位置。本发明无需采集大量样本对字符识别模型进行训练，且能够提高字符分割的精确度。

显然，本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

9页详细技术资料下载

一种基于ocr的字符分割方法

相关技术

网友询问留言