基于深度学习的文本数据制造方法、装置、终端及存储介质

文档序号：1378964 发布日期：2020-08-14 浏览：13次 >En<

阅读说明：本技术 基于深度学习的文本数据制造方法、装置、终端及存储介质 (Text data manufacturing method and device based on deep learning, terminal and storage medium ) 是由周康明胡威于 2020-04-29 设计创作，主要内容包括：本申请提供基于深度学习的文本数据制造方法、装置、终端及存储介质,包括：对原始字符数据进行预处理以生成对应的字符文本；对字符文本进行图像处理以生成对应的文字图像；构建用于制造样本图像的生成对抗网络模型,并在所构建的生成对抗网络模型中加入作为约束条件的空间变换网络,以使制造出的样本图像学习扭曲文本图像的空间位置信息。本发明在采用传统图像处理方式进行数据样本制造的基础上,将空间变换网络加入到生成对抗网络中,使样本更好的学习样本的空间位置等信息,增加对扭曲、旋转、抖动等样本的拟合性。同时,在计算网络损失值时引入参数惩罚因子q,依据生成样本的分布情况人为调节真实样本特征在生成样本的分布。(The application provides a text data manufacturing method, a text data manufacturing device, a text data manufacturing terminal and a text data storage medium based on deep learning, wherein the text data manufacturing method comprises the following steps: preprocessing original character data to generate corresponding character texts; performing image processing on the character text to generate a corresponding character image; and constructing a generation countermeasure network model for manufacturing the sample image, and adding a space transformation network serving as a constraint condition to the constructed generation countermeasure network model so that the manufactured sample image learns the space position information of the distorted text image. According to the method, on the basis of manufacturing the data sample by adopting a traditional image processing mode, the space transformation network is added into the generation countermeasure network, so that the sample can better learn the information such as the space position of the sample, and the fitting performance of the sample on distortion, rotation, jitter and the like is improved. Meanwhile, a parameter penalty factor q is introduced when a network loss value is calculated, and the distribution of real sample characteristics in the generated samples is adjusted manually according to the distribution condition of the generated samples.)

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，在下述描述中，参考附图，附图描述了本申请的若干实施例。应当理解，还可使用其他实施例，并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的，并且本申请的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例，而并非旨在限制本申请。空间相关的术语，例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等，可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。

在本申请中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”、“固持”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

现有的制造文本数据的方法主要是以传统的图像处理的方式为主导，虽然也有将以深度学习为基础的方法用于样本制造，但目前应用还不是很全面，基本上也都是用于人脸识别，某些固定场景等特定领域。传统图像处理的方式造数据虽然能够满足造出的数据分布均匀，数量多的要求，但是往往不能根据真实场景的风格造出“神似”的样本，导致造出的很多数据是重复冗余的。

有鉴于此，本发明提出基于深度学习的文本数据制造方法、装置、终端及存储介质，应理解本专利中所提的深度学习方法主要是将深度学习技术用于文本数据样本的制作方面，比如日常生活中常见的身份证、保险单等自然场景下的文字文本数据制造。由于现实生活中收集数据存在样本分布不广泛、数据单一、种类匮乏等因素制约，导致学习出的识别模型不够鲁棒、场景适用性不强等特点。

因此，本专利在采用传统图像处理方式进行数据样本制造的基础上，将空间变换网络加入到生成对抗网络中，使得造出的样本更好的学习样本的空间位置等信息，增加对扭曲、旋转、抖动这类样本的拟合性，使得学习的效果更接近于真实样本。同时，在计算网络损失值时引入参数惩罚因子q，可依据生成样本的分布情况人为动态地调节真实样本特征在生成样本的分布。

为了使本发明的目的、技术方案及优点更加清楚明白，通过下述实施例并结合附图，对本发明实施例中的技术方案的进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定发明。

实施例一

如图1所示，展示了本发明一实施例中基于深度学习的文本数据制造方法的流程示意图。本实施例的文本数据制造方法主要包括步骤S11～S13。

步骤S11：对原始数据进行预处理以生成对应的字符文本。

1)生成记载有汉字和英文之间的对应表的字符文件，其包括：将所需生成的文字写入一字符文件中，并按文字写入顺序生成汉字和英文字符对应的id数据；存储所述字符文件，以供按照所述id数据查询对应的字符。

举例来说，可借助python的pickel模块来生成汉字和英文相应的label对应表，首先将需要生成的文字写入一txt文件，然后按照其写入顺序生成汉字和英文字符对应的id，并把这种一一对应的字符文件存储下来，这样就可以按照某一id快速便捷地找到其对应的字符。

2)对所述字符文件进行扩充，以生成不同语言版本的多种字符文件。

换言之，若不满足于中英文字符样本，可再基于其它版本的语言生成对应的字符文本，例如基于阿拉伯文来生成汉字和阿拉伯文之间的对应表，或者基于拉丁文来生成汉字和拉丁文之间的对应表等等，对应表的生成方式与上文的生成汉字和英文之间的对应表的方式类似，故不再赘述。

3)采集各语言版本的不同字体风格的字符文件。其中，字体风格包括但不限于：宋体、楷体、斜体、黑体、艺术字等风格的字体，本实施例不作限定。

具体而言，由于许多真实环境下文本的字体很不相同，如宋体、楷体、斜体、黑体、艺术字等，所以对数据的前期准备中，应尽可能多地采集不同风格的字体格式，以增加字体的丰富度。

步骤S12：对所述字符文本进行图像处理以生成对应的文字图像，具体包括如下各步骤：

首先，定义输入参数，包括但不限于输入输出目录、字符和字体文件目录、图像尺寸、旋转角度、生成数量比例、旋转角度设置等参数。

其次，利用汉字生成函数读取所述字符文件，并预设字体格式参数以生成样本数据。

具体而言，在生成图像的阶段利用python中提供的PIL工具自带的汉字生成函数，将所述字符文本从内存中读取出来，并设置好字体、背景颜色、字体尺寸等字体格式参数完成样本数据生成。

最后，对样本数据进行数据增强。由于之前生成的数据样本的数据格式较为单一，且存在较多重复相近的样本，通过传统的OpenCV图像处理方式进行数据的扩充很有必要，因此可采用加入随机噪声、膨胀腐蚀、通道变化等方式进行数据增强，以增加样本数据的种类丰富程度。

步骤S13：构建用于制造样本图像的生成对抗网络模型，并在所构建的生成对抗网络模型中加入作为约束条件的空间变换网络，以使制造出的样本图像学习扭曲文本图像的空间位置信息。步骤S13又包括图2中所示的各个子步骤。

步骤S131：构建用于判别样本真假属性的判别器网络。判别器网络的作用就是判别样本的真假属性，它以生成器的输出作为网络的输入。网络的层级结构可依据类别数目、复杂程度做设计，一般由多层卷积构成，并对其中的每一层进行标准化，加速网络收敛，最后使用激活函数来获得每个样本的分类结果。

步骤S132：构建用于输出生成样本的发生器网络。发生器网络与判别器网络相反，它通过反卷积层，将图像样本转化为数字数据的向量后作为输入，经过反卷积层输出各种生成样本。

步骤S133构建包括所述生成器网络和发生器网络的生成对抗网络模型。

具体而言，生成对抗网络(GAN,Generative Adversarial Networks)由生成器和判别器组成，生成器的作用是使得生成的样本尽可能让判别器难以分辨其真假，判别器的作用是充分学习生成数据的规律，尽可能识别出生成器生成样本的真伪，二者在不断学习相互作用的过程中最终维持一个平衡的状态。

在使用本实施例的生成对抗网络之前先定义输入部分，包括真实图像和生成的虚假图像，网络的学习率参数、类别数据、图像归一化尺寸等参数。为便于本领域技术人员理解，现结合图3对本实施例的生成对抗网络做进一步的解释说明。

如图3所示，展示了本实施例中生成对抗网络的结构示意图。生成对抗网络包括生成器网络31(Generator Network)、判别器网络32(Discriminator Network)、空间变换网络33(Spatial Transformer Network)；其中，生成器网络31(Generator Network)输入三维噪音矢量(D-dimension Noise Vector)，并输出虚假图像(Fake Images)；判别器网络22(Discriminator Network)分别输入真实图像(Real Images)以及由生成器网络31Generator Network)输出的虚假图像(Fake Images)；根据判别器网络32(Discriminator Network)和空间变换网络33(Spatial Transformer Network)，输出用于预测图像真假的预测值(Predicted Labels)。

步骤S134：在所述生成对抗网络模型中加入作为条件约束的空间变换网络。也即，为了增加样本对旋转扭曲样本的适用性，本实施例引入空间变换网络作为生成器网络的条件约束。

具体的，仿射变换是对图像进行裁剪、平移、缩放或旋转等形式的空间坐标转换。对于输入的一张原图来说，它输出仿射变换矩阵的参数θ＝F(U)，其中U是输入图像，利用变换矩阵和输出图片像素点的坐标，反推输出像素点在原图中的位置，利用双线性插值等方式生成输出图像对应的输入原图，学习扭曲文本图像的空间位置信息，增加生成网络输出样本的类别多样化。

空间变换网络的结构如图4A所示，U是输入图像，经过空间转换网络(SpatialTransformer Network)处理后求出仿射变换矩阵，输出图像V。空间变换网络(SpatialTransformer Network)由定位网络(localisation net)、网格生成器(Grid generator)以及采样器(sampler)组成。定位网络(localisation net)用于输入图像U并输出仿射变换参数θ；网格生成器(Grid generator)的作用是输出一个参数化的采样网格，即输入映射经过采样产生期望的转换输出；采样器(sampler)通过输入图像U和参数化采样网格，进行双线性采样并输出图像V。

生成的效果图如图4B所示，图中左侧是输入的原图I，右侧是校正图像I’，校正图像I’中的像素点P’经过校正矩阵T变换后，得到对应于原图I中的像素点P。

步骤S135：构建生成对抗网络模型的损失函数，其包括使用真实图像作为判别时的损失函数和使用生成图像作为判别时的损失函数。

生成对抗网络的损失函数通常包括发生器的损失函数和判别器的损失函数。其中，判别器的损失函数又由使用真实图像时的损失函数和生成图像时的损失函数组成。由于真实图像和生成图像都要输入判别器进行判别，故使用标签平滑方式，设置概率参数ε，使得每一类的概率输出值近似表达为：label_smooth_Probability＝((1-ε)*input)+(ε/k)，其中K为类别数，以此使得每一类生成样本都有一定的置信概率，对生成样本的标签去绝对化，防止过拟合现象出现，一定程度上减少最后生成样本过于集中于某一特征分布。

步骤S136：为所述损失函数引入惩罚力度参数，以在使用真实图像作为判别时的第一损失值较高时增加所述第一损失值的权重，并在使用生成图像作为判别时的第二损失值较高时增加所述第二损失值的权重。

为了进一步减少网络损失值，在网络计算损失值的阶段引入取值范围是(0,1)的惩罚力度参数q。例如：若在训练过程中发现使用真实图像作为判别时loss损失值较高，则可增加惩罚力度q，使判别器更加关注真实样本的特征维度的拟合；反之，当使用生成样本作为判别时loss损失值较高，则可减少惩罚力度q，以使惩罚系数(1-q)增大，网络更加关注生成样本的特征，从而实现人为可以调节真实样本在训练过程中的拟合程度，某种程度上控制生成样本接近于真实样本的相似度。loss损失函数近似表达为下式：

Loss_total＝q*Loss_true_images+(1-q)*Loss_false_image；公式1)

其中，q表示惩罚力度；(1-q)表示惩罚系数；Loss_true_images表示使用真实图像作为判别时损失值；Loss_false_image表示使用生成样本作为判别时损失值。

需说明的是，本发明所提出的基于深度学习的数据制造方法，应用范围较广，主要适用于文本类型数据的制作，但在对数据进行针对性准备和改进后也可适用于造人物或风景等特定的数据制造场景，本发明对此不作限定。

本发明在采用传统图像处理方式进行数据样本制造的基础上，将空间变换网络加入到生成对抗网络中，使得造出的样本更好的学习样本的空间位置等信息，增加对扭曲、旋转、抖动这类样本的拟合性，使得学习的效果更接近于真实样本。同时，在计算网络损失值时引入参数惩罚因子q，可依据生成样本的分布情况人为动态地调节真实样本特征在生成样本的分布。

需说明的是，本发明提供的基于深度学习的文本数据制造方法可应用于多种类型的硬件设备。所述硬件设备例如是ARM(Advanced RISC Machines)控制器、FPGA(FieldProgrammable Gate Array)控制器、SoC(System on Chip)控制器、DSP(Digital SignalProcessing)控制器、或者MCU(Micorcontroller Unit)控制器等等。在一些实施方式中，所述硬件设备也可以是包括存储器、存储控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克风、输入/输出(I/O)子系统、显示屏、其他输出或控制设备，以及外部端口等组件的计算机；所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(Personal Digital Assistant，简称PDA)等个人电脑。在另一些实施方式中，所述硬件设备还可以是服务器，所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上，也可以由分布的或集中的服务器集群构成，本实施例不作限定。

实施例二

如图5所示，展示了本发明一实施例中基于深度学习的文本数据制造装置的结构示意图。本实施例中的文本数据制造装置包括预处理模块51、图像处理模块52以及模型构建模块53。

具体来说，预处理模块51用于对原始字符数据进行预处理以生成对应的字符文本；图像处理模块52用于对所述字符文本进行图像处理以生成对应的文字图像；模型构建模块53用于构建用于制造样本图像的生成对抗网络模型，并在所构建的生成对抗网络模型中加入作为约束条件的空间变换网络，以使制造出的样本图像学习扭曲文本图像的空间位置信息。

需说明的是，本实施例中基于深度学习的文本数据制造装置的实施方式，与上文实施例一中基于深度学习的文本数据制造方法的实施方式类似，故不再赘述。

应理解的是，以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，预处理模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上预处理模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital signal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

实施例三

如图6所示，展示了本发明一实施例中的电子终端的结构示意图。本实例提供的电子终端，包括：处理器61、存储器62、通信器63；存储器62通过系统总线与处理器61和通信器63连接并完成相互间的通信，存储器62用于存储计算机程序，通信器63用于和其他设备进行通信，处理器61用于运行计算机程序，使电子终端执行如上基于深度学习的文本数据制造方法的各个步骤。

上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

实施例四

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述基于深度学习的文本数据制造方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本申请提供基于深度学习的文本数据制造方法、装置、终端及存储介质，本发明在采用传统图像处理方式进行数据样本制造的基础上，将空间变换网络加入到生成对抗网络中，使得造出的样本更好的学习样本的空间位置等信息，增加对扭曲、旋转、抖动这类样本的拟合性，使得学习的效果更接近于真实样本。同时，在计算网络损失值时引入参数惩罚因子q，可依据生成样本的分布情况人为动态地调节真实样本特征在生成样本的分布。所以，本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

15页详细技术资料下载

基于深度学习的文本数据制造方法、装置、终端及存储介质

相关技术

网友询问留言