基于预训练技术的签名笔迹识别系统、方法及存储介质

文档序号:1953149 发布日期:2021-12-10 浏览:15次 >En<

阅读说明:本技术 基于预训练技术的签名笔迹识别系统、方法及存储介质 (Signature handwriting recognition system and method based on pre-training technology and storage medium ) 是由 覃勋辉 祁松茂 曾川 于 2021-09-24 设计创作,主要内容包括:一种基于预训练技术的电子签名识别系统及方法,涉及电子签名笔迹识别技术,采集电子签名笔划相关特征数据,获取签名样本数据和签名待检测数据;对签名样本数据和签名待检测数据进行重采样、归一化、离散化处理,得到固定长度的数据,将固定长度的签名样本数据和待检测签名数据分别输入样本编码器,编码器利用余弦相似损失函数确定签名样本数据与签名待检测数据的共性特征和差异特征,确定签名样本数据与签名待检测数据来自同一签名者或不同签名者。本发明广泛用于电子商务、电子政务等需要识别签名的场所。(An electronic signature recognition system and method based on a pre-training technology relate to an electronic signature handwriting recognition technology, and the system and method are used for collecting electronic signature stroke related characteristic data, and acquiring signature sample data and signature to-be-detected data; the method comprises the steps of resampling, normalizing and discretizing signature sample data and data to be signed to obtain data with fixed length, respectively inputting the signature sample data and the data to be signed with the fixed length into a sample encoder, determining common characteristics and difference characteristics of the signature sample data and the data to be signed by the encoder through a cosine similarity loss function, and determining that the signature sample data and the data to be signed come from the same signer or different signers. The invention is widely used in places such as e-commerce, e-government affairs and the like needing signature identification.)

基于预训练技术的签名笔迹识别系统、方法及存储介质

技术领域

本发明涉及计算机信息处理技术领域,具体是一种基于神经网络的预训练技术的手写电子签名对比方法。

背景技术

传统的文件、协议的签订依赖于签名,签名往往也是司法鉴定的方式,把电子手写签名纳入了法院审理过程中的远程取证系统,因此签名对比算法的精确性认证会给司法公正带来便利,新的签名对比认证技术的出现显得越来越迫在眉睫。手写电子签名比对邻域,同一个人也会写出不同的签名轨迹,称之为个体内差异性,处心积虑的伪造者也能写出极度相似的轨迹称之为个体间的相同性,这样给图像签名比对造成了困难。

申请公布号CN112560636A的中国发明专利申请,“一种基于图像识别的手写签名比对方法和系统”提出了通过与数据库中的图像对比的方法进行签名比对,该方法泛化能力差。提出的方法使用特征太过单一,不能充分利用采集板所采集到的特征,比如压力、旋转角等特征。公开号为CN109409254A的中国发明专利申请,一种基于孪生神经网络的电子合同手写签名鉴定方法,公开了一种基于孪生神经网络的电子合同手写签名鉴定方法,在实名认证环节进行若干次用户手写签名留底,并将手写签名保存为图像文件;选取若干手写签名图像文件中的两张以及非该用户手写签名图像文件一张,输入孪生神经网络模型中做向量化计算,得到损失函数,通过损失函数得到训练集代价函数;通过优化算法针对该用户的其他的手写签名图像文件进行训练,输出鉴定模型;在线签署时,将触屏输入设备上的手写签名即时保存为图像,输入鉴定模型中,输出鉴定结果,完成手写签名保存与鉴定工作,本发明可以实现电子合同签署中,手写签名的鉴定,用手写签名取代或完善电子签名。但上述方法采用图像文件形成训练集,没有使用书写笔迹的大量特征信息,识别准确率低。

CN 113158887 A一种提高电子签名识别准率的电子签名认证方法及设备。采集签名信息包括电子签名轨迹的各像素点的时间戳、坐标信息和压力信息;在所述签名轨迹图层上根据所述签名轨迹的坐标信息还原签名轨迹;从所述压力信息中获取压力值,然后在所述签名压力图层上,在与所述签名轨迹的坐标信息相对应的像素点上设置该压力值;合并所述签名轨迹图层和签名压力图层,生成一特征图;将所述特征图输入训练好的卷积神经网络,从签名信息数据集种随机挑选两个签名信息所对应的特征图组成数据对,所述数据对进行标注,通过标注区分数据对中的两签名信息是否均为正确签名,搭建卷积神经网络模型,通过卷积神经网络将该特征图与该签名的签名模板图进行字迹比对,输出认证结果。该专利申请虽然充分利用电子版的采集到的特征,但是有监督的学习会耗费大量的人力和资源,极大增加了工业成本。

大多的电子签名对比技术都是围绕电子签名的笔迹,采用图像处理的方式,但是同一个签名者在不同的时间能够签出不同的签字,处心积虑的伪造者也能够伪造出高度相似的签名,随着技术的发展,电子签名板能够捕捉更多的特征,通过图像签名对比的认证方式,遗漏了大量信息。常规方法如deephsv,idn等将图像数据作为输入数据、把笔迹比对作为一个基于图像的二分类处理问题,需要大量的正负样本学习模型。但是,收集高质量的负样本数据是非常难的,导致对签名识别的准确率不高。

另外,常规手写电子签名比对方法输入样本图像和声明图像做分类,由于计算量等原因限制了上述识别方法不适合用在大规模笔迹检索任务等应用,综上,现有基于图像的笔迹比对技术主要针对轨迹特征进行建模,没有充分利用采集到的丰富的多维度书写特征信息。复杂度高的神经网络模型具有更强的识别能力,但复杂度高的神经网络模型在小数据上容易造成过拟合的问题,负样本的缺乏导致签名识别准确度难以提升。

发明内容

本发明针对现有技术存在的上述缺陷,提出了一种基于预训练技术的电子签名对比方法,该方法能解决少量的样本数据在大模型上过拟合的问题,为了数据的充分,使用了噪声数据增强的方法,用于解决负样本缺乏的问题。

本发明解决上述技术问题的技术方案是,提供一种基于预训练技术的电子签名笔迹识别系统,包括,数据采集模块、数据预处理模块、签名笔迹预训练模块、签名笔迹特征识别模块,数据采集模块采集电子签名笔划相关特征数据,获取签名样本数据;数据预处理模块对采集到的正样本数据进行重采样、归一化、离散化处理,生成用于电子签名笔迹预训练的负样本数据N,采用正样本数据P基于掩码的自回归预训练方式训练神经网络,完成预训练后的神经网络模型作为编码器E;签名笔迹预训练模块分别使用分类损失函数结合正样本数据、使用噪声回归损失函数结合负样本数据训练电子签名笔迹预训练模型,得到两个相同结构的样本编码器1和样本编码器2;更新两个编码器的权重参数,直到得到收敛权重,构建包含两个相同结构且共享权重的样本编码器的孪生网络模型作为签名笔迹特征识别模块。

进一步地,根据样本编码器1输出向量y和样本编码器2输出向量y’,利用余弦距离Loss_compare=(cos(y,y'))2,构建分类损失函数:Loss_positive=(1-cos(y,y'))2和噪声回归函数:Loss_noise=(1-cos(y',y)-μ)2。更新两个权重共享的编码器的权重参数进一步包括,利用分类损失函数调用公式对编码器1当前权重系数w求偏导,通过预先设置的学习率lr调用公式Wnew1=w-lr×W1'更新编码器1权重参数,直至收敛。利用噪声回归函数调用公式对编码器2当前权重系数W求偏导,通过预先设置的学习率lr调用公式Wnew2=w-lr×W2'更新编码器2权重参数,直至收敛;获得两个样本编码器的权重参数,对两个编码器的收敛权重参数通过梯度平均或加和同步方法获得签名笔迹特征识别模块中共享权重样本编码器的共享权重。

自回归预训练方式训练神经网络进一步包括:将采集的签名笔迹的原始特征序列采用随机掩码掩盖部分数据序列,输入神经网络模型预训练,神经网络模型输出签名笔迹的预训练特征序列,使得模型输出预训练特征序列逼近原始特征序列,预训练完成。

本发明还提出一种基于预训练技术的电子签名笔迹识别方法,包括,数据采集模块采集电子签名笔迹相关特征数据,获取签名样本数据和签名待检测数据;数据预处理模块对签名样本数据和签名待检测数据进行重采样、归一化、离散化处理,得到固定长度的签名样本数据和待检测签名数据;分别使用分类损失函数结合正样本数据、使用噪声回归函数结合负样本数据训练电子签名笔迹预训练模型,构建包含两个相同结构且共享权值的样本编码器1和样本编码器2的签名识别模块;将固定长度的签名样本数据和待检测签名数据输入签名识别模块,样本编码器1和样本编码器2分别利用分类损失函数和噪声回归函数确定签名样本数据与签名待检测数据的共性特征和差异特征,确定签名样本数据与签名待检测数据来自同一签名者或不同签名者。

进一步,根据样本编码器1输出向量y和样本编码器2输出向量y’,利用余弦距离Loss_compare=(cos(y,y'))2确定损失函数Loss_positive=(1-cos(y,y'))2,获取签名样本特征与签名待检测特征的共性特征。

更进一步,根据样本编码器1输出向量y和样本编码器2输出向量y’,利用公式Loss_noise=(1-cos(y',y)-C)2确定噪声回归函数,获取签名样本特征与签名待检测特征的差异特征。

通过分类损失函数和噪声回归函数对样本编码器1和样本编码器2的权重参数W求偏导得到权重参数,对获得的两个样本编码器的权重参数通过梯度平均或加和同步方法获得共享权重。

采用梯度下降的方法降低两个损失函数的损失值,对签名识别模块的编码器的权重参数W求偏导得到参数W’,根据公式Wnew=W-lrW’更新编码器的权重参数。

本发明还请求保护一种计算机可读存储介质,其上存储有计算机程序,该程序能够被处理器加载和运行以执行上文所述的方法。

本发明提出的表征学习得到单个笔迹的向量,向量易于在电子签名对比阶段使用更方便。充分利用采集到的丰富的多维度书写特征信息,能利用少量的正、负样本数据,克服小数据容易造成过拟合的问题,提供了签名识别准确度。

附图说明

图1电子签名对比系统原理示意图;

图2预训练电子签名识别模型示意图;

图3使用分类损失函数结合正样本数据训练笔迹预训练模型;

图4使用噪声回归损失函数结合负样本数据训练笔迹预训练模型。

具体实施方式

如图1所示为本发明签名识别系统原理示意图,包括数据采集模块、数据预处理模块、数据预训练模块、签名特征识别模块。数据采集模块采集电子签名原笔迹序列特征数据作为正样本数据,这些序列特征数据包含签名原笔迹横坐标X、纵坐标Y、压力P,签名过程持续时间T等笔迹特征信息;预处理模块对签名原笔迹特征数据进行重采样,数据长度固定到同一长度,进行归一化、离散化处理,获取定长度特征数据序列;数据预训练模块包括以自回归的方式预训练模型和基于大量样本数据以噪声回归学习方式预训练模型,随后实现少样本迁移学习;签名特征识别模块对随机签名原笔迹特征与原始签名原笔迹特征进行对比识别,根据两份原笔迹特征是否一致,确定签名者真实身份。

如图2所示为预训练电子签名识别模型示意图。

首先,签名笔迹预训练模块分别使用分类损失函数结合正样本数据、使用噪声回归损失函数结合负样本数据训练电子签名笔迹预训练模型,得到两个相同结构的样本编码器1和样本编码器2,构建包含两个相同结构且共享权重的样本编码器的孪生网络模型作为签名笔迹特征识别模块。两个编码器由于采用了权重共享,可以视为是同一个模型的复制。反向传播求梯度时由于两个编码器输入不同,会得到不同的梯度,此时更新网络时要将两个编码器的梯度一起考虑,及通过平均或加和方式求得其共用梯度,再以此来更新模型。接受数据采集模块的数据和生成的噪声增强数据,并把相应的数据转化为向量,把各自转化的向量送入到编码器1和编码器2中,编码器1和编码器2构成的孪生网络学习笔迹表征通过输出层输出,把输出层的输出带入噪声回归函数Loss_noise=(1-cos(y',y)-μ)2中预训练签名特征识别模型,通过预训练编码器1和2输出数据向量的差异性,但无法学习到同一签名者签字的共性,于是采用噪声为零时的分类损失函数Loss_positive=(1-cos(y,y'))2预训练签名特征识别模型,编码器1和编码器2输出数据特征向量之间的损失值,损失值体现签名样本数据和签名待检测数据之间的不同。对于噪声回归函数和分类损失函数采用梯度下降的方法来降低损失值,使得二者的损失值接近为0。具体的梯度下降方法为可利用分类损失函数和噪声回归函数对孪生网络的当前权重参数求偏导W’,通过设置一定的学习率lr,根据公式Wnew=W-lrW’更新编码器的权重参数,直至权重参数收敛。

数据采集模块采集各种手写签名特征信息及数据,可采用以下数据获取方式:C++签字板驱动;JS H5移动端,Android APP移动端。数据采集模块能够采集到签名横坐标X,签名纵坐标Y,签名压力P,签名时间T、角速度等多个特征的序列数据。

在数据预处理阶段,对原始序列数据进行归一化处理(如批归一化和层归一化处理)、重采样、离散化,数据增强、数据生成等操作获得预处理后的数据。由于书写者书写的时间不同,产生的序列数据长度不一,输入长度采用固定值,对原始数据进行重采样,把原始签名数据固定到固定长度,当采样签名数据序列的数据长度低于输入长度时,采用零填充的方式进行上采样,当数据长度高于输入长度时,把采样数据序列的数据长度降采样到输入长度的固定长度。获得固定长度的正样本数据,对获得的固定长度数据序列增加高斯随机噪声作为负样本数据

采用基于掩码的自回归预训练方式训练神经网络,完成训练后的神经网络模型作为编码模块,编码模块包括两个同样结构的签名识别编码器。神经网络模型可采用基于cnn,lstm,transformer模型或是他们的叠加形式。将采集的签名笔迹的原始特征序列采用随机掩码掩盖部分数据序列,输入神经网络模型预训练,神经网络模型输出签名笔迹的预训练特征序列,使得模型输出的预训练特征序列逼近原始特征序列时预训练完成。

自回归预训练方式训练神经网络具体包括,使用自回归的方式完成预训练,使得模型输出数据序列的目标为输入数据序列,通过预处理模块处理后的数据以序列形式存在,如,X=(x1、x2...xn)为书写笔迹的横坐标,Y=(y1,y2...yn)为签名笔迹纵坐标,P=(p1,p2,..pn)为签名笔迹的压力,T=(t1,t2,...tn)为书写时间。随机掩码掩盖部分数据,经过掩码处理后数据序列特征中的部分序列被掩盖屏蔽,相应的特征数据为:X’=(x1,x2,..mask_token...xn)、Y’=(y1,y2...mask_token...yn)、P’=(p1,p2..mask_token...pn)、T’=(t1,t2...mask_token...tn)。序列中的部分特征用掩码mask_token覆盖,被掩码掩盖了部分特征值的多种特征数据序列输入预训练模型。即输出序列为特征序列X=(x1,x2,..x...xn),特征序列(y1,y2...y...yn),特征序列(p1,p2.._p...pn),(t1,t2,...tn)等,完成预训练。

经过预训练的模型作为电子签名笔迹预训练模型的编码器构建签名特征识别模型,签名特征识别模型包括两个相同结构的预训练编码器(编码器1和编码器2)。采用噪声回归的损失函数Loss_noise和分类损失函数Loss_positive以梯度下降的方式更新预训练签名识别编码器编码器的权重参数,根据更新结束获得的收敛权重作为编码器1和编码器2的共享权重。

原始样本预处理后得到的数据序列B加入高斯随机噪声C(C为一个维度与样本序列长度相同的噪声向量)得到的对比数据序列B’=B+C,将B和B’分别通过输入层1和输入层2输入两个编码器。

基于编码器建立签名特征识别模块,签名特征识别模块包括输入层、编码器1和编码器2、输出层,输入层1和输入层2分别获取数据采集模块采集的签名笔迹样本数据B,及在样本数据上添加随机噪声的对比数据B’=B+C,上述数据序列转化为向量送入编码器1和编码器2中,通过编码器1和编码器2进行编码,签名样本数据B通过输入层1进入编码器1,对样本数据B进行编码输出特征向量y,在签名样本数据上增加随机噪声生成对比签名数据B’通过输入层2进入编码器2,进行编码输出相应特征向量y’。通过噪声增强学习和噪声回归学习方式预训练编码器,获得签名样本数据与签名对比数据的差异性特征值和损失特征值,根据差异性特征值和损失特征值确定签名样本数据与签名对比数据的差异性和共性,由此,区分签名对比笔迹是否为签名者的笔迹。

如图3所示为使用分类损失函数结合正样本数据训练笔迹预训练模型。

签名笔迹预训练模块使用分类损失函数结合正样本数据训练签名识别编码器得到样本编码器1。

如图4所示为使用噪声回归函数结合负样本数据训练签名识别编码器得到样本编码器2。

采用正样本训练签名笔迹识别模块的编码器,签名笔迹识别模块输入层1接受正样本集合B={B1,B2..Bn}的输入,n为正样本集的数量,输入层2接受负样本集B’={B’1,B’2...,B’m}的输入,m为负样本集的数量,即B和B’来自不同签名者的两次签名,或同一签名者的不同次签名,输入层把输入的特征序列转化为特征向量V1和V2,此时把输入层1和输入层2转化的向量送入到编码器1和编码2中,向量V1和V2经过编码处理以后输出,输出层输出向量y和y’,y为编码器1的输出,y’为编码器2的输出,输出层得到输出向量y和y’。采用噪声回归函数和损失函数分别对编码器1和编码器2更新的权重参数求偏导,使用梯度下降的方法降低差异特征值和损失特征值,直到达到收敛条件,更新签名特征识别模块中两个共享权重的孪生网络的权重参数,获得签名特征识别模型中两个编码器的权重参数。

根据噪声C的不同取值,建立不同的训练任务,当C为0时,根据公式:Loss_positive=(1-cos(y,y'))2计算分类损失函数,确定签名对比数据与签名样本数据的共同特性;当C不为零时,调用公式:Loss_noise=(1-cos(y',y)-μ)2计算噪声回归函数,确定签名对比数据与签名样本数据的差异特性,其中,μ表征噪声C的一个值。利用分类损失函数和噪声回归函数分别完成对编码器1和编码器2的参数更新,利用分类损失函数调用公式对编码器1当前权重系数w求偏导,利用噪声回归函数调用公式对编码器2当前权重系数W求偏导,获得两个样本编码器的权重参数,通过预先设置的学习率lr调用公式Wnew=W-lrW’直至收敛。(可以根据上文中求偏导得到的值W1'和W2'分别带入公式获得更新后的权重参数。如调用公式Wnew1=w-lr×W1'更新编码器1权重参数,调用公式Wnew2=w-lr×W2'更新编码器2权重参数)更新权重参数,直到获得收敛权重。可以预设损失达到预定值为收敛条件,具体是视具体任务而定。对获得的两个收敛权重参数通过梯度平均或加和同步方法获得共享权重,共享权重作为签名特征识别模型中两个个孪生网络结构的编码器的权重参数。

利用分类损失函数调用公式对编码器1当前权重系数w求偏导,利用噪声回归函数调用公式对编码器2当前权重系数W求偏导,通过预先设置的学习率lr直至收敛;获得两个样本编码器的权重参数,对两个编码器的收敛权重参数通过梯度平均或加和同步方法获得签名笔迹特征识别模块中共享权重样本编码器的共享权重。

对接受负样本集合输入的编码器,采用基于噪声回归损失函数训练更新编码器权重参数,获得签名样本特征与签名对比特征的差异性特征值,根据噪声回归函数Loss_noise=(1-cos(y',y)-μ)2确定差异性特征Loss_noise,获得签名样本特征与签名对比特征的差异。利用噪声回归函数调用公式对编码器当前权重系数W求偏倒数,通过预先设置的学习率lr调用公式Wnew=W-lrW’更新权重参数,获得收敛权重。

噪声回归学习虽然能够学习到数据的差异性,但无法学习到同一签名者签字的共性,将噪声C设置为零,对接收正样本集的编码器,采用分类损失函数Loss_positive=(1-cos(y,y'))2更新编码器,获得样本特征与对比特征的损失特征Loss_positive,确定签名样本数据与签名检测数据的共性特征。利用分类损失函数调用公式对参数W求偏倒数,通过预先设置的学习率lr调用公式Wnew=W-lrW’更新权重参数,获得收敛权重。

根据预先设置的学习率更新签名对比模型的权重参数,获得收敛权重,对上述利用噪声回归损失函数和分类损失函数获得的权重系数采用共享梯度(平均或加和)下降的方法,来降低损失值,使得二者的损失值接近为0,更新编码器1和2的权重参数,获得收敛权重时的损失值为最终的差异特征值和损失特征值。由此构建包含两个相同结构且共享权重样本编码器的孪生网络模型作为签名特征识别模块。

本发明采集电子签名笔划相关特征数据,获取签名样本数据和签名待检测数据;对签名样本数据和签名待检测数据进行重采样、归一化、离散化处理,得到固定长度的数据,将固定长度的待检测签名数据序列与样本签名数据序列,分别从输入层1和输入层2输入样本编码器1和样本编码器2,两个样本编码器分别利用余弦距离损失函数和噪声回归函数确定签名样本数据与签名待检测数据的共性特征和差异特征,确定签名样本数据与签名待检测数据来自同一签名者的签名数据还是不同签名者的签名数据。本发明广泛用于电子商务、电子政务等需要识别签名的场所。

本发明还请求保护一种计算机可读存储介质,其上存储有计算机程序,该程序能够被处理器加载和运行以执行本申请上文所述的方法。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:数据校验方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类