利用残差网络的伪装语音检测方法

文档序号:106588 发布日期:2021-10-15 浏览:22次 >En<

阅读说明:本技术 利用残差网络的伪装语音检测方法 (Disguised voice detection method using residual error network ) 是由 简志华 徐嘉 韦凤瑜 朱雅楠 于佳祺 吴超 游林 于 2021-06-28 设计创作,主要内容包括:本发明涉及语音识别领域,尤其涉及一种利用残差网络的伪装语音检测方法。包括以下步骤,S1:利用特征提取模块对语音信号x(n)进行处理后得到基于调制频谱的语音特征-常Q调制包络;S2:将提取出来的常Q调制包络特征以Q调制包络特征图的形式输出,经预处理后输入到改进后的ResNet分类网络中;S3:Q调制包络特征以图片的形式输入到分类网络中后,首先通过1个7×7卷积层和一个3×3池化层,然后通过16个残差单元实现深度特征提取;S4:经过16个残差单元后,通过平均池化层,最终通过全连接层和Softmax层输出语音分类。本发明通过常数Q变换与采用改进残差网络,提高了伪装语音检测的准确性。(The invention relates to the field of voice recognition, in particular to a disguised voice detection method by using a residual error network. The method comprises the following steps that S1, a characteristic extraction module is used for processing a voice signal x (n) to obtain a voice characteristic-constant Q modulation envelope based on a modulation spectrum; s2, outputting the extracted constant Q modulation envelope characteristics in a form of a Q modulation envelope characteristic diagram, and inputting the preprocessed constant Q modulation envelope characteristics into an improved ResNet classification network; s3, after the Q modulation envelope characteristics are input into a classification network in the form of pictures, firstly, the depth characteristic extraction is realized through 1 7 × 7 convolutional layer and a 3 × 3 pooling layer and then through 16 residual error units; and S4, outputting the speech classification through the average pooling layer and finally the full-link layer and the Softmax layer after 16 residual units. The method improves the accuracy of the detection of the disguised voice by constant Q transformation and the adoption of an improved residual error network.)

利用残差网络的伪装语音检测方法

技术领域

本发明涉及语音识别领域,尤其涉及一种利用残差网络的伪装语音检测方法。

背景技术

伪装语音检测技术是指根据语音特性的不同,将伪装语音(包括重放语音、合成语音、转换语音及模仿语音)检测出来,达到区分真实语音和伪装语音的目的,在语音生物特征识别领域具有非常重要的应用。常用的伪装语音检测方法包含特征提取和分类器两部分。目前,特征提取多用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)、常Q倒谱系数(Constant Q Cepstral Coefficients,CQCCs)等,常用的分类器有高斯混合模型(Gaussian Mixture Model,GMM)、隐马尔科夫模型(Hidden Markov Model,HMM)、支持向量机(Support Vector Machines,SVM)等传统机器学习方法。但是这些方法只能检测特定种类的伪装语音,伪装种类未知时,检测效果下降,无法适应多变的伪装语音挑战。

发明内容

为解决上述问题,本发明提供一种利用残差网络的伪装语音检测方法,

为实现以上技术目的,本发明采用以下技术方案;

利用残差网络的伪装语音检测方法,其特征在于,包括以下步骤,

S1:利用特征提取模块对语音信号x(n)进行处理后得到基于调制频谱的语音特征-常Q调制包络(CQME);

S2:将提取出来的常Q调制包络特征以Q调制包络特征图的形式输出,经预处理后输入到改进后的ResNet分类网络中;

S3:Q调制包络特征以图片的形式输入到分类网络中后,首先通过1个7×7卷积层和一个3×3池化层,然后通过16个残差单元实现深度特征提取;

S4:经过16个残差单元后,通过平均池化层,最终通过全连接层和Softmax层输出语音分类。

进一步地,步骤S1中,特征提取模块对语音信号x(n)进行处理包括以下步骤,

S11:将输入的语音x(n)通过一个分频滤波器组,将语音分成K个不同频段的信号xk(n),其中k=1,2,…,K;

S12:对分频求得的信号xk(n)提取包络;

S13:对语音包络进行非线性处理;

S14:将经过非线性处理的包络lg(mk(n))通过常数Q变换变换到频域;

S15:计算每个频率段的均方值,得到基于调制频谱的语音特征——常Q调制包络(Constant Q transform modulation envelope,CQME)。

进一步地,步骤S2中,Q调制包络特征图为以频率——幅值为横纵坐标绘制的图像。

进一步地,步骤S2中,输入到ResNet分类网络的调制包络特征图经过预处理将大小调整为224×224×3。

进一步地,步骤S2中,ResNet分类网络为50层的残差网络。

进一步地,残差网络包含5个卷积块;第1个卷积块为64个7×7的卷积核构成的卷积层,第2个卷积块由1个3×3的最大池化层和3个残差单元构成。

进一步地,每一残差单元由3层卷积构成,第1层卷积核大小为1×1,通过MMN激活函数结合Dropout技术与第2层3×3卷积相连,第2层卷积通过ReLU激活函数与第3层1×1卷积相连,输出与shortcut连接的输出相加,再次经过ReLU激活函数非线性处理后传递到下一残差单元。

进一步地,结合Dropout技术的MMN激活函数,第3层卷积块由4个残差单元构成,第4层卷积块由6个残差单元构成,第5层卷积块由3个残差单元构成,各层卷积块中残差单元的通道数不断递进。

进一步地,经过5层卷积块,对输出进行平均池化。

与现有技术相比,本发明的有益技术效果为:

(1)提取常Q调制包络特征时,运用常数Q变换,时频分辨率可变,符合语音信号的特性,更加适合语音信号的处理,充分利用了语音信号中蕴含的信息。

(2)通过采用改进残差网络,并将MMN激活函数与Dropout技术结合使用来替代底层ReLU激活函数,解决了卷积神经网络训练层数越深准确率下降的问题,提高了伪装语音检测的准确性。

(3)通过对不同伪装语音提取常Q调制包络特征,并通过残差网络分类的方式,解决了传统伪装检测方式只能检测单一伪装语音的弊端,在未知伪装类型的情况下也可以进行检测,方便使用。

附图说明

图1为本发明利用残差网络的伪装语音检测方法示意图;

图2为本发明残差单元结构图;

图3为本发明Maxout单元结构图;

图4为本发明MMN单元结构图。

图5为本发明结合Dropout的MMN结构图

图6为本发明利用残差网络的伪装语音检测方法整体流程图。

具体实施方式

下面结合具体实施例对本发明进行进一步地描述,但本发明的保护范围并不仅仅限于此。

如图1-6所示,本实施例提出了一种利用残差网络的伪装语音检测方法,以下步骤,

S1:利用特征提取模块对语音信号x(n)进行处理后得到基于调制频谱的语音特征-常Q调制包络(CQME);

S2:将提取出来的常Q调制包络特征以Q调制包络特征图的形式输出,经预处理后输入改进后ResNet分类网络中;

S3:Q调制包络特征以图片的形式输入到分类网络中后,首先通过1个7×7卷积层和一个3×3池化层,然后通过16个残差单元实现深度特征提取;

S4:经过16个残差单元后,通过平均池化层,最终通过全连接层和Softmax层输出语音分类。

本实施例所提语音伪装检测系统由两部分构成,第一部分对任意输入语音,计算其常Q调制包络,得到输入语音的特征图作为分类网络的输入。不同类型的伪装语音在基频、噪音等方面有所不同,提取得到的特征图与真实语音有所差别。第二部分将特征图输入到训练好的ResNet分类网络中后,通过几组卷积块对特征图进行深度特征提取、类别匹配,最后通过全连接层和Softmax层输出分类。整个过程可以对真实语音和伪装语音分类,实现了伪装语音的检测。

其中,步骤S1中,特征提取模块对语音信号x(n)进行处理包括以下步骤,

S11:将输入的语音x(n)通过一个分频滤波器组,将语音分成K个不同频段的信号xk(n),其中k=1,2,…,K;

S12:对分频求得的信号xk(n)提取包络来;此过程具体为,对每一段语音求其希尔伯特变换,进一步得到每一段语音的解析信号,提取每段语音解析信号的幅度,即可得到K段语音的包络;

S13:对语音包络进行非线性处理;此过程具体为数函数将语音包络进行非线性处理变换尺度。

S14:将经过非线性处理的包络lg(mk(n))通过常数Q变换变换到频域。此过程具体为求得常数Q变换参数,通过常数Q变换将特征变换到频域。

S15:计算每个频率段的均方值,得到基于调制频谱的语音特征——常Q调制包络(Constant Q transform modulation envelope,CQME)。

以频率——幅值为横纵坐标绘制图像,得到常Q调制包络特征图。将特征图预处理,重新定义特征图尺寸为224×224×3;

因此,本实施例采用常数Q调制包络特征与改进后的残差网络(ResidualNetwork,ResNet)结合来处理伪装方式未知的伪装语音检测方案。语音信号x(n)输入后,系统将其分频处理,分成K个不同频段的信号xk(n),其中k=1,2,…,K。对每个频段的信号提取其包络并进行非线性处理,然后通过常数Q变换(Constant Q Transform,CQT)将包络特征变换到频域,计算每个频率段的均方值,得到基于调制频谱的语音特征——常Q调制包络(Constant Q transform modulation envelope,CQME)。将提取出来的特征以图片的形式输出,经预处理后输入到改进的50层ResNet分类网络中。本发明中的ResNet分类网络采用了由2个1×1卷积层、1个3×3卷积层和1个shortcut连接而构成的残差单元,并将多层Maxout(MMN)激活函数与Dropout技术结合使用。常数Q调制包络特征图输入到分类网络中后,首先通过1个7×7卷积层和3×3池化层,然后通过16个残差单元实现深度特征提取,再用平均池化减少数据量,最后由全连接层和Softmax层得到该语音的分类。在训练阶段,将不同伪装语音的常Q调制包络特征图训练数据集输入到该分类网络中,以交叉熵函数为损失函数进行训练。

特征提取模块对输入语音提取常数Q调制包络特征。重放语音与真实语音相比,增加了录音的步骤,会引入设备噪声、环境噪声以及编解码失真等。录音过程中,语音信号会通过不止一个路径传播,与真实语音相比存在延迟与衰减,在高频部分有明显的区别。合成语音与转换语音在形成的过程中,只模仿了谱包络的大致轮廓,帧间的细微变化没有被捕捉到,与自然语音相比,更加平滑且存在杂音。模仿语音与自然语音相似度最低,只可以在人耳级别混淆视听,声谱结构与真实语音差别明显。采用常数Q调制包络特征可以将不同种类的伪装语音区别开。

特征提取模块对语音信号x(n)进行处理的具体内容为:

首先,输入的语音x(n)通过一个分频滤波器组,将语音分为K个不同频段的信号xk(n)。该功能通过Mel滤波器组实现,根据语音信号的频率范围,这组滤波器的最低频率为300Hz,最高频率为3400Hz。本发明中K取128,即实现128分频。Mel滤波器组是一组三角带通滤波器,每个带通滤波器的传递函数为hk(q),0≤k<K:

其中,K为滤波器个数128,f(k)为第k个三角滤波器的中心mel频率,f(k-1)为第k个三角滤波器的上限截止mel频率,f(k+1)第k个三角滤波器的下限截止mel频率,q为f(k-1)和f(k+1)为之间的整数值。N为DFT的点数,取256,fs为采样频率,取为8KHz,fl为滤波器组的最低频率,fh为滤波器组的最高频率,分别为300Hz和3400Hz,Fmel(f)可以将频率变换为Mel频率,其中f为常规的频率值,即通过公式(3),常规频率值f可以变换为mel频率值Fmel(f),是它的逆变换,b为mel频率值,即通过公式(4),mel频率值b可以变换为常规频率值

然后对分频求得的信号xk(n)提取包络:

其中,j为虚数单位,为xk(n)的希尔伯特变换,sk(n)为xk(n)的解析信号,为sk(n)的共轭信号,mk(n)为xk(n)的谱包络。进一步对语音包络进行非线性处理,本发明中的非线性通过对数函数来实现。

下一步将经过非线性处理的包络lg(mk(n))通过常数Q变换变换到频域,表示为:

其中,n表示时域信号的第n个时间分量,L表示常数Q变换谱的总的频率分量数,fmin为处理的lg(mk(n))的最低频率,fmax为处理的lg(mk(n))的最高频率,fl为第l分量的频率,Δfl为第l分量的滤波器带宽,Q为一个恒定的常数,等于中心频率与滤波器带宽的比值,fs为采样频率,取8kHz,l为常数Q变换谱的频率序号,为第k个频段的第l个频率分量的常数Q变换值,Nl为随频率而变化的窗口长度,j为虚数单位,用来表示信号相位之间的关系,是长度为Nl的汉明窗,汉明窗表达式为:

其中,n表示时域信号的第n个时间分量,用傅里叶变换处理信号时,频率点是等间隔分布的,相当于一组中心频率等间隔分布且具有相同带宽的滤波器组。而常数Q变换最初是针对音乐信号的处理提出的,音乐的音阶频率间隔不是固定的,是以log2为底的,常数Q变换可以看作一组中心频率按指数分布,且中心频率与带宽之比为常数的滤波器组,用常数Q变换来处理更加符合语音信号的特性,时频分辨率可变,在低频处频率分辨率较高,高频处时间分辨率高。最后将每一个频率成分的均方值求出即可得到语音特征:

为第k个频段的第l个频率分量的常数Q变换值,最终将得到的特征向量绘制成以频率为自变量的特征图,即为后续分类网络的输入。

本实施例改进残差网络模块为改进后的ResNet分类网络,输入到ResNet分类网络的特征图首先需要经过预处理将大小调整为224×224×3。本发明采用了50层的残差网络作为分类网络,该残差网络包含5个卷积块。第1个卷积块为64个7×7的卷积核构成的卷积层,第2个卷积块由1个3×3的最大池化层和3个残差单元构成,其中每个残差单元由3层卷积层构成。

本实施例中残差单元的结构如图2。其中,X为输入,shortcut连接将输入X直接传输到加法器,与经卷积层得到的输出F(X)相加,最终输出H(X)=F(X)+X,残差网络需要训练学习的将不再是输出H(X),而是残差F(X)=H(X)-X,在极端情况H(X)=F(X)=X时,只需训练F(X)逼近于0即可。残差单元的原理可以表示为:

Y=F(X,{ωi})+ωsX (14)

在这里,Y表示残差单元的输出,ωi表示3层卷积的处理,ωs表示对shortcut连接做处理,使shortcut连接与残差映射的维度保持一致,从而可以直接相加,可以通过1×1卷积层来实现。1×1卷积层的作用是降维或升维,通过卷积核的个数决定处理后的维数。首先将输入特征矩阵降维至64,在第3层再升维至256,在最底层采用MMN作为激活函数,同时结合Dropout技术,第2层和第3层采用ReLU作为激活函数。

在残差单元中,第一层采用了MMN激活函数,MMN激活函数是在Maxout激活函数的基础上发展的,Maxout单元结构如图3所示。其中xi为输入向量,为第i个输入向量对应的第j个隐藏节点的权重系数,为第i个输入向量对应的第j个隐藏节点的偏移量,zj为输入向量xi加权后与偏置项之和,表示为:

通过训练达到最优。若每个Maxout单元包含g个隐藏节点,则每个Maxout单元的输出为:

多个Maxout单元联合使用即为MMN单元,本实施例使用的MMN单元结构如图4。其中,两个参数分别表示,在第1次加权操作中,第i个输入向量对应的第j个输出节点的权重系数和偏移量,代表第1次加权的第j个节点的输出,表示第1次max操作的第j个节点的输出,的计算方式与Maxout激活函数相同,的计算方式相同。多个MMN单元构成MMN激活函数,Maxout激活函数可以拟合任意凸函数,而MMN激活函数可以拟合任意形式的分布,可以更好的表示特征,收敛速度更快。

在训练阶段,特征矩阵经过MMN激活函数处理后,结合Dropout技术与下一层卷积层连接,即在每次训练过程中,随机忽略特定数量的隐藏节点,本发明中Dropout隐藏50%,隐藏层MMN单元的数量为100个,相当于用不同的网络来训练,最后对训练结果取平均,在预测阶段不使用该技术,结合Dropout技术的MMN激活函数结构如图5:

第3层卷积块由4个残差单元构成,第4层卷积块由6个残差单元构成,第5层卷积块由3个残差单元构成,各层卷积块中残差单元的通道数不断递进,这5层卷积块如表1所示。

表1

经过5层卷积块,对输出进行平均池化,降低数据的复杂度,然后通过全连接层将其输出,得到语音信号属于真伪语音的概率,最后通过Softmax层得到其分类。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:数据处理方法以及设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!