基于卷积神经网络和领域对抗学习的音频隐写分析方法

文档序号:1058569 发布日期:2020-10-13 浏览:33次 >En<

阅读说明:本技术 基于卷积神经网络和领域对抗学习的音频隐写分析方法 (Audio steganalysis method based on convolutional neural network and domain confrontation learning ) 是由 王让定 林昱臻 严迪群 董理 于 2020-05-15 设计创作,主要内容包括:本发明涉及一种基于卷积神经网络和领域对抗学习的音频隐写分析方法,其特征在于:所述方法对应的网络框架包括特征提取子网络&lt;Image he="78" wi="105" file="DDA0002494661440000011.GIF" imgContent="drawing" imgFormat="GIF" orientation="portrait" inline="no"&gt;&lt;/Image&gt;隐写分析子网络&lt;Image he="74" wi="75" file="DDA0002494661440000012.GIF" imgContent="drawing" imgFormat="GIF" orientation="portrait" inline="no"&gt;&lt;/Image&gt;和载体来源判别子网络&lt;Image he="69" wi="102" file="DDA0002494661440000013.GIF" imgContent="drawing" imgFormat="GIF" orientation="portrait" inline="no"&gt;&lt;/Image&gt;其中θ&lt;Sub&gt;f&lt;/Sub&gt;、θ&lt;Sub&gt;y&lt;/Sub&gt;、θ&lt;Sub&gt;d&lt;/Sub&gt;分别代表各个子网络的网络参数,通过提供基于卷积神经网络和领域对抗学习的音频隐写分析方法,能有效缓解由载体来源失配问题导致的音频隐写分析模型性能下降问题,为音频隐写分析技术在复杂互联网大数据取证场景下的应用提供了一种可行思路。(The invention relates to an audio steganalysis method based on a convolutional neural network and domain confrontation learning, which is characterized by comprising the following steps: the network framework corresponding to the method comprises a feature extraction sub-network Steganalysis subnetwork And carrier source discrimination subnetwork Wherein theta is f 、θ y 、θ d Network parameters representing respective sub-networks by providing volume-basedThe audio steganalysis method for the neural network and the field counterstudy can effectively relieve the problem of performance reduction of an audio steganalysis model caused by the problem of carrier source mismatch, and provides a feasible thought for the application of an audio steganalysis technology in a complex internet big data evidence obtaining scene.)

基于卷积神经网络和领域对抗学习的音频隐写分析方法

技术领域

本发明涉及音频隐写技术领域,尤其涉及基于卷积神经网络和领域对抗学习的音频 隐写分析方法。

背景技术

目前基于深度学习技术的音频隐写分析模型已在实验室条件下取得较高的检测性 能。但在实际的网络大数据取证环境下,音频载体数据存在着多样性和异质性等特点,如果直接用实验室训练所得的隐写分析模型进行检测,准确率将会大打折扣。

音频隐写分析中的载体来源失配(Cover Source Mismatch,CSM)问题,是由训练集音频数据和测试集音频数据的来源(如录音设备、说话人性别、语言等因素)不同造 成的。CSM在本质上是迁移学习中的领域自适应(Domain Adaptation)问题,领域自适 应问题可以定义为:给定一个有标记的源数据领域和一个无标记的目标数 据领域假定它们的特征空间相同,类别空间相同以及条件概率分布也相 同,但这两个域的边缘分布不同,则领域自适应学习的目标就是,利用有标记的数据Ds去学习一个分类器f:xt→yt来预测目标域Dt的标签,使得预测的错误风险最小。

但目前并没有专门针对音频隐写分析中CSM问题的解决方法。

发明内容

鉴于上述问题,本发明的目的在于提供一种基于卷积神经网络和领域对抗学习的音 频隐写分析方法,该方法能够有效缓解CSM现象对音频隐写分析模型性能下降的影响,提高了音频隐写分析技术在复杂互联网大数据取证场景下的应用可行性。

为了实现上述目的,本发明的技术方案为:基于卷积神经网络和领域对抗学习的音 频隐写分析方法,其特征在于:所述方法对应的网络框架包括特征提取子网络隐写分析子网络和载体来源判别子网络

Figure BDA0002494661430000022

其中θf、θy、θd分别代表各个子网络的 网络参数,所述方法包括,

S1,输入源域数据

Figure BDA0002494661430000023

目标域数据

Figure BDA0002494661430000024

对抗训练因子λ、学习率η;

S2,通过特征提取子网络输出隐写分析特征向量F;

S3,隐写分析特征向量F经隐写分析子网络输出得到二元隐写预测概率

Figure BDA0002494661430000025

计算二元隐写预测概率与原始隐写标签y的交叉熵损失ly,并据此通过反向传播误差与梯度 下降算法更新网络参数θy,其中y∈{0,1},当y取值0时代表原始载体而取值1时代 表隐写载体;

S4,隐写分析特征向量F经载体来源判别子网络输出得到载体来源预测概率值计算载体来源预测概率值与原始隐写标签d的交叉熵损失ld,并据此通过反向传播误 差更新网络参数θd,其中d∈{0,1},当d取值0时代表源域而取值1时代表目标域。

进一步的,所述S2中特征提取子网络包括音频预处理层和音频预处理层后的4个级联的卷积组,即第1卷积组、第2卷积组、第3卷积组、第4卷积组。

进一步的,所述音频预处理层由4个1×5卷积核D1~D4组成,初始权重分别为:

D1=[1,-1,0,0,0],D1=[1,-2,1,0,0],D1=[1,-3,3,1,0],D1=[1,-4,6,-4,1];

所述第1卷积组包括1×1的第一卷积层、1×5的第二卷积层和1×1的第三卷积层;

所述第2卷积组、第3卷积组、第4卷积组均包含一个1×5卷积层、1×1卷积层 和均值池化层,其中第4卷积组的均值池化层为全局均值池化层;

所述隐写分析特征向量为256维向量。

进一步的,所述音频预处理层采用差分滤波设计。

进一步的,所述隐写分析子网络包括全连接层和隐写标签预测层,所述全连接层为 两层级联,分别包括128个神经元和64个神经元。

进一步的,所述载体来源判别子网络包括梯度反转层、领域判别层以及领域标签预 测层,所述梯度反转层在前向传播阶段保持输入和输出数据的恒等映射,在误差反向传播阶段反转误差的梯度值分别表示为,

Forward:F(x)=x

Figure BDA0002494661430000031

其中,F(x)表示梯度反转层的等效函数式,I为单位矩阵。

进一步的,所述S3中更新网络参数θy和S4中更新网络参数θd通过如下公式进行 优化求得,

Figure BDA0002494661430000033

其中, 分别代表各个子网络确定的网络参数,n为源域数据训练样本个数,m为目标域数据训练 样本个数。

与现有技术相比,本发明的优点在于:

通过将卷积神经网络和领域对抗学习相结合运用于音频通用隐写分析模型中,能得 出域独立的隐写分析特征,能有效缓解由载体来源失配问题导致的音频隐写分析模型性 能下降问题,为音频隐写分析技术在复杂互联网大数据取证场景下的应用提供了一种可 行思路。

具体实施方式

下面详细描述本发明的实施例,所述实施例描述的仅是示例性的,仅用于解释本发 明,而不能理解为对本发明的限制。

本发明保护一种基于卷积神经网络和领域对抗学习的音频隐写分析方法,其特征在 于:所述方法对应的网络框架包括特征提取子网络隐写分析子网络和载体来源判别子网络

Figure BDA0002494661430000038

其中θf、θy、θd分别代表各个子网络的网络参数,所述方法包括,

S1,输入源域数据目标域数据对抗训练因子λ、学习率η;

S2,通过特征提取子网络输出隐写分析特征向量F;

S3,隐写分析特征向量F经隐写分析子网络输出得到二元隐写预测概率计算二元隐写预测概率与原始隐写标签y的交叉熵损失ly,并据此通过反向传播误差与梯度 下降算法更新网络参数θy,其中y∈{0,1},当y取值0时代表原始载体而取值1时代 表隐写载体;

S4,隐写分析特征向量F经载体来源判别子网络输出得到载体来源预测概率值计算载体来源预测概率值

Figure BDA0002494661430000044

与原始隐写标签d的交叉熵损失ld,并据此通过反向传播误 差更新网络参数θd,其中d∈{0,1},当d取值0时代表源域而取值1时代表目标域。

其中,特征提取子网络的作用是自适应提取特征,为了缓解CSM问题带来的隐写分析性能下降,其输出的特征向量F首先要具有隐写检测性(即输入隐写分类子网络后 得到正确的隐写分析结果),又要具有一定的领域独立性(即在不同音频载体数据的特 征空间分布上保持一致)。通过不断学习原始音频样本与隐写音频样本数据分布的差异, 特征提取网络提升学习到的特征F对于正确检测隐写音频的能力。与此同时,在反向传 播阶段反转

Figure BDA0002494661430000045

所带来的误差梯度,以更新

Figure BDA0002494661430000046

的网络参数θf,来减少其所提取的特征F 对于音频载体数据领域的相关性。

对于网络结构,各个子网络模块的详细结构参数如下表所示。表中参数含义示例:64x(1x5),ReLU,表示该卷积层的参数设置为输出通道为64的1x5的卷积核,并使用 ReLU激活输出。FC-256代表具有256个神经元的全连接层。

Figure BDA0002494661430000051

对于特征提取子网络其作用是从输入音频数据中自适应地提取隐写分析特征。 在CNN隐写分析模型中,设置合理的预处理层往往能够提升网络的隐写分析性能。因此在特征提取子网络的开端使用了基于差分滤波设计的音频预处理层,其由4个1x5卷 积核D1~D4组成,初始权重分别为:

D1=[1,-1,0,0,0]

D2=[1,-2,1,0,0]

D3=[1,-3,3,1,0]

D4=[1,-4,6,-4,1]

音频预处理层后紧接着4个级联的卷积组模块。第1卷积组模块中的卷积层不经过非线性激活处理,并取消了池化操作,其目的是为了更有效地捕捉隐写所带来的微弱信息。第2~4卷积组模块均包含一个1x5卷积层、1x1卷积层和均值池化层,其中第4卷 积组模块最后的均值池化层替换为全局均值池化(Global Average Pooling)层,目的是 为了融合全局特征。

Figure BDA0002494661430000053

最后输出256维的隐写分析特征向量F。

对于隐写分类子网络其紧接特征输出层,其结构为两层级联的全连接层(分别包含128和64个神经元结构)。

对于载体来源判别子网络

Figure BDA0002494661430000055

载体来源判别网络的结构与隐写分类网络相类似,主体结构也是由全连接层构成。不同的是,特征提取子网络的输出特征F与载体来 源判别子网络的领域判别层中间由梯度反转层(Gradient Reversal Layer,GRL)连接。

对于公式Forward:F(x)=x和λ越小,域标签的重要性越小,

Figure BDA0002494661430000064

所提取的特征向量F也就被允许包含更多的域信息。当λ为0时则意为不考 虑域标签的影响,即不考虑迁移。此时分类器与源域数据的依赖性最强。因此设置合理 的λ也是重要的。当两个域差别较大时,λ可以适当大一些。

本发明保护的方法在训练过程中,源域音频数据

Figure BDA0002494661430000065

具有完整的隐写标签 信息,而目标域音频数据则不包含隐写标签信息。整个网络的训练过程可分为两个部分:1)

Figure BDA0002494661430000067

Figure BDA0002494661430000068

子网络级联而成有监督隐写分析网络;2)

Figure BDA0002494661430000069

子网络级 联而成的载体来源判别过程。整体网络的训练目的为:通过训练来提升特征F在隐 写空间上的差异性,通过训练来判别不同来源音频数据并提取领域信息,与此同时 通过

Figure BDA00024946614300000613

Figure BDA00024946614300000614

的对抗训练来消除所提取特征F的领域相关信息。整体网络的训练目 的等效于求解以下优化问题:

Figure BDA00024946614300000616

其中,

Figure BDA00024946614300000619

分别代表各个子网络确定的网络参数,n为源域数据训练样本个数,m为目标域数据训练 样本个数。

为达到上述目的,整体网络的训练流程可由下表表示,即

Figure BDA00024946614300000620

采用该方法有效地缓解了由载体来源失配问题导致的音频隐写分析模型性能下降, 为音频隐写分析技术在复杂互联网大数据取证场景下的应用提供了一种可行思路。

尽管已经示出和描述了本发明的实施例,本领域技术人员可以理解:在不脱离本发 明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形,本发明的范围由权利要求及其等同物限定。

9页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种LC3音频编码器编码优化方法、系统、存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类