基于多种特征融合的语音篡改检测方法

文档序号:1393448 发布日期:2020-02-28 浏览:11次 >En<

阅读说明:本技术 基于多种特征融合的语音篡改检测方法 (Voice tampering detection method based on multi-feature fusion ) 是由 包永强 梁瑞宇 谢跃 唐闺臣 王青云 朱悦 李明 于 2019-09-06 设计创作,主要内容包括:本发明公开了一种基于多种特征融合的语音篡改检测方法,检测语音文件是否为拼接而成,包括以下步骤:步骤S1、将待检测的语音数据进行分帧,划分为多组语音数据帧;步骤S2、对每组语音数据帧提取多维特征;步骤S3、构建基于Attention-RNN的模型作为分类器;步骤S4、将步骤S2中提取到的多维特征输入训练好的分类器,从而判断当前帧语音是否被篡改。本发明的方法通过提取帧级特征能够有效挖掘语音信号中前后特征的差异,将多种特征相结合,语音特征挖掘更加丰富,利用注意力机制为同一样本的局部赋予不同的重要性,自动学习出时序信号的特征。(The invention discloses a voice tampering detection method based on multi-feature fusion, which is used for detecting whether a voice file is formed by splicing or not, and comprises the following steps: step S1, framing the voice data to be detected, and dividing the voice data into a plurality of groups of voice data frames; step S2, extracting multidimensional characteristics from each group of voice data frames; step S3, constructing an Attention-RNN-based model as a classifier; and step S4, inputting the multi-dimensional features extracted in the step S2 into a trained classifier, and judging whether the current frame speech is tampered. The method can effectively mine the difference of the front and rear characteristics in the voice signal by extracting the frame-level characteristics, combines a plurality of characteristics, mines the voice characteristics more abundantly, endows different importance for the local part of the same sample by utilizing an attention mechanism, and automatically learns the characteristics of the time sequence signal.)

基于多种特征融合的语音篡改检测方法

技术领域

本发明涉及语音篡改技术领域,具体涉及一种基于多种特征融合的语音篡改检测方 法。

背景技术

数字语音技术的迅速发展,使得其应用范围越来越广泛。但强大的语音编辑软件的 出现,破坏了语音的真实性与安全性。在法庭举证、历史文献备份等特殊场景下,要确保数字影像材料的真实性。因此,判定语音篡改与否是司法有关部门亟待解决的问题。

二十世纪九十年代以来,数字语音篡改鉴定技术兴起,并迅速发展。Farid于1999年提出了应用双谱分析检测语音信号篡改的办法;Grigoras提出利用ENF(ElectricNetwork Frequency)信息检测语音篡改的检测方法;姚秋明等人提出了基于期望最大化算法的语音重采样篡改的检测方法;Ding等人提出以子带频谱平滑方法检测语音信号是否***值或拼接篡改,邵松年等人提出利用数字录音设备的本底噪声特性,来检测语音 信号中有无被篡改入其他录音设备录制的语音的方法;Yang等人提出基于MP3格式语 音帧位移的篡改检测方法。

随着机器学习和深度学习技术的发展,研究者们提出了多种有效地机器学习和深度 学习识别模型。这些在声音分类问题上取得了巨大的成功。因此,针对语音篡改采用深度学习算法进行识别是未来的研究方向之一。目前针对语音篡改识别的研究相对较少。

发明内容

发明目的:为了克服现有技术中存在的不足,本发明提供一种基于多维特征融合的 语音篡改检测方法,其能够有效地识别和区分语音篡改情况,且鲁棒性好。

技术方案:为实现上述目的,本发明采用如下技术方案:

一种基于多种特征融合的语音篡改检测方法,检测语音文件是否为拼接而成,其特 征在于,包括以下步骤:

步骤S1、将待检测的语音数据进行分帧,划分为多组语音数据帧;

步骤S2、对每组语音数据帧提取多维特征;

步骤S3、构建基于Attention-RNN的模型作为分类器;

步骤S4、将步骤S2中提取到的多维特征输入步骤S3中训练好的分类器中,从而 判断当前帧语音是否被篡改。

优选地,所述步骤S3中,Attention-RNN的模型采用两层RNN层,其中第一层是 双向RNN层,然后接入一个注意力层,随后是一个全连接Dense00层和一个用于减轻 过拟合的dropout,最后将输入送到一个dense层,并送入softmax分类器,每个输入先传 入bi-RNN,根据各自的状态产生中间状态,通过加权得到输出。

优选地,所述步骤S2中,每帧语音提取67维语音特征,67维语音特征包括如下:

语音特征编号1-11:从语音信号功率频谱图计算的色度图;

语音特征编号12-47:梅尔倒谱系数,一阶梅尔倒谱系数,二阶梅尔倒谱系数;

语音特征编号48-49:过零率,均方根;

语音特征编号50-59:谱图质心,P阶频谱图带宽,频谱图对比度,滚降频率;

语音特征编号60-62:用多项式拟合频谱图得到的多项式系数;

语音特征编号63-64:混沌关联维数,混沌熵;

语音特征编号65-67为:谐波能量特征、基频扰动特征、语音幅度扰动;

优选地,所述步骤S1中,每组语音数据帧的帧长为512,帧移为256。

有益效果:与现有技术相比,本发明的有益效果如下:

(1)、提取帧级特征能够有效挖掘语音信号中前后特征的差异;

(2)、将多种特征相结合,语音特征挖掘更加丰富;

(3)、利用注意力机制为同一样本的局部赋予不同的重要性,自动学习出时序信号的 特征。

附图说明

图1为本发明的步骤S3中采用Attention-RNN的结构示意图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

本发明公开了一种基于多种特征融合的语音篡改检测方法,检测语音文件是否为拼 接而成,其特征在于,包括以下步骤:

步骤S1、将待检测的语音数据进行分帧,划分为多组语音数据帧;

步骤S2、对每组语音数据帧提取多维特征;

步骤S3、构建基于Attention-RNN的模型作为分类器;

步骤S4、将步骤S2中提取到的多维特征输入步骤S3中训练好的分类器中,从而 判断当前帧语音是否被篡改。

所述步骤S3中,Attention-RNN的模型作为分类器的方法为:

模型首先采用两层RNN层,其中第一层是双向RNN层,然后接入一个注意力层, 随后是一个全连接Dense00层和一个用于减轻过拟合的dropout,最后将输入送到一个 dense层,并送入softmax分类器,每个输入先传入bi-RNN,根据各自的状态产生中间 状态,通过加权得到输出,权重系数决定每个输入状态对输出状态的权重贡献,对双向 RNN层的输出向量分配不同的权值,使得模型可以将注意力集中在重点的语音特征上, 降低其他无关特征的作用,

假设输出向量为h,权值为α,表示每个特征的重要性,则合并后的表示为:

Figure BDA0002193333700000031

其中,α的计算公式为:

Figure BDA0002193333700000032

其中,激活函数的隐层输出为

uit=tanh(Wwhit+bw) (3)。

所述步骤S2中,每帧语音提取67维语音特征,67维语音特征包括如下:

语音特征编号1-11:从语音信号功率频谱图计算的色度图;

语音特征编号12-47:梅尔倒谱系数,一阶梅尔倒谱系数,二阶梅尔倒谱系数;

语音特征编号48-49:过零率,均方根;

语音特征编号50-59:谱图质心,P阶频谱图带宽,频谱图对比度,滚降频率;

语音特征编号60-62:用多项式拟合频谱图得到的多项式系数;

语音特征编号63-64:混沌关联维数,混沌熵;

混沌关联维数D(m)计算公式为:

其中,m表示重构相空间的嵌入维数,r是m维相空间的超球体半径,Cm(r)为 该空间内信号的关联积分;

混沌熵定义为:

Figure BDA0002193333700000041

其中,σ为最大Lyapunov指数,p(i1,…,iσ)表示信号处于小空间的概率,τ为时 间延迟;

语音特征编号65-67为:谐波能量特征、基频扰动特征、语音幅度扰动;

谐波能量特征公式如下:

Figure BDA0002193333700000042

其中Ep和Eap为分别为谐波成分能量和噪音成分能量;

基频扰动特征公式如下:

Figure BDA0002193333700000043

其中,F0i为第i帧语音的基频;

语音幅度扰动公式如下:

Figure BDA0002193333700000044

其中,Ai为第i帧语音的振幅。

所述步骤S1中,每组语音数据帧的帧长为512,帧移为256。。

模型首先采用两层RNN层,其中第一层是双向RNN层,然后接入一个注意力层, 随后是一个全连接Dense层和一个用于减轻过拟合的dropout,最后将输入送到一个dense层,并送入softmax分类器。

注意力机制(Attention)的原理是模拟人类的视觉注意力机制。当我们在关注一样东 西的时候,注意力随着目光的移动也在移动,这就意味着我们视觉对目标的注意力分布 是不同的。Attention机制在神经网络中最早被应用于计算机视觉领域,近几年来,有研究者将Attention机制引入到自然语言处理和语音中。迄今为止,Attention机制在文本 摘要、序列标注、语音识别中取得了巨大成功。Attention机制可以为同一样本的局部赋 予不同的重要性,自动学习出时序信号的特征,提高模型的鲁棒性。模型输出为分类概 率。

Attention-RNN网络结构的核心是在一个双向RNN层后接一层注意力层。如图1所示,每个输入先传入bi-RNN,根据各自的状态产生中间状态,通过加权得到输出,权 重系数决定每个输入状态对输出状态的权重贡献,对双向RNN层的输出向量分配不同 的权值,使得模型可以将注意力集中在重点的语音特征上,降低其他无关特征的作用。

假设输出向量为h,权值为α,表示每个特征的重要性,则合并后的表示为:

Figure RE-GDA0002332504390000051

其中,α的计算公式为:

Figure RE-GDA0002332504390000052

其中,激活函数的隐层输出为

uit=tanh(Wwhit+bw) (3)

基于多种特征组合与Attention-RNN的语音篡改检测方法的准确率可达到92.6%。 其特点在于:1)提取帧级特征能够有效挖掘语音信号中前后特征的差异;2)将多种特 征相结合,语音特征挖掘更加丰富;3)利用注意力机制为同一样本的局部赋予不同的重要性,自动学习出时序信号的特征。因此,在实际应用中,能够有效地区分不同的录 音设备。

模型 支撑向量机 标准循环神经网络 Attention-RNN网络
平均识别率 81.5% 83.4% 92.6%

以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员 来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

7页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:音频识别方法、装置及设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!