基于生成对抗网络的语音私密度掩蔽信号生成方法及系统

文档序号:831708 发布日期:2021-03-30 浏览:30次 >En<

阅读说明:本技术 基于生成对抗网络的语音私密度掩蔽信号生成方法及系统 (Voice privacy density masking signal generation method and system based on generation countermeasure network ) 是由 李晔 冯涛 张鹏 李姝� 汪付强 于 2020-12-11 设计创作,主要内容包括:本申请公开了基于生成对抗网络的语音私密度掩蔽信号生成方法及系统,包括:生成随机噪声信号;将随机噪声信号输入到训练后的生成对抗网络中,训练后的生成对抗网络的生成器,生成保护语音私密度的掩蔽信号。此掩蔽信号与会议室内说话人发音特点类似,自然度更高且对窃听人员来说掩蔽信号的内容没有实际意义,从而达到对窃听者进行干扰的目的。该发明不但解决了常见的掩蔽信号掩蔽效率低、会对说话人有负面影响的问题,同时也节约了人力、物力,具有更高的环境适应性。(The application discloses a method and a system for generating a voice privacy density masking signal based on a generation countermeasure network, comprising the following steps: generating a random noise signal; and inputting the random noise signal into the trained generation countermeasure network, and generating a masking signal for protecting the voice privacy density by the trained generator for generating the countermeasure network. The masking signal has the characteristics similar to the voice of a speaker in a conference room, the naturalness is higher, and the content of the masking signal has no practical significance to eavesdroppers, so that the purpose of interfering the eavesdroppers is achieved. The invention not only solves the problems that the common masking signal has low masking efficiency and can have negative influence on speakers, but also saves manpower and material resources and has higher environmental adaptability.)

基于生成对抗网络的语音私密度掩蔽信号生成方法及系统

技术领域

本申请涉及语音信号处理技术领域,特别是涉及基于生成对抗网络的语音私密度掩蔽信号生成方法及系统。

背景技术

本部分的陈述仅仅是提到了与本申请相关的背景技术,并不必然构成现有技术。

现阶段,许多国家和公司的机密都是因为不注重会议室的保密工作而泄露的。会议室保密对于国家安全、商业安全等方面都有重大的意义。在会议室保密方面,对于声音的保护是其工作的重点。公司的商业机密被窃听,轻则导致竞标失败,重则使公司倒闭甚至会损害国家利益。

目前对于保密会议室的声音信息安全,主流方法是采用声音掩蔽技术,主要掩蔽信号包括白噪声、分噪声和类语音信号。与噪声掩蔽信号相比,类语音信号具有和语音信号相似的特征,且具有迷惑性,具有更好的掩蔽效果。

目前,类语音掩蔽信号的生成方法主要是先生成随机文本,然后采用语音合成技术生成类语音信号,但是此方法的工作量大,需要耗费大量人力物力去统计字、词、段的概率等,同时现有的类语音生成办法所生成的类语音自然度不高,无法跟踪说话人特点。

发明内容

为了解决现有技术的不足,本申请提供了基于生成对抗网络(GenerativeAdversarial Networks)的语音私密度掩蔽信号生成方法及系统;此掩蔽信号与会议室内说话人发音特点类似,自然度更高且对窃听人员来说掩蔽信号的内容没有实际意义,从而达到对窃听者进行干扰的目的。该发明不但解决了常见的掩蔽信号掩蔽效率低、会对说话人有负面影响的问题,同时也节约了人力、物力,具有更高的环境适应性。

第一方面,本申请提供了基于生成对抗网络的语音私密度掩蔽信号生成方法;

基于生成对抗网络的语音私密度掩蔽信号生成方法,包括:

生成随机噪声信号;

将随机噪声信号输入到训练后的生成对抗网络中,训练后的生成对抗网络的生成器,生成保护语音私密度的掩蔽信号。

第二方面,本申请提供了基于生成对抗网络的语音私密度掩蔽信号生成系统;

基于生成对抗网络的语音私密度掩蔽信号生成系统,包括:

生成模块,其被配置为:生成随机噪声信号;

输出模块,其被配置为:将随机噪声信号输入到训练后的生成对抗网络中,训练后的生成对抗网络的生成器,生成保护语音私密度的掩蔽信号。

第三方面,本申请还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。

第四方面,本申请还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。

与现有技术相比,本申请的有益效果是:

本申请充分考虑了会议室声音掩蔽的需求,摒弃了先前类语音生成信号的方法,引入了神经网络,利用了神经网络强大的学习能力与生成对抗网络的博弈思想。本方法能够生成无实际意义的、更具迷惑性的掩蔽信号。

本申请附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。

图1为基于GAN的汉语语音私密度的掩蔽信号方法的流程框图。

图2为基于GAN的汉语语音私密度的掩蔽信号生成方法的训练阶段流程框图。

具体实施方式

应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

保密会议室中声音信息的泄露主要有两种方式:

主动泄露和无意识泄露。

主动泄露,是指,通过会议室内部安装窃听设备上所造成的泄露。

无意识泄露,是指,会议召开期间,声音通过空气传声、固体传声等方式泄露,而被非授权人员听到。

具体而言,声音信号无意识泄露的通道主要包括:门、窗、墙体以及各种管道等。

本申请所提出的方法主要是针对声音信号的无意识泄露。

目前针对声音信号的无意识泄露,大都采用声掩蔽技术进行防护。具体而言,就是在可能存在声音泄露的位置、途径上布设干扰源,产生干扰信号,从而掩蔽有用的语音信号,从而达到声音泄露防护的作用,上述干扰信号被称为掩蔽信号。

实施例一

本实施例提供了基于生成对抗网络的语音私密度掩蔽信号生成方法;

如图1和图2所示,基于生成对抗网络的语音私密度掩蔽信号生成方法,包括:

S101:生成随机噪声信号;

S102:将随机噪声信号输入到训练后的生成对抗网络中,训练后的生成对抗网络的生成器,生成保护语音私密度的掩蔽信号。

示例性的,当在会议室内部生成保护语音私密度的掩蔽信号后,在会议室外部的窃听者通过墙壁介质所得到的掩蔽信号,对窃听者来说是毫无实质内容的语音信号。

示例性的,所述生成随机噪声信号,是指通过np.random.uniform程序来生成一段随机噪声。

作为一个或多个实施例,所述生成对抗网络,包括:

相互连接的生成器和鉴别器。

示例性的,网络结构的选择可因不同大小的数据集来选择不同的网络结构,

对于小的数据集,生成对抗网络GAN中的生成器(Generative)与鉴别器(Discriminator)可选择全卷积网络;

对于大的数据集,生成对抗网络GAN中的生成器(Generative)与鉴别器(Discriminator)可以选择卷积神经网络。

作为一个或多个实施例,所述训练后的生成对抗网络的训练步骤包括:

S102a1:构建训练集;所述训练集为目标类语音库;

S102a2:将随机噪声信号输入到生成器中,得到生成器生成的类语音信号;

S102a3:将生成的类语音信号和目标类语音库中的类语音信号,同时输入到鉴别器中,鉴别器输出生成的类语音信号为目标类语音信号的概率,通过生成器与鉴别器的博弈,提升生成器生成的类语音信号逼近目标类语音信号的能力,最后得到训练后的生成对抗网络。

示例性的,所述目标类语音信号,选用THCHS30数据集中的语音信号。

作为一个或多个实施例,如图2所示,所述训练后的生成对抗网络的详细步骤包括:

S102b1:对生成器进行初始化,得到初始化的生成器;

S102b2:对鉴别器进行初始化,得到初始化的鉴别器;

S102b3:对生成器与鉴别器的权值进行优化;

S102b4:重复步骤S102b3,判断是否达到设定迭代次数,如果达到,就停止训练,得到训练后的生成对抗网络;如果未达到,则继续训练。

作为一个或多个实施例,所述S101:生成随机噪声信号,所述S102:将随机噪声信号输入到训练后的生成对抗网络中,训练后的生成对抗网络的生成器,生成保护语音私密度的掩蔽信号步骤之前,还包括:

S101-2:对数据集中的语音信号进行预处理。

进一步地,所述对目标类语音信号进行预处理;具体包括:

S101-21:对待目标类语音信号进行预加重处理;

S101-22:对预加重处理后的待处理信号进行数据归一化处理。

进一步地,所述S102b1:对生成器进行初始化,得到初始化的生成器;具体包括:

S102b11:单独取出随机噪声,对所取出的随机噪声进行维度调整;

S102b12:确定二维卷积卷积核尺寸、步长、填充方式,进行二维卷积后调整维度,对每一层的卷积结果使用激活函数。

将二维卷积结果与尺寸大小相同的高斯噪声进行拼接。

对拼接结果,进行二维反卷积,每个反卷积层的反卷积结果使用激活函数;

S102b13:对最后一层输出值使用激活函数,得到生成的类语音信号。

示例性的,所述S102b11:对所生成的随机噪声进行维度调整;具体是指:将随机噪声的维度调整为4维,维度大小为[150,16384,1,1]。

示例性的,所述S102b12:本实例将batchsize大小设置为150,尺寸根据每层卷积神经网络通道数的不同设置为[31,1,输入通道数,输出通道数],步长设置为[1,2,1,1],填充的方式为SAME。

根据每一层的尺寸不同的,是根据程序中每一层神经网络卷积的结果进行调整的。卷积核尺寸为四维[卷积核高度,卷积核宽度,输入通道数,输出通道数],卷积核高度在卷积与反卷积过程中都为31,卷积核宽度都为1,输入通道数为上一层输出通道数,而此层的输出通道数在encoder阶段分别为[16,32,.32,64,64,128,128,256,256,512,1024],在decoder阶段每层的输出通道数为[1024,512,512,256,256,128,128,64,64,32,1];每一层的步长都为[1,2,1,1],填充方式都为SAME。

示例性的,所述S102b13:使用tanh激活函数,其公式为

进一步地,所述S102b2:对鉴别器进行初始化,得到初始化的鉴别器;具体包括:

S102b21:将目标类语音定义为初始w序列;

S102b22:创建一个与初始w序列相同维度和相同尺寸的高斯噪声序列,并且将高斯噪声序列与初始w序列相加得到第一w序列;

S102b23:调整第一w序列的维度;确定二维卷积层的卷积核尺寸、步长、填充方式等,二维卷积后对w序列进行虚拟批量标准化、对批量标准化的结果使用激活函数,经过十一次二维卷积得到第二w序列。

S102b23:将第二w序列进行一维卷积随后送入全连接层,得到输出概率值为接近1的真数据的概率。

示例性的,所述S102b22:创建一个与w序列相同维度和相同尺寸的高斯噪声序列,并且将高斯噪声序列与w序列相加得到新的w序列;高斯噪声序列中高斯噪声的平均值为零;方差为0.5。

示例性的,所述S102b23:参数选择与生成器初始化阶段配置相同,其中虚拟批量标准化目的是加快模型的收敛速度。

步长为[1,2,1,1],填充方式为SAME。与生成器中encoder相同,卷积核高度在卷积与反卷积过程中都为31,卷积核宽度都为1,输入通道数为上一层输出通道数,而神经网络层的输出通道数分别为:

[16,32,.32,64,64,128,128,256,256,512,1024]。

进一步地,所述S102b3:对生成器与鉴别器的权值进行优化;具体包括:

S102b31:鉴别器使用数据集中的语音作为真实数据,进行鉴别器初始化阶段时输出“真”的概率,表示为真数据。

鉴别器输入生成器生成的类语音作为假数据,鉴别器将进行初始化阶段的操作输出“假”的概率,表示为假数据。

计算鉴别器的损失函数loss值;

S102b32:根据生成器的loss值,更新生成器初始化中的卷积与反卷积的卷积核权重、批量标准化中γβ值。

根据鉴别器的loss值,更新鉴别器初始化中的卷积与反卷积的卷积核数值、虚拟批量标准化中γβ值。

进一步地,所述S102a1:构建训练集;所述训练集为目标类语音信号;具体步骤包括:

S102a11:将THCHS30数据集中数据整合为tfrecords文件,文件中的目标类语音数据被标记成wav类;

S102a12:确定生成对抗网络的优化器,同时将tfrecords文件目标类语音从tfrecords文件中读取出来;

S102a13:改变目标类语音幅值大小,同时对其实施0.9~1范围内的预加重;

S102a14:将目标类语音放入队列,每次取出所需的目标类语音与由程序生成的随机噪声的批次。

应理解的,优化器的作用:用来更新和计算影响模型训练和模型输出的网络参数,使其逼近或达到最优值。

示例性的,所述S102a11步骤中,tfrecords文件内数据类型为int型,数据大小范围为-32767~32767,输入数据集采样率为16KHZ,所以设定每个数据尺寸为16384,但是每个数据尺寸不限于此,可根据数据采样率自行调整。

示例性的,所述S102a12步骤中,确定优化器为RMSProp。

应理解的,将随机噪声与干净语音幅值范围变为-1~1,以防止梯度爆炸等问题,实施0.95的预加重,来使其高频特性有更好的表现。

示例性的,所述S102a14步骤中,批大小为150,16384个采样点数据。

随机噪声z输入训练好的生成器,通过生成器生成类语音信号,过程如下:

1、读取随机噪声文件,判断采样率是否为16KHz。如果是,则进入下一步;如果不是,则结束;

2、配置以训练好模型的权值。

3、将读取的数据大小转变为-1~1。

输入的随机噪声为16Bit的,也就是说输入噪声幅值在-32767~32767之间,将随机噪声除以32767即可将幅值变为-1~1之间。

4、通过python指令确定数据尺寸。

5、以16384为间隔将数据送入生成器,将生成结果保存。

每次输入16384个样本点,在16Khz采样率条件下16384个样点约等于一秒。

6、将保存的数据写入wav文件。

本申请基于生成对抗网络,由程序定义一段随机噪声通过生成器多层卷积神经网络转换为干扰语音(类语音)输出,鉴别器的输入为生成器生成的类语音和由已知数据集中的数据组成目标类语音信号,鉴别器通过多层卷积神经网络判定输入为目标类信号的概率,通过生成器与鉴别器的相互博弈可以提升生成器生成的类语音逼近目标信号的能力,此方法所得到的掩蔽信号比传统掩蔽信号自然度更高、更流畅,进一步提高了干扰语音的迷惑性,从而提高会议室的保密安全性。

本申请通过生成对抗网络技术,对输入的干净语音信号通过生成器多层卷积神经网络转换为类语音输出,鉴别器的输入为生成器生成的干扰语音和目标信号,鉴别器通过多层卷积神经网络判定输入为目标信号的概率,通过生成器与鉴别器的相互博弈可以提升生成器逼近目标信号的能力。需要注意的是,本申请所述生成对抗性网络不仅包括实例中卷积神经网络,同时也应包括全卷积神经网络、循环神经网络等。

实施例二

本实施例提供了基于生成对抗网络的语音私密度掩蔽信号生成系统;

基于生成对抗网络的语音私密度掩蔽信号生成系统,包括:

生成模块,其被配置为:生成随机噪声信号;

输出模块,其被配置为:将随机噪声信号输入到训练后的生成对抗网络中,训练后的生成对抗网络的生成器,生成保护语音私密度的掩蔽信号。

此处需要说明的是,上述生成模块和输出模块对应于实施例一中的步骤S101至S102,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。

实施例三

本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。

应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。

在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。

本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

实施例四

本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:空间声场矢量声主动控制方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!