一种拼接语音的鉴别方法、装置、电子设备及存储介质

文档序号：116974 发布日期：2021-10-19 浏览：20次 >En<

阅读说明：本技术 一种拼接语音的鉴别方法、装置、电子设备及存储介质 (Spliced voice identification method and device, electronic equipment and storage medium ) 是由孟凡芹郑榕邓菁于 2021-09-14 设计创作，主要内容包括：本申请提供了一种拼接语音的鉴别方法、装置、电子设备及存储介质,将获取到的待鉴别语音裁剪为多个待鉴别语音段；通过待鉴别语音段融合语音特征和拼接语音鉴别模型中,确定每个待鉴别语音段的语音段类型；对待鉴别语音进行平滑处理,确定是否为拼接语音,当为拼接语音时,基于包括的目标合并拼接语音段的数量,以及每个目标合并拼接语音段在待鉴别语音中的相对位置,确定拼接语音的语音拼接点数量以及语音拼接位置。这样,本申请基于对待鉴别语音段的融合语音特征进行识别,以及通过平滑处理确定待鉴别语音是否为拼接语音,并通过平滑处理后确定出的目标合并拼接语音段确定拼接语音的拼接点数量以及拼接位置,从而提高语音鉴别的准确度和精细度。(The application provides a method and a device for identifying spliced voice, electronic equipment and a storage medium, wherein the obtained voice to be identified is cut into a plurality of voice sections to be identified; determining the voice segment type of each voice segment to be identified through the voice segment to be identified fusion voice characteristics and the spliced voice identification model; and smoothing the voice to be identified, determining whether the voice is spliced voice, and if the voice is spliced voice, determining the number of voice splicing points and the voice splicing position of the spliced voice based on the number of target combined spliced voice segments and the relative position of each target combined spliced voice segment in the voice to be identified. Like this, this application is based on treating the integration pronunciation characteristic of distinguishing the pronunciation section and discerning to and confirm whether to wait to distinguish the pronunciation for the concatenation pronunciation through smooth processing, and merge the concatenation pronunciation section through the target that determines behind the smooth processing and confirm the concatenation point number and the concatenation position of concatenation pronunciation, thereby improve the degree of accuracy and the fineness of pronunciation differentiation.)

技术领域

本申请涉及语音识别技术领域，尤其是涉及一种拼接语音的鉴别方法、装置、电子设备及存储介质。

背景技术

随着社会的不断进步与科技的不断发展，人们可以使用手机、录音笔、摄像机等设备便利地获取语音资料，与此同时，很多针对语音编辑的软件能够方便地对语音进行剪切、复制、粘贴等拼接伪造操作。在一些民事诉讼案件中，录音证据成为了证据链中的重要一环。但是很多语音进行拼接之后，其真实性与完整性不易判断。在语音取证中，鉴别一段语音材料是否经过拼接处理，已经成为了语音取证中的热点问题。

现有的针对拼接方式伪造生成的语音鉴别方法一般仅能识别出待鉴别语音是否为拼接语音，但是对于拼接数量、拼接位置以及拼接类型并不能准确识别出来。

发明内容

有鉴于此，本申请的目的在于提供一种拼接语音的鉴别方法、装置电子设备及存储介质，根据待鉴别语音段的融合语音特征，确定待鉴别语音段是否为拼接语音段，对具有拼接语音段的待鉴别语音进行平滑处理，确定待鉴别语音段中是否包含有目标合并拼接语音段，从而确定是否为拼接语音，以及基于目标合并拼接语音段确定拼接语音的语音拼接点数量以及拼接位置，进而提高拼接语音鉴别的准确度和精细度。

本申请实施例提供了一种拼接语音的鉴别方法，所述鉴别方法包括：

将获取到的待鉴别语音裁剪为多个待鉴别语音段；

针对于每个待鉴别语音段，从该待鉴别语音段中提取出用于表示该待鉴别语音段特性的融合语音特征；

将所述融合语音特征输入至预先训练好的拼接语音鉴别模型中，确定该待鉴别语音段的语音段类型；

当任意一待鉴别语音段的语音段类型指示该待鉴别语音段为拼接语音段时，对所述待鉴别语音包括的所有待鉴别语音段进行平滑处理，确定经过平滑处理后的所述待鉴别语音是否包括目标合并拼接语音段；

当所述待鉴别语音包括目标合并拼接语音段时，确定所述待鉴别语音的语音类型为拼接语音，并获取经过平滑处理后生成的至少一个目标合并拼接语音段；

基于所述拼接语音中目标合并拼接语音段的数量，确定所述拼接语音的语音拼接点数量，基于所述拼接语音中目标合并拼接语音段在所述拼接语音中的相对位置，确定所述拼接语音的语音拼接位置。

可选的，所述将获取到的待鉴别语音裁剪为多个待鉴别语音段，包括：

根据预设的裁剪窗口的窗长和窗移，按照时间顺序，使用所述裁剪窗口按照所述窗移在所述待鉴别语音上移动，并将每次移动位于所述裁剪窗口的语音进行裁剪，裁剪出多个待鉴别语音段。

可选的，所述语音段类型包括：自然语音段以及拼接语音段；

所述拼接语音段包括同源拼接语音段以及异源拼接语音段。

可选的，所述语音类型包括自然语音以及拼接语音；

所述拼接语音包括同源拼接语音、异源拼接语音以及混合拼接语音。

可选的，所述将所述融合语音特征输入至预先训练好的拼接语音鉴别模型中，确定该待鉴别语音段的语音段类型，包括：

针对于所述待鉴别语音中的每个待鉴别语音段，将该待鉴别语音段的融合语音特征输入至预先训练好的语音鉴别模型中，确定该待鉴别语音段属于每种语音段类型的概率；

将该待鉴别语音段属于每种语音段类型的概率的最大值对应的语音段类型，确定为该待鉴别语音段所属语音段类型。

可选的，所述当任意一待鉴别语音段的语音段类型指示该待鉴别语音段为拼接语音段时，对所述待鉴别语音进行平滑处理，确定所述待鉴别语音是否包括目标合并拼接语音段，包括：

按照时间顺序将所述多个待鉴别语音段划分为至少一个待鉴别语音段组；其中，待鉴别语音段组中包括预设第一数量的待鉴别语音段，所述预设第一数量的待鉴别语音段为时间连续的待鉴别语音段；

针对于每个待鉴别语音段组，根据该待鉴别语音段组中每个待鉴别语音段的语音段类型，确定该待鉴别语音段组的拼接类型；

当该待鉴别语音段组的拼接类型为连续拼接时，将该待鉴别语音段组中的预设第一数量的待鉴别语音段合并生成一个合成语音段，确定该合成语音段为目标合并拼接语音段；

当所述待鉴别语音包括的任一待鉴别语音段组的拼接类型为连续拼接时，确定所述待鉴别语音包括目标合并拼接语音段。

可选的，所述针对于每个待鉴别语音段组，根据该待鉴别语音段组中每个待鉴别语音段的语音段类型，确定该待鉴别语音段组的拼接类型，包括：

当待鉴别语音组中连续的拼接语音段的数量超过预设第二数量时，将该待鉴别语音组的拼接类型确定为连续拼接。

可选的，所述基于所述拼接语音中目标合并拼接语音段的数量，确定所述拼接语音的语音拼接点数量，基于所述拼接语音中目标合并拼接语音段在所述拼接语音中的相对位置，确定所述拼接语音的语音拼接位置，包括：

将所述拼接语音包括的目标合并拼接语音段的总数量确定为所述拼接语音的语音拼接点数量；

根据所述拼接语音与每个目标合并拼接语音段之间的映射关系，确定每个目标合并拼接语音段的中间位置在所述待鉴别语音中的映射位置；

将每个目标合并拼接语音段的映射位置确定为所述待鉴别语音的语音拼接位置。

可选的，通过以下方法构建拼接语音鉴别模型：

获取由自然语音、同源拼接语音以及异源拼接语音中构成的语音训练样本集；所述语音训练样本集中的每个语音训练样本的帧数相同，即样本长度相同；

针对于所述语音训练样本集中的每个语音训练样本，采用多种语音特征提取方法对该语音训练样本进行语音特征提取，获得该语音训练样本的多种语音特征；

针对于所述语音训练样本集中的每个语音训练样本，基于Fisher准则以及该语音训练样本的多种语音特征，确定该语音训练样本的融合语音特征；

使用所述语音训练样本集中的每个语音训练样本的融合语音特征，对预设神经网络进行迭代训练，生成拼接语音鉴别模型。

可选的，所述预设神经网络中包括LCNN子网络和GRU子网络，所述LCNN子网络的激活函数为CELU函数。

本申请实施例还提供了一种拼接语音的鉴别装置，所述鉴别装置包括：

裁剪模块，用于将获取到的待鉴别语音裁剪为多个待鉴别语音段；

提取模块，用于针对于每个待鉴别语音段，从该待鉴别语音段中提取出用于表示该待鉴别语音段特性的融合语音特征；

语音段鉴别模块，用于将所述融合语音特征输入至预先训练好的拼接语音鉴别模型中，确定该待鉴别语音段的语音段类型；

平滑处理模块，用于当任意一待鉴别语音段的语音段类型指示该待鉴别语音段为拼接语音段时，对所述待鉴别语音包括的所有待鉴别语音段进行平滑处理，确定经过平滑处理后的所述待鉴别语音是否包括目标合并拼接语音段；

获取模块，用于当所述待鉴别语音包括目标合并拼接语音段时，确定所述待鉴别语音的语音类型为拼接语音，并获取经过平滑处理后生成的至少一个目标合并拼接语音段；

拼接点鉴别模块，用于基于所述拼接语音中目标合并拼接语音段的数量，确定所述拼接语音的语音拼接点数量，基于所述拼接语音中目标合并拼接语音段在所述拼接语音中的相对位置，确定所述拼接语音的语音拼接位置。

可选的，所述裁剪模块在用于将获取到的待鉴别语音裁剪为多个待鉴别语音段时，所述裁剪模块用于：

可选的，所述语音段类型包括：自然语音段以及拼接语音段；

所述拼接语音段包括同源拼接语音段以及异源拼接语音段。

可选的，所述语音类型包括自然语音以及拼接语音；

所述拼接语音包括同源拼接语音、异源拼接语音以及混合拼接语音。

可选的，所述语音段鉴别模块在用于将所述融合语音特征输入至预先训练好的拼接语音鉴别模型中，确定该待鉴别语音段的语音段类型时，所述语音段鉴别模块用于：

将该待鉴别语音段属于每种语音段类型的概率的最大值对应的语音段类型，确定为该待鉴别语音段所属语音段类型。

可选的，所述平滑处理模块在用于当任意一待鉴别语音段的语音段类型指示该待鉴别语音段为拼接语音段时，对所述待鉴别语音进行平滑处理，确定所述待鉴别语音是否包括目标合并拼接语音段时，所述平滑处理模块用于：

针对于每个待鉴别语音段组，根据该待鉴别语音段组中每个待鉴别语音段的语音段类型，确定该待鉴别语音段组的拼接类型；

当所述待鉴别语音包括的任一待鉴别语音段组的拼接类型为连续拼接时，确定所述待鉴别语音包括目标合并拼接语音段。

可选的，所述平滑处理模块在用于针对于每个待鉴别语音段组，根据该待鉴别语音段组中每个待鉴别语音段的语音段类型，确定该待鉴别语音段组的拼接类型时，所述平滑处理模块用于：

当待鉴别语音组中连续的拼接语音段的数量超过预设第二数量时，将该待鉴别语音组的拼接类型确定为连续拼接。

可选的，所述拼接点鉴别模块在用于基于所述拼接语音中目标合并拼接语音段的数量，确定所述拼接语音的语音拼接点数量，基于所述拼接语音中目标合并拼接语音段在所述拼接语音中的相对位置，确定所述拼接语音的语音拼接位置时，所述拼接点鉴别模块用于：

将所述拼接语音包括的目标合并拼接语音段的总数量确定为所述拼接语音的语音拼接点数量；

根据所述拼接语音与每个目标合并拼接语音段之间的映射关系，确定每个目标合并拼接语音段的中间位置在所述待鉴别语音中的映射位置；

将每个目标合并拼接语音段的映射位置确定为所述待鉴别语音的语音拼接位置。

可选的，所述鉴别装置还包括模型构建模块，所述模型构建模块用于：

获取由自然语音、同源拼接语音以及异源拼接语音中构成的语音训练样本集；所述语音训练样本集中的每个语音训练样本的帧数相同；

针对于所述语音训练样本集中的每个语音训练样本，基于Fisher准则以及该语音训练样本的多种语音特征，确定该语音训练样本的融合语音特征；

使用所述语音训练样本集中的每个语音训练样本的融合语音特征，对预设神经网络进行迭代训练，生成拼接语音鉴别模型。

可选的，所述预设神经网络中包括LCNN子网络和GRU子网络，所述LCNN子网络的激活函数为CELU函数。

本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的拼接语音的鉴别方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的拼接语音的鉴别方法的步骤。

本申请提供了一种拼接语音的鉴别方法、装置、电子设备及存储介质，所述鉴别方法包括：将获取到的待鉴别语音裁剪为多个待鉴别语音段；针对于每个待鉴别语音段，从该待鉴别语音段中提取出用于表示该待鉴别语音段特性的融合语音特征；将所述融合语音特征输入至预先训练好的拼接语音鉴别模型中，确定该待鉴别语音段的语音段类型；当任意一待鉴别语音段的语音段类型指示该待鉴别语音段为拼接语音段时，对所述待鉴别语音包括的所有待鉴别语音段进行平滑处理，确定经过平滑处理后的所述待鉴别语音是否包括目标合并拼接语音段；当所述待鉴别语音包括目标合并拼接语音段时，确定所述待鉴别语音的语音类型为拼接语音，并获取经过平滑处理后生成的至少一个目标合并拼接语音段；基于所述拼接语音中目标合并拼接语音段的数量，确定所述拼接语音的语音拼接点数量，基于所述拼接语音中目标合并拼接语音段在所述拼接语音中的相对位置，确定所述拼接语音的语音拼接位置。

这样，本申请通过将语音训练样本的语音帧数固定，提高了拼接语音的拼接点的覆盖范围；并通过将语音训练样本细分为自然语音、同源拼接和异源拼接，对所有语音训练样本提取多种语音特征并进行融合，以及采用LCNN和GRU组合神经网络进行模型训练，得到可识别多种语音类型的语音鉴别模型；通过采用滑窗鉴别的方式进行语音鉴别，可以确定拼接语音的语音拼接点数量以及拼接位置；通过对语音段进行平滑处理，可以有效的提高鉴别拼接语音的语音拼接点数量以及拼接位置的准确度。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种拼接语音的鉴别方法的流程图；

图2为本申请实施例提供的拼接语音鉴别模型的构建方法的流程图；

图3为本申请实施例所提供的一种拼接语音的鉴别装置的结构示意图之一；

图4为本申请实施例所提供的一种拼接语音的鉴别装置的结构示意图之二；

图5为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

基于此，本申请实施例提供了一种拼接语音的鉴别方法，基于提取的融合语音特征，对待鉴别语音中每个语音段进行精细识别，从而可以实现对待鉴别语音是否为拼接语音，以及为拼接语音时拼接点数量以及拼接位置的精准鉴别，进而提高了鉴别的准确度。

请参阅图1，图1为本申请实施例所提供的一种拼接语音的鉴别方法的流程图。如图1中所示，本申请实施例提供的拼接语音的鉴别方法，包括：

S101、将获取到的待鉴别语音裁剪为多个待鉴别语音段。

该步骤中，将需要鉴别是否为拼接语音的语音确定为待鉴别语音，可以从各种语音环境中获取待鉴别语音；对于获取的待鉴别语音，使用预先设定的语音裁剪窗口，对待鉴别语音进行裁剪，得到该待鉴别语音的多个待鉴别语音段。

可选的，所述将获取到的待鉴别语音裁剪为多个待鉴别语音段，包括：根据预设的裁剪窗口的窗长和窗移，按照时间顺序，使用所述裁剪窗口按照所述窗移在所述待鉴别语音上移动，并将每次移动位于所述裁剪窗口的语音进行裁剪，裁剪出多个待鉴别语音段。

该步骤中，预设语音裁剪规则中设定语音裁剪窗口，同时设定裁剪窗口的窗长和窗移；按照待鉴别语音播放的时间顺序，按照设定的窗移，使用裁剪窗口在待鉴别语音上移动，将每次移动位于裁剪窗口的语音进行裁剪处理，裁剪出待鉴别语音的多个待鉴别语音段。

这里，裁剪窗口的窗长设定是由生成拼接语音鉴别模型的语音训练样本的语音帧数决定的，两者长度相同。其中，窗移的长度小于窗长的长度；连续两个待鉴别语音段存在重叠语音。

示例的，当裁剪窗口的窗长设定为N帧时，对应的窗移长度可以选N/2~N/4之间的某个长度。

S102、针对于每个待鉴别语音段，从该待鉴别语音段中提取出用于表示该待鉴别语音段特性的融合语音特征。

该步骤中，得到待鉴别语音的多个待鉴别语音段后，针对于每个待鉴别语音段，使用多种语音特征方式提取该待鉴别语音段的语音特征，提取出该待鉴别语音的多种语音特征，然后使用该待鉴别语音段的多种语音特征进行融合，得到该待鉴别语音段的融合语音特征。

这里，使用该待鉴别语音段的多种语音特征进行融合，得到该待鉴别语音段的融合语音特征时，针对该待鉴别语音段的每种语音特征基于Fisher准则，确定该种语音特征中每一维分量的Fisher比，将该种语音特征Fisher比大的前预设维数的分量保留，将该待鉴别语音段的每种语音特征的前预设维数分量的特征进行融合，得到该待鉴别语音段的融合语音特征。

其中，多种语音特征可以包括但不限于MFCC特征、LPCC特征以及STFT特征等，前预设维数的选择与语音训练样本的语音特征维数相同，并且每种语音特征的维数是相同的。

S103、将所述融合语音特征输入至预先训练好的拼接语音鉴别模型中，确定该待鉴别语音段的语音段类型。

该步骤中，提取出任意一个待鉴别语音段的融合语音特征后，将该待鉴别语音的融合语音特征向量输入至预先训练好的拼接语音鉴别模型中，拼接语音鉴别模型基于输入的融合语音特征对该待鉴别语音段进行是否为拼接语音段的鉴别，确定该待鉴别语音段所属的语音段类型。

可选的，所述语音段类型包括：自然语音段以及拼接语音段；所述拼接语音段包括同源拼接语音段以及异源拼接语音段。

这里，自然语音段是为未经人工改变、直接由真人发出的语音；拼接语音段为拼接伪造语音段，也是合成伪造语音段；同源拼接语音段是指使用同一音频采集设备不同时间采集的语音拼接形成的；异源拼接语音段是指使用不同音频采集设备不同时间采集的语音拼接形成的。其中，拼接语音段还可以包括其他类型的拼接语音，在此不作限定。

可选的，所述将所述融合语音特征输入至预先训练好的拼接语音鉴别模型中，确定该待鉴别语音段的语音段类型，包括：针对于所述待鉴别语音中的每个待鉴别语音段，将该待鉴别语音段的融合语音特征输入至预先训练好的语音鉴别模型中，确定该待鉴别语音段属于每种语音段类型的概率；将该待鉴别语音段属于每种语音段类型的概率的最大值对应的语音段类型，确定为该待鉴别语音段所属语音段类型。

该步骤中，使用拼接语音鉴别模型鉴别待鉴别语音段所属的语音段类型的具体步骤为：针对待鉴别语音裁剪出的每个待鉴别语音段，将该待鉴别语音段的融合语音特征输入至预先训练好的语音鉴别模型中，由语音鉴别模型基于该待鉴别语音段的融合语音特征，判断该待鉴别语音段属于自然语音段、同源拼接语音段、异源拼接语音段等每种语音段类型的概率，可以确定出多个概率值，最后将概率值最大的语音段类型确定为待鉴别语音段所属的语音段类型。

示例的，假设通过语音鉴别模型识别待鉴别语音段属于自然语音段的概率为0.1，属于同源拼接语音段的概率为0.6，属于异源拼接语音段的概率为0.8，则该待鉴别语音段属于异源拼接语音段。

可选的，请参阅图2，图2为本申请实施例提供的拼接语音鉴别模型的构建方法的流程图。如图2中所示，本申请实施例提供的拼接语音鉴别模型的构建方法，包括：

S201、获取由自然语音、同源拼接语音以及异源拼接语音中构成的语音训练样本集；所述语音训练样本集中的每个语音训练样本的帧数相同。

该步骤中，通过以下步骤获取语音训练样本集：获取多用户的多条原始语音，按照预设要求，从多条原始语音中裁剪出多条长度相同的语音；从裁剪出的多条语音中选择部分语音作为语音训练样本集的自然语音；再从裁剪出的多条语音中将同一个人的语音按照设备来源进行同源和异源进行拼接，然后保留含有一个拼接点的拼接语音，并将拼接语音裁剪成与自然语音帧数相同的拼接语音，得到同源拼接语音和异源拼接语音。其中，同源拼接语音和异源拼接语音中的拼接点的位置在拼接语音片段的位置是随机的。

这里，语音训练样本是指自然语音、同源拼接语音以及异源拼接语音中的任一语音，并且语音训练样本的帧数选择可以由研究人员根据研究需求自主选定，语音训练样本的帧数与S101中待鉴别语音段的帧数相同。

S202、针对于所述语音训练样本集中的每个语音训练样本，采用多种语音特征提取方法对该语音训练样本进行语音特征提取，获得该语音训练样本的多种语音特征。

该步骤中，用于构建拼接语音鉴别模型的语音训练样本集确定好后，针对训练集中的每个语音训练样本，均采用多种语音特征提取方法，提取该语音训练样本的多种语音特征。

这里，多种语音特征包括不限于MFCC、LPCC、STFT等多种特征。

S203、针对于所述语音训练样本集中的每个语音训练样本，基于Fisher准则以及该语音训练样本的多种语音特征，确定该语音训练样本的融合语音特征。

该步骤中，获取每个语音训练样本的多种语音特征后，针对于每个语音训练样本，基于Fisher准则的计算公式确定出的每种语音特征中的每维特征分量的Fisher比，对该语音训练样本中的任一种语音特征选择最优的前预设数量维度的特征分量，然后将每种语音特征的特征分量融合，确定该语音训练样本的融合语音特征。

这里，Fisher比的计算公式如下：

其中，是特征分量的Fisher比，表示特征分量的类间离散度，表示特征分量的类内离散度。这里的类别指代自然语音和多种拼接方式（同源和异源）形成的多类语音。

其中，特征分量的类间离散度和特征分量的类内离散度的计算公式分别为：

第一个公式中：表示特征分量的类间离散度，即不同语音特征分量均值的离散度，反应了不同语音训练样本之间的差异程度；M代表所有类的语音训练样本的总数，每一类语音含有多个样本，代表某一类语音i的所有训练样本特征的第k维特征分量的均值，代表所有语音样本特征的第K维分量的均值。

第二个公式中，表示特征分量的类内离散度，即同一类语音特征分量的离散度的均值，M代表所有类的语音训练样本的总数，代表某一类语音i的样本数，代表语音i所有训练样本特征的第k维特征分量的均值；代表语音i训练样本的第j段语音的第k维特征分量参数。

示例的，针对于语音训练样本集中的每个语音训练样本，假设提取该语音训练样本MFCC、LPCC、STFT等Q种特征，每一种特征中具有L维特征分量，基于Fisher比计算公式，计算该语音训练样本的任一种特征的L维特征分量中的每维特征分量的值，取值最大的前K维特征分量，然后进行融合，得到该语音训练样本的Q*K维融合语音特征。

S204、使用所述语音训练样本集中的每个语音训练样本的融合语音特征，对预设神经网络进行迭代训练，生成拼接语音鉴别模型。

该步骤中，提取出每个语音训练样本的融合特征后，将每个语音训练样本的融合语音特征作为输入，将每个语音训练样本对应的自然语音标签或同源拼接语音标签或异源拼接语音标签作为输出，对预设神经网络进行迭代训练，生成拼接语音鉴别模型。

可选的，所述预设神经网络中包括LCNN和GRU，所述LCNN子网络的激活函数为CELU函数。这里，预设神经网络中包含5层卷积层，5层MaxPooling，3层BatchNorm，1层AdaptiveAvgPool，激活函数为CELU，1层GRU，1层DropOut，最后1层全连接进行分类。

这里，在对预设神经网络进行迭代训练时，语音训练样本的融合语音特征先输入至LCNN网络，LCNN输出的高级特征作为GRU的输入，GRU进行特征选择，然后输出，连接全连接进行分类。目前一般的LCNN网络使用的激活函数为MFM（最大特征图），由于此函数对输入的特征进行了选择和降纬，导致网络过拟合，因此本发明将激活函数替换为CELU。CELU能够使系统的平均输出为零，并且没有特征选择，从而在提高模型收敛速度的同时可以避免过拟合。目前一般的模型只使用了LCNN或者GRU一种网络，而本发明则组合使用了这两种网络，LCNN利用其时间和空间上的平移不变性有效的捕捉帧级数据的特征信息，GRU则用于学习后续高级特征的长期依赖关系，捕捉拼接语音在频域上的高阶相关性。因此LCNN和GRU的组合能够充分捕捉对自然语音和拼接语音在空间和时间上的差异，进行更准确的分类。CELU函数公式如下，其中α是一个可学习的参数。

S104、当任意一待鉴别语音段的语音段类型指示该待鉴别语音段为拼接语音段时，对所述待鉴别语音包括的所有待鉴别语音段进行平滑处理，确定经过平滑处理后的所述待鉴别语音是否包括目标合并拼接语音段。

该步骤中，通过拼接语音鉴别模型鉴别待鉴别语音的待鉴别语音段识别完成后，当识别出待鉴别语音的存在任意一个拼接语音段时，则对待鉴别语音包括的所有待鉴别语音段进行平滑处理，确定经过平滑处理后，该待鉴别语音段是否包括目标合并拼接语音段。这里，目标合并拼接语音段是确定待鉴别语音是否为拼接语音的决定因素。

需要说明的是，对待鉴别语音进行平滑处理的目的，是为了尽可能减少把自然语音识别为拼接语音的误识别情况的发生。

可选的，所述当任意一待鉴别语音段的语音段类型指示该待鉴别语音段为拼接语音段时，对所述待鉴别语音进行平滑处理，确定所述待鉴别语音是否包括目标合并拼接语音段，包括：按照时间顺序将所述多个待鉴别语音段划分为至少一个待鉴别语音段组；其中，待鉴别语音段组中包括预设第一数量的待鉴别语音段，所述预设第一数量的待鉴别语音段为时间连续的待鉴别语音段；针对于每个待鉴别语音段组，根据该待鉴别语音段组中每个待鉴别语音段的语音段类型，确定该待鉴别语音段组的拼接类型；当该待鉴别语音段组的拼接类型为连续拼接时，将该待鉴别语音段组中的预设第一数量的待鉴别语音段合并生成一个合成语音段，确定该合成语音段为目标合并拼接语音段；当所述待鉴别语音包括的任一待鉴别语音段组的拼接类型为连续拼接时，确定所述待鉴别语音包括目标合并拼接语音段。

该步骤中，识别待鉴别语音包括的待鉴别语音段的语音段类型后，当任一待鉴别语音段为拼接语音段时，需要对待鉴别语音进行平滑处理，以确定待鉴别语音中是否包括有目标合并拼接语音段，对待鉴别语音进行平滑处理的具体步骤如下：

首先，根据待鉴别语音对应的时间顺序，将每N个连续的待鉴别语音段化为一组，得到一个待鉴别语音段组。这里，N为第一数量，N可以根据需求进行适用性选择。

其中，最后一个待鉴别语音段组中的包含的待鉴别语音段的数量可以小于N。

示例的，假设待鉴别语音有9个待鉴别语音段，取第一数量为3，则第1-3个待鉴别语音段组成一个待鉴别语音段组，则第4-6个待鉴别语音段组成一个待鉴别语音段组，则第7-9个待鉴别语音段组成一个待鉴别语音段组。需要说明的是，待鉴别语音中的待鉴别语音段的数量往往远大于9。

然后，确定出多个待鉴别语音段组后，针对每个待鉴别语音段组，根据待鉴别语音段组的包括的每个待鉴别语音段的语音段类型以及位置，可以确定出待鉴别语音段组的拼接类型。

可选的，所述针对于每个待鉴别语音段组，根据该待鉴别语音段组中每个待鉴别语音段的语音段类型，确定该待鉴别语音段组的拼接类型，包括：当待鉴别语音组中连续的拼接语音段的数量超过预设第二数量时，将该待鉴别语音组的拼接类型确定为连续拼接。当待鉴别语音组中连续的拼接语音段的数量未超过预设第二数量时，将该待鉴别语音组的拼接类型确定为非连续拼接。

通过以下示例，对该步骤进行示例性说明。假设第一数量为3，第二数量为2，待鉴别语音组有第一待鉴别语音段、第二待鉴别语音段以及第三待鉴别语音段。当第一待鉴别语音段以及第二待鉴别语音段为拼接语音段，第三待鉴别语音段为自然语音段时，该待鉴别语音段组为连续拼接；当第二待鉴别语音段以及第三待鉴别语音段为拼接语音段，第一待鉴别语音段为自然语音段时，该待鉴别语音段组为连续拼接；当第一待鉴别语音段、第二待鉴别语音段以及第三待鉴别语音段均为拼接语音段时，该待鉴别语音段组为连续拼接；其余情况，该待鉴别语音段组为非连续拼接，并且将该待鉴别语音段组中的所有待鉴别语音段都认为是自然语音段。

再然后，如果确定出待鉴别语音段组的拼接类型为连续拼接，则将该待鉴别语音段组中包括的所有待鉴别语音段按照时间顺序合成一个语音段，生成合成语音段，该合成语音段即为拼接语音的目标合并拼接语音段；如果定出待鉴别语音段组的拼接类型为非连续拼接，则将该待鉴别语音段组合并为自然语音段。

示例的，假设待鉴别语音组有第一待鉴别语音段、第二待鉴别语音段以及第三待鉴别语音段。当第一待鉴别语音段以及第二待鉴别语音段为拼接语音段，第三待鉴别语音段为自然语音段时，该待鉴别语音段组为连续拼接，则将第一待鉴别语音段、第二待鉴别语音段以及第三待鉴别语音段按时间顺序合成一个语音段，该语音段则为目标合并拼接语音段；当第一待鉴别语音段以及第三待鉴别语音段为拼接语音段，第二待鉴别语音段为自然语音段时，该待鉴别语音段组为非连续拼接，则第一待鉴别语音段至第三待鉴别语音段按时间顺序合并成一个语音段，将合并后的语音段确定为自然语音段。

需要说明的是，第二数量可以根据需要进行适用性选择，且第二数量应不大于第一数量。

最后，如果待鉴别语音包括的任意一个待鉴别语音段组的拼接类型为连续拼接时，则确定该待鉴别语音中包括有目标合并拼接语音段。

S105、当所述待鉴别语音包括目标合并拼接语音段时，确定所述待鉴别语音的语音类型为拼接语音，并获取经过平滑处理后生成的至少一个目标合并拼接语音段。

该步骤中，通过平滑处理后，确定待鉴别语音中包括目标合并拼接语音段时，则将待鉴别语音的语音类型确定为拼接语音，即该待鉴别语音为拼接语音。为了准确的确定拼接语音的拼接语音拼接点和拼接位置，同时获取经过平滑处理后待鉴别语音包括的所有目标合并拼接语音段。这里，待鉴别语音包括的目标合并拼接语音段的数量一定大于1，目标合并拼接语音段最终用于确定拼接语音拼接点和拼接位置的语音段。

可选的，所述语音类型包括自然语音以及拼接语音；所述拼接语音包括同源拼接语音、异源拼接语音以及混合拼接语音。

这里，同源拼接是指将同一音频采集设备在不同时间采集到同一人的语音，采用人工手段拼接在一起的语音，其中包含的拼接语音段只有同源拼接语音段；异源拼接是指将不同音频采集设备在不同/相同时间采集到同一人的语音，采用人工手段拼接在一起的语音，其中包含的拼接语音段只有异源拼接语音段；混合拼接语音是指包含的拼接语音段既有异源拼接语音段、又有同源拼接语音段。

S106、基于所述拼接语音中目标合并拼接语音段的数量，确定所述拼接语音的语音拼接点数量，基于所述拼接语音中目标合并拼接语音段在所述拼接语音中的相对位置，确定所述拼接语音的语音拼接位置。

该步骤中，确定出待鉴别语音为拼接语音时，将该待鉴别语音中包含的所有目标合并拼接语音段的总数量，确定拼接语音包含的语音拼接点的数量，基于每个目标合并拼接语音段的中间位置在拼接语音中的位置，确定拼接语音的语音拼接位置。

可选的，所述基于所述拼接语音中目标合并拼接语音段的数量，确定所述拼接语音的语音拼接点数量，基于所述拼接语音中目标合并拼接语音段在所述拼接语音中的相对位置，确定所述拼接语音的语音拼接位置，包括：将所述拼接语音包括的目标合并拼接语音段的总数量确定为所述拼接语音的语音拼接点数量；根据所述拼接语音与每个目标合并拼接语音段之间的映射关系，确定每个目标合并拼接语音段的中间位置在所述待鉴别语音中的映射位置；将每个目标合并拼接语音段的映射位置确定为所述待鉴别语音的语音拼接位置。

这里，每个目标合并拼接语音段均是从拼接语音中裁剪出来的，每个目标合并拼接语音段的中间位置在拼接语音中均具有对应的映射位置。

示例的，确定待鉴别语音为拼接语音后，该拼接语音中包含3个目标合并拼接语音段，则该拼接语音中包含3个语音拼接点以及3个语音拼接位置。

本申请提供了一种拼接语音的鉴别方法，所述鉴别方法包括：将获取到的待鉴别语音裁剪为多个待鉴别语音段；针对于每个待鉴别语音段，从该待鉴别语音段中提取出用于表示该待鉴别语音段特性的融合语音特征；将所述融合语音特征输入至预先训练好的拼接语音鉴别模型中，确定该待鉴别语音段的语音段类型；当任意一待鉴别语音段的语音段类型指示该待鉴别语音段为拼接语音段时，确定所述待鉴别语音的语音类型为拼接语音；当所述待鉴别语音为拼接语音时，对所述拼接语音进行平滑处理，确定所述拼接语音包括的目标合并拼接语音段；基于所述拼接语音中目标合并拼接语音段的数量，确定所述拼接语音的语音拼接点数量，基于所述拼接语音中目标合并拼接语音段在所述拼接语音中的相对位置，确定所述拼接语音的语音拼接位置。

请参阅图3、图4，图3为本申请实施例所提供的一种拼接语音的鉴别装置的结构示意图之一，图4为本申请实施例所提供的一种拼接语音的鉴别装置的结构示意图之二。如图3中所示，所述鉴别装置300包括：

裁剪模块310，用于将获取到的待鉴别语音裁剪为多个待鉴别语音段；

提取模块320，用于针对于每个待鉴别语音段，从该待鉴别语音段中提取出用于表示该待鉴别语音段特性的融合语音特征；

语音段鉴别模块330，用于将所述融合语音特征输入至预先训练好的拼接语音鉴别模型中，确定该待鉴别语音段的语音段类型；

平滑处理模块340，用于当任意一待鉴别语音段的语音段类型指示该待鉴别语音段为拼接语音段时，对所述待鉴别语音包括的所有待鉴别语音段进行平滑处理，确定经过平滑处理后的所述待鉴别语音是否包括目标合并拼接语音段；

获取模块350，用于当所述待鉴别语音包括目标合并拼接语音段时，确定所述待鉴别语音的语音类型为拼接语音，并获取经过平滑处理后生成的至少一个目标合并拼接语音段；

拼接点鉴别模块360，用于基于所述拼接语音中目标合并拼接语音段的数量，确定所述拼接语音的语音拼接点数量，基于所述拼接语音中目标合并拼接语音段在所述拼接语音中的相对位置，确定所述拼接语音的语音拼接位置。

可选的，所述裁剪模块310在用于将获取到的待鉴别语音裁剪为多个待鉴别语音段时，所述裁剪模块310用于：

可选的，所述语音段类型包括：自然语音段以及拼接语音段；

所述拼接语音段包括同源拼接语音段以及异源拼接语音段。

可选的，所述语音类型包括自然语音以及拼接语音；

所述拼接语音包括同源拼接语音、异源拼接语音以及混合拼接语音。

可选的，所述语音段鉴别模块330在用于将所述融合语音特征输入至预先训练好的拼接语音鉴别模型中，确定该待鉴别语音段的语音段类型时，所述语音段鉴别模块330用于：

将该待鉴别语音段属于每种语音段类型的概率的最大值对应的语音段类型，确定为该待鉴别语音段所属语音段类型。

可选的，所述平滑处理模块340在用于当任意一待鉴别语音段的语音段类型指示该待鉴别语音段为拼接语音段时，对所述待鉴别语音进行平滑处理，确定所述待鉴别语音是否包括目标合并拼接语音段时，所述平滑处理模块340用于：

针对于每个待鉴别语音段组，根据该待鉴别语音段组中每个待鉴别语音段的语音段类型，确定该待鉴别语音段组的拼接类型；

当所述待鉴别语音包括的任一待鉴别语音段组的拼接类型为连续拼接时，确定所述待鉴别语音包括目标合并拼接语音段。

可选的，所述平滑处理模块340在用于针对于每个待鉴别语音段组，根据该待鉴别语音段组中每个待鉴别语音段的语音段类型，确定该待鉴别语音段组的拼接类型时，所述平滑处理模块340用于：

当待鉴别语音组中连续的拼接语音段的数量超过预设第二数量时，将该待鉴别语音组的拼接类型确定为连续拼接。

可选的，所述拼接点鉴别模块360在用于基于所述拼接语音中目标合并拼接语音段的数量，确定所述拼接语音的语音拼接点数量，基于所述拼接语音中目标合并拼接语音段在所述拼接语音中的相对位置，确定所述拼接语音的语音拼接位置时，所述拼接点鉴别模块360用于：

将所述拼接语音包括的目标合并拼接语音段的总数量确定为所述拼接语音的语音拼接点数量；

根据所述拼接语音与每个目标合并拼接语音段之间的映射关系，确定每个目标合并拼接语音段的中间位置在所述待鉴别语音中的映射位置；

将每个目标合并拼接语音段的映射位置确定为所述待鉴别语音的语音拼接位置。

可选的，如图4所示，所述鉴别装置300还包括模型构建模块370，所述模型构建模块370用于：

获取由自然语音、同源拼接语音以及异源拼接语音中构成的语音训练样本集；所述语音训练样本集中的每个语音训练样本的帧数相同；

针对于所述语音训练样本集中的每个语音训练样本，基于Fisher准则以及该语音训练样本的多种语音特征，确定该语音训练样本的融合语音特征；

使用所述语音训练样本集中的每个语音训练样本的融合语音特征，对预设神经网络进行迭代训练，生成拼接语音鉴别模型。

可选的，所述预设神经网络中包括LCNN子网络和GRU子网络，所述LCNN子网络的激活函数为CELU函数。

请参阅图5，图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示，所述电子设备500包括处理器510、存储器520和总线530。

所述存储器520存储有所述处理器510可执行的机器可读指令，当电子设备500运行时，所述处理器510与所述存储器520之间通过总线530通信，所述机器可读指令被所述处理器510执行时，可以执行如上述图1以及图2所示方法实施例中的方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

23页详细技术资料下载

一种拼接语音的鉴别方法、装置、电子设备及存储介质

相关技术

网友询问留言