一种声纹模型的确定方法、装置、设备及存储介质

文档序号：1757172 发布日期：2019-11-29 浏览：25次 >En<

阅读说明：本技术 一种声纹模型的确定方法、装置、设备及存储介质 (A kind of determination method, apparatus, equipment and the storage medium of sound-groove model ) 是由殷兵李晋方昕方四安徐承柳林于 2019-09-05 设计创作，主要内容包括：本申请提供了一种声纹模型的确定方法、装置、设备及存储介质,其中,方法包括：获取目标语音的至少一个语谱片段,通过预先建立的声纹提取模型,确定每个语谱片段的至少一个第一特征图,其中,第一特征图中的各特征点相互独立,通过声纹提取模型,确定每个第一特征图对应的、包含其全局信息的第二特征图,获得每个语谱片段的至少一个第二特征图,其中,一个第一特征图对应的第二特征图为对该第一特征图中能够区分声纹的特征区域进行强化后的特征图；至少利用每个语谱片段的至少一个第二特征图,以及声纹提取模型,确定目标语音的声纹模型。本申请提供的声纹模型确定方法能够针对目标语音确定出稳定且精准的声纹模型。(This application provides a kind of determination methods of sound-groove model, device, equipment and storage medium, wherein, method includes: to obtain at least one language spectral slice section of target voice, pass through the voiceprint extraction model pre-established, determine at least one fisrt feature figure of each language spectral slice section, wherein, each characteristic point in fisrt feature figure is mutually indepedent, pass through voiceprint extraction model, determine that each fisrt feature figure is corresponding, second feature figure comprising its global information, obtain at least one second feature figure of each language spectral slice section, wherein, the corresponding second feature figure of one fisrt feature figure is the characteristic pattern after strengthening to the characteristic area that can distinguish vocal print in the fisrt feature figure；At least at least one second feature figure and voiceprint extraction model of each language spectral slice section, the sound-groove model of target voice is determined.Sound-groove model provided by the present application determines that method can determine stabilization and accurately sound-groove model for target voice.)

技术领域

本申请涉及声纹识别技术领域，尤其涉及一种声纹模型的确定方法、装置、设备及存储介质。

背景技术

声纹识别是生物认证领域中的关键技术之一，利用语音信号直接进行身份认证，不仅具有无需记忆、判决简单的特点，而且可以在用户不知情的情况下进行认证，具有较高的用户接受度，其广泛应用在国家安全、金融、智能家居等领域。

需要说明的，声纹识别的关键在于声纹模型的确定。目前，声纹模型主要基于全变量因子分析的方法确定，即利用大量的语料，训练得到覆盖各种环境和信道的全变量空间，通过此空间，将一段语音映射成维度固定统一的声纹模型向量(i-vector)。

在某些应用领域，对于声纹识别的准确度要求较高，这就要求获得稳定、准确的声纹模型，然而，目前的声纹模型确定方案确定的声纹模型不够稳定和准确，这导致声纹识别效果不佳，无法满足某些领域对于声纹识别准确度的要求。

发明内容

有鉴于此，本申请提供了一种声纹模型的确定方法、装置、设备及存储介质，用以解决现有技术中的声纹模型确定方案确定的声纹模型不够稳定和准确的问题，其技术方案如下：

一种声纹模型的确定方法，包括：

获取目标语音的至少一个语谱片段；

通过预先建立的声纹提取模型，确定每个语谱片段的至少一个第一特征图，其中，所述第一特征图中的各特征点相互独立；

通过所述声纹提取模型，确定每个第一特征图对应的、包含其全局信息的第二特征图，获得每个语谱片段的至少一个第二特征图，其中，一个第一特征图对应的第二特征图为对该第一特征图中能够区分声纹的特征区域进行强化后的特征图；

至少利用所述每个语谱片段的至少一个第二特征图，以及所述声纹提取模型，确定所述目标语音的声纹模型。

可选的，所述至少利用所述每个语谱片段的至少一个第二特征图，以及所述声纹提取模型，确定所述目标语音的声纹模型，包括：

利用所述声纹提取模块、所述每个语谱片段的至少一个第一特征图以及所述每个语谱片段的至少一个第二特征图，确定所述目标语音的声纹模型。

可选的，所述利用所述声纹提取模块、所述每个语谱片段的至少一个第一特征图以及所述每个语谱片段的至少一个第二特征图，确定所述目标语音的声纹模型，包括：

对于所述目标语音的任一语谱片段，通过所述声纹提取模型，将该语谱片段的至少一个第一特征图与该语谱片段的至少一个第二特征图进行融合，获得该语谱片段的声纹子模型，以得到所述目标语音每个语谱片段的声纹子模型；

将所述目标语音各个语谱片段的声纹子模型求平均，获得所述目标语音的声纹模型。

可选的，所述通过所述声纹提取模型将该语谱片段的至少一个第一特征图与该语谱片段的至少一个第二特征图进行融合，获得该语谱片段的声纹子模型，包括：

通过所述声纹提取模型将该语谱片段的各个第一特征图拼接成高维列向量，作为该语谱片段的第一高维列向量；

通过所述声纹提取模型将该语谱片段的各个第二特征图拼接成高维向量，作为该语谱片段的第二高维列向量；

通过所述声纹提取模型将该语谱片段的第一高维列向量与该语谱片段的第二高维列向量进行拼接，获得拼接后的高维向量；

通过所述声纹提取模型将所述拼接后的高维向量进行降维，将降维后的向量确定为该语谱片段的声纹子模型。

可选的，所述确定每个第一特征图对应的、包含全局信息的第二特征图，包括：

对于任一第一特征图，将该第一特征图划分为不同频段的多个第一特征子图，以得到每个第一特征图包含的多个第一特征子图；

对于任一第一特征子图，确定该第一特征子图对应的、包含全局信息的第二特征子图，以得到每个第一特征子图对应的第二特征子图；

对于任一第一特征图，将该第一特征图所包含的多个第一特征子图分别对应的第二特征子图，组成该第一特征图对应的、包含全局信息的第二特征图，以得到每个第一特征图对应的、包含全局信息的第二特征图。

可选的，所述确定该第一特征子图对应的、包含全局信息的第二特征子图，包括：

通过三个尺寸相同、参数不同的卷积核分别对该第一特征子图进行降维处理，获得三幅降维后的特征子图；

通过所述三幅降维后的特征子图中的两幅特征子图确定注意力权重；

通过所述注意力权重和所述三幅降维后的特征子图中的另一幅特征子图，确定该第一特征子图对应的、包含全局信息的第二特征子图。

可选的，所述获取目标语音的至少一个语谱片段，包括：

确定所述目标语音的每个语音帧的语音特征，获得所述目标语音的语音特征序列；

按预设的切分规则，对所述训练语音的语音特征序列进行切分，获得所述目标语音的至少一个语谱片段。

可选的，预先建立所述声纹提取模型的过程，包括：

获取训练语音，并获取所述训练语音的至少一个语谱片段；

通过当前的声纹提取模型，确定所述训练语音的每个语谱片段的至少一个第一特征图，该第一特征图中的各个特征点相互独立，其中，若为首次训练，则当前的声纹提取模型为初始的声纹提取模型，若非首次训练，则当前的声纹提取模型为经前一次训练后的声纹提取模型；

通过当前的声纹提取模型确定所述训练语音的每个语谱片段的每个第一特征图对应的、包含全局信息的第二特征图，以获得所述训练语音的每个语谱片段的至少一个第二特征图，其中，一个第一特征图对应的第二特征图为对该第一特征图中能够区分声纹的特征区域进行强化后的特征图；

至少利用所述训练语音的每个语谱片段的至少一个第二特征图，以及当前的声纹提取模型，确定所述训练语音的每个语谱片段的声纹子模型；

根据所述训练语音的每个语谱片段的声纹子模型，预测所述训练语音的每个语谱片段对应的声纹身份标签，并根据预测结果更新当前的声纹提取模型的参数。

可选的，所述至少利用所述训练语音的每个语谱片段的至少一个第二特征图，以及当前的声纹提取模型，确定所述训练语音的每个语谱片段的声纹子模型，包括：

对于所述训练语音的任一语谱片段，通过当前的声纹提取模型将该语谱片段的至少一个第一特征图与该语谱片段的至少一个第二特征图进行融合，获得该语谱片段的声纹子模型，以得到所述训练语音的每个语谱片段的声纹子模型。

一种声纹模型的确定装置，包括：语谱片段获取模块、第一特征获取模块、第二特征获取模块和声纹模型确定模块；

所述语谱片段获取模块，用于获取目标语音的至少一个语谱片段；

所述第一特征获取模块，用于通过预先建立的声纹提取模型，确定每个语谱片段的至少一个第一特征图，其中，所述第一特征图中的各特征点相互独立；

所述第二特征获取模块，用于通过所述声纹提取模型，确定每个第一特征图对应的、包含其全局信息的第二特征图，获得每个语谱片段的至少一个第二特征图，其中，一个第一特征图对应的第二特征图为对该第一特征图中能够区分声纹的特征区域进行强化后的特征图；

所述声纹模型确定模块，用于至少利用所述每个语谱片段的至少一个第二特征图，以及所述声纹提取模型，确定所述目标语音的声纹模型。

一种声纹模型的确定设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述任一项所述的声纹模型的确定方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一项所述的声纹模型的确定方法的各个步骤。

经由上述方案可知，本申请提供的声纹模型的确定方法、装置、设备及存储介质，首先获取目标语音的至少一个语谱片段，然后，通过预先建立的声纹提取模型，确定每个语谱片段的至少一个包含局部信息的第一特征图，接着通过声纹提取模型确定每个第一特征图对应的、包含全局信息的第二特征图，以获得每个语谱片段的至少一个第二特征图，最后，至少利用每个语谱片段的至少一个第二特征图和声纹模型确定目标语音的声纹模型。本申请提供的声纹模型确定方法，可利用预先建立的声纹提取模型获取语谱片段的第一特征图，相比于现有技术，通过第一特征图能够确定出更加精准和稳定的声纹模型，考虑到第一特征图的各特征点相互独立，即第一特征图包含的是局部信息，为了能够获得更加稳定和精准的声纹模型，本申请进一步利用声纹提取模型充分挖掘第一特征图的全局信息，从而至少利用包含全局信息的第二特征图确定声纹模型，由于第二特征图包含了全局信息，且对第一特征图中能够区分声纹的特征区域进行强化，因此，至少基于第二特征图能够确定出更加稳定和精准的声纹模型。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的声纹模型的确定方法的流程示意图；

图2为本申请实施例提供的预先建立声纹提取模型的流程示意图；

图3为本申请实施例提供的确定第一特征子图对应的、包含全局信息的第二特征子图的示意图；

图4为本申请实施例提供的声纹模型的确定装置的结构示意图；

图5为本申请实施例提供的声纹模型的确定设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在进行声纹识别时，利用声纹模型的相似性来描述两段语音是否来自于同一个说话人，如果获取的声纹模型不够稳定和准确，将直接影响声纹识别效果。

对于基于全变量因子分析的声纹模型确定方案而言，在语音时长较短的情况下，由于统计量计算不充分，会导致确定的声纹模型不够稳定和准确。

为了能够确定出稳定、准确的声纹模型，以便能够提升声纹识别效果，本案发明人进行了研究，起初的思路是：

采用基于深度卷积神经网络(ConvolutionalNeuralNetworks,CNN)的声纹模型确定方案，近年来，深度学习方法在众多研究领域取得了令人瞩目的成就，其通过组合分析低层特征，形成抽象的高层属性描述，以发现数据的结构性特征表示，其中，深度卷积神经网络是近年发展起来并引起广泛重视的一种高效学习方法。

相对于单纯的全变量因子分析方法，卷积神经网络可以对时域和频域进行联合分析，深刻挖掘语音频谱中的声纹信息，获得更加细致的声纹特征表达，从而建立精准的声纹模型。

在基于深度卷积神经网络确定声纹模型时，首先从一段语音中提取反映声纹信息的特征，比如，快速傅里叶变换特征(Fast Fourier Transform，FFT)，然后通过堆叠卷积(convolution)、池化(pooling)、激活(activation)等结构，训练卷积神经模型CNN，利用这个卷积神经模型，将语音特征进行非线性投影，获取该段语音对应的声纹模型c-vector。基于卷积神经网络的声纹确定方案比较简单且高效。

然而，发明人通过进一步研究发现，上述基于卷积神经网络的声纹模型确定方案，在进行特征图(feature map)分析的过程中，各特征图上的特征点相互独立，受限于卷积核感受野的限制，无法充分获得特征图的全局信息，这导致基于卷积神经网络确定的声纹模型依然不够稳定和精确。

为了能够获得更加稳定和精确的声纹模型，本案发明人进一步进行了深入研究，最终提供了一种效果较好的声纹模型确定方法，该方法应用于需要进行声纹识别的应用场景，该方法可应用于具有数据处理能力的终端，也可应用于服务器。接下来通过下述实施例对本申请提供的声纹模型确定方法进行介绍。

请参阅图1，示出了本申请实施例提供的声纹模型的确定方法的流程示意图，该方法可以包括：

步骤S101：获取目标语音的至少一个语谱片段。

具体的，获取目标语音的至少一个语谱片段的过程可以包括：

步骤S1011、确定目标语音的每个语音帧的语音特征，获得目标语音的语音特征序列。

具体的，可对目标语音进行分帧加窗、傅里叶变换，得到FFT特征序列，FFT特征序列作为目标语音的语音特征序列。

步骤S1012、按预设的切分规则，对目标语音的语音特征序列进行切分，获得至少一个语谱片段。

具体的，可预设窗长L，按窗长L对目标语音的语音特征序列进行切分，假设语音特征的维度为d，则每个语谱片段的尺寸为L×d。

步骤S102：通过预先建立的声纹提取模型确定每个语谱片段的至少一个第一特征图。

其中，第一特征图中各个特征点相互独立，即第一特征图中包含的是局部信息。

其中，预先建立的声纹提取模型可以为基于卷积神经网络的模型，其采用训练语音的语谱片段训练得到，训练语音的语谱片段具有声纹身份标签。

步骤S103：通过声纹提取模型确定每个第一特征图对应的、包含全局信息的第二特征图，以获得每个语谱片段的至少一个第二特征图。

其中，一个第一特征图对应的第二特征图为对该第一特征图中能够区分声纹的特征区域进行强化后的特征图，其相当于是对第一特征图进行优化后的特征图。本实施例利用声纹提取模型从第一特征图中充分挖掘全局信息，确定需要重点关注的特征区域(即能够明显区分声纹的特征区域)，进而对需要重点关注的特征区域进行强化。

步骤S104：至少利用每个语谱片段的至少一个第二特征图，以及声纹提取模型，确定目标语音的声纹模型。

由于第二特征图包含全局信息，且对第一特征图中能够区分声纹的特征区域进行强化了，因此，根据第二特征图能够确定出更加精准和稳定的声纹模型，基于此，在一种可能的实现方式中，可利用声纹提取模型和目标语音每个语谱片段的至少一个第二特征图，确定目标语音的声纹模型。

考虑到第一特征图包含局部信息，而第二特征图包含全局信息，为了能够获得更加精准和稳定的声纹模型，在另一种可能的实现方式中，可利用声纹提取模型、目标语音每个语谱片段的至少一个第一特征图以及目标语音每个语谱片段的至少一个第二特征图，确定目标语音的声纹模型，即，同时利用全局信息和局部信息来确定目标语音的声纹模型。

本申请实施例提供的声纹模型确定方法，可利用预先建立的声纹提取模型获取目标语音的语谱片段的第一特征图，相比于现有技术中基于全变量因子分析的声纹确定方案，由于第一特征图中包含了时域和频域交织的声纹信息，对时域和频域进行联合分析，能够深入挖掘出语音频谱中的声纹信息，获得更加稳定和准确的声纹模型，考虑到第一特征图的各特征点相互独立，即第一特征图包含的是局部信息，为了能够获得更加稳定和精准的声纹模型，本申请利用声纹提取模型进一步挖掘第一特征图的全局信息，从而利用包含全局信息的第二特征图确定声纹模型，由于第二特征图包含了全局信息，且对第一特征图中能够区分声纹的特征区域进行强化，因此，基于第二特征图能够确定出更加稳定和精准的声纹模型。

经由上述实施例可知，目标语音的声纹模型通过预先建立的声纹提取模型确定，以下对预先建立声纹提取模型的过程进行介绍。

请参阅图2，示出了预先建立声纹提取模型的流程示意图，可以包括：

步骤S201：获取训练语音，并获取训练语音的至少一个语谱片段。

其中，获取训练语音的至少一个语谱片段的过程与上述获取目标语音的至少一个语谱片段的过程类似，即确定训练语音的每个语音帧的语音特征，获得训练语音的语音特征序列；按预设的切分规则，对训练语音的语音特征序列进行切分，获得训练语音的至少一个语谱片段。

同样的，可对训练语音进行分帧加窗、傅里叶变换，得到FFT特征序列，FFT特征序列作为训练语音的语音特征序列，按预设窗长L对训练语音的语音特征序列进行切分。

需要说明的是，若训练语音的长度不足L，则用训练语音的副本对训练语音进行补充，以使最终的语音长度大于或等于L，若最终的语音长度并非L的整数倍，则将多余的语音删除，以使最终的语音的长度为L的整数倍。另外，若训练语音的长度大于L，但不是L的整数倍，则同样在训练语音后补充训练语音的副本，然后去除多余的语音。若上述的目标语音存在长度不足L或者长度大于L但并非L的整数倍的情况，采用与训练语音相同的方式处理。

可以理解的是，若L设置过小，会造成语谱片原始语谱图碎片化，连续的语谱信息被切分为若干个小的语谱片段，语谱片段间的信息丢失过多，无法对语音的时长相关性进行建模，L设置过大，影响声纹提取模型的训练效率，同时GPU的资源占用显著提升。在一种可能的实现方式中，窗长L可设置为训练数据集中训练语音平均时长的1/2。

步骤S202：通过当前的声纹提取模型确定训练语音的每个语谱片段的至少一个第一特征图。

需要说明的是，首次训练时，当前的声纹提取模型为初始的声纹提取模型。

其中，第一特征图中的各个特征点相互独立，即第一特征图包含局部信息。

具体的，对于任一语谱片段，可通过对该语谱片段进行卷积、池化和激活处理，将其映射为至少一个第一特征图。

步骤S203：通过当前的声纹提取模型，确定训练语音的每个语谱片段的每个第一特征图对应的、包含全局信息的第二特征图，以获得训练语音的每个语谱片段的至少一个第二特征图。

其中，一个第一特征图对应的第二特征图为对该第一特征图中能够区分声纹的特征区域进行强化后的特征图。

具体的，确定训练语音的每个语谱片段的每个第一特征图对应的、包含全局信息的第二特征图的过程可以包括：

步骤S2031、对于任一第一特征图，将该第一特征图划分为不同频段的多个第一特征子图，以得到每个第一特征图包含的多个第一特征子图。

本实施例在频域对第一特征图进行划分，得到处于不同频段的多个第一特征子图。

请参阅图3，图3中的301为一第一特征图的一示例，第一特征图301被划分为不同频段的两个第一特征子图。

步骤S2032、对于任一第一特征子图，确定该第一特征子图对应的、包含全局信息的第二特征子图，以得到每个第一特征子图对应的第二特征子图。

具体的，对于任一第一特征子图，确定该第一特征子图对应的、包含全局信息的第二特征子图的过程包括：通过三个尺寸相同、参数不同的卷积核分别对该第一特征子图进行降维处理，获得三幅降维后的特征子图；通过三幅降维后的特征子图中的两幅特征子图确定注意力权重；通过注意力权重和三幅降维后的特征子图中的另一幅特征子图，确定该第一特征子图对应的、包含全局信息的第二特征子图。

对于任一第一特征子图，假设采用三个尺寸相同(比如三个尺寸为1×1的卷积核)、参数不同的卷积核对该其进行降维后获得p1、p2和p3，首先将p1的转置与p2相乘，p1的转置与p2相乘得到的矩阵能够表征p1、p2各特征点的相关性，然后将p1的转置与p2相乘得到的矩阵经过softmax层，可得到注意力权重，接着将注意力权重与p3相乘，最后采用卷积核(比如1×1的卷积核)对注意力权重与p3相乘得到的结果进行升维，获得与该第一特征子图对应的、包含全局信息的第二特征子图，其中，该第一特征子图对应的第二特征子图与该第一特征子图尺寸相同。

如图3所示，将第一特征图301划分为两个不同频段的第一特征子图3011和第一特征子图3012，对于第一特征子图3011而言，采用3个1×1的卷积核对其进行降维，降维后获得三幅特征子图3011a、3011b和3011c，将3011a转置与3011b相乘，相乘结果经过softmax层，获得注意力权重，获得的注意力权重与3011c相乘，该相乘结果再经1×1的卷积进行升维，便可获得第一特征子图3011对应的、包含全局信息的第二特征子图3011′，第二特征子图3011′为对第一特征子图3011进行优化后的特征子图。对第一特征子图3012采用相同的处理，可获得第一特征子图3012对应的、包含全局信息的第二特征子图3012′。

步骤S2033、对于任一第一特征图，将该第一特征图所包含的多个第一特征子图分别对应的第二特征子图，组成该第一特征图对应的、包含全局信息的第二特征图，以得到每个第一特征图对应的、包含全局信息的第二特征图。

如图3所示，将第一特征子图3011对应的、包含全局信息的第二特征子图3011′与第二特征子图3012对应的、包含全局信息的第二特征子图3012′进行拼接，获得第一特征图301对应的、包含全局信息的第二特征图301′。

步骤S204：至少利用训练语音的每个语谱片段的至少一个第二特征图，以及当前的声纹提取模型，确定训练语音的每个语谱片段的声纹子模型。

在一种可能的实现方式中，对于训练语音的任一语谱片段，可利用当前的声纹提取模型和该语谱片段的至少一个第二特征图，确定该语谱片段的声纹子模型。为了能够获得更加稳定和精准的声纹模型，在另一种可能的实现方式中，对于训练语音的任一语谱片段，可利用当前的声纹提取模型、该语谱片段的至少一个第一特征图以及该语谱片段的至少一个第二特征图，确定该语谱片段的声纹子模型。

其中，对于任一语谱片段，利用当前的声纹提取模型和该语谱片段的至少一个第二特征图，确定该语谱片段的声纹子模型的过程可以包括：通过当前的声纹提取模型将该语谱片段的各个第二特征图拼接成高维向量，并通过线性变换对该高维向量进行降维，降维后得到向量作为该语谱片段的声纹子模型。

其中，对于任一语谱片段，利用当前的声纹提取模型、该语谱片段的至少一个第一特征图以及该语谱片段的至少一个第二特征图，确定该语谱片段的声纹子模型，包括：通过当前的声纹提取模型将该语谱片段的至少一个第一特征图与该语谱片段的至少一个第二特征图进行融合，获得该语谱片段的声纹子模型。具体的，将该语谱片段的各个第一特征图拼接成高维列向量，作为该语谱片段的第一高维列向量，将该语谱片段的各个第二特征图拼接成高维列向量，作为该语谱片段的第二高维列向量，将该语谱片段的第一高维列向量与该语谱片段的第二高维列向量进行拼接，获得拼接后的高维向量，将拼接后的高维向量通过线性变换进行降维，获得低维向量，获得的低维向量作为该语谱片段的声纹子模型。

步骤S205：根据训练语音的每个语谱片段的声纹子模型，预测训练语音的每个语谱片段对应的声纹身份标签，并根据预测结果更新当前的声纹提取模型的参数。

其中，训练语音的每个语谱片段对应的声纹身份标签用于标识训练语音对应的说话人。

上述训练过程多次执行，直至达到预设的训练次数，或者，训练得到的声纹提取模型的性能满足要求。

经由上述训练过程，便可获得用于确定目标语音的声纹模型的声纹提取模型。在上述实施例的基础上，下面对利用训练得到的声纹提取模型确定目标语音的声纹模型的过程进一步进行说明。

上述实施例提到，在获得目标语音的至少一个语谱片段后，首先通过预先建立的声纹提取模型确定目标语音的每个语谱片段的至少一个包含局部信息的第一特征图，然后，通过预先建立的声纹提取模型确定每个第一特征图对应的、包含全局的第二特征图，以获得目标语音的每个语谱片段的至少一个第二特征图，以下给出通过预先建立的声纹提取模型确定每个第一特征图对应的、包含全局的第二特征图的过程：

步骤a1、对于任一第一特征图，将该第一特征图划分为不同频段的多个第一特征子图，以得到每个第一特征图包含的多个第一特征子图。

步骤a2、对于任一第一特征子图，确定该第一特征子图对应的、包含全局信息的第二特征子图，以得到每个第一特征子图对应的第二特征子图。

具体的，通过三个尺寸相同、参数不同的卷积核分别对该第一特征子图进行降维处理，获得三幅降维后的特征子图；通过三幅降维后的特征子图中的两幅特征子图确定注意力权重；通过注意力权重和三幅降维后的特征子图中的另一幅特征子图，确定该第一特征子图对应的、包含全局信息的第二特征子图。

步骤a3、对于任一第一特征图，将该第一特征图所包含的多个第一特征子图分别对应的第二特征子图，组成该第一特征图对应的、包含全局信息的第二特征图，以得到每个第一特征图对应的、包含全局信息的第二特征图，即目标语音的每个语谱片段的至少一个第二特征图。

需要说明的是，确定目标语音每个语谱片段的第二特征图的过程与上述确定训练语音每个语谱片段的第二特征图的过程基本相同，步骤a～c的具体说明可参见上述确定训练语音每个语谱片段的第二特征图的过程。

在获得目标语音每个语谱片段的至少一个第二特征图后，至少利用每个语谱片段的至少一个第二特征图，以及声纹提取模型，确定目标语音的声纹模型，具体的：

步骤b1、至少利用目标语音每个语谱片段的至少一个第二特征图和预先建立的声纹模型，确定目标语音每个语谱片段的声纹子模型。

在训练阶段，若只根据训练语音每个语谱片段的至少一个第二特征图确定训练语音每个语谱片段的声纹子模型，则此处也只根据目标语音的每个语谱片段的至少一个第二特征图确定目标语音每个语谱片段的声纹子模型，在训练阶段，若根据训练语音每个语谱片段的至少一个第一特征图和至少一个第二特征图确定训练语音的每个语谱片段的声纹子模型，则此处也根据目标语音每个语谱片段的至少一个第一特征图和至少一个第二特征图确定目标语音每个语谱片段的声纹子模型。

具体的，利用预先建立的声纹提取模型、目标语音每个语谱片段的至少一个第一特征图以及目标语音每个语谱片段的至少一个第二特征图，确定目标语音每个语谱片段的声纹子模型的过程包括：对于任一语谱片段，通过预先建立的声纹提取模型将该语谱片段的至少一个第一特征图与该语谱片段的至少一个第二特征图进行融合，获得该语谱片段的声纹子模型，以得到每个语谱片段的声纹子模型。进一步的，通过预先建立的声纹提取模型将该语谱片段的至少一个第一特征图与该语谱片段的至少一个第二特征图进行融合的过程包括：通过预先建立的声纹提取模型将该语谱片段的各个第一特征图拼接成高维向量，作为该语谱片段的第一高维列向量；通过预先建立的声纹提取模型将该语谱片段的各个第二特征图拼接成高维列向量，作为该语谱片段的第二高维列向量；通过预先建立的声纹提取模型将该语谱片段的第一高维列向量与该语谱片段的第二高维列向量进行拼接，获得拼接后的高维向量；通过声纹提取模型将拼接后的高维向量进行降维，将降维后的向量确定为该语谱片段的声纹子模型。

步骤b2、将目标语音各个语谱片段的声纹子模型求平均，获得目标语音的声纹模型。

需要说明的是，若目标语音的语谱片段只有一个，则直接将该语谱片段的声纹子模型确定为目标语音的声纹模型；若目标语音的语谱片段有多个，则将多个语谱片段的声纹模型的均值确定为目标语音的声纹模型。

本申请实施例提供的声纹模型确定方法，采用注意力机制对目标语音各语谱片段的第一特征图进行优化，利用优化后的特征能够确定出准确且稳定的声纹模型；由于第一特征包含局部信息，第二特征包含全局信息，将第一特征与第二特征进行互补融合，能够确定出更加准确且稳定的声纹模型。另外，考虑到声纹信息在不同频段具有不同表现，本申请实施例在确定注意力权重时，将第一特征图划分为不同频段上的子图，如此可减少不同频段信息间的相互干扰，能够达到准确计算注意力权重的目的。

本申请实施例还提供了一种声纹模型的确定装置，下面对本申请实施例提供的声纹模型的确定装置进行描述，下文描述的声纹模型的确定装置与上文描述的声纹模型的确定方法可相互对应参照。

请参阅图4，示出了本申请实施例提供的声纹模型的确定装置的结构示意图，如图4所示，该声纹模型的确定装置可以包括：语谱片段获取模块401、第一特征获取模块402、第二特征获取模块403和声纹模型确定模块404。

语谱片段获取模块401，用于获取目标语音的至少一个语谱片段。

第一特征获取模块402，用于通过预先建立的声纹提取模型，确定每个语谱片段的至少一个第一特征图。

其中，第一特征图中的各特征点相互独立。

第二特征获取模块403，用于通过所述声纹提取模型，确定每个第一特征图对应的、包含其全局信息的第二特征图，获得每个语谱片段的至少一个第二特征图。

其中，一个第一特征图对应的第二特征图为对该第一特征图中能够区分声纹的特征区域进行强化后的特征图。

声纹模型确定模块404，用于至少利用所述每个语谱片段的至少一个第二特征图，以及所述声纹提取模型，确定所述目标语音的声纹模型。

本申请实施例提供的声纹模型确定装置，可利用预先建立的声纹提取模型获取目标语音的语谱片段的第一特征图，通过第一特征图能够确定出更加精准和稳定的声纹模型，考虑到第一特征图的各特征点相互独立，即第一特征图包含的是局部信息，为了能够获得更加稳定和精准的声纹模型，本申请进一步利用声纹提取模型充分挖掘第一特征图的全局信息，从而至少利用包含全局信息的第二特征图确定声纹模型，由于第二特征图包含了全局信息，且对第一特征图中能够区分声纹的特征区域进行强化，因此，至少基于第二特征图能够确定出更加稳定和精准的声纹模型。

在一种可能的实现方式中，上述实施例提供的声纹模型的确定装置中，语谱片段获取模块401包括：特征确定子模块和切分子模块。

特征确定子模块，用于确定所述目标语音的每个语音帧的语音特征，获得所述目标语音的语音特征序列。

切分子模块，用于按预设的切分规则，对所述训练语音的语音特征序列进行切分，获得所述目标语音的至少一个语谱片段。

在一种可能的实现方式中，上述实施例提供的声纹模型的确定装置中，第二特征获取模块403包括：第一特征图划分子模块、第二特征子图确定子模块和第二特征图确定子模块。

第一特征图划分子模块，用于对于任一第一特征图，将该第一特征图划分为不同频段的多个第一特征子图，以得到每个第一特征图包含的多个第一特征子图。

第二特征子图确定子模块，用于对于任一第一特征子图，确定该第一特征子图对应的、包含全局信息的第二特征子图，以得到每个第一特征子图对应的第二特征子图。

第二特征图确定子模块，用于对于任一第一特征图，将该第一特征图所包含的多个第一特征子图分别对应的第二特征子图，组成该第一特征图对应的、包含全局信息的第二特征图，以得到每个第一特征图对应的、包含全局信息的第二特征图。

在一种可能的实现方式中，第二特征子图确定子模块，具体用于通过三个尺寸相同、参数不同的卷积核分别对该第一特征子图进行降维处理，获得三幅降维后的特征子图；通过所述三幅降维后的特征子图中的两幅特征子图确定注意力权重；通过所述注意力权重和所述三幅降维后的特征子图中的另一幅特征子图，确定该第一特征子图对应的、包含全局信息的第二特征子图。

在一种可能的实现方式中，上述实施例提供的声纹模型的确定装置中，声纹模型确定模块404，具体用于利用所述声纹提取模块、所述每个语谱片段的至少一个第一特征图以及所述每个语谱片段的至少一个第二特征图，确定所述目标语音的声纹模型。

在一种可能的实现方式中，声纹模型确定模块404包括：声纹子模型确定子模块和声纹模型确定子模块。

声纹子模型确定子模块，用于对于所述目标语音的任一语谱片段，通过所述声纹提取模型，将该语谱片段的至少一个第一特征图与该语谱片段的至少一个第二特征图进行融合，获得该语谱片段的声纹子模型，以得到所述目标语音每个语谱片段的声纹子模型。

声纹模型确定子模块，用于将所述目标语音各个语谱片段的声纹子模型求平均，获得所述目标语音的声纹模型。

在一种可能的实现方式中，声纹子模型确定子模块，在通过所述声纹提取模型将该语谱片段的至少一个第一特征图与该语谱片段的至少一个第二特征图进行融合，获得该语谱片段的声纹子模型时，具体用于通过所述声纹提取模型将该语谱片段的各个第一特征图拼接成高维列向量，作为该语谱片段的第一高维列向量；通过所述声纹提取模型将该语谱片段的各个第二特征图拼接成高维向量，作为该语谱片段的第二高维列向量；通过所述声纹提取模型将该语谱片段的第一高维列向量与该语谱片段的第二高维列向量进行拼接，获得拼接后的高维向量；通过所述声纹提取模型将所述拼接后的高维向量进行降维，将降维后的向量确定为该语谱片段的声纹子模型。

上述实施例提供的声纹模型确定装置还可以包括：模型构建模块。

模型构建模块包括：训练语音获取模块、语谱片段获取模块、第一特征图确定模块和第二特征图确定模块、声纹子模型确定模块、身份标签预测模块和参数更新模块。

训练语音获取模块，用于获取训练语音。

语谱片段获取模块，用于获取所述训练语音的至少一个语谱片段；

第一特征图确定模块，用于通过当前的声纹提取模型，确定所述训练语音的每个语谱片段的至少一个第一特征图。

其中，第一特征图中的各个特征点相互独立。

其中，若为首次训练，则当前的声纹提取模型为初始的声纹提取模型，若非首次训练，则当前的声纹提取模型为经前一次训练后的声纹提取模型。

第二特征图确定模块，用于通过当前的声纹提取模型确定所述训练语音的每个语谱片段的每个第一特征图对应的、包含全局信息的第二特征图，以获得所述训练语音的每个语谱片段的至少一个第二特征图。

其中，一个第一特征图对应的第二特征图为对该第一特征图中能够区分声纹的特征区域进行强化后的特征图；

声纹子模型确定模块，用于至少利用所述训练语音的每个语谱片段的至少一个第二特征图，以及当前的声纹提取模型，确定所述训练语音的每个语谱片段的声纹子模型；

身份标签预测模块，用于根据所述训练语音的每个语谱片段的声纹子模型，预测所述训练语音的每个语谱片段对应的声纹身份标签。

参数更新模块，用于根据身份标签预测模块的预测结果更新当前的声纹提取模型的参数。

在一种可能的实现方式中，声纹子模型确定模块，具体用于对于所述训练语音的任一语谱片段，通过当前的声纹提取模型将该语谱片段的至少一个第一特征图与该语谱片段的至少一个第二特征图进行融合，获得该语谱片段的声纹子模型，以得到所述训练语音的每个语谱片段的声纹子模型。

本申请实施例还提供了一种声纹模型的确定设备，请参阅图5，示出了该声纹模型的确定设备的结构示意图，该设备可以包括：至少一个处理器501，至少一个通信接口502，至少一个存储器503和至少一个通信总线504；

在本申请实施例中，处理器501、通信接口502、存储器503、通信总线504的数量为至少一个，且处理器501、通信接口502、存储器503通过通信总线504完成相互间的通信；

处理器501可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器503可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取目标语音的至少一个语谱片段；

通过预先建立的声纹提取模型，确定每个语谱片段的至少一个第一特征图，其中，所述第一特征图中的各特征点相互独立；

至少利用所述每个语谱片段的至少一个第二特征图，以及所述声纹提取模型，确定所述目标语音的声纹模型。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

获取目标语音的至少一个语谱片段；

通过预先建立的声纹提取模型，确定每个语谱片段的至少一个第一特征图，其中，所述第一特征图中的各特征点相互独立；

至少利用所述每个语谱片段的至少一个第二特征图，以及所述声纹提取模型，确定所述目标语音的声纹模型。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

21页详细技术资料下载

一种声纹模型的确定方法、装置、设备及存储介质

相关技术

网友询问留言