一种说话人识别方法、装置、存储介质及设备

文档序号：116992 发布日期：2021-10-19 浏览：33次 >En<

阅读说明：本技术 一种说话人识别方法、装置、存储介质及设备 (Speaker recognition method, device, storage medium and equipment ) 是由田敬广于 2021-07-16 设计创作，主要内容包括：本申请公开了一种说话人识别方法、装置、存储介质及设备,该方法包括：首先获取待识别的目标语音,确定其采样率,提取其第一声学特征；并基于其采样率,对第一声学特征进行处理,得到第二声学特征,然后再将第二声学特征输入至预先构建的说话人识别模型,识别得到目标说话人的目标表征向量；其中,说话人识别模型是利用不同采样率的语音共同训练得到的；接着,可以根据目标表征向量,对目标说话人进行识别,得到目标说话人的识别结果。可见,由于本申请通过将第二声学特征输入至预先构建的说话人识别模型,既保证了输入高频语音声学特征时没有效果损失,又补偿了输入低频语音声学特征引起的效果下降,从而提升了识别结果的准确率。(The application discloses a speaker identification method, a speaker identification device, a storage medium and equipment, wherein the method comprises the following steps: firstly, acquiring target voice to be recognized, determining the sampling rate of the target voice, and extracting first acoustic features of the target voice; processing the first acoustic feature based on the sampling rate of the first acoustic feature to obtain a second acoustic feature, inputting the second acoustic feature into a pre-constructed speaker recognition model, and recognizing to obtain a target characterization vector of a target speaker; the speaker recognition model is obtained by utilizing the voice co-training of different sampling rates; then, the target speaker can be identified according to the target characterization vector, and an identification result of the target speaker is obtained. Therefore, the method and the device have the advantages that the second acoustic feature is input into the pre-constructed speaker recognition model, so that no effect loss is caused when the high-frequency voice acoustic feature is input, the effect reduction caused by the input of the low-frequency voice acoustic feature is compensated, and the accuracy of the recognition result is improved.)

技术领域

本申请涉及语音处理技术领域，尤其涉及一种说话人识别方法、装置、存储介质及设备。

背景技术

随着人工智能技术的不断突破和各种智能终端设备的日益普及，人机交互在人们日常工作、生活中出现的频率越来越高。语音交互作为下一代人机交互方式，能够为人们的生活带来极大的便利，其中比较重要的是基于语音对说话人进行识别的技术，这被称为说话人识别。例如，说话人识别可应用于对说话人的身份进行确认的场合，如法院审理、远程金融服务、安保、语音检索等领域，均需要基于语音数据对说话人的身份进行准确识别。

传统的说话人识别方法是对宽带和窄带两种不同采样率的语音分别训练和维护说话人识别模型，部署成本较高，且这两种说话人识别模型不能进行相似度匹配，会导致识别结果的准确率较低。

因此，如何使用同一个模型进行识别并提高说话人识别结果的准确率是目前亟待解决的技术问题。

发明内容

本申请实施例的主要目的在于提供一种说话人识别方法、装置、存储介质及设备，能够在进行说话人识别时，有效提高识别结果的准确率。

本申请实施例提供了一种说话人识别方法，包括：

获取待识别的目标语音，并确定所述目标语音的采样率；

从所述目标语音中，提取第一声学特征；并基于所述目标语音的采样率，对所述第一声学特征进行处理，得到第二声学特征；

将所述第二声学特征输入至预先构建的说话人识别模型，识别得到目标说话人的目标表征向量；所述说话人识别模型是利用不同采样率的语音共同训练得到的；

根据所述目标表征向量，对所述目标说话人进行识别，得到所述目标说话人的识别结果。

一种可能的实现方式中，所述说话人识别模型的构建方式如下：

获取第一采样率对应的第一样本语音和教师说话人识别模型；所述教师说话人识别模型是基于第一采样率的语音训练得到的；

获取第二采样率对应的第二样本语音；并从所述第二样本语音中，提取所述第二样本语音的声学特征；所述第一样本语音和所述第二样本语音属于同一样本说话人；

将所述第一样本语音的声学特征输入所述教师说话人识别模型，得到第一样本表征向量；以及将所述第一样本语音的声学特征和所述第二样本语音对应的声学特征输入初始说话人识别模型，分别得到第二样本表征向量和第三样本表征向量；

根据所述第一样本表征向量、所述第二样本表征向量和所述第三样本表征向量，对所述初始说话人识别模型进行训练，生成学生说话人识别模型，并将所述学生说话人识别模型作为最终的说话人识别模型。

一种可能的实现方式中，所述基于所述目标语音的采样率，对所述第一声学特征进行处理，得到第二声学特征，包括：

当确定所述目标语音的采样率为所述第一采样率时，直接将所述第一声学特征作为第二声学特征；

当确定所述目标语音的采样率为所述第二采样率时，对所述第一声学特征进行处理，得到第二声学特征。

一种可能的实现方式中，所述第一采样率高于所述第二采样率，所述第一声学特征包括对数梅尔滤波器组FBANK特征；所述当确定所述目标语音的采样率为所述第二采样率时，对所述第一声学特征进行处理，得到第二声学特征，包括：

将对所述第一声学特征的功率谱进行滤波的滤波器数量进行调整，得到调整后的第一声学特征，以使得所述调整后的第一声学特征和所述第一采样率对应的语音的声学特征的低频段区域对齐；

对所述调整后的第一声学特征与所述第一采样率对应的语音的声学特征的差别维度补零，以使得补零后的第一声学特征与所述第一采样率对应的语音的声学特征的维度相同，并将所述补零后的第一声学特征作为第二声学特征。

一种可能的实现方式中，所述将所述第一样本语音的声学特征和所述第二样本语音对应的声学特征输入初始说话人识别模型，包括：将所述第二样本语音对应的声学特征进行所述处理后，再输入所述初始说话人识别模型。

一种可能的实现方式中，所述根据所述第一样本表征向量、所述第二样本表征向量和所述第三样本表征向量，对所述初始说话人识别模型进行训练，生成学生说话人识别模型，并将所述学生说话人识别模型作为最终的说话人识别模型，包括：

计算所述第一样本表征向量和所述第二样本表征向量之间的余弦相似度，作为第一余弦损失；

计算所述第一样本表征向量和所述第三样本表征向量之间的余弦相似度，作为第二余弦损失；

计算所述第一余弦损失和所述第二余弦损失的和值，并根据所述和值，对所述初始说话人识别模型进行训练，生成学生说话人识别模型，并将所述学生说话人识别模型作为最终的说话人识别模型。

一种可能的实现方式中，所述目标语音包含M段语音；所述M为大于1的正整数；所述从所述目标语音中，提取第一声学特征；并基于所述目标语音的采样率，对所述第一声学特征进行处理，得到第二声学特征，包括：

从所述M段语音中，分别提取所述M段语音的M个第一声学特征；并基于所述M段语音各自的采样率，对所述M个第一声学特征进行处理，得到M个第二声学特征；

所述将所述第二声学特征输入至预先构建的说话人识别模型，识别得到目标说话人的目标表征向量，包括：

将所述M个第二声学特征分别输入至预先构建的说话人识别模型，识别得到目标说话人对应的M个目标表征向量；

计算所述M个目标表征向量的平均值，并将所述平均值作为所述目标说话人对应的最终的目标表征向量。

一种可能的实现方式中，所述根据所述目标表征向量，对所述目标说话人进行识别，得到所述目标说话人的识别结果，包括：

计算所述目标说话人的目标表征向量与预设说话人的预设表征向量之间的相似度；

判断所述相似度是否高于预设阈值，若是，则确定所述目标说话人为所述预设说话人；若否，则确定所述目标说话人不是所述预设说话人。

一种可能的实现方式中，所述根据所述目标表征向量，对所述目标说话人进行识别，得到所述目标说话人的识别结果，包括：

计算所述目标说话人的目标表征向量与N个预设说话人的N个预设表征向量之间的N个相似度；所述N为大于1的正整数；

从所述N个相似度中选择出最大相似度，并确定所述目标说话人为所述最大相似度对应的预设说话人。

本申请实施例还提供了一种说话人识别装置，包括：

第一获取单元，用于获取待识别的目标语音；并确定所述目标语音的采样率；

处理单元，用于从所述目标语音中，提取第一声学特征；并基于所述目标语音的采样率，对所述第一声学特征进行处理，得到第二声学特征；

第一识别单元，用于将所述第二声学特征输入至预先构建的说话人识别模型，识别得到目标说话人的目标表征向量；所述说话人识别模型是利用不同采样率的语音共同训练得到的；

第二识别单元，用于根据所述目标表征向量，对所述目标说话人进行识别，得到所述目标说话人的识别结果。

一种可能的实现方式中，所述装置还包括：

第二获取单元，用于获取第一采样率对应的第一样本语音和教师说话人识别模型；所述教师说话人识别模型是基于第一采样率的语音训练得到的；

第三获取单元，用于获取第二采样率对应的第二样本语音；并从所述第二样本语音中，提取所述第二样本语音的声学特征；所述第一样本语音和所述第二样本语音属于同一样本说话人；

获得单元，用于将所述第一样本语音的声学特征输入所述教师说话人识别模型，得到第一样本表征向量；以及将所述第一样本语音的声学特征和所述第二样本语音对应的声学特征输入初始说话人识别模型，分别得到第二样本表征向量和第三样本表征向量；

训练单元，用于根据所述第一样本表征向量、所述第二样本表征向量和所述第三样本表征向量，对所述初始说话人识别模型进行训练，生成学生说话人识别模型，并将所述学生说话人识别模型作为最终的说话人识别模型。

一种可能的实现方式中，所述处理单元包括：

第一处理子单元，用于当确定所述目标语音的采样率为所述第一采样率时，直接将所述第一声学特征作为第二声学特征；

第二处理子单元，用于当确定所述目标语音的采样率为所述第二采样率时，对所述第一声学特征进行处理，得到第二声学特征。

一种可能的实现方式中，所述第一采样率高于所述第二采样率，所述第一声学特征包括对数梅尔滤波器组FBANK特征；所述第二处理子单元包括：

调整子单元，用于将对所述第一声学特征的功率谱进行滤波的滤波器数量进行调整，得到调整后的第一声学特征，以使得所述调整后的第一声学特征和所述第一采样率对应的语音的声学特征的低频段区域对齐；

补零子单元，用于对所述调整后的第一声学特征与所述第一采样率对应的语音的声学特征的差别维度补零，以使得补零后的第一声学特征与所述第一采样率对应的语音的声学特征的维度相同，并将所述补零后的第一声学特征作为第二声学特征。

一种可能的实现方式中，所述获得单元具体用于：

将所述第二样本语音对应的声学特征进行所述处理后，再输入所述初始说话人识别模型。

一种可能的实现方式中，所述训练单元包括：

第一计算子单元，用于计算所述第一样本表征向量和所述第二样本表征向量之间的余弦相似度，作为第一余弦损失；

第二计算子单元，用于计算所述第一样本表征向量和所述第三样本表征向量之间的余弦相似度，作为第二余弦损失；

训练子单元，用于计算所述第一余弦损失和所述第二余弦损失的和值，并根据所述和值，对所述初始说话人识别模型进行训练，生成学生说话人识别模型，并将所述学生说话人识别模型作为最终的说话人识别模型。

一种可能的实现方式中，所述目标语音包含M段语音；所述M为大于1的正整数；所述处理单元具体用于：

所述第一识别单元包括：

识别子单元，用于将所述M个第二声学特征分别输入至预先构建的说话人识别模型，识别得到目标说话人对应的M个目标表征向量；

第三计算子单元，用于计算所述M个目标表征向量的平均值，并将所述平均值作为所述目标说话人对应的最终的目标表征向量。

一种可能的实现方式中，所述第二识别单元包括：

第四计算子单元，用于计算所述目标说话人的目标表征向量与预设说话人的预设表征向量之间的相似度；

第一确定子单元，用于判断所述相似度是否高于预设阈值，若是，则确定所述目标说话人为所述预设说话人；若否，则确定所述目标说话人不是所述预设说话人。

一种可能的实现方式中，所述第二识别单元包括：

第五计算子单元，用于计算所述目标说话人的目标表征向量与N个预设说话人的N个预设表征向量之间的N个相似度；所述N为大于1的正整数；

第二确定子单元，用于从所述N个相似度中选择出最大相似度，并确定所述目标说话人为所述最大相似度对应的预设说话人。

本申请实施例还提供了一种说话人识别设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述说话人识别方法中的任意一种实现方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述说话人识别方法中的任意一种实现方式。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述说话人识别方法中的任意一种实现方式。

本申请实施例提供的一种说话人识别方法、装置、存储介质及设备，首先获取待识别的目标语音，确定目标语音的采样率，提取目标语音的第一声学特征；并基于目标语音的采样率，对第一声学特征进行处理，得到第二声学特征，然后再将第二声学特征输入至预先构建的说话人识别模型，识别得到目标说话人的目标表征向量；其中，说话人识别模型是利用不同采样率的语音共同训练得到的；接着，可以根据目标表征向量，对目标说话人进行识别，得到目标说话人的识别结果。可见，本申请实施例通过将目标语音对应的第二声学特征输入至预先构建的说话人识别模型，既保证了输入高频语音声学特征时没有效果损失，又补偿了输入低频语音声学特征引起的效果下降，便可以预测出目标说话人的目标表征向量，从而在不增加说话人识别模型参数量的情况下，补偿了低频语音声学特征缺失的高频信息，利用同一个说话人识别模型即可在低频和高频目标语音数据上均取得较好的识别效果，进而提升了说话人识别结果的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种说话人识别方法的流程示意图；

图2为本申请实施例提供的构建说话人识别模型的流程示意图；

图3为本申请实施例提供的构建说话人识别模型的结构示意图；

图4为本申请实施例提供的一种说话人识别装置的组成示意图。

具体实施方式

随着智能识别技术的快速发展，越来越多的场景需要应用生物识别技术对说话人进行识别，例如，金融安全、安保、智能家居和行政司法等场景。传统的说话人识别方法是对宽带和窄带两种不同采样率的语音分别训练和维护说话人识别模型，部署成本较高，且由于不同采样率语音训练得到的说话人模型不能进行相似度匹配，会导致识别结果的准确率较低。

对此，现有的说话人识别方法通常是训练混合带宽说话人识别模型，用以分别对不同采样率的语音进行识别，但得到的说话人识别结果也不能令人满意。具体来讲，现有的训练混合带宽说话人识别模型的方法通常包括以下三种：

第一种是下采样法，直接把宽带语音下采样成窄带语音，提取窄带声学特征，统一用窄带声学特征训练说话人识别模型，进行说话人识别，但由于下采样法忽略了宽带语音中的高频信息，而相关研究表明语音中的高频信息对区分说话人是有很大帮助的，所以该方法牺牲了说话人识别模型的效果，导致模型识别结果的准确率较低。

第二种是上采样法，直接把窄带语音上采样成宽带语音，提取宽带声学特征，统一用宽带声学特征训练说话人识别模型，进行说话人识别，虽然上采样法不损失宽带语音的高频信息，但是没有补偿窄带语音缺失的高频信息，相比宽带语音识别效果还是有损失，导致模型识别结果的准确率较低，并且上述两种方法的共通缺点是都要求模型的训练数据需要有说话人标签，不能利用大规模无说话人标签数据，但众所周知，为训练数据人工标注说话人标签不仅耗时且经济成本巨大，这也限制了训练数据集的规模，无法保证模型训练结果的准确性。

第三种是带宽扩展法，分别对窄带语音和宽带语音提取声学特征，训练一个带宽扩展神经网络，把窄带声学特征转换成宽带声学特征，恢复出其缺失的高频段信息，再统一用宽带声学特征训练说话人识别模型，进行说话人识别，但由于带宽扩展法需要单独训练一个神经网络，虽然能够补偿窄带语音缺失的高频信息，但却增加了说话人识别系统的复杂度，容易会引入其他错误，导致对于说话人的识别不够准确。

所以，传统的说话人识别方法和现有的说话人识别方法对于说话人的识别均不够准确。

为解决上述缺陷，本申请提供了一种说话人识别方法，首先获取待识别的目标语音，确定目标语音的采样率，提取目标语音的第一声学特征；并基于目标语音的采样率，对第一声学特征进行处理，得到第二声学特征，然后再将第二声学特征输入至预先构建的说话人识别模型，识别得到目标说话人的目标表征向量；其中，说话人识别模型是利用不同采样率的语音共同训练得到的；接着，可以根据目标表征向量，对目标说话人进行识别，得到目标说话人的识别结果。可见，本申请实施例通过将目标语音对应的第二声学特征输入至预先构建的说话人识别模型，既保证了输入高频语音声学特征时没有效果损失，又补偿了输入低频语音声学特征引起的效果下降，便可以预测出目标说话人的目标表征向量，从而在不增加说话人识别模型参数量的情况下，补偿了低频语音声学特征缺失的高频信息，利用同一个说话人识别模型即可在低频和高频目标语音数据上均取得较好的识别效果，进而提升了说话人识别结果的准确率。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

参见图1，为本实施例提供的一种说话人识别方法的流程示意图，该方法包括以下步骤：

S101：获取待识别的目标语音，并确定目标语音的采样率。

在本实施例中，将需要进行身份识别的任一说话人定义为目标说话人，并将目标说话人需要进行识别的语音定义为目标语音。需要说明的是，本实施例不限制目标语音的语种类型，比如，目标语音可以是中文构成的语音或英文构成的语音等；同时，本实施例也不限制目标语音的长度，比如，目标语音可以是一句话、或多句话等。

可以理解的是，目标语音可以根据实际需要，通过录音等方式获得，例如，人们日常生活中的电话通话语音、或者会议录音等均可作为目标语音，并在获取到目标语音的同时，确定出目标语音的采样率，用以利用本实施例提供的方案对该目标语音进行处理，以识别出说出目标语音的目标说话人的身份。

其中，采样率(即采样频率)指的是指录音设备在单位时间内对模拟信号采样的多少，采样频率越高，声波的波形就越真实越自然。采样率的单位用赫兹(Hz)来表示。并且，不同的语音可能会对应多种不同的采样率。例如，对于网络中的4000Hz的电话信号，根据奈奎斯特定律，为了使得采样之后的数字信号能够完整地保留了该电话信号中的信息，需要采用8000Hz的采样率进行采样。而随着计算机网络技术的发展，对于互联网音频等语音的采样，16000Hz的采样率得到了广泛应用。

可以理解的是，采样率可以包含多种不同的采样率，例如高频(如16000Hz等)和低频(如8000Hz等)，对应的采样语音分别为高频语音和低频语音。高频语音可以称为宽带语音，低频语音可以称为窄带语音，宽带语音的采样率高于窄带语音，例如宽带语音的采样率可以是窄带语音的两倍(如16000Hz是8000Hz的两倍)等。

S102：从目标语音中，提取第一声学特征；并基于目标语音的采样率，对第一声学特征进行处理，得到第二声学特征。

在本实施例中，通过步骤S101获取到待识别的目标语音，并确定出目标语音的采样率后，为了准确识别出说出目标语音的目标说话人的身份信息，首先需要利用特征提取方法，从目标语音中，提取出表征目标语音的声纹信息的声学特征，并将其定义为第一声学特征，然后再根据目标语音的采样率，对该第一声学特征进行处理，得到第二声学特征，进而可以将得到的第二声学特征作为识别依据，用以通过后续步骤S103-S104，实现对目标语音的有效识别，并进一步识别出目标说话人的身份。

具体来讲，在提取目标语音的第一声学特征时，首先需要对目标语音进行分帧处理，得到对应的语音帧序列，然后再对分帧后的语音帧序列进行预加重；进而再依次提取出每一语音帧的声学特征，其中，该声学特征指的是用于表征对应语音帧的声纹信息的特征数据，比如，可以是梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，简称MFCC)特征或对数梅尔滤波器组(Log Mel-filterbank，简称FBANK)特征等。

需要说明的是，本申请实施例并不限定目标语音的第一声学特征的提取方法，也不限定具体的提取过程，可根据实际情况选择适当的提取方法，以及进行相应的特征提取操作。为便于理解，本实施例后续将以目标语音的第一声学特征为FBANK特征为例进行介绍。

进一步的，一种可选的实现方式是，当目标语音的采样率为第一采样率时，例如宽带语音时，在提取出目标语音的第一声学特征(如FBANK特征)后，不再对其进行处理，而是直接将其作为第二声学特征，用以执行后续步骤S103-S104，实现对目标语音的有效识别，并进一步识别出目标说话人的身份。

或者，另一种可选的实现方式是，当目标语音的采样率为第二采样率时，例如窄带语音时，为了减小窄带声学特征与宽带声学特征间的差异，在提取出目标语音的FBANK特征作为第一声学特征后，进一步的，需要将对第一声学特征的功率谱进行滤波的滤波器数量进行调整，得到调整后的第一声学特征，以使得调整后的第一声学特征和第一采样率对应的语音的声学特征的低频段区域对齐；进而还需要对调整后的第一声学特征与第一采样率对应的语音的声学特征的差别维度补零，以使得补零后的第一声学特征与第一采样率对应的语音的声学特征的维度相同，并将补零后的第一声学特征作为第二声学特征，用以执行后续步骤S103-S104，实现对目标语音的有效识别，并进一步识别出目标说话人的身份。

举例说明：对于8000Hz采样率的窄带的目标语音，对应的FBANK特征可以表示0-4000Hz频段的信息，而对于16000Hz采样率的语音，则对应的FBANK特征可以表示0-8000Hz频段的信息。8000Hz采样率的目标语音相比于16000Hz采样率的语音，4000-8000Hz频段的信息是缺失的。

对此，根据频率f和梅尔尺度频率m的转换公式m＝2594log ₁₀(1+f/700)，可以计算出窄带语音和宽带语音的梅尔滤波器组数量之间的关联关系，具体计算公式如下：

其中，f_N表示窄带目标语音的FBANK特征的频域上界，f_W表示宽带语音的FBANK特征的频域上界，M_N和M_W分别表示对窄带目标语音FBANK特征和宽带语音FBANK特征的功率谱进行滤波的滤波器数量。

举例说明：当f_W＝8000、f_N＝4000、M_W＝40时，根据上述公式(1)可以计算出M_N＝30.2。此时，可以进行取整操作，将M_N强制取值为30，进而可以返推算出f_N的取值为3978。这样，当16000Hz采样率的语音提取出的FBANK特征为40维，8000Hz采样率的目标语音提取出的FBANK特征为30维时，二者在0-3978Hz频段内是对齐的。接着，可以对8000Hz采样率的目标语音提取出的30维FBANK补10个维度的零值，从而使得8000Hz采样率的目标语音和16000Hz采样率的宽带语音提取的FBANK特征维度均为40维，进一步减小了二者之间的差异。

S103：将第二声学特征输入至预先构建的说话人识别模型，识别得到目标说话人的目标表征向量；其中，说话人识别模型是利用不同采样率的语音共同训练得到的。通常，如果待识别的目标语音包含第一采样率对应语音和第二采样率对应的语音，则说话人识别模型也是基于第一采样率的样本语音和第二采样率的样本语音训练得到的。

在本实施例中，通过步骤S102得到目标语音的第二声学特征后，为了能够有效提高识别结果的准确率，进一步可以将第二声学特征输入预先构建的说话人识别模型中，从而识别得到目标说话人说出目标语音的语音内容时所具有的目标表征向量，用以执行后续步骤S104。需要说明的是，目标表征向量的具体格式可根据实际情况设定，本实施例对此不进行限定，比如目标表征向量可以为一个256维的向量等。

其中，相比于帧级别的声学特征(如FBANK特征)，目标表征向量表征的是目标语音的句子级别的声学信息，其综合考虑了每一语音帧与其上下文之间的联系，能够更准确的表征出目标语音的语音信息。而说话人识别模型是利用不同采样率的语音(如第一采样率的宽带语音和第二采样率的窄带语音)共同训练得到的。因此，无论目标语音是第一采样率的语音还是第二采样率的语音，在将其对应的第二声学特征输入说话人识别模型后，均能够得到更准确的表征出目标语音的个性语音信息的目标表征向量，进而可以利用该目标表征向量，通过后续步骤S104，对目标语音所属的目标说话人进行识别，以确定出其身份信息。

接下来，本实施例将对说话人识别模型的构建过程进行介绍，如图2所示，其示出了本实施例提供的构建说话人识别模型的流程示意图，该流程包括以下步骤A1-A4：

步骤A1：获取第一采样率对应的第一样本语音和教师说话人识别模型；其中，教师说话人识别模型是基于第一采样率对应的样本语音训练得到的。

在本实施例中，为了构建说话人识别模型，需要预先进行大量的准备工作，首先，需要收集大量用户在说话时发出的第一采样率对应的语音，如宽带语音数据，比如，可以通过麦克风阵列拾音，拾音设备可以是平板电脑，亦或是智能硬件设备，如智能音响、电视和空调等，通常需要在收集了大量高频语音后，对其进行降噪处理，进而可以将收集到的各个用户的各条高频语音(如宽带语音)数据分别作为第一样本语音，同时，可以利用这些第一样本语音，训练得到教师说话人识别模型，用以执行后续步骤A2。

其中，利用第一样本语音训练得到教师说话人识别模型的实现过程具体可以包括下述步骤A11-A12，需要说明的是，在下述步骤中，本实施例是以第一样本语音为宽带样本语音为例对教师说话人识别模型的训练过程进行介绍：

步骤A11：从宽带样本语音中，提取表征宽带样本语音的声学信息的宽带声学特征。

在本实施例中，在获取到宽带样本语音后，并不能直接用于训练生成教师说话人识别模型，而是需要采用与步骤S102中提取目标语音的第二声学特征类似的方法，将目标语音替换为宽带样本语音，即可提取出各条宽带样本语音的宽带声学特征，相关之处请参见步骤S102的介绍，在此不再赘述。

步骤A12：根据宽带样本语音的宽带声学特征以及宽带样本语音对应的说话人识别标签进行训练，生成教师说话人识别模型。

在本实施例中，首先，可以选定一个神经网络作为初始化的说话人识别模型，并初始化模型参数，比如图3左侧图中所示的神经网络。需要说明的是，本实施例对该模型的具体网络结构不做限定，可以是任何形式的神经网络，比如，可以是卷积神经网络(Convolutional Neural Networks，简称CNN)、循环神经网络(Recurrent NeuralNetwork,RNN)、深度神经网络(Deep Neural Networks，简称DNN)或x-vector系统结构等。

然后，如图3所示，可以依次利用每一宽带样本语音对应的宽带声学特征对初始化的说话人识别模型(即图3左侧图中所示的神经网络)进行当前轮训练，以进行参数更新，经过多轮参数更新后(即满足训练结束条件后，比如达到预设训练轮数或模型参数变化量小于预设阈值等)，便训练得到教师说话人识别模型。

具体地，在训练过程中，一种可选的实现方式是，可以利用给定的目标函数，来构建教师说话人识别模型，并更新模型的网络参数。本实施例采用的目标函数如下：

其中，xⁱ表示第i个宽带样本语音的声学特征向量；yⁱ表示第i个宽带样本语音对应的人工标注的说话人标签；w_j和b均为模型参数，具体的，w_j表示模型分类层权重矩阵的第j列，b表示的是偏置项；M和N分别表示宽带样本语音的总数量和对应这些宽带样本语音的说话人总数量。

在使用上述公式(2)中的目标函数对教师说话人识别模型进行训练时，可以根据L_s值的变化，对模型参数(即w和b)进行不断更新，直至L_s值满足要求，比如变化幅度很小，则停止模型参数的更新，完成教师说话人识别模型的训练。

或者，也可以利用现有的已经通过宽带语音训练好的模型作为本实施例的教师说话人识别模型进行训练，只要保证是利用宽带语音的宽带声学特征训练得到即可。但是要保证后续在训练学生说话人识别模型时采用的第二采样率对应的第二样本语音(如窄带语音)与训练得到教师说话人识别模型时采用的宽带语音是属于同一样本说话人。且在学生说话人识别模型训练时输入的第二样本语音(如窄带样本语音)，其对应语音的采样率(即第二采样率)要低于教师网络输入的第一样本语音(如宽带样本语音)对应的采样率(即第一采样率)。

步骤A2：获取第二采样率对应的第二样本语音；并从第二样本语音中，提取第二样本语音的声学特征；其中，第一样本语音和第二样本语音属于同一样本说话人。

在本实施例中，为了构建说话人识别模型，除了需要获取大量第一采样率对应的第一样本语音(如宽带样本语音)，还需要获取大量第二采样率对应的第二样本语音(如窄带样本语音)，其中，第一采样率高于第二采样率。并在获取到第二样本语音(如窄带样本语音)后，采用与步骤S102中提取目标语音的第二声学特征类似的方法，将目标语音对替换为第二样本语音(如窄带样本语音)，即可提取出各条第二样本语音(如窄带样本语音)的声学特征，相关之处请参见步骤S102的介绍，在此不再赘述，进而可以利用这些第二样本语音(如窄带样本语音)和与其属于同一样本说话人的第一样本语音(如宽带样本语音)，例如同一样本说话人说出的8000Hz采样率的语音和16000Hz采样率的语音，通过执行后续步骤A3-A4，训练得到最终的说话人识别模型。

步骤A3：将第一样本语音的声学特征输入教师说话人识别模型，得到第一样本表征向量；以及将第一样本语音的声学特征和第二样本语音对应的声学特征输入初始说话人识别模型，分别得到第二样本表征向量和第三样本表征向量。

在本实施例中，通过步骤A1获取到第一样本语音(如宽带样本语音)后，可以在提取出第一样本语音(如宽带样本语音)的声学特征后，将该声学特征输入教师说话人识别模型，以识别得到第一样本语音(如宽带样本语音)对应的样本表征向量(此处将其定义为第一样本表征向量)，如图3右侧图所示。同时，在通过步骤A2获取到第二样本语音(如窄带样本语音)后，采用与步骤S102中提取目标语音的第二声学特征类似的方法，将目标语音替换为第二样本语音，即可得到第二样本语音(如窄带样本语音)的声学特征，并在对其处理后，将该声学特征和第一样本语音(如宽带样本语音)的声学特征输入初始说话人识别模型，以分别识别得到第一样本语音(如宽带样本语音)对应的样本表征向量(此处将其定义为第二样本表征向量)和第二样本语音(如窄带样本语音)对应的样本表征向量(此处将其定义为第三样本表征向量)，如图3右侧图所示。

其中，初始说话人识别模型和教师说话人识别模型的网络结构是相同的，二者均加载通过步骤A1-A2训练得到的教师说话人识别模型的模型参数(即w和b)作为初始参数。

步骤A4：根据第一样本表征向量、第二样本表征向量和第三样本表征向量，对初始说话人识别模型进行训练，生成学生说话人识别模型，并将学生说话人识别模型作为最终的说话人识别模型。

在本实施例中，通过步骤A3得到第一样本表征向量、第二样本表征向量和第三本表征向量后，进一步的可以基于表征向量的知识蒸馏思想，利用教师说话人识别模型输出的第一样本表征向量直接约束初始说话人识别模型(将其看作学生说话人识别模型)输出的第二样本表征向量和第三样本表征向量，要求这些表征向量越相似越好，以实现对初始说话人识别模型的训练，并且，在训练过程中，保证教师说话人识别模型的网路参数固定，仅更新初始说话人识别模型的网络参数，进而可以在满足预设条件，训练完成后，得到学生说话人识别模型，并将该学生说话人识别模型作为最终的说话人识别模型。

在本申请实施例的一种可能的实现方式中，本步骤A4的具体实现过程可以包括：首先计算第一样本表征向量和第二样本表征向量之间的余弦相似度，作为第一余弦损失，同时，计算第一样本表征向量和第三样本表征向量之间的余弦相似度，作为第二余弦损失；然后再计算第一余弦损失和第二余弦损失的和值，并根据该和值，对初始说话人识别模型进行训练，生成学生说话人识别模型，并将学生说话人识别模型作为最终的说话人识别模型

具体来讲，在本实现方式中，为了训练出识别效果更好的说话人识别模型，在训练过程中，第一余弦损失和第二余弦损失的和值的具体计算公式如下：

L_total＝L_COS(t_wb,s_nb)+L_cos(t_wb,s_wb) (3)

其中，L_COS(t_wb,s_nb)表示教师说话人识别网络输出的第一样本表征向量和学生说话人识别模型输出的第二样本表征向量之间的余弦相似度，即，第一余弦损失；L_cos(t_wb，s_wb)表示教师说话人识别网络输出的第一样本表征向量和学生说话人识别模型输出的第三样本表征向量之间的余弦相似度，即，第二余弦损失；L_total表示第一余弦损失和第二余弦损失的和值。

第一余弦损失和第二余弦损失的计算公式如下：

其中，表示教师说话人识别网络输出的第i个第一样本语音(如宽带样本语音)的第一样本表征向量；表示学生说话人识别网络输出的第i个样本语音(如第一个样本语音对应的宽带样本语音或第二个样本语音对应的窄带样本语音)的第二样本表征向量或第三表征向量；M表示样本语音的总数量。

在使用上述公式(3)和(4)对学生说话人识别模型进行训练时，可以根据L_total值的变化，对学生说话人识别模型参数进行不断更新，直至L_total值满足要求，比如变化幅度很小，则停止模型参数的更新，完成学生说话人识别模型的训练，并将训练得到的学生说话人识别模型作为最终的说话人识别模型。

需要说明的是，在利用教师说话人识别模型对学生说话人识别模型进行训练时，采用的是第一样本语音(如宽带样本语音)和第二样本语音(如窄带样本语音)的平行数据，如大量同一个样本说话人说出的8000HZ采样率的语音和16000HZ采样率的语音。当采集到的训练数据不能满足此条件时，还可以对已采集的第一样本语音(如宽带样本语音)进行下采样，得到平行的第二样本语音(如窄带样本语音)，以补足训练数据，进行模型训练。

这样，通过上述步骤A1-A4，利用教师说话人识别模型的输出的表征向量指导学生说话人识别模型的训练，而不需要对训练数据进行说话人标注，即可在训练完成后，保留学生说话人识别模型作为最终的说话人识别模型。这种无监督的训练方式，使得最终得到的说话人识别模型对于输入的不论是低频的(如窄带)目标语音或者高频的(如宽带)目标语音，均能够输出更准确的表征出目标语音的个性语音信息的目标表征向量，进而可通过后续步骤S104，利用该目标表征向量，对目标语音所属的目标说话人进行更准确的识别，以确定出其身份信息。

其中，既保证了后续在该说话人识别模型输入高频语音声学特征时没有效果损失，又补偿了其在输入低频语音声学特征引起的效果下降，使得仅需要该同一个说话人识别模型即可在低频和高频语音数据的识别上都能取得较好的识别效果。也就是说，通过这种师生模型学习的方式，可以在不增加说话人识别模型参数量的情况下，补偿了低频语音声学特征缺失的高频信息，提升了识别结果的准确率。

此外，在本申请实施例的一种可能的实现方式中，当通过步骤S101获取的目标语音包含有M段语音(其中，M为大于1的正整数)，则在步骤S102中，可以从这M段语音中，分别提取这M段语音的M个第一声学特征；并基于这M段语音各自的采样率，对这M个第一声学特征进行处理，得到M个第二声学特征，进而在步骤S103中，可以先将这M个第二声学特征分别输入至通过步骤A1-A4训练得到的说话人识别模型，识别得到目标说话人说出这M段语音的语音内容时分别对应的M个目标表征向量；然后，再计算出这M个目标表征向量的平均值，并将该平均值作为目标说话人对应的最终的目标表征向量，用以执行后续步骤S104。

S104：根据目标表征向量，对目标说话人进行识别，得到目标说话人的识别结果。

在本实施例中，通过步骤S103得到目标说话人说出目标语音的语音内容时具有的目标表征向量后，进一步可以通过对该目标表征向量进行处理，并根据处理结果，对目标说话人进行识别，得到目标说话人的识别结果。

具体来讲，一种可选的实现方式是，本步骤S104的具体实现过程可以包括下述步骤B1-B2：

步骤B1：计算目标说话人的目标表征向量与预设说话人的预设表征向量之间的相似度。

在本实现方式中，当需要对目标说话人的身份进行确认，以判断出目标说话人是否为某一个预设说话人时，在通过步骤S103得到目标说话人说出目标语音时具有的目标表征向量后，进一步可以计算出目标说话人的目标表征向量与预设说话人的预设表征向量之间的相似度，具体计算公式如下：

其中，v₁表示目标说话人的目标表征向量；v₂表示预设说话人的预设表征向量；cos(v₁,v₂)表示目标说话人的目标表征向量与预设说话人的预设表征向量之间的相似度，cos(v₁,v₂)的取值越高，表示目标说话人和预设说话人越相似，即，目标说话人与预设说话人是同一个人的可能性越大，反之，cos(v₁，v₂)的取值越小，表示目标说话人和预设说话人越不相似，即，目标说话人与预设说话人是同一个人的可能性越小。

步骤B2：判断相似度是否高于预设阈值，若是，则确定目标说话人为预设说话人；若否，则确定目标说话人不是预设说话人。

在本实现方式中，通过步骤B1计算出目标说话人的目标表征向量与预设说话人的预设表征向量之间的相似度cos(v₁，v₂)后，进一步需要判断该相似度cos(v₁，v₂)是否高于预设阈值，若是，则确定目标说话人为预设说话人；若否，则确定目标说话人不是预设说话人。

其中，预设阈值指的是用于界定目标说话人和预设说话人是否为同一个人的临界值，具体取值可根据实际情况进行设定，本申请实施例对此不进行限定，比如可以将预设阈值取值为0.8、或者也可以是将其设定为等错误率对应的值、或者也可以是最小检测代价函数对应的值、再或者也可以是根据实际应用场景凭经验确定的其他值等。当目标说话人的目标表征向量与预设说话人的预设表征向量之间的相似度超过该临界值，则表明二者为同一个人，反之，当目标说话人的目标表征向量与预设说话人的预设表征向量之间的相似度未超过该临界值，则表明二者并不是同一个人。

或者，另一种可选的实现方式是，本步骤S104的具体实现过程还可以包括下述步骤C1-C2：

步骤C1：计算目标说话人的目标表征向量与N个预设说话人的N个预设表征向量之间的N个相似度；其中，N为大于1的正整数。

在本实现方式中，当需要对目标说话人进行辨认，以识别出目标说话人是N(其中，M为大于1的正整数)个预设说话人中哪一个预设说话人时，在通过步骤S103得到目标说话人说出目标语音时具有的目标表征向量后，进一步可以利用上述公式(5)分别计算出目标说话人的目标表征向量与这N个预设说话人的N个预设表征向量之间的N个相似度，用以执行后续步骤C2。

步骤C2：从N个相似度中选择出最大相似度，并确定目标说话人为最大相似度对应的预设说话人。

在本实现方式中，通过步骤C1计算出目标说话人的目标表征向量与N个预设说话人的N个预设表征向量之间的N个相似度后，进一步可以从这N个相似度中选择出最大相似度，并确定目标说话人为该最大相似度对应的预设说话人。

举例说明：假设有三个预设说话人甲、乙、丙，且分别计算出目标说话人的目标表征向量与预设说话人甲的预设表征向量之间的相似度为0.1、目标说话人的目标表征向量与预设说话人乙的预设表征向量之间的相似度为0.84、目标说话人的目标表征向量与预设说话人丙的预设表征向量之间的相似度为0.22，则可以从中确定最高相似度为0.84，且根据该最高相似度为0.84，得到的识别结果为目标说话人的身份就是预设说话人乙。

这样，利用预先构建的说话人识别模型，既能处理低频语音又能处理高频语音，在识别时也不需要对语音进行上采样、下采样或带宽扩展等操作，效果优于现有的识别方案。同时，通过上述步骤A1-A4，利用教师说话人识别模型的输出的表征向量指导学生说话人识别模型的训练，也不需要对训练数据进行说话人标注，这种无监督的训练方式，降低了人工标注数据成本，能扩展到大规模训练数据集，从而充分发挥了深度学习技术优势。

并且，在模型训练阶段，设置教师说话人识别模型和学生说话人识别模型的网络结构完全相同，先用高频语音的声学特征训练教师说话人识别模型，然后两者都加载训练好的教师说话人识别模型的网络参数，再在训练时固定教师说话人识别模型的网络参数，只更新学生说话人识别模型的网络参数，并采用COS准则，使得输入低频语音的声学特征和高频语音的声学特征的学生说话人识别模型输出的表征向量，同时跟输入高频语音的声学特征的教师说话人识别模型输出的表征向量越相似越好。进而训练完成后，保留学生说话人识别模型作为最终的混合带宽的说话人识别模型。既保证了后续在该说话人识别模型输入高频语音的声学特征(如宽带声学特征)时没有效果损失，又补偿了其在输入高频语音的声学特征(如窄带声学特征)引起的效果下降。

综上，本实施例提供的一种说话人识别方法，首先获取待识别的目标语音，确定目标语音的采样率，提取目标语音的第一声学特征；并基于目标语音的采样率，对第一声学特征进行处理，得到第二声学特征，然后再将第二声学特征输入至预先构建的说话人识别模型，识别得到目标说话人的目标表征向量；其中，说话人识别模型是利用不同采样率的语音共同训练得到的；接着，可以根据目标表征向量，对目标说话人进行识别，得到目标说话人的识别结果。可见，本申请实施例通过将目标语音对应的第二声学特征输入至预先构建的说话人识别模型，既保证了输入高频语音声学特征时没有效果损失，又补偿了输入低频语音声学特征引起的效果下降，便可以预测出目标说话人的目标表征向量，从而在不增加说话人识别模型参数量的情况下，补偿了低频语音声学特征缺失的高频信息，利用同一个说话人识别模型即可在低频和高频目标语音数据上均取得较好的识别效果，进而提升了说话人识别结果的准确率。

第二实施例

本实施例将对一种说话人识别装置进行介绍，相关内容请参见上述方法实施例。

参见图4，为本实施例提供的一种说话人识别装置的组成示意图，该装置400包括：

第一获取单元401，用于获取待识别的目标语音；并确定所述目标语音的采样率；

处理单元402，用于从所述目标语音中，提取第一声学特征；并基于所述目标语音的采样率，对所述第一声学特征进行处理，得到第二声学特征；

第一识别单元403，用于将所述第二声学特征输入至预先构建的说话人识别模型，识别得到目标说话人的目标表征向量；所述说话人识别模型是利用不同采样率的语音共同训练得到的；

第二识别单元404，用于根据所述目标表征向量，对所述目标说话人进行识别，得到所述目标说话人的识别结果。

在本实施例的一种实现方式中，所述装置还包括：

第二获取单元，用于获取第一采样率对应的第一样本语音和教师说话人识别模型；所述教师说话人识别模型是基于第一采样率的语音训练得到的；

在本实施例的一种实现方式中，所述处理单元402包括：

第一处理子单元，用于当确定所述目标语音的采样率为所述第一采样率时，直接将所述第一声学特征作为第二声学特征；

第二处理子单元，用于当确定所述目标语音的采样率为所述第二采样率时，对所述第一声学特征进行处理，得到第二声学特征。

在本实施例的一种实现方式中，所述第一采样率高于所述第二采样率，所述第一声学特征包括对数梅尔滤波器组FBANK特征；所述第二处理子单元包括：

在本实施例的一种实现方式中，所述获得单元具体用于：

将所述第二样本语音对应的声学特征进行所述处理后，再输入所述初始说话人识别模型。

在本实施例的一种实现方式中，所述训练单元包括：

第一计算子单元，用于计算所述第一样本表征向量和所述第二样本表征向量之间的余弦相似度，作为第一余弦损失；

第二计算子单元，用于计算所述第一样本表征向量和所述第三样本表征向量之间的余弦相似度，作为第二余弦损失；

在本实施例的一种实现方式中，所述目标语音包含M段语音；所述M为大于1的正整数；所述处理单元402具体用于：

所述第一识别单元403包括：

识别子单元，用于将所述M个第二声学特征分别输入至预先构建的说话人识别模型，识别得到目标说话人对应的M个目标表征向量；

第三计算子单元，用于计算所述M个目标表征向量的平均值，并将所述平均值作为所述目标说话人对应的最终的目标表征向量。

在本实施例的一种实现方式中，所述第二识别单元404包括：

第四计算子单元，用于计算所述目标说话人的目标表征向量与预设说话人的预设表征向量之间的相似度；

在本实施例的一种实现方式中，所述第二识别单元404包括：

第五计算子单元，用于计算所述目标说话人的目标表征向量与N个预设说话人的N个预设表征向量之间的N个相似度；所述N为大于1的正整数；

第二确定子单元，用于从所述N个相似度中选择出最大相似度，并确定所述目标说话人为所述最大相似度对应的预设说话人。

进一步地，本申请实施例还提供了一种说话人识别设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述说话人识别方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述说话人识别方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述说话人识别方法的任一种实现方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

24页详细技术资料下载

一种说话人识别方法、装置、存储介质及设备

相关技术

网友询问留言