一种基于音素对数似然比的时延神经网络的声纹识别方法

文档序号：70660 发布日期：2021-10-01 浏览：25次 >En<

阅读说明：本技术 一种基于音素对数似然比的时延神经网络的声纹识别方法 (Voiceprint recognition method of time delay neural network based on phoneme log-likelihood ratio ) 是由刘俊南薛辉缪蔚郭鹏齐心于 2021-07-02 设计创作，主要内容包括：一种基于音素对数似然比的时延神经网络的声纹识别方法,所述方法包括步骤：获取语音数据；对所述语音数据进行预处理；使用音素识别器对预处理后的所述语音数据提取音素后验概率向量；使用预处理后的所述语音数据训练时延神经网络并提取X-vector辨别矢量；使用所述音素后验概率向量训练混合高斯模型-通用背景模型；使用所述混合高斯模型-通用背景模型计算I-vector辨别矢量；消除I-vector特征空间中信道信息影响；使用所述X-vector辨别矢量和所述I-vector辨别矢量生成新分类器；将X-vector特征和I-vector特征输入所述新分类器；获取所述新分类器的声纹信息输出。本申请能够对声纹的信息进行快速准确的识别,提升系统的鲁棒性,且可以跨平台使用。(A voiceprint recognition method for a time-delay neural network based on phoneme log-likelihood ratio, the method comprising the steps of: acquiring voice data; preprocessing the voice data; extracting a phoneme posterior probability vector from the preprocessed voice data by using a phoneme recognizer; training a time delay neural network by using the preprocessed voice data and extracting an X-vector distinguishing vector; training a Gaussian mixture model-a generic background model using the phoneme posterior probability vector; calculating an I-vector discrimination vector using the Gaussian mixture model-general background model; eliminating the influence of channel information in an I-vector characteristic space; generating a new classifier using the X-vector discrimination vector and the I-vector discrimination vector; inputting an X-vector feature and an I-vector feature into the new classifier; and acquiring and outputting the voiceprint information of the new classifier. The method and the device can be used for rapidly and accurately identifying the information of the voiceprint, improve the robustness of the system and can be used in a cross-platform mode.)

技术领域

本发明属于语音识别

技术领域

，具体涉及一种基于音素对数似然比的时延神经网络的声纹识别方法。

背景技术

随着模式识别、人工智能等学科的快速发展，人类发展进入了智能化时代。通过语音进行人机交互已经渐渐成为发展的趋势，其中声纹识别是指利用语音片段中所蕴含的说话人身份相关信息加以识别进行身份判定。声纹识别也是语音识别领域的一个重要分支，是计算机分析处理一段语音自动判别其所属人身份的技术。

传统的声纹识别技术包括语音信号特征处理和提取、声学模型以及判别模型的训练，但在复杂环境中传统的方法如基于统计模型的全差异空间分析方法效果大打折扣，而随着硬件水平的提升神经网路技术的普及，使得基于神经网络模型发展起来的端到端的声纹识别系统在当前声纹识别领域获得了广泛的应用并有着较好的发展前景，其中时延神经网络模型取得了极高的准确率。

基于传统的声纹识别往往对设备的计算和存储的要求较高，且对环境要求极高，因此需要新方法改进这个缺陷以便更好地适用于各种复杂环境以及改进声纹识别技术以降低端到端的识别实现难度。

发明内容

为解决上述问题，本发明提供了一种基于音素对数似然比的时延神经网络的声纹识别方法，所述方法包括步骤：

获取语音数据；

对所述语音数据进行预处理；

使用音素识别器对预处理后的所述语音数据提取音素后验概率向量；

使用预处理后的所述语音数据训练时延神经网络并提取X-vector辨别矢量；

使用所述音素后验概率向量训练混合高斯模型-通用背景模型；

使用所述混合高斯模型-通用背景模型计算I-vector辨别矢量；

消除I-vector特征空间中信道信息影响；

使用所述X-vector辨别矢量和所述I-vector辨别矢量生成新分类器；

将X-vector特征和I-vector特征输入所述新分类器；

获取所述新分类器的声纹信息输出。

优选地，所述对所述语音数据进行预处理包括步骤：

对所述语音数据进行声学特征提取；

对所述语音数据进行静音检测；

对所述语音数据进行语音增强。

优选地，所述使用音素识别器对预处理后的所述语音数据提取音素后验概率向量包括步骤：

获取音素识别器；

对所述音素识别器进行音素对数似然比训练；

获取预处理后的所述语音数据；

将所述语音数据输入所述音素识别器；

获取所述音素识别器输出的所述音素后验概率向量。

优选地，所述使用预处理后的所述语音数据训练时延神经网络并提取X-vector辨别矢量包括步骤：

利用神经网络提取预处理后的所述语音数据的帧级特征；

通过池化层提取预处理后的所述语音数据的段级信息；

将预处理后的所述语音数据映射到固定维度超向量并得到固定维度语音；

使用所述固定维度语音训练TDNN时延神经网络；

使用所述TDNN时延神经网络提取预处理后的所述语音数据的X-vector辨别矢量。

优选地，所述使用所述音素后验概率向量训练混合高斯模型-通用背景模型包括步骤：

利用语料训练混合高斯模型-通用背景模型；

对所述混合高斯模型-通用背景模型进行最大后验概率算法自适应；

通过EM算法迭代优化隐藏参数。

优选地，所述使用所述混合高斯模型-通用背景模型计算I-vector辨别矢量包括步骤：

利用混合高斯模型-通用背景模型通过最大后验概率算法自适应算法获得训练语音音素对数似然比特征样本的混合高斯超向量；

通过前向-后向算法参数估计方法计算全差异空间矩阵；

获取I-vector辨别矢量提取器；

使用所述I-vector辨别矢量提取器对待识别语音的音素对数似然比特征提取I-vector辨别矢量特征的训练集和待识别集。

优选地，所述消除I-vector特征空间中信道信息影响包括步骤：

获取概率线性判别分析法模型；

将所述I-vector辨别矢量输入所述概率线性判别分析法模型。

优选地，所述概率线性判别分析法模型的表达式为：

其中，xij表示概率线性判别分析法模型，u表示所有I-vector辨别矢量向量的均值，β_i表示第i个说话人的辨别因子，表示一个指定维度的说话人子空间，ε_ij表示包含信道影响的残差。

本申请能够对声纹的信息进行快速准确的识别，提升系统的鲁棒性，且可以跨平台使用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于音素对数似然比的时延神经网络的声纹识别方法的流程示意图；

图2为本发明提供的一种基于音素对数似然比的时延神经网络的声纹识别方法中基于深度无监督学习语音增强流程示意图；

图3为本发明提供的一种基于音素对数似然比的时延神经网络的声纹识别方法中音素识别器训练流程示意图；

图4为本发明提供的一种基于音素对数似然比的时延神经网络的声纹识别方法中HMM-DNN训练结构示意图；

图5为本发明提供的一种基于音素对数似然比的时延神经网络的声纹识别方法中X-vector声纹识别原理图；

图6为本发明提供的一种基于音素对数似然比的时延神经网络的声纹识别方法中时延神经网络TDNN原理示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1-6，在本申请实施例中，本发明提供了一种基于音素对数似然比的时延神经网络的声纹识别方法，所述方法包括步骤：

S1：获取语音数据；

在本申请实施例中，可以使用语音数据收集装置获取语音数据。

S2：对所述语音数据进行预处理；

在本申请实施例中，所述对所述语音数据进行预处理包括步骤：

对所述语音数据进行声学特征提取；

对所述语音数据进行静音检测；

对所述语音数据进行语音增强。

在本申请实施例中，当对所述语音数据进行预处理时，具体地，通过对接收的输入语音信号提取声学特征，所述声学特征包括MFCC特征、FilterBank特征或PLP特征其中的任意一种；对输入的语音数据使用基于信噪比的检测技术进行处理，去除音频信号中的非语音段，并使用混合多环境混响的方法对语音数据进行增强，其中静音检测是通过EM算法迭代训练获得可以划分静音与有消音的GMM(混合高斯模型)模型；采用深度学习算法可以极大消除音频中的各类背景噪声，如图2所示，为基于深度无监督学习语音增强流程示意图。并且可以通过对纯净数据集以注入噪声的方式进行数据增强，并以此通过使用深度神经网络来学习一个含噪语音到干净语音的非线性函数，以便达到去噪或者去混响的目的。更确切地说，注入了噪声的训练可以使目标函数得到对输入变化更不敏感的最优解。

S3：使用音素识别器对预处理后的所述语音数据提取音素后验概率向量；

在本申请实施例中，所述使用音素识别器对预处理后的所述语音数据提取音素后验概率向量包括步骤：

获取音素识别器；

对所述音素识别器进行音素对数似然比训练；

获取预处理后的所述语音数据；

将所述语音数据输入所述音素识别器；

获取所述音素识别器输出的所述音素后验概率向量。

在本申请实施例中，当使用音素识别器对预处理后的所述语音数据提取音素后验概率向量时，对经预处理后的语音数据通过音素识别器提取帧级别的音素后验概率向量；利用如图3所示的PLLR(音素对数似然比)模块流程示意图，具体包括如下步骤：PLLR(音素对数似然比)训练部分，其原理是使用大量无关语料训练音素识别器，该音素识别器将语音信号识别为帧级的音素后验概率向量，但并不解码出音素串或者音素网格，而是将这些音素后验概率向量进行一系列变换处理，得到如同声学层特征一样的帧级形式.该特征既拥有高于声学层和音素层的声纹鉴别性信息，又可以利用声学层优秀的建模方法。如图4所示，为本发明所使用的HMM-DNN(隐马尔可夫模型-深度神经网络)结构示意图。音素识别器可以使用主流的语音识别进行训练，训练出来的音素识别器在使用上有着不受声纹限制的优势；提取输入的语音信号特征，该特征是帧级别的音素后验概率向量，设每一帧识别为一个k维的音素后验概率向量[b(1),b(2),…,b(k)]，并对该向量做规整操作获得每个音素后验概率的PLLR(音素对数似然比)，其计算如下：

其中，b(k)代表音素后验概率。

S4：使用预处理后的所述语音数据训练时延神经网络并提取X-vector辨别矢量；

在本申请实施例中，所述使用预处理后的所述语音数据训练时延神经网络并提取X-vector辨别矢量包括步骤：

利用神经网络提取预处理后的所述语音数据的帧级特征；

通过池化层提取预处理后的所述语音数据的段级信息；

将预处理后的所述语音数据映射到固定维度超向量并得到固定维度语音；

使用所述固定维度语音训练TDNN时延神经网络；

使用所述TDNN时延神经网络提取预处理后的所述语音数据的X-vector辨别矢量。

在本申请实施例中，当使用预处理后的所述语音数据训练时延神经网络并提取X-vector辨别矢量时，具体地，利用固定长度语音特征序列训练帧级别的时延神经网络，时延神经网络是用于时序分析的一种人工神经网络模型，该模型提取X-vector辨别矢量，可以有效挖掘时序数据的时序关联性。如图5所示为X-vector声纹识别原理图，该模型利用神经网络进行提取帧级特征，然后通过池化层提取段级embedding信息，将语音映射到一个固定维度的超向量，从而可以通过欧氏距离或者余弦相似度来衡量声纹的相似度。然后使用固定维度语音特征训练TDNN时延神经网络，其原理图如图6所示。时延神经网络由时延神经元构成的。每一个时延神经元有M个输入{I₁(t),I₂(t),…,I_M(t)}和对应的一个输出{O(t)}。每个输入I_i(t)包含N步时延，用以保存当前时刻之前的N个时刻的输入信息I_i(t-d),d＝1,2,…,N，其对应的权重w_ij,j＝1,2,…,N反映不同时刻对当前时刻数据的影响程度。时延神经元计算公式如下：

其中，b_i为第i个输入的偏置；f为激励函数，一般选用sigmoid函数。可以理解为神经元输出由每一个输入的当前时刻及其前N个时刻的时序数据共同决定，因此时延神经网络可以有效处理非线性动态时序问题。提取X-vector辨别矢量特征，使用时延神经网络模型对待识别语音的音频特征提取更具有辨别性质的X-vector(辨别矢量)特征的训练集和待识别集。

S5：使用所述音素后验概率向量训练混合高斯模型-通用背景模型；

在本申请实施例中，所述使用所述音素后验概率向量训练混合高斯模型-通用背景模型包括步骤：

利用语料训练混合高斯模型-通用背景模型；

对所述混合高斯模型-通用背景模型进行最大后验概率算法自适应；

通过EM算法迭代优化隐藏参数。

在本申请实施例中，当使用所述音素后验概率向量训练混合高斯模型-通用背景模型时，训练一个稳定的高阶并与说话人及信道均无关的GMM-UBM(混合高斯模型-通用背景)模型，可以有效地解决声纹识别中注册语音不充足的问题，具体训练方法如下：利用语料训练GMM-UBM(混合高斯模型的通用背景模型)，其公式如下：

其中，x_j为一个N维的观测数据特征矢量；w_k为第k个高斯分量的混合权重，p(x_j|μ_k,Σ_k)为一个N维的高斯函数，u_k代表第k维高斯均值，表示第k个分模型的协方差平方，w_k为第k个高斯分量的混合权重；然后通过最大后验概率算法自适应后得到一个与说话人无关的特征分布，将UBM的每个高斯分布使用EM算法向目标声纹实际数据进行微调；通过EM算法迭代优化隐藏参数从而训练得到GMM-UBM(混合高斯模型-通用背景)模型，该模型是一个高阶的GMM(混合高斯模型)，维度通常能够达到1024-4096，其参数更新步骤如下：

E步：依据3-1的高斯混合模型参数，计算分模型k对观测数据x^(j)的响应度，如下式所示：

其中，x_j为一个N维的特征矢量；w_k为第k个高斯分量的混合权重，p(x _j|μ_k,Σ_k)为一个N维的高斯函数。

M步：更新高斯混合模型参数，参数更新公式如下所示：

其中，u_k代表第k维高斯均值，表示第k个分模型的协方差平方，w_k为第k个高斯分量的混合权重，γ_jk表示第k个分模型对观测数据的响应强度，x_j为一个N维的特征矢量。

S6：使用所述混合高斯模型-通用背景模型计算I-vector辨别矢量；

在本申请实施例中，所述使用所述混合高斯模型-通用背景模型计算I-vector辨别矢量包括步骤：

利用混合高斯模型-通用背景模型通过最大后验概率算法自适应算法获得训练语音音素对数似然比特征样本的混合高斯超向量；

通过前向-后向算法参数估计方法计算全差异空间矩阵；

获取I-vector辨别矢量提取器；

使用所述I-vector辨别矢量提取器对待识别语音的音素对数似然比特征提取I-vector辨别矢量特征的训练集和待识别集。

在本申请实施例中，当使用所述混合高斯模型-通用背景模型计算I-vector辨别矢量时，得到输入的不同声纹语音信号的固定维数的低维空间矢量，即I-vector辨别矢量(根据该矢量认为说话人和信道的影响都包含在一个总变化空间T中)，该步骤具体包含如下两个步骤：进行I-vector(辨别矢量)训练，具体包括：利用GMM-UBM(混合高斯模型-通用背景)模型通过MAP自适应的方法获得训练语音PLLR(音素对数似然比)特征样本的混合高斯超向量，然后通过Baum-Welch(前向-后向算法)参数估计方法计算全差异空间矩阵，得到I-vector(辨别矢量)提取器，其中Baum-Welch算法需要估计参数公式如下：

M＝m+Tw，

其中，T是总变化矩阵，w是符合高斯分布的隐变量i-vector，M是通过高斯混合模型-通用背景模型计算的均值超矢量；进行I-vector(辨别矢量)提取，具体包括：使用I-vector(辨别矢量)提取器对待识别语音的PLLR(音素对数似然比)特征提取更具有辨别性质的I-vector(辨别矢量)特征的训练集和待识别集；

S7：消除I-vector特征空间中信道信息影响；

在本申请实施例中，所述消除I-vector特征空间中信道信息影响包括步骤：

获取概率线性判别分析法模型；

将所述I-vector辨别矢量输入所述概率线性判别分析法模型。

在本申请实施例中，所述概率线性判别分析法模型的表达式为：

在本申请实施例中，当消除I-vector特征空间中信道信息影响时，生成PLDA(概率线性判别分析法)模型，是针对i-vector在信道影响的情况下存在离群点的问题，在PLDA中假设说话人隐变量和信道隐变量都服从说话人t分布而非高斯分布。该方法可以消除I-vector(辨别矢量)特征空间中信道信息的影响，PLDA(概率线性判别分析法)是一种信道补偿的方法，将I-vector(辨别矢量)特征分解为语音信号以及随机背景噪声后得到其PLDA(概率线性判别分析法)模型，其计算公式为：

其中，u表示所有I-vector(辨别矢量)向量的均值，β_i表示第i个说话人的辨别因子，满足标准正太分布N(0,I)，矩阵表示一个指定维度的说话人子空间，ε_ij表示包含信道影响的残差且是一个正态分布N(0,Σ)。

S8：使用所述X-vector辨别矢量和所述I-vector辨别矢量生成新分类器；

S9：将X-vector特征和I-vector特征输入所述新分类器；

S10：获取所述新分类器的声纹信息输出。

在本申请实施例中，使用boosting(提升法)算法对不同提取器提取到的声纹特征进行融合增强的操作，生成一个更具有声纹分类效果的新分类器，boosting(提升法)算法是利用多个分类器结合而组成一个新的分类器，初始每个分类器权重相同，根据计算错判率进一步算出每个分类器的权重，更新权重迭代计算直至收敛，则训练完成融合模型，该模块对I-vector和X-vector特征作为输入，输出已经分类完成的声纹信息。至此整个方法流程完成。

本申请能够对声纹的信息进行快速准确的识别，提升系统的鲁棒性，且可以跨平台使用。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

14页详细技术资料下载

一种基于音素对数似然比的时延神经网络的声纹识别方法

相关技术

网友询问留言