一种基于lstm的电声门图语音转换方法

文档序号：1447783 发布日期：2020-02-18 浏览：18次 >En<

阅读说明：本技术 一种基于lstm的电声门图语音转换方法 (Electroglottography voice conversion method based on LSTM ) 是由陈立江王龙张井合于 2019-11-04 设计创作，主要内容包括：本发明提出了一种基于LSTM的电声门图语音转换方法,首先对电声门图提取特征并拼接,进一步对转换语音和标准语音的相似度进行设计,进一步对音素预测模型进行训练,最后使用训练好的模型由电声门图转换而得的特征序列对当前音素进行预测并以此合成语音。本发明通过对电声门图特征的提取和拼接,并结合LSTM网络和标准语音数据拆解得到的标准音素序列,得到一个以电声门图特征序列为输入,输出预测当前音素的预测模型,为设计训练模型所使用的损失函数,通过衡量标准语音和转换语音相似度的计算方法,解决了难以评估训练模型预测效果的问题,同时采用Klatt共振峰语音合成器,配置共振峰滤波器得到真实语音。(The invention provides an electroacoustic glottal image voice conversion method based on LSTM, which comprises the steps of firstly extracting features of an electroacoustic glottal image and splicing, further designing the similarity of converted voice and standard voice, further training a phoneme prediction model, finally predicting a current phoneme by using a feature sequence converted by the electroacoustic glottal image through the trained model and synthesizing voice. The invention extracts and splices the characteristic of the electroglottography, and combines the LSTM network and the standard phoneme sequence obtained by the disassembly of the standard voice data to obtain a prediction model which takes the electroglography characteristic sequence as input and outputs and predicts the current phoneme, and solves the problem of difficult evaluation of the prediction effect of the training model by a calculation method for measuring the similarity of the standard voice and the converted voice for designing the loss function used by the training model.)

一种基于LSTM的电声门图语音转换方法

技术领域

本发明设计一种基于LSTM的电声门图语音转换方法，该方法可以通过获取当前时刻和过去时刻的电声门图数据的输入，预测当前应合成的语音，属于计算机领域。

背景技术

电声门图(Electroglottograph，简称EGG)是通过放置在喉部的两个电极采集到的说话时喉部的声带运动信息，与人发出的语音信息具有极高的相关性，从中提取特征可以用来恢复出对应的语音信息。

共振峰语音合成技术是目前较成熟的语音合成技术。共振峰语音合成利用声道对语音激励的共鸣特性，通过提取声道每个共振峰频率及其带宽作为参数，可以构成共振峰滤波器。配置共振峰滤波器的参数，即可以控制合成不同的语音。

在实际应用中，不少患者由于不同原因难以发出声音，但其声带依然能够振动，如果可以通过提取患者的电声门图来合成语音，则可以极大帮助患者恢复交流的能力。

发明内容

为了从电声门图数据中恢复语音数据，本发明提出了一种基于LSTM的电声门图语音转换方法。

本发明提出的一种基于LSTM的电声门图语音转换方法，其方法步骤为，

步骤A：对电声门图提取特征并拼接。

电声门图通过检测声带振动时的阻抗来检测声带闭合分开的情况，反映声带振动的规律性，其中包含着与语音相关的丰富的特征。为实现对语音的预测，选择提取电声门图信号的基频，单位时间能量，频率微扰，振幅微扰作为训练特征。电声门图信号是以时间为轴的一维信号，将其以20ms的长度分帧，计算该帧内电声门图的基频，单位时间能量，频率微扰，振幅微扰，再与前9帧计算的特征进行拼接，即可将电声门图信号转换成40维特征序列。

步骤B：对转换语音和标准语音的相似度进行设计。

设计一种计算合成语音与标准语音相似度的方法，所用来计算相似度采用的标准语音，并非是真实语音的采样数据，而是由标准语音分解得到的音素序列；合成语音也不是真实的合成语音数据，而是模型输出的音素预测序列。通过将标准语音和合成语音以音素的形式序列化，则将语音合成的问题转化成了对当前时刻音素预测的问题。合成语音与标准语音的相似度计算问题，即转化成了标准音素序列与预测音素序列的相似度计算问题。采用交叉熵作为计算两序列相似度的方式，交叉熵越大，相似度越低。

步骤C：对音素预测模型进行训练。

应用中还提供了一种基于LSTM(Long-short term memory)的音素预测模型设计方法，LSTM模型是一种特殊的RNN模型。在传统的RNN模型中，模型参数的更新使用的是随时间反向传播算法(BPTT)，当时间间隔变长时，需要回传的残差会呈现指数下降，造成梯度弥散的问题，导致网络参数更新缓慢，难以收敛。而LSTM网络的提出正是为了解决传统RNN网络难以实现长期记忆的问题。

首先准备大量语料，从语料中提取音素序列作为标准数据，并从多个患者获得语料相应的电声门图数据，将其转化成特征序列作为模型的训练数据。结合电声门图信号产生的特征序列与LSTM网络，可实现预测模型的训练和预测模型对音素的预测。

在模型的训练中，将一批语料对应的电声门图特征序列输入到LSTM网络中，进而得到一个音素预测序列，并使用交叉熵作为损失函数(LossFunction)，结合反向传播和学习率自适应算法对模型进行优化。

步骤D：使用训练好的模型由电声门图转换而得的特征序列对当前音素进行预测并以此合成语音。

在实际应用中采用的语音合成器是Klatt共振峰语音合成器。Klatt共振峰语音合成器通过对六个共振峰的控制，产生各种各样的语音。该合成器使用串联支路产生元音，使用并联支路产生辅音，配置Klatt合成器里并联滤波器与串联滤波器的参数与清浊音开关的状态，即可合成相应的语音。本申请预先将汉语普通话32个基本音素及其相应的Klatt合成器参数作为键值对存入字典，根据预测模型对当下因素的预测，直接从字典中读出该音素的配置参数对Klatt合成器进行配置，即得到了该音素对应的真实语音，实现了从电声门图信号到真实语音信号的转换。

本发明提出了一种基于LSTM的电声门图语音转换方法，首先对电声门图提取特征并拼接，进一步对转换语音和标准语音的相似度进行设计，进一步对音素预测模型进行训练，最后使用训练好的模型由电声门图转换而得的特征序列对当前音素进行预测并以此合成语音。本发明通过对电声门图特征的提取和拼接，并结合LSTM网络和标准语音数据拆解得到的标准音素序列，得到一个以电声门图特征序列为输入，输出预测当前音素的预测模型，为设计训练模型所使用的损失函数，通过衡量标准语音和转换语音相似度的计算方法，解决了难以评估训练模型预测效果的问题，同时采用Klatt共振峰语音合成器，配置共振峰滤波器得到真实语音。

附图说明

图1是本发明提出的基于LSTM的电声门图语音转换方法整体流程图；

图2是本发明提出的电声门图信号转换为特征序列的流程图；

图3是本发明提出的转换语音与标准语音差异性计算流程图；

图4是本发明提出的音素预测模型训练过程流程图；

图5是本发明提出的根据预测音素与Klatt合成器进行真实与语音合成的流程图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。说明书后续描述为实施本发明的较佳实施方式，然所述描述乃以说明本发明的一般原则为目的，并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。

以下结合附图对本发明作进一步详细说明，但不作为对本发明的限定。

实施例

本发明提供的一种基于LSTM的电声门图语音转换方法，其方法步骤在于，

步骤A：对电声门图提取特征并拼接；

步骤B：对转换语音和标准语音的相似度进行设计；

步骤C：对音素预测模型进行训练；

步骤D：使用训练好的模型由电声门图转换而得的特征序列对当前音素进行预测并以此合成语音。

如附图1所示，基于LSTM的电声门图语音转换方法，首先从电声门图提取特征转化为四十维的特征序列，将特征序列输入模型，同时将同时间段对应的音素序列作为标签，以标准音素序列与预测序列的交叉熵作为损失函数对模型进行训练，直到模型的损失函数收敛，即完成预测模型的训练。进行电声门图与语音的转化时，亦要先将电声门图转化为特征序列输入进预测模型，预测模型输出预测音素，再从字典中找出该音素对应的Klatt合成器配置参数对Klatt合成器进行配置，即可产生电声门图对应的真实语音。

如附图2所示,步骤A中电声门图特征提取与拼接的方法，首先对电声门图信号进行采样，采样率为8KHz。将电声门图采样数据以20ms的长度进行分帧，滤波处理，计算每一帧基频，单位时间能量，频率微扰，幅度微扰，并将该帧计算的特征与前9帧计算结果进行拼接，组成该帧对应的40维特征向量。

如附图3所示，步骤B中转换语音和标准语音相似度计算设计。首先将标准语音转化成标准汉语普通话音素序列，并对音素进行独热编码，即把一个音素转换成一个32维的向量。预测模型对当前音素进行预测，可得到一个32维的概率向量，取概率最大的音素作为输出。将两个向量做交叉熵，可用来衡量转换语音与标准语音相似度。交叉熵越小，说明零序列相似度越高，模型的预测效果越好。

如附图4所示，步骤C中对音素预测模型进行训练。首先将数据库中的电声门图数据和语料转化为电声门图特征序列和标准音素序列，电声门图特征序列作为预测模型的训练输入，将标准音素作为训练标签。使用步骤B中介绍的方法设计损失函数。在模型的参数优化上，本模型采用批训练的方法，每次随机选出的128句话作为一批数据进行训练，并采用自适应矩估计的方法(adaptive moment estimation)对学习率进行更新。

步骤D中使用训练好的模型由电声门图转换而得的特征序列对当前音素进行预测并以此合成语音。如附图5所示，给出了将预测模型预测所得的音素转化为真实语音的流程。本申请使用的语音合成装置为Klatt共振峰合成器。Klatt共振峰合成器是一种混合型语音合成器，通过配置其串联滤波器与并联滤波器的参数可以合成不同的语音。本方法预先将32种标准汉语普通话基本音素及其相应的Klatt共振峰合成器配置参数组成键值对存入字典。进行电声门图语音转换时，由预测音素作为键将配置参数从字典中取出，配置Klatt共振峰合成器，即得到音素对应的语音。

上述说明示出并描述了本发明的优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

8页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：语音合成方法、装置以及新闻播报方法、系统

一种基于lstm的电声门图语音转换方法

相关技术

网友询问留言