一种面向边缘设备的语音识别-合成联合的建模方法

文档序号：1467470 发布日期：2020-02-21 浏览：17次 >En<

阅读说明：本技术 一种面向边缘设备的语音识别-合成联合的建模方法 (Edge-device-oriented speech recognition-synthesis combined modeling method ) 是由王海秦晨光张晓� 刘艺赵子鑫高岭任杰郑杰于 2019-09-09 设计创作，主要内容包括：一种面向边缘设备的语音识别?合成联合的建模方法，通过对实时性计算的研究，边缘计算策略的分布以及娱乐游戏“拷贝不走样”的启发，后端融合语音识别和语音合成技术的模型迭代方法。在这基于音频处理领域的语音增强功能构建实时高效处理模块，基于语音识别技术和语音合成技术构建针对中国方言的语音识别及合成迭代模型，充分利用语音技术的特性实现兼具识别、合成、高效的实时性方言处理模型，有效利用边缘环境更加丰富的处理能力，将语音识别和语音合成技术组合起来，设计一个功能更丰富，性能更加鲁棒的语音模型。(A speech recognition-synthesis combined modeling method for edge equipment is a model iteration method which integrates speech recognition and speech synthesis technologies at the back end through research on real-time calculation, distribution of edge calculation strategies, inspiring of 'copy is not out of shape' of an entertainment game. The voice enhancement function based on the audio processing field is used for constructing a real-time high-efficiency processing module, a voice recognition and synthesis iteration model aiming at Chinese dialects is constructed based on a voice recognition technology and a voice synthesis technology, the characteristics of the voice technology are fully utilized to realize a dialects processing model with the characteristics of recognition, synthesis and high efficiency, the processing capability of the edge environment is effectively utilized, the voice recognition technology and the voice synthesis technology are combined, and a voice model with more abundant functions and more robust performance is designed.)

技术领域

本发明属于边缘计算、音频研究技术领域，涉及边缘服务器、语音增强、语音识别、语音合成，神经网络，具体涉及一种面向边缘设备的语音识别-合成联合的建模方法。

背景技术

工业4.0之后，人工智能、物联网（IoT）的飞速崛起，为人类衣食住行等方面的便利性提供了巨大的潜力，许许多多的智能产品应运而生。与此同时，近年来随着边缘计算的发展，边缘计算策略可以有效的实现大任务计算量的分配，解决实时性问题，提高模型的推算能力。因此，更加是为不断强化扩充智能产品的功能提供了无限的可能性。

随着神经网络、深度学习的不断发展，带动了与之相关研究的重大突破。其中，最明显的就数语音领域和图像领域了。近年来，在NLP语音识别领域，语音处理技术，语音识别，语音合成等飞速发展，取得了瞩目的成功。但是仍然存在一些技术性的问题有待优化研究，例如：机器处理实时性、智能应用鲁棒性、对象的综合特性等都是需要不断优化研究的问题。通过利用“听写大会”微信小程序对一些中国方言数据进行测试，发现其中一些待测模型的识别效果不是很好。其中缘由，多是输入数据特性不好、模型本身性能欠缺、以及操作流程漏洞。因此，除过漏洞检测之外，对模型性能以及数据的处理是一个能够提高精度，解决这个问题的有效方法。所以，充分利用语音领域、移动计算技术等优化模型效果，利用模型特性扩充应用的功能显得尤为重要。

发明内容

为了克服上述现有技术的不足，本发明的目的是提供一种面向边缘设备的语音识别-合成联合的建模方法，在这基于音频处理领域的语音增强功能构建实时高效处理模块，基于语音识别技术和语音合成技术构建针对中国方言的语音识别及合成迭代模型，充分利用语音技术的特性实现兼具识别、合成、高效的实时性方言处理模型。

为了实现上述目的，本发明采用的技术方案是：

一种面向边缘设备的语音识别-合成联合的建模方法，其特征在于，包括以下步骤：

1）采集数据集样本：

采集各种各样的环境的音频数据，分a类安静环境下的干净音频，b类不同种类的噪音音频，b类不同种类的噪音音频参照noise噪声库；

2）进行数据处理：

首先做噪声融合处理，将噪声加入到干净的音频中，打包组装成干净的音频数据和对应的加噪音频数据；

3）搭建边缘服务器：

搭建稳定的边缘服务器设备，实现稳定的上传下载接口；算法处理语音增强模块，采用谱减法、小波硬阈值、gan网络模型结合语音识别引擎采用一个投票法取得最优值，以此作为音频前处理的优化手段，在该层设备上做音频前端处理进行去混响，降噪声，噪音分离等，利用小波，谱减，神经网络模型融合处理筛选对应噪声的最优模型，应用投票法处理音频挑选出处理对应音频质量较高的模型方法；

4）搭建中文方言语音识别模型：

采用基于cnn+rnn的基础模型架构，表现在利用cnn技术进行语音特征MFCC提取之后的二次特征处理，将音频语谱图作为输入特征，将提取的语谱图特征向量与MFCC特征向量进行归一化处理；搭建中文方言语音合成模型，基于wavenet的改进模型，为多维度交叉融合提供接口；联合语音识别模型和语音合成模型部署在上层云端，接收边缘层的处理结果作为输入来源；

5）将步骤3）的数据在搭建好的边缘服务层设备进行首次处理，通过语音增强手段进行音频前处理，提高音频的机器可懂度，提取语音样本集的特征并将其通过4）所述的中文方言语音识别模型，得到正样本T1，其准确率acc1，负样本F1，其准确率acc2，将T1，F1分别输入到4）所述的中文方言语音合成模型，合成音频的输出结果对应的有四种，分别是T11，T12，F21，F22；其中T11代表语音识别结果为正样本，语音合成结果为正样本；T12表示语音识别结果为正样本语音合成结果为负；F21表示语音识别结果为负，合成结果为正；F22表示语音识别和合成的结果均为负；

6）按照正确样本的比例评估对应特征的优势占比，将优势的特征表现集合筛选出来，作为阶段性模型特征，调整超参训练语音识别模型的权重至损失收敛并保存模型，重新加载模型与语音合成模块进行结合，通过神经网络后向传播反馈更新参数的机制，不断的迭代训练模型，通过调整模型超参数设置合理的迭代训练周期，使得网络更快更节能的收敛，优化模型的最终效果，当模型效果表示逐渐收敛稳定，此时的模型鲁棒性非常有保障。

进一步，所述的将处理好的语音数据通过语音识别技术转换为对应的文本，应用MFCC特征，结合CNN网络抽取特征的优势，搭建CCLD（Chinese Convolutional NeuralNetworks & LSTM）中文语音识别网络模型，采用MFCC音频特征基准，结合CNN网络抽取关键特征，输出到一个LSTM层的RNN网络，最后接一个三层的DNN网络作为输出判别，结合中文数据语音特性，搭建中文语音识别引擎，训练中文语音识别模型，然后，将该模型分类后的样本分为正确样本和错误样本。

进一步，所述的分别将“正负样本”通过语音合成模型转化为对应的音频样本，并统计对应的识别结果是否正确，将其归类为“正负样本”，其特征在于：基于wavenet改进的语音合成模型将文本转换为音频，此处的文本数据对应的是上个模型的输出结果，因此存在正样本和负样本，通过语音合成模型之后，进一步也会有与之对应的“正负样本”，因而，形成的识别结果的样本属性为“正-正”、“正-负”、“负-正”、“负-负”。

进一步，所述的按照分类结果的优势特征占比，通过计算对比原始音频筛选出最接近原貌的特征组合，其特征在于样本“正-正”对应的属于A级特征组，样本“正-负”对应的属于B级特征组合，样本“负-正”对应的属于C级特征组合，样本“负-负”对应的属于D级特征组合（且优先级A>B>C>D），然后，通过计算每类样本的准确率，以此作为特征优势的评分标准，筛选出优势特征。

本发明的有益效果是：

1）本发明基于性能和资源的考虑，提出一种面向大边缘环境的模型融合方法，利用边缘设备的实时处理以及任务调度，对不同噪声程度的音频源进行合理调度，将语音识别模块和语音合成模块结合起来，极大程度的丰富了新模型的创造性。

2）本发明按照正确样本的比例评估对应特征的优势占比，将优势的特征表现集合筛选出来，作为阶段性模型特征，不断的迭代训练模型，优化模型的最终效果，当模型效果表示逐渐收敛稳定，此时的模型鲁棒性非常有保障。

3）有效利用边缘环境更加丰富的处理能力，将语音识别和语音合成技术组合起来，设计一个功能更丰富，性能更加鲁棒的语音模型。

4）一定程度改善了人机交互的语音环境和语音体验，实际应用用户带来舒适的体验感。

5）新颖的建模思路，为音频设备的进步提供了一种解决思路，展示了强功能音频设备的巨大表现力。

附图说明

图1 总体架构图；

图2 边缘端语音增强模型图；

图3 语音识别和语音合成模型迭代图。

具体实施方式

以下结合附图及实施例对本发明进一步叙述，但本发明不局限于以下实施例：

如图1、2、3所示，一种面向边缘设备的语音识别-合成联合的建模方法，包括以下步骤：

1）采集数据集样本。分为a.安静环境下的干净音频b.不同种类的噪音音频（具体涉及：white noise，pink noise，speech babble等，分类参照noise噪声库）所有音频数据均为采样率16k，存储格式pcm（陕西，闽南，长沙，四川，河北，上海六地方言）；

2）进行数据处理。首先做噪声融合处理，将噪声加入到干净的音频中，打包组装成干净的音频和对应的加噪音频；

3）搭建边缘服务器，在该层设备上做音频前端处理进行去混响，降噪声，噪音分离等，利用小波，谱减，神经网络模型融合处理筛选对应噪声的最优模型，应用投票法处理音频挑选出处理对应音频质量较高的模型方法；

4）搭建中文方言语音识别模型，采用基于cnn+rnn的基础模型架构，表现在利用cnn技术进行语音特征MFCC提取之后的二次特征处理，将音频语谱图作为输入特征，将提取的语谱图特征向量与MFCC特征向量进行归一化处理；

5）搭建中文方言语音合成模型，基于wavenet的改进模型，为多维度交叉融合提供接口；

6）联合语音识别模型和语音合成模型部署在上层云端，接收边缘层的处理结果作为输入来源；

7）提取语音样本集的特征并将其通过4）所述的中文方言语音识别模型，得到正样本T1，其准确率acc1，负样本F1，其准确率acc2；

8）将T1，F1分别输入到3）所述的中文方言语音合成模型，合成音频的输出结果与（步骤8）的输入对应有四种，分别是T11，T12，F21，F22；（其中T11代表语音识别结果为正样本，语音合成结果为正样本；T12表示语音识别结果为正样本语音合成结果为负；F21表示语音识别结果为负，合成结果为正；F22表示语音识别和合成的结果均为负）；

9）按照正确样本的比例评估对应特征的优势占比，将优势的特征表现集合筛选出来，作为阶段性模型特征，调整超参训练语音识别模型的权重至损失收敛并保存模型，重新加载模型与语音合成模块进行结合，通过神经网络后向传播反馈更新参数的机制，不断的迭代训练模型，通过调整模型超参数设置合理的迭代训练周期，优化模型的最终效果，当模型效果表示逐渐收敛稳定，此时的模型鲁棒性非常有保障。

9页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：语音播报方法及装置

一种面向边缘设备的语音识别-合成联合的建模方法

相关技术

网友询问留言