关键词检测装置和方法

文档序号:1688155 发布日期:2020-01-03 浏览:37次 >En<

阅读说明:本技术 关键词检测装置和方法 (Keyword detection device and method ) 是由 赖家豪 郑达 李索恒 张志齐 于 2019-09-24 设计创作,主要内容包括:本发明公开了一种关键词检测装置,包括:多个语音识别装置。各语音识别装置分别采用基于CTC的训练准则得到,各语音识别装置所训练的环境不同;各语音识别装置中包括经过基于CTC的训练准则训练得到的神经网络;各语音识别装置的输入端连接音频数据。在推理阶段,各语音识别装置的输入端都输入相同的第一输入音频数据,各语音识别装置并行运行并输出对应的关键词分数,由各语音识别装置的关键词分数进行权重组合形成总得分,根据总得分输出和第一输入音频数据对应的关键词预测结果信号。本发明公开了一种关键词检测方法。本发明能提升在各种环境下使用时的召回率,降低误报。(The invention discloses a keyword detection device, comprising: a plurality of speech recognition devices. Each voice recognition device is obtained by adopting a training criterion based on CTC, and the training environments of the voice recognition devices are different; each voice recognition device comprises a neural network obtained through training based on CTC training criterion; the input end of each voice recognition device is connected with audio data. In the inference stage, the input end of each voice recognition device inputs the same first input audio data, each voice recognition device runs in parallel and outputs corresponding keyword scores, the keyword scores of each voice recognition device are subjected to weight combination to form a total score, and a keyword prediction result signal corresponding to the first input audio data is output according to the total score. The invention discloses a keyword detection method. The invention can improve the recall rate when used in various environments and reduce false alarm.)

关键词检测装置和方法

技术领域

本发明涉及语音识别,特别是涉及一种关键词检测装置;本发明还涉及一种关键词检测方法。

背景技术

语音识别也即自动语音识别(Automatic Speech Recognition,ASR)是一种将输入的语音信号即音频信号转变为相应的文字输出的技术,在人工智能(ArtificialIntelligence,AI)中具有重要应用。

现有语音识别装置中通常包括神经网络(Neural Network,NN),语音识别装置通常需要经过训练才能使用,语音识别装置主要是对神经网络进行训练,神经网络通过训练形成对应的模型,根据训练好的模型,语音信号即音频信号通过特征提取处理并输入到神经网络之后,神经网络会根据训练的模型选择最佳的输出路径并形成对应的文本信号输出。神经网络包括循环神经网络(Recurrent Neural Network,RNN),通常采用基于连接时序分类准则(Connectionist Temporal Classification,CTC)的规则也即基于CTC的训练准则进行训练。在基于CTC的规则进行训练的过程中,需要提供训练样本,训练样本包括输入音频信号,对应的真实输出的标签,RNN中各节点具有初始的权重值即权值(Weight),输入音频信号输入到RNN中之后,RNN会根据内部的各节点的权值设置产生输出数据,输出数据和真实的输出标签之间具有差值并通过CTC损失函数计算输出,这种CTC损失会进行反向传播实现对RNN中各节点的权值的调节,最后将输出数据和真实的输出标签之间具有差值降低到要求值或者当输出数据和真实的输出标签之间的差值的变化很小时,那么训练结束,训练结束后的RNN中各节点具有对应的最终权重,并在实际的语音识别中进行应用。在实际的语音识别中,将经过特征提取的音频信号输入到RNN中,RNN则会根据训练结构选择得分最大的输出路径进行输出,得分最大的输出路径即输出路径上的RNN的各节点概率乘积最大对应的输出路径,最后通过文本解码即可得到对应的文本信息。

在一些应用中,还需要进行关键词检测,关键词检测能得到自动控制中所需要的命令,或者对通信语音中出现的敏感信息进行监控等。现有关键词检测装置通常采用一个语音识别装置实现,通过对在一个特定的环境下对语音识别装置进行基于CTC的训练准则的训练,训练样本采用包括有关键词的输入音频数据以及输入音频数据中的关键词对应的文本标签。现有采用单个语音识别装置实现的关键词检测装置的缺点是,当使用环境和训练环境有差别时,容易出现无法识别关键词的情形,造成召回率降低,甚至出现误报。

发明内容

本发明所要解决的技术问题是提供一种关键词检测装置,能提升在各种环境下使用时的召回率,降低误报。为此,本发明还提供一种关键词检测方法。

为解决上述技术问题,本发明提供的关键词检测装置包括:多个语音识别装置。

各所述语音识别装置分别采用基于CTC的训练准则得到,各所述语音识别装置所训练的环境不同;各所述语音识别装置中包括经过基于CTC的训练准则训练得到的神经网络;各所述语音识别装置的输入端连接音频数据。

在推理阶段,各所述语音识别装置的输入端都输入相同的第一输入音频数据,各所述语音识别装置并行运行并输出对应的关键词分数,由各所述语音识别装置的关键词分数进行权重组合形成关键词检测装置的总得分,根据所述总得分输出和第一输入音频数据对应的关键词预测结果信号。

进一步的改进是,所述神经网络的类型包括循环神经网络。

进一步的改进是,各所述语音识别装置的训练样本采用包括有关键词的第二输入音频数据以及所述第二输入音频数据中的关键词对应的文本标签。

进一步的改进是,各所述语音识别装置采用CTC损失函数进行训练。

进一步的改进是,各所述语音识别装置采用的CTC损失函数和训练样本不同,且各所述语音识别装置采用的CTC损失函数和训练样本和所训练的环境相适应性。

进一步的改进是,所述输入音频数据在输入到所述语音识别装置之前经过特征处理。

进一步的改进是,形成所述总得分的权重组合方式为加权平均。

进一步的改进是,各所述语音识别装置的权重为所述语音识别装置的个数的倒数;或者,各所述语音识别装置的权重采用网格搜索确定。

为解决上述技术问题,本发明提供的关键词检测方法中采用包括多个语音识别装置的关键词检测装置。

各所述语音识别装置的输入端连接音频数据,各所述语音识别装置中包括神经网络。

各所述语音识别装置的训练方法包括:对各所述语音识别装置分别进行基于CTC的训练准则的训练,各所述语音识别装置所训练的环境不同,对各所述语音识别装置的训练包括基于CTC的训练准则对所述神经网络的训练。

在推理阶段采用如下推理方法:各所述语音识别装置的输入端都输入相同的第一输入音频数据,各所述语音识别装置并行运行并输出对应的关键词分数,由各所述语音识别装置的关键词分数进行权重组合形成关键词检测装置的总得分,根据所述总得分输出和第一输入音频数据对应的关键词预测结果信号。

进一步的改进是,所述神经网络的类型包括循环神经网络。

进一步的改进是,各所述语音识别装置的训练样本采用包括有关键词的第二输入音频数据以及所述第二输入音频数据中的关键词对应的文本标签。

进一步的改进是,各所述语音识别装置采用CTC损失函数进行训练。

进一步的改进是,各所述语音识别装置采用的CTC损失函数和训练样本不同,且各所述语音识别装置采用的CTC损失函数和训练样本和所训练的环境相适应性。

进一步的改进是,所述输入音频数据在输入到所述语音识别装置之前经过特征处理。

进一步的改进是,形成所述总得分的权重组合方式为加权平均。

进一步的改进是,各所述语音识别装置的权重为所述语音识别装置的个数的倒数;或者,各所述语音识别装置的权重采用网格搜索确定。

本发明的关键词检测装置包括了多个语音识别装置,各语音识别装置分别在不同的环境下进行训练,在推理阶段中,各语音识别装置并行运行,且根据语音识别装置的关键词分数进行权重组合形成关键词检测装置的总得分并最后得到关键词预测结果信号;由于本发明各语音识别装置能和各自的训练环境类似的环境下得到良好的关键词检测结果,各语音识别装置并行运行后能在各种不同环境下都得到良好的关键词检测结构,故消除了现有技术中采用单一语音识别装置形成的关键词检测装置在环境变化时召回率会降低的缺陷,所以本发明能提升在各种环境下使用时的召回率,降低误报。

附图说明

下面结合附图和

具体实施方式

对本发明作进一步详细的说明:

图1是本发明实施例关键词检测装置的结构示意图;

图2是本发明实施例关键词检测装置的推理阶段流程图。

具体实施方式

本发明实施例关键词检测装置:

如图1所示,是本发明实施例关键词检测装置的结构示意图;本发明实施例关键词检测装置包括:多个语音识别装置102,图1中显示由n个语音识别装置,且分别在对应的方框中用语音识别装置1,语音识别装置2至语音识别装置n表示。

所述关键词检测装置还包括语音特征处理模块101,输入音频数据在输入到所述语音识别装置102之前经过特征处理即经过所述语音特征处理模块101进行特征处理。较佳选择为,所述特征处理为通过短时傅里叶变化抽取所述输入音频数据的频谱特征。

各所述语音识别装置102分别采用基于CTC的训练准则得到,各所述语音识别装置102所训练的环境不同;各所述语音识别装置102中包括经过基于CTC的训练准则训练得到的神经网络103;各所述语音识别装置102的输入端连接音频数据。所述神经网络103的类型包括循环神经网络。各神经网络103也包括n个,也分别在对应的方框中用神经网络1,神经网络2至神经网络n表示。

各所述语音识别装置102的训练样本采用包括有关键词的第二输入音频数据以及所述第二输入音频数据中的关键词对应的文本标签。

各所述语音识别装置102采用CTC损失函数进行训练。

各所述语音识别装置102采用的CTC损失函数和训练样本不同,且各所述语音识别装置102采用的CTC损失函数和训练样本和所训练的环境相适应性。

如图2所示,是本发明实施例关键词检测装置的推理阶段流程图,在推理阶段,各所述语音识别装置102的输入端都输入相同的第一输入音频数据,第一输入音频数据如标记104所示。

各所述语音识别装置102并行运行并输出对应的关键词分数,关键词分数如标记105所示。对于相同的所述第一输入音频数据,所述语音识别装置102的训练环境和所述第一输入音频数据的输入环境越接近,对应的所述语音识别装置102的关键词分数越高。

由各所述语音识别装置102的关键词分数进行权重组合形成关键词检测装置的总得分,总得分如标记106所示。本发明实施例中,形成所述总得分的权重组合方式为加权平均。各所述语音识别装置102的权重为所述语音识别装置102的个数的倒数;或者,各所述语音识别装置102的权重采用网格搜索确定。

根据所述总得分输出和第一输入音频数据对应的关键词预测结果信号,关键词预测结果如标记106所示。

本发明实施例关键词检测装置包括了多个语音识别装置102,各语音识别装置102分别在不同的环境下进行训练,在推理阶段中,各语音识别装置102并行运行,且根据语音识别装置102的关键词分数进行权重组合形成关键词检测装置的总得分并最后得到关键词预测结果信号;由于本发明实施例各语音识别装置102能和各自的训练环境类似的环境下得到良好的关键词检测结果,各语音识别装置102并行运行后能在各种不同环境下都得到良好的关键词检测结构,故消除了现有技术中采用单一语音识别装置102形成的关键词检测装置在环境变化时召回率会降低的缺陷,所以本发明实施例能提升在各种环境下使用时的召回率,降低误报。

本发明实施例关键词检测方法:

本发明实施例关键词检测方法中采用包括多个语音识别装置102的关键词检测装置。

各所述语音识别装置102的输入端连接音频数据,各所述语音识别装置102中包括神经网络103。图1中显示由n个语音识别装置,且分别在对应的方框中用语音识别装置1,语音识别装置2至语音识别装置n表示。

所述神经网络103的类型包括循环神经网络。各神经网络103也包括n个,也分别在对应的方框中用神经网络1,神经网络2至神经网络n表示。

所述关键词检测装置还包括语音特征处理模块101,输入音频数据在输入到所述语音识别装置102之前经过特征处理即经过所述语音特征处理模块101进行特征处理。较佳选择为,所述特征处理为通过短时傅里叶变化抽取所述输入音频数据的频谱特征。

各所述语音识别装置102的训练方法包括:对各所述语音识别装置102分别进行基于CTC的训练准则的训练,各所述语音识别装置102所训练的环境不同,对各所述语音识别装置102的训练包括基于CTC的训练准则对所述神经网络103的训练。

各所述语音识别装置102的训练样本采用包括有关键词的第二输入音频数据以及所述第二输入音频数据中的关键词对应的文本标签。

各所述语音识别装置102采用CTC损失函数进行训练。

各所述语音识别装置102采用的CTC损失函数和训练样本不同,且各所述语音识别装置102采用的CTC损失函数和训练样本和所训练的环境相适应性。

在推理阶段采用如下推理方法:

各所述语音识别装置102的输入端都输入相同的第一输入音频数据,第一输入音频数据如标记104所示。

各所述语音识别装置102并行运行并输出对应的关键词分数,关键词分数如标记105所示。对于相同的所述第一输入音频数据,所述语音识别装置102的训练环境和所述第一输入音频数据的输入环境越接近,对应的所述语音识别装置102的关键词分数越高。

由各所述语音识别装置102的关键词分数进行权重组合形成关键词检测装置的总得分,总得分如标记106所示。本发明实施例中,形成所述总得分的权重组合方式为加权平均。各所述语音识别装置102的权重为所述语音识别装置102的个数的倒数;或者,各所述语音识别装置102的权重采用网格搜索确定。

根据所述总得分输出和第一输入音频数据对应的关键词预测结果信号,关键词预测结果如标记106所示。

以上通过具体实施例对本发明进行了详细的说明,但这些并非构成对本发明的限制。在不脱离本发明原理的情况下,本领域的技术人员还可做出许多变形和改进,这些也应视为本发明的保护范围。

9页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:多频分路声纹识别方法、装置、系统及计算机可读存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!