一种生成声学特征、语音模型训练、语音识别方法及装置

文档序号:193310 发布日期:2021-11-02 浏览:31次 >En<

阅读说明:本技术 一种生成声学特征、语音模型训练、语音识别方法及装置 (Acoustic feature generation, voice model training and voice recognition method and device ) 是由 董林昊 马泽君 于 2021-08-02 设计创作,主要内容包括:本申请实施例公开了一种生成声学特征、语音模型训练、语音识别方法及装置,通过获取当前语音帧的声学信息向量和当前语音帧的信息量权重,并根据上一语音帧对应的已累积信息量权重、当前语音帧对应的保留率以及当前语音帧的信息量权重,能够得到当前语音帧对应的已累积信息量权重。保留率为1与泄漏率之差。利用泄漏率调整当前语音帧对应的已累积信息量权重和当前语音帧对应的整合声学信息向量,能够降低信息量权重较小的语音帧对于整合声学信息向量的影响,提高信息量权重较大的语音帧的声学信息向量在整合声学信息向量中所占的比重,得到的整合声学信息向量更为准确,提高语音模型的准确程度。(The embodiment of the application discloses a method and a device for generating acoustic features, training a voice model and recognizing voice, wherein the method and the device can obtain the accumulated information weight corresponding to the current voice frame by obtaining the acoustic information vector of the current voice frame and the information weight of the current voice frame and according to the accumulated information weight corresponding to the previous voice frame, the retention rate corresponding to the current voice frame and the information weight of the current voice frame. The retention rate is the difference between 1 and the leakage rate. The accumulated information weight corresponding to the current voice frame and the integrated acoustic information vector corresponding to the current voice frame are adjusted by utilizing the leakage rate, so that the influence of the voice frame with smaller information weight on the integrated acoustic information vector can be reduced, the proportion of the acoustic information vector of the voice frame with larger information weight in the integrated acoustic information vector is increased, the obtained integrated acoustic information vector is more accurate, and the accuracy of the voice model is improved.)

一种生成声学特征、语音模型训练、语音识别方法及装置

技术领域

本申请涉及数据处理领域,具体涉及一种生成声学特征、语音模型训练、语音识别方法及装置。

背景技术

语音识别技术是指对语音数据进行识别,将语音数据所对应的内容转换为计算机可读的输入。例如,通过语音识别技术,能够将语音数据中所包含的内容转换为对应的文本,便于对语音数据所包含的内容进行后续处理。

目前,能够利用语音模型实现对语音数据的语音识别。语音模型提取语音数据的声学特征,并对声学特征进行处理,得到语音数据对应的文本识别结果。但是,语音模型识别得到的识别结果不够准确,难以满足语音识别的需要。

发明内容

有鉴于此,本申请实施例提供一种生成声学特征、语音模型训练、语音识别方法及装置,能够生成更为准确的声学特征,从而提高语音模型的识别准确程度。

基于此,本申请实施例提供的技术方案如下:

第一方面,本申请实施例提供一种生成声学特征的方法,所述方法包括:

获取当前语音帧的声学信息向量和所述当前语音帧的信息量权重;

根据上一语音帧对应的已累积信息量权重、所述当前语音帧对应的保留率以及所述当前语音帧的信息量权重,得到所述当前语音帧对应的已累积信息量权重;所述保留率为1与泄漏率之差;

如果所述当前语音帧对应的已累积信息量权重小于阈值,根据上一语音帧对应的整合声学信息向量、所述当前语音帧对应的保留率、所述当前语音帧的信息量权重以及所述当前语音帧的声学信息向量,得到所述当前语音帧对应的整合声学信息向量;

如果所述当前语音帧对应的已累积信息量权重大于或等于阈值,利用上一语音帧对应的整合声学信息向量以及所述当前语音帧的声学信息向量输出下发的整合声学信息向量,并计算得到所述当前语音帧对应的整合声学信息向量;

在得到所述当前语音帧对应的整合声学信息向量之后,将下一语音帧作为当前语音帧,重复执行所述获取当前语音帧的声学信息向量和所述当前语音帧的信息量权重以及后续步骤,直到不存在下一语音帧。

第二方面,本申请实施例提供一种语音模型训练方法,所述方法包括:

将训练语音数据输入编码器,得到各个语音帧的声学信息向量;

将各个所述语音帧的声学信息向量以及各个所述语音帧的信息量权重输入连续整合发放CIF模块,得到下发的整合声学信息向量;所述CIF模块根据上述任一项实施例所述生成声学特征的方法输出所述下发的整合声学信息向量;

将所述下发的整合声学信息向量输入解码器,得到所述训练语音数据的字预测结果;

根据所述字预测结果以及所述训练语音数据对应的字标签,训练所述编码器、所述CIF模块以及所述解码器。

第三方面,本申请实施例提供一种语音识别方法,所述方法包括:

将待识别语音数据输入编码器,得到各个语音帧的声学信息向量;

将各个所述语音帧的声学信息向量以及各个所述语音帧的信息量权重输入连续整合发放CIF模块,得到下发的整合声学信息向量;所述CIF模块根据上述任一项实施例所述生成声学特征的方法输出所述下发的整合声学信息向量;

将所述下发的整合声学信息向量输入解码器,得到所述待识别语音数据的字识别结果。

第四方面,本申请实施例提供一种生成声学特征的装置,所述装置包括:

第一获取单元,用于获取当前语音帧的声学信息向量和所述当前语音帧的信息量权重;

第一计算单元,用于根据上一语音帧对应的已累积信息量权重、所述当前语音帧对应的保留率以及所述当前语音帧的信息量权重,得到所述当前语音帧对应的已累积信息量权重;所述保留率为1与泄漏率之差;

第二计算单元,用于如果所述当前语音帧对应的已累积信息量权重小于阈值,根据上一语音帧对应的整合声学信息向量、所述当前语音帧对应的保留率、所述当前语音帧的信息量权重以及所述当前语音帧的声学信息向量,得到所述当前语音帧对应的整合声学信息向量;

第三计算单元,用于如果所述当前语音帧对应的已累积信息量权重大于或等于阈值,利用上一语音帧对应的整合声学信息向量以及所述当前语音帧的声学信息向量输出下发的整合声学信息向量,并计算得到所述当前语音帧对应的整合声学信息向量;

执行单元,用于在得到所述当前语音帧对应的整合声学信息向量之后,将下一语音帧作为当前语音帧,重复执行所述获取当前语音帧的声学信息向量和所述当前语音帧的信息量权重以及后续步骤,直到不存在下一语音帧。

第五方面,本申请实施例提供一种语音模型训练装置,所述装置包括:

第一训练单元,用于将训练语音数据输入编码器,得到各个语音帧的声学信息向量;

第二训练单元,用于将各个所述语音帧的声学信息向量以及各个所述语音帧的信息量权重输入连续整合发放CIF模块,得到下发的整合声学信息向量;所述CIF模块根据上述任一项实施例所述生成声学特征的方法输出所述下发的整合声学信息向量;

第三训练单元,用于将所述下发的整合声学信息向量输入解码器,得到所述训练语音数据的字预测结果;

第四训练单元,用于根据所述字预测结果以及所述训练语音数据对应的字标签,训练所述编码器、所述CIF模块以及所述解码器。

第六方面,本申请实施例提供一种语音识别装置,所述装置包括:

第一输入单元,用于将待识别语音数据输入编码器,得到各个语音帧的声学信息向量;

第二输入单元,用于将各个所述语音帧的声学信息向量以及各个所述语音帧的信息量权重输入连续整合发放CIF模块,得到下发的整合声学信息向量;所述CIF模块根据上述任一项实施例所述生成声学特征的方法输出所述下发的整合声学信息向量;

第三输入单元,用于将所述下发的整合声学信息向量输入解码器,得到所述待识别语音数据的字识别结果。

第七方面,本申请实施例提供一种电子设备,包括:

一个或多个处理器;

存储装置,其上存储有一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一项实施例所述的生成声学特征的方法,语音模型训练方法,或者语音识别方法。

第八方面,本申请实施例提供一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上述任一项实施例所述的生成声学特征的方法,语音模型训练方法,或者语音识别方法。

由此可见,本申请实施例具有如下有益效果:

本申请实施例提供一种生成声学特征、语音模型训练、语音识别方法及装置,通过获取当前语音帧的声学信息向量和当前语音帧的信息量权重,并利用上一语音帧对应的已累积信息量权重乘以当前语音帧对应的保留率,再与当前语音帧的信息量权重相加,能够得到当前语音帧对应的已累积信息量权重。保留率为1与泄漏率之差。利用泄漏率调整当前语音帧对应的已累积信息量权重和当前语音帧对应的整合声学信息向量,能够降低信息量权重较小的语音帧对于整合声学信息向量的影响,从而提高信息量权重较大的语音帧的声学信息向量在整合声学信息向量中所占的比重,使得得到的整合声学信息向量更为准确。从而能够使得语音模型提取得到更为准确的声学特征,提高语音模型的准确程度。

附图说明

图1为本申请实施例提供的CIF生成整合声学信息向量的示意图;

图2为本申请实施例提供的示例性应用场景的框架示意图;

图3为本申请实施例提供的一种生成声学特征的方法的流程图;

图4为本申请实施例提供的一种生成声学特征的方法的示意图;

图5为本申请实施例提供的一种语音模型训练方法的流程图;

图6为本申请实施例提供的一种语音识别方法的流程图;

图7为本申请实施例提供的一种生成声学特征的装置的结构示意图;

图8为本申请实施例提供的一种语音模型训练装置的结构示意图;

图9为本申请实施例提供的一种语音识别装置的结构示意图;

图10为本申请实施例提供的一种电子设备的基本结构的示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。

为便于理解本申请提供的技术方案,下面将先对本申请涉及的背景技术进行说明。

CIF(Continuous Integrate-and-Fire,连续整合发放)方法应用于编解码框架中。参见图1所示,该图为本申请实施例提供的CIF生成整合声学信息向量的示意图。先按照编码顺序,依次接收编码器输出的语音帧的声学信息向量H={h1,h2,…,hN},以及语音帧对应的信息量权重α={α12,…,αN},积累语音帧的信息量权重。其中,N为语音数据中语音帧的总个数。在当积累的语音帧的信息量权重达到阈值后,定位声学边界。以加权和方式整合语音帧的声学信息向量,得到整合声学信息向量C={c1,c2,…,cM}。其中,M为整合声学信息向量的总个数。在对传统的CIF方法进行研究后发现,信息量权重较小的语音帧会影响影响得到的整合声学信息向量的准确程度。

基于此,本申请实施例提供一种生成声学特征、语音模型训练、语音识别方法及装置,通过获取当前语音帧的声学信息向量和当前语音帧的信息量权重,并利用上一语音帧对应的已累积信息量权重乘以当前语音帧对应的保留率,再与当前语音帧的信息量权重相加,能够得到当前语音帧对应的已累积信息量权重。保留率为1与泄漏率之差。利用泄漏率调整当前语音帧对应的已累积信息量权重和当前语音帧对应的整合声学信息向量,能够降低信息量权重较小的语音帧对于整合声学信息向量的影响,从而提高信息量权重较大的语音帧的声学信息向量在整合声学信息向量中所占的比重,使得得到的整合声学信息向量更为准确。从而能够使得语音模型提取得到更为准确的声学特征,提高语音模型的准确程度。

为了便于理解本申请实施例提供的一种医学报告生成方法,下面结合图1所示的场景示例进行说明。参见图2所示,该图为本申请实施例提供的示例性应用场景的框架示意图。

在实际应用中,将待识别语音数据输入编码器201中,得到各个语音帧的声学信息向量。再将各个语音帧的声学信息向量和各个语音帧的信息量权重输入至CIF模块202中,得到CIF模块202输出的整合声学信息向量。最后,再将整合声学信息向量输入解码器203中,得到待识别语音数据的字识别结果。

本领域技术人员可以理解,图2所示的框架示意图仅是本申请的实施方式可以在其中得以实现的一个示例。本申请实施方式的适用范围不受到该框架任何方面的限制。

基于上述说明,下面将结合附图对本申请提供的生成声学特征的方法进行详细说明。

参见图3所示,该图为本申请实施例提供的一种生成声学特征的方法的流程图,该方法包括步骤S301-S305:

S301:获取当前语音帧的声学信息向量和当前语音帧的信息量权重。

在利用采用CIF方法的编解码框架的模型对语音数据进行处理时,编码器对输入的语音数据进行逐语音帧的特征提取,得到语音帧的声学信息向量。语音帧的声学信息向量为语音数据的高维表征。每个语音帧具有对应的信息量权重。信息量权重用于衡量语音帧所包括的信息量。

编码器在对输入的语音数据处理时,生成语音数据中各个语音帧的声学信息向量。依次获取生成的语音帧的声学信息向量和语音帧的信息量权重进行处理。

将当前正在处理的语音帧作为当前语音帧,获取当前语音帧的声学信息向量和当前语音帧的信息量权重。

例如,将语音数据中的第u个语音帧作为当前语音帧,u为小于N的正整数,N为语音数据中语音帧的总数量。当前语音帧的声学信息向量表示为hu,当前语音帧的信息量权重为αu

S302:根据上一语音帧对应的已累积信息量权重、所述当前语音帧对应的保留率以及所述当前语音帧的信息量权重,得到所述当前语音帧对应的已累积信息量权重;所述保留率为1与泄漏率之差。

利用当前语音帧对应的保留率、上一语音帧对应的已累积信息量权重和当前语音帧的信息量权重,能够得到利用当前语音帧对应的保留率调整后的当前语音帧对应的已累积信息量权重。其中,保留率是1与泄露率之差。泄露率用于表示信息量权重泄露的比率。泄露率的取值范围为[0,1]。保留率为1与泄露率之差,用于表示信息量权重保留的比率。

在一种可能的实现方式中,本申请实施例提供一种根据上一语音帧对应的已累积信息量权重、当前语音帧对应的保留率以及当前语音帧的信息量权重,得到所述当前语音帧对应的已累积信息量权重的具体实施方式,具体请参见下文。S303:如果所述当前语音帧对应的已累积信息量权重小于阈值,根据上一语音帧对应的整合声学信息向量、所述当前语音帧对应的保留率、所述当前语音帧的信息量权重以及所述当前语音帧的声学信息向量,得到所述当前语音帧对应的整合声学信息向量。

将当前语音帧对应的已累积信息量权重与阈值相比。如果当前语音帧对应的已累积信息量权重小于阈值,则需要继续积累下一语音帧对应的信息量权重。阈值可以根据确定声学边界的需要进行设置,阈值例如可以为1。

当前语音帧对应的已累积信息权重较小,基于上一语音帧对应的整合声学信息向量、当前语音帧对应的保留率、当前语音帧的信息量权重和当前语音帧的声学信息向量,得到当前语音帧对应的整合声学信息向量。得到的当前语音帧对应的整合声学信息向量是利用当前语音帧对应的保留率调整后的得到的。

在一种可能的实现方式中,本申请实施例提供一种如果所述当前语音帧对应的已累积信息量权重小于阈值,根据上一语音帧对应的整合声学信息向量、所述当前语音帧对应的保留率、所述当前语音帧的信息量权重以及所述当前语音帧的声学信息向量,得到所述当前语音帧对应的整合声学信息向量的具体实施方式,具体请参见下文。

S304:如果所述当前语音帧对应的已累积信息量权重大于或等于阈值,利用上一语音帧对应的整合声学信息向量以及所述当前语音帧的声学信息向量输出下发的整合声学信息向量,并计算得到所述当前语音帧对应的整合声学信息向量。

如果当前语音帧对应的已累积信息量权重大于或者等于阈值,则能够对语音帧的声学信息向量进行整合,得到输出下发的整合声学信息向量。

下发的整合声学信息向量由上一语音帧对应的整合声学信息向量和当前语音帧的声学信息向量得到。

在一种可能的实现方式中,本申请实施例提供一种如果所述当前语音帧对应的已累积信息量权重大于或等于阈值,利用上一语音帧对应的整合声学信息向量以及所述当前语音帧的声学信息向量输出下发的整合声学信息向量,并计算得到所述当前语音帧对应的整合声学信息向量的具体实现方式,具体请参见下文。

S305:在得到所述当前语音帧对应的整合声学信息向量之后,将下一语音帧作为当前语音帧,重复执行所述获取当前语音帧的声学信息向量和所述当前语音帧的信息量权重以及后续步骤,直到不存在下一语音帧。

再将下一语音帧作为当前语音帧,并重复执行上述S301以及后续步骤,也就是获取当前语音帧的声学信息向量和当前语音帧的信息量权重以及后续步骤,直到不存在下一语音帧为止,也就是对语音数据的全部语音帧处理结束后停止。

基于上述S301-S305的相关内容可知,利用泄漏率调整当前语音帧对应的已累积信息量权重和当前语音帧对应的整合声学信息向量,能够降低信息量权重较小的语音帧对于整合声学信息向量的影响,从而提高信息量权重较大的语音帧的声学信息向量在整合声学信息向量中所占的比重,使得得到的整合声学信息向量更为准确。将上一语音帧对应的已累积信息量权重与当前语音帧对应的保留率相乘,得到保留的已累积信息量权重。再将保留的已累积信息量权重与当前语音帧的信息量权重相加,得到当前语音帧对应的已累积信息量权重。

以上述当前语音帧为例,当前语音帧对应的已累积信息量权重可以由下式表示:

其中,表示当前语音帧对应的已累积信息量权重,R为泄露率,表示上一语音帧对应的已累积信息量权重,αu表示当前语音帧的信息量权重。在一种可能的实现方式中,本申请实施例提供一种如果所述当前语音帧对应的已累积信息量权重小于阈值,根据上一语音帧对应的整合声学信息向量、所述当前语音帧对应的保留率、所述当前语音帧的信息量权重以及所述当前语音帧的声学信息向量,得到所述当前语音帧对应的整合声学信息向量的具体实现方式,具体包括:

如果所述当前语音帧对应的已累积信息量权重小于阈值,将上一语音帧对应的整合声学信息向量乘以所述当前语音帧对应的保留率,再与所述当前语音帧的信息量权重与所述当前语音帧的声学信息向量之积相加,得到所述当前语音帧对应的整合声学信息向量。

将上一语音帧对应的整合声学信息向量与当前语音帧对应的保留率相乘,再将当前语音帧的信息量权重和当前语音帧的声学信息向量相乘,最后将得到的两个乘积相加,得到当前语音帧对应的整合声学信息向量。

当前语音帧对应的整合声学信息向量可以由下式表示:

其中,表示当前语音帧对应的整合声学信息向量,R为泄露率,表示上一语音帧对应的整合声学信息向量,αu表示当前语音帧的信息量权重,hu表示当前语音帧的声学信息向量。

进一步的,本申请实施例提供一种如果当前语音帧对应的已累积信息量权重大于或等于阈值,利用上一语音帧对应的整合声学信息向量以及当前语音帧的声学信息向量输出下发的整合声学信息向量的具体实施方式,具体包括以下两个步骤:

A1:如果当前语音帧对应的已累积信息量权重大于或等于阈值,计算上一语音帧对应的已累积信息量权重乘以当前语音帧对应的保留率,得到第一数值,计算1与第一数值的差,得到当前语音帧的第一部分信息量权重。

在当前语音帧对应的已累积信息量权重大于或者等于阈值时,能够在当前语音帧中定位声学边界,得到对应的整合声学信息向量。

当前语音帧的第一部分信息量权重是根据上一语音帧对应的已累积信息量权重确定的。

将上一语音帧对应的已累积信息量权重与当前语音帧对应的保留率相乘,得到第一数值。再计算1与第一数值的差,得到当前语音帧的第一部分信息量权重。

当前语音帧的第一部分信息量权重αu1可以由下式表示:

其中,R为泄露率,表示上一语音帧对应的已累积信息量权重。

A2:将上一语音帧对应的整合声学信息向量乘以当前语音帧对应的保留率,再与当前语音帧的第一部分信息量权重与当前语音帧的声学信息向量之积相加,得到下发的整合声学信息向量

下发的整合声学信息向量包括上一语音帧对应的整合声学信息向量的部分和当前语音帧的声学信息向量的部分。

将上一语音帧对应的整合声学信息向量与当前语音帧对应的保留率相乘。将当前语音帧的第一部分信息量权重与当前语音帧的声学信息向量相乘。将得到的两个乘积相加,得到下发的整合声学信息向量。

下发的整合声学信息向量可以由下式表示:

其中,(1-R)表示当前语音帧对应的保留率,表示上一语音帧对应的整合声学信息向量,αu1表示当前语音帧的第一部分信息量权重,hu表示当前语音帧的声学信息向量。

基于上述内容可知,利用泄露率调整上一语音帧对应的整合声学信息向量和当前语音帧的第一部分信息量权重,能够进一步减小信息量权重较低的语音帧的整合声学信息向量对下发的整合声学信息向量的影响,使得得到的下发的整合声学信息向量更为准确。

在利用当前语音帧的第一部分信息量权重得到下发的整合声学信息向量之后,当前语音帧还存在着未整合到下发的整合声学信息向量的部分。需要根据当前语音帧的第一部分信息量权重确定当前语音帧对应的整合声学信息向量。

进一步的,本申请实施例还提供一种计算当前语音帧对应的整合声学信息向量的具体实施方式,具体包括以下两个步骤:

B1:计算当前语音帧的信息量权重与当前语音帧的第一部分信息量权重之差得到当前语音帧的第二部分信息量权重,将当前语音帧的第二部分信息量权重作为当前语音帧的已累积信息量权重。

当前语音帧的第二部分信息量权重是根据当前语音帧的信息量权重和当前语音帧的第一部分信息量权重之差得到的。也就是说,将当前语音帧中未用于整合得到下发的整合声学信息向量的信息量权重作为第二部分信息量权重。

当前语音帧的已累积信息量权重,是当前语音帧中可以与后续的语音帧整合的信息量权重。将当前语音帧的第二部分信息量权重作为当前语音帧的已累积信息量权重。

当前语音帧的已累积信息量权重可以由下式表示:

其中,αu2为当前语音帧的第二部分信息量权重,αu1为当前语音帧的第一部分信息量权重。

B2:计算当前语音帧的第二部分信息量权重乘以当前语音帧的声学信息向量,得到当前语音帧对应的整合声学信息向量。

将当前语音帧的第二部分信息量权重和当前语音帧的声学信息向量相乘,得到当前语音帧对应的整合声学信息向量。

当前语音帧对应的整合声学信息向量可以由下式表示:

在本申请实施例中,基于当前语音帧的第一部分信息量权重确定当前语音帧的已累积信息量权重,并确定当前语音帧对应的整合声学信息向量。如此能够得到更为准确的当前语音帧的已累积信息量权重,便于与后续的语音帧进行整合。

为了说明上述实施例提供的生成声学特征的方法,下面结合具体场景举例说明。

参见图4所示,该图为本申请实施例提供的一种生成声学特征的方法的示意图。其中,编码器输出的各个语音帧的声学信息向量为H={h1,h2,h3,h4},各个语音帧对应的信息量权重α={α1234}={0.2,0.9,0.6,0.6}。

当前语音帧为第一个语音帧,即u=1。获取当前语音帧的声学信息向量为h1,对应的信息量权重为α1。第一个语音帧不具有上一语音帧,当前语音帧对应的已累积信息量权重的计算公式如下:

在阈值为1的前提下,当前语音帧对应的已累积信息量权重小于阈值。计算当前语音帧对应的整合声学信息向量,当前语音帧对应的整合声学信息向量可以表示为:

将下一语音帧作为当前语音帧,也就是u=2。获取当前语音帧的声学信息向量h2和当前语音帧的信息量权重α2。确定当前语音帧对应的已累积信息量权重

其中,R为当前语音帧对应的泄露率,R取值为0.1。

当前语音帧对应的已累积信息量权重大于阈值,利用上一语音帧对应的整合声学信息向量以及当前语音帧的声学信息向量h2输出下发的整合声学信息向量C1

先计算当前语音帧的第一部分信息量权重α21,α21可以由下式表示:

整合声学信息向量C1可以由下式表示:

再重新计算当前语音帧对应的已累积信息量权重可以由下式表示:

当前语音帧对应的整合声学信息向量可以表示为:

再将下一语音帧作为当前语音帧,也就是u=3。获取当前语音帧的声学信息向量h3和当前语音帧的信息量权重α3

再计算当前语音帧对应的已累积信息量权重可以表示为:

当前语音帧对应的已累积信息量权重小于阈值,则计算当前语音帧对应的整合声学信息向量

将下一语音帧作为当前语音帧,即u=4。获取当前语音帧的声学信息向量h4和当前语音帧的信息量权重α4

计算当前语音帧对应的已累积信息量权重

当前语音帧对应的已累积信息量权重大于或等于阈值,计算整合声学信息向量。

当前语音帧的第一部分信息量权重α41可以由下式表示:

下发的整合声学信息向量可以由下式表示:

在第四语音帧之后不存在其他语音帧,结束生成整合声学信息向量。

在一种可能的实现方式中,当前语音帧的泄漏率是可调整的。当前语音帧的泄漏率可以是利用预测模型确定的。

基于此,本申请实施例还提供一种生成声学特征的方法,除上述步骤以外,还包括以下步骤:

将当前语音帧的声学信息向量以及上一语音帧对应的整合声学信息向量输入预测模型,获得当前语音帧的泄漏率。

预测模型能够根据输入的当前语音帧的声学信息向量和上一语音帧对应的整合声学信息向量,输出当前语音帧的泄露率。当前语音帧的泄露率的取值范围为[0,1]。

预测模型可以是语音模型中的一个神经网络层,例如,可以是全连接层或者卷积层,激活函数为sigmoid。预测模型可以是与语音模型一同进行训练得到的。在训练语音模型的过程中调整预测模型的模型参数。

基于上述内容可知,利用预测模型得到当前语音帧的泄露率,能够使得语音帧的泄露率更为准确,进而提高得到的下发的整合声学信息向量的准确程度。

在一种可能的实现方式中,还可以每间隔N个语音帧,当前语音帧对应的泄漏率为0。

在本申请实施例中,通过调整部分语音帧的泄露率为0,能够实现在提高下发的整合声学信息向量的准确程度的前提下,降低计算量,提高生成整合声学信息向量的效率。

基于上述实施例提供的生成声学特征的方法,本申请实施例还提供一种语音模型训练方法。参见图5所示,该图为本申请实施例提供的一种语音模型训练方法的流程图,该方法包括步骤S501-S504。

S501:将训练语音数据输入编码器,得到各个语音帧的声学信息向量。

训练语音数据用于训练声学模型,确定声学模型中的模型参数。训练语音数据具有对应的字标签。

例如,当训练语音数据为“你好”对应的语音数据时,训练语音数据对应的字标签为“你好”。

将训练语音数据输入编码器中,得到编码器输出的各个语音帧的声学信息向量。

S502:将各个语音帧的声学信息向量以及各个语音帧的信息量权重输入连续整合发放CIF模块,得到下发的整合声学信息向量。

再将编码器输出的各个语音帧的声学信息向量以及各个语音帧的信息量权重输入CIF模块中,得到CIF模块下发的整合声学信息向量。其中,CIF模块采用上述实施例的生成声学特征的方法得到下发的整合声学信息向量。

S503:将下发的整合声学信息向量输入解码器,得到训练语音数据的字预测结果。

再将得到的下发的整合声学信息向量输入解码器中,得到解码器输出的训练语音数据的字预测结果。

S504:根据字预测结果以及训练语音数据对应的字标签,训练编码器、CIF模块以及解码器。

训练语音数据对应的字标签是训练语音数据对应的正确的字,根据语音模型输出的字预测结果和训练语音数据对应的字标签,训练语音模型。语音模型是由编码器、CIF模块和解码器构成的。

基于上述S501-S504的相关内容可知,通过采用上述声学特征生成的方法,CIF模块输出的整合声学信息向量更为准确,使得解码器解码得到的字预测结果更为准确,训练得到的语音模型的准确程度较高,性能较优。

基于上述实施例提供的语音模型训练方法,本申请实施例还提供语音识别方法。参见图6所示,该图为本申请实施例提供的一种语音识别方法的流程图,该方法包括步骤S601-S603。

S601:将待识别语音数据输入编码器,得到各个语音帧的声学信息向量。

待识别语音数据是需要识别得到字识别结果的语音数据。将待识别语音数据输入编码器中,得到编码器输出的各个语音帧的声学信息向量。

S602:将各个语音帧的声学信息向量以及各个语音帧的信息量权重输入连续整合发放CIF模块,得到下发的整合声学信息向量。

再将各个语音帧的声学信息向量和各个语音帧的信息量权重输入CIF模块中,得到CIF模块输出的整合声学信息向量。其中,CIF模块采用上述实施例的生成声学特征的方法得到下发的整合声学信息向量。

S603:将下发的整合声学信息向量输入解码器,得到待识别语音数据的字识别结果。

最后,再将下发的整合声学信息向量输入解码器中,得到解码器输出的待识别语音数据的字识别结果。字识别结果为语音模型输出的对待识别语音数据的识别结果。

基于上述S601-S603的相关内容可知,通过采用上述声学特征生成的方法,CIF模块输出的整合声学信息向量更为准确,使得解码器解码得到的字预测结果更为准确,语音模型的准确程度较高,性能较优。

基于上述方法实施例提供的一种生成声学特征的方法,本申请实施例还提供了一种生成声学特征的装置,下面将结合附图对生成声学特征的装置进行说明。

参见图7所示,该图为本申请实施例提供的一种生成声学特征的装置的结构示意图。如图7所示,该生成声学特征的装置包括:

第一获取单元701,用于获取当前语音帧的声学信息向量和所述当前语音帧的信息量权重;

第一计算单元702,用于根据上一语音帧对应的已累积信息量权重、所述当前语音帧对应的保留率以及所述当前语音帧的信息量权重,得到所述当前语音帧对应的已累积信息量权重;所述保留率为1与泄漏率之差;

第二计算单元703,用于如果所述当前语音帧对应的已累积信息量权重小于阈值,根据上一语音帧对应的整合声学信息向量、所述当前语音帧对应的保留率、所述当前语音帧的信息量权重以及所述当前语音帧的声学信息向量,得到所述当前语音帧对应的整合声学信息向量;

第三计算单元704,用于如果所述当前语音帧对应的已累积信息量权重大于或等于阈值,利用上一语音帧对应的整合声学信息向量以及所述当前语音帧的声学信息向量输出下发的整合声学信息向量,并计算得到所述当前语音帧对应的整合声学信息向量;

执行单元705,用于在得到所述当前语音帧对应的整合声学信息向量之后,将下一语音帧作为当前语音帧,重复执行所述获取当前语音帧的声学信息向量和所述当前语音帧的信息量权重以及后续步骤,直到不存在下一语音帧。

在一种可能的实现方式中,所述第一计算单元702,具体用于将上一语音帧对应的已累积信息量权重乘以所述当前语音帧对应的保留率,再与所述当前语音帧的信息量权重相加,得到所述当前语音帧对应的已累积信息量权重。

在一种可能的实现方式中,所述第二计算单元703,具体用于如果所述当前语音帧对应的已累积信息量权重小于阈值,将上一语音帧对应的整合声学信息向量乘以所述当前语音帧对应的保留率,再与所述当前语音帧的信息量权重与所述当前语音帧的声学信息向量之积相加,得到所述当前语音帧对应的整合声学信息向量。

在一种可能的实现方式中,所述第三计算单元704,包括:

第一计算子单元,用于如果所述当前语音帧对应的已累积信息量权重大于或等于阈值,计算上一语音帧对应的已累积信息量权重乘以所述当前语音帧对应的保留率,得到第一数值,计算1与所述第一数值的差,得到所述当前语音帧的第一部分信息量权重;

第二计算子单元,用于将上一语音帧对应的整合声学信息向量乘以所述当前语音帧对应的保留率,再与所述当前语音帧的第一部分信息量权重与所述当前语音帧的声学信息向量之积相加,得到下发的整合声学信息向量。

在一种可能的实现方式中,所述第三计算单元704,包括:

第三计算子单元,用于计算所述当前语音帧的信息量权重与所述当前语音帧的第一部分信息量权重之差得到所述当前语音帧的第二部分信息量权重,将所述当前语音帧的第二部分信息量权重作为所述当前语音帧的已累积信息量权重;

第四计算子单元,用于计算所述当前语音帧的第二部分信息量权重乘以所述当前语音帧的声学信息向量,得到所述当前语音帧对应的整合声学信息向量。

在一种可能的实现方式中,所述装置还包括:

第二获取单元,用于将所述当前语音帧的声学信息向量以及上一语音帧对应的整合声学信息向量输入预测模型,获得所述当前语音帧的泄漏率。

在一种可能的实现方式中,每间隔N个语音帧,所述当前语音帧对应的泄漏率为0。

基于上述方法实施例提供的一种语音模型训练方法,本申请实施例还提供了一种语音模型训练装置,下面将结合附图对语音模型训练装置进行说明。

参见图8所示,该图为本申请实施例提供的一种语音模型训练装置的结构示意图。如图8所示,该语音模型训练装置包括:

第一训练单元801,用于将训练语音数据输入编码器,得到各个语音帧的声学信息向量;

第二训练单元802,用于将各个所述语音帧的声学信息向量以及各个所述语音帧的信息量权重输入连续整合发放CIF模块,得到下发的整合声学信息向量;所述CIF模块根据上述任一项实施例所述生成声学特征的方法输出所述下发的整合声学信息向量;

第三训练单元803,用于将所述下发的整合声学信息向量输入解码器,得到所述训练语音数据的字预测结果;

第四训练单元804,用于根据所述字预测结果以及所述训练语音数据对应的字标签,训练所述编码器、所述CIF模块以及所述解码器。

基于上述方法实施例提供的一种语音识别方法,本申请实施例还提供了一种语音识别装置,下面将结合附图对语音识别装置进行说明。

参见图9所示,该图为本申请实施例提供的一种语音识别装置的结构示意图。如图9所示,该语音识别装置包括:

第一输入单元901,用于将待识别语音数据输入编码器,得到各个语音帧的声学信息向量;

第二输入单元902,用于将各个所述语音帧的声学信息向量以及各个所述语音帧的信息量权重输入连续整合发放CIF模块,得到下发的整合声学信息向量;所述CIF模块根据上述任一项实施例所述生成声学特征的方法输出所述下发的整合声学信息向量;

第三输入单元903,用于将所述下发的整合声学信息向量输入解码器,得到所述待识别语音数据的字识别结果。

基于上述方法实施例提供的一种生成声学特征的方法,一种语音模型训练方法,以及一种语音识别方法,本申请还提供一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一项实施例所述的生成声学特征的方法,语音模型训练方法,或者语音识别方法。

下面参考图10,其示出了适于用来实现本申请实施例的电子设备1000的结构示意图。本申请实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(Personal Digital Assistant,个人数字助理)、PAD(portable androiddevice,平板电脑)、PMP(Portable Media Player,便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV(television,电视机)、台式计算机等等的固定终端。图10示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

如图10所示,电子设备1000可以包括处理装置(例如中央处理器、图形处理器等)1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储装置1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM1003中,还存储有电子设备1000操作所需的各种程序和数据。处理装置1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

通常,以下装置可以连接至I/O接口1005:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置1008;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置1007;包括例如磁带、硬盘等的存储装置808;以及通信装置1009。通信装置1009可以允许电子设备1000与其他设备进行无线或有线通信以交换数据。虽然图10示出了具有各种装置的电子设备1000,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置1009从网络上被下载和安装,或者从存储装置1008被安装,或者从ROM1002被安装。在该计算机程序被处理装置1001执行时,执行本申请实施例的方法中限定的上述功能。

本申请实施例提供的电子设备与上述实施例提供的生成声学特征的方法、语音模型训练方法和语音识别方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。

基于上述方法实施例提供的一种生成声学特征的方法,语音模型训练方法,以及语音识别方法,本申请实施例提供了一种计算机存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上述任一项实施例所述的生成声学特征的方法,语音模型训练方法,或者语音识别方法。

需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。

在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述生成声学特征的方法、语音模型训练方法或者语音识别方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元/模块的名称在某种情况下并不构成对该单元本身的限定,例如,语音数据采集模块还可以被描述为“数据采集模块”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本申请的一个或多个实施例,【示例一】提供了一种生成声学特征的方法,所述方法包括:

获取当前语音帧的声学信息向量和所述当前语音帧的信息量权重;

根据上一语音帧对应的已累积信息量权重、所述当前语音帧对应的保留率以及所述当前语音帧的信息量权重,得到所述当前语音帧对应的已累积信息量权重;所述保留率为1与泄漏率之差;

如果所述当前语音帧对应的已累积信息量权重小于阈值,根据上一语音帧对应的整合声学信息向量、所述当前语音帧对应的保留率、所述当前语音帧的信息量权重以及所述当前语音帧的声学信息向量,得到所述当前语音帧对应的整合声学信息向量;

如果所述当前语音帧对应的已累积信息量权重大于或等于阈值,利用上一语音帧对应的整合声学信息向量以及所述当前语音帧的声学信息向量输出下发的整合声学信息向量,并计算得到所述当前语音帧对应的整合声学信息向量;

在得到所述当前语音帧对应的整合声学信息向量之后,将下一语音帧作为当前语音帧,重复执行所述获取当前语音帧的声学信息向量和所述当前语音帧的信息量权重以及后续步骤,直到不存在下一语音帧。

根据本申请的一个或多个实施例,【示例二】提供了一种生成声学特征的方法,所述根据上一语音帧对应的已累积信息量权重、所述当前语音帧对应的保留率以及所述当前语音帧的信息量权重,得到所述当前语音帧对应的已累积信息量权重,包括:

将上一语音帧对应的已累积信息量权重乘以所述当前语音帧对应的保留率,再与所述当前语音帧的信息量权重相加,得到所述当前语音帧对应的已累积信息量权重。

根据本申请的一个或多个实施例,【示例三】提供了一种生成声学特征的方法,所述如果所述当前语音帧对应的已累积信息量权重小于阈值,根据上一语音帧对应的整合声学信息向量、所述当前语音帧对应的保留率、所述当前语音帧的信息量权重以及所述当前语音帧的声学信息向量,得到所述当前语音帧对应的整合声学信息向量,包括:

如果所述当前语音帧对应的已累积信息量权重小于阈值,将上一语音帧对应的整合声学信息向量乘以所述当前语音帧对应的保留率,再与所述当前语音帧的信息量权重与所述当前语音帧的声学信息向量之积相加,得到所述当前语音帧对应的整合声学信息向量。

根据本申请的一个或多个实施例,【示例四】提供了一种生成声学特征的方法,所述如果所述当前语音帧对应的已累积信息量权重大于或等于阈值,利用上一语音帧对应的整合声学信息向量以及所述当前语音帧的声学信息向量输出下发的整合声学信息向量,包括:

如果所述当前语音帧对应的已累积信息量权重大于或等于阈值,计算上一语音帧对应的已累积信息量权重乘以所述当前语音帧对应的保留率,得到第一数值,计算1与所述第一数值的差,得到所述当前语音帧的第一部分信息量权重;

将上一语音帧对应的整合声学信息向量乘以所述当前语音帧对应的保留率,再与所述当前语音帧的第一部分信息量权重与所述当前语音帧的声学信息向量之积相加,得到下发的整合声学信息向量。

根据本申请的一个或多个实施例,【示例五】提供了一种生成声学特征的方法,所述计算所述当前语音帧对应的整合声学信息向量,包括:

计算所述当前语音帧的信息量权重与所述当前语音帧的第一部分信息量权重之差得到所述当前语音帧的第二部分信息量权重,将所述当前语音帧的第二部分信息量权重作为所述当前语音帧的已累积信息量权重;

计算所述当前语音帧的第二部分信息量权重乘以所述当前语音帧的声学信息向量,得到所述当前语音帧对应的整合声学信息向量。

根据本申请的一个或多个实施例,【示例六】提供了一种生成声学特征的方法,所述方法还包括:

将所述当前语音帧的声学信息向量以及上一语音帧对应的整合声学信息向量输入预测模型,获得所述当前语音帧的泄漏率。

根据本申请的一个或多个实施例,【示例七】提供了一种生成声学特征的方法,每间隔N个语音帧,所述当前语音帧对应的泄漏率为0。

根据本申请的一个或多个实施例,【示例八】提供了一种语音模型训练方法,所述方法包括:

将训练语音数据输入编码器,得到各个语音帧的声学信息向量;

将各个所述语音帧的声学信息向量以及各个所述语音帧的信息量权重输入连续整合发放CIF模块,得到下发的整合声学信息向量;所述CIF模块根据上述任一项实施例所述生成声学特征的方法输出所述下发的整合声学信息向量;

将所述下发的整合声学信息向量输入解码器,得到所述训练语音数据的字预测结果;

根据所述字预测结果以及所述训练语音数据对应的字标签,训练所述编码器、所述CIF模块以及所述解码器。

根据本申请的一个或多个实施例,【示例九】提供了一种语音识别方法,所述方法包括:

将待识别语音数据输入编码器,得到各个语音帧的声学信息向量;

将各个所述语音帧的声学信息向量以及各个所述语音帧的信息量权重输入连续整合发放CIF模块,得到下发的整合声学信息向量;所述CIF模块根据上述任一项实施例所述生成声学特征的方法输出所述下发的整合声学信息向量;

将所述下发的整合声学信息向量输入解码器,得到所述待识别语音数据的字识别结果。

根据本申请的一个或多个实施例,【示例十】提供了一种生成声学特征的装置,所述装置包括:

第一获取单元,用于获取当前语音帧的声学信息向量和所述当前语音帧的信息量权重;

第一计算单元,用于根据上一语音帧对应的已累积信息量权重、所述当前语音帧对应的保留率以及所述当前语音帧的信息量权重,得到所述当前语音帧对应的已累积信息量权重;所述保留率为1与泄漏率之差;

第二计算单元,用于如果所述当前语音帧对应的已累积信息量权重小于阈值,根据上一语音帧对应的整合声学信息向量、所述当前语音帧对应的保留率、所述当前语音帧的信息量权重以及所述当前语音帧的声学信息向量,得到所述当前语音帧对应的整合声学信息向量;

第三计算单元,用于如果所述当前语音帧对应的已累积信息量权重大于或等于阈值,利用上一语音帧对应的整合声学信息向量以及所述当前语音帧的声学信息向量输出下发的整合声学信息向量,并计算得到所述当前语音帧对应的整合声学信息向量;

执行单元,用于在得到所述当前语音帧对应的整合声学信息向量之后,将下一语音帧作为当前语音帧,重复执行所述获取当前语音帧的声学信息向量和所述当前语音帧的信息量权重以及后续步骤,直到不存在下一语音帧。根据本申请的一个或多个实施例,【示例十一】提供了一种生成声学特征的装置,所述第一计算单元,具体用于将上一语音帧对应的已累积信息量权重乘以所述当前语音帧对应的保留率,再与所述当前语音帧的信息量权重相加,得到所述当前语音帧对应的已累积信息量权重。

根据本申请的一个或多个实施例,【示例十二】提供了一种生成声学特征的装置,所述第二计算单元,具体用于如果所述当前语音帧对应的已累积信息量权重小于阈值,将上一语音帧对应的整合声学信息向量乘以所述当前语音帧对应的保留率,再与所述当前语音帧的信息量权重与所述当前语音帧的声学信息向量之积相加,得到所述当前语音帧对应的整合声学信息向量。

根据本申请的一个或多个实施例,【示例十三】提供了一种生成声学特征的装置,所述第三计算单元,包括:

第一计算子单元,用于如果所述当前语音帧对应的已累积信息量权重大于或等于阈值,计算上一语音帧对应的已累积信息量权重乘以所述当前语音帧对应的保留率,得到第一数值,计算1与所述第一数值的差,得到所述当前语音帧的第一部分信息量权重;

第二计算子单元,用于将上一语音帧对应的整合声学信息向量乘以所述当前语音帧对应的保留率,再与所述当前语音帧的第一部分信息量权重与所述当前语音帧的声学信息向量之积相加,得到下发的整合声学信息向量。

根据本申请的一个或多个实施例,【示例十四】提供了一种生成声学特征的装置,所述第三计算单元,包括:

第三计算子单元,用于计算所述当前语音帧的信息量权重与所述当前语音帧的第一部分信息量权重之差得到所述当前语音帧的第二部分信息量权重,将所述当前语音帧的第二部分信息量权重作为所述当前语音帧的已累积信息量权重;

第四计算子单元,用于计算所述当前语音帧的第二部分信息量权重乘以所述当前语音帧的声学信息向量,得到所述当前语音帧对应的整合声学信息向量。

根据本申请的一个或多个实施例,【示例十五】提供了一种生成声学特征的装置,所述装置还包括:

第二获取单元,用于将所述当前语音帧的声学信息向量以及上一语音帧对应的整合声学信息向量输入预测模型,获得所述当前语音帧的泄漏率。

根据本申请的一个或多个实施例,【示例十六】提供了一种生成声学特征的装置,每间隔N个语音帧,所述当前语音帧对应的泄漏率为0。

根据本申请的一个或多个实施例,【示例十七】提供了一种语音模型训练装置,所述装置包括:

第一训练单元,用于将训练语音数据输入编码器,得到各个语音帧的声学信息向量;

第二训练单元,用于将各个所述语音帧的声学信息向量以及各个所述语音帧的信息量权重输入连续整合发放CIF模块,得到下发的整合声学信息向量;所述CIF模块根据上述任一项实施例所述生成声学特征的方法输出所述下发的整合声学信息向量;

第三训练单元,用于将所述下发的整合声学信息向量输入解码器,得到所述训练语音数据的字预测结果;

第四训练单元,用于根据所述字预测结果以及所述训练语音数据对应的字标签,训练所述编码器、所述CIF模块以及所述解码器。

根据本申请的一个或多个实施例,【示例十八】提供了一种语音识别装置,所述装置包括:

第一输入单元,用于将待识别语音数据输入编码器,得到各个语音帧的声学信息向量;

第二输入单元,用于将各个所述语音帧的声学信息向量以及各个所述语音帧的信息量权重输入连续整合发放CIF模块,得到下发的整合声学信息向量;所述CIF模块根据上述任一项实施例所述生成声学特征的方法输出所述下发的整合声学信息向量;

第三输入单元,用于将所述下发的整合声学信息向量输入解码器,得到所述待识别语音数据的字识别结果。

根据本申请的一个或多个实施例,【示例十九】提供了一种电子设备,包括:

一个或多个处理器;

存储装置,其上存储有一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一实施例所述生成声学特征的方法、上述实施例所述的语音模型训练方法或者上述实施例所述的语音识别方法。

根据本申请的一个或多个实施例,【示例二十】提供了一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上述任一实施例所述生成声学特征的方法、上述实施例所述的语音模型训练方法或者上述实施例所述的语音识别方法。

需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。

还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

28页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:语音切分模型的训练方法、装置、电子设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!