模型训练、置信度确定方法及装置、电子设备、存储介质

文档序号:154805 发布日期:2021-10-26 浏览:20次 >En<

阅读说明:本技术 模型训练、置信度确定方法及装置、电子设备、存储介质 (Model training method, model training device, confidence determining method, confidence determining device, electronic equipment and storage medium ) 是由 罗海霞 王莎 白锦峰 于 2021-09-22 设计创作,主要内容包括:本申请涉及一种模型训练、置信度确定方法及装置、电子设备、存储介质,应用于语音识别技术领域,模型训练方法包括:获取多个第一语音数据以及每个第一语音数据对应的第一文本信息;将从第一语音数据提取到的声学特征输入预先训练完成的编解码模型,得到第一语音数据的深度特征和logits输出结果;根据第一文本信息,构建标签数据;将第一语音数据对应的深度特征输入初始温度系数预测模型,得到温度系数预测值;将温度系数预测值、标签数据和logits输出结果输入第一损失函数,确定损失函数值;根据损失函数值对初始温度系数预测模型的参数进行调整,得到目标温度系数预测模型。本申请可以提高输出置信度的可靠性。(The application relates to a model training method, a confidence determining method, a model training device, a confidence determining device, electronic equipment and a storage medium, which are applied to the technical field of voice recognition, wherein the model training method comprises the following steps: acquiring a plurality of first voice data and first text information corresponding to each first voice data; inputting the acoustic features extracted from the first voice data into a pre-trained coding and decoding model to obtain the depth features and the locations output results of the first voice data; constructing label data according to the first text information; inputting the depth features corresponding to the first voice data into an initial temperature coefficient prediction model to obtain a temperature coefficient prediction value; inputting the temperature coefficient predicted value, the label data and the logits output result into a first loss function, and determining a loss function value; and adjusting parameters of the initial temperature coefficient prediction model according to the loss function value to obtain a target temperature coefficient prediction model. The reliability of the output confidence can be improved.)

模型训练、置信度确定方法及装置、电子设备、存储介质

技术领域

本申请涉及语音识别技术领域,尤其涉及一种模型训练、置信度确定方法及装置、电子设备、存储介质。

背景技术

自动语音识别技术已在工业界得到广泛应用,其基本原理是将语音信号通过机器转化为对应的文本信息。由于识别结果的正确与否直接影响用户体验及下游任务,因此,通常可以利用置信度来评价输出结果的可靠性。

语音识别技术通常基于深度神经网络构建识别模型,并直接采用输出后验概率作为置信度,然而,在实际模型迭代过程中,将使得预测结果的输出概率远大于非预测结果,因而模型对输出结果体现出“overconfident”的现象,具体表现为即使预测结果并非正确结果,模型也将给出较高的置信度。因此,输出概率不能直接较准确地反映模型预测结果的真实可靠性,即置信度的可靠性较低。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种模型训练、置信度确定方法及装置、电子设备、存储介质。

根据本申请的第一方面,提供了一种温度系数预测模型训练方法,包括:

获取多个第一语音数据以及每个所述第一语音数据对应的第一文本信息;

将从所述第一语音数据提取到的声学特征输入预先训练完成的编解码模型,得到所述第一语音数据的深度特征和logits输出结果;

根据所述第一文本信息,构建标签数据;

将所述第一语音数据对应的深度特征输入初始温度系数预测模型,得到温度系数预测值;

将所述温度系数预测值、所述标签数据和所述logits输出结果输入第一损失函数,确定损失函数值;

根据所述损失函数值对所述初始温度系数预测模型的参数进行调整,得到目标温度系数预测模型。

根据本申请的第二方面,提供了一种置信度确定方法,所述方法包括:

获取待识别语音数据,并提取所述待识别语音数据的声学特征;

将所述声学特征输入预先训练完成的编解码模型,得到该待识别语音数据的深度特征和logits输出结果;

将所述深度特征输入预先训练完成的目标温度系数预测模型,得到温度系数;其中,所述目标温度系数预测模型基于第一方面所述的方法训练得到;

根据所述温度系数和所述logits输出结果,确定所述待识别语音数据的文本识别结果的置信度。

根据本申请的第三方面,提供了一种温度系数预测模型训练装置,包括:

第一样本数据获取模块,用于获取多个第一语音数据以及每个所述第一语音数据对应的第一文本信息;

数据处理模块,用于将从所述第一语音数据提取到的声学特征输入预先训练完成的编解码模型,得到所述第一语音数据的深度特征和logits输出结果;

标签数据构建模块,用于根据所述第一文本信息,构建标签数据;

温度系数值预测模块,用于将所述第一语音数据对应的深度特征输入初始温度系数预测模型,得到温度系数预测值;

第一损失函数值确定模块,用于将所述温度系数预测值、所述标签数据和所述logits输出结果输入第一损失函数,确定损失函数值;

目标温度系数预测模型训练模块,用于根据所述损失函数值对所述初始温度系数预测模型的参数进行调整,得到目标温度系数预测模型。

根据本申请的第四方面,提供了一种置信度确定装置,所述装置包括:

声学特征提取模块,用于获取待识别语音数据,并提取所述待识别语音数据的声学特征;

数据处理模块,用于将所述声学特征输入预先训练完成的编解码模型,得到该待识别语音数据的深度特征和logits输出结果;

温度系数确定模块,用于将所述深度特征输入预先训练完成的目标温度系数预测模型,得到温度系数;其中,所述目标温度系数预测模型基于第一方面所述的方法训练得到;

置信度确定模块,用于根据所述温度系数和所述logits输出结果,确定所述待识别语音数据的文本识别结果的置信度。

根据本申请的第五方面,提供了一种电子设备,包括:

处理器;以及

存储程序的存储器,

其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行第一方面或第二方面所述的方法。

根据本申请的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面或第二方面所述方法。

根据本申请的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现第一方面或第二方面所述的方法。

本申请实施例提供的技术方案与现有技术相比具有如下优点:

在预先训练完成的编解码模型的基础上,通过编解码模型提取每个第一语音数据的深度特征,并获取每个第一语音数据的logits输出结果。通过将深度特征输入初始温度系数预测模型,得到温度系数预测值;将温度系数预测值、标签数据和logits输出结果输入第一损失函数,确定损失函数值;根据损失函数值对初始温度系数预测模型的参数进行调整,得到目标温度系数预测模型,即在编解码模型的基础上,训练一个独立的温度系数预测模型来预测温度系数。由于温度系数是神经网络中的一个超参数,用于调整分类模型最终输出结果的平滑性,因此,通过温度系数对置信度进行校正,可以使校正后的置信度更准确地描述输出结果,提高输出置信度的可靠性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1示出了可以应用本申请实施例的温度系数预测模型训练方法及置信度确定方法的示例性应用环境的系统架构的示意图;

图2为本申请实施例中温度系数预测模型训练方法的一种流程图;

图3为本申请实施例中温度系数预测模型训练方法的一种示意图;

图4为本申请实施例中编解码模型的训练方法的一种流程图;

图5为本申请实施例中温度系数预测模型训练方法的又一种流程图;

图6为本申请实施例中温度系数预测模型训练方法的又一种流程图;

图7为Transformer模型的一种示意图;

图8为本申请实施例中置信度确定方法的一种流程图;

图9为本申请实施例中置信度确定方法的一种示意图;

图10为本申请实施例中温度系数预测模型训练装置的一种结构示意图;

图11为本申请实施例中置信度确定装置的一种结构示意图;

图12为本申请实施例中电子设备的一种结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。

应当理解,本申请的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本申请的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意,本申请中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。

本申请实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。

自动语音识别系统已经使语音助手、意图检测、关键词提取和情感分析等众多应用得以发展。它们对自动语音识别系统产生的识别结果的正误十分敏感,因此,可以使用与预测输出相关联的置信度来对识别结果进行评价,从而进行输出结果的后处理。另外,置信度还具有较多的实际应用价值,比如对集外词的拒识别,在大词汇自动语音识别系统训练过程中用于模型自适应,利用置信度筛选模型训练数据等。

基于注意力机制的编码-解码建模方法是目前工业界广泛使用的一种语音识别方法,其相对于传统hybrid的模型而言建模方式更加简单,且具有更好的识别效果。目前,基于注意力机制的编码-解码建模方法的置信度问题在手写识别和机器翻译方面有了一些相关的研究,但在自动语音识别模型中尚未得到深入研究。基于此,本申请提供了一种模型训练、置信度确定方法及装置、电子设备、存储介质,以在进行自动语音识别时提高识别结果的置信度的准确性。

图1示出了可以应用本申请实施例的温度系数预测模型训练方法及置信度确定方法的示例性应用环境的系统架构的示意图。

如图1所示,系统架构100可以包括智能设备101、智能设备102中的一个或两个,网络103和服务器104。网络103用以在智能设备101、智能设备102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。智能设备101、智能设备102可以是各种可以识别语音数据的电子设备,包括但不限于智能音箱、智能手机和平板电脑等等。应该理解,图1中的智能设备、网络和服务器的数量仅仅是示意性的。根据实现需要,可以具有任意数量的智能设备、网络和服务器。比如服务器104可以是多个服务器组成的服务器集群等。

本申请实施例所提供的温度系数预测模型训练方法及置信度确定方法一般由服务器104执行,相应地,温度系数预测模型训练装置及置信度确定装置可以设置于服务器104中。但本领域技术人员容易理解的是,本申请实施例所提供的温度系数预测模型训练方法及置信度确定方法也可以由智能设备101、智能设备102执行。举例而言,服务器104可以预先训练生成编解码模型,并获取语音数据和语音数据对应的文本信息,服务器104通过编解码模型对语音数据进行处理,提取其深度特征,并获取logits输出结果和文本预测结果。根据语音数据对应的文本信息构建标签数据,将深度特征输入初始温度系数预测模型,得到温度系数预测值;将温度系数预测值、标签数据和logits输出结果输入第一损失函数,确定损失函数值;根据损失函数值对初始温度系数预测模型的参数进行调整,得到目标温度系数预测模型。

在训练完成目标温度系数预测模型之后,在接收到智能设备101、智能设备102发送的待识别语音数据的情况下,通过编解码模型对待识别语音数据进行处理,提取其中的深度特征,并获取对应的logits输出结果。将深度特征进一步输入目标温度系数预测模型,得到温度系数,根据温度系数和logits输出结果,确定待识别语音数据的文本识别结果的置信度,以提高置信度的可靠性。

其中,温度系数是神经网络中的一个超参数,用于调整分类模型最终输出结果的平滑性。例如,假设预先训练完成的编解码模型为三分类模型,输入的待识别语音数据的真实结果是第一类,解码的logits输出结果为[3,2,1],在不使用温度系数的情况下,通过归一化指数函数,计算得到的结果为[0.665,0.245,0.090],即此时的置信度为0.665,虽然模型预测正确,但给出的置信度并不高,不符合模型的实际可靠性。假设通过温度系数预测模型预测得到的温度系数T=0.5,将上述logits输出结果除以温度系数可以得到[3/0.5,2/0.5,1/0.5],通过归一化指数函数,计算得到的结果为[0.867,0.117,0.016],即此时的置信度为0.867。可见,温度系数并未改变最终的输出结果(logits中数值最大者所在类别),但经温度系数调整后的置信度能够更准确地反应模型预测结果的可靠程度。

以下首先对本申请实施例的温度系数预测模型训练方法进行详细介绍。

参见图2,图2为本申请实施例中温度系数预测模型训练方法的一种流程图,可以包括以下步骤:

步骤S210,获取多个第一语音数据以及每个第一语音数据对应的第一文本信息。

本申请实施例中,第一语音数据和第一文本信息是用于训练温度系数预测模型的样本数据。第一语音数据可以是用户说话时采集到的音频数据,第一文本信息是对第一语音数据进行语音识别得到的文本信息。即,第一文本信息与第一语音数据是一一对应的。

步骤S220,将从第一语音数据提取到的声学特征输入预先训练完成的编解码模型,得到第一语音数据的深度特征和logits输出结果。

编解码模型是包含编码模块和解码模块的神经网络模型,可以预先训练得到。下文讲对编解码模型的训练方法进行详细介绍,在此不再赘述。编解码模型可以对语音数据进行识别,得到对应的文本信息。本申请实施例中,将从每个第一语音数据提取到的声学特征输入编解码模型,可以提取第一语音数据的深度特征,还可以获取logits输出结果。logits输出结果指的是神经网络模型的原始输出值,将logits输出结果输入softmax层中进行归一化处理之后可以输出最终分类结果,即文本预测结果。因此,文本预测结果是编解码模型的最终输出结果,深度特征和logits输出结果均为编解码模型的中间结果。

本申请可以将每个第一语音数据分为多个时间步的语音数据,每个时间步可以对应一个字/词。针对每个时间步的语音数据,进行声学特征提取,将提取到的声学特征输入编解码模型,得到对应的深度特征和logits输出结果。可以将深度特征作为用于训练温度系数预测模型的输入数据,logits输出结果用于计算损失函数值。

步骤S230,根据第一文本信息,构建标签数据。

本申请实施例中,第一文本信息是第一语音数据对应的真实文本信息,可以直接根据第一文本信息构建用于训练温度系数预测模型的标签数据。针对第一文本信息中的每个字符,均可以构建对应的标签数据。可选的,每个字符对应的标签数据为预设维度的向量,预设维度为文本字符序列中文本字符的总数量;如果字符为文本字符序列中的第N个文本字符,则标签数据中第N个元素的值为第一数值,标签数据中其他元素的值为第二数值,N为不大于预设维度的正整数。

其中,文本字符序列可以包含所有的文本字符,或者也可以是使用频率较高的文本字符等。例如,对于汉语,文本字符序列可以是所有汉字字符构成的序列,对于其他语种,文本字符序列可以是该语种语言中的所有单词构成的序列。如果第一文本信息中的某一个字符是文本字符序列中的第一百位字符,那么,该字符对应的标签数据中,第一百位元素的值为第一数值,剩余其他元素的值为第二数值。第一数值和第二数值用于对第一文本信息中当前识别的字符和其他字符进行区分。例如,第一数值可以是1,第二数值可以是0等,第一数值和第二数值也可以是其他数值,本申请对此不做限定。

步骤S240,将第一语音数据对应的深度特征输入初始温度系数预测模型,得到温度系数预测值。

需要说明的是,可以将编解码模型提取到的第一语音数据的深度特征作为输入数据,输入至初始温度系数预测模型。初始温度系数预测模型是原始的、参数未经调整的温度系数预测模型,通过初始温度系数预测模型对深度特征进行处理,可得到温度系数预测值。可以理解的是,该温度系数预测值通常不是准确的温度系数预测值,因此,可以通过训练过程,对初始温度系数预测模型的参数值不断调整,以对参数值进行优化。

步骤S250,将温度系数预测值、标签数据和logits输出结果输入第一损失函数,确定损失函数值。

本申请实施例中,logits输出结果表示第一语音数据的真实logits输出结果,温度系数预测值表示预测结果,将温度系数预测值、标签数据和logits输出结果输入第一损失函数,可以确定损失函数值。其中,第一损失函数包括但不限于:负对数似然函数。具体的,可以先根据logits输出结果和温度系数预测值,得到置信度预测结果。根据置信度预测结果和标签数据得到损失函数值。

步骤S260,根据损失函数值对初始温度系数预测模型的参数进行调整,得到目标温度系数预测模型。

可以理解的是,在模型训练过程中,损失函数值越小,表示训练得到的温度系数预测模型的准确性越高,因此,在损失函数值收敛至某一阈值的情况下,训练过程可以结束,从而得到最终的目标温度系数预测模型。

图3为本申请实施例中温度系数预测模型训练方法的一种示意图,即与图2实施例对应的示意图,可以看出,温度系数预测模型是在编解码模型的基础上训练得到,温度系数预测模型的训练数据是根据编解码模型的输出构建,因此,编解码模型的准确性将会影响温度系数预测模型的准确性。为了提高温度系数预测模型的准确性,本申请在预先训练编解码模型时,可以对编解码模型的稳定性进行验证,以最终得到稳定的编解码模型。

本申请实施例的温度系数预测模型训练方法,在预先训练完成的编解码模型的基础上,通过编解码模型提取每个第一语音数据的深度特征,并获取每个第一语音数据的logits输出结果。通过将深度特征输入初始温度系数预测模型,得到温度系数预测值;将温度系数预测值、标签数据和logits输出结果输入第一损失函数,确定损失函数值;根据损失函数值对初始温度系数预测模型的参数进行调整,得到目标温度系数预测模型,即在编解码模型的基础上,训练一个独立的温度系数预测模型来预测温度系数。由于温度系数是神经网络中的一个超参数,用于调整分类模型最终输出结果的平滑性,因此,通过温度系数对置信度进行校正,可以使校正后的置信度更准确地描述输出结果,提高输出置信度的可靠性。

以下对本申请实施例中编解码模型的训练方法进行介绍。

图2实施例中,在训练温度系数预测模型之前,可以先训练生成编解码模型。参见图4,图4为本申请实施例中编解码模型的训练方法的一种流程图,可以包括以下步骤:

步骤S410,获取多个第二语音数据以及每个第二语音数据对应的第二文本信息。

需要说明的是,在训练编解码模型所使用的训练数据和训练温度系数预测模型所使用的数据可以是不同的数据,也可以是相同的数据。为了提高温度系数预测模型的稳定性,训练温度系数预测模型所使用的第一语音数据和第一文本信息,可以包含于第二语音数据和第二文本信息,即第一语音数据和第一文本信息可以是第二语音数据和第二文本信息中的部分子数据或者全部数据。

步骤S420,提取第二语音数据中的声学特征,以及第二文本信息中的文本特征。

其中,提取到的声学特征可以为fbank(FilterBank)或mfcc(Mel-frequencycepstral coefficients,梅尔频率倒谱系数),提取到的文本特征可以包含时序特征等。

步骤S430,将声学特征和文本特征输入初始模型,得到第二文本预测结果。

本申请实施例中,可以同时将声学特征和文本特征作为输入,通过初始模型进行预测,得到第二文本预测结果。其中,初始模型指网络参数值未经调整时的编解码模型。

步骤S440,利用预设的第二损失函数,根据第二文本预测结果与第二文本信息,确定损失函数值。

本申请实施例中,第二损失函数可以是负对数似然函数等,根据第二文本预测结果与第二文本信息以及第二损失函数,可以得到对应的损失函数值。损失函数值用于评价模型的预测值和真实值差异的程度,损失函数值越小,模型的鲁棒性越好。

步骤S450,基于损失函数值对初始模型进行训练,生成编解码模型。

在训练过程中,通过调整网络参数值,使损失函数的值小于预设阈值,最终完成模型的训练,生成编解码模型。为了保证编解码模型的稳定性,进而保证温度系数预测模型的稳定性,还可以对编解码模型进行测试,即通过测试数据来验证编解码模型的稳定性。例如,在识别正确率达到96%的情况下,可以认为编解码模型比较稳定。

参见图5,图5为本申请实施例中温度系数预测模型训练方法的又一种流程图,可以包括以下步骤:

步骤S510,获取多个第一语音数据以及每个第一语音数据对应的第一文本信息。

本步骤与图2实施例步骤S210相同,具体参见图2实施例中的描述即可,在此不再赘述。

步骤S520,将从第一语音数据提取到的声学特征输入编解码模型,得到编码单元的输出特征、解码单元的输入特征和logits输出结果。

本申请实施例中,logits输出结果的获取方法可参见图2实施例中的描述。针对第一语音数据的深度特征,由于编解码模型包括编码单元和解码单元,对于不同类型的编解码模型,编码单元的输出特征和解码单元的输入特征通常会存在区别,因此,将声学特征输入编解码模型,可以提取编码单元的输出特征和解码单元的输入特征。

步骤S530,根据输出特征和输入特征,确定第一语音数据的深度特征。

在得到编码单元的输出特征和解码单元的输入特征之后,可以根据输出特征和输入特征,确定深度特征。可以理解的是,不同类型的编解码模型对应的输出特征和输入特征也会不同,下文将针对具体类型的编解码模型,对深度特征的确定方法进行详细说明,在此不再详述。

步骤S540,根据第一文本信息,构建标签数据。

步骤S550,将第一语音数据对应的深度特征输入初始温度系数预测模型,得到温度系数预测值。

步骤S560,将温度系数预测值、标签数据和logits输出结果输入第一损失函数,确定损失函数值。

步骤S570,根据损失函数值对初始温度系数预测模型的参数进行调整,得到目标温度系数预测模型。

上述步骤S540~步骤S570与图2实施例中步骤S230~步骤260相同,具体参见图2实施例中的描述即可,在此不再赘述。

本申请实施例的温度系数预测模型训练方法,通过结合编码单元的输出特征和解码单元的输入特征确定深度特征,可以提取到更全面的深度特征,通过将深度特征作为温度系数预测模型的输入来训练温度系数预测模型,可以提高所训练的温度系数预测模型的准确性。

Transformer模型是基于注意力机制的编码-解码建模方法的典型代表,是一种针对时间序列进行建模的神经网络模型,目前已在自然语言处理、机器翻译、语音识别等领域得到广泛使用。在语音识别领域,将语音数据的声学特征输入Transformer模型,可以输出对应的文本信息。另外,Transformer模型由于具有可并发计算的特性而得到工业界的广泛青睐。

本申请实施例中,编解码模型具体可以为Transformer模型,以下以Transformer模型为例,对温度系数预测模型的训练方法进行说明。

在按照图4所示的方法生成Transformer模型之后,在该Transformer模型的基础上,可以进一步训练温度系数预测模型。参见图6,图6为本申请实施例中温度系数预测模型训练方法的又一种流程图,可以包括以下步骤:

步骤S610,获取多个第一语音数据以及每个第一语音数据对应的第一文本信息。

本步骤与图2实施例中步骤S210相同,具体参见图2实施例中的描述即可,在此不再赘述。

步骤S620,将从第一语音数据提取到的声学特征输入Transformer模型,得到编码单元的输出特征,以及编码-解码注意力层的输入特征。

参见图7,图7为Transformer模型的一种示意图,Transformer模型可以包括:N个编码单元和N个解码单元;每个编码单元可以包括自注意力层、求和归一化层、前馈神经网络和求和归一化层。解码单元包括:自注意力层、求和归一化层、编码-解码注意力层、求和归一化层、前馈神经网络和求和归一化层,N为正整数。图7所示的编码单元和解码单元的数量均为1,通常可以具有更多个编码单元和解码单元,例如,编码单元和解码单元的数量可以均为5、6等,在此不做限定。

本申请实施例中,编码单元的输出特征可以是任一编码单元的输出特征,编码-解码注意力层的输入特征可以是任一解码单元中编码-解码注意力层的输入特征。在编码单元的输出特征是最后一个编码单元的输出特征,编码-解码注意力层的输入特征是第一个解码单元中编码-解码注意力层的输入特征的情况下,得到的深度特征更完整,深度特征的准确性更高。最后一个编码单元的输出特征和第一个解码单元中编码-解码注意力层的输入特征可参见图7所示的虚线箭头部分。需要说明的是,Transformer模型编码单元的输入为从该第一语音数据提取到的声学特征,解码单元的输入是当前时刻已输出的历史文本信息的文本特征。例如,假设第一语音数据是“我爱北京天安门”,如果当前正在识别“天”这个字,当前时刻已输出的历史文本信息即为“我爱北京”,对该历史文本信息进行特征提取之后,输入解码单元。

类似的,在训练阶段,即步骤S430中,将声学特征和文本特征输入初始模型,即将声学特征输入编码单元,将文本特征输入解码单元。

步骤S630,根据输出特征和输入特征,确定该第一语音数据的深度特征。

针对Transformer模型,最后一个编码单元的输出特征可以包括:键值K矩阵和值V矩阵,第一个解码单元中编码-解码注意力层的输入特征包括:查询Q矩阵,可以根据K矩阵、V矩阵和Q矩阵,确定第一语音数据的深度特征。

可选的,可以根据以下公式:

确定该第一语音数据的深度特征f;其中,softmax表示归一化指数函数,表示 Q矩阵和K矩阵的列数,即向量维度。公式中计算Q矩阵和K矩阵每一行向量的内积,为了防止 内积过大,因此可以除以的平方根,KT表示K矩阵的转置矩阵。

由于K矩阵和V矩阵综合了音频上下文信息, Q矩阵考虑了当前时刻已输出的历史文本信息,因此,通过上述方式得到的深度特征为温度系数预测模型的训练提供了丰富的声学信息和文本信息。

步骤S640,根据第一文本信息,构建标签数据。

本申请实施例中,在构建标签数据时,如果第一数值为1,第二数值为0,出于稳定性考虑,训练生成的目标温度系数预测模型的输出为温度系数的倒数。之所以可以根据上述方式构建标签数据,是因为标签数据和温度系数的倒数两者之间有较强的正相关性,具体表现为,当字符对应的标签数据中该字符对应的元素的值为1时,说明输出结果正确,模型的输出置信度越大越可靠,即温度系数的倒数接近1;当标签数据中该字符对应的元素的值为0时,说明输出结果错误,模型的输出置信度越小越可靠,即温度系数的倒数接近0。

本申请实施例中,第一数值和第二数值也可以是其他数值,例如,第一数值为0,第二数值为1等。可以理解的是,在第一数值和第二数值是其他数值的情况下,温度系数预测模型的输出可以为温度系数,或者温度系数预测模型的输出与温度系数满足某个公式,该公式可以基于第一数值和第二数值的具体数值来确定。

步骤S650,将第一语音数据对应的深度特征输入初始温度系数预测模型,得到温度系数预测值。

步骤S660,将温度系数预测值、标签数据和logits输出结果输入第一损失函数,确定损失函数值。

本申请实施例中,温度系数预测模型可以采用含两个隐层的前馈神经网络,输入为512维,最后一层为单输出。第一损失函数可以采用负对数似然函数,负对数似然函数可以表示为:

其中,Loss表示损失函数值,B表示批量batch的大小,表示第n个时间步的 logits输出结果,表示第n个时间步的深度特征,表示第n个时间步的温度 系数预测值,表示第i个batch第n个时间步对应字符的标签数据,例如,在一个多分 类Transformer模型中,当前时刻的字符对应于文本字符序列中的第2个文本字符,则=[0,1,0,0,...]。如果第一语音数据对应L个时间步,n为1~L的整数,L为正整数。

步骤S670,根据损失函数值对初始温度系数预测模型的参数进行调整,得到目标温度系数预测模型。

本申请实施例的温度系数预测模型训练方法,可以预先训练生成稳定的Transformer模型,通过Transformer模型提取包含音频信息(即编码单元的输出特征)、当前时刻已输出的历史文本信息(即解码单元的输入特征)的深度特征,将深度特征用于训练独立的温度系数预测模型,以通过温度系数预测模型预测温度系数。进而,可以通过温度系数对置信度进行校正,提高输出置信度的可靠性。

参见图8,图8为本申请实施例中置信度确定方法的一种流程图,可以包括以下步骤:

步骤S810,获取待识别语音数据,并提取待识别语音数据的声学特征。

步骤S820,将声学特征输入预先训练完成的编解码模型,得到该待识别语音数据的深度特征和logits输出结果。

与训练过程类似,对待识别语音数据进行声学特征提取后,将提取到的声学特征输入编解码模型中进行解码,可以获取每一个时间步的深度特征,同时获取该时间步的logits输出结果。

步骤S830,将深度特征输入预先训练完成的目标温度系数预测模型,得到温度系数;其中,目标温度系数预测模型基于上述温度系数预测模型训练方法训练得到。

温度系数预测模型的训练方法可以参考前述图2实施例和图5实施例,在此不再赘述。将深度特征输入温度系数预测模型中,可以预测该时间步解码结果的温度系数。

步骤S840,根据温度系数和logits输出结果,确定待识别语音数据的文本识别结果的置信度。

本申请实施例中,在得到温度系数和logits输出结果后,可以根据以下公式:

,确定所述待识别语音数据第n个时间步的文本 识别结果的置信度Cn,其中,表示第n个时间步的logits输出结果,表示第n个时 间步的深度特征,表示第n个时间步的温度系数预测值, 如果待识别语音数据 对应S个时间步,n为1~S的整数,S为正整数。

参见图9,图9为本申请实施例中置信度确定方法的一种示意图,在通过编解码模型对待识别语音数据的声学特征进行处理时,与训练过程类似,可以参考当前时刻已输出的历史文本信息,提取历史文本信息的文本特征,基于声学特征和文本特征,得到深度特征,从而使深度特征包含音频信息、当前时刻已输出的历史文本信息,提高深度特征的准确性。那么,在根据深度特征预测温度系数时,可以提高温度系数预测的准确性。进而,可以提高基于温度系数所确定的置信度的准确性。

本申请实施例的置信度确定方法,通过预先训练编解码模型和温度系数预测模型,通过编解码模型提取深度特征,通过温度系数预测模型对深度特征进行处理,得到每一个时间步的温度系数,用当前时间步的logits输出结果除以该温度系数,在不改变识别结果的前提下,可调整输出概率的分布,从而对置信度进行校正,使校正后的置信度更准确地描述模型输出结果,提高输出置信度的可靠性。

相应于上述方法实施例,本申请实施例还提供了一种温度系数预测模型训练装置,参见图10,温度系数预测模型训练装置1000包括:

第一样本数据获取模块1010,用于获取多个第一语音数据以及每个第一语音数据对应的第一文本信息;

数据处理模块1020,用于将从第一语音数据提取到的声学特征输入预先训练完成的编解码模型,得到第一语音数据的深度特征和logits输出结果;

标签数据构建模块1030,用于根据第一文本信息,构建标签数据;

温度系数值预测模块1040,用于将第一语音数据对应的深度特征输入初始温度系数预测模型,得到温度系数预测值;

第一损失函数值确定模块1050,用于将温度系数预测值、标签数据和logits输出结果输入第一损失函数,确定损失函数值;

目标温度系数预测模型训练模块1060,用于根据损失函数值对初始温度系数预测模型的参数进行调整,得到目标温度系数预测模型。

在一种可选的实施方式中,编解码模型包括:编码单元和解码单元;

数据处理模块,具体用于通过下述步骤确定第一语音数据的深度特征:

将从第一语音数据提取到的声学特征输入编解码模型,得到编码单元的输出特征,以及解码单元的输入特征;根据输出特征和输入特征,确定第一语音数据的深度特征。

在一种可选的实施方式中,编解码模型为Transformer模型,解码单元包括编码-解码注意力层;

数据处理模块,具体用于通过下述步骤实现将从第一语音数据提取到的声学特征输入编解码模型,得到编码单元的输出特征,以及解码单元的输入特征:

将从第一语音数据提取到的声学特征输入Transformer模型,得到编码单元的输出特征,以及编码-解码注意力层的输入特征。

在一种可选的实施方式中,数据处理模块,具体用于通过下述步骤实现根据输出特征和输入特征,确定第一语音数据的深度特征:

输出特征包括:键值K矩阵和值V矩阵,输入特征包括:查询Q矩阵;

根据K矩阵、V矩阵和Q矩阵,确定第一语音数据的深度特征。

在一种可选的实施方式中,数据处理模块具体用于通过下述方式实现根据K矩阵、V矩阵和Q矩阵,确定第一语音数据的深度特征:

根据以下公式:

确定第一语音数据的深度特征f;其中,softmax表示归一化指数函数,表示Q 矩阵和K矩阵的列数,KT表示K矩阵的转置矩阵。

在一种可选的实施方式中,标签数据构建模块具体用于针对第一文本信息中的每个字符,构建字符对应的标签数据,其中,标签数据为预设维度的向量,预设维度为文本字符序列中文本字符的总数量;如果字符为文本字符序列中的第N个文本字符,则标签数据中第N个元素的值为第一数值,标签数据中其他元素的值为第二数值,N为不大于预设维度的正整数。

在一种可选的实施方式中,如果第一数值为1,第二数值为0,则训练生成的目标温度系数预测模型的输出为温度系数的倒数。

在一种可选的实施方式中,上述温度系数预测模型训练装置,还包括:

第二样本数据获取模块,用于获取多个第二语音数据以及每个第二语音数据对应的第二文本信息;

特征提取模块,用于提取第二语音数据中的声学特征,以及第二文本信息中的文本特征;

预测模块,用于将声学特征和文本特征输入初始模型,得到第二文本预测结果;

第二损失函数值确定模块,用于利用预设的第二损失函数,根据第二文本预测结果与第二文本信息,确定损失函数值;

编解码模型训练模块,用于基于损失函数值对初始模型进行训练,生成编解码模型。

在一种可选的实施方式中,第一损失函数包括负对数似然函数,负对数似然函数表示为:

其中,Loss表示损失函数值,B表示批量batch的大小,表示第n个时间步的 logits输出结果,表示第n个时间步的深度特征,表示第n个时间步的温度 系数预测值,表示第i个batch第n个时间步对应字符的标签数据,如果第一语音数 据对应L个时间步,n为1~L的整数,L为正整数。

参见图11,图11为本申请实施例中置信度确定装置的一种结构示意图,置信度确定装置1100,包括:

声学特征提取模块1110,用于获取待识别语音数据,并提取待识别语音数据的声学特征;

数据处理模块1120,用于将声学特征输入预先训练完成的编解码模型,得到该待识别语音数据的深度特征和logits输出结果;

温度系数确定模块1130,用于将深度特征输入预先训练完成的目标温度系数预测模型,得到温度系数;其中,目标温度系数预测模型基于上述温度系数预测模型训练方法训练得到;

置信度确定模块1140,用于根据温度系数和logits输出结果,确定待识别语音数据的文本识别结果的置信度。

在一种可选的实施方式中,置信度确定模块,具体用于根据以下公式:

,确定待识别语音数据第n个时间步的文本识别 结果的置信度Cn,其中,表示第n个时间步的logits输出结果,表示第n个时间步的 深度特征,表示第n个时间步的温度系数预测值,如果待识别语音数据对应S个时 间步,n为1~S的整数,S为正整数。

上述装置中各模块或单元的具体细节已经在对应的方法中进行了详细的描述,因此此处不再赘述。

本申请实施例还提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。存储器存储有能够被所述至少一个处理器执行的计算机程序,计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行本申请实施例的方法。

本申请实施例还提供了一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行本申请实施例的方法。

本申请实施例还提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被计算机的处理器执行时用于使所述计算机执行本申请实施例的方法。

参考图12,现将描述可以作为本申请的服务器或客户端的电子设备1200的结构框图,其是可以应用于本申请的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图12所示,电子设备1200包括计算单元1201,其可以根据存储在只读存储器(ROM)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(RAM)1203中的计算机程序,来执行各种适当的动作和处理。在RAM 1203中,还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

电子设备1200中的多个部件连接至I/O接口1205,包括:输入单元1206、输出单元1207、存储单元1208以及通信单元1209。输入单元1206可以是能向电子设备1200输入信息的任何类型的设备,输入单元1206可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1207可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1204可以包括但不限于磁盘、光盘。通信单元1209允许电子设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理。例如,在一些实施例中,温度系数预测模型训练方法,及置信度确定方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1208。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到电子设备1200上。在一些实施例中,计算单元1201可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行温度系数预测模型训练方法,或置信度确定方法。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本申请使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

26页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种语音信息识别方法、装置、电子设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!