压缩音频识别方法、装置及存储介质

文档序号:154834 发布日期:2021-10-26 浏览:28次 >En<

阅读说明:本技术 压缩音频识别方法、装置及存储介质 (Compressed audio recognition method, device and storage medium ) 是由 王润宇 付立 资礼波 李萧萧 于 2021-08-03 设计创作,主要内容包括:本公开涉及一种压缩音频识别方法、装置及存储介质,上述方法包括:获取压缩音频,并对所述压缩音频进行离散傅里叶变换,以得到所述压缩音频对应的频谱特征;通过有损声学模型对所述频谱特征进行编码操作,以得到所述频谱特征对应的概率矩阵;通过所述有损声学模型和解码器对所述概率矩阵进行解码操作,以得到识别音频。采用上述技术手段,解决现有技术中,语音识别模型对有损压缩音频的识别准确率较低等问题。(The present disclosure relates to a compressed audio recognition method, apparatus and storage medium, the method comprising: obtaining compressed audio, and performing discrete Fourier transform on the compressed audio to obtain a frequency spectrum characteristic corresponding to the compressed audio; coding the spectrum characteristics through a lossy acoustic model to obtain a probability matrix corresponding to the spectrum characteristics; and decoding the probability matrix through the lossy acoustic model and a decoder to obtain the identification audio. By adopting the technical means, the problem that the recognition accuracy of the voice recognition model on the lossy compression audio is low in the prior art is solved.)

压缩音频识别方法、装置及存储介质

技术领域

本公开涉及通信领域,尤其涉及一种压缩音频识别方法、装置及存储介质。

背景技术

随着技术的进步,智能语音识别被广泛用于智能硬件、语音输入、呼叫中心等场景中。然而由于语音识别系统大部分为基于云端部署,用户需上传设备采集的音频至云端系统进行处理。当前,用户上传的音频多为无损压缩音频文件格式,无损压缩音频文件的特点为信号不失真,语音识别准确率高,但同时文件较大,会对网络造成压力,在网络负载较大时会造成网络服务崩溃。因此,在上传时,较好的做法为使用有损压缩格式进行传输,该种方法特点为音频文件的压缩比高,压缩后文件最小为原文件大小的10%。但有损压缩会带来特征缺失问题,由于现有的语音识别模型通常在无损音频训练集上进行训练,语音识别模型对有损压缩音频的识别准确率较低。

在实现本公开构思的过程中,发明人发现相关技术中至少存在如下技术问题:语音识别模型对有损压缩音频的识别准确率较低等问题。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种压缩音频识别方法、装置及存储介质,以至少解决现有技术中,语音识别模型对有损压缩音频的识别准确率较低等问题。

本公开的目的是通过以下技术方案实现的:

第一方面,本公开的实施例提供了一种压缩音频识别方法,包括:获取压缩音频,并对所述压缩音频进行离散傅里叶变换,以得到所述压缩音频对应的频谱特征;通过有损声学模型对所述频谱特征进行编码操作,以得到所述频谱特征对应的概率矩阵;通过所述有损声学模型和解码器对所述概率矩阵进行解码操作,以得到识别音频。

在一个示范性实施例中,所述通过有损声学模型对所述频谱特征进行编码操作,以得到所述频谱特征对应的概率矩阵之前,所述方法还包括:获取训练无损音频,并通过所述训练无损音频对原始声学模型进行增量学习训练,以得到无损声学模型;对所述训练无损音频进行有损压缩处理,以得到训练有损音频;通过所述训练有损音频对无损声学模型进行增量学习训练,以得到所述有损声学模型。

在一个示范性实施例中,获取训练无损音频之前,所述方法还包括:获取生活常用文本数据和/或专业常用文本数据;对获取到的所述生活常用文本数据和/或所述专业常用文本数据进行文本转音频操作,以得到训练无损音频;将所述训练无损音频存储在音频数据中心。

在一个示范性实施例中,所述增量学习训练,包括:将训练音频输入嵌入层,并通过所述嵌入层输出多个字向量和/或多个词向量,其中,所述训练音频包括:所述训练无损音频和所述训练有损音频,所述原始声学模型、所述无损声学模型和所述有损声学模型均包含所述嵌入层;通过统计语言算法对所述多个字向量和/或所述多个词向量进行统计处理,以得到特征向量列表;根据所述特征向量列表对声学模型进行训练,其中,所述声学模型包括:所述原始声学模型、所述无损声学模型和所述有损声学模型。

在一个示范性实施例中,所述根据所述特征向量列表对声学模型进行训练,包括:统计所述特征向量列表中所述多个字向量和/或所述多个词向量的类别和出现频率;根据所述多个字向量和/或所述多个词向量的类别和出现频率确定霍夫曼树;根据所述霍夫曼树对所述声学模型进行训练。

在一个示范性实施例中,所述根据所述霍夫曼树对所述声学模型进行训练,包括:根据所述霍夫曼树确定向量相邻概率,其中,所述向量相邻概率包括:一个字向量后接另一个字向量的概率、一个词向量后接另一个词向量的概率和一个字向量后接一个词向量的概率;通过归一化指数函数对所述向量相邻概率进行归一化处理;根据所述归一化处理后的向量相邻概率对所述声学模型进行训练。

在一个示范性实施例中,所述通过所述有损声学模型和解码器对所述概率矩阵进行解码操作,以得到识别音频,包括:通过所述解码器对所述概率矩阵进行第一解码操作,以得到多个解码结果,其中,所述解码操作包括第一解码操作;根据向量相邻概率分别计算所述多个解码结果中每个解码结果的解码误差概率,其中,所述向量相邻概率包括:一个字向量后接另一个字向量的概率、一个词向量后接另一个词向量的概率和一个字向量后接一个词向量的概率;将多个解码误差概率中数值最大的解码误差概率所对应的解码结果确定为所述识别音频。

在一个示范性实施例中,所述通过所述有损声学模型和解码器对所述概率矩阵进行解码操作,以得到识别音频,包括:通过所述解码器对所述概率矩阵中的预设部分进行第一解码操作,以得到目标解码结果,其中,所述解码操作包括第一解码操作;通过所述解码器对所述概率矩阵中除了预设部分之外的剩余部分进行多次所述第一解码操作,并在对所述剩余部分进行多次所述第一解码操作时,根据向量相邻概率对每次所述第一解码操作的解码结果进行矫正处理,以得到所述识别音频,其中,所述向量相邻概率包括:一个字向量后接另一个字向量的概率、一个词向量后接另一个词向量的概率和一个字向量后接一个词向量的概率,所述目标解码结果是第一次第一解码操作的解码结果。

第二方面,本公开的实施例提供了一种压缩音频识别装置,包括:获取模块,用于获取压缩音频,并对所述压缩音频进行离散傅里叶变换,以得到所述压缩音频对应的频谱特征;编码模块,用于通过有损声学模型对所述频谱特征进行编码操作,以得到所述频谱特征对应的概率矩阵;解码模块,用于通过所述有损声学模型和解码器对所述概率矩阵进行解码操作,以得到识别音频。

第三方面,本公开的实施例提供了一种电子设备。上述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现如上所述的压缩音频识别方法或图像处理的方法。

第四方面,本公开的实施例提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的压缩音频识别方法或图像处理的方法。

本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部:获取压缩音频,并对所述压缩音频进行离散傅里叶变换,以得到所述压缩音频对应的频谱特征;通过有损声学模型对所述频谱特征进行编码操作,以得到所述频谱特征对应的概率矩阵;通过所述有损声学模型和解码器对所述概率矩阵进行解码操作,以得到识别音频。采用上述技术手段,解决现有技术中,语音识别模型对有损压缩音频的识别准确率较低等问题,从而提高对有损压缩音频的识别准确率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1示意性示出了本公开实施例一种压缩音频识别方法的计算机终端的硬件结构框图;

图2示意性示出了本公开实施例的一种压缩音频识别方法的流程图;

图3示意性示出了本公开实施例的一种压缩音频识别方法的流程示意图;

图4示意性示出了本公开实施例的一种声学模型训练的流程示意图;

图5示意性示出了本公开实施例的一种压缩音频识别装置的结构框图;

图6示意性示出了本公开实施例提供的一种电子设备的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本公开。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。

需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。

本公开实施例所提供的方法实施例可以在计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1示意性示出了本公开实施例的一种压缩音频识别方法的计算机终端的硬件结构框图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器(Microprocessor Unit,简称是MPU)或可编程逻辑器件(Programmable logic device,简称是PLD)等处理装置和用于存储数据的存储器104,可选地,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。

存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本公开实施例中的压缩音频识别方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。

在本公开实施例中提供了一种压缩音频识别方法,图2示意性示出了本公开实施例的一种压缩音频识别方法的流程图,如图2所示,该流程包括如下步骤:

步骤S202,获取压缩音频,并对所述压缩音频进行离散傅里叶变换,以得到所述压缩音频对应的频谱特征;

步骤S204,通过有损声学模型对所述频谱特征进行编码操作,以得到所述频谱特征对应的概率矩阵;

步骤S206,通过所述有损声学模型和解码器对所述概率矩阵进行解码操作,以得到识别音频。

通过本公开,获取压缩音频,并对所述压缩音频进行离散傅里叶变换,以得到所述压缩音频对应的频谱特征;通过有损声学模型对所述频谱特征进行编码操作,以得到所述频谱特征对应的概率矩阵;通过所述有损声学模型和解码器对所述概率矩阵进行解码操作,以得到识别音频。采用上述技术手段,解决现有技术中,语音识别模型对有损压缩音频的识别准确率较低等问题,从而提高对有损压缩音频的识别准确率。

在执行步骤S204之前,也就是通过有损声学模型对所述频谱特征进行编码操作,以得到所述频谱特征对应的概率矩阵之前,所述方法还包括:获取训练无损音频,并通过所述训练无损音频对原始声学模型进行增量学习训练,以得到无损声学模型;对所述训练无损音频进行有损压缩处理,以得到训练有损音频;通过所述训练有损音频对无损声学模型进行增量学习训练,以得到所述有损声学模型。

增量学习属于深度学习的一种,与人类的学习模型非常相似。因为在成长过程中,人们每天都在学习和接受新事物。学习是逐步进行的,所获得的知识通常不会被人类所遗忘。对于传统的深度学习技术,从新数据和新场景中获取有用信息是一个难题。随着数据规模的不断增加,对时间和空间的需求也将迅速增加,最终导致学习速度跟不上数据更新速度。为了快速适应新场景,传统的深度学习方法需要将新的训练数据加入到原训练数据中,重新进行训练,这个过程需要巨大的时间成本。同时,积累的数据越多,时间成本越高。与传统的深度学习相比,增量学习在两个方面具有明显优势:一方面,由于增量学习不需要保存历史训练数据,减少了存储空间的占用;另一方面,由于在新场景的增量训练中,旧场景的历史信息得到了充分利用,因此大大减少了后续训练的时间。

现有的基于深度学习的增量学习方法主要分为三类,其主要区别为旧场景数据的使用方式和模型保留旧场景知识的方式:不使用旧数据的增量学习。该方法冻结了深度学习模型的最后一层,并最小化特征提取层中的共享参数的变化。但是,新旧场景之间的这些参数可能存在冲突;使用合成数据进行增量学习:此方法使用生成模型从旧场景中合成数据,但是无法有效地合成复杂场景数据;使用从旧数据进行增量学习,该方法从旧场景的训练数据中选择少量样本,保留所有增量步骤的分类器,并将其用作蒸馏。本公开实施例中使用的增量学习方法主要基于不使用旧数据的增量学习。

可选的,有损声学模型的训练还可以通过以下方法:获取训练无损音频,并对所述训练无损音频进行有损压缩处理,以得到训练有损音频;通过所述训练有损音频对原始声学模型进行增量学习训练,以得到所述有损声学模型。

有损声学模型用于识别压缩音频,压缩音频是识别的对象,压缩音频可以是有损音频也可以是无损音频。

可选地,获取训练无损音频之前,所述方法还包括:获取生活常用文本数据和/或专业常用文本数据;对获取到的所述生活常用文本数据和/或所述专业常用文本数据进行文本转音频操作,以得到训练无损音频;将所述训练无损音频存储在音频数据中心。

生活常用文本数据是关于在人们生活中经常使用的文本,比如新闻联播的文本。专业常用文本数据是关于声学模型常用的技术领域的文本,比如声学模型用于计算机领域的音频识别,那么专业常用文本数据就是计算机领域内的专业文本。

在一个可选实施例中,所述增量学习训练,包括:将训练音频输入嵌入层,并通过所述嵌入层输出多个字向量和/或多个词向量,其中,所述训练音频包括:所述训练无损音频和所述训练有损音频,所述原始声学模型、所述无损声学模型和所述有损声学模型均包含所述嵌入层;通过统计语言算法对所述多个字向量和/或所述多个词向量进行统计处理,以得到特征向量列表;根据所述特征向量列表对声学模型进行训练,其中,所述声学模型包括:所述原始声学模型、所述无损声学模型和所述有损声学模型。

嵌入层是指Embedding层,Embedding是一种将离散变量转变为连续向量的方式,使用Embedding层就可以得到一个对应的词向量矩阵。本公开实施例通过使用嵌入层,得到了多个字向量和/或多个词向量。上述增量学习训练可以用于对所述原始声学模型训练,得到所述无损声学模型;对所述无损声学模型进行训练,得到所述有损声学模型。通过统计语言算法对所述多个字向量和/或所述多个词向量进行统计处理,以得到特征向量列表,也就是根据所述多个字向量和/或所述多个词向量提取特征。通过所述无损声学模型进行特征提取,无损压缩音频的频谱较为完整,而有损压缩音频的频谱存在大量的特征缺失。这是因为原始声学模型由于只在无损压缩音频上进行训练,无法有效地编码有损压缩音频的频谱特征。因此,本发明使用有损压缩音频构成训练集,对所述无损声学模型进行训练,得到所述有损声学模型,增强了有损声学模型对于有损压缩音频特征的编码能力,同时最大程度地保留其在无损音频特征上的编码能力。

通过统计语言算法对所述多个字向量和/或所述多个词向量进行统计处理,以得到特征向量列表。统计语言算法可以是N-Gram,N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。该算法基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。通过N-Gram利用上下文中相邻词间的搭配信息,可以实现到汉字的自动转换,

在一个可选实施例中,根据所述特征向量列表对声学模型进行训练,包括:统计所述特征向量列表中所述多个字向量和/或所述多个词向量的类别和出现频率;根据所述多个字向量和/或所述多个词向量的类别和出现频率确定霍夫曼树;根据所述霍夫曼树对所述声学模型进行训练。

本公开实施例利用所述多个字向量和/或所述多个词向量的类别和出现频率构建一棵霍夫曼树。这样,不同字向量和/或词向量(类别)作为输出时,所需要的判断次数实际上是不同的。越频繁出现的字向量和/或词向量,离根结点越近,所需要的判断次数也越少。从而使最终整体的判断效率更高。霍夫曼树是一种特殊的二叉树,是一种带权路径长度最短的二叉树,又称为最优二叉树。给定N个权值作为二叉树的N个叶节点的权值,构造一棵二叉树,若该二叉树的带权路径长度达到最小,则称该二叉树为霍夫曼树。

在一个可选实施例中,根据所述霍夫曼树对所述声学模型进行训练,包括:根据所述霍夫曼树确定向量相邻概率,其中,所述向量相邻概率包括:一个字向量后接另一个字向量的概率、一个词向量后接另一个词向量的概率和一个字向量后接一个词向量的概率;通过归一化指数函数对所述向量相邻概率进行归一化处理;根据所述归一化处理后的向量相邻概率对所述声学模型进行训练。

遍历霍夫曼树的所有叶节点就可以确定向量相邻概率,也就是确定一个字向量后接另一个字向量的概率、一个词向量后接另一个词向量的概率和一个字向量后接一个词向量的概率;通过向量相邻概率就可以判断一个字或者词后面接什么字或者词的概率最大。通过归一化指数函数对所述向量相邻概率进行归一化处理,其中,归一化指数函数是softmax函数。

在步骤S206中,有多个可选实施例,其中一个可选实施例为通过所述有损声学模型和解码器对所述概率矩阵进行解码操作,以得到识别音频,包括:通过所述解码器对所述概率矩阵进行第一解码操作,以得到多个解码结果,其中,所述解码操作包括第一解码操作;根据向量相邻概率分别计算所述多个解码结果中每个解码结果的解码误差概率,其中,所述向量相邻概率包括:一个字向量后接另一个字向量的概率、一个词向量后接另一个词向量的概率和一个字向量后接一个词向量的概率;将多个解码误差概率中数值最大的解码误差概率所对应的解码结果确定为所述识别音频。

解码操作包括通过所述有损声学模型和解码器对所述概率矩阵进行解码、通过解码器对所述概率矩阵进行解码和通过所述有损声学模型对所述概率矩阵进行解码。第一解码操作是通过所述解码器对所述概率矩阵进行解码,解码操作包括第一解码操作。通过所述解码器对所述概率矩阵进行第一解码操作,可以得到多个解码结果。根据向量相邻概率分别计算所述多个解码结果中每个解码结果的解码误差概率,将多个解码误差概率中数值最大的解码误差概率所对应的解码结果确定为所述识别音频。其中,所述有损声学模型保存有向量相邻概率。

在步骤S206中,有多个可选实施例,其中一个可选实施例为通过所述有损声学模型和解码器对所述概率矩阵进行解码操作,以得到识别音频,包括:通过所述解码器对所述概率矩阵中的预设部分进行第一解码操作,以得到目标解码结果,其中,所述解码操作包括第一解码操作;通过所述解码器对所述概率矩阵中除了预设部分之外的剩余部分进行多次所述第一解码操作,并在对所述剩余部分进行多次所述第一解码操作时,根据向量相邻概率对每次所述第一解码操作的解码结果进行矫正处理,以得到所述识别音频,其中,所述向量相邻概率包括:一个字向量后接另一个字向量的概率、一个词向量后接另一个词向量的概率和一个字向量后接一个词向量的概率,所述目标解码结果是第一次第一解码操作的解码结果。

通过所述解码器对所述概率矩阵中的预设部分进行第一解码操作,以得到目标解码结果,其中,预设部分是所述概率矩阵头部或者首部的预设大小的部分。对剩余部分按照预设大小进行划分,其中,所述划分保留所述概率矩阵原有的顺序。通过所述解码器对所述概率矩阵中除了预设部分之外的剩余部分经过预设大小进行划分后的多部分数据依次进行多次所述第一解码操作,并在进行多次所述第一解码操作时,根据向量相邻概率对每次所述第一解码操作的解码结果进行矫正处理,以得到所述识别音频。比如,目标解码结果是“今天”,第二次第一解码操作的解码结果是“天怎么样”,但是根据目标解码结果和向量相邻概率确定“今天”后面跟“天气怎么样”的概率最大,所以将前两次第一解码操作的解码结果“今天天怎么样”矫正为“今天天气怎么样”。

可选地,增量学习是指可以不断从新样本中学习新知识并可以存储大多数先前学习的知识的学习系统。增量学习的训练集可以分为T个场景。每个场景t∈{1,…,T},输入样本及其标签(xt,t)属于该场景的数据集Dt。增量训练模型f和模型参数θ一次在一个或多个场景的训练集上进行训练。在模型推理时,输出概率矩阵为hθ(x)表示各个类别的概率分布,有:

其中,fθ(x)为最终输出的模型推理结果。增量学习的目标是在训练过程中的任何训练阶段,正确预测已经训练过的场景t∈{1,…,tC}中的样本(xt,yt),其训练的目标可以表示为:

上述训练的目标可以理解为约束方程。c表示训练的场景的编号(此处为从1到c),tc表示第c个场景,Lt表示模型在t场景下的损失(loss),L表示模型的损失函数,表示Lt的损失是在Dt这个数据集上计算的数学期望,可以理解为一个均值或着和。Argmin是数学函数,softmax是归一化指数函数,不做赘述。

为了更好的理解上述技术方案,本公开实施例还提供了一种可选实施例,用于解释说明上述技术方案。

图3示意性示出了本公开实施例的一种压缩音频识别方法的流程示意图,如图3所示:

特征提取:对所述压缩音频进行离散傅里叶变换,以提取到所述压缩音频对应的频谱特征;

声学模型编码:通过有损声学模型对所述频谱特征进行编码操作,以得到所述频谱特征对应的概率矩阵;

解码器解码:通过所述有损声学模型和解码器对所述概率矩阵进行解码操作,以得到识别音频。

图4示意性示出了本公开实施例的一种声学模型训练的流程示意图,如图4所示:

S402,获取生活常用文本数据和/或专业常用文本数据;

S404,对获取到的所述生活常用文本数据和/或所述专业常用文本数据进行文本转音频操作,以得到训练无损音频;

S406,通过所述训练无损音频对原始声学模型进行增量学习训练,以得到无损声学模型;

S408,对所述训练无损音频进行有损压缩处理,以得到训练有损音频;

S410,通过所述训练有损音频对无损声学模型进行增量学习训练,以得到所述有损声学模型。

通过本公开,获取压缩音频,并对所述压缩音频进行离散傅里叶变换,以得到所述压缩音频对应的频谱特征;通过有损声学模型对所述频谱特征进行编码操作,以得到所述频谱特征对应的概率矩阵;通过所述有损声学模型和解码器对所述概率矩阵进行解码操作,以得到识别音频。采用上述技术手段,解决现有技术中,语音识别模型对有损压缩音频的识别准确率较低等问题,从而提高对有损压缩音频的识别准确率。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(RandomAccessMemory,简称为RAM)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本公开各个实施例的方法。

在本实施例中还提供了一种压缩音频识别装置,该压缩音频识别装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图5示意性示出了本公开可选实施例的一种压缩音频识别装置的结构框图,如图5所示,该装置包括:

获取模块502,用于获取压缩音频,并对所述压缩音频进行离散傅里叶变换,以得到所述压缩音频对应的频谱特征;

编码模块504,用于通过有损声学模型对所述频谱特征进行编码操作,以得到所述频谱特征对应的概率矩阵;

解码模块506,用于通过所述有损声学模型和解码器对所述概率矩阵进行解码操作,以得到识别音频。

通过本公开,获取压缩音频,并对所述压缩音频进行离散傅里叶变换,以得到所述压缩音频对应的频谱特征;通过有损声学模型对所述频谱特征进行编码操作,以得到所述频谱特征对应的概率矩阵;通过所述有损声学模型和解码器对所述概率矩阵进行解码操作,以得到识别音频。采用上述技术手段,解决现有技术中,语音识别模型对有损压缩音频的识别准确率较低等问题,从而提高对有损压缩音频的识别准确率。

可选地,编码模块504还用于获取训练无损音频,并通过所述训练无损音频对原始声学模型进行增量学习训练,以得到无损声学模型;对所述训练无损音频进行有损压缩处理,以得到训练有损音频;通过所述训练有损音频对无损声学模型进行增量学习训练,以得到所述有损声学模型。

增量学习属于深度学习的一种,与人类的学习模型非常相似。因为在成长过程中,人们每天都在学习和接受新事物。学习是逐步进行的,所获得的知识通常不会被人类所遗忘。对于传统的深度学习技术,从新数据和新场景中获取有用信息是一个难题。随着数据规模的不断增加,对时间和空间的需求也将迅速增加,最终导致学习速度跟不上数据更新速度。为了快速适应新场景,传统的深度学习方法需要将新的训练数据加入到原训练数据中,重新进行训练,这个过程需要巨大的时间成本。同时,积累的数据越多,时间成本越高。与传统的深度学习相比,增量学习在两个方面具有明显优势:一方面,由于增量学习不需要保存历史训练数据,减少了存储空间的占用;另一方面,由于在新场景的增量训练中,旧场景的历史信息得到了充分利用,因此大大减少了后续训练的时间。

现有的基于深度学习的增量学习方法主要分为三类,其主要区别为旧场景数据的使用方式和模型保留旧场景知识的方式:不使用旧数据的增量学习。该方法冻结了深度学习模型的最后一层,并最小化特征提取层中的共享参数的变化。但是,新旧场景之间的这些参数可能存在冲突;使用合成数据进行增量学习:此方法使用生成模型从旧场景中合成数据,但是无法有效地合成复杂场景数据;使用从旧数据进行增量学习,该方法从旧场景的训练数据中选择少量样本,保留所有增量步骤的分类器,并将其用作蒸馏。本公开实施例中使用的增量学习方法主要基于不使用旧数据的增量学习。

可选地,编码模块504还用于获取训练无损音频,并对所述训练无损音频进行有损压缩处理,以得到训练有损音频;通过所述训练有损音频对原始声学模型进行增量学习训练,以得到所述有损声学模型。

有损声学模型用于识别压缩音频,压缩音频是识别的对象,压缩音频可以是有损音频也可以是无损音频。

可选地,编码模块504还用于获取生活常用文本数据和/或专业常用文本数据;对获取到的所述生活常用文本数据和/或所述专业常用文本数据进行文本转音频操作,以得到训练无损音频;将所述训练无损音频存储在音频数据中心。

生活常用文本数据是关于在人们生活中经常使用的文本,比如新闻联播的文本。专业常用文本数据是关于声学模型常用的技术领域的文本,比如声学模型用于计算机领域的音频识别,那么专业常用文本数据就是计算机领域内的专业文本。

可选地,编码模块504还用于将训练音频输入嵌入层,并通过所述嵌入层输出多个字向量和/或多个词向量,其中,所述训练音频包括:所述训练无损音频和所述训练有损音频,所述原始声学模型、所述无损声学模型和所述有损声学模型均包含所述嵌入层;通过统计语言算法对所述多个字向量和/或所述多个词向量进行统计处理,以得到特征向量列表;根据所述特征向量列表对声学模型进行训练,其中,所述声学模型包括:所述原始声学模型、所述无损声学模型和所述有损声学模型。

嵌入层是指Embedding层,Embedding是一种将离散变量转变为连续向量的方式,使用Embedding层就可以得到一个对应的词向量矩阵。本公开实施例通过使用嵌入层,得到了多个字向量和/或多个词向量。上述增量学习训练可以用于对所述原始声学模型训练,得到所述无损声学模型;对所述无损声学模型进行训练,得到所述有损声学模型。通过统计语言算法对所述多个字向量和/或所述多个词向量进行统计处理,以得到特征向量列表,也就是根据所述多个字向量和/或所述多个词向量提取特征。通过所述无损声学模型进行特征提取,无损压缩音频的频谱较为完整,而有损压缩音频的频谱存在大量的特征缺失。这是因为原始声学模型由于只在无损压缩音频上进行训练,无法有效地编码有损压缩音频的频谱特征。因此,本发明使用有损压缩音频构成训练集,对所述无损声学模型进行训练,得到所述有损声学模型,增强了有损声学模型对于有损压缩音频特征的编码能力,同时最大程度地保留其在无损音频特征上的编码能力。

通过统计语言算法对所述多个字向量和/或所述多个词向量进行统计处理,以得到特征向量列表。统计语言算法可以是N-Gram,N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。该算法基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。通过N-Gram利用上下文中相邻词间的搭配信息,可以实现到汉字的自动转换,

可选地,编码模块504还用于统计所述特征向量列表中所述多个字向量和/或所述多个词向量的类别和出现频率;根据所述多个字向量和/或所述多个词向量的类别和出现频率确定霍夫曼树;根据所述霍夫曼树对所述声学模型进行训练。

本公开实施例利用所述多个字向量和/或所述多个词向量的类别和出现频率构建一棵霍夫曼树。这样,不同字向量和/或词向量(类别)作为输出时,所需要的判断次数实际上是不同的。越频繁出现的字向量和/或词向量,离根结点越近,所需要的判断次数也越少。从而使最终整体的判断效率更高。霍夫曼树是一种特殊的二叉树,是一种带权路径长度最短的二叉树,又称为最优二叉树。给定N个权值作为二叉树的N个叶节点的权值,构造一棵二叉树,若该二叉树的带权路径长度达到最小,则称该二叉树为霍夫曼树。

可选地,编码模块504还用于根据所述霍夫曼树确定向量相邻概率,其中,所述向量相邻概率包括:一个字向量后接另一个字向量的概率、一个词向量后接另一个词向量的概率和一个字向量后接一个词向量的概率;通过归一化指数函数对所述向量相邻概率进行归一化处理;根据所述归一化处理后的向量相邻概率对所述声学模型进行训练。

遍历霍夫曼树的所有叶节点就可以确定向量相邻概率,也就是确定一个字向量后接另一个字向量的概率、一个词向量后接另一个词向量的概率和一个字向量后接一个词向量的概率;通过向量相邻概率就可以判断一个字或者词后面接什么字或者词的概率最大。通过归一化指数函数对所述向量相邻概率进行归一化处理,其中,归一化指数函数是softmax函数。

可选地,解码模块506还用于通过所述解码器对所述概率矩阵进行第一解码操作,以得到多个解码结果,其中,所述解码操作包括第一解码操作;根据向量相邻概率分别计算所述多个解码结果中每个解码结果的解码误差概率,其中,所述向量相邻概率包括:一个字向量后接另一个字向量的概率、一个词向量后接另一个词向量的概率和一个字向量后接一个词向量的概率;将多个解码误差概率中数值最大的解码误差概率所对应的解码结果确定为所述识别音频。

解码操作包括通过所述有损声学模型和解码器对所述概率矩阵进行解码、通过解码器对所述概率矩阵进行解码和通过所述有损声学模型对所述概率矩阵进行解码。第一解码操作是通过所述解码器对所述概率矩阵进行解码,解码操作包括第一解码操作。通过所述解码器对所述概率矩阵进行第一解码操作,可以得到多个解码结果。根据向量相邻概率分别计算所述多个解码结果中每个解码结果的解码误差概率,将多个解码误差概率中数值最大的解码误差概率所对应的解码结果确定为所述识别音频。其中,所述有损声学模型保存有向量相邻概率。

可选地,解码模块506还用于通过所述解码器对所述概率矩阵中的预设部分进行第一解码操作,以得到目标解码结果,其中,所述解码操作包括第一解码操作;通过所述解码器对所述概率矩阵中除了预设部分之外的剩余部分进行多次所述第一解码操作,并在对所述剩余部分进行多次所述第一解码操作时,根据向量相邻概率对每次所述第一解码操作的解码结果进行矫正处理,以得到所述识别音频,其中,所述向量相邻概率包括:一个字向量后接另一个字向量的概率、一个词向量后接另一个词向量的概率和一个字向量后接一个词向量的概率,所述目标解码结果是第一次第一解码操作的解码结果。

通过所述解码器对所述概率矩阵中的预设部分进行第一解码操作,以得到目标解码结果,其中,预设部分是所述概率矩阵头部或者首部的预设大小的部分。对剩余部分按照预设大小进行划分,其中,所述划分保留所述概率矩阵原有的顺序。通过所述解码器对所述概率矩阵中除了预设部分之外的剩余部分经过预设大小进行划分后的多部分数据依次进行多次所述第一解码操作,并在进行多次所述第一解码操作时,根据向量相邻概率对每次所述第一解码操作的解码结果进行矫正处理,以得到所述识别音频。比如,目标解码结果是“今天”,第二次第一解码操作的解码结果是“天怎么样”,但是根据目标解码结果和向量相邻概率确定“今天”后面跟“天气怎么样”的概率最大,所以将前两次第一解码操作的解码结果“今天天怎么样”矫正为“今天天气怎么样”。

可选地,增量学习是指可以不断从新样本中学习新知识并可以存储大多数先前学习的知识的学习系统。增量学习的训练集可以分为T个场景。每个场景t∈{1,…,T},输入样本及其标签(xt,yt)属于该场景的数据集Dt。增量训练模型f和模型参数θ一次在一个或多个场景的训练集上进行训练。在模型推理时,输出概率矩阵为hθ(x)表示各个类别的概率分布,有:

其中,fθ(x)为最终输出的模型推理结果。增量学习的目标是在训练过程中的任何训练阶段,正确预测已经训练过的场景t∈{1,…,tC}中的样本(xt,yt),其训练的目标可以表示为:

c表示训练的场景的编号(此处为从1到c),tc表示第c个场景,Lt表示模型在t场景下的损失(loss),L表示模型的损失函数,表示Lt的损失是在Dt这个数据集上计算的数学期望,可以理解为一个均值或和。Argmin是数学函数,softmax是归一化指数函数,不做赘述。

需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。

本公开的实施例提供了一种电子设备。

图6示意性示出了本公开实施例提供的一种电子设备的结构框图。

参照图6所示,本公开实施例提供的电子设备600包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601、通信接口602和存储器603通过通信总线604完成相互间的通信;存储器603,用于存放计算机程序;处理器601,用于执行存储器上所存放的程序时,实现上述任一项方法实施例中的步骤。

可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该输入输出设备与上述处理器连接。

可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:

S1,获取压缩音频,并对所述压缩音频进行离散傅里叶变换,以得到所述压缩音频对应的频谱特征;

S2,通过有损声学模型对所述频谱特征进行编码操作,以得到所述频谱特征对应的概率矩阵;

S3,通过所述有损声学模型和解码器对所述概率矩阵进行解码操作,以得到识别音频。

本公开的实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现上述任一项方法实施例中的步骤。

可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:

S1,获取压缩音频,并对所述压缩音频进行离散傅里叶变换,以得到所述压缩音频对应的频谱特征;

S2,通过有损声学模型对所述频谱特征进行编码操作,以得到所述频谱特征对应的概率矩阵;

S3,通过所述有损声学模型和解码器对所述概率矩阵进行解码操作,以得到识别音频。

该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。

根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。

显然,本领域的技术人员应该明白,上述的本公开的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本公开不限制于任何特定的硬件和软件结合。

以上所述仅为本公开的优选实施例而已,并不用于限制于本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

20页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:自动提醒用餐者使用公筷公勺的聚餐用具系统及控制方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!