语音识别装置和方法

文档序号：54722 发布日期：2021-09-28 浏览：46次 >En<

阅读说明：本技术 语音识别装置和方法 (Speech recognition apparatus and method ) 是由金燦佑达哈南加亚·N·顾达金成洙辛珉圭拉里·保罗·海科阿波海那瓦·嘎戈金光润于 2019-11-22 设计创作，主要内容包括：本公开涉及一种用于识别用户语音的电子装置和由电子装置识别用户语音的方法。根据一个实施例,识别用户语音的方法包括步骤：获得被分割成多个帧单元的音频信号；通过将根据预设标度分布的滤波器组应用于以帧单元分割的音频信号的频谱来确定针对每个滤波器组的能量分量；对确定的针对每个滤波器组的能量分量进行平滑；基于针对每个滤波器组的平滑后的能量分量提取音频信号的特征向量；以及通过将提取出的特征向量输入到语音识别模型来识别音频信号中的用户语音。(The present disclosure relates to an electronic device for recognizing a user's voice and a method of recognizing a user's voice by the electronic device. According to one embodiment, a method of recognizing a user's voice includes the steps of: obtaining an audio signal divided into a plurality of frame units; determining an energy component for each filter bank by applying the filter bank distributed according to a preset scale to a spectrum of the audio signal divided in frame units; smoothing the determined energy component for each filter bank; extracting a feature vector of the audio signal based on the smoothed energy component for each filter bank; and recognizing the user's voice in the audio signal by inputting the extracted feature vectors to a voice recognition model.)

语音识别装置和方法

技术领域

本公开涉及一种语音识别装置和方法。更具体地，本公开涉及一种处理用于语音识别的音频数据的方法。

背景技术

与传统的基于规则的智能系统不同，人工智能(AI)系统是自己学习和确定的智能系统。AI系统被使用的越多，识别率越高，因此，可更准确地理解用户偏好。因此，传统的基于规则的智能系统逐渐被基于深度学习的AI系统所取代。

AI技术包括机器学习(深度学习)和使用机器学习的元素技术。机器学习是对输入数据的特征进行分类/学习的算法技术，并且元素技术是利用诸如深度学习等的机器学习算法的技术，并且由包括语言理解、视觉理解、推理/预测、知识表达、运动控制等的

技术领域

组成。

人工智能技术应用于如下各种领域。语言理解是识别并应用/处理人类语言/文本的技术，并且包括自然语言处理、机器翻译、对话系统、问答、语音识别/合成等。视觉理解是对诸如人类视觉的对象进行识别和处理的技术，并且包括对象识别、对象跟踪、图像搜索、人类识别、场景理解、空间理解、图像改进等。推断和预测是通过确定信息来逻辑地推断和预测信息的技术，并且包括基于知识/概率的推断、优化预测、基于偏好的计划、推荐等。知识表达是通过自动化将人类经验信息处理成知识数据的技术，并且包括知识构建(数据生成/分类)、知识管理(数据利用)等。运动控制是控制车辆的自主驾驶和机器人的移动的技术，并且包括移动控制(导航、碰撞、驾驶)、操作控制(行为控制)等。

最近，在语音识别领域，正在研究用于识别用户语音的各种技术，并且正在积极研究基于使用端到端学习方法的人工神经网络的语音识别方法。特别地，在语音识别领域中，技术开发对于提高语音识别的准确性是必要的。

发明内容

技术问题

根据实施例，提供了一种用于使用语音识别模型来识别用户的语音的语音识别装置和方法。

此外，根据实施例，提供了一种用于基于音频信号学习语音识别模型的装置和方法。具体地，提供了一种用于提高语音识别的准确性的音频数据处理方法。

技术方案

根据一个实施例，一种识别用户语音的方法包括：获得被分割成多个帧单元的音频信号，通过将根据预设标度分布的滤波器组应用于被分割成帧单元的音频信号的频谱来确定针对每个滤波器组的能量分量，对确定的针对每个滤波器组的能量分量进行平滑，基于针对每个滤波器组的平滑后的能量分量提取音频信号的特征向量，以及通过将提取出的特征向量输入到语音识别模型来识别音频信号中的用户语音。

此外，根据实施例，一种用于识别用户语音的电子设备包括：存储器，存储一个或更多个指令；以及处理器，被配置为执行所述一个或更多个指令的，其中，处理器还被配置为通过执行所述一个或更多个指令来进行以下操作：获得被分割成多个帧单元的音频信号，通过将根据预设标度分布的滤波器组应用于被分割成帧单元的音频信号的频谱来确定针对每个滤波器组的能量分量，对确定的针对每个滤波器组的能量分量进行平滑，基于针对每个滤波器组的平滑后的能量分量提取音频信号的特征向量，并且通过将提取出的特征向量输入到语音识别模型来识别音频信号中的用户语音。

此外，根据实施例，一种处理音频信号的方法，电子设备通过该方法训练语音识别模型，该方法包括：获得用于训练语音识别模型的、被分割成多个帧单元的第一音频信号，获得被分割成帧单元的第一音频信号的频谱，对第一音频信号的频谱的频率轴进行变换以表示多个说话者的不同声道长度的变化，通过使用频率轴被变换的第一音频信号的频谱来生成第二音频信号，并且提取生成的第二音频信号的特征向量。

所述方法还可包括将房间脉冲滤波器应用于第二音频信号，并且从应用了房间脉冲滤波器的第二音频信号提取特征向量，其中，房间脉冲滤波器指示房间中的针对每个传输路径的第二音频信号的声学特征。

频率轴的变换的步骤可包括：确定针对每个帧随机产生的扭曲系数，基于确定的扭曲系数确定用于对第一音频信号的频谱的频率轴进行变换的扭曲函数，以及通过使用确定的扭曲函数对第一音频信号的频谱的频率轴进行变换。

生成第二音频信号的步骤可包括：对频率轴被变换的第一音频信号的频谱执行快速傅里叶逆变换，以及通过在时间轴上重叠在时间轴上被快速傅里叶逆变换的第一音频信号的频谱来生成第二音频信号。

提取第二音频信号的特征向量的步骤可包括：通过将根据预设标度分布的滤波器组应用于被分割成帧单元的第二音频信号的频谱来确定针对每个滤波器组的能量分量，对确定的针对每个滤波器组的能量分量进行平滑，以及基于针对每个滤波器组的平滑后的能量分量提取第二音频信号的特征向量。

此外，根据实施例，一种由电子设备训练语音识别模型的方法包括：获得用于训练语音识别模型的、被分割成多个帧单元的第一音频信号，获得被分割成帧单元的第一音频信号的频谱，对第一音频信号的频谱的频率轴进行变换以表示多个说话者的不同声道长度的变化，通过使用频率轴被变换的第一音频信号的频谱来生成第二音频信号，提取生成的第二音频信号的特征向量，并且通过使用提取出的特征向量来训练语音识别模型。

此外，根据实施例，提供了一种计算机可读记录介质，其上记录有用于在计算机上执行识别用户语音的方法的程序，所述方法包括：获得被分割成多个帧单元的音频信号，通过将根据预设标度分布的滤波器组应用于被分割成帧单元的音频信号的频谱来确定针对每个滤波器组的能量分量，对确定的针对每个滤波器组的能量分量进行平滑，基于针对每个滤波器组的平滑后的能量分量提取音频信号的特征向量，并且通过将提取出的特征向量输入到语音识别模型来识别音频信号中的用户语音。

技术效果

基于根据本公开的语音识别装置和方法，可通过使用少量数据来有效地识别用户语音，并且可基于音频信号的针对每个滤波器组的平滑后的能量分量来准确地识别用户语音。

附图说明

图1是根据实施例的由电子设备识别用户语音的方法和处理用于语音识别的音频信号的方法的示意图；

图2是根据实施例的由电子设备识别用户语音的方法的流程图；

图3是根据实施例的由电子设备确定针对每个滤波器组的能量分量的方法的流程图；

图4是根据实施例的由电子设备通过使用预训练过的平滑系数来平滑针对每个滤波器组的能量分量的方法的流程图；

图5是用于描述针对每个滤波器组通道训练的平滑系数的示图。

图6是根据实施例的由电子设备通过使用映射函数映射目标直方图来平滑针对每个滤波器组的能量分量的方法的流程图；

图7是根据实施例的与特定通道索引相应的滤波器组的能量分量的示图；

图8是根据实施例的关于滤波器组能量的非线性输出的示图；

图9是根据实施例的由电子设备处理用于语音识别模型训练的音频信号的方法的流程图；

图10是根据实施例的由电子设备处理用于语音识别模型训练的音频信号的处理的示意图；

图11是根据实施例的由电子设备变换频率轴的方法的流程图；

图12是用于描述根据扭曲系数扭曲输入频率的处理的示图；

图13是根据实施例的由电子设备通过使用频率轴被变换的第一音频信号来重新合成第二音频信号的方法的示图；

图14是根据实施例的电子设备的框图；

图15是根据另一实施例的电子设备的框图；

图16是根据实施例的用于训练语音识别模型的电子设备的结构的示图。

图17是根据实施例的电子设备训练语音识别模型的处理的示图；

图18是根据实施例的电子设备通过将具有针对每个滤波器组的平滑后的能量分量的特征向量输入到语音识别模型来执行语音识别的处理的示图；

图19是根据实施例的服务器的框图；

图20是根据实施例的当电子设备和服务器彼此相关联时识别用户语音的方法的示图。

图21是根据实施例的当电子设备和服务器彼此相关联时识别用户语音的方法的示图。

图22是根据实施例的当电子设备和服务器彼此相关联时识别用户语音的方法的示图；以及

图23是根据实施例的由电子设备通过使用目标语音信号和噪声信号两者来训练语音识别模型的处理的示图。

具体实施方式

最优模式

公开模式

简要描述了说明书中使用的术语，并且详细描述了本公开。

考虑到本公开中的功能，本公开中使用的术语是从当前广泛使用的通用术语中选择的。然而，这些术语可根据本领域普通技术人员的意图、案例先例和新技术的出现而变化。此外，对于特殊情况，申请人选择的术语的含义在说明书部分中详细描述。因此，本公开中使用的术语是基于它们与整个说明书中讨论的内容相关的含义来定义的，而不是通过它们的简单含义来定义的。

当部件可“包括”特定组成元件时，除非另有说明，否则它可不被解释为排除另一组成元件，而是可被解释为进一步包括其他组成元件。在说明书中陈述的诸如“-部分”、“-单元”、“-模块”等术语可表示用于处理至少一个功能或操作的单元，并且该单元可由硬件、软件、或硬件和软件的组合来实现。

提供实施例以向本公开所属领域的普通技术人员进一步完整地解释本公开。然而，本公开不限于此，并且应当理解，在不脱离所附权利要求的精神和范围的情况下，可对本公开进行形式和细节上的各种改变。在附图中，省略了与描述无关的部分以清楚地描述本公开，并且在整个说明书中，类似的部件用类似的附图标记表示。

图1是根据实施例的由电子设备1000识别用户语音的方法和处理用于语音识别的音频信号的方法的示意图。

根据实施例，电子设备1000可包括语音识别模型3000。例如，电子设备1000可获得音频信号122，并且可通过将从获得的音频信号122提取出的特征向量132输入到语音识别模型3000来识别音频信号122中的用户语音。电子设备1000用于识别用户语音的语音识别模型3000可以是基于用于自动语音识别的神经网络的模型。

根据实施例的电子设备1000可包括智能电话、平板PC、PC、智能TV、移动电话、个人数字助理(PDA)、膝上型计算机、媒体播放器、服务器、微服务器、全球定位系统(GPS)装置、电子书终端、数字广播终端、导航、信息亭、MP3播放器、数字相机、扬声器、包括被安装在其上的AI程序和语音识别功能的其他移动或非移动计算装置，但是本公开不限于此。

根据实施例，电子设备1000可与经由网络连接到电子设备的服务器2000相关联地识别音频信号122中的用户语音。根据实施例，网络可包括局域网(LAN)、广域网(WAN)、增值网络(VAN)、移动无线电通信网络、卫星通信网络及其组合。经由网络连接到电子设备1000的服务器2000可包括能够与根据本公开的电子设备1000通信的不同电子设备中的至少一个。

根据实施例，电子设备1000可对语音识别模型3000进行预训练。例如，电子设备1000可根据至少一种数据增强技术来增强用于训练语音识别模型的音频信号，并且基于增强的音频信号来训练语音识别模型。此外，电子设备1000可对包括用户语音的音频信号的频谱的针对每个滤波器组的能量分量进行平滑，并且将从包括针对每个滤波器组的平滑后的能量分量的音频信号的频谱提取出的特征向量输入到语音识别模型，从而准确地识别用户语音。

在以下描述中，简要描述了由电子设备1000基于增强的音频信号训练语音识别模型的方法，以及通过将从包括针对每个滤波器组的平滑后的能量分量的音频信号的频谱提取出的特征向量输入到训练后的语音识别模型来识别用户语音的方法。

例如，电子设备1000可从用户获得第一音频信号102，对第一音频信号102进行分割，并以预定间隔重叠分割的第一音频信号，从而获得以预定间隔与相邻帧重叠的帧单元的第一音频信号102。第一音频信号102可以是通过以预设采样频率对连续信号进行采样而获得的离散信号。

电子设备1000可通过使用第一数据增强(104)技术来增强第一音频信号102。根据实施例，电子设备1000可通过将声道长度扰动(VTLP)应用于音频信号的频谱而不是音频信号的特征向量来增强音频信号。换句话说，即使在获得少量音频数据时，电子设备1000也可通过将VTLP应用于第一音频信号102的频谱，基于少量音频数据获得具有增强的各种声道长度的说话者的音频数据。

详细地，电子设备1000可通过对被分割成帧单元的第一音频信号102执行快速傅里叶变换(FFT)来获得频谱，并且通过使用基于扭曲系数定义的扭曲函数来变换频谱的频率轴(频率扭曲)以表示多个说话者的不同声道长度的变化。

根据实施例，电子设备1000可在对第一音频信号102执行快速傅里叶变换之后，通过在FFT系数之间应用各种插值算法来获得频谱。然而，根据另一实施例，电子设备1000可通过基于根据要上采样的样本数量预设的FFT大小系数对第一音频信号102执行超大FFT来获得频谱。频谱可指示经快速傅里叶变换的第一音频信号102的每个频率分量的复数的大小。

电子设备1000可通过对从频率轴被变换的第一音频信号102获得的频谱执行逆FFT来获得时域的信号，并且通过连接所获得的时域的信号来获得重新合成的信号112。根据实施例，电子设备1000可对频率轴被变换的第一音频信号的频谱执行逆FFT，并且在时间轴上重叠和相加经快速傅里叶逆变换的第一音频信号的频谱(重叠相加，112)，从而获得重新合成的信号112。然而，由电子设备1000连接被快速傅里叶逆变换的时域信号的方法不限于上述描述，并且可使用在时域中连接信号的各种其他方法。

根据另一实施例，电子设备1000可通过使用第二数据增强(114)技术来增强重新合成信号112。根据实施例，电子设备1000可在传输第二音频信号116的房间中向第二音频信号116应用房间脉冲滤波器(例如，指示作为房间脉冲响应的每个传输路径的声学特征的传递函数)来指示音频信号的每个传输路径的声学特征，并且基于从应用了房间脉冲滤波器的第二音频信号116的频谱提取出的特征向量118来预训练语音识别模型。换句话说，电子设备1000可通过将VTLP应用于第一音频信号的频谱来获得表示多个说话者的声道长度变化的增强数据，将房间脉冲响应(RIR)滤波器应用于增强数据，并且获得表示各种环境的房间中的音频信号的每个传输路径的特征的多条进一步增强数据。

因此，即使当获得少量音频数据时，电子设备1000也可基于少量数据的增强数据来训练语音识别模型，从而提高用户语音识别的准确性。

传统上，一般的电子设备基于扭曲函数来调整梅尔滤波器组的位置，而不将VTLP应用于频谱，并且基于位置被调整的每个梅尔滤波器组的能量分量来提取梅尔特征。因此，由于每个梅尔滤波器组的能量转换的单向性，一般的电子设备难以在提取梅尔特征之后应用RIR滤波器。然而，根据实施例，当电子设备1000在提取音频信号的特征之前将VTLP应用于频谱时，可在应用VTLP之后将RIP滤波器进一步应用于重新合成的音频信号，因此可有效地增强音频数据。

此外，当根据本公开的电子设备1000增强音频信号以表示不同说话者的声道长度变化时，将VTLP应用于音频信号的频谱和将RIR滤波器应用于重新合成的音频信号的顺序进一步匹配音频信号的一系列传输顺序，直到麦克风接收到实际房间中具有不同声道长度的说话者的语音信号。因此，根据本公开的电子设备1000可通过根据实际语音识别所需的音频信号的传输顺序将VTLP和RIR技术两者应用于第一音频信号102来获得特征向量118，并且基于所获得的特征向量训练语音识别模型，从而进一步提高语音识别模型的语音识别的准确性。

此外，尽管图1中未示出，但是电子设备1000可从通过增强第一音频信号获得的第二音频信号116的频谱中获得针对每个滤波器组的能量分量，对获得的针对每个滤波器组的能量分量进行平滑，然后基于特征向量训练语音识别模型3000，其中，该特征向量是基于针对每个滤波器组的平滑后的能量分量提取的。电子设备1000可对通常集中分布在特定频率区域中的梅尔滤波器组能量分量进行平滑，并且可基于从包括均匀分布的能量分量的频谱提取出的特征向量来训练语音识别模型3000，从而提高语音识别模型3000的语音识别的准确性。

当电子设备1000平滑第二音频信号116的针对每个滤波器组的能量分量，并且通过使用基于针对每个滤波器组的平滑后的能量分量提取出的特征向量来训练语音识别模型3000时，如下所述，新获得的音频信号122的每个梅尔滤波器组的能量分量被平滑，并且基于针对每个滤波器组的平滑后的能量分量提取出的特征向量132被输入到语音识别模型3000，从而识别音频信号122中的用户语音。

电子设备1000可获得音频信号122，并且识别通过使用预训练过的语音识别模型3000获得的音频信号122中的用户语音。例如，电子设备1000可获得包括用户语音的音频信号122，并且将获得的音频信号122分割为帧单元，从而获得被分割为帧单元的音频信号122。

此外，电子设备1000可通过将根据预设标度分布的梅尔滤波器组应用于被分割成帧单元的音频信号的频谱来提取梅尔特征126，并且将包括提取的梅尔特征的音频特征向量输入到语音识别模型3000，从而识别音频信号中的用户语音。

此外，尽管图1中未示出，但是当电子设备1000平滑第二音频信号116的针对每个滤波器组的能量分量，并且使用通过使用基于针对每个滤波器组的平滑后的能量分量提取出的特征向量训练的语音识别模型3000时，电子设备1000可对新获得的音频信号122的每个梅尔滤波器组的能量分量进行平滑，并且将基于针对每个滤波器组的平滑后的能量分量提取出的特征向量132输入到语音识别模型3000，从而识别音频信号122中的用户语音。

图2是根据实施例的由电子设备1000识别用户语音的方法的流程图。

在S210，电子设备1000可获得被分割成多个帧单元的音频信号。例如，电子设备1000可确定特定窗口的窗口长度，并且通过使用具有确定的窗口长度的窗口将音频信号分割成多个帧单元。此外，电子设备1000可以以预定的窗口间隔重叠窗口，并且通过使用以预定间隔重叠的窗口将音频信号分割成多个帧单元。

根据实施例，由电子设备1000使用的窗可用作带通滤波器，以去除帧中的两个侧边缘中的每个侧边缘处的频率分量中包括的噪声。根据实施例，窗口可包括汉宁窗口或汉明窗口，但是本公开不限于此。此外，窗口长度可以是约30ms至约50ms，但是本公开不限于此，并且窗口长度可根据目标频谱的分辨率而变化。

此外，根据实施例，当电子设备1000将VTLP应用于第一音频信号的频谱时使用的窗口的长度、当采用RIR滤波器时使用的窗口的长度、以及当在语音识别模型的训练之后识别音频信号中实际获得的用户语音时使用的窗口的长度可彼此不同。根据另一实施例，当电子设备1000将VTLP应用于第一音频信号的频谱时使用的窗口的长度可不同于当采用RIR滤波器时使用的窗口的长度以及当在语音识别模型的训练之后识别音频信号中实际获得的用户语音时使用的窗口的长度。

在S220，电子设备1000可通过将根据预设标度分布的滤波器组应用于音频信号的频谱来确定针对每个滤波器组的能量分量。尽管电子设备1000用于布置滤波器组的预设标度可包括对数标度或梅尔标度，但是本公开不限于此，并且预设标度还可包括其他非线性标度，以基于更好地区分低频的人的听觉特性来非线性地分布滤波器组。

根据实施例，根据预设标度分布的滤波器组可表示用于将音频信号的频谱划分为多个子带频谱的多个带通滤波器阵列。此外，针对每个滤波器组的能量分量可表示通过将滤波器组应用于音频信号的频谱而获得的能量或能量的概率密度函数(PDF)。

在S230，电子设备1000可对通过将根据预设标度分布的滤波器组应用于频谱而确定的针对每个滤波器组的能量分量进行平滑。电子设备1000还可通过将包括均匀分布的能量分量的特征向量输入到语音识别模型来准确地识别用户语音。下面参照图4和图5详细描述由电子设备1000平滑针对每个滤波器组的能量分量的方法。

在S240，电子设备1000可基于针对每个滤波器组的平滑后的能量分量来提取音频信号的特征向量。根据实施例，电子设备1000可通过对针对每个滤波器组的平滑后的能量分量执行离散余弦变换(DCT)来确定DCT系数，并且提取具有确定的DCT系数中的至少一个DCT系数作为元素的特征向量。

当电子设备1000根据DCT使用所有确定的DCT系数时，语音识别模型的性能可能由于滤波器组能量的快速变化而劣化。因此，电子设备1000可通过去除确定的DCT系数中的一些DCT系数并输入包括剩余DCT系数的特征向量来提高语音识别的准确性。根据实施例，电子设备1000可基于第2个至第13个DCT系数确定特征向量，但是本公开不限于此。然而，由电子设备1000从针对每个滤波器组的平滑后的能量分量提取音频特征向量的处理不限于使用DCT系数的方法，并且该处理可基于其他音频特征提取方法被执行。

例如，当由电子设备1000应用于音频信号的频谱的滤波器组处于在频域中以预定间隔彼此重叠的状态时，针对每个滤波器组的能量分量可彼此相关。因此，电子设备1000可通过对针对每个滤波器组的能量分量执行离散余弦变换来分离针对每个滤波器组的能量之间的相关性，并且基于针对每个滤波器组的分离的独立能量(与滤波器组的频带相应的频带能量)将提取出的特征向量输入到语音识别模型，从而提高语音识别的准确性。

在S250，电子设备1000可通过将提取出的特征向量输入到语音识别模型来识别音频信号中的用户语音。下面参照图18详细描述当电子设备1000将提取出的特征向量输入到语音识别模型时，基于包括特定文本信息的标签的概率值来识别用户语音的方法。

图3是根据实施例的由电子设备1000确定针对每个滤波器组的能量分量的方法的流程图。

在S320，电子设备1000可将分布式滤波器组应用于音频信号的频谱。例如，由电子设备1000在频域中将根据预设标度分布的滤波器组的每个通道的函数与相应于滤波器组的频带的频谱的函数相乘的操作可与由电子设备1000将分布式滤波器组应用于音频信号的频谱的操作相应。

在S340，电子设备1000可将应用了滤波器组的频谱的值转换为对数标度。电子设备1000可将对数函数应用于每个频谱以表示人的听觉特性(非线性标度)，从而将应用了滤波器组的频谱的值转换为对数标度。

在S360，电子设备1000可通过使用被变换到对数标度的频谱的值来确定针对每个滤波器组的能量分量。例如，如在S320，电子设备1000可对根据预设标度分布的滤波器组的每个通道的函数和与滤波器组的频带相应的频谱的函数的乘积进行平方，并将对数函数应用于平方结果，从而确定针对每个滤波器组的能量分量。

图4是根据实施例的由电子设备1000通过使用预训练过的平滑系数来平滑针对每个滤波器组的能量分量的方法的流程图。

在S420，电子设备1000可针对每个滤波器组训练用于平滑针对每个滤波器组的能量分量的平滑系数。根据实施例，电子设备1000可基于通过将根据对数标度或梅尔标度分布的滤波器组应用于音频信号的频谱而生成的针对每个滤波器组的能量分量来提取特征向量(例如，根据对数梅尔或MFCC的特征)，以表示人感知的滤波器组的能量之间的强度的非线性特征。

根据另一实施例，为了表示人感知的滤波器组的能量之间的强度的关系，电子设备1000可通过使用具有值为1/15的平滑系数作为幂指数的幂函数来平滑针对每个滤波器组的所有能量的值，并且基于针对每个滤波器组的平滑后的能量分量来提取特征向量，例如，根据功率归一化倒谱系数(PNCC)的特征。

然而，根据本公开的电子设备1000可通过训练针对每个滤波器组的平滑系数并使用具有训练过的平滑系数作为幂的指数的幂函数来平滑针对每个滤波器组的能量值，以表示由人感知的滤波器组的能量之间的强度的非线性特征。根据本公开的平滑系数可包括作为幂函数的幂的指数的幂系数。在以下描述中，详细描述了由电子设备1000训练针对每个滤波器组的平滑系数的处理。首先，基于下面的数学表达式1定义均匀分布的变量Y。

[数学表达式1]

Y＝σ_p(X)＝(X-x_min)^α

Y是目标均匀分布变量，X是x_max和x_min之间的随机变量，σ_p(X)是具有变量X作为输入的非线性函数，并且α是平滑系数。可基于变量X的最小值和最大值将均匀分布的变量Y的区间定义为I_Y＝[0，(x_max-x_min)^α]。IY是均匀分布的变量Y的区间，x_max和x_min是变量X的区间的最大值和最小值，并且α是平滑系数。根据均匀分布变量Y的区间，通过使用下面的均匀函数将均匀分布变量Y再次定义为数学表达式2。

[数学表达式2]

Y～μ(0，(X-x_min)^α)

如数学表达式2所示，均匀分布的变量Y可通过使用具有在0处的输入(X-x_min)^α的均匀函数μ()来定义。假设均匀分布的变量Y遵循均匀分布，则均匀分布的变量Y的PDF可由下面的数学表达式3表示。

[数学表达式3]

pY(y)是均匀分布的变量Y的PDF，并且均匀分布的变量Y的PDF是在0≤y≤(x_max-x_min)α的范围内的均匀分布值，并且在其他范围内可具有概率密度0。关于如数学表达式3中定义的均匀分布变量Y的PDF，在x_max和x_min之间选择的随机变量X的PDF定义如下。

[数学表达式4]

为了获得相对于均匀分布的变量Y的PDF的变量x的PDF pX(x)，相对于x对pY(y)进行微分。通过相对于x对pY(y)进行微分，变量x的PDF可具有在x_min≤x≤x_max的范围内的值并且可指示在其他范围内的值0。在数学表达式4，变量X可如下面的数学表达式5所表达的那样被定义。

[数学表达式5]

X＝{x₀，x₁，...x_N-1}

换句话说，变量X可由包括从0到N-1的总共N个随机变量的向量表示。为了确定使变量X的PDF的对数似然最大化的平滑系数α(最大似然估计(MLE))，变量X的似然函数被定义如下。

[数学表达式6]

L(α|X)是变量X的平滑系数α的对数似然性，并且px(x_i)是第i个变量X的PDF。L(α|X)可如数学表达式6中那样由三个对数项表示，并且最后一个对数项ln(x_i-x_min)可不按照x_i＝x_min定义。因此，可通过使用下限系数δ来表示x_i＝x_min的L(α|X)。

[数学表达式7]

L(α|X)是变量x的平滑系数α的对数似然性，并且当变量x是x_i＝x_min时，可通过将下限系数δ用作来表示对数项。根据实施例，下限系数可以是10^-100，但是本公开不限于此。为了确定平滑系数α的最大似然性，相对于平滑系数α对L(α|X)进行微分。因此，使变量X的平滑系数的对数似然性最大化的平滑系数α如下。

[数学表达式8]

作为使变量X的平滑系数α的对数似然性最大化的平滑系数，可通过使用变量X的区间的最大值x_max、最小值x_min和下限系数δ由数学表达式8表示。

换句话说，如在数学表达式1至8，假设目标变量Y均匀分布，电子设备1000可确定当前变量X与目标变量Y的对数似然性，并且根据确定的对数似然性是否最大化来确定平滑系数。在数学表达式1到8，目标变量Y可与针对每个滤波器组的均匀分布的能量分量相应，并且变量X可与当前接收的音频信号的针对每个滤波器组的能量分量相应。

例如，电子设备1000可确定当前接收的音频信号的针对每个滤波器组的能量分量(例如，针对每个滤波器组的能量的PDF)相对于针对每个滤波器组的均匀分布的能量分量(例如，针对每个滤波器组的能量的PDF)的对数似然性，并且根据对数似然性是否最大化来确定平滑系数。换句话说，电子设备1000可接收音频训练信号，并且相对于针对每个滤波器组的均匀分布的能量分量，基于音频训练信号的针对每个滤波器组的能量分量的对数似然性是否被最大化，来对针对每个滤波器组的平滑系数进行预训练。换句话说，电子设备1000针对每个滤波器组训练的平滑系数针对每个滤波器组可具有不同的值，这与PNCC特征提取方法不同，其中，在PNCC特征提取方法中，1/15的相同平滑系数被应用于所有滤波器组中的每个滤波器组以表示由人感知的滤波器组的能量之间的强度的非线性特征。下文参照图5描述针对每个滤波器组被训练为彼此不同的平滑系数。

图5是用于描述针对每个滤波器组通道训练的平滑系数的示图。

与将相同值(例如，1/15)的平滑系数606应用于所有每个滤波器组的PNCC不同，根据本公开的电子设备1000可针对具有不同通道的每个滤波器组训练不同的平滑系数。

例如，电子设备1000可接收不包括噪声信号的音频训练信号，并且训练平滑系数602以相对于针对每个滤波器组的均匀分布的能量分量，最大化音频训练信号的针对每个滤波器组的能量分量的对数似然性。

此外，电子设备1000可接收包括噪声信号的音频训练信号，并且可训练平滑系数604以相对于针对每个滤波器组的均匀分布的能量分量，最大化音频训练信号的针对每个滤波器组的能量分量的对数似然性。

换句话说，尽管如图5所示，电子设备1000可针对每个滤波器组通道确定相同的平滑系数(例如，1/15)以表示人感知的滤波器组的能量之间的强度的非线性特征，但是电子设备1000可基于不包括噪声信号的音频训练信号或包括噪声信号的音频训练信号来训练针对每个滤波器组的不同平滑系数。根据本公开的电子设备1000可通过使用针对每个滤波器组不同地训练的平滑系数来平滑当前接收的音频信号的针对每个滤波器组的能量分量，来更准确地识别用户语音。

图6是根据实施例的由电子设备1000通过使用映射函数映射目标直方图来平滑针对每个滤波器组的能量分量的方法的流程图。

与图4至图5不同，电子设备1000可通过将分布式滤波器组应用于音频信号的频谱来获得针对每个滤波器组的能量分量，生成与获得的针对每个滤波器组的每个能量分量的大小相关的直方图，并且基于将生成的直方图映射到目标直方图的映射函数来平滑音频信号的针对每个滤波器组的能量分量。

详细地，在S520，电子设备1000可通过将滤波器组应用于音频信号的频谱来获得针对每个滤波器组的能量分量，并且生成与获得的针对每个滤波器组的能量分量的大小相关的直方图。例如，电子设备1000可将音频信号的针对每个滤波器组的能量分量的大小分割到特定频域(区间)中，并且基于每个分割的频域的滤波器组能量分量的大小来生成直方图。频率分量可包括单位频域或频率区间。

根据另一实施例，电子设备1000可基于针对每个滤波器组的能量分量的每个频率分量的频率来生成直方图。例如，电子设备1000可通过将滤波器组应用于音频信号来将获得的针对每个滤波器组的能量分量的频谱(例如，针对每个滤波器组的能量的PDF)分割到特定频域(区间)中，并且基于每个分割的频域出现的频谱值的频率来生成直方图。

在S540，电子设备1000可确定用于将生成的直方图映射到每个频率分量的大小均匀分布的目标直方图的映射函数。目标直方图可指示音频信号的针对每个滤波器组的能量分量中的每个频率分量的大小，假定获得针对每个滤波器组的能量分量均匀分布的音频信号的针对每个滤波器组的能量的值。映射函数可从下面的数学表达式9确定。

[数学表达式9]

σ_np(X)是具有变量X的直方图作为输入的非线性函数，以将变量X的直方图(例如，针对每个滤波器组的能量分量的PDF)映射到变量Y的直方图，F_u(·)是均匀分布的目标直方图的概率密度函数以及的累积分布函数(CDF)，并且F_u ^-1是用于将变量X的直方图映射到目标直方图的映射函数。

在S560，电子设备1000可通过使用确定的映射函数来转换音频信号的针对每个滤波器组的能量分量。例如，电子设备1000可将当前接收的音频信号的滤波器组能量分量中的每个频率分量的滤波器组能量值输入到映射函数，并且基于映射函数的输出结果获得滤波器组能量值以允许每个频率分量的大小或频率指示目标直方图，从而转换当前接收的音频信号的针对每个滤波器组的能量分量。电子设备1000可通过使用映射函数转换音频信号的针对每个滤波器组的能量分量来平滑音频信号的针对每个滤波器组的能量分量。电子设备1000可基于针对每个滤波器组的平滑后的能量分量来提取音频信号的特征向量，并且通过使用提取的音频特征向量来识别音频信号中的用户语音，从而准确地识别用户语音。由于S560可与图2的S220至S230相应，因此省略S560的详细描述。

图7是根据实施例的与特定通道索引相应的滤波器组的能量分量的示图。

参照图7，在由电子设备1000根据梅尔标度分布的滤波器组中，示出了通过将通道索引为3的滤波器组应用于频谱而获得的梅尔滤波器组能量的PDF。

例如，当电子设备1000没有如上面图4和图6中所述平滑梅尔滤波器组能量的PDF时(702)，电子设备1000可获得集中分布在0Hz的频域附近的梅尔滤波器组能量的PDF。当电子设备1000使用从包括不均匀分布的能量分量的频谱提取出的特征向量时，电子设备1000的语音识别的准确性可能劣化。

然而，根据实施例，当电子设备1000通过使用预训练过的平滑系数来平滑具有通道索引I＝3的滤波器组能量的PDF时(704)，可获得类似于从-1到1的正态分布形状的滤波器组能量的PDF。根据另一实施例，当电子设备1000通过使用基于直方图的映射函数来平滑具有通道索引I＝3的滤波器组能量的PDF时(706)，可获得均匀分布的滤波器组能量的PDF。电子设备1000可通过平滑音频信号的针对每个滤波器组PDF的能量来准确地识别音频信号中的用户语音。

图8是根据实施例的关于滤波器组能量的非线性输出的示图。

尽管电子设备1000可将相同的平滑系数1/15应用于音频信号的针对每个滤波器组的能量分量(708)以表示指示非线性特征的人的听觉特性，但是电子设备1000可通过针对每个滤波器组训练使当前接收到的音频信号的针对每个滤波器组的所述能量分量相对于针对每个滤波器组的均匀分布的能量分量的对数似然性最大化的平滑系数，将针对每个滤波器组不同地训练的平滑系数应用于音频信号的针对每个滤波器组的能量分量(704)。此外，电子设备1000可针对每个频率分量生成与音频信号的频谱的大小相关的直方图，并且基于用于将生成的直方图映射到目标直方图的映射函数来平滑音频信号的针对每个滤波器组的能量分量(706)。

当电子设备1000通过使用针对每个滤波器组训练的平滑系数来平滑音频信号的针对每个滤波器组的能量分量时(704)，随着滤波器组的能量分量减小，与通过使用相同的平滑系数1/15来平滑针对每个滤波器组的能量分量的情况相比，非线性输出可急剧减小(708)。然而，当电子设备1000通过使用基于直方图的映射函数来平滑针对每个滤波器组的能量分量时(706)，非线性输出可保持均匀，而不管滤波器组的能量分量的变化如何。非线性输出可指示针对每个滤波器组的能量的非线性特征的程度，以表示指示非线性特征的人的听觉特性。

图9是根据实施例的由电子设备1000处理用于语音识别模型训练的音频信号的方法的流程图。

电子设备1000可获得音频信号并将从音频信号提取出的特征向量输入到预训练过的语音识别模型，从而识别音频信号中的用户语音。在以下描述中，描述了由电子设备1000处理用于预训练语音识别模型的音频信号的方法。

在S910，电子设备1000可获得用于训练语音识别模型的、被分割成多个帧单元的第一音频信号。例如，电子设备1000可将具有预设窗口长度的汉宁窗口布置为以预定间隔重叠，并且通过使用被布置为彼此重叠的汉宁窗口来获得被分割成多个帧单元的第一音频信号。根据实施例，汉宁窗口的长度可以是约50ms，但是本公开不限于此，并且汉宁窗口的长度可根据目标频率分辨率而变化。由于S910可与由图2的电子设备1000获得被分割成多个帧单元的音频信号相应，因此省略S910的详细描述。

在S920，电子设备1000可获得被分割成多个帧单元的第一音频信号的频谱。例如，电子设备1000可获得以16kHz的频率以采样数K＝1024采样的多个帧单元的第一音频信号。为了在变换频率轴(频率扭曲)期间获得更好的频率分辨率，电子设备1000可将超大FFT系数U设置为16，根据设置的超大FFT系数U对第一音频信号进行上采样，并对上采样的第一音频信号执行FFT，从而获得频谱。当具有FFT大小系数K的频谱的频率轴被变换(频率扭曲)的音频信号是时，与在变换频率轴之前具有FFT大小系数UK的原始信号的频谱的关系由数学表达式10表示。

[数学表达式10]

m表示由电子设备1000获得的音频信号的帧索引，表示扭曲函数，离散时间频率是离散时间频率是U表示超大FFT大小系数，并且K表示FFT大小系数。

考虑到频率轴被变换的音频信号的频谱的对称性，频率轴被变换的音频信号的频谱可被定义为在的范围内的在获得数学表达式10的时，由于在变换频率轴之前的原始信号的频谱可仅相对于离散值k来定义，因此可通过使用特定整数k₀来相对于v_k0指示由于v_k0被定义为使得可如数学表达式11中所示地定义扭曲函数

[数学表达式11]

U表示超大FFT系数，K表示FFT大小系数，以及表示扭曲函数。因此，在数学表达式11中，如数学表达式12中所示定义k₀。

[数学表达式12]

在数学表达式12，k₀可通过下面的数学表达式13上舍入。

[数学表达式13]

U表示超大FFT系数，K表示FFT大小系数，表示扭曲函数，并且是用于获得小于或等于函数中的输入值的最大整数的下取整运算符。0.5是小数点之后为舍入而添加的常数。通过使用数学表达式10和13，频率轴被变换(频率扭曲)的音频信号可被定义为如下面的数学表达式14所示的

[数学表达式14]

表示频率轴被变换的音频信号的频谱，表示在变换频率轴之前的原始信号的频谱，离散时间频率是并且离散时间频率是

在S930，为了表示多个说话者的不同声道长度的变化，电子设备1000可通过使用数学表达式10和14中定义的扭曲函数来对第一音频信号的频谱的频率轴进行变换。例如，电子设备1000可通过使用扭曲系数和基于扭曲系数定义的扭曲函数来对第一音频信号的频谱的频率轴进行变换(108)。下面参照图11和图12详细描述由电子设备1000执行对第一音频信号的频谱的频率轴进行变换的方法。

在S940，电子设备1000可通过使用频率轴被变换的第一音频信号的频谱来生成第二音频信号。例如，电子设备1000可对频率轴被变换的第一音频信号的频谱执行逆FFT，并且在时间轴上重叠和添加被快速傅里叶逆变换的第一音频信号的频谱(112)，从而获得重新合成的第二音频信号116。

在S950，电子设备1000可将指示房间中的每个传输路径的音频信号的声学特征的房间脉冲滤波器应用于第二音频信号。例如，作为传递函数的房间脉冲滤波器可以是房间脉冲响应。例如，房间脉冲滤波器可指示房间中的每个传输路径的音频信号的不同声学特征。

由房间脉冲滤波器指示的声学特征可包括房间中的每个传输路径的混响时间(混响的宽分布)、每个传输路径的音频信号的房间尺寸以及房间中的每个传输路径的信噪比，但是本公开不限于此。此外，可基于用于生成音频信号的声源和用于接收音频信号的麦克风的位置来定义房间中的音频信号的传输路径。

电子设备1000将房间脉冲滤波器应用于第二音频信号的操作可与在时域中将房间脉冲响应与第二音频信号进行卷积的操作或者在频域中将第二音频信号乘以房间脉冲响应的操作相应。电子设备1000可通过将房间脉冲滤波器应用于重新合成的第二音频信号来模拟在各种环境下在房间中发送音频信号的情况，并且可获得表示音频信号实际上不通过其传输的传输路径的声学特征的音频信号。换句话说，电子设备1000可通过将房间脉冲(RIR)滤波器应用于第二音频信号来获得实际未获得的增强的音频信号。

图10是根据实施例的由电子设备1000处理用于语音识别模型训练的音频信号的处理的示意图。

电子设备1000可获得音频信号并通过使用特定数据增强技术来增强所获得的音频信号。例如，电子设备1000可获得包括来自用户的用户语音的第一音频信号1002以及来自第1噪声源至第(I-1)噪声源的噪声信号1004、1006和1008。

电子设备1000可获得第一音频信号1002的频谱，并且通过使用扭曲系数和基于扭曲系数定义的扭曲函数来变换第一音频信号1002的频谱的频率轴(频率扭曲，1010)。电子设备1000可在频域中乘以频率轴由房间脉冲滤波器1020变换的第一音频信号1002的频谱。房间脉冲滤波器1020是指示传输路径的声学特征的房间脉冲响应，其中，音频信号通过该传输路径从房间中的第0个声源发送到第j个麦克风。

此外，电子设备1000可将从第1至第(I-1)噪声源获得的噪声信号1004、1006和1008乘以增益因子g以调整噪声信号之间的相对强度，并且将乘以增益因子的每个噪声信号乘以频域中的房间脉冲滤波器。电子设备1000可通过将对频率轴被变换的第一音频信号应用房间脉冲滤波器的结果和应用房间脉冲滤波器1020的结果两者与噪声信号1004、1006和1008乘以增益因子g的结果相加来获得增强的音频信号y_j[n]。增强的音频信号y_j[n]可由下面的数学表达式定义。

[数学表达式15]

y_j[n]表示从第j个麦克风获得的音频信号，x₀[n]表示要识别的用户语音信号，h_0j[n]表示从第0个噪声源到第j个噪声源的房间脉冲响应，x_i[n]表示在1≤i≤I-1的范围内从第i个噪声源获得的噪声信号，并且h_ij[n]表示指示噪声信号x_i[n]通过其从第i个噪声源传送到第j个麦克风的路径的声学特征的房间脉冲响应。此外，F(·|α)表示扭曲函数(频率扭曲)，α表示扭曲系数。

通常，对于用于对不同说话者的声道长度变化进行建模的VTLP，通过在频域而不是时域中调整音频信号的频谱中的滤波器组的标度来对不同说话者的声道长度变化进行建模，但是在VTLP信号处理过程期间应用滤波器组之后，难以通过另一数据增强技术应用RIR滤波器。

在根据本公开的电子设备1000，在获得第一音频信号并从获得的第一音频信号提取特征向量之前，首先，为了对不同说话者的声道长度变化进行建模，对第一音频信号的频谱的频率轴进行变换，并且通过使用频率轴被变换的第一音频信号的频谱来重新合成第二音频信号，因此可通过VTLP和声学模拟同时应用RIR。

此外，在由根据本公开的电子设备1000增强音频信号时，通过使用扭曲系数和扭曲函数来重新合成音频信号以表示不同说话者的声道长度变化并将RIR滤波器应用于重新合成的音频信号的顺序可表示一系列音频信号的传输顺序，即，具有不同声道长度的说话者的语音信号实际上由房间中的麦克风接收。因此，根据本公开的电子设备1000可通过使用扭曲系数和扭曲函数来重新合成音频信号以表示不同说话者的声道长度变化，然后将RIR滤波器应用于重新合成的音频信号，来训练具有改善的语音识别的准确性的语音识别模型。

图11是根据实施例的由电子设备1000执行变换频率轴的方法的流程图。

下面参照图11详细描述由电子设备1000对音频信号的频谱的频率轴进行变换以对不同说话者的声道长度变化进行建模的处理。在S1112，电子设备1000确定扭曲系数。例如，电子设备1000可随机地确定第一音频信号的每个帧的扭曲系数。

在S1114，电子设备1000可基于确定的扭曲系数来确定用于对第一音频信号的频谱的频率轴进行变换的扭曲函数。电子设备1000可基于分割线性规则或双线性规则来确定扭曲函数，以变换频谱的频率轴。首先，根据分割线性规则的扭曲函数可由以下数学表达式定义。

[数学表达式16]

α表示扭曲系数，并且扭曲函数定义输入频率W和作为输出频率的经频率扭曲的W'_k的关系。例如，当输入频率W满足时，频率扭曲输出频率W'_k是Wα，并且在其他范围内的频率扭曲输出频率W'_k可由表示。电子设备1000可根据分割线性规则并基于数学表达式16来确定具有输入频率W作为输入和输出频率W'_k作为输出的扭曲函数。

根据另一实施例，电子设备1000可基于双线性规则来确定扭曲函数，并且根据确定的扭曲函数来对第一音频信号的频谱的频率轴进行变换。

[数学表达式17]

W_k表示输入频率，并且W'_k表示频率扭曲的输出频率。电子设备1000可根据双线性规则并基于数学表达式17来确定具有频率W_k作为输入和输出频率W'_k作为输出的扭曲函数。在S1116，电子设备1000可基于数学表达式16或17确定扭曲函数，并且通过使用确定的扭曲函数来对第一音频信号的频谱的频率轴进行变换。

图12是用于描述根据扭曲系数扭曲输入频率的处理的示图。

电子设备1000可通过使用基于确定的扭曲系数定义的扭曲函数来确定扭曲系数和对第一音频信号的频谱的频率轴进行变换。例如，参照图12，电子设备1000将扭曲系数确定为在0.8和1.2之间，并且通过使用根据双线性规则的扭曲函数并基于确定的扭曲系数来对输入频率执行频率扭曲。

例如，当电子设备1000将扭曲系数设置为0.8时，根据双线性规则从扭曲函数输出的输出频率(例如，扭曲频率)的分布可指示相对于输入频率呈向下凸形的频率分布。根据另一实施例，当电子设备1000将扭曲系数设置为1时，从扭曲函数输出的输出频率的分布可指示线性分布。

此外，当电子设备1000将扭曲系数设置为1.2时，从扭曲函数输出的输出频率的分布可指示向上凸起形状的频率分布。换句话说，电子设备1000可基于扭曲系数根据双线性规则或分割线性规则来定义扭曲函数以表示说话者的不同声道长度，并且通过使用定义的扭曲函数来对第一音频信号的频谱的频率轴进行变换，从而对说话者的声道长度变化进行建模。

图13是根据实施例的由电子设备1000通过使用频率轴被变换的第一音频信号来重新合成第二音频信号的方法的示图。

在S1302，电子设备1000可对频率轴被变换(频率扭曲)的第一音频信号的频谱执行逆FFT(IFFT)。在S1304，电子设备1000可通过在时间轴上重叠和添加被快速傅里叶逆变换的第一音频信号的频谱来生成作为重新合成的第一音频信号的第二音频信号。

例如，电子设备1000通过使用具有特定窗口长度的窗口对音频信号进行分割来获得被分割为帧单元的音频信号，并且在频域中针对每个帧变换音频信号。换句话说，当电子设备1000在频域中变换每个帧的音频信号时，当在频域中变换的音频信号的频谱在时域中逆变换时，可通过重叠在时域中变换的音频信号的频谱并添加重叠的时域的音频信号来获得重新合成的音频信号。

图14是根据实施例的电子设备的框图。图15是根据另一实施例的电子设备的框图。

如图14所示，根据实施例的电子设备1000可包括处理器1400和存储器1402。然而，所有示出的组成元件不是必要的组成元件。电子设备1000可由比所示构成元件更多或更少的构成元件来实现。例如，如图15所示，根据实施例的电子设备1000还可包括用户输入单元1502、通信单元1504、麦克风1506、显示器1507和扬声器1508。

处理器1400可通过执行存储器1402中的一个或更多个指令来控制电子设备1000的整体操作。例如，处理器1400通常可通过执行被存储在存储器1402中的一个或更多个指令来控制用户输入单元1502、通信单元1504、麦克风1506、显示器1507、扬声器1508等。此外，处理器1400可通过执行被存储在存储器1402中的一个或更多个指令来执行图1至图12的电子设备1000的功能。

此外，处理器1400可包括一个或多个处理器，并且一个或多个处理器可包括通用处理器(诸如CPU、AP、数字信号处理器(DSP)等)、图形专用处理器(诸如GPU或视觉处理单元(VPU))或人工智能(AI)专用处理器(诸如NPU)。根据实施例，当处理器1400由多个处理器、图形专用处理器或诸如NPU的AI专用处理器实现时，多个处理器、图形专用处理器或诸如NPU的AI专用处理器中的至少一些可被安装在电子设备1000和连接到电子设备1000的其他电子设备或多个服务器上。

例如，处理器1400可通过执行一个或更多个指令来获得被分割成多个帧单元的音频信号，通过将根据预设标度分布的滤波器组应用于被分割成帧单元的音频信号的频谱来确定针对每个滤波器组的能量分量，对确定的针对每个滤波器组的能量分量进行平滑，基于针对每个滤波器组的平滑后的能量分量来提取音频信号的特征向量，并将提取出的特征向量输入到语音识别模型，从而识别音频信号中的用户语音。

例如，处理器1400可通过执行一个或更多个指令来确定用于将音频信号分割成多个帧单元的窗口的窗口长度，以预定窗口间隔使确定的窗口长度的窗口重叠，并且通过使用重叠的窗口将音频信号分割成多个帧单元。

此外，处理器1400可将分布式滤波器组应用于音频信号的频谱，将应用滤波器组的频谱的值转换为对数标度，并且通过使用被转换为对数标度的频谱的值来确定针对每个滤波器组的能量分量。

此外，处理器1400可针对每个滤波器组基于均匀分布的目标能量分量训练用于平滑针对每个滤波器组的能量分量的平滑系数，并且通过使用针对每个滤波器组训练的平滑系数来平滑针对每个滤波器组的能量分量。

此外，处理器1400可针对每个频率分量生成与音频信号的频谱的大小相关的直方图，确定用于将生成的直方图映射到每个频率分量的大小均匀分布的目标直方图的映射函数，通过使用确定的映射函数来变换音频信号的频谱，并将根据预设标度分布的滤波器组应用于变换后的音频信号的频谱，从而平滑确定的针对每个滤波器组的能量分量。

根据另一实施例，处理器1400可对用于训练语音识别模型的音频信号进行处理。例如，为了训练语音识别模型，处理器1400可获得被分割成多个帧单元的第一音频信号，获得被分割成帧单元的第一音频信号的频谱，以表示多个说话者的不同声道长度的变化，对第一音频信号的频谱的频率轴进行变换，通过使用频率轴被变换的第一音频信号的频谱来生成第二音频信号，以及从生成的第二音频信号提取特征向量。

根据另一实施例，处理器1400可通过使用从重新合成的第二音频信号提取出的特征向量来训练用于识别用户语音的语音识别模型。

根据实施例，处理器1400可将指示房间中的每个传输路径的第二音频信号的声学特征的房间脉冲滤波器应用于第二音频信号，并且从应用了房间脉冲滤波器的第二音频信号提取特征向量。

此外，处理器1400可确定针对每个帧随机产生的扭曲系数，基于确定的扭曲系数确定用于对第一音频信号的频谱的频率轴进行变换的扭曲函数，并且通过使用确定的扭曲函数来对第一音频信号的频谱的频率轴进行变换。

此外，处理器1400可对频率轴被变换的第一音频信号的频谱执行逆FFT，并且在时间轴上重叠被快速傅里叶逆变换的第一音频信号的频谱，从而生成第二音频信号。

此外，处理器1400可通过将根据预设标度分布的滤波器组应用于被分割成多个帧单元的第二音频信号的频谱来确定针对每个滤波器组的能量分量，对确定的针对每个滤波器组的能量分量进行平滑，并且基于针对每个滤波器组的平滑后的能量分量提取第二音频信号的特征向量。

根据实施例，为了表示多个说话者的不同声道长度的变化，可基于通过使用音频训练信号的频谱重新合成的音频训练信号的特征向量来预训练由处理器1400预训练过的语音识别模型，其中，在音频训练信号中，针对每个帧单元获得的音频训练信号的频谱的频率轴被变换。

此外，可基于重新合成的音频训练信号来预训练语音识别模型，其中，该重新合成的音频训练信号被应用房间脉冲滤波器，该房间脉冲滤波器指示用于发送音频信号的房间中的每个传输路径的音频信号的声学特征。下面参照图17和18详细描述根据本公开的电子设备1000使用的语音识别模型的结构及其训练方法。

存储器1402可包括用于控制电子设备1000的操作的一个或更多个指令。此外，存储器1402可包括用于识别音频信号中的用户语音的一个或更多个语音识别模型。此外，被存储在存储器1402中的程序可根据其功能被分类为UI模块、触摸屏模块、警报模块等。

根据实施例，存储器1402可包括至少一种类型的存储介质。例如，闪存型、硬盘型、多媒体卡微型、卡型存储器(例如，SD或XD存储器等)、随机存取存储器(RAM)静态RAM(SRAM)、只读存储器(ROM)、电可擦除可编程ROM(EEPROM)、可编程ROM(PROM)、磁存储器、磁盘、光盘等，但是本公开不限于此。

用户输入单元1502可接收用于控制电子设备1000的操作的用户输入。例如，用户输入单元1502可包括键盘、圆顶开关、触摸板(诸如接触电容法、耐压膜法、红外检测法、表面超声传导法、整体张力测量法、压电效应法等)、滚轮、微动开关等，但是本公开不限于此。

通信单元1504可包括用于与服务器2000通信的一个或更多个通信模块。例如，通信单元1504可包括短程无线通信单元或移动通信单元中的至少一个。

短距离无线通信单元可包括蓝牙通信单元、蓝牙低功耗(BLE)通信单元、近场通信单元、WLAN(Wi-Fi)通信单元、Zigbee通信单元、红外数据协会(IrDA)通信单元、Wi-Fi直连(WFD)通信单元、超宽带(UWB)通信单元、Ant+通信单元等，但是本公开不限于此。

移动通信单元可与移动通信网络中的基站、外部终端和服务器中的至少一个发送/接收无线信号。无线信号可包括根据语音呼叫信号、视频呼叫信号或文本/多媒体消息发送/接收的各种类型的数据。

麦克风1506可接收包括用户语音的音频信号。此外，麦克风1506可接收包括从除用户语音之外的多个噪声源生成的噪声信号的音频信号。麦克风1506可将获得的音频信号发送到处理器1400，使得执行通过语音识别模型的语音识别。

扬声器1508可输出音频信号中的用户语音的识别结果作为音频信号。例如，扬声器1508可输出与在电子设备1000中执行的功能相关的信号(例如，呼叫信号接收声音、消息接收声音和警报声音)作为声音。

显示器1507可输出和显示在电子设备1000中处理的信息。例如，显示器1507可以以文本的形式显示音频信号中的用户语音的识别结果。显示器1507可显示用于控制电子设备1000的界面、用于显示电子设备1000的状态的界面等。

图16是根据实施例的用于训练语音识别模型的电子设备的结构的示图。

根据实施例，电子设备1000可通过使用包括多个中央处理单元(CPU)1642和1644的CPU集群1640以及包括多个图形处理单元(GPU)1622、1624和1626的GPU集群1620来训练语音识别模型。通常，CPU消耗大量计算资源以将VTLP和声学模拟应用于音频信号并从通过VTLP和声学模拟重新合成的音频信号提取特征，电子设备1000可通过使用包括多个CPU的集群有效地执行VTLP和声学模拟，并从通过VTLP和声学模拟重新合成的音频信号提取特征向量。

此外，电子设备1000可将从CPU输出的特征向量和与特征向量相应的文本信息发送到GPU节点1612，使得每个GPU集群并行训练语音识别模型，其中，该GPU节点1612包括多个GPU和用于控制GPU的多个CPU。在下面的描述中，下面详细描述通过使用多个CPU和GPU来训练语音识别模型的处理。

首先，电子设备1000可通过使用CPU集群1640来接收多个音频信号。由电子设备1000接收的音频信号可以是被随机划分的时域中的音频信号。例如，由电子设备1000接收的SharedTfreCords 1652可包括被随机选择而不是按时间顺序选择的音频信号。此外，ShardedTFRecords 1652可包括从多个说话者接收并被分割(分片)成特定帧单元的音频信号。例如，ShardedTFRecords1652可包括从说话者A接收的诸如“Hello”的音频信号和从说话者B接收的诸如“Hi，Bixby”的音频信号。

电子设备1000可随机地分割从说话者A接收的诸如“Hello”的音频信号和从说话者B接收的诸如“Hi,Bixby”的音频信号，并将分割的音频信号临时存储在示例队列1654中。电子设备1000可将被存储在示例队列1654中的分割的音频信号发送到CPU集群1640中的多个CPU。电子设备1000可将被存储在示例队列1654中的分割的音频信号顺序地发送到CPU，或者可以以随机顺序将堆叠在队列中的分割的音频信号发送到CPU。

CPU集群1640中的每个CPU可接收音频信号，通过使用扭曲函数来变换接收到的音频信号的频谱的频率轴，并且对包括变换后的频率轴的频谱执行逆变换，从而获得重新合成的音频信号(VTLP)。此外，CPU集群1640中的每个CPU可通过将指示房间中的每个传输路径的音频信号的声学特征的房间脉冲滤波器(例如，将每个传输路径的声学特征指示为房间脉冲响应的传递函数)应用于重新合成的音频信号来应用声学模拟。

此外，CPU集群1640中的每个CPU可通过将根据预设标度分布的滤波器组应用于通过声学模拟获得的音频信号的频谱来确定针对每个滤波器组的能量分量，并且从确定的针对每个滤波器组的能量分量被平滑(基于幂函数的MUD)的频谱提取特征向量。CPU集群1640中的每个CPU可从包括与提取出的特征向量相应的文本信息的标签1662和1664获得与特征向量相应的文本信息，并且将获得的文本信息和提取出的特征向量一起发送到GPU节点1612中的CPU 1628。

GPU节点1612中的CPU 1628可将从CPU集群1640接收的特征向量和与特征向量相应的文本信息发送到多个GPU，并且可由每个GPU训练语音识别模型。根据实施例，GPU节点1612中的CPU 1628可确定将从CPU集群1640接收的特征向量和与特征向量相应的文本信息发送到GPU的优先级信息，并且基于确定的优先级信息将特征向量和与特征向量相应的文本信息发送到GPU。

GPU节点1612中的GPU可基于接收的特征向量和文本信息来训练语音识别模型。例如，GPU 1622、GPU 1624和GPU 1626可基于特征向量和文本信息确定关于语音识别模型的推断输出，并且通过将推断输出的输出值与正确值进行比较来确定损失，从而训练语音识别模型。基于特征向量和文本信息确定推断的处理可与下面参照图17和图18描述的语音识别模型中的解码处理相应。下面参照图17和18详细描述由电子设备1000训练语音识别模型的方法。

根据实施例，GPU节点1612中的CPU 1628可确定GPU节点1612中的多个GPU的当前状态，并且将关于GPU的状态的信息作为反馈信息发送到CPU集群1640。CPU集群1640可通过使用从GPU集群1620接收的反馈信息来调整由CPU 1628输出的特征向量和文本信息的传输速度。

换句话说，根据本公开的电子设备1000可包括比CPU相对更快的GPU，并且确定CPU和GPU之间的装置比率，从而有效地训练语音识别模型。电子设备1000可从未执行VTLP和声学模拟的音频信号提取特征向量，并且基于通过使用提取出的特征向量训练语音识别模型的速度值来确定CPU和GPU之间的装置比率。

图17是根据实施例的电子设备训练语音识别模型的处理的示图。

根据实施例，电子设备1000可对用于识别音频信号中的用户语音的语音识别模型进行预训练。由电子设备1000使用的语音识别模型是自动语音识别(ASR)模型，并且可以是端到端型基于注意力的神经网络模型。然而，由电子设备1000使用的语音识别模型不限于端到端型基于注意力的神经网络模型，并且可包括训练语音识别模型所需的所有其他基于神经网络的模型。由电子设备1000使用的语音识别模型(是基于注意力的神经网络模型)可包括：编码器，包括用于对音频信号的特征向量进行编码的多个长短期记忆(LSTM)层和最大池化层；解码器，包括用于通过对编码的特征向量进行解码来输出文本的LSTM层；注意力层，用于基于编码器和解码器之间的相关性来设置对从编码器输出的特征向量的注意力；以及软最大值层，用于输出基于注意力加权的特征向量指示关于特定关键词的标签的概率。然而，如上所述，由电子设备1000使用的语音识别模型不限于图17的语音识别模型的结构，并且可包括用于语音识别的所有其他基于神经网络的模型。

例如，电子设备1000可获得被分割成多个帧单元的音频信号和扭曲系数。尽管电子设备1000可从用户或连接到电子设备1000的外部装置获得扭曲系数，但是电子设备1000本身可针对音频信号的每个帧生成扭曲系数。电子设备1000可通过使用针对每个帧生成的扭曲系数来确定扭曲函数，通过使用确定的扭曲函数来对音频信号的频谱的频率轴进行变换，并且在时域中再次重叠和添加频率扭曲的频谱，从而生成重新合成的音频信号。

换句话说，电子设备1000可执行VTLP处理(1702)，用于相对于音频信号的频谱表示多个说话者的声道长度。根据另一实施例，电子设备1000可通过进一步通过VTLP处理对重新合成的音频信号执行声学模拟来确保用于训练语音识别模型的各种数据。

电子设备1000可通过VTLP从重新合成的音频信号提取特征向量。例如，电子设备1000可通过将根据梅尔标度分布的滤波器组应用于音频信号的重新合成的频谱来确定针对每个滤波器组的能量分量，并且通过将具有平滑系数1/15作为幂的指数的幂函数应用于确定的针对每个滤波器组的能量分量来平滑针对每个滤波器组的能量分量。此外，电子设备1000可通过使用具有平滑系数1/15作为幂的指数的幂函数，基于针对每个滤波器组的平滑后的能量分量来提取特征向量(1704)。

由电子设备1000提取出的特征向量包括m维度的频率特征，并且可以以帧为单位形成。换句话说，一个帧1706可由包括m维度的频率特征的特征向量来表示。电子设备1000可将以帧为单位提取出的特征向量顺序地输入到语音识别模型。

语音识别模型的编码器1720可包括多个LSTM层和最大池化层。编码器1720可通过对顺序地输入的多个帧应用非线性来变换帧的维度，并且通过以预定比率选择帧中具有变换后的维度的帧来仅输出一些输入帧。

例如，假设编码器1720包括四对LSTM层1721和最大池化层1722的情况。LSTM层1721和最大池化层1722可在编码器1720中形成单个层，因此，编码器1720可包括总共四个单个层。例如，当具有m维度的八个帧被顺序地输入到编码器1720时，可通过LSTM层1721对每个帧应用非线性来将每个帧变换为与m维度不同的维度，并且接收经维度变换的帧的最大池化层1722可选择在两个帧的音频特征之间具有更大音频特征的帧。

因此，包括总共四个层的编码器1720可接收m维度中的八个帧，并且输出具有与接收到的m维度的八个帧中的m维度不同的维度的一个帧。因为从接收m维度的八个帧的输入的编码器1720输出的帧的维度1732由于LSTM层1721的非线性特征而未知，所以维度1732可处于隐藏维度状态。根据另一实施例，当被分割成40维度的1000帧的音频信号被输入到编码器1720时，由于通过四个最大池化层获得八次池化，所以编码器1720可输出未知维度的1000/8帧。

注意力层1740可基于编码器1720与解码器1760之间的相关性来设置对从编码器1720输出的特征向量的注意力。例如，注意力层1740可通过使用从编码器1720输出的隐藏维度状态下的特征向量1732和从先前时间的解码器1760输出的隐藏维度状态下的特征向量1734以及在注意力层1740中确定的注意力权重反馈，在从编码器1720输出的特征向量之间设置注意力。

例如，注意力层1740可基于从编码器1720输出的先前时间的特征向量和从解码器1760输出的先前时间的特征向量1734来确定注意力权重反馈。注意力层1740可通过使用注意力权重反馈将注意力应用于从编码器1720输出的特征向量，并且通过对应用了注意力的特征向量进行加权求和来确定上下文特征向量1744。换句话说，由注意力层1740输出的上下文特征向量1744可以是从编码器1720输出的应用了注意力权重的帧的加权和。可选地，上下文特征向量1744可以是基于由注意力层1740确定的注意力权重从编码器1720输出的帧中选择的一些帧。

解码器1760可对从注意力层1740输出的权重求和特征向量进行解码。例如，解码器1760可包括一个LSTM层。解码器1760可基于当前时间的上下文特征向量1744、从注意力层1740输出的权重求和特征向量以及解码器1760中的LSTM的循环状态1762，通过对先前时间的上下文特征向量1742应用非线性来变换先前时间的上下文特征向量1742的维度。由于从解码器1760输出的特征向量的维度由于LSTM的非线性特征而未知，因此该维度可处于隐藏维度状态。

软最大值层1780可确定从解码器1760输出的隐藏维度状态中的特征向量与特定文本标签相应的概率值。例如，软最大值层1780可接收在先前时间从解码器1760输出的隐藏维度状态下的特征向量、从注意力层1740输出的当前时间的上下文特征向量1744以及在先前时间从软最大值层1780输出的文本信息的输入，并且确定从解码器1760输出的特征向量与诸如“Hi,Bixby”或“Hello”的特定文本标签相应的概率值。

根据实施例，软最大值层1780可在不接收从注意力层1740输出的当前时间的上下文特征向量1744和在先前时间从软最大值层1780输出的文本信息的输入的情况下，确定从解码器1760输出的隐藏维度状态的特征向量与特定文本标签相应的概率值。软最大值层1780可输出与文本标签的概率值中的最高概率值相应的文本标签的文本信息1782。可基于通过VTLP处理从重新合成的音频信号提取出的特征向量，通过修改和细化关于编码器1720、解码器1760、注意力层1740和软最大值层1780之间的连接强度的注意力来预训练具有上述结构的语音识别模型。

图18是根据实施例的电子设备1000通过将具有针对每个滤波器组的平滑后的能量分量的特征向量输入到语音识别模型来执行语音识别的处理的示图。

电子设备1000可通过平滑音频信号的针对每个滤波器组的能量分量的频谱，并且将从具有针对每个滤波器组的平滑后的能量分量的频谱提取出的特征向量输入到预训练过的语音识别模型，来准确地识别用户语音。

例如，为了将功率非线性1804应用于音频信号的针对每个滤波器组的能量分量的频谱，电子设备1000可确定针对每个滤波器组的平滑系数，并通过使用具有平滑系数作为幂的指数的幂函数来平滑针对每个滤波器组的能量分量。根据另一实施例，电子设备1000可通过使用基于与每个频率分量的音频信号的频谱的大小或频率相关的直方图确定的映射函数来平滑音频信号的针对每个滤波器组的能量分量。电子设备1000将功率非线性1804应用于频谱的针对每个滤波器组的能量分量的处理可与图4至图7的处理相应。

电子设备1000可从具有针对每个滤波器组的平滑后的能量分量的频谱提取特征向量1806，并将提取出的特征向量1806输入到预训练过的语音识别模型。由于由电子设备1000预训练过的语音识别模型的结构和操作方法可与上述图17的语音识别模型的结构和操作方法相应，因此省略其详细描述。

图19是根据实施例的服务器2000的框图。

根据实施例，服务器2000可包括通信单元2100、数据库(DB)2200和处理器2300。

通信单元2100可与图15的电子设备1000的通信单元1504相应。例如，通信单元2100可从电子设备1000接收音频信号，或者将关于针对从电子设备1000接收的音频信号的语音识别结果的信息发送到电子设备1000。此外，通信单元2100可通过与另一服务器中的通信单元通信来针对其他服务器发送/接收从电子设备1000接收的音频信号或关于针对共享音频信号的语音识别结果的信息。

DB 2200可与图15的存储器1402相应。例如，DB 2200可存储语音识别模型。此外，DB 2200可使用语音识别模型提供语音识别服务，并且还可存储训练语音识别模型所需的数据增强算法和特征提取算法。

处理器2300通常可控制服务器2000的整体操作。例如，处理器2300通常可通过执行被存储在服务器2000的DB 2200中的程序来控制DB 2200、通信单元2100等。此外，处理器2300可通过执行被存储在DB 2200中的程序来执行图1至图18的电子设备1000的操作的一部分。

例如，为了表示多个说话者的不同声道长度的变化，处理器2300可从电子设备1000获得音频信号，对音频信号的频谱的频率轴进行变换，并且通过使用频率轴被变换的音频信号的频谱来生成重新合成的音频信号。此外，处理器2300可通过将RIR应用于重新合成的音频信号来表示房间中的每个传输路径的音频信号的不同声学特征。

此外，为了提高语音识别模型的语音识别的准确性，处理器2300可对音频信号的针对每个滤波器组重新合成的能量分量进行平滑，并且从包括针对每个滤波器组的平滑后的能量分量的频谱提取特征向量。例如，处理器2300可对针对每个滤波器组的平滑系数进行预训练，并且通过使用具有平滑系数作为幂的指数的训练过的幂函数来平滑音频信号的针对每个滤波器组的能量。根据另一实施例，处理器2300可通过使用与每个频率分量的音频信号的频谱的大小或频率相关的直方图和直方图的映射函数来平滑音频信号的针对每个滤波器组的能量分量。

图20是根据实施例的当电子设备和服务器彼此相关联时识别用户语音的方法的示图。

在S2002，电子设备1000可获得第一音频信号。在S2004，电子设备1000可将获得的第一音频信号发送到服务器2000。根据实施例，电子设备1000可通过使用具有预设窗口长度的窗口将第一音频信号分割成多个帧单元，并且将被分割成帧单元的第一音频信号发送到服务器2000。

在S2006，服务器2000可对接收的第一音频信号的频谱的频率轴(执行频率扭曲)进行变换。例如，服务器2000可从电子设备1000接收预定的扭曲系数，并且基于扭曲系数根据数学表达式15或16确定扭曲函数。服务器2000可通过使用扭曲系数和扭曲函数对第一音频信号的频谱的频率轴进行变换来表示多个说话者的声道长度的变化。

在S2008，服务器2000可通过使用频率轴被变换的第一音频信号的频谱来重新合成第一音频信号。例如，服务器2000可通过对频率轴被变换的第一音频信号的频谱执行逆FFT并且在时间轴上重叠和添加被快速傅里叶逆变换的第一音频信号的频谱来生成重新合成的音频信号(VTLP)。根据实施例，服务器2000还可通过将RIR滤波器应用于重新合成的音频信号来生成指示房间中的每个传输路径的音频信号的不同声学特征的音频信号。

在S2010，服务器2000可从重新合成的音频信号提取特征向量。根据实施例，服务器2000可从应用了RIR滤波器的重新合成的音频信号提取特征向量。此外，根据实施例，在S2010，服务器2000可对重新合成的音频信号的针对每个滤波器组的能量分量进行平滑，并且基于针对每个滤波器组的平滑后的能量分量来提取特征向量。作为由服务器2000提取重新合成的特征向量的方法可与由电子设备1000从图2至图7的重新合成的音频信号提取特征向量的处理相应，省略其详细描述。

在S2012，服务器2000可通过使用提取出的特征向量来训练语音识别模型。根据实施例，当服务器2000对重新合成的音频信号的针对每个滤波器组的能量分量进行平滑，并且基于针对每个滤波器组的平滑后的能量分量提取特征向量时，服务器2000可从具有针对每个滤波器组的平滑后的能量分量的音频信号提取特征向量，并且通过使用提取出的特征向量训练语音识别模型。

当服务器2000通过使用基于针对每个滤波器组的平滑后的能量分量提取出的特征向量来平滑针对每个滤波器组的能量分量并且训练语音识别模型3000时，在新获得的音频信号中的用户语音的识别中，服务器2000可对新获得的音频信号122的每个梅尔滤波器组的能量分量进行平滑，并将基于针对每个滤波器组的平滑后的能量分量提取出的特征向量132输入到语音识别模型，从而识别用户语音。由服务器2000通过使用提取出的特征向量来训练语音识别模型的处理可与由电子设备1000训练图17和图18中的语音识别模型的处理相应。

在S2014，电子设备1000可从用户获得第二音频信号。在S2016，电子设备1000可将获得的第二音频信号发送到服务器2000。在S2020，服务器2000可提取第二音频信号的频谱的特征向量，其中，第二音频信号具有针对每个滤波器组的平滑后的能量分量。由服务器2000提取特征向量的操作可相应于在图2的S240中由电子设备1000提取特征向量的操作。

此外，根据实施例，当服务器2000平滑第一音频信号的针对每个滤波器组的能量分量，并且使用通过使用基于针对每个滤波器组的平滑后的能量分量提取出的特征向量训练的语音识别模型时，在S2020，服务器2000可对第二音频信号的频谱的针对每个滤波器组的能量分量进行平滑，并且从包括针对每个滤波器组的平滑后的能量分量的第二音频信号提取特征向量。由服务器2000平滑第二音频信号的频谱的针对每个滤波器组的能量分量的操作可与图4至图7中由电子设备1000平滑音频信号的针对每个滤波器组的能量分量的处理相应。

在S2022，服务器2000可通过将提取出的特征向量输入到预训练过的语音识别模型来识别第二音频信号中的用户语音。在S2024，服务器2000可将由语音识别模型输出的语音识别结果发送到电子设备1000。在S2026，电子设备1000可输出从服务器2000接收的语音识别结果。

图21是根据实施例的当电子设备和服务器彼此相关联时识别用户语音的方法的示图。

根据本公开的实施例，识别用户语音的方法和处理用于训练语音识别模型的音频信号的方法可由电子设备和与电子设备相关联的多个服务器执行。

在S2102，电子设备1000可获得第一音频信号。在S2104，电子设备1000可将第一音频信号发送到第一服务器2500。根据另一实施例，电子设备1000可将第一音频信号发送到第二服务器2600，使得可经由第二服务器2600将第一音频信号发送到第一服务器2500。

在S2106，第一服务器2500可通过使用预定的扭曲系数和根据数学表达式15或16的扭曲函数来对第一音频信号的频谱的频率轴进行变换(执行频率扭曲)。在S2108，第一服务器2500可通过使用频率轴被变换的音频信号的频谱来重新合成音频信号，从而对第一音频信号执行VTLP处理。在S2110，第一服务器2500可将重新合成的第一音频信号发送到第二服务器2600。换句话说，根据实施例，图21的第一服务器2500可以是网络上的用于增强音频数据的专用服务器。

在S2112，第二服务器2600可从自第一服务器2500接收的重新合成的第一音频信号提取特征向量。根据实施例，第二服务器2600可对第一音频信号的针对每个滤波器组重新合成的能量分量进行平滑，并且基于针对每个滤波器组的平滑后的能量分量提取特征向量。由第二服务器2600从重新合成的第一音频信号提取特征向量的操作可与在S2010由图20的第一服务器从重新合成的音频信号提取特征向量的操作相应。

在S2114，第二服务器2600可通过使用特征向量来训练语音识别模型。根据实施例，当第二服务器2600平滑第一音频信号的针对每个滤波器组的重新合成的能量分量，并且基于针对每个滤波器组的平滑后的能量分量提取特征向量时，第二服务器2600可通过使用从具有针对每个滤波器组的平滑后的能量分量的第一音频信号提取出的特征向量来训练语音识别模型。由第二服务器2600通过使用特征向量训练语音识别模型的操作可与在S2012由图2的服务器2000训练语音识别模型的操作相应。

在S2116，电子设备1000可获得第二音频信号。在S2118，电子设备1000可将第二音频信号发送到第二服务器2600。根据实施例，电子设备1000可经由第一服务器2500将第二音频信号发送到第二服务器2600。在S2120，第二服务器2600可对第二音频信号的针对每个滤波器组的能量分量进行平滑。S2120是平滑音频信号的针对每个滤波器组的能量分量的处理，其中，在S2120中，图4至图7的电子设备1000可基于音频信号的针对每个滤波器组的能量分量的对数似然性是否被最大化来确定，并且S2120可与通过使用具有确定的平滑系数作为幂的指数的幂函数来平滑针对每个滤波器组的能量分量的处理相应。

在S2122，第二服务器2600可从具有针对每个滤波器组的平滑后的能量分量的第二音频信号提取特征向量。根据实施例，当第二服务器2600平滑第一音频信号的针对每个滤波器组的能量分量并且使用通过使用基于针对每个滤波器组的平滑后的能量分量提取出的特征向量训练的语音识别模型时，第二服务器2600可通过对新获得的第二音频信号的每个梅尔滤波器组的能量分量进行平滑并且将基于针对每个滤波器组的平滑后的能量分量提取出的特征向量输入到语音识别模型，来识别第二音频信号中的用户语音。在S2124，第二服务器2600可通过将提取出的特征向量输入到语音识别模型来识别第二音频信号中的用户语音。在S2126，第二服务器2600可将由语音识别模型输出的语音识别结果发送到电子设备1000。在S2128，电子设备1000可输出从第二服务器2600接收的语音识别结果。

如上所述，可通过使用包括第一服务器2500和第二服务器2600的多个服务器来执行识别用户语音的方法，其中，第一服务器2500增强获得的音频信号，第二服务器2600从第一服务器2500接收增强的音频信号，基于增强的音频信号训练语音识别模型，并且通过使用训练过的语音识别模型来识别第二音频信号中的用户语音。

图22是根据实施例的当电子设备和服务器彼此相关联时识别用户语音的方法的示图。

根据本公开的实施例，电子设备1000可准确地识别与多个服务器相关联的多个说话者的语音。

例如，在S2202，电子设备1000可获得包括儿童语音的第一音频信号。在S2204，电子设备1000可将包括儿童语音的第一音频信号发送到第一服务器2500。在S2206，第一服务器2500可对包括儿童语音的第一音频信号执行VTLP处理。在图11和图12中，由第一服务器2500对包括儿童语音的第一音频信号执行VTLP处理的操作可与由电子设备1000通过使用扭曲系数和包括扭曲系数的扭曲函数来对音频信号的频谱的频率轴进行变换的操作相应。

根据实施例，第一服务器2500还可通过VTLP处理将RIR滤波器应用于重新合成的第一音频信号。在S2208，第一服务器2500可通过VTLP处理从重新合成的音频信号提取特征向量。根据实施例，第一服务器2500可通过VTLP处理来平滑重新合成的音频信号的针对每个滤波器组的能量分量，并且基于针对每个滤波器组的平滑后的能量分量来提取特征向量。

在S2210，第一服务器2500可通过使用提取出的特征向量来训练第一语音识别模型。根据实施例，第一服务器2500可通过应用了RIR滤波器的VTLP处理从重新合成的音频信号提取特征向量，并且通过使用提取出的特征向量来训练第一语音识别模型。根据另一实施例，当第一服务器2500平滑重新合成的音频信号的针对每个滤波器组的能量分量并且基于针对每个滤波器组的平滑后的能量分量提取特征向量时，第一服务器2500可通过使用从具有针对每个滤波器组的平滑后的能量分量的重新合成的音频信号提取出的特征向量来训练语音识别模型。

在S2212，第一服务器2500可获得包括儿童语音的第二音频信号。在S2214，第一服务器2500可将包括儿童语音的第二音频信号发送到第一服务器2500。在S2216，为了允许第二音频信号的频谱的针对每个滤波器组的能量分量根据最大均匀性而被分布，第一服务器2500可通过使用具有针对每个滤波器组预训练的平滑系数作为幂的指数的幂函数来平滑第二音频信号的针对每个滤波器组的能量分量。

在S2218，第一服务器2500可通过将提取出的特征向量输入到第一语音识别模型来识别包括儿童语音的第二音频信号中的儿童语音。根据实施例，当第一服务器2500平滑包括儿童语音的第一音频信号的针对每个滤波器组的能量分量并且使用通过使用基于针对每个滤波器组的平滑后的能量分量提取出的特征向量训练的语音识别模型时，第一服务器2500可通过平滑包括新获得的儿童语音的第二音频信号的针对每个梅尔滤波器组的能量分量并且将基于针对每个滤波器组的平滑后的能量分量提取出的特征向量输入到语音识别模型来识别第二音频信号中的儿童语音。在S2220，第一服务器2500可将从语音识别模型输出的语音识别结果发送到电子设备1000。在S2221中，电子设备1000可输出从第一服务器2500接收的语音识别结果。

在S2222，电子设备1000可获得包括成人语音的第一音频信号。在S2224，电子设备1000可将包括成人语音的第一音频信号发送到第二服务器2600。根据实施例，电子设备1000可通过第一服务器2500将包括成人语音的第一音频信号发送到第二服务器2600。在S2226，第二服务器2600可对包括成人语音的第一音频信号执行VTLP处理。由第二服务器2600对包括成人语音的第一音频信号执行VTLP处理的操作可与在图11和图12中由电子设备1000通过使用扭曲系数和包括扭曲系数的扭曲函数来对音频信号的频谱的频率轴进行变换的操作相应。

根据实施例，第二服务器2600还可将RIR滤波器应用于包括通过VTLP处理重新合成的成人语音的第一音频信号。在S2228，第二服务器2600可从包括通过VTLP处理重新合成的成人语音的第一音频信号提取特征向量。根据实施例，第二服务器2600可从包括应用了RIR滤波器的成人语音的重新合成的第一音频信号提取特征向量。此外，尽管未在图22中示出，但是在S2228，第二服务器2600可对包括通过VTLP处理重新合成的成人语音的第二音频信号的针对每个滤波器组的能量分量进行平滑，并且基于针对每个滤波器组的平滑后的能量分量来提取特征向量。换句话说，为了允许包括语音的第二音频信号的频谱的针对每个滤波器组的能量分量根据最大均匀性而被分布，第二服务器2600可通过使用具有针对每个滤波器组预训练的平滑系数作为幂的指数的幂函数来平滑第二音频信号的针对每个滤波器组的能量分量。

在S2230，第二服务器2600可通过使用提取出的特征向量来训练第二语音识别模型。根据实施例，第二服务器2600可从包括具有针对每个滤波器组的平滑后的能量分量的成人语音的第二音频信号提取特征向量，并且通过使用提取出的特征向量来训练第二语音识别模型。

在S2232，电子设备1000可获得包括成人语音的第二音频信号。在S2234，电子设备1000可将包括成人语音的第二音频信号发送到第二服务器2600。在S2236，第二服务器2600可从包括成人语音的第二音频信号提取特征向量。根据实施例，为了允许第二音频信号的频谱的针对每个滤波器组的能量分量根据最大均匀性而被分布，第二服务器2600可对包括成人语音的第二音频信号的针对每个滤波器组的能量分量进行平滑，并且通过使用具有针对每个滤波器组预训练的平滑系数作为幂的指数的幂函数，从包括成人语音的第二音频信号提取特征向量，其中，成人语音具有针对每个滤波器组的平滑后的能量分量。

在S2238，第二服务器2600可通过将特征向量输入到第二语音识别模型来识别包括成人语音的第二音频信号中的成人语音。根据实施例，当第二服务器2600平滑包括成人语音的第二音频信号的针对每个滤波器组的能量分量并且使用通过使用基于针对每个滤波器组的平滑后的能量分量提取出的特征向量训练的语音识别模型时，第二服务器2600可通过平滑包括成人语音的新获得的第二音频信号的针对每个梅尔滤波器组的能量分量并且将基于针对每个滤波器组的平滑后的能量分量提取出的特征向量输入到语音识别模型来识别第二音频信号中的成人语音。

在S2240，第二服务器2600可将从第二语音识别模型输出的语音识别结果发送到电子设备1000。在S2242，电子设备1000可输出从第二服务器2600接收的语音识别结果。换句话说，根据本公开的电子设备1000可准确地识别与多个服务器相关联的多个说话者的语音，每个服务器包括用于识别不同说话者的语音的语音识别模型。

图23是根据实施例的由电子设备1000通过使用目标语音信号和噪声信号两者来训练语音识别模型的处理的示图。

根据实施例，电子设备1000可训练语音识别模型，使得语音识别模型通过区分目标语音信号和噪声信号来识别目标语音信号和噪声信号。在S2302，电子设备1000可获得关于目标语音信号的少量短程语音数据库(DB)。短程语音数据库(DB)可包括与由各种语音特征(诸如发音持续时间、语音频率、音高、音调等)表示的目标语音信号相关的少量语音信号。

在S2304，电子设备1000可对少量短程语音数据库中的少量目标语音信号执行VTLP处理。由电子设备1000对少量短程语音数据库中的与目标语音信号相关的语音信号执行VTLP处理的操作可与图11和图12中的由电子设备1000通过使用扭曲系数和包括扭曲系数的扭曲函数来对音频信号的频谱的频率轴进行变换的操作相应。

在S2306，电子设备1000还可将RIR滤波器应用于与通过VTLP处理重新合成的目标语音信号相关的语音信号。换句话说，电子设备1000可通过将包括远程环境的虚拟房间中的针对每个传输路径的音频信号的声学特征应用于与通过VTLP处理重新合成的目标语音信号相关的语音信号来对在虚拟房间中发送的目标语音信号进行建模。电子设备1000可通过进一步将RIR滤波器应用于与通过VTLP处理重新合成的目标语音信号相关的语音信号来获得用于训练的目标语音2308。

电子设备1000可通过使用获得的目标语音2308进行训练来训练电子设备1000的语音识别模型3000。尽管未在图23中示出，但是电子设备1000可对用于训练的目标语音2308的信号的针对每个滤波器组的能量分量进行平滑，并且通过使用基于针对每个滤波器组的平滑后的能量分量提取出的特征向量来训练语音识别模型3000。

在S2314，电子设备1000可对少量短程语音数据库中的噪声信号执行VTLP处理。由电子设备1000对少量短程语音数据库中的噪声信号执行VTLP处理的操作可与在图11和图12中由电子设备1000通过使用扭曲系数和包括扭曲系数的扭曲函数来对音频信号的频谱的频率轴进行变换的操作相应。

在S2316，电子设备1000还可将RIR滤波器应用于与通过VTLP处理重新合成的噪声信号相关的语音信号。换句话说，电子设备1000可通过将包括远程环境的虚拟房间中的噪声信号的针对每个传输路径的声学特征应用于与通过VTLP处理重新合成的噪声信号相关的语音信号来对在虚拟房间中发送的噪声信号进行建模。电子设备1000可通过进一步将RIR滤波器应用于与通过VTLP处理重新合成的噪声信号相关的语音信号来获得用于训练的噪声语音2318。

电子设备1000可通过使用获得的噪声语音2318进行训练来训练电子设备1000的语音识别模型3000。尽管在图23中未示出，但是电子设备1000可对用于训练的噪声语音2318的信号的针对每个滤波器组的能量分量进行平滑，并且通过使用基于针对每个滤波器组的平滑后的能量分量提取出的特征向量来训练语音识别模型3000。

电子设备1000可通过使用基于用于训练的目标语音2308和用于训练的噪声语音2318获得的语音识别模型3000来准确地识别用户语音，其中，用于训练的目标语音2308和用于训练的噪声语音2318通过分别增强少量目标语音信号和少量噪声信号而获得。例如，即使当同时从用户2332获得目标语音信号2322和从噪声源2334(例如，TV、扬声器等)获得噪声信号时，电子设备1000也可通过使用基于用于训练的目标语音2308和用于训练的噪声语音2318训练的语音识别模型3000，通过准确地区分用户2332的目标语音信号2322与噪声信号来准确地识别用户语音。

根据上述实施例的由电子设备识别用户语音的方法、处理用于训练语音识别模型的音频信号的方法以及由电子设备训练语音识别模型的方法可以以通过各种计算机装置执行的程序指令的形式实现，并且可被记录在计算机可读介质上。计算机可读介质可单独地或通过组合程序指令、数据文件、数据结构等来包括程序指令、数据文件、数据结构等。被记录在介质上的程序命令可以是为本公开特别设计和配置的，或者可以是本公开所属领域的普通技术人员所熟知的可用的程序命令，诸如计算机软件。此外，可通过被显示在电子设备上的内容的至少一部分来提供包括记录介质的计算机程序产品，该记录介质上存储有允许电子设备执行提供与电子设备相关的虚拟设备的方法的程序。

计算机可读记录介质可包括被特别配置为存储和执行程序命令的磁介质(诸如硬盘、软盘和磁带)、光学介质(诸如CD-ROM或DVD)、磁光介质(诸如光软盘)以及硬件装置(诸如ROM、RAM闪存)。程序命令的示例不仅可包括由编译器创建的机器代码，还可包括可由计算机使用解释器执行的高级编程语言。

此外，本公开的实施例可以以包括计算机可执行指令(诸如由计算机执行的程序模块)的记录介质的形式来体现。计算机可读存储介质可以是可由计算机访问的可用介质，并且可包括所有易失性和非易失性介质以及可分离和不可分离介质。

例如，可以以非暂时性存储介质的形式提供装置可读存储介质。“非暂时性存储介质”是有形装置，并且仅仅意味着没有信号，例如电磁波。这样的术语不区分数据被半永久地存储在存储介质中的情况与数据被临时存储在存储介质中的情况。例如，“非暂时性存储介质”可包括临时存储数据的缓冲器。

根据实施例，根据本说明书中公开的各种实施例的方法可通过被包括在计算机程序产品中来提供。作为商品的计算机程序产品可在卖方和买方之间进行交易。例如，计算机程序产品可以以装置可读存储介质(例如，光盘只读存储器(CD-ROM))的形式通过应用商店(例如，PlayStore^TM)分发、或者直接在线地在两个用户装置(例如，智能电话)之间分发。对于在线分发，计算机程序产品的至少一部分(例如，可下载的应用)可至少临时存储在装置可读存储介质中或从装置可读存储介质(诸如制造商的服务器、应用商店的服务器或中继服务器的存储器)临时生成。

因此，本公开中公开的实施例旨在说明本公开的技术构思的范围，并且本公开的技术构思的范围不受实施例的限制。应当基于所附权利要求来解释本公开的保护范围，并且应当解释为包括在与权利要求等同的范围内的所有技术思想都包括在本公开的正确范围内。

52页详细技术资料下载

语音识别装置和方法

相关技术

网友询问留言