一种基于混合信号域的mfcc特征提取方法及装置

文档序号:1650316 发布日期:2019-12-24 浏览:26次 >En<

阅读说明:本技术 一种基于混合信号域的mfcc特征提取方法及装置 (MFCC feature extraction method and device based on mixed signal domain ) 是由 李钦 乔飞 魏琦 朱慧峰 刘辛军 杨华中 于 2018-06-14 设计创作,主要内容包括:本发明实施例提供一种基于混合信号域的MFCC特征提取方法及装置,所述混合信号域包括模拟信号域和数字信号域,所述方法包括:在所述模拟信号域中获取预处理的语音信号;并对所述语音信号进行Mel频率分析,以提取所述语音信号在不同频段内的时域信号;根据预设运算规则对各频段内的时域信号进行运算;对运算结果进行低通滤波处理,并将低通滤波处理后的运算结果作为各频段内的时域信号的能量值;将所述能量值转化为数字信号,并在所述数字信号域中对已转化的能量值进行数据处理,将数据处理的结果作为提取出的梅尔倒谱系数MFCC特征。所述装置执行上述方法。本发明实施例提供的方法及装置,能够有效提取MFCC特征,提高提取速度,并降低提取过程中消耗的能量。(The embodiment of the invention provides a MFCC feature extraction method and a MFCC feature extraction device based on a mixed signal domain, wherein the mixed signal domain comprises an analog signal domain and a digital signal domain, and the method comprises the following steps: acquiring a preprocessed voice signal in the analog signal domain; performing Mel frequency analysis on the voice signal to extract time domain signals of the voice signal in different frequency bands; calculating the time domain signals in each frequency band according to a preset operation rule; carrying out low-pass filtering processing on the operation result, and taking the operation result after the low-pass filtering processing as the energy value of the time domain signal in each frequency band; and converting the energy value into a digital signal, performing data processing on the converted energy value in the digital signal domain, and taking the result of the data processing as the extracted Mel frequency cepstrum coefficient MFCC characteristic. The device performs the above method. The method and the device provided by the embodiment of the invention can effectively extract the MFCC characteristics, improve the extraction speed and reduce the energy consumed in the extraction process.)

一种基于混合信号域的MFCC特征提取方法及装置

技术领域

本发明实施例涉及语音特征提取技术领域,具体涉及一种基于混合信号域的MFCC特征提取方法及装置。

背景技术

语音交互已成为人机交互之间的一条重要途径,因此,自动语音识别显得尤为重要。此外,在能量受限的应用场景中,低功耗高能效的自动语音识别至关重要。

听觉特征提取是自动语音识别中的关键,梅尔倒谱系数(Mel-scale FrequencyCepstral Coefficients,以下简称“MFCC”)可以直观地展示出语音信号在频率域上的分布情况,因此,MFCC特征被广泛提取作为听觉特征,也是目前最常用的语音特征。图1为现有技术MFCC特征提取方法流程图;如图1所示,将语音信号从模拟域转换到数字域,在数字域中进行数据处理,包括傅里叶变换、Mel滤波处理等。在实施本发明实施例的过程中,发明人发现:在图1中的MFCC特征提取过程中,傅里叶变换过程耗费了相当大的计算时间和计算资源,此外,模数转换的过程也耗费了一定的计算时间和计算资源,从而导致现有技术的能量消耗过大。

因此,如何避免上述缺陷,能够有效提取MFCC特征,并降低提取过程中消耗的能量,成为低功耗自动语音识别亟须解决的问题。

发明内容

针对现有技术存在的问题,本发明实施例提供一种基于混合信号域的MFCC特征提取方法及装置。

第一方面,本发明实施例提供一种基于混合信号域的MFCC特征提取方法,所述混合信号域包括模拟信号域和数字信号域,所述方法包括:

在所述模拟信号域中获取预处理的语音信号;并对所述语音信号进行Mel频率分析,以提取所述语音信号在不同频段内的时域信号;

根据预设运算规则对各频段内的时域信号进行运算;

对运算结果进行低通滤波处理,并将低通滤波处理后的运算结果作为各频段内的时域信号的能量值;

将所述能量值转化为数字信号,并在所述数字信号域中对已转化的能量值进行数据处理,将数据处理的结果作为提取出的梅尔倒谱系数MFCC特征。

第二方面,本发明实施例提供一种基于混合信号域的MFCC特征提取装置,所述混合信号域包括模拟信号域和数字信号域,所述装置包括:

获取单元,用于在所述模拟信号域中获取预处理的语音信号;并对所述语音信号进行Mel频率分析,以提取所述语音信号在不同频段内的时域信号;

运算单元,用于根据预设运算规则对各频段内的时域信号进行运算;

滤波单元,用于对运算结果进行低通滤波处理,并将低通滤波处理后的运算结果作为各频段内的时域信号的能量值;

提取单元,用于将所述能量值转化为数字信号,并在所述数字信号域中对已转化的能量值进行数据处理,将数据处理的结果作为提取出的梅尔倒谱系数MFCC特征。

第三方面,本发明实施例提供一种电子设备,包括:处理器、存储器和总线,其中,

所述处理器和所述存储器通过所述总线完成相互间的通信;

所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:

在所述模拟信号域中获取预处理的语音信号;并对所述语音信号进行Mel频率分析,以提取所述语音信号在不同频段内的时域信号;

根据预设运算规则对各频段内的时域信号进行运算;

对运算结果进行低通滤波处理,并将低通滤波处理后的运算结果作为各频段内的时域信号的能量值;

将所述能量值转化为数字信号,并在所述数字信号域中对已转化的能量值进行数据处理,将数据处理的结果作为提取出的梅尔倒谱系数MFCC特征。

第四方面,本发明实施例提供一种非暂态计算机可读存储介质,包括:

所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如下方法:

在所述模拟信号域中获取预处理的语音信号;并对所述语音信号进行Mel频率分析,以提取所述语音信号在不同频段内的时域信号;

根据预设运算规则对各频段内的时域信号进行运算;

对运算结果进行低通滤波处理,并将低通滤波处理后的运算结果作为各频段内的时域信号的能量值;

将所述能量值转化为数字信号,并在所述数字信号域中对已转化的能量值进行数据处理,将数据处理的结果作为提取出的梅尔倒谱系数MFCC特征。

本发明实施例提供的基于混合信号域的MFCC特征提取方法及装置,通过在模拟信号域中提取语音信号在不同频段内的时域信号、对各频段内的时域信号进行运算和低通滤波处理,在数字信号域中对低通滤波处理后得到的能量值进行数据处理,能够有效提取MFCC特征,并降低提取过程中消耗的能量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为现有技术MFCC特征提取方法流程图;

图2为本发明实施例基于混合信号域的MFCC特征提取方法流程示意图;

图3为本发明另一实施例MFCC特征提取方法流程图;

图4为本发明实施例基于混合信号域的MFCC特征提取装置结构示意图;

图5为本发明实施例提供的电子设备实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图2为本发明实施例基于混合信号域的MFCC特征提取方法流程示意图,如图2所示,本发明实施例提供的一种基于混合信号域的MFCC特征提取方法,所述混合信号域包括模拟信号域和数字信号域,包括以下步骤:

S201:在所述模拟信号域中获取预处理的语音信号;并对所述语音信号进行Mel频率分析,以提取所述语音信号在不同频段内的时域信号。

具体的,装置在所述模拟信号域中获取预处理的语音信号;并对所述语音信号进行Mel频率分析,以提取所述语音信号在不同频段内的时域信号。图3为本发明另一实施例MFCC特征提取方法流程图;如图3所示,预处理的语音信号可以是将原始的语音信号通过低噪声放大器进行放大处理后得到的语音信号。

S202:根据预设运算规则对各频段内的时域信号进行运算。

具体的,装置根据预设运算规则对各频段内的时域信号进行运算。参照上述图3,进一步地,可以对各频段内的时域信号进行平方运算,可以通过如下公式对各频段内的时域信号进行平方运算:

|x(t)|2

x(t)是语音信号的时域信号,根据帕塞瓦尔定理:

其中,Ei是各频段内第i帧语音信号的能量、xi(t)是各频段内第i帧语音信号的时域信号、Xi(ω)是各频段内第i帧语音信号的频域信号。也就是说,对某一频段的时域信号平方的积分和等于该频段的频域信号平方的积分和的2π倍。

S203:对运算结果进行低通滤波处理,并将低通滤波处理后的运算结果作为各频段内的时域信号的能量值。

具体的,装置对运算结果进行低通滤波处理,并将低通滤波处理后的运算结果作为各频段内的时域信号的能量值。参照上述图3,可以采用预设的模拟低通滤波器对运算结果进行低通滤波处理。

S204:将所述能量值转化为数字信号,并在所述数字信号域中对已转化的能量值进行数据处理,将数据处理的结果作为提取出的梅尔倒谱系数MFCC特征。

具体的,装置将所述能量值转化为数字信号,并在所述数字信号域中对已转化的能量值进行数据处理,将数据处理的结果作为提取出的梅尔倒谱系数MFCC特征。参照上述图3,可以采用超低采样率(低于预设采样率阈值)的模数转换器将所述能量值转化为数字信号。然后,再对已转化的能量值进行分帧、取对数处理和离散余弦变换DCT。对于每一帧语音信号,本发明实施例在模拟信号域产生输出各频带内的能量值,其输出率变化较小(例如为80Hz)。此外,如图1所示的现有技术实现的分帧步骤是在数字信号域的前端进行,而在本发明实施例中,前端是在模拟信号域,信号值无法存储,因此,无法进行带混叠的分帧处理。本发明实施例将分帧步骤放到了模数转换器之后的数字信号域进行,由于混叠长度为帧长的一半,即模数转换器的输出信号变化率为80Hz,因此在数字信号域将半帧输出值存储并与下半帧输出值进行平均,即得该帧的平均能量值。

本发明实施例无需图1所示的计算复杂的FFT(傅里叶变换)步骤,还利用了模拟电路能效高,速度快的优势,以更快的速度,更高的能效完成了对输入语音信号能量分布的提取计算。现有技术实现的方法直接在传感器之后接入16bits、16kHz的模数转换器,对于25ms长的语音帧,每帧将会有1400个16比特的采样点,这将大幅提高FFT和平方运算的运算代价,同时引入了更高的ADC能耗。本发明实施例在模数转换处每帧只会有40个16比特的采样点,这大大减小了模数转换器部分的能耗,提高了该部分的速度,同时也降低了对数乘法和DCT部分的运算代价。

本发明实施例对模拟信号域的处理电路在cadence平台上进行了模拟仿真,采用的是CMOS180nm工艺。为了评估本发明实施例所提取的MFCC特征的性能,本发明实施例基于Tensor flow平台,采用了TI-DIGITS语音数据集和LSTM神经网络进行自动语音识别准确率性能测试。测试结果如表1所示:

表1

参照上述表1,本发明实施例与现有技术相比,在能量消耗上对比结果十分显著。相比于FPGA,对每一帧MFCC特征提取的能量损耗节约了97.2%,相比于ASIC,节约了95.1%。因此,本发明实施例在能量损耗方面的节约效果显著。本发明实施例在对MFCC特征提取的速度特性上,相比与现有技术也具有一定优势,FPGA、DSP和ASIC的MFCC提取速度为本发明实施例的数倍乃至数十倍。GPU以极高的能耗换取了更快速度,但综合能耗和提取速度考虑,在低功耗应用场景中不具优势。由于本发明实施例在模拟信号域的前端处理降低了数据维度,因此,对模数转换部分的需求大幅降低,表现在采样率方面,本发明实施例所需的模数转换器采样率远低于现有技术,这极大地降低了模数转换部分和后端处理部分的代价,这也是本发明实施例能够大大降低能耗和提升运算速度的重要原因之一。

综上,本发明实施例能够大大减少提取过程中的运算能量损耗以及时间损耗,消除了现有方法中占据大量运算代价的FFT。相较于现有方法,节约了至少95.1%的能量消耗,且运算速度也提升了6.4倍以上。仿真结果也表明,MFCC特征提取准确度高达99%。在低功耗应用场景中,本发明实施例相比于现有技术的MFCC特征提取方法优势效果显著。

本发明实施例提供的基于混合信号域的MFCC特征提取方法,通过在模拟信号域中提取语音信号在不同频段内的时域信号、对各频段内的时域信号进行运算和低通滤波处理,在数字信号域中对低通滤波处理后得到的能量值进行数据处理,能够有效提取MFCC特征,并降低提取过程中消耗的能量。

在上述实施例的基础上,所述根据预设运算规则对各频段内的时域信号进行运算,包括:

对各频段内的时域信号进行平方运算。

具体的,装置对各频段内的时域信号进行平方运算。可参照上述实施例,不再赘述。

本发明实施例提供的基于混合信号域的MFCC特征提取方法,通过对各频段内的时域信号进行平方运算,使得运算结果更加合理,保证了该方法的正常进行。

在上述实施例的基础上,所述对运算结果进行低通滤波处理,包括:

采用预设的模拟低通滤波器对运算结果进行低通滤波处理。

具体的,装置采用预设的低通滤波器对运算结果进行低通滤波处理。可参照上述实施例,不再赘述。

本发明实施例提供的基于混合信号域的MFCC特征提取方法,通过采用预设的低通滤波器对运算结果进行低通滤波处理,能够有效地对运算结果进行低通滤波处理。

在上述实施例的基础上,所述并在所述数字域中对已转化的能量值进行数据处理,包括:

对已转化的能量值进行分帧、取对数处理和离散余弦变换DCT。

具体的,装置对已转化的能量值进行分帧、取对数处理和离散余弦变换DCT。可参照上述实施例,不再赘述。

本发明实施例提供的基于混合信号域的MFCC特征提取方法,通过对已转化的能量值进行分帧、取对数处理和离散余弦变换DCT,能够有效提取MFCC特征。

在上述实施例的基础上,所述根据预设运算规则对各频段内的时域信号进行运算的步骤之前,所述方法还包括:

获取所述语音信号的频率特征。

具体的,装置获取所述语音信号的频率特征。例如:男性声音较女性声音多集中于频率较低的区域,因此通过频率特征可以确定出是男性声音还是女性声音。

根据所述频率特征,确定所述频率特征所在的频率分布范围,关闭不在所述频率分布范围之内的频带。

具体的,装置根据所述频率特征,确定所述频率特征所在的频率分布范围,关闭不在所述频率分布范围之内的频带。参照图3,可以预先在图3中的低噪声放大器之后设置频带开关装置(对应图3中的用户开关装置)。参照上述举例,如果确认是男性声音,确定男性声音所在的频率分布范围,调节该频带开关装置,关闭不在该频率分布范围之内的频带的通路,从而保证低频部分特征不受影响。

本发明实施例提供的基于混合信号域的MFCC特征提取方法,进一步避免无用频段内的信息采样,以提高分析速度和降低能耗。

在上述实施例的基础上,所述关闭不在所述频率分布范围之内的频带,包括:

通过预设的频带开关装置关闭不在所述频率分布范围之内的频带的通路。

具体的,装置通过预设的频带开关装置关闭不在所述频率分布范围之内的频带的通路。可参照上述实施例,不再赘述。

本发明实施例提供的基于混合信号域的MFCC特征提取方法,通过预设的频带开关装置关闭不在频率分布范围之内的频带的通路,进一步有效地避免无用频段内的信息采样,以提高分析速度和降低能耗。

图4为本发明实施例基于混合信号域的MFCC特征提取装置结构示意图,如图4所示,本发明实施例提供了一种基于混合信号域的MFCC特征提取装置,所述混合信号域包括模拟信号域和数字信号域,所述装置包括获取单元401、运算单元402、滤波单元403和提取单元404,其中:

获取单元401用于在所述模拟信号域中获取预处理的语音信号;并对所述语音信号进行Mel频率分析,以提取所述语音信号在不同频段内的时域信号;运算单元402用于根据预设运算规则对各频段内的时域信号进行运算;滤波单元403用于对运算结果进行低通滤波处理,并将低通滤波处理后的运算结果作为各频段内的时域信号的能量值;提取单元404用于将所述能量值转化为数字信号,并在所述数字信号域中对已转化的能量值进行数据处理,将数据处理的结果作为提取出的梅尔倒谱系数MFCC特征。

具体的,获取单元401用于在所述模拟信号域中获取预处理的语音信号;并对所述语音信号进行Mel频率分析,以提取所述语音信号在不同频段内的时域信号;运算单元402用于根据预设运算规则对各频段内的时域信号进行运算;滤波单元403用于对运算结果进行低通滤波处理,并将低通滤波处理后的运算结果作为各频段内的时域信号的能量值;提取单元404用于将所述能量值转化为数字信号,并在所述数字信号域中对已转化的能量值进行数据处理,将数据处理的结果作为提取出的梅尔倒谱系数MFCC特征。

本发明实施例提供的基于混合信号域的MFCC特征提取装置,通过在模拟信号域中提取语音信号在不同频段内的时域信号、对各频段内的时域信号进行运算和低通滤波处理,在数字信号域中对低通滤波处理后得到的能量值进行数据处理,能够有效提取MFCC特征,并降低提取过程中消耗的能量。

本发明实施例提供的基于混合信号域的MFCC特征提取装置具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。

图5为本发明实施例提供的电子设备实体结构示意图,如图5所示,所述电子设备包括:处理器(processor)501、存储器(memory)502和总线503;

其中,所述处理器501、存储器502通过总线503完成相互间的通信;

所述处理器501用于调用所述存储器502中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:在所述模拟信号域中获取预处理的语音信号;并对所述语音信号进行Mel频率分析,以提取所述语音信号在不同频段内的时域信号;根据预设运算规则对各频段内的时域信号进行运算;对运算结果进行低通滤波处理,并将低通滤波处理后的运算结果作为各频段内的时域信号的能量值;将所述能量值转化为数字信号,并在所述数字信号域中对已转化的能量值进行数据处理,将数据处理的结果作为提取出的梅尔倒谱系数MFCC特征。

本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:在所述模拟信号域中获取预处理的语音信号;并对所述语音信号进行Mel频率分析,以提取所述语音信号在不同频段内的时域信号;根据预设运算规则对各频段内的时域信号进行运算;对运算结果进行低通滤波处理,并将低通滤波处理后的运算结果作为各频段内的时域信号的能量值;将所述能量值转化为数字信号,并在所述数字信号域中对已转化的能量值进行数据处理,将数据处理的结果作为提取出的梅尔倒谱系数MFCC特征。

本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:在所述模拟信号域中获取预处理的语音信号;并对所述语音信号进行Mel频率分析,以提取所述语音信号在不同频段内的时域信号;根据预设运算规则对各频段内的时域信号进行运算;对运算结果进行低通滤波处理,并将低通滤波处理后的运算结果作为各频段内的时域信号的能量值;将所述能量值转化为数字信号,并在所述数字信号域中对已转化的能量值进行数据处理,将数据处理的结果作为提取出的梅尔倒谱系数MFCC特征。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的电子设备等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上各实施例仅用以说明本发明的实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明的实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明的各实施例技术方案的范围。

13页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种语音识别方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!