语音信号处理方法、设备及存储介质

文档序号:1058577 发布日期:2020-10-13 浏览:11次 >En<

阅读说明:本技术 语音信号处理方法、设备及存储介质 (Voice signal processing method, apparatus and storage medium ) 是由 曹刚 于 2020-06-23 设计创作,主要内容包括:本申请实施例涉及语音信号处理方法、设备及存储介质。本申请实施例包括:获取待检测帧的音频特征;获取语音信号中所述待检测帧之前预设长度时间窗内的静音点占比;根据所述音频特征确定静音点占比阈值;根据所述静音点占比和所述静音点占比阈值判断所述待检测帧是否是尾点帧。本申请实施例能够利用预设长度时间窗内静音点占比,并使用当前待检测帧的倒频谱特征来动态调节静音点占比阈值,从而克服了固定静音点占比阈值存在的语音尾点检测不准确的问题,有效提高了尾点帧检测的准确性和实时性。(The embodiment of the application relates to a voice signal processing method, equipment and a storage medium. The embodiment of the application comprises the following steps: acquiring audio features of a frame to be detected; obtaining the ratio of mute points in a time window with a preset length before the frame to be detected in the voice signal; determining a mute point ratio threshold according to the audio features; and judging whether the frame to be detected is a tail point frame or not according to the mute point ratio and the mute point ratio threshold. According to the embodiment of the application, the mute point occupation ratio in the preset length time window can be utilized, and the cepstrum characteristics of the current frame to be detected are used for dynamically adjusting the mute point occupation ratio threshold, so that the problem that the voice tail point detection is inaccurate due to the fixed mute point occupation ratio threshold is solved, and the accuracy and the real-time performance of the tail point frame detection are effectively improved.)

语音信号处理方法、设备及存储介质

技术领域

本申请实施例涉及但不限于计算机技术领域,尤其涉及一种语音信号处理方法、设备及存储介质。

背景技术

随着人工智能的发展,语音识别成为众多设备的标配,语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。

语音尾点检测在语音识别中起着关键性作用,语音尾点检测即在音频数据中找到语音的尾点,其准确性对语音识别的准确性起着至关重要的作用。

目前,语音尾点检测存在语音尾点不易确定的问题,使语音识别的准确率大大降低。

发明内容

本申请实施例提供了语音信号处理方法、设备及存储介质,能够提高语音尾点检测和识别的准确率。

第一方面,本申请实施例提供了一种语音信号处理方法,包括:获取语音信号中待检测帧的音频特征;获取待检测帧之前预设长度时间窗内的静音点占比;根据所述音频特征得到静音点占比阈值;根据所述静音点占比和所述静音点占比阈值,确定所述语音信号中的尾点帧。

第二方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现第一方面中所述的语音信号处理方法。

第三方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可执行指令用于执行第一方面中所述的语音信号处理方法。

本申请实施例包括:获取语音信号中待检测帧的音频特征;获取所述待检测帧之前预设长度时间窗内的静音点占比;根据所述音频特征确定静音点占比阈值;根据所述静音点占比和所述静音点占比阈值确定所述待检测帧是尾点帧。本申请实施例能够利用预设长度时间窗内静音点占比,并使用当前待检测帧的倒频谱特征来动态调节静音点占比阈值,从而克服了固定静音点占比阈值存在的语音尾点检测不准确的问题,有效提高了尾点帧检测的准确性和实时性。

本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

图1是本申请一实施例提供的语音信号处理方法流程图;

图2是本申请另一实施例提供的语音信号处理方法流程图;

图3是本申请另一实施例提供的语音信号处理方法流程图;

图4是本申请另一实施例提供的语音信号处理方法流程图;

图5是本申请另一实施例提供的语音信号处理方法流程图;

图6是本申请一实施例提供的语音识别方法流程图;

图7是本申请一实施例提供的语音尾点检测设备示意图;

图8是本申请一实施例提供的语音尾点检测装置示意图;

图9是本申请一实施例提供的语音识别装置示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。

需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。

语音尾点检测是语音识别的重要环节,是语音信号处理过程中最重要的一步,它的准确性直接影响到语音信号处理的速度和结果。

相关技术中的语音信号处理方法,往往存在语音尾点检测结果不够准确、无法实现语音尾点检测自适应调节的问题。例如,相关技术中语音尾点检测容易受噪音影响导致检测不够准确;或者,由于每个人说话的语速不同,相关技术中的语音尾点检测方法容易出现误识别尾点帧或识别过慢等问题。

基于此,本申请实施例提出了一种语音信号处理方法、设备及存储介质,能够利用预设长度时间窗内静音点占比,并使用当前待检测帧的倒频谱特征来动态调节静音点占比阈值,从而克服了固定静音点占比阈值存在的语音尾点检测不准确的问题,有效提高了尾点帧检测的准确性和实时性。

需要说明的是,下列多种实施例中,终端/设备可以为移动终端设备,也可以为非移动终端设备。移动终端设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载终端设备、可穿戴设备、超级移动个人计算机、上网本、个人数字助理等;非移动终端设备可以为个人计算机、电视机、柜员机或者自助机等;本申请实施方案不作具体限定。

在一些实施例中,电子设备可以可以包括电子设备可以可以包括处理器,外部存储器接口,内部存储器,通用串行总线(universal serial bus,USB)接口,充电管理模块,电源管理模块,电池,天线,移动通信模块,无线通信模块,音频模块,扬声器,受话器,麦克风,耳机接口,传感器模块,按键,马达,指示器,摄像头,显示屏,以及用户标识模块(subscriber identification module,SIM)卡接口等。其中,传感器模块可以可以包括压力传感器,陀螺仪传感器,气压传感器,磁传感器,加速度传感器,距离传感器,接近光传感器,指纹传感器,温度传感器,触摸传感器,环境光传感器,骨传导传感器等。

在一些实施例中,电子设备可以通过音频模块,扬声器,受话器,麦克风,耳机接口,以及应用处理器等实现音频功能。例如音乐播放,录音等。

在一些实施例中,音频模块用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块还可以用于对音频信号编码和解码。

在一些实施例中,音频模块可以设置于处理器中,或将音频模块的部分功能模块设置于处理器中。扬声器,也称“喇叭”,用于将音频电信号转换为语音信号。电子设备可以通过扬声器收听音乐,或收听免提通话。受话器,也称“听筒”,用于将音频电信号转换成语音信号。当电子设备接听电话或语音信息时,可以通过将受话器靠近人耳接听语音。麦克风,也称“话筒”,“传声器”,用于将语音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风发声,将语音信号输入到麦克风。电子设备可以设置至少一个麦克风。

在一些实施例中,电子设备可以设置两个麦克风,除了采集语音信号,还可以实现降噪功能。

在一些实施例中,电子设备还可以设置三个,四个或更多麦克风,实现采集语音信号,降噪,还可以识别声音来源,实现定向录音功能等。

第一方面,本申请实施例提供了一种语音信号处理方法,用于电子设备。

在一些实施例中,参照图1,语音信号处理方法可以包括:

步骤S1100,获取语音信号中待检测帧的音频特征;

步骤S1200,获取待检测帧之前预设长度时间窗内的静音点占比;

步骤S1300,根据音频特征得到静音点占比阈值;

步骤S1400,根据静音点占比和静音点占比阈值,确定语音信号中的尾点帧。

需要说明的是,上述S1100、S1200、S1300、S1400只代表附图标号,不应理解为对步骤先后顺序的限定。尤其的,上述步骤S1100和步骤S1200并无执行先后顺序的限制。

在一些实施例,步骤S1100中的待检测帧为待检测语音帧,语音尾点检测也就是检测上述待检测语音帧是否是尾点帧。

在一些实施例中,音频特征可以为时域特征,也可以为频域特征,上述两种音频特征都可以从短时音频提取得到,其中的时域特征是直接在原始语音信号基础上所提取的特征,而频域是把原始语音信号先进行傅里叶变换,将原始语音信号转换到频域,然后在频域上提取特征,在频谱图上的表示为,时域上每个采样点纵坐标代表的是该点的能量幅度值;频域上每点的纵坐标代表短时帧内其对应频带的能量大小。

在一些实施例中,上述音频特征为倒频谱特征,倒频谱特征就属于上述音频特征中的频域特征,可以理解的,语音信号在本质上是非平稳的,即间隔很短时间例如10ms就会发生剧烈的变化,并且音频信号具有短时稳定性,因此通常在较短的时间或者音频帧内对采样点进行处理。音频信号是由不同频率上所带不同的能量组成的,语音信号中更多的信息也可以在频谱中得到,可以把语音信号分为很多语音帧,每帧的语音信号都对应于一个频谱,此频谱通过短时快速傅里叶变换计算,频谱表示语音信号频率与能量的关系,频谱中的峰值表示语音的主要频率成分,也可以把这些语音的峰值称为共振峰,而共振峰携带了声音辨识属性,用它可以辨识不同的声音。可以把待检测的语音帧进行上述倒频谱分析。

在一些实施例中,倒频谱生成的过程也是一个同态信号处理,它的目的是将非线性问题转化为线性问题,原始的语音信号实际上是一个卷积信号,第一步通过卷积将其变成了乘性信号,可以理解的,时域的卷积信号相当于频域的乘性信号,第二步通过取对数将乘性信号转化为加性信号,第三步进行傅里叶逆变换,使其恢复为卷积信号,这时候,虽然前后均为时域序列,但他们所处的离散时域截然不同,此时输出的信号称之为倒频谱域。

其中,倒频谱函数可表示为:

C(q)=|IF(log(s(f)))|^2

其中,q为自变量,f为倒频率,s(f)是信号时域信号s(t)的傅里叶变换,log()为取对数,IF为傅里叶逆变换。

可以理解的,一方面,倒频谱可以有效的去除噪声干扰,它的分离特性使周期信号更容易被检出,并且倒频谱在功率谱的对数转换时给低幅值分量以较高的加权,给高幅值分量以较小的加权,加权的结果有利于突出周期性的小信号,在语音尾点处一般语音音量较小,导致语音幅值相应也会较小,给幅值加权可以有效的提高语音尾点帧的周期性信号强度,利用语音帧的倒频谱特征可以有效地去除噪音,更加突出语音帧的倒频谱音频特性。

另一方面,倒频谱特征可以刻画待检测帧对应的用户瞬间语速,倒频谱中两个重要参数为倒频谱中基音周期的零维倒谱C0(即倒频谱特征中的C0值)和峰值位置t0,简称为倒频谱特征中的零维倒谱C0和峰值位置t0,慢速语音比快速语音的倒频谱峰值位置t0靠后,所以慢速语音的基音周期比快速语音的基音周期大,反之,快速语音比慢速语音的峰值位置t0靠前,所以快速的基音周期比慢速语音的基音周期小;同时,倒频谱在相应于基音周期处有明显的峰值,所以把倒频谱应用于尾点帧检测中可以使倒频谱中峰值特征更加突出,再结合倒频谱特征中的零维倒谱C0,最终可以得到明显的静音帧阈值,综合上述两个方面,倒频谱特征应用到语音尾点检测中具有突出的优势,可以有效提高尾点帧检测的准确性和实时性。

在一些实施例中,步骤S1200中的预设长度时间窗为预先设置的待检测帧之前固定帧长度的帧的总数目,本实施例中用T表示预设长度时间窗。例如,预设长度时间窗T为70,则表示预设长度时间窗T为70个语音帧长度的帧总数,70个语音帧中可以包括静音帧也可以包括非静音帧,假设预设长度时间窗内静音帧的数目为n,则静音点占比为n/T。

可以理解的,T的值为固定值,又例如,假设语音流开始帧为S0,待检测帧为预设长度时间窗T之后的语音帧S1,当待检测帧往后移1个语音帧长度时,预设长度时间窗T的语音帧总数不变,预设长度时间窗T的起始点也相应后移1个语音帧长度。

在一些实施例中,语音信号处理方法还可以包括语音流开始帧的确定使用语音的能量值方法,参照图2,在上述S1100之前,还可以包括:

步骤S1500,设置语音能量阈值Elow;

步骤S1600,获取连续预设数量MO的能量低于语音能量阈值Elow的语音帧;

步骤S1700,获取连续预设数量MO的语音能量高于语音能量阈值Elow的语音帧;

步骤S1800,获取语音能量值开始增大地方的语音帧,将此语音帧看作语音流开始帧S0。

可以理解的,能量是信号的载体,可以用能量来判别语音信号的存在,但是非噪声环境几乎不存在,所以判断语音帧开始的标准不是能量阈值为0,而是设置了一个语音能量阈值Elow,此语音能量阈值是通过统计实验所得,也可以为经验值,当上述连续预设数量MO语音帧的能量小于此阈值,并且存在连续预设数量MO的语音能量高于语音能量阈值Elow,将此语音能量值增大地方的语音帧看作语音流开始帧S0

在一些实施例中,倒频谱特征可以包括待检测帧的零维倒谱C0及待检测帧的峰值位置t0中的一种或多种,可以通过待检测帧的零维倒谱C0或者通过待检测帧的峰值位置t0,或者通过待检测帧的零维倒谱C0和通过待检测帧的峰值位置t0共同确定静音占比阈值。

在一些实施例中,上述步骤S1300可以包括:

步骤S1310,根据待检测帧的零维倒谱C0确定静音点占比阈值。

在一些实施例中,根据第一阈值调节参数和第二阈值调节参数的比值,计算得到静音点占比阈值,其中,静音点占比阈值用于判断待检测帧是否是尾点帧。可以理解的,上述零维倒谱C0越小,第一阈值调节参数越小,这就会影响到待检测帧的静音点占比阈值。

更为具体的,参照图3,上述步骤S1310可以包括:

步骤S1311,根据零维倒谱C0和第一计算公式确定静音点占比阈值;

步骤S1312,上述第一计算公式可以包括:

R=R2/R1

R1=a*C0;

其中,R为静音点占比阈值,R1为第一阈值调节参数,R2为第二阈值调节参数,a为第一阈值调节常数。

在一些实施例中,第一阈值调节常数a和第二阈值调节参数R2可以为多次统计试验所得,也可以为经验值,a的取值范围为0到1之间。

当静音点占比大于上述第一计算公式确定的第一静音点占比阈值时,则判断待检测帧为尾点帧。

可以理解的,假设静音帧总数为n,预设长度时间窗为T,则此时预设长度时间窗内静音点占比r的计算公式如下:

r=n/T;

当r>R时,则判断当前待检测帧为尾点帧;若r<R时,则判断当前待检测帧不是尾点帧。

如果待检测帧是尾点帧,则将语音流开始帧到尾点帧之间的语音流数据进行截取,并将语音流数据解码识别,最终得到响应信息,如果不是尾点帧,则开始检测当前帧的下一帧继续进行尾点帧的检测。

可以理解的,上述步骤S1200中的静音帧的确定使用的为静音帧判断方法,主要可以包括:

步骤S1210,提取一帧音频数据的多门限过零率,并对其加权值求和,得到总过零率Z,并加权求和,多门限过零率检测设置高低不同的门限T1、T2、T3,且T1<T2<T3,每一帧用下列公式求相应于T1、T2、T3的三种门限过零率Z1、Z2、Z3

Zn=∑{|sgn[x(n)-Tn]-sgn[x(n-1)-Tn]|+|sgn[x(n)+Tn]-sgn[x(n-1)+Tn]|}*w(n-w);

总过零率Z由下列公式表示:

Z=W1*Z1+W2*Z2+W3*Z3

其中,W1、W2、W3为过零率权值,Z0为总过零率分界值。

步骤S1220,用多门限过零率加权和对静音进行预判,如果一帧音频数据的总过零率Z小于设定阈值Z0,就判断为静音;

步骤S1230,如果是非静音则提取一帧音频数据的复合特征;

其中复合特征可以包括过零率、短时能量值、基于变分辨率频谱的梅尔尺度倒频谱系数;

步骤S1240,使用二分类支持向量机对音频的复合特征加以判别,得到正常语音和静音两类结果。

可以理解的,只有静音帧识别准确率提高,才能够使预设长度时间窗内静音点占比r计算准确,从而为本实施例中的语音尾点的准确检测提供数值基础,最终使语音尾点检测更加准确。

本实施例能够通过倒频谱特征中的零维倒谱C0和相应的计算公式得出静音点占比阈值,并且和预设长度时间窗内静音点占比相比较,最终成功判断出待检测帧是否是尾点帧,对语音尾点帧的检测、识别更加准确,并且采集的是语音流中的实时帧,更具有实时性和自动调节的作用。

在一些实施例中,上述倒频谱特征可以包括待检测帧的峰值位置t0,根据第一阈值调节参数和第二阈值调节参数的比值,计算得到静音点占比阈值;其中,第二阈值调节参数与峰值位置t0正相关,峰值位置t0越大,其第二阈值调节参数也就越大;反之,峰值位置t0越小,第二阈值调节参数越小。

上述步骤S1300可以包括:

步骤S1320,根据上述待检测帧的峰值位置t0确定静音点占比阈值。

更为具体的,参照图4,步骤S1320可以包括如下步骤:

步骤S1321,根据待检测帧的峰值位置t0和第二计算公式确定静音点占比阈值;

步骤S1322,第二计算公式可以包括:

R=R2/R1

R2=b*t0;

其中,R为静音点占比阈值,R1为第一阈值调节参数,R2为第二阈值调节参数,b为第二阈值调节常数,t0为峰值位置,第二阈值调节常数b和R1均可以选用统计试验所得值或者经验值,b的取值范围为0到1之间。

具体的,上述倒频谱的峰值位置t0即为待检测帧的基因周期的峰值位置,用来调节与峰值位置t0对应的第二阈值调节参数,峰值位置越靠后t0越大,因此峰值位置也是影响语音尾点检测的重要因素。

假设静音帧总数为n,预设长度时间窗为T,则此时预设长度时间窗内静音点占比r的计算公式如下:

r=n/T;

当r>R时,则判断当前待检测帧为尾点帧,当r<R时,则判断当前待检测帧不是尾点帧。

如果待检测帧是尾点帧,则将语音流开始帧到尾点帧之间的语音数据进行截取,并将语音数据解码识别,最终得到响应信息,如果不是尾点帧,则开始检测当前帧的下一帧继续进行尾点帧的检测。

本实施例能够通过倒频谱特征中的峰值位置t0和相应的计算公式得出静音点占比阈值,并且和预设长度时间窗内静音点占比相比较,最终成功判断出待检测帧是否是尾点帧,同样可以起到对语音尾点帧的检测更加准确的作用,并且采集的是语音流中的实时帧,更具有实时性和自动调节的作用。

在一些实施例中,待检测帧的倒频谱特征可以包括待检测帧的零维倒谱C0和待检测帧的峰值位置t0;根据第一阈值调节参数和第二阈值调节参数的比值,计算得到静音点占比阈值;其中,第一阈值调节参数与零维倒谱C0正相关;以及,第二阈值调节参数与峰值位置t0正相关。

上述步骤S1300可以包括:

步骤S1330,根据待检测帧的零维倒谱C0和待检测帧的峰值位置t0确定静音点占比阈值。

更为具体的,参照图5,步骤S1330可以包括如下子步骤:

步骤S1331,根据零维倒谱C0、峰值位置t0和第三计算公式确定静音点占比阈值;

步骤S1332,第三计算公式可以包括:

R=R2/R1

R1=a*C0;

R2=b*t0;

其中,R为静音点占比阈值,R1为第一阈值调节参数,R2为第二阈值调节参数,a和b为阈值调节常数。

其中,a和b取值范围均为0到1之间。

可以理解的,待检测帧倒频谱特征中C0会影响到上述第三计算公式中的分母,而倒频谱特征中的峰值位置t0会影响到第三计算公式中的分子,第三计算公式中的分子和分母全部为变量,同时调节两个变量,即用待检测帧倒频谱特征中C0来调节第一阈值调节参数,用倒频谱特征中的峰值位置t0来调节第二阈值调节参数,使最终结果更具有实时性和可靠性,可以大大提高语音尾点检测的鲁棒性。

可以理解的,用户语速越慢,相对应的零维倒谱C0越小,倒频谱基音周期的峰值位置t0越大,从而使作为分母的R1越小,作为分子的R2越大,能够使最终的检测结果,即静音点占比阈值越大,静音点占比需要更大的数值才能够达到静音点占比阈值,从而最终使语音尾点检测更加准确。

假设静音帧总数为n,预设长度时间窗为T,则此时预设长度时间窗内静音点占比r的计算公式如下:

r=n/T;

当r>R时,则判断当前待检测帧为尾点帧,当r<R时,则判断当前待检测帧不是尾点帧。

如果待检测帧是尾点帧,则将语音流开始帧到尾点帧之间的语音流数据进行截取,并将语音流数据解码识别,最终得到响应信息,如果不是尾点帧,则开始检测当前帧的下一帧继续进行尾点帧的检测。本实施例能够通过调节比值的分母和分子两个参数,减少单个参数的灵敏度,增加系统的鲁棒性。

在一些实施例中,预设长度时间窗为40-80个帧长度的时间窗,其中,帧长度为20-30ms。

在一些实施例中,帧长度选为25ms,以截取40个帧长度的时间窗作为预设长度时间窗为例,理想情况下,如每个语音帧没有重叠部分,每个语音帧长度为25ms,则预设长度时间窗的时间长度为两者的乘积,即40*25ms=1s。

再以帧长度选为25ms,截取80个帧长度的时间窗作为预设长度时间窗为例,理想情况下,如每个语音帧没有重叠部分,每个语音帧长度为25ms,则预设长度时间窗的时间长度为两者的乘积,即80*25ms=2s。

再以帧长度选为20ms,截取40个帧长度的时间窗作为预设长度时间窗为例,理想情况下,如每个语音帧没有重叠部分,每个语音帧长度为20ms,则预设长度时间窗的时间长度为两者的乘积,即40*20ms=0.8s。

再以帧长度选为20ms,截取80个帧长度的时间窗作为预设长度时间窗为例,理想情况下,如每个语音帧没有重叠部分,每个语音帧长度为20ms,则预设长度时间窗的时间长度为两者的乘积,即80*20ms=1.6s。

再以帧长度选为30ms,截取40个帧长度的时间窗作为预设长度时间窗为例,理想情况下,如每个语音帧没有重叠部分,每个语音帧长度为30ms,则预设长度时间窗的时间长度为两者的乘积,即40*30ms=1.2s。

再以帧长度选为30ms,截取80个帧长度的时间窗作为预设长度时间窗为例,理想情况下,如每个语音帧没有重叠部分,每个语音帧长度为30ms,则预设长度时间窗的时间长度为两者的乘积,即80*30ms=2.4s。

可以理解的,在上述包含了0.8s~2.4s的预设时间窗时间长度的情况,能够涵盖更多的应用场景,便于扩大本实施例的适用范围。

可以理解的,可以根据经验值或实验值设置预设长度时间窗,如果预设长度时间窗过短,可能会使语速慢的用户的语音流在进行尾点检测时,由于预设长度时间窗内的静音点占比较高,从而将非尾点帧误判断为尾点帧(如将语音流中的中间停顿误检测为尾点帧),进而使语音尾点帧检测的准确率降低;如果预设长度时间窗过长,可能会使语速快的用户真实的尾点帧被漏检,在真实尾点帧和预设长度窗处的待检测帧之间有较长帧长度,从而导致在语音识别时出现较长间隔的延时,不但占用过多系统资源,也会使语音尾点检测的准确率和实时性降低,影响用户体验。

本申请实施例综合考虑了上述因素,并根据用户讲话所产生语音流的一般情况,设置预设长度时间窗为40-80帧,有效提高语音尾点检测的准确率和实时性。

在一些实施例中,步骤S1400可以包括:

步骤S1410:当静音点占比大于静音点占比阈值,确定待检测帧为尾点帧;

步骤S1420:否则,继续获取待检测帧的下一个语音帧作为待检测帧进行检测,直至静音点占比大于静音点占比阈值,确定待检测帧为尾点帧。

可以理解的,本申请实施例的目的为语音尾点的最终确定,步骤S1410中确定待检测帧为尾点帧的方法已经在上述实施例中阐述,此处不再赘述。同时,本实施例中开始帧同样按照上述实施例中开始帧S0的确定方法确定,此处不再赘述。步骤S1420中,在开始帧S0的预设长度时间窗T之后的语音帧S1作为待检测帧,其中T表示T个语音帧,如果按照上述实施例中的方法,得到静音点占比小于静音点占比阈值,判断待检测帧为非尾点帧,则继续用同样的尾点帧检测方法进行下一个待检测帧S2的检测;如果判断S2也是非尾点帧,则继续执行步骤S1100-S1400检测S2的下一帧是否是尾点帧,以此类推,待检测帧S1之后的下个尾点检测点依次为S2、S3、S4……对应的,S2、S3、S4……分别为开始帧S0之后的第T+1、T+2、T+3……个帧,直到静音点占比大于静音点占比阈值,检测到被检测语音帧SN(N=2、3…n)为尾点帧,则结束检测。

本发明实施例利用预设长度时间窗内静音点占比以及待检测帧的倒频谱特征中的峰值t0和零维倒谱C0来动态调节静音点占比阈值,并根据静音点占比和静音点占比阈值确定待检测帧是否是尾点帧,可以克服相关语音信号处理方法易受噪音影响和平均语速不易获取的缺点,可以大大提高语音识别中对语音尾点检测的鲁棒性,从而保证语音尾点检测的准确性和实时性,提高用户体验。

在一些实施例中,参照图6,语音处理方法还可以包括:

步骤S1900,获取尾点帧之前的语音流数据;

步骤S2000,识别语音流数据并输出响应信息。

语音识别的目的就是让机器能够听懂人说的话,理解人的意图并做出相应的反应。

其中,步骤S1900,获取尾点帧之前的语音流数据。

在一些实施例中,在步骤S1900确定语音尾点帧之后,需要对开始帧和尾点帧之间的语音流进行获取,目的是为了得到语音流开始到语音流结束之间的语音流片段,例如,假设语音流开始帧为S0,确定的语音流尾点帧为S1,则截取语音流开始帧S0到语音流尾点帧S1之间的语音流,若S1判断为非尾点帧,而S1的下一帧S2为尾点帧,则截取语音流开始帧S0到语音流尾点帧S2之间的语音流,以此类推,获取到语音流开始帧和语音流尾点帧之间的语音流数据。

步骤S2000,识别语音流数据并输出响应信息。

在一些实施例中,响应信息可以是文本信息,也可以是音频或者视频或者其他类型响应信息。例如,本实施例中的语音尾点检测和语音识别方法应用于语音唤醒中,则会在通过语音信号处理方法成功判断尾点帧之后截取语音流开始帧到尾点帧之间的语音流,再通过语音识别方法执行该语音识别出来的语音流对应的语音指令,例如,用户需要语音唤醒终端设备界面,则可以在终端设备语音输入“请点亮屏幕”,则终端界面屏幕会自动点亮。又例如,本实施例中的语音尾点检测和语音识别方法应用于语音翻译中,响应信息的反馈为音频形式,则会通过语音信号处理方法成功判断尾点帧之后截取语音流开始帧到尾点帧之间的语音流,再通过语音识别方法执行该语音识别出来的语音流,在语音翻译界面播放此段语音流相对应的音频信息。又例如,本实施例中的语音尾点检测和语音识别方法应用于车载设备的驾驶助手上,其中,驾驶助手是一款应用程序,安装在上述车载设备上,可以实时定位所在位置,并且可以开启出行路线导航,实时了解附近的路况情况,还可以进行智能操控车载音乐和通话等服务,帮助用户通过语音控制使用,用户需要使用驾驶助手时,利用车载设备上的麦克风录入语音信息,例如,“请开往某地”,则驾驶助手获取到语音信号后经过语音尾点检测和语音识别后给出响应信息,为了便于驾驶人注意到驾驶助手是否接收到了正确的语音信号,往往驾驶助手会通过音频或视频形式给出响应,例如,音频播放“开往某地,路线已经规划,请确认”或者以视频形式把识别到语音翻译后把目的地路线显示在车载设备显示屏幕上,但是不限于以上应用场景,还可以适用于语音助手、智能音箱等应用语音信号输入的场景中。

可以理解的,语音的识别是利用声学和语言模型,将截取的有效帧序列对应的倒频谱特征序列解码为语音流的响应信息。

语音识别过程主要分三部分:

第一部分,特征参数提取,将语音信号预处理,提取出语音特征参数来代表此语音信号;

第二部分,模型训练,利用上述特征参数训练出声学模型和语言模型;

第三部分,模式匹配,将需要识别的语音信号的特征参数与已训练好的模型进行匹配,产生识别效果。

其中,声学模型是识别系统的底层模型,是语音识别系统中最关键的部分。声学模型的目标是计算语音特征矢量序列和每个发音模板之间的距离。声学模型的设计就是找到最小的识别单元,它与语言的发音特点密切相关。识别单元的大小对语音数据量的大小、识别率和灵活性有较大影响。其中,识别单元可以是词、字、半音节或音素。

其中,语言模型是指语言中的一些规则或语法结构,也可以是表现字或词上下文之间的统计模型。由于语音信号的复杂性,不同发音之间存在叠接现象,有些单音如果前后没有联系即使人来分辨也很困难,借助于语言模型则可以提高声学模型的区分度。本实施例利用了比较成熟的模型即统计语言模型,它通过对大量文本文件的统计提取不同字、词之间的统计关系。

可以理解的,上述获取尾点帧之前的语音流数据即是获取语音流开始帧到尾点帧之间的语音流,例如语音流的开始帧标记为S0,预设长度时间窗为T,也就是S0延后T个帧长度处的语音帧S1作为待检测帧,如果利用第一方面中的方法检测到该语音帧是尾点帧,则本实施例中截取的语音流为S0到S1之间的语音流,如果利用第一方面中的方法检测到该帧不是尾点帧,则检测下个尾点帧S2是否是尾点帧,如果S2是尾点帧,则本实施例中截取的语音流为S0到S2之间的语音流,如果利用第一方面中的方法检测到该帧不是尾点帧,则检测下个尾点帧S3是否是尾点帧,依次类推,如果待检测帧不是尾点帧,则延后一帧继续检测下一待检测帧,直到待检测帧为尾点帧,此时才会截取开始帧和尾点帧之间的语音流并进行语音识别处理。

本实施例能够实现在判断出尾点帧之后再进行开始帧和尾点帧之间的语音流的截取,并且可以对上述语音流进行实时识别,并输出相应的响应信息,本实施例能够结合上述语音信号处理方法,使语音信号处理方法具有更广泛的应用价值,满足各个行业对语音识别的需求。

第二方面,本申请实施例提供了一种电子设备。

在一些实施例中,参照图7,上述电子设备可以包括一个或多个处理器110;存储装置120,用于存储一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行,使得上述一个或多个处理器实现:如第一方面的语音信号处理方法。

在一些实施例中,电子设备可以是移动终端设备,也可以为非移动终端设备。移动终端设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载终端设备、可穿戴设备、超级移动个人计算机、上网本、个人数字助理等;非移动终端设备可以为个人计算机、电视机、柜员机或者自助机等;本发明实施方案不作具体限定。

例如,本实施例电子设备为移动终端设备,用户在移动终端上使用麦克风等装置获取说话人的语音信号并使用上述第一方面的语音处理方法进行尾点检测并进行语音识别,上述移动终端设备会给出响应信息,其中响应信息可以是文本形式的,也可以是音频或者视频响应信息;例如,上述第一方面的语音信号处理方法进行语音识别应用于车载设备的驾驶助手上,其中,驾驶助手是一款应用程序,安装在上述车载设备上,可以实时定位所在位置,并且可以开启出行路线导航,实时了解附近的路况情况,还可以进行智能操控车载音乐和通话等服务,帮助用户通过语音控制使用,用户需要使用驾驶助手时,利用车载设备上的麦克风录入语音信息,例如,“请开往某地”,则驾驶助手获取到语音信号后经过语音尾点检测和语音识别后给出响应信息,为了便于驾驶人注意到驾驶助手是否接收到了正确的语音信号,往往驾驶助手会通过音频或视频形式给出响应,例如,音频播放“开往某地,路线已经规划,请确认”或者以视频形式把识别到语音翻译后把目的地路线显示在车载设备显示屏幕上,但是不限于以上应用场景,还可以适用于语音助手、智能音箱等应用语音信号输入的场景中。需要说明的是,以上应用场景对网络并无要求,在离线网络、有线网络、无线网络情况下均可实现。

在一些实施例中,上述电子设备执行如上述第一方面实施例中的步骤S1100至S2000的语音信号处理方法。

本发明实施例利用预设长度时间窗内静音点占比以及待检测帧的倒频谱特征中的峰值t0和零维倒谱C0来动态调节静音点占比阈值,并根据静音点占比和静音点占比阈值确定待检测帧是否是尾点帧,可以克服相关语音信号处理方法易受噪音影响和平均语速不易获取的缺点,可以大大提高语音识别中对语音尾点检测的鲁棒性,从而保证语音尾点检测的准确性和实时性,提高用户体验。

第三方面,本申请实施例提供了一种计算机可读存储介质。

在一些实施例中,上述计算机可读存储介质存储有计算机可执行指令,上述计算机可执行指令用于执行:如第一方面中的语音信号处理方法。

在一些实施例中,计算机可读存储介质存储有计算机可执行指令,上述计算机可执行指令用于执行如上述第一方面实施例中的步骤S1100至S2000中的语音信号处理方法。

本发明实施例利用预设长度时间窗内静音点占比以及待检测帧的倒频谱特征中的峰值t0和零维倒谱C0来动态调节静音点占比阈值,并根据静音点占比和静音点占比阈值确定待检测帧是否是尾点帧,可以克服相关语音信号处理方法易受噪音影响和平均语速不易获取的缺点,可以大大提高语音识别中对语音尾点检测的鲁棒性,从而保证语音尾点检测的准确性和实时性,提高用户体验。

第四方面,本申请实施例提供一种语音处理装置。

在一些实施例中,参照图8,语音处理装置可以包括:

音频提取模块210,用于获取语音信号中待检测帧的音频特征;

音频处理模块220,连接音频提取模块210,用于获取待检测帧之前预设长度时间窗内的静音点占比,以及根据待检测帧的音频特征确定静音点占比阈值,并且根据上述静音点占比和静音点占比阈值,确定待检测帧是尾点帧。

在一些实施例中,音频处理模块220对上述音频提取模块210获取到的音频特征进行倒频谱特征的提取,其中提取到的倒频谱特征中每个语音帧的基因周期峰值位置t0和零维倒谱C0特征是进行尾点检测的重要检测参数。在进行尾点检测时,对每个待检测帧进行一个向前预设长度时间窗的检测,即获得待检测帧前面预设长度时间窗内的静音点占比,再根据当前待检测帧的倒频谱特征中的基因周期的峰值位置t0和零维倒谱C0来动态调整静音点占比阈值,最后通过静音点占比和静音点占比阈值判断待检测帧是否是尾点帧。

在一些实施例中,语音处理装置还可以包括:

语音信号捕获模块,连接上述音频提取模块,用于接收模拟语音信号并将模拟语音信号转换成数字语音信号,并将数字语音信号传输到音频提取模块。

具体的,语音信号捕获模块是电子设备通过麦克风等装置将模拟语音信号转换成数字语音信号,采样率一般为16KHZ,深度为8bit,常用25ms长、前后重叠10ms的音频片断作为一个语音帧即特征提取的最小单位,每个语音帧可以包括若干采样点。

在一些实施例中,参照图9,上述语音处理装置还可以包括:

获取模块230,连接上述音频处理模块220,用于获取上述尾点帧之前的语音流数据。

在一些实施例中,当音频处理模块220检测到待检测帧的静音点占比超过静音点占比阈值时,就确定该待检测帧为语音流的尾点帧,此时,获取模块230就会截取语音流开始帧和尾点帧之间的语音流数据。

识别模块240,连接上述获取模块230,用于识别获取模块230传输过来的语音流数据并输出响应信息。

在一些实施例中,识别模块240可以包括声学模型和语言模型,可以将上述获取的语音流数据解码为对应的响应信息。

以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质可以包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质可以包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可可以包括任何信息递送介质。

以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

20页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:气流杂音消除方法、装置、计算机设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!