降低智能语音设备误唤醒的方法、装置和计算机设备

文档序号:1355698 发布日期:2020-07-24 浏览:7次 >En<

阅读说明:本技术 降低智能语音设备误唤醒的方法、装置和计算机设备 (Method and device for reducing false awakening of intelligent voice equipment and computer equipment ) 是由 陈俊彬 王广新 杨汉丹 于 2020-03-23 设计创作,主要内容包括:本申请揭示了一种降低智能语音设备误唤醒的方法、装置和计算机设备,获取智能语音设备的回声通道数据与麦克风通道数据;对回声通道数据与麦克风通道数据进行处理,得到回声通道频域信号与麦克风通道频域信号;通过回声消除算法对麦克风通道频域信号进行回声消除,得到回声消除后的麦克风通道频域信号;计算回声消除后的麦克风通道频域信号与回声通道频域信号的第一互相干系数;按照预设规则获取与回声消除后的麦克风通道频域信号对应的指定数据值;判断第一互相干系数是否大于预设的第一阈值,以及判断指定数据值是否小于预设的第二阈值;若均是,则将唤醒词的唤醒阈值调整为预设的指定唤醒阈值。本申请能有效降低智能语音设备被误唤醒的可能性。(The application discloses a method, a device and computer equipment for reducing false awakening of intelligent voice equipment, wherein echo channel data and microphone channel data of the intelligent voice equipment are obtained; processing the echo channel data and the microphone channel data to obtain echo channel frequency domain signals and microphone channel frequency domain signals; carrying out echo cancellation on the microphone channel frequency domain signal through an echo cancellation algorithm to obtain a microphone channel frequency domain signal after echo cancellation; calculating a first mutual coherence coefficient of the echo-cancelled microphone channel frequency domain signal and the echo channel frequency domain signal; acquiring a designated data value corresponding to the echo-removed microphone channel frequency domain signal according to a preset rule; judging whether the first mutual interference coefficient is larger than a preset first threshold value or not, and judging whether the designated data value is smaller than a preset second threshold value or not; if yes, adjusting the awakening threshold of the awakening word to a preset specified awakening threshold. The method and the device can effectively reduce the possibility that the intelligent voice equipment is awakened by mistake.)

降低智能语音设备误唤醒的方法、装置和计算机设备

技术领域

本申请涉及语音处理技术领域,具体涉及一种降低智能语音设备误唤醒的方法、装置和计算机设备。

背景技术

语音识别技术在近些年取得了显著的进步,该技术已进入工业、家电、智能家居等各个领域。包含唤醒词的语音唤醒技术是语音识别技术中的一种形式,其不直接接触硬件设备,通过包含唤醒词的语音即可实现设备的唤醒或者运行。现有的带有扬声器的智能语音设备,例如智能音箱、车载的手机架或者语音机器人等的播放打断功能也采用了包含唤醒词的语音唤醒技术进行实现,且现有应用于智能语音设备的语音唤醒技术中的唤醒词都是采用固定阈值的方式,即在智能语音设备的正唤醒率与误唤醒率之间取一个平衡数值作为固定的唤醒词阈值。在智能语音设备的工作过程中,例如在播放音乐或语音播报时,由于智能语音设备的扬声器发出的声音会传播到智能语音设备的麦克风并被麦克风采集,使得扬声器发出的声音会对智能语音设备的语音识别造成干扰。针对这种情况,智能语音设备通常会对扬声器发出的声音进行回声消除处理,但如果回声消除不完善或者扬声器到麦克风的非线性失真太大则会导致出现回声残余过大的情况,而当智能语音设备长时间处于具有过大的回声残余的环境中时,由于应用于智能语音设备内的唤醒词阈值始终是固定不变的,这样就会大大增加智能语音设备被回声残余误唤醒的可能性。如果智能语音设备的麦克风没有收到用户发出的包含唤醒词的语音,但智能语音设备当前的播放状态却因为残余的回声被打断了,这样便会大大降低用户的使用体验。

发明内容

本申请的主要目的为提供一种降低智能语音设备误唤醒的方法、装置、计算机设备和存储介质,旨在解决现有应用于智能语音设备的语音唤醒技术中的唤醒词都是采用固定阈值的方式,当智能语音设备长时间处于具有过大的回声残余的环境中时,由于应用于智能语音设备内的唤醒词阈值始终是固定不变的,这样就会大大增加智能语音设备被回声残余误唤醒的可能性的技术问题。

本申请提出一种降低智能语音设备误唤醒的方法,所述方法包括步骤:

获取智能语音设备的回声通道数据x(l),以及麦克风通道数据d(l);

通过短时傅里叶变换对所述回声通道数据x(l)进行处理,得到处理后的回声通道频域信号X(l,k);以及,

通过短时傅里叶变换对所述麦克风通道数据d(l)进行处理,得到处理后的麦克风通道频域信号D(l,k);

通过预设的回声消除算法对所述麦克风通道频域信号D(l,k)进行回声消除,得到回声消除后的麦克风通道频域信号E(l,k);

计算所述回声消除后的麦克风通道频域信号E(l,k)与所述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l);以及,

按照预设规则获取与所述回声消除后的麦克风通道频域信号E(l,k)对应的指定数据值;

判断所述第一互相干系数CMx(l)是否大于预设的第一阈值,以及判断所述指定数据值是否小于预设的第二阈值;

若判断出所述第一互相干系数CMx(l)大于预设的第一阈值且所述指定数据值小于预设的第二阈值,则将唤醒词的唤醒阈值调整为预设的指定唤醒阈值,其中,所述指定唤醒阈值的数值大于所述唤醒阈值。

可选地,所述通过预设的回声消除算法对所述麦克风通道频域信号D(l,k)进行回声消除,得到回声消除后的麦克风通道频域信号E(l,k)的步骤,包括:

采用与NLMS算法对应的第一计算公式对所述麦克风通道频域信号D(l,k)进行回声消除,得到所述回声消除后的麦克风通道频域信号E(l,k),其中,所述第一计算公式为:E(l,k)=D(l,k)-X(l,k)W(l,k);

其中,l是帧索引,k是频率索引,且k=1,2,...,K,K是FFT变换的点数,E(l,k)是回声消除后的麦克风通道频域信号,D(l,k)是麦克风通道频域信号,Xh(l,k)是X(l,k)的历史缓存值,X(l,k)是回声通道频域信号,且Xh(l,k)=[X(l,k),X(l-1,k),...,X(l-ORD+1,k)],ORD是缓存的帧数,W(l,k)是滤波器系数,且其中,μ是步长调节因子,·*表示求共轭。

可选地,所述计算所述回声消除后的麦克风通道频域信号E(l,k)与所述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l)的步骤,包括:

通过预设的第二计算公式计算所述回声消除后的麦克风通道频域信号E(l,k)与所述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l),其中,所述第二计算公式为:

其中,Pex是E(l,k)与X(l,k)的互功率谱,Pe是E(l,k)的自功率谱,Px是X(l,k)的自功率谱,当l=1的时候,Pex=E(l,k)X*(l,k),Px=X(l,k)X*(l,k),Pe=E(l,k)E*(l,k);当l>1的时候,Pex=αxPex+(1-αx)X(l,k)E*(l,k),Px=αxPx+(1-αx)X(l,k)X*(l,k),Pe=αxPe+(1-αx)E(l,k)E*(l,k),其中αx是平滑因子。

可选地,所述按照预设规则获取与所述回声消除后的麦克风通道频域信号E(k,k)对应的指定数据值的步骤,包括:

计算所述回声消除后的麦克风通道频域信号E(l,k)与所述麦克风通道频域信号D(l,k)之间的第二互相干系数CMd(l);

将所述第二互相干系数CMd(l)确定为所述指定数据值。

可选地,所述计算所述回声消除后的麦克风通道频域信号E(l,k)与所述麦克风通道频域信号D(l,k)之间的第二互相干系数CMd(l)的步骤,包括:

通过预设的第三计算公式计算所述回声消除后的麦克风通道频域信号E(l,k)与所述麦克风通道频域信号D(l,k)的第二互相干系数CMd(l),其中,所述第三计算公式为:

其中,Ped为E(l,k)与D(l,k)的互功率谱,Pe为E(l,k)的自功率谱,Pd为D(l,k)的自功率谱,当l=1的时候,Ped=E(l,k)D*(l,k),Pd=D(l,k)D*(l,k),Pe=E(l,k)E*(l,k);当l>1的时候,Ped=αdPed+(1-αd)D(l,k)E*(l,k),Pd=αdPd+(1-αd)D(l,k)D*(l,k),Pe=αdPe+(1-αd)E(l,k)E*(l,k),其中αd是平滑因子。

可选地,所述按照预设规则获取与所述回声消除后的麦克风通道频域信号E(l,k)对应的指定数据值的步骤,包括:

将所述回声消除后的麦克风通道频域信号E(l,k)输入至预设的唤醒引擎内;

通过所述唤醒引擎计算所述回声消除后的麦克风通道频域信号中含有所述唤醒词的概率,得到对应的概率数值;

将所述概率数值确定为所述指定数据值。

可选地,所述将唤醒词的唤醒阈值调整为预设的指定唤醒阈值的步骤,包括:

计算所述第一互相干系数CMx(l)与所述第一阈值之间的第一差值;以及,

计算所述指定数据值与所述第二阈值之间的第二差值;

从预设的区间范围值-唤醒阈值映射表筛选出与所述第一差值对应的第一指定范围值,以及与所述第二差值对应的第二指定范围值;

从所述区间范围值-唤醒阈值映射表提取出与所述第一指定范围值、所述第二指定范围值对应的指定唤醒阈值;

将唤醒词的唤醒阈值调整为所述指定唤醒阈值。

本申请还提供一种降低智能语音设备误唤醒的装置,包括:

第一获取模块,用于获取智能语音设备的回声通道数据x(l),以及麦克风通道数据d(l);

第一处理模块,用于通过短时傅里叶变换对所述回声通道数据x(l)进行处理,得到处理后的回声通道频域信号X(l,k);以及,

第二处理模块,用于通过短时傅里叶变换对所述麦克风通道数据d(l)进行处理,得到处理后的麦克风通道频域信号D(l,k);

消除模块,用于通过预设的回声消除算法对所述麦克风通道频域信号D(l,k)进行回声消除,得到回声消除后的麦克风通道频域信号E(l,k);

计算模块,用于计算所述回声消除后的麦克风通道频域信号E(l,k)与所述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l);

第二获取模块,用于按照预设规则获取与所述回声消除后的麦克风通道频域信号E(l,k)对应的指定数据值;

判断模块,用于判断所述第一互相干系数CMx(l)是否大于预设的第一阈值,以及判断所述指定数据值是否小于预设的第二阈值;

调整模块,用于若判断出所述第一互相干系数CMx(l)大于预设的第一阈值且所述指定数据值小于预设的第二阈值,则将唤醒词的唤醒阈值调整为预设的指定唤醒阈值,其中,所述指定唤醒阈值的数值大于所述唤醒阈值。

本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。

本申请中提供的降低智能语音设备误唤醒的方法、装置、计算机设备和存储介质,具有以下有益效果:

本申请中提供的降低智能语音设备误唤醒的方法、装置、计算机设备和存储介质,首先通过短时傅里叶变换对获取的智能语音设备的回声通道数据与麦克风通道数据进行处理,得到处理后的回声通道频域信号与麦克风通道频域信号。然后通过预设的回声消除算法对所述麦克风通道频域信号进行回声消除得到回声消除后的麦克风通道频域信号。之后计算所述回声消除后的麦克风通道频域信号与所述回声通道频域信号之间的第一互相干系数,并获取与回声消除后的麦克风通道频域信号对应的指定数据值。最后在判断出第一互相干系数大于预设的第一阈值,且指定数据值小于预设的第二阈值时,则判定智能语音设备当前处于回声残余较大而麦克风输入较小的环境中,此时便会对唤醒词的唤醒阈值进行智能调整,即自动将唤醒词的唤醒阈值调整为数值更大的指定唤醒阈值,保证了在不降低智能语音设备总体的正唤醒率的前提下,有效地降低了被智能语音设备回声残余误唤醒的可能性。

附图说明

图1是本申请一实施例的降低智能语音设备误唤醒的方法的流程示意图;

图2是本申请一实施例的降低智能语音设备误唤醒的装置的结构示意图;

图3是本申请一实施例的计算机设备的结构示意图。

本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用于解释本申请,并不用于限定本申请。

需要说明,本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变,所述的连接可以是直接连接,也可以是间接连接。

参照图1,本申请一实施例的降低智能语音设备误唤醒的方法,包括:

S1:获取智能语音设备的回声通道数据x(l),以及麦克风通道数据d(l);

S2:通过短时傅里叶变换对所述回声通道数据x(l)进行处理,得到处理后的回声通道频域信号X(l,k);以及,

S3:通过短时傅里叶变换对所述麦克风通道数据d(l)进行处理,得到处理后的麦克风通道频域信号D(l,k);

S4:通过预设的回声消除算法对所述麦克风通道频域信号D(l,k)进行回声消除,得到回声消除后的麦克风通道频域信号E(l,k);

S5:计算所述回声消除后的麦克风通道频域信号E(l,k)与所述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l);以及,

S6:按照预设规则获取与所述回声消除后的麦克风通道频域信号E(l,k)对应的指定数据值;

S7:判断所述第一互相干系数CMx(l)是否大于预设的第一阈值,以及判断所述指定数据值是否小于预设的第二阈值;

S8:若判断出所述第一互相干系数CMx(l)大于预设的第一阈值且所述指定数据值小于预设的第二阈值,则将唤醒词的唤醒阈值调整为预设的指定唤醒阈值,其中,所述指定唤醒阈值的数值大于所述唤醒阈值。

如上述步骤S1至S8所述,本方法实施例的执行主体为一种降低智能语音设备误唤醒的装置。在实际应用中,该降低智能语音设备误唤醒的装置可以通过虚拟装置,例如软件代码实现,也可以通过写入或集成有相关执行代码的实体装置实现,且可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互,举例地,上述降低智能语音设备误唤醒的装置具体可以为带有扬声器的智能语音设备,例如智能音箱、车载的手机架或者语音机器人等。通过本实施例提供的降低智能语音设备误唤醒的装置可以有效实现对唤醒词的唤醒阈值的智能调整。具体地,首先获取智能语音设备的回声通道数据x(l),以及麦克风通道数据d(l)。然后通过短时傅里叶变换对上述回声通道数据x(l)进行处理,得到处理后的回声通道频域信号X(l,k);以及通过短时傅里叶变换对上述麦克风通道数据d(l)进行处理,得到处理后的麦克风通道频域信号D(l,k)。其中,短时傅里叶变换(STFT,short-timeFourier transform,或short-term Fourier transform)是和傅里叶变换相关的一种数学变换,用以确定时变信号其局部区域正弦波的频率与相位,通过短时傅里叶变换能够将上述回声通道数据转换为对应的回声通道频域信号,以及将上述麦克风通道数据转换为对应的麦克风通道频域信号。在得到了上述麦克风通道频域信号后,再通过预设的回声消除算法对上述麦克风通道频域信号D(l,k)进行回声消除,得到回声消除后的麦克风通道频域信号E(l,k)。其中,对于上述回声消除算法不作具体限定,例如该回声消除算法可选用NLMS(Normalized Least Mean Square,归一化最小均方算法)算法、RLS(Recursive LeastSquare,递推最小二乘法算法)算法、LMS(Least Mean Square,最小均方算法)算法,等等,本实施例优选使用NLMS算法。在得到了上述回声消除后的麦克风通道频域信号E(l,k)后,再计算上述回声消除后的麦克风通道频域信号E(l,k)与上述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l)。以及,按照预设规则获取与上述回声消除后的麦克风通道频域信号CMx(l)对应的指定数据值。其中,上述指定数据值可为上述回声消除后的麦克风通道频域信号E(l,k)与上述麦克风通道频域信号D(l,k)之间的第二互相干系数CMd(l),或者还可以为上述回声消除后的麦克风通道频域信号中含有上述唤醒词的概率所对应的概率数值;对应的,当指定数据值为上述第二互相干系数CMd(l)时,上述预设规则可指代通过预设的第三计算公式计算出上述回声消除后的麦克风通道频域信号E(l,k)与上述麦克风通道频域信号D(l,k)的第二互相干系数CMd(l);而当指定数据值为上述概率数值时,上述预设规则可指代通过预设的唤醒引擎对上述回声消除后的麦克风通道频域信号进行处理后生成上述回声消除后的麦克风通道频域信号中含有上述唤醒词的概率所对应的概率数值。在得到了上述指定数据值时,之后判断上述第一互相干系数是否大于预设的第一阈值,以及判断上述指定数据值是否小于预设的第二阈值。其中,对上述第一阈值与第二阈值的具体生成方式不作具体限定,例如可由上述降低智能语音设备误唤醒的装置根据以往的数据处理记录,例如大量的测试数据进行自行统计生成,也可由用户根据个人需求确定并输入至装置内得到,等等。如果判断出判断上述第一互相干系数大于预设的第一阈值,且上述指定数据值小于预设的第二阈值,则将唤醒词的唤醒阈值调整为预设的指定唤醒阈值。其中,上述唤醒词的唤醒阈值是指智能语音设备中最终用于进行语音唤醒识别处理的最终唤醒引擎内设置的初始的唤醒词的唤醒阈值,且也是将上述最终唤醒引擎内设置的初始的唤醒词的唤醒阈值调整为上述指定唤醒阈值,上述指定唤醒阈值的数值大于上述唤醒阈值,当上述第一互相干系数大于预设的第一阈值时,可判定当前出现了回声残余较大的情形,而当上述指定数据值小于预设的第二阈值时,可判定当前出现了麦克风输入较小的情形。另外,可以根据上述第一互相干系数与上述指定数据值,对预设的区间范围值-唤醒阈值映射表进行查表来筛选出对应的上述指定唤醒阈值。本申请实施例在根据智能语音设备的回声通道数据与麦克风通道数据获取到相应的第一互相干系数与指定数据值后,如果判断出第一互相干系数大于预设的第一阈值且指定数据值小于预设的第二阈值,则判定智能语音设备当前处于回声残余较大而麦克风输入较小的环境中,此时便会对唤醒词的唤醒阈值进行智能调整,即自动将唤醒词的唤醒阈值调整为数值更大的指定唤醒阈值,保证了在不降低智能语音设备总体的正唤醒率的前提下,有效地降低了被智能语音设备回声残余误唤醒的可能性。

进一步地,本申请一实施例中,上述步骤S4,包括:

S400:采用与NLMS算法对应的第一计算公式对所述麦克风通道频域信号D(l,k)进行回声消除,得到所述回声消除后的麦克风通道频域信号E(l,k),其中,所述第一计算公式为:E(l,k)=D(l,k)-X(l,k)W(l,k);

其中,l是帧索引,k是频率索引,且k=1,2,...,K,K是FFT变换的点数,E(l,k)是回声消除后的麦克风通道频域信号,D(l,k)是麦克风通道频域信号,Xh(l,k)是X(l,k)的历史缓存值,X(l,k)是回声通道频域信号,且Xh(l,k)=[X(l,k),X(l-1,k),...,X(l-ORD+1,k)],ORD是缓存的帧数,W(l,k)是滤波器系数,且其中,μ是步长调节因子,·*表示求共轭。

如上述步骤S400所述,上述通过预设的回声消除算法对上述麦克风通道频域信号进行回声消除,得到回声消除后的麦克风通道频域信号E(l,k)的步骤,具体可包括:通过采用与NLMS算法对应的第一计算公式对上述麦克风通道频域信号D(l,k)进行回声消除,得到上述回声消除后的麦克风通道频域信号E(l,k),其中,上述第一计算公式为:E(l,k)=D(l,k)-X(l,k)W(l,k);其中,l是帧索引,k是频率索引,且k=1,2,...,K,K是FFT变换的点数,E(l,k)是回声消除后的麦克风通道频域信号,D(l,k)是麦克风通道频域信号,Xh(l,k)是X(l,k)的历史缓存值,X(l,k)是回声通道频域信号,且Xh(l,k)=[X(l,k),X(l-1,k),...,X(l-ORD+1,k)],ORD是缓存的帧数,W(l,k)是滤波器系数,且其中,μ是步长调节因子,·*表示求共轭。其中,除了采用NLMS算法对上述麦克风通道频域信号进行回声消除之外,还可以选用其他的回声消除算法,例如RLS算法、LMS算法,等等。本实施例通过采用与NLMS算法对应的第一计算公式来对上述麦克风通道频域信号进行回声消除,从而能快捷方便地计算出回声消除后的上述回声消除后的麦克风通道频域信号E(l,k),有利于后续能够根据该回声消除后的麦克风通道频域信号来快速地计算出回声消除后的麦克风通道频域信号E(l,k)与上述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l),以及获取到与上述回声消除后的麦克风通道频域信号对应的指定数据值。

进一步地,本申请一实施例中,上述步骤S5,包括:

S500:通过预设的第二计算公式计算所述回声消除后的麦克风通道频域信号E(l,k)与所述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l),其中,所述第二计算公式为:

其中,Pex是E(l,k)与X(l,k)的互功率谱,Pe是E(l,k)的自功率谱,Px是X(l,k)的自功率谱,当l=1的时候,Pex=E(l,k)X*(l,k),Px=X(l,k)X*(l,k),Pe=E(l,k)E*(l,k);当l>1的时候,Pex=αxPex+(1-αx)X(l,k)E*(l,k),Px=αxPx+(1-αx)X(l,k)X*(l,k),Pe=αxPe+(1-αx)E(l,k)E*(l,k),其中αx是平滑因子。

如上述步骤S500所述,上述计算上述回声消除后的麦克风通道频域信号E(l,k)与上述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l)的步骤,具体可包括:通过预设的第二计算公式计算上述回声消除后的麦克风通道频域信号E(l,k)与上述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l),其中,上述第二计算公式为:其中,Pex是E(l,k)与X(l,k)的互功率谱,Pe是E(l,k)的自功率谱,Px是X(l,k)的自功率谱,当l=1的时候,Pex=E(l,k)X*(l,k),Px=X(l,k)X*(l,k),Pe=E(l,k)E*(l,k);当l>1的时候,Pex=αxPex+(1-αx)X(l,k)E*(l,k),Px=αxPx+(1-αx)X(l,k)X*(l,k),Pe=αxPe+(1-αx)E(l,k)E*(l,k),其中αx是平滑因子。本实施例通过采用预设的第二计算公式来快捷方便地计算出回声消除后的麦克风通道频域信号E(l,k)与上述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l),有利于后续根据将该第一互相干系数CMx(l)与预设的第一阈值进行比较得到对应的第一比较结果,进而根据该第一比较结果来决定是否需要对唤醒词的唤醒阈值进行对应调整。

进一步地,本申请一实施例中,上述步骤S6,包括:

S600:计算所述回声消除后的麦克风通道频域信号E(l,k)与所述麦克风通道频域信号D(l,k)之间的第二互相干系数CMd(l);

S601:将所述第二互相干系数CMd(l)确定为所述指定数据值。

如上述步骤S600至S601所述,上述指定数据值可为上述回声消除后的麦克风通道频域信号E(l,k)与上述麦克风通道频域信号D(l,k)之间的第二互相干系数CMd(l),或者还可以为上述回声消除后的麦克风通道频域信号中含有上述唤醒词的概率所对应的概率数值。当上述指定数据值可为上述回声消除后的麦克风通道频域信号E(l,k)与上述麦克风通道频域信号D(l,k)之间的第二互相干系数CMd(l)时,上述按照预设规则获取与上述回声消除后的麦克风通道频域信号E(l,k)对应的指定数据值的步骤,具体可包括:首先计算上述回声消除后的麦克风通道频域信号E(l,k)与上述麦克风通道频域信号D(l,k)之间的第二互相干系数CMd(l)。其中,上述第二互相干系数CMd(l)的计算过程与上述第一互相干系数CMx(l)的计算过程类型,可以采用预设的第三计算公式来计算出上述回声消除后的麦克风通道频域信号E(l,k)与上述麦克风通道频域信号D(l,k)的第二互相干系数CMd(l),上述第三计算公式具体可为:然后将上述第二互相干系数CMd(l)确定为上述指定数据值。本实施例通过计算出回声消除后的麦克风通道频域信号E(l,k)与上述麦克风通道频域信号D(l,k)之间的第二互相干系数CMd(l),并将该第二互相干系数CMd(l)确定为上述指定数据值,有利于后续将该第二互相干系数CMd(l)与预设的第二阈值进行比较得到对应的第二比较结果,进而智能地根据该第二比较结果来决定是否需要对唤醒词的唤醒阈值进行对应调整。

进一步地,本申请一实施例中,上述步骤S600,包括:

S6000:通过预设的第三计算公式计算所述回声消除后的麦克风通道频域信号E(l,k)与所述麦克风通道频域信号D(l,k)的第二互相干系数CMd(l),其中,所述第三计算公式为:

其中,Ped为E(l,k)与D(l,k)的互功率谱,Pe为E(l,k)的自功率谱,Pd为D(l,k)的自功率谱,当l=1的时候,Ped=E(l,k)D*(l,k),Pd=D(l,k)D*(l,k),Pe=E(l,k)E*(l,k);当l>1的时候,Ped=αdPed+(1-αd)D(l,k)E*(l,k),Pd=αdPd+(1-αd)D(l,k)D*(l,k),Pe=αdPe+(1-αd)E(l,k)E*(l,k),其中αd是平滑因子。

如上述步骤S6000所述,上述计算上述回声消除后的麦克风通道频域信号E(l,k)与上述麦克风通道频域信号D(l,k)之间的第二互相干系数CMd(l)的步骤,具体可包括:通过预设的第三计算公式计算上述回声消除后的麦克风通道频域信号E(l,k)与上述麦克风通道频域信号D(l,k)的第二互相干系数CMd(l),其中,上述第三计算公式为:其中,Ped为E(l,k)与D(l,k)的互功率谱,Pe为E(l,k)的自功率谱,Pd为D(l,k)的自功率谱,当l=1的时候,Ped=E(l,k)D*(l,k),Pd=D(l,k)D*(l,k),Pe=E(l,k)E*(l,k);当l>1的时候,Ped=αdPed+(1-αd)D(l,k)E*(l,k),Pd=αdPd+(1-αd)D(l,k)D*(l,k),Pe=αdPe+(1-αd)E(l,k)E*(l,k),其中αd是平滑因子。本实施例通过采用预设的第三计算公式计算上述回声消除后的麦克风通道频域信号E(l,k)与上述麦克风通道频域信号D(l,k)的第二互相干系数CMd(l),有利于后续根据将该第二互相干系数CMd(l)与预设的第二阈值进行比较得到对应的第二比较结果,进而根据该第二比较结果来决定是否需要对唤醒词的唤醒阈值进行对应调整。

本申请一实施例中,上述步骤S6,包括:

S610:将所述回声消除后的麦克风通道频域信号E(l,k)输入至预设的唤醒引擎内;

S611:通过所述唤醒引擎计算所述回声消除后的麦克风通道频域信号中含有所述唤醒词的概率,得到对应的概率数值;

S612:将所述概率数值确定为所述指定数据值。

如上述步骤S610至S612所述,上述指定数据值除了为上述回声消除后的麦克风通道频域信号E(l,k)与上述麦克风通道频域信号D(l,k)之间的第二互相干系数CMd(l),还可以为上述回声消除后的麦克风通道频域信号中含有上述唤醒词的概率所对应的概率数值。具体地,上述按照预设规则获取与上述回声消除后的麦克风通道频域信号E(l,k)对应的指定数据值的步骤,具体可包括:首先将上述回声消除后的麦克风通道频域信号E(l,k)输入至预设的唤醒引擎内。其中,上述唤醒引擎与智能语音设备中最终用于进行语音唤醒识别处理的最终唤醒引擎不是相同的引擎,即上述唤醒引擎为预先训练好的用于对输入的语音数据来进行该语音数据中包含有唤醒词的概率数值的计算的特定的唤醒引擎。然后通过上述唤醒引擎计算上述回声消除后的麦克风通道频域信号中含有上述唤醒词的概率,得到对应的概率数值。其中,对于上述概率数值的具体计算过程不作限制,优选地,概率数值的计算过程可为:获取上述唤醒词包含的所有的唤醒字,其中,上述唤醒字的数量为多个;计算出上述回声消除后的麦克风通道频域信号中含有指定唤醒字的指定概率,其中,上述指定唤醒字为上述唤醒词包含的所有的唤醒字中的任意一个唤醒字;根据上述指定概率,计算各指定概率之间的乘积,并将乘积确定为上述概率数值。举例地,假设上述唤醒词为小李同学,则其包含有4个唤醒字,分别为小、李、同、学。如果通过唤醒引擎分别计算出上述回声消除后的麦克风通道频域信号中含有小字的第一指定概率为0.9,上述回声消除后的麦克风通道频域信号中含有李字的第二指定概率为0.8,上述回声消除后的麦克风通道频域信号中含有同字的第三指定概率为0.7,上述回声消除后的麦克风通道频域信号中含有学字的第一指定概率为0.8,则上述概率数值可由第一指定概率、第二指定概率、第三指定概率与第四指定概率之间的乘积求出,即概率数值=0.9*0.8*0.7*0.8=0.4032。在得到了上述概率数值时,最后将上述概率数值确定为上述指定数据值。本实施例通过将回声消除后的麦克风通道频域信号输入至预设的唤醒引擎内来计算出回声消除后的麦克风通道频域信号中含有上述唤醒词的概率所对应的概率数值,并将该概率数值确定为上述指定数据值,有利于后续将该概率数值与预设的第二阈值进行比较得到对应的第二比较结果,进而智能地根据该第二比较结果来决定是否需要对唤醒词的唤醒阈值进行对应调整。

进一步地,本申请一实施例中,上述步骤S8,包括:

S800:计算所述第一互相干系数CMx(l)与所述第一阈值之间的第一差值;以及,

S801:计算所述指定数据值与所述第二阈值之间的第二差值;

S802:从预设的区间范围值-唤醒阈值映射表筛选出与所述第一差值对应的第一指定范围值,以及与所述第二差值对应的第二指定范围值;

S803:从所述区间范围值-唤醒阈值映射表提取出与所述第一指定范围值、所述第二指定范围值对应的指定唤醒阈值;

S804:将唤醒词的唤醒阈值调整为所述指定唤醒阈值。

如上述步骤S800至S804所述,上述将唤醒词的唤醒阈值调整为预设的指定唤醒阈值的步骤,具体可包括:首先计算上述第一互相干系数CMx(l)与上述第一阈值之间的第一差值;其中,上述第一差值是指上述第一互相干系数CMx(l)减去上述第一阈值后得到的差值,举例地,如果计算出的第一互相干系数CMx(l)为0.9,第一阈值为0.8,则可计算出第一差值为0.9-0.8=0.1。以及计算上述指定数据值与上述第二阈值之间的第二差值。其中,上述第二互相干系数CMd(l)与上述概率数值可以分别对应着数值不同的第二阈值,举例地,与上述第二互相干系数CMd(l)对应的第二阈值可设为0.4,而与上述概率数值对应的第二阈值可设为0.9。另外,上述第二差值是指上述指定数据值减去上述第二阈值后得到的差值,且该第二差值的求取过程可参考上述第一差值的计算过程,举例地,当计算出的指定数据值为0.2,且第二阈值为0.4时,可计算出第二差值为0.2-0.4=-0.2。然后从预设的区间范围值-唤醒阈值映射表筛选出与上述第一差值对应的第一指定范围值,以及与上述第二差值对应的第二指定范围值。其中,上述区间范围值-唤醒阈值映射表可以由降低智能语音设备误唤醒的装置根据以往的数据处理记录自行统计编写生成。之后从上述区间范围值-唤醒阈值映射表提取出与上述第一指定范围值、上述第二指定范围值对应的指定唤醒阈值。举例地,如果上述区间范围值-唤醒阈值映射表中的某一列数据记录有与第一阈值对应的第一区间范围值0.05至0.15,与第二阈值对应的第二区间范围值-0.25至-0.15,且与第一区间范围值、第二区间范围值对应的唤醒阈值为0.95,则当第一差值为0.1,第二差值为-0.2时,通过对区间范围值-唤醒阈值映射表进行查表可查询出与第一差值0.1对应的第一指定范围值为0.05至0.15,与第二差值-0.2对应的第二指定范围值为-0.25至-0.15,进一步可以查找出与第一指定范围值、第二指定范围值对应的指定唤醒阈值为0.95。在得到上述指定唤醒阈值时,最后将唤醒词的唤醒阈值调整为上述指定唤醒阈值,以智能地实现在回声残余较大而麦克风输入较小的情况下自动提高唤醒词的唤醒阈值,保证了在不降低智能语音设备总体的正唤醒率的前提下,降低了智能语音设备被回声残余误唤醒的可能性。

参照图2,本申请一实施例还提供了一种降低智能语音设备误唤醒的装置,包括:

第一获取模块1,用于获取智能语音设备的回声通道数据x(l),以及麦克风通道数据d(l);

第一处理模块2,用于通过短时傅里叶变换对所述回声通道数据x(l)进行处理,得到处理后的回声通道频域信号X(l,k);以及,

第二处理模块3,用于通过短时傅里叶变换对所述麦克风通道数据d(l)进行处理,得到处理后的麦克风通道频域信号D(l,k);

消除模块4,用于通过预设的回声消除算法对所述麦克风通道频域信号D(l,k)进行回声消除,得到回声消除后的麦克风通道频域信号E(l,k);

计算模块5,用于计算所述回声消除后的麦克风通道频域信号E(l,k)与所述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l);以及,

第二获取模块6,用于按照预设规则获取与所述回声消除后的麦克风通道频域信号E(l,k)对应的指定数据值;

判断模块7,用于判断所述第一互相干系数CMx(l)是否大于预设的第一阈值,以及判断所述指定数据值是否小于预设的第二阈值;

调整模块8,用于若判断出所述第一互相干系数CMx(l)大于预设的第一阈值且所述指定数据值小于预设的第二阈值,则将唤醒词的唤醒阈值调整为预设的指定唤醒阈值,其中,所述指定唤醒阈值的数值大于所述唤醒阈值。

本实施例中,上述降低智能语音设备误唤醒的装置中的第一获取模块、第一处理模块、第二处理模块、消除模块、计算模块、第二获取模块、判断模块与调整模块的功能和作用的实现过程具体详见上述降低智能语音设备误唤醒的方法中对应步骤S1至S8的实现过程,在此不再赘述。

进一步地,本申请一实施例中,上述消除模块,包括:

第一计算单元,用于采用与NLMS算法对应的第一计算公式对所述麦克风通道频域信号D(l,k)进行回声消除,得到所述回声消除后的麦克风通道频域信号E(l,k),其中,所述第一计算公式为:E(l,k)=D(l,k)-X(l,k)W(l,k);

其中,l是帧索引,k是频率索引,且k=1,2,...,K,K是FFT变换的点数,E(l,k)是回声消除后的麦克风通道频域信号,D(l,k)是麦克风通道频域信号,Xh(l,k)是X(l,k)的历史缓存值,X(l,k)是回声通道频域信号,且Xh(l,k)=[X(l,k),X(l-1,k),...,X(l-ORD+1,k)],ORD是缓存的帧数,W(l,k)是滤波器系数,且其中,μ是步长调节因子,·*表示求共轭。

本实施例中,上述降低智能语音设备误唤醒的装置中的第一计算单元的功能和作用的实现过程具体详见上述降低智能语音设备误唤醒的方法中对应步骤S400的实现过程,在此不再赘述。

进一步地,本申请一实施例中,上述计算模块,包括:

第二计算单元,用于通过预设的第二计算公式计算所述回声消除后的麦克风通道频域信号E(l,k)与所述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l),其中,所述第二计算公式为:

其中,Pex是E(l,k)与X(l,k)的互功率谱,Pe是E(l,k)的自功率谱,Px是X(l,k)的自功率谱,当l=1的时候,Pex=E(l,k)X*(l,k),Px=X(l,k)X*(l,k),Pe=E(l,k)E*(l,k);当l>1的时候,Pex=αxPex+(1-αx)X(l,k)E*(l,k),Px=αxPx+(1-αx)X(l,k)X*(l,k),Pe=αxPe+(1-αx)E(l,k)E*(l,k),其中αx是平滑因子。

本实施例中,上述降低智能语音设备误唤醒的装置中的第二计算单元的功能和作用的实现过程具体详见上述降低智能语音设备误唤醒的方法中对应步骤S500的实现过程,在此不再赘述。

进一步地,本申请一实施例中,上述第二获取模块,包括:

第三计算单元,用于计算所述回声消除后的麦克风通道频域信号E(l,k)与所述麦克风通道频域信号D(l,k)之间的第二互相干系数CMd(l);

第一确定单元,用于将所述第二互相干系数CMd(l)确定为所述指定数据值。

本实施例中,上述降低智能语音设备误唤醒的装置中的第三计算单元与第一确定单元的功能和作用的实现过程具体详见上述降低智能语音设备误唤醒的方法中对应步骤S600至S601的实现过程,在此不再赘述。

进一步地,本申请一实施例中,上述第三计算单元,包括:

计算子单元,用于通过预设的第三计算公式计算所述回声消除后的麦克风通道频域信号E(l,k)与所述麦克风通道频域信号D(l,k)的第二互相干系数CMd(l),其中,所述第三计算公式为:

其中,Ped为E(l,k)与D(l,k)的互功率谱,Pe为E(l,k)的自功率谱,Pd为D(l,k)的自功率谱,当l=1的时候,Ped=E(l,k)D*(l,k),Pd=D(l,k)D*(l,k),Pe=E(l,k)E*(l,k);当l>1的时候,Ped=αdPed+(1-αd)D(l,k)E*(l,k),Pd=αdPd+(1-αd)D(l,k)D*(,k),Pe=αdPe+(1-αd)E(l,k)E*(l,k),其中αd是平滑因子。

本实施例中,上述降低智能语音设备误唤醒的装置中的计算子单元的功能和作用的实现过程具体详见上述降低智能语音设备误唤醒的方法中对应步骤S6000的实现过程,在此不再赘述。

进一步地,本申请一实施例中,上述第二获取模块,包括:

输入单元,用于将所述回声消除后的麦克风通道频域信号E(l,k)输入至预设的唤醒引擎内;

第四计算单元,用于通过所述唤醒引擎计算所述回声消除后的麦克风通道频域信号中含有所述唤醒词的概率,得到对应的概率数值;

第二确定单元,用于将所述概率数值确定为所述指定数据值。

本实施例中,上述降低智能语音设备误唤醒的装置中的输入单元、第四计算单元与第二确定单元的功能和作用的实现过程具体详见上述降低智能语音设备误唤醒的方法中对应步骤S610至S612的实现过程,在此不再赘述。

进一步地,本申请一实施例中,上述调整模块,包括:

第五计算单元,用于计算所述第一互相干系数CMx(l)与所述第一阈值之间的第一差值;以及,

第六计算单元,用于计算所述指定数据值与所述第二阈值之间的第二差值;

筛选单元,用于从预设的区间范围值-唤醒阈值映射表筛选出与所述第一差值对应的第一指定范围值,以及与所述第二差值对应的第二指定范围值;

提取单元,用于从所述区间范围值-唤醒阈值映射表提取出与所述第一指定范围值、所述第二指定范围值对应的指定唤醒阈值;

调整单元,用于将唤醒词的唤醒阈值调整为所述指定唤醒阈值。

本实施例中,上述降低智能语音设备误唤醒的装置中的第五计算单元、第六计算单元、筛选单元、提取单元与调整单元的功能和作用的实现过程具体详见上述降低智能语音设备误唤醒的方法中对应步骤S800至S804的实现过程,在此不再赘述。

参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储回声消除后的麦克风通道频域信号E(l,k)、第一互相干系数CMx(l)、指定数据值以及指定唤醒阈值等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种降低智能语音设备误唤醒的方法。

上述处理器执行上述降低智能语音设备误唤醒的方法的步骤:

获取智能语音设备的回声通道数据x(l),以及麦克风通道数据d(l);

通过短时傅里叶变换对所述回声通道数据x(l)进行处理,得到处理后的回声通道频域信号X(l,k);以及,

通过短时傅里叶变换对所述麦克风通道数据d(l)进行处理,得到处理后的麦克风通道频域信号D(l,k);

通过预设的回声消除算法对所述麦克风通道频域信号D(l,k)进行回声消除,得到回声消除后的麦克风通道频域信号E(l,k);

计算所述回声消除后的麦克风通道频域信号E(l,k)与所述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l);以及,

按照预设规则获取与所述回声消除后的麦克风通道频域信号E(l,k)对应的指定数据值;

判断所述第一互相干系数CMx(l)是否大于预设的第一阈值,以及判断所述指定数据值是否小于预设的第二阈值;

若判断出所述第一互相干系数CMx(l)大于预设的第一阈值且所述指定数据值小于预设的第二阈值,则将唤醒词的唤醒阈值调整为预设的指定唤醒阈值,其中,所述指定唤醒阈值的数值大于所述唤醒阈值。

本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的装置、计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种降低智能语音设备误唤醒的方法,具体为:

获取智能语音设备的回声通道数据x(l),以及麦克风通道数据d(l);

通过短时傅里叶变换对所述回声通道数据x(l)进行处理,得到处理后的回声通道频域信号X(l,k);以及,

通过短时傅里叶变换对所述麦克风通道数据d(l)进行处理,得到处理后的麦克风通道频域信号D(l,k);

通过预设的回声消除算法对所述麦克风通道频域信号D(l,k)进行回声消除,得到回声消除后的麦克风通道频域信号E(l,k);

计算所述回声消除后的麦克风通道频域信号E(l,k)与所述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l);以及,

按照预设规则获取与所述回声消除后的麦克风通道频域信号E(l,k)对应的指定数据值;

判断所述第一互相干系数CMx(l)是否大于预设的第一阈值,以及判断所述指定数据值是否小于预设的第二阈值;

若判断出所述第一互相干系数CMx(l)大于预设的第一阈值且所述指定数据值小于预设的第二阈值,则将唤醒词的唤醒阈值调整为预设的指定唤醒阈值,其中,所述指定唤醒阈值的数值大于所述唤醒阈值。

综上所述,本申请实施例中提供的降低智能语音设备误唤醒的方法、装置、计算机设备和存储介质,获取智能语音设备的回声通道数据x(l),以及麦克风通道数据d(l);通过短时傅里叶变换对所述回声通道数据x(l)进行处理,得到处理后的回声通道频域信号X(l,k);以及,通过短时傅里叶变换对所述麦克风通道数据d(l)进行处理,得到处理后的麦克风通道频域信号D(l,k);通过预设的回声消除算法对所述麦克风通道频域信号D(l,k)进行回声消除,得到回声消除后的麦克风通道频域信号E(l,k);计算所述回声消除后的麦克风通道频域信号E(l,k)与所述回声通道频域信号X(l,k)之间的第一互相干系数CMx(l);以及,按照预设规则获取与所述回声消除后的麦克风通道频域信号E(l,k)对应的指定数据值;判断所述第一互相干系数CMx(l)是否大于预设的第一阈值,以及判断所述指定数据值是否小于预设的第二阈值;若判断出所述第一互相干系数CMx(l)大于预设的第一阈值且所述指定数据值小于预设的第二阈值,则将唤醒词的唤醒阈值调整为预设的指定唤醒阈值,其中,所述指定唤醒阈值的数值大于所述唤醒阈值。本申请实施例在根据智能语音设备的回声通道数据与麦克风通道数据获取到相应的第一互相干系数与指定数据值后,如果判断出第一互相干系数大于预设的第一阈值且指定数据值小于预设的第二阈值,则判定智能语音设备当前处于回声残余较大而麦克风输入较小的环境中,此时便会对唤醒词的唤醒阈值进行智能调整,即自动将唤醒词的唤醒阈值调整为数值更大的指定唤醒阈值,保证了在不降低智能语音设备总体的正唤醒率的前提下,有效地降低了被智能语音设备回声残余误唤醒的可能性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。处理器

21页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:结合AI模型的语音增强方法、系统、电子设备和介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!