耳塞语音估计

文档序号:1581274 发布日期:2020-01-31 浏览:8次 >En<

阅读说明:本技术 耳塞语音估计 (Earplug voice estimation ) 是由 D·L·沃茨 B·R·斯蒂尔 T·I·哈维 V·萨博兹耐科夫 于 2018-06-15 设计创作,主要内容包括:本发明的实施方案使用骨传导传感器或加速度计来确定语音估计,而不采用语音估计的话音活动检测选通。语音估计完全地基于所述骨传导信号,或者与麦克风信号结合执行。语音估计之后被用来调节所述麦克风的输出信号。音频设备中存在多种用于语音处理的使用实例。(Embodiments of the present invention use bone conduction sensors or accelerometers to determine speech estimates, rather than voice activity detection gating of speech estimates. The speech estimation is performed either entirely on the basis of the bone conduction signal or in combination with the microphone signal. The speech estimate is then used to adjust the output signal of the microphone. There are a number of examples of uses for speech processing in audio devices.)

耳塞语音估计

相关申请的交叉引用

本申请要求于2017年6月16日提交的美国临时专利申请No.62/520,713的权益,该美国临时专利申请通过引用纳入本文。

技术领域

本发明涉及一种耳塞头戴式受话器(earbud headset),该耳塞头戴式受话器被配置以执行语音(speech)估计,用于诸如语音捕获的功能,且特别地,本发明涉及基于骨传导传感器信号(bone conduction sensor signal)的耳塞语音估计。

背景技术

头戴式受话器是一种使用者私下收听音乐或音频,或者拨打免提电话,或者将话音(voice)命令传送给话音识别系统的流行方式。各种各样的头戴式受话器形状因子(formfactor)(即,头戴式受话器类型)是可用的,包括耳塞。耳塞在使用时的入耳位置对此形状因子提出了特殊的挑战。耳塞的入耳位置严重限制了设备的几何形状,且极大地限制了将麦克风相隔很远放置的能力(如诸如波束成形或旁瓣消除等功能所要求的)。此外,对于无线耳塞来说,小形状因子对电池尺寸从而功率预算造成了很大的限制。此外,当将耳塞放置在耳道内时,耳道和耳廓的解剖结构略微遮挡了从使用者的口部至耳塞的麦克风的声学信号路径,这增大了将使用者自己的话音与附近其他人的话音区分开的任务的难度。

语音捕获通常是指捕获头戴式受话器使用者的话音且使包括其他人的话音的任何周围噪声最小化的情况。此使用实例的常见场景是当使用者进行话音呼叫或与语音识别系统进行交互时。这两种场景都对底层算法提出了严格的需求。对于话音呼叫,电话标准和使用者需求要求以出色的音质来实现高水平的降噪。类似地,语音识别系统通常要求音频信号具有最小的修改,同时消除尽可能多的噪声。存在许多信号处理算法,其中重要的是,算法的操作根据使用者是否在讲话而改变。话音活动检测是对输入信号进行处理以确定信号中存在或不存在语音,因此是话音捕获和其他这样信号处理算法的重要方面。然而,甚至在较大的头戴式受话器(诸如,悬臂式耳机(boom)、挂绳式耳机(pendant)和贴耳头戴式受话器)中,也非常难以可靠地忽略来自位于设备的波束成形器的波束内的其他人的语音,结果是这些其他人的语音只会破坏使用者的话音捕获的处理。话音捕获的这些和其他方面尤其难以用耳塞实现,包括由于耳塞没有将麦克风放置在使用者的口部附近,从而不能从由这种麦克风定位所导致的显著提高的信噪比中受益。

本说明书中已经包括的对文件、动作、材料、设备、物品等的任何讨论仅用于为本发明提供上下文的目的。不应被认为是,承认这些事项中的任何事项或所有事项由于在本申请的每个权利要求的优先权日之前存在而形成现有技术基础的一部分或是与本发明相关领域内的公共常识。

贯穿本说明书,词语“包括(comprise)”或诸如“包括(comprises)”或“包括(comprising)”之类的变体将被理解为暗示包括所陈述的元件、整数或步骤、或元件组、整数组或步骤组,但不排除任何其他元件、整数或步骤、或元件组、整数组或步骤组。

在本说明书中,陈述元件可以是选项列表中的“至少一个”应被理解为,元件可以是所列出的选项中的任何一个,或者可以是所列出的选项中的两个或更多个的任何组合。

发明内容

根据第一方面,本发明提供了一种用于耳塞语音估计的信号处理设备,该设备包括:

至少一个用于从耳塞的麦克风接收麦克风信号的输入;

至少一个用于从耳塞的骨传导传感器接收骨传导传感器信号的输入;

处理器,所述处理器被配置为从所述骨传导传感器信号确定所述耳塞的使用者的语音的至少一个特性,所述至少一个特性是非二进制变量,所述处理器还被配置为从所述语音的至少一个特性导出至少一个信号调节参数;且所述处理器还被配置为使用所述至少一个信号调节参数来调节所述麦克风信号。

根据第二方面,本发明提供了一种调节耳塞麦克风信号的方法,该方法包括:

从耳塞的骨传导传感器接收骨传导传感器信号;

从所述耳塞的麦克风接收麦克风信号;

从所述骨传导传感器信号确定所述耳塞的使用者的语音的至少一个特性,所述至少一个特性是非二进制变量;

从所述语音的至少一个特性导出至少一个信号调节参数;以及

使用所述至少一个信号调节参数来调节来自所述麦克风的输出信号。

根据第三方面,本发明提供一种用于调节耳塞麦克风信号的非暂时性计算机可读介质,所述非暂时性计算机可读介质包括指令,所述指令在由一个或多个处理器执行时导致以下各项的执行:

从耳塞的骨传导传感器接收骨传导传感器信号;

从所述耳塞的麦克风接收麦克风信号;

从所述骨传导传感器信号确定所述耳塞的使用者的语音的至少一个特性,所述至少一个特性是非二进制变量;

从所述语音的至少一个特性导出至少一个信号调节参数;以及

使用所述至少一个信号调节参数来调节来自所述麦克风的输出信号。

在一些实施方案中,所述耳塞是无线耳塞。

在一些实施方案中,通过所述处理器从所述骨传导传感器信号所确定的语音的非二进制变量特性是从所述骨传导传感器信号所导出的语音估计。在一些实施方案中,所述处理器可以被配置为使得对所述麦克风信号的调节包括通过从所述骨传导传感器信号导出的语音估计所控制的非静态降噪。在一些实施方案中,可以通过从所述麦克风信号所导出的语音估计来进一步控制所述非静态降噪。

在一些实施方案中,所述处理器可以被配置为使得从所述骨传导传感器信号所确定的语音的非二进制变量特性是所述骨传导传感器信号的语音水平。

在一些实施方案中,所述处理器可以被配置为使得从所述骨传导传感器信号所确定的语音的非二进制变量特性是所述骨传导传感器信号的观测到的频谱。

在一些实施方案中,所述处理器可以被配置为使得从所述骨传导传感器信号所确定的语音的非二进制变量特性是所述骨传导传感器信号的频谱包络的参数表示。

在一些实施方案中,所述处理器可以被配置为使得所述骨传导传感器信号的频谱包络的参数表示包括以下项中的至少一项:线性预测倒谱系数、自回归系数和线谱频率,以例如为了导出所述语音包络来对人类声道进行建模。

在一些实施方案中,所述处理器可以被配置为使得从所述骨传导传感器信号所确定的语音的非二进制变量特性是所述骨传导传感器信号的频谱包络的非参数表示,诸如从人类声音感知的模型所导出的梅尔频率倒谱系数(MFCC),或者是从短时傅里叶变换所导出的对数间隔频谱幅度,这是一种优选的方法。

在一些实施方案中,所述处理器可以被配置为使得不管话音活动如何,对来自所述麦克风的输出信号的调节都会发生。

在一些实施方案中,所述处理器可以被配置为使得所述至少一个信号调节参数包括从所述骨传导传感器信号所导出的特定频带的增益,且其中对所述麦克风信号的调节包括将所述特定频带的增益应用于所述麦克风信号。

在一些实施方案中,所述处理器可以被配置为使得对所述麦克风信号的调节包括应用卡尔曼滤波器处理,在所述卡尔曼滤波器处理中,所述骨传导传感器信号充当语音估计处理的先验(a priori)。在一些实施方案中,语音估计可以从所述骨传导传感器信号导出,且被用来修改用于先验SNR估计的决策导向加权因子。在一些实施方案中,从所述骨传导传感器信号所导出的语音估计可以被用来通知因果递归语音增强(CRSE)中的更新步骤。

在一些实施方案中,通过所述处理器从骨传导传感器信号所确定的语音的非二进制变量特性可以是所述骨传导传感器信号的信噪比。

在一些实施方案中,所述处理器可以被配置为使得除了所述骨传导传感器信号是确定所述语音的至少一个特性的基础之外,所述骨传导传感器信号的任何分量都未被传递到所述耳塞的信号输出。

在一些实施方案中,所述处理器可以被配置为使得在从所述骨传导传感器信号确定所述语音的非二进制变量特性之前,针对所观测的条件来校正所述骨传导传感器信号。在一些实施方案中,所述处理器可以被配置为使得针对音素来校正所述骨传导传感器信号。在一些实施方案中,所述处理器可以被配置为使得针对骨传导耦合来校正所述骨传导传感器信号。在一些实施方案中,所述处理器可以被配置为使得针对带宽来校正所述骨传导传感器信号。在一些实施方案中,所述处理器可以被配置为使得针对失真来校正所述骨传导传感器信号。在一些实施方案中,所述处理器可以被配置为通过应用映射处理来执行所述骨传导传感器信号的校正。在一些实施方案中,所述映射处理可以包括线性映射,该线性映射包括与所述骨传导传感器信号的每个频谱区间相关联的一系列校正。例如,所述校正可以包括应用至所述骨传导传感器信号的相应频谱区间值的倍增和偏移。在一些实施方案中,所述处理器可以被配置为通过应用离线学习来执行所述骨传导传感器信号的校正。

在一些实施方案中,所述处理器可以被配置为使得对所述麦克风信号的调节仅基于从所述骨传导传感器信号所确定的所述语音的非二进制变量特性。

在一些实施方案中,所述骨传导传感器可以包括加速度计,该加速度计在使用中被耦合至所述使用者的耳道或外耳的表面,以检测来自所述使用者的语音的骨传导的信号。

在一些实施方案中,所述骨传导传感器可以包括入耳式麦克风,该入耳式麦克风在使用中被定位成检测由使用者的语音的骨传导而在所述耳道内产生的声学声音。在一些实施方案中,所述加速度计和所述入耳式麦克风都可以用来检测使用者的语音的至少一个特征。

在一些实施方案中,所述处理器可以被配置为将至少一个匹配滤波器应用至所述骨传导传感器信号,所述匹配滤波器被配置为将所述骨传导传感器信号中的使用者的语音与所述麦克风信号中的使用者的语音匹配。在一些实施方案中,所述匹配滤波器可以具有基于训练集的设计。

在一些实施方案中,所述处理器可以被配置为单侧地调节所述麦克风信号,而无需来自使用者的另一耳朵上的任何对侧传感器的输入。

耳塞在本文中被定义为音频头戴式受话器设备,无论是有线的还是无线的,该音频头戴式受话器设备在使用中仅或基本上由耳朵支撑,该音频头戴式受话器设备放置在该耳朵上,且该音频头戴式受话器设备包括在使用时基本上或全部地位于耳道内和/或耳廓的外耳内的耳塞主体。

附图说明

现在将参考附图来描述本发明的实施例,在附图中:

图1例示了无线耳塞在电话和/或音频回放中的使用;

图2是根据本发明的一个实施方案的耳塞的系统示意图;

图3a和图3b是图2的耳塞的详细系统示意图;

图4是图3的实施方案的耳塞语音估计处理的流程图;

图5例示了根据本发明另一实施方案的用于电话的噪声抑制器;

图6例示了包括语音估计器的一个实施方案,该语音估计器使用基于估计处理的统计模型;

图7例示了基于使用SNR估计的混合因子的麦克风-加速度计混合方法;

图8例示了本发明的另一实施方案的配置;

图9例示了将来自骨传导传感器信号的语音估计应用至电话使用实例的实施方案;以及

图10示出了本发明的一个实施方案的客观平均意见得分(MOS)结果。

具体实施方式

图1例示了无线耳塞在电话和/或音频回放中的应用。设备110可以是智能电话或音频播放器等,与双侧无线耳塞120、130通信。出于例示的目的,耳塞120、130被示出为在耳朵的外部,然而在使用时,每个耳塞都被放置为使得耳塞的主体基本上或完全地位于相应耳朵的外耳和/或耳道内。耳塞120、130均可以采用任何合适的形式,以舒适地装配在使用者的耳朵上或内部且由使用者的耳朵支撑。在本发明的范围内的一些实施方案中,耳塞的主体可以进一步由钩或支撑构件支撑,所述钩或支撑构件延伸超出外耳,诸如部分地或完全地围绕相应耳廓的外部。

图2例示了耳塞120的系统。耳塞130可以类似地配置且不单独进行描述。麦克风210被定位在耳塞120上,以便在耳塞就位时接收外部声学信号。可以设置多个麦克风,例如以使得耳塞120能够进行波束成形降噪,但是耳塞120的小尺寸对能够实现的最大麦克风间距施加了困难的限制,且与比方说悬臂安装的麦克风相比,耳塞在声音被耳廓部分地遮挡或消除的位置中的定位都是限制波束成形功效的因素。

来自麦克风210的麦克风信号被传递到耳塞120的合适的处理器220。由于耳塞120的尺寸,有限的电池电量是可用的,这决定了处理器220仅执行低功率且计算简单的音频处理功能。

耳塞120进一步包括加速度计230,该加速度计230在使用时被安装在耳塞120上、位于***耳道中且按压耳道壁的位置中,或者视情况可以将加速度计230安装在耳塞120的主体内,从而机械地耦合至耳道壁。加速度计230由此被配置为检测骨传导的信号,尤其是如由置于声道和耳道之间的骨和组织所传导的使用者自己的语音。这样的信号在本文中也被称为骨传导的信号,即使声学传导可以通过其他身体组织发生,且可能部分地贡献于由骨传导传感器230所感测的信号。

在替代实施方案中,骨传导传感器可以被耦合至外耳,或安装在可靠地接触耳道或外耳内的耳朵的头戴式受话器主体的任何部分上。耳塞的使用允许与耳道可靠地直接接触,从而可以机械耦合至如在耳道壁处所测量的骨传导的语音的振动模型。这与移动设备(诸如,电话)可能会进行接触的外部太阳穴、脸颊或颅骨不同。本发明认识到,与本发明所描述的实施方案相比,从耳朵外部的解剖结构的多个部分所导出的骨传导的语音模型产生语音估计的可靠性大大降低的信号。本发明认识到,在无线耳塞中使用骨传导传感器足以执行语音估计。这是因为,与听筒或耳朵外部的头戴式受话器不同,来自无线耳塞的骨传导传感器信号的性质相对于使用者配合度、使用者动作和使用者移动主要是静态的。例如,本发明认识到,不需要骨传导传感器的补偿以用于配合或接近。因此,选择耳道或外耳作为骨传导传感器的位置是本发明的关键促成者。转而,本发明之后转向导出最佳识别使用者语音的时间特性和频谱特性的信号的变换。

设备120是无线耳塞。这是重要的,因为附接至有线个人音频设备的配件电缆对于骨传导传感器230是外部振动的重要来源。配件电缆还增加了装置120的有效质量,该有效质量能够抑制由骨传导的语音所引起的耳道振动。去除电缆还降低了对顺应性介质的需求,骨传导传感器230容纳在该顺应性介质。减轻的重量增加了由骨传导的语音所引起的与耳道振动的顺应性。因此,在本发明的无线实施方案中,对骨传导传感器230的放置没有限制或大大降低了对骨传导传感器230的放置限制。唯一的要求是,传感器230与耳塞120的外壳刚性接触。因此,实施方案可以包括将传感器230安装在耳塞壳体内部的印刷电路板(PCB)上或安装至经由刚性杆耦合至耳塞内核的BTE模块。

在无线耳塞中,主话音麦克风210的位置通常靠近耳朵。因此,它离使用者的口部相对较远,因此经受低信噪比(SNR)的困扰。这与听筒或挂绳式头戴式受话器不同,在听筒或挂绳式头戴式受话器中,主话音麦克风离口部更近且使用者握持电话/挂绳的方式上的差异会导致宽范围的SNR。在本实施方案中,对于给定的环境噪声水平,主话音麦克风210上的SNR不是那么多变的,因为使用者的口部与包含耳塞的耳朵之间的几何形状是固定的。因此,主话音麦克风210上的语音水平与骨传导传感器230上的语音水平之间的比率是先验已知的,从而本发明认识到,这在一定程度上有助于确定真实语音估计与骨传导传感器信号之间的关系。

骨传导传感器230与耳道之间接触的充分条件是,由于耳塞120的重量足够小,使得由语音所引起的振动力超过了商用加速度计230的最小灵敏度。这与具有较大质量的外部头戴式受话器或电话听筒不同,该较大质量阻止了骨传导的振动能够很容易耦合至该设备。

处理器220是信号处理设备,被配置为从来自加速度计230的骨传导的传感器信号确定耳塞120的使用者的语音的至少一个特性,从所述语音的至少一个特性导出至少一个信号调节参数;且处理器220还被配置为使用该至少一个信号调节参数来调节来自麦克风210的麦克风信号,且将经调节的信号无线地传送至主设备110,以用作话音呼叫的传送信号和/或用于自动语音识别(ASR)。耳塞120与主设备110之间的通信可以例如通过低能耗蓝牙来进行。替代实施方案可以利用有线耳塞且通过电线通信,尽管存在本文其他地方所讨论的缺点。扬声器240被配置为将声学信号(诸如,话音呼叫的接收信号)回放至使用者的耳道中。

值得注意的是,本实施方案基于由骨传导的传感器信号所导出的语音估计,对包括设置有至少一个麦克风和至少一个加速度计的无线耳塞的头戴式受话器形状因子提供以受控的分级方式而不是以二进制开-关方式应用的降噪。特别地,与话音活动检测的二进制处理不同,语音估计涉及估计频谱幅度或信号峰值频率以及应用适当的处理来提高语音质量。实际上,在没有任何话音活动检测和麦克风信号选通步骤的情况下,本发明的一些实施方案可以基于骨传导的传感器信号来应用语音估计。

准确的语音估计可以在一系列语音增强指标上带来更好的性能。话音活动检测(VAD)是一种改进语音估计的方法,但是固有地依赖于以二进制方式识别嘈杂信号中语音是否存在的不完善概念。本实施方案认识到,加速度计230可以捕获合适的无噪声语音估计,该估计可以被导出且被用来直接驱动语音增强,而不依赖于语音或噪声存在的二进制指示符。从此认识带来了许多解决方案。

图3a和图3b更详细地例示了根据本发明的一个实施方案的耳塞120的系统内的处理器220的配置。图3a和图3b的实施方案认识到,在中等信噪比(SR)条件下,仅用语音估计就可以实现改进的非静态降噪,而无需VAD。这与以下方法不同:在所述方法中,话音活动检测被用来在存在语音和不存在语音之间进行区分,以及来自VAD的离散二进制决策信号被用来选通(即,打开和关闭)作用于音频信号的噪声抑制器。图3的实施方案认识到,也可以依赖于加速度计信号或从加速度计信号所导出的某一信号来获得足够准确的语音估计,甚至在不能从麦克风信号获得准确的语音估计的声学条件下。在这样的实施方案中,省去VAD有助于使耳塞处理器220上的计算负担最小化。

更详细地,在图3中,来自麦克风210的麦克风信号由噪声抑制器310调节,然后被传递至输出,诸如用于无线通信至设备110。噪声抑制器310由语音估计/表征模块320连续地控制,而没有任何VAD的任何开关选通。语音估计/表征模块320从加速度计230且可选地还从其他加速度计、麦克风210和/或其他麦克风获取输入。

在这样的实施方案中,选择加速度计230作为骨传导传感器是特别有用的,因为作为第一近似,商业加速度计中的本底噪声在频谱上是平坦的。这些设备在达到谐振频率之前都是透声的,因此不会由于环境噪声而显示任何信号。因此,传感器230的噪声分布可以先验地更新至语音估计处理。这是一个重要的区别,因为它允许对真实语音信号的时间和频谱性质建模,而不会受到复杂噪声模型的动态干扰。实验表明,由于诸如电缆跳动的事件所造成的噪声的时间和频谱动态的短期变化,甚至有绳的(有线的)耳塞也具有复杂的噪声模型。不需要对无线耳塞120中的骨传导频谱包络进行校正,因为匹配信号不是设计调节参数所必需的。

语音估计320基于麦克风210和加速度计230中的某些信号保证(特别是如在无线耳塞使用实例中所保证的)来执行的。然而,可以对耳塞中的骨传导频谱包络进行校正,以权衡特征重要性,但是匹配信号不是设计调节参数所必需的。耳道的骨传导模型中的传感器非理想性和非线性是可以应用校正的其他原因。

特别地,在耳朵中采用多个骨传导传感器230的实施方案被提出,以配置为利用由耳道中骨传导的语音所引起的正交振动模式,从而提取关于使用者语音的更多信息。重要的是,骨传导的信号可靠地耦合至无线耳塞范围内的传感器中,在一定程度上与有线耳塞不同,且与耳外部的头戴式受话器不同。在这样的实施方案中,通过使用正交布置在耳塞壳体中的多个骨传导设备,或者通过具有独立的正交轴线的单个骨传导设备,解决了捕获耳道中各种形式的骨传导的语音的问题。

来自加速度计230的信号被高通滤波,然后被模块320用来确定语音估计输出,该语音估计输出可以包括使用者语音的单通道表示或多通道表示,诸如净语音估计、先验SNR和/或模型系数。

值得注意的是,图3的配置省去了任何话音活动检测(VAD)。语音增强的许多方法依赖于语音信号的各种估计,且当麦克风语音信号由于环境噪声而劣化时变得具有挑战性。这些估计的准确性通常会随着环境噪声水平而降低。语音估计的用途包括风噪声抑制、用于噪声抑制的先验SNR估计、用于噪声抑制的增益函数偏置、波束成形自适应(块矩阵更新)、用于声学回声消除的自适应控制、用于回声抑制的先验语音回声比(speech to echo)估计、用于VAD的自适应阈值化(水平差和互相关)以及用于静态噪声估计的自适应加窗(最小控制递归平均;MCRA)。

在本发明的此实施方案中,不管加速度计信号中的语音活动如何,骨传导传感器230的处理以及随后的调节都会发生。因此,在导出用于降噪处理的语音估计时,它不依赖于语音检测处理或噪声建模(VAD)处理。与听筒使用实例不同,加速度计传感器230所测量的无线耳塞120中耳道振动的噪声统计数据具有明确限定的分布。本发明认识到,这证明了基于来自加速度计230的信号的连续语音估计是合理的。尽管由于麦克风210距口部的距离而使麦克风210的SNR在耳塞中较低,但是由于耳塞和麦克风210相对于口部的固定位置,所以语音样本的分布将比听筒或挂绳的分布具有更低方差。这共同形成待在调节参数设计和语音估计处理320中所使用的使用者语音信号的先验知识。

图3的实施方案认识到,使用麦克风和骨传导传感器的语音估计可以改善用于这种目的的语音估计。语音估计可以从骨传导传感器(例如,加速度计230)或骨传导传感器230和麦克风210这二者的组合导出。来自骨传导传感器230的语音估计可以包括来自单个设备的单独轴线的信号的任意组合。语音估计可以由时域信号或频域信号导出。通过在耳塞120内而非主设备110中进行处理,处理器220可以在制造或配置时进行配置,以确保所描述的处理可以访问所有适当的信号且是基于对耳塞几何形状的精确知识。

在从骨传导传感器信号确定语音的非二进制变量特性之前,针对所观测的条件来校正骨传导传感器信号,且例如可以针对音素、传感器带宽和/或失真来校正骨传导传感器信号。该校正可以包括线性映射,该线性映射进行与每个频谱区间相关联的一系列校正,诸如应用倍增或偏移至每个区间值。

语音估计可以在320处通过以下技术中的任何一个从骨传导传感器230导出:信号的指数滤波(泄漏积分器);信号值的增益函数;固定匹配滤波器(FIR或频谱增益函数);自适应匹配(LMS或输入信号驱动的自适应);映射函数(代码本);以及使用二阶统计数据来更新估计例程。另外,针对输入信号的不同幅度或输入信号的其他度量(诸如,噪声水平),语音估计可以从不同的信号导出。例如,加速度计230的本底噪声比麦克风210的本底噪声高得多,因此在某个标称水平以下,加速度计信息可能不再有用,且语音估计可以转换为麦克风导出的信号。根据输入信号而变的语音估计在过渡区域上可以是分段的或连续的。估计方法可能会有所不同,且针对传输曲线的每个区域,估计可能依赖于不同的信号。这将由使用实例确定,诸如噪声抑制长期SNR估计、噪声抑制先验SNR降低以及增益回退。

图3b提供了图3a的耳塞语音估计处理320的更多细节。图4是耳塞语音估计处理的流程图。

值得注意的是,图3a和图3b描述了对来自230的骨传导语音信号进行调节的语音估计器320。此估计可以采用代表使用者语音信号的时域和/或频域信号的形式。这不同于可能是应用此估计器320的结果的净语音信号。

如图5中示出的用于电话的噪声抑制器可以将估计器用于产生净语音信号,该净语音信号将通过电话网络被传输至远程接收者。噪声抑制器的实施例包括频谱减法、维纳滤波方法和统计模型方法。

图6中示出了使用基于统计模型的估计处理的语音估计器的实施方案的实施例。空气传导的麦克风语音估计、骨传导的语音估计和SNR分别从因果递归语音增强处理导出。然后,将来自每个处理的先验SNR估计进行组合,以导出混合系数,该混合系数将调节使用者语音估计以得到最终语音估计器。重要的是要注意,在此处理中,麦克风和加速度计传感器信号均未被用来导出噪声模型。相反,信号内受无线耳塞形状因子影响的信息内容允许直接语音估计处理。

在另一实施例中,该应用可以用于产生代表适合于自动化语音识别(ASR)系统的语音的潜在表示的信号。在此情况下,从语音估计器的转换中导出净语音的潜在表示。

认识到此方法的不同之处在于,在存在静态噪声信号的情况下利用骨传导信号的时间动态和频谱动态来导出语音模型。这与利用语音检测的相同动态(利用语音检测的相同动态在话音活动检测器领域中具有广泛应用)不同。

可以对耳塞中的骨传导频谱包络进行校正,以权衡特征重要性,但是匹配信号不是设计调节参数所必需的。

可以在本发明的上下文中进一步详细阐述与语音检测器(VAD)不同的使用骨传导传感器来导出语音估计器的方法。传统地,噪声抑制器的质量取决于对噪声频谱的估计。噪声频谱通常是由语音间隙期间用二进制决策设备(诸如,VAD)进行测量导出的。VAD在低SNR条件下的性能往往很差,从而导致增益函数中的误差,所述误差引起熟悉的不期望的“音乐噪声”现象。替代地,可以通过假设噪声信号的某些统计特征来获得噪声估计,但是现实环境的噪声统计数据可能偏离这些假设。由于增益函数的精度高度取决于SNR估计,所以这意味着在不存在准确的噪声统计数据的情况下,SNR估计可以利用语音估计的知识。

本发明在建立噪声模型的处理中不使用骨传导传感器。因此,噪声模型的构建不需要从骨传导传感器所导出的话音活动检测器(VAD)。这是与使用骨传导传感器代替麦克风的其他提议的重要差异,因为在这样的替代提议中,通常噪声模型必须被准确建模,以用于执行语音增强,从而骨传导传感器有助于导出该模型。

本发明中的骨传导传感器用于导出麦克风语音包络的一个或多个调节参数,且固有地是无VAD的骨传导。如前面所讨论的无线耳塞的性质避免了考虑对由骨传导传感器所引入的复杂噪声模型的需求。相比之下,耳塞中的骨传导传感器的基本假设是,代表语音的骨传导传感器信号包含足以导出代表使用者语音的非二进制信号的时间和频谱内容。因此,本发明认识到,在耳塞使用情况下,净语音估计不取决于骨传导所导出的噪声估计。实际上,在形成净语音估计时,纳入噪声模型是可选的,尽管在某些情况下它可以改善净语音估计。

在一个实施方案中(图6),可以用因果递归语音估计器来完善来自有噪声的麦克风的语音模型,该因果递归语音估计器需要估计噪声方差。这通常是最小跟踪或时间递归平均算法,且这种估计是在没有任何特定语音检测的情况下执行的。此外,骨传导传感器的功率谱借助于其耳道振动的表示被视为使用者语音的先验(prior)。无需进行变换即可粗略估计净语音麦克风信号。在此情况下,它被视为Sbc,一种骨传导语音估计,而非在骨传导传感器上所调节的净语音估计,即

Figure BDA0002317161380000141

在一些实施方案中,Sbc可以例如通过上述CRSE处理被进一步完善。因此,本实施方案使用骨传导传感器信号作为净语音估计的先验。值得注意的是,这些实施方案没有使用离线处理来导出骨传导至净空气传导麦克风的变换,也没有使用诸如合成信号作为假定估计。本发明的一些实施方案会对一些非理想性应用校正,但是重要的是,没有必要将先验信息添加至来自任何离线处理的信号。本发明认识到可以这样做,因为由于耳塞的使用实例,骨传导传感器信号作为先验就足够了。

图7例示了一种基于使用SNR估计的混合因子的麦克风-加速度计混合方法,且提供了一种组合来自麦克风和加速度计(BC传感器)的先验SNR估计的方法。这可能特别地适用于使用SNR估计的最佳语音估计的低SNR环境。因此,从骨传导传感器信号所导出的净语音估计和先验SNR估计是根据本发明的骨传导传感器信号控制的语音估计技术的应用。要注意的是,在图7中,没有使用VAD就实现了混合。例如,在一种混合方法中,组合器730根据由相应的先验(apr)SNR估计所导出的混合因子α和β来混合有噪声的麦克风(mic)信号和骨传导传感器(accel)信号如下:

Figure BDA0002317161380000142

Figure BDA0002317161380000143

Figure BDA0002317161380000144

然后对此经混合的信号执行二级降噪。

这与使用VAD来导出噪声估计且随后确定混合比不同。

本发明的其他实施方案可以通过丢弃来自语音增强块710、720的语音估计来扩张该理念,而非混合来自SNR估计的有噪声的信号且执行二级降噪。

图8例示了根据本发明的另一实施方案的耳塞120的系统内的处理器220的配置。未描述的图8的元件与图3相同。然而,在图8的实施方案中,由语音估计/表征模块所输出的语音估计不仅被传送至噪声抑制器,而且还被传送至辅助输出路径,以供例如可能在耳塞120或主设备110内且例如可以包括自动语音识别(ASR)模块或可以是话音触发模块的其他模块使用。合适的增益函数的设计在噪声抑制模型内部进行,且依赖于对麦克风信号的经调节的语音估计。

图9例示了根据本发明的另一实施方案,该实施方案例示了从骨传导传感器信号至电话使用实例的语音估计的应用。

本发明的实施方案注意到,尽管入耳式加速度计的频率响应与麦克风相比甚至与安装在太阳穴处的骨传感器等相比较差,但可能的是,不仅可以将入耳式加速度计信号用于语音估计,而且还认识到,入耳式加速度计信号可以用于语音估计的分级或非二进制控制,诸如通过以多步或分级的方式控制非静态降噪。更详细地,耳塞惯性传感器的低通频率响应和相对差的灵敏度是外耳道处的骨传导模型的限制。用于振动的骨传导传感器通常是磁性类型的,且通常利用头带等的弹力保持牢固的接触来安装到头部的其他部分,诸如颞骨或乳突骨。然而,这种安装位置和技术与用于音频应用的头戴式受话器有点不协调,且与优选的头戴式受话器形状因子不兼容。本发明在利用耳塞的惯性传感器时有利于顺应至优选的头戴式受话器形状因子。

本实施方案中的语音频谱包络不是麦克风信号、噪声模型和骨传导信号的凸组合。考虑到在我们的实施方案之一中使用的加速度计信号的频谱性质,这是不切实际的,因为耳道中语音的骨传导模型限制了可观测的频率范围。基于人体其他部位的骨传导模型可以利用超过1kHz的高频辐射模式。因此,估计耳道中的语音的时间-频率模型是一个不同的问题,因为本发明人已经发现,耳道骨传导信号的可观测频率范围通常低于1kHz。然而,本发明人已经示出,即使在这样的有限频带中可以从加速度计获得的时间和频谱信息仍然添加了关于真实净语音的性质的信息,该信息可以以有用的方式通知降噪处理。

图10示出了图9的实施方案的客观平均意见得分(MOS)结果,该结果示出了当用从骨传导传感器230频谱包络所导出的参数调节来自麦克风210的先验语音包络时的改进。使用3Quest方法在多种不同的静态和非静态噪声类型中执行测量,以获得语音MOS(S-MOS)值和噪声MOS(N-MOS)值。

虽然在诸如听筒的其他应用中,如果听筒使用实例促使任一传感器信号质量很差,则组合估计中的骨传导估计和麦克风频谱估计在时间和频率上的贡献会降为零,但是在本实施方案的无线耳塞应用中情况并非如此。与此不同,可以以连续的方式组合耳塞形状因子中的麦克风210和加速度计230的先验语音估计。例如,如果使用者佩戴了耳塞120,则加速度计传感器模型将始终向调节参数设计处理提供代表使用者语音的信号。这样,麦克风语音估计被此参数连续地调节。

虽然所描述的实施方案规定语音估计/表征320模块和噪声抑制器模块310驻留在耳塞120内,但是替代实施方案可以替代地或附加地规定由主设备110提供这种功能。因此,与耳塞120、130相比,这样的实施方案可以利用主设备110的明显更高的处理能力和功率预算。

耳塞120可以进一步包括未示出的其他元件,诸如另外的数字信号处理器、闪存、微控制器、蓝牙无线电芯片或等效物等。

所描述的实施方案将加速度计230用作骨传导的信号传感器。然而,替代实施方案可以通过附加地或替代地提供一个或多个入耳式麦克风来感测骨传导的信号。与加速计230不同,这种入耳式麦克风将接收在耳道内回荡的骨传导的信号的声学回响,且还将接收穿过耳塞泄漏到耳道内的外部噪声。然而,本发明人认识到,耳塞提供了这种外部噪声的显著遮挡,此外,当采用主动噪声消除(ANC)时将进一步降低外部噪声在耳道内部的水平,而不会显著地降低存在于耳道内部的骨传导的信号的水平,以使得根据本发明,入耳式麦克风的确可以捕获非常有用的骨传导的信号来协助语音估计。另外,这样的入耳式麦克风可以在硬件级别上与外部麦克风210匹配,且可以捕获比加速度计更宽的频谱,因此使用一个或多个入耳式麦克风会给加速度计的使用带来明显不同的实施挑战。

所要求保护的电子功能可以通过安装在印刷电路板上的分立组件或集成电路的组合或专用集成电路(ASIC)来实现。无线通信应理解为是指一种通信、监视或控制系统,其中电磁波或声波通过大气或自由空间而不是沿着电线承载信号。

贯穿附图,相应的附图标记指示相应的组件。

本领域技术人员将理解的是,在不背离如宽泛描述的本发明的实质或范围的情况下,可以对如特定实施方案中所示的本发明进行多种变化和/或修改。因此,当前实施方案在所有方面都应被认为是例示性的而非限制性的。

27页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:带有可卷起的膜片的扬声器

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类