语音感知音频系统及方法

文档序号:914642 发布日期:2021-02-26 浏览:1次 >En<

阅读说明:本技术 语音感知音频系统及方法 (Voice perception audio system and method ) 是由 蒂莫西·德格雷伊 里拉内·于盖 于 2018-12-07 设计创作,主要内容包括:一种用于使佩戴耳机的用户在收听音乐或任何其他音频源的同时感知外部声音环境的语音感知音频系统和方法。可调整声音感知区赋予用户灵活性,以避免听到远距离的语音。能够在频域中分析外部声音,以选择振荡频率备选项,并且能够在时域中分析外部声音,以确定振荡频率备选项是否为感兴趣的信号。如果确定被导向至外部声音的信号是感兴趣的信号,则使外部声音与来自音频源的音频混合。(A speech aware audio system and method for enabling a user wearing headphones to perceive an external sound environment while listening to music or any other audio source. The adjustable sound sensing zone gives the user flexibility to avoid hearing distant speech. The external sound can be analyzed in the frequency domain to select an oscillation frequency alternative, and in the time domain to determine whether the oscillation frequency alternative is a signal of interest. If it is determined that the signal directed to the external sound is the signal of interest, the external sound is mixed with audio from the audio source.)

语音感知音频系统及方法

技术领域

本发明涉及一种使佩戴耳机的用户在收听音乐或任何其他音频源的同时感知外部声音环境的系统和方法。

背景技术

语音活动检测(VAD),也被称为话语活动检测或话语检测,是检测人类话语的存在或缺失的话语处理中所使用的技术。已知各种VAD算法。已知VAD所使用的常规算法方案在输入信号有噪声时会遇到检测分值较低的问题。

在包括话语识别的许多话语处理应用中,VAD扮演话语压缩与降噪系统的角色。在图1中,描述了由下列项构成的常规VAD的基本原理,即,从成帧的输入信号提取特征,然后,基于从最近几帧获取的信息,适配多维阈值,并且进行特征与该阈值的比较,以确定帧是话语还是噪声。通常,通常存在确定拖尾的最后阶段,其目标是确保句子中出现包括正常短的静默期的连续话语流。一般,选择10ms至40ms持续时间之间的帧长度,因为此长度与话语被视为统计静止的时间窗对应。

检测话语的标准是找到语音部分,由于这些是周期性并且具有算法中使用的数学上限定良好的结构。另一解决方案是使用话语的统计模型、从所获取的数据采样中估计其参数、并且使用确定理论的经典结果进行帧话语/噪声分类。

图2示出了在时域方法中用于检测话语的技术。这些技术包括短时能量、过零率、互相关、周期性测量、线性预测分析,以及音高估计。图3示出了频域方法中用于检测话语的技术。这些技术包括子带能量、维纳熵(Weiner entropy)、倒谱、能量熵、调和比、以及频谱峰值分析。常规的VAD算法使用时域或频域特征或者使用统计或其他具体的算法机制。一些常规的VAD使用包括时域或频域中的长期频谱发散、倒谱峰、MEL-滤波频谱、以及频谱-时间调制的一系列功能。

已知当噪声量增加时,VAD性能会下降。常规解决方案是在VAD系统前添加降噪(NR)模块。当利用降噪(NR)对话语信号进行预处理时,一种已知的局限性是可能会出现音乐噪声,这种音乐噪声会被添加至输入信号,从而可能误导VAD模块并且建立错误的检测。

利用常规NR模块的另一缺点是难以设置甚至无法设置使系统针对不同的噪声级别和类别正常工作的内部参数。例如,如果本领域技术人员选择一组内部参数来解决非常嘈杂的环境,则无声和安静的环境中将出现相对严重的失真。

为了克服不仅影响音频质量、而且可能甚至危害VAD模块性能的上述缺点,希望提供一种用于检测噪声级别环境并且允许对NR内部参数进行动态设置的提高机制。

希望提供一种允许用户在收听音乐或任何其他音频源的同时感知外部声音环境的提高的抗噪VAD方法及系统。

发明内容

本发明涉及一种用于使佩戴耳机的用户在收听音乐或任何其他音频源的同时感知外部声音环境的语音感知音频系统和方法。本发明涉及一种给用户提供灵活性、以避免听到远距离的语音的可调整声音感知区的概念。本发明的系统能够使用美国专利公开号2016/0241947中描述的耳机的特征,特此,通过引用将其结合于本申请中。在一个实施方式中,耳机包括具有四个输入麦克风的麦克风阵列。这提供了空间声音获取选择性并且允许将麦克风阵列转向感兴趣的方向。使用波束成形方法并且与类似本发明的降噪系统、分数延迟处理、以及语音活动检测(VAD)算法的不同技术组合,提供了嘈杂环境中具有提高性能的新音频架构。

本发明包括含降噪和阵列处理的不同信号处理模块。具体地,提供对噪声级别进行估计的过程,该过程被称为噪声感测(NS)。该过程对降噪参数进行适配,以使得输出声音质量被优化。一旦检测到语音,则能够在不干扰用户所收听的音乐或其他音频源的情况下,经由耳机信号向用户发出警报。通过将外部语音与耳机引导信号混合而完成此操作。

使用这样一种混合机制,即,能够考虑心理声学特性并且允许在使清晰度最大化的同时、在不降低音乐信号的音量的情况下进行最终混合。

本发明的语音感知音频系统的典型应用能够出现在下列情景中:语音,例如,人的呼喊、谈话或打电话、婴儿哭叫、公共交通通告;铃声和警报,例如,某人在按门铃、激活门铃交付包裹、房屋、汽车、以及其他警报;以及其他,例如,汽车喇叭、警车及救护车鸣笛、以及口哨。通过参考下列附图将对本发明进行更为全面地描述。

附图说明

图1是语音活动检测(VAD)的现有技术原理的示意图。

图2是示例性的现有技术时域话语检测技术的示意图。

图3是示例性的现有技术频域话语检测技术的示意图。

图4是其中根据本发明的教导的使感兴趣的外部语音与用户音乐混合的语音感知音频系统的示意图。

图5是本发明的语音感知音频系统中所使用的可调整声音感知区的示意图。

图6是本发明的耳机中所使用的麦克风阵列的示意图。

图7是根据本发明的教导的语音活动检测的方法的流程图。

图8A是话语信号的示意图。

图8B是对数维纳熵的示意图。

图8C是简化的对数维纳熵的示意图。

图9是包括降噪(NR)周围的数据缓冲器组织和语音活动检测(VAD)模块的语音活动检测架构系统的示意图。

图10是拖尾过程的状态机图的示意图。

图11A是128缓冲长度的话语信号的示意图。

图11B是图11A中所示的信号的对数维纳熵的示意图。

图11C是图11A中所示的信号的简化对数维纳熵的示意图。

图12A是258缓冲长度的话语信号的示意图。

图12B是图12A中所示的信号的对数维纳熵的示意图。

图12C是图12A中所示的信号的简化对数维纳熵的示意图。

图13A是128缓冲长度的话语信号的示意图。

图13B是图13A中所示的信号的对数维纳熵的示意图。

图13C是图13A中所示的信号的简化对数维纳熵的示意图。

图14是根据本发明的教导的自适应降噪模块的示意图。

图15A是包括噪声的输入信号的示意图。

图15B是麦克风左前方与麦克风右前方的相差的示意图。

图15C是麦克风右前方与麦克风右后方的示意图。

图16是使用微处理器阵列提高包括定位和波束成形的语音活动检测(VAD)输出质量的方法的流程图。

图17是针对漫射噪声提高语音活动检测(VAD)的鲁棒性的示意图。

图18是针对感知区中的不需要的语音提高语音活动检测(VAD)的鲁棒性的方法的流程图。

图19是用于实现包括自适应频谱均衡的语音感知音频系统的方法的流程图。

图20A是具有话语的不良清晰度的音乐的图表。

图20B是具有使用自适应EQ概念的话语的良好清晰度的音乐的图表。

图21A是话语的不良清晰度的示意图。

图21B是使用基于HRTF的清晰度提高概念实现话语的良好清晰度的示意图。

图22是使用基于压缩处理的专用(ad-hoc)处理的方法的流程图。

图23A是产生不良清晰度的处理的示意图。

图23B是使用基于压缩的处理而实现专用处理来提供良好的清晰度的示意图。

具体实施方式

现更为详细地参考本发明的优选实施方式,附图中示出了本发明的优选实施方式的实施例。如果可以,贯穿附图和描述,将使用相同的参考标号表示相同或类似的部件。

本发明的语音感知音频系统允许佩戴耳机的任何用户在收听音乐或任何其他音频源的同时感知外部声音环境。在一个实施方式中,语音感知音频系统能够实现为具有4个输入麦克风的耳机,如在美国专利公开号2016-0241947中描述的。当将来自耳机麦克风的信号识别为所需信号时,能够通过听语音或所限定的一组感兴趣的声音而提示用户。当不将来自麦克风的信号分析为语音或任何感兴趣的信号时,收听者将不被麦克风信号干扰,而只会听到引导信号。

图4示出了当人B靠向佩戴耳机12的人A并且利用音频输出收听音乐或观看电视屏幕等时的语音感知音频系统10的可能情景。一旦人B与人A交谈,将立即通过布置在耳垫14中的一个或多个麦克风15对语音进行检测并且使语音与引导信号混合,以使得人A能感知人B所说出的话语消息。为了不被扰乱,仅当外部声音是诸如人类语音等所需时,才需要将外部声音与音乐混合。语音感知系统10还能够检测其他典型的声音,例如,警报、铃声、喇叭声、闹钟、鸣笛声、鸣钟声、以及口哨声。

如图5所示,能够将被称为可调整声音感知区(ASAZ)的子系统与语音感知音频系统10配合使用。用户可以通过与耳机12相关联的应用程序接口(API)限定围绕其头部的可变球半径,以使得语音感知系统10仅对在限定的球半径内的正常语音做出反应,而非低语音。而将不会检测到位于所限定的球之外的任何其他正常语音(无呼喊声)。能够将语音感知系统12的三个调谐级别限定为:大、中和小。大的调谐与具有较大长度的半径RL对应,中的调谐与具有小于半径RL的中等长度的半径RM对应,并且小的调谐与具有小于半径RM的较小长度的半径RS对应。例如,半径RL的长度可以在约75英尺至约30英尺的范围内,半径RM的长度可以在约50英尺至约20英尺的范围内,并且半径RS的长度可以在约25英尺至约一英尺的范围内。

参考图4,语音感知音频系统10包括降噪(NR)方法或降噪(NR)算法来估计噪声级别,以使得语音感知音频系统10能够快速地调谐至降噪(NR)算法的任何内部参数。这为宽范围内的噪声级别提供最佳音频质量。还使用该过程(被称为噪声感测(NS))来动态地调谐灵敏阈值或其他内部参数并且实现最佳性能。

在一个实施方式中,耳机12具有位于耳垫14中的一个或多个全向麦克风15。如图6中所示,耳机12能够包括四个全向麦克风15。耳机12装配有矩形或三角形阵列的四个全向麦克风15。该配置允许通过成对地对齐或甚至在对角线上组合元件而使用不同的虚拟方向性/心形麦克风。全向麦克风15位于耳垫14的下部16、安装在指定的位置,以获得用户周围的环境的360°音频图像。使用阵列处理算法,可以确定诸如扬声器的位置等感兴趣的定位。一旦执行了定位,用户就可以轻松地使等效天线辐射图案指向该方向。由此,能够减少全方向麦克风15处的噪声能量并且增强外部语音。波束成形的影响对下述所述降噪的性能具有正面影响。一个或多个扬声器17能够与麦克风15相关联。在可替代地实施方式中,耳机12能够包括与任何类型的结构相关联的任何类型的扬声器阵列。

图7是能够在语音感知音频系统10中实现的语音活动检测20的方法的示意图。使用频域和时域实现本发明。在框图22中,频域能够用于检测周期性的图案。将框图22称为第一猜测步骤。框图22是粗略的确定过程,其中,目标是选择潜在的振荡频率备选项。在框图22之后,能够执行框24。框24可以是时域过程,以检查所选择的振荡频率备选项是否被确认。对于框图22中的频域猜测步骤,并且为了抗噪,能够使用较大的缓冲器与相对低的阈值,以使得错误的否定确定率最小化。如果所检测的振荡频率备选项是错误的,则在时域中使用频域第一步骤分析所使用的帧内的子帧上运行的时域算法分析的递归结果执行框24中的第二和最终确定过程。

在框图22的实施中,使用维纳熵或频谱平坦度来减少两个连续过程的运算负担。输入缓冲器的FFT也可以用于下述所述降噪。

在框图24的实施中,使用音高估计算法。在一个实施方式中,音高估计算法基于健全的YIN算法。能够将估计处理简化成仅检测处理,或能够使用完整的算法确保连续帧之间的已估计音高值的连续性,以使得算法针对错误的鲁棒性更高。

对帧内的子帧的连续确定加之较大帧之间的重叠使得算法(被称为WEYIN(维纳熵YIN)算法)的准确性提高。

在VAD的一个实施方式中,利用框图22中的频域的特征的不同组合能够完成方法,以检测在框24中进行时域的重新分析的潜在音高语音帧备选项。

维纳熵给定如下:

能够使用下列式子进行计算:

这产生下列等式:

能够计算不同频谱带Bi内的维纳熵,i=1、...、L。因此,通过L标量的计算完成备选项选择处理:

在阈值确定步骤之后,其被发送至选择处理:

一旦帧被指定为话语存在的备选项,则在框24中开始时域检查。YIN算法能够用于长度为M的K个子帧,以使得:

N=KM,

其中:

N=2L

是频谱域中所使用的帧长度并且选择为2的幂,以能够使用FFT。

YIN算法从音高估计算法转换成一种音高检测。出于此目的,将频谱带[FP min,Fp max]限定为与产生时间值间隔[τmin,τmax]的最小和最大预期音高频率值对应:

并且

其中,FS是这样一种采样频率,即,频域处理所使用的原采样频率的一部分,分别是四舍五入运算符。例如,如果 并且FS=8kHz,则[τmin,τmax]=[20,115]。

将时间延迟的下列矩阵限定为如下:

其中,<>是最近整数运算符的四舍五入并且(0:m)=(0 1 2 ... m-1 m)。重新考虑上述实施例:

通过这种选择,将根据矩阵Δ的第一行和第二行的滞后值完成YIN差函数的运算。该矩阵的第一列将给出偏离差函数运算的相对指标。

对于当前帧,限定长度为H的连续间隔的一组差函数值。其被组织成具有多个行和列的矩阵,限定如下:

通过其类属元素限定YIN差矩阵dd,如下:

则视为:

并且数量:

算法通过下列计算而重新开始:

并且查找最小值:

rr(i)=min(Dn(τmin:τmax))

将其与阈值进行比较:

如果该最小值小于阈值,则进行针对子帧i的话语存在βi=1的确定。

一旦对当前帧中的连续K个子帧完成确定,则通过进行多数表决而判定完整帧的话语存在:

其中,可以选择(但并不局限于)Q为k/2。

在一个实施方式中,在框图22中能够使用维纳熵简化法。为了避免平方根矢量运算:其成本昂贵,选择使用:

其中:

图8A示出了话语信号。图8B示出了维纳熵的对数。图8C示出了简化维纳熵的对数。结果表明简化维纳熵是语音话语的有效标识符。

在一个实施方式中,在框24中能够使用YIN简化法。对于时域部分,能够使用下列YIN版本:

其中,

在该最后等式中,平方差函数被绝对值取代,以减少运算次数。

两个连续帧之间存在J采样的重叠(话语存在的确定仅对于J第一采样有效)。

在时间i+1,如果rk(i+1)是矩阵ddi+1的第k行,则我们得到:

其中,rm(i+1)是矩阵ddi+1的第m行,并且ddi(2:nRows,:)是从第2行至第n行、与当前帧i相关联的dd提取的矩阵。

从之前的等式中,本领域技术人员易于推断:

或:

Ddi+1=Ddi-r1(i)+rnRows(i+1).

因此,在计算其行的和之前,不需要对矩阵dd的全部元素进行计算。替代地,通过计算rnRows(i)和nnRows(i)而对矢量Dd(i)进行更新。

图9是与噪声感测架构系统50相结合的语音活动检测架构系统30的方法20的实施的示意图。如图1中所示,能够在语音感知音频系统10中实现语音活动检测(VAD)架构系统30和噪声感测架构系统(NS)50,以提供噪声健全的语音活动检测(VAD)。参考图9,输入缓冲器31接收输入信号29。快速傅里叶变换(FFT)与输入缓冲器31中的输入信号29的浓度决定帧32。在维纳熵模块33中能够使用帧32来检测备选项。如图7中所示,维纳熵模块33执行框图22。

参考图9,还能够将帧32分割成连续的K个子帧34。在YIN音高检测模块36之前,能够对子帧34使用下行采样过程35。YIN音高检测模块36执行如7中所示的框24。参考图9,维纳熵模块33和YIN检测模块36确定决定性的子帧37。在确定话语存在模块40之前,能够将决定性子帧37与来自其他子帧38的确定引入至拖尾模块39中。在句子内,本领域技术人员能够找出具有低能量的区域并且本发明的方法20可以将其视为非话语帧。如果存在过多的干扰,则输出的收听将是恼人的。通过使用拖尾模块39能够消除干扰。还能够将帧32转发至噪声感测(NS)架构50。

图10是拖尾模块39中所使用的状态机60的示意图。通过圆圈61描述代表拖尾模块输出处的话语存在的永久性状态1,并且通过圆圈63描述代表拖尾模块输出处的话语存在的永久性状态0。来自圆圈61和框64及圆圈63和框65的每个箭头确定(0或1)均在处理帧之后。如果确定与之前的确定相同,则分别针对话语存在或缺失对XY或XN进行累积。如果否,则将其重置为其初始值0。一旦这些变量中的一个变量等于NY或NN,则激活从一种状态至另一状态的切换。

在该方法或算法中,decVad表示来自图9中所示的话语决策模块40的输入决策。如果本领域技术人员限定图10中的状态机的位置指数idx及与该指数的状态相关联的输出决策decHov值,则状态[0]=0并且状态[1]=1。

图11至图13示出了输入缓冲数据对维纳熵值的影响。图11A、图12A、以及图13A分别示出了缓冲长度为128、256、以及512的话语信号。图11B、图12B、以及图13B分别示出了缓冲长度为128、256、以及512的对数维纳熵。图11C、图12C、以及图13C分别示出了缓冲长度为128、256、以及512的简化对数维纳熵。已知输入数据缓冲长度的增加对维纳熵曲线的平稳化具有影响。

在一个实施方式中,噪声感测(NS)架构50对全部可能的噪声级别进行优化,以在预防音乐噪声出现魔幻的同时尽可能快地提供降噪(NR)音频质量输出。如图14中描述的,在自适应降噪(NR)模块70中能够使用噪声感测(NS)的输出51。使用噪声能量感测架构系统72利用模块73和降噪模块74对结合组合器75输出的噪声进行估计。通过驱动选择降噪(NR)算法参数的降噪模块74对噪声的量进行估计。距离计算模块76能够确定所感测的噪声与耳机12之间的距离。

在拖尾确定模块77中使用来自距离计算模块76的输出。为了控制噪声级别状态之间的切换频率,将三种噪声级别状态限定成拖尾确定模块77中所确定的噪声、中等噪声、以及无噪声,以使得语音感知音频系统10不从突发或脉冲式的噪声切换。自适应降噪模块78对来自拖尾确定模块77的信号进行处理来降噪。使原信号G180与经过处理的信号82G2在混合器84中混合来提供干净的信号85并且利用自适应凸线性组合传输至语音活动确定(VAD)架构系统30:

y=G1x1+(1-G1)x2,

其中,x1是原麦克风输入,x2是NR模块输出,并且y是VAD模块的输入。

G1取决于在时域或频域中计算的均方根(RMS)值ξ。

能够对NR算法及其对应的内部设置参数进行调整,其目标是在最大化地减少环境噪声的同时将音乐噪声与音频缺陷限制为最小化。

在一个实施方式中,语音感知音频系统10能够包括具有麦克风阵列并且例如为四声道过程的耳机12。多声道过程的优点在于其带来了提高效率的非创新型特征。因为将扬声器定位在空间中,所以其语音声音至麦克风阵列的传播遵循与漫射噪声相对的相干路径。通常,在一个麦克风上拾取的语音是记录在第二个麦克风上的延迟副本。图15A至图15C示出了相差模式。信号是所描述的时间如下的四声道记录麦克风阵列第一轨迹:一个扬声器,在前方(约2秒至约6秒);以及两个扬声器,一个在前方并且另一个在后方(约6秒至约10秒)。将噪声人为地添加至如图15A中所示的输入信号。图15B中示出了MLF与MLB(宽边)之间的相差并且图15C中示出了MRF与MRB(端射)I之间的相差。其表明对于两个阵列,当话语存在或缺失时,相差模式看起来是不相似的。

麦克风阵列能够用作在增强来自所选择的方向的声音的同时使得来自非期望方向的声音衰减的空间滤波器。使用麦克风阵列能够帮助提高声音质量和/或增强VAD噪声鲁棒性以及检测准确性。

图16示出了包括接收噪声信号并且确定干净信号的噪声感测架构系统50的语音感知音频系统10的实施。在语音活动检测架构系统30中使用干净的信号。麦克风阵列100能够结合定位模块102和波束成形模块104使用。

一旦在麦克风阵列100中的一个麦克风15的一个方向上检测到语音,则定位模块102对所到达的扬声器方向进行定位。波束成形模块104使检测语音的麦克风转向所确定的方向并且由此使来自其他方向的噪声衰减。波束成形模块104通过对外部噪声进行统计和空间上的衰减而提供如图6中所示的被交付至耳机12的扬声器17的增强语音信号。

在可替代的实施方式中,噪声来自所有的方向。例如,噪声能够出现在列车、飞机、船只等所有的方向上,其中,由于客舱声音混响,噪声主要源于无精确达到方向的电动发动机。相反,感兴趣的扬声器始终位于单一的空间点中。由于靠近扬声器,例如,最多几米远,混响几乎不是问题。

图17示出了包括接收噪声信号并且确定干净信号的噪声感测架构系统50的语音感知音频系统10的实施及利用噪声与信号之间的差异的优点的麦克风阵列的使用。与降噪(NR)模块70和语音活动检测架构系统30并行,将来自诸如例如前方和后方等不同方向的传入信号接收在波束成形模块104中并且在相似模块106中进行比较。如果话语存在,考虑不能将扬声器同时放置在多个位置上,观察两个频谱之间的差异。如果话语缺失,考虑无论耳机所遵循的方向如何,噪声几乎相同,则能够观察频谱之间较小的差异。将在相似模块106中确定的信号与语音信号及来自语音活动检测架构系统30的可能缺陷在混合器107中进行组合。使用基于相似性的该特征能够帮助消除用于增强其对噪声的鲁棒性的语音活动检测架构系统的错误警报。

图18示出了在用户周围放置多个扬声器的情况下的包括取消不需要的语音的语音感知音频系统10的实施方式。用户希望用一个扬声器从指定的方向说话,例如,前方。麦克风阵列100能够使用感知区108来去除波束成形模块104中来自非期望方向的所有信号,以在进入降噪(NR)模块70和语音活动检测架构系统30中之前,仅将信号预处理成来自感知区的噪声信号。

优选为语音感知音频系统10确保高的清晰度。由于用户被外部语音干扰,所以希望保持音乐级别恒定并且在确保用户清晰地收听语音消息的同时添加外部语音。通过控制语音错误警报检测及收听条件能够实现该优点。语音活动检测架构系统30能够确定语音错误警报。在一个实施方式中,如图6中所示,本发明提供通过语音活动检测架构系统30检测的混合外部话语及来自耳机12的音乐。

希望确保通过耳机12交付的扬声器语音易于被用户理解。在一个实施方式中,在检测并且传输话语的同时,静音或至少降低音乐声音级别。用于提高语音清晰度的混合战略能够包括自适应频谱均衡化、空间分离、以及能够单独或一起处理的演播启发式专用处理。

收听与音乐混合的话语信号大大地降低了其清晰度,尤其当音乐已经包含声音信号时。许多来源证明,增加话语基础频率的信噪比(SNR)能增加话语的理解度。由此扩展,所有谐波的SNR越高越好。

在本发明中,可获得来自语音活动检测(VAD)架构系统30的语音及用户通过耳机12播放的音乐的频谱和时间信息。在一个实施方式中,能够对两个信号的能量进行比较,尤其是基础频率及相关联的谐波频谱带,并且当与音乐相比较时,如果其相对较低,则增强来自语音活动检测(VAD)架构系统30的信号。

图19示出了包括自适应频谱均衡方法200的语音感知音频系统10的实施。每次对语音进行检测时,能够执行自适应频谱均衡方法200。在框图201中,确定音乐的频谱密度功率的估计值。在框图202中,确定话语的频谱密度功率的估计值。在框图203中,从框图202确定话语的基础频率与格式的估计值。在框图204中,计算框图203中的话语格式与框图201中的音乐之间的能量比,以确定每个频谱带的语音与音乐比(VMR)。在框图205中,利用从框图204确定的低VMR对频谱带应用基于FFT的均衡器(EQ)。

图20A示出了与具有不良清晰度的音乐频谱302相比较的话语频谱301的功率和频率的图表300。对于其中语音格式的能量相对于通过框图204确定的音乐较低的频谱带304,在框图205中应用基于FFT的均衡器来进行增强。图20B示出了与增强之后具有良好清晰度的音乐频谱302相比较的话语频谱301的功率和频率的图表300。

图21A至图21B示出了包括空间分离400的语音感知音频系统10的实施。该战略假设,一旦检测到感兴趣的信号,则能够使用嵌入式麦克风阵列对后者进行定位。例如,经由基于交叉相关的方法。图21A通过位置402处的单声道话语和位置403处的立体声音乐示出了不良清晰度。根据所达到的扬声器方向,对通过语音活动检测(VAD)30交付的信号应用基于HRTF的滤波器,以根据实际扬声器位置(3D效果)对其进行外部化。

这允许用户401在空间中对声音信号进行分离。如示出良好清晰度的图20B所示,在位置406处,在头部中心处能够感知到音乐,而在位置404处,在头部之外能够感知到话语。同时,能够将音乐临时从立体声切换至单声道。已知恢复空间听觉能够明显增强话语的清晰度。

图22示出了包括基于压缩处理500的语音感知音频系统10的实施,以能够使用专用处理算法在与音乐混合时增强语音的存在性。在框图501中,复制并且压缩语音信号,并且然后,将压缩信号复制到原语音信号。在框图502中,对生成的信号应用光饱和。在框图503中,应用专用均衡器。

在框图501中,压缩减少音素间的强度差,以使得时间掩蔽减少并且话语响度增加。压缩与原语音信号的和确保语音仍然听起来是自然的。框图502具有更多谐波。例如,已知基础频率(F0)以及F1和F2谐波信息对于元音识别和辅音感知至关重要。框图5033旨在通过去除低频噪声并且增加感兴趣的频谱带而使语音信号干净,例如:低截止-18dB/倍频程高至70Hz、约250的-3dB、约500Hz的-2dB、约3.3kHz的+2.5dB、以及约10kHz的+7dB。

图23A示出了语音信号601的增益602在混合器605中与音乐信号604组合、以向驱动器提供输入606的不良清晰度。图23B示出了实现基于压缩处理500的系统600。对压缩模块607应用语音信号601,以提供压缩信号。在混合器608中使压缩信号与语音信号601的增益602组合。对饱和模块609应用混合器608的输出,以执行框图502的光饱和,并且对均衡模块610应用混合器608的输出,以应用专用均衡器。在混合器612中使均衡模块610的输出与音乐信号604组合,以向驱动器提供输入614。

本发明的噪声健全VAD方法或算法使用选择-然后-检查的战略解决方案。利用允许降低噪声影响的相对较大输入缓冲器,在频域中完成第一步骤。经由多频谱带维纳熵特征检测语音话语信号存在性,并且表明在不危害典型的维纳熵的特性的情况下,如何能够降低运算复杂性。

利用YIN算法的简化版本,在时域中完成算法的第二部分,其中,音高估计被其简单的检测所取代。为了进一步降低运算复杂性,使用绝对值差代替典型的平方差。该算法沿着全部的输入帧对连续的子帧进行计算。

本发明提供一种可调整声音感知区系统的推导:使用输入信号的振幅及有助于区分用户与远处外部语音之间的一些特征,系统允许用户在其头部周围限定球形区域,其中,VAD算法考虑正常语音。如果用户与在该球形外部以正常语音音量讲话,则系统将拒绝该语音。

本发明提供噪声感测系统的推导。

降噪方法或算法以及类似VAD的其他主要模块及阵列处理算法可能遭遇的事实的是其内部设置不能容易地处理从安静情形至非常嘈杂的情形的全部可能噪声级别。为了提高我们系统的性能,推导本发明的噪声设置机制并且表明其对本发明的系统的集成如何明显地提高降噪和VAD算法的性能。确实,噪声设置允许具有包括下列内部交互式相关模块的自调整内部参数的再配置算法架构:VAD;降噪;使用麦克风阵列系统的语音定位与波束成形;以及不同算法的计算复杂度降低。

本发明示出了如何能够明显地降低计算复杂性负担。这降低了功耗或赋予进一步处理的更多空间。本发明提供音频混合方案的推导,即,在增加语音清晰度的同时保持音乐音量恒定的约束条件下完成。

本发明的可替代实施方式可以实现为预编程硬件元件、其他相关部件、或硬件与软件部件的组合,包括硬件处理器。可以结合包括硬件和/或软件部件的专用或通用处理器设备、或者被适配成具有处理能力的专用或通用计算机实现本发明的实施方式。

实施方式还可以包括用于执行或具有计算机运行指令、数据结构、和/或其上存储的数据信号的物理计算机可读介质和/或非易失性计算机可读介质。该物理计算机可读介质和/或非易失性计算机可读介质可以是通过通用或专用计算机访问的任何可用介质。例如但不限于,该物理计算机可读介质能够包括RAM、ROM、EEPROM、CD-ROM、或其他光盘存储器、磁盘存储器、或其他磁性存储设备、其他半导体存储介质、或能够用于存储计算机运行指令、数据结构、和/或数据信号形式并且能够通过通用或专用计算机访问的所需数据的任何其他物理介质。在通用或专用计算机内,非易失性计算机可读介质能够包括诸如通过计算机中寄存的电路等将数据信号从计算机的一个部分传送至另一部分的电磁装置。

当通过网络或另一通信连接(硬接线、无线、或硬接线或无线的组合)将信息传输或提供至计算机时,用于发送和接收计算机运行指令、数据结构、和/或数据信号的硬接线设备(例如,电线、电缆、光纤、电子电路、化学等)应被恰当地视为物理计算机可读介质,而用于发送和/或接收计算机运行指令、数据结构、和/或数据信号的无线载波或无线介质(例如,无线电通信、卫星通信、红外通信等)应被恰当地视为非易失性计算机可读介质。上述组合还应包括在计算机可读介质的范围内。

例如,计算机运行指令包括致使通用计算机、专用计算机、或专用处理设备执行特定功能或特定一组功能的指令、数据、和/或数据信号。尽管不要求,然而,此处已经在计算机运行指令的一般上下文中描述了本发明的各方面,诸如在网络环境和/或非网络环境中通过计算机运行的过程模块等。通常,过程模块包括例程、过程、对象、部件、以及执行具体任务或实现具体抽象内容类型的内容结构。计算机运行指令、相关联的内容结构、以及过程模块表示用于执行此处公开的方法的各方面的过程代码的实施例。

实施方式还可以包括用于在本发明的系统中使用的计算机过程产品,计算机过程产品具有包含其上存储有计算机可读过程代码的物理计算机可读介质,计算机可读过程代码包括计算机运行指令,当通过处理器运行时,致使系统执行本发明的方法。

应当理解的是,上述所述实施方式仅示出了多个可能具体实施方式中的少量实施方式,其能够代表本发明的原理的应用。在不偏离本发明的实质和范围的情况下,本领域技术人员能够根据这些原理容易地构思多个及各种其他布置。

33页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:用于噪声抑制话音检测的线性滤波

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!