语音隐私系统和/或相关联的方法

文档序号:1439832 发布日期:2020-02-14 浏览:16次 >En<

阅读说明:本技术 语音隐私系统和/或相关联的方法 (Voice privacy system and/or associated method ) 是由 阿列克谢·克拉斯诺夫 于 2018-03-14 设计创作,主要内容包括:本发明的某些示例性实施方案涉及语音隐私系统和/或相关联的方法。本文所述的技术通过例如将原始语音信号的屏蔽副本叠加到该原始语音信号上来干扰感知的语音的可理解性,其中该信号的某些部分通过时间延迟和/或振幅调节来模糊,其中该时间延迟和/或振幅调节随时间推移而振荡。在某些示例性实施方案中,可在与话音素、辅音声音、音素、以及/或者语音的其他相关或不相关的信息承载的语音构建块对应的频率范围内生成原始信号的模糊。除此之外或作为另外一种选择,可将特定于房间或区域的低频范围内的烦扰性混响从副本信号中“切除”,而不增大或不显著增大感知的响度。(Certain example embodiments of this invention relate to voice privacy systems and/or associated methods. The techniques described herein interfere with the intelligibility of perceived speech by, for example, superimposing a masked copy of the original speech signal onto the original speech signal, where certain portions of the signal are obscured by time delays and/or amplitude adjustments that oscillate over time. In some exemplary embodiments, ambiguities of the original signal may be generated in frequency ranges corresponding to the phonemes of phonemes, consonantal sounds, phonemes, and/or other related or unrelated information-bearing speech building blocks of speech. Additionally or alternatively, disturbing reverberation in the low frequency range specific to a room or region can be &#34;cut out&#34; from the replica signal without increasing or not significantly increasing the perceived loudness.)

语音隐私系统和/或相关联的方法

本发明的某些示例性实施方案涉及语音隐私系统和/或相关联的方法。更具体地讲,本发明的某些示例性实施方案涉及语音隐私系统和/或相关联的方法,该语音隐私系统和/或相关联的方法通过例如将原始语音信号的副本叠加到语音信号上来干扰语音的可理解性,其中该信号的部分被相位延迟和/或调节并且/或者振幅调节,其中时间延迟和/或振幅调节随时间推移而振荡。

背景技术和

发明内容

保护语音隐私已成为现代工作场所日益重要的任务。讲话的人希望他们的语音内容局限于他们的办公室或会议室。另一方面,无意的听者不希望被不必要的口头信息所打扰。在除办公室之外的环境中(包括例如家庭、图书馆、银行等),在人们常常意识不到他们的语音对他人有干扰的地方,来自他人的刺激性语音也是有问题的。

事实上,持续的烦扰性声音会引发多种潜在的负面影响。这些负面影响的范围可以从组织的生产率损失(例如,不能维持和/或中断、集中)到人的医疗问题(例如,因烦扰性声音所致的头痛发作、应激、增加的心率等),甚至到寻找新工作环境的强烈欲望。恐音症是与声音和不愉快的事物的关联有关的习得性病症,也是不时发生的。一些人对某些声音和侵入式语音表现出声音过度警觉性或过敏性。

在许多环境中,声音烦扰通常与响度、突然性、高音调有关,并且就语音声音而言,还与语音内容有关。在许多情况下,语音或噪声中的某些成分使其特别具有干扰性或刺激性。对于语音内容,无论音量如何,人们都倾向于尽力听到所说的内容,而这已被发现会潜意识地增加烦扰。也就是说,一旦人们意识到有人在说话,经常会非自愿地涉入,从而增加一种潜意识的烦扰。

人们经常受到高频率(例如,2,000-4,000Hz范围内的声音)的刺激。这些声音无需具有高强度即可被感知为是响亮的。就这一点而言,图1是示出了在恒定等级上感知的人类听觉的曲线图,其绘出了声压级与频率的关系。如图所示,图1中的“相等响度声音曲线”显示,具有高声压级的较低频声音通常以与具有较低声压级的较高频声音相同的方式被感知。通常,刺激随噪声的音量而增大。

声波(包括语音)主要通过空气的交替压缩和稀疏以纵向方式传播。当波撞击壁时,分子的变形在壁的外部产生压力,继而产生二次声音。

应当理解,将期望的是,为至少一些环境设计具有噪声消除(包括语音干扰特性)的壁。一些建筑材料(包括玻璃)是较差的隔音体。同时,玻璃的使用通常是有利的,因为它在办公室之间提供了极好的视觉连接性,并且可有助于员工的参与性。因此,应当理解,将期望的是,为这些环境中的至少一些设计具有噪声消除特性(包括语音干扰特性)的光学透明壁。

隔音窗是本领域已知的。一种主流方法涉及增加壁的声音传输等级(STC)。STC是壁的声音衰减程度的整数评级。它针对整个人类听觉范围内的16个频率加权。STC可例如通过以下方式来提高:使用与双层玻璃壁相结合的特定间距以便使声音干扰性地谐振;通过增加玻璃的厚度和/或使用层压玻璃来增加单层或双层壁的STC。

然而,遗憾的是,这些技术需要付出代价。例如,增加单层玻璃的厚度仅允许适度的消音,同时还会增加成本。使用双层玻璃虽然更有效,但通常需要使用至少两块较厚(例如,6-12.5mm)的玻璃板片。这些方法还通常需要在壁构造中具有高容差,并且需要使用特殊的易弯机械连接件以避免侧翼效应。此类厚度的玻璃沉重且昂贵,并且会导致高安装成本。

此外,双层壁通常主要适用于低频声音。这会将它们的有效性局限于较少数量的应用,诸如,局限于外壁以抵消喷气飞机和汽车发动机的低频噪声,海港、铁路等的噪声。同时,导致烦扰和语音识别的大多数语音声音都在1800+Hz的范围内。因此,将期望的是,在该较高频率范围内实现噪声消除,例如,以便帮助阻挡刺激性成分并提高语音隐私。

一些声学解决方案着重于声音屏蔽,而不是减少较高频噪声。例如,各种频率的声音可通过扬声器以电子方式重叠,使得“在原始噪声的上面”提供额外的声音。声音屏蔽可包括自然声音,范围从瀑布和雨声到火烧爆裂声和雷暴声。在这一方面也使用各种类型的人为产生的屏蔽噪声,诸如白噪声、粉色噪声、棕色噪声和其他噪声。这些声音屏蔽技术的主要目的涉及减少周围噪声的烦扰,并且此类方法确实能够掩盖刺激性。然而,遗憾的是,这也产生了额外的噪声,一些人会将其本身感知为是刺激的。上述声音屏蔽技术的一个问题在于,它们的频率位于音节(语音的构建块)的出现频率范围之外。例如,参见下文更详细地讨论的图11,其示出了正常语音模式、白噪声和一些自然声音屏蔽器的时间频率分析的结果。

在Bose耳机中使用了用于实现噪声消除的再一种示例性方法。该方法涉及寄存传入噪声并产生与所寄存的传入噪声异相的抵消噪声。尽管通过佩戴耳机将人与环境隔离比较容易,但这样做不会防止戴耳机的人制造被其他人认为是具有干扰性的噪声。也就是说,即使戴耳机的人可能在个人层面上创建了隔离环境,但在为群组创建隔离区域从而使得群组中的其他人无法听到所说的内容方面仍存在问题。此外,该概念对于壁的一个困难在于,其通常仅适用于小区域并且主要适用于连续的低频声音(诸如,发动机的轰鸣声)。其一个原因在于,只有窄频带可有效地异相调谐,并且频率越高,有效噪声消除的听觉空间就越小。

因此,应当理解,将期望的是,提供克服上述和/或其他语音屏蔽问题中的一些或全部的技术。例如,应当理解,将期望的是,提供有助于减少或以其他方式补偿对人们造成刺激和烦扰的声音(包括语音)的声学技术。

本发明的发明人已认识到,将期望的是,在诸如开放式或封闭式办公空间和/或其他环境、由具有低STC的薄壁隔离的相邻办公室、车辆(包括例如商用车和私家车,诸如小汽车、卡车、火车、飞机等)、银行出纳员办公空间、医院、警察局、会议室等的环境中,阻止语音的内容被讲话人周围的人理解。实际上,广义上讲,在现***公空间中,在声音隐私方面的要求似乎在日益增加。

当前的技术,包括上文所讨论的声音屏蔽和声音消除技术,不以语音的内容为目标,并且具体地讲不是语音可理解性干扰技术。实际上,本领域中已知的噪声屏蔽技术在根本上并非旨在在不造成大量额外烦扰的情况下有效地干扰语音。就这一点而言,本发明人已认识到,尽管人类语音的基频确实位于与可至少部分地消除的一些可用屏蔽噪声和/或范围相同的频谱中,但已发现包含信息的块却以基本上不同的频率出现。该上下文中的包含信息的块是表示声音能量突发的话音素。

因此,已认识到,将期望的是,开发旨在在不造成额外烦扰的情况下干扰语音的信息性内容的声音屏蔽技术。应当理解,屏蔽技术通常在原始语音上面添加一定量的响度。某些示例性实施方案的技术仅添加少量额外响度,例如,因为它们具体地以语音的基本提示(诸如话音素)为目标。

在某些示例性实施方案中,提供了用于干扰语音可理解性的方法。该方法包括经由麦克风接收原始语音信号;由原始语音信号生成可理解性干扰屏蔽信号;由于被生成为具有(a)相对于原始语音信号的时间延迟、(b)根据振荡频率改变的时间延迟、以及(c)调制的振幅,该可理解性干扰屏蔽信号与原始语音信号不同;以及使可理解性干扰屏蔽信号通过扬声器输出,以降低原始语音信号的可理解性水平。

本文还设想了结合此类功能的设备和系统,以及结合此类设备和系统的壁。

本文所述的特征结构、方面、优点和示例性实施方案可组合以实现另一实施方案。

附图说明

通过参考以下结合附图的示例性说明性实施方案的详细描述,可以更好和更完全地理解这些和其他特征和优点,其中:

图1是示出了在恒定等级上感知的人类听觉的曲线图,其绘出了声压级与频率的关系;

图2是在不同混响时间发生的情况的一些示例的示意图,并且示出了适用于不同混响时间的示例性应用;

图3表示在具有由三种不同材料(即玻璃、聚碳酸酯和灰板)制成的壁的可变尺寸房间中计算的T60

图4A至图4B提供了混响可具有的效应的示例;

图5是绘出了根据某些示例性实施方案的STC与T60的关系的曲线图,进一步确认了在将主动方法用于语音可理解性干扰时产生的一些优点;

图6A至图6B是根据某些示例性实施方案的结合了主动噪声语音可理解性干扰方法的声学壁组件的示意图;

图7是根据某些示例性实施方案的结合了主动语音可理解性干扰方法的另一声学壁组件的示意图;

图8A至图8B是根据某些示例性实施方案的结合了可与两个壁结合使用的主动语音可理解性干扰方法的声学壁组件的示意图;

图9是示出了用于主动语音可理解性干扰的示例性方法的流程图,该方法可与某些示例性实施方案结合使用;

图10分别示出了单话音语音和多话音语音在其顶部部分和底部部分处的话音素频率;

图11示出了不同类型的声音的话音素频率,该声音包括不同的自然声音和语音不同的声音;并且

图12是根据某些示例性实施方案的电子语音可理解性干扰设备的框图;

图13包括各种音节的频率依赖性的示例,其中每个音节包括辅音和元音;

图14是根据某些示例性实施方案的有助于减少房间中的烦扰混响的电子设备的框图;

图15是示出叠加在原始语音信号(黑色)上的示例性屏蔽信号(灰色)的曲线图;并且

图16提供了从根据某些示例性实施方案制作的样本得到的测试数据。

具体实施方式

某些示例性实施方案涉及使用主动(通过电子方式)声音混响实现语音可理解性干扰功能的声学壁组件,以及/或者制作和/或使用该声学壁组件的方法。以主动方式添加的混响有助于屏蔽源自配备有此类壁组件的房间的内部或外部的刺激性声音。在某些示例性实施方案中,这种方法包括例如帮助使原本潜在干扰性语音被感知为是不可理解的(并且因此,具有较低烦扰性)。

某些示例性实施方案向具有低STC的壁添加噪声屏蔽和语音干扰特性,从而有利地允许具有语音隐私质量的低成本、低重量解决方案。某些示例性实施方案可用在高STC壁中,例如作为进一步改善语音隐私和/或噪声屏蔽的措施。

与常用的消音和屏蔽技术相比,混响有时是有利的。例如,混响在一些情况下仅增加干扰语音或噪声所必需的响度。在一些实施方案中,不产生或仅产生最少的不必要的额外噪声。混响还有利地不限于特定的壁组件尺寸和/或几何形状,可在低频率和高频率下同样良好地工作,并且对于侧翼损耗的存在是“宽容的”(否则,侧翼损耗有时会因声音振动穿过沿入射路径的结构(诸如穿过框架连接、电插座、嵌入式灯、水管、管道系统和其他声学间隙)而妨碍声音隔离)。混响还有利地抵抗监视。由白噪声屏蔽的语音有时可能易于破译(例如,通过从信号中去除额外的随机生成的噪声),而混响难以解码,因为基本上没有参考信号(例如,它基本上是自参考的)。此外,在至少一些情况下,混响被原始语音信号激活,并且其音量被自动调节以沿循原始信号的音量。使用混响的另外有益效果涉及其干扰所谓的“击打”的能力,该“击打”是由两种不同的声音频率构成的潜在刺激性低频声音。尽管低频声音可能并不总是被听到,但其本身可以具有负面的潜意识影响。此外,从成本的角度来看,混响可能是有利的,因为它仅仅干扰语音的信息性部分,而不是试图以响度为代价完全覆盖语音。实际上,混响需要的能量经常将少于添加白噪声所需的能量。

具体地讲,当涉及语音时,某些示例性实施方案在以下方面是有效的:干扰语音的节奏,包括基频和它们的谐波;屏蔽重叠音节和元音的关键声音提示;消除人为产生的具有次阈值频率的低频声音,该次阈值频率与脑波产生不利的谐振;等等。某些示例性实施方案使用4-6Hz范围内的混响,这对应于正常英语语音中每秒发音的音节的数量。

混响时间T60是与混响相关联的一种量度。它表示声音从其初始等级衰减60分贝所需的时间。具有不同用途的房间受益于不同的混响时间。图2是在不同混响时间发生的情况的一些示例的示意图,并且示出了适用于不同混响时间的示例性应用。一般来讲,过低的T60值(例如,低混响至无混响)往往使语音声音“干枯”,并且在会议室、教室和办公室中是优选的,而过高的T60值(例如,提供大量混响)往往使语音更丰富并用在音乐厅、教堂等中。非常高的T60值使得语音无法理解。

T60可基于赛宾公式来计算:

Figure BDA0002264017510000071

在该公式中,V是体积,并且Se是房间的组合有效表面积。通过将物理面积乘以吸音系数来计算每个壁的Se,该吸音系数是因不同材料而异的示教值。下表提供了一些常用内部建筑材料的吸音系数。

Figure BDA0002264017510000072

图3表示在具有由三种不同材料(即玻璃、聚碳酸酯和灰板)制成的壁的可变尺寸房间中计算的T60

在图4A至图4B中示出了混响可具有的效应的示例。图4A表示原始语音模式,并且图4B示出了混响可具有的示例性效应。从图4A至图4B可以看出,混响通过(除了其他方面之外)填充话音素之间的“空间”来干扰语音清晰度,该话音素可被认为是声能的群集。将信号添加到这些语音构建块(即元音和(尤其是)辅音)并干扰话音素之间的空间有助于使语音不可理解并且降低语音的潜在不利的心理声学效应。

如上所述,某些示例性实施方案可使用主动方法来触发混响以用于噪声屏蔽和语音可理解性干扰作用。如将从以下描述中更清楚地看出,主动方法可涉及电子、机电和/或可选择性控制的机械装置,以干扰入射在壁组件等上和/或附近的声波。在某些示例性实施方案中,被动方法可补充此类技术。就这一点而言,被动方法可涉及(例如)壁组件,该壁组件被专门设计成触发混响,例如,通过在壁组件中结合孔和/或使用由此形成的壁自身的自然特性等在壁组件中和/或其上附接或以其他方式形成声音混响部件。

再次参考图3,可以看到,壁中的混响主要在低频范围内是明显的。因此,在一些情况下,可能期望的是,使用主动方法以便使用高频范围内的混响来屏蔽刺激性声音和语音的信息性内容。图5是绘出了根据某些示例性实施方案的STC与T60的关系的曲线图,进一步确认了在将主动方法用于语音可理解性干扰时产生的一些优点。也就是说,如图5中可见,当处理低T60值时,可能需要高STC以使语音和/或类似内容不可理解。相比之下,电子创建的机制可有助于使感知的语音即使在低STC值下也不可理解。

图6A是根据某些示例性实施方案的结合了主动语音可理解性干扰方法的声学壁组件的示意图。如图6A所示,壁600包括外主表面600a和内主表面600b。在图6A实施方案中,期望的是,降低由语音声音602相对于听者604导致的可理解性和烦扰。因此,麦克风或其他接收设备606拾取该声音,并且信号被传送到声音屏蔽电路608,该声音屏蔽电路嵌入在图6A的较宽壁组件中的壁600中或以其他方式与该壁结合提供。来自麦克风606的信号在不同的示例性实施方案中可以是模拟信号或数字信号,并且声音屏蔽电路608可包括模数转换器,例如,在将要以数字方式处理所提供的模拟信号的情况下。在某些示例性实施方案中,麦克风606可安装在壁600内、在壁的与听者604相同的一侧上,等等。

声音屏蔽电路608确定从麦克风606向其提供的信号是否在一个或多个预定频率范围内,以及/或者该信号是否在其中包含具有一个或多个预定频率范围的噪声。在这方面可使用带通滤波器或其他滤波器,作为声音屏蔽电路608的一部分。一个或多个预定频率范围中的一个可对应于被确定为具有心理声学干扰性、扰乱性或烦扰性的语音和/或噪声。一个或多个预定频率范围中的一个可对应于2800-3200Hz范围,这有助于屏蔽大多数辅音的声音(这可能是统计学上最有效的声音屏蔽方式)以及至少一些音节的信息承载声音。与语音的基频相反,一个或多个预定频率范围中的一个可对应于话音素的频率范围,例如,如下文详细讨论的那样。

响应于检测到一个或多个预定频率范围内的声波,声音屏蔽电路608产生屏蔽信号并且启动扬声器610,例如以生成声波从而经由混响和/或其他效应来模糊预定频率范围内的原本将穿过壁的噪声。这包括例如干扰感知的语音的信息性部分,从而降低其可理解性。这样做继而有助于在检测到的声波从壁600的外主表面600a外部传递到壁600的内主表面600b内部时选择性地屏蔽该检测到的声波,从而有助于降低对听者604造成的烦扰。也就是说,在某些示例性实施方案中,混响612有助于干扰感知的语音和/或刺激性噪声。在某些示例性实施方案中,噪声大体上以非恒定、可能“按需”或动态的方式被掩盖。有利的是,这种效应有助于防监视,因为激光麦克风(例如)无法拾取离散的声音,混响是自参考的并且因此较难破译,未添加可易于减去的白噪声,等等。

尽管在图6A中,麦克风606和扬声器610被示出为位于壁600的相对侧上,但应当理解,在某些示例性实施方案中,它们可设置在同一侧(例如,与听者604相同的一侧)上。在某些示例性实施方案中,混响612在一些情况下可用于干扰声音(包括语音或基本上由语音组成)的可理解性,而不考虑在何处生成以及相对于听者604位于何处。例如,在一些情况下,混响612可用于干扰声音(包括语音或基本上由语音组成)的可理解性,即使声音由听者604生成(例如,如果在壁600的同一侧存在其他原本可能能够感知来自听者604的声音的听者)。

除了混响之外或代替混响,某些示例性实施方案可通过反向屏蔽来实施主动屏蔽。由声音屏蔽电路608启用的噪声屏蔽可根据使用诸如标准卷积、增强卷积、反向混响、延迟控制混响等技术的算法(例如,混响算法)来执行。在某些示例性实施方案中,声音屏蔽电路608可处理传入噪声602并根据来自算法的输出来控制扬声器610。在某些示例性实施方案中,算法可改变时域中入射噪声的感知响度。下文提供了关于可与某些示例性实施方案结合使用的示例性算法的更多细节。

壁600可由任何合适的材料形成,诸如一个或多个灰板、玻璃、聚碳酸酯、石膏等的板片。在某些示例性实施方案中,壁或构成壁的材料具有在以下范围内的吸音系数:在125Hz下,为0.03-0.3;在250Hz下,为0.03-0.6;在500Hz下,为0.03-0.6;在1000Hz下,为0.03-0.9;在2000Hz下,为0.02-0.9;以及在4000Hz下,为0.02-0.8。就这一点而言,图6A可被认为是平面图或横截面图。就前者(即,平面图)而言,扬声器610和/或声音屏蔽电路608可设置在壁600上方(例如,在天花板中以及在例如上板坯下方)或者设置到壁600的侧面。在某些示例性实施方案中,声音屏蔽电路608可连接到壁600的侧面,但被隐藏而不可见(例如,通过隐藏在天花板中、模制件后面,等等)。麦克风606也可如此。扬声器610可在壁600的顶部和/或侧面附近生成混响612,从而触发其中、其本身或其附近的混响。

对于横截面图,外主表面600a和内主表面600b可为由例如金属壁骨和/或木壁骨等分离的独立灰板表面。扬声器610和/或声音屏蔽电路608可设置在壁600上方(例如,在天花板中以及在例如上板坯下方)、设置到壁600的侧面、或设置在外主表面600a与内主表面600b之间的间隙内。与上述相似,声音屏蔽电路608可连接到壁600的侧面,但被隐藏而不可见(例如,通过隐藏在天花板中、模制件后面、外主表面600a与内主表面600b之间的间隙内,等等)。麦克风606也可如此。扬声器610可在壁600的顶部和/或侧面附近、在壁600的侧面内等等生成混响612,从而触发其中、其本身或其附近的混响。因此,在某些示例性实施方案中,壁600可被说成是包括基本上平行间隔开的第一基板和第二基板(该基板由玻璃等制成或包括玻璃等),其中扬声器610和声音屏蔽电路608定位在基板之间和/或上。

如上文所提及,壁可由玻璃制成或包括玻璃。也就是说,某些示例性实施方案可涉及与声学壁组件结合使用的玻璃壁。玻璃壁可包括一个、两个、三个或另一数量的玻璃板片。玻璃可以是规则的浮法玻璃、热强化玻璃、回火玻璃和/或层压玻璃。在某些示例性实施方案中,壁可由隔热玻璃(IG)单元、真空隔热玻璃(VIG)单元等组成或包括这些单元等。IG单元可包括基本上平行间隔开的第一基板和第二基板,其中围绕***边缘形成有边缘密封件,并且其中基板之间的腔体任选地填充有包含或不包含空气的惰性气体(例如Ar、Xe等)。VIG单元可包括:基本上平行间隔开的第一基板和第二基板,其中围绕***边缘形成有边缘密封件;以及垫片,其中基板之间的腔体被排放至低于大气的压力。在一些情况下,可围绕IG单元和/或VIG单元提供框架,并且该框架可为声学壁组件的一部分。在某些示例性实施方案中,可使用其他透明材料。在某些示例性实施方案中,玻璃的天然高声音反射系数可为有利的,例如当触发混响和/或其他噪声屏蔽效应时。

图6B类似于图6A,不同的是提供了第一麦克风606a和第二麦克风606b,使得可经由第一扬声器610a和/或第二扬声器610b寄存和补偿入射噪声602a和602b,从而降低对壁600′两侧的听者604a和604b的烦扰。在某些示例性实施方案中,第一扬声器610a和第二扬声器610b可被彼此独立地控制,例如以输出不同的混响612a和612b,以在不同的响度等级下输出相同的混响效应,以使第一扬声器610a对从第一麦克风606a接收的声音做出响应而第二扬声器610b保持关闭和/或不对入射噪声602a做出响应时,或者相反。在某些示例性实施方案中,第一扬声器610a和第二扬声器610b可被控制来一起工作,例如以输出相同的混响效应。如上所述,在某些示例性实施方案中,声音屏蔽电路608′可例如基于噪声来自壁600′的哪一侧,相对于扬声器610a和610b触发相同或不同的动作。就这一点而言,声音屏蔽电路608′可能能够例如基于强度等,确定声音正来自壁600′的哪一侧。混响612a和612b的有效性可由另一个麦克风拾取并反馈回到声音屏蔽电路608′中,例如以改善噪声屏蔽效应。在不同实施方案中,第一麦克风606a和第二麦克风606b中的一者或两者可设置在壁600′的内表面或外表面上。在某些示例性实施方案中,第一麦克风606a和第二麦克风606b中的一者可形成在壁600′的外表面上,并且第一麦克风606a和第二麦克风606b中的另一者可形成在壁600的内表面上。在不同实施方案中,第一扬声器610a和第二扬声器610b中的一者或两者可没置在壁600′的内表面或外表面上。在某些示例性实施方案中,第一扬声器610a和第二扬声器610b中的一者可形成在壁600′的外表面上,并且第一扬声器610a和第二扬声器610b中的另一者可形成在壁600的内表面上。在图6B的示例中,混响可被说成是“在两个方向上”主动工作(但应当理解,在一些情况下,可能能够实现与单个麦克风结合的相同或类似功能)。

图7是根据某些示例性实施方案的结合了主动语音可理解性干扰方法的另一声学壁组件的示意图。图7示出了在“安静”或“安全”房间外部形成的壁700。来自房间内部的噪声702被麦克风606′检测到。声音屏蔽电路608″从麦克风606′接收信号并触发扬声器710,该扬声器触发壁700中、其上或其附近的混响712a-712d。在某些示例性实施方案中,混响712a-712d在整个壁700中基本上均匀,使得房间周围(以及壁700周围)的听者704a-704d不能感知来自内部的声音和/或烦扰。应当理解,在某些示例性实施方案中,可修改图7的示例以便在房间内部包括一个或多个麦克风。除此之外或者作为另外一种选择,应当理解,图7的示例可被修改以便包括一个或多个麦克风,从而以例如类似于结合图6B所述的方式来检测和补偿源自房间外部的声音。为接收源自房间外部的声音而提供的一个或多个麦克风(无论其放置如何)可用于将图7转变成私密或安静的房间,在该房间中,来自外部的声音被补偿并屏蔽。

在某些实施方案中,可将一个或多个扬声器定位在壁700外部。例如,扬声器可定位在壁700的一个、两个或更多个侧面上,例如定位在一些或所有听者704a-704d可位于其中的区域中或附近,例如以屏蔽噪声、干扰语音的可理解性,等等。在此类情况下,可在壁700外部产生混响效应712a-712b等。除此之外或作为另外一种选择,可将一个或多个扬声器定位在房间中以干扰其中的声音,例如如果在房间中、房间外或房间内外均产生潜在干扰性声音。

图8A至图8B是根据某些示例性实施方案的结合了可与两个壁结合使用的主动语音可理解性干扰方法的声学壁组件的示意图。图8A至图8B类似于图6A至图6B。然而,提供的是外壁800a和内壁800b,而不是具有单个壁的外表面和内表面。噪声屏蔽电路608″和/或扬声器810可放置在由外壁800a和内壁800b限定的腔体800内,并且它们可协作以在腔体800中、其上或其附近产生混响812。在某些示例性实施方案中,扬声器810可定位在听者604附近,例如如图8A所示。类似地,在某些示例性实施方案中,扬声器810a-810b可定位在听者604a-604b附近,以产生混响效应812a和812b,例如如图8B所示。上文结合图6A至图6B讨论的修改(包括声音控制电路和扬声器的位置关系和/或功能)也可结合图8A至图8B来进行。

据信,壁的横向尺寸可主要影响语音的基频谱区及其较低谐波,而壁的两个板片之间的距离主要将影响高频分量及其较高谐波。玻璃壁的示例性实施方案具有10ft.×12ft.的尺寸,其中两个玻璃板片之间的空气间距优选地在1-20cm的范围内,更优选地在7-17cm的范围内,并且示例性间距为10cm。

图9是示出了用于主动语音可理解性干扰的示例性方法的流程图,该方法可与某些示例性实施方案结合使用。图9假设已经提供了壁或壁组件(步骤S902)。检测到入射声波(步骤S904)。如果检测到的声波不在所关注的频率范围内或不包括所关注的频率范围(如步骤S906中所确定),则过程仅返回到步骤S904并等待检测另外的入射声波。另一方面,如果检测到的声波在所关注的频率范围内或包括所关注的频率范围(如步骤S906中所确定),则扬声器用于例如根据下文更详细讨论的示例性算法来生成语音可理解性干扰信号(步骤S908)。这种行为因此提供对噪声的动态或“按需”屏蔽,包括例如通过并非总是“打开”的系统来干扰语音可理解性。如果声音未终止(如步骤S910中所确定),则过程返回到步骤S908并且仍生成语音可理解性干扰信号。另一方面,如果声音终止,则可记录关于事件的信息(步骤S912),并且该过程可返回到步骤S904并等待检测另外的入射声波。

步骤S912的记录可包括例如在存储到非暂态计算机可读存储介质等(例如,闪存存储器、USB驱动器、RAM等)的数据文件中创建记录。记录可包括指示事件的开始时间和停止时间的时间戳、以及位置标识符(例如,在例如存在实施本文所公开的技术的多个壁的情况下指定检测到声音的壁,在例如给定壁中存在多个麦克风的情况下指定检测到声音的麦克风,等等)。也可将与检测到和/或生成的频率范围和/或信号有关的信息存储到记录。在某些示例性实施方案中,电路可例如在记录或相关联的数据文件中存储检测到的和/或生成的声音的数字表示或其他表示。因此,可记录语音或其他噪声,其中可能捕捉和存档整个对话以供潜在后续分析。例如,声音屏蔽电路(例如)可用作记录设备(例如,安全相机、窃听设备、声音统计监视设备等)。在某些示例性实施方案中,可将信息本地存储和/或传输到远程计算机终端等以用于潜在的后续动作,诸如,回放噪声事件和/或对话、分析噪声事件和/或对话(例如,以有助于揭示主要记录了什么类型的噪声、一天中什么时间最喧闹、谁制造最多种不同的噪声,等等)。传输可通过可移动的物理介质(诸如闪存驱动器、USB驱动器等)、经由有线连接(例如,包括通过串行、USB、以太网或其他电缆的传输)、无线(例如,通过Wi-Fi、蓝牙、通过互联网等)等等来完成。在不同的示例性实施方案中,可周期性地和/或按需传输信息。

在某些示例性实施方案中,声音屏蔽电路可被编程来确定入射噪声是否对应于已知模式或类型。例如,报警声、汽笛声等尽管烦扰,但可被声音屏蔽电路检测,并且允许通过壁组件以用于安全性、信息性和/或其他目的。

在某些示例性实施方案中,声音屏蔽电路可被编程为同时作为声音(例如,语音)***(例如,通过使用混响等)以及声音美化器来工作。对于后者,声音屏蔽电路可生成混响和/或令人愉悦的声音以有助于屏蔽潜在烦扰性噪声和/或干扰语音的可理解性。令人愉悦的声音可以是自然声音(例如,海洋、雷击、雨、瀑布等的声音)、动物(例如,海豚)的声音、舒缓音乐等。这些声音可存储到可供声音屏蔽电路访问的数据存储器中。适当时(例如,当如上文所述那样触发混响时),声音屏蔽电路可检索声音美化器并将其作为输出提供到扬声器等(该扬声器可为例如与在某些示例性实施方案中用作空气泵的扬声器相同或不同的扬声器)。

应当理解,在某些示例性实施方案中可使用用于噪声干扰和/或消除的被动方法,例如,因为壁自身可被构造成充当涉及声学对比度的混响引发谐振器。这可通过以下方式来实现:在声学壁组件中形成一个或多个(并且优选地两个或更多个)开口、狭缝等,从而使用壁自身的自然特性来产生所需类型的混响效应。这些特征结构可形成在声学壁组件的一侧上,从而将定向特性添加到壁组件的声学效果中。例如,可在双层壁的外层中形成至少一个开口,以便使效应具有定向性,并且使得混响效应在壁外部更明显。又如,可在双层壁的内层中形成至少一个开口。这对于一些应用(如音乐厅)可能是有利的,这些应用可得益于使声音显得更丰富的额外的声音混响。

在某些示例性实施方案中,可将额外的混响元件附连到壁。声音屏蔽混响引发元件可被设置成与单个壁或部分壁直接接触,因此在某些示例性实施方案中,壁可充当声源。在某些示例性实施方案中,声音屏蔽混响引发元件可设置在壁组件中的壁之间。声音屏蔽有利地实现增加的噪声/信号对比度,这使得在单个壁或部分壁后感知的语音具有较低可理解性并且刺激性声音具有较低烦扰性。

在某些示例性实施方案中,可在内层中和/或其上形成第一组特征结构,并且可在外层中和/或其上形成第二组特征结构,从而例如阻挡一些烦扰性或干扰性声音并改善“内部”的声学效果。在某些示例性实施方案中,可在两层壁组件的一层或两层中和/或上形成多组特征结构,其中每组特征结构以要消除和/或加强的不同范围为目标

也可以选择壁组件的其他自然特性(包括尺寸、相邻直立壁之间的空间等)来触发所需的混响效应,例如,如上文所述。

如上文所提及,应当理解,除了上文所讨论的主动技术之外,也可使用这些较被动的技术,例如利用单壁或双壁声学壁组件。

壁组件因此可以以具有专门设计的基本谐振频率的声音谐振器的方式来制作。如上所述,可使用任何合适的材料来构造壁。例如,由于玻璃是天然良好的谐振器,因此某些示例性实施方案能够利用多种谐振谐波,这些谐振谐波是基频的整数倍数。无论材料为何,经由特征结构调整传入声音可有助于干扰语音和噪声的频率范围,以便使其不可理解和/或具有较低烦扰性。例如,在处理语音等时,可将与辅音或话音素相关联的那些频率范围作为目标。此外,由于此类壁组件被设计用于选择性声音干扰,因此在某些示例性实施方案中,可以在壁组件中使用薄玻璃和更耐久的刚性接头。有利的是,该构造可使整个设计更加坚固和可靠。当使用玻璃时,高容差可能是期望的,以便通过避免泄漏等来有助于最大程度提高声音谐振特性的有效性。

本文所述的壁可为部分壁,例如,在分离的区域之间留有开放空间的壁。也就是说,在不同的情况下,声学壁和声学壁组件可以是全高度的或部分高度的。也可以使用单面板壁或双面板壁。此外,尽管已结合壁和/或房间描述了某些示例性实施方案,但应当理解,本文所述的技术可与更一般的区域结合使用,在该更一般的区域中,不存在或存在较少的限定分区或结构定义的分断(例如,在帘子分离两个患者区域的医院病房中、在大堂中、在汽车的前后座椅之间、在飞机的不同排或区域之间,等等)。

尽管专利受让人已使用被动或主动(例如,计算机生成的)混响来降低感知语音的可理解性,但已发现进一步改善仍然是可能的。例如,人类大脑适于通过为早到信号赋予优先级来处理回响声音。此外,已知所谓的音素恢复有助于大脑恢复缺失声音或重叠声音的信息。这两种现象有时会过滤掉相同的时间延迟副本并保持原始语音信号的可理解性。这继而可妨碍简单混响的有效性。在下文所述的示例性实施方案中,呈现了干扰可理解性且降低感知语音的烦扰性的另一种可能更有效的方法,该方法考虑了这些问题。

再次参考图9中的步骤S908以及如何可生成可理解性干扰频率,某些示例性实施方案针对施加到原始语音上面的屏蔽信号使用动态方法。该方法使用以下方法中的任一种中的一种或组合:(1)恒定时间延迟,(2)随时间变化的时间延迟(时间相位调整),(3)振幅调制,以及(4)频谱滤波。这些效应的贡献可根据具体需要或需求进行调谐。例如,在期望一定程度的安静和平静的环境(例如,医院康复室等)中,可将振幅增加变化保持在最低水平,而在期望存在大量噪声的区域(例如,医院候诊室、警察局“候审室”等)中,振幅增加变化可较大。

已发现上述方法会产生可靠的语音干扰。然而,有时可能发生感知的声音响度显著增大,并且听者可能会因增大的响度而感到烦扰。因此,应当理解,将期望的是,在不显著增加原始语音的响度和潜在烦扰性的情况下进一步改善干扰原始语音的技术。

人类往往将副本声音(只要它们形状相似)理解为原始声音的一部分,从而有效地忽略信息性内容并且仅集中注意增大的响度。这被称为优先效应。然而,可进一步修改副本信号以干扰信息性内容并帮助降低优先效应的影响。某些示例性实施方案因此通过选择性地干扰屏蔽语音信号来改善上述技术。如将从下文更清楚地看到,这种选择性干扰可结合话音素、音素、辅音和/或其他语音构建块而发生。

某些示例性实施方案使用在若干赫兹范围内的混响延迟的振荡频率。该范围是有利的,因为它对应于正常英语语音中的每秒音节数。因此,某些示例性实施方案使得能够在不增加显著量的噪声的情况下大幅干扰语音可理解性。也就是说,已认识到,语音的信息承载频率与“烦扰”部分处于不同的频率范围内,因此针对前者的目标允许语音内容干扰发生,而由声学屏蔽所引起的附加响度的代价很低。

在某些示例性实施方案中,语音可理解性干扰屏蔽信号可采用原始语音信号的一般模式。在某些示例性实施方案中,屏蔽信号可相对于原始信号延迟,以及/或者可将多个预记录话音添加到语音可理解性干扰信号(例如,以形成对人群噪声的感知)。在某些示例性实施方案中,可添加其他声音(诸如,上文所述的声音和/或其他自然声音、声音“美化器”等)以进一步改善语音可理解性干扰效应。

图10分别示出了单话音语音和多话音语音在其顶部部分和底部部分处的话音素频率。应当理解,在某些示例性实施方案中,可将下部图添加到检测到的语音上面,例如,以干扰语音的可理解性等。

图11示出了不同类型的声音的话音素频率,该声音包括不同的自然声音和语音不同的声音,前者可作为声音美化器等添加到后者,例如,如上文所述。

工作时,用于干扰语音可理解性的方法包括经由麦克风或其他收听设备来接收原始语音信号。原始语音信号包括多个话音素(语音可理解性的构建块)并且具有可被人类听者感知的某种基本水平的可理解性。处理原始语音信号(例如,使用硬件处理器或其他控制电路)以识别与构成原始语音信号的话音素相关联的频率范围。然后可使用各种参数来大体上改变语音信号并形成可理解性干扰屏蔽信号。例如,可理解性干扰信号可被生成为包括与构成原始语音信号的话音素处于相同频率范围的可理解性干扰话音素,并且可通过经由扬声器输出包含所生成的可理解性干扰话音素的可理解性干扰信号来降低所得到的感知语音的可理解性水平。在一些情况下,在0.02-8Hz的频率范围内生成可理解性干扰话音素。在一些情况下,以2-6Hz(例如,4Hz)的频率生成可理解性干扰话音素。

在某些示例性实施方案中,可理解性干扰屏蔽信号可相对于原始语音信号执行时间延迟,例如使得可理解性干扰屏蔽信号沿循原始语音信号的一般模式,是原始语音信号的时间延迟副本,是原始信号的时间相位调整副本,是原始语音信号的振幅调制版本,等等。优选0-150ms的恒定时间延迟范围,更优选40-120ms,并且更优选60-110ms。在一些情况下,80ms的示例性延迟可为最佳的,并且在其他情况下,平均80ms的延迟可为最佳的。在某些示例性实施方案中,可附加地或作为另外一种选择地使用动态混响,例如使得时间延迟随时间振荡。

在某些示例性实施方案中,可附加地或作为另外一种选择地调节相对于原始语音信号的增益。此外,增益也可随时间调制。例如,可生成可理解性干扰屏蔽信号,使得可理解性干扰信号的响度随时间振荡。优选地,增益(对应于与原始语音信号相加的调制的可理解性干扰信号)不太大,因为这会产生负面的心理声学效应,例如,通过产生过多的响度或干扰。在某些示例性实施方案中,所施加的增益高达对应原始语音信号的双倍。在某些示例性实施方案中,增益为或平均为0.05-0.25%,更优选地0.10-0.20%,示例为0.15%。

在某些示例性实施方案中,可在一个或多个给定频率下调制时间延迟和/或振幅调节。例如,时间延迟和/或振幅调节可在或可平均在1-10Hz、更优选地2-6Hz、示例为4Hz的振荡频率下调制。应当理解,对于不同示例性实施方案中的时间延迟和振幅调节,调制可相同或不同。在某些示例性实施方案中,可根据一种或多种算法来提供延迟和/或振幅调制。在某些示例性实施方案中,延迟和/或振幅调制可以是高斯调制、随机调制、根据波形(例如,正弦波、方波等)的调制、逐步调制、根据预定义模式(例如,增大然后减小的频率振荡等)的调制、算法的应用的结果,等等。在某些示例性实施方案中,可使用40-400Hz、更优选地60-300Hz、以及例如80-230Hz的动态时间延迟调制。

某些示例性实施方案可进一步包括通过扬声器输出额外的屏蔽声音信号、以及包含所生成的可理解性干扰话音素的可理解性干扰信号。例如,可理解性干扰信号可被生成为包括多个话音的预记录混合。除此之外或作为另外一种选择,可使用声音美化器等。

在某些示例性实施方案中,可将该功能结合到电子设备中。图12是根据某些示例性实施方案的电子语音可理解性干扰设备的框图。电子设备可包括或以其他方式耦接到接收语音602的麦克风606、处理电路1202(例如,编程的微芯片或模拟设备)、电源(未示出)以及实施这些示例性技术的(一个或多个)扬声器810。处理电路1202从麦克风606接收原始语音信号,并且任选的模数转换器1204将原始语音信号转换成数字表示(例如,在麦克风为模拟麦克风的情况下)。数字化信号被发送到时间延迟振荡器1206,该时间延迟振荡器使用时间延迟模式来产生原始语音信号的副本信号,该副本信号被修改从而使得通过振荡时间延迟来添加混响。信号然后被振幅振荡器1208进一步修改,该振幅振荡器使用振幅调节模式来进一步修改信号。由此修改的信号被提供到扬声器810以供输出,如上文所述。如上文所述,用于时间延迟和振幅调节的振荡的类型可相同或不同。类似地,包括这些元件的系统可结合到或设置在壁上、限定区域(包括开放区域)中,等等,例如以掩盖语音内容。

如上文所提及,在某些示例性实施方案中,可以以语音的其他构建块为目标。例如,已知语音的基频发生在85Hz与250Hz之间。在该低频“基本通道”上面,存在额外的语音构建块,该语音构建块包括(a)主要对确定话音“功率”的能量话音素负责的“惰性”元音、以及(b)信息承载辅音。

辅音包含很少的能量,但据信对可理解性至关重要(至少在涉及英语和其他语言时),辅音为例如区分含义的音韵单元的形式,即音素(由清晰度和响度两者的位置限定)和频率相关调素。在一些情况下,也可以以其他语音构建块(诸如持续时间相关的时位)为目标。元音发生在350Hz与2KHz之间,并且主要是语音的音量承载块。以低音量信息承载辅音为目标并且借助频谱滤波器使高音量元音保持完整可进一步有助于降低语音干扰期间的烦扰。

各种辅音在声腔的收缩程度和发音的时间上是不同的。即使如此,它们中的大多数都位于1.5kHz与4kHz之间的频率范围内。就这一点而言,图13包括各种音节的频率依赖性的示例,其中每个音节包括辅音和元音。

尽管关键辅音的起始话音素转换因随后的元音而不同,但它们的音素理解保持不变。该认知可用于基于辅音的阈值频率来触发语音干扰,在一些情况下,辅音的阈值频率也可被认为是主要的信息承载语音单元。

因此,在某些示例性实施方案中,可基于达到高于大多数元音的频率但低于大多数辅音的频率的阈值频率(例如,大约1.5kHz)来触发屏蔽信号的生成。在某些示例性实施方案中,1.2-2kHz的预设频率范围在这方面可能是有效的。这种方法可有助于防止复制承载很少信息负载但却会促成不期望的响度的大多数元音,并且反而可有助于将副本信号集中在信息承载辅音上。在这一方面可使用例如高通声学滤波器。图12框图可与此类示例性技术结合使用,例如,前提条件是在时间延迟振荡器1206之前提供此类高通声学滤波器。

在某些示例性实施方案中,屏蔽信号可以一定方式振荡(时间相位调整),以提供介于20ms与95ms之间的延迟,该延迟对应于大多数辅音的话音起始时间(VOT)。VOT是释放“停顿”辅音与发声开始之间的时间。1-10Hz范围内的时间相位调整的调制频率可能是有利的,2-10Hz更有利,2-6Hz又更有利,并且其中4Hz是据信最佳的一个示例。在某些示例性实施方案中,也可以实施振幅调制。已发现原始信号的10-100%的振幅调制、并且更优选地原始信号的40-90%的振幅调制在这方面是有利的。

现在将描述考虑内部混响的某些示例性技术。如上文所述,不同的房间具有潜在不同的声学特性,包括在房间内测量的潜在不同的T60值。在具有高T60值的房间中,过多混响可能是一个问题。例如,当涉及房间内语音的高可理解性时,结合玻璃壁或窗的房间可能面临更大的挑战:来自高声音反射性表面的内部混响会充当屏蔽信号。已发现不同的房间(包括具有玻璃的房间)在其中具有烦扰性内部声学混响,尤其是在低频范围(例如,20-200Hz)内。尽管有一些可用的解决方案可有助于处理内部房间中的烦扰性混响(包括例如使用各种吸音表面),但这些解决方案往往会妨碍玻璃的透明性并且往往会增加显著的成本。

除此之外或作为另外一种选择,某些示例性实施方案提供了用于降低(并且有时甚至消除)房间或区域内的由低频范围内的混响引起的烦扰性声学混响的声学解决方案。例如,某些示例性实施方案生成原始语音信号的副本,该副本具有均衡(或基本上均衡)的响度但在频谱的下部分中不存在烦扰性混响。

图14是根据某些示例性实施方案的有助于减少房间中的烦扰混响的电子设备的框图。电子设备可包括或以其他方式耦接到接收语音602的麦克风606、处理电路1402(例如,编程的微芯片或模拟设备)、电源(未示出)以及实施这些示例性技术的(一个或多个)扬声器810。处理电路1402从麦克风606接收原始语音信号,并且可选的模数转换器1404将原始语音信号转换成数字表示(例如,在麦克风为模拟麦克风的情况下)。数字化信号被发送到可基于房间的特性来编程的带通滤波器1406。也就是说,在房间特有的校准过程期间,检测电子设备所在的房间的混响模式。通常,这些混响模式在20-200Hz的范围内作为3-4波节和波腹对(从而形成驻波)存在,并且取决于房间的特性,包括(例如)房间几何形状、壁材料、地板覆盖物、天花板高度/表面材料等。这些和/或其他声学参数可使用拍击或撞击方法来测量,在该拍击或撞击方法中,产生清脆的声音并且自动记录房间的声学特性,从而允许定位波节和/或波腹的与烦扰性混响对应的强度和频谱位置。在某些示例性实施方案中,这些参数可存储到处理电路1402的存储器位置或以其他方式可供该处理电路访问的存储器位置,并且可被该处理电路读取并用于控制带通滤波器1406。这样,带通滤波器1406可允许较高的频率通过,因为放大器1408可以一定方式(例如借助于较高频率的强度增大)来放大具有相同或基本上相同的感知总响度的带通信号,该较高频率大体上屏蔽未通过带通滤波器1406的低频率的混响模式,如通过扬声器810输出的那样。

这样就会生成对应于原始语音的声学模式的修改版本,使得新组合声音的等级等于或基本上等于原始声音与烦扰性混响的组合等级。然而,不期望的混响大体上从声学模式的修改版本中的所得频谱中“切除”,因此其中没有尖峰。

应当理解,大体上被切除的信号的形状可为正方形、正弦波样式、高斯样式等。在某些示例性实施方案中,可更精确地调整大体上被切除的信号的形状,以匹配混响波形的形状。在一些情况下,可切除单个基本混响模式,而在其他情况下,将去除较宽的频率范围。在某些示例性实施方案中,在这方面可使用致使突然切除的Δ函数。

尽管图14示出了放大器1408上游的带通滤波器1406,但应当理解,在某些示例性实施方案中,这些部件的顺序可以颠倒。还应当理解,在某些示例性实施方案中,负责去除不期望的混响的处理电路1402可放置在负责干扰房间外部的语音可理解性的处理电路1202下游。不同的示例性实施方案可搭配负责去除不期望的混响的处理电路1402和负责在单个设备(例如,在单个芯片上)干扰语音可理解性的处理电路1202的功能。应当理解,在不同的示例性实施方案中,抑制房间或区域中的混响的电子部件可与旨在抑制房间或区域外部的可理解性的部件不同或相同。

图15是示出叠加在原始语音信号(黑色)上的示例性屏蔽信号(灰色)的曲线图。以8kHz的示例性采样率记录克隆(但在其他示例性实施方案中可使用其他采样率)。应当理解,图15仅示出了可如何干扰语音的一个示例。也就是说,除非明确声明,否则该曲线图中所示和/或该曲线图所暗含的时间延迟、振幅调制等是以举例的方式提供的。

构建测试室,并评估某些示例性技术。测试室是典型的灰板式办公室,具有暂时禁用的HVAC风扇,混响时间为0.4s,并且没有特殊的隔音措施。使用Yamaha HS5扬声器播放目标语音信号,该扬声器定位在STC为30的壁中的一个后面。该信号使用Crown Audio远场麦克风来寄存,使用软件来处理,并且使用定位在房间内位于受试者前方2米处的相同扬声器来播放。该软件使用以下四种音频效应的组合:(1)恒定时间延迟,(2)随时间变化的时间延迟(时间相位调整),(3)振幅调制,以及(4)频谱滤波。时间延迟、调制频率和调制深度均为可调参数。语音刺激是由100个预记录的、简短的、5-7字长的、不相关的且句法上和语义上正确的话语组成的块,该话语由男性话音以正常语速讲出。将话语单独呈现给十个受试者中的每一个,他们主观地对感知语音识别和屏蔽声音的烦扰性进行评分。所有受试者都是具有正常听觉的英语母语人士。在实验中使用以下类型的语音屏蔽元素:白噪声(WN)、目标语音信号(TD)的时间延迟克隆、作为上述四种音频效应的优化组合(OC)的屏蔽元素、以及增补了多讲话人背景的OC屏蔽元素(OCB)。

在该测试中,OC屏蔽元素的时间延迟被设置为80ms。以每秒3至5次调制的速率执行时间延迟相位调整和振幅调制。将同时讲话的三名讲话人(两男一女)的预记录语音用作OCB屏蔽元素的背景。执行OC优化以将克隆信号改变成刚好足以模糊目标语音的基本提示,从而在最低的额外烦扰水平的前提下使目标语音不可理解。该方法通过话音激活,并且屏蔽信号的强度根据目标语音的强度不断地自调整。

延迟相位调整和振幅调制的每秒3-5次循环的速率类似于正常英语语音中的每秒音节数,这使得OC屏蔽在干扰目标语音的言语节奏方面具有高度选择性,如上文所述。为了进行比较,并且如上文所述,白噪声和自然声音在中等响度下是差的语音屏蔽元素,因为它们的时间模式与正常语音的时间模式不同。使用频谱滤波器进一步最大程度降低与屏蔽有关的烦扰性。频谱滤波器平衡负责高能元音和信息承载辅音的频谱区的贡献。

评分结果在图16中显示。对于数字评级,将所有四种屏蔽元素的分贝等级加入到WN的分贝等级,在该WN的分贝等级下,50%的句子被感知为是不可理解的。在WN和TD屏蔽元素的情况下,所有十个受试者都报告到,当语音仍然可听但无法理解单词时,在屏蔽等级下会持续注意到烦扰性和相当大的认知疲劳。在OC和OCB屏蔽的情况下,未报告认知疲劳,并且烦扰等级大大降低。在使用OCB屏蔽约30s之后,大多数受试者停止注意内容缺乏的语音。三个受试者报告将OC屏蔽的语音感知为外语。

根据图16的数据,应当理解,某些示例性实施方案能够提供用于语音屏蔽的感知有效的技术,其中与语音可理解性有关的提示被目标信号的时间相位调整和振幅调制所模糊。在主观评级分析中评估了感知语音可理解性与烦扰性之间的关系。该方法有利地通过话音激活,并且根据语音的心理语言学方面和声学语音学提示来自动调节。它可用在独立的声音屏蔽设备中,或可作为具有低STC等级和高侧翼损耗的建筑听觉空间中的办公室壁的集成部分,以及用在本文所讨论的其他应用中。

本文还设想了制作上述和/或其他壁和壁组件的方法。对于本文所述的示例性主动方法,此类方法可包括(例如)搭建壁,将麦克风和空气泵连接到声音屏蔽电路,等等。还设想了用于声音屏蔽电路的配置步骤(例如,指定所关注的一个或多个频率范围,何时/如何启动空气泵,等等)。可以例如相对于麦克风和/或空气泵(包括扬声器的悬挂)等使用安装操作。还设想了与HVAC系统等的集成。

类似地,还设想了改造现有壁和/或壁组件的方法,并且该方法可包括相同或类似的步骤。本文还设想了改造装备。

已结合声学壁和声学壁组件描述了某些示例性实施方案。应当理解,这些声学壁和声学壁组件可用在多种应用中以改变感知的语音模式,掩盖来自相邻区域的某些刺激性声音成分,等等。示例性应用包括例如用于房屋中的房间的声学壁和声学壁组件;办公室中的房间;医生办公室、机场、便利店、银行、商场等处的限定等候区;用于家庭、办公室和/或其他结构的外部声学壁和声学壁组件;车辆的外部元件(例如,门、天窗等)以及车辆的内部区域(例如,以使得坐在前排座椅中时可在声学上掩隔坐在后排座椅中的儿童,反之亦然);等等。可针对来自相邻区域的噪声提供声音屏蔽,而不考虑该相邻区域是另一个房间、还是在容纳声学壁和声学壁组件的结构的界限之外、等等。类似地,可提供声音屏蔽来防止噪声进入这种或其他类别的相邻区域。

在某些示例性实施方案中,提供了用于干扰语音可理解性的方法。该方法包括经由麦克风接收原始语音信号;由原始语音信号生成可理解性干扰屏蔽信号;由于被生成为具有(a)相对于原始语音信号的时间延迟、(b)根据振荡频率改变的时间延迟、以及(c)调制的振幅,该可理解性干扰屏蔽信号与原始语音信号不同;以及使可理解性干扰屏蔽信号通过扬声器输出,以降低原始语音信号的可理解性水平。

除先前段落的特征结构之外,在某些示例性实施方案中,振荡频率可以是恒定的,或者振荡频率可以在预定范围内变化。对于后者,在某些示例性实施方案中,振荡频率可以根据算法而变化。

除先前两个段落中的任一段落的特征结构之外,在某些示例性实施方案中,该方法还可以包括:检测原始语音信号是否包括基本的语音构建块;以及在检测到原始语音信号中的基本的语音构建块时,调节可理解性干扰屏蔽信号的生成。就这一点而言,基本的语音构建块可以包括话音素、辅音声音等。

除先前三个段落中的任一段落的特征结构之外,在某些示例性实施方案中,可理解性干扰屏蔽信号的生成可以包括在可理解性干扰屏蔽信号中包括模糊原始语音信号中的基本语音构建块的频率范围。

除先前四个段落中的任一段落的特征结构之外,在某些示例性实施方案中,可理解性干扰屏蔽信号的生成可以包括以与普通语音中的此类基本构建块的预期出现率匹配的速率在可理解性干扰屏蔽信号中包括模糊基本语音构建块的频率范围。

除先前五个段落中任一段落的特征结构之外,在某些示例性实施方案中,可以调制可理解性干扰屏蔽信号的振幅,使得它不超过对应原始语音信号中对应振幅的两倍。

除先前六个段落中任一段落的特征结构之外,在某些示例性实施方案中,可以调制可理解性干扰屏蔽信号的振幅,使得可感知响度增加不超过10%。

除先前七个段落中任一段落的特征结构之外,在某些示例性实施方案中,可以将滤波器应用于原始语音信号并且在生成可理解性干扰屏蔽信号时可以调制振幅,以在输出可理解性干扰屏蔽信号时不引起响度的明显增加。

在某些示例性实施方案中,提供了语音可理解性干扰设备。该设备可以包括控制电路,该控制电路被配置为实现先前八个段落中任一段落的功能。

在某些示例性实施方案中,提供了语音可理解性干扰系统。该系统可以包括控制电路,该控制电路被配置为实现先前段落的功能。

在某些示例性实施方案中,壁可结合先前段落的系统。

虽然已经结合目前被认为是最实用和优选的实施方案描述了本发明,但应当理解,本发明不限于所公开的实施方案,而是相反,旨在涵盖包括在所附权利要求的实质和范围内的各种修改和等同布置。

36页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于音频数据获取事件指示的方法和设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!