音频信号处理装置及噪声抑制方法

文档序号:538889 发布日期:2021-06-01 浏览:1次 >En<

阅读说明:本技术 音频信号处理装置及噪声抑制方法 (Audio signal processing apparatus and noise suppression method ) 是由 难波隆一 见山成志 真锅芳宏 及川芳明 于 2019-08-23 设计创作,主要内容包括:本发明的目的是通过进行适合于噪声环境的噪声抑制来提高噪声抑制性能。获取噪声字典数据,噪声字典数据是基于包括与声音接收点和噪声源之间的方向以及噪声类型有关的信息的安装环境信息从噪声数据库中读取的。所获取的噪声字典数据用于对由布置在声音接收点的麦克风所获取的音频信号进行噪声抑制处理。(The purpose of the present invention is to improve noise suppression performance by performing noise suppression suitable for a noise environment. Noise dictionary data is acquired, which is read from a noise database based on installation environment information including information on a direction between a sound receiving point and a noise source and a type of noise. The acquired noise dictionary data is used for noise suppression processing of an audio signal acquired by a microphone arranged at a sound receiving point.)

音频信号处理装置及噪声抑制方法

技术领域

本技术涉及语音信号处理装置及其噪声抑制方法,尤其涉及适合于环境的噪声抑制技术领域。

背景技术

噪声抑制技术的示例包括从观测信号中减去估计的噪声频谱的频谱减法技术,以及通过定义增益函数(定义噪声抑制前后的增益)(频谱增益,先验/后验SNR),并将观测信号乘以所定义的增益函数,来执行噪声抑制的技术。

以下描述的非专利文献1公开了一种使用频谱减法的噪声抑制技术。此外,以下描述的非专利文献2公开了使用频谱增益的方法的技术。

现有技术文献

非专利文献

非专利文献1:BOLL S.F(1979)Suppression of Acoustic Noise in SpeechUsing Spectral Subtraction.IEEE Tran.on Acoustics,Speech and SignalProcessing ASSP-27,2,pp.113-120。

非专利文献2:Y.Ephraim and D.Malah,“Speech enhancement using minimummean-square error short-time spectral amplitude estimator”,IEEE TransAcoust.,Speech,Signal Processing,ASSP-32,6,pp.1109-1121,Dec.1984。

发明内容

本发明要解决的问题

在频谱减法中,由于该减法,频谱以时频时隙单元进入穿孔状态(在部分时间频率处的信号变为0),并且有时变成被称为音乐噪声的磨擦声。

此外,在增益函数类型的方法中,因为假定针对目标语音(例如,语音等)和噪声(主要是稳定噪声)的特定概率密度分布,所以非稳态噪声的性能很差,或者在稳态噪声偏离假定分布的环境中性能下降。

此外,在实际使用环境中,目标声音和噪声均不是干燥源,但是在噪声抑制中不能有效地反映传播时卷积的空间传递特性和噪声源的辐射特性的影响。

鉴于前述内容,本技术提供了一种可以实现适合于环境的适当噪声抑制的方法。

问题解决方案

根据本技术的语音信号处理装置包括:控制计算单元,被配置为基于包括有关噪声类型和声音接收点与噪声源之间的方向的信息的安装环境信息来获取从噪声数据库单元读取的噪声字典数据;以及噪声抑制单元,被配置为使用噪声字典数据对由布置在声音接收点的麦克风获得的语音信号执行噪声抑制处理。

例如,使用存储有噪声源的每种类型和方向的特性的噪声数据库单元,获取至少适合于语音信号处理装置的安装环境中的噪声的类型和方向的噪声的噪声字典数据,并且用于噪声抑制处理(降噪)。

通常,声音接收点对应于麦克风的位置。

声音接收点和噪声源之间的方向可以是指示噪声点相对于声音接收点的方位角的信息,或者是指示声音接收点相对于噪声点的方位角的信息。

在根据本技术的上述语音信号处理装置中,认为控制计算单元基于安装环境信息从保持各种环境下两点之间的传递函数的传递函数数据库单元获取噪声源与声音接收点之间的传递函数,以及噪声抑制单元将传递函数用于噪声抑制处理。

换句话说,除了适合于噪声类型和方位角的噪声的噪声字典数据之外,空间传递函数也用于噪声抑制处理。

在根据本技术的上述语音信号处理装置中,认为安装环境信息包括关于从声音接收点到噪声源的距离的信息,以及控制计算单元从噪声数据库单元获取噪声字典数据,同时包括类型,方向和距离作为参数。

换句话说,将适于至少这些类型、方向和距离的噪声字典数据用于噪声抑制。

在根据本技术的上述语音信号处理装置中,认为安装环境信息包括与在声音接收点和噪声源之间的方位角和仰角有关的信息作为方向,以及控制计算单元从噪声数据库单元获取噪声字典数据,同时包括类型、方位角和仰角作为参数。

关于方向的信息不是从二维角度看声音接收点与噪声源之间的位置关系时的方向的信息,而是关于包括在上下方向上的位置关系(仰角)的三维方向的信息。

在根据本技术的上述语音信号处理装置中,认为包括被配置为存储安装环境信息的安装环境信息保持单元。

根据语音信号处理装置的安装,预先输入作为安装环境信息的信息。

在根据本技术的上述语音信号处理装置中,认为控制计算单元执行存储通过用户操作输入的安装环境信息的处理。

例如,在安装了语音信号处理装置的人员,使用语音信号处理装置的人员等通过操作输入安装环境信息的情况下,语音信号处理装置可以根据操作存储安装环境信息。

在根据本技术的上述语音信号处理装置中,认为控制计算单元执行估计声音接收点与噪声源之间的方向或距离的处理,并执行存储适合于估计结果的安装环境信息的处理。

例如,通过在将语音信号处理装置安装在使用环境中的状态下执行估计声音接收点与噪声源之间的方向或距离的处理,来获得安装环境信息。

在根据本技术的上述语音信号处理装置中,考虑当估计声音接收点与噪声源之间的方向或距离时,控制计算单元确定在预定时间段内是否存在噪声源的类型的噪声。

对于每种类型的噪声源,估计产生噪声的时间段,并且在适当的时间段中进行方向或距离的估计。

在根据本技术的上述语音信号处理装置中,认为控制计算单元执行存储基于由成像装置捕获的图像确定的安装环境信息的处理。

例如,在将语音信号处理装置安装在使用环境中的状态下由成像装置执行图像捕获,并且通过图像分析确定安装环境。

在根据本技术的上述语音信号处理装置中,认为控制计算单元基于捕获的图像执行形状估计。

例如,在将语音信号处理装置安装在使用环境中的状态下,由成像装置执行图像捕获,以估计安装空间的三维形状。

在根据本技术的上述语音信号处理装置中,认为噪声抑制单元使用从噪声数据库单元获取的噪声字典数据来计算增益函数,并且使用增益函数执行噪声抑制处理。

使用噪声字典数据作为模板来计算增益函数。

在根据本技术的上述语音信号处理装置中,认为噪声抑制单元基于反映了传递函数的噪声字典数据来计算增益函数,并使用增益函数执行噪声抑制处理。其中,增益函数通过将噪声源和声音接收点之间的传递函数卷积为从噪声数据库单元获取的噪声字典数据而获得。

在反映噪声源和声音接收点的传递函数的情况下,噪声字典数据变形。

在根据本技术的上述语音信号处理装置中,认为噪声抑制单元在噪声抑制处理中根据预定条件确定在频率方向上执行增益函数内插,并使用内插增益函数来执行噪声抑制处理。

例如,在针对每个频点获得增益函数的情况下,在频率方向上执行内插。

在根据本技术的上述语音信号处理装置中,认为噪声抑制单元在噪声抑制处理中根据预定条件确定在空间方向上执行增益函数内插,并且使用内插增益函数来执行噪声抑制处理。

例如,在由于多个麦克风等而存在多个语音记录点的情况下获得增益函数的情况下,在空间方向上进行内插。

在根据本技术的上述语音信号处理装置中,认为噪声抑制单元使用不包括噪声的时间段和包括噪声的时间段的估计结果来执行噪声抑制处理。

例如,根据作为时间段的噪声的存在与否的估计来获得信噪比(SNR),并且SNR反映在增益函数计算中。

在根据本技术的上述语音信号处理装置中,认为控制计算单元从噪声数据库单元获取各频带的噪声字典数据。

换句话说,从噪声数据库单元获得每个频点的噪声字典数据。

在根据本技术的上述语音信号处理装置中,认为包括被配置为存储传递函数数据库单元的存储单元。

换句话说,传递函数数据库单元被存储到语音信号处理装置中。

在根据本技术的上述语音信号处理装置中,认为包括被配置为存储噪声数据库单元的存储单元。

换句话说,噪声数据库单元被存储到语音信号处理装置中。

在根据本技术的上述语音信号处理装置中,认为控制计算单元通过与外部装置的通信来获取噪声字典数据。

换句话说,噪声数据库单元没有被存储到语音信号处理装置中。

根据本技术的噪声抑制方法包括:基于包括有关噪声类型和声音接收点与噪声源之间的方向的信息的安装环境信息来获取从噪声数据库单元读取的噪声字典数据,以及使用噪声字典数据对由布置在声音接收点的麦克风获得的语音信号执行噪声抑制处理。

因此,实现了适合于环境的噪声抑制。

附图说明

图1是根据本技术的实施例的语音信号处理装置的框图。

图2是根据实施例的语音信号处理装置和外部装置的框图。

图3是根据实施例的控制计算单元的功能和存储功能的说明图。

图4是根据实施例的噪声区间估计的说明图。

图5是根据实施例的NR单元的框图。

图6是根据第一实施例的噪声抑制操作的说明图。

图7是根据第二实施例的噪声抑制操作的说明图。

图8是根据第三实施例的噪声抑制操作的说明图。

图9是根据第四实施例的噪声抑制操作的说明图。

图10是根据第五实施例的噪声抑制操作的说明图。

图11是根据实施例的噪声数据库构建的处理的流程图。

图12是根据实施例的获取噪声字典数据的说明图。

图13是根据实施例的初步测量/输入处理的流程图。

图14是根据实施例的当使用装置时执行的处理的流程图。

图15是根据实施例的由NR单元执行的处理的流程图。

具体实施方式

在下文中,将按以下顺序描述实施例。

<1.语音信号处理装置的配置>

<2.第一至第五实施例的操作>

<3.噪声数据库构建步骤>

<4.预先测量/输入处理>

<5.使用装置时执行的处理>

<6.降噪处理>

<7.结论和变型例>

<1.语音信号处理装置的配置>

实施例的语音信号处理装置1是对由麦克风输入的语音信号执行用作噪声抑制(NR:降噪)的语音信号处理的装置。

这样的语音信号处理装置1可以配置为独立的装置,可以与另一装置连接,或者可以内置在各种电子装置中。

实际上,语音信号处理装置1被配置为内置于或连接到相机,电视装置,音频装置,记录装置,通信装置,远程呈现装置,语音识别装置,对话装置,用于执行语音支持的代理装置,机器人或各种信息处理装置。

图1示出了语音信号处理装置1的配置。语音信号处理装置1包括麦克风2,降噪(NR)单元3,信号处理单元4,控制计算单元5,存储单元6和输入装置7。

请注意,不一定需要所有这些配置。此外,这些配置不需要整体提供。例如,可以连接单独的麦克风2作为麦克风2。仅在需要时才需要设置或连接输入装置7。

作为该实施例的语音信号处理装置1,至少设置至少用作噪声抑制单元的NR单元3和控制计算单元5就足够了。

例如,提供多个麦克风2a,2b和2c作为麦克风2。注意,为了便于描述,当没有特别需要指示各个麦克风2a,2b和2c时,将多个麦克风2a,2b和2c统称为“麦克风2”。

由麦克风2收集并转换为电信号的语音信号被提供给NR单元3。注意,如虚线所示,来自麦克风2的语音信号有时被提供给控制计算单元5以进行分析。

在NR单元3中,对输入语音信号执行降噪处理。稍后将描述降噪处理的细节。

将经过降噪处理的语音信号提供给信号处理单元4,并且对该语音信号执行适合于装置功能的必要信号处理。例如,对语音信号执行记录处理,通信处理,再现处理,语音识别处理,语音分析处理等。

注意,信号处理单元4可以用作已经经过降噪处理的语音信号的输出单元,并且可以将语音信号发送到外部装置。

例如,控制计算单元5由包括CPU(中央处理单元),ROM(只读存储器),RAM(随机存取存储器),接口单元等的微型计算机构成。控制计算单元5以在NR单元3中执行适合于环境状态的噪声抑制的方式执行将数据(噪声字典数据)提供给NR单元3的处理,这将在后面详细描述。

存储单元6例如包括非易失性存储介质,并且存储由控制计算单元5执行的控制NR单元3所需的信息。具体地,执行稍后将描述的用作噪声数据库单元,传递函数数据库单元,安装环境信息保持单元等的信息存储。

输入装置7表示将信息输入到控制计算单元5的装置。例如,用于用户执行信息输入的键盘,鼠标,触摸面板,指示装置,遥控器等用作输入装置7的示例。

此外,麦克风,成像装置(摄像头)和各种传感器也用作输入装置7的示例。

例如,图1示出了如下配置,在集成装置中设置存储单元6以存储噪声数据库单元,传递函数数据库单元,安装环境信息保持单元等。可替代地,还假设如图2所示使用外部存储单元6A的配置。

例如,在语音信号处理装置1中设置有通信单元8,并且控制计算单元5可以经由网络10与用作云或外部服务器的计算系统100进行通信。

在计算系统100中,控制计算单元5A经由通信单元11与控制计算单元5进行通信。

然后,在存储单元6A中设置噪声数据库单元和传递函数数据库单元,并且在存储单元6中存储用作安装环境信息保持单元的信息。

在这种情况下,控制计算单元5在与控制计算单元5A的通信中获取必要的信息(例如,从噪声数据库单元获得的噪声字典数据单元,从传递函数数据库单元获得的传递函数等)。

例如,控制计算单元5A将语音信号处理装置1的安装环境信息发送到控制计算单元5A。控制计算单元5A从噪声数据库获取适合于安装环境信息的噪声字典数据,并将获取的噪声字典数据发送至控制计算单元5等。

当然,可以在存储单元6A中设置噪声数据库单元,传递函数数据库单元,安装环境信息保持单元等。

可替代地,认为仅将用作噪声数据库单元的信息存储在存储单元6A中。特别地,假设噪声数据库单元的数据量巨大。在这种情况下,优选使用语音信号处理装置1的外部存储资源,例如存储单元6A。

在上述图2所示的配置的情况下,网络10仅需要是语音信号处理装置1可以与外部信息处理装置进行通信的传输路径。例如,假定各种配置,例如因特网,局域网(LAN),虚拟专用网(VPN),内联网,外联网,卫星通信网,CATV(社区天线电视)通信网,电话线网,以及移动通信网等。

在下文中,将假定图1所示的配置继续进行描述,但是以下描述可以应用于图2所示的配置。

在图3中A和B中例示了控制计算单元5中包括的功能以及存储在存储单元6中的信息区域。注意,在图2所示的配置的情况下,只需将图3中A所示的功能分散在控制计算单元5和5A中,并且此外,将图3中B所示的信息区域分布并存储在存储单元6和6A中的一个或两个中。

如图3中A所示,控制计算单元5包括以下功能:管理控制单元51,安装环境信息输入单元52,噪声区间估计单元53,噪声方向/距离估计单元54和形状/类型估计单元55。注意,控制计算单元5不需要包括所有这些功能。

管理控制单元51指示通过控制计算单元5执行各种类型的基本处理的功能。例如,管理控制单元51指示执行将信息写入/读出到存储单元6中的功能,通信处理,NR单元3的控制处理(噪声字典数据的提供),输入装置7的控制等。

安装环境信息输入单元52指示输入诸如语音信号处理装置1的安装环境的尺寸和吸声度之类的规格数据以及安装环境中存在的噪声的类型、位置和方向等信息,并将输入的信息存储为安装环境信息的功能。

例如,安装环境信息输入单元52基于用户使用输入装置7输入的数据来生成安装环境信息,并将所生成的安装环境信息存储到存储单元6中。

可替代地,安装环境信息输入单元52通过分析由成像装置或用作输入装置7的麦克风获得的图像或语音来生成安装环境信息,并且使得所生成的安装环境信息被存储到存储单元6中。

安装环境信息包括例如噪声的类型、从噪声源到声音接收点的方向(方位角,仰角)以及距离等。

噪声的类型例如是噪声本身的声音的类型(诸如频率特性的类型),噪声源的类型等。噪声源是例如安装环境中的家用电器,例如空调,洗衣机或冰箱,稳定的环境噪声等。

此外,可以使用各种方法作为将噪声类型分解为多个模式。例如,即使在相同类别的冰箱中,洗涤噪声和干燥噪声也是不同的。另外,噪声类型可以按子类别细分为多个模式。

噪声区间估计单元53表示使用从包括一个或多个麦克风2(或用作输入装置7的另一麦克风)的麦克风阵列输入的语音来确定在预定时间段内是否存在各种类型的噪声的功能。

例如,噪声区间估计单元53确定用作出现要抑制的噪声的时间段的噪声区间,以及用作其中要记录的诸如声音的目标声音存在的时间段的目标声音存在区间,如图4所示。

噪声方向/距离估计单元54指示估计每个声源的方向和距离的功能。例如,噪声方向/距离估计单元54根据使用来自包括一个或多个麦克风2(或用作输入装置7的其他麦克风)的麦克风阵列的语音输入所观察到的信号来估计声源的到达方向和距离。例如,可以将MUSIC(多信号分类)方法等用于这种估计。

形状/类型估计单元55在成像装置作为输入装置7的情况下指示以下功能:输入通过由成像装置执行图像捕获而获得的图像数据,通过分析该图像数据来估计安装空间的三维形状,并估计噪声源的存在与否、类型、位置等。

如图3中B所示,在存储单元6中设置有安装环境信息保持单元61,噪声数据库单元62和传递函数数据库单元63。

安装环境信息保持单元61是保存诸如安装环境的尺寸和吸声度之类的规格数据以及诸如安装环境中存在的噪声的类型、位置和方向之类的信息的数据库。即,存储由安装环境信息输入单元52生成的安装环境信息。

噪声数据库单元62是保存针对每种噪声类型的噪声的统计属性的数据库。换句话说,噪声数据库单元62存储被预先收集为数据的每种声源类型的方向特性,幅度的概率密度分布,各种方向以及每个距离的空间传递特性。

噪声数据库单元62被配置为能够使用例如噪声源的类型,方向,距离等作为参数来读出噪声字典数据。

噪声字典数据是包括上述每种声源类型的方向特性,幅度的概率密度分布,各种方向以及每种距离的空间传递特性的信息。

注意,每个声源的方向性可以通过使用专用装置预先执行实际测量或执行声学模拟来获得,并且例如可以由使用方向作为参数的函数来表示。

传递函数数据库单元63是保持在各种环境中任意两点之间的传递函数的数据库。例如,传递函数数据库单元63是存储预先作为数据收集的两点之间的传递函数,或者通过声学模拟从形状信息生成的传递函数的数据库。

图5示出NR单元3的配置示例。

NR单元3利用从噪声数据库单元62获得的统计特性对从麦克风2输入的语音信号执行抑制相应噪声的处理。

例如,NR单元3从噪声数据库单元62获取关于在确定为包括噪声的时间段中的噪声类型的信息,从所记录的语音降噪,并输出语音。

如上所述,使用方向特性/传递特性,通过使用从噪声数据库62获得的噪声源统计信息(诸如增益函数或掩模信息之类的模板)、噪声源的方向特性、从两个点之间的位置关系获得的从噪声源到声音接收点的传递特性,对噪声统计信息进行适当的变换(卷积等),可以提高降噪处理的精度/性能(例如,按照噪声源的统计特性/方向特性,传递特性和麦克风(阵列)方向性的顺序进行卷积)。

与仅使用观察信号作为信息执行自适应信号处理/降噪处理相比,在本实施例中,通过考虑预先存储在数据库中的噪声字典数据(声源方向性等)和由两点之间的传递特性等引起的信号变换,可以使降噪的准确性更高。

NR单元3包括短时傅立叶变换(STFT)单元31,增益函数应用单元32,逆短时傅立叶变换(ISTFT)单元33,SNR估计单元34和增益函数估计单元35。

从麦克风2输入的语音信号在经过STFT单元31中的短时傅立叶变换之后,被提供给增益函数应用单元32,SNR估计单元34和增益函数估计单元35。

噪声区间估计结果和噪声字典数据D(或考虑传递函数的噪声字典数据D’)被输入到SNR估计单元34。然后,使用噪声区间估计结果和噪声字典数据D获得已经经过短时傅里叶变换的语音信号的先验SNR和后验SNR。

使用先验SNR和后验SNR,例如,在增益函数估计单元35中获得每个频点的增益函数。注意,稍后将描述由SNR估计单元34和增益函数估计单元35执行的这些类型的处理。

将获得的增益函数提供给增益函数应用单元32。增益函数应用单元32例如通过将每个频点的语音信号乘以增益函数来执行噪声抑制。

ISTFT单元33对增益函数应用单元32的输出执行短时傅立叶逆变换,从而将所获得的输出作为已经进行了降噪的语音信号输出(NR输出)。

<2.第一至第五实施例的操作>

具有上述配置的语音信号处理装置1利用环境中的噪声源的辐射特性和传递特性来执行噪声抑制。

例如,创建具有每种噪声源的统计特性的噪声字典数据(描述噪声源的幅度出现的概率密度函数,时频掩模等),并且使用来自声源等的传递方向作为参数来获取噪声字典数据。

此外,通过利用噪声源与声音接收点(在本实施例中,麦克风2的位置)之间的方向或空间传递特性(在简化情况下为距离),可以有效地对记录的声音进行噪声抑制。

各种声源具有独特的辐射特性,并且语音并非在所有方向上均匀地辐射。考虑到上述观点,通过考虑噪声的辐射特性或考虑指示空间中的混响反射的特性的空间传递特性,增强了噪声抑制的性能。

具体地,在安装语音信号处理装置1时进行的初步测量中,通过用户输入噪声源的方向/距离,噪声类型,安装环境的尺寸等,或者在装置的安装位置变化的情况下,当位置改变时,通过使用麦克风阵列,成像装置等执行噪声方向/距离的估计,获取关于噪声类型,方位角,仰角,距离等的信息,并将获取的信息记录为安装环境信息。

接下来,使用安装环境信息作为参数,从噪声数据库中提取所需的噪声字典数据(模板)。

然后,使用噪声字典数据对来自麦克风2的输入语音信号进行降噪。

在下文中,这种系统操作的具体示例被例示为第一至第五实施例的操作。

注意,系统操作包括两种类型的处理,包括初步测量的处理(在下文中,也称为“初步测量/输入处理”)和使用语音信号处理装置1时执行的实际处理(在下文中,将也称为“使用装置时执行的处理”)。

在初步测量/输入处理中,用户的输入信息,麦克风阵列中的记录信号,成像装置获得的图像信号等中的任何一个或这些的组合用作输入信息。

将诸如安装语音信号处理装置1的房间的尺寸,基于材料的吸声度以及噪声源的位置和类型的安装环境信息存储到安装环境信息保持单元61中。

在语音信号处理装置1是固定装置的情况下,假定在安装等时进行了初步测量。此外,在语音信号处理装置1是诸如智能扬声器的可移动装置的情况下,假定在安装位置改变时执行初步测量。

接下来,作为使用装置时执行的处理,利用从噪声数据库提取的噪声的统计信息,以存储在安装环境信息中的参数作为参数,NR单元3对来自麦克风2的语音信号进行噪声抑制。

在下文中,将主要例示由控制计算单元5和存储单元6执行的处理作为使用图3中A和B所示的功能执行的操作。

图6示出了第一实施例的操作。

在初步测量/输入处理中,由用户输入的输入信息通过安装环境信息输入单元52的功能被接收,并且作为安装环境信息被存储到安装环境信息保持单元61中。

用户输入的输入信息包括指定噪声源和麦克风2之间的方向或距离的信息,指定噪声类型的信息,与安装环境尺寸有关的信息等。

在使用装置时执行的处理中,管理控制单元51从安装环境信息保持单元61获取安装环境信息(例如,i,θ,l),并使用获取的安装环境信息作为参数,从噪声数据库单元62获取噪声字典数据D(i,θ,l)。

在此,i、θ、l如下。

i:噪声类型索引

θ:从噪声源到声音接收点方向(麦克风2的方向)的方位角

从噪声源到声音接收点方向的仰角

l:噪声源到声音接收点的距离

管理控制单元51将噪声字典数据D(i,θ,l)提供给NR单元3。NR单元3使用噪声字典数据D(i,θ,l)执行降噪处理。

通过该操作,NR单元3可以执行适合于安装环境的降噪处理,特别是诸如噪声的类型,方向和距离。

注意,在图6至图10的各个示例中,i、θ、l用作安装环境信息的示例,但这是示例,并且诸如安装环境的尺寸和吸声度的另一种安装环境信息也可以用作噪声字典数据D的参数。此外,i、θ、l不必总是包括在内,并且假定参数的各种组合。例如,仅噪声类型i和方位角θ可以用作噪声字典数据D的参数。

图7示出了第二实施例的操作。

初步测量/输入处理与图6中的类似。

在使用装置时执行的处理中,管理控制单元51从安装环境信息保持单元61获取安装环境信息(例如,i,θ,l),并使用获取的安装环境信息作为参数,从噪声数据库单元62获取噪声字典数据D(i,θ,l)。此外,管理控制单元51使用安装环境信息(i,θ,l)作为参数从传递函数数据库单元63获取传递函数H(i,θ,l)。

管理控制单元51将噪声字典数据D(i,θ,l)和传递函数H(i,θ,l)提供给NR单元3。

NR单元3使用噪声字典数据D(i,θ,l)和传递函数H(i,θ,l)进行降噪处理。

通过该操作,NR单元3可以执行特别适合于安装环境(诸如,噪声的类型,方向和距离)的降噪处理,并反映传递函数。

图8示出了第三实施例的操作。

在初步测量/输入处理中,由用户输入的输入信息通过安装环境信息输入单元52的功能被接收,并且作为安装环境信息被存储到安装环境信息保持单元61中。

此外,由麦克风2(或输入装置7中的另一个麦克风)收集的语音信号被噪声方向/距离估计单元54的功能接收并分析,并且估计噪声源的方向和距离。也可以通过安装环境信息输入单元52的功能将该信息作为安装环境信息存储到安装环境信息保持单元61中。

因此,即使用户不执行输入,也可以存储安装环境信息。此外,在语音信号处理装置1的布置改变等时,即使用户不执行输入,也可以更新安装环境信息。

在使用装置时执行的处理中,管理控制单元51从安装环境信息保持单元61获取安装环境信息(例如,i,θ,l),并使用获取的安装环境信息作为参数,从噪声数据库单元62获取噪声字典数据D(i,θ,l)。管理控制单元51将噪声字典数据D(i,θ,l)提供给NR单元3。

此外,噪声区间估计单元53将噪声区间的确定信息提供给NR单元3。

在NR单元3中,对于被确定为包括噪声的时间段,使用噪声字典数据D(i,θ,l)执行降噪处理。

通过该操作,NR单元3可以执行特别适合于安装环境的降噪处理,例如,噪声的类型,方向和距离,并反映传递函数。

注意,如图7所示,在NR单元3中,在包括噪声的时间段中,还可以使用噪声字典数据D(i,θ,l)和传递函数H(i,θ,l)进行降噪处理。

图9示出了第四实施例的操作。

在初步测量/输入处理中,可以省略用户输入。例如,由麦克风2(或输入装置7中的另一个麦克风)收集的语音信号被噪声方向/距离估计单元54的功能接收并分析,并且估计噪声源的方向和距离。可以通过安装环境信息输入单元52的功能将该信息作为安装环境信息存储到安装环境信息保持单元61中。

此外,在这种情况下,通过噪声区间估计单元53的功能来确定噪声区间,并且噪声方向/距离估计单元54估计在产生噪声的时间段中的方向,距离,噪声类型,安装环境,尺寸等。

通过使用噪声区间确定信息,可以提高噪声方向/距离估计单元54的估计精度。

当使用装置时执行的处理类似于图6所示的第一实施例的处理。

然而,如图7所示,可以使用从传递函数数据库单元63获取的传递函数H(i,θ,l),或者还假设如图8所示使用了由噪声区间估计单元53获得的噪声区间确定信息。

图10示出了第五实施例的操作。

同样在这种情况下,在初步测量/输入处理中,可以省略用户输入。例如,形状/类型估计单元55对通过输入装置7中的成像装置执行图像捕获而获得的图像信号进行图像分析,并且估计方向,距离,噪声类型,安装环境尺寸等。

特别地,在图像分析中,形状/类型估计单元55估计安装空间的三维形状,并且估计噪声源的存在与否以及位置。例如,确定用作噪声源的家用电器或确定房间的三维空间形状,然后识别语音的距离,方向,反射状态等。

这些信息通过安装环境信息输入单元52的功能被存储到安装环境信息保持单元61中作为安装环境信息。

通过图像分析,可以输入与语音分析不同的环境信息。

注意,作为与图8所示的示例的组合,还可以通过将噪声方向/距离估计单元54的语音分析和形状/类型估计单元55的图像分析结合起来获得更加准确或多样化的安装环境信息。

当使用装置时执行的处理类似于图6所示的第一实施例的处理。

同样在这种情况下,如图7所示,可以使用从传递函数数据库单元63获取的传递函数H(i,θ,l),或者还假设如图8所示使用了由噪声区间估计单元53获得的噪声区间确定信息。

<3.噪声数据库构建步骤>

在上述各种实施例中,已经假设噪声数据库单元62的构建已经预先完成来给出描述。这里,将描述噪声数据库单元62的构建步骤的示例。

图11示出了噪声数据库单元62的构建步骤的示例。

例如,使用包括信息处理装置的声音记录系统和噪声数据库构建系统来执行图11中的处理。

这里,声学记录系统是指可以安装各种噪声源并且可以在例如改变麦克风相对于噪声源的记录位置的同时记录噪声的装置和环境。

在步骤S101中,执行基本信息输入。

例如,操作员将关于噪声类型以及测量位置到噪声源前表面的方向和距离的信息输入到噪声数据库构建系统。

在这种状态下,在步骤S102中,开始噪声源的操作。换句话说,产生噪声。

在步骤S103中,开始噪声的记录和测量,并且在预定时间内执行记录和测量。然后,在步骤S104中,完成测量。

在步骤S105中,执行附加记录的确定。

例如,通过在改变噪声类型或麦克风的位置(即,方向或距离)的同时执行多次测量,执行适合于多种安装环境的噪声记录。

即,在改变麦克风的位置或改变噪声源作为附加记录的同时,重复执行步骤S101至S104中的步骤。

如果需要的测量结束,则处理进入步骤S106,在该步骤中,由噪声数据库构建系统的信息处理装置执行统计参数计算。换句话说,根据测得的语音数据进行噪声字典数据D的计算,并将计算出的噪声字典数据D编译到数据库中。

作为通过上述步骤测量/生成噪声字典数据D的具体示例,将描述考虑方向性的噪声字典数据的生成/获取示例。

例如,使用噪声类型,频率和方向作为参数来获得噪声的方向特性。

首先,将描述噪声字典数据D的生成的示例。

对于每种噪声类型(i),方向(θ、)和距离(l),声音的传播都是通过测量或声学模拟(例如有限差分时域方法(FDTD方法))来计算的。

图12示出了球体,并且噪声源布置在球体的中心处(在图中用“x”表示)。然后,通过在球体的网格点(圆弧的交点)处安装麦克风并进行测量,或者通过对噪声源的3D形状进行声学模拟,可以获得从中心噪声源位置x到每个网格点的传递函数y。

注意,在如图12的测量的情况下,距离(l)等于包括布置在圆弧的交点(球的半径)上的麦克风的麦克风阵列的半径。

重复上述测量,并且针对每种噪声类型i的每个方位角θ,仰角和距离l,获得具有预定离散精度的传递函数的字典。

然后,对测得的传递特性yi(θ,l)进行DFT(离散傅里叶变换)。

[公式1]

注意,公式中的附图标记如下。

i:噪声类型索引

θ:从噪声源到声音接收点方向的方位角

Φ:从噪声源到声音接收点方向的仰角

l:噪声源到声音接收点的距离

k:频点索引

N:测得的脉冲响应长度

然后,每个频点的FFT系数的绝对值(幅度)被保持为适合于相应环境的噪声字典数据Di(k,θ,l)。

[公式2]

Di(k,θ,φ,l)=|Yi(k,θ,φ,l)|

注意,可以使用另一种增益计算方法,只要该方法可以针对每种类型,每种方向和每种距离执行相对比较即可。

接下来,将描述获取噪声字典数据D的示例。

基本上,仅需要使用噪声类型(i),方向(θ,),距离l,以及频率k作为参数从噪声数据库单元62获取期望的Di(k,θ,l)的值。

在噪声数据库单元62中不存在指定方向的数据的情况下,考虑通过从周围的相邻网格点的数据执行线性内插,拉格朗日内插(二次内插)等来生成数据。例如,在图12中的“●”的位置是希望获得方向性的声音接收点LP的情况下,使用由“○”指示的声音接收点LP周围的网格点HP的数据执行内插。

在噪声数据库单元62中不存在指定距离的数据的情况下,考虑基于反距离平方定律等来生成数据。此外,类似于定向的情况,可以从相邻距离的数据执行内插。

假设使用通过上述方法获得的噪声字典数据D的值,对频率轴上的每个频点执行NR。

注意,除了i(噪声类型),θ(方位角),(仰角),l(距离)和k(频率)的参数的组合之外,可以使用指示周围环境的参数,例如吸声度等。

此外,在方向性或其频率特性实质上不同的情况下,即使噪声类型相同,根据操作模式等,也可以将这些噪声类型视为不同的类型。例如,空调的加热模式或制冷模式等。

<4.初步测量/输入处理>

随后,将描述在装置安装时执行的初步测量/输入处理。

例如,当安装语音信号处理装置1(单个装置或包括语音信号处理装置1的装置)以供使用时,执行关于安装环境的信息的测量和输入。

图13示出了主要使用安装环境信息输入单元52的功能由控制计算单元5执行的关于这种测量和输入的处理。

在步骤S201中,控制计算单元5从输入装置7等输入安装环境信息。

作为输入模式,假设通过用户的操作进行输入。例如,假定以下输入等:

·输入指定噪声源相对于已安装装置的方向/距离的信息

·输入指定噪音类型的信息

·输入安装环境尺寸,墙壁材料,反射率,吸声度以及有关房间的其他信息。

此外,与上述第三,第四和第五实施例一样,还执行除用户输入之外的安装环境信息的输入(初步测量)。例如,还假设输入以下信息的情况;

·由噪声方向/距离估计单元54获得的噪声源的方向或距离的测量值

·由形状/类型估计单元55获得的估计信息,例如噪声,方向,距离或有关房间的信息。

如果控制计算单元5(安装环境信息输入单元52)获取了通过用户输入或自动测量获得的这些信息,则在步骤S202中,控制计算单元5进行以下处理:基于获取的信息生成安装环境信息,并将所生成的安装环境信息存储到安装环境信息保持单元61中。

如上所述,安装环境信息被存储在语音信号处理装置1中。

<5.使用装置时执行的处理>

随后,将参考图14描述当使用装置时执行的处理。

例如,该处理是在语音信号处理装置1的电源被打开或者语音信号处理装置1的操作开始之后执行的处理。

在步骤S301中,控制计算单元5检查是否已经存储了安装环境信息。换句话说,在以上图13中的处理中,检查控制计算单元5是否已经将安装环境信息存储在安装环境信息保持单元61。

如果还没有存储安装环境信息,则在步骤S302中,控制计算单元5通过以上图13中的处理来执行安装环境信息的获取和存储。

在存储安装环境信息的状态下,处理进入步骤S303。

在步骤S303中,控制计算单元5从安装环境信息保持单元61获取安装环境信息,并将必要的信息提供给NR单元3。具体地,控制计算单元5使用安装环境信息从噪声数据库单元62获取噪声字典数据D,并且将噪声字典数据D提供给NR单元3。

此外,在某些情况下,控制计算单元5使用安装环境信息从传递函数数据库63获取噪声源和声音接收点之间的传递函数H,并将传递函数H提供给NR单元3。

如果在步骤S304中将此类信息提供给NR单元3,则NR单元3使用噪声字典数据D或者进一步使用传递特性H来计算增益函数,并且执行降噪处理。

之后,由NR单元3继续步骤S304中的降噪处理,直到在步骤S305中确定操作结束为止。

<6.降噪处理>

将描述NR单元3中的降噪处理的示例。

在NR单元3中,通过反复执行图15中的处理,计算用于对由麦克风2获得的语音信号执行的降噪处理的增益函数,并且执行降噪处理。以下将描述的处理是由图5中的SNR估计单元34和增益函数估计单元35执行的增益函数设置处理。

在图15的步骤S401中,NR单元3执行麦克风索引(麦克风索引=1)的初始化。

麦克风索引是分配给多个麦克风2a,2b,2c等中的每个的编号。通过执行麦克风索引的初始化,索引号=1的麦克风(例如,麦克风2a)可以被用作增益函数计算的第一个目标。

在步骤S402中,NR单元3进行频率索引的初始化(频率索引=1)。

频率索引是分配给每个频点的编号,并且通过执行频率索引的初始化,具有索引号1的频点可以被用作增益函数计算的第一个处理目标。

在步骤S403至S409中,对于具有指定麦克风索引的麦克风2,获取并应用由频率索引指定的频点的增益函数。

首先,将描述步骤S403至S409中的流程的概述,并且稍后将描述增益函数计算的细节。

首先,在步骤S403中,NR单元3通过图5中的SNR估计单元34来更新对应的麦克风2和频点的估计噪声功率,先验SNR和后验SNR。

先验SNR是相对于抑制目标噪声的目标声音(例如,主要是人的声音)的SNR。

后验SNR是在噪声叠加之后相对于抑制目标噪声的实际观察声音的SNR。

例如,图5示出了将噪声区间估计结果输入到SNR估计单元34的示例。在SNR估计单元34中,使用噪声区间估计结果,在存在抑制目标噪声的时间段中更新噪声功率和后验SNR。尽管不能获得目标声音的功率真值,但是可以使用诸如非专利文献2中公开的决策指导方法的现有方法来计算先验SNR。

在步骤S404中,NR单元3确定在当前频率下除目标噪声之外的噪声的功率是否等于或小于预定值。进行确定以确定是否可以以高置信度执行增益函数计算。

当在步骤S404中获得肯定结果时,在步骤S406中,NR单元3使用增益函数估计单元35执行增益函数计算。

然后,在步骤S409中,将获得的增益函数作为目标麦克风2的频点的增益函数发送到增益函数应用单元32,并应用于降噪处理。

注意,当设置麦克风索引=1且频率索引=1时,处理总是从步骤S404进入步骤S406。这是因为不能执行稍后将描述的步骤S407或S408中的内插。

当在步骤S404中未获得肯定结果时,在步骤S405中,NR单元3确定在对应频率附近的目标噪声以外的噪声的功率是否等于或小于预定值。该确定是关于在频率轴上的增益函数内插是否合适的确定。

当在步骤S405中获得肯定结果时,在步骤S407中,NR单元3执行增益函数的内插计算。换句话说,使用增益函数估计单元35,NR单元3使用基于噪声字典数据D的方向性字典信息,执行从频率轴上邻域频率内插相应频点的增益函数的处理。

然后,在步骤S409中,将获得的增益函数作为目标麦克风2的频点的增益函数发送到增益函数应用单元32,并应用于降噪处理。

当在步骤S405中没有获得肯定结果时,在步骤S408中,NR单元3执行增益函数的内插计算。在这种情况下,使用增益函数估计单元35,NR单元3使用基于噪声字典数据D的方向性字典信息,使用与另一个麦克风2相同的频率索引的增益函数,执行对目标麦克风2的频点的增益函数进行内插的处理。

然后,在步骤S409中,将获得的增益函数作为目标麦克风2的频点的增益函数发送到增益函数应用单元32,并应用于降噪处理。

然后,在步骤S410中,NR单元3检查是否已经在整个频带中执行了步骤S403至S409中的上述处理,并且如果该处理尚未完成,则频率索引递增并且处理返回到步骤S403。即,NR单元3执行类似地获得下一频点的增益函数的处理。

在对于一个麦克风2的整个频带中已经完成了步骤S403至S409的处理的情况下,在步骤S412中,NR单元3检查是否所有麦克风2都已完成处理。如果处理尚未完成,则在步骤S413中,NR单元3使麦克风索引递增,并且处理返回至步骤S402。即,对于其他麦克风2,针对每个频点依次开始处理。

以这种方式,在图15中,对于每个麦克风2,针对每个频点获得增益函数,并且将所获得的增益函数应用于降噪处理。

在这种情况下,在步骤S403,S404和S405的处理中,选择增益函数的计算方法。

在处理进入步骤S406的情况下,执行增益函数计算。

在处理进入步骤S407的情况下,通过沿频率方向内插来获得增益函数。

在处理进入步骤S408的情况下,通过在空间方向上内插来获得增益函数。

在下文中,将描述增益函数的处理。

图15中的上述处理是使用噪声字典数据D的降噪的示例。换句话说,使用字典Di(k,θ,l)作为模板(i:噪声类型,k:频率,θ:方位角,仰角,l:距离)为每个频率k计算增益函数G(k)。然后,通过使用字典计算估计的噪声功率,增强了增益函数的精度。

然而,在步骤S406中,不使用噪声字典数据D,并且在步骤S407和S408的处理中,使用噪声字典数据D。

然后,如果获得增益函数,则将增益函数应用于每个频率,并且获得降噪输出。在使用应用频谱增益函数的降噪方法的情况下,获得X(k)=G(k)Y(k)。X(k)表示经过降噪处理的语音信号输出,G(k)表示增益函数,而Y(k)表示通过麦克风2获得的语音信号输入。

首先,将描述步骤S407中的增益函数计算。

假设特定分布形状作为目标声音的幅度(/相位)的概率密度分布(同时根据目标声音等的类型而变化)来执行增益函数计算。

步骤S403中的估计噪声功率,先验SNR和后验SNR的更新用于增益函数计算。

在本实施例的情况下,如图5所示,通过SNR估计单元34获取关于噪声区间估计结果的信息,可以确定不存在目标声音的时间段。

因此,使用其中不存在目标声音的时间段来估计噪声功率σN 2

先验SNR是相对于抑制目标噪声的目标声音的SNR,并且如下表示。

[公式3]

这里,公式中的附图标记如下。

ξ(λ,k):先验SNR

λ:时间帧索引

k:频率索引

σS 2:目标声功率

σN 2:噪声功率

以这种方式,可以通过从仅包括不存在目标声音的噪声的部分中估计噪声功率σN 2,并计算目标声功率σS 2来获得先验SNR。

此外,后验SNR是在噪声叠加之后相对于抑制目标噪声的实际观察声音的SNR,并且通过获得每个帧的观察信号的功率(目标声音+噪声)来计算。后验SNR表示如下。

[公式4]

这里,公式中的附图标记如下。

γ(λ,k):后验SNR

R2:观察信号(目标声音+噪声)功率

然后,根据上述先验SNR和后验SNR来计算用于抑制噪声的增益函数G(λ,k)。增益函数G(λ,k)如下。注意,ν和μ是语音幅度的概率密度分布参数。

[公式5]

这里,“u”表示如下。

[公式6]

例如,在图15的步骤S406中,如上所述获得增益函数。该情况是在步骤S404中确定当前频率下的目标噪声以外的噪声的功率等于或小于预定值的情况。例如,这种情况是对于对应的麦克风2和频点不存在突发性噪声成分等的情况,并且上述增益函数(数学式5)的精度被估计为高。

然而,实际上,在麦克风2获得的语音信号中,不存在仅希望去除的噪声存在的时间段。换句话说,总是存在暗噪声,不稳定噪声等,并且产生噪声频谱的估计误差。

然后,通过将包括目标声音或不稳定噪声的区间错误地确定为噪声区间,噪声谱的估计误差变大。

因此,通过使用噪声源的方向特性及其频率特性对不可靠的频带或麦克风信号中的增益函数的计算进行内插,从而提高了降噪精度。该处理对应于步骤S407或S408中的处理。

首先,将描述步骤S407中的频率轴上的增益函数内插。

注意,为计算目标麦克风2设置麦克风索引=m。此外,k和k’表示频率索引。在下文中,将具有麦克风索引=m的麦克风2描述为“麦克风m”。

在下文中,针对执行降噪的每个麦克风m(方位角θ,仰角噪声源与麦克风2之间的距离l)执行[1][2][3]的处理。

[1]在确定为不包括目标声音的时间段中估计噪声功率σN 2

[2]获得不太可能包括另一噪声(或目标声音)的频带k。频带k是不太可能包括另一噪声或目标声音的成分的频带。

使用上述估计的噪声功率σN 2,基于每种降噪方法来计算先验SNR,后验SNR和增益函数Gm(k)。

[3]获得了很可能包括另一种噪声(或目标声音)的频带k'。

获取噪声字典数据D(k’,θ、l),并且从边缘频带获得估计噪声功率σN 2

当麦克风m在频带k的时间帧λ中的噪声功率被描述为σN,M 2(λ,k)时,基于边缘频带k’的估计噪声功率σN,M 2(λ,k’)和噪声字典数据D,噪声功率可以表示如下。

[公式7]

然后,根据获得的估计噪声功率来计算先验SNR,后验SNR和增益函数Gm(k)。

以这种方式,增益函数可以通过在频率之间内插目标声音相对于观测声音的比率(目标声音+噪声)或噪声分量的比率的比例计算来计算。

注意,期望以实现已经计算出增益函数的频带与噪声的频率特性之间的一致性的方式更新增益函数,而不是对每个频率k独立地更新增益函数。

此外,在估计噪声频谱的可靠性低的频带k'中,认为没有使用估计噪声频谱,而是使用噪声方向特性字典从具有高可靠性的频带的增益函数计算估计噪声频谱。

注意,可以使用在过去的时间帧中使用适当的时间常数和估计的噪声功率的线性混合等。

步骤S408中的在空间方向上的增益函数内插如下进行。

在麦克风m'(方位角θ',仰角距离l')的增益函数的更新已经结束的情况下,使用该结果来计算估计噪声功率σN,M 2,并且计算出增益函数Gm(k)。

麦克风m的估计噪声功率σN,M 2(λ,k)和麦克风m’的估计噪声功率σN,M ′2(λ,k)表示如下。

[公式8]

换句话说,在使用另一个麦克风m'的空间方向上的内插中,增益函数是通过在麦克风之间按比例计算目标声音与观察声音的比率(目标声音+噪声)或噪声分量的比率来获得的。

注意,可以使用具有从实际麦克风m的估计噪声频谱计算的增益函数的线性混合。

通过执行这些内插,可以使降噪的性能和效率更高。

换句话说,可以减少实际上造成性能恶化的噪声频谱的估计误差引起的不良影响。这是因为使用噪声源的方向特性信息,可以从包括少量目标声音的频带的噪声功率和另一噪声准确地估计另一噪声功率。

此外,可以从将要施加到以特定方向和特定距离存在的麦克风2的观测信号的增益函数中快速计算另一个麦克风2的增益函数。

此外,可以使麦克风2之间的增益函数一致。例如,即使有些麦克风2混合有诸如接触之类的突然噪声,也可以根据另一麦克风2的估计的噪声功率和噪声方向性字典来准确地计算噪声功率和增益函数。

注意,图15中的处理示出了分别在频率方向上进行内插和在空间方向上进行内插的示例,但是除此以外或代替此,考虑在频率方向和空间方向上执行内插。

随后,将描述考虑传递函数的情况。

在考虑噪声与声音接收点之间的传递函数的情况下,执行以下[1]、[2]、[3]、[4]的处理。

[1]获取从噪声源到声音接收点的传递特性H(k,θ,l)。

[2]在计算增益函数时,将传递特性的卷积执行到字典。当考虑传递函数的字典由Di'(k,θ,l)表示时,获得Di'(k,θ,l)=Di(k,θ,l)*|H(k,θ,l)|。Di(k,θ,l)是噪声字典数据,而H(k,θ,l)是传递函数。

[3]基于每个降噪的方法来计算增益函数。在这种情况下,不使用噪声字典数据Di而是使用已经对其进行了传递特性的上述卷积的噪声字典数据Di'来更新估计的噪声功率,并且使用噪声字典数据Di'来计算增益函数。

[4]应用增益函数,并且获得降噪的输出。

如上所述,已经经过降噪处理的语音信号输出X(k)被表示为X(k)=G(k)Y(k)。在这种情况下,根据噪声字典数据Di’(k、θ、l)计算出增益函数G(k)。

注意,作为传递函数,考虑使用通过将从噪声源到声音接收点(麦克风2)的传递函数按距离简化而获得的传递函数H(ω,θ,l),或者考虑使用通过坐标指定噪声源和声音接收点的位置的传递函数H(x1,y1,z1,x2,y2,z2)。

换句话说,传递函数H由将某个空间中的噪声源和声音接收点的位置(三维坐标)作为参数的函数表示。

此外,通过适当地离散坐标,可以将传递函数H记录为数据。

此外,传递函数H可以被记录为简化了两点之间的距离的函数或数据。

<7.结论和变型例>

根据上述实施例,获得以下效果。

实施例的语音信号处理装置1包括控制计算单元5,其基于安装环境信息(包括关于噪声的类型以及声音接收点(在本实施例的情况下为麦克风2的位置)与噪声源之间的方向的信息)来获取从噪声数据库单元62读出的噪声字典数据D,以及NR单元3(噪声抑制单元),其使用噪声字典数据D对由布置在声音接收点的麦克风2获得的语音信号执行噪声抑制处理。

通过使用至少适合于至少关于噪声的类型i和布置麦克风2的声音接收点与噪声源之间的方向(θ或)的信息的噪声字典数据,NR单元3可以有效地对来自麦克风2的语音信号执行噪声抑制。这是因为各种声源均具有独特的辐射特性,并非语音在所有方向上均匀地辐射,且在这一点上,通过考虑适合于噪声的类型i和方向(θ或)的辐射特性,可以提高噪声抑制的性能。

例如,在用于远程呈现的声学装置,电视等在实际空间中永久地安装和操作的情况下,噪声源和声音接收点(例如,麦克风2)间的距离和方向通常是固定的。例如,电视机一旦安装好后,就很少移动,并且安装在电视机上的麦克风相对于空调等的位置作为具体示例给出。此外,在位置固定的情况下还包括希望从记录的声音中去除坐在桌子等旁的人的声音的情况。特别是在这些情况下,可以通过有效地利用设置空间中的两点之间的方向信息和空间传递特性来抑制噪声源,从而提高记录声音的质量。

另一方面,在安装诸如智能扬声器之类的可移动安装的装置的情况下,在相同安装环境下安装位置变化的情况下,需要重新估计噪声源的方向和距离,并且还考虑了使用声源类型/方向信息和预先获得的两点之间的空间传递特性的组合来执行最佳噪声抑制的配置。

此时,在安装环境保持不变的情况下,还可以利用预先获得的安装环境的3D形状尺寸数据和固定声源的方向/距离信息来精确地执行动态方向/距离估计。

注意,在绝对方向噪声的情况下,还可以通过使用多个麦克风的波束形成来执行噪声抑制,但是根据环境的混响特性有时不能获得足够的效果。此外,目标声源有时根据噪声方向和目标声方向而劣化。因此,与本实施例的技术结合是有效的。

在第二实施例中,已经给出了示例的描述,其中控制计算单元5基于安装环境信息从保持各种环境下两点之间的传递函数的传递函数数据库单元63获取噪声源与声音接收点之间的传递函数,并且NR单元3将传递函数用于噪声抑制处理。

通过考虑适合于噪声的类型i和方向(θ或)的辐射特性,以及表示空间中混响反射特性的空间传递特性(传递函数H),可以提高噪声抑制的性能。

在该实施例中,已经给出了示例的描述,其中安装环境信息包括有关从声音接收点到噪声源的距离l的信息,且控制运算单元5以类型i,方向(θ或),距离l为参数,从噪声数据库单元62取得噪声字典数据D。

安装环境信息包括噪声的类型i,以及从声音接收点到噪声源的方向(θ或)和距离l,并且至少适合类型i,方向(θ或)和距离l的噪声字典数据存储在噪声数据库单元62中。从而可以识别适合于类型i,方向(θ或)和距离l的噪声字典数据。

然后,通过也反映噪声源与声音接收点之间的距离l,也可以反映基于距离l的噪声水平的衰减。这可以进一步增强噪声抑制的性能。

在实施例中,已经给出了示例的描述,其中安装环境信息包括关于声音接收点和噪声源之间的方位角θ和仰角的信息作为方向,且控制计算单元5以类型i,方位角θ及仰角为参数,从噪声数据库部62取得噪声辞典数据D。

换句话说,关于方向的信息不是从二维角度看声音接收点与噪声源之间的位置关系时的方向的信息,而是关于包括在上下方向上的位置关系(仰角)的三维方向的信息。

安装环境信息包括噪声的类型i,方位角θ,仰角和从声音接收点到噪声源的距离l,以及至少适用于类型i,方位角θ,仰角和距离l的噪声字典数据被存储在噪声数据库单元62中。

通过将方位角θ和仰角反映为噪声源与声音接收点之间的方向,可以考虑在三维空间中基于更精确的方向的噪声的特性来执行噪声抑制,并且可以提高噪声抑制性能。

在实施例中,已经给出了包括存储安装环境信息的安装环境信息保持单元61的示例的描述(参考图3中B,图13和图14)。

例如,根据语音信号处理装置的安装来存储预先输入为安装环境信息的信息。通过根据实际安装环境预先获取安装环境信息,在NR单元3的实际操作时可以适当地获得噪声字典数据。

在第一和第二实施例中,已经给出了示例的描述,其中控制计算单元5执行存储通过用户操作输入的安装环境信息的处理(参考图13)。

在用户根据实际安装环境使用安装环境信息输入单元52的功能预先输入安装环境信息的情况下,控制计算单元5获取安装环境并将安装环境存储到安装环境信息保持单元61中。从而可以从噪声数据库单元62获得适合于用户在NR单元3的实际操作时指定的安装环境的噪声字典数据D。

在第三和第四实施例中,已经给出了示例的描述,其中,控制计算单元5执行估计声音接收点与噪声源之间的方向或距离的处理,并且执行存储适合于估计结果的安装环境信息的处理。

控制计算单元5使用噪声方向/距离估计单元54的功能,根据实际的安装环境预先估计噪声源之间的方向或距离,并将估计结果作为安装环境信息存储到安装环境信息保持单元61中。因此,即使用户没有输入安装环境信息,也可以在NR单元3的实际操作时从噪声数据库单元62获得适合于安装环境的噪声字典数据D。

此外,当移动安装位置等时,不需要用户重新输入安装环境信息,并且还可以基于方向或距离的估计,将安装环境信息更新为新的安装环境信息。

在第四实施例中,已经给出了示例的描述,其中,当估计声音接收点与噪声源之间的方向或距离时,控制计算单元5确定在预定时间段内是否存在噪声源类型的噪声。

由此可以准确地估计噪声源之间的方向或距离。

在第五实施例中,已经给出了示例的描述,其中控制计算单元5执行存储基于由成像装置拍摄的图像而确定的安装环境信息的处理。

例如,在将语音信号处理装置1安装在使用环境中的状态下,由用作输入装置7的成像装置执行图像捕获。控制计算单元5使用形状/类型估计单元55的功能来分析在实际安装环境中捕获的图像,并且估计噪声源的类型,方向,距离等。通过将估计结果作为安装环境信息存储到安装环境信息保持单元61中,因此,即使用户没有输入安装环境信息,也可以在NR单元3的实际操作时从噪声数据库单元62获得适合于安装环境的噪声字典数据D。

此外,当移动安装位置等时,可以基于对捕获图像的分析,将安装环境信息更新为新的安装环境信息,而无需用户新输入安装环境信息。

在第五实施例中,已经给出了其中控制计算单元5基于捕获图像执行形状估计的示例的描述。例如,在将语音信号处理装置1安装在使用环境中的状态下控制,由成像装置执行图像捕获以估计安装空间的三维形状。

计算单元5使用形状/类型估计单元55的功能可以分析在实际安装环境中捕获的图像,估计三维形状,并且估计噪声源的存在与否以及位置。估计结果作为安装环境信息被存储到安装环境信息保持单元61中。由此可以自动获取安装环境信息。例如,可以确定用作噪声源的家用电器,或者可以从空间形状准确识别距离,方向,语音的反射条件等。

实施例的NR单元3使用从噪声数据库单元62获取的噪声字典数据D来计算增益函数,并且使用该增益函数执行降噪处理(噪声抑制处理)。

从而可以获得适合于环境信息的增益函数,并且执行适合于环境的噪声抑制处理。

此外,已经给出了示例的描述,其中,实施例的NR单元3基于反映传递函数H的噪声字典数据D’计算增益函数,并使用增益函数执行噪声抑制处理。其中,噪声字典数据D’通过将噪声源和声音接收点之间的传递函数卷积到噪声字典数据D(从噪声数据库单元62获取)中而获得。

换句话说,在反映传递函数H的情况下,噪声字典数据D变形。从而可以获得考虑了噪声源和声音接收点之间的传递函数的增益函数,并且可以增强噪声抑制性能。

如以上参考图15所述,已经给出了示例的描述,其中,在降噪处理中,实施例的NR单元3根据预定条件确定(步骤S404或S405)在频率方向上执行增益函数内插(步骤S407),并且使用内插增益函数执行噪声抑制处理(步骤S409)。

例如,在由于某个频点中的突发性噪声等导致去除目标噪声以外的噪声的功率较大的情况下,假定不能适当地计算去除频点中的去除目标噪声的增益函数。因此,确定邻近频点的状态,并且如果在邻近频点中除去除目标噪声以外的噪声的功率不大,则使用频点中的增益系数来执行内插。特别地,通过使用噪声字典数据,可以通过简单的计算来执行适当的内插。从而提高了噪声抑制性能,降低了处理负荷,并相应地提高了处理速度。

此外,在图15的处理示例中,NR单元3根据预定条件确定(步骤S404或S405)在空间方向上执行增益函数内插(步骤S408),并且使用内插增益函数执行噪声抑制处理(步骤S409)。

例如,可以通过在反映麦克风2之间的方位角θ的差异的同时在空间方向上执行增益函数的内插来计算增益系数。特别地,通过使用噪声字典数据,可以通过简单的计算来执行适当的内插。从而提高了噪声抑制性能,降低了处理负荷,并相应地提高了处理速度。

尤其是,如图15中的流程所示,在去除目标噪声以外的噪声的功率在正在执行增益系数计算的频点中或其附近频点中较大的情况下,通过在空间方向上应用增益函数内插,即使在频率方向上的内插不合适时,也可以获得适当的增益函数。

已经给出了示例的描述,其中,实施例的NR单元3使用不包括噪声的时间段和包括噪声的时间段的估计结果来执行噪声抑制处理(参考图5)。

例如,根据作为时间段的噪声的存在或不存在的估计来获得先验SNR和后验SNR,并且先验SNR和后验SNR反映在增益函数计算中。

因此,可以适当地估计噪声功率,并且可以执行适当的增益函数计算。

已经给出了示例的描述,其中,实施例的控制计算单元5针对每个频带从噪声数据库单元获取噪声字典数据。

换句话说,如以上参考图15所述,针对每个频点获取适合于安装环境信息(全部或部分类型i,方位角θ,仰角距离l)的噪声字典数据,并获得增益函数。因此,可以对每个频点使用适当的增益函数来执行噪声抑制处理。

在实施例中,已经给出了其中包括存储传递函数数据库单元63的存储单元6的示例的描述(参考图3中B)。

从而,语音信号处理装置1可以在NR单元3的实际操作时适当地独立地获得传递函数H。

在实施例中,已经给出了其中包括存储噪声数据库单元62的存储单元6的示例的描述(参考图3中B)。

语音信号处理装置由此可以在NR单元3的实际操作时适当地独立地获得噪声字典数据D。

作为实施例,如图2所示,举例说明了控制计算单元5通过与外部装置通信来获取噪声字典数据D的配置。

换句话说,例如,不将噪声数据库单元62存储在语音信号处理装置中,而是存储在云等中,并且通过通信获取噪声字典数据D。

这样可以减轻语音信号处理装置1上的存储容量负担。特别地,噪声数据库单元62的数据量有时变得巨大,并且在这种情况下,通过使用诸如图2中的存储单元6A的外部资源,处理变得容易。此外,随着噪声字典数据D的数据量变得令人满意,存储了适合于各种环境的噪声字典数据。即,通过将噪声数据库单元62存储在外部资源中,并且每个语音信号处理装置1通过通信获取噪声字典数据D,可以获取更适合于每种语音信号处理装置1的噪声字典数据D。这可以进一步增强噪声抑制性能。

注意,出于类似的原因,也优选将传递函数数据库单元63存储在类似于存储单元6A的外部资源中。

此外,根据每个语音信号处理装置1,还可以使诸如存储单元6A之类的外部资源具有安装环境信息保持单元61的功能,从而可以减轻语音信号处理装置1上的硬件负担。

注意,在本说明书中描述的效果仅仅是示例性的并且不受限制,并且可能引起其他效果。

注意,本技术也可以采用以下配置。

(1)一种语音信号处理装置,包括:

控制计算单元,被配置为基于包括有关噪声类型和声音接收点与噪声源之间的方向的信息的安装环境信息来获取从噪声数据库单元读取的噪声字典数据;以及

噪声抑制单元,被配置为使用噪声字典数据对由布置在声音接收点的麦克风获得的语音信号执行噪声抑制处理。

(2)根据上述(1)的语音信号处理装置,

其中,控制计算单元基于安装环境信息从保持各种环境下两点之间的传递函数的传递函数数据库单元获取噪声源与声音接收点之间的传递函数,以及

噪声抑制单元将传递函数用于噪声抑制处理。

(3)根据上述(1)或(2)的语音信号处理装置,

其中,安装环境信息包括关于从声音接收点到噪声源的距离的信息,以及

控制计算单元从噪声数据库单元获取噪声字典数据,同时包括类型、方向和距离作为参数。

(4)根据上述(1)至(3)中任一项的语音信号处理装置,

其中,安装环境信息包括与在声音接收点与噪声源之间的方位角和仰角有关的信息作为方向,以及

控制计算单元从噪声数据库单元获取噪声字典数据,同时包括类型、方位角和仰角作为参数。

(5)根据上述(1)至(4)中任一项的语音信号处理装置,还包括安装环境信息保持单元,被配置为存储安装环境信息。

(6)根据上述(1)至(5)中任一项的语音信号处理装置,

其中,控制计算单元执行存储通过用户操作输入的安装环境信息的处理。

(7)根据上述(1)至(6)中任一项的语音信号处理装置,

其中,控制计算单元执行估计声音接收点与噪声源之间的方向或距离的处理,并执行存储适合于估计结果的安装环境信息的处理。

(8)根据上述(7)的语音信号处理装置,

其中,当估计声音接收点与噪声源之间的方向或距离时,控制计算单元确定在预定时间段内是否存在噪声源的类型的噪声。

(9)根据上述(1)至(8)中任一项的语音信号处理装置,

其中,控制计算单元执行存储基于由成像装置捕获的图像确定的安装环境信息的处理。

(10)根据上述(9)的语音信号处理装置,

其中,控制计算单元基于捕获的图像执行形状估计。

(11)根据上述(1)至(10)中任一项的语音信号处理装置,

其中,噪声抑制单元使用从噪声数据库单元获取的噪声字典数据来计算增益函数,并且使用增益函数执行噪声抑制处理。

(12)根据上述(1)至(11)中任一项的语音信号处理装置,

其中,噪声抑制单元基于反映了传递函数的噪声字典数据来计算增益函数,并使用增益函数执行噪声抑制处理,传递函数是通过将噪声源与声音接收点之间的传递函数卷积为从噪声数据库单元获取的噪声字典数据而获得的。

(13)根据上述(1)至(12)中任一项的语音信号处理装置,

其中,噪声抑制单元在噪声抑制处理中根据预定条件确定开执行在频率方向上的增益函数内插,并使用内插的增益函数来执行噪声抑制处理。

(14)根据上述(1)至(13)中任一项的语音信号处理装置,

其中,噪声抑制单元在噪声抑制处理中根据预定条件确定来执行在空间方向上的增益函数内插,并且使用内插的增益函数来执行噪声抑制处理。

(15)根据上述(1)至(14)中任一项的语音信号处理装置,

其中,噪声抑制单元使用不包括噪声的时间段和包括噪声的时间段的估计结果来执行噪声抑制处理。

(16)根据上述(1)至(15)中任一项的语音信号处理装置,

其中,控制计算单元针对每个频带从噪声数据库单元获取噪声字典数据。

(17)根据上述(2)的语音信号处理装置,还包括

存储单元,被配置为存储传递函数数据库单元。

(18)根据上述(1)至(17)中任一项的语音信号处理装置,还包括

存储单元,被配置为存储噪声数据库单元。

(19)根据上述(1)至(17)中任一项的语音信号处理装置,

其中,控制计算单元通过与外部装置的通信来获取噪声字典数据。

(20)一种噪声抑制方法,由语音信号处理装置执行,该噪声抑制方法包括:

基于包括有关噪声类型和声音接收点与噪声源之间的方向的信息的安装环境信息来获取从噪声数据库单元读取的噪声字典数据;以及

使用噪声字典数据对由布置在声音接收点的麦克风获得的语音信号执行噪声抑制处理。

符号说明

1 语音信号处理装置

2 麦克风

3 NR单元

4 信号处理单元

5、5A 控制计算单元

6、6A 存储单元

7 输入装置

51 管理控制单元

52 安装环境信息输入单元

53 噪声区间估计单元

54 噪声方向/距离估计单元

55 形状/类型估计单元

61 安装环境信息保持单元

62 噪声数据库单元

63 传递函数数据库单元。

42页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:用于双功率存储器的柔性功率序列化

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!