多声道音频编码

文档序号:914640 发布日期:2021-02-26 浏览:1次 >En<

阅读说明:本技术 多声道音频编码 (Multi-channel audio coding ) 是由 扬·比特 埃伦尼·福托普楼 斯里坎斯·科塞 保洛维·马本 马库斯·马特拉斯 弗伦茨·罗伊特 于 2019-06-19 设计创作,主要内容包括:在多声道音频编码中,针对参数化音频编码器,通过计算用于频域中任意两个声道之间的ITD补偿的比较参数,可以实现改进的计算效率。这可以减轻对编码器参数估计的负面影响。(In multi-channel audio coding, improved computational efficiency can be achieved for parametric audio coders by calculating comparison parameters for ITD compensation between any two channels in the frequency domain. This may mitigate the negative impact on the encoder parameter estimation.)

多声道音频编码

技术领域

本申请涉及参数化多声道音频编码。

背景技术

用于在低比特率下对立体声信号进行有损参数化编码的现有技术方法基于如MPEG-4Part 3[1]中标准化的参数化立体声。一般理念是在提取立体声/空间参数后,通过计算来自两个输入声道的降混信号来减少多声道系统的声道数量,该立体声/空间参数作为附带信息被发送给解码器。这些立体声/空间参数通常可以包括声道间电平差ILD、声道间相位差IPD和声道间相干性ICC,它们可在子带中计算,并捕获空间图像到一定程度。

然而,该方法不能补偿或合成声道间时间差(ITD),该声道间时间差例如被期望用于降混或再现使用AB麦克风设置录制的语音或用于合成双耳渲染的场景。ITD合成已通过双耳线索编码(BCC)[2]解决,该BBC通常使用参数ILD和ICC,同时估计ITD并在频域中执行声道对齐。

尽管存在时域ITD估计器,但通常优选ITD估计应用时间到频率变换,这允许对互相关函数进行频谱滤波,并且计算效率高。出于复杂性原因,期望使用也用于提取立体声/空间参数以及可能用于对声道进行降混(这也在BCC方法中进行)的相同变换。

然而,这具有一个缺点:理想而言是在对齐的声道上执行立体声参数的准确估计。但是如果声道在频域中对齐(例如通过频域中的循环移位),这可能会导致分析窗口中的偏移,该偏移可能会负面地影响参数估计。在BCC的情况下,这主要影响ICC的测量,其中即使输入信号实际上是完全相干的,增大的窗口偏移最终也会将ICC值推向零。

因此,目的是提供用于多声道音频编码中的参数计算的构思,其能够补偿声道间时间差,同时避免对空间参数估计的负面影响。

发明内容

该目的是通过所附独立权利要求的主题来实现的。

本申请基于以下发现:在多声道音频编码中,通过计算至少一个比较参数,可以实现改进的计算效率,该至少一个比较参数用于参数化音频编码器所使用的频域中的任意两个声道之间的ITD补偿。参数化编码器可以使用所述至少一个比较参数来减轻上述对空间参数估计的负面影响。

实施例可以包括参数化音频编码器,该参数化音频编码器旨在通过至少一个降混信号以及附加的立体声或空间参数来表示立体声或大体上表示空间内容。这些立体声/空间参数中可以是ITD,在计算剩余的立体声/空间参数之前,可在频域中对其进行估计和补偿。该过程可能会使其他立体声/空间参数偏置,这是原本可能必须通过重新计算频率到时间的变换来以昂贵的方式解决的问题。在所述实施例中,可以通过应用计算便宜的校正方案来在相当程度上减轻该问题,该校正方案可以使用ITD的值和基础变换的某些数据。

实施例涉及一种有损参数化音频编码器,其可以基于加权中/侧变换方法,可以使用立体声/空间参数IPD、ITD以及两个增益因子,并且可以在频域中操作。其他实施例可以使用不同的变换并且可以适当地使用不同的空间参数。

在实施例中,参数化音频编码器可以在频域中能够补偿和合成ITD。它可以具有减轻上述窗口偏移的负面影响的计算高效的增益校正方案的特征。还提出了用于BCC编码器的校正方案。

附图说明

本申请的有利实现是从属权利要求的主题。下面参考附图描述本申请的优选实施例,在附图中:

图1示出了根据本申请的实施例的用于参数化编码器的比较设备的框图;

图2示出了根据本申请的实施例的参数化编码器的框图;

图3示出了根据本申请的实施例的参数解码器的框图。

具体实施方式

图1示出了用于多声道音频信号的比较设备100。如图所示,它可以包括用于一对立体声声道的音频信号的输入,即左音频声道信号l(τ)和右音频声道信号r(τ)。当然,其他实施例可以包括多个声道以捕获声源的空间特性。

在将时域音频信号l(τ)、r(τ)变换到频域之前,可以分别将相同的重叠窗口函数11、21w(τ)应用于左输入声道信号l(τ)和右输入声道信号r(τ)。此外,在实施例中,可以添加某个数量的零填充,这允许频域中的偏移。随后,可以将加窗的音频信号提供给对应的离散傅立叶变换(DFT)块12、22,以执行对应的时间到频率变换。这些可以产生时频区间Lt,k和Rt,k,k=0,...,K-1,作为该一对声道的音频信号的频率变换。

所述频率变换Lt,k和Rt,k可以被提供给ITD检测和补偿块20。后者可以被配置为使用所述分析窗口w(τ)中该一对声道的音频信号的频率变换Lt,k和Rt,k来导出ITD参数(这里为ITDt),以表示该一对声道的音频信号之间的ITD。其他实施例可以使用不同的方法来导出ITD参数,该ITD参数也可以在DFT块之前在时域中确定。

用于计算ITD的ITD参数的导出可能涉及计算(可能是加权的)自相关函数或互相关函数。传统上,这可以通过将离散傅立叶逆变换(IDFT)应用于项根据时频区间Lt,k和Rt,k来计算。

补偿测量的ITD的正确方法将是在时域中执行声道对齐,然后将相同的时间到频率变换再次应用到已移位的声道,以便获得ITD补偿的时频区间(bin)。然而,为了节省复杂性,可以通过在频域中执行循环移位来近似该过程。相应地,ITD补偿可以由ITD检测和补偿块20在频域中执行,例如通过分别由循环移位块13和23执行循环移位以产生

以及

其中ITDt可以表示针对样本中的帧t的ITD。

在实施例中,这可以使滞后的声道提前ITDt/2个样本,且可以使滞后的声道延迟ITDt/2个样本。然而,在另一个实施例中,如果延迟很关键,仅将滞后的声道提前ITDt个样本可能是有益的,这不会增加系统的延迟。

结果,ITD检测和补偿块20可以使用ITD参数ITDt通过循环移位在频域中补偿针对该一对声道的ITD,以在其输出处生成一对已ITD补偿的频率变换Lt,k,comp,Rt,k,comp。此外,ITD检测和补偿块20可以输出导出的ITD参数,即ITDt,以例如通过参数化编码器进行传输。

如图1所示,比较和空间参数计算块30可以接收ITD参数ITDt以及该一对已ITD补偿的频率变换Lt,k,comp,Rt,k,comp作为其输入信号。比较和空间参数计算块30可以使用其输入信号的一些或全部来提取多声道音频信号的立体声/空间参数,例如相间差IPD。

此外,比较和空间参数计算块30可以基于ITD参数ITDt和该一对已ITD补偿的频率变换Lt,k,comp,Rt,k,comp来生成用于参数化编码器的至少一个比较参数,这里是两个增益因子gt,b和rt,b,corr。其他实施例可以附加地或备选地使用频率变换Lt,k,Rt,k和/或在比较和空间参数计算块30中提取的空间/立体声参数来生成至少一个比较参数。

该至少一个比较参数可以用作在计算上高效的校正方案的一部分,以减轻分析窗口w(τ)中上述偏移对参数化编码器的空间/立体声参数估计的负面影响,所述偏移是由ITD检测和补偿模块20内在DFT域中通过循环移位进行的声道对齐导致的。在实施例中,可以计算至少一个比较参数,以用于在解码器处例如从降混信号恢复该一对声道的音频信号。

图2示出了用于立体声音频信号的这种参数化编码器200的实施例,其中图1的比较设备100可以用于提供ITD参数ITDt、该一对已ITD补偿的频率变换Lt,k,comp,Rt,k,comp以及比较参数rt,b,corr和gt,b

参数化编码器200可使用已ITD补偿的频率变换Lt,k,comp,Rt,k,comp作为输入来针对左输入声道信号l(τ)和右输入声道信号r(τ)在降混块40中生成降混信号DMXt,k。其他实施例可以附加地或备选地使用频率变换Lt,k,Rt,k来生成降混信号DMXt,k

参数化编码器200可以在比较和空间参数计算块30中基于帧来计算立体声参数,例如IPD。其他实施例可以确定不同的或附加的立体声/空间参数。图2中的参数化编码器200实施例的编码过程可以大致遵循以下步骤,下面将对其进行详细描述。

1.使用加窗DFT对输入信号进行的时间到频率变换

在窗口和DFT块11、12、21、22中

2.频域中的ITD估计和补偿

在ITD检测和补偿模块20中

3.立体声参数提取和比较参数计算

在比较和空间参数计算块30中

4.降混

在降混块40中

5.加窗和重叠添加之前的频率到时间的转换

在IDFT块50中

图2中的参数化音频编码器200的实施例可以基于使用已ITD补偿的频率变换Lt,k,comp,Rt,k,comp以及ITD作为输入的频域中的输入声道的加权中/侧变换。它还可以计算立体声/空间参数(例如IPD)以及计算捕获立体声图像的两个增益因子。它可以减轻上述窗口偏移的负面影响。

对于比较和空间参数计算模块30中的空间参数提取,可以将已ITD补偿的时频区间Lt,k,comp和Rt,k,comp分组为子带,并且对于每个子带,可以计算在相间差IPD和该两个增益因子。设Ib表示子带b中的频率区间的索引。则可以将IPD计算为

上述两个增益因子可能与该一对已ITD补偿的频率变换Lt,k,comp和Rt,k,comp的逐频带相位补偿的中/侧变换(通过以下公式(4)和(5)给出)相关:

对于k∈Ib

以及

所述增益因子中的第一增益因子gt,b可以被视为在公式(6)中用于从中间信号变换Mt对侧信号变换St进行逐频带预测的最佳预测增益:

St,k=gt,bMt,kt,k (6)

使得公式(7)所给出的公式(6)中的预测残差ρt,k的能量是最小的

该第一增益因子gt,b可以被称为侧增益。

第二增益因子rt,b描述预测残差ρt,k的能量相对于中间信号变换Mt,k的能量之比,由公式(8)给出为

并且可以称为残差增益。残差增益rt,b可以在诸如图3中的解码器实施例的解码器处使用,以形成对中/侧变换的预测残差ρt,k的适当替换。

在图2所示的编码器实施例中,可使用如下公式(9)中给出的已ITD补偿的频率变换Lt,k,comp和Rt,k,comp的能量EL,t,b和ER,t,b来将增益因子gt,b和rt,b二者在比较和空间参数计算块30中计算为比较参数:

且其内积的绝对值在公式(10)中给出:

基于所述能量EL,t,b和ER,t,b以及内积XL/R,t,b,可以使用公式(11)将侧增益因子gt,b计算为

此外,可以使用公式(12)来基于所述能量EL,t,b和ER,t,b以及内积XL/R,t,b和侧增益因子gt,b将残差增益因子rt,b计算为:

在其他实施例中,可以适当地使用其他方法和/或公式来计算侧增益因子gt,b和残差增益因子rt,b和/或不同的比较参数。

如前所述,频域中的ITD补偿通常可以节省复杂性,但是(在没有进一步措施的情况下)具有缺点。理想而言,对于使用AB麦克风设置录制的干净消声的语音,左声道信号l(τ)基本上是右声道r(τ)的延迟(以延迟d来延迟)和缩放(以增益c来缩放)版本。这种情况可以由以下公式(13)表示,其中:

l(τ)=cr(τ-d) (13)。

在对未加窗的输入声道音频信号l(τ)和r(τ)进行适当的ITD补偿后,对侧增益因子gt,b的估计将在公式(14)中给出为

其中,消失的残差增益因子rt,b给出为

rt,b=0 (15)。

然而,如果由ITD检测和补偿块20分别使用循环移位块13和23来如图2中的实施例一样在频域中执行声道对齐,则对应的DFT分析窗口w(τ)也被旋转。因此,在频域中补偿ITD之后,针对右声道的已ITD补偿的频率变换Rt,k,comp可以通过下式的DFT以时频区间的形式确定

w(τ)r(τ) (16),

而针对左声道的已ITD补偿的频率变换Lt,k,comp可以通过下式的DFT以时频区间的形式确定

w(τ+ITDt)r(τ) (17),

其中,w是DFT分析窗口函数。

已经观察到,这种频域中的声道对齐主要影响残差预测增益因子rt,b,其随着ITDt的增加而增大。在没有任何进一步措施的情况下,频域中的声道对齐将因此在解码器处将附加的环境添加到输出音频信号,如图3所示。该附加的环境是不期望的,尤其是当要编码的音频信号包含干净的语音时,因为虚假的环境会损害语音的可理解度。

因此,可以通过使用另一个比较参数在存在非零ITDs的情况下校正(预测)残差增益因子rt,b来减轻上述影响。

在实施例中,这可以通过计算残差增益rt,b的增益偏移来完成,该增益偏移旨在当信号相干且在时间上平坦时匹配期望的残差信号e(τ)。在这种情况下,人们期望由公式(18)给出的全局预测增益

以及由给出的消失的全局因此,期望的残差信号e(τ)可以使用公式(19)确定为

在实施例中,可以使用ITD参数ITDt以及等于或近似在公式(20)中给出的分析窗口函数w的自相关函数WX(n)的函数,在比较和空间参数计算块30中基于期望的残差信号e(τ)来计算除了侧增益因子gt,b和残差增益因子rt,b之外的其他比较参数:

WX(n)=∑τw(τ)w(τ+n) (20)。

如果Mr表示r2(τ)的短期平均值,则期望的残差信号e(τ)的能量可以近似地由公式(21)计算为

在由公式(22)给出的加窗中间信号为

mt(τ)=(wt(τ)+cwt(τ+ITDt))r(τ) (22),

该加窗中间信号mt(τ)的能量可以由公式(23)近似为:

[(1+c2)WX(0)+2cWX(ITDt)]Mr (23)。

在实施例中,在比较和空间参数计算块30中的比较参数的计算中使用的上述函数等于或近似分析窗口的自相关函数WX(n)的归一化版本如公式(23a)中给出为

基于该归一化的自相关函数可以使用公式(24)将所述其他比较参数计算为:

来为残差增益rt,b提供估计的校正参数。在实施例中,比较参数可被用作对子带b中的局部残差增益rt,b的估计。在另一个实施例中,可以通过使用比较参数作为偏移来影响残差增益rt,b的校正。即,残差增益rt,b的值可以由如公式(25)中给出的已校正残差增益rt,b,corr替换

因此,在实施例中,在比较和空间参数计算块30中计算的另一比较参数可以包括已校正残差增益rt,b,corr,其对应于通过公式(24)给出的残差增益校正参数来以公式(25)中定义的偏移形式校正的残差增益rt,b

因此,另一实施例涉及参数化音频编码,该参数化音频编码使用加窗DFT和根据公式(3)的参数IPD(的子集)、根据公式(11)的侧增益gt,b、根据公式(12)的残差增益rt,b、以及ITD,其中,根据公式(25)来调整残差增益rt,b

在经验评估中,可以使用对公式(13)中右声道音频信号r(τ)的不同选择来测试残差增益估计从下面的表1可以看出,对于满足时间平坦度假设的白噪声输入信号r(τ),残差增益估计非常接近于在子带中测量的残差增益rt,b的平均值。

表1:针对平移白噪声的所测量的残差增益rt,b的平均值,以及ITD和残差增益估计(在括号中表示)。

对于语音信号r(τ),经常违反时间平坦度假设,这通常会增加残差增益rt,b的平均值(与上面的表1相比,参见下面的表2)。因此,根据公式(25)的残差增益调整或校正的方法可以被认为是相当保守的。然而,它仍然可以去除针对干净的语音记录的大多数不期望的环境。

ITD\c 1 2 4
ms 0.1055 0.1022 0.0874
(0.0885) (0.0785) (0.0565)
ms 0.1782 0.1634 0.1283
(0.1631) (0.1458) (0.1039)
ms 0.2435 0.2191 0.1657
(0.2327) (0.2062) (0.1473)
ms 0.3050 0.2720 0.2014
(0.2992) (0.2627) (0.1885)

表2:针对平移单声道语音的所测量的残差增益rt,b的平均值,以及ITD和残差增益估计(在括号中表示)。

在使用单个分析窗口w的情况下,可以认为公式(23a)中给出的归一化自相关函数独立于帧索引t。此外,对于典型的分析窗口函数w,归一化自相关函数可以被认为变化非常缓慢。因此,可以从小的值表中精确地对进行插值,这使得该校正方案在复杂度方面非常高效。

因此,在实施例中,可以通过对存储在查找表中的分析窗口的自相关函数的归一化版本进行插值,来获得用于在块30中确定残差增益估计或残差增益校正偏移以作为比较参数的函数。在其他实施例中,可以适当地使用用于归一化自相关函数的插值的其他方法。

对于BCC,如[2]中所述,当估计子带中的声道间相干性(ICC)时,可能会出现类似的问题。在实施例中,可以使用公式(9)的能量EL,t,b和ER,t,b以及公式(10)的内积来通过公式(26)将对应的ICCt,b估计为

通过定义,ICC是在补偿ITD之后进行测量的。然而,不匹配的窗口函数w可能会使ICC测量偏置。在由公式(13)描述的上述干净消声的语音设置中,如果在正确对齐的输入声道上计算,则ICC将为1。

然而,偏移(当通过循环移位在频域中补偿ITDt的ITD时,由频域中分析窗口函数w(τ)的旋转所导致)可能会使ICC的测量偏向在公式(27)中给出的

在实施例中,与公式(25)中的残差增益rt,b的校正相比,ICC的偏置可以通过类似的方式来校正,即通过公式(28)中给出的方式进行替换,

因此,另一实施例涉及参数音频编码,该参数音频编码使用加窗DFT和根据公式(3)的参数IPD[的子集]、IPD、根据公式(26)的ICC、以及ITD,其中,根据公式(28)来调整ICC。

在图2所示的参数化编码器200的实施例中,降混块40可以通过在频域中计算由公式(29)给出的降混信号DMXt,k来减少多声道(这里是立体声)系统的声道的数量。在实施例中,降混信号DMXt,k可以根据下式使用已ITD补偿的频率变换Lt,k,comp和Rt,k,comp来计算

在公式(29)中,β可以是根据立体声/空间参数计算的实绝对相位调整参数。在其他实施例中,如图2所示的编码方案也可以与任何其他降混方法一起工作。其他实施例可以使用频率变换Lt,k和Rt,k以及可选地使用其他参数来确定降混信号DMXt,k

在图2的编码器实施例中,离散傅立叶逆变换(IDFT)块50可以从降混块40接收频域降混信号DMXt,k。IDFT块50可以将降混时频区间DMXt,k,k=0,...,K-1,从频域变换到时域,以产生时域降混信号dmx(τ)。在实施例中,可以应用合成窗口wS(τ)并将其添加到时域降混信号dmx(τ)。

此外,如在图2中的实施例中,核心编码器60可以接收域降混信号dmx(τ)以根据MPEG-4Part 3[1]或适当的任何其他合适的音频编码算法来对单个声道音频信号进行编码。在图2的实施例中,核心编码的时域降混信号dmx(τ)可以与ITD参数ITDt、侧增益gt,b和已校正的残差增益rt,b,corr组合,进行适当处理和/或进一步编码以传输给解码器。

图3示出了多声道解码器的实施例。该解码器可以接收组合的信号,该组合的信号包括时域中的单声道/降混输入信号dmx(τ),且包括比较和/或空间参数作为基于帧的附带信息。如图3所示的解码器可以执行以下步骤,下面将对其进行详细描述。

1.使用加窗DFT对输入进行的时间到频率变换

在DFT块80中

2.频域中的缺失残差的预测

在升混和空间恢复块90中

3.频域中的升混

在升混和空间恢复块90中

4.频域的ITD合成

在ITD合成块100中

5.频域到时域的变换,加窗和重叠添加

在IDFT块112、122以及窗口块111、121中

可以通过与用于图2中的编码器的输入音频信号类似的方式来完成单声道/降混信号输入信号dmx(τ)的时间到频率变换。在某些实施例中,可以添加适当量的零填充,以用于频域中的ITD恢复。该过程可以以时频区间DMXt,k,k=0,...,K-1的形式产生降混信号的频率变换。

为了恢复降混信号DMXt,k的空间特性,可能需要独立于所发送的降混信号DMXt,k的第二信号。可以例如在升混和空间恢复块90中使用已校正的残差增益rt,b,corr作为比较参数(由诸如图2中的编码器的编码器发送)且使用降混信号DMXt,k的时间延迟的时频区间,来对这样的信号进行构造(重构),如公式(30)给出:

对于k∈Ib

在其他实施例中,基于所发送的至少一个比较参数,可以使用不同的方法和公式来恢复降混信号DMXt,k的空间特性。

此外,升混和空间恢复块90可以通过使用由编码器发送的降混信号DMXt,k和侧增益gt,b以及重构的残差信号应用对编码器处的中/侧变换的逆变换,来执行升混。这可以产生解码的已ITD补偿的频率变换由公式(31)和(32)给出为

对于k∈Ib

以及

其中β是与公式(29)的降混过程中相同的绝对相位旋转参数。

此外,如图3所示,ITD合成/解补偿块100可以接收解码的已ITD补偿的频率变换后者可以通过如在公式(33)和(34)中所给出的方式来旋转来在频域中应用ITD参数ITDt,以产生已ITD解补偿的解码的频率变换

以及

在图3中,可以分别由IDFT块112和122来执行时频区间形式的已ITD解补偿的解码的频率变换的频域到时域的变换k=0,...,K-1。随后可以分别由窗口块111和121对产生的时域信号进行加窗,并且将其添加到左音频声道和右音频声道的所重构的时域输出音频信号

上述实施例对于本发明的原理仅是说明性的。应当理解的是,本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此,旨在仅由所附专利权利要求的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。

参考文献

[1]MPEG-4 High Efficiency Advanced Audio Coding(HE-AAC)v2

[2]Jürgen Herre,FROM JOINT STEREO TO SPATIAL AUDIO CODING -RECENTPROGRESS AND STANDARDIZATION,Proc.of the 7th Int.Conference on digital AudioEffects(DAFX-04),Naples,Italy,October 5-8,2004

[3]Christoph Tourney and Christof Faller,Improved Time DelayAnalysis/Synthesis for Parametric Stereo Audio Coding,AES Convention Paper6753,2006

[4]Christof Faller and Frank Baumgarte,Binaural Cue Coding Part II:Schemes and Applications,IEEE Transactions on Speech and Audio Processing,Vol.11,No.6,November 2003。

16页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:在向后兼容音频比特流中嵌入增强的音频传输

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类