用于生成输出降混表示的装置、方法或计算机程序

文档序号:453584 发布日期:2021-12-28 浏览:14次 >En<

阅读说明:本技术 用于生成输出降混表示的装置、方法或计算机程序 (Apparatus, method or computer program for generating an output downmix representation ) 是由 弗伦茨·罗伊特尔胡贝尔 埃伦尼·福托普楼 马库斯·马特拉斯 于 2020-04-22 设计创作,主要内容包括:一种用于从输入降混表示生成输出降混表示的装置,其中,输入降混表示的至少一部分根据第一降混方案,所述装置包括:升混器(200),用于使用与第一降混方案相对应的升混方案对输入降混表示的至少所述一部分进行升混,以获得至少一个升混部分;以及降混器(300),用于根据不同于第一降混方案的第二降混方案对至少一个升混部分进行降混。(An apparatus for generating an output downmix representation from an input downmix representation, wherein at least a part of the input downmix representation is according to a first downmix scheme, the apparatus comprising: an upmixer (200) for upmixing at least the portion of the input downmix representation using an upmixing scheme corresponding to the first downmix scheme to obtain at least one upmixed portion; and a downmixer (300) for downmixing the at least one upmix portion according to a second downmix scheme different from the first downmix scheme.)

用于生成输出降混表示的装置、方法或计算机程序

技术领域

本发明涉及多声道处理,并且具体地,涉及提供单声道输出的可能性的多声道处理。

背景技术

尽管通常将立体声编码的比特流解码以在立体声系统上回放,但是并非所有能够接收立体声比特流的设备将始终能够输出立体声信号。一种可能的场景会是在仅具有单声道扬声器的移动电话上回放立体声信号。随着新兴的3GPP IVAS标准支持的多声道移动通信场景的到来,因此需要立体声到单声道降混,该降混避免了附加延迟,并且在复杂度方面尽可能地有效,同时还提供最佳可能的感知质量,其超出了使用简单的被动降混所能达到的效果。

有多种将立体声信号转换为单声道信号的方式。最直接的方式是在时域中通过被动降混[1],通过将左声道与右声道相加并缩放结果来生成中间信号:

其他更复杂的(即主动的)基于时域的降混方法包括:致力于保持信号的整体能量的能量缩放[2]、[3]、避免相消效果的相位对齐[4]以及通过相干抑制防止梳状滤波器效果[5]。

另一种方法是通过计算多个频谱带的各自的加权因子,以频率相关的方式进行能量校正。例如,这是作为MPEG-H格式转换器的一部分完成的,其中降混在信号的混合QMF子频带表示上执行,该信号具有声道的附加先前相位对齐。在[7]中,类似的按照频带的降混(包括相位与时间对齐二者)已经用于参数化的低比特率模式DFT立体声,其中在DFT域中应用加权和混合。

在对立体声信号进行解码之后,时域中被动的立体声到单声道降混的解决方案不够理想,因为众所周知,纯粹被动降混具有某些缺点,例如,相位相消效果或一般的能量损失,这会(取决于项目)严重降低质量。

纯粹基于时域的其他主动降混方法消除了被动降混的一些问题,但是由于缺少频率相关的加权,仍然是次优的。

就延迟与复杂度来说,诸如IVAS(沉浸式语音和音频服务)的移动通信编解码器存在隐式限制,具有如MPEG-H格式转换器的专用后处理级来应用按照频带的降混也不是一种选项,因为到频域的必要变换和反变换将不可避免地引起复杂度和延迟二者的增加。

在如[8]描述的基于DFT的立体声系统中,解码器处可获得足够好的单声道信号,该系统在解码器处仅使用基于参数的残差预测来恢复立体声信号,并且其中中间信号由[7]中描述的主动降混生成。然而,如果信号的频谱部分依赖于由M/S变换生成的立体声恢复的编码残差信号,则在立体声升混之前可用的单声道信号将不再适合。在这种情况下,单声道信号将在频谱上由以下组成:来自M/S变换的中间信号的部分(残差编码部分)(其等效于被动降混)以及主动降混的部分(残差预测部分)。这种两种不同的降混方法的混合导致了信号中的伪影和能量失衡。

发明内容

本发明的目的是提供一种用于生成多声道解码的输出降混表示的改进构思。

该目的通过以下实现:根据权利要求1的用于生成输出降混表示的装置、根据权利要求19的多声道解码器、根据权利要求24的生成输出降混表示的方法、根据权利要求27的多声道解码的方法或者根据权利要求28的相关计算机程序。

一种用于从输入降混表示生成输出降混表示的装置,其中输入降混表示的至少一部分根据第一降混方案,该装置包括:升混器,用于使用与第一降混方案相对应的升混方案对输入降混表示的至少该一部分进行升混,以获得至少一个升混部分。此外,该装置包括:降混器,用于根据不同于第一降混方案的第二降混方案对至少一个升混部分进行降混。

在另一实施例中,输入降混表示的该部分根据降混方案,并且附加地,输入降混表示的第二部分根据不同于第一降混方案的第二降混方案。在该实施例中,降混器被配置用于根据第二降混方案或者根据不同于该降混方案和第二降混方案的第三降混方案对升混部分进行降混,以获得第一降混部分。现在,关于降混部分的情况是使得第一降混部分与第二部分相关,即在相同的降混方案域中,使得第一降混部分和第二降混部分或者从第二降混部分中导出的降混部分可以由组合器组合,以获得输出降混表示,该输出降混表示包括第一部分的输出表示和第二部分的输出表示,其中第一部分的输出表示和第二部分的输出表示基于相同的降混方案,即位于一个相同的降混域中,因此彼此“协调”。

在另一实施例中,输入降混表示的整个带宽或仅一部分基于如下降混方案:依赖于参数和残差信号或者仅依赖于残差信号而无需参数的降混方案。在这种背景下,输入降混表示包括核心信号、残差信号、或者残差信号和参数。使用辅助信息,即使用参数和残差信号或者仅使用残差信号,对该信号进行升混。升混包括包含残差信号在内的所有可用信息,并且在不同于第一降混方案的第二降混方案中执行降混,即优选为主动降混,其具有用于解决能量计算的度量,或者换言之,为不生成残差信号(优选地,不生成残差信号和任何参数)的降混方案。这种降混提供了良好且令人愉悦的高质量音频单声道渲染可能性,然而如果在没有有利地考虑残差信号和参数的情况下进行渲染,则在没有升混和随后的降混的情况下,输入降混表示的核心信号在使用时无法提供任何令人愉悦的高质量音频重现。

根据该实施例,用于生成输出降混表示的装置执行将类似于残差的降混方案转换为类似于非残差的降混方案。该转换可以在全频带中执行或者也可以在部分频带中执行。通常,在优选实施例中,多声道编码信号的低频带包括核心信号、残差信号和优选的参数。然而,在高频带中,为了支持较低比特率而提供较低的精度,因此,在这样的高频带中,主动降混是足够的,而无需诸如残差数据或参数之类的任何附加的辅助信息。在这种背景下,将残差降混域中的低频带转换到非残差降混域,并将结果与已处于“正确的”非残差降混域中的高频带组合。

在另一实施例中,无需将第一部分从第一降混域转换到第二部分所在的相同的降混域。相反,在另一些实施例中,其中第一部分在第一降混域中且输入表示的第二部分在第二降混域中,根据与第一降混方案相对应的第一升混方案,通过对第一部分进行升混,来将这两个部分转换到另一第三降混域中。另外,根据与第二降混方案相对应的第二升混方案对第二部分进行升混,并且优选地通过主动降混将两个升混降混到第三降混方案中,而无需任何残差或参数化数据,第三降混方案不同于第一降混方案和第二降混方案。

在另一些实施例中,可以获得不同降混表示下的两个部分,具体地,为频谱部分或频谱带。借助于本发明,其中升混和随后的降混优选地在频谱域中执行,各个频带的各个处理可以在从一个频谱带到另一频谱带发生干扰的情况下执行。在降混器的输出处,所有频带处于相同的“降混”域中,因此存在单声道输出降混表示的频谱,可以通过频谱时间转换器将该频谱转换为时域表示,例如合成组、逆离散傅里叶变换、逆MDCT域或任何其他这样的变换。可以借助于这种合成滤波器组来实现各个频带的组合以及到时域的转换。具体地,这与组合是否在实际转换之前(即,在频谱域中)执行无关。在这种情况下,组合在频谱时间变换之前发生,即在输入合成滤波器组处且仅执行单个变换以获得单个时域信号。然而,等效实施方式包括其中组合器对每个频带单独执行频谱时间变换的实施方式,使得每个这种单独变换的时域输出表示时域表示(但在某个带宽中),并且在已经实现了关键采样变换时,优选地,在一些上采样之后,以逐个样本的方式组合各个时域输出。

在另一实施方式中,本发明被应用在能够以两种不同的模式操作的多声道解码器内,即作为“正常”模式的多声道输出模式和还可在诸如“例外模式”的第二模式下操作,该第二模式是单声道输出模式。该单声道输出模式在多声道解码器被实现在以下设备内时尤其有用:仅具有单声道扬声器输出设施的设备(例如具有单个扬声器的移动电话)或者处于某种节能模式下以便节省电池电量或者节省处理资源的设备,其中即使该设备基本上也具有多声道或立体声输出模式的可能性,也仅提供单声道输出模式。

在这样的实施方式中,多声道解码器包括:用于经解码的核心信号的第一时间频谱变换、以及用于解码器残差信号的第二时间频谱变换设施。针对两个不同降混域中的不同的频谱部分,提供频谱域中的两个不同的升混设施,并且对应左声道频谱线由诸如合成滤波器组之类的组合器组合,且另一声道频谱线由另一或第二合成滤波器组或IDFT(逆离散傅立叶变换)块组合。

为了增强这样的多声道解码器,提供用于根据不同于第一降混方案不同的第二降混方案对至少一个升混部分进行降混的降混器,其优选地实现为主动降混器。另外,在实施例中,还提供了两个开关和控制器。该控制器控制第一开关以旁路用于高频带部分的升混器,并且第二开关被实现为向降混器馈送升混器的输出。在这样的单声道输出模式下,第二组合器或合成滤波器组被停用,并且用于高频带的升混器也被停用,以便节省处理功率。然而,在立体声输出模式下,第一开关馈送高频带的升混,并且第二开关旁路(主动)降混器,两个输出合成滤波器组被激活,以便获得左立体声输出信号和右输出信号。

由于单声道输出在诸如DFT域之类的频谱域中计算,因此与立体声输出的生成相比,单声道输出的生成不引起任何附加的延迟,这是因为与立体声处理模式相比不需要任何附加的时间频率变换。相反,两个立体声模式合成滤波器组中的一个也用于单声道模式。此外,与通常比单声道输出提供增强的音频体验的立体声输出相比,单声道处理模式节省了复杂度,特别是处理资源方面,因此节省了低功率模式下的电池功率,这对电池供电的移动设备特别有用。这是正确的,因为立体声模式下一般需要的高频带升混器可以被停用,另外,立体声输出模式下还需要的第二输出滤波器组也被停用。相反,与立体声模式相比,仅需要完全在频谱域中操作的低复杂度低延迟主动降混块作为附加的处理块。然而,该主动降混块需要的附加处理资源显著小于由停用高频带升混器和第二合成滤波器组或IDFT块所节省的处理资源。

实施例旨在从单声道输入信号生成经协调的单声道输出信号,该单声道输入信号由立体声信号的降混创建,其中针对立体声信号的至少两个不同的频谱区域,以不同的方法(例如主动和被动)完成降混。通过挑选一个降混方法作为协调信号的优选方法,并将经由不同方法降混的所有频谱部分变换到该优选方法,来实现协调。这通过使用升混所需的所有辅助参数对这些频谱部分进行第一升混以重获各个频谱区域中的LR表示来实现。再次使用优选降混方法所需的所有必要参数,通过将优选方法应用于立体声表示来将频谱部分转换为单声道表示。生成经协调的单声道输出信号,其避免了非均匀的降混而没有附加的延迟和复杂度。

附图说明

随后参考附图讨论优选实施例,在附图中:

图1示出了实施例中用于生成输出降混表示的装置;

图2示出了另一实施例中用于生成输出降混表示的装置,其中降混方案基于残差信号或残差信号和参数;

图3示出了另一实施例,其中对不同的部分(例如输入降混表示的频谱部分)执行不同的降混方案;

图4示出了另一实施例,说明了在输入降混表示的不同频谱部分中使用不同的降混方案,以及其中第一降混方案基于残差数据且第二降混方案是主动降混方案或者无需残差或参数化数据的降混方案的过程;

图5示出了实施例中与第一降混方案相对应的升混方案的优选实施方式;

图6示出了在立体声输出模式下操作的多声道解码器;

图7示出了根据能够在多声道输出模式或单声道输出模式之间切换的实施例的多声道编码器;

图8a示出了第二降混方案的优选实施方式;

图8b示出了第二降混方案的另一实施例;以及

图9示出了将输入降混表示分为第一降混方案下的输入降混表示的部分(表示为第一部分)和依赖于使用权重的降混方案的输入降混表示的第二部分。

具体实施方式

图1示出了用于从输入降混表示生成输出降混表示的装置,其中输入降混表示的至少一部分根据第一降混方案。该装置包括升混器200,用于使用与第一降混方案相对应的升混方案对输入降混表示的至少一部分进行升混,以在框200的输出处获得至少一个升混部分。该装置还包括降混器300,用于根据不同于第一降混方案的第二降混方案对至少一个升混部分进行降混。优选地,将降混器300的输出转发给用于生成单声道输出的输出级500。输出级例如是用于将输出降混表示输出到渲染设备的输出接口,或者输出级500实际上包括用于将输出降混表示渲染为单声道重放信号的渲染设备。

图1所示的装置提供了从第一“降混域”中的降混表示到另一第二降混域的转换。如将在其他附图中示出的,该转换可以仅对频谱的有限部分(例如,图9所示的用于示例性给出最低的三个频带b1、b2和b3的第一部分)有效。备选地,该装置也可以针对全频带执行从一个降混域到另一降混域的转换,即针对图9中示例性地示出的所有频带b1至b6。该部分可以是信号的任何部分,例如频谱部分、时间部分(例如时间块或帧)或信号的任何其他部分。

图2示出了第一降混方案仅依赖于残差信号或者依赖于残差信号和参数化信息的实施例。图2包括输入接口10,其中输入接口接收经编码的多声道信号,经编码的多声道信号包括经编码的核心信号和经编码的辅助信息部分。核心信号由核心解码器20解码,以提供没有辅助信息的输入降混表示。另外,由输入接口内的辅助信息解码器30提供和处理来自经编码的多声道信号的辅助信息部分,并且辅助信息解码器30提供残差信号或者残差信号和参数,如图2中的210所示。该数据,即与经解码的核心信号相对应的输入降混和残差数据都被输入升混器200,并且升混器200生成具有第一声道和第二声道的升混信号,并且第一声道数据和第二声道数据是高质量音频数据,因为高质量音频数据不仅由核心信号和某种被动升混生成,而且另外使用残差数据或者残差数据和参数生成,即可从经编码的多声道信号获得的所有数据。升混器200的输出由降混器300例如使用主动降混或一般的降混方案进行降混,该降混方案不生成残差信号或者不生成任何参数但是生成能量补偿的降混或单声道信号,即不经受在仅执行被动降混时通常是显著问题的能量波动,被动降混例如由图2的核心解码器20生成核心信号的情况。将降混器300的输出转发给例如用于渲染单声道信号的渲染器,或者例如转发给图1中所示的输出级500。

图3示出了另一实施例,其中再次参考图9,第一部分在第一降混方案(例如具有残差数据的降混方案)中可用,并且其中存在第二频谱部分例如可用于没有任何残差的第二降混方案中,即已经使用基于能量考虑来对抗任何波动所导出的降混权重、由主动降混生成的第二频谱部分,如果应用被动降混则会发生这种波动。

将降混表示的第一部分输入升混器200,升混器200与第一降混方案相对应地进行升混,并且如关于图1或图2所讨论的,将第一部分转发到降混器300中,降混器300现在以第二降混方案执行降混。图3中所示的第二部分可以例如采用第二降混方案,但是也可以采用第三降混方案,即与输入到升混器200的部分的降混方案或由降混器300输出的第二降混方案不同的任何其他降混方案。在降混域对于第二部分和降混器300的输出相同的情况下,不需要任何第二部分处理器600。相反,可以将第二部分转发到组合器400中,组合器400用于对现在相对于第一部分和第二部分的降混方案进行协调的第一部分和第二部分进行组合。然而,当第二部分在降混域中时,即具有与其中降混器300的输出可用的降混方案不同的潜在的降混方案,提供第二部分处理器600。一般地,第二部分处理器600还包括升混器,用于对第三降混方案下的第二部分进行升混,并且第二部分处理器600还包括降混器,用于将升混器表示降混到相同的降混域中,即使用可从降混器300获得的相同降混方案。第二部分处理器600可以使用升混器200和随后连接的降混器300来实现,使得获得了输入到组合器400中的完全协调的数据。组合器400优选地输出单声道输出降混表示的频谱表示,借助于诸如滤波器组、IDFT、IMDCT等的频谱时间转换器将单声道输出降混表示的频谱表示转换到时域。备选地,组合器400被配置用于将各个输入组合为各个时域信号,并且在时域中组合这些时域信号,以获得时域单声道输出降混表示。

图4包括输入接口,该输入接口可以包括第一时间到频谱转换器100(例如图4中所示的DFT框)和第二时间到频谱转换器120(例如图4中的第二DFT框)。第一框100被配置用于将(例如由图2的核心解码器20输出的)经解码的核心信号转换为频谱表示。此外,第二时间到频谱转换器120被配置为将(例如由图2的辅助信息解码器30输出的)经解码的残差信号转换为210a处所示的频谱表示。此外,线210b示出了可选地提供的附加的参数化数据,例如也由图2的辅助信息解码器30输出的辅助增益。图4的升混器200针对低频带(即图9所示例的前三个频带b1、b2、b3)生成经升混的左声道和经升混的右声道。此外,将框200的输出处的低频带升混输入降混器300中,降混器300优选地执行主动降混,使得提供图9示例性示出的三个频带b1、b2、b3的低频带表示。该低频带降混现在与已经由DFT框100生成的高频带降混在相同的域中。框100针对高频带的输出在图9的示例中会与频带b4、b5、b6的降混表示相对应。现在,在组合器400(图4中被示为IDFT 400)的输入处,降混的低频带表示和高频带表示处于相同的“降混域”中,并且已经以相同的降混方案生成。现在,经协调的降混表示的低频带和高频带可以组合,并且优选地转换到时域以在框400的输出处提供单声道输出信号。

如[8]中所述的主要的参数化立体声方案围绕着仅发送单个降混声道并且经由辅助参数重建立体声映像的思想来构建。通过动态地计算DFT域中的两个声道的权重,编码器侧的该降混以主动方式完成[7]。使用两个声道各自的能量及其互相关,按照频带计算这些权重。降混必须保持的目标能量等于经相位旋转的中间声道的能量:

其中L和R表示左声道和右声道。基于该目标能量,可以如下地按照逐个频带b来计算声道的权重:

以及

针对每个频带b如下计算|L|和|R|:

|L+R|被计算为:

并且将|<L,R>|计算为复数点积(dot product)的绝对值:

其中

以及

其中i指定频谱带b内的二值仓编号。

通过将左声道和右声道的经加权的频谱二值仓相加,获得了每个频带的降混频谱:

DMXreal,i,b=wL,bLreal,i,b+wR,bRreal,i,b

以及

DMAXimag,i,b=wL,bLimag,i,b+wR,bRimag,i,b

如果这种系统中的所有立体声处理完全依赖于参数,并且所描述的主动降混在整个频谱上完成,则通过避免被动降混的问题来满足给定质量要求的单声道信号在核心解码之后已经可用。这意味着,在多数情况下,足以跳过所有解码器立体声处理并输出信号,而无需进入DFT域。

然而,对于较高的比特率,这种系统还支持对较低频谱带的残差信号进行编码。残差信号可以被视为这些最低频带的MS变换的辅助信号,而核心信号是补充中间信号,即基本上是左和右的被动降混。为了使辅助信号保持尽可能小,使用每个频带计算的辅助增益对辅助信号应用声道之间的耳间电平差(ILD)的补偿。

针对残差编码频谱内的每个频谱二值仓i,如下在编码器侧计算经降混的中间声道:

同时将补充辅助声道计算为:

通过减去由于左与右之间的ILD引起的预测部分,获得残差信号:

resi=sidei-gb*midi

当前频谱带b的辅助增益gb如下给出:

进入核心编码器的全频带信号是较低频带中的被动降混和所有较高频带中的主动降混的混合。听力测试已经示出,在回放这样的混合信号时存在感知问题。因此需要协调不同信号部分的方式。

图5示出了依赖于残差数据resi和参数化数据的升混方案的表示,参数化数据由按照频带的辅助增益索引指示。i代表频谱值并且b代表某个频带。图5示出了也在图9中示出的情况,其中每个频带bi具有若干频谱线。具体地,为了计算频谱值Li,使用中间信号频谱值,即核心解码器20的输出或图4的DFT框100的输出中具有索引i的对应频谱值。此外,如图4中线210b所示,需要频谱值i所在的对应频带的对应参数并且还需要由框120生成并且在线210a处示出的残差频谱值,该残差频谱值用于具有索引i的某个频谱值且用于相应的频带b。

由此如下地重获具有残差编码的低频带信号的L-R表示:

以及

随后,如上所述地应用主动降混,仅根据经升混的解码频谱L和R计算权重。将低频带与已经主动降混的高频带组合,以创建经由IDFT变回时域的经协调的信号。

图6示出了用于立体声输出的多声道解码器的实施方式。该多声道解码器包括图4中使用相同附图标记指示的元件。另外,作为多声道解码器的一个实施方式,立体声多声道解码器包括第二升混器220,用于将高频带降混(即第二部分)升混为第二升混表示,第二升混表示例如包括用于立体声输出的左声道和右声道。对于其中存在多于两个输出声道(例如三个或更多个输出声道)的多声道解码器的另一实施方式,升混器220以及升混器200会生成对应的更多数量的输出声道,而不仅是左声道和右声道。

此外,图6中所示的第二组合器420用于多声道解码器,即用于所示出的立体声解码器。在多于两个输出的情况下,另一组合器因此会用于第三输出声道且另一组合器用于第四输出声道,等等。然而,与图6相比,图4的降混器300不是多声道输出所必需的。

图7示出了可切换的多声道解码器的优选实施方式,借助于控制器700的致动,可在单声道模式或立体声/多声道输出模式之间切换。此外,与图6相比,该多声道解码器还包括已经关于图4或其他附图描述的降混器300。此外,在可切换的实施方式中,一个选项是提供两个单独的开关S1、S2。然而,在图7的底部示出的切换功能也可以通过其他切换手段实现,例如组合开关或甚至多于两个开关。一般地,开关1被配置为在单声道输出模式下操作,使得还被指示为“升混高”的第二升混器220被旁路。此外,第二开关S2由第二控制信号CTRL2配置,以向主动降混300馈送图7中被指示为“升混低”的升混器200的输出。此外,在单声道输出模式下,关于图6描述的升混高框220被停用,另外,被指示为“IDFTR”的第二组合器420也被停用,这是因为仅需要单个组合器400来生成单个单声道输出信号。

与其相比,在立体声输出模式下,或者一般地在多声道输出模式下,控制器700被配置为经由控制信号CTRL1激活第一开关,使得第一时间到频率转换器100的输出被馈送到图7中被指示为“升混高”的第二升混器220中。借助于开关S1的致动,第二组合器220被激活。此外,控制器700被配置为控制第二开关S2 720,使得框200的输出不被输入到主动降混器300中,而是使降混器300旁路。框200的输出中的左声道(低频带)部分作为组合器400的低频带部分被转发,并且框200的输出处的右声道低频带部分被转发至第二组合器420的低频带输入,如图7所示。此外,在立体声/多声道输出模式下,降混部300被停用。

图8a示出了降混300中使用的用于执行主动降混的实施例的流程图。在步骤800中,基于目标能量来计算权重wR和wL。对每个频带进行,使得针对每个频带获得右声道的权重wR和左声道的权重wL

在框820中,在所考虑的信号的整个带宽上或者仅在每个频谱二值仓的对应部分中,将权重应用于升混信号。为此,框820接收频谱域(复合)信号或二值仓或频谱值。在应用权重、尤其是在加权值相加以获得降混之后,执行到时域的转换840。取决于在框820中仅处理一部分还是全频带,到时域的转换在没有任何其他部分的情况下发生,或者在具有其他部分的情况下发生,特别是在经协调的降混的背景下,例如如关于图3或图4所讨论的。

图8b示出了图8a的框800中执行的功能的优选实施方式。具体地,为了计算每个频带的权重wR和wL,针对频带计算L的幅度相关度量。为此,输入左声道(即由图1至图7中任一个的框200输出的左声道)的各个频谱线。在框804中,对相同的频带b中的第二声道或右声道执行相同的过程。此外,在框806中,针对频带b中的L和R的线性组合计算另一幅度相关度量。在框806中,针对所考虑的频带,再次需要第一声道L的频谱值、第二声道R的频谱值。在框808中,计算对应频带b中的左声道与右声道之间、或者一般地第一声道与第二声道之间的互相关度量。为此,针对对应频带,再次需要第一声道和第二声道在索引e处的频谱值。

如图所示,幅度相关度量可以是频带中的频谱值的平方大小上的平方根。这被示为|Lb|。另一幅度相关度量例如会是频带中的谱线的大小之和,没有任何平方根或者具有不为1/2的指数,例如介于0和1之间但是不包括0和1的指数。此外,幅度相关度量还可以指频谱线中指数不为2的指数大小之和。例如,使用指数3会与心理声学术语中的响度相对应。然而,大于1的其他指数也会是有用的。

这对于在框804中计算的幅度相关度量或者在框806中计算的幅度相关度量也成立。

此外,对于在框808中计算的互相关度量,之前示出的对应数学公式也依赖于点积的平方和平方根的计算。然而,也可以使用点积的不为2的其他指数,例如与响度域相对应的等于3的指数或大于1的指数。同时,代替平方根,可以使用与1/2不同的其他指数,例如1/3或一般介于0和1之间的任何指数。

此外,框810指示基于三个幅度相关度量和互相关度量来计算wR和wL。虽然已经指出目标能量通过降混保持且等于经相位旋转的中间声道的能量,但是无需为了计算wR和wL也无需为了计算实际降混信号而实际利用旋转角度来执行这种旋转。相反,当未执行利用旋转角度Φ的实际旋转时,唯一需要的是计算对应频带b中的L与R之间的互相关度量。在之前描述的实施例中,虽然已经指出经相位旋转的中间声道的能量被用作目标能量,但是可以使用任何其他目标能量或者根本不必执行任何相位旋转。关于其他目标能量,这些目标能量是确保以下的能量:由降混300生成的降混信号的能量对于相同信号的波动小于被动降混的能量,例如作为潜在的输入到图4的框100中的经解码的核心信号。

图9示出了频谱的一般表示,其指示了相对于输入降混表示提供为具有残差数据的降混的低频带第一部分,并指示了相对于输入降混表示的第二部分,通过利用如前述关于图8a、图8b讨论的权重生成的降混来提供该第二部分。虽然图9仅示出了六个频带,其中三个频带用于第一部分且三个频带用于第二部分,并且虽然图9示出了从较低频带增加到较高频带的某些带宽,但是特定数目、特定带宽以及将频谱分为第一部分和第二部分仅是示例性的。在实际场景中,将存在显著更多数量的频带,此外,另外具有残差信号的第一部分将小于频带b的数量的50%。

优选地,图4、图6和图7的时间到频谱转换器100、120以及组合器400、420被实现为DFT框或IDFT框,其优选地实现FFT或IFFT算法。对于输入到框100、120中的连续经解码的信号的处理,执行按照块的处理,其中形成重叠的块、进行滤波分析、变换到频谱域、进行处理、并且在组合器400、420中进行合成滤波和组合,再次具有50%的重叠。合成侧上的50%的重叠的组合将通常由重叠相加操作执行,具有从一个块到另一个块的交叉衰落,其中优选地,交叉衰落权重已被包括在分析窗/合成窗中。然而,当不是这种情况时,实际的交叉衰落例如在框400或例如图7或图6的420的输出处执行,使得单声道输出信号或者左输出信号或右输出信号中的每个时域输出样本由两个不同块的两个值相加而生成。对于多于50%的重叠,也可以执行三个或对应的甚至更多的块之间的重叠。

备选地,当一方面的时间到频谱转换和另一方面的频谱时间转换使用例如经修改的离散余弦变换执行时,也使用重叠处理。在频谱到时间转换侧上,执行重叠相加处理,使得再次通过对来自两个(或更多个)不同的IMDCT块的对应时域样本求和,来获得每个输出时域样本。

优选地,降混方案的协调完全在频谱域中执行,如图4、图6和图7所示。如图7所示,在从单声道切换至立体声或从立体声切换至单声道时,不需要任何附加的时间频谱变换或频谱时间变换。针对单声道输出模式,必须完成由降混器300进行的频谱域中的数据的操作,或者针对立体声输出模式,必须完成由第二升混器220(升混高)进行的频谱域中的数据的操作。该处理的整体延迟对于单声道或立体声输出是相同的,并且这也是一个显著的优点,因为任何后续的处理操作或之前的处理操作无需知道存在单声道输出信号还是立体声输出信号。

优选实施例移除了[8]中所述的系统的经解码的核心信号的不同频谱带中使用不同的降混方法产生的伪影和频谱响度失衡,而没有专用后处理级会引起附加的延迟和显著更高的复杂度。

在一个方面,实施例在单声道信号的一个(或多个)频谱或时间部分的解码器处提供了升混和随后的降混,该单声道信号使用一个或多于一个降混方法进行降混,以便对信号的所有频谱或时间部分进行协调。

在一个方面,本发明提供了解码器侧的立体声到单声道降混的协调。

在实施例中,输出降混用于重播设备,该重播设备接收包括在输出表示中的降混,并且将输出表示的该降混馈送到数模转换器中,并且模拟降混信号由包括在重播设备中的一个或多个扬声器来渲染。重播设备可以是单声道设备,例如移动电话、平板计算机、数字时钟、蓝牙扬声器等。

这里要提及的是,之前讨论的所有备选方案或方面和由随附权利要求中的独立权利要求限定的所有方面可以单独使用,即除了预期的备选方案、目的或独立权利要求之外,没有任何其他备选方案或目的。然而,在其他实施例中,两个或更多个备选方案或方面或者独立权利要求可以彼此组合,并且在其他实施例中,所有方面或备选方案和所有独立权利要求可以彼此组合。

虽然已经在装置的上下文中描述了一些方面,但是将清楚的是,这些方面还表示对应方法的描述,其中,框或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤上下文中描述的方面也表示对相应框或项或者相应装置的特征的描述。

取决于某些实现要求,可以在硬件中或在软件中实现本发明的实施例。实现方式可以使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH存储器)来执行,与可编程计算机系统协作(或能够协作),使得执行相应方法。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体,其能够与可编程计算机系统协作以便执行本文所述的方法之一。

通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。

其他实施例包括存储在机器可读载体或非暂时性存储介质上的用于执行本文描述的方法之一的计算机程序。

换言之,本发明方法的实施例因此是具有程序代码的计算机程序,该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。

因此,本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质),该计算机程序用于执行本文所述的方法之一。

因此,本发明方法的另一实施例是表示计算机程序的数据流或信号序列,所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如经由互联网)传送。

另一实施例包括处理装置,例如,计算机或可编程逻辑器件,所述处理装置被配置为或适于执行本文所述的方法之一。

另一实施例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法之一。

在一些实施例中,可编程逻辑器件(例如现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,方法优选地由任意硬件装置来执行。

上述实施例对于本发明的原理仅是说明性的。应当理解的是,本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此,旨在仅由所附专利权利要求的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。

参考文献

[1]ITU-R BS.775-2,Multichannel Stereophonic Sound System With AndWithout Accompanying Picture,07/2006。

[2]F.Baumgarte,C.Faller und P.Kroon,“Audio Coder Enhancement usingScalable Binaural Cue Coding with Equalized Mixing”,AES的第116次会议,柏林,2004。

[3]G.Stoll,J.Groh,M.Link,J.B.Runow,M.Keil,R.Stoll,M.Stollund C.Stoll,“Method for Generating a Downward-Compatible Sound Format”,美国专利US2012/0014526,2012。

[4]M.Kim,E.Oh und H.Shim,“Stereo audio coding improved by phaseparameters”,AES的第129次会议,旧金山,2010。

[5]A.Adami,E.Habets und J.Herre,“Down-mixing using coherencesuppression”,IEEE声学、语音和信号处理国际会议(IEEE International Conference onAcoustics,Speech and Signal Processing),佛罗伦萨,2014。

[6]ISO/IEC 23008-3:Information technology—High efficiency coding andmedia delivery in heterogeneous environments—Part 3:3D audio,2019。

[7]S.Bayer,C.Borβ,J.Büthe,S.Disch,B.Edler,G.Fuchs,F.Ghido undM.Multrus,“DOWNMIXER AND METHOD FOR DOWNMIXING AT LEAST TWO CHANNELS ANDMULTICHANNEL ENCODER AND MULTICHANNEL DECODER”,专利WO18086946,2018年5月17日。

[8]S.Bayer,M.Dietz,S.E.Fotopoulou,G.Fuchs,W.Jaegers,G.Markovic,M.Multrus,E.Ravelli und M.Schnell,“APPARATUS AND METHOD FORESTIMATING AN INTER-CHANNEL TIME DIFFERENCE”,专利WO17125563,2017年7月27日。

29页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:用于无线通信的电子设备和方法、计算机可读存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!