在向后兼容音频比特流中嵌入增强的音频传输

文档序号:914641 发布日期:2021-02-26 浏览:1次 >En<

阅读说明:本技术 在向后兼容音频比特流中嵌入增强的音频传输 (Embedding enhanced audio transmission in a backward compatible audio bitstream ) 是由 S.萨加图尔希瓦帕 R.P.沃尔特斯 D.森 N.G.彼得斯 M.Y.金 于 2019-06-25 设计创作,主要内容包括:一般来说,描述了在向后兼容比特流中嵌入增强的音频传输的技术。包括存储器和一个或多个处理器的设备可以被配置为执行这些技术。存储器可以存储符合传统传输格式的向后兼容比特流。(多个)处理器可以从向后兼容比特流获得符合传统音频格式的传统音频数据,并且从向后兼容比特流获得增强传统音频数据的扩展的音频数据。(多个)处理器还可以基于传统音频数据和扩展的音频数据获得符合增强的音频格式的增强的音频数据,并将增强的音频数据输出到一个或多个扬声器。(In general, techniques are described for embedding enhanced audio transmissions in a backward compatible bitstream. A device comprising memory and one or more processors may be configured to perform these techniques. The memory may store a backward compatible bitstream that conforms to a legacy transmission format. The processor(s) may obtain legacy audio data that conforms to a legacy audio format from the backward compatible bitstream and extended audio data that enhances the legacy audio data from the backward compatible bitstream. The processor(s) may also obtain enhanced audio data that conforms to an enhanced audio format based on the legacy audio data and the extended audio data and output the enhanced audio data to one or more speakers.)

在向后兼容音频比特流中嵌入增强的音频传输

相关申请的交叉引用

本申请要求2018年7月3日提交的序列号为62/693,751的美国临时申请和2019年6月24日提交的序列号为16/450,698的美国申请的权益,其全部内容通过引用结合于此,如同在此完整阐述一样。

技术领域

本公开涉及处理音频数据。

背景技术

高阶立体混响(higher order ambisonic,HOA)信号(通常由多个球谐系数(spherical harmonic coefficient,SHC)或其他分层(hierarchical)元素表示)是声场的三维(three-dimensional,3D)表示。HOA或SHC表示可以以独立于本地扬声器几何形状的方式表示该声场,该本地扬声器几何形状用于回放从该SHC信号再现的多通道音频信号。SHC信号还可以促进向后兼容性,因为SHC信号可以被渲染为众所周知且高度采用的多通道格式,诸如5.1音频通道格式或7.1音频通道格式。因此,SHC表示可以更好地表示声场,这也适应了向后兼容性。

发明内容

本公开一般涉及生成具有嵌入的增强的音频传输的向后兼容比特流,该向后兼容比特流可以允许由增强的音频传输表示的声场的更高分辨率再现(相对于符合传统音频格式的传统音频传输,诸如单通道音频格式、立体声音频格式,甚至可能包括一些环绕声格式,例如5.1环绕声格式)。被配置为使用一种或多种传统音频格式再现声场的传统音频回放系统可以处理向后兼容比特流,从而保持向后兼容。

被配置为使用增强的音频格式(诸如一些环绕声格式,例如包括7.1环绕声格式或7.1环绕声格式加上一个或多个基于高度的音频源–7.1+4H)来再现声场的增强的音频回放系统可以利用增强的音频传输来增强,或者换句话说,扩展传统音频传输来支持声场的增强的再现。这样,这些技术可以实现支持传统音频格式和增强的音频格式的向后兼容音频比特流。

该技术的其他方面可以实现增强的音频传输和传统音频传输之间的同步,以确保声场的正确再现。时间同步技术的各个方面可以使增强的音频回放系统能够标识对应于增强的音频传输的部分的传统音频传输的音频部分。增强的音频回放系统然后可以基于增强的音频传输的相应部分,以不注入或以其他方式导致音频伪像的方式增强或以其他方式扩展传统音频传输的部分。

在这方面,这些技术可以促进向后兼容性,这使得传统音频回放系统能够保持使用,同时还促进采用增强的音频格式,这可以相对于通过传统音频格式实现的声场再现来提高声场再现的分辨率。促进采用增强的音频格式可以带来更身临其境的音频体验,而不会使传统音频系统过时。因此,这些技术可以保持传统音频回放系统再现声场的能力,从而改善或至少保持传统音频回放系统,同时还能够通过使用增强的音频回放系统来改进声场再现。这样,该技术改进了传统音频回放系统和增强的音频回放系统本身的操作。

在一个示例中,该技术针对被配置为处理向后兼容比特流的设备,该设备包括:一个或多个存储器,被配置为存储向后兼容比特流的至少一部分,该向后兼容比特流符合传统传输格式;以及一个或多个处理器,被配置为:从向后兼容比特流获得符合传统音频格式的传统音频数据;从向后兼容比特流获得增强传统音频数据的扩展的音频数据;基于传统音频数据和扩展的音频数据,获得符合增强的音频格式的增强的音频数据;并将增强的音频数据输出到一个或多个扬声器。

在另一个示例中,该技术涉及一种处理符合传统传输格式的向后兼容比特流的方法,该方法包括:从向后兼容比特流获得符合传统音频格式的传统音频数据;从向后兼容比特流获得增强传统音频数据的扩展的音频数据;基于传统音频数据和扩展的音频数据,获得符合增强的音频格式的增强的音频数据;以及向一个或多个扬声器输出增强的音频数据。

在另一个示例中,该技术涉及被配置为处理符合传统传输格式的向后兼容比特流的设备,该设备包括:用于从向后兼容比特流获得符合传统音频格式的传统音频数据的装置;用于从向后兼容比特流获得增强传统音频数据的扩展的音频数据的装置;用于基于传统音频数据和扩展的音频数据获得符合增强的音频格式的增强的音频数据的装置;以及用于向一个或多个扬声器输出增强的音频数据的装置。

在另一个示例中,该技术涉及其上存储有指令的非暂时性计算机可读存储介质,当该指令被执行时,使得一个或多个处理器:从符合传统传输格式的向后兼容比特流获得符合传统音频格式的传统音频数据;从向后兼容比特流获得增强传统音频数据的扩展的音频数据;基于传统音频数据和扩展的音频数据,获得符合增强的音频格式的增强的音频数据;并将增强的音频数据输出到一个或多个扬声器。

在另一示例中,该技术涉及被配置为获得向后兼容比特流的设备,该设备包括:一个或多个存储器,被配置为存储向后兼容比特流的至少一部分,该向后兼容比特流符合传统传输格式;以及一个或多个处理器,被配置为:在向后兼容比特流中指定符合传统音频格式的传统音频数据;在向后兼容比特流中指定增强传统音频数据的扩展的音频数据;并输出比特流。

在另一个示例中,该技术涉及一种处理符合传统传输格式的向后兼容比特流的方法,该方法包括:在向后兼容比特流中指定符合传统音频格式的传统音频数据;在向后兼容比特流中指定增强传统音频数据的扩展的音频数据;以及输出向后兼容比特流。

在另一示例中,该技术涉及被配置为处理符合传统传输格式的向后兼容比特流的设备,该设备包括:用于在向后兼容比特流中指定符合传统音频格式的传统音频数据的装置;用于在向后兼容比特流中指定增强传统音频数据的扩展的音频数据的装置;以及用于输出向后兼容比特流的装置。

在另一个示例中,该技术涉及其上存储有指令的非暂时性计算机可读存储介质,当该指令被执行时,使得一个或多个处理器:在符合传统传输格式的向后兼容比特流中指定符合传统音频格式的传统音频数据;在向后兼容比特流中指定增强传统音频数据的扩展的音频数据;并输出向后兼容比特流。

在另一示例中,该技术涉及被配置为处理向后兼容比特流的设备,该设备包括:一个或多个存储器,被配置为存储向后兼容比特流的至少一部分,该向后兼容比特流符合传统传输格式;以及一个或多个处理器,被配置为:从向后兼容比特流获得代表第一音频数据的第一音频传输流;从向后兼容比特流获得代表第二音频数据的第二音频传输流;从向后兼容比特流获得代表第一音频传输流和第二音频传输流中的一个或多个的同步信息的一个或多个指示;基于代表同步信息的一个或多个指示,同步第一音频传输流和第二音频传输流,以获得同步的音频数据流;基于同步的音频数据,获得增强的音频数据;并将增强的音频数据输出到一个或多个扬声器。

在另一个示例中,该技术涉及一种处理符合传统传输格式的向后兼容比特流的方法,该方法包括:从向后兼容比特流获得代表第一音频数据的第一音频传输流;从向后兼容比特流获得代表第二音频数据的第二音频传输流;从向后兼容比特流获得标识第一音频传输流和第二音频传输流中的一个或多个的同步信息的一个或多个指示;基于代表同步信息的一个或多个指示,同步第一音频传输流和第二音频传输流,以获得同步的音频数据流;基于同步的音频数据,获得增强的音频数据;以及向一个或多个扬声器输出增强的音频数据。

在另一个示例中,该技术涉及被配置为处理符合传统传输格式的向后兼容比特流的设备,该设备包括:用于从向后兼容比特流获得代表第一音频数据的第一音频传输流的装置;用于从向后兼容比特流获得代表第二音频数据的第二音频传输流的装置;用于从向后兼容比特流获得标识第一音频传输流和第二音频传输流中的一个或多个的同步信息的一个或多个指示的装置;用于基于同步信息的一个或多个指示来同步第一音频传输流和第二音频传输流以获得同步的音频数据流的装置;用于基于同步音频数据获得增强的音频数据的装置;以及用于向一个或多个扬声器输出增强的音频数据的装置。

在另一个示例中,该技术涉及其上存储有指令的非暂时性计算机可读存储介质,当执行该指令时,使得一个或多个处理器:从符合传统传输格式的向后兼容比特流获得代表第一音频数据的第一音频传输流;从向后兼容比特流获得代表第二音频数据的第二音频传输流;从向后兼容比特流获得标识第一音频传输流和第二音频传输流中的一个或多个的同步信息的一个或多个指示;基于同步信息的一个或多个指示,同步第一音频传输流和第二音频传输流,以获得同步的音频数据流;基于同步的音频数据,获得增强的音频数据;并将增强的音频数据输出到一个或多个扬声器。

在另一示例中,该技术涉及被配置为获得向后兼容比特流的设备,该设备包括:一个或多个存储器,被配置为存储向后兼容比特流的至少一部分,该向后兼容比特流符合传统传输格式;以及一个或多个处理器,被配置为:在向后兼容比特流中指定代表第一音频数据的第一音频传输流;在向后兼容比特流中指定代表第二音频数据的第二音频传输流;在向后兼容比特流中指定标识与第一音频传输流和第二音频传输流相关的同步信息的一个或多个指示;并输出向后兼容比特流。

在另一个示例中,该技术涉及一种获得符合传统传输格式的向后兼容比特流的方法,该方法包括:在向后兼容比特流中指定代表第一音频数据的第一音频传输流;在向后兼容比特流中指定代表第二音频数据的第二音频传输流;在向后兼容比特流中指定标识与第一音频传输流和第二音频传输流相关的同步信息的一个或多个指示;以及输出向后兼容比特流。

在另一个示例中,该技术涉及被配置为获得符合传统传输格式的向后兼容比特流的设备,该设备包括:用于在向后兼容比特流中指定代表第一音频数据的第一音频传输流的装置;用于在向后兼容比特流中指定代表第二音频数据的第二音频传输流的装置;用于在向后兼容比特流中指定标识与第一音频传输流和第二音频传输流相关的同步信息的一个或多个指示的装置;以及用于输出向后兼容比特流的装置。

在另一示例中,该技术涉及其上存储有指令的非暂时性计算机可读存储介质,当执行该指令时,使得一个或多个处理器:在符合传统传输格式的向后兼容比特流中指定代表第一音频数据的第一音频传输流;在向后兼容比特流中指定代表第二音频数据的第二音频传输流;在向后兼容比特流中指定标识与第一音频传输流和第二音频传输流相关的同步信息的一个或多个指示;并输出向后兼容比特流。

在另一示例中,该技术涉及被配置为处理向后兼容比特流的设备,该设备包括:一个或多个存储器,被配置为存储向后兼容比特流的至少一部分,该向后兼容比特流符合传统传输格式;以及一个或多个处理器,被配置为:从向后兼容比特流获得符合传统音频格式的传统音频数据;从向后兼容比特流获得空间格式化的扩展的音频流;处理空间格式化的扩展的音频流以获得增强传统音频数据的扩展的音频数据;基于传统音频数据和扩展的音频数据,获得符合增强的音频格式的增强的音频数据;并将增强的音频数据输出到一个或多个扬声器。

在另一个示例中,该技术涉及一种处理符合传统传输格式的向后兼容比特流的方法,该方法包括:从向后兼容比特流获得符合传统音频格式的传统音频数据;从向后兼容比特流获得空间格式化的扩展的音频流;处理空间格式化的扩展的音频流以获得增强传统音频数据的扩展的音频数据;基于传统音频数据和扩展的音频数据,获得符合增强的音频格式的增强的音频数据;以及向一个或多个扬声器输出增强的音频数据。

在另一个示例中,该技术涉及被配置为处理符合传统传输格式的向后兼容比特流的设备,该设备包括:用于从向后兼容比特流获得符合传统音频格式的传统音频数据的装置;用于从向后兼容比特流获得空间格式化的扩展的音频流的装置;用于处理空间格式化的扩展的音频流以获得增强传统音频数据的扩展的音频数据的装置;用于基于传统音频数据和扩展的音频数据获得符合增强的音频格式的增强的音频数据的装置;以及用于向一个或多个扬声器输出增强的音频数据的装置。

在另一个示例中,该技术涉及其上存储有指令的非暂时性计算机可读存储介质,当该指令被执行时,使得一个或多个处理器:从符合传统传输格式的向后兼容比特流获得符合传统音频格式的传统音频数据;从向后兼容比特流获得空间格式化的扩展的音频流;处理空间格式化的扩展的音频流以获得增强传统音频数据的扩展的音频数据;基于传统音频数据和扩展的音频数据,获得符合增强的音频格式的增强的音频数据;并将增强的音频数据输出到一个或多个扬声器。

在另一示例中,该技术涉及被配置为获得向后兼容比特流的设备,该设备包括:一个或多个存储器,被配置为存储向后兼容比特流的至少一部分,该向后兼容比特流符合传统传输格式;以及一个或多个处理器,被配置为:在向后兼容比特流中指定符合传统音频格式的传统音频数据;处理增强传统音频数据的扩展的音频数据,以获得空间格式化的扩展的音频流;在向后兼容比特流中指定空间格式化的扩展的音频流;并输出比特流。

在另一个示例中,该技术涉及一种处理符合传统传输格式的向后兼容比特流的方法,该方法包括:在向后兼容比特流中指定符合传统音频格式的传统音频数据;处理增强传统音频数据的扩展的音频数据,以获得空间格式化的扩展的音频流;在向后兼容比特流中指定空间格式化的扩展的音频流;以及输出比特流。

在另一示例中,该技术涉及被配置为处理符合传统传输格式的向后兼容比特流的设备,该设备包括:用于在向后兼容比特流中指定符合传统音频格式的传统音频数据的装置;用于处理增强传统音频数据的扩展的音频数据以获得空间格式化的扩展的音频流的装置;用于在向后兼容比特流中指定空间格式化的扩展的音频流的装置;和用于输出比特流的装置。

在另一个示例中,该技术涉及其上存储有指令的非暂时性计算机可读存储介质,当该指令被执行时,使得一个或多个处理器:在符合传统传输格式的向后兼容比特流中,指定符合传统音频格式的传统音频数据;处理增强传统音频数据的扩展的音频数据,以获得空间格式化的扩展的音频流;在向后兼容比特流中指定空间格式化的扩展的音频流;并输出比特流。

本公开的一个或多个示例的细节在附图和以下描述中阐述。从说明书和附图以及权利要求中,本技术的各个方面的其他特征、目的和优点将是显而易见的。

附图说明

图1是示出各种阶数和子阶数的球谐基函数(spherical harmonic basisfunction)的图。

图2是示出包括心理声学音频编码设备的系统的图,该系统可以执行本公开中描述的技术的各个方面。

图3A-图3D是更详细地说明图2的系统的各个方面的框图。

图4是示出图3A-图3D的示例中所示的心理声学音频编码器的示例的框图,该心理声学音频编码器被配置为执行本公开中描述的技术的各个方面。

图5是更详细地示出图3A-图3D的心理声学音频解码器的实现的框图。

图6A和图6B是示出图2的内容创建者系统在执行本公开中描述的技术的各个方面的框图。

图7A和图7B是示出根据本公开中描述的技术的各个方面、图2的比特流可以如何被布置成实现向后兼容性和可扩展性的图。

图8是更详细地说明图6B的音频传输流的图。

图9是示出图2-图4的空间音频编码设备在执行本公开中描述的技术的各个方面时的各个方面的示意图。

图10A-图10C是示出根据本公开中描述的统一数据对象格式技术的各个方面的比特流内的不同表示的图。

图11是示出被配置为执行本公开中描述的技术的各个方面的不同系统的框图。

图12是示出图2的心理声学音频编码设备在执行本公开中描述的技术的各个方面时的示例操作的流程图。

图13是示出图2的音频解码设备在执行本公开中描述的技术的各个方面时的示例操作的流程图。

具体实施方式

市场上有各种基于“环绕声”(surround-sound)通道的格式。例如,它们的范围从5.1家庭影院系统(它在进军起居室超立体声方面是最成功的)到NHK(日本细尾京开(Nippon Hoso Kyokai)或日本广播公司开发的22.2系统)。内容创建者(例如,好莱坞工作室,也可以被称为内容提供商)希望为电影制作一次音轨,而不是花费精力为每个扬声器配置重新混合它。运动图像专家组(Moving Pictures Expert Group,MPEG)已经发布了一个标准,该标准允许使用分层的元素集合(例如,高阶立体混响-HOA-系数)来表示声场,无论是在各种标准定义的位置还是在非统一位置,对于大多数扬声器配置(包括5.1和22.2配置)来说,这些元素都可以渲染到扬声器馈送。

MPEG将该标准发布为MPEG-H 3D音频标准,正式标题为“Informationtechnology–High efficiency coding and media delivery in heterogeneousenvironments–Part 3:3D audio”,由ISO/IEC JTC 1/SC 29正式提出,文档标识符为ISO/IEC DIS 23008-3,日期为2014年7月25日。MPEG还发布了第二版3D音频标准,标题为“Information technology–High efficiency coding and media delivery inheterogeneous environments–Part 3:3D audio”,由ISO/IEC JTC 1/SC 29提出,文档标识符为ISO/IEC 23008-3:201x(E),日期为2016年10月12日。在本公开中参考“3D音频标准”可以指以上标准中的一个或两个。

如上所述,分层的元素集合的一个示例是球谐系数(SHC)的集合。以下表达式演示了使用SHC对声场的描述或表示:

该表达式示出,在时间t,声场的任意点处的压力pi可以由SHC,唯一地表示。这里,c是声速(~343m/s),是参考点(或观测点),jn(·)是n阶球面贝塞尔函数(spherical Bessel function),并且是阶数n和子阶数m的球谐基函数(也可称为球面基函数)。可以认识到,方括号中的项是信号的频域表示(即,),其可以通过各种时频变换来近似,诸如离散傅立叶变换(discrete Fourier transform,DFT)、离散余弦变换(discrete cosine transform,DCT)或小波变换。分层集合的其他示例包括小波变换系数集合和多分辨率基函数的其他系数集合。

图1是示出从零阶(n=0)到四阶(n=4)的球谐基函数的图。可以看出,对于每个阶,都有子阶数m的扩展,为了便于说明,在图1的示例中示出了子阶数m,但没有明确指出。

SHC可以通过各种麦克风阵列配置来被物理地获取(例如,记录),或者可替换地,它们可以从声场的基于通道或基于对象的描述中导出。SHC(也可称为高阶立体混响-HOA-系数)表示基于场景的音频,其中SHC可被输入到音频编码器以获得可促进更有效传送(transmission)或存储的编码SHC。例如,可以使用涉及(1+4)2个(25,因此是四阶)系数的四阶表示。

如上所述,SHC可以从使用麦克风阵列的麦克风记录中导出。如何从麦克风阵列导出SHC的各种示例描述于Poletti,M.,“Three-Dimensional Surround Sound SystemsBased on Spherical Harmonics,”J.Audio Eng.Soc.,Vol.53,No.11,2005November,pp.1004-1025。

为了说明如何从基于对象的描述中导出SHC,考虑以下等式。对应于单个音频对象的声场的系数可以表示为:

其中i是 是阶数n的(第二类)球面Hankel函数,并且是对象的位置。知道对象源能量g(ω)作为频率的函数(例如,使用时间-频率分析技术,诸如对PCM流执行快速傅立叶变换)允许我们将每个PCM对象和相应的位置转换成SHC此外,可以显示(因为以上是线性和正交分解),每个对象的系数是加性的(additive)。以这种方式,多个PCM对象可以由系数表示(例如,作为各个对象的系数向量的总和)。本质上,系数包含关于声场的信息(作为3D坐标的函数的压力),并且上面表示在观察点附近从单个对象到整个声场的表示的转换。下面在基于SHC的音频编码的上下文中描述其余的图。

图2是示出可以执行本公开中描述的技术的各个方面的系统10的图。如图2的示例所示,系统10包括内容创建者系统12和内容消费者14。虽然在内容创建者系统12和内容消费者14的上下文中描述了这些技术,但是这些技术可以在任何上下文中实现,在该任何上下文中,对声场的SHC(也可以称为HOA系数)或任何其他分层表示进行编码,以形成代表音频数据的比特流。此外,内容创建者系统12可以表示包括能够实现本公开中描述的技术的任何形式的计算设备中的一个或多个的系统,包括手机(或蜂窝电话,包括所谓的“智能电话”)、平板计算机、膝上型计算机、台式计算机或专用硬件,仅举几个示例。同样,内容消费者14可以代表能够实现本公开中描述的技术的任何形式的计算设备,包括手持式设备(或蜂窝电话,包括所谓的“智能电话”)、平板计算机、电视、机顶盒、膝上型计算机、游戏系统或控制台、或台式计算机,仅举几个示例。

内容创建者网络12可以代表可以生成供内容消费者(诸如内容消费者14)消费的多通道音频内容和可能的视频内容的任何实体。内容创建者系统12可以在诸如体育赛事的赛事中捕捉实况(live)音频数据,同时还将各种其他类型的附加音频数据,诸如评论音频数据、商业音频数据、介绍或退出音频数据等,插入到实况音频内容中。

内容消费者14代表拥有或具有到音频回放系统的访问的个人,该音频回放系统可以指能够将高阶立体混响音频数据(其包括高阶音频系数,其也可以被称为球谐系数)渲染到扬声器馈送以作为所谓的“多通道音频内容”进行回放的任何形式的音频回放系统。可以在球谐域中定义高阶立体混响音频数据,并且将其从球谐域渲染或以其他方式转换到空间域,从而产生一个或多个扬声器馈送形式的多通道音频内容。在图2的示例中,内容消费者14包括音频回放系统16。

内容创建者系统12包括麦克风5,其以各种格式(包括直接作为HOA系数和音频对象)记录或以其他方式获得实况记录。当麦克风阵列5(也可以称为“麦克风5”)直接获得作为HOA系数的实况音频时,麦克风5可以包括HOA转码器,诸如图2的示例中所示的HOA转码器400。

换句话说,尽管被示为与麦克风5分开,但是HOA转码器400的单独实例可以被包括在每个麦克风5内,以便自然地将捕捉的馈送代码转换成HOA系数11。然而,当不包括在麦克风5内时,HOA转码器400可以将从麦克风5输出的实况馈送代码转换成HOA系数11。在这方面,HOA转码器400可以表示被配置为将麦克风馈送和/或音频对象代码转换成HOA系数11的单元。因此,内容创建者系统12包括与麦克风5集成的HOA转码器400、与麦克风5分离的HOA转码器或它们的某种组合。

内容创建者系统12还可以包括空间音频编码设备20、比特率分配单元402和心理声学音频编码设备406。空间音频编码设备20可以表示能够执行本公开中关于HOA系数11描述的压缩技术以获得中间格式化的音频数据15(当内容创建者系统12表示广播网络时,其也可以被称为“夹层格式化的音频数据15”,如下面更详细描述的)的设备。中间格式化的音频数据15可以表示使用空间音频压缩技术压缩但尚未经历心理声学音频编码的音频数据(诸如如高级音频编译码——AAC,或其他类似类型的心理声学音频编码,包括各种增强型AAC——eAAC——诸如高效AAC——HE-AAC——HE-AAC v2,又称eAAC+,等)。虽然在下面更详细地描述,但是空间音频编码设备20可以被配置为通过至少部分地对HOA系数11执行分解(诸如下面更详细地描述的线性分解)来对HOA系数11执行该中间压缩。

空间音频编码设备20可以被配置为使用涉及应用线性可逆变换(linearinvertible transform,LIT)的分解来压缩HOA系数11。线性可逆变换的一个示例被称为“奇异值分解”(singular value decomposition)(或“SVD”),它可以表示线性分解的一种形式。在该示例中,空间音频编码设备20可以将SVD应用于HOA系数11,以确定HOA系数11的分解版本。HOA系数11的分解版本可以包括主要(predominant)音频信号中的一个或多个和描述相关联的主要音频信号的方向、形状和宽度的一个或多个相应的空间分量。空间音频编码设备20可以分析HOA系数11的分解版本以标识各种参数,这可以便于HOA系数11的分解版本的重新排序(reorder)。

空间音频编码设备20可以基于所标识的参数对HOA系数11的分解版本进行重新排序,其中,如下文进一步详细描述的,这种重新排序可以提高编译码(coding)效率,假设变换可以跨HOA系数的帧对HOA系数进行重新排序(其中,帧通常包括HOA系数11的分解版本的M个样本,并且在一些示例中,M被设置为1024)。在对HOA系数11的分解版本进行重新排序之后,空间音频编码设备20可以选择代表声场的前景(或者换句话说,不同的、主要的或者显著的)分量的HOA系数11的分解版本。空间音频编码设备20可以将代表前景分量的HOA系数11的分解版本指定为音频对象(也可以称为“主要声音信号”或“主要声音分量”)和相关联的方向信息(也可以称为“空间分量”,或者在某些情况下,称为所谓的“V向量”)。

空间音频编码设备20接下来可以针对HOA系数11执行声场分析,以便至少部分地标识代表声场的一个或多个背景(或者换句话说,环境)分量的HOA系数11。空间音频编码设备20可以相对于背景分量执行能量补偿,假设在一些示例中,背景分量可以仅包括HOA系数11的任何给定样本的子集(例如,诸如对应于零阶和一阶球面基函数的那些,而不是对应于二阶或高阶球面基函数的那些)。换句话说,当执行降阶时,空间音频编码设备20可以增加HOA系数11的剩余背景HOA系数(例如,向HOA系数11的剩余背景HOA系数添加能量/从HOA系数11的剩余背景HOA系数减去能量)(,以补偿由于执行降阶而导致的总能量的改变。

空间音频编码设备20可以对前景方向信息执行某种形式的插值,然后对插值的前景方向信息执行降阶,以生成降阶的前景方向信息。在一些示例中,空间音频编码设备20可以进一步执行关于有序减少的前景方向信息的量化,输出编码的前景方向信息。在一些情况下,该量化可以包括标量/熵量化。空间音频编码设备20然后可以输出中间格式化的音频数据15作为背景分量、前景音频对象和量化的方向信息。

在一些示例中,背景分量和前景音频对象可以包括脉冲编码调制(pulse codemodulated,PCM)传输通道。也就是说,空间音频编码设备20可以为包括背景分量中的相应一个的HOA系数11的每一帧(例如,对应于零阶或一阶球面基函数的HOA系数11中的一个的M个样本)和前景音频对象的每一帧(例如,从HOA系数11分解的音频对象的M个样本)输出传输通道。空间音频编码设备20还可以输出边信息(side information)(也可以称为“边带信息”),该边信息包括对应于前景音频对象中的每一个的空间分量。总的来说,传输通道和辅助信息可以在图1的示例中表示为中间格式化的音频数据15。换句话说,中间格式化的音频数据15可以包括传输通道和辅助信息。

空间音频编码设备20然后可以向心理声学音频编码设备406传送或以其他方式输出中间格式化的音频数据15。心理声学音频编码设备406可以对中间格式化的音频数据15执行心理声学音频编码,以生成比特流21。内容创建者系统12然后可以经由传送信道(transmission channel)向内容消费者14传输比特流21。

在一些示例中,心理声学音频编码设备406可以表示心理声学音频编码器的多个实例,实例中的每一个用于对中间格式化的音频数据15的传输通道进行编码。在一些实例中,该心理声学音频编码设备406可以代表高级音频编译码(AAC)编码单元的一个或多个实例。在一些实例中,心理声学音频编码器单元406可以为中间格式化的音频数据15的每个传输通道调用AAC编码单元的实例。

关于如何使用AAC编码单元对背景球谐系数进行编码的更多信息可以在EricHellerud等人于2008年5月17-20日在第124届大会上演讲的题为“Encoding Higher OrderAmbisonics with AAC”的会议论文中找到,该论文可在http://ro.uow.edu.au/cgi/ viewcontent.cgi?article=8025&context=engpapers中找到。在一些情况下,心理声学音频编码设备406可以使用比用于对中间格式化的音频数据15的其他传输通道(例如,前景音频对象的传输通道)进行编码的目标比特率更低的目标比特率,对中间格式化的音频数据15的各种传输通道(例如,背景HOA系数的传输通道)进行音频编码。

虽然在图2中显示为直接传送给内容消费者14,但是内容创建者系统12可以将比特流21输出到位于内容创建者系统12和内容消费者14之间的中间设备。中间设备可以存储比特流21,用于稍后递送给内容消费者14,内容消费者14可以请求该比特流。中间设备可以包括文件服务器、网络服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话或能够存储比特流21以供音频解码器稍后检索的任何其他设备。中间设备可以驻留在能够向请求比特流21的订户(诸如内容消费者14)流式传输比特流21(并且可能结合传送相应的视频数据比特流)的内容递送网络中。

可替代地,内容创建者系统12可以将比特流21存储到存储介质,诸如光盘、数字视频盘、高清晰度视频盘或其他存储介质,其中大多数能够被计算机读取,因此可以被称为计算机可读存储介质或非暂时性计算机可读存储介质。在这种情况下,传送信道可以指那些传送存储到这些介质的内容的通道(并且可以包括零售店和其他基于商店的递送机制)。无论如何,本公开的技术不应因此在这方面局限于图2的示例。

如图2的示例中进一步所示,内容消费者14包括音频回放系统16。音频回放系统16可以代表能够回放多通道音频数据的任何音频回放系统。音频回放系统16可以包括多个不同的音频渲染器22。音频渲染器22可各自提供不同形式的渲染,其中不同形式的渲染可包括执行基于向量的振幅平移(vector-base amplitude panning,VBAP)的各种方式中的一种或多种,和/或执行声场合成的各种方式中的一种或多种。如本文所用,“A和/或B”是指“A或B”,或同时指“A和B”。

在一些情况下,音频回放系统16可以包括传统音频回放系统,其能够从符合传统音频格式的音频数据(包括音频信号)再现声场。传统音频格式的示例包括立体声音频格式(具有左通道和右通道)、立体声音频格式加(plus)(除了左通道和右通道之外,还具有低频效果通道)、5.1环绕声格式(具有前左通道和前右通道、中央通道、后左通道和后右通道以及低频效果通道)等。

音频回放系统16还可以包括音频解码设备24。音频解码设备24可以表示被配置为从比特流21解码HOA系数11’(也可以称为HOA音频数据11’)的设备,其中HOA音频数据11’可以类似于HOA系数11(也可以称为HOA音频数据11),但是由于有损操作(lossy operation)(例如量化)和/或经由传送信道传送期间注入的噪声而不同。

也就是说,音频解码设备24可以去量化(dequantize)比特流21中指定的前景方向信息,同时还对比特流21中指定的前景音频对象和代表背景分量的编码HOA系数执行心理声学解码。音频解码设备24可以进一步对解码的前景方向信息执行插值,然后基于解码的前景音频对象和插值的前景方向信息来确定代表前景分量的HOA系数。音频解码设备24然后可以基于代表前景分量的确定的HOA系数和代表背景分量的解码的HOA系数来确定HOA音频数据11’。

在解码比特流21以获得HOA音频数据11’之后,音频回放系统16可以渲染HOA音频数据11’以输出扬声器馈送25A。音频回放系统15可以向一个或多个扬声器(speaker)3输出扬声器馈送25A。扬声器馈送25A可以驱动一个或多个扩音器(loudspeaker)3。

为了选择适当的渲染器,或者在某些情况下,生成适当的渲染器,音频回放系统16可以获得指示扩音器的数量和/或扩音器的空间几何形状的扬声器信息13。在一些情况下,音频回放系统16可以使用参考麦克风并以动态确定扩音器信息13的方式驱动扬声器(其可以包括扩音器)来获得扬声器信息13。在其他情况下,或者结合扬声器信息13的动态确定,音频回放系统16可以提示用户与音频回放系统16交互并输入扬声器信息13。

音频回放系统16可以基于扬声器信息13选择音频渲染器22之一。在一些情况下,当没有音频渲染器22在与扬声器信息13中指定的扬声器几何形状的某个阈值相似性度量(就扬声器几何形状而言)内时,音频回放系统16可以基于扬声器信息13生成音频渲染器22之一。在一些情况下,音频回放系统16可以基于扬声器信息13生成音频渲染器22之一,而无需首先尝试选择音频渲染器22的现有之一。

当将扬声器馈送25A输出到耳机时,音频回放系统16可以利用音频渲染器22之一,该音频渲染器22使用报头相关传递函数(head-related transfer function,HRTF)或能够渲染到左和右扬声器馈送25A用于耳机扬声器回放的其他功能来提供双耳渲染。术语“扬声器”或“换能器(transducer)”通常可以指任何扬声器,包括扩音器、耳机扬声器等。一个或多个扬声器然后可以回放所渲染的扬声器馈送25A。

尽管被描述为渲染来自HOA音频数据11’的扬声器馈送25A,但是对扬声器馈送25A的渲染的引用可以指其他类型的渲染,诸如直接结合到来自比特流21的HOA音频数据11’的解码中的渲染。在MPEG-H 3D音频编码标准的附录G中可以找到替代渲染的示例,其中渲染发生在声场合成之前的主要信号形成和背景信号形成期间。因此,对HOA音频数据11’的渲染的引用应该理解为既指实际HOA音频数据11’的渲染,也指HOA音频数据11’的分解或其表示(诸如上述主要音频信号、环境HOA系数和/或基于向量的信号——其也可以被称为V向量)。

如上所述,音频回放系统16可以代表仅从上述传统音频格式再现声场的传统音频回放系统。为了向后兼容,各种音频渲染器22可以将HOA音频数据15渲染到符合传统音频格式的扬声器馈送25A。例如,渲染器22中的一个可以表示被配置为将HOA音频数据15或其一部分转换成符合立体声音频格式的扬声器馈送25A的B格式到A格式(B-format-to-A-format,B2A)转换器。B格式是指HOA音频数据的一部分,该部分包括对应于一阶和零阶球面基函数的HOA系数,其也可以被称为一阶立体混响(first-order ambisonic,FOA)信号。A格式表示立体声音频格式。虽然本文主要针对立体声音频格式进行了描述,但是这些技术可以针对任何传统音频格式(与最近引入的环境声学音频格式相比是“传统的”,环境声学音频格式也可以被称为基于场景的音频格式)来应用。

存在许多不同的B2A转换器。B2A转换器的一个示例是上述MPEG-H 3D音频编译码标准中提出的模式矩阵。B2A转换器的另一个示例是CODVRA转换器,其在杜比实验室公司(Dolby Laboratories Inc.)于2017年10月13日制作的题为“Encoding First-OrderAmbisonics with HE-AAC”的文件中有更详细的描述。还有一种转换器是UHJ矩阵转换。

作为另一个示例,声场表示生成器302可以(从内容捕捉设备300或者通过渲染B格式)获得A格式,而不是将B格式渲染到A格式,并且除了B格式之外还在比特流21中指定A格式。这种指定A格式和B格式两者的过程被称为联播(simulcast)。

在上述情况下,有许多缺陷。在B2A转换由所选择的渲染器或由内容捕捉设备300提供的东西来固定的意义上,B2A转换器和联播都是“固定的”。换句话说,B2A转换器和联播是固定的,因为两者都是时不变的(time-invariant),并且不能由内容提供商个性化。B2A转换器和联播的固定性质潜在限制内容创建者个性化立体声混合和为传统音频回放系统递送良好体验的能力。此外,联播可以减少用于在比特流21中表示HOA音频数据15的可用带宽,从而牺牲HOA音频数据15的质量,代价是改善传统音频回放系统的体验。

音频回放系统16可以以还允许符合传统音频格式的向后兼容音频信号25B(也可以称为扬声器馈送25B)的可配置生成的方式将HOA音频数据11’渲染到扬声器馈送25A。也就是说,HOA音频编码器20可以分配用于指定一个或多个参数的比特,该一个或多个参数可以适于产生能够由传统回放系统(例如,被配置为呈现立体声音频信号的音频回放系统)再现的向后兼容音频信号25B。

内容创建者网络12可以提供这些参数并产生具有改进的向后兼容性(就用户感知而言)的比特流21,而不会潜在地减少分配给底层声场的带宽(例如,分配用于表示HOA音频数据的压缩版本的比特)。在这方面,内容创建者网络12可以为传统音频回放系统实现更好的(在用户感知方面)音频回放,从而改善音频回放系统本身的操作。

在操作中,空间音频编码设备20可以输出中间格式化的音频数据15,其可以包括指定环境HOA音频数据(诸如背景HOA系数)和任何主要音频信号的一个或多个传输通道,以及指定主要音频信号的空间特性的辅助信息(例如,上述V向量)。混合(mixing)单元404可以获得中间格式化的音频数据15并提取环境HOA音频数据(诸如对应于零阶球面基函数(通常由变量W表示)和三个一阶球面基函数(由变量X、Y和Z表示)的任意组合的HOA系数)。

在一些情况下,高阶立体混响音频数据的第一部分可以包括指示对应于零阶球面基函数(W)的第一系数的数据。在这种情况和其他情况下,高阶立体混响音频数据的第一部分包括指示对应于零阶球面基函数的第一系数和对应于一阶球面基函数的第二系数的数据。

混合单元404可以表示被配置为处理环境HOA音频数据以获得符合传统音频格式的传统音频数据25B的单元,诸如上面列出的任何示例和没有列出的其他示例。混合单元404可以获得参数403,该参数403标识如何从高阶立体混响音频数据的一部分(例如,上面提到的环境HOA音频数据)获得传统音频数据25B。声音工程师或其他操作员可以指定参数403,或者混合单元404可以应用评估环境HOA音频数据并自动生成参数403的一个或多个算法。在任何情况下,混合单元404可以从环境HOA音频数据并基于参数403获得传统音频数据25B。

在一些情况下,混合单元404可以基于参数403获得混合数据。作为一个示例,混合数据可以包括混合矩阵,混合单元404可以将该混合矩阵应用于环境HOA音频数据以获得传统音频数据25B。这样,混合单元404可以基于混合数据处理环境HOA音频数据,以获得传统音频数据25B。

混合单元404可以在包括高阶立体混响音频数据的第二部分的中间格式化的音频数据15(也可以称为比特流15)中指定传统音频数据25B和一个或多个参数403。高阶立体混响音频数据的第二部分可以包括一个或多个附加环境HOA系数的压缩版本,以及主要声音信号的压缩版本以及代表空间特征的压缩版本的辅助信息。高阶立体混响音频数据的第二部分可以包括代表对应于球面基函数的一个或多个系数的数据,其中高阶立体混响音频数据的第一部分的一个或多个系数不对应于球面基函数(潜在地以主要音频信号和相应空间特征的形式)。

混合单元404可以根据以下示例语法表来指定参数403:

如前述语法表中所示,参数403可以包括“StereoSpread(立体声扩展)”语法元素、“BeamCharacter(波束字符)”语法元素、“hasAngleOffset(具有角度偏移)”语法元素、“azimuthAngleOffset(方位角角度偏移)”语法元素和“elevationAngleOffset(仰角角度偏移)”语法元素。

StereoSpread语法元素可以表示立体声扩展参数,该参数可以标识当获得传统音频数据25B时使用的声源之间的宽度。BeamCharacter语法元素可以表示标识用于获得传统音频数据25B的虚拟麦克风波束类型的波束字符参数。波束字符参数可以标识来自后方(或者换句话说,后方)的声音相对于最佳位置(sweet spot)的不同衰减水平。波束字符参数可以定义用于立体声混合的“虚拟麦克风波束”的类型。

hasAngleOffset语法元素表示指示比特流中是否存在azimuthAngleOffset语法元素和elevationAngleOffset语法元素的语法元素。azimuthAngleOffset语法元素和elevationAngleOffset语法元素中的每一个可以表示角度偏移参数,该角度偏移参数标识当获取标识用于获取传统音频数据25B的虚拟麦克风波束的类型的参数时所使用的声源之间的角度(分别是方位角和仰角)。这些角度偏移参数可以指示波束如何围绕方位角和仰角“居中”。

混合单元404还可以获得去混合(de-mix)数据,该去混合数据指示如何处理传统音频数据25B以获得环境HOA音频数据。混合单元404可以基于混合数据来确定去混合数据。在混合数据是混合矩阵的情况下,混合单元404可以获得去混合数据作为混合矩阵的逆(或伪逆)。混合数据包括代表混合矩阵的混合数据,该混合矩阵将M个输入信号转换成N个输出信号,其中M不等于N。混合单元404可以在包括音频数据的第二部分的比特流15中指定传统音频数据25B(如上所述)和去混合数据。

混合单元404可以指定如以下示例语法表中阐述的去混合数据:

如上面的语法表所示,去混合数据(由矩阵“D”表示)可以根据bitDepthIdx语法元素、rowIdx语法元素和colIdx语法元素来指定。bitDepthIdx可以为由D表示的去混合矩阵的每个矩阵系数定义比特深度。rowIdx语法元素可以标识去混合矩阵中的若干行,而colIdx语法元素可以标识去混合矩阵中的若干列。

尽管被示为针对以上语法表中引用的去混合矩阵的每一行和每一列完全指定每个矩阵系数,但是混合单元404可以尝试通过应用利用去混合矩阵中可能出现的稀疏性和/或对称性的压缩应用来减少比特流15中明确指定的矩阵系数的数量。也就是说,去混合数据可以包括指示去混合矩阵的稀疏性的稀疏性信息,混合单元404可以指定该稀疏性信息,以便信令通知比特流15中没有指定各种矩阵系数。关于混合单元404如何获得稀疏性信息并由此减少比特流15中指定的矩阵系数的数量的更多信息可以在标题为“OBTAININGSPARSENESS INFORMATION FOR HIGHER ORDER AMBISONIC AUDIO RENDERERS”、公布于2017年3月28日的美国专利号9,609,452中找到。

在一些示例中,去混合数据还可以结合稀疏信息或者作为稀疏信息的替代,包括指示去混合矩阵的对称性的对称性信息,混合单元404可以指定该对称性信息,以便信令通知比特流15中没有指定各种矩阵系数。对称性信息可以包括指示去混合矩阵的值对称性的值对称性信息和/或指示去混合矩阵的符号对称性的符号对称性信息。关于混合单元404如何获得稀疏性信息并由此减少比特流15中指定的矩阵系数的数量的更多信息可以在标题为“OBTAINING SYMMETRY INFORMATION FOR HIGHER ORDER AMBISONIC AUDIORENDERERS”、发布于2018年1月30日美国专利号9,883,310中找到。

在任何情况下,作为更新或以其他方式修改比特流15的结果,混合单元404可以以上述方式生成比特流17。混合单元404可以将混合单元404输出到心理声学音频编码设备406。

如上所述,心理声学音频编码设备406可以执行心理声学音频编码,诸如AAC、增强AAC(enhanced AAC,eAAC)、高效AAC(high efficiency-AAC,HE-AAC)、HE-AACv2.0(也称为eAAC+)等,以生成符合传输格式的比特流21。为了保持与传统音频回放系统的向后兼容性,心理声学音频编码设备406可以生成比特流21,以符合传统传输格式(诸如,由上述心理声学音频编码过程中的任何一个的应用产生的格式)。这样,针对比特流17执行的心理声学音频编码类型可以被称为传统传输格式。

然而,对比特流17的每个传输通道进行单独编码可能导致各种低效率。例如,在AAC(可以指AAC或上述AAC的任何变体)中,心理声学音频编码设备406可以指定每个传输通道的帧以及多个填充元素,以解决帧大小之间的差异(从而潜在地保持瞬时比特率或接近瞬时比特率)。这些填充元素不表达音频数据的任何方面,而仅仅是填充符,这可能导致带宽(对于内容创建者系统12本身,在存储器带宽和可能的网络带宽方面)和/或存储空间的浪费。

根据本公开中描述的技术的各个方面,心理声学音频编码设备406可以在比特流21(其可以表示符合传统音频传输的向后兼容比特流的一个示例)中指定传统音频数据25B。心理声学音频编码设备406接下来可以在向后兼容比特流21中指定增强传统音频数据的扩展的音频数据。扩展的音频数据可以包括代表高阶立体混响音频数据11的音频数据,诸如对应于具有大于零或一阶的球面基函数的一个或多个高阶立体混响系数。作为一个示例,扩展的音频数据可以通过增加由传统音频数据25B表示的声场的分辨率来增强传统音频数据25B,从而允许为增强的回放系统16渲染附加的扬声器馈送25A(包括在声场再现中提供高度的扬声器馈送)。

扩展的音频数据可以包括先前在比特流17中指定的传输通道。这样,心理声学音频编码设备406可以以与本公开中描述的技术的各个方面一致的方式,至少部分地通过对现有传输通道进行编码并在向后兼容比特流21中指定编码的通道,来在向后兼容比特流21中指定扩展的音频数据。关于心理声学音频编码设备406可以如何指定扩展的音频数据11的进一步信息是关于图6A和图6B的示例提供的。

图6A和图6B是是示出图2的内容创建者系统在执行本公开中描述的技术的各个方面的框图。首先参考图6A的示例,内容创建者系统12A是图1的示例中所示的内容创建者系统12的一个示例。

如图6A所示,内容创建者系统12A包括预处理器20(其代表图2中所示的空间音频编码设备20以及可能发生的任何其他预处理)、等效空间格式(equivalent spatialformat,ESF)单元404(其代表混合单元404)和心理声学音频编码设备406(其在图6A中显示为eAAC编码器的多个不同实例)。

预处理器20可以输出HOA音频数据11的压缩版本作为比特流15(示出为包括扩展传输通道315和伴随的元数据317,其可以包括与扩展传输通道315表示的主要音频信号相关联的空间特征)。在这方面,比特流15可以表示扩展的音频数据,因此可以被称为“扩展的音频数据15”)。预处理器20可以向心理声学音频编码设备406输出扩展传输通道315和元数据317。

预处理器20还可以输出与一阶和零阶球面基函数相关联的HOA系数(其通常由变量W、X、Y和Z表示,并且在HOA音频数据或“一阶HOA音频数据”的上下文中也被称为“B格式”)。预处理器20可以向ESF单元404输出一阶HOA音频数据403。

ESF单元404可以对一阶HOA音频数据403执行混合,以获得传统音频数据25B。传统音频数据25B可以符合上面讨论的传统音频格式中的一种或多种。在图6A的示例中,传统音频数据25B被假定为符合立体声音频格式(包括左-L-通道和右-R-通道)。ESF单元404可以将传统音频数据25B输出到心理声学音频编码设备406。

当获得传统音频数据25B时,ESF单元404可以获得残差(residual)音频数据405。也就是说,当混合一阶HOA音频数据403以获得传统音频数据25B时,ESF单元404可以有效地将一阶HOA音频数据403和传统音频数据25B之间的差异确定为残差音频数据405(并且在图6A的示例中示出为A和B传输通道)。ESF单元404可以将残差音频数据405输出到心理声学音频编码设备406。

心理声学音频编码设备406可以针对传统音频数据25B的每个部分(例如,帧)执行心理声学音频编码,以获得音频数据传输流(audio data transport stream,ADTS)帧407A。心理声学音频编码设备406还可以针对残差音频数据405的A和B传输通道中的每一个执行心理声学音频编码,以获得一个或多个ADTS帧407(在图6A的示例中被示为ADTS帧407B)。心理声学音频编码设备406还可以针对扩展传输通道315执行心理声学音频编码,以获得一个或多个ADTS帧(示为ADTS帧407C-407M)。

心理声学音频编码设备406还可以获得元数据317和报头319。心理声学音频编码设备406可以将报头319、ADTS帧407B-407M和元数据317布置为ADTS帧407A的一个或多个填充元素。填充元素可以表示统一大小的块(其中,作为一个示例,每个填充元素是256字节)。

有关填充元素的更多信息,请参见国际标准化组织(OrganisationInternationale de Normalisation)的音频小组(audio Subgroup)发布的题为“WhitePaper on AAC Transport Formats”、ISO/IEC JTC1/SC29/WG11 Coding of MovingPictures and Audio、文件ISO/IEC JTC1/SC29/WG11 N14751、于2014年7月在日本札幌会议期间发布的白皮书。关于心理声学音频编码设备406可以如何指定将报头319、ADTS帧407B-407M和元数据317布置为ADTS帧407A的一个或多个填充元素的更多信息是关于图7A和图7B的示例提供的。

图7A和图7B是示出根据本公开中描述的技术的各个方面的图2的比特流可以如何被布置成实现向后兼容性和可扩展性的图。首先参考图7A,比特流21表示比特流21的单个部分,诸如单个ADTS传输帧,其中ADTS帧407A与填充元素350A-350E(“填充元素350”或填充_元素_1-填充_元素_5(显示为“5”)(fill_elements_1–fill_elements_5)一起被指定,如图7B所示。

心理声学音频编码设备406可以直接在ADTS传输帧407A之后指定填充元素350。心理声学音频编码设备406可以在填充元素350A中直接在ADTS帧407A(其表示传统音频数据25B)之后指定报头319,随后在填充元素350A-350D中指定每个ADTS传输帧407B-407M,然后在填充元素350D和350E中指定元数据317。

心理声学音频编码设备350可以根据以下语法指定报头319:

报头

通常,报头319表示指示扩展的音频数据(由ADTS传输帧407B-407M表示)是如何在向后兼容比特流21中被指定的一个或多个指示。报头319可以包括标识填充元素350包括扩展的音频数据(由扩展传输通道315、元数据317和残差音频数据405表示)的指示(例如,同步字语法元素)。

报头319还可以包括标识报头319的大小的指示(例如,上述SizeOfHeaderBytes元素)。报头319还可以包括标识填充元素350的数量的指示(例如,NumFillElements语法元素)。在图7B的示例中,心理声学音频编码设备406可以为NumFillElements语法元素指定为五(5)的值。

报头319还可以包括标识扩展的音频数据的多个部分的指示。在图7B的示例中,心理声学音频编码设备406可以为NumSplits语法元素指定M+1的值,因为存在M-1(考虑到存在M-1个ADTS传输帧407B-407M)部分加上作为另一部分的报头319,以及作为又一部分的元数据317,总共M+1个部分(也可以被称为“分割”(splits))。在一些示例中,考虑到报头319不提供与底层声场相关的任何数据,报头319可以被排除为部分之一。

对于多个不同部分中的每一个,心理声学音频编码设备406可以在报头319中指定标识扩展的音频数据的部分的相应一个的大小的指示(例如,SizeofSplitBytes语法元素),以及标识该部分的相应一个的类型的指示(例如,TypeofSplit语法元素)。该类型可以指示相应部分是ADTS传输帧(ADTS)、对象元数据、HOA边信息(其可以以V向量的形式指定空间特征)、通道元数据或SpAACe config-这将在下面更详细地讨论。

心理声学音频编码设备406可替换地根据所谓的空间音频高级编码增强/扩展(spatial Audio Advanced Coding enhanced/extended,spAACe)音频流(spAACe AS)指定ADTS帧407B-407M和元数据317。当使用spAACe AS格式时,心理声学音频编码设备406可以将报头319指定为包括以下内容,因为鉴于根据spAACe AS格式指定的信令通知,上述报头319的剩余方面是冗余的:

心理声学音频编码设备406可以将SpAACe音频流比特划分成具有最大大小为例如256字节的字节对准的数据块序列。心理声学音频编码设备406然后可以将每个分区作为单独的fill_element(填充_元素)嵌入到AAC比特流(或其他心理声学编解码器比特流)的raw_data_block(原始_数据_块)中,以潜在地保持与传统AAC格式的向后兼容性。

ADTS帧的概述和语法在2009年9月1日发布的题为“Information technology–Coding of audio-visual objects–Part 3:Audio”的ISO_IEC_14496-3的附录1.A(参见表1.A.4至1.A.11)中提供(以下简称“ISO_IEC 14496-3;2009”))。在ISO_IEC_14496-3;2009的表4.3中解释了raw_data_block()的语法。心理声学音频编码设备406可以使用single_channel_element()和channel_pair_element()来携带传统路径中的单通道和立体声通道。语法描述见ISO_IEC_14496-3;2009的表4.4和表4.5。如表A.8所述,传统路径中的任何数量的这些元素都可以用于SpAACe解码过程。

一系列填充元素被用来携带SpAACe音频流。fill_element语法描述在ISO_IEC_14496-3;2009的表4.11中。定义了一个新的扩展类型来携带SpAACe数据字节。

extension_payload()的语法通过添加一个或多个extension_type进行更新,如下所示。

表B.1—extension_payload()的语法

表B.2—SpAACe_data()的语法

表B.3—ISO_IEC_14496-3;2009的表4.121中的附加extension_type定义

EXT_SPAACE_DATA ‘0101’ SpAACe Payload

心理声学音频编码设备406可以缓冲SpAACeDataByte[]中的一个raw_data_block,以形成spAACeAudioStream()。

鉴于前面关于spAACeAudioStream()的形成,下面将描述用于传输spAACe音频数据的独立格式。以下是所述内容的总结,并被认为与该技术的各个方面相关:

-诸如单通道元素(single channel element,SCE)、通道对元素(channel pairelement,CPE)、以及LFE解码的核心解码在ISO/IEC 14496-3;2009中描述;

-HOA解码在ETSI TS 103 589、高阶环境声学(HOA)传输格式(Higher OrderAmbisonics(HOA)Transport Format)中描述;

-动态范围控制(Dynamic Range Control,DRC)在ISO/IEC 23003-4,Informationtechnology--MPEG audio technologies--Part 4:Dynamic Range Control中描述;和

-其他解码功能,诸如对象解码,在ISO/IEC 23003-4,信息技术--MPEG语音技术--Part 4:动态范围控制.,根据低复杂度简档(profile)限制,和ISO/IEC 23008-3:2018,信息技术—异构环境中的高效编码和媒体交付-Part 3:3D语音中描述。

以下语法表可以表示心理声学音频编码设备406可以如何在比特流21中指定spAACeAudioStream()。

表11—spAACeAudioStream()的语法

假设spAACeAudioStreamPacket()具有固定或统一的大小,心理声学音频编码设备406可以不指定比特流21中存在多个spAACe音频流分组,而是继续解析spAACe音频流分组,只要比特可用(如经由bitsAvailable()函数调用确定的)。

心理声学音频编码设备406可以如下指定空间音频流分组中的每一个。

表A.2—spAACeAudioStreamPacket()的语法

spAACe音频流分组中的每一个可以包括spAACe音频流分组类型的类型指示(例如,SPAACEASPacketType语法元素)、spAACe音频流分组标签的指示(例如,SPAACEASPacketLabel语法元素)、spAACe音频流分组长度的指示(例如,SPAACEASPacketLength语法元素)、以及spAACe音频流分组的有效载荷(例如,spAACEASPacketPayload语法元素)。下表提供了上表语法元素的语义:

表A.2.1—spAACeAudioStreamPacket()的语义

以下语法表指定了SPAACEASPacketPayload的语法:

表A.3—SPAACEASPacketPayload()的语法

下面提供了SPAACEASPacketPayload函数的语义:

表A.3.1—SPAACEASPacketPayload()的语义

下面提供了spAACeConfig函数的语法以及spAACeConfig函数的语义:

表A.4—spAACeConfig()的语法

表A.4.1—spAACeConfig()的语义

SpAACeSignals3d函数的语法如下,其语义紧随其后。

表A.5—SpAACeSignals3d()的语法

表A.5.1—SpAACeSignals3d()的语义

下面提供了spAACeDecoderConfig函数的语法。

表A.6—spAACeDecoderConfig()的语法

前面的表格提供了关于当在传统音频数据25B或扩展的音频数据中指定了spAACeElement时,spAACeAudioStreamPacket如何指示的语法。当inLegacyPath语法元素设置为1时,在传统音频数据25B中指定该通道的相应元素。当inLegacyPathSyntax元素设置为零时,在扩展的音频数据中指定该通道的相应元素。下面提供了spAACeDecoderConfig函数的语义:

表A.6.1—spaacedecodeconfig()的语义

下表提供了上表中引用的spAACeExtElementConfig函数的语法,随后是spAACeExtElementConfig函数的语义。

表A.7—spAACeExtElementConfig()的语法

表A.7.1——spAACeExtElementConfig()的语义

下表提供了上面引用的HOAConfig_SN3D函数的语法,随后是HOAConfig_SN3D函数的语义:

表A.7.2—HOAConfig_SN3D()的语法

表A.7.3—HOAConfig_SN3D()的语义

下面给出了spaceframe函数的语法,随后是语义。

表A.8—spAACeframe()的语法

前面的表格提供了关于当在传统音频数据25B或扩展的音频数据中指定了spAACeElement时,spAACeAudioStreamPacket如何指示的语法。当inLegacyPath语法元素设置为1时,在传统音频数据25B中指定该通道的相应元素。当inLegacyPathSyntax元素设置为零时,在扩展的音频数据中指定该通道的相应元素。下面提供了spAACeDecoderConfig函数的语义:

下表给出了spAACeframe函数的语义。

表A.8.1——spAACeframe()的语义

这样,心理声学音频编码设备406可以在将空间格式化的扩展的音频数据嵌入到与ADTS帧407A相关联的填充元素中之前,处理扩展的音频数据以获得符合spAACe音频流格式的空间格式化的扩展的音频数据。利用各种指示的任意组合(这是引用上述示例语法元素的另一种方式),空间格式化的扩展的音频数据可以符合上述的spAACeAudioStream。心理声学音频编码设备406然后可以指定(或者换句话说,嵌入)空间格式化的扩展的音频数据作为与比特流21中的ADTS帧407A相关联的填充元素。

接下来参考图6B,系统12B代表图2所示的系统12的另一个示例。系统12B可以类似于系统12A,除了心理声学音频编码设备406在音频传输流21A中指定传统音频数据25B,并且在单独的音频传输流21B中指定扩展的音频数据。第一音频传输流21A和第二音频传输流21B的组合可以表示图2的示例中所示的比特流21。

在一些示例中,心理声学音频编码设备406可以针对第一音频传输流21A、第二音频传输流21B或者第一和第二音频传输流21A和21B两者执行上述处理,以获得空间格式化的音频传输流。利用各种指示的任意组合(这是引用上述示例语法元素的另一种方式),空间格式化的音频传输流可以符合上述的spAACeAudioStream。

也就是说,心理声学音频编码设备406可以在向后兼容比特流21中指定代表第一音频数据(例如,由ADTS帧407A表示的传统音频数据25B)的第一音频传输流21A。心理声学音频编码设备406还可以在向后兼容比特流21中指定代表第二音频数据(例如,扩展的音频数据)的第二音频传输流21B。

当指定两个或多个音频传输流时,单独的流有可能彼此独立地到达,使得一个或多个音频传输流可能在另一个音频传输流之前或之后到达。当各种音频传输流比其他音频传输流更早或更晚到达时,音频解码设备24可以在使用扩展的音频数据重构HOA系数11’以增强传统音频数据25B时,使用非同步的扩展的音频数据来增强传统音频数据25B,从而将音频伪像注入HOA系数11’。

为了避免前述音频伪像,心理声学音频编码设备406可以根据本公开中描述的技术的各个方面,指定标识与第一音频传输流和第二音频传输流相关的同步信息的一个或多个指示。参考图8描述了标识同步信息的一个或多个指示的示例。

图8是更详细地说明图6B的音频传输流的图。在图8的示例中,音频传输流21A包括ADTS流部分(可称为帧)21A-1至21A-4。音频传输流21B包括ADTS流部分(可以称为帧)21B-1至21B-4。

ADTS帧21A-1至21A-4中的每一个包括时间戳(timestamp,TS)370A-370D中的相应一个。ADTS帧21B-1至21B-4中的每一个同样包括时间戳(TS)372A-372D中的相应一个。时间戳370A-370D中的每一个可以表示标识与第一音频传输流21A相关的同步信息的示例指示。时间戳372A-372D中的每一个可以表示标识与第二音频传输流21B相关的同步信息的示例指示。

在一些示例中,时间戳370A-370D和372A-372D中的每一个可以包括循环重复的八位(eight-bit)(或一些其他比特数)整数。也就是说,假设八位整数值,时间戳370A-370D可以从时间戳370A的零值开始迭代增加,随后时间戳370B 1的值为1,随后时间戳370C的值为2,随后时间戳370D的值为3,等等,直到达到28-1(等于255),然后以0到255的值循环重复,以此类推。心理声学音频编码设备406可以为那些同时指定描述声场的音频数据的帧21B-1至21B-4的时间戳372A-372D指定相同的值。

在图8的示例中,假设音频传输流21B包括时间戳372A-372D,从时间戳372A的值254开始递增,随后是时间戳372B的值255,时间戳372C的值为0,时间戳372D的值为1。在这方面,帧21B-3与帧21A-1同步,因为帧21A-1和21B-3都具有指定相同值的时间戳370A和372C。然后,来自帧21B-3的扩展的音频数据可以用于增强由帧21A-1指定的传统音频数据25B,而不注入音频伪像。

同样,帧21B-4与帧21A-2同步,因为帧21A-2和21B-4都具有指定相同值的时间戳370B和372D。然后,来自帧21B-4的扩展的音频数据可以用于增强由帧21A-2指定的传统音频数据25B,而不注入音频伪像。

回到图6B的示例,心理声学音频编码设备406可以经由在第一音频传输流21A和第二音频传输流21B之间提供粗略对准的传输层协议(例如传输控制协议——TCP)输出向后兼容比特流21。换句话说,心理声学音频编码设备406可以利用传输层协议来维持两个(或者在一些示例中更多个)音频传输流21A和21B之间的粗略的对准级别(通过分组号)。

心理声学音频编码设备406可以利用由传输层协议提供的粗略控制级别,以便减小时间戳370和372的大小。也就是说,时间戳370和372可以每256帧重复一次,这允许128帧的最大容许粗略对准偏移。128帧,每帧2048字节,假设采样率为48千赫兹(kHz),提供大约5.4秒的时间同步。这样,心理声学音频编码设备406可以仅在存在确保同步(或者换句话说,时间对准)高达大约5.4秒的粗略的对准级别时,使用时间戳370和372来保持音频传输流21A和21B之间的同步。

为了指定时间戳370和372,心理声学音频编码设备406可以在ADTS传输流帧21A-1至21A-4和21B-1至21B-4中的每一个的报头中信令通知以下语法元素:

上述语法元素是根据2009年9月1日发布的题为“Information technology–Coding of audio-visual objects–Part 3:Audio”的国际标准ISO/IEC 14496-3规定的。尽管参照前述国际标准进行了描述,但是类似的语法元素可以根据其他标准来指定,无论是否是专有的。虽然可以使用类似的语法元素,但是不同的值可以不同,以避免冲突、冗余或其他问题。

前述语法包括Extension_type语法元素,其表示标识有效载荷对应于扩展的音频数据的指示。Extension_type语法元素表示标识帧包括时间戳的指示。Extension_type值0011和Extension_type值1111可以保留,如上述国际标准的表4.121所示,从而避免了引入新语法元素时的冲突和其他问题。

时间戳语法元素与时间戳370和372相同。统一资源位置(uniform resourcelocation,url)语法元素表示标识网络内的位置的指示,音频数据从该位置存储或以其他方式可经由网络下载。心理声学音频编码设备406可以将比特流21输出到音频编码设备24,如以上关于图2的示例更详细讨论的。

返回参考图2的示例,音频解码设备24可以获得比特流21,并对比特流21执行心理声学音频解码,以获得比特流17(也可以称为比特流17)。音频解码设备24可以从比特流17获得符合传统音频格式的传统音频数据25B。音频解码设备24接下来可以从比特流17获得参数403。

如图2的示例所示,音频解码设备24可以包括去混合单元(de-mixing unit,DU)26,音频解码设备24可以调用去混合单元26来基于参数403处理传统音频数据25B以获得环境HOA音频数据。在一些情况下,去混合单元26可以从比特流21获得上述去混合数据,该去混合数据指示如何处理传统音频数据25B以获得环境HOA音频数据。在一些示例中,去混合单元26可以基于参数403处理去混合数据,以获得上述去混合矩阵。在这方面,去混合数据包括代表去混合矩阵的去混合数据,该去混合矩阵将N个输入信号转换成M个输出信号,其中N不等于M。去混合单元26可以将去混合矩阵应用于传统音频数据25B,以获得环境HOA音频数据。

为了获得扩展的音频数据,音频解码设备24可以调用一个或多个心理声学音频解码设备,这些心理声学音频解码设备可以以与两种方式中的任一种相反的方式(例如,嵌入在填充元素中或作为单独的音频传输流)对向后兼容比特流21执行心理声学解码,通过这种方式,扩展的音频数据可以由心理声学音频编码设备406在比特流21中指定。

也就是说,心理声学音频解码设备可以从根据AAC传输格式指定的一个或多个填充元素获得增强的音频数据。心理声学音频解码设备可以在填充元素的上下文获得ADTS传输帧407A,并解压缩ADTS传输帧407A以获得传统音频数据25B。

心理声学音频解码设备接下来可以从填充元素解析报头319。为了标识填充元素,心理声学音频解码设备可以从报头319解析SyncWord语法元素,并基于SyncWord语法元素确定填充元素350指定扩展的音频数据。

在确定填充元素350指定扩展的音频数据之后,心理声学音频数据可以解析NumFillElements语法元素、NumSplits语法元素,并且对于多个分割中的每一个,解析SizeofSplitBytes和TypeofSplit语法元素中的相应一个。基于前述语法元素,心理声学音频解码设备可以获得ADTS帧407B-407M和元数据317,并且针对ADTS帧407B-407M和元数据317执行心理声学音频解码,以解压缩ADTS帧407B-407M和元数据317。

当经由单独的传输流21B指定扩展的音频数据时,心理声学音频解码设备可以通过解析指示扩展的音频数据是经由标识的单独传输流指定的指示,来标识扩展的音频数据是经由单独的传输流21B指定的。心理声学音频解码设备然后可以获得第二音频传输流21B。在分离的流的这种情况下,音频解码设备24可以经由传输层协议接收音频传输流21A和21B,该传输层协议提供第一音频传输流21A和第二音频传输流21B之间的上述粗略对准。

心理声学音频解码设备接下来可以从向后兼容比特流21获得代表第一音频传输流21A和第二音频传输流21B的同步信息(例如,时间戳370和372)的一个或多个指示。心理声学音频解码设备接下来可以基于一个或多个时间戳370和372,同步第一音频传输流21A和第二音频传输流21B。

为了说明这一点,再次考虑图8的示例,其中心理声学音频解码设备可以将时间戳370A与时间戳372A-372D中的每一个进行比较,当时间戳370A指定与时间戳370C相同的值时停止。心理声学音频解码设备然后可以将ADTS流帧21A-1与ADTS流帧21B-3同步。心理声学音频解码设备可以继续以这种方式,以基于时间戳370和372,将音频传输流21A的帧21A-1至21A-4同步到音频传输流21B的帧21B-1至21B-4。

在这方面,音频解码设备24还可以从比特流17获得高阶立体混响音频数据的第二部分。音频解码设备24可以基于环境HOA音频数据和高阶立体混响音频数据的第二部分,获得HOA音频数据11’。

音频回放系统16然后可以将一个或多个音频渲染22应用于HOA音频数据11’,以获得一个或多个扬声器馈送25A。音频回放系统16接下来可以向一个或多个扬声器3输出一个或多个扬声器馈送25A。关于传统的和增强的处理如何进行的更多信息参考图5A-5D进行描述。

以这种方式,该技术可以实现具有嵌入的增强的音频传输的向后兼容比特流21的生成,该向后兼容比特流可以允许由增强的音频传输表示的声场的更高分辨率再现(相对于符合传统音频格式的传统音频传输,诸如单通道音频格式、立体声音频格式,甚至可能是一些环绕声格式,包括作为一个示例的5.1环绕声格式)。被配置为使用一种或多种传统音频格式再现声场的传统音频回放系统可以处理向后兼容比特流,从而保持向后兼容。

被配置为使用增强的音频格式(诸如一些环绕声格式,例如包括7.1环绕声格式或7.1环绕声格式加上一个或多个基于高度的音频源-7.1+4H)来再现声场的增强的音频回放系统可以利用增强的音频传输来增强,或者换句话说,扩展传统音频传输来支持声场的增强的再现。这样,该技术可以实现支持传统音频格式和增强的音频格式的向后兼容音频比特流。

该技术的其他方面可以实现增强的音频传输和传统音频传输之间的同步,以确保声场的正确再现。时间同步技术的各个方面可以使增强的音频回放系统能够标识对应于增强的音频传输的部分的传统音频传输的音频部分。增强的音频回放系统然后可以基于增强的音频传输的相应部分,以不注入或以其他方式导致音频伪像的方式增强或以其他方式扩展传统音频传输的部分。

在这方面,这些技术可以促进向后兼容性,这使得传统音频回放系统能够保持使用,同时还促进采用增强的音频格式,这可以相对于通过传统音频格式实现的声场再现来提高声场再现的分辨率。促进采用增强的音频格式可以带来更身临其境的音频体验,而不会使传统音频系统过时。因此,这些技术可以保持传统音频回放系统再现声场的能力,从而改善或至少保持传统音频回放系统,同时还能够通过使用增强的音频回放系统来改进声场再现。这样,该技术改进了传统音频回放系统和增强的音频回放系统本身的操作。

图3A-图3D是更详细地示出图2的系统10的各个方面的框图。如图3A的示例所示,空间音频编码设备20(也可以称为图3A所示的HOA传输格式-HTF-设备20)可以首先获得HOA音频数据11(也可以称为图3A所示的HOA输入11)。HTF设备20可以将每个样本的(N+1)2个HOA系数(其中N是斜体以区别于上面列出的N,并且是指与HOA输入11的HOA系数相关联的球面基函数的最高阶)压缩成M个(其中M是斜体以区别于上面列出的M个)传输通道30。

M个传输通道30中的每个传输通道可以指定环境HOA音频数据的单个HOA系数或主要音频信号(例如,如在MPEG-H 3D音频编译码标准(MPEG-H3D Audio Coding Standard)中提出的通过将U向量乘以S向量形成的音频对象)。HTF设备20可以根据2018年6月、由European Telecommunication Standards Institute(ETSI)作为ETSI TS 103 589v1.1.1出版的、题为“Higher Order Ambisonics(HOA)Transport Format”的技术规范(TechnicalSpecification,TS)的各个方面来制定比特流15。

在任何情况下,HTF设备20可以将M个传输通道30输出到混合单元404,混合单元404可以应用上面讨论的参数403来获得传统音频数据25B(其在图3A中以示例的方式示出为“立体声混合”)。混合单元404可以将传统音频数据25B作为两个通道(在传统立体声音频数据的示例中)输出到心理声学音频编码设备406,作为比特流17的一部分。混合单元404可以进一步输出比特流15中剩余的HOA音频数据的第二部分作为M-2个传输通道,从而形成比特流17。混合单元404还可以将参数403和/或去混合矩阵407指定为由心理声学音频编码设备406以上面更详细描述的方式制定的比特流21中的元数据403/407。

作为一个示例,心理声学音频(psychoacoustic audio,PA)编码设备406可以针对比特流17的每个传输通道应用增强的高级音频编译码(enhanced advanced audiocoding,eAAC),以获得比特流21。eAAC可以指任何数量的不同类型的AAC,诸如高效AAC(HE-AAC)、HE-AACv2(也称为aacPlus v2或eAAC+)等。

虽然针对eAAC和/或AAC进行了描述,但是这些技术可以使用任何类型的心理声学音频编译码来执行,如下文更详细描述的,该心理声学音频编译码允许扩展分组(诸如下面讨论的填充元素)或者允许向后兼容。其他心理声学音频编解码器的示例包括音频编解码器3(Audio Codec 3,AC-3)、苹果无损音频编解码器(Apple Lossless Audio Codec,ALAC)、MPEG-4音频无损流(Audio Lossless Streaming,ALS)、增强型AC-3、免费无损音频编解码器(Free Lossless Audio Codec,FLAC)、猴子音频(Monkey’s Audio)、MPEG-1音频第二层(MP2)、MPEG-1音频第三层(MP3)、Opus和Windows Media音频(WindowsMedia Audio,WMA)。

如图3B的示例所示,HTF编码器20(HTF设备20的另一个名称)可以处理HOA输入11,以获得在传输通道30A中指定的四个环境HOA系数(示为W、X、Y和Z)以及在传输通道30B中指定的前景(FG-诸如主要音频信号)和背景(BG-诸如附加的环境HOA系数)分量。混合单元404(在这个示例中是立体声混合单元)可以混合四个环境HOA系数以获得左和右立体声通道25B。混合单元404还可以输出由混合四个环境HOA系数产生的残差音频数据409,以形成两个立体声传统音频通道25B。

心理声学音频(PA)编码设备406A和406B可以对传统音频数据25B、残差音频数据409和传输通道30B执行心理声学音频编码,以以上文更详细描述的方式获得比特流21。心理声学音频编码设备406A和406B可以向音频回放系统16输出比特流21。

音频回放系统16可以调用心理声学音频解码设备490A和490B来处理比特流21,以上面更详细描述的方式获得传统音频数据25B’(其中贯穿本公开的主要符号表示上面讨论的微小变化)、残差音频数据409’和传输通道30B’。当音频回放系统16已经被配置为使用传统音频数据25B’来再现声场时,音频回放系统16可以将传统音频数据25B’输出到两个立体声扬声器3(被示为“传统路径”)。

当音频回放系统16已经被配置为使用传输通道30B中阐述的增强的音频数据来再现声场时,音频回放系统16可以调用HTF解码器492(其可以表示被配置为以与HTF编码器20相反的方式操作的单元)来解压缩传输通道30B’以获得HOA音频数据11’的第二部分。音频回放设备16还可以调用去混合单元26来基于参数403和去混合数据407(其由变量T-1表示,而混合矩阵由变量T表示)中的一个或多个来处理传统音频数据25B’,以获得四个环境HOA系数30A’。去混合单元26可以向HTF解码器492输出四个环境HOA系数30A’。

HTF解码器492可以基于四个环境HOA系数30A’和传输通道30B’,获得HOA音频数据11’。HTF解码器492可以将HOA音频数据11’输出到音频渲染器22中的一个或多个,以获得增强的音频数据,该增强的音频数据包括多个不同的扬声器馈送25A,然后输出到扬声器3(假设扬声器3以7.1格式布置,具有四个附加的扬声器,增加了声场的再现高度-4H)。

图3C示出了示例,其中传输通道30C仅包括一个通道(“W”通道)。这样,传输通道30C’的音频数据在扩展的路径中没有逆混合或去混合。例如,传输通道30C和30C’携带符合单通道传统音频格式的音频数据。在图3C的示例中,传输通道30C和30C’被描述为携带传统单通道音频数据。在各种用例场景中,图3C的传统路径也可以渲染和输出单通道音频数据。

图3D示出了示例,其中传输通道30C包括四个通道,即在集合{W,X,Y,Z}中定义的通道。图3D的示例中的传统路径在任何传统ESF音频数据的编码或预编码阶段混合被平移(panned)到立体声方向的两个通道和/或被平移到其他方向的两个通道,以产生混合的左-右信号(显示为L和R信号的混合)。传统路径的PA解码器490A将解码的ESV信号(显示为L^和R^)提供给位于扩展的路径中的逆混合单元27。逆混合单元27可以使用矩阵乘法来获得传统ESF音频数据的ESF通道(在该特定示例中总共四个通道)30D’。

另外,扩展的路径的HTF解码器492可以用从逆混合单元27获得的传统ESF{W^、X^、Y^、Z^}通道30D’来补充通过解码传输通道30B’的HOA域音频数据获得的3D音频数据。HOA渲染器22可以输出从HOA系数11’的解码的HOA域音频数据获得的3D音频数据和传统立体声格式ESF{W^、X^、Y^、Z^}通道30D’的音频数据的组合。在传统音频系统被结合在所示系统中的情况下,如图3D所示,PA解码器490A还可以渲染和输出传统ESF音频数据。

图4是示出图3A-图3D的示例中所示的心理声学音频编码器的示例的框图,该心理声学音频编码器被配置为执行本公开中描述的技术的各个方面。音频编码器1000A可以代表AptX编码器的一个示例,其可以被配置为编码音频数据以通过个人区域网或“PAN”(例如)传送。然而,由音频编码器1000A执行的本公开的技术可以用在期望音频数据压缩的任何环境中。在一些示例中,音频编码器1000A可以被配置为根据aptXTM音频编解码器对音频数据17进行编码,包括例如增强型aptX–E-aptX、aptX实况和aptX高清。

在图4的示例中,音频编码器1000A可以被配置为使用增益-形状向量量化编码过程来编码音频数据17,该编码过程包括使用紧凑映射(compact map)来编译码残差向量。在增益-形状向量量化编码过程中,音频编码器1000A被配置为对增益(例如,能级)和形状(例如,由变换系数定义的残差向量)两者进行编码。频域音频数据的每个子带代表音频数据17的特定帧的特定频率范围。

音频数据17可以以特定的采样频率被采样。示例采样频率可以包括48kHz或44.1kHz,尽管可以使用任何期望的采样频率。音频数据17的每个数字样本可以由特定的输入比特深度来定义,例如16比特或24比特。在一个示例中,音频编码器1000A可以被配置为在音频数据21的单个通道上操作(例如,单通道音频)。在另一个示例中,音频编码器1000A可以被配置为独立地编码音频数据17的两个或更多通道。例如,音频数据17可以包括立体声音频的左通道和右通道。在该示例中,音频编码器1000A可以被配置为以双单通道模式独立地编码左音频通道和右音频通道。在其他示例中,音频编码器1000A可以被配置为一起编码音频数据17的两个或更多通道(例如,在联合立体声模式下)。例如,音频编码器1000A可以通过预测音频数据17的一个通道与音频数据17的另一个通道来执行某些压缩操作。

不管音频数据17的通道如何布置,音频编码器1000A获得音频数据17并将该音频数据17发送到变换单元1100。变换单元1100被配置为将音频数据17的帧从时域变换到频域,以产生频域音频数据1112。音频数据17的帧可以由预定数量的音频数据样本来表示。在一个示例中,音频数据17的帧可以是1024个样本宽度。可以基于所使用的频率变换和期望的压缩量来选择不同的帧宽度。频域音频数据1112可以表示为变换系数,其中每个变换系数的值表示特定频率下的频域音频数据1112的能量。

在一个示例中,变换单元1100可以被配置为使用修改的离散余弦变换(modifieddiscrete cosine transform,MDCT)将音频数据17变换成频域音频数据1112。MDCT是基于第四类(type-IV)离散余弦变换的“重叠”(lapped)变换。MDCT被认为是“重叠”,因为它处理来自多个帧的数据。也就是说,为了使用MDCT执行变换,变换单元1100可以将百分之五十的重叠窗口包括到音频数据的后续帧中。MDCT的重叠特性对于诸如音频编码的数据压缩技术可能是有用的,因为它可以减少来自帧边界处编译码的伪像。变换单元1100不需要受限于使用MDCT,而是可以使用其他频域变换技术来将音频数据17变换成频域音频数据1112。

子带滤波器1102将频域音频数据1112分离成子带1114。子带1114中的每个包括特定频率范围内的频域音频数据1112的变换系数。例如,子带滤波器1102可以将频域音频数据1112分离成二十个不同的子带。在一些示例中,子带滤波器1102可以被配置为将频域音频数据1112分离成统一频率范围的子带1114。在其他示例中,子带滤波器1102可以被配置为将频域音频数据1112分离成非统一频率范围的子带1114。

例如,子带滤波器1102可以被配置为根据巴克尺度(Bark scale)将频域音频数据1112分离成子带1114。通常,巴克尺度的子带具有感知上距离相等的频率范围。也就是说,巴克尺度的子带在频率范围方面不相等,而是在人类听觉感知方面相等。一般来说,较低频率的子带具有较少的变换系数,因为较低的频率更容易被人类听觉系统感知。这样,与较高频率子带相比,子带1114的较低频率子带中的频域音频数据1112较少被音频编码器1000A压缩。同样,子带1114的较高频率子带可以包括更多的变换系数,因为较高的频率更难被人类听觉系统感知。这样,与较低频率子带相比,子带1114的较高频率子带中的数据中的频域音频1112可以被音频编码器1000A更多地压缩。

音频编码器1000A可以被配置为使用子带处理单元1128来处理子带1114中的每一个。也就是说,子带处理单元1128可以被配置为分别处理子带中的每一个。子带处理单元1128可以被配置为根据本公开的技术,利用扩展范围粗略-精细量化来执行增益-形状向量量化过程。

增益-形状分析单元1104可以接收子带1114作为输入。对于子带1114中的每一个,增益-形状分析单元1104可以确定子带1114中的每一个的能级1116。也就是说,子带1114中的每一个具有相关的能级1116。能级1116是以分贝(dB)为单位的标量值,其表示子带1114中的特定一个子带的变换系数中的能量总量(也称为增益)。增益-形状分析单元1104可以从子带的变换系数中分离子带1114中的一个的能级1116,以产生残差向量1118。残差向量1118表示子带的所谓“形状”。子带的形状也可以称为子带的频谱。

向量量化器1108可以被配置为量化残差向量1118。在一个示例中,向量量化器1108可以使用量化过程来量化残差向量,以产生残差ID1124。代替单独量化每个样本(例如,标量量化),向量量化器1108可以被配置为量化残差向量1118(例如,形状向量)中包括的样本的块。然而,任何向量量化技术方法都可以与本公开的扩展范围粗略-精细能量量化技术一起使用。

在一些示例中,音频编码器1000A可以动态地分配比特用于编译码对能级1116和残差向量1118进行编译码。也就是说,对于子带1114中的每一个,音频编码器1000A可以确定分配给能量量化(例如,通过能量量化器1106)的比特数和分配给向量量化(例如,通过向量量化器1108)的比特数。分配给能量量化的比特总数可以称为能量分配的比特(energy-assigned bit)。然后,可以在粗略量化过程和精细量化过程之间分配这些能量分配的比特。

能量量化器1106可以接收子带1114的能级1116,并将子带1114的能级1116量化为粗略能量1120和精细能量1122(其可以表示一个或多个量化的精细残差)。本公开将描述一个子带的量化过程,但是应当理解,能量量化器1106可以对一个或多个子带1114执行能量量化,包括子带1114中的每一个。

通常,能量量化器1106可以执行递归两步量化过程。能量量化器1106可以首先用用于粗略量化过程的第一比特数来量化能级1116,以生成粗略能量1120。能量量化器1106可以使用用于量化的预定能级范围(例如,由最大和最小能级定义的范围)来生成粗略能量。粗略能量1120接近能级1116的值。

能量量化器1106然后可以确定粗略能量1120和能级1116之间的差。这种差有时被称为量化误差。能量量化器1106然后可以在精细量化过程中使用第二比特数来量化该量化误差,以产生精细能量1122。用于精细量化比特的比特数由能量分配的比特的总数减去用于粗略量化过程的比特数来确定。当加在一起时,粗略能量1120和精细能量1122代表能级1116的总量化值。能量量化器1106可以以这种方式继续产生一个或多个精细能量1122。

音频编码器1000A还可以被配置为使用比特流编码器1110来编码粗略能量1120、精细能量1122和残差ID 1124,以创建编码的音频数据21(这是引用比特流21的另一种方式)。比特流编码器1110可以被配置为使用一个或多个熵编码过程来进一步压缩粗略能量1120、精细能量1122和残差ID 1124。熵编码过程可以包括霍夫曼编译码(Huffmancoding)、算术编译码、上下文自适应二进制算术编译码(context-adaptive binaryarithmetic coding,CABAC)和其他类似的编码技术。

在本公开的一个示例中,由能量量化器1106执行的量化是统一量化。也就是说,每个量化的步长(steps size)(也称为“分辨率”)相等。在一些示例中,步长可以以分贝(dB)为单位。粗略量化和精细量化的步长可以分别根据量化的预定能量值范围和分配给量化的比特数来确定。在一个示例中,能量量化器1106对粗略量化(例如,产生粗略能量1120)和精细量化(例如,产生精细能量1122)两者执行统一量化。

执行两步统一量化过程相当于执行单个统一量化过程。然而,通过将统一量化分割成两部分,可以独立控制分配给粗略量化和精细量化的比特。这可以在能量和向量量化之间的比特分配中允许更大的灵活性,并且可以提高压缩效率。考虑M级统一量化器,其中M定义了级数(例如,以dB为单位),能级可以被划分成这些级。M可以由分配给量化的比特数来确定。例如,能量量化器1106可以使用M1级进行粗略量化和使用M2级进行精细量化。这相当于使用M1*M2级的单个统一量化器。

图5是更详细地示出图3A-图3D的心理声学音频解码器的实现的框图。音频解码器1002A可以代表AptX解码器的一个示例,其可以被配置为解码通过PAN(例如,接收的音频数据。然而,由音频解码器1002A执行的本公开的技术可以用在期望音频数据压缩的任何环境中。在一些示例中,音频解码器1002A可以被配置为根据aptXTM音频编解码器来解码音频数据21,包括例如增强型aptX–E-aptX、aptX实况和aptX高清。然而,本公开的技术可以用于被配置为执行音频数据量化的任何音频编解码器。根据本公开的技术,音频解码器1002A可以被配置为使用紧凑映射来执行量化过程的各个方面。

通常,音频解码器1002A可以相对于音频编码器1000A以相反的方式操作。这样,在编码器中用于质量/比特率可伸缩合作PVQ的相同过程可以在音频解码器1002A中使用。解码基于相同的原理,与解码器中进行的操作相反,使得音频数据可以从从编码器接收的编码比特流中重构。每个量化器都具有相关联的反量化器。例如,如图5所示,逆变换单元1100’、逆子带滤波器1102’、增益-形状合成单元1104’、能量去量化器1106’、向量去量化器1108’和比特流解码器1110’可以分别被配置为执行关于图4的变换单元1100、子带滤波器1102、增益-形状分析单元1104、能量量化器1106、向量量化器1108和比特流编码器1110的逆操作。

特别地,增益-形状合成单元1104’重构频域音频数据,具有重构的残差向量以及重构的能级。逆子带滤波器1102’和逆变换单元1100’输出重构的音频数据17’。在编码是无损的示例中,重构的音频数据17’可以完美地匹配音频数据17。在编码有损的示例中,重构的音频数据17’可能与音频数据17不完全匹配。

以这种方式,音频解码器1002A表示被配置为接收编码的音频比特流(例如,编码的音频数据21);从编码的音频比特流中解码音频数据的多个子带中的每一个的唯一标识符(例如,比特流解码器1110’输出残差ID 1124);基于音频数据的多个子带中的相应子带的唯一标识符,使用紧凑映射来执行逆金字塔向量量化(pyramid vector quantization,PVQ),以重构音频数据的多个子带中的每个子带的残差向量(例如,向量去量化器1108’执行逆量化);并且基于每个子带的残差向量和能量标量来重构音频数据的多个子带(例如,增益-形状合成单元1104’重构子带1114’)。

这样,图3A-图3D示出了音频回放系统的各种示例,其被配置为结合从HOA域音频数据获得的3D音频数据来呈现传统格式(例如,单通道、立体声或ESF音频信号),以实现传统音频回放系统的更好(在用户感知方面)的音频回放。这样,图3A-图3D的系统可以改善音频回放系统本身的操作。应当理解,图3A-图3D中示出的每个系统可以表示分布式系统,其中传统和/或扩展的路径的编码部分与传统和/或扩展的路径的解码和渲染组件物理分离,同时与之通信。

图9是示出图2-图4的空间音频编码设备执行本公开中描述的技术的各个方面。在图9的示例中,麦克风5捕捉代表HOA音频数据的音频信号,空间音频编码器设备20将其缩减为多个不同的声音分量750A-750N(“声音分量750”)和相应的空间分量752A-752N(“空间分量752”),其中空间分量通常可以指对应于主要声音分量的空间分量和对应的重新调整用途的声音分量(repurposed sound component)。

如表754中所示,统一数据对象格式,在比特流的情况下可以被称为“基于V向量的HOA传输格式”(V-vector based HOA transport format,VHTF)或“基于向量的HOA传输格式”,可以包括音频对象(这也是另一种指代声音分量的方式)和相应的空间分量(可以被称为“向量”)。音频对象(在图9的示例中显示为“音频”)可以由变量Ai表示,其中i表示第i个音频对象。向量(在图9的示例中显示为“V向量”)由变量Vi表示,其中i表示第i个向量。Ai为Lx1列矩阵(L为帧中样本数),Vi为Mx1列矩阵(M为向量内元素数)。

重构的HOA系数11’可以表示为重构的HOA系数11’可以根据以下等式来确定:

根据上述等式,N表示多个空间分量的所选非零子集中的声音分量的总数。重构的HOA系数可以被确定为音频对象(Ai)与向量的转置(Vi T)的每次迭代(从零开始直到N-1)相乘的总和。空间音频编码设备20可以指定如图9底部所示的比特流15,其中音频对象750在每个帧中与相应空间分量752被一起指定(由第一帧的T=1、第二帧的T=2等表示)。

图10A-图10C是示出根据本公开中描述的统一数据对象格式技术的各个方面的比特流内的不同表示的图。在图10A的示例中,HOA系数11被示出为“输入”,如上所述,图2的示例中所示的空间音频编码设备20可以将其转换成VHTF表示800。图10A的示例中的VHTF表示800表示主要声音(或前景(foreground)-FG-声音)表示。表754被进一步示出以更详细地说明VHTF表示800。在图10A的示例中,还存在不同的V向量的空间表示802,以示出空间分量如何定义相应空间分量的形状、宽度和方向。

在图10B的示例中,HOA系数11被示为“输入”,如上所述,图2的示例中所示的空间音频编码设备20可以将其转换成VHTF表示806。图8B的示例中的VHTF表示806表示环境声音(或背景(background)-BG-声音)表示。表754被进一步示出以更详细地说明VHTF表示806,其中VHTF表示800和VHTF表示806具有相同的格式。在图10B的示例中,还存在不同的重新调整用途的V向量的示例808,以示出重新调整用途的V向量如何可以包括值为1的单个元素,而每隔一个元素被设置为零的值,以便如上所述,标识环境HOA系数对应的球面基函数的阶数和子阶数。

在图10C的示例中,HOA系数11被示为“输入”,如上所述,图2的示例中所示的空间音频编码设备20可以将其转换成VHTF表示810。图8C的示例中的VHTF表示810表示声音分量,但是还包括优先级信息812(显示为“PriorityOfTC”,指传输通道的优先级)。表754在图10C中被更新,以进一步更详细地示出VHTF表示810,其中VHTF表示800和VHTF表示806具有相同的格式,并且VHTF表示810包括优先级信息812。

在每种情况下,空间音频编码设备20可以通过将下表中的HoaTransportType语法元素设置为3来指定统一传输类型(或者,换句话说,VHTF)。

如下表所示,HoaTransportType指示HOA传输模式,并且当设置为三(3)的值时,信令通知传输类型为VHTF。

关于VHTF(HoaTransportType=3),图9和图10A-图10C可以示出VHTF是如何包括音频信号{Ai}和相关联的V向量{Vi}的,其中输入HOA信号H可以近似为

其中,第i个V向量Vi是第i个音频信号的空间表示Ai。N是传输通道的数量。每个Vi的动态范围受[-1,1]约束。基于V向量的空间表示802的示例如图10A所示。

在以下情况下,VHTF也可以表示原始输入HOA,即

·如果Vi的所有元素都为零,但在第i个元素处有一个元素[0 0… 1 … 0]T

·并且如果Ai是第i个HOA系数。

因此,VHTF可以代表主要(pre-dominant)和环境声场两者。

如下表所示,HOAFrame_VvecTransportFormat()保留对HOA帧的L个样本(HoaFrameLength,见表1)进行解码所需的信息。

HOAFrame_VvecTransportFormat()的语法

在前述语法表中,Vvector[i][j]是指空间分量,其中i标识哪个传输通道,并且j标识哪个系数(通过在Vvector表示重新调整用途的空间分量的情况下环境HOA系数对应的球面基函数的阶数和子阶数)。

音频解码设备24(在图2的示例中示出)可以接收比特流21,并从比特流21获得HoaTransportType语法元素。基于HoaTransportType语法元素,音频解码设备24可以提取各种声音分量和相应的空间分量,以上面更详细描述的方式渲染扬声器馈送。

图11是示出被配置为执行本公开中描述的技术的各个方面的不同系统的框图。在图11的示例中,系统900包括麦克风阵列902以及计算设备904和906。麦克风阵列902可以类似于(如果不是基本上类似的话)上面关于图2的示例描述的麦克风阵列5。麦克风阵列902包括上面更详细讨论的HOA转码器400和夹层编码器20。

计算设备904和906可以各自代表一个或多个蜂窝电话(其可以互换地称为“移动电话”或“移动蜂窝手机”,并且其中这种蜂窝电话可以包括所谓的“智能电话”)、平板电脑、膝上型电脑、个人数字助理、可佩戴计算耳机、手表(包括所谓的“智能手表”)、游戏控制台、便携式游戏控制台、台式计算机、工作站、服务器或任何其他类型的计算设备。出于说明的目的,计算设备904和906中的每一个被称为各自的移动电话904和906。在任何情况下,移动电话904可以包括发射编码器406,而移动电话906可以包括音频解码设备24。

麦克风阵列902可以捕捉麦克风信号908形式的音频数据。麦克风阵列902的HOA转码器400可以将麦克风信号908代码转换成HOA系数11,夹层编码器20(显示为“mezz编码器20”)可以以上述方式对其进行编码(或者换句话说,压缩)以形成比特流15。麦克风阵列902可以(无线地或经由有线连接)耦合到移动电话904,使得麦克风阵列902可以经由发送器和/或接收器(其也可以被称为收发器,并且缩写为“TX”)910A将比特流15通信传输(communicate)到移动电话904的发射编码器406。麦克风阵列902可以包括收发器910A,收发器910A可以代表被配置为向另一个收发器传送数据的硬件或硬件和软件的组合(诸如固件)。

发射编码器406可以以上述方式操作,以从比特流15生成符合3D音频编译码标准的比特流21。发射编码器406可以包括或可操作地耦合到收发器910B(其类似于收发器910A,如果不是基本类似的话),收发器910B被配置为接收比特流15。当从接收的比特流15生成比特流21时,发射编码器406可以选择目标比特率、hoaIndependencyFlag语法元素和多个传输通道(根据优先级信息选择多个传输通道作为传输通道的子集)。发射编码器406可以经由收发器910B将比特流21通信传输到移动电话906(尽管不一定是直接的,这意味着这种通信可以具有中间设备,例如服务器,或者通过专用的非暂时性存储介质等)。

移动电话906可以包括收发器910C(其类似于收发器910A和910B,如果不是基本类似的话),该收发器910C被配置为接收比特流21,于是移动电话906可以调用音频解码设备24来解码比特流21,以便恢复HOA系数11’。尽管图10中未示出,为了便于说明,移动电话906可以将HOA系数11’渲染到扬声器馈送,并且基于扬声器馈送经由扬声器(例如,集成到移动电话906中的扩音器、无线耦合到移动电话906的扩音器、通过有线耦合到移动电话906的扩音器、或者无线或经由有线连接耦合到移动电话906的耳机扬声器)再现声场。为了通过耳机扬声器(也可以是独立的耳机或集成到耳机中的耳机)再现声场,移动电话906可以从扩音器馈送或直接从HOA系数11’渲染双耳音频扬声器馈送。

图12是示出图2的心理声学音频编码设备在执行本公开中描述的技术的各个方面时的示例操作的流程图。心理声学音频编码设备406可以在比特流21(其可以表示符合传统音频传输的向后兼容比特流的一个示例)中指定传统音频数据25B(1600)。心理声学音频编码设备406接下来可以在向后兼容比特流21中指定增强传统音频数据的扩展的音频数据(1602)。扩展的音频数据可以包括代表高阶立体混响音频数据11的音频数据,诸如对应于具有大于零或一阶的球面基函数的一个或多个高阶立体混响系数。作为一个示例,扩展的音频数据可以通过增加由传统音频数据25B表示的声场的分辨率来增强传统音频数据25B,从而允许为增强的回放系统16渲染附加的扬声器馈送25A(包括在声场再现中提供高度的扬声器馈送)。

扩展的音频数据可以包括先前在比特流17中指定的传输通道。这样,心理声学音频编码设备406可以以与本公开中描述的技术的各个方面一致的方式,至少部分地通过对现有传输通道进行编码并在向后兼容比特流21中指定编码的通道,来在向后兼容比特流21中指定扩展的音频数据。心理声学音频编码设备406然后可以输出向后兼容比特流21(1604)。

图13是示出图2的音频解码设备在执行本公开中描述的技术的各个方面时的示例操作的流程图。音频解码设备24可以首先从向后兼容比特流21获得传统音频数据25B(1700)。音频解码设备24还可以从向后兼容比特流21获得扩展的音频数据(1702)。接下来,音频解码设备24可以基于传统音频数据和扩展的音频数据获得增强的音频数据(1704)。音频解码设备24可以输出增强的音频数据(1706),例如,输出到一个或多个扬声器3。

此外,前述技术可针对任何数量的不同上下文和音频生态系统来执行,并且不应限于上述任何上下文或音频生态系统。下面描述了许多示例上下文,尽管这些技术应该限于示例上下文。一个示例音频生态系统可以包括音频内容、电影工作室、音乐工作室和游戏音频工作室、基于通道的音频内容、编译码引擎、游戏音频词干(stem)、游戏音频编译码/渲染引擎和递送系统。

电影工作室、音乐工作室和游戏音频工作室可以接收音频内容。在一些示例中,音频内容可以表示获取(acquisition)的输出。电影工作室可以诸如通过使用数字音频工作站(digital audio workstation,DAW)来输出基于通道的音频内容(例如,在2.0、5.1和7.1中)。音乐工作室可以诸如通过使用DAW来输出基于通道的音频内容(例如,在2.0和5.1中)。在任一情况下,编译码引擎可以接收并基于一个或多个编解码器(例如,AAC、AC3、杜比真高清(Dolby True HD)、杜比数字音频加(Dolby Digital Plus)和数字电视系统主音频(DTSMaster Audio))编码基于通道的音频内容,以便由递送系统输出。游戏音频工作室可以诸如通过使用DAW来输出一个或多个游戏音频词干。游戏音频编译码/渲染引擎可以将音频词干进行编译码和/或渲染为基于通道的音频内容,以便由递送系统输出。可执行这些技术的另一示例环境包括音频生态系统,其可包括广播记录音频对象、专业音频系统、消费者设备上捕捉、HOA音频格式、设备上渲染、消费者音频、TV和附件以及汽车音频系统。

广播记录音频对象、专业音频系统和消费者设备上捕捉都可以使用HOA音频格式对其输出进行编码。这样,可以使用HOA音频格式将音频内容编码成单个表示,该单个表示可以使用设备上渲染、消费者音频、TV和附件以及汽车音频系统来回放。换句话说,音频内容的单个表示可以在通用音频回放系统中回放(即,与需要诸如5.1、7.1等特定配置相反),例如音频回放系统16。

可以执行这些技术的上下文的其他示例包括音频生态系统,该音频生态系统可以包括获取元素和回放元素。获取元素可以包括有线和/或无线获取设备(例如,本征麦克风)、设备上环绕声捕捉和移动设备(例如,智能手机和平板电脑)。在一些示例中,有线和/或无线获取设备可以经由(多个)有线和/或无线通信信道耦合到移动设备。

根据本公开的一种或多种技术,移动设备(诸如移动通信手机)可以用于获取声场。例如,移动设备可以经由有线和/或无线获取设备和/或设备上环绕声捕捉(例如,集成到移动设备中的多个麦克风)来获取声场。移动设备然后可以将获取的声场编译码成HOA系数,以便由一个或多个回放元素回放。例如,移动设备的用户可以记录(获取)实况事件(例如,聚会、会议、戏剧、音乐会等)的声场,并将记录编译码成HOA系数。

移动设备还可以利用一个或多个回放元素来回放HOA编译码的声场。例如,移动设备可以对HOA编译码的声场进行解码,并且向一个或多个回放元素输出信号,该信号使得一个或多个回放元素重构声场。作为一个示例,移动设备可以利用无线和/或无线通信信道向一个或多个扬声器(例如,扬声器阵列、声音条等)输出信号。作为另一个示例,移动设备可以利用对接解决方案将信号输出到一个或多个对接站和/或一个或多个对接扬声器(例如,智能汽车和/或家庭中的音响系统)。作为另一个示例,移动设备可以利用耳机渲染来向一组耳机输出信号,例如来创造真实的双耳声音。

在一些示例中,特定移动设备可以获取3D声场并在稍后回放相同的3D声场。在一些示例中,移动设备可以获取3D声场,将3D声场编码成HOA,并且将编码的3D声场传送到一个或多个其他设备(例如,其他移动设备和/或其他非移动设备)用于回放。

可执行这些技术的另一个环境包括音频生态系统,该音频生态系统可包括音频内容、游戏工作室、编译码音频内容、渲染引擎和递送系统。在一些示例中,游戏工作室可以包括可以支持HOA信号编辑的一个或多个DAW。例如,一个或多个DAW可以包括HOA插件和/或工具,其可以被配置为与一个或多个游戏音频系统一起操作(例如,一起工作)。在一些示例中,游戏工作室可能输出支持HOA的新的词干格式。在任何情况下,游戏工作室可以将编码的音频内容输出到渲染引擎,该渲染引擎可以渲染声场以供递送系统回放。

这些技术也可以针对示例性音频获取设备来执行。例如,这些技术可以相对于本征麦克风(Eigen microphone)来执行,本征麦克风可以包括被共同配置为记录3D声场的多个麦克风。在一些示例中,本征麦克风的多个麦克风可以位于半径约为4厘米(cm)的基本球形的球的表面上。在一些示例中,音频编码设备20可以集成到本征麦克风中,以便直接从麦克风输出比特流21。

另一个示例性音频获取上下文可以包括制作车(production truck),其可以被配置为从一个或多个麦克风接收信号,诸如一个或多个本征麦克风。制作车还可以包括音频编码器。

在一些情况下,移动设备还可以包括多个麦克风,这些麦克风被共同配置为记录3D声场。换句话说,多个麦克风可以具有X、Y、Z分集(diversity)。在一些示例中,移动设备可以包括麦克风,该麦克风可以被旋转以相对于移动设备的一个或多个其他麦克风提供X、Y、Z分集。移动设备还可以包括音频编码器。

加固的视频捕捉设备还可以被配置为记录3D声场。在一些示例中,加固的视频捕捉设备可以附接到参与活动的用户的头盔。例如,加固的视频捕捉设备可以被附在白水漂流的用户的头盔上。以这种方式,加固的视频捕捉设备可以捕捉代表用户周围所有动作的3D声场(例如,水在用户后面撞击,另一个椽子在用户前面说话,等等)。

这些技术也可以针对附件增强型移动设备来执行,该附件增强型移动设备可以被配置为记录3D声场。在一些示例中,移动设备可以类似于上面讨论的移动设备,其中增加了一个或多个附件。例如,本征麦克风可以附接到上述移动设备,以形成附件增强型移动设备。以这种方式,附件增强型移动设备可以捕捉比仅使用集成到附件增强型移动设备的声音捕捉组件更高质量版本的3D声场。

下面进一步讨论可以执行本公开中描述的技术的各个方面的示例音频回放设备。根据本公开的一种或多种技术,扬声器和/或声音条可以以任意配置来布置,同时仍然回放3D声场。此外,在一些示例中,耳机回放设备可以经由有线或无线连接耦合到解码器24。根据本公开的一种或多种技术,声场的单个通用表示可用于在扬声器、声音条和耳机回放设备的任何组合上渲染声场。

许多不同的示例音频回放环境也可以适用于执行本公开中描述的技术的各个方面。例如,5.1扬声器回放环境、2.0(例如,立体声)扬声器回放环境、具有全高前置扩音器的9.1扬声器回放环境、22.2扬声器回放环境、16.0扬声器回放环境、汽车扬声器回放环境以及具有耳塞回放环境的移动设备可以是用于执行本公开中描述的技术的各个方面的合适环境。

根据本公开的一种或多种技术,声场的单个通用表示可用于在任何前述回放环境中渲染声场。此外,本公开的技术使得被渲染器能够从通用表示中渲染声场,以便在不同于上述的回放环境中回放。例如,如果设计考虑禁止根据7.1扬声器回放环境正确放置扬声器(例如,如果不可能放置右环绕扬声器),则本公开的技术使得渲染能够用其他6个扬声器进行补偿,使得回放可以在6.1扬声器回放环境中实现。

此外,用户可以戴着耳机观看体育比赛。根据本公开的一种或多种技术,可以获取体育比赛的3D声场(例如,可以在棒球场中和/或周围放置一个或多个本征麦克风),可以获得对应于3D声场的HOA系数并将其传送到解码器,解码器可以基于HOA系数重构3D声场并将重构的3D声场输出到渲染器,并且渲染器可以获得关于回放环境(例如,耳机)的类型的指示,并且将重构的3D声场渲染成使得耳机输出体育游戏的3D声场的表示的信号。

在上述各个情况的每一个中,应当理解,音频编码设备20可以执行方法或者以其他方式包括用于执行音频编码设备20被配置为执行的方法的每个步骤的装置。在一些情况下,该装置可以包括一个或多个处理器,例如由固定功能处理电路、可编程处理电路或其组合形成的处理器。在一些情况下,一个或多个处理器(可以表示为“处理器”)可以表示通过存储到非暂时性计算机可读存储介质的指令来配置的专用处理器。换句话说,编码示例的集合中的每一个中的技术的各个方面可以提供其上存储有指令的非暂时性计算机可读存储介质,所述指令在被执行时使得一个或多个处理器执行音频编码设备20被配置为执行的方法。

在一个或多个示例中,所描述的功能可以在硬件、软件、固件或其任意组合中实现。如果以软件实现,这些功能可以作为一个或多个指令或代码存储在计算机可读介质上或通过其传送,并由基于硬件的处理单元执行。计算机可读介质可以包括计算机可读存储介质,其对应于诸如数据存储介质的有形介质。数据存储介质可以是可由一个或多个计算机或一个或多个处理器访问以检索指令、代码和/或数据结构来实现本公开中描述的技术的任何可用介质。计算机程序产品可以包括计算机可读介质。

同样,在上述各个情况的每一个中,应当理解,音频解码设备24可以执行方法或者以其他方式包括用于执行音频解码设备24被配置为执行的方法的每个步骤的装置。在一些情况下,该装置可以包括一个或多个处理器,例如,由固定功能处理电路、可编程处理电路或其组合形成的处理器。在一些情况下,一个或多个处理器可以代表通过存储到非暂时性计算机可读存储介质的指令来配置的专用处理器。换句话说,编码示例的集合中的每一个中的技术的各个方面可以提供其上存储有指令的非暂时性计算机可读存储介质,所述指令在被执行时使得一个或多个处理器执行音频解码设备24被配置为执行的方法。

作为示例而非限制,这种计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储器、磁盘存储器、或其他磁存储设备、闪存、或可以用于以指令或数据结构的形式存储期望的程序代码并且可以由计算机访问的任何其他介质。然而,应当理解,计算机可读存储介质和数据存储介质不包括连接、载波、信号或其他暂时介质,而是指向非暂时的有形存储介质。这里使用的盘和盘包括光盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘和蓝光光盘,其中磁盘通常磁性地再现数据,而光盘用激光光学地再现数据。上述的组合也应该包括在计算机可读介质的范围内。

指令可以由一个或多个处理器执行,诸如一个或多个数字信号处理器(digitalsignal processor,DSP)、通用微处理器、专用集成电路(application specificintegrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)、处理电路(包括固定功能电路和/或可编程处理电路)或其他等效的集成或分立逻辑电路。因此,这里使用的术语“处理器”可以指任何前述结构或者适合于实现这里描述的技术的任何其他结构。此外,在一些方面,这里描述的功能可以在被配置用于编码和解码的专用硬件和/或软件模块中提供,或者结合在组合编解码器中。同样,这些技术可以完全在一个或多个电路或逻辑元件中实现。

本公开的技术可以在多种设备或装置中实现,包括无线手机、集成电路(integrated circuit,IC)或IC集(例如,芯片集)。在本公开中描述了各种组件、模块或单元,以强调被配置为执行所公开的技术的设备的功能方面,但是不一定需要通过不同的硬件单元来实现。相反,如上所述,各种单元可以组合在编解码器硬件单元中,或者由包括如上所述的一个或多个处理器的互操作硬件单元的集合结合合适的软件和/或固件来提供。

这样,该技术的各个方面可以使一个或多个设备能够根据以下条款操作。

条款35A、一种被配置为处理符合传统传输格式的向后兼容比特流的设备,该设备包括:用于从向后兼容比特流获得符合传统音频格式的传统音频数据的装置;用于从向后兼容比特流获得增强传统音频数据的扩展的音频数据的装置;用于基于传统音频数据和扩展的音频数据获得符合增强的音频格式的增强的音频数据的装置;以及用于向一个或多个扬声器输出增强的音频数据的装置。

条款36A、如条款35A的设备,其中,传统传输格式包括心理声学编解码器传输格式。

条款37A、如条款36A的设备,其中,心理声学编译码传输格式包括高级音频编译码(AAC)传输格式或AptX传输格式。

条款38A、如条款35A的设备,其中,传统传输格式包括高级音频编译码传输格式或AptX传输格式,并且其中用于获得增强的音频数据的装置包括用于从根据高级音频编译码传输格式或AptX传输格式指定的一个或多个填充元素获得增强的音频数据的装置。

条款39A、如条款35A-38A的任何组合的设备,其中,该设备还包括用于获得指示扩展的音频数据是如何在向后兼容比特流中被指定的一个或多个指示的装置,并且其中用于获得扩展的音频数据的装置包括用于从向后兼容比特流并基于该指示获得扩展的音频数据的装置。

条款40A、如条款39A的设备,其中,用于获得一个或多个指示的装置包括用于从填充元素中提供的报头获得一个或多个指示的装置。

条款41A、如条款40A的设备,其中,报头直接跟随向后兼容比特流中的传统音频数据。

条款42A、如条款39A-41A的任何组合的设备,其中,一个或多个指示包括标识填充元素包括扩展的音频数据的指示。

条款43A、如条款40A-42A的任何组合的设备,其中,一个或多个指示包括标识报头的大小的指示。

条款44A、如条款39A-43A的任何组合的装置,其中,一个或多个指示包括标识多个填充元素的指示。

条款45A、如条款39A-44A的任何组合的设备,其中,一个或多个指示包括标识增强的音频数据的多个部分的指示。

条款46A、如条款45A的设备,其中,该部分包括扩展的音频数据的帧。

条款47A、如条款45A和46A的任何组合的设备,其中,对于多个不同部分中的每一个,一个或多个指示包括标识扩展的音频数据的部分的相应一个的大小的指示,以及标识部分的相应一个的类型的指示。

条款48A、如条款35A-47A的任何组合的设备,其中,传统音频格式包括单通道音频格式或立体声音频格式之一。

条款49A、如条款18A-31A的任何组合的设备,其中,增强的音频格式包括7.1环绕声格式和7.1+4H环绕声格式之一。

条款50A、如条款35A-49A的任何组合的设备,其中,扩展的音频数据代表高阶立体混响音频数据。

条款51A、如条款35A-49A的任何组合的设备,其中,扩展的音频数据包括第二高阶立体混响音频数据,并且其中用于获得增强的音频数据的装置包括:用于对传统音频数据进行去混合以获得第一高阶立体混响音频数据的装置;以及用于基于第一高阶立体混响音频数据和第二高阶立体混响音频数据来渲染增强的音频数据的装置。

条款52A、一种其上存储有指令的非暂时性计算机可读存储介质,所述指令在被执行时使得一个或多个处理器:从符合传统传输格式的向后兼容比特流获得符合传统音频格式的传统音频数据;从向后兼容比特流获得增强传统音频数据的扩展的音频数据;基于传统音频数据和扩展的音频数据,获得符合增强的音频格式的增强的音频数据;并将增强的音频数据输出到一个或多个扬声器。

条款1B、一种被配置为获得向后兼容比特流的设备,该设备包括:一个或多个存储器,被配置为存储向后兼容比特流的至少一部分,该向后兼容比特流符合传统传输格式;以及一个或多个处理器,被配置为:在向后兼容比特流中指定符合传统音频格式的传统音频数据;在向后兼容比特流中指定增强传统音频数据的扩展的音频数据;并输出比特流。

2B、如条款1B的设备,其中,传统传输格式包括心理声学编解码器传输格式。

3B、如条款2B的设备,其中,心理声学编解码器传输格式包括高级音频编译码(AAC)传输格式或AptX传输格式。

条款4B、如条款1B的设备,其中,传统传输格式包括高级音频编译码传输格式或AptX传输格式,并且其中一个或多个处理器被配置为根据高级音频编译码传输格式或AptX传输格式在一个或多个填充元素中指定所述扩展的音频数据。

条款5B、如条款1B-4B的任何组合的设备,其中,一个或多个处理器还被配置为在向后兼容比特流中指定一个或多个指示,所述一个或多个指示指示扩展的音频数据是如何在向后兼容比特流中被指定的。

条款6B、如条款5B的设备,其中,一个或多个处理器被配置为在报头中指定一个或多个指示。

条款7B、如条款6B的设备,其中,报头直接跟随向后兼容比特流中的传统音频数据。

条款8B、如条款5B-7B的任何组合的设备,其中,一个或多个指示包括标识填充元素包括扩展的音频数据的指示。

条款9B、如条款6B-8B的任何组合的设备,其中,一个或多个指示包括标识报头的大小的指示。

条款10B、如条款5B-9B的任何组合的设备,其中,一个或多个指示包括标识多个填充元素的指示。

条款11B、如条款5B-10B的任何组合的设备,其中,一个或多个指示包括标识扩展的音频数据的多个部分的指示。

条款12B、如条款11B的设备,其中,该部分包括扩展的音频数据的帧。

条款13B、条款11B和12B的任何组合的设备,其中,对于多个不同部分中的每一个,一个或多个指示包括标识扩展的音频数据的部分的相应一个的大小的指示,以及标识该部分的相应一个的类型的指示。

条款14B、如条款1B-12B的任何组合的设备,其中,传统音频格式包括单通道音频格式或立体声音频格式之一。

条款15B、如条款1B-14B的任何组合的设备,其中,增强的音频格式包括7.1环绕声格式和7.1+4H环绕声格式之一。

条款16B、如条款1B-15B的任何组合的设备,其中,扩展的音频数据包括高阶立体混响音频数据。

条款17B、一种处理符合传统传输格式的向后兼容比特流的方法,该方法包括:在向后兼容比特流中指定符合传统音频格式的传统音频数据;在向后兼容比特流中指定增强传统音频数据的扩展的音频数据;以及输出向后兼容比特流。

条款18B、如条款17B的方法,其中,传统传输格式包括心理声学编解码器传输格式。

条款19B、如条款18B的方法,其中,心理声学编译码传输格式包括高级音频编译码(AAC)传输格式或AptX传输格式。

条款20B、如条款17B所述的方法,其中,传统传输格式包括高级音频编译码传输格式或AptX传输格式,并且其中指定扩展的音频数据包括根据所述高级音频编译码传输格式或AptX传输格式在一个或多个填充元素中指定所述扩展的音频数据。

条款21B、如条款17B-20B的任何组合的方法,还包括在向后兼容比特流中指定一个或多个指示,该一个或多个指示指示扩展的音频数据是如何在向后兼容比特流中被指定的。

条款22B、如条款21B的方法,其中,指定一个或多个指示包括在报头中指定一个或多个指示。

条款23B、如条款22B的方法,其中,报头直接跟随向后兼容比特流中的传统音频数据。

条款24B、如条款21B-23B的任何组合的方法,其中,一个或多个指示包括标识填充元素包括扩展的音频数据的指示。

条款25B、如条款22B-24B的任何组合的方法,其中,一个或多个指示包括标识报头大小的指示。

条款26B、如条款21B-25B的任何组合的方法,其中,一个或多个指示包括标识多个填充元素的指示。

条款27B、如条款21B-26B的任何组合的方法,其中,一个或多个指示包括标识扩展的音频数据的多个部分的指示。

条款28B、如条款27B的方法,其中,该部分包括扩展的音频数据的帧。

条款29B、如条款27B和28B的任何组合的方法,其中,对于多个不同部分中的每一个,一个或多个指示包括标识扩展的音频数据的部分的相应一个的大小的指示,以及标识该部分的相应一个的类型的指示。

条款30B、如条款17B-28B的任何组合的方法,其中,传统音频格式包括单通道音频格式或立体声音频格式之一。

条款31B、如条款17B-30B的任何组合的方法,其中,增强的音频格式包括7.1环绕声格式和7.1+4H环绕声格式之一。

条款32B、如条款17B-31B的任何组合的方法,其中,扩展的音频数据包括高阶立体混响音频数据。

条款33B、一种被配置为处理符合传统传输格式的向后兼容比特流的设备,该设备包括:用于在向后兼容比特流中指定符合传统音频格式的传统音频数据的装置;用于在向后兼容比特流中指定增强传统音频数据的扩展的音频数据的装置;以及用于输出向后兼容比特流的装置。

条款34B、如条款33B的设备,其中,传统传输格式包括心理声学编解码器传输格式。

条款35B、如条款34B的设备,其中,心理声学编解码器传输格式包括高级音频编译码(AAC)传输格式或AptX传输格式。

条款36B、如条款33B的设备,其中,传统传输格式包括高级音频编译码传输格式或AptX传输格式,并且其中用于指定扩展的音频数据的装置包括用于根据高级音频编译码传输格式或AptX传输格式在一个或多个填充元素中指定扩展的音频数据的装置。

条款37B、如条款33B-36B的任何组合的设备,还包括用于在向后兼容比特流中指定一个或多个指示的装置,该一个或多个指示指示扩展的音频数据是如何在向后兼容比特流中被指定的。

条款38B、如条款37B的设备,其中,用于指定一个或多个指示的装置包括用于在报头中指定一个或多个指示的装置。

条款39B、如条款38B的设备,其中,报头直接跟随向后兼容比特流中的传统音频数据。

条款40B、如条款37B-39B的任何组合的设备,其中,一个或多个指示包括标识填充元素包括扩展的音频数据的指示。

条款41B、如条款38B-40B的任何组合的设备,其中,一个或多个指示包括标识报头大小的指示。

条款42B、如条款37B-41B的任何组合的装置,其中,一个或多个指示包括标识多个填充元素的指示。

条款43B、如条款37B-42B的任何组合的设备,其中,一个或多个指示包括标识扩展的音频数据的多个部分的指示。

条款44B、如根据权利要求43B的设备,其中,该部分包括扩展的音频数据的帧。

条款45B、如条款43B和44B的任何组合的设备,其中,对于多个不同部分中的每一个,一个或多个指示包括标识扩展的音频数据的部分的相应一个的大小的指示,以及标识该部分的相应一个的类型的指示。

条款46B、如条款33B-44B的任何组合的设备,其中,传统音频格式包括单通道音频格式或立体声音频格式之一。

条款47B、如条款33B-46B的任何组合的设备,其中,增强的音频格式包括7.1环绕声格式和7.1+4H环绕声格式之一。

条款48B、如条款33B-47B的任何组合的设备,其中,扩展的音频数据包括高阶立体混响音频数据。

条款49B、一种其上存储有指令的非暂时性计算机可读存储介质,所述指令在被执行时使得一个或多个处理器:在符合传统传输格式的向后兼容比特流中指定符合传统音频格式的传统音频数据;在向后兼容比特流中指定增强传统音频数据的扩展的音频数据;并输出向后兼容比特流。

此外,如本文所用,“A和/或B”是指“A或B”,或同时指“A和B”。

已经描述了技术的各个方面。该技术的这些和其他方面在所附权利要求的范围内。

81页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:语音感知音频系统及方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类