可扩展的统一的音频渲染器

文档序号:1160362 发布日期:2020-09-15 浏览:13次 >En<

阅读说明:本技术 可扩展的统一的音频渲染器 (Scalable unified audio renderer ) 是由 A·G·P·舍弗次乌 N·G·彼得斯 于 2019-02-01 设计创作,主要内容包括:包括音频解码器、存储器和处理器的设备,可以被配置为执行技术的各个方面。音频解码器可以从比特流解码第一音频数据和第二音频数据。存储器可以存储第一音频数据和第二音频数据。处理器可以将第一音频数据渲染成第一空间域音频数据用于由在虚拟扬声器位置集合处的虚拟扬声器进行的回放,以及将第二音频数据渲染成第二空间域音频数据用于由在虚拟扬声器位置集合处的虚拟扬声器进行的回放。处理器还可以混合第一空间域音频数据和第二空间域音频数据以获得混合的空间域音频数据,以及将混合的空间域音频数据转换至基于场景的音频数据。(A device, including an audio decoder, a memory, and a processor, may be configured to perform various aspects of the techniques. The audio decoder may decode the first audio data and the second audio data from the bitstream. The memory may store first audio data and second audio data. The processor may render the first audio data into first spatial domain audio data for playback by the virtual speakers at the set of virtual speaker locations and render the second audio data into second spatial domain audio data for playback by the virtual speakers at the set of virtual speaker locations. The processor may also mix the first spatial-domain audio data and the second spatial-domain audio data to obtain mixed spatial-domain audio data, and convert the mixed spatial-domain audio data to scene-based audio data.)

可扩展的统一的音频渲染器

交叉引用

本申请要求享受于2019年1月31日提交的美国专利申请编号16/264,115的优先权,其要求享受于2018年2月1日提交的标题为“SCALABLE UNIFIED AUDIO RENDERER”的美国临时申请编号62/625,230的利益,上述申请中的每个申请的全部内容在此通过引用的方式并入本申请,如同全部陈述。

技术领域

本公开内容涉及对诸如音频数据的媒体数据的处理。

背景技术

高阶立体混响(HOA)信号(经常通过多个球面谐波系数(SHC)或者其它层级元素表示)是声场的三维表示。HOA或者SHC表示可以以不依赖用以回放从SHC信号渲染的多通道音频信号的本地扬声器几何结构的方式来表示声场。SHC信号还可以促进向后兼容性,因为SHC信号可以被渲染至众所周知的以及被高度采用的多通道格式,诸如5.1音频通道格式或者7.1音频通道格式。SHC表示可以因此使得还适应向后兼容性的声场的更好的表示成为可能。

发明内容

本公开内容通常涉及包括虚拟现实(VR)、混合现实(MR)、增强现实(AR)、计算机视觉以及图像系统的计算机介导现实系统的用户体验的听觉方面。

在一个示例中,技术的各个方面针对被配置为支持统一的音频渲染的设备,该设备包括:被配置为从比特流解码在时间帧内的第一音频数据以及在时间帧内的第二音频数据的音频解码器;被配置为存储第一音频数据和第二音频数据的存储器;以及一个或多个处理器,其被配置为:将第一音频数据渲染成第一空间域音频数据,用于由在虚拟扬声器位置集合处的虚拟扬声器进行的回放;将第二音频数据渲染成第二空间域音频数据,用于由在虚拟扬声器位置集合处的虚拟扬声器进行的回放;混合第一空间域音频数据以及第二空间域音频数据,以获得混合的空间域音频数据;以及将混合的空间域音频数据转换至基于场景的音频数据。

在另一示例中,技术的各个方面针对支持统一的音频数据渲染的方法,该方法包括:由计算设备以及从比特流解码在时间帧内的第一音频数据以及在时间帧内的第二音频数据;由计算设备将第一音频数据渲染成第一空间域音频数据,用于由在虚拟扬声器位置集合处的虚拟扬声器进行的回放;由计算设备将第二音频数据渲染成第二空间域音频数据,用于由在虚拟扬声器位置集合处的虚拟扬声器进行的回放;由计算设备混合第一空间域音频数据以及第二空间域音频数据以获得混合的空间域音频数据;以及由计算设备将混合的空间域音频数据转换至基于场景的音频数据。

在另一示例中,技术的各个方面针对被配置为支持统一的音频渲染的设备,该设备包括:用于从比特流解码在时间帧内的第一音频数据以及在时间帧内的第二音频数据的单元;用于将第一音频数据渲染成第一空间域音频数据用于由在虚拟扬声器位置集合处的虚拟扬声器进行的回放的单元;用于将第二音频数据渲染成第二空间域音频数据用于由在虚拟扬声器位置集合处的虚拟扬声器进行的回放的单元;用于混合第一空间域音频数据以及第二空间域音频数据以获得混合的空间域音频数据的单元;以及用于将混合的空间域音频数据转换至基于场景的音频数据的单元。

在另一示例中,技术的各个方面针对具有在其上存储的指令的非暂时性计算机可读存储介质,指令在执行时使得一个或多个处理器:从比特流解码在时间帧内的第一音频数据以及在时间帧内的第二音频数据;将第一音频数据渲染成第一空间域音频数据,用于由在虚拟扬声器位置集合处的虚拟扬声器进行的回放;将第二音频数据渲染成第二空间域音频数据,用于由在虚拟扬声器位置集合处的虚拟扬声器进行的回放;混合第一空间域音频数据以及第二空间域音频数据,以获得混合的空间域音频数据;以及将混合的空间域音频数据转换至基于场景的音频数据。

本公开内容的一个或多个示例的细节在下文附图和说明书中陈述。从说明书、附图以及从权利要求书来看,其它特征、对象以及优势将是显而易见的。

附图说明

图1是示出各种阶和子阶的球面谐波基本函数的示意图。

图2是示出可以执行在本公开内容中描述的技术的各个方面的系统的示意图。

图3是示出声场的混合阶立体混响声表示的不一致的空间分辨率分布的各方面的示意图。

图4是示出在声场的完全的第三阶HOA表示与相同声场的混合阶立体混响表示之间的差异的示意图,在其中水平区域具有比剩余区域要高的空间分辨率。

图5是示出本公开内容的一个或多个计算机介导现实系统可以使用的耳机的示例的示意图。

图6是根据本公开内容的技术示出使用通用信息参考渲染器的音频回放系统的示例实现方式的方块图。

图7是根据本公开内容的技术示出使用通用信息性参考渲染器的音频回放系统的示例实现方式的方块图。

图8是根据本公开内容的技术示出使用通用信息性参考渲染器的音频回放系统的示例实现方式的方块图,所述通用信息性参考渲染器使用耳机捕获的音频数据用于增强现实。

图9是说明在图7的示例中示出的音频回放系统在执行可扩展的统一的渲染技术的各个方面中的示例操作的流程图。

具体实施方式

通常,本公开内容针对在计算机介导现实系统的用户体验期间用于回放声场表示的技术。计算机介导现实(CMR)技术包括各种类型的内容生成以及内容消费系统,诸如虚拟现实(VR)、混合现实(MR)、增强现实(AR)、计算机视觉以及图像系统。虽然本公开内容的几个方面是为了易于讨论通过示例的方式关于虚拟现实系统来描述的,但是将要理解的是本公开内容的技术还适用于其它类型的计算机介导现实技术,诸如混合现实、增强现实、计算机视觉以及图像系统。

虚拟现实系统可以利用用户的视场(FoV)信息以获得与用户的FoV相关联的视频数据。照此,虚拟现实系统可以获得部分地或者全部地环绕观看者的头部的视频数据,例如,用于虚拟现实应用或者其它类似的情景,在所述情景中用户可以移动他的或者她的头部以看到当将焦点指向画布的单个点时候无法看到的、图像画布的不同部分。特别地,当观看者将视觉焦点指向大画布(诸如部分地或者全部地包围观看者的头部的三维画布)的特定部分时可以应用这些技术。包围用户的头部的视频数据可以是使用屏幕(例如,环绕用户的一组屏幕)的组合或者经由头戴式显示器来提供的。

能够提供头戴式显示器的硬件的示例包括VR耳机、MR耳机、AR耳机以及各种其它硬件。传感数据和/或测试数据可以用来确定用户的FoV。作为传感数据的一个示例,与VR耳机的定位相关联的一个或多个角度可以指示用户的FoV,所述角度形成耳机的“转向角度”。作为传感数据的另一个示例,(例如,经由虹膜检测感测的)用户的注视角度可以指示用户的FoV。使用包括FoV信息的特性集合可以编码以及准备(例如,用于存储和/或传输)视频数据以及相应的音频数据。

本公开内容的技术可以连同与媒体数据(诸如视频数据以及音频数据)的传输(例如,发送和/或接收)有关的技术来使用,所述媒体数据是针对在其处将要回放媒体数据的不同区域以各种质量水平来编码的。例如,本公开内容的技术可以由客户端设备使用,所述客户端设备包括全景显示器(例如,部分地或者全部地包围观看者的头部的显示器)以及环绕立体声扬声器。通常,对显示器进行配置,使得用户的视觉焦点在给定时间指向显示器的仅一部分。本公开内容的系统可以渲染以及经由环绕立体声扬声器输出音频数据,使得与剩余的音频对象相比,与在显示器上的焦点的当前区域相关联的音频对象是具有更大的方向性的输出。

在市场中存在各种基于“环绕立体声”通道的音频格式。例如,它们的范围从5.1家庭影院系统(除立体音响之外,其在进军起居室方面已经是最成功的)到由NHK(日本广播协会或者日本广播公司)开发的22.2系统。内容创作者(例如,好莱坞工作室)曾经想要为电影制作声迹,以及不花费精力以针对每个扬声器配置来对其进行混音。运动图像专家组(MPEG)已经发布考虑到要使用元素的层级集合来表示的声场(例如,高阶立体混响-HOA-系数)的标准,针对包括5.1以及22.2配置的大部分的扬声器配置,不管是在通过各种标准定义的位置中还是在不一致的位置中,该元素的层级集合都可以被渲染至扬声器馈送。

MPEG发布了作为MPEG-H 3D音频标准的标准,正式命名为“Informationtechnology–High efficiency coding and media delivery in heterogeneousenvironments–Part 3:3D audio(信息技术-异构环境中的高效编码和媒体分发-第三部分:3D音频)”,通过ISO/IEC JTC 1/SC 29陈述,具有文件标识符ISO/IEC DIS 23008-3,以及注明日期2014年7月25日。MPEG还发布了3D音频标准的第二版本,命名为“Informationtechnology–High efficiency coding and media delivery in heterogeneousenvironments–Part 3:3D audio(信息技术-异构环境中的高效编码和媒体分发-第三部分:3D音频)”,通过ISO/IEC JTC 1/SC 29陈述,具有文件标识符ISO/IEC 23008-3:201x(E),以及注明日期2016年10月12日。在本公开内容中对“3D音频标准”的引用可能涉及上文标准中的一者或者两者。

如上文所述,元素的层级集合的一个示例是球面谐波系数(SHC)的集合。下文表达式说明了使用SHC的声场的描述或者表示:

表达式示出,在声场的任何点处在时间t时的压力pi可以通过SHC,唯一地表示。这里,

Figure BDA0002610646530000054

c是声音的速度(~343m/s),

Figure BDA0002610646530000055

是参考点(或者观察点),jn(·)是阶n的球面贝塞尔函数,以及是阶n以及子阶m的球面谐波基本函数(其还可以称为球面基本函数)。可以认识到的是,在方括号中的项是信号的频域表示(例如,),其可以通过各种时间频率变换来近似,所述时间频率变换诸如离散傅里叶变换(DFT)、离散余弦变换(DCT)或者小波变换。层级集合的其它示例包括小波变换系数的集合以及多分辨率基本函数的系统的其它集合。

图1是示出从零阶(n=0)到第四阶(n=4)的球面谐波基本函数的示意图。如可以看到的,针对每阶,存在对子阶m的扩展,为了便于说明,其是在图1的示例中示出但未明确地指出的。SHC

Figure BDA0002610646530000062

可以是由各种麦克风阵列配置来物理地捕获的,或者,替代地,是从声场的基于通道的或者基于对象的描述中导出的。SHC表示基于场景的音频,其中SHC可以输入到音频编码器,以获得可以提升更有效率的传输或者存储的编码的SHC。例如,可以使用涉及(1+4)2(25,以及因此第四阶)系数的第四阶表示。

如上文所述,SHC可以是从使用麦克风阵列的麦克风录音中导出的。在波莱特·M(Poletti,M.)的“Three-Dimensional Surround Sound Systems Based on SphericalHarmonics(基于球面谐波的三维环绕立体声系统)”(听觉工程学协会会刊(J.AudioEng.Soc.),Vol.53,No.11,2005年11月,pp.1004-1025.)中,描述如何可以从麦克风阵列中导出SHC的各种示例。

为了说明如何可以从基于对象的描述中导出SHC,考虑下文方程式。针对与单独音频对象相对应的声场的系数可以表示为:

其中,i是

Figure BDA0002610646530000065

是阶n的球面汉克尔函数,以及

Figure BDA0002610646530000067

是对象的位置。将对象源能量g(ω)认为是频率的函数(例如,使用时间-频率分析技术,诸如对PCM流执行快速傅里叶变换)允许我们将每个PCM对象以及相应的位置转换成SHC

Figure BDA0002610646530000068

进一步地,可以示出的是(因为上文是线性的以及是正交分解),针对每个对象的系数是累积的。以这种方式,大量PCM对象可以通过系数来表示(例如,作为针对单独对象的系数矢量的和)。本质上,系数包含关于声场的信息(作为3D坐标的函数的压力),以及上文表示在观察点

Figure BDA0002610646530000071

的附近从单独对象到整个声场的表示的变换。下文在基于对象的以及基于SHC的音频编码的上下文中描述了剩余附图。

图2是示出可以执行在本公开内容中描述的技术的各个方面的系统10的示意图。如在图2的示例中所示出的,系统10包括源系统200以及内容消费者系统202。虽然是在源系统200以及内容消费者系统202的上下文中来描述的,但是技术可以在其它上下文中实现。此外,源系统200可以表示能够生成与本公开内容的技术兼容的比特流的任何形式的计算设备。同样地,内容消费者系统202可以表示能够实现本公开内容的技术的任何形式的计算设备。

源系统200可以由娱乐公司或者其它实体来操作,所述其它实体可以生成多通道音频内容用于由诸如内容消费者系统202的内容消费设备的操作者进行的消费。在许多VR场景中,源系统200连同视频内容生成音频内容。在图2的示例中,源系统200包括内容捕获设备204、比特流生成单元206、麦克风208以及摄影机210。

内容捕获设备204可以被配置为与麦克风208相连接或者以其它方式与麦克风208通信。麦克风208可以表示Eigenmike(球形麦克风)

Figure BDA0002610646530000072

或者能够捕获以及将声场表示为HOA系数11的其它类型的3D音频麦克风。在一些示例中,内容捕获设备204包括集成到内容捕获设备204的外壳里面的集成麦克风208。在一些示例中,内容捕获设备204可以无线地或者经由有线的连接与麦克风208相连接。

麦克风208生成音频数据212。在一些示例中,音频数据是基于场景的音频数据(例如,HOA系数)、基于通道的音频数据、基于对象的音频数据或者另一类型的音频数据。在其它示例中,内容捕获设备204可以在经由某种类型的存储(例如,可移动存储)接收音频数据212之后处理音频数据212。内容捕获设备204以及麦克风208的各种组合是可能的,其中为了说明的目的上文讨论了这样的组合的几个示例。摄影机210可以被配置为捕获视频数据214以及向内容捕获设备204提供捕获的原始视频数据214。

内容捕获设备204可以被配置为与比特流生成单元206相连接或者以其它方式与比特流生成单元206通信。比特流生成单元206可以包括能够与内容捕获设备204相连接的任何类型的硬件设备。比特流生成单元206可以使用音频数据212以生成比特流216,该比特流216包括通过音频数据212定义的声场的一个或多个表示。在一些示例中,比特流216还可以包括视频数据214的表示。

比特流生成单元206可以以各种方式生成音频数据212的表示。例如,比特流生成单元206可以以基于场景的音频格式、基于通道的音频格式和/或基于对象的音频格式中的一者或多者来表示音频数据212。

在比特流生成单元206以基于场景的格式来表示音频数据的一些示例中,比特流生成单元206使用编码方案用于声场的立体混响表示,称为混合阶立体混响(MOA)。为了生成声场的特定的MOA表示,比特流生成单元206可以生成全部HOA系统集合的部分子集。例如,由比特流生成单元206生成的每个MOA表示可以提供关于声场的一些区域的精度,但是在其它区域中提供较小的精度。在一个示例中,声场的MOA表示可以包括HOA系数的八(8)个未压缩的HOA系数,然而相同声场的第三阶HOA表示可以包括HOA系数的十六(16)个未压缩的HOA系数。照此,与从HOA系数生成的相同声场的相应的第三阶HOA表示相比,作为HOA系数的部分子集来生成的每个MOA表示可以是较少存储密集的以及较少带宽密集的(如果以及当在示出的传输通道上作为比特流216的一部分来发送时)。

在一些示例中,内容捕获设备204可以被配置为与比特流生成单元206无线地通信。在一些示例中,内容捕获设备204可以经由无线连接或有线连接中的一者或两者与比特流生成单元206通信。经由在内容捕获设备204与比特流生成单元206之间的连接,内容捕获设备204可以以各种内容形式来提供内容,为了讨论的目的,其在本文中描述为是HOA系数11的部分。

在一些示例中,内容捕获设备204可以利用比特流生成单元206的各个方面(在比特流生成单元206的硬件或软件能力方面)。例如,比特流生成单元206可以包括被配置为执行心理声学的音频编码(诸如通过运动图像专家组(MPEG)或MPEG-H 3D音频编码标准陈述的表示为“USAC”的统一的语音和音频编码器)的专用硬件(或当被执行时可以使得一个或多个处理器以执行心理声学的音频编码的专门的软件)。内容捕获设备204可以不包括心理声学的音频编码器专用硬件或专门的软件,以及相反以非心理声学语音编码的形式提供音频内容212的音频方面(其是提及音频数据212的另一方式)。比特流生成单元206可以通过至少部分地执行关于音频内容212的音频方面的心理声学的音频编码,来协助对内容212的捕获。

比特流生成单元206可以通过至少部分地基于从音频数据212生成的音频内容(例如,MOA表示和/或第三阶HOA表示)来生成一个或多个比特流,协助内容捕获和传输。比特流216可以包括音频数据212的压缩版本(和/或用于形成声场的MOA表示的其部分子集)以及任何其它不同类型的内容(诸如视频数据、图像数据和/或文本数据的压缩版本)。作为一示例,比特流生成单元206可以生成比特流216用于跨越传输通道的传输,所述传输通道可以是有线的或无线的通道、数据存储设备等。比特流216可以表示音频数据212的编码的版本(和/或用于形成声场的MOA表示的其部分子集),以及可以包括主比特流和可以称为侧通道信息的另外的侧比特流。

图3是示出声场的MOA表示的不一致的空间分辨率分布的各方面的示意图。虽然完全的球面HOA在所有方向上具有一致地高空间分辨率,但是相同声场的MOA表示具有可变的空间分辨率。在许多情况下,如在图3的示例中,声场的MOA表示在仅水平的区域中包括高分辨率空间音频数据,以及在声场的剩余区域中包括较低的分辨率空间音频数据。在图3示出的示例中,声场的MOA表示包括水平区域第三阶表示(通过白色带标出),以及所有其它区域的第一阶表示(通过黑色阴影部分示出)。也就是说,根据图3的MOA表示,声源一离开声场的赤道,高质量重建的清晰度和区域就关于从声源发出的音频对象迅速地降低。

图4是示出在声场的完全的第三阶HOA表示与相同声场的MOA表示之间的差异的示意图,在其中水平区域具有与剩余区域相比要高的空间分辨率。如在图4中所示,完全的第三阶HOA表示包括十六(16)个未压缩的HOA系数以表示声场。完全的HOA表示的一致的空间分辨率是通过关于完全的第三阶HOA表示的整个的3-轴示意图显示为是白色(或出现空白)。

相比之下,关于相同的声场,MOA表示包括八(8)个未压缩的系数(或系数通道)。此外,与通过第三阶HOA表示表现出的一致的空间分辨率形成对比,MOA表示示出不一致的空间分辨率,在其中高空间分辨率沿着3D声场的赤道出现,而声场的剩余区域以较低的空间分辨率表示。将在图4中示出的MOA表示描述为是“3H1P”MOA表示,其指示MOA表示包括水平区域的第三阶表示以及声场的剩余区域的第一阶表示。

虽然是关于捕获的内容212/214来描述的,但是在本公开内容中描述的技术的各个方面可以应用于生成的或渲染的内容,诸如在视频游戏中常见的,其中音频数据212是从存储器和/或存储中取回的而不是捕获的,以及视频数据214是通过诸如图形处理单元(GPU)的硬件以编程方式生成的。在源系统200获得内容212/214而不是完全地捕获内容212/214的实例中,源系统200可以表示被配置为生成音频数据212和视频数据214的计算机(例如,视频游戏系统、膝上型计算机、台式计算机等)。

不管怎样,内容消费者系统202可以由个人操作,以及可以在很多示例中表示VR客户端设备。内容消费者系统202可以包括音频回放系统218以及耳机220。音频回放系统218可以指的是能够渲染SHC(不论以第三阶HOA和/或MOA表示的形式)或用于回放作为多通道音频内容的其它基于场景的音频数据的任何形式的音频回放系统。

尽管在图2中示为是向内容消费者系统202直接地发送的,但是源系统200可以向置于源系统200与内容消费者系统202之间的中间设备输出比特流216。中间设备可以存储比特流216用于向内容消费者系统202的随后的递送,该内容消费者系统202可以请求比特流。中间设备可以包括文件服务器、网络服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话、或能够存储比特流216用于由音频解码器进行的随后的取回的任何其它设备。中间设备可以存在于内容递送网络中,该内容递送网络能够向请求比特流216的诸如内容消费者系统202的用户流式传输比特流216(以及可能地结合发送相应的视频数据流)。

或者,源系统200可以将比特流216存储至存储介质,诸如压缩光盘、数字视频光盘、高清晰度视频光盘或其它存储介质,其大部分能够由计算机读取以及因此可以称为计算机可读存储介质或非暂时性计算机可读存储介质。在本上下文中,传输通道可以指的是发送存储至介质的内容所通过的通道(以及可以包括零售商店以及其它基于商店的递送机制)。不管怎样,本公开内容的技术不应当因此在这方面限制于图2的示例。

如上文指出的,内容消费者系统202包括音频回放系统218。音频回放系统218可以表示能够回放多通道音频数据的任何音频回放系统。音频回放系统218可以包括若干不同的渲染器。渲染器可以各自供给不同形式的渲染,其中不同形式的渲染可以包括执行基于矢量的振幅平移(VBAP)的各种方法中的一者或多者,和/或执行声场合成的各种方法中的一者或多者。如在本文中所使用的,“A和/或B”意指“A或B”,或“A和B”两者。

音频回放系统218可以解码来自比特流216的基于场景的音频数据、基于对象的音频数据、基于通道的音频数据。如在本公开内容中别处更详细所描述的,音频回放系统218可以将从比特流216解码的音频数据渲染到输出扬声器馈送222中。扬声器馈送222可以驱动被包括在耳机220(为了易于说明的目的,其未在图2的示例中示出)中的一个或多个扬声器。在一些示例中,扬声器馈送222包括用于双声道回放的左通道和右通道。在比特流中包括基于场景的音频数据(例如,如HOA系数)的示例中,声场的立体混响表示可以是以若干方法来标准化的,所述若干方法包括N3D、SN3D、FuMa、N2D或SN2D。

在一些示例中,内容消费者系统202从流服务器接收比特流216。流服务器可以响应于来自流客户端的这样的请求来提供各种类型的流、或流的组合。例如,如果由流客户端请求的话(例如,在音频回放系统218上执行),流服务器还可以提供全阶HOA流作为选项。在其它示例中,流服务器可以提供声场的基于对象的表示、声场的高阶立体混响表示、声场的混合阶立体混响表示、声场的基于对象的表示和声场的高阶立体混响表示的组合、声场的基于对象的表示和声场的混合阶立体混响表示的组合、或声场的混合阶表示和声场的高阶立体混响表示的组合中的一者或更多者。

内容消费者系统202可以表示视频游戏系统或与源系统类似的其它计算设备。尽管示为分开的系统,但是在一些示例中源系统200和内容消费者系统202可以是单个系统。例如,源系统200和内容消费者系统202两者都可以在单个视频游戏系统或其它计算设备内来实现。单个计算设备可以与耳机220相连接。在一些实例中,耳机220可以容纳单个计算设备(其实现源系统200和内容消费者系统202两者)以及不具有分开的计算系统。

不管源系统200和内容消费者系统202的配置,内容消费者系统202可以包括耳机220。图5是示出本公开内容的一个或多个计算机介导现实系统可以使用的耳机220的示例的示意图。在各种示例中,耳机220可以表示用于CMR的VR耳机、AR耳机、MR耳机、扩展现实(XR)耳机、或另外类型的耳机。在一些示例中,耳机220不具有视觉组件,而是在不具有视觉组件的情况下输出声音。例如,耳机220可以是一套头戴式耳机。

如在图5的示例中所示的,耳机220包括后置摄像机、一个或多个方向性扬声器、一个或多个跟踪和/或记录摄像机、以及一个或多个发光二极管(LED)灯。在一些示例中,LED灯可以称为“超亮”LED灯。另外,耳机220包括一个或多个眼镜追踪摄像机、高灵敏度音频麦克风、以及光学/投影硬件。耳机220的光学/投影硬件可以包括耐用半透明显示技术和硬件。

耳机220还包括连通硬件,其可以代表支持多模连通的一个或多个网络接口,诸如4G通信、5G通信等等。耳机220还包括环境光线传感器以及骨传导转换器。在一些实例中,耳机220还可以包括具有鱼眼镜头和/或长焦镜头的一个或多个被动的和/或主动的摄像机。根据本公开内容的各种技术,诸如图2的内容消费者系统202的本公开内容的各种设备可以使用耳机220的转向角度以选择声场的音频表示,以经由耳机220的方向性扬声器输出。将要理解的是,耳机220可以表现出各种不同的形状因子。

如上文所述,内容消费者系统202还包括耳机220。将要理解的是,在各种实现方式中,耳机220可以被包括在内容消费者系统202中,或外部地耦合至内容消费者系统202。如上文关于图5所讨论的,耳机220包括显示硬件和一个或多个扬声器,该显示硬件被配置为展现视频数据214,该扬声器被配置为基于音频数据212来重现通过音频数据212表示的声场。在一些示例中,耳机220还可以包括实现音频回放系统218中的一些或全部的硬件。在一些示例中,与耳机220分开的设备,诸如智能手机或者个人计算机(包括视频游戏系统),包括实现音频回放系统218中的一些或全部的硬件。

在一些示例中,耳机220的处理器使用与头部旋转信息相关联的一个或多个角度来跟踪转向角度。继而,耳机220可以使用转向角度以确定如何输出CMR音频声场。耳机220的处理器还可以经由一个或多个扬声器(例如,耳机220的扬声器)重现声场。在一些示例中,耳机220的处理器可以使用一个或多个传感器和/或摄像机(例如,耳机220的传感器和/或摄像机)以捕获指示戴着耳机220的用户的凝视角度的图像。例如,耳机220的处理器可以使用凝视角度以确定转向角度。耳机220的处理器还可以表示在基于转向角度的视场角上的图像序列。例如,耳机220的处理器可以经由耳机220的显示硬件在适合耳机220的当前转向角度的特定视场角上输出图像序列的部分。

耳机220的存储设备还可以响应于通过由耳机220的处理器执行的音频流选择器进行的这样的选择,来在本地存储各种类型的表示,或其组合。例如,如上文所讨论的,如果由音频流选择器来选择,耳机220的处理器还可以提供全阶HOA流作为选项。在其它示例中,经由耳机220的扬声器硬件,耳机220的处理器可以输出声场的基于对象的表示、声场的高阶立体混响表示、声场的混合阶立体混响表示、声场的基于对象的表示和声场的高阶立体混响表示的组合、声场的基于对象的表示和声场的混合阶立体混响表示的组合、或声场的混合阶立体混响表示和声场的高阶立体混响表示的组合中的一者或多者。在一些示例中,存储至耳机220的存储设备的声场表示中的一者或多者可以包括至少一个高分辨率区域以及至少一个较低分辨率区域,以及其中基于转向角度选择的表示提供关于至少一个高分辨率区域的较高的空间精度以及提供关于较低分辨率区域的较小的空间精度。

在一些示例中,耳机220可以包括向耳机220的组件提供电能的一个或多个电池。

图6是根据在本公开内容中描述的技术的各个方面示出使用通用信息参考渲染器(CIRR)的音频回放系统218的示例实现方式的方块图。在图6的示例中,音频回放系统218包括外部渲染器应用编程接口(API)1700、基于对象/通道的外部渲染器1702、基于对象/通道的内部渲染器1704、CMR流解码器1706、HOA至空间域转换单元1708、混合单元1710、HOA转换器1712、HOA渲染器1714、混合单元1716、通用渲染器API 1718以及虚拟扬声器位置单元1720。

CMR流解码器1706接收以及解码比特流,诸如比特流216(在图2的示例中示出)。比特流216可以包括CMR流(其可以称为“CRM流216”)。通过解码CMR流216,CMR流解码器1706可以生成非剧情声音频数据的一个或多个流,基于对象的音频数据、基于通道的音频数据以及相关联的元数据和/或HOA音频数据或其它基于场景的音频数据的一个或多个流。

当音频回放系统218使用外部渲染器1702时,CMR流解码器1706通过外部渲染器应用编程接口(API)1700与外部渲染器1702相连接。外部渲染器API 1700可以表示被配置为向外部渲染器1702提供配置数据或元数据和/或从外部渲染器1702接收供配置数据或元数据的接口。因此,将基于通道的音频数据、基于对象的音频数据和/或基于场景的音频数据,连同适当的元数据和配置信息一起,从CMR流解码器1706发送至外部渲染器1604。

外部渲染器1702(其还可以称为“基于对象/通道的渲染器1702”)使用基于通道的音频数据、基于对象的音频数据以及相关联的元数据和/或HOA音频数据或其它基于场景的音频数据的一个或多个流,以生成双声道剧情声音频数据。混合单元1716将双声道剧情声音频数据与非剧情声音频数据的一个或多个流混合,以生成混合的双声道音频数据1717。在耳机220中的扬声器可以基于由混合单元1606生成的混合的双声道音频数据来生成声音。

在CMR流解码器1706经由外部渲染器API 1700向外部渲染器1702提供基于通道的音频数据1705和/或基于对象的音频数据1707(其可以包括相关联的元数据)的实例中,外部渲染器1702可以渲染与耳机220的扬声器布局相对应的基于通道的音频数据,例如双声道音频数据1717,其然后被变换以适应动作感测数据221。换言之,耳机220可以执行进一步渲染来以导致改变通过动作感测数据221表示的焦点转向的方式,变换双声道音频数据1717。

考虑到耳机200可以是处理有限的(例如,与音频回放系统218相比以具有较小的处理能力的处理器为特征)和/或受能量有限的限制(例如,通过诸如电池的有限的电源来供电),耳机220可能不具有过多的处理和/或功率能力来在充足时间中完全地变换双声道音频数据1717,以维持与呈现的视频数据的一致性。另外,对基于通道的双声道音频数据1717(其可以具有左通道和右通道)进行变换可以涉及通过功率有限的和/或能量有限的资源很难实时执行的重要的数学计算,进一步增加在双声道音频数据1717与视频数据214之间的一致性的缺乏。

这样的一致性的缺乏可以引入降低在CMR体验中的沉浸感的音频伪像(airfact)。此外,重要的处理可以增加功率消耗、存储器带宽消耗以及相关联的存储器消耗,这可能(由于有限的电力供应,诸如电池)导致在其期间耳机220可以支持双声道音频数据1717和视频数据214的回放的有限的时间。可能的加强处理和有限的播放持续时间可以在总体体验方面使耳机220的用户沮丧,因为音频伪像可以扭曲沉浸感、引起恶心、或以其它方式破坏总体体验,可能阻止对CMR的采用。

根据在本公开内容中描述的技术的各个方面,音频回放系统218可以提供可扩展的统一的音频渲染,其在适应所有各种不同的音频格式类型的同时降低处理复杂度,诸如基于通道的音频数据、基于对象的音频数据和/或基于场景的音频数据。音频回放系统218可以支持可扩展的音频渲染,因为与由外部渲染器1702执行的渲染相反可以在不增加处理复杂度的情况下渲染任何数量的通道和/或对象。进一步地,音频回放系统218可以通过将基于对象的音频数据和/或基于通道的音频数据变换成基于场景的音频数据,来支持统一的音频渲染,从而潜在地使所有各种音频格式类型统一。

照此,技术的各个方面可以改善音频回放系统218本身的操作,因为音频回放系统218在渲染来自基于通道的音频数据1705和/或基于对象的音频数据1707的双声道音频数据1717以及基于场景的音频数据1703(其中一个这样的示例示出为HOA音频数据1703)时可以降低处理周期。作为在渲染期间更加有效率的处理的结果以及由于统一,音频回放系统218可以降低功率、存储器带宽以及存储器存储空间消耗,从而潜在地使音频回放系统218能够在固定容量电源(诸如电池)上操作达更长的持续时间。

在操作中,音频回放系统218可以接收包括一个或多个不同类型的音频数据(或者,换言之,符合一个或多个不同的音频格式的音频数据)的比特流216。例如,比特流216可以包括基于通道的音频数据1705、基于对象的音频数据1707和/或基于场景的音频数据1703的压缩的表示。

CMR流解码器1706可以表示音频解码器的示例,其被配置为从比特流216解码在时间帧(意思是清楚的时间段,诸如具有定义的数量的音频采样的帧)内的第一音频数据以及在相同的时间帧内的第二音频数据。第一音频数据可以指的是基于场景的音频数据1703、基于通道的音频数据1705或基于对象的音频数据1707中的任何一者。第二音频数据也可以指的是基于场景的音频数据1703、基于通道的音频数据1705或基于对象的音频数据1707中的任何一者。

除非明确地指出,否则为了说明的目的假设基于场景的音频数据1703表示第一音频数据,而基于通道的音频数据1705表示第二音频数据。然而,在一些示例中,各种其它类型的音频数据1703-1707可以表示第一音频数据,而各种其它类型的音频数据1703-1707可以表示第二音频数据。

如在图6的示例中所进一步所示出的,音频回放系统218可以包括基于对象/通道的渲染器1704、HOA至空间域转换单元1708、混合单元1710、HOA转换器1712、HOA渲染器1712、混合单元1716、通用渲染器API 1718以及虚拟扬声器位置单元1720。CMR流解码器1706可以向HOA至空间域转换单元1708输出基于场景的音频数据1703。CMR流解码器1706还可以向基于对象/通道的渲染器1704输出基于通道的音频数据1705。

HOA至空间域转换单元1708可以表示被配置为将基于场景的音频数据1703渲染成空间域音频数据用于由在虚拟扬声器位置集合处(其示出为位置1721,以及还可以称为“虚拟扬声器位置1721”)的虚拟扬声器进行的回放的单元。在HOA音频数据1703的情况下,HOA至空间域转换单元1708可以存储具有不同的阶和子阶的一个或多个不同的球面基本函数。HOA至空间域转换单元1708可以基于球面基本函数来应用与上文列出的那些方程式的类似的各种方程式,以将HOA音频数据1703渲染成空间域音频数据1731。

也就是说,HOA至空间域转换单元1708可以将HOA音频数据1703从球面谐波域变换至空间域,以获得基于通道的音频数据1731(其是提及空间域音频数据1731的另一方式)。基于通道的音频数据1731可以包括针对位于虚拟扬声器位置集合1721的各自位置处的虚拟扬声器中的每个虚拟扬声器的通道。HOA至空间域转换单元1708可以向混合单元1710输出空间域音频数据1731。

基于对象/通道的渲染器1704可以表示被配置为渲染基于通道的音频数据1705和/或基于对象的音频数据1707用于由在虚拟扬声器位置集合1721处的虚拟扬声器进行的回放的单元。基于对象/通道的渲染器1704可以将基于通道的音频数据1705从针对每个通道的当前位置重新映射至虚拟扬声器位置集合。在一些示例中,基于对象-通道的渲染器1705可以执行基于矢量的振幅平移,以将基于通道的音频数据1705从针对每个通道的当前位置重新映射至虚拟扬声器位置集合。在这方面中,基于对象/通道的渲染器1704可以将基于通道的音频数据1705渲染成空间域音频数据1733,用于由在虚拟扬声器位置集合处的虚拟扬声器进行的回放。

虚拟扬声器位置单元1720可以表示被配置为确定一组扬声器位置(例如,跳线(Fliege)点,其可以表示关于在其中听者的头部置于球面的中心的球面来一致地分布的虚拟扬声器位置集合中的一个示例)的单元。在一些示例中,支持或者4、8、16或者25个虚拟扬声器位置(或,换言之,定位)。根据本公开内容的各种技术,虚拟扬声器位置单元1720可以基于指示耳机220的一个或多个能力的耳机能力信息来确定虚拟扬声器位置集合。例如,更高的阶和更大数量的HOA系数要求更多的处理操作以在相同数量的输出时间中渲染。相应地,具有较少处理功率的处理器,或具有更有限的电池供电的那些处理器,可以不能处理具有高于特定门限的阶的HOA系数,或可以被配置为避免处理具有高于特定门限的阶的HOA系数。

例如,用于渲染HOA系数的耳机220的处理器可以被配置为渲染高达第三阶HOA系数但是不渲染第四阶HOA系数的HOA系数或更高阶的HOA系数。通常,较小数量的虚拟扬声器位置与较低阶的HOA系数有关。因此,虚拟扬声器位置单元1720可以基于关于耳机220的处理能力的信息来确定虚拟扬声器位置。例如,虚拟扬声器位置单元1720可以基于耳机220的处理能力来确定门限,以及确定虚拟扬声器位置使得虚拟扬声器位置的数量不超过该门限。

在一些示例中,虚拟扬声器位置单元1720至少部分地基于关于从比特流216解码的基于场景的音频数据1703的信息来确定虚拟扬声器位置集合。例如,虚拟扬声器位置单元1720可以基于在从比特流216解码的基于场景的音频数据1703中的HOA系数的阶,来确定虚拟扬声器位置集合。

在一些示例中,虚拟扬声器位置单元1720被配置为使用将处理器的类型(或耳机的类型)映射至预先确定的虚拟扬声器位置集合的查找表。在一些示例中,虚拟扬声器位置单元1720被配置为基于其它因素来确定虚拟扬声器位置集合1721。

在一些示例中,耳机220的处理能力可以随着时间动态地改变。例如,耳机220的处理能力可以基于在耳机220的处理器上的其它处理载荷、基于用于到耳机220的对HOA音频数据的传输的可用带宽和/或基于其它因素来改变。因此,在一些这样的示例中,虚拟扬声器位置单元1720可以随着时间动态地改变使用哪些虚拟扬声器位置。在这个方面中,虚拟扬声器位置单元1720可以获得以及向HOA至空间域转换单元1708、基于对象/通道的渲染器1704以及HOA渲染器1714输出表示在虚拟扬声器位置集合处的虚拟扬声器的虚拟扬声器位置1721。

如上文所描述的,基于对象/通道的外部渲染器1702和/或基于对象/通道的内部渲染器1704,基于由虚拟扬声器位置单元1720确定的虚拟扬声器位置1721,来渲染基于通道和/或对象的音频数据1705/1707,用于在确定的虚拟扬声器位置1721处的虚拟扬声器上的输出。基于对象/通道的外部渲染器1702和/或基于对象/通道的内部渲染器1704可以使用VBAP以渲染基于对象或通道的音频数据,用于由在确定的虚拟扬声器位置1721处的虚拟扬声器进行的回放。基于对象/通道的外部渲染器1702和/或基于对象/通道的内部渲染器1704可以生成针对确定的虚拟扬声器位置中的每个位置的一个空间域信号(例如,通道)。照此,这个第一渲染步骤可以是通过内部渲染器或外部渲染器来执行的。

在使用基于对象/通道的外部渲染器1702的示例中,外部渲染器API1700可以(例如,由CMR流解码器1706)用于发送以及接收来自基于对象/通道的外部渲染器1702的信息。通用渲染器API 1718可以(例如,由CMR流解码器1706)用于发送以及接收来自通用信息渲染器组件的信息。

HOA至空间域转换单元1708,基于由虚拟扬声器位置单元1720确定的虚拟扬声器位置1721,来将HOA音频数据1703转换至空间等效域表示。例如,HOA至空间域转换单元1708可以将与确定的虚拟扬声器位置1721相对应的渲染矩阵应用于HOA音频数据1703。HOA至空间域转换单元1708可以生成针对确定的虚拟扬声器位置中的每个位置的一个空间域信号。

第N阶声场表示c(t)的等效空间域表示是通过将c(t)渲染至O个虚拟扬声器信号wj(t)来获得的,1≤j≤O,其中O=(N+1)2。各自的虚拟扬声器位置是借助于球面坐标系统来表示的,其中每个位置取决于单位球面,例如,半径为1。因此,位置可以是通过依赖阶的方向来等效地表示的

Figure BDA0002610646530000191

Figure BDA0002610646530000192

1≤j≤O,其中分别地表示倾斜度和方位角。

将c(t)渲染成等效空间域可以用公式表示为矩阵乘法

w(t)=(Ψ(N,N))-1·c(t),

其中(·)-1表示求逆。

关于依赖阶的方向的阶N的矩阵Ψ(N,N)可以通过以下内容来定义

其中

其中

Figure BDA0002610646530000198

表示阶n和度m的实值的球面谐波。

矩阵Ψ(N,N)是可逆的,所以HOA表示c(t)可以是通过以下内容从等效空间域转换回来的

c(t)=Ψ(N,N)·w(t)·

可以根据下文方程式将HOA声场H转换成N-通道音频数据

Figure BDA0002610646530000199

其中D是基于N-通道音频数据的扬声器配置(例如,确定的虚拟扬声器位置)来确定的渲染矩阵。

Figure BDA00026106465300001910

在上文方程式中DT指示渲染矩阵D的转置。诸如渲染矩阵的矩阵可以是以各种方式来处理的。例如,矩阵可以是如行、列、矢量或以其它方式来处理(例如,存储、相加、相乘、取回等等)的。

混合单元1710可以表示被配置为将由HOA至空间域转换单元1708生成的空间域音频数据1731与由基于对象/通道的外部渲染器1702或基于对象/通道的内部渲染器1704生成的相应的空间域音频数据1733进行混合的单元。用这种方法,混合单元1710可以向HOA转换器1712输出空间域音频数据1735,该空间域音频数据1735具有针对确定的虚拟扬声器位置1721中的每个位置的通道。

此外,在图6的示例中,基于确定的虚拟扬声器位置1721,HOA转换器1712可以将由混合单元1710输出的空间域音频数据1735转换至基于场景的音频数据(例如,HOA,或换言之,球面谐波域)。HOA转换器1712可以输出基于场景的音频数据1737的流。用这种方法,音频回放系统218可以基于关于耳机220的能力的数据来确定一个或多个虚拟扬声器位置的集合1721,以及基于虚拟扬声器位置集合1721来生成基于场景的音频数据1737。在一些示例中,音频回放系统218包括被配置为向耳机220发送基于场景的音频数据1737以及用于指示虚拟扬声器位置集合1721的数据。

因此,在一些示例中,音频回放系统218可以执行下列各项中的至少一项:基于一个或多个虚拟扬声器位置的集合以及从比特流解码的基于场景的音频数据,来生成第一空间域音频数据;以及基于一个或多个虚拟扬声器位置的集合以及从比特流解码的基于通道或对象的音频数据,来生成第二空间域音频数据。在这样的示例中,音频回放系统218可以基于第一空间域音频数据以及第二空间域音频数据中的至少一者,来生成第三空间域音频数据。此外,音频回放系统218可以基于第三空间域音频数据中的至少一者来生成基于场景的音频数据。

此外,在一个示例中,音频回放系统218可以基于关于耳机的能力的数据来确定一个或多个虚拟扬声器位置的集合。在这个示例中,音频回放系统218可以从比特流解码第一音频数据,第一音频数据是基于场景的音频数据。此外,音频回放系统218可以从比特流解码第二音频数据,第二音频数据是基于对象的或基于通道的音频数据。在这个示例中,音频回放系统218可以将第一音频数据渲染成第一空间域音频数据,用于在虚拟扬声器位置的集合处的扬声器上的回放。音频回放系统218可以将第二音频数据渲染成第二空间域音频数据,用于在虚拟扬声器位置的集合处的扬声器上的回放。此外,音频回放系统218可以通过混合第一空间域音频数据和第二空间域音频数据来生成第三空间域音频数据。在这个示例中,音频回放系统218可以将第三空间域音频数据转换在第二基于场景的音频数据中。

HOA渲染器1714可以然后将渲染矩阵应用于由HOA转换器1712输出的基于场景的音频数据1737的流。通过将渲染矩阵应用于基于场景的音频数据1737的流,HOA渲染器1714可以生成空间域双声道剧情声音频数据1715。换言之,HOA渲染器1714可以基于(例如,如通过动作感测数据221来定义的)耳机的定向来确定渲染矩阵,以及可以通过将渲染矩阵应用于基于场景的音频数据1737来生成空间域音频数据1717。

换言之,HOA渲染器1714可以表示被配置为将基于场景的音频数据1737从球面谐波域变换至空间域以获得基于通道的音频数据1717的单元。HOA渲染器1714可以获得特定于耳机220的渲染矩阵,或在一些示例中,从耳机能力信息导出特定于耳机220的渲染矩阵。渲染矩阵可以是特定于耳机220的,因为渲染矩阵可以导致扬声器在耳机220内的布置或考虑到耳机220的能力以其它方式适应变换以更好地使声音局部化。

HOA渲染器1714可以适应或以其它方式配置渲染矩阵以导致如通过动作感测数据221代表的移动。也就是说,HOA渲染器1714可以将一个或多个变换应用于渲染矩阵,以调整如何通过作为结果的双声道剧情声音频数据1715来表示声场。变换可以旋转或以其它方式调整声场,以导致通过运动感测数据定义的移动。

混合单元1716可以将由HOA渲染器1714生成的双声道剧情声音频数据与非剧情声音频数据1739混合,以生成在空间域中的混合的音频数据。耳机220的扬声器可以重现通过混合音频数据1717表示的声场。用这种方法,将比特流的任何高阶立体混响(HOA)内容转换成使用虚拟扬声器位置的空间等效域表示。然后,在虚拟扬声器位置处渲染的所有信号是通过CIRR混合以及转换成HOA表示。最后,CIRR渲染双声道信号。

如上文所提到的,HOA渲染器1714可以向通过将渲染矩阵应用于由HOA转换器1712输出的基于场景的音频数据1737的流。在一些示例中,HOA渲染器1714基于耳机220的定向(例如,耳机220的二维或三维空间定向)来确定渲染矩阵。例如,耳机220可以包括一个或多个传感器。在这个示例中,耳机220可以使用来自传感器的信号以确定耳机220的定向。在这个示例中,耳机220可以生成指示耳机220的定向的信息。在这个示例中,HOA渲染器1714可以使用指示耳机220的定向的信息以确定渲染矩阵。例如,HOA渲染器1714可以从预先确定的渲染矩阵的集合中选择渲染矩阵。在其它示例中,HOA渲染器1714或另一组件可以使用来自耳机220的传感器的信号以确定耳机220的定向。

在一些示例中,音频回放系统218的组件分布在多个设备之中。例如,HOA渲染器1714可以是在耳机220中实现的,而在图6的示例中示出的音频回放系统218的剩余的组件是在通信地耦合到耳机220的另一设备中实现的。

用这种方式分布音频回放系统218的组件可以具有若干优势。例如,将渲染矩阵应用于基于场景的音频数据1737是相对简单的计算,其要求与通过音频回放系统218的其它组件执行的计算相比相对少的电能。此外,当在耳机220中包括HOA渲染器1714时,减少了用于传送关于耳机220的定向的信息所花费的时间。因此,音频回放系统218作为整体可以对耳机220的定向的变化更积极地响应。

在对基于对象、通道和场景的音频信号进行混合以及转换成HOA格式时,可以与双声道渲染点尽可能靠近地实现低复杂度声场旋转操作,潜在地在分开的耳机设备(例如,耳机220)中,使得针对给定的HOA阶(不管通道以及对象的数量)的低的动作到声音的时延和固定的复杂度成为可能。具有潜在地较高的时延和计算的要求的其它渲染步骤,可以是更靠近解码器操作来执行的以及是(例如,在计算机或移动电话上)与视频同步的。这些其它渲染步骤是通过或者内部渲染器或者外部渲染器来执行的。必要时,实现CIRR的设备可以通过降低在渲染操作上的立体混响阶来进一步降低复杂度。

因此,概括起来,可以在用于渲染音频流(例如,耳机220、智能手机、计算机或其它设备)的一个或多个设备中实现本公开内容的技术。设备可以包括存储器、电池、CPU等等。设备可以被配置为基于可用的硬件资源来生成与针对期望的渲染阶的等效空间域表示相对应的扬声器位置集合。此外,设备可以接收基于场景的音频流以及将流转换至针对期望的渲染阶的等效空间域表示。

此外,设备可以接收基于对象和/或通道的音频流以及将流转换至针对期望的渲染阶的等效空间域表示。设备可以将与基于场景的、基于对象的以及基于通道的音频流相对应的等效空间域流混合,以产生等效空间域混合的流。设备可以将等效空间域混合的流渲染至双声道的或基于扬声器的表示。在一些示例中,期望的渲染阶是基于以下各项来确定的:基于场景的音频流的阶和/或来自基于对象的音频流的元数据信息。在一些示例中,等效空间域表示是根据来自动作传感器的信息来重新配置的。

图7是其根据本公开内容的技术示出使用通用信息参考渲染器的音频回放系统218的示例实现方式的方块图。在图7的示例中,音频回放系统218包括外部渲染器API1800、基于对象/通道的外部渲染器1802、基于对象/通道的内部渲染器1804、CRM流解码器1806、截断单元1808、混合单元1810、HOA渲染器1811、混合单元1812、通用渲染器API 1814以及虚拟扬声器位置单元1816。

CRM流解码器1806接收以及解码比特流,诸如比特流216(图2)。在一些示例中,比特流216是CMR流,该CMR流包括用于在CMR中使用的编码的音频数据以及编码的视频数据。在一些示例中,比特流216不包括编码的视频数据。通过解码比特流216,CRM流解码器1806可以生成非剧情声音频数据1739的一个或多个流、基于通道的音频数据1705和/或基于对象的音频数据1707的一个或多个流以及相关联的元数据以及基于场景的音频数据(例如,HOA数据)。

在图7的示例中,虚拟扬声器位置单元1816确定虚拟扬声器位置集合1721(例如,跳线点,其再次可以表示关于在其中听者的头部置于球面的中心的球面来一致地分布的位置的一个示例)。虚拟扬声器位置单元1816可以以与在本公开内容中别处关于虚拟扬声器位置单元1720(图6)描述的同样的方式确定虚拟扬声器位置集合1721。

在图7的示例中,基于对象/通道的外部渲染器1802和/或基于对象/通道的内部渲染器1804,基于由虚拟扬声器位置单元1816确定的虚拟扬声器位置1721,来将基于对象或通道的音频数据1705/1707渲染至具有期望的渲染阶的基于场景的音频数据1805的流。在这个上下文中,“阶”是从高阶立体混响系数的意义上来说的。在使用基于对象/通道的外部渲染器1802的示例中,外部渲染器API 1800可以用于(例如,由CMR流解码器1806)发送以及接收来自基于对象/通道的外部渲染器1802的信息。通用渲染器API 1814可以用于(例如,由CMR流解码器1806)发送以及接收来自通用信息参考渲染器组件的信息。

在上文描述的方式中,音频回放系统218可以基于关于耳机220的能力的数据来确定一个或多个虚拟扬声器位置集合1721。然后,基于对象的渲染器(例如,1702、1704、1802、1804)可以基于虚拟扬声器位置集合1721来将第一音频数据渲染成空间域音频数据(图6)或基于场景的音频数据(图7),第一音频数据是基于对象的音频数据。

截断单元1808可以表示被配置为基于由虚拟扬声器位置单元1816确定的虚拟扬声器位置1721来将由CMR流解码器1806输出的基于场景的音频数据1703截断的单元。例如,截断单元1808可以降低HOA音频数据1703的阶。例如,截断单元1808可以将第3阶HOA音频数据1703转换至3H1P MOA,如在图4中的示例所示出的,输出截断的基于场景的音频数据1809。在另一示例中,截断单元1808可以将第4阶HOA系数转换至第3阶HOA系数,或执行其它相似的转换,以获得截断的基于场景的音频数据1809。在一些示例中,基于确定的虚拟扬声器位置1721,截断单元1808不执行任何截断。

混合单元1810可以将由截断单元1808输出的基于场景的音频数据1809与由基于对象/通道的外部渲染器1802或基于对象/通道的内部渲染器1804输出的基于场景的音频数据1805混合。例如,混合单元1810可以将由截断单元1808输出的基于场景的音频数据1809的相应的系数与由基于对象/通道的外部渲染器1802或基于对象/通道的内部渲染器1804输出的基于场景的音频数据1805相加。

图7的音频回放系统218可以执行下列各项中的至少一项:基于一个或多个虚拟扬声器位置的集合和从比特流解码的第一初步基于场景的音频数据,来生成第二初步基于场景的音频数据;以及基于一个或多个虚拟扬声器位置的集合和从比特流解码的基于通道或对象的音频数据,来生成第三初步基于场景的音频数据。此外,在这样的示例中,图7的音频回放系统218可以基于第二初步基于场景的音频数据和第三初步基于场景的音频数据中的至少一者来生成最后的基于场景的音频数据。

在一个示例中,音频回放系统218可以基于关于耳机220的能力的数据来确定一个或多个虚拟扬声器位置的集合1721。在这个示例中,音频回放系统218的CMR流解码器1806可以从比特流216解码第一音频数据,第一音频数据是第一基于场景的音频数据1703。此外,在这个示例中,CMR流解码器1806可以从比特流216解码第二音频数据,第二音频数据是基于对象或基于通道的音频数据1705/1707。

此外,在这个示例中,音频回放系统218的内部渲染器1804或外部渲染器1802可以基于虚拟扬声器位置1721来将第二音频数据渲染成基于场景的音频数据1805。在这个示例中,音频回放系统218的混合单元1810可以将基于场景的音频数据1805与基于场景的音频数据1709混合,以获得混合的基于场景的音频数据1813。在一些实例中,在混合之前,截断单元1808可以基于虚拟扬声器位置1721来截断第一基于场景的音频数据1703。HOA渲染器1811可以以上文关于在图6的示例中示出的HOA渲染器1714来描述的方式应用渲染矩阵,以将混合的基于场景的音频数据1813转换成双声道音频数据1715。

HOA渲染器1811可以将渲染矩阵应用于由混合单元1810输出的混合的基于场景的音频数据1813。通过将渲染矩阵应用于混合的基于场景的音频数据1813的流,HOA渲染器1811可以生成空间域双声道剧情声音频数据。混合单元1812可以将由HOA渲染器1811生成的双声道剧情声音频数据与非剧情声音频数据混合,以生成在空间域中的混合的音频数据。耳机220可以包括被配置为重现通过混合的音频数据表示的声场的扬声器。HOA渲染器1811可以以与图6的HOA渲染器1714相同的方式来操作。此外,在一些示例中,HOA渲染器1811可以是在耳机220中实现的,而音频回放系统218的一个或多个其它组件可以是在诸如智能电话或计算机的另一设备中实现的。

因此,在一些示例中,本公开内容的技术可以在用于渲染音频流的一个或多个设备中实现。设备可以包括存储器、电池、CPU等等,其被配置为基于可用的硬件资源来生成与针对期望的渲染阶的等效空间域表示相对应的扬声器位置集合。设备可以接收基于场景的音频流,以及将流截断至具有期望的渲染阶的基于场景的音频表示。此外,设备可以接收基于对象和/或通道的音频流以及将所述流转换至具有期望的渲染阶的基于场景的音频表示。

此外,设备可以将基于场景的音频表示与期望的渲染阶流混合,以产生具有期望的渲染阶混合流的基于场景的音频表示,所述期望的渲染阶流对应于基于场景的、基于对象的和基于通道的音频流。设备可以利用期望的渲染阶混合流将基于场景的音频表示渲染至双声道的或基于扬声器的表示。在一些示例中,期望的渲染阶是是基于以下各项来确定的:基于场景的音频流的阶和/或来自基于对象的音频流的元数据信息。在一些示例中,具有期望的渲染阶混合流表示的基于场景的音频表示是可以根据来自动作传感器的信息重新配置的。

图8是根据本公开内容的技术示出使用通用信息性参考渲染器的音频回放系统218的示例实现方式的方块图,通用信息性参考渲染器使用耳机捕获的音频数据用于增强现实。除了耳机220可以包括在耳机220的用户的环境中捕获声音的麦克风之外,图8与图6相似。耳机220可以基于来自麦克风的信号来生成耳机捕获的音频数据223。

在一些示例中,耳机捕获的音频数据223包括空间域音频数据。在这样的示例中,基于对象/通道的外部渲染器1702或基于对象/通道的内部渲染器1704可以基于确定的虚拟扬声器位置1721的组合和耳机捕获的音频数据223,来生成修改的空间域音频数据223’(例如,使用VBAP)。混合单元1710可以基于从由HOA至空间域转换单元1708输出的比特流和/或空间域音频数据1731解码的基于通道/对象的音频数据,来将修改的空间域音频数据223’与由基于对象/通道的外部渲染器1702或基于对象/通道的内部渲染器1704生成的空间域音频数据1733混合。然后,由混合单元1710生成的空间域音频数据可以是以上文关于图6描述的方式来处理的。

在一些示例中,耳机捕获的音频数据223包括基于场景的音频数据。在这样的例中,HOA至空间域转换单元1708可以基于确定的虚拟扬声器位置1721的集合和耳机捕获的音频数据223来生成修改的空间域音频数据223’。混合单元1710可以基于从比特流和/或空间域音频数据1731解码的基于通道或基于对象的音频数据,来将修改的空间域音频数据223’与由基于对象/通道的外部渲染器1702或基于对象/通道的内部渲染器1704生成的空间域音频数据1733混合,所述比特流和/或空间域音频数据1731是由HOA至空间域转换单元1708基于从比特流216解码的基于场景的音频数据1703输出的。

然后,由混合单元1710生成的空间域音频数据可以以关于图8描述的方式来处理。例如,HOA转换器1712可以将由混合单元1710输出的音频数据转换成基于场景的音频数据。因此,根据本公开内容的技术,音频回放系统218可以基于耳机捕获的音频数据223和从比特流216解码的数据来生成基于场景的音频数据,其中耳机捕获的音频数据包括表示由计算机介导现实(CMR)耳机(例如,耳机220)检测的声音的音频数据。

类似的示例可以是关于图7的用于接收耳机捕获的音频数据的基于对象/通道的外部渲染器1802、基于对象/通道的内部渲染器1804和截断单元1808来提供的。

图9是示出在图7中示例中示出的音频回放系统在执行可扩展的统一的渲染技术的各个方面中的示例操作的流程图。CMR流解码器1706可以接收比特流216,以及从比特流216解码在给定时间帧内的第一音频数据1703以及在相同的时间帧内的第二音频数据1705(1900)。CMR流解码器1706可以向HOA至空间域转换单元1708输出第一音频数据1703,以及向基于对象/通道的渲染器1704输出第二音频数据1705。

HOA至空间域转换单元1708可以将第一音频数据1703渲染成第一空间域音频数据1731,用于由在虚拟扬声器位置集合1721处的虚拟扬声器进行的回放,如上文所描述(1902)。HOA至空间域转换单元1708可以向混合单元1710输出第一空间域音频数据1731。如上文所描述,基于对象/通道的渲染器1704可以将第二音频数据1705渲染成空间域音频数据1733,用于由在虚拟扬声器位置集合1721处的虚拟扬声器进行的回放(1904)。基于对象/通道的渲染器1704可以向混合单元1710输出第二空间域音频数据1733。

混合单元1710可以将第一空间域音频数据1731和第二空间域音频数据1733混合以获得混合的空间域音频数据1735(1906)。混合单元1710可以向HOA转换器1712输出混合的空间域音频数据1735,该HOA转换器1712可以将混合的空间域音频数据1735转换至基于场景的音频数据1737(1908)。

在一些示例中,HOA转换器1712可以向无线耳机220发送基于场景的音频数据1737,该无线耳机220合并HOA渲染器1714以基于动作传感数据221来促进接近实时地适应渲染矩阵,如上文更详细地描述的。在其它实例中,音频回放系统218可以包括HOA渲染器1714,以及基于动作传感数据221来执行上文指出的对渲染矩阵的适应。

要理解的是,取决于示例,本文中描述的技术中的任何技术的某些动作或事件可以以不同的顺序来执行,可以增加、合并或全部省去(例如,对于技术的实践不是所有描述的动作或事件都是必需的)。此外,在某些示例中,可以同时地而不是顺序地执行动作或事件,例如,通过多线程的处理、中断处理或多个处理器。

在一个或多个示例中,描述的功能可以在硬件、软件、固件或其组合中实现。如果在软件中实现,则功能可以作为一个或多个指令或代码存储在计算机可读介质上或是在其之上发送的,以及由基于硬件的处理单元执行。计算机可读介质可以包括计算机可读存储介质或者通信介质,所述计算机可读存储介质对应于诸如数据存储介质的有形的介质,所述通信介质包括促进计算机程序例如根据通信协议从一个地方到另一地方的传送的任何介质。用这种方式,计算机可读介质通常可以对应于(1)有形的计算机可读存储介质,其是非暂时性的,或者(2)诸如信号或载波的通信介质。数据存储介质可以是可以由一个或多个计算机或一个或多个处理器存取以取回指令、代码和/或数据结构用于在本公开内容中描述的技术的实现方式的任何可用的介质。计算机程序产品可以包括计算机可读介质。

通过举例而非限制的方式,这样的计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储设备、闪存,或者可以用来以指令或数据结构的形式存储期望的程序代码以及可以由计算机存取的任何其它介质。另外,任何连接适当地称为计算机可读介质。例如,如果使用同轴电缆、光纤光缆、双绞线、数字用户线(DSL)或诸如红外线、无线电以及微波的无线技术从网站、服务器或其它远程源发送指令,那么同轴电缆、光纤光缆、双绞线、DSL或诸如红外线、无线电以及微波的无线技术包括在介质的定义中。然而,应理解的是,计算机可读存储介质以及数据存储介质不包括连接、载波、信号或其它暂时性介质,但是反而指向非暂时性、有形的存储介质。如本文中所使用的,磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘,其中磁盘通常磁性地复制数据,而光盘则利用激光来光学地复制数据。上述的组合也应当包括在计算机可读介质的范围内。

指令可以由一个或多个处理器执行,所述一个或多个处理器诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或其它等效的整合的或分立的逻辑电路。因此,如本文中所使用的术语“处理器”可以指的是前述结构中的任何结构或适合用于实现本文所描述的技术的任何其它结构。此外,在一些方面中,本文中描述的功能可以在被配置用于编码和解码的专用硬件和/或软件模块内提供,或者合并在组合的编解码器中。此外,所述技术可以在一个或多个电路或逻辑元素中充分地实现。

本公开内容的技术可以在多种多样的设备或装置中实现,所述设备或装置包括无线耳机、集成电路(IC)或IC集合(例如,芯片集)。在本公开内容中描述各种组件、模块或单元以强调被配置为执行公开的技术的设备的功能的方面,但是不必然要求由不同的硬件单元来实现。反而,如上文所描述,各种单元可以合并在编解码器硬件单元中或由包括如上文所描述的一个或多个存储器的一批互操作的硬件单元连同适当的软件和/或固件来提供。

已描述各种示例。这些示例以及其它示例在所附权利要求书的范围内。

32页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:车辆对车辆通信系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!