用于定向声源的编码及解码的方法、设备及系统

文档序号:991511 发布日期:2020-10-20 浏览:9次 >En<

阅读说明:本技术 用于定向声源的编码及解码的方法、设备及系统 (Method, apparatus and system for encoding and decoding of directional sound source ) 是由 N·R·钦格斯 M·R·P·托马斯 C·费尔施 于 2019-04-15 设计创作,主要内容包括:一些所揭示方法涉及对定向音频数据进行编码或解码。一些编码方法可涉及接收对应于音频对象的单声道信号及对应于所述音频对象的辐射模式的表示。所述辐射模式可包含对应于多个采样时间、多个频带及多个方向的声级。所述方法可涉及对所述单声道音频信号进行编码以及对所述源辐射模式进行编码以确定辐射模式元数据。对所述辐射模式进行编码可涉及确定辐射模式的所述表示的球面调和变换并压缩所述球面调和变换以获得经编码辐射模式元数据。(Some disclosed methods relate to encoding or decoding directional audio data. Some encoding methods may involve receiving a mono signal corresponding to an audio object and a representation of a radiation pattern corresponding to the audio object. The radiation pattern may include sound levels corresponding to a plurality of sampling times, a plurality of frequency bands, and a plurality of directions. The method may involve encoding the mono audio signal and encoding the source radiation pattern to determine radiation pattern metadata. Encoding the radiation pattern may involve determining a spherical harmonic transform of the representation of the radiation pattern and compressing the spherical harmonic transform to obtain encoded radiation pattern metadata.)

用于定向声源的编码及解码的方法、设备及系统

相关申请案的交叉参考

本申请案主张2018年4月16日申请的第62/658,067号美国专利申请案;2018年6月6日申请的第62/681,429号美国专利申请案及2018年10月4日申请的第62/741,419号美国专利申请案的优先权的权益,所述申请案的全部内容特此以引用的方式并入本文中。

技术领域

本发明涉及基于多个动态及/或移动定向源的定向声源及听觉场景的编码及解码

背景技术

现实世界的声源,无论是自然或人造的(扬声器、乐器、语音、机械装置)均以非各向同性方式辐射声音。特性化声源的辐射模式(或“方向性”)对于正确渲染可为至关重要的,尤其是在例如视频游戏及虚拟/增强现实(VR/AR)应用等的交互式环境的背景中。在这些环境中,用户通常通过在定向音频对象周围走动而与定向音频对象进行交互,借此改变其对所产生声音的听觉立体感(也称为6自由度[DoF]渲染)。用户还可抓取并动态旋转虚拟对象,同样需要在对应声源的辐射模式中渲染不同方向。除更真实地渲染从源到收听者的直接传播效果外,辐射特性还将在源与其环境(例如,游戏中的虚拟环境)之间的高阶声耦合中起主要作用,借此影响混响声音(即,如在回声中那样来回行进的声波)。因此,此类混响可能影响其它空间线索,例如感知距离。

大多数音频游戏引擎提供表示及渲染定向声源的某种方法,但是通常受限于简单的定向增益,其依赖于简单的一阶余弦函数或“音锥(sound cone)”(例如,幂余弦函数)及简单的高频滚降滤波器。这些表示不足以表示现实世界辐射模式,且也不太适合于多种定向声源的简化/组合表示。

发明内容

本文揭示各种音频处理方法。一些此类方法可涉及编码定向音频数据。举例来说,一些方法可涉及接收对应于音频对象的单声道音频信号及对应于所述音频对象的辐射模式的表示。所述辐射模式可例如包含对应于多个采样时间、多个频带及多个方向的声级。一些此类方法可涉及对所述单声道音频信号进行编码及对源辐射模式进行编码以确定辐射模式元数据。所述辐射模式的所述编码可涉及确定所述辐射模式的所述表示的球面调和变换并压缩所述球面调和变换以获得经编码辐射模式元数据。

一些此类方法可涉及基于音频对象的集群来对多个定向音频对象进行编码。所述辐射模式可表示反映针对每一频带的平均声级值的质心。在一些此类实施方案中,所述多个定向音频对象经编码为单个定向音频对象,其方向性与每一音频对象的球面调和系数的时变能量加权平均值相对应。所述经编码辐射模式元数据可指示音频对象的集群的位置,其为每一音频对象的所述位置的平均值。

一些方法可涉及对有关定向音频对象的群组的辐射模式的群组元数据进行编码。在一些实例中,所述源辐射模式可在基于每一频率的方向上经重新缩放为所述输入辐射模式的振幅,以确定归一化辐射模式。根据一些实施方案,压缩所述球面调和变换可涉及奇异值分解方法、主成分分析、离散余弦变换、与数据无关的基及/或消除高于球面调和系数的阈值阶的所述球面调和变换的球面调和系数。

一些替代方法可涉及对音频数据进行解码。举例来说,一些此类方法可涉及接收经编码核心音频信号、经编码辐射模式元数据及经编码音频对象元数据,以及对所述经编码核心音频信号进行解码以确定核心音频信号。一些此类方法可涉及对所述经编码辐射模式元数据进行解码以确定经解码辐射模式,对所述音频对象元数据进行解码,以及基于所述音频对象元数据及所述经解码辐射模式渲染所述核心音频信号。

在一些情况下,所述音频对象元数据可包含时变3自由度(3DoF)或6自由度(6DoF)源取向信息中的至少一者。所述核心音频信号可包含基于对象的集群的多个定向对象。所述经解码辐射模式可表示反映针对每一频带的平均值的质心。在一些实例中,所述渲染可基于将至少部分基于所述经解码辐射数据的子带增益应用于所述经解码核心音频信号。所述经编码辐射模式元数据可与一组时变及频变球面调和系数相对应。

根据一些实施方案,所述经编码辐射模式元数据可包含音频对象类型元数据。所述音频对象类型元数据可例如指示参数方向性模式数据。所述参数方向性模式数据可包含余弦函数、正弦函数或心形函数。在一些实例中,所述音频对象类型元数据可指示数据库方向性模式数据。对所述经编码辐射模式元数据进行解码以确定所述经解码辐射模式可涉及查询包含音频对象类型及对应方向性模式数据的方向性数据结构。在一些实例中,所述音频对象类型元数据指示动态方向性模式数据。所述动态方向性模式数据可与一组时变及频变球面调和系数相对应。一些方法可涉及在接收所述经编码核心音频信号之前,接收所述动态方向性模式数据。

本文所描述的一些或全部方法可由一或多个装置根据存储在一或多个非暂时性媒体上的指令(例如,软件)执行。此非暂时性媒体可包含例如本文所描述的那些存储器装置的存储器装置,其包含(但不限于)随机存取存储器(RAM)装置、只读存储器(ROM)装置等。因此,在本发明中描述的标的物的各种创新方面可在其上存储有软件的一或多个非暂时性媒体中实施。所述软件可例如包含用于控制至少一个装置处理音频数据的指令。所述软件可例如由例如本文揭示的那些控制系统的控制系统的一或多个组件执行。所述软件可例如包含用于执行本文揭示的方法中的一或多者的指令。

可经由设备来实施本发明的至少一些方面。举例来说,一或多个装置可经配置用于至少部分执行本文揭示的方法。在一些实施方案中,一种设备可包含接口系统及控制系统。所述接口系统可包含一或多个网络接口、所述控制系统与存储器系统之间的一或多个接口、所述控制系统与另一装置之间的一或多个接口及/或一或多个外部装置接口。所述控制系统可包含通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑或离散硬件组件中的至少一者。因此,在一些实施方案中,所述控制系统可包含一或多个处理器以及可操作地耦合到一或多个处理器的一或多个非暂时性存储媒体。

根据一些此类实例,所述控制系统可经配置用于经由所述接口系统接收对应于至少一个音频对象的音频数据。在一些实例中,所述音频数据可包含单声道音频信号、音频对象位置元数据、音频对象大小元数据及渲染参数。一些此类方法可涉及确定所述渲染参数指示位置模式还是方向性模式,且在确定所述渲染参数指示方向性模式时,根据由所述位置元数据及/或所述大小元数据指示的方向性模式,经由至少一个扬声器渲染所述音频数据用于再现。

在一些实例中,渲染所述音频数据可涉及将所述音频对象位置元数据解译为音频对象取向元数据。所述音频对象位置元数据可例如包含x、y、z坐标数据、球面坐标数据或柱面坐标数据。在一些情况下,所述音频对象取向元数据可包含侧倾、俯仰及滚转数据。

根据一些实例,渲染所述音频数据可涉及将所述音频对象大小元数据解译为对应于所述方向性模式的方向性元数据。在一些实施方案中,渲染所述音频数据可涉及查询包含多个方向性模式的数据结构,以及将所述位置元数据及/或所述大小元数据中映射到所述方向性模式中的一或多者。在一些情况下,所述控制系统可经配置用于经由所述接口系统接收所述数据结构。在一些实例中,所述数据结构可在所述音频数据之前被接收。在一些实施方案中,其中可以杜比全景声格式接收所述音频数据。所述音频对象位置元数据可例如对应于世界坐标或模型坐标。

在附图及以下描述中阐述本说明书中描述的标的物的一或多个实施方案的细节。将从描述、图式及权利要求书明白其它特征、方面及优点。应注意,以下图式的相对尺寸可能未按比例绘制。在各个图式中的相似参考数字及标号通常指示相似元件。

附图说明

图1A是展示根据一个实例的音频编码方法的框的流程图。

图1B说明根据一个实例的可由用于动态地对针对定向音频对象的每帧方向性信息进行编码的编码系统实施的过程框。

图1C说明根据一个实例的由解码系统实施的过程框。

图2A及2B表示在两个不同频带中的音频对象的辐射模式。

图2C是展示根据一个实例的归一化及非归一化辐射模式的实例的曲线图。

图3展示包含音频数据及各种类型的元数据的层级的实例。

图4是展示根据一个实例的音频解码方法的框的流程图。

图5A描绘鼓钹。

图5B展示扬声器系统的实例。

图6是展示根据一个实例的音频解码方法的框的流程图。

图7说明对多个音频对象进行编码的一个实例。

图8是展示可经配置以执行本文揭示的方法中的至少一些的设备的组件的实例的框图。

在各个图式中,相似参考数字及标号指示相似元件。

具体实施方式

本发明的方面涉及复杂辐射模式的表示及有效译码。一些此类实施方案可包含以下中的一或多者:

1.将一般声音辐射模式表示为实值球面调和函数(SPH)分解(N>=1)的与时间及频率相关的N阶系数。此表示还可扩展为取决于回放音频信号的电平。与定向源信号本身就是类HOA的PCM表示的情况相反,单声道目标信号可与其方向性信息分开进行编码,所述方向性信息表示为子带中的一组与时间相关的标量SPH系数。

2.一种高效编码方案,其用以降低表示此信息所需的位速率

3.一种解决方案,其用以动态地组合辐射模式,使得由若干辐射声源组成的场景可由等效的数目减少的源表示,同时在渲染时间处保持其感知质量。

本发明的方面涉及表示一般辐射模式,以便通过一组时间/频率相关系数来补充针对每一单声道音频对象的元数据,所述一组时间/频率相关系数表示以N阶球面调和基投射的单声道音频对象的方向性(N>=1)。

一阶辐射模式可由针对一组预定义频带(例如,1/3倍频程)的一组4个标量增益系数来表示。所述组频带也可称为分组或子带。可基于短时傅里叶变换(STFT)或针对单个数据帧的感知滤波器组(例如,如杜比全景声(Dolby Atmos)中的512个样本)来确定分组或子带。可通过评估在围绕对象的所需方向下的球面调和函数分解来渲染所得图案。

一般来说,此辐射模式是源的特性,并且可随时间恒定。然而,为表示对象旋转或改变的动态场景,或确保可随机存取数据,以规则时间间隔更新此组系数可能是有益的。在具有移动对象的动态听觉场景的情况下,可将对象旋转的结果直接编码在时变系数中,而无需对象取向的明确单独编码。

每一类型的声源具有特性辐射/发射模式,其通常随频带而不同。举例来说,小提琴可能具有与小号、鼓或铃铛非常不同的辐射模式。此外,例如乐器的声源可能在很弱及很强演奏水平上不同地辐射。因此,辐射模式还可为不仅是围绕发声对象的方向而且是其辐射的音频信号的压力水平的函数,其中压力水平也可为时变的。

因此,代替简单地表示空间中点处的声场,一些实施方案涉及对对应于音频对象的辐射模式的音频数据进行编码,使得其可从不同的有利点渲染。在一些情况下,辐射模式可为时变及频变辐射模式。在一些情况下,输入到编码过程的音频数据可包含来自定向麦克风的音频数据的多个信道(例如,4、6、8、20或更多个信道)。每一信道可对应于来自围绕可从其得到辐射模式的声源的空间中特定位置处的麦克风的数据。假定从每一麦克风到源的相对方向是已知的,那么这可通过对一组球面调和系数进行数值拟合来实现,使得所得球面函数最佳匹配每一输入麦克风信号的不同子带中的观测能级。例如,参见结合尼古拉斯·辛格斯(Nicolas Tsingos)及拉蒂普·库玛·葛文达拉如(Pradeep KumarGovindaraju)的《用于确定音频表示的方法、系统及设备》(Method,Systems andApparatus for Determining Audio Representations)的第PCT/US2017/053946号申请案描述的方法及系统,所述申请案特此以引用的方式并入本文中。在其它实例中,可经由数值模拟来确定音频对象的辐射模式。

代替简单地以样本级对来自定向麦克风的音频数据进行编码,一些实施方案涉及用表示针对经编码音频对象中的至少一些的辐射模式的对应辐射模式元数据对单声道音频对象信号进行编码。在一些实施方案中,辐射模式元数据可经表示为球面调和数据。一些此类实施方案可能涉及平滑过程及/或压缩/数据简化过程。

图1A是展示根据一个实例的音频编码方法的框的流程图。方法1可例如由包含一或多个处理器及一或多个非暂时性存储器装置的控制系统(例如下面参考图8描述的控制系统815)来实施。与其它揭示方法一样,并非方法1的所有框都必须按照图1A中所展示的次序执行。此外,替代方法可包含更多或更少框。

在此实例中,框5涉及接收对应于音频对象的单声道音频信号,且还接收对应于音频对象的辐射模式的表示。根据此实施方案,辐射模式包含对应于多个样本时间、多个频带及多个方向的声级。根据此实例,框10涉及对单声道音频信号进行编码。

在图1A中所展示的实例中,框15涉及对源辐射模式进行编码以确定辐射模式元数据。根据此实施方案,对辐射模式的表示进行编码涉及确定辐射模式的表示的球面调和变换并压缩球面调和变换以获得经编码辐射模式元数据。在一些实施方案中,辐射模式的表示可在基于每一频率的方向上经重新缩放为输入辐射模式的振幅,以确定归一化辐射模式。

在一些情况下,压缩球面调和变换可能涉及丢弃一些高阶球面调和系数。一些此类实例可涉及消除在球面调和系数的阈值阶以上(例如在3阶以上、在4阶以上、在5阶以上等)的球面调和变换的球面调和系数。

然而,一些实施方案可涉及替代及/或额外压缩方法。根据一些此类实施方案,压缩球面调和变换可涉及奇异值分解方法、主成分分析、离散余弦变换、与数据无关的基及/或其它方法。

根据一些实例,方法1还可涉及将多个定向音频对象编码为音频对象的群组或“集群”。一些实施方案可涉及对有关定向音频对象的群组的辐射模式的群组元数据进行编码。在一些情况下,多个定向音频对象经编码为单个定向音频对象,其方向性与每一音频对象的球面调和系数的时变能量加权平均值相对应。在一些此类实例中,经编码辐射模式元数据可表示与针对每一频带的平均声级值相对应的质心。举例来说,经编码辐射模式元数据(或相关元数据)可指示音频对象的集群的位置,其是所述集群中每一定向音频对象的位置的平均值。

图1B说明根据一个实例的可由编码系统100实施以用于对针对定向音频对象的每帧方向性信息动态地进行编码的过程框。举例来说,所述过程可经由例如参考图8在下文描述的控制系统815的控制系统来实施。编码系统100可接收单声道音频信号101,其可对应于如上文论述的单声道对象信号。单声道音频信号101可在框111处经编码并且经提供到串行化框112。

在框102处,可处理相对于参考坐标系的一组频带中的处于不同声级的静态或时变方向能量样本。可在例如模型坐标空间或世界坐标空间的某一坐标空间中确定参考坐标系。

在框105处,可执行来自框102的时变定向能量样本的频率相关的重新缩放。在一个实例中,可根据图2A到2C中所说明的实例执行与频率相关的重新缩放。归一化可基于例如相对于低频方向的高频的振幅的重新缩放。

可基于核心音频假定捕获方向来重新归一化与频率相关的重新缩放。此核心音频假定捕获方向可表示相对于声源的收听方向。举例来说,此收听方向可称为观看方向,其中观看方向可在相对于坐标系的某一方向上(例如,向前方向或向后方向)。

在框106处,可将105的经重新缩放方向性输出投射到球面调和函数基上,从而得到球面调和函数的系数。

在框108处,基于瞬时声级107及/或来自旋转框109的信息来处理框106的球面系数。可在某一时间在某一方向上测量瞬时声级107。来自旋转框109的信息可指示时变源取向103的(任选)旋转。在一个实例中,在框109处,球面系数可经调整以考虑相对于原始记录输入数据的源取向中的与时间相关的修改。

在框108处,可基于相对于核心音频信号的假定捕获方向的方向确定的均衡来进一步执行目标级确定。框108可输出已基于目标级确定经均衡的一组旋转球面系数。

在框110处,辐射模式的编码可基于到与源辐射模式相关的球面系数的较小子空间上的投射,从而导致经编码辐射模式元数据。如图1A中所展示,在框110处,可对由框108输出的球面系数执行SVD分解及压缩算法。在一个实例中,可根据结合下文描述的第11到13等式来描述的原理来执行框110的SVD分解及压缩算法。

替代地,框110可涉及利用其它方法,例如主成分分析(PCA)及/或与数据无关的基,例如2D DCT,以将球面调和表示

Figure BDA0002635391130000071

投射到有助于有损压缩的空间中。110的输出可为表示数据到输入的较小子空间中的投射的矩阵T,即经编码辐射模式T。经编码辐射模式样T、经编码核心单声道音频信号111及任何其它对象元数据104(例如,x、y、z,任选源取向等)可在串行化块112处经串行化以输出经编码位流。在一些实例中,辐射结构可由每一经编码音频帧中的以下位流语法结构表示:

字节freqBandModePreset(例如,宽带、倍频程、宽带、1/3个倍频程、常规)。

这确定子带的数目N及中心频率值)

字节次序(球面调和次序N)

Int*系数((N+1)*(N+1)*K值)

此语法可涵盖针对声源的不同压力/强度水平的不同组系数。替代地,如果方向性信息在不同的信号电平下可用,并且如果在回放时间不能进一步确定源的电平,那么可动态地产生单组系数。举例来说,可基于对象音频信号在编码时间的时变电平,通过在低电平系数与高电平系数之间内插来产生此类系数。

相对于单声道音频对象信号的输入辐射模式也可经‘归一化’到给定方向,例如主响应轴(其可为从其记录单声道音频对象信号的方向或多次记录的平均值),且经编码方向性及最终渲染可能需要与此‘归一化’一致。在一个实例中,此归一化可被指定为元数据。一般来说,期望对核心音频信号进行编码,所述核心音频信号在不应用方向性信息的情况下将传达对象音色的良好表示。

方向性编码

本发明的方面是针对实施针对方向性信息的高效编码方案,这是因为系数的数目以分解的次序二次增长。可实施针对方向性信息的高效编码方案以用于听觉场景例如通过有限带宽网络到端点渲染装置的最终发射传递。

假定使用16位来表示每一系数,那么在1/3倍频程带中的4阶球面调和表示将需要每帧25*31~=12kbit。以30Hz刷新此信息将需要至少400kbps的传输位速率,这比当前基于对象的音频编解码器当前传输音频及对象元数据两者所需要的位速率更高。在一实例中,辐射模式可由以下表示:

G(θii,ω) 第(1)等式

在等式(1)中,(θii),i∈{1…P}表示相对于声源的离散余纬角θ∈[0,π]及方位角φ∈[0,2π),P表示离散角的总数目,且ω表示频谱频率。图2A及2B表示两个不同频带中的音频对象的辐射模式。举例来说,图2A可表示从100到300Hz的频带中音频对象的辐射模式,而图2B可例如表示从1kHz到2kHz的频带中相同音频对象的辐射模式。低频往往是相对更全向的,因此图2A中所展示的辐射模式比图2B中所展示的辐射模式相对更圆。在图2A中,G(θ00,ω)表示在主响应轴200的方向上的辐射模式,而G(θ11,ω)表示在任意方向205上的辐射模式。

在一些实例中,可通过物理上放置在对应于音频对象的声源周围的多个麦克风来捕获及确定辐射模式,而在其它实例中,可经由数值模拟来确定辐射模式。在多个麦克风的实例中,辐射模式可为时变反映,例如实时记录。可在各种频率下捕获辐射模式,其包含低频(例如,<100Hz)、中频(100Hz<及>1kHz)及高频(>10KHz)。辐射模式也可称为空间表示。

在另一个实例中,辐射模式可基于在某一方向G(θii,ω)上以某一频率的捕获辐射模式来反映归一化,例如(举例来说):

在第(2)等式中,G(θ00,ω)表示在主响应轴方向上的辐射模式。再次参考图2B,在一个实例中,某人可看到辐射模式G(θii,ω)及归一化辐射模式H(θii,ω)。图2C是展示根据一个实例的归一化及非归一化辐射模式的实例的曲线图。在此实例中,在主响应轴的方向上的归一化辐射模式(其在图2C中表示为H(θ00,ω))跨越频带的所说明范围具有大体上相同振幅。在此实例中,在方向205上的归一化辐射模式(在图2A中展示)(其在图2C中表示为H(θ11,ω))与未归一化辐射模式(其在图2C中表示为G(θ11,ω))相比,在较高频率中具有相对较高振幅。针对给定频带,为符号标注上的方便,可假定辐射模式是恒定的,但实际上其可随时间变化,例如随着在弦乐器上采用的不同弓法变化。

可传输辐射模式或其参数表示。辐射模式的预处理可在其传输之前执行。在一个实例中,可通过计算算法对辐射模式或参数表示进行预处理,相对于图1A展示所述计算算法的实例。在预处理之后,可基于例如以下而在正交球面基础上分解辐射模式:

Figure BDA0002635391130000092

在第(3)等式,H(θii,ω)表示空间表示,并且

Figure BDA0002635391130000093

表示具有比空间表示更少的元素的球面调和函数表示。H(θii,ω)与

Figure BDA0002635391130000094

之间的转换可基于例如使用真实完全归一化球面调和:

Figure BDA0002635391130000095

在第(4)等式中,表示相关联勒让德多项式,阶m∈{-N…N},度n∈{0…N},且

也可使用其它球面基。可使用用于对离散数据执行球面调和函数变换的任何方法。在一个实例中,可通过首先定义变换矩阵

Figure BDA0002635391130000098

来使用最小二乘法:

借此将球面调和函数表示与空间表示关联为

Figure BDA0002635391130000102

在第(7)等式中,

Figure BDA0002635391130000103

球面调和表示及/或空间表示可经存储用于进一步处理。

伪逆

Figure BDA0002635391130000104

可为以下形式的加权最小二乘解:

Figure BDA0002635391130000105

对于球面样本的分布含有大量丢失数据的案例,正则化解也可适用。丢失数据可对应于对其没有方向性样本可用(例如,归因于不均匀麦克风覆盖范围)的区域或方向。在许多案例中,空间样本的分布足够均匀,以至于恒等加权矩阵W产生可接受结果。通常还可假定P>>(N+1)2,因此球面调和函数表示

Figure BDA0002635391130000106

含有比空间表示H(ω)少的元素,借此产生使辐射模式数据平滑的一级有损压缩。

现在考虑离散频带ωk,k∈{1…K}。矩阵H(ω)可堆叠,使得每一频带由一列矩阵表示

也就是说,可基于频率分组/带/组来确定空间表示H(ω)。因此,球面调和表示可基于:

Figure BDA0002635391130000108

在第(10)等式中,

Figure BDA0002635391130000109

表示针对球面调和域中所有离散频率的辐射模式。可预期,的相邻列是高度相关的,从而导致表示中的冗余。一些实施方案涉及通过以下形式的矩阵因式分解进一步分解

Figure BDA00026353911300001012

一些实施例可涉及执行奇异值分解(SVD),其中

Figure BDA00026353911300001014

表示左及右奇异矩阵及表示沿其对角线减少奇异值的矩阵。矩阵V信息可被接收或存储。替代地,主成分分析(PCA)及与数据无关的基(例如2D DCT)可用以将

Figure BDA00026353911300001016

投射到有助于有损压缩的空间中。

令O=(N+1)2。在一些实例中,为了实现压缩,编码器可通过基于以下来计算乘积来丢弃对应于较小奇异值的分量:

T=U∑′, 第(12)等式

在第(12)等式中,表示∑的截断副本。矩阵T可表示数据到输入的较小子空间中的投射。T表示接着经传输用于进一步处理的经编码辐射模式数据。在解码、接收侧上,在一些实例中,可接收矩阵T,并且可基于以下来重构对

Figure BDA0002635391130000112

的低秩近似:

在第(13)等式中,

Figure BDA0002635391130000114

表示V的截断副本。矩阵V可在解码器侧上经传输或存储。

以下是用于传输截断分解及截断的右奇异向量的三个实例:

1.发射器可针对每一对象独立地传输经编码辐射T及截断右奇异向量V′。

2.可例如按照相似性度量将对象进行分组,并且U及V可经计算为针对多个对象的代表性基。因此,可按对象传输经编码辐射T,并且可按对象的群组传输U及V。

3.可在代表性数据(例如,训练数据)的大型数据库上预先计算左及右奇异矩阵U及V,并且有关V的信息可存储在接收器的侧上。在一些此类实例中,仅可按对象传输经编码辐射T。DCT是可存储在接收器的侧上的基础的另一个实例。

定向对象的空间编码

当对包括多个对象的复杂听觉场景进行编码及传输时,可能应用空间编码技术,其中以最好地保留场景的听觉感知的方式,由较少数目个代表性集群替换个别对象。一般来说,由代表性“质心”替换声源的群组需要计算针对每一元数据字段的聚合值/平均值。例如,声源集群的位置可为每一源的位置的平均值。通过使用如上文概述的球面调和分解来表示每一源的辐射模式(例如,参考第1到12等式),可线性组合针对每一源的每一子带中的系数组,以便构造用于源的集群的平均辐射模式。通过计算随时间变化的球面调和系数的响度或能量加权平均值,可构造更好保留原始场景的时变感知优化表示。

图1C展示根据一个实例的可由解码系统实施的过程的框。举例来说,图1C中所展示的框可由包含一或多个处理器及一或多个非暂时性存储器装置的解码装置的控制系统(例如下文参考图8描述的控制系统815)来实施。在框150处,可接收并反串行化元数据及经编码核心单声道音频信号。反串行化信息可包含对象元数据151、经编码核心音频信号及经编码球面系数。在框152处,可对经编码核心音频信号进行解码。在框153处,可对经编码球面系数进行解码。经编码辐射模式信息可包含经编码辐射模式T及/或矩阵V。矩阵V将取决于用以将投射到空间中的方法。如果在图1B的框110处使用SVD算法,那么可由解码系统接收或存储矩阵V。

对象元数据151可包含有关源到收听者相对方向的信息。在一个实例中,元数据151可包含有关收听者的距离及方向以及相对于6DoF空间的一或多个对象距离及方向的信息。举例来说,元数据151可包含有关在6DoF空间中的源的相对旋转、距离及方向的信息。在集群中的多个对象的实例中,元数据字段可反映有关反映对象的集群的聚合值/平均值的代表性“质心”的信息。

渲染器154然后可渲染经解码核心音频信号及经解码球面调和函数系数。在一个实例中,渲染器154可基于对象元数据151来渲染经解码核心音频信号及经解码球面调和函数系数。渲染器154可基于来自元数据151的信息(例如,源到收听者相对方向)来确定针对辐射模式的球面系数的子带增益。然后,渲染器154可基于对应经解码辐射模式的所确定子带增益、源及/或收听者姿势信息(例如,x、y、z、侧倾、俯仰、滚转)155来渲染核心音频对象信号。收听者姿势信息可对应于在6DoF空间中的用户的位置及观察方向。可从例如光学跟踪设备的VR回放系统本地的源接收收听者姿势信息。源姿势信息对应于空间中发声对象的位置及取向。也可从本地跟踪系统推断,例如,用户的手是否并跟踪并以交互方式操纵虚拟发声对象,或者是否使用跟踪物理道具(prop)/代理对象。

图3展示包含音频数据及各种类型的元数据的层级的实例。与本文提供的其它图式一样,仅通过实例的方式提供图3中所展示的音频数据及元数据的数目及类型。一些编码器可提供图3所展示的所述一组完整的音频数据及元数据(数据组345),而其它编码器可仅提供图3中所展示的元数据的一部分,例如,仅数据组315,仅数据组325或仅数据组335。

在此实例中,音频数据包含单声道音频信号301。单声道音频信号301是本文有时称为“核心音频信号”的音频信号的一个实例。然而,在一些实例中,核心音频信号可包含对应于集群中包含的多个音频对象的音频信号。

在此实例中,音频对象位置元数据305经表达为笛卡尔坐标。然而,在替代实例中,音频对象位置元数据305可经由例如球面或极坐标的其它类型的坐标来表达。因此,音频对象位置元数据305可包含三个自由度(3DoF)位置信息。根据此实例,音频对象元数据包含音频对象大小元数据310。在替代实例中,音频对象元数据可包含一或多种其它类型的音频对象元数据。

在此实施方案中,数据组315包含单声道音频信号301、音频对象位置元数据305及音频对象大小元数据310。数据组315例如可以Dolby AtmosTM音频数据格式提供。

在此实例中,数据组315还包含任选渲染参数R。根据一些所揭示实施方案,任选渲染参数R可指示数据组315的音频对象元数据中至少一些是应以其“正常”意义(例如,如位置或大小元数据)来解译,还是应经解译为方向性元数据。在一些揭示的实施方案中,“正常”模式在本文可被称为“位置模式”,且替代性模式在本文中可被称为“方向性模式”。下文参考图5A到6描述一些实例。

根据此实例,取向元数据320包含用于表达音频对象的侧倾、俯仰及滚转的角信息。在此实例中,取向元数据320将侧倾、俯仰及滚转指示为ф,θ及ψ。数据组325包含足够的信息以针对六个自由度(6DoF)应用对音频对象进行取向。

在此实例中,数据组335包含音频对象类型元数据330。在一些实施方案中,音频对象类型元数据330可用以指示对应辐射模式元数据。经编码辐射模式元数据可用以(例如,由解码器或从解码器接收音频数据的装置)确定经解码辐射模式。在一些实例中,音频对象类型元数据330实质上可指示“我是小号”、“我是小提琴”等。在一些实例中,解码装置可存取音频对象类型及对应方向性模式的数据库。根据一些实例,数据库可与经编码音频数据一起被提供,或者在音频数据的传输之前被提供。此音频对象类型元数据330在本文可被称为“数据库方向性模式数据”。

根据一些实例,音频对象类型元数据可指示参数方向性模式数据。在一些实例中,音频对象类型元数据330可指示与指定幂的余弦函数相对应的方向性模式,可指示心形函数等。

在一些实例中,音频对象类型元数据330可指示辐射模式与一组球面调和系数相对应。举例来说,音频对象类型元数据330可指示在数据组345中正在提供球面调和系数340。在一些此类实例中,球面调和系数340可为球面调和系数的时变及/或频变组,例如,如上文描述。相较于图3中所展示的其余元数据层级,此信息可能需要最大量的数据。因此,在一些此类实例中,可与单声道音频信号301及对应音频对象元数据分开提供球面调和系数340。举例来说,可在起始实时操作(例如,用于游戏、电影、音乐表演等的实时渲染操作)之前,在音频数据的传输的开始处提供球面调和系数340。

根据一些实施方案,在解码器侧的装置(例如向再现系统提供音频的装置)可确定再现系统的能力并且根据所述能力来提供方向性信息。举例来说,在一些此类实施方案中,即使将整个数据组345提供到解码器,也仅可将方向性信息的可用部分提供到再现系统。在一些实例中,解码装置可根据解码装置的能力来确定使用哪种(些)类型的方向性信息。

图4是展示根据一个实例的音频解码方法的框的流程图。方法400可例如由包含一或多个处理器及一或多个非暂时性存储器装置的解码装置的控制系统(例如下文参考图8描述的控制系统815)来实施。与其它揭示方法一样,并非方法400的所有框都必须按照图4中所展示的次序执行。此外,替代方法可包含更多或更少框。

在此实例中,框405涉及接收经编码核心音频信号、经编码辐射模式元数据及经编码音频对象元数据。经编码辐射模式元数据可包含音频对象类型元数据。经编码核心音频信号可例如包含单声道音频信号。在一些实例中,音频对象元数据可包含3个DoF位置信息、6个DoF位置及源取向信息、音频对象大小元数据等。在一些情况下,音频对象元数据可能是时变的。

在此实例中,框410涉及对经编码核心音频信号进行解码以确定核心音频信号。此处,框415涉及对经编码辐射模式元数据进行解码以确定经解码辐射模式。在此实例中,框420涉及对其它经编码音频对象元数据中的至少一些进行解码。此处,框430涉及基于音频对象元数据(例如,音频对象位置、取向及/或大小元数据)及经解码辐射模式来渲染核心音频信号。

取决于特定实施方案,框415可涉及各种类型的操作。在一些情况下,音频对象类型元数据可指示数据库方向性模式数据。对经编码辐射模式元数据进行解码以确定经解码辐射模式可涉及查询包含音频对象类型及对应方向性模式数据的方向性数据结构。在一些实例中,音频对象类型元数据可指示参数方向性模式数据,例如对应于余弦函数、正弦函数或心形函数的方向性模式数据。

根据一些实施方案,音频对象类型元数据可指示动态方向性模式数据,例如球面调和系数的时变及/或频变组。一些此类实施方案可涉及在接收经编码核心音频信号之前接收动态方向性模式数据。

在一些情况下,在框405中接收的核心音频信号可包含对应于集群中包含的多个音频对象的音频信号。根据一些此类实例,核心音频信号可基于可包含多个定向音频对象的音频对象的集群。在框415中确定的经解码辐射模式可与集群的质心相对应,并且可表示多个定向音频对象中的每一者的每一频带的平均值。框430的渲染过程可涉及至少部分基于经解码辐射数据将子带增益应用于经解码核心音频信号。在一些实例中,在对核心音频信号进行解码并将方向性处理应用于核心音频信号之后,可使用音频对象位置元数据及已知渲染过程(例如,通过耳机的双耳渲染、使用再现环境的扬声器的渲染等)将信号进一步虚拟化到其相对于收听者位置的预期定位。

如上文参考图3所论述,在一些实施方案中,音频数据可由渲染参数(在图3中展示为R)伴随。渲染参数可指示至少一些音频对象元数据(例如,杜比全景声元数据)应以正常方式(例如,如位置或大小元数据)来解译,还是应解译为方向性元数据。正常模式可称为“位置模式”,并且替代性模式可在本文称为“方向性模式”。因此,在一些实例中,渲染参数可指示是将至少一些音频对象元数据解译为相对于扬声器是定向的还是相对于房间或其它再现环境是位置性的。此类实施方案对于使用具有多个驱动器的智能扬声器的方向性渲染尤其有用,例如,如下文描述。

图5A描绘鼓钹。在此实例中,展示鼓钹505,其发出具有方向性模式510的声音,方向性模式510具有大体上垂直主响应轴515。方向性模式510本身也主要是垂直的,并且从主响应轴515有一定程度的扩展。

图5B展示扬声器系统的实例。在此实例中,扬声器系统525包含多个扬声器/换能器,其经配置用于在包含向上的各种方向上发出声音。在一些情况下,最顶部扬声器可以常规杜比全景声方式(“位置模式”)使用以渲染位置,例如致使声音从天花板反射以模拟高度/天花板扬声器(z=1)。在一些此类情况下,对应杜比全景声渲染可包含额外高度虚拟化处理,其增强具有特定位置的音频对象的感知。

在其它使用案例下,可在“方向性模式”下操作相同的向上发声扬声器,例如以模拟例如鼓、符号或具有类似于图5A中所展示的方向性模式510的方向性模式的另一音频对象。一些扬声器系统525可能能够进行波束成形,这可帮助构造期望的方向性模式。在一些实例中,将不涉及虚拟化处理,以便减少对具有特定位置的音频对象的感知。

图6是展示根据一个实例的音频解码方法的框的流程图。方法600可例如由包含一或多个处理器及一或多个非暂时性存储器装置的解码装置的控制系统(例如下文参考图8描述的控制系统815)来实施。与其它揭示方法一样,并非方法600的所有框都必须按照图6中所展示的次序执行。此外,替代方法可包含更多或更少框。

在此实例中,框605涉及接收对应于至少一个音频对象的音频数据,所述音频数据包含单声道音频信号、音频对象位置元数据、音频对象大小元数据及渲染参数。在此实施方案中,框605涉及经由解码装置的接口系统(例如图8的接口系统810)接收这些数据。在一些情况下,可以Dolby AtmosTM格式接收音频数据。取决于特定实施方案,音频对象位置元数据可对应于世界坐标或模型坐标。

在此实例中,框610涉及确定渲染参数是指示位置模式还是方向性模式。在图6中所展示的实例中,如果确定渲染参数指示方向性模式,那么在框615中,根据由位置元数据或大小元数据中的至少一者指示的方向性模式来渲染音频数据用于再现(例如,经由至少一个扬声器、经由耳机等)。举例来说,方向性模式可类似于图5A中所展示的方向性模式。

在一些实例中,渲染音频数据可涉及将音频对象位置元数据解译为音频对象取向元数据。音频对象位置元数据可为笛卡尔/x、y、z坐标数据、球面坐标数据或柱面坐标数据。音频对象取向元数据可为侧倾、俯仰及滚转元数据。

根据一些实施方案,渲染音频数据可涉及将音频对象大小元数据解译为对应于方向性模式的方向性元数据。在一些此类实例中,渲染音频数据可涉及查询包含多个方向性模式的数据结构,并将位置元数据或大小元数据中的至少一者映射到方向性模式中的一或多者。一些此类实施方案可涉及经由接口系统接收数据结构。根据一些此类实施方案,可在音频数据之前接收数据结构。

图7说明对多个音频对象进行编码的一个实例。在一个实例中,可对对象1-n信息701、702、703等进行编码。在一个实例中,可在框710处确定针对音频对象701到703的代表性集群。在一个实例中,声源的群组可由涉及计算针对元数据字段的聚合值/平均值的代表性“质心”聚合及表示。举例来说,声源的集群的位置可为每一源的位置的平均。在框720处,可对针对代表性集群的辐射模式进行编码。在一些实例中,可根据上文参考图1A或图1B描述的原理来编码针对集群的辐射模式。

图8是展示可经配置以执行本文揭示的方法中的至少一些的设备的组件的实例的框图。举例来说,设备805可经配置以执行上文参考图1A到1C、4、6及/或7描述的方法中的一或多者。在一些实例中,设备805可为或可包含个人计算机、桌上型计算机或经配置以提供音频处理的其它本地装置。在一些实例中,设备805可为服务器或可包含服务器。根据一些实例,设备805可为经配置用于经由网络接口与服务器通信的客户端装置。可经由硬件,经由存储在非暂时性媒体上的软件,经由固件及/或通过其组合来实施设备805的组件。图8以及本文揭示的其它图式中所展示的组件的类型及数目仅通过实例的方式展示。替代实施方案可包含更多、更少及/或不同组件。

在此实例中,设备805包含接口系统810及控制系统815。接口系统810可包含一或多个网络接口、控制系统815与存储器系统之间的一或多个接口及/或一或多个外部装置接口(例如一或多个通用串行总线(USB)接口)。在一些实施方案中,接口系统810可包含用户接口系统。用户接口系统可经配置用于从用户接收输入。在一些实施方案中,用户接口系统可经配置用于向用户提供反馈。举例来说,用户接口系统可包含具有对应触摸及/或手势检测系统的一或多个显示器。在一些实例中,用户接口系统可包含一或多个麦克风及/或扬声器。根据一些实例,用户接口系统可包含用于提供触觉反馈的设备,例如电动机、振动器等。控制系统815可例如包含通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑及/或离散硬件组件。

在一些实例中,设备805可在单个装置中实施。然而,在一些实施方案中,设备805可在一个以上装置中实施。在一些此类实施方案中,控制系统815的功能性可包含在一个以上装置中。在一些实例中,设备805可为另一装置的组件。

本发明的各种实例实施例可以硬件或专用电路、软件、逻辑或其任何组合来实施。一些方面可以硬件来实施,而其它方面可以可由控制器、微处理器或其它计算装置执行的固件或软件来实施。一般来说,本发明应理解为还涵盖适合于执行上文描述的方法的设备,例如具有存储器及耦合到所述存储器的处理器的设备(空间渲染器),其中处理器经配置以执行指令并执行根据本发明的实施例的方法。

尽管本发明的实例实施例的各个方面经说明并描述为框图、流程图或使用一些其它图形表示,但将了解,本文描述的框、设备、系统、技术或方法作为非限制性实例可在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器,或其它计算装置或其某一组合中实施。

另外,流程图中所展示的各个框可被视为方法步骤,及/或由于计算机程序代码的操作而产生的操作,及/或经构造以实行相关联功能的多个耦合逻辑电路元件。举例来说,本发明的实施例包含计算机程序产品,其包括有形地体现在机器可读媒体上的计算机程序,其中计算机程序含有经配置以实行如上文描述的方法的程序代码。

在本发明的上下文中,机器可读媒体可为任何有形媒体,其可含有或存储由指令执行系统、设备或装置使用或与其结合使用的程序。机器可读媒体可为机器可读信号媒体或机器可读存储媒体。机器可读媒体可包含(但不限于)电子、磁性、光学、电磁、红外或半导体系统、设备或装置,或前述的任一合适组合。机器可读存储媒体的更特定实例将包含具有一或多个线的电连接、便携式计算机软磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程读取器只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储装置、磁存储装置或前述的任一合适组合。

用于实行本发明的方法的计算机程序代码可以一种或多种编程语言的任一组合来编写。可将这些计算机程序代码提供到通用计算机、专用计算机或其它可编程数据处理设备的处理器,使得所述程序代码在由计算机或其它可编程数据处理设备的处理器执行时致使流程图及/或框图中指定的功能/操作被实施。程序代码可完全在计算机上执行,部分在计算机上作为独立软件封装执行,部分在计算机上并且部分在远程计算机上执行,或者完全在远程计算机或服务器上执行。

此外,尽管以特定次序描绘操作,但这不应理解为要求以所展示的特定次序或以循序次序执行此类操作,或者执行所有所说明操作以实现期望结果。在某些情形下,多任务及并行处理可能是有利的。同样地,尽管上文论述中含有若干特定的实施细节,但是这些细节不应解释为对任何发明或可能主张的内容的范围的限制,而应视为可特定于特定发明的特定实施例的特征的描述。在单独实施例的上下文中在本说明书中描述的某些特征也可在单个实施例中组合实施。相反,在单个实施例的上下文中描述的各种特征也可在多个实施例中单独或以任一合适子组合来实施。

应注意,描述及图式仅说明所提出的方法及设备的原理。因此,将了解所属领域的技术人员将能够设计出尽管未在本文明确描述或展示但体现本发明的原理并且包含在其精神及范围内的各种布置。此外,本文列举的所有实例主要希望明确地仅用于教学目的,以帮助读者理解所提出的方法及设备的原理以及发明人为进一步发展所属领域所贡献的构思,并且应解释为没有对此类具体叙述的实例及条件的限制。此外,叙述本发明的原理、方面及实施例以及其特定实例的本文的所有陈述希望涵盖其等效物。

29页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:对网络路径进行区域化解析的系统和方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类