渲染具有表观大小的音频对象

文档序号：1643441 发布日期：2019-12-20 浏览：34次 >En<

阅读说明：本技术 渲染具有表观大小的音频对象 (Rendering audio objects having apparent size ) 是由 D·阿特亚加 G·琴加莱 A·马特奥斯索莱于 2018-05-01 设计创作，主要内容包括：公开了用于渲染具有表观大小的音频对象的方法、系统和计算机程序产品。一种音频处理系统接收音频平移数据,所述音频平移数据包括第一网格,所述第一网格将空间中的第一虚拟声源和扬声器位置映射到扬声器增益。所述第一网格指定所述空间中的所述第一虚拟声源的第一扬声器增益。所述音频处理系统确定所述空间中的第二虚拟声源的第二网格,包括将所述第一虚拟声源映射到所述第二虚拟源的所述第二虚拟声源。所述音频处理系统基于所述音频对象的表观大小,选择用于渲染音频对象的第一网格或第二网格中的至少一个。所述音频处理系统基于所选的一个或更多个网格,渲染所述音频对象。(Methods, systems, and computer program products for rendering audio objects having apparent sizes are disclosed. An audio processing system receives audio panning data, the audio panning data comprising a first mesh mapping a first virtual sound source and speaker positions in space to speaker gains. The first mesh specifies a first speaker gain for the first virtual sound source in the space. The audio processing system determines a second mesh of second virtual sound sources in the space, including mapping the first virtual sound source to the second virtual sound source of the second virtual source. The audio processing system selects at least one of the first mesh or the second mesh for rendering an audio object based on the apparent size of the audio object. The audio processing system renders the audio object based on the selected one or more meshes.)

渲染具有表观大小的音频对象

技术领域

本公开总体上涉及音频回放系统。

相关申请的交叉引用

本申请要求以下优先权申请的优先权：于2017年5月4日提交的西班牙申请P201730658(我方参考号：D16134ES)、于2017年7月5日提交的美国临时申请62/528,798(参考号：D16134USP1#)和于2017年7月5日提交的EP申请17179710.3(参考号：D16134EP)，通过引用，将这些申请并入本文。

背景技术

现代音频处理系统可以被配置成渲染一个或更多个音频对象。音频对象可以包括与元数据相关联的音频信号流。元数据可以表明音频对象的位置和表观大小。表观大小指的是，当在再现环境中渲染音频对象时，收听者应该感知到的声音的空间大小。所述渲染可以包括针对一组输出声道中的每个声道，计算一组音频对象增益值。每个输出声道可以对应于一个回放设备，例如，扬声器。

可以不参考任何特定再现环境，产生音频对象。音频处理系统可以用多步骤过程，在再现环境中渲染音频对象，所述多步骤过程包括设置过程和运行时过程。在设置过程期间，音频处理系统可以将多个虚拟声源限定于一个空间中：音频对象位于该空间内，并且音频对象可以在该空间内移动。虚拟声源对应于静态点源的位置。设置过程接收扬声器布局数据。扬声器布局数据指再现环境的一些扬声器或全部扬声器的位置。设置过程基于扬声器位置和虚拟源位置，针对每个扬声器的每个虚拟声源，计算各扬声器增益值。在渲染音频对象时的运行时间，运行时过程针对每个音频对象计算一个或更多个虚拟声源的贡献，所述一个或更多个虚拟声源位于由音频对象位置和音频对象表观大小所限定的面积或体积内。于是，运行时过程用所述一个或更多个虚拟声源来表示音频对象，并且针对所述音频对象，输出扬声器增益。

发明内容

描述了渲染具有表观大小的音频对象的技术。一种音频处理系统接收音频平移数据，所述音频平移数据包括第一网格，所述第一网格将空间中的第一虚拟声源和扬声器位置映射到扬声器增益。所述第一网格指定所述空间中的所述第一虚拟声源的第一扬声器增益。所述音频处理系统确定所述空间中第二虚拟声源的第二网格，包括将所述第一扬声器增益映射到所述第二虚拟源的第二扬声器增益。在虚拟声源的数量方面，所述第一网格比所述第二网格稠密。所述音频处理系统选择第一网格或第二网格中至少一个来渲染音频对象，该选择基于所述音频对象的表观大小。所述音频处理系统基于所选网格，渲染所述音频对象，包括使用所选网格中的、被包围在具有所述表观大小的体积或面积内的一个或更多个虚拟声源来表示所述音频对象。

与用于再现三维声音效果的传统音频渲染技术相比，本说明书中所描述的特征可以获得一个或更多个优点。例如，所公开的技术降低了音频渲染的计算复杂度。传统系统利用许多虚拟声源来表示大的音频对象。当处理大的音频对象大小时，传统系统需要同时考虑这许多虚拟声源。同时计算可能具有挑战性，尤其在低功率嵌入式系统中。例如，网格可以具有大小为11×11×11个虚拟声源。对于其大小跨越整个收听区域的音频对象(这种情况不常见)而言，传统渲染系统需要同时考虑1331个虚拟声源并且将其相加在一起。通过产生更粗、更低密度的虚拟源网格，所公开的技术可以得到与由传统更高密度的虚拟声源网格所产生的结果大致相同的结果，但是其计算复杂度低得多。例如，通过使用具有大小为7×7×7个虚拟声源的粗网格，使用所公开的技术的音频渲染系统需要至多343个虚拟声源，并且使用的存储器大约为采用11×11×11网格的传统系统的存储器的约26％。使用5×5×5的粗网格的音频渲染系统使用约9％的存储器。使用3×3×3的粗网格的音频渲染系统仅使用约2％的存储器。减少的存储器需求可以降低系统成本并降低功耗，而不会牺牲回放质量。

在以下附图和描述中阐述了所公开的主题的一个或更多个实施方式的细节。基于说明书、附图和权利要求，所公开的主题的其他特征、方面和优点将变得清晰。

附图说明

图1是示出了实施粗网格渲染的示例音频处理系统的框图。

图2是示出了与相应表观大小相关联的示例音频对象的示意图。

图3是示出了创建细(fine)虚拟声源的单元的示例技术的示意图。

图4是示出了减少虚拟声源的数量的示例技术的示意图。

图5是示出了创建粗虚拟声源的单元的示例技术的示意图。

图6是示出了在确定扬声器增益时将细虚拟声源映射到粗虚拟声源的示例技术的示意图。

图7是示出了减少用于大的音频对象的虚拟声源的数量的示例技术的示意图。

图8是渲染具有表观大小的音频对象的示例过程的流程图。

图9是实施参考图1～图8所描述的特征和操作的音频渲染系统的示例系统架构的框图。

各附图中的相似的附图标记指示相似的元件。

具体实施方式

使用粗网格渲染音频对象

图1是示出了实施粗网格渲染的示例音频处理系统100的框图。音频处理系统100包括网格映射器102。网格映射器102是音频处理系统100的组件，该组件包括被配置成执行设置过程的硬件组件和软件组件。网格映射器102可以接收平移数据104。平移数据104可以包括预先计算的原始网格(例如，第一网格)。在美国公开号2016/0007133中描述了确定原始网格的示例技术。接收的原始网格包括跨单元空间(例如，收听室)分布的虚拟声源(例如，第一虚拟声源)的二维网格或三维网格。接收的原始网格具有第一密度，第一密度用空间中的虚拟声源的数量(例如，11×11×11个虚拟声源)来测量，其对应于跨空间的宽度有十一个虚拟声源、沿着空间的长度有十一个虚拟声源、在空间的高度上有十一个虚拟声源。为了方便起见，本说明书中的示例在虚拟声源的数量方面具有相等的宽度、长度和高度。在各种实施方式中，宽度、长度和高度可以不同。例如，网格可以具有11×11×9个虚拟声源。每个虚拟声源是点源。在示出的示例中，虚拟声源均匀地分布在空间中，其中，沿着长度维度和宽度维度以及可选地高度维度的两个相邻虚拟声源之间的距离相等。在一些实施方式中，虚拟声源可以不均匀地分布，例如，使得预期声能量更高或需要的空间分辨率更高的地方的分布更稠密。接收的原始网格根据收听环境中的扬声器布局，将虚拟声源的扬声器增益(例如，第一扬声器增益)映射到一个或更多个扬声器。接收的原始网格指定每个虚拟声源贡献给每个扬声器的扬声器增益的相应量。

通过执行设置过程，网格映射器102将接收的原始细网格映射到更粗的一个或更多个网格。本说明书中使用的术语“细”和“粗”是相对术语。如果网格A比网格B稠密，例如，如果网格A比网格B具有更多的虚拟声源，则网格A相对于网格B是细网格，网格B相对于网格A是粗网格。网格A中的虚拟声源可以被称为细虚拟声源。网格B中的虚拟声被称为粗虚拟声源。

网格映射器102可以确定由比接收的原始网格中的虚拟声源少的虚拟声源(例如，5×5×5个)填充的第二网格106。相对而言，第二网格106是粗网格，原始网格是细网格。网格映射器102可以确定由还更少的虚拟声源(例如，3×3×3个虚拟声源)填充的第三网格108。第三网格108是更粗的网格。第二网格106和第三网格108中的每一个根据收听环境中的相同的扬声器布局，将相应虚拟网格中的虚拟声源的扬声器增益映射到扬声器增益。第二网格106和第三网格108中的每一个指定每个粗虚拟声源贡献给每个扬声器的扬声器增益的量。然后，网格映射器102将第二网格106和第三网格108以及原始网格110存储在存储设备112中。存储设备112可以是非暂态存储设备，例如，音频处理系统100的盘或存储器。

在设置扬声器位置后，渲染器114可以在运行时间渲染一个或更多个音频对象。运行时间可以是在扬声器上播放音频信号时的回放时间。渲染器114(例如，音频平移器)包括一个或更多个硬件和软件组件，所述硬件和软件组件被配置成执行将音频对象映射到扬声器的平移操作。渲染器114接收音频对象116。音频对象116可以包括位置参数和大小参数。位置参数可以指定音频对象在空间中的表观位置。大小参数可以指定在回放期间音频对象116的空间声场应该表现出的表观大小。基于大小参数，渲染器114可以选择原始网格110、第二网格106或第三网格108中的一个或更多个来渲染音频对象。通常，渲染器114可以针对较小的表观大小来选择较细的网格。渲染器114可以将音频对象116映射到一个或更多个音频声道，每个声道对应于一个扬声器。渲染器114可以将所述映射输出为一个或更多个扬声器增益118。渲染器114可以将扬声器增益提交给一个或更多个放大器，或直接提交给一个或更多个扬声器。渲染器114可以动态地选择网格，针对较小的音频对象，使用细网格，针对较大的音频对象，使用粗网格。

图2是示出了与相应表观大小相关联的示例音频对象的示意图。音频编码系统可以将特定音频场景(例如，乐队在场地演奏)编码为一个或更多个音频对象。在示出的示例中，音频处理系统(例如，图1的音频处理系统100)渲染音频对象202和204。音频对象202和204中的每一个包括位置参数和大小参数。位置参数可以包括指示对应的音频对象在单位空间中的相应位置的位置坐标。所述空间可以是具有任何几何形状的三维体积。在示出的示例中，示出了空间的二维投影。在示出的示例中，音频对象202和204的位置分别表示为音频对象202和204的中心处的黑圈。

虚拟声源的网格206表示空间中的位置。虚拟声源包括例如虚拟声源208、虚拟声源210和虚拟声源212。每个虚拟声源表示为图2中的白圈。网格206在空间上与所述空间一致。为了方便起见，示出了7×7的投影。位于网格206的外边界上的虚拟声源(例如，虚拟声源208和212)被指定为外部虚拟声源。位于网格206内的虚拟声源(例如，虚拟声源210)被指定为内部虚拟声源。不位于网格206的角落的外部虚拟声源(例如，虚拟声源208)被指定为非角落声源。位于网格206的角落的外部虚拟声源(例如，虚拟声源212)被指定为角落声源。

音频对象202和音频对象204的形状可以是零维的、一维的、二维的、三维的、球形的、立方体的、或具有任何其他规则或不规则的形式。音频对象202和204中的每一个的大小参数可以指定每个音频对象的相应表观大小。渲染器可以用取决于虚拟声源的确切数量的激活因子和可选地窗口因子，激活同时落入大小形状内部的所有虚拟声源。在回放期间，将所有虚拟声源对可用扬声器的贡献加在一起。声源的相加不一定是线性的。可能会实施用于维持RMS值的二次加法定律。可以使用其他加法定律。对于处于边界的音频对象，例如，音频对象204，渲染器可以仅将位于该边界上的外部虚拟声源相加在一起。在此示例中，如果音频对象204贯穿整个边界，则将需要七个虚拟声源(三维空间中需要49个)来表示音频对象204。同样，在此示例中，如果音频对象202填充整个空间，则将需要49个虚拟声源(三维空间中需要343个)来表示音频对象202。音频处理系统(例如，图1的音频处理系统100)可以使用比网格206粗的粗网格来减少表示音频对象202和音频对象204所需要的虚拟声源的数量。音频处理系统可以使用单元分配技术来创建粗网格，下文另外详细地描述了所述单元分配技术。

音频处理系统可以基于与该对象相关联的位置参数和大小参数，确定哪个虚拟声源或哪些虚拟声源表示音频对象。在示出的示例中，音频对象202由六个虚拟声源表示，这六个虚拟声源包括四个内部虚拟声源和两个外部音频源。音频对象204由四个外部虚拟声源表示。音频处理系统应执行分隔操作和映射操作，以在粗网格中使用较少的虚拟声源表示音频对象202和204。例如，音频处理系统可以在粗网格中，使用一个或更多个粗虚拟声源(例如，粗虚拟声源214)来表示音频对象202和204。图2中将粗虚拟声源示出为白三角。

图3是示出了创建细虚拟声源的单元的示例技术的示意图。将虚拟声源分配到单元是产生粗网格的一个阶段。网格映射器(例如，图1的网格映射器102)在空间内接收到细虚拟声源的原始细网格206后，将相应单元分配给网格中的每个虚拟声源。原始细网格206可以包括均匀地分布于三维空间内的原始数量(例如，K×L×M个)的细虚拟声源。正整数K、L和M可以对应于分别沿空间的长度、宽度和高度上虚拟声源的数量。为了方便起见，图3示出了维度为7×7的二维投影。

将单元分配给虚拟声源可以包括确定边界，例如，边界302和304，以便将空间隔成被称为细单元的单元。划分细网格206中的虚拟声源的边界302和304被指定为细边界，如附图中的虚线所表示的那样。细边界302和304可以是虚拟声源之间的中线或中平面。中线或中平面可以是其上的点与两个相邻的虚拟声源等距的线或平面。网格映射器可以将相应虚拟声源周围、由对应的边界包围的每个相应面积或体积，指定为对应于该虚拟声源的单元。例如，网格映射器可以将虚拟声源210周围的这种面积或体积指定为对应于虚拟声源210的单元306。网格映射器在细网格206中创建每个虚拟声源的相应单元。

图4是示出了减少虚拟声源的数量的示例技术的示意图。减少虚拟声源的数量是产生粗网格的另一个阶段。网格映射器(例如，图1的网格映射器102)在与由图3的细网格206所表示的相同空间中创建一组虚拟声源。网格映射器将空间中的一组位置指定为一组粗虚拟声源。粗虚拟声源少于原始细网格206中表示的细虚拟声源。例如，网格映射器可以指定粗网格402具有P×Q×R个虚拟声源，其中，P、Q、R中的至少一个分别小于K、L和M。为了方便起见，图4示出了维度为5×5个粗虚拟声源的二维投影。网格402中的每个粗虚拟声源表示为三角形。粗虚拟声源在空间中可以具有均匀的分布。创建粗网格402后，网格映射器移动到接下来的处理阶段：计算每个粗虚拟声源的各扬声器增益。

图5是示出了创建粗虚拟声源的单元的示例技术的示意图。将单元分配给减少的虚拟声源是产生粗网格的另一个阶段。网格映射器(例如，图1的网格映射器102)将相应粗单元分配给粗网格402中的每个粗虚拟声源。将粗单元分配给粗虚拟声源可以包括确定用于将空间划分成粗单元的边界，例如，边界502和504。划分粗网格402中的粗虚拟声源的边界502和504被指定为粗边界，如附图中的虚线所表示的那样。粗边界502和504可以是内部虚拟声源(例如，内部虚拟声源506和508)之间以及作为非角落声源的外部虚拟声源(例如，外部虚拟声源510和512)之间的中线或中平面。在一些第一实施方式中，在外部虚拟声源510与内部虚拟声源506之间或者在非角落声源510与角落声源514之间，网格映射器可以确定中线。在一些第二实施方式中，网格映射器可以将细网格206的、在内部声源与外部虚拟声源之间的或者在非角落声源与角落声源之间的细边界，指定为粗边界。例如，在第二实施方式中，网格映射器可以使用图3的边界304来划分内部虚拟声源506和外部声源510，并且还使用图3的边界302来划分非角落声源510和角落声源514。

网格映射器将相应粗虚拟声源周围的、由相应边界包围的每个相应面积或体积指定为对应于该粗虚拟声源的粗单元。例如，网格映射器可以将虚拟声源508周围的空间指定为对应于粗虚拟声源508的粗单元516。然后，网格映射器可以进行到下一处理阶段。

图6是示出了在确定扬声器增益时，将细虚拟声源映射到粗虚拟声源的示例技术的示意图。网格映射器(例如，图1的网格映射器102)创建粗虚拟声源，包括特定的虚拟声源602，目前没有对应的扬声器增益的信息。网格映射器可以基于细单元与粗单元之间的重叠，确定对应于粗虚拟声源的扬声器增益。

例如，网格映射器确定粗虚拟声源602与粗单元603相关联。网格映射器确定粗单元603与四个细单元重叠，所述四个细单元分别与细虚拟声源604、606、608和610相关联。网格映射器可以计算相应重叠率，所述重叠率指相应重叠量。重叠率可以是相应细单元的与粗单元重叠的面积(或体积)与该相应细单元的总面积(或体积)之间的比率。

例如，如图6所示，网格映射器可以确定，对应于细虚拟声源604的整个细单元位于粗单元603内。作为响应，网格映射器可以确定对应于原始虚拟声源604的细单元的重叠率为1.00或100％。类似地，网格映射器可以确定对应于细虚拟声源606和608的细单元的相应重叠率大约为0.83或83％，对应于细虚拟声源610的细单元的重叠率大约为0.69或69％。

因此，网格映射器可以通过对用重叠率加权的虚拟声源604、606、608、610的贡献进行求和，确定虚拟声源602的扬声器增益贡献。可以用各种技术实施求和。例如，可以使用与用于在回放期间将来自所有虚拟声源的贡献添加到可用扬声器的技术相同的技术来实施求和。

更一般地说，网格映射器可以使用下面的式1确定扬声器增益贡献。

G_ui＝[∑_vw_uv(h_vvg_vi)^p]^1/p (1)

在式1中，G_ui表示粗虚拟声源u对扬声器i的贡献；p＝1,2,3...；h_uv是可以将相等或不同的权重分配给不同声源的高度校正项。例如，在一些实施方式中，h_uv可以将更多的权重给予相对于粗虚拟声源的位置、离底部(例如，收听室的地板)更近的细虚拟声源，g_vi表示原始细虚拟声源v对扬声器i的增益贡献。在一些其他实施方式中，如果不希望在不同高度的声源之间有区别，则可以针对所有的细虚拟声源，将h_uv设置为1。另外，w_uv是细虚拟声源v对粗虚拟声源u的权重，其中，对于完全落入粗单元内的细单元，w_uv＝1；对于部分落入对应于u的粗单元内的细单元，0＜w_uv＜1；对于不与粗单元重叠的细单元，w_uv＝0。例如，权重可以对应于重叠率。

网格映射器可以从原始网格或从粗网格，执行另外的粗粒化阶段。在渲染期间，渲染器可以使用粗网格来确定粗虚拟声源对具有非零表观大小的音频对象的贡献。渲染器可以在零大小的平移(其中，音频对象的表观大小为零)中使用细网格。

在示出的示例中，音频对象202最初由六个细虚拟声源(包括四个内部虚拟声源和两个外部音频源)表示。音频对象204最初由四个细外部虚拟声源表示。渲染器可以使用粗网格来表示音频对象202和音频对象204。在粗网格中，音频对象202由两个粗虚拟声源(一个内部的、一个外部的)表示。音频对象204由三个粗虚拟声源(全部为外部的)表示。表示声源的数量减少使得在不牺牲回放质量的情况下，减少了对计算资源的需求。

图7是示出了减少用于大的音频对象的虚拟声源的数量的示例技术的示意图。对于具有接近整个空间(例如，整个房间)的表观大小的大的音频对象，网格映射器可以创建仅具有一个内部粗虚拟声源704的粗网格702。粗网格702中的其他粗虚拟声源是外部粗虚拟声源。所有粗虚拟声源可以均匀地分布于粗网格702中。粗网格702可以是具有3×3×3个虚拟声源的网格。图7中示出了二维投影。

在运行时间，渲染器可以基于音频对象的大小和一个或更多个大小阈值，选择细网格206、粗网格402、或最粗的网格702。例如，网格映射器可以产生一系列网格Grid0、Grid1、Grid2...GridN，其中，Grid0是原始细网格，例如，图2的网格206，Grid1至GridN是包括图4的粗网格402、以及粗网格702的一系列连续更粗的网格。渲染器可以定义一系列连续更大的大小阈值s1、s2...sN。渲染器可以如下确定输出扬声器增益。

·如果音频对象s的大小满足条件s<s1，则渲染器用通过Grid1计算的增益，对从Grid0计算的增益进行插值；

·如果s(i-1)<＝s<si，则渲染器用通过Grid(i)计算的增益，对来自Grid(i-1)的增益进行插值；

·如果s>sN，则渲染器基于GridN计算扬声器增益。

例如，在运行时间，渲染器可以在确定音频对象的大小小于0.2时，对来自网格206的增益和来自网格402的增益进行插值，在确定音频对象的大小在0.2与0.5之间时，对来自网格402的增益和来自网格702的增益进行插值，在确定音频对象的大小大于0.5时，使用网格702确定增益，其中，空间的大小为1。

图8是渲染具有表观大小的音频对象的示例过程800的流程图。可以由包括一个或更多个计算机处理器的系统(例如，图1的音频处理系统100)执行过程800。

系统接收(802)音频平移数据。所述音频平移数据包括第一网格，所述第一网格将空间中第一虚拟声源的第一扬声器增益指定给扬声器增益。平移数据可以是由具有全分辨率的传统平移器提供的数据。例如，第一网格可以是具有K×L×M个细虚拟声源的细网格。传统平移器已经确定了细虚拟声源的第一扬声器增益。

系统确定(804)空间中第二虚拟声源的第二网格。相对于第一网格，第二网格是粗网格，没第一网格稠密。确定第二网格包括将第一虚拟声源的第一扬声器增益映射到第二虚拟声源的第二扬声器增益。确定第二网格可以包括以下操作。系统将第一网格的空间分隔成第一单元。每个第一单元是对应于第一网格中的相应第一虚拟声源的细单元。系统将空间分隔成第二单元，所述第二单元比第一单元更少且更粗。每个第二单元对应于系统创建的相应第二虚拟声源。系统基于对应的第一单元与一个或更多个对应的第二单元之间的重叠量，将来自每个第一虚拟声源的相应第一扬声器增益映射到一个或更多个第二虚拟声源的一个或更多个第二扬声器增益。

将来自每个第一虚拟声源的相应第一贡献(例如，第一扬声器增益)映射到一个或更多个第二贡献(例如，第二扬声器增益)可以包括以下操作。系统确定一个或更多个对应的第二单元中的每一个中的对应的第一单元的相应重叠量。系统根据相应重叠量，确定第二扬声器增益中的每一个中的相应扬声器增益权重。系统根据相应权重，将第一扬声器增益分配给一个或更多个第二贡献中的每一个。

所述空间可以是二维空间或三维空间。第一虚拟声源可以包括位于空间的外边界上的外部第一声源和位于空间内的内部第一声源。第二虚拟声源可以包括位于空间的外边界上的外部第二声源和位于空间内的内部第二声源。外部第二声源可以包括角落声源和非角落源。将空间分隔成第二单元包括以下步骤。在每个外部声源与对应的内部声源之间，或在每个角落声源与对应的非角落源之间，系统根据作为细单元的对应的第一单元的细单元边界，分隔对应的第二单元。在每对内部第二声源之间或者在每对非角落声源之间，系统通过该对的两个声源之间的中线，分隔对应的第二单元。

系统基于音频对象的大小参数，选择(806)第一网格或第二网格中的至少一个来渲染音频对象。在一些实施方式中，选择第一网格或第二网格中的至少一个可以包括以下操作。系统接收音频对象。系统基于音频对象中的大小参数，确定声音空间的表观大小。系统在确定表观大小不大于阈值时，选择第一网格，或者，在确定表观大小大于阈值时，选择第二网格。

系统基于所选的一个或更多个网格，渲染(808)音频对象，包括使用每个所选网格内的、被包围在由大小参数限定的声音空间中的一个或更多个虚拟声源来表示音频对象。渲染音频对象包括：根据在阶段806中确定的输出扬声器增益，将表示音频对象的信号提供给一个或更多个扬声器。

在一些实施方式中，系统使用两个或更多个网格渲染音频对象。在这种情况下，系统确定空间中的第三虚拟声源的第三网格。第一网格是细网格；第二网格是粗网格；第三网格处于中间，比第一网格粗，但是没有第二网格那么粗。第三网格的第三虚拟声源少于第一虚拟声源，且第三网格的第三虚拟声源多于第二虚拟声源。确定第三网格包括将第一贡献(例如，第一扬声器增益)映射到对应于第三虚拟声源的第三贡献(例如，第三扬声器增益)。在三个网格当中选择网格可以包括以下操作。系统在确定表观大小小于第一阈值(例如，0.2)时，选择第一网格和第三网格，其中，空间是1的单位空间。

当系统使用两个或更多个网格时，系统通过对扬声器增益进行插值来确定输出扬声器增益。例如，当选择了第一网格和第三网格时，系统可以通过对基于第一网格和第三网格计算的扬声器增益进行插值，来确定输出扬声器增益。在确定表观大小在第一阈值与第二阈值(例如，大于第一阈值的0.5)之间时，系统选择第三网格和第二网格。系统通过对基于第三网格和第二网格确定的扬声器增益进行插值来确定输出扬声器增益。系统在确定表观大小大于第二阈值时，选择第二网格。系统将基于第二网格确定的扬声器增益指定为输出扬声器增益。

示例系统架构

图9是实施参考图1～图8所描述的特征和操作的音频渲染系统的示例系统架构的框图。包括具有更多或更少组件的架构的其他架构也是可以的。在一些实施方式中，架构900包括一个或更多个处理器902(例如，双核处理器)、一个或更多个输出设备904(例如，LCD)、一个或更多个网络接口906、一个或更多个输入设备908(例如，鼠标、键盘、触敏显示器)、以及一个或更多个计算机可读介质912(例如，RAM、ROM、SDRAM、硬盘、光盘、闪速存储器等)。这些组件可以通过一个或更多个通信信道910(例如，总线)交换通信和数据，所述通信信道可以利用各种硬件和软件来促进组件之间的数据与控制信号的传递。

术语“计算机可读介质”指参与将指令提供给处理器902以供执行的介质，所述介质包括但不限于非易失性介质(例如，光盘或磁盘)、易失性介质(例如，存储器)和传输介质。传输介质包括但不限于同轴电缆、铜线和光纤。

计算机可读介质912可以进一步包括操作系统914(例如，操作系统)、网络通信模块916、扬声器布局映射指令920、网格映射指令930、以及渲染指令940。操作系统914可以是多用户的、多处理器的、多任务的、多线程的、实时的等。操作系统914执行基本任务，所述基本任务包括但不限于：从网络接口906和/或设备908识别输入并向所述网络接口和/或设备908提供输出；跟踪和管理计算机可读介质912(例如，存储器或存储设备)上的文件和目录；控制***设备；管理一个或更多个通信信道910上的通信量。网络通信模块916包括用于建立和保持网络连接的各种组件(例如，用于实施如TCP/IP、HTTP等通信协议的软件)。

扬声器布局映射指令920可以包括在执行时使处理器902执行以下操作的计算机指令：接收指定哪个扬声器位于空间中的哪里的扬声器布局信息，接收指定网格大小(例如，11×11×11)的配置信息，以及确定虚拟声源的将位置映射到每个扬声器的相应扬声器增益的网格。网格映射指令930可以包括在执行时使处理器902执行图1的网格映射器102的操作的计算机指令，所述操作包括将通过扬声器布局映射指令920产生的网格映射到一个或更多个粗网格。渲染指令940可以包括在执行时使处理器902执行图1的渲染器114的操作的计算机指令，所述操作包括选择一个或更多个网格来渲染音频对象。

可以在并行处理基础设施或对等基础设施中或在具有一个或更多个处理器的单个设备上实施架构900。软件可以包括多个软件组件或者可以是单个代码主体。

所描述的特征可以有利地在能够可编程系统上执行的一个或更多个计算机程序中实施，所述可编程系统包括至少一个可编程处理器，所述至少一个可编程处理器被耦接以从数据存储系统、至少一个输入设备和至少一个输出设备接收数据和指令并向它们发送数据和指令。计算机程序是一组指令，所述指令可以直接或间接在计算机中使用，以执行某种活动或带来某种结果。计算机程序可以按照包括编译或解释型语言的任何形式的编程语言(例如，Objective-C、Java)编写，并且可以按任何形式部署，包括作为单独的程序或作为模块、组件、子例程、基于浏览器的web应用或适合于在计算环境中使用的其他单元。

作为示例，用于执行指令程序的适合的处理器包括通用微处理器和专用微处理器两者，以及任何类型的计算机的唯一的处理器或多个处理器或核中的一个。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机必不可少的元件是用于执行指令的处理器和用于存储指令和数据的一个或更多个存储器。通常，计算机也包括用于存储数据文件的一个或更多个大容量存储设备，或者可操作地耦接成与其通信；这种设备包括磁盘，如内部硬盘和可移动盘；磁光盘；以及光盘。适合于有形地体现计算机程序指令和数据的存储设备包括所有形式的非易失性存储器，所述非易失性存储器作为示例包括半导体存储器设备，如EPROM、EEPROM和闪速存储器设备；磁盘，如内部硬盘和可移动盘；磁光盘；以及CD-ROM和DVD-ROM盘。所述处理器和所述存储器都可以由ASIC(专用集成电路)补充或并入ASIC中。

为了提供与用户的交互，可以在具有显示设备的计算机上实施特征，所述显示设备如CRT(阴极射线管)监测器或LCD(液晶显示器)监视器或用于将信息显示给用户的视网膜显示设备。计算机可以具有触摸表面输入设备(例如，触摸屏)或键盘以及如鼠标或轨迹球等指点设备，通过所述指点设备，用户可以向计算机提供输入。计算机可以具有用于从用户接收语音命令的语音输入设备。

可以在计算机系统中实施特征，所述计算机系统包括如数据服务器等后端组件，或包括如应用服务器或因特网服务器等中间件组件，或包括如具有图形用户界面或因特网浏览器的客户端计算机等前端组件，或其任何组合。系统的组件可以通过任何数字数据通信形式或介质(如通信网络)连接。通信网络的示例包括例如LAN、WAN以及形成因特网的计算机和网络。

计算系统可以包括客户端和服务器。客户端和服务器通常远离彼此并且通常通过通信网络交互。客户端与服务器的关系借助于在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序产生。在一些实施例中，服务器将数据(例如，HTML页面)传输给客户端设备(例如，为了向与客户端设备交互的用户显示数据以及从所述用户接收用户输入的目的)。可以在服务器处从所述客户端设备接收在客户端设备处生成的数据(例如，用户交互的结果)。

一个或更多个计算机的系统可以被配置成通过具有在系统上安装的在操作时使执行动作或者使系统执行动作的软件、固件、硬件或其组合来执行特定动作。一个或更多个计算机程序可以被配置成通过包括在由数据处理装置执行时使所述装置执行动作的指令来执行特定动作。

虽然本说明书包含许多特定的实施方式细节，但这些不应被解释为对任何发明或可能要求保护的方案的范围的限制，而是应当被解释为对特定于具体发明的具体实施例的特征的描述。在单独的实施例的上下文中，在本说明书中所描述的某些特征还可以按组合形式实现在单一实施例中。相反，在单一实施例的上下文中描述的各种特征也可以被单独地或以任何适合的子组合的方式实施在多个实施例中。此外，尽管特征在上文可以被描述为以某些组合起作用并且甚至最初是如此说明的，但是在某些情况下可以从组合中去除要求保护的组合的一个或更多个特征，并且所要求保护的组合可以涉及子组合或子组合的变体。

类似地，虽然附图中以具体顺序描绘了操作，但这不应被理解成要求这种操作以所示的具体顺序或以有序顺序执行，或者所有展示的操作可以被执行，以实现期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。此外，上文描述的实施例中的各种系统组件的分离不应被理解成在所有实施例中都要求这种分离，并且应理解的是，所描述的程序组件和系统通常可以一起整合在单个软件产品中或封装进多个软件产品中。

因此，已经描述了主题的特定实施例。其他实施例在所附权利要求的范围内。在一些情况下，权利要求中引用的动作可以按不同的顺序执行并且依然实现期望的结果。另外，在附图中描绘的过程不一定需要所示出的特定的顺序或者依次的顺序来实现期望的结果。在某些实施方式中，多任务处理和并行处理可能是有利的。

已经描述了本发明的多个实施方式。然而，应当理解的是，在不脱离本发明的精神和范围的情况下，可以进行各种修改。

22页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：声音处理装置以及声音处理方法

渲染具有表观大小的音频对象

相关技术

网友询问留言