用于空间音频渲染的系统和方法

文档序号:453582 发布日期:2021-12-28 浏览:18次 >En<

阅读说明:本技术 用于空间音频渲染的系统和方法 (System and method for spatial audio rendering ) 是由 C·J·斯特林格 A·法米利 F·任-贾尔斯 D·纳雷乔斯基 J·P·宋 S·R·萨尔西娅 于 2020-04-02 设计创作,主要内容包括:图示了根据本发明的实施例的用于渲染空间音频的系统和方法。一个实施例包括空间音频系统,包括主网络连接的扬声器,包括多组驱动器,其中每组驱动器面向不同方向,处理器系统,包含音频播放器应用的存储器,其中音频播放器应用将处理器系统配置为通过网络接口从音频源获取音频源流,对音频源进行空间编码,对空间编码的音频源进行解码以获得用于多组驱动器中的各个驱动器的驱动器输入,其中驱动器输入导致驱动器生成定向音频。(Systems and methods for rendering spatial audio according to embodiments of the present invention are illustrated. One embodiment includes a spatial audio system comprising primary networked speakers, comprising a plurality of sets of drivers, wherein each set of drivers faces a different direction, a processor system, a memory containing an audio player application, wherein the audio player application configures the processor system to obtain audio source streams from audio sources over a network interface, spatially encode the audio sources, decode the spatially encoded audio sources to obtain driver inputs for respective drivers of the plurality of sets of drivers, wherein the driver inputs cause the drivers to generate directional audio.)

具体实施方式

现在转向附图,示出了用于空间音频渲染的系统和方法。根据本发明的许多实施例的空间音频系统包括一个或多个网络连接扬声器,它们可以被称为“单元”。在若干实施例中,空间音频系统能够接收任意音频源作为输入,并以基于空间中单元的特定数量和放置确定的方式渲染空间音频。这样,在假定扬声器的特定数量和/或放置而被编码的音频源(例如,基于通道的环绕声音频格式)可以被重新编码,使得音频再现与扬声器布局解耦。然后,重新编码的音频可以以特定于空间音频系统可用于渲染声场的特定数量和布局的单元的方式被渲染。在数个实施例中,空间音频的质量通过经由主动指向性控制使用定向音频被增强。在许多实施例中,空间音频系统采用包括驱动器阵列的单元,该驱动器阵列能够使用包括(但不限于)模态波束成形的技术生成定向音频。这样,可以渲染各种空间音频格式的空间音频系统可以仅使用单个单元来构建,并且通过附加单元来增强(可能是由于随着时间而获得)。

如上所述,典型的基于通道的环绕声音频系统的限制是需要特定数量的扬声器和这些扬声器的按规定放置。已经开发了空间音频再现技术,例如(但不限于)高保真立体声(ambisonic)技术、基于矢量的振幅平移(VBAP)技术、基于距离的振幅平移(DBAP)技术和k近邻平移(KNN平移)技术,以提供与扬声器布局无关的音频格式,该格式可以解决基于通道的音频的局限性。使用高保真立体声作为声场再现技术的使用最初是记载于Gerzon,M.A.,1973.Periphony:With-height sound reproduction.Journal of the AudioEngineering Society,21(1),pp.2-10。高保真立体声使得能够使用球面谐波来表示声场。一阶高保真立体声是指用一阶球谐函数来表示声场。由典型的一阶高保真立体声编码产生的信号集通常被称为“B格式”信号,并且包括非于特定原点位置处的声压标记为W、对于前-后声压梯度标记为X、对于左-右声压梯度标记为Y、以及对于上减下声压梯度标记为Z的分量。B格式的一个关键特征是它是与扬声器无关的声场表示。高保真立体声编码的特点在于它们以与扬声器部署无关的方式反映源方向。

常规的空间音频再现系统通常受限于与基于通道的环绕声音频系统类似的约束,这是因为这些空间音频再现系统通常需要具有特定扬声器部署的大量扬声器。例如,从声场的高保真立体声表示中渲染空间音频理想地涉及使用一组扬声器,这些扬声器围绕收听者在圆或球形表面上均匀地部署。当扬声器以这种方式放置时,高保真立体声解码器可以为每个扬声器生成音频输入信号,这样将使用B格式信号的线性组合来重建期望的声场。

根据本发明的许多实施例的系统和方法通过将一个或多个音频源编码成空间音频表示,例如(但不限于)高保真立体声表示、VBAP表示、VBAP表示、DBAP表示和/或kNN平移表示,使得能够使用任意数量和/或部署的单元来产生声场。在若干实施例中,空间音频系统以创建数个空间音频对象的方式来解码音频源。在音频源是基于通道的音频源的情况下,每个通道可以被分配给由空间音频系统在期望的环绕声扬声器布局中部署的空间音频对象。当音频源是一组主录音时,空间音频系统可以为每个音轨分配单独的空间音频对象,该空间音频对象可以基于乐队演奏布局模板在3D空间中部署。在许多实施例中,用户可以通过多种用户输入模式中的任何一种来修改空间音频对象的部署。一旦确定了音频对象的放置,就可以创建音频对象的空间编码(例如,高保真立体声编码)。

在各种实施例中,空间音频系统采用主单元(primary cell)和副单元(secondarycell)的层次结构。在许多实施例中,主单元负责生成空间编码,随后为它所管控的副单元将空间音频解码为单独的流(或流集合)。为此,主单元可以使用音频源来获得一组空间音频对象,然后可以获得音频对象的空间表示,然后基于单元的布局来解码每个音频对象的空间表示。然后,主单元可以基于它所管控的每个副单元的位置和取向对信息进行重新编码,并且可以将编码的音频流单播到它们相应的副单元。副单元继而可以渲染它们接收到的音频流以生成驱动器输入。

在数个实施例中,空间编码在涉及将空间对象编码成高保真立体声表示的嵌套架构内执行。在许多实施例中,在嵌套架构内执行的空间编码利用更高阶的高保真立体声(例如,声场表示)、VBAP表示、DBAP表示和/或kNN平移表示。如可以容易理解的,根据本发明的各种实施例,根据特定应用的要求,在嵌套架构中可以使用各种空间音频编码技术中的任何一种。此外,音频对象的空间表示被解码以向各个单元提供音频信号的具体方式可以取决于包括(但不限于)音频对象的数量、虚拟扬声器的数量(其中嵌套架构利用虚拟扬声器)和/或单元的数量的因素。

在若干实施例中,空间音频系统可以使用各种测距技术来确定单元之间的空间关系,测距技术包括(但不限于)使用作为可以与空间音频系统通信的用户设备的一部分的相机的声学测距和视觉映射。在许多实施例中,单元包括麦克风阵列,并且可以确定取向和间距。一旦单元之间的空间关系已知,根据本发明数个实施例的空间音频系统可以利用单元布局来配置其嵌套编码架构。在许多实施例中,单元可以描绘(map)它们的物理环境,其可以进一步用于空间音频的编码和/或解码。例如,单元可以产生房间脉冲响应来描绘它们的环境。例如,房间脉冲响应可以用于找到距墙壁、地板和/或天花板的距离,以及识别和/或校正由房间产生的声学问题。如可容易理解的,根据本发明的各种实施例,根据特定应用的要求,可以利用各种技术中的任何一种生成房间脉冲响应和/或描绘环境以用于空间音频渲染。

如上所述,空间音频系统可以采用利用包括(但不限于)模态波束成形的技术来生成定向音频的单元。在许多实施例中,主单元可以利用关于其自身和其所管控的副单元之间的空间关系的信息来生成为在每个特定单元上回放而设计的音频流。主单元可以为其所管控的每个副单元的每组驱动器单播单独的音频流,以便协调空间音频回放。如可以理解的,可以基于单元的喇叭和驱动器的数量(例如3.1、5等)来修改传输通道的数量。给定音频的空间控制,任何数量的不同常规环绕声扬声器布局(或者实际上任何任意扬声器布局)可以通过使用比使用常规空间音频渲染产生类似声场所需的常规扬声器数量少得多的数个单元来渲染。此外,音频源的通道的上混合和/或下混合可以用于渲染可能不同于源通道数量的数个音频对象。

在各种实施例中,单元可以被用来提供“沉浸”在声音中的听觉,例如,就好像用户处于立体声音频系统的焦点,而不管它们相对于单元的位置。在许多实施例中,通过使用能够渲染漫射声音的单元,可以增强空间音频系统产生的声场,以在空间内更均匀地散布声能。在数个实施例中,单元可以通过以控制直达声音与混响声音的感知比率的方式渲染定向音频来生成漫射音频。可以容易地理解,空间音频系统产生漫射音频的具体方式可以取决于空间音频系统所占据空间的室内声学和特定应用的要求。

在数个实施例中,可以产生空间音频的单元包括驱动器阵列。在许多实施例中,驱动器阵列围绕水平环分布。在若干实施例中,单元还可以包括额外的驱动器,例如(但不限于)在垂直轴上定向的两个相对的低音器。在某些实施例中,驱动器的水平环可以包括三组水平对齐的驱动器,其中每组包括中音驱动器和高音器,这里称为“晕圈”。在若干实施例中,每组中音驱动器和高音器对喇叭馈送,并且圆形喇叭布置可以用于增强方向性。虽然喇叭的特定形式可能受到所使用的特定驱动器的影响,但喇叭结构在这里被称为“晕圈”。在许多实施例中,与晕圈相结合的这种驱动器布置可以使用模态波束形成来实现音频波束控制。很容易理解,根据本发明的各种实施例,在空间音频系统中可以使用各种单元中的任何一种,包括具有不同数量和类型的驱动器的单元、具有不同驱动器部署(例如(但不限于)驱动器的四面体配置)的单元、能够进行水平和垂直波束成形两者的单元、和/或不能产生定向音频的单元。

实际上,本发明的许多实施例包括不包含低音器、中音驱动器和/或高音器的单元。在各种实施例中,较小形状因数的单元可以被封装以装配到灯泡插座中。在许多实施例中,可以构建具有多个晕圈的较大单元。主单元可以协商为具有不同声学特性和/或驱动器/喇叭配置的副单元生成音频流。例如,具有两个晕圈的较大单元可能需要6个音频通道。

此外,根据本发明的各种实施例的空间音频系统可以在包括(但不限于)室内空间、室外空间和诸如(但不限于)客车的车辆内部的各种环境中的任何环境中实现。在若干实施例中,空间音频系统可以用作作曲工具和/或演奏工具。很容易理解,根据本发明的许多实施例的空间音频系统的构造、部署和/或使用可以基于特定应用的要求被确定。

为了消除繁琐的布线要求,在许多实施例中,单元能够与其他单元进行无线通信以便协调声场的渲染。虽然可以从本地源获得媒体,但是在各种实施例中,单元能够连接到网络以获得媒体内容和其他相关数据。在许多实施例中,网络连接的源输入设备可被用于直接连接到提供媒体内容以供回放的设备。此外,单元可以创建自己的网络,以减少通信期间基于业务的延迟。为了建立网络,单元可以在它们之间建立层次结构以便简化通信和处理任务。

当空间音频系统包括能够产生定向音频的单个单元时,与为单元的驱动器产生音频输入的空间音频系统的嵌套架构相关联的编码和解码过程可以由单个单元的处理系统来执行。当空间音频系统利用多个单元来产生声场时,与解码一个或多个音频源、对解码的一个或多个音频源进行空间编码、以及对空间音频进行解码并针对区域中的每个单元对其进行重新编码相关联的处理通常由主单元来处理。然后,主单元可以将各个音频信号单播到每个被管控的副单元。在多个实施例中,单元可以充当超级主单元,其协调由多组单元进行音频源的同步回放,每组单元包括一个主单元。

然而,在一些实施例中,主单元向被管控的副单元提供用于虚拟扬声器的音频信号,并向一个或多个副单元提供空间布局元数据。在若干实施例中,空间布局元数据可以包括信息,包括(但不限于)单元之间的空间关系、单元与一个或多个音频对象之间的空间关系、一个或多个单元与一个或多个虚拟扬声器位置之间的空间关系、和/或关于房间声学的信息。很容易理解,由主单元提供的特定空间布局元数据很大程度上由特定空间音频系统实现的要求确定。副单元的处理系统可以使用接收到的音频信号和空间布局元数据来为副单元的驱动器产生音频输入。

在许多实施例中,可以使用多种不同输入模式中的任何一种来控制空间音频系统对声场的渲染,这些输入模式包括各个单元上的触摸界面、由单元和/或被配置为与空间音频系统通信的另一设备内包含的一个或多个麦克风检测到的语音命令、和/或在移动设备、个人计算机和/或其他形式的消费电子设备上执行的应用软件。在许多实施例中,用户界面使得能够选择音频源并识别用于从所选的一个或多个音频源渲染声场的单元。根据本发明的许多实施例,由空间音频系统提供的用户界面也可以使用户能够控制空间音频对象的部署。例如,可以在移动设备上提供用户界面,该用户界面使得用户能够在空间内部署来自基于通道的环绕声音频源的音频通道。在另一个示例中,用户界面可以使得能够在空间内部署对应于不同音乐家和/或乐器的音频对象。

根据本发明的许多实施例的空间音频系统使音频对象能够在空间内移动的能力使得空间音频系统能够以跟踪用户的方式渲染声场。举例来说,可以以跟踪佩戴虚拟现实、混合现实或增强现实耳机的用户的头部姿势的方式来渲染音频。此外,可以以跟踪用于观看视频内容的平板电脑的朝向的方式渲染空间音频。在许多实施例中,空间音频对象的移动是通过以依赖于被跟踪的用户/对象的方式平移空间音频系统生成的音频源的空间表示来实现的。很容易理解,空间音频系统能够移动音频对象的简易性能够为用户提供大量沉浸式音频体验。实际上,音频对象可以进一步与直接反映音频信号的可视化相关联。此外,音频对象可以被放置在虚拟“声音空间”中,并被分配角色、对象或智能,以创建被渲染为声场的交互场景。主单元可以处理音频信号,以向用于提供可视化的设备提供用于可视化的元数据。

虽然上文介绍了空间音频系统的许多特征和可用于实现它们的单元,但是下文的讨论深入探讨了可以实现空间音频系统的方式以及它们可用于使用任意数量和部署的单元来从各种音频源渲染声场的过程。接下来的大部分讨论参考了空间音频系统在声场生成中使用音频对象的高保真立体声表示。然而,空间音频系统应该被理解为不限于使用高保真立体声表示。根据本发明的许多实施例,高保真立体声表示被简单地描述为可以在空间音频系统中使用的空间音频表示的例子。应当理解,各种空间音频表示中的任何一种都可以用于使用根据本发明的各种实施例实现的空间音频系统来生成声场,包括(但不限于)VBAP表示、DBAP表示和/或高阶高保真立体声表示(例如,声场表示)。

第1节:空间音频系统

空间音频系统是利用一个或多个单元的布置来为给定空间渲染空间音频的系统。单元可被以各种任意布置中的任一种布置被放置在任意数量的不同空间中,包括(但不限于)室内空间和室外空间。虽然一些单元布置比其他单元布置更有利,但是尽管单元布置不完美,这里描述的空间音频系统仍可以高保真地工作。此外,尽管单元的数量和/或部署可能不符合关于在原始音频源的编码中使用的扬声器的数量和部署的假设,但是根据本发明的许多实施例的空间音频系统可以使用特定的单元布置来渲染空间音频。在许多实施例中,单元可以绘制它们的周围环境和/或确定它们彼此的相对位置,以便配置它们的回放来适应不完美的部署。在许多实施例中,单元可以无线通信,并且在许多实施例中,创建它们自己的自组织(ad hoc)无线网络。在各种实施例中,单元可以连接到外部系统以获取用于回放的音频。根据本发明的各种实施例,根据特定应用的要求,与外部系统的连接也可以用于任何数量的替代功能,包括但不限于控制物联网(IoT)设备、接入数字助理、回放控制设备和/或任何其他功能。

根据本发明实施例的示例空间音频系统在图1A中示出。空间音频系统100包括一组单元110。所示实施例中的单元组包括主单元112和副单元114。然而,在许多实施例中,“主”和“副”单元的数量是动态的,并且依赖于添加到系统的单元的当前数量和/或用户配置空间音频系统的方式。在许多实施例中,主单元连接到网络120以连接到其他设备。在许多实施例中,网络是互联网,并且经由路由器来促进连接。在一些实施例中,单元包含路由器和具有经由有线和/或无线端口直接连接到互联网的能力。主单元可以创建自组织无线网络来连接到其他单元,以便减少通过路由器和/或网络120传递的业务总量。在一些实施例中,当大量单元连接到系统时,可以指定“超级主”单元,其协调多个主单元的操作和/或处理网络120上的业务。在许多实施例中,超级主单元可以经由其自己的自组织网络向各种主单元传播信息,然后这些主单元又向副单元传播相关信息。主单元通过其与副单元通信的网络可以是与超级主单元建立的网络相同和/或不同的自组织网络。图1B示出了根据本发明实施例的利用超级主单元116的示例系统。超级主单元与主单元117通信,主单元117继而控制它们各自的副单元118。请注意,超级主单元可以管控它们自己的副单元。然而,在一些实施例中,单元可能相距太远而无法建立自组织网络,但是可能能够经由替代手段连接到现有网络120。在这种情况下,主单元和/或超主单元可以经由网络120直接通信。应当理解,相对于空间音频系统内的特定单元子集,超级主单元可以充当主单元。

再次参考图1A,如上所述,根据本发明各种实施例,网络120可以是任何形式的网络,包括但不限于互联网、局域网、广域网和/或适合于特定应用要求的任何其他类型的网络。此外,网络可以由利用有线连接、无线连接或其组合的一种以上的网络类型构成。类似地,由单元建立的自组织网络可以是任何类型的有线和/或无线网络,或其任意组合。根据本发明的各种实施例,单元之间的通信可以使用任何数量的无线通信方法来建立,包括但不限于无线局域网技术(WLAN),例如WiFi、以太网、蓝牙、LTE、5G NR和/或适合于特定应用要求的任何其他无线通信技术。

该组单元可以通过网络从媒体服务器130获得媒体数据。在许多实施例中,根据本发明各种实施例,媒体服务器由提供媒体流服务的第三方控制,例如但不限于:Netflix,Inc.of Los Gatos,California;Spotify Technology S.A.of Stockholm,Sweden;AppleInc.of Cupertino,California;Hulu,LLC of Los Angeles,California;和/或适合于特定应用的要求的任何其他媒体流服务提供商。在许多实施例中,单元可以从本地媒体设备140获得媒体数据,本地媒体设备140包括但不限于手机、电视、计算机、平板电脑、网络连接存储(NAS)设备和/或能够进行媒体输出的任何其他设备。媒体可以经由网络从媒体设备获得,或者在许多实施例中,可以由单元经由直接连接直接获得。直接连接可以是通过输入/输出(I/O)接口的有线连接,和/或使用多种无线通信技术中的任何一种的无线连接。

图示的空间音频系统100还可以(但不一定需要)包括单元控制服务器150。在许多实施例中,空间音频系统内各种音乐服务的媒体服务器和单元之间的连接由单独的单元处理。在若干实施例中,单元控制服务器可以帮助在单元和媒体服务器之间建立连接。例如,单元控制服务器可以帮助向各种第三方服务提供商认证用户账户。在各种实施例中,单元可以将某些数据的处理卸载到单元控制服务器。例如,通过将数据提供给单元控制服务器,单元控制服务器继而可以向单元提供房间图和/或包括(但不限于)虚拟扬声器布局的其他声学模型信息,可以有助于基于声学测距来绘制房间。在许多实施例中,单元控制服务器被用于远程控制单元,例如但不限于,引导单元回放特定的媒体内容、改变音量、改变当前正被用于回放特定的媒体内容的那些单元、和/或改变空间音频对象在区域中的位置。然而,根据本发明的各种实施例,单元控制服务器可以执行任意数量的不同控制任务,这些任务根据特定应用的要求适当地修改单元操作。根据本发明的各种实施例可以为空间音频系统提供不同类型的用户界面的方式将在下面进一步讨论。

在许多实施例中,空间音频系统100还包括单元控制设备160。根据本发明的各种实施例,单元控制设备可以是能够直接或间接控制单元的任何设备,包括但不限于手机、电视、计算机、平板电脑和/或适合于特定应用要求的任何其他计算设备。在许多实施例中,单元控制设备可以向单元控制服务器发送命令,单元控制服务器继而向单元发送命令。例如,移动电话可以通过经由蜂窝网络连接到互联网来与单元控制服务器通信。单元控制服务器可以验证在移动电话上执行的软件应用。此外,单元控制服务器可以建立到一组单元的安全连接,它可以使去往和来自移动电话的指令通过该安全连接。通过这种方式,单元的安全远程控制成为可能。然而,在许多实施例中,单元控制设备可以经由网络、自组织网络或者经由与单元的直接对等连接而直接连接到单元,以便提供指令。在许多实施例中,单元控制设备也可以作为媒体设备来操作。然而,重要的是要注意,控制服务器不是空间音频系统的必要组件。在许多实施例中,单元可以通过直接接收命令(例如,通过单元上的物理输入,或经由联网设备)并将那些命令传播到其他单元,管理它们自己的控制。

此外,在许多实施例中,网络连接的源输入设备可以被包括在空间音频系统中,以收集和协调媒体输入。例如,源输入设备可以连接到电视、计算机、媒体服务器或任何数量的媒体设备。在许多实施例中,源输入设备具有到这些媒体设备的有线连接,以减少滞后。图1C示出了根据本发明实施例的包括源输入设备的空间音频系统。源输入设备170从诸如计算机180和/或电视182之类的媒体设备收集音频数据和任何其他相关元数据,并将音频数据和相关元数据单播到单元集群190中的主单元。然而,重要的是要注意,在某些配置中,源输入设备也可以充当主单元或超级主单元。此外,任何数量的不同设备可以连接到源输入设备,并且它们不限于仅与一个单元集群通信。事实上,根据本发明实施例,源输入设备可以连接到适合于特定应用要求的任意数量的不同单元。

尽管上面参考图1A和1B描述了特定的空间音频系统,但是根据本发明的各种实施例,可以使用任何数量的不同空间音频系统配置,包括(但不限于)没有连接到第三方媒体服务器的配置、利用不同类型的网络通信的配置、空间音频系统仅通过本地连接(例如,不连接到互联网)利用单元和控制设备的配置、和/或适合于特定应用的要求的任何其他类型的配置。下面讨论单元组的许多不同空间布局。很容易理解,根据本发明的各种实施例的系统和方法的特征在于,它们不限于单元的特定空间布局。因此,提供下面描述的特定空间布局仅仅是为了说明根据本发明许多实施例的空间音频系统能够以适合于用户放置在空间内的特定数量和布局的单元的方式渲染给定空间音频源的灵活方式。

第2节:单元空间布局

单元相对于传统扬声器布置的优点是它们能够形成空间音频系统,该系统能够以适应空间内特定数量和部署的单元的方式渲染空间音频。在许多实施例中,单元可以彼此定位和/或绘制它们的周围环境,以便确定再现空间音频的适当方法。在一些实施例中,单元可以经由用户界面生成建议的替代布置,这样可以改善所渲染的声场的感知质量。例如,在移动电话上渲染的用户界面可以提供关于特定空间内单元的部署和/或取向的反馈。随着单元数量的增加,通常,单元能够再现的空间分辨率增加。然而,取决于空间,可能会达到一个阈值,在该阈值,任何额外的单元都不会或只会略微增加空间分辨率。

许多不同的布局是可能的,并且单元可以适应任何数量的不同配置。下面讨论各种不同的示例布局。在讨论了不同的布局和它们产生的体验之后,下面在第3节讨论了使用单元创建声场的方式。

现在转到图2A,根据本发明的一个实施例,在房间的中央示出了能够使用模态波束成形产生定向音频的单个单元。在许多实施例中,单个单元可以放置在位置,包括(但不限于)搁在地板上、搁在柜台上、安装在支架上或悬挂在天花板上。图2B、图2C和图2D示出使用模态波束成形技术由位于单元周围的驱动器阵列生成的一阶心形。虽然示出了一阶心形,但是根据本发明的许多实施例的单元也可以产生可选的方向性图,包括(但不限于)超级心形和超心形。单个单元能够单独产生以单个单元为原点的定向音频,类似于能够执行模态波束成形的传统扬声器阵列,并且还能够通过以依赖于声学环境的方式产生多个波束来控制直达和混响音频的感知比率,如图2E中根据本发明的实施例所示。该单元可以基于房间中的墙壁、地板、天花板和/或物体来绘制声学反射,并修改其驱动器输入以创建漫射声音。图2F示出了反映根据本发明实施例的包括具有三个喇叭的晕圈的单元可控制由该单元产生的方向性图的方式的心形。图2G示出了也可以由单元产生的多个高阶方向性图之一。

很容易理解,单元不限于驱动器的任何特定配置,并且可以由单元生成的方向性图不限于这里描述的那些。例如,虽然在上述提及的图中示出了心形,但是基于喇叭和/或驱动器布置,超级心形或超心形可以被附加地使用或作为心形的替代。超级心形在±120°附近为零,这可以减少布置在±120°的喇叭处的衰减,这可以在许多晕圈中找到。类似地,超心形在±120°处也为零,这可以以180°处有更大旁瓣为代价提供更好的方向性。很容易理解,根据本发明实施例,根据特定应用的要求,可以根据喇叭和/或驱动器的布置使用不同的高保真立体声,包括混合高保真立体声。此外,驱动器可以使用各种定向音频产生技术中的任何一种来产生定向音频。

通过添加副单元,这两个单元可以开始相互作用并协调声音产生,以便产生具有增加的空间分辨率的空间音频。单元在房间中的部署会影响单元如何配置自身以产生声音。图3A示出了根据本发明实施例的在房间中对角放置的两个单元的例子。如图3B所示,单元可以相互投射声音。虽然每个单元只显示一个心形波型,但单元可以产生多个波束和/或方向性图案来操纵整个房间的声场。图4A和图4B示出了根据本发明实施例的两个单元靠着共享墙的替代布置。在这种配置中,由于不均衡部署,最远离单元的对面墙上可能存在音量平衡问题。然而,单元可以通过适当地修改驱动器发出的声音来减少这种布置的影响。

单元不一定要放在房间的角落里。图5A和图5B示出了根据本发明实施例的两个单元的部署。在许多情况下,这可能是声学最佳部署。但是,根据房间和房间内的物体,以这种配置来部署单元可能不切实际。此外,虽然单元已经被示出为驱动器面向特定方向,但是取决于房间,单元可以旋转到对于空间而言更合适的取向。在许多实施例中,空间音频系统和/或特定单元可以利用它们的用户界面来建议可旋转特定单元以提供更适合于该空间的部署和/或相对于其他单元的定位。

在许多实施例中,一旦三个单元已经在同一空间中联网,就可以至少在水平面中实现空间声音对象的完全控制和再现。在各种实施例中,取决于房间,可以利用等边三角形布置。然而,单元能够适应和调整,以在替代布置中保持对声场的控制。在图6A和图6B中示出了根据本发明的一个实施例的三单元布置,其中每个单元能够使用模态波束成形产生定向音频。通过增加头顶单元,可以在声场上获得额外的三维空间控制。图7A和7B示出了根据本发明的一个实施例的三单元组以及悬挂在天花板上的附加的中央头顶单元。

单元可以被“分组”以顺序操作,从而在空间上回放一段媒体。组常常包括一个房间中的所有单元。然而,特别是在非常大的空间中,组不一定包括房间中的所有单元。组可以进一步聚集成“区域”。区域可以进一步包括没有被分组的单个单元(或者作为选择,可以被认为是在它们自己的组中,基数为1)。在一些实施例中,区域中的每个组可能正在回放同一段媒体,但是可能在空间上不同地定位对象。图8A示出了根据本发明实施例的单元的示例性家庭布局。根据本发明实施例的示例组在图8B中示出,示例区域在图8C中示出。用户可以实时调整分组和区域,单元可以动态地重新适应它们的分组。很容易理解,单元可以在物理空间内以任意配置被部署。在图8D中示出了根据本发明的实施例的替代布置的非穷尽示例。类似地,单元可以根据用户的需要以任意布置进行分组。此外,在许多空间音频系统中使用的一些单元不能生成定向音频,但是仍然可以结合到空间音频系统中。下面讨论如下过程:不管单元的定位如何,仍使得单元能够以同步和可控的方式执行空间音频渲染。

第3部分:空间音频渲染

传统上,空间音频是通过位于指定位置的静态扬声器阵列来渲染的。虽然在某种程度上,阵列中更多的扬声器通常被认为是“更好的”,但消费者级系统目前已经选定了5.1和7.1通道系统,它们分别使用5个扬声器和7个扬声器,并结合一个或多个超低音器。目前,某些媒体在高达22.2(例如国际电信联盟定义的超高清电视)中得到支持。为了在更少的扬声器上播放更高通道的声音,音频输入通常被下混以匹配存在的数个扬声器,或者不匹配扬声器布置的通道仅仅被丢弃。这里描述的系统和方法的优点是能够基于用于编码音频源的通道的数量来创建任意数量的音频对象。例如,三个单元的布置可以通过在房间中放置五个音频对象,将五个音频对象编码成空间表示(例如,诸如(但不限于)B格式的高保真立体声表示),然后通过以适合于单元数量和部署的方式解码原始5.1音频源的空间表示来使用三个单元渲染声场,生成5.1扬声器布置的存在的听觉感觉(见下面的讨论)。在许多实施例中,低音通道可以混合到每个单元的驱动信号中。将通道视为空间音频对象的过程可扩展到任意数量的扬声器和/或扬声器布置。通过这种方式,可以利用房间中数量较少的物理扬声器来实现更多数量的扬声器的效果。此外,不需要精确地部署单元以达到这种效果。

传统的音频系统通常具有听众应该处于的常常被称为“甜蜜点(sweet point)”的地点。在许多实施例中,空间音频系统可以使用关于房间声学的信息来控制给定空间中的直达声和混响声之间的感知比率,使得听起来好像收听者被声音包围,而不管它们位于空间中的什么位置。虽然大多数房间是非漫射的,但是空间渲染方法可以包括绘制房间和确定用于渲染漫射音频的合适的声场操控(参见下面的讨论)。扩散声场的典型特征是声音从均匀分布的方向以均匀分布的延迟随机到达。

在许多实施例中,空间音频系统绘制房间。单元可以使用多种方法中的任何一种来绘制房间图,包括但不限于声学测距、应用机器视觉过程和/或能够进行3D空间映射的任何其他测距方法。其他设备也可被用来创建或扩充这些图,例如智能手机或平板电脑。绘制可以包括:空间中单元的位置;墙壁、地板和/或天花板布置;家具位置;和/或空间中任何其他物体的位置。在若干实施例中,这些地图可用于生成可针对特定位置定制的扬声器部署和/或取向推荐。在一些实施例中,这些地图可被用穿过空间的收听者的位置和/或收听者位置的历史来连续更新。如下文进一步讨论的,本发明的许多实施例利用虚拟扬声器布局来渲染空间音频。在若干实施例中,包括(但不限于)单元部署和/或取向信息、房间声学信息、用户/对象跟踪信息中的任何一个的信息可以被用来确定在该处对音频源的空间表示(例如,高保真立体声表示)进行编码的起始位置,以及用于生成各个单元处的驱动器输入的虚拟扬声器布局。下面进一步讨论根据本发明某些实施例的使用空间音频系统渲染空间音频的各种系统和方法。

在数个实施例中,可以利用上混合来创建不同于通道数量的数个音频对象。在若干实施例中,包含两个通道的立体声源可以被上混合以创建数个左(L)通道、中央(C)通道和右(R)通道。在数个实施例中,还可以通过上混合来生成漫射音频通道。然后,对应于上混通道的音频对象可以相对于由数个单元定义的空间放置,以创建各种效果,包括(但不限于)空间内各处的立体声感觉,如图45中概念性示出的。在某些实施例中,可以利用上混合来相对于虚拟舞台放置音频对象,如图46中概念性地示出的。在数个实施例中,音频对象可以被放置在3D中,如图47中概念性示出的。虽然参考图45-47讨论了放置对象的特定示例,但是根据本发明的各种实施例,可以将各种音频对象(包括直接从空间音频系统获得的、不是通过上混合获得的音频对象)中的任何一个放置在各种任意的1D、2D和/或3D配置中的任何一个中,以便适合于特定应用的要求而渲染空间音频。下面将进一步讨论来自各种不同音频源的空间音频的渲染。此外,根据本发明的各种实施例,上面参考图45-47描述的任何音频对象2D或3D布局都可以用在这里描述的空间音频系统中的选择和处理音频源的任何过程中。

在许多实施例中,空间音频系统包括源管理器,其可以在一个或多个音频源之间进行选择以供渲染。图9示出了包括源管理器906的空间音频系统900,源管理器906根据本文公开的用于空间多媒体源管理的方法和装置的各个方面来配置。如上所述,空间音频系统900可以使用一个单元和/或使用多个单元来实现。源管理器906可以接收多媒体输入902,该多媒体输入902包括由源管理器906用以生成和管理内容908和渲染信息910的各种数据和信息。内容908可以包括从多媒体输入902中的多媒体源中选择的将被空间渲染的编码音频。渲染信息910可以在声音应该如何在空间(遥测)和音量(水平)表示的方面提供内容908的再现的上下文,如这里进一步描述的。在许多实施例中,源管理器在空间音频系统中的单元内实现。在若干实施例中,源管理器在与空间音频系统内的单元中的一个或多个单元通信的服务器系统上实现。在若干实施例中,空间音频系统包括网络连接的源输入设备,其使得源(例如,壁挂式电视)能够在远离最近单元的位置连接到网络连接的源输入设备。在若干实施例中,网络连接的源输入设备实现源管理器,该源管理器可以引导所选择的源以供在空间音频系统900内的单元上渲染。

用户可以通过用户交互输入904直接控制空间音频系统900。用户交互输入904可以包括通过用户接口从用户接收的命令,用户接口包括在诸如智能手机的“智能设备”上的应用上的图形用户界面;诸如通过向“虚拟助手(如苹果公司的Siri、Amazon.com公司的Alexa或来自Google LLC(谷歌)的Google Assistant)”发出的命令的语音输入、以及诸如按钮、拨号盘和旋钮的“传统”物理接口。用户接口可以直接或通过无线接口,例如通过由IEEE分别在IEEE 802.15.1和IEEE 802.11标准中的颁布的蓝牙或Wi-Fi无线标准,耦合到源管理器906,并且通常耦合到空间音频系统900。空间音频系统900内使用的单元中的一个或多个单元还可以包括基于触摸(例如,按钮和/或电容触摸)或基于语音的用户交互输入904中的一个或多个。

源管理器906可以向多媒体渲染引擎912提供内容908和渲染信息910。多媒体渲染引擎912可以基于内容908和渲染信息910,为一组单元916-1至916-n生成音频信号和空间布局元数据914。在许多实施例中,音频信号是关于特定音频对象的音频信号。在若干实施例中,音频信号是虚拟扬声器音频输入。提供给单元的特定空间布局元数据914通常取决于音频信号的性质(例如,音频对象的位置和/或虚拟扬声器的位置)。因此,使用该组单元916-1至916-n,多媒体渲染引擎912可以基于渲染信息910来再现分布在房间中的内容908,内容908可以包括多个声音对象。下面将进一步讨论根据本发明各种实施例的使用单元执行空间音频渲染的各种方法。

在若干实施例中,由多媒体渲染引擎912向单元916-1至916-n提供的音频信号和(可选的)空间布局元数据914可以包括专门为每个单元生成的单独的数据流。单元可以使用音频信号和(可选的)空间布局元数据914来生成驱动器输入。在数个实施例中,多媒体渲染引擎912可以为每个单独的单元产生多个音频信号,其中每个音频信号对应于不同的方向。当单元接收到多个音频信号时,该单元可以利用多个音频信号为对应于多个方向中的每一个方向的一组驱动器生成驱动器输入。例如,包括在三个不同方向上取向的三组驱动器的单元可以接收三个音频信号,该单元可以利用这些音频信号为三组驱动器中的每一组产生驱动器输入。很容易理解,根据本发明的各种实施例,音频信号的数量可以取决于驱动器组的数量和/或取决于适合特定应用要求的其他因素。此外,渲染引擎912可以产生特定于每个单元的音频信号,并且还向所有单元提供相同的低音信号。

如上所述,每个单元可以包括一组或多组不同类型的音频换能器。例如,每个单元可以使用包括一个或多个低音、中音和高音驱动器的一组驱动器来实现。可以使用诸如(但不限于)分频滤波器的滤波器,使得音频信号可以被分成低通信号、带通信号和高通信号,其中低通信号可以用于生成一个或多个低音器的驱动器输入,带通信号可以用于生成一个或多个中音器的驱动器输入,高通信号可以用于生成一个或多个高音器的驱动器输入。很容易理解,根据特定应用的要求,用于生成不同类别驱动器的驱动器输入的音频频带可以重叠。此外,根据本发明的各种实施例,根据特定应用的要求,可以利用任意数量和/或取向的驱动器来实现单元。

如下文进一步讨论的,根据本发明的许多实施例的空间音频系统可以利用各种过程来空间渲染一个或多个音频源。特定过程通常取决于音频源的性质、单元的数量、单元的布局以及空间音频系统所使用的特定空间音频表示和嵌套架构。图10示出了根据本发明实施例的可以由空间音频系统实现的用于渲染声场的一个过程1000。在1002,空间音频系统接收多个多媒体源输入。一个或多个内容源可以由在处理器上执行的源选择软件过程选择和预处理,并且与之相关联的数据和信息可以被提供给枚举(ennumeration)确定软件过程。

在1004,枚举确定软件过程确定被选择用于渲染的多个源。枚举信息可以被提供给位置管理软件过程,该过程允许跟踪数个内容源。

在1006,位置管理软件过程可以确定要空间渲染的每个内容源的位置信息。如上所述,各种因素(包括(但不限于)正在播放的内容的类型、用户或相关设备的位置信息、和/或历史/预测位置信息)可被用于确定与用于空间渲染内容源的后续软件过程相关的位置信息。

在1008,可以通过交互管理软件过程来确定所枚举的各种位置处的内容源之间的交互。各种交互可以基于诸如(但不限于)上面讨论的哪些因素的各种因素来确定,包括(但不限于)内容类型、回放位置和/或用户或相关设备的位置信息、以及历史/预测交互信息。

在1010,可以生成包括(但不限于)内容和渲染信息的信息,并将其提供给多媒体渲染引擎。

在本公开的一个方面,在1008确定内容源之间的交互之前,可以发生在1006确定与每个内容源相关联的回放位置。这可以允许对空间音频源的渲染进行更完整的管理。因此,例如,如果多个内容源正在非常接近地播放,则可以基于对位置接近性的认识来确定交互/混合。此外,还可以考虑每个内容源的优先级。

根据本公开的各个方面,源管理器可以使用在预设/历史信息中接收的信息来影响被提供给多媒体渲染引擎的内容和渲染信息。该信息可以包括用户定义的预设和以前如何处理各种多媒体源的历史。例如,用户可以定义预设,即通过特定的HDMI输入接收的所有内容都在诸如客厅的特定位置处被再现。作为另一个例子,历史数据可以指示用户总是在卧室中播放时间警报。一般来说,历史信息可以用来启发式地确定可以如何渲染多媒体源。

尽管上面参考图9和10描述了包括源管理器和多媒体渲染引擎的特定空间音频系统以及用于实现源管理器和多媒体渲染引擎的过程,但是根据本发明的各种实施例,根据特定应用的要求,空间音频系统可以利用各种硬件和/或软件过程中的任何一种来选择音频源并且使用一组单元来渲染声场。根据本发明的各种实施例的通过对空间音频源的表示进行编码并基于特定的单元配置对该表示进行解码来渲染声场的过程将在下面进一步讨论。

第4A节:嵌套架构

根据本发明的许多实施例的空间音频系统利用嵌套架构,该架构可以具有特别的优点,因为它使得能够以可适合于用于渲染空间音频的单元和/或扬声器的数量和配置的方式进行空间音频渲染。此外,嵌套架构可以将与空间音频渲染相关联的处理分布在空间音频系统内的多个计算设备上。实现空间音频系统中编码器和解码器的嵌套结构的具体方式在很大程度上取决于给定应用的要求。此外,各个编码器和/或解码器功能可以分布于各单元。例如,主单元可以部分地执行单元解码器的用于解码特定于单元的音频流的功能。主单元然后可以将这些音频流提供给相关的副单元。副单元然后可以通过将音频流转换成驱动器信号来完成单元解码过程。很容易理解,根据本发明的各种实施例的空间音频系统可以利用适合于特定应用要求的各种嵌套体系结构中的任何一种。

在若干实施例中,空间音频系统内的主单元对正在渲染的每个音频对象的单独音频信号进行空间编码。如上所述,根据特定应用的要求,音频对象可以直接提供给空间音频系统,通过将源音频的通道映射到相应的音频对象来获得,和/或通过将源音频的通道上混合和映射到相应的音频对象来获得。主单元然后可以基于用于渲染空间音频的单元的位置来解码每个音频对象的空间音频信号。给定的单元可以使用其特定的音频信号来编码用于该单元的空间音频信号,该空间音频信号然后可以被解码以生成用于每个单元的驱动器的信号。

当对每个音频对象进行单独的空间编码时,网络中主单元传输的数据量会随着空间对象的数量而增加。主单元传输的数据量与音频对象的数量无关的另一种方法是主单元将所有音频对象空间编码成单个空间表示。主单元然后可以关于一组虚拟扬声器来解码所有音频对象的空间表示。虚拟扬声器的数量和位置通常基于用于渲染空间音频的单元的数量和位置来确定。然而,在许多实施例中,虚拟扬声器的数量可以是固定的,而与单元的数量无关,但是其位置取决于单元的数量和位置。例如,在某些使用情况下,空间音频系统可以利用位于圆周周围的八个虚拟扬声器(与单元的数量无关)。很容易理解,虚拟扬声器的数量可以取决于分组单元的数量和/或源中的通道数量。此外,虚拟扬声器的数量可以大于或小于8。主单元然后可以向给定单元提供基于与该单元相关联的虚拟扬声器的位置被解码的一组音频信号。通过将虚拟扬声器视为音频对象并基于单元相对于虚拟扬声器位置的位置执行空间编码,可以将虚拟扬声器输入转换成一组驱动器输入。然后,该单元可以解码虚拟扬声器的空间表示,以生成驱动器输入。在许多实施例中,单元可以使用一组滤波器将接收到的虚拟扬声器输入有效地转换成一组驱动器输入。在若干实施例中,主单元可以开始将虚拟扬声器输入解码成用于每个单元的一组音频信号,其中每个音频信号对应于特定方向。当该组音频信号被提供给副单元时,副单元可以利用每个音频信号来为被取向为在特定方向上投射声音的一组驱动器生成驱动器输入。

在若干实施例中,在嵌套架构内执行的空间编码涉及将空间对象编码成高保真立体声表示。在许多实施例中,在嵌套架构内执行的空间编码利用高阶高保真立体声(例如,声场表示)、基于向量的振幅平移(VBAP)表示、基于距离的振幅平移(DBAP)和/或k最近邻平移(KNN平移)表示。很容易理解,空间音频系统可以支持多种空间编码,并且可以基于包括(但不限于)音频源的性质、特定单元组的布局和/或用户与空间音频系统的交互(例如,空间音频对象部署和/或空间编码控制指令)的因素,在数种不同的空间音频编码技术之间进行选择。如可以容易理解的,根据本发明的各种实施例,根据特定应用的要求,在嵌套架构中可以使用各种空间音频编码技术中的任何一种。此外,解码音频对象的空间表示以向各个单元提供音频信号的具体方式可以取决于包括(但不限于)音频对象的数量、虚拟扬声器的数量(在嵌套架构利用虚拟扬声器的情况下)和/或单元的数量的因素。

图11概念性地示出了用于空间音频控制和再现的过程1100,该过程涉及通过将不同的通道视为空间声音对象来创建音频源的高保真立体声编码。然后,音频对象可以被放置在不同的位置,并且音频对象的位置被用来在选定的原点位置生成声场的高保真立体声表示。虽然图11是在使用空间音频的高保真立体声表示的空间音频系统的上下文中描述的,但是类似于图11所示的过程可以使用各种空间音频表示中的任何一种来实现,包括(但不限于)高阶高保真立体声(例如声场表示)、VBAP表示、DBAP表示和/或KNN平移表示。

过程1100可以由空间音频系统实现,并且可以涉及系统编码器1112,其提供音频渲染信息到中间格式的转换。在许多实施例中,转换过程可以包括对编码音频数据进行解复用,该编码音频数据编码来自容器文件或容器文件的一部分的一个或多个音轨和/或音频通道。音频数据然后可以被解码以创建多个单独的音频输入,每个音频输入可以被视为单独的声音对象。在一个方面,系统编码器1112可以针对特定环境对声音对象及其相关信息(例如,位置)进行编码。示例可以包括(但不限于)基于通道的音频环绕声系统的期望扬声器布局、乐队位置模板和/或一组乐器的管弦乐队模板。

系统编码器1112可以定位或映射声音对象,并以诸如平移器(panner)的方式操作。系统编码器1112可以接收声音信息1102中的关于声音对象的信息,并且以广义的形式渲染这些声音对象。系统编码器1112可能不知道由解码器在下游处理的任何实现细节(例如,单元的数量和/或单元的放置和方向),如文中进一步描述的。此外,系统编码器1112可以接收各种内容和格式的声音信息,包括(但不限于)基于通道的声音信息、离散声音对象和/或声场。

图12A示出了物理空间1200的概念表示,具有系统编码器1112对声音对象的示例映射,其可用于描述系统编码器1112的操作的各个方面。在本公开的一个方面,系统编码器1112使用坐标系来执行声音对象的映射,在该坐标系中相对于原点定义位置信息。原点和坐标系可以是任意的,并且可以由系统编码器1112建立。在如图12A所示的示例中,系统编码器1112在概念表示中的笛卡尔坐标系的位置[0,0]处建立原点1202,坐标系的四个角是[-1,-1],[-1,1],[1,-1]和[1,1]。提供给系统编码器1112的声音信息包括声音对象S1212,系统编码器1112将其映射到概念表示中的位置[0,1]。应当注意,尽管图12A中提供的示例是根据笛卡尔坐标系来二维表示的,但是也可以使用其他坐标系和维度,包括极坐标、圆柱坐标系和球面坐标系。在这里的例子中使用的坐标系的特定选择不应被认为是限制性的。

在一些情况下,系统编码器1112可以应用系统编码器1112的坐标系的静态变换,以适应包括但不限于头戴式显示器、移动电话、平板电脑或游戏控制器的外部回放或控制设备的初始取向。在其他情况下,系统编码器1112可以接收与用户相关联的恒定遥测数据流,例如来自6自由度(6DOF)系统的遥测数据流,并且连续地重新定位声音对象,以便使用该遥测数据流来保持特定的渲染。

系统编码器1112可以生成中间格式(例如B格式)1122的空间音频对象的高保真立体声编码作为输出。如上所述,根据特定应用的要求,可以利用其他格式来表示空间音频信息,包括(但不限于)能够表示二阶和/或更高阶高保真立体声的格式。在图11中,声场信息被示为声场信息1122,其可以包括关于诸如声音对象S 1212的声音对象的映射信息。

再次参考图11,系统1100包括系统解码器1132,其可用于从系统编码器1112接收空间音频对象的高保真立体声编码1122,并为空间音频系统1100中的每个单元提供系统级高保真立体声解码。在本公开的一个方面,系统解码器1132知道单元及其物理布局,并且允许系统1100适当地处理声音信息1102,以利用特定的扬声器布置和环境(例如,房间)来再现音频。

图12B示出了对应于图12A的概念表示的物理空间的概念表示,其包括一组单元的布局的覆盖。该组单元包括三(3)个单元:单元11270_SN1、单元2 1270_SN2和单元3 1270_SN3。系统解码器1132根据实际物理测量调整系统编码器1112执行的映射,以达到图12B中所示的概念表示。因此,在图12B所示的概念表示中,图12A所示的概念表示的拐角已经被转换到位置[-X,-Y],[-X,Y],[X,-Y]和[X,Y],其中X和Y表示物理空间的物理维度。例如,如果物理空间被定义为20米×14米的房间,那么X可以是20,Y可以是20。声音对象S 1212被映射到位置[0,y_S]。虽然在图12B中未示出,但是根据本发明的许多实施例,在空间音频系统中以三维方式确定单元的空间位置。

系统解码器1132可以为每个单元编码器生成输出数据流,该输出数据流可以包括(但不限于)每个声音对象的音频信号和空间位置元数据。在若干实施例中,空间位置元数据描述了在由系统编码器1112生成的空间音频对象的高保真立体声表示的高保真立体声解码中,由系统解码器1132利用的音频对象的位置与单元之间的空间关系。如图11所示,在有n个单元的情况下,系统解码器1132可以向n个单元中的每一个提供n个不同的数据流作为单独输出1142,其中每个数据流包括特定单元的声音信息。此外,用于n个单元中每一个单元的数据流中的每一个可以包括多个音频流。如上所述,每个音频流可以对应于相对于单元的方向。

除了系统编码器1112,系统1100还包括单元级的编码器功能。根据本公开的各个方面,系统1100可以包括与每个单元相关联的第二编码器,在如图11中示出为单元编码器1152-1至1152-n。在一个方面,单元编码器1152-1至1152-n中的每一个负责由从系统解码器1132接收的声音信息,为其相关联的单元生成单元级的声场信息。具体地,单元编码器1152-1至1152-n中的每一个可以从系统解码器1132的输出1142接收声音信息。

单元编码器1152-1至1152-n中的每一个可以向相应的单元解码器提供单元级声场表示输出,其包括方向性和控制信息。在本公开的一个方面,从每个单元编码器输出的单元级声场表示是相对于其相应单元而不是系统原点的声场表示。给定的单元编码器可以利用关于每个声音对象、和/或虚拟扬声器和单元相对于系统原点和/或相对于彼此的位置的信息来编码单元级声场表示。根据该信息,单元编码器1152-1至1152-n中的每一个可以确定从其相关联的单元到每个声音对象(例如,声音对象S 1212)的距离和角度。

参考图12C,例如,在有三个单元(n=3)的情况下,用于单元11270_SN1的第一单元编码器1152_SN1可以使用n通道输出1142中的声音信息来确定声音对象S 1212相对于单元1 1270_SN1的距离为d_SN1并且角度为θ_SN1。类似地,分别与单元2 1270_SN2和单元31270_SN3相关联的第二单元编码器1152_SN2和第三单元编码器1152_SN3可以使用n通道输出1142中的声音信息来确定这些单元中的每一个与声音对象S 1212的距离和角度。在本公开的一个方面,每个单元编码器可以仅从n通道输出1142接收其相关联通道。在许多实施例中,在单元编码期间基于虚拟扬声器相对于单元的位置执行类似的过程。

来自所有单元编码器1152-1至1152-n的单元级声场表示输出在图11中共同示出为单元级声场表示信息1162。

基于从可以位于n个单元中的每一个中或位于单个主单元上的单元编码器1152-1至1152-n接收的单元级声场表示输出1162,该单元编码器1152-1至1152-n,本地单元解码器1172-1至1172-n可以将音频渲染给该单元中包含的驱动器,共同示出为换能器信息1182。继续上面的例子,驱动器组1192-1至1192-n也与相应的单元解码器1172-1至1172-n相关联,其中一组驱动器与每个单元相关联,更具体地,与每个单元解码器相关联。应当注意,用于一个单元的驱动器组中的驱动器的取向和数量是作为示例提供的,并且其中包含的单元解码器可以适应扬声器的任何特定取向或数量。此外,一个单元可以具有单个驱动器,并且空间音频系统内的不同单元可以具有不同的驱动器组。

在本公开的一个方面,每个单元解码器基于每个相应单元的物理驱动器几何结构提供换能器信息。如这里进一步描述的,换能器信息可以被转换以产生特定于单元中每个驱动器的电信号。例如,单元11270_SN1的第一单元解码器可以为单元中的每个驱动器1294_S1、1294_S2和1294_S3提供换能器信息。类似地,第二单元解码器1172_SN2和第三单元解码器1172_SN3可以分别为单元2 1270_SN2和单元3 1270_SN3中的每个驱动器提供换能器信息。

除了图12C之外还参考图12D,如果单元1 1270_SN1将以角度θ_SN1和距离d_SN1渲染声音对象S 1212,其中单元1 1270_SN1包括被示出为第一驱动器1294_S1、第二驱动器1294_S2和第三驱动器1294_S3的三个驱动器,则第一单元解码器1172_SN1可以向这三个驱动器中的每一个提供换能器信息。很容易理解,由单元解码器产生的特定信号很大程度上取决于单元的配置。

虽然使用高保真立体声来渲染来自任意音频源的声场的特定过程,但是根据本发明的各种实施例,根据特定应用的要求,各种音频信号处理流水线中的任何一种都可以被用来以与在音频源的原始编码中使用的通道数量和/或扬声器布局假设无关的方式来使用多个单元来渲染声场。例如,可以利用嵌套架构,该嵌套架构采用其他空间音频表示与包括(但不限于)更高阶高保真立体声(例如,声场表示)、VBAP表示、DBAP和/或KNN平移表示的高保真立体声表示相结合或作为其替代。下文进一步讨论根据本发明的各种实施例的用于渲染声场的特定过程,该特定过程利用空间音频再现技术来为一组虚拟扬声器生成音频输入,然后所述音频输入被各个单元用来生成驱动器输入。

第4B节:利用虚拟扬声器的嵌套架构

根据本发明各种实施例的空间音频再现技术可以用于在任何任意布置的单元上渲染任意一段源音频内容,而不管源音频内容的通道数量如何。例如,以5.1环绕声格式编码的源音频通常使用5个扬声器和一个专用超低音器来渲染。然而,这里描述的系统和方法可以使用更少数量的单元以相同的质量渲染相同的内容。现在转到图13A-D,示出了根据本发明实施例的用于将5.1通道音频映射到三个单元的高保真立体声渲染技术的视觉表示。很容易理解,图13A-13D所示的例子可以推广到任意数量的输入通道到任意数量的单元。此外,基于通道的音频可以被上混合和/或下混合,以创建与音频编码中使用的通道数量不同的数个空间音频对象。此外,这里描述的过程不限于使用空间音频的高保真立体声表示。

图13A示出了期望的5.1通道扬声器配置。5.1格式有三个前置扬声器和两个后置扬声器,其中前置和后置扬声器彼此相对地发射。5.1通道扬声器配置被设置为使得在该配置中心的点成为环绕声的焦点。利用这些信息,可以建立具有相同焦点的虚拟扬声器环。图13B示出了根据本发明实施例的虚拟扬声器环。在该示例中,例示了八个虚拟扬声器,但是数量可以更高或更低,这取决于所使用的单元数量和/或期望的空间分离程度。在许多实施例中,虚拟扬声器的环模拟了高保真立体声扬声器阵列。通过计算创建与由5.1通道扬声器系统生成的声场相匹配的相同声场所需的高保真立体声表示,高保真立体声编码可用于将5.1通道音频映射到虚拟扬声器环。使用高保真立体声表示,每个虚拟扬声器可以被分配音频信号,该音频信号在被渲染时将创建所述声场。可以利用替代的空间音频渲染技术来将5.1通道音频编码成各种空间音频表示中的任何一种,然后使用诸如(但不限于)高阶高保真立体声(例如,声场表示)、VBAP表示、DBAP表示和/或KNN平移表示之类的表示基于虚拟扬声器的阵列对其进行解码。

由于在本发明的许多实施例中使用的单元的模态波束形成能力,这使得它们能够渲染声音对象,虚拟扬声器可以被分配给组中的单元作为声音对象。每个单元可以将与分配给它们的虚拟扬声器相关联的音频信号编码成空间音频表示,然后该单元可以解码该空间音频表示以获得一组信号来驱动包含在该单元内的驱动器。通过这种方式,单元可以共同渲染所需的声场。图13C示出了根据本发明实施例的用于渲染5.1通道音频的三单元布置。在一些实施例中,空中单元(位于比其他单元更高的水平面上)可以被引入以更接近地近似高保真立体声扬声器阵列。图13D示出了根据本发明实施例的包括空中单元的示例配置。虽然上面参考图13A-13D描述了基于5.1通道源和包括3或4个单元的组的特定示例,但是根据本发明的各种实施例,根据特定应用的要求,可以使用与文中描述的任何过程类似的过程来执行由一个或多个单元的组的任意配置用于渲染的任何数量的通道(包括单个通道)到一个或多个空间音频对象(包括通过通道的上混合和/或下混合)的各种映射中的任一种映射。

图14示出了用于处理声音信息的声音信息过程1400,其可以由根据本公开的各个方面的用于空间音频控制和再现的系统来实现。在1410,可以包括声音对象的声音信息由系统编码器接收。在1420,可以获得单元位置图。在1430,系统编码器使用声音信息为一组声音对象创建声场表示。通常,系统编码器在系统级生成声音对象的声场表示。在本公开的一个方面,该系统级声场表示包括声音信息中声音对象的位置信息。例如,系统编码器可以通过映射包含在声音信息中的声音对象来生成声场信息。声场信息可以利用高保真立体声表示,该高保真立体声表示包括分量W,其是全向分量,X和Y以及适用情况下的Z。如上所述,可以使用替代的空间音频表示,包括(但不限于)更高阶高保真立体声(例如,声场表示)、VBAP表示、DBAP表示和/或KNN平移表示。位置信息可以相对于由系统编码器选择的原点被定义,该原点被称为“系统原点”,因为系统编码器已经确定了该原点。

在1440,系统解码器接收声场信息,其包括由系统编码器使用声音信息生成的系统级声场表示。系统解码器使用系统级声场表示以及对系统中单元的布局和数量的了解,可以生成n通道输出形式的每单元输出。如所讨论的,在本公开的一个方面,n通道输出中的信息基于系统中单元的数量和布局。在许多实施例中,解码器利用单元的布局来定义一组虚拟扬声器,并为一组虚拟扬声器生成一组音频输入。被提供给给定单元的来自n通道输出的特定通道输出可以包括用于虚拟扬声器组的音频输入中的一个或多个以及关于这些虚拟扬声器的位置的信息。在若干实施例中,主单元利用虚拟扬声器来为每个单元解码一组音频信号(例如,主单元基于用于每个虚拟扬声器的声音信息的表示来执行处理以生成单元信号1460)。在数个实施例中,为特定单元解码的每个音频信号对应于在特定方向上取向的一组驱动器。当一个单元具有例如在不同方向上取向的三组驱动器时,主单元可以从用于虚拟扬声器的所有音频信号或音频信号的子集解码出三个音频信号(每组驱动器一个)。当主单元为每个单元解码一组音频信号时,这些信号就是提供给给定单元的n通道输出。

在1450,每个单元编码器在由系统解码器生成的n通道输出中接收用于虚拟扬声器组的n通道声音信息之一。每个单元编码器可以从虚拟扬声器的音频输入和虚拟扬声器的位置确定单元级的声场表示信息,这可以允许相应的单元解码器稍后为与其相关联的一个或多个驱动器生成适当的换能器信息,如这里进一步讨论的。具体而言,单元中的每个单元编码器在输出中将它的声场表示信息传递给它相关联的单元解码器,这些输出可以统称为单元级声场表示信息。相关联的单元解码器然后可以解码单元级声场表示信息,以向驱动器输出1460各个驱动器信号。在本公开的一个方面,该单元级声场表示信息被提供作为用于衰减要从每个单元生成的音频的信息。换句话说,信号被衰减了一定的量,以使其偏向特定的方向(例如平移)。在许多实施例中,可以使用一组滤波器,例如(但不限于)一组FIR滤波器,将虚拟扬声器输入直接变换成各个驱动器信号。如可以容易理解的,使用滤波器生成驱动信号是一种高效的技术,其能够以考虑虚拟扬声器位置和单元位置之间的固定关系的方式执行虚拟扬声器输入的嵌套编码和解码,而不管由单元渲染的空间音频对象的位置如何。

在若干实施例中,单元编码器和单元解码器可以使用高保真立体声来控制由每个单元产生的信号的方向性。在多个实施例中,基于虚拟扬声器组的音频输入,在用于为特定单元编码和/或解码音频信号的过程中使用一阶高保真立体声。在数个实施例中,加权采样解码器被用来为一个单元生成一组音频信号。在若干实施例中,使用包括(但不限于)超级心形和/或超心形的高阶高保真立体声在由单元形成的波束中获得额外的侧抑制。这样,根据本发明的各种实施例,依赖于高阶高保真立体声的解码器的使用可以在空间音频系统内使用的单元的驱动器组(例如喇叭)之间实现更大的方向性和更小的串扰。在若干实施例中,可以利用最大能量矢量幅度加权来实现更高阶高保真立体声解码器,该解码器用于为空间音频系统内的单元解码音频信号。如可以容易理解的,根据本发明的各种实施例,根据特定应用的要求,可以利用各种空间音频解码器中的任何一种来基于数个虚拟扬声器输入信号及它们的位置来生成单元的音频信号。

如下面进一步讨论的,空间音频对象的感知距离和方向可以通过以如下方式修改由单元产生的音频的方向性和/或方向被控制:修改包括(但不限于)位于单元或单元组附近的一个或多个听众感知的直达音频的功率与漫射音频的功率之比的声音特性。尽管上面描述了在利用虚拟扬声器的嵌套结构中为特定单元解码音频信号的各种过程,根据本发明的各种实施例,根据特定应用的要求,与这里描述的单元解码器类似的单元解码器可被用于各种空间音频系统中的任何一种,包括(但不限于)在空间音频编码中不依赖于虚拟扬声器的使用和/或在空间音频编码中依赖于虚拟扬声器的各种不同数量和/或配置中的任何一种的空间音频系统。当网络上存在多个网络连接的单元时,减少需要在网络上流动的流量可能是有益的。这可以减少对于同步音频至关重要的延迟。因此,在各种实施例中,主单元可以负责编码空间表示并基于虚拟扬声器布局来解码空间表示。然后,在剩余的步骤中,主单元可以将所解码的虚拟扬声器的信号传输到副单元。这样,通过网络传输的音频信号的最大数量与空间音频对象的数量无关,而是取决于期望提供给每个单元的虚拟扬声器音频信号的数量。很容易理解,主单元处理和副单元处理之间的划分可以在任何任意点进行,具有各种益处和结果。

在许多实施例中,单元的驱动器阵列中的驱动器可以布置成一个或多个组,每个组可以由单元解码器驱动。在许多实施例中,每个驱动器组包含至少一个中音器和至少一个高音器。然而,根据本发明的各种实施例,根据特定应用的要求,不同数量的驱动器和不同类别的驱动器可以组成驱动器组,包括但不限于所有一种类型的驱动器。例如,图15示出了根据本发明实施例的单元的驱动器阵列中的驱动器组。单元解码器1500驱动驱动器阵列1510,其包括第一组中/高驱动器1512-1、第二组中/高驱动器1512-2、和第三组中/高驱动器1512-3。每个驱动器组可以包括一个或多个不同类型的音频换能器,例如一个或多个低音、中音和高音器。在本公开的一个方面,可以为扬声器阵列中的每个扬声器组生成单独的音频信号,并且可以使用诸如分频器的带通滤波器,使得由单元解码器1500生成的换能器信息可以被分成用于特定驱动器组中不同类型驱动器中的每一个驱动器的不同带通信号。在所示实施例中,每个中/高驱动器组包括中音器1513-1和一个高音器1513-2。在许多实施例中,驱动器阵列还包括低音驱动器组1514。在许多实施例中,低音驱动器组包括两个低音器。然而,根据本发明的各种实施例,根据特定应用的要求,可以利用任何数量的低音器,包括无低音器、一个低音器或n个低音器。

在数个实施例中,通过使用定向音频来控制所渲染的声场中的直达声和混响声的感知比率,可以增强空间音频系统所渲染的空间音频的感知质量。在许多实施例中,使用模态波束成形来引导波束从墙壁和/或空间内的其他表面反射,实现了混响声的增加。以这种方式,可以通过渲染包括第一方向上的直接分量和将从附近表面反射的额外方向上的额外间接音频分量的音频来控制直达噪声和混响噪声之间的比率。下面讨论根据本发明的多个不同实施例的可被用来使用定向音频实现沉浸式空间音频的各种技术。

现在转到图16,示出了根据本发明实施例的以漫射和定向方式渲染空间音频的过程。过程1600包括获得(1610)音频文件的全部或一部分,以及获得(1620)单元位置图。使用该信息,直达音频空间表示被编码(1630)。直达表示可以包括关于直达声(而不是漫射声音)的信息。可以使用虚拟扬声器布局对直达表示进行解码(1640),然后针对真实单元布局对输出进行编码(1650)。该编码信息可以包含空间音频信息,该空间音频信息可被用于生成与源音频相关联的声场的直达部分。基本上实时地,可以执行距离缩放过程(1660)并编码漫射空间表示(1670)。该扩散表示可以使用虚拟扬声器布局被解码(1680),并对于真实单元布局被编码(1690),以控制直达声音和混响声音之间的感知比率。漫射和直达表示可以由单元解码(1695)以渲染期望的声场。

从上面的讨论可以理解,确定空间信息的能力可以极大地有助于空间音频的渲染,空间信息包括(但不限于)空间中单元的相对位置和取向,以及空间的声学特性。在数个实施例中,利用测距过程来确定单元的部署和取向和/或单元部署于其中的空间的各种特性。然后,可以利用该信息来确定虚拟扬声器位置。包括(但不限于)描述单元、空间、收听者的位置、收听者的历史位置和/或虚拟扬声器位置的空间数据的空间数据统称为空间位置元数据。下面描述根据本发明的各种实施例的用于生成空间位置元数据并将空间位置元数据中的一些或全部分发到空间音频系统内的各种单元的各种过程。

现在转到图17,示出了根据本发明实施例的用于将虚拟扬声器部署传播到单元的过程。过程1700包括映射(1710)空间。如上所述,空间映射可以由单元和/或其他设备使用多种技术中的任何一种来执行。在各种实施例中,映射空间包括确定空间中各种物体和障碍物的声学反射性。

过程1700还包括定位(1720)相邻单元。在许多实施例中,单元可以由其他单元使用声学信号来定位。也可以使用联网相机(例如手机相机)通过视觉确认来识别单元。一旦定位了区域中的单元,就可以配置组(1730)。基于组中扬声器的位置,可以生成虚拟扬声器部署(1740)。虚拟扬声器部署然后可以被传播(1750)给其他单元。在许多实施例中,主单元生成虚拟扬声器部署,并将该部署传播给连接到该主单元的副单元。在许多实施例中,可以生成一个以上的虚拟扬声器部署。例如,可以生成常规的2、2.1、5.1、5.1.2、5.1.4、7.1、7.1.2、7.1.4、9.1.2、9.1.4和11.1扬声器部署,包括与包括(但不限于)如杜比实验室公司开发的Dolby Digital、Dolby Digital Plus和Dolby Atmos的各种音频编码格式结合推荐的扬声器部署,因为它们更常见。但是,可以使用地图来实时生成虚拟扬声器位置。

如上所述,空间编码器和空间解码器的嵌套架构的组件可被以各种方式在空间音频内的各个单元内实现。在图48中概念性地示出了根据本发明实施例的可以被配置为充当空间音频系统内的主单元或副单元的单元的软件。单元4800包括一系列驱动器,包括(但不限于)硬件驱动器和接口连接器驱动器,例如(但不限于)USB和HDMI驱动器。驱动器使单元4800的软件能够使用一个或多个麦克风捕获音频信号,并为单元中的一个或多个驱动器生成驱动器信号(例如,使用数模转换器)。很容易理解,单元所使用的特定驱动器很大程度上取决于单元的硬件。

在所示实施例中,提供音频和midi应用程序D#402来管理在硬件驱动器和单元的处理系统上执行的各种软件过程之间的信息传递。在若干实施例中,音频和midi应用能够解码音频信号以供在单元的驱动器组上渲染。音频和midi应用可以利用这里描述的用于解码音频以供在单元上渲染的过程中的任一种,包括下面详细讨论的过程。

硬件音频源过程4804管理通过接口连接器驱动器与外部源的通信。接口连接器驱动器可以使音频源直接连接到单元。可以使用音频服务器4806在驱动器与在单元的处理系统上执行的各种软件进程之间路由音频信号。

如上所述,麦克风捕获的音频信号可用于各种应用,包括(但不限于)校准、均衡化、测距和/或语音命令控制。在所示实施例中,可以使用音频服务器4806将来自麦克风的音频信号从音频和midi应用4802路由到麦克风处理器4808。麦克风处理器可以执行与单元生成空间音频的方式相关联的功能,例如(但不限于)校准、均衡化和/或测距。在若干实施例中,麦克风被用来捕获语音命令,并且麦克风处理器可以处理麦克风信号并将它们提供给词语检测和/或语音助手客户端4810。当检测到命令词语时,语音助手客户端4810可以向云服务提供音频和/或音频命令以用于附加处理。语音助手客户端4810还可以向单元的应用软件提供来自语音助手云服务的响应(例如,将语音命令映射到单元的控件)。然后,单元的应用软件可以实现适合于特定语音命令的语音命令。

在若干实施例中,该单元从网络音频源接收音频。在所示实施例中,提供网络音频源过程4812来管理与一个或多个远程音频源的通信。网络音频源过程可以管理认证、流式传输、数字版权管理和/或单元需要由特定网络音频源执行以接收和回放音频的任何其他过程。如下面进一步讨论的,可以使用源服务器进程4814将接收到的音频转发到其他单元,或者提供给声音服务器4816。

单元可以使用源服务器4814将源转发到另一个单元。该源可以是(但不限于)经由连接器直接连接到单元的音频源,和/或经由网络音频源过程4812从网络音频源获得的源。源可以在第一组单元中的主单元和第二组单元中的主单元之间转发,以在两组单元之间同步源的回放。该单元还可以经由源服务器4814从另一个单元或网络连接的源输入设备接收一个或多个源。

声音服务器4816可以协调单元上的音频回放。当单元被配置为主单元时,声音服务器4816还可以协调副单元上的音频回放。当单元被配置为主单元时,源服务器4816可以接收音频源,并且处理音频源以供使用单元上的驱动器进行渲染。很容易理解,可以利用各种空间音频处理技术中的任何一种来处理音频源,以获得空间音频对象,并基于空间音频对象使用单元的驱动器来渲染音频。在数个实施例中,单元软件实现类似于上述各种嵌套架构的嵌套架构,其中源音频用于获得空间音频对象。声音服务器4816可以为特定音频源生成适当的源音频对象,然后对空间音频对象进行空间编码。在若干实施例中,音频源可以已经被空间编码(例如,以高保真立体声格式编码),因此声音服务器4816不需要执行空间编码。声音服务器4816可以将空间音频解码到虚拟扬声器布局。然后,声音服务器可以使用虚拟扬声器的音频信号来解码特定于单元位置和/或组内单元位置的音频信号。在若干实施例中,获得每个单元的音频信号的过程包括基于单元和/或单元组内的其他单元的位置对虚拟扬声器的音频输入进行空间编码。然后,每个单元的空间音频可以被解码为该单元中包括的每组驱动器的单独音频信号。在数个实施例中,单元的音频信号可以被提供给音频和midi应用4802,其生成各个驱动器输入。在单元是一组单元中的主单元的情况下,声音服务器4816可以通过网络传输用于每个副单元的音频信号。在许多实施例中,音频信号通过单播被传输。在若干实施例中,一些音频信号被单播,并且至少一个信号被多播(例如,由一个组中的所有单元用于渲染的低音信号)。在数个实施例中,声音服务器4816生成直达和漫射音频信号,音频和midi应用程序4802利用这些信号以使用硬件驱动器生成单元驱动器的输入。声音服务器4816还可以生成直达和漫射信号,并提供给副单元。

当单元是副单元时,声音服务器4802可以接收在主单元上生成并经由网络提供给该单元的音频信号。该单元可以将接收到的音频信号路由到音频和midi应用4802,该应用以与音频信号由该单元本身生成相同的方式生成各个驱动器输入。

根据本发明的某些实施例,声音服务器的各种潜在实现可以在与上面参考图48描述的那些单元类似的单元中使用,和/或在可以在空间音频系统中利用的各种其他类型的单元中的任一种中使用。图49概念性地示出了根据本发明实施例的可以在空间音频系统内的单元中使用的声音服务器软件实现。根据特定应用的要求,声音服务器4900利用源图4902来处理特定的音频源以便输入到适当的空间编码器4904中。在若干实施例中,可以混合多个源。在所示实施例中,混合引擎4906混合来自每个源的空间编码音频。混合的空间编码音频被提供给至少一个本地解码器4908,该解码器将空间编码音频解码成特定于该单元的音频信号,该音频信号可以被用来为该单元内的驱动器组渲染驱动器信号。混合的空间编码音频信号可以被提供给一个或多个副解码器4910。每个副解码器能够基于单元的位置和/或该组单元所处的环境的布局,将空间编码音频解码成特定于特定副单元的音频信号。这样,主单元可以为一组单元中的每个单元生成音频信号。在图示的实施例中,副发送过程4912被用来经由网络向副单元发送音频信号。

源图4902可以根据音频的性质以各种不同的方式被配置。在若干实施例中,该单元可以接收单声道、立体声、各种多通道环绕声格式中的任何一种、和/或根据高保真立体声格式编码的音频的源。根据音频的编码,源图可以将音频信号或音频通道映射到音频对象。如上所述,接收到的源可以被上混合和/或下混合,以创建与音频源提供的音频信号/音频通道的数量不同的数个音频对象。当音频以高保真立体声格式编码时,源图可能能够将音频源直接转发到空间编码器。在数个实施例中,高保真立体声格式可能与空间编码器不兼容,并且音频源必须以高保真立体声格式重新编码,该格式是空间编码器的适当输入。很容易理解,利用源图来处理输入到空间编码器的源的优点在于,可以开发额外的源图来支持适合特定应用要求的额外格式。

可以在与图49所示的声音服务器类似的声音服务器中使用各种空间编码器。此外,特定单元可以包括可以基于如下因素被利用的数个不同的空间编码器,该因素包括(但不限于)音频源的类型、单元的数量和/或单元的部署中的任一个或多个。例如,所使用的空间编码可以根据单元是在多个单元基本上在同一平面上的配置中被分组还是在单元组还包括至少一个安装在头顶上(例如安装在天花板上)的单元时在第二配置中分组而变化。

图50中概念性地示出了根据本发明实施例的空间编码器,该空间编码器可用于在这里描述的声音服务器中的任一个中对单声道源进行编码。空间编码器5000接受各个单声道音频对象和关于音频对象位置的信息作为输入。在许多实施例中,位置信息可以在2D或3D中相对于系统原点以笛卡尔和/或径向坐标表示。空间编码器5000利用距离编码器5002进行编码,以生成用于表示由音频对象生成的直达和漫射音频的信号。在图示的实施例中,第一高保真立体声编码器5004用于生成由音频对象生成的直达音频的高阶高保真立体声表示(例如,二阶高保真立体声和/或声场表示)。此外,第二高保真立体声编码器5006用于生成漫射音频的高阶高保真立体声表示(例如,二阶高保真立体声和/或声场表示)。第一高保真立体声解码器5008将直达音频的高阶高保真立体声表示解码成一组虚拟扬声器的音频输入。第二高保真立体声解码器5010将漫射音频的高阶高保真立体声表示解码成该组虚拟扬声器的音频输入。虽然参考图50描述的空间编码器利用直达和漫射音频的高阶高保真立体声表示,但是空间编码器也可以使用诸如(但不限于)VBAP表示、DBAP表示和/或KNN平移表示的表示。

从图51所示的源编码器可以理解,以与源编码器兼容的格式进行高保真立体声编码的源不需要单独的高保真立体声编码。相反,源编码器5100可以利用距离编码器5102来确定高保真立体声内容的直达和漫射音频。然后,直达和漫射音频的高保真立体声表示可以被解码,以便为一组虚拟扬声器提供音频输入。在所示实施例中,第一高保真立体声解码器5104将直达音频的高保真立体声表示解码成一组虚拟扬声器的输入,第二高保真立体声解码器5106将漫射音频的高保真立体声表示解码成该组虚拟扬声器的输入。虽然以上关于图51讨论源编码器提及了高保真立体声编码,但是根据本发明的各种实施例,根据特定应用的要求,空间音频的各种表示中的任何一种都可以类似地被解码为一组虚拟扬声器的直达和/或漫射输入。

如上所述,虚拟扬声器音频输入可以被直接解码以向一个或多个驱动器的一个或多个组提供馈送信号。在许多实施例中,每组驱动器被在不同的方向上取向,并且虚拟扬声器音频输入被用来生成由单元生成的声场的高保真立体声或其他适当的空间表示。然后,由单元产生的声场的空间表示可以用于解码每组驱动器的馈送信号。以下讨论了单元的各种实施例,包括具有在单元圆周周围分布的三个喇叭的单元,这些喇叭由中音和高音驱动器馈送。该单元还包括一对相对的低音器。图52示出了用于基于对应于与每个喇叭相关联的一组驱动器中的每一个的馈送的三个音频信号来生成各个驱动器馈送的图。在所示实施例中,图5200为高音器和中音器(总共六个)以及两个低音器中的每一个生成驱动。三个馈送信号中的每一个的低音部分被组合并被低通滤波5202,以产生驱动低音器的低音信号。在示出的实施例中,对每个顶部和底部超低音器分别执行子处理5204、5206,并且所得信号被提供给限制器5208,以确保所得信号不会对驱动器造成损害。每个馈送信号相对于信号的较高频率部分被单独处理。使用一组频率来分离中频和高频5210、5212和5214,并且将信号提供给限制器5216,以便为三个喇叭中的每一个喇叭中的中音和高音器驱动器产生6个驱动器信号。虽然在图52中示出了具体图,但是基于每组驱动器的单独的馈送信号,各种曲线图中的任何一个都可以适当地用于单元内使用的特定驱动器。在数个实施例中,可以向用于驱动超低音器的单元提供单独的低频馈送。在某些实施例中,相同的低频馈送被提供给组内的所有单元。很容易理解,根据本发明的各种实施例,单元实现图形以生成驱动器馈送的特定馈送和特定方式在很大程度上取决于特定应用的要求。

尽管上面描述了采用各种空间音频编码技术的各种嵌套架构,但是根据本发明的各种实施例,根据不同应用的要求,可以利用数种空间音频再现过程中的任何一种,包括(但不限于)分布式空间音频再现过程和/或利用虚拟扬声器布局来确定渲染空间音频的方式的空间音频再现过程。此外,上文描述了数种不同的空间位置元数据格式和分量。应当容易理解,在空间音频系统内生成和分发的空间布局元数据不以任何方式局限于特定的数据和/或特定的格式。空间布局元数据的分量和/或编码很大程度上取决于给定应用的要求。因此,应当理解,任何上述嵌套架构和/或空间编码技术都可以组合使用,并且不限于特定的组合。此外,根据本发明的某些实施例,可以在除了这里具体公开的那些过程之外的过程中使用特定技术。

以上讨论的大部分一般涉及根据本发明的各种实施例的空间音频系统中可以使用的许多单元变型的特性。然而,当在空间音频系统中使用时,许多单元配置具有特定的优势。因此,下面进一步讨论根据本发明的各种实施例的用于构建空间音频系统中使用的单元的若干不同技术的讨论。

第5节:空间音频系统中音频数据的分发

如上所述,可以使用多个单元来渲染空间音频。多单元配置的一个挑战是管理单元之间的数据流。例如,音频必须以同步方式渲染,以防止不愉快的收听体验。为了提供无缝、高质量的收听体验,单元可以自动形成层次结构,以促进高效的数据流。用于渲染空间音频的音频数据在单元之间传送,但是其他数据也可被传送。例如,控制信息、位置信息、校准信息以及单元和控制服务器之间的任何其他期望消息可以适合于本发明实施例的特定应用的要求在单元之间传送。

根据特定情况的需要,可以建立单元间数据传输的不同层次结构。在许多实施例中,主单元负责管理数据流,以及将输入音频流处理成用于由主单元管理的各个连接的副单元的音频流。在许多实施例中,多个主单元相互通信以同步管理多组副单元。在各种实施例中,一个或多个主单元可以被指定为超级主单元,其继而控制主单元之间的数据流。

图53示出了根据本发明实施例的具有超级主单元的示例性层次结构。可以看到,超级主单元(SP)从无线路由器获得音频流。超级主单元通过单元之间建立的无线网络将音频流分发到连接的主单元(P)。每个主单元依次处理音频流,为它们如上所述管控的副单元创建单独的流。这些流可以被单播到它们的目的副单元。此外,超级主单元可以执行主单元的所有动作,包括为其管理的副单元生成音频流。

虽然图示的箭头是单向的,但这仅指音频数据流。所有单元类型都可以通过单元网络相互通信。例如,如果副单元接收到输入命令,例如(但不限于)暂停回放或跳过轨道,则该命令可以从副单元向上通过网络传播。此外,主单元和超级主单元可以彼此通信,以传递元数据、时间同步信号和/或适合于本发明实施例的特定应用的要求的任何其他消息。很容易理解,虽然示出了单独房间中的主单元,但是主单元可以在同一房间内,这取决于许多因素,包括(但不限于)房间的尺寸和布局以及单元的分组。此外,虽然示出了三个副单元聚集到一个主单元,但是任何数量的不同副单元可以被一个主单元管控,包括主单元没有管控副单元的配置。

此外,如图54中根据本发明的实施例所示,可以建立多个超级主单元,这些超级主单元又将音频流推送到它们各自管控的主单元。在许多实施例中,超级主单元可以相互通信以控制同步和共享其他数据。在各种实施例中,超级主单元通过无线路由器连接。实际上,在许多实施例中,超级主单元可以通过无线路由器管控主单元。例如,如果主单元太远而不能有效地与超级主单元通信,但是它本身不是超级主单元,那么它可以通过由无线路由器促进的连接被管控。图55示出了根据本发明实施例的超级主单元通过无线路由器对主单元的管控。

超级主单元不是任何层次结构的要求。在许多实施例中,多个主单元都可以直接从无线路由器(或任何其他输入源)接收音频流。附加信息也可以通过无线路由器和/或直接在主单元之间传递。图56示出了根据本发明实施例的没有超级主单元的层次结构。

虽然上面已经说明了几种特定的体系结构,但是可以容易地理解,可以使用许多不同的层次结构布局,根据特定用户的需要,可以使用任意数量的超级主单元、主单元和副单元。事实上,为了支持鲁棒的、自动的层次结构生成,单元可以相互协商来为特定的角色选择单元。图57示出了根据本发明实施例的用于选举主单元的过程。

过程5700包括初始化(5710)单元。初始化单元是指一个单元加入一个单元网络,但也可以指一个单独的单元开始网络。在许多实施例中,单元可以被初始化不止一次,例如,当被移动到新房间时,或者当通电时,并且不限于“第一次启动”的情况。如果到互联网的连接可用(5720),则单元可以联系控制服务器以同步(5730)分组信息和/或可以从中获得分组信息的另一个网络连接设备。分组信息可以包括(但不限于)关于其他单元的部署及它们的分组的信息(例如,哪些单元在哪些组和/或区域中)。如果在网络上通告(5740)另一个主单元,则新初始化的单元变成(5750)副单元。然而,如果网络上没有通告(5740)主单元,则新初始化的单元变成(5760)主单元。

为了发现每个单元在网络中的最有效角色,新的主单元公布(5770)成为新的主单元的选举标准。在许多实施例中,选择标准包括关于当前主单元的性能的度量,例如(但不限于)工作温度、可用带宽、物理位置和/或与其他单元的接近度、信道状况、到互联网的连接可靠性、到副单元的连接质量,和/或适合于本发明实施例的特定应用的要求的与单元执行主单元角色的工作效率相关的任何其他度量。在许多实施例中,并非所有的度量都被同等地加权,一些度量比其他度量更重要。在各种实施例中,公布的选举标准包括基于度量的阈值分数,如果该阈值分数被突破,这将表示更适合作为主单元的单元。如果基于公布的选举标准对于主单元的改变进行选举(5780),则主单元将主单元的角色迁移(5790)到所选中的单元,并且变成副单元(5750)。如果没有选举新的单元(5780),主单元保持其角色。

在各种实施例中,周期性地重复选举过程,以保持有效的网络层次结构。在许多实施例中,选举过程可以由事件来触发,该事件是例如(但不限于)新单元的初始化、主单元不能维持主单元角色性能的指示、单元从网络掉线(由于断电、信号中断、单元故障、无线路由器故障等)、单元的物理重新定位,新无线网络的存在,或者适合于本发明实施例的特定应用的要求的许多其他触发中的任何一个。虽然在图57中示出了特定的选举过程,但是可以容易地理解,在不脱离本发明的范围或精神的情况下,可以利用选举过程的任何数量的变型,包括选举超级主单元的变型。

第6节:单元的构造

如上所述,根据本发明的许多实施例的单元是能够在单元周围的360°区域上以相对相等的精度修改声场的扬声器。在许多实施例中,单元包含至少一个晕圈,该晕圈包含驱动器的径向对称布置。在许多实施例中,每个喇叭包含至少一个高音器和至少一个中音器。在各种实施例中,每个喇叭包含同轴对齐的高音器和中音器,使得高音器相对于单元的中点位于中音器的外部。然而,晕圈可以包含多个高音器和中音器,只要对于每个驱动器类型整体布置保持径向对称即可。下面将进一步讨论各种驱动器布置。在许多实施例中,每个单元包含同轴对齐的向上发射低音器和向下发射低音器。然而,若干实施例仅利用一个低音器。在许多实施例中,一个显著的问题是可能需要用于保持单元的支架穿过其中一个低音器。为了解决这个结构问题,其中一个低音器可以有穿过驱动器中心的开口通道,以容纳电线和其他连接器。在数个实施例中,低音器是对称的,并且都包括穿过驱动器中心的通道。下面将讨论解决这一不寻常问题的特殊低音器结构。

现在转到图18A,示出了根据本发明实施例的单元。单元1800包括晕圈1810、核心1820、支撑结构(称为“冠”)1830和肺状部(lung)1840。在许多实施例中,肺状部构成单元的外壳,并为低音器提供密封的后外壳。冠部为低音器提供支撑和密封,并且在许多实施例中为肺状部提供支撑。晕圈包括以径向对称方式定位的三个喇叭,并且在许多实施例中,包括用于位于喇叭之间的麦克风的孔。这些组件中的每一个都将从内到外进行更详细的讨论,以提供形式和构造的概述。

第6.1节:晕圈

晕圈是具有被安放的驱动器的喇叭的环。在许多实施例中,晕圈是径向对称的,并且可以被制造为有助于模态波束成形。然而,波束成形可以利用不对称的和/或具有不同尺寸和/或部署的喇叭的晕圈来实现。虽然有许多不同的喇叭布置可以满足晕圈的功能,但是下面关于晕圈的主要讨论是关于三喇叭晕圈的。然而,根据本发明的许多实施例,可以使用包含多个喇叭的晕圈,以便提供不同程度的波束控制。喇叭可以包括多个输入孔以及结构声学部件,以帮助控制声音扩散。在许多实施例中,晕圈还包含用于麦克风的孔和/或支撑结构。

现在转到图18B,示出了根据本发明实施例的晕圈。晕圈1810包括三个喇叭1811。每个喇叭包含三个孔1812。晕圈还包括一组三个麦克风孔1813(两个可见,一个在所提供的实施例视图中被遮挡)。图18C图示了根据本发明实施例的麦克风孔的横截面图,示出了麦克风的外壳。在许多实施例中,晕圈通过3D打印过程被制造成完整的物体。然而,晕圈可以分段构造。在许多实施例中,三个喇叭被取向成分隔120°,使得它们具有三重径向对称(或“三边对称”)。

在许多实施例中,每个喇叭连接到高音器和中音驱动器。在许多实施例中,相对于晕圈的中心点,高音器在中音器的外部,并且两个驱动器同轴定位。图18D示出了根据本发明实施例的用于晕圈的单个喇叭的高音器和中音器的同轴对准的分解图。高音器1814位于中音器1815的外部。图18E示出了根据本发明实施例的用于晕圈中每个喇叭的套接的一组高音/中音器驱动器。

在许多实施例中,高音器被装配在喇叭的中心孔中,而中音器被配置成引导声音通过晕圈的外部两个孔。现在转到图18F,示出了根据本发明实施例的用于晕圈中每个喇叭的套接的一组高音/中音驱动器的水平横截面。如图所示,这些孔可用于提供由驱动器生成的不同频率的额外分离。此外,喇叭本身可以包括声学结构1816,以避免内部多径反射。在数个实施例中,声学结构是穿孔网格。在一些实施例中,声学结构是多孔泡沫。在数个实施例中,声学结构是网格。声学结构可以防止高音通过,同时允许中音通过。在许多实施例中,声学结构有助于保持声波的方向性。在各种实施例中,喇叭被构造成使得喇叭的120°扇区外的声音扩散量最小。这样,晕圈的每个喇叭主要负责在离散的120°扇区内的单元声音再现。

位于晕圈中的麦克风阵列可以用于多种目的,其中许多目的将在下面进一步详细讨论。在众多用途中,麦克风可以与单元的定向功能结合使用,以便通过声学测距来测量环境。在许多实施例中,晕圈本身经常邻接核心组件。下面是对核心组件的讨论。

第6.2节:核心

单元可以利用逻辑电路来处理音频信息和执行其他计算过程,包括但不限于控制驱动器、引导回放、获取数据、执行声学测距、响应命令和管理网络流量。逻辑电路可以包含在电路板上。在许多实施例中,电路板是环形的。电路板可以由多个环形扇片组成。然而,电路板也可以采取其他形状。在许多实施例中,环的中心至少部分地被大致球形的外壳(“核心外壳”)占据,该外壳为连接到晕圈的驱动器提供了后部容积。在许多实施例中,芯外壳包括两个互锁组件。

图18G示出了根据本发明实施例的电路板环和外壳的底部部分。在图示的实施例中,电路板带有一组引脚,单元的各种其他组件安装在这些引脚上。在其他实施例中,电路板被分成两个或多个单独的环形扇区。在各种实施例中,每个扇区负责不同的功能目的。例如,在许多实施例中,一个扇区负责供电,一个扇区负责驱动驱动器,一个扇区负责通用逻辑处理任务。然而,扇区或电路板的功能通常不限于任何特定的物理布局。

现在转到图18H,示出了根据本发明实施例的由晕圈和驱动器包围的核心部分。核心显示为顶部和底部外壳组件。在许多实施例中,核心的外壳组件被分成三个不同的容积,每个容积为与晕圈中的特定喇叭相关联的驱动器组提供单独的后部容积。在各种实施例中,核心外壳包括在核心外壳的中心相遇的三个分隔壁。虽然图18H所示的核心外壳大致为球形,但是根据本发明的各种实施例,核心外壳可以是适合于特定应用要求的任何形状。此外,可以使用垫圈和/或其他密封方法来形成密封,以防止不同部分之间的空气流动。在许多实施例中,围绕核心和晕圈的是冠部。冠部在下面讨论。

第6.3节:冠部

如上所述,在许多实施例中,单元包括一对相对的同轴低音器。冠部可以是支撑低音器的一组支柱(strut)。在许多实施例中,冠部由顶部组件和底部组件制成。在许多实施例中,顶部组件和底部组件是从晕圈两侧突出的单个组件。在其他实施例中,顶部和底部部件可以是分离的部件。

图18I示出了根据本发明实施例的围绕晕圈和核心定位的冠部。冠部可具有“窗口”或其他切口,以减轻重量和/或提供美观的设计。冠部可以具有垫圈和/或其他密封件,以防止空气逸入单元内的其他容积。在图示的实施例中,冠部被肺状部包围,肺状部将在下面进一步详细讨论。

第6.4节:肺状部

在许多实施例中,单元的外表面是肺状部。肺状部可以提供许多功能,包括但不限于为低音器提供密封的后部容积,以及保护单元内部。然而,在许多实施例中,为了美观或功能效果,在肺状部的外部可以有额外的组件(例如,连接器、支架或根据本发明的各种实施例适合于特定应用的要求的任何其他功能)。在许多实施例中,肺状部是透明的,并且使用户能够看到单元内部。然而,肺状部可以是不透明的,不会损害单元的功能。

现在转到图18J,示出了根据本发明实施例的具有围绕冠部、核心和晕圈的肺状部的单元。可以在单元顶部和底部在肺状部中提供孔,以便能够放置低音器。图18K和18L中可以找到根据本发明实施例的被设计成装配到孔中的低音器的同轴布置,这两个图分别示出了顶部和底部低音器。可以看出,顶部低音器是传统的低音器,而底部低音器包含穿过中心的中空通道。这在图18M和18N中分别示出的顶部和底部低音器的横截面图中进一步示出。通过底部低音器的通道可以为物理连接器提供到达单元外部的接入端口。在许多实施例中,“杆(stem)”从单元延伸通过通道,该通道可以连接到任何数量的不同支架配置。在各种实施例中,电力电缆和数据传输电缆通过通道布线。在图18O中示出了根据本发明实施例的具有穿过通道的杆的单元。图18P示出了根据本发明实施例的杆上的各种端口的特写视图。根据本发明的各种实施例,端口可以包括但不限于USB连接器、电源连接器和/或根据适合于特定应用的要求的数据传输连接协议和/或标准实现的任何其他连接器。

为了保持低音器的功能,可以使用双环绕来保持通道1820打开,同时保持低音器密封。此外,在许多实施例中,用于密封底部低音器的垫圈可以延伸以覆盖框架来加强密封。然而,在许多实施例中,一个单元可能只有一个低音器。由于低频声音的性质,许多空间音频渲染可能不需要相对的低音器。在这种情况下,因为底部(或顶部)可能没有低音器,所以可能不需要通道。此外,在许多实施例中,额外的结构元件可以被用在单元的外部,其提供到支架的替代连接,或者实际上可以是支架本身。在杆没有通过单元的底部连接的情况下,作为替代,可以使用传统的低音器。在许多实施例中,低音器的隔膜(或锥体)由具有高的刚度重量比的三轴碳纤维织物构成。然而,根据本发明实施例的特定应用的要求,隔膜可以由适合于低音器的任何材料构成。此外,在许多实施例中,通过使用基于感应的电力系统和无线数据连接,可以使单元完全密封,没有外部端口。然而,单元可以保留这些功能,同时仍然提供物理端口。下面将进一步详细讨论杆。

第6.5节:杆

如上所述,在许多实施例中,单元包括杆,该杆可以服务于多种功能中的任何一种,包括但不限于支撑单元的主体、提供用于放置控件的表面、提供与支架的连接、提供连接器的位置、和/或适合于本发明实施例的特定应用要求的多种其他功能中的任何一种。实际上,虽然在许多实施例中,可以通过控制设备来远程操作单元,但是在各种实施例中,单元可以通过连接到单元的物理控件被直接操作,例如但不限于按钮、切换器、拨号盘、开关和/或适合于本发明实施例的特定应用的要求的任何其他物理控制方法。在许多实施方案中,位于杆上的“控制环”可用于直接控制单元。

现在转到图20,根据本发明的实施例示出了杆上的控制环。控制环是可以被操纵以向单元发送控制信号的环,类似于控制装置。控制环可以被旋转(例如扭曲)、上拉、下推、推动(例如“点击”,和/或垂直于杆的轴线被按压),和/或被进行适合于本发明实施例的特定应用的要求的任何其他操纵。图21示出了根据本发明实施例的示例性控制环的横截面,其示出了内部机械结构。不同的机械组件将在下文中针对与其相关联的动作被讨论。

在许多实施例中,旋转可以用作一种控制方法。虽然旋转可以指示适合于本发明实施例的特定应用的要求的许多不同的控制,但是在许多实施例中,旋转运动可以用于改变音量和/或跳过音轨。图22示出了根据本发明实施例的涉及取得(register)控制环旋转的机械结构。图23是特定组件的近视图。包含交替可感知表面的盘连接到环,当旋转时,该环移动交替可感知表面穿过传感器。传感器可以通过测量交替表面来感测旋转。在许多实施例中,交替可感知表面由磁体制成,并且传感器检测变化的磁场。在各种实施例中,交替可感知表面是通过光学传感器感测的交替着色表面。然而,根据本发明实施例的特定应用的要求,可以使用任意数量的不同感测方案。此外,在许多实施例中,交替可感知表面是环形而不是圆盘。

在各种实施例中,迫使控制环偏离中心或“点击”可以用作一种控制方法。图24示出了根据本发明实施例的“点击”控制环。在许多实施例中,径向推力被座圈弹簧抵抗,同时静态斜面接合锥形垫片(也称为“贝氏垫片”),导致其翻转,其然后被检测到。在若干实施例中,当垫片翻转时,碳片材料环压在电极图案上并使两个接触环短路。短路可以被测量并记录为点击。图25示出了根据本发明一个实施例的具有相关联极的碳片膜,该碳片膜在处于翻转的“被点击”位置的锥形垫片下方。然而,根据本发明实施例的特定应用的要求,可以使用任意数量的不同检测方法。

在许多实施例中,沿着杆垂直移动控制环可以用作控制方法。图26示出了根据本发明实施例的用于取得垂直运动的示例性机械结构。在许多实施例中,控制环的垂直运动可以通过显露标记来测量,该标记又可以通过光断续器来检测。在许多实施例中,接近传感器被用于代替光断续器或与其结合使用。图27示出了根据本发明的一个实施例的为显露标记而创建的空间的图示。在各种实施例中,可以通过物理开关或电路短路(例如关于点击的电路短路)机械地检测运动。本领域的普通技术人员可以理解,根据本发明实施例的特定应用的要求,存在任意数量的检测运动的方法。

一旦控制环通过垂直运动移动离开其静止位置,在新平面上的旋转可以用作与静止平面上的旋转不同的控制。在许多实施例中,第二平面上的旋转被称为“扭转”,并且当旋转达到设定角度时被检测到。在许多实施例中,离合器在控制环移动到第二平面时被接合,并且可以相对于单独的离合器片移动。在各种实施例中,扭簧可用于抵抗运动,而一体的棘爪弹簧可在行程结束时提供制动,以增强感觉和/或防止意外运动。例如,可以使用轨道末端的卡合完成开关来取得120度(或任意数量的角度)的扭曲。图28示出了根据本发明实施例的离合器主体和离合器片的示例配置。然而,根据本发明实施例的特定应用的要求,可以使用任意数量的不同旋转方法。所讨论的机构的一个优点是,它们可被实现为在中部具有通道,以容纳可能穿过杆的部件。

杆还可以锁定到支架中。在许多实施例中,使用基于卡销的锁定系统,其中位于杆上的卡销移动到支架中的外壳中以固定连接。图29示出了根据本发明实施例的示例性卡销锁定系统。如图所示,杆具有若干指向一侧的卡销,并且支架具有由两个表面形成的轨道,这两个表面在轨道的末端形成卡销状的外壳。在许多实施例中,卡销的数量与外壳的数量相匹配,然而,只要至少一个卡销与外壳相匹配,并且没有其他卡销(如果存在)与表面碰撞以使得连接失去平衡,则连接可以是稳定的。如果阀杆和支架没有对齐而使得卡销能够落入轨道,则支架或杆能够旋转,使得它们都落入轨道。在各种实施例中,当被扭转时,卡销的尖端推开这两个表面以到达并落入壳体中,之后这两个表面可以通过弹簧被压在一起以闭合轨道。这可以将杆锁定在支架中,防止在正常压力下出现不必要的运动或移动。图30示出了根据本发明实施例的使用基于卡销的锁定系统锁定在一起的支架和杆的横截面。

为了从支架上取下杆,两个表面可以再次分开,形成一个轨道,卡销可以从轨道上退出并取下。在各种实施例中,表面之一可以被向上或向下推动。在许多实施例中,这是使用一组可由用户操纵的加载弹簧来实现的。在图31A和31B中示出了根据本发明实施例的示例实现。位置的双稳态可以通过使用与凸片接合的锁板上的弹簧来实现。通过滑动板,用户可以通过抵抗弹簧施加适当的力来移动其中一个表面。图31A示出了处于锁定位置的机构,而图31B示出了处于解锁位置的机构。然而,本领域普通技术人员可以理解,根据本发明实施例的特定应用的要求,对于基于卡销的锁定系统可以使用任何数量的构造。实际上,本领域普通技术人员可以理解,除了基于卡销的锁定系统之外,可以使用任何数量的锁定系统来将杆固定到支架上,而不脱离本发明的范围或精神。

将上述组件放在一起可以产生功能单元。现在转到图18Q和18R,图18Q是根据本发明实施例的完整单元的横截面,图18R是根据本发明实施例的完整单元的分解图。虽然参照图18A-R示出了单元的特定实施例,但是单元可以采取任何数量的不同配置,包括但不限于具有不同数量的驱动器、不同的喇叭配置、用包括(但不限于)四面体驱动器配置的其他驱动器配置代替喇叭、缺少杆、和/或不同的整体形状因子。在许多实施例中,单元由支撑结构支撑。图19A-19D示出了根据本发明实施例的非排他性的一组示例支撑结构。

第6.6节:单元电路

现在转到图32,示出了根据本发明实施例的单元电路的框图。单元3200包括处理电路3210。根据本发明的各种实施例,处理电路可以包括任何数量的不同逻辑处理电路,例如但不限于处理器、微处理器、中央处理单元、并行处理单元、图形处理单元、专用集成电路、现场可编程门阵列和/或能够执行适合于特定应用的要求的空间音频处理的任何其他处理电路。

单元3200还可以包括输入/输出接口3220。在许多实施例中,输入/输出接口包括各种不同的端口,并且可以使用各种不同的方法进行通信。在许多实施例中,输入/输出接口包括能够建立自组织网络和/或连接到其他无线网络接入点的无线网络设备。在各种实施例中,输入/输出接口具有用于建立有线连接的物理端口。然而,输入/输出接口可以包括能够在设备之间传输数据的任何数量的不同类型的技术。单元3200还包括时钟电路3230。在许多实施例中,时钟电路包括石英振荡器。

单元3200可以进一步包括驱动信号电路3235。驱动器信号电路是能够向驱动器提供音频信号以使驱动器产生音频的任何电路。在许多实施例中,每个驱动器具有其自己的驱动器电路部分。

单元3200还可以包括存储器3240。存储器可以是易失性存储器、非易失性存储器、或者易失性和非易失性存储器的组合。存储器3240可以存储音频播放器应用,例如(但不限于)空间音频渲染应用3242。在许多实施例中,空间音频渲染应用可以指导处理电路执行各种空间音频渲染任务,例如但不限于这里描述的那些任务。在许多实施例中,存储器还包括地图数据3244。地图数据可以描述空间内各种单元的位置、墙壁、地板、天花板以及空间中其他障碍物和/或物体的位置、和/或虚拟扬声器的部署。在许多实施例中,可以利用多组地图数据来区分不同的信息。在各种实施例中,存储器3240还包括音频数据3246。音频数据可以包括一段或多段音频内容,其可以包含任意数量的不同音轨和/或通道。在各种实施例中,根据本发明的各种实施例,音频数据可以包括描述音轨的元数据,例如但不限于通道信息、内容信息、流派信息、音轨重要性信息和/或能够适合于特定应用的要求描述音轨的任何其他元数据。在许多实施例中,音轨根据音频格式被混合。然而,音轨也可以代表单独的、未混合的通道。

存储器还可以包括声音对象位置数据3248。声音对象位置数据描述了声音对象在空间中的期望位置。在一些实施例中,声音对象位于对于音频数据理想的常规扬声器布置中的每个扬声器的位置。然而,声音对象可以被指定用于任何数量的不同音轨和/或通道,并且可以类似地位于任何期望的点。

图33示出了采用处理系统3320的装置3300的硬件实现的示例,该装置可以用于实现根据本公开的各个方面对于空间音频控制和再现的系统和架构被配置的单元。根据本公开的各个方面,可用于实现包括单元在内的任何设备的装置3300中的元件、或元件的任何部分、或元件的任何组合可以利用这里描述的空间音频和方法。

装置3300可用于实现单元。装置3300包括一组空间音频控制和产生模块3310,其包括系统编码器3312、系统解码器3332、单元编码器3352和单元解码器3372。装置3300还可以包括一组驱动器3392。该组驱动器3392可以包括一个或多个驱动器子集,这些驱动器子集包括一个或多个不同类型的驱动器。驱动器3392可以由驱动器电路3390驱动,驱动器电路3390为每个驱动器产生电音频信号。驱动器电路3390可以包括可以为不同类型的驱动器划分音频信号的任何带通或分频电路。

在本公开的各个方面,如装置3300所示,每个单元可以包括系统编码器和系统解码器,使得系统级功能和相关信息的处理可以分布在该组单元上。这种分布式架构还可以最小化各单元之间需要传输的数据量。在其他实现中,每个单元可以仅包括单元编码器和单元解码器,而不包括系统编码器或系统解码器。在各种实施例中,副单元仅利用它们的单元编码器和单元解码器。

处理系统3320可以包括图示为处理器3314的一个或多个处理器。处理器3314的示例可以包括(但不限于)微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门控逻辑、分立硬件电路和/或被配置为执行贯穿本公开描述的各种功能的其他合适的硬件。

装置3300可以被实现为具有总线架构,通常由总线3322表示。总线3322可以包括任意数量的互连总线和/或桥,这取决于装置3302的具体应用和总体设计约束。总线3322可以将各种电路链接在一起,包括处理系统3320和计算机可读介质(通常由计算机可读介质3316表示),处理系统3320可以包括一个或多个处理器(通常由处理器3314表示)和存储器3318。总线3322还可以链接各种其他电路,例如定时源、外围设备、电压调节器和/或功率管理电路,这些电路在本领域中是公知的,因此不再进一步描述。总线接口(未示出)可以提供总线3322和网络适配器3342之间的接口。网络适配器3342提供了通过传输介质与各种其他装置通信的手段。根据装置的性质,还可以提供用户接口(例如,键盘、显示器、扬声器、麦克风、操纵杆)。

处理器3314负责管理总线3322和一般处理,包括执行可以存储在计算机可读介质3316或存储器3318上的软件。当由处理器3314执行时,软件可以使装置3300执行这里针对任何特定装置描述的各种功能。软件应广义地理解为指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用程序、软件应用程序、软件包、例程、子例程、对象、可执行程序、执行线程、过程、函数等,无论是指软件、固件、中间件、微码、硬件描述语言还是其他。

计算机可读介质3316或存储器3318也可以用于存储在执行软件时由处理器3314操纵的数据。计算机可读介质3316可以是非暂时性计算机可读介质,例如计算机可读存储介质。举例来说,非暂时性计算机可读介质包括磁存储设备(例如,硬盘、软盘、磁条)、光盘(例如,紧致盘(CD)或数字多功能盘(DVD))、智能卡、闪存设备(例如,卡、棒或密钥驱动器)、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器、可拆装盘、以及用于存储可由计算机访问和读取的软件和/或指令的任何其他合适的介质。举例来说,计算机可读介质还可以包括载波、传输线、和用于传输可由计算机访问和读取的软件和/或指令的任何其他合适的介质。尽管图示为驻留在装置3300中,但是计算机可读介质3316可以驻留在装置3300的外部,或者分布在包括装置3300的多个实体上。计算机可读介质3316可以体现在计算机程序产品中。举例来说,计算机程序产品可以在包装材料中包括计算机可读介质。本领域的技术人员将认识到如何根据特定应用和施加在整个系统上的总体设计约束来最好地实现贯穿本公开所呈现的所描述的功能。

图34示出了根据本公开的各个方面配置的接收多媒体输入3402的源管理器3400。多媒体输入3402可以包括多媒体内容3412、多媒体元数据3414、传感器数据3416和/或预设/历史信息3418。源管理器3400还可以接收可以直接管理多媒体内容3412的回放的用户交互3404,包括影响多媒体内容源的选择和管理该多媒体内容源的渲染。如这里进一步讨论的,多媒体内容3412、多媒体元数据3414、传感器数据3416和预设/历史信息3418可以被源管理器3400用来生成和管理内容3448以及渲染信息3450。

多媒体内容3412和与其相关的多媒体元数据3414在这里可以被称为“多媒体数据”。源管理器3400包括源选择器3422和源预处理器3424,源管理器3400可以使用它们来选择多媒体数据中的一个或多个源,并执行任何预处理以作为内容3448提供。内容3448与由源管理器3400的其他组件生成的渲染信息3450一起被提供给多媒体渲染引擎,如本文所述。

多媒体内容3412和多媒体元数据3414可以是来自诸如高清多媒体接口(HDMI)、通用串行总线(USB)、模拟接口(唱机/RCA插头、立体声/耳机/头戴式耳机插头)以及使用苹果公司开发的Airplay协议或谷歌开发的Chromecast协议的流源之类的源的多媒体数据。一般来说,这些源可以提供各种内容和格式中的声音信息,包括基于通道的声音信息(例如,杜比实验室公司开发的Dolby Digital、Dolby Digital Plus和Dolby Atmos)、离散声音对象、声场等。其他多媒体数据可以包括由空间多媒体再现系统(未示出)内的连接设备或另一模块生成的文本转语音(TTS)或警报声音。

源管理器3400还包括枚举确定器3442、位置管理器3444和交互管理器3446。这些组件一起可用于生成提供给多媒体渲染引擎的渲染信息3450。如在此进一步描述的,传感器数据3416和预设/历史信息3418(通常可以称为“控制数据”)可以被这些模块用来通过向多媒体渲染引擎提供渲染信息3450来影响多媒体内容3412的回放。在本公开的一个方面,渲染信息3450包含关于多媒体渲染引擎应该如何回放内容3448中的多媒体的遥测和控制信息。因此,渲染信息3450可以具体指导多媒体渲染引擎如何再现从源管理器3400接收的内容3448。在本公开的其他方面,多媒体渲染引擎可以最终确定如何渲染内容3448。

枚举确定器模块3442负责确定包括在内容3448中的多媒体信息中的源的数量。这可以包括来自单个源的多个通道,例如来自立体声声源的两个通道,以及诸如可能由系统产生的TTS或警报/报警声音。在本公开的一个方面,每个内容源中的频道数量是确定产生枚举信息的源数量的一部分。枚举信息可用于确定内容3448中源的布置和混合。

位置管理器3444可以使用每个源的期望再现位置来管理包括在内容3448中的多媒体信息中的源的再现布置。期望位置可以基于各种因素,包括正在播放的内容的类型、用户或相关设备的位置信息、以及历史/预测位置信息。参考图35,位置管理器3544可以基于来自用户语音输入3512、对象增强现实(A/R)输入3514、UI位置输入3516以及与特定输入类型相关联的最终/预测位置信息3518的信息来确定用于渲染多媒体源的位置信息。位置信息可以在位置确定过程中使用诸如同时定位和映射(SLAM)算法的方法来生成。例如,在房间中回放的期望位置可以基于用户在房间中的位置的确定。这可以包括检测用户语音3512,或者可替代地,检测用户设备(例如,用户的智能手机)的接收信号强度指示符(RSSI)。

回放位置可以基于对象A/R 3514,其可以是房间的特定渲染中的增强现实对象的信息。因此,声源的回放位置可以匹配A/R对象。此外,该系统可以使用视觉检测来确定单元在哪里,并且通过场景检测和正在渲染的A/R对象的视图的组合,可以相应地调整回放位置。

声源的回放位置可以基于用户通过用户界面位置输入3516与用户界面交互来调整。例如,用户可以与包括声音对象本身以及要在其中再现声音对象的房间的视觉表示的应用进行交互。用户然后可以移动声音对象的视觉表示,以定位声音对象在房间中的回放。

回放的位置也可以基于其他因素,例如特定声源或声源类型的最后回放位置3518。通常,回放位置可以基于预测,该预测是基于包括(但不限于)内容类型、一天中的时间、和/或其他启发式信息的因素的。例如,位置管理器3544可以启动卧室中有声读物的回放,这是因为用户在晚上回放有声读物,晚上是用户播放有声读物的典型时间。作为另一个例子,如果用户在厨房时请求设置定时器,则可以在厨房中回放定时器或提醒警报。

一般来说,位置信息源可以分为主动或被动源。主动源是指由用户提供的位置信息源。这些源可能包括用户位置和对象位置。相反,被动源是如下的位置信息源,其不是由用户主动指定的,而是由位置管理器3544用来预测回放位置。这些被动源可以包括内容类型、一天中的时间、一周中的日期,并且基于启发式信息。此外,优先级可以与每个内容源相关联。例如,警告和警报可以具有比其他内容源更高的关联优先级,这意味着如果它们在其他内容源旁边的位置播放,则以更高的音量播放。

当多媒体再现引擎再现多媒体时,可以动态更新期望的回放位置。例如,通过空间多媒体再现系统接收用户或用户携带的设备的更新位置信息,音乐的回放可以在房间中“跟随”用户。

交互管理器3446可以基于不同多媒体源彼此之间的交互来管理如何再现每个多媒体源。根据本公开的一个方面,诸如声源的多媒体源的回放可以暂停、停止或减小音量(也称为“避开”)。例如,在现有多媒体源(例如歌曲)的回放期间需要渲染警报的情况下,交互管理器可以在播放警报的同时暂停或避开歌曲。

第7部分:UI/UX和附加功能

根据本发明的许多实施例的空间音频系统包括用户界面(UI),以使用户能够与空间音频渲染交互并控制空间音频渲染。在若干实施例中,可以提供各种用户界面模式,以使用户能够以各种方式与空间音频系统交互,包括(但不限于)经由按钮、基于手势的用户界面和/或语音激活的用户界面与单元直接交互,和/或经由按钮、基于手势的用户界面和/或语音激活的用户界面与诸如(但不限于)移动设备或语音助手设备的附加设备交互。在许多实施例中,用户界面可以提供对任何数量的功能的访问,包括但不限于控制回放、混合音频、将音频对象部署在空间中、配置空间音频系统、和/或适合于特定应用的要求的任何其他空间音频系统功能。虽然下文反映了用于各种功能的几种不同版本的用户界面,但是本领域普通技术人员可以理解,可以使用任何数量的不同用户界面布局和/或可供性来为用户提供对空间音频系统功能的访问和控制。

现在转到图36,示出了根据本发明实施例的用于控制声音对象在空间中的部署的UI。如图所示,单元可以在作为物理空间的模拟的虚拟空间中它们的近似位置以图形方式表示。在许多实施例中,不同的声音对象可以被创建并与不同的音频源相关联。对于基于通道的音频源,可以为不同的通道创建单独的音频对象(通常,低音混合到所有通道中)。每个空间音频对象可以由具有不同图形表示(例如颜色)的不同UI对象来表示。实际上,图形表示可被以多种方式区分,包括但不限于形状、大小、动画、符号和/或适合特定应用要求的任何其他区分标记。当由空间音频系统使用类似于上述各种空间音频再现过程中的任何一种的过程来渲染时,声音对象可以在整个虚拟空间中移动,这可以导致声音对象在物理空间中的感知“移动”。在许多实施例中,可以通过“点击和拖动”操作来实现移动声音对象,然而可以使用任何数量的不同界面技术。

现在转到图37A和37B,示出了根据本发明实施例的用于控制声音对象的部署的第二UI。所示实施例展示了能够实现声音对象的分离和合并的用户界面。在许多实施例中,单个声音对象可以代表多于一个的音频源和/或音频通道。在各种实施例中,每个音频对象可以代表一个或多个乐器,例如,如在“主”记录中那样。图37A展示了已经被分配四种不同乐器的音轨的声音对象,在这种情况下是人声、吉他、大提琴和键盘。当然,根据本发明的各种实施例,适合于特定应用的要求,任意数量的不同乐器或任意音轨可以被适当地分配。可以提供按钮和/或其他启示,以使用户能够将声音对象“分割”成多个声音对象,每个声音对象可以反映原始声音对象中的一个或多个通道。如图37B所示,声音对象被分成四个独立的声音对象,它们可以独立放置,每个代表单个乐器。可以提供按钮和/或界面对象,以便能够以类似的方式合并不同的声音对象。

现在转到图38,示出了根据本发明实施例的用于控制声音对象的音量和渲染的UI元素。在许多实施例中,每个声音对象可以与音量控制相关联。在图示的环境中,提供了音量滑块。然而,根据本发明的各种实施例,根据特定应用的要求,可以使用许多不同的音量控制方案中的任何一种。在若干实施例中,单个声音控件可以与多个声音对象相关联。应当容易理解,独立控制声音对象不同于独立控制各个扬声器。控制单个声音对象的音量会影响通过多个扬声器以诸如(但不限于)上述各种嵌套架构的空间音频再现过程所确定的方式渲染音频的方式。在空间音频再现过程中使用虚拟扬声器的实施例中,可以提供按钮,以便在影响虚拟扬声器相对于单元的数量和/或部署的各种预设虚拟扬声器配置之间改变。在许多实施例中,音频控制按钮和/或启示,例如但不限于播放、暂停、跳过、寻找和/或任何其他声音控件,可以作为UI的一部分被提供。

空间音频对象可以进一步以增强现实的方式被观看。在许多实施例中,控制设备可以具有增强现实能力,并且声音对象可以被可视化。现在转到图39,示出了根据本发明实施例的表示正在与专辑封面一起播放的音轨的声音对象。然而,音轨可被以任何数量的不同方式来表示,包括没有封面的方式、具有不同形状的方式、更抽象的方式和/或适合于本发明各种实施例的特定应用的要求的任何其他图形表示。例如,图40示出了根据本发明实施例的音频对象的抽象表示的三种不同可视化。如本领域普通技术人员可以理解的,在增强和/或虚拟现实环境中,存在任意数量的视觉渲染声音对象的不同应用,这些应用可以结合根据本发明各种实施例的空间音频系统对空间音频的渲染来实现。

在许多实施例中,控制设备可以用于帮助空间音频系统的配置。在许多实施例中,空间音频系统可以用于帮助映射空间。现在转到图41,示出了根据本发明实施例的用于配置操作的示例UI。在许多实施例中,控制设备具有深度感测能力,可以帮助映射房间地图。在各种实施例中,控制设备的相机系统可以用于识别空间中的单个单元。然而,如上所述,不要求控制设备具有集成的摄像机。

在许多实施例中,空间音频系统可以用于音乐制作和/或混音。空间音频系统可以连接到数字和/或物理乐器,并且乐器的输出可以与声音对象相关联。现在转到图42,示出了根据本发明实施例的集成数字仪器。在图示的例子中,已经集成了鼓组。在各种实施例中,鼓组中的不同鼓可以与不同的声音对象相关联。在许多实施例中,鼓组中的多个鼓可以与相同的声音对象相关联。事实上,可以集成多于一个乐器,任何数量的不同任意乐器都可以被集成。

虽然不同的声音对象可以如上所述被可视化,但是在许多实施例中,期望对正在回放的内容进行整体可视化。在许多实施例中,音频流可以通过以表示流中任何给定时间点出现的频率的方式处理音频信号来可视化。例如,可以使用傅立叶变换或通过生成梅尔谱图来处理音频。在许多实施例中,主单元和/或超级主单元负责处理它们所负责的音频流,并将结果传递给呈现可视化的设备。描述在每个给定时间点的每个频率及其各自振幅的最终处理音频可以被扭曲成螺旋,其中偏移一个音高的螺旋的每圈上的相同点反映连续八度音阶的相同音符(A、B、C、D、E、F、G等)。这样,当从上面看时(即垂直于螺旋的轴),每个八度音阶中的一些音符排成一行。图58A和58B分别示出了根据本发明实施例的从侧面和上方观察时所描述的螺旋。当一个特定的音符以给定的八度音阶演奏时,螺旋结构会根据振幅而扭曲,从而使音符可视化。在许多实施例中,扭曲部分可以在其后面留下透明场,其中螺旋的不同圈由不同的颜色、透明度水平和/或适合于本发明实施例的特定应用的要求的任何其他视觉指示器来表示。这样,不同八度音阶的多个音符可以同时可视化。图59示出了根据本发明实施例的使用螺旋的可视化的例子。

此外,可以生成多于一个的螺旋。例如,乐队中演奏歌曲的每个乐器可能都有自己的可视化螺旋。图60示出了根据本发明一个实施例的用于乐队中多个乐器的示例可视化螺旋。然而,根据用户的需要,螺旋可以用于任何数量的可视化。此外,可视化不必基于螺旋。

基于螺旋的可视化并不是唯一可以利用的可视化类型。在各种实施例中,可视化可以被附加到声音对象,并且在反映真实世界的可视化空间内被空间表示。例如,“声音空间”可以被可视化为包含单元的任何物理空间的粗略表示。声音对象可以放置在声音空间可视化,声音将相应地由单元渲染。例如,这可以用于生成环境音景,就像但不限于城市或丛林。通过在声音空间中放置与丛林地面上声音空间中的猴子或者在树的树冠中的鸟相对应的物体,可以增强周围的丛林,这又可以在声景中渲染。在许多实施例中,人工智能可以附着到放置的物体上,以引导它们的自然运动。例如,一只鸟可能在声音空间的一个区域寻找活跃的虫子,或者可以放置鸟食来吸引该区域的鸟。使用声音空间可以创建任意数量的环境和对象。事实上,声音空间并不一定要在环境中。例如,用于引导的仪器或功能性方向警报或信标可以被放置在声音空间内,并且在用于音频制作、家庭安全和/或适合于本发明实施例的特定应用的要求的任何其他应用的声景中渲染。可以容易地理解,声音空间为创造性提供了很大的机会,并且不以任何方式局限于这里列举的例子,而是在很大程度上仅受到声音空间设计者的想象力和创造性的限制。

在许多实施例中,回放和/或控制设备可以用于回放视频内容。在许多实施例中,视频内容伴随着空间音频。在许多情况下,回放和/或控制设备可能是静态的,例如安装在墙上或其他静态位置的电视。如上所述,空间音频系统可以相对于回放和/或控制设备渲染空间音频。然而,在各种实施例中,回放和/或控制设备是移动的,并且可以包括(但不限于)平板计算机、手机、便携式游戏控制台、头戴式显示器和/或适合于特定应用要求的任何其他便携式回放和/或控制设备。在许多实施例中,空间音频系统可以相对于便携式回放和/或控制设备的移动和/或取向自适应地渲染空间音频。当回放和/或控制设备包含惯性测量单元(例如但不限于陀螺仪、加速度计和/或能够测量取向和/或移动的任何其他定位系统)时,取向和/或移动信息可以用于跟踪设备,以便修改空间音频的渲染。应当理解,空间音频系统不限于使用陀螺仪、加速度计和/或其他集成定位系统。在许多实施例中,定位系统可以进一步包括基于机器视觉的跟踪系统,和/或适合于本发明各种实施例的特定应用的要求的任何其他跟踪系统。在一些实施例中,可以跟踪用户的位置,并将其用于细化空间音频的相对渲染。

如上所述,根据本发明的某些实施例的空间音频系统经由移动设备和/或能够部署音频对象的其他计算设备提供用户界面。在本发明的多个实施例中,用户界面能够以协调的方式实现所有音频对象或音频对象子集的协调移动(围绕原点的旋转通常被称为波钉扎(wave pinning))。现在转到图43,示出了根据本发明实施例的由移动设备提供的UI,包括使能够波钉扎的启示。很容易理解,根据本发明的各种实施例的空间音频系统也可以以支持多个空间音频对象的协调平移和/或其他形式的移动的方式支持空间音频渲染,并且可以相应地提供用户界面。

除了能够经由用户界面部署多个音频对象之外,根据本发明的许多实施例的空间音频系统还能够基于一个或多个用户和/或用户设备的被跟踪移动来部署多个空间音频对象。现在转到图44,示出了一系列UI屏幕,其中使用用户设备进行的惯性测量来跟踪空间音频对象相对于三个单元的位置的移动。如上所述,可以利用多种跟踪技术中的任何一种来生成遥测数据,该遥测数据可以被提供给空间音频系统,以使音频对象随着用户和/或用户设备的移动或响应于用户和/或用户设备的移动而移动。

虽然上面描述了许多不同的用户界面,但这些用户界面仅用于说明目的,并不以任何方式构成潜在用户界面配置的全部范围。事实上,可以利用广泛的用户界面模式阵列来控制根据本发明的各种实施例配置的空间音频系统的功能。空间音频系统提供的特定用户界面通常取决于空间音频系统和/或与空间音频系统通信的用户设备支持的用户输入模式和/或空间音频系统提供的用于控制空间音频再现的能力。

尽管上面讨论了用于渲染空间音频的特定系统和方法,但是根据本发明的许多不同实施例,可以实现许多不同的制造方法。因此,应当理解,在不脱离本发明的范围和精神的情况下,本发明可以以不同于具体描述的方式被实施。因此,本发明的实施例在所有方面都应该被认为是说明性的而不是限制性的。因此,本发明的范围不应由所示的实施例来确定,而应由所附权利要求及其等同物来确定。

152页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:具有聚合物覆膜的微机电型声音换能器

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类