增强/虚拟现实空间音频/视频的流式传输

文档序号：1785361 发布日期：2019-12-06 浏览：23次 >En<

阅读说明：本技术 增强/虚拟现实空间音频/视频的流式传输 (Streaming of augmented/virtual reality space audio/video ) 是由 P·A·埃德里 T·R·马尼安 C·U·奥旺万内于 2018-04-08 设计创作，主要内容包括：提供了一种用于流式传输空间音频和视频的系统。响应于用以共享虚拟现实会话的请求,可以确定第二音频输出设备的特性和第二视频输出设备的特性。进一步响应于该请求,基于第二音频输出设备的确定的特性,可以将空间音频提供给第二音频输出设备,并且可以基于第二视频输出设备的确定的特性对接收到的虚拟现实视频进行转码。可以将转码的虚拟现实视频提供给第二视频输出设备,以便(一个或多个)其他人可以体验该虚拟现实会话。(A system for streaming spatial audio and video is provided. In response to the request to share the virtual reality session, characteristics of the second audio output device and characteristics of the second video output device may be determined. Further in response to the request, spatial audio may be provided to the second audio output device based on the determined characteristics of the second audio output device, and the received virtual reality video may be transcoded based on the determined characteristics of the second video output device. The transcoded virtual reality video can be provided to a second video output device so that the virtual reality session can be experienced by others(s).)

增强/虚拟现实空间音频/视频的流式传输

背景技术

诸如Twitch之类的一些流式传输媒体视频平台提供专注于视频游戏的服务，包括视频游戏的播放、电子竞技比赛的广播以及其他事件。此类平台还共享创意内容，最近还共享音乐广播。在一些现有系统中，有两种类型的用户：参与者和观众。系统的参与者可以控制定义事件的会话的各个方面。例如，定义会话的数据可以使参与者能够控制虚拟现实环境中的化身，并使得能够参与比赛、游戏或其他形式的比赛。参与者可以与虚拟现实环境中的对象交互，该对象包括由其他参与者控制的对象等。此类事件的内容可以实时地或者经由视频点播而被流式传输到观众。

鉴于这些和其他考虑，提出了本文进行的公开。

发明内容

本文描述了一种用于流式传输空间音频和视频的系统，该系统包括处理器和与处理器通信的计算机可读存储介质。该计算机可读存储介质具有存储在其上的计算机可执行指令，该计算机可执行指令在由处理器执行时使得处理器：接收用以共享虚拟现实会话的请求，确定第二音频输出设备的特性以及确定第二视频输出设备的特性。在该计算机可读存储介质上还存储有其他计算机可执行指令，该其他计算机可执行指令在由处理器执行时使得处理器：响应于该请求，基于第二音频输出设备的确定的特性，向第二音频输出设备提供空间音频；响应于该请求，基于第二视频输出设备的确定的特性对接收到的虚拟现实视频进行转码；将转码的虚拟现实视频提供给第二视频输出设备。

应当理解，上述主题还可以被实现为计算机控制的设备、计算机过程、计算系统或诸如计算机可读介质之类的制品。通过阅读以下详细说明并查看相关附图，这些和各种其他特征将变得易见。提供本发明内容以简化形式介绍一些概念，这些概念将在下面的详细描述中进一步描述。

本发明内容既不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在使用本发明内容来限制所要求保护的主题的范围。此外，要求保护的主题不限于解决在本公开的任何部分中指出的任何或所有缺点的实现。

附图说明

参照附图描述详细描述。在附图中，附图标记的最左边的(一个或多个)数字标识该附图标记首次出现的附图。相同的附图标记在不同图中指示相似或相同的项目。

图1图示出了用于流式传输空间音频和视频的示例系统。

图2图示出了其中计算机正在管理在用户界面上显示的虚拟现实环境的场景。

图3图示出了其中计算机正在管理在用户界面上显示的虚拟现实环境的场景。

图4图示出了用于流式传输空间音频的示例系统。

图5图示出了用于流式传输空间音频和视频的示例系统。

图6图示出了流式传输空间音频和视频的示例性方法。

图7图示出了流式传输空间音频和视频的示例性方法。

图8图示出了流式传输空间视频的示例性方法。

图9是计算机架构图，其图示出了用于能够实现本文提出的技术和科技的各方面的计算系统的说明性计算机硬件和软件架构。

具体实施方式

以下详细描述公开了与共享增强/虚拟现实会话的音频/视频有关的技术和科技。本公开的各方面涉及(一个或多个)其他人无法体验用户的增强和/或虚拟现实会话的技术问题。与解决此问题相关联的技术特征包括接收共享(例如，投射)与增强和/或虚拟现实会话相关联的空间音频和/或视频的请求，将空间视频流转码到视频输出设备，基于第二音频输出设备的输出配置来转换空间音频流，同时生成到增强和/或虚拟现实设备、视频输出设备和第二音频输出设备的输出。因此，这些技术特征的各方面表现出允许多于单个的用户同时体验增强和/或虚拟现实会话的技术效果。

应当理解，上述主题可以被实现为计算机控制的装置、计算机过程、计算系统，或者被实现为诸如计算机可读存储介质之类的制品。除了许多其他益处之外，本文的技术相对于广泛的计算资源提高了效率。例如，由于本文公开的技术的使用使得用户能够按其预期听到音频生成的音频信号，因此可以改善与设备的人际交互。另外，改善的人际交互改善了其他计算资源，诸如处理器和网络资源。也可以从本文公开的技术的实现中实现除本文提及的那些以外的其他技术效果。

虽然本文描述的主题是在与计算机系统上的操作系统和应用程序的执行相结合地执行的程序模块的一般上下文中呈现的，但是本领域技术人员将认识到，可以与其他类型的程序模块相结合地执行其他实现。通常，程序模块包括例程、程序、组件、数据结构以及执行特定任务或实现特定抽象数据类型的其他类型的结构。此外，本领域技术人员将理解，本文描述的主题可以与其他计算机系统配置(包括手持式设备、多处理器系统、基于微处理器的或可编程的消费电子产品、小型计算机、大型计算机等等)一起实践。

在下面的详细描述中，对附图进行了参考，附图构成其一部分并且在附图中通过图示的方式示出了特定的配置或示例。现在参照附图，其中贯穿若干附图，相同的数字表示相同的元件，计算系统、计算机可读存储介质以及计算机实现的方法的各方面用于实现共享三维音频床。如将在下面关于图9更详细地描述的，存在可以体现本文描述的功能性和技术的许多应用和模块。

参照图1，图示出了用于流式传输空间音频和视频的系统100。系统100包括控制器101，其在接收层152处执行以用于存储、通信和处理本文描述的音频和视频数据。控制器101包括引擎111，引擎111被配置为向第一编码器106A提供信息，并选择性地基于体验元数据175向第二编码器106B提供信息，以流式传输空间音频。引擎还被配置为选择性地基于体验元数据175，将信息提供给转码器107以对空间视频进行转码。

第一编码器106A与第一音频输出设备105A(例如，增强/虚拟现实头戴式耳机)关联，并且第二编码器106B与第二音频输出设备106A(例如，室内扬声器)关联。第一编码器106A和第二编码器106B有时统称为“编码器106”，并且第一音频输出设备105A和第二音频输出设备105B有时统称为“音频输出设备105”。提供该示例系统100是出于说明性目的，并且不应被解释为限制性的。可以理解，系统100可以包括比图1中所示的那些更少或更多的组件。

编码器106被配置为根据一种或多种选择的音频空间化技术来处理基于声道的音频、球形音频和/或基于对象的音频。由编码器106生成的渲染流(rendered stream)可以被传送到一个或多个输出设备105。输出设备105(在本文中也称为“端点设备”)的示例包括但不限于扬声器系统和耳机(例如启用增强和/或虚拟现实的)。编码器106和/或输出设备105可以被配置为利用一种或多种音频空间化技术，诸如杜比全景声(Dolby Atmos)、HRTF等。

编码器106还可以实现其他功能性，诸如一种或多种回声消除技术。此类技术对于在应用环境之外进行选择和利用是非常有益的，因为单个应用不具有其他应用的上下文，因此无法确定应当何时利用回声消除和其他类似技术。

在一个实施例中，一个或多个编码器106可以基于音频空间化技术将流式传输空间音频转码为不同的音频空间化技术。例如，一个或多个编码器106可以将从特定应用102接收的基于对象的音频转码为Ambisonic(高保真度立体声响复制)输出(例如，一阶、高阶、混合阶等)，然后将其提供给(一个或多个)输出设备105。

系统100可以利用一种或多种音频空间化技术来流式传输空间音频，例如球形声音表示，诸如Ambisonic输出(例如，一阶、高阶、混合阶等)、基于对象的音频输出、基于声道的输出和/或任何其他类型的合适音频输出。

一般而言，基于Ambisonic技术的音频输出数据涉及全球形环绕声技术。除水平面外，输出数据覆盖收听者上方和下方的声源。因此，除了为每个流定义许多其他属性之外，每个流还与由三维坐标系定义的位置相关联。

基于Ambisonic技术的音频输出可以包含被称为B格式的与扬声器无关的声场表示，其被配置为由收听者(观众或参与者)的音频输出设备进行解码。这种配置允许系统100根据源方向而不是扬声器位置来记录数据，并且为收听者提供了关于用于回放的扬声器的布局和数量的相当程度的灵活性。B格式是一阶Ambisonic输出。

高阶Ambisonic指的是高分辨率音频输出，其中将附加的方向性分量组添加到B格式(例如2阶，3阶…N阶)。随着附加方向性分量的添加，更高的分辨率通常消耗更大的带宽。例如，二阶Ambisonic采用八个分量，三阶Ambisonic采用十六个分量，等等。为了在保持高阶Ambisonic附加利益的同时选择性地减少附加的方向性分量，混合阶Ambisonic可以选择性地去除(例如，通过协议，零输出和/或不发射)高阶Ambisonic的(一个或多个)方向性分量。例如，可以去除具有低于阈值水平的(一个或多个)值的(一个或多个)方向性分量，以减少带宽消耗。

基于对象的音频定义与音轨相关联的对象。例如，在电影中，枪声可以是一个对象，而人物的尖叫声可以是另一个对象。每个对象也可以具有关联的位置。基于对象的音频的元数据使应用能够指定每个声音对象的来源以及其应该如何移动。

对于基于声道的输出，各个通道与对象相关联。例如，杜比5.1信号包括多个音频声道，并且每个声道都可以与一个或多个位置相关联。元数据可以定义与基于声道的音频信号的各个声道相道关联的一个或多个位置。

为了说明的目的，在本文中一些示例应用102被各别地称为第一应用102A、第二应用102B和第三应用102C。各个应用102还可以包括一个或多个预处理器，用于执行被配置为执行本文公开的技术的代码。

应用102可以包括被配置为处理基于对象的音频(在本文中也称为“3D对象音频”)、基于声道的音频(在本文中也称为“2D床音频”)和/或球形声音表示。应用102的示例可以包括但不限于媒体播放器、网络浏览器、视频游戏、虚拟现实应用和通信应用。应用102还可以包括生成系统声音的操作系统的组件。

除了提供用于与用户进行交互的功能性之外，应用102还可将一个或多个操作应用于基于对象的音频，包括但不限于一个或多个折叠操作和并置操作，这可以涉及例如基于由引擎111提供的体验元数据175将多个对象组合成单个对象。在另一示例中，应用102可以利用一个或多个剔除操作，这会涉及消除一个或多个所选音频对象。

应用102可以根据体验元数据175生成3D音频数据。在一个说明性示例中，如果第一应用102A是生成具有300个音频对象的基于原始对象的音频数据的视频游戏，并且体验元数据175指定在三维区域的特定位置处具有10个扬声器的输出设备105B，则应用102A可以处理300个音频对象，例如折叠、并置(co-locate)和/或过滤对象，以适当地将原始音频数据的个体或组合音频流与10个扬声器及其相应位置相关联。应用102可以生成包含音频数据和将音频流与一个或多个扬声器对象相关联的其他定义的3D音频数据。

在一些配置中，系统100可以基于一个或多个动作在第一空间化技术和第二空间化技术之间转换。例如，如果系统100的用户正在使用第一输出设备105A(例如，使用启用增强和/或虚拟现实的头戴式耳机)在HRTF和虚拟现实视频流下渲染音频，并且用户期望与(一个或多个)其他人(例如，与用户位于同一物理房间中)共享增强和/或虚拟现实体验，用户可以经由体验元数据175通知系统100。响应于此通知，系统100可以使用HRTF空间化技术(例如，同时地)将音频流式传输给用户，然后将流转换为用于扬声器系统的另一种空间化格式，诸如杜比全景声(Dolby Atmos)，以供(一个或多个)其他人经由第二音频输出设备105B进行体验。

系统100还可以同时向第一输出设备105A提供虚拟现实视频流(例如，供用户观看)，并使用转码器107将虚拟现实视频转码为360度视频流。转码器107然后可以向视频输出设备110(例如，电视、显示器等)提供360度视频流，以供(一个或多个)其他人体验增强和/或虚拟现实会话。

继续参考图1，引擎111可以利用体验元数据175来动态地确定何时和/或如何转换虚拟现实音频/视频流以供(一个或多个)其他人收听/观看。基于体验元数据175，引擎1111可以选择(一个或多个)编码器106以将空间音频流式传输到(一个或多个)输出设备105。然后，所选择的(一个或多个)编码器106可以将从(一个或多个)应用102接收的音频发射到输出设备105。

在一个实施例中，体验元数据175可以包括对用户共享音频视频流的通知的指示。在一个实施例中，体验元数据175标识(一个或多个)特定音频空间化技术(例如，Ambisonic、基于对象的音频、基于声道的音频等)和相关联的音频分辨率，以在向第一输出设备105A和/或第二输出设备105B提供音频流时被利用。基于体验元数据175，引擎111可以确定(一个或多个)特定编码器106以将音频发射到第一输出设备105A和/或第二输出设备106B。

图2图示出了其中计算机正在管理在用户界面200上显示的虚拟现实环境的场景。虚拟现实环境包括由参与者控制的参与者对象201，在本文中也称为“化身”。参与者对象201可以沿着路径在虚拟现实环境中移动。系统提供参与者观看区域203。更具体地说，参与者对象201正指向第一方向210。

还如图2中所示，在虚拟现实环境内，第一对象220A和第二对象220B(在本文中统称为对象220)分别位于参与者对象201的前侧和右侧。在这样的示例中，定义第一音频对象220A的位置的数据可以使系统渲染指示第一对象220A的位置的流的音频信号。另外，定义第二音频对象220B的位置的数据将使系统渲染指示第二音频对象220B的位置的音频信号。更具体地，在该示例中，参与者和(一个或多个)其他人都将听到与第一音频对象220A相关联的流，(一个或多个)其他人从(一个或多个)其他人前面的扬声器听到，并且参与者从增强/虚拟现实头戴式耳机听到。参与者和(一个或多个)其他人也将听到与第二音频对象120B相关联的流，(一个或多个)其他人从其右边的扬声器听到，并且参与者从增强/虚拟现实头戴式耳机听到。

在一些配置中，指示流的方向的数据可以被用来影响如何将流渲染给扬声器。例如，在图2中，与第二音频对象220B相关联的流可以被引导远离参与者对象201，并且在这种场景中，扬声器的输出可以包括诸如回声效果或混响效果之类的效果以指示方向。

关于图2的场景200，基于来自用户的与(一个或多个)其他人共享增强和/或虚拟现实体验的通知，系统100可以同时将音频流式传输给用户(例如，使用HRTF空间化技术)，并将流转换成用于第二音频输出设备105B(例如，扬声器系统)的另一空间化形式(例如，杜比全景声(Dolby Atmos))，以供(一个或多个)其他人体验增强和/或虚拟现实体验。

系统100还可以经由转码器107将虚拟现实视频转码为360度视频流。转码器107可以将转码的虚拟现实视频提供给视频输出设备110。例如，转码器107可以将虚拟现实视频提供给(一个或多个)其他人，这与用户可观看的参与者观看区域203基本相似。

响应于用户的头部运动(例如，经由与第一音频输出设备105A相关联的头部***)，用户所体验的音频和视频流可以被改变。如果正在与(一个或多个)其他人共享增强和/或虚拟现实体验，则系统100可以使得提供第二音频输出设备105B和视频输出设备110的音频和视频流(例如，(一个或多个)其他人可用的)来根据用户所体验的音频和视频流被更改。

简要地参考图3，参与者对象201正在指向第二方向212，使得第二对象220B在参与者观看区域203内可见。在共享体验中，系统100使从第二220B发出的声音来指示：第二对象220B的位置为处于用户和(一个或多个)其他人的前面。在共享体验中，系统100还使的显示给用户和(一个或多个)其他人的视频将第二对象220B包括在参与者观看区域203内。

转到图4，图示出了用于流式传输空间音频的系统400。系统400可以同时经由第一音频输出设备105A将音频流式传输到用户(例如，使用HRTF空间化技术)，并将流转换为针对第二音频输出设备105B(例如，扬声器系统)的另一种空间化形式(例如，杜比全景声(Dolby Atmos))，以供(一个或多个)其他人体验增强和/或虚拟现实体验，如上所讨论。例如，用户可以经由体验元数据175指示仅将增强和/或虚拟现实体验的音频与(一个或多个)其他人共享。

参照图5，图示出了用于流式传输空间音频和视频的系统500。系统500可以同时通过头戴式耳机将虚拟现实视频流式传输给用户，并使用转码器107将虚拟现实视频转码为360度视频流。然后，转码器107可以将360度视频流提供给视频输出设备110(例如电视，显示器等)，以供(一个或多个)其他人体验增强现实和/或虚拟现实会话，如先前所讨论的。例如，用户可以经由体验元数据175指示仅将增强和/或虚拟现实体验的视频与(一个或多个)其他人共享。

现在转到图6-图8，示出并描述了用于流式传输空间音频和/或视频的方法(例如，例程)的各个方面。应当理解，本文公开的方法的操作不必以任何特定顺序来呈现，并且可以以(一个或多个)替代的顺序来执行一些或全部操作是可能的并且是可预期的。为了便于描述和说明，已经按演示的顺序呈现了操作。在不脱离所附权利要求的范围的情况下，可以增加、省略和/或同时执行操作。

还应当理解，所图示出的方法可以在任何时间结束并且不需要整体被执行。可以通过执行包括在计算机存储介质上的计算机可读指令，来执行方法的一些或全部操作和/或基本上等效的操作，如下文所定义的。在本文中被广泛地使用如说明书和权利要求书中所使用的术语“计算机可读指令”及其变体，以包括例程、应用、应用模块、程序模块、程序、组件、数据结构、算法等。可以在各种系统配置上实现计算机可读指令，包括单处理器或多处理器系统、小型计算机、大型计算机、个人计算机、手持式计算设备、基于微处理器的可编程消费电子产品、其组合等。

因此，应当理解，本文描述的逻辑操作被实现为：(1)在计算系统上运行的计算机实现的动作或程序模块的序列；和/或(2)在计算系统内的互连机器逻辑电路或电路模块。该实现是取决于计算系统的性能和其他要求的选择问题。因此，本文描述的逻辑操作被不同地称为状态、操作、结构设备、动作或模块。这些操作、结构设备、动作和模块可以以软件、固件、专用数字逻辑及其任何组合来实现。

例如，本文将方法600、700、800的操作描述为至少部分地由诸如控制器101之类的应用、组件和/或电路来实现。在一些配置中，控制器101可以是动态链接库(DLL)、静态链接库、应用编程接口(API)产生的功能性、编译程序、解释程序、脚本或任何其他可执行指令集。数据和/或模块、引擎111可以被存储在一个或多个存储器组件中的数据结构中。可以通过寻址到数据结构的链接或引用来从数据结构中检索数据。

尽管以下说明涉及图1、图4和图5的组件，但是可以理解，方法600、700、800的操作也可以以许多其他方式来实现。例如，方法600、700、800可以至少部分地由另一远程计算机或本地电路的处理器来实现。另外，方法600、700、800的一个或多个操作可以可替代地或另外地至少部分地通过单独工作或与其他软件模块结合工作的芯片组来实现。可以在本文所述的操作中使用适用于提供本文公开的技术的任何服务、电路或应用。

参考图6，图示出了流式传输空间音频和视频的方法600。在610处，接收共享虚拟现实会话的请求。例如，该请求可以由与虚拟现实会话相关联的用户发起。

在620处，确定第二音频输出设备的(一个或多个)特性。(一个或多个)特性可以包括例如(一个或多个)扬声器的数量和位置和/或相关联的音频空间化技术(例如，基于对象的、Ambisonic、基于声道的等)。

在630处，确定第二视频输出设备的(一个或多个)特性。(一个或多个)特性可以包括物理尺寸、输入类型(例如，VGA、HDMI、Wi-Fi、有线LAN等)和/或与第二视频输出设备相关联的像素计数。

在640处，将空间音频提供给虚拟现实头戴式耳机，并且基于第二音频输出设备的确定的(一个或多个)特性将其提供给第二音频输出设备。在650处，基于第二视频输出设备的确定的(一个或多个)特性来对接收到的虚拟现实视频进行转码。

在660处，将接收到的虚拟现实视频提供给虚拟现实头戴式耳机。在670处，将转码的虚拟现实视频提供给第二视频输出设备。

转到图7，图示出了一种流式传输空间音频和视频的方法700。在710处，接收共享增强现实会话的请求(例如，由与增强现实会话相关联的用户发起的)。增强现实头戴式耳机利用投影的(一个或多个)计算机生成图像和音频来补充用户的真实环境。用户在他的真实环境内继续能够看到和/或听到(一个或多个)对象。因此，在一个实施例中，当在增强现实会话中共享音频时，当用户体验来自与(一个或多个)其他人共享的音频输出设备(例如，(一个或多个)扬声器)的音频时，对增强头戴式耳机的音频馈送被静音。

在720处，确定第二音频输出设备的(一个或多个)特性(例如，(一个或多个)扬声器的数量、(一个或多个)扬声器的位置或相关联的音频空间化技术等)。在730处，确定第二视频输出设备的(一个或多个)特性(例如，物理尺寸、输入类型、像素数等)。在740处，使虚拟现实头戴式耳机的空间音频静音，并且基于第二音频输出设备的确定的(一个或多个)特性，将空间音频提供给第二音频输出设备。

在750处，基于第二视频输出设备的确定的(一个或多个)特性来对接收到的虚拟现实视频进行转码。在760处，将接收到的虚拟现实视频提供给增强现实头戴式耳机。在770处，将转码的虚拟现实视频提供给第二视频输出设备。

参照图8，图示出了流式传输空间视频800的方法。在810处，接收共享增强和/或虚拟现实会话的视频的请求。在820处，确定第二视频输出设备的(一个或多个)特性。

在830处，基于第二视频输出设备的确定的(一个或多个)特性来对接收到的虚拟现实视频进行转码。在840处，将接收到的虚拟现实视频提供给虚拟现实头戴式耳机。在850处，将转码的虚拟现实视频提供给第二视频输出设备。

本文描述了一种用于流式传输空间音频和视频的系统，其包括处理器；与处理器通信的计算机可读存储介质，该计算机可读存储介质具有存储在其上的计算机可执行指令，该指令在由处理器执行时使处理器：接收用以共享虚拟现实会话的请求；确定第二音频输出设备的特性；确定第二视频输出设备的特性；响应于该请求，基于第二音频输出设备的所确定的特性，向第二音频输出设备提供空间音频；响应于该请求，基于第二视频输出设备的所确定的特性对接收到的虚拟现实视频进行转码；并将转码的虚拟现实视频提供给第二视频输出设备。

计算机可读存储介质可以具有存储在其上的其他计算机可执行指令，这些指令在由处理器执行时使得处理器向虚拟现实头戴式耳机提供空间音频。该系统还可以包括：其中提供给第二音频输出设备的空间音频是使用高阶球形声音表示的三维音频数据。

该系统可以包括：其中提供给第二音频输出设备的空间音频是使用混合阶球形声音表示的三维音频数据。该系统可以进一步包括：其中提供给第二音频输出设备的空间音频是使用基于对象的音频输出的三维音频数据。该系统可以包括：其中提供给第二音频输出设备的空间音频是使用基于对象的音频输出的三维音频数据，该基于对象的音频输出利用折叠或并置音频对象中的至少一个。

该系统可以包括：其中第二音频输出设备的特性包括扬声器的数量、扬声器的位置或相关联的音频空间化技术中的至少一个。该系统可以进一步包括：其中提供给第二视频输出设备的转码的虚拟现实视频包括360度视频流。该系统可以包括：其中经由体验元数据接收共享虚拟现实会话的请求。

本文描述了一种流式传输空间音频和视频的方法，包括：接收用以共享增强现实会话的请求；以及确定第二音频输出设备的特性；确定第二视频输出设备的特性；响应于该请求，基于第二音频输出设备的确定的特性，向第二音频输出设备提供空间音频；响应于该请求，使提供给与增强现实会话相关联的增强现实头戴式耳机的空间音频静音；响应于该请求，基于第二视频输出设备的确定的特性对接收到的增强现实视频进行转码；以及将转码的增强现实视频提供给第二视频输出设备。

该方法可以包括：其中提供给第二音频输出设备的空间音频是使用高阶球形声音表示的三维音频数据。该方法可以进一步包括：其中提供给第二音频输出设备的空间音频是使用混合阶球形声音表示的三维音频数据。该方法可以包括：其中提供给第二音频输出设备的空间音频是使用基于对象的音频输出的三维音频数据。

该方法可以包括：其中第二音频输出设备的特性包括以下中的至少一个：扬声器的数量、扬声器的位置或相关联的音频空间化技术。该方法可以进一步包括：其中提供给第二视频输出设备的转码的增强现实视频包括360度视频流。

本文描述的是一种计算机可读存储介质，其上存储有计算机可执行指令，该计算机可执行指令在由系统的一个或多个处理器执行时使系统的一个或多个处理器：接收用以共享虚拟现实会话的请求；确定第二音频输出设备的特性；确定第二视频输出设备的特性；响应于该请求，基于第二音频输出设备的确定的特性，向第二音频输出设备提供空间音频；响应于该请求，基于第二视频输出设备的确定的特性对接收到的虚拟现实视频进行转码；并将转码的虚拟现实视频提供给第二视频输出设备。

计算机可读存储介质可以具有存储在其上的其他计算机可执行指令，这些指令在由处理器执行时使处理器向虚拟现实头戴式耳机提供空间音频。该计算机可读存储介质还可以包括：其中提供给第二音频输出设备的空间音频是使用高阶球形声音表示的三维音频数据。

该计算机可读存储介质可以进一步包括：其中提供给第二音频输出设备的空间音频是使用基于对象的音频输出的三维音频数据。所述计算机可读存储介质还可以包括：其中提供给第二音频输出设备的空间音频是使用基于对象的音频输出的三维音频数据，该基于对象的音频输出利用折叠或并置音频对象中的至少一个。

图9示出了能够执行本文所述的程序组件的用于计算机的示例计算机架构900的其他细节，诸如控制器101(图1)。因此，图9中所图示的计算机架构900图示出了用于服务器计算机、移动电话、PDA、智能电话、台式计算机、上网本计算机、平板计算机和/或膝上型计算机的架构。可以利用计算机架构900来执行本文提出的软件组件的任何方面。

图9中所图示的计算机架构900包括：中央处理单元902(“CPU”)、包括随机存取存储器906(“RAM”)和只读存储器(“ROM”)908的系统存储器904、和将存储器904耦合到CPU902的系统总线910。基本输入/输出系统被存储在ROM 908中，该基本输入/输出系统包含有助于在计算机架构900内的元件之间(诸如在启动期间)传递信息的基本例程。计算机架构900还包括用于存储操作系统907、一个或多个应用102、控制器101、引擎111以及其他数据和/或模块的大容量存储设备912。

大容量存储设备912通过连接到总线910的大容量存储控制器(未示出)连接到CPU902。大容量存储设备912及其关联的计算机可读介质为计算机架构900提供了非易失性存储。尽管本文包含的计算机可读介质的描述是指大容量存储设备，诸如固态驱动器、硬盘或CD-ROM驱动器，但本领域技术人员应理解，计算机可读介质可以是计算机架构900可以访问的任何可用的计算机存储介质或通信介质。

通信介质包括诸如载波或其他传输机制的调制数据信号中的计算机可读指令、数据结构、程序模块或其他数据，并且包括任何递送介质。术语“调制数据信号”意指具有以将信息编码在信号中的方式来改变或设置其一个或多个特性的信号。作为示例而非限制，通信介质包括诸如有线网络或直接有线连接之类的有线介质，以及诸如声学、RF、红外和其他无线介质之类的无线介质。以上任何内容的组合也应被包括在计算机可读介质的范围内。

作为示例而非限制，计算机存储介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。例如，计算机介质包括但不限于RAM、ROM、EPROM、EEPROM、闪存或其他固态存储技术、CD-ROM、数字多功能磁盘(“DVD”)、HD-DVD、BLU-RAY或其他光学存储设备、盒式磁带、磁带、磁盘存储设备或其他磁性存储设备、或可以被用来存储所期望信息并可由计算机架构900访问的任何其他介质。短语“计算机存储介质”、“计算机可读存储介质”及其变体本身并不包括波、信号和/或其他瞬时和/或无形通信介质。

根据各种配置，计算机架构900可以使用通过网络956和/或另一个网络(未示出)到远程计算机的逻辑连接来操作在联网环境中。计算机架构900可以通过连接到总线910的网络接口单元914连接到网络956。应当理解，网络接口单元914也可以被利用来连接到其他类型的网络和远程计算机系统。计算机架构900还可以包括输入/输出控制器916，用于接收和处理来自许多其他设备的输入，包括键盘、鼠标或电子笔(图9中未示出)。类似地，输入/输出控制器916可以将输出提供给显示屏、打印机或其他类型的输出设备(在图9中也未示出)。

应当理解，本文描述的软件组件在被加载到CPU 902中并被执行时，可以将CPU902和整个计算机架构900从通用计算系统转换为被定制的专用计算系统来促进本文所提出的功能性。CPU 902可以由任意数量的晶体管或其他分立电路元件构成，它们可以单独或共同地呈现任意数量的状态。更具体地，响应于包含在本文公开的软件模块内的可执行指令，CPU 902可以操作为有限状态机。这些计算机可执行指令可以通过指定CPU 902如何在状态之间转移来对CPU 902进行变换，从而对构成CPU 902的晶体管或其他分立硬件元件进行变换。

对本文提出的软件模块进行编码也可以变换本文提出的计算机可读介质的物理结构。在本说明书的不同实现中，物理结构的特定变换可以取决于各种因素。这样的因素的示例可以包括但不限于用于实现计算机可读介质的技术、计算机可读介质被表征为主要存储还是辅助存储等。例如，如果计算机可读介质被实现为基于半导体的存储器，则本文中公开的软件可以通过变换半导体存储器的物理状态而被编码在计算机可读介质上。例如，软件可以变换构成半导体存储器的晶体管、电容器或其他分立电路元件的状态。该软件还可以变换这些组件的物理状态，以便在其上存储数据。

作为另一个示例，可以使用磁性或光学技术来实现本文公开的计算机可读介质。在这样的实现中，当软件被编码在磁性或光学介质中时，本文提出的软件可以变换磁性或光学介质的物理状态。这些变换可以包括改变给定磁性介质内特定位置的磁性特性。这些变换还可以包括改变给定光学介质内特定位置的物理特征或特性，以改变那些位置的光学特性。在不背离本说明书的范围和精神的情况下，物理介质的其他变换是可能的，提供前述示例仅是为了促进该讨论。

鉴于以上内容，应当理解，在计算机架构900中发生了许多类型的物理变换，以便存储和执行本文提出的软件组件。还应当理解，计算机架构900可以包括其他类型的计算设备，包括手持计算机、嵌入式计算机系统、个人数字助理以及本领域技术人员已知的其他类型的计算设备。还可以预期，计算机架构900可以不包括图9中所示的所有组件，可以包括在图9中未明确示出的其他组件，或者可以利用与图9中所示的架构完全不同的架构。

结论

最后，尽管已经以特定于结构特征和/或方法动作的语言描述了各种配置，但是应理解，所附表示中所定义的主题不必限于所描述的特定特征或动作。而是，将特定特征和动作作为实现所要求保护的主题的示例形式而公开。

22页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：输入接口程序、系统以及输入接口的控制方法

增强/虚拟现实空间音频/视频的流式传输

相关技术

网友询问留言