用于鱼眼虚拟实境视频的增强型高阶信号发送

文档序号:1440085 发布日期:2020-02-14 浏览:9次 >En<

阅读说明:本技术 用于鱼眼虚拟实境视频的增强型高阶信号发送 (Enhanced high-order signaling for fisheye metaverse video ) 是由 王业奎 于 2018-07-09 设计创作,主要内容包括:本发明提供一种处理包含视频数据的文件的方法,其包含:处理包含鱼眼视频数据的文件,所述文件包含语法结构,所述语法结构包含指定所述鱼眼视频数据的属性的多个语法元素,其中所述多个语法元素包含指示鱼眼视频类型信息的一或多个位;基于所述语法结构的所述一或多个位确定用于所述鱼眼视频数据的所述鱼眼视频类型信息;基于所述确定输出所述鱼眼视频数据以供显现。(The invention provides a method of processing a file comprising video data, comprising: processing a file including fisheye video data, the file including a syntax structure including a plurality of syntax elements that specify attributes of the fisheye video data, wherein the plurality of syntax elements includes one or more bits indicating fisheye video type information; determining the fisheye video type information for the fisheye video data based on the one or more bits of the syntax structure; outputting the fisheye video data for rendering based on the determination.)

用于鱼眼虚拟实境视频的增强型高阶信号发送

本申请案主张2017年7月10日申请的美国临时申请案第62/530,497号及2018年7月6日申请的美国申请案第16/028,934号的权益,所述申请案的全部内容据此以引用的方式并入。

技术领域

本发明涉及经编码媒体数据的输送。

背景技术

数字视频能力可并入至广泛范围的装置中,包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、数字相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝或卫星无线电电话、视频电话会议装置等等。数字视频装置实施视频压缩技术,例如描述于由MPEG-2、MPEG-4、ITU-T H.263或ITU-TH.264/MPEG-4第10部分高级视频译码(AVC)、ITU-T H.265(也被称作高效率视频译码(HEVC))及这些标准的扩展定义的标准中的技术,以更有效率地传输及接收数字视频信息。

视频压缩技术执行空间预测及/或时间预测以减少或移除视频序列中所固有的冗余。对于基于块的视频译码,可将视频帧或切片分割成宏块。可进一步分割每一宏块。使用关于相邻宏块的空间预测来编码经帧内译码(I)帧或切片中的宏块。经帧间译码(P或B)帧或切片中的宏块可使用关于同一帧或切片中的相邻宏块的空间预测或关于其它参考帧的时间预测。

在已编码视频(及其它媒体数据)数据之后,视频数据可经包化以用于传输或存储。可将视频数据汇编成符合多种标准中的任一者的视频文件,所述标准是例如国际标准化组织(ISO)基本媒体文件格式及其扩展,例如AVC。

发明内容

一般来说,本发明描述涉及虚拟实境(VR)/360度视频应用的功能性。更具体地说,本发明描述在容器文件中及在例如经由HTTP的动态自适应流式处理(DASH)的自适应流式处理格式的媒体呈现描述中的用于鱼眼VR/360视频的增强型高阶信号发送。虽然本文中可在全向媒体格式(OMAF)及/或DASH的情况下或在其它媒体格式中描述所述技术,但应理解,这些技术可通常应用于任何虚拟实境(VR)或360度媒体格式。此外,虽然本发明可参考呈ISO基本媒体文件格式(ISOBMFF)的形式的文件格式,但应理解,这些文件格式可通常遍及多种类型的文件格式应用。

在一个实例中,本发明描述一种处理包含视频数据的文件的方法,所述方法包括:处理包含鱼眼视频数据的文件,所述文件包含语法结构,所述语法结构包含指定所述鱼眼视频数据的属性的多个语法元素,其中所述多个语法元素包含指示鱼眼视频类型信息的一或多个位;基于所述语法结构的所述一或多个位确定用于所述鱼眼视频数据的所述鱼眼视频类型信息;及基于所述确定输出所述鱼眼视频数据以供显现。

在另一实例中,本发明描述一种经配置以处理包含视频数据的文件的设备,所述设备包括:存储器,其经配置以存储所述文件;及一或多个处理器,其与所述存储器通信,所述一或多个处理器经配置以:处理包含鱼眼视频数据的所述文件,所述文件包含语法结构,所述语法结构包含指定所述鱼眼视频数据的属性的多个语法元素,其中所述多个语法元素包含指示鱼眼视频类型信息的一或多个位;基于所述语法结构的所述一或多个位确定用于所述鱼眼视频数据的所述鱼眼视频类型信息;及基于所述确定输出所述鱼眼视频数据以供显现。

在另一实例中,本发明描述一种经配置以处理包含视频数据的文件的设备,所述设备包括:用于处理包含鱼眼视频数据的文件的装置,所述文件包含语法结构,所述语法结构包含指定所述鱼眼视频数据的属性的多个语法元素,其中所述多个语法元素包含指示鱼眼视频类型信息的一或多个位;用于基于所述语法结构的所述一或多个位确定用于所述鱼眼视频数据的所述鱼眼视频类型信息的装置;及用于基于所述确定输出所述鱼眼视频数据以供显现的装置。

在另一实例中,本发明描述一种非暂时性计算机可读存储媒体,其存储指令,所述指令在执行时使一或多个处理器:处理包含鱼眼视频数据的文件,所述文件包含语法结构,所述语法结构包含指定所述鱼眼视频数据的属性的多个语法元素,其中所述多个语法元素包含指示鱼眼视频类型信息的一或多个位;基于所述语法结构的所述一或多个位确定用于所述鱼眼视频数据的所述鱼眼视频类型信息;及基于所述确定输出所述鱼眼视频数据以供显现。

在另一实例中,本发明描述一种产生包含视频数据的文件的方法,所述方法包括:接收鱼眼视频数据;产生包含所述鱼眼视频数据的文件,所述文件包含语法结构,所述语法结构包含指定所述鱼眼视频数据的属性的多个语法元素,其中所述多个语法元素包含指示鱼眼视频类型信息的一或多个位;及输出所述文件。

在另一实例中,本发明描述一种经配置以产生包含视频数据的文件的设备,所述设备包括:存储器,其经配置以存储所述文件;及一或多个处理器,其与所述存储器通信,所述一或多个处理器经配置以:接收鱼眼视频数据;产生包含所述鱼眼视频数据的所述文件,所述文件包含语法结构,所述语法结构包含指定所述鱼眼视频数据的属性的多个语法元素,其中所述多个语法元素包含指示鱼眼视频类型信息的一或多个位;及输出所述文件。

在另一实例中,本发明描述一种经配置以产生包含视频数据的文件的设备,所述设备包括:用于接收鱼眼视频数据的装置;用于产生包含所述鱼眼视频数据的文件的装置,所述文件包含语法结构,所述语法结构包含指定所述鱼眼视频数据的属性的多个语法元素,其中所述多个语法元素包含指示鱼眼视频类型信息的一或多个位;及用于输出所述文件的装置。

在另一实例中,本发明描述一种非暂时性计算机可读存储媒体,其存储指令,所述指令在执行时使一或多个处理器:接收鱼眼视频数据;产生包含所述鱼眼视频数据的文件,所述文件包含语法结构,所述语法结构包含指定所述鱼眼视频数据的属性的多个语法元素,其中所述多个语法元素包含指示鱼眼视频类型信息的一或多个位;及输出所述文件。

下文在附图及

具体实施方式

中阐述一或多个实例的细节。其它特征、目标及优点将从具体实施方式及附图及从权利要求书显而易见。

附图说明

图1为绘示实施用于经由网络来流式处理媒体数据的技术的实例系统的框图。

图2为更详细地绘示图1的检索单元的组件的实例集合的框图。

图3为绘示实例多媒体内容的元素的概念图。

图4为绘示实例视频文件的元素的框图,所述实例视频文件可对应于表示的区段。

图5A及5B为绘示根据本发明中所描述的一或多个实例技术的用于捕获全向图像内容的实例装置的框图。

图6为绘示每视频图片多个鱼眼图像的实例的图像。

图7为展示根据本发明的技术的用于产生文件的实例方法的流程图。

图8为展示根据本发明的技术的用于处理文件的实例方法的流程图。

具体实施方式

以下提供本发明的某些方面及实例。这些方面及实例中的一些可独立地应用,并且其中的一些可按如将对所属领域的技术人员显而易见的组合来应用。在以下描述中,出于阐释的目的,阐述特定细节以便提供对本发明的实例的透彻理解。然而,将显而易见的是,可在无这些特定细节的情况下实践各种实例。附图及具体实施方式不意图为限制性的。

随后的描述仅提供实例,且并不意图限制本发明的范围、适用性或配置。相反地,实例的随后的描述将为所属领域的技术人员提供用于实施本发明的实例的启发性描述。应理解,可在不脱离如所附权利要求书中所阐述的本申请案的精神及范围的情况下对元件的功能及布置作出各种改变。

在以下描述中给出特定细节以提供对实例的透彻理解。然而,所属领域的一般技术人员应理解,所述实例可在无这些特定细节的情况下实践。举例来说,电路、系统、网络、过程及其它组件可以框图形式被展示为组件以免以不必要的细节混淆实例。在其它实例中,可在无不必要的细节的情况下展示熟知的电路、过程、算法、结构及技术以便避免混淆实例。

此外,应注意,个别实例可被描述为被描绘为流程图、流图、数据流图、结构图或框图的过程。尽管流程图可将操作描述为依序过程,但许多操作可并行地或同时执行。此外,可重新排列所述操作的次序。过程在其操作完成时终止,但可具有不包含于图中的额外步骤。过程可对应于方法、函数、规程、子例程、子程序等等。当过程对应于函数时,其终止可对应于函数返回至调用函数或主函数。

术语“计算机可读媒体”包含但不限于便携式或非便携式存储装置、光学存储装置,及能够存储、含有或携载指令及/或数据的各种其它媒体。计算机可读媒体可包含非暂时性媒体,其中可存储数据且不包含载波及/或无线地或经由有线连接传播的暂时性电子信号。非暂时性媒体的实例可包含但不限于磁盘或磁带、例如紧密光盘(CD)或数字多功能光盘(DVD)的光学存储媒体、快闪存储器、存储器或存储器装置。计算机可读媒体可具有存储于其上的代码及/或机器可执行指令,所述代码及/或机器可执行指令可表示规程、函数、子程序、程序、例程、子例程、模块、软件包、类,或指令、数据结构或程序语句的任何组合。一个代码段可通过传递及/或接收信息、数据、自变量、参数或存储器内容耦合至另一代码段或硬件电路。信息、自变量、参数、数据等等可经由包含存储器共享、消息传递、令牌传递、网络传输等等的任何合适方式进行传递、转发或传输。

此外,可由硬件、软件、固件、中间件、微码、硬件描述语言或其任何组合实施本发明的实例。当以软件、固件、中间件或微码实施时,执行必要任务的程序代码或代码段(例如计算机程序产品)可存储于计算机可读或机器可读媒体中。处理器可执行必要任务。

一般来说,本发明描述用于鱼眼虚拟实境(VR)视频(例如也被叫作360度视频或全向视频数据)的高阶信号发送的一些增强型设计、装置及技术。虽然本文中可在全向媒体格式(OMAF)的情况下描述所述技术,但应理解,此功能性可大体上应用于任何VR、全向或360度媒体格式。此外,虽然本发明可参考呈ISO基本媒体文件格式(ISOBMFF)的形式的文件格式,但应理解,这些文件格式可通常遍及多种类型的文件格式应用。举例来说,本发明揭示鱼眼视频信息的替代信号发送的多种实例方法。可独立地或以任何组合执行这些方法中的一或多者。

相关联的视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-T H.262或ISO/IEC MPEG-2Visual、ITU-T H.263、ISO/IEC MPEG-4Visual、ITU-T H.264或ISO/IECMPEG-4AVC,包含其可缩放视频译码(SVC)及多视图视频译码(MVC)扩展,及高效视频译码(HEVC),也被称为ITU-T H.265及ISO/IEC 23008-2,包含其可缩放译码扩展(即,可缩放高效视频译码,SHVC)及多视图扩展(即,多视图高效视频译码,MV-HEVC)。被叫作多功能视频译码(VVC)或ITU-T H.266的新视频译码标准正由联合视频专家团队(JVET)开发。

文件格式标准包含ISO基本媒体文件格式(ISOBMFF、ISO/IEC 14496-12),及从ISOBMFF导出的其它标准,包含MPEG-4文件格式(ISO/IEC 14496-15)、3GPP文件格式(3GPPTS 26.244)及用于视频编解码器的AVC及HEVC族的文件格式(ISO/IEC 14496-15)。用于ISO/IEC 14496-12及14496-15的最近的新版的草案文本可分别在http://phenix.int-evry.fr/mpeg/doc_end_user/documents/111_Geneva/wg11/w15177-v6-w15177.zip及http://wg11.sc29.org/doc_end_user/documents/115_Geneva/wg11/w16169-v2-w16169.zip处获得。

将ISOBMFF用作用于许多编解码器封装格式(例如AVC文件格式)以及用于许多多媒体容器格式(例如MPEG-4文件格式、3GPP文件格式(3GP)及DVB文件格式)的基础。

除了例如音频及视频的连续媒体之外,例如图像的静态媒体以及元数据也可存储于符合ISOBMFF的文件中。根据ISOBMFF结构化的文件可用于许多目的,包含本地媒体文件回放、远程文件的渐进式下载、用于将容器用于待流式处理的内容及其包化指令的自适应流式处理技术(例如经由HTTP的动态自适应流式处理(DASH)、HTTP实况流(HLS)等等)的区段,及记录所接收实时媒体流。

举例来说,方框为ISOBMFF中的基本语法结构,包含四字符译码方框类型、方框的字节计数及有效负载。ISOBMFF文件由一连串方框组成,且方框可含有其它方框。电影方框(“moov”)含有用于存在于文件中的连续媒体流的元数据,每一媒体流在文件中被表示为播放轨。将用于播放轨的元数据围封于播放轨方框(“trak”)中,而将播放轨的媒体内容围封于媒体数据方框(“mdat”)中或直接围封于单独文件中。用于播放轨的媒体内容由一连串样本组成,例如音频或视频存取单元。

ISOBMFF指定以下类型的播放轨:媒体播放轨,其含有基本媒体流;提示播放轨,其包含媒体传输指令或表示所接收数据包流;及计时元数据播放轨,其包括时间同步的元数据。

虽然最初针对存储而设计,但ISOBMFF已证明对于流式处理(例如对于渐进式下载或DASH)很有价值。出于流式处理目的,可使用在ISOBMFF中定义的电影片段。

每一播放轨的元数据包含样本描述条目的列表,每一条目提供在播放轨中使用的译码或封装格式及为处理所述格式所需要的初始化数据。每一样本与播放轨的样本描述条目中的一者相关联。

ISOBMFF实现通过各种机制指定样本特定元数据。样本表方框(“stbl”)内的特定方框已经标准化以响应普通需求。举例来说,同步样本方框(“stss”)用以列举播放轨的随机存取样本。样本分组机制实现根据四字符分组类型将样本映射成共享被指定为文件中的样本群组描述条目的相同性质的样本的群组。已在ISOBMFF中指定若干分组类型。

ISO/IEC 23009-1中指定的经由HTTP的动态自适应流式处理(DASH)是用于HTTP(自适应)流式处理应用的标准。DASH指定媒体呈现描述(MPD)的格式,其也被称为清单,及媒体区段格式。MPD描述可在服务器上得到的媒体且在其关注的媒体时间让DASH客户端自主地下载媒体版本。

用于基于DASH的HTTP流式处理的典型规程的一个实例包含以下步骤:

1)DASH客户端获得流式处理内容的MPD,例如电影。MPD包含关于流式处理内容的不同替代表示的信息(例如位速率、视频分辨率、帧速率、音频语言),以及HTTP资源的URL(初始化区段及媒体区段)。

2)基于MPD及DASH客户端的本地信息中的信息(例如网络带宽、解码/显示能力及用户偏好),客户端请求所要表示,一次一个区段(或其部分,例如部分区段)。

3)当所述DASH客户端检测到网络带宽改变时,所述DASH客户端请求具有较佳匹配位速率的不同表示的区段,理想地从以随机存取点开始的区段开始。

在HTTP流式处理“会话”期间,为对用户请求作出响应以反向寻道过去位置或正向寻道未来位置,所述DASH客户端请求开始于靠近用户请求的位置且理想地开始于随机存取点的区段的过去或未来区段。用户还可请求快速转发内容,其可通过请求足够用于仅解码经帧内译码视频图片或仅解码视频流的临时子集的数据来实现。

在例如DASH的HTTP流式处理中,频繁使用的操作包含HEAD、GET及部分GET。HEAD操作检索与给定统一资源定位符(URL)或统一资源名称(URN)相关联的文件的标头,但不检索与URL或URN相关联的有效负载。GET操作检索与给定URL或URN相关联的整个文件。部分GET操作接收字节范围作为输入参数且检索文件的连续数目个字节,其中字节的数目对应于所接收字节范围。因此,可提供电影片段以用于HTTP流式处理,这是因为部分GET操作可得到一或多个个别电影片段。在电影片段中,可能存在不同播放轨的若干播放轨切片。在HTTP流式处理中,媒体呈现可为客户端可存取的数据的结构化集合。客户端可请求及下载媒体数据信息以向用户呈现流式处理服务。

在使用HTTP流式处理来流式处理3GPP数据的实例中,可能存在多媒体内容的视频及/或音频数据的多个表示。如下文所阐释,不同表示可对应于不同译码特性(例如视频译码标准的不同配置文件或层级)、不同译码标准或译码标准的扩展(例如多视图及/或可缩放扩展)或不同位速率。这些表示的清单可在媒体呈现描述(MPD)数据结构中被定义。媒体呈现可对应于HTTP流式处理客户端装置可存取的数据的结构化集合。HTTP流式处理客户端装置可请求及下载媒体数据信息以向客户端装置的用户呈现流式处理服务。媒体呈现可在MPD数据结构中被描述,MPD数据结构可包含MPD的更新。

媒体呈现可含有一或多个周期的序列。每一周期可延长,直到下一周期开始为止,或在最后一个周期的情况下,直到媒体呈现结束为止。每一周期可含有针对同一媒体内容的一或多个表示。表示可为音频、视频、计时文本或其它此类数据的许多替代经编码版本中的一者。表示可因编码类型而异,例如对于视频数据,因位速率、分辨率及/或编解码器而异,及对于音频数据,因位速率的编解码器、语言及/或编解码器而异。术语表示可用以是指经编码音频或视频数据的对应于多媒体内容的特定周期且以特定方式编码的部分。

特定周期的表示可指派至由MPD中的属性(其指示表示所属的适配集)指示的群组。同一适配集中的表示通常被视为彼此的替代,这是因为客户端装置可在这些表示之间动态地且顺畅地切换,例如以执行宽带适配。举例来说,特定周期的视频数据的每一表示可指派至同一适配集,使得可选择所述表示中的任一者用于解码以呈现对应周期的多媒体内容的媒体数据(例如视频数据或音频数据)。在一些实例中,一个周期内的媒体内容可由来自群组0(如果存在)的一个表示来表示,或由来自每一非零群组的至多一个表示的组合来表示。周期的每一表示的时序数据可相对于所述周期的开始时间来表达。

表示可包含一或多个区段。每一表示可包含初始化区段,或表示的每一区段可自初始化。当存在时,初始化区段可含有用于存取表示的初始化信息。一般来说,初始化区段不含有媒体数据。区段可由标识符唯一地参考,例如统一资源定位符(URL)、统一资源名称(URN)或统一资源标识符(URI)。MPD可为每一区段提供标识符。在一些实例中,MPD还可提供呈范围属性的形式的字节范围,所述范围属性可对应于可由URL、URN或URI存取的文件内的区段的数据。

可选择不同表示以用于大致上同时检索不同类型的媒体数据。举例来说,客户端装置可选择音频表示、视频表示及计时文本表示,从所述表示检索区段。在一些实例中,客户端装置可选择特定适配集以用于执行带宽适配。即,客户端装置可选择包含视频表示的适配集、包含音频表示的适配集及/或包含计时文本的适配集。替代地,客户端装置可针对某些类型的媒体(例如视频)选择适配集,及针对其它类型的媒体(例如音频及/或计时文本)直接选择表示。

图1为绘示实施用于经由网络来流式处理媒体数据的技术的实例系统10的框图。在此实例中,系统10包含内容准备装置20、服务器装置60及客户端装置40。客户端装置40及服务器装置60通过网络74以通信方式耦合,网络74可包括互联网。在一些实例中,内容准备装置20与服务器装置60还可通过网络74或另一网络耦合,或可直接以通信方式耦合。在一些实例中,内容准备装置20及服务器装置60可包括同一装置。

在图1的实例中,内容准备装置20包括音频源22及视频源24。音频源22可包括例如产生表示将由音频编码器26编码的所捕获音频数据的电信号的麦克风。替代地,音频源22可包括存储先前记录的音频数据的存储媒体、例如计算机化合成器的音频数据产生器,或音频数据的任何其它源。视频源24可包括:视频相机,其产生将由视频编码器28编码的视频数据;存储媒体,其被编码有先前记录的视频数据;视频数据产生单元,例如计算机图形源;或视频数据的任何其它源。内容准备装置20未必在所有实例中均以通信方式耦合至服务器装置60,而可将多媒体内容存储至由服务器装置60读取的单独媒体。

原始音频及视频数据可包括模拟或数字数据。模拟数据可在由音频编码器26及/或视频编码器28编码之前被数字化。音频源22可在说话参与者正在说话时从说话参与者获得音频数据,且视频源24可同时获得所述说话参与者的视频数据。在其它实例中,音频源22可包括计算机可读存储媒体,所述计算机可读存储媒体包括所存储的音频数据,且视频源24可包括计算机可读存储媒体,所述计算机可读存储媒体包括所存储的视频数据。以此方式,本发明中所描述的技术可应用于实况、流式处理、实时音频及视频数据或所存档的、预记录的音频及视频数据。

对应于视频帧的音频帧通常为含有由音频源22捕获(或产生)的音频数据的音频帧,音频数据同时伴随含于视频帧内的由视频源24捕获(或产生)的视频数据。举例来说,当说话参与者通常通过说话而产生音频数据时,音频源22捕获音频数据,且视频源24同时(即,在音频源22正捕获音频数据时)捕获说话参与者的视频数据。因此,音频帧在时间上可对应于一或多个特定视频帧。因此,对应于视频帧的音频帧大体上对应于同时捕获到的音频数据及视频数据且音频帧及视频帧分别包括同时捕获到的音频数据及视频数据的情形。

在一些实例中,音频编码器26可编码每一经编码音频帧中表示记录经编码音频帧的音频数据的时间的时间戳,且类似地,视频编码器28可编码每一经编码视频帧中表示记录经编码视频帧的视频数据的时间的时间戳。在这些实例中,对应于视频帧的音频帧可包括:包括时间戳的音频帧,及包括相同时间戳的视频帧。内容准备装置20可包含内部时钟,音频编码器26及/或视频编码器28可根据所述内部时钟产生时间戳,或音频源22及视频源24可使用所述内部时钟以分别使音频数据及视频数据与时间戳相关联。

在一些实例中,音频源22可向音频编码器26发送对应于记录音频数据的时间的数据,且视频源24可向视频编码器28发送对应于记录视频数据的时间的数据。在一些实例中,音频编码器26可编码经编码音频数据中的序列标识符以指示经编码音频数据的相对时间排序,但未必指示记录音频数据的绝对时间,且类似地,视频编码器28还可使用序列标识符来指示经编码视频数据的相对时间排序。类似地,在一些实例中,序列标识符可用时间戳映射或以其它方式与时间戳相关。

音频编码器26通常产生经编码音频数据流,而视频编码器28产生经编码视频数据流。每一个别数据流(不论是音频还是视频)可被称作基本流。基本流为表示的单一经数字译码(可能经压缩)分量。举例来说,表示的经译码视频或音频部分可为基本流。基本流可在被封装于视频文件内之前被转换成包化基本流(PES)。在同一表示内,可使用流ID来区分属于一个基本流的PES数据包与其它者。基本流的数据的基本单元为包化基本流(PES)数据包。因此,经译码视频数据大体上对应于基本视频流。类似地,音频数据对应于一或多个相应基本流。

许多视频译码标准,例如ITU-T H.264/AVC及ITU-T H.265/高效视频译码(HEVC)标准,定义无错误位流的语法、语义及解码过程,所述无错误位流中的任一者符合某一配置文件或层级。视频译码标准典型地并不指定编码器,但编码器具有保证所产生的位流对于解码器来说是标准相容的任务。在视频译码标准的上下文中,“配置文件”对应于算法、特征或工具及施加至算法、特征或工具的约束的子集。如例如H.264标准所定义,“配置文件”为由H.264标准指定的全部位流语法的子集。“层级”对应于解码器资源消耗(例如解码器存储器及计算)的限制,所述限制与图片的分辨率、位速率及块处理速率有关。配置文件可用profile_idc(配置文件指示符)值被用信号发送,而层级可用level_idc(层级指示符)值被用信号发送。

举例来说,H.264标准认识到,在由给定配置文件的语法所强加的界限内,仍然可能需要编码器及解码器的性能有较大变化,这取决于由位流中的语法元素(例如经解码图片的指定大小)所取得的值。H.264标准进一步认识到,在许多应用中,实施能够处理特定配置文件内的语法的所有假设使用的解码器既不实际又不经济。因此,H.264标准将“层级”定义为强加于位流中的语法元素的值的约束的指定集。这些约束可为对值的简单限制。替代地,这些约束可呈对值的算术组合(例如图片宽度乘以图片高度乘以每秒解码的图片数目)的约束的形式。H.264标准进一步规定,个别实施方案对于每一所支持配置文件可支持不同层级。

符合配置文件的解码器一般支持配置文件中所定义的所有特征。举例来说,作为译码特征,B图片译码在H.264/AVC的基线配置文件中不被支持,但在H.264/AVC的其它配置文件中被支持。符合层级的解码器应能够解码不需要超出所述层级中所定义的限制的资源的任何位流。配置文件及层级的定义可对可解释性有帮助。举例来说,在视频传输期间,可针对整个传输会话协商及同意一对配置文件定义及层级定义。更特定地说,在H.264/AVC中,层级可定义对需要处理的宏块的数目、经解码图片缓冲器(DPB)大小、经译码图片缓冲器(CPB)大小、竖直运动向量范围、每两个连续MB的运动向量的最大数目及B块是否可具有小于8×8像素的子宏块分割区的限制。以此方式,解码器可确定解码器是否能够恰当地解码位流。

在图1的实例中,内容准备装置20的封装单元30接收包括来自视频编码器28的经译码视频数据的基本流,及包括来自音频编码器26的经译码音频数据的基本流。在一些实例中,视频编码器28及音频编码器26可各自包括用于从经编码数据形成PES数据包的包化器。在其它实例中,视频编码器28及音频编码器26可各自与用于从经编码数据形成PES数据包的相应包化器介接。在另外其它实例中,封装单元30可包含用于从经编码音频及视频数据形成PES数据包的包化器。

视频编码器28可以多种方式编码多媒体内容的视频数据,从而以各种位速率且按各种特性产生多媒体内容的不同表示,所述特性是例如像素分辨率、帧速率、对各种译码标准的符合性、对各种译码标准的各种配置文件及/或配置文件层级的符合性、具有一或多个视图的表示(例如对于二维或三维回放)或其它此类特性。如本发明中所使用,表示可包括音频数据、视频数据、文本数据(例如用于隐藏字幕)或其它此类数据中的一者。表示可包含例如音频基本流或视频基本流的基本流。每一PES数据包可包含stream_id,所述stream_id识别PES数据包所属的基本流。封装单元30负责将基本流汇编成各种表示的视频文件(例如区段)。

封装单元30从音频编码器26及视频编码器28接收用于表示的基本流的PES数据包,且从所述PES数据包形成对应网络抽象层(NAL)单元。经译码视频区段可经组织成NAL单元,其提供寻址例如视频电话、存储、广播或流式处理的应用程序的“网络友好”视频表示。NAL单元可被分类为视频译码层(VCL)NAL单元及非VCL NAL单元。VCL单元可含有核心压缩引擎,且可包含块、宏块及/或切片层级数据。其它NAL单元可为非VCL NAL单元。在一些实例中,一个时间实例中的经译码图片(通常呈现为初级经译码图片)可含于存取单元中,所述存取单元可包含一或多个NAL单元。

非VCL NAL单元可尤其包含参数集NAL单元及SEI NAL单元。参数集可含有序列层级标头信息(在序列参数集(SPS)中)及不频繁改变的图片层级标头信息(在图片参数集(PPS)中)。就参数集(例如PPS及SPS)来说,不频繁改变的信息不需要针对每一序列或图片被重复,因此可改进译码效率。此外,使用参数集可实现重要标头信息的带外传输,从而避免对于用于错误恢复的冗余传输的需要。在带外传输实例中,参数集NAL单元可在与其它NAL单元(例如SEI NAL单元)不同的信道上传输。

补充增强信息(SEI)可含有对于解码来自VCL NAL单元的经译码图片样本并非必要的信息,但可辅助与解码、显示、错误恢复及其它用途有关的过程。SEI消息可含于非VCLNAL单元中。SEI消息为一些标准规范的规范化部分,且因此对于标准相容的解码器实施方案并非始终是强制的。SEI消息可为序列层级SEI消息或图片层级SEI消息。某一序列层级信息可含于SEI消息中,例如SVC的实例中的可缩放性信息SEI消息,及MVC中的视图可缩放性信息SEI消息。这些实例SEI消息可传达关于例如操作点的提取及操作点的特性的信息。此外,封装单元30可形成清单文件,例如描述表示的特性的媒体呈现描述符(MPD)。封装单元30可根据可扩展标记语言(XML)来格式化MPD。

封装单元30可将用于多媒体内容的一或多个表示的数据连同清单文件(例如MPD)提供至输出接口32。输出接口32可包括网络接口或用于写入至存储媒体的接口,例如通用串行总线(USB)接口、CD或DVD写入器或刻录机、至磁性或快闪存储媒体的接口,或用于存储或传输媒体数据的其它接口。封装单元30可向输出接口32提供多媒体内容的表示中的每一者的数据,所述输出接口可经由网络传输或存储媒体向服务器装置60发送所述数据。在图1的实例中,服务器装置60包含存储各种多媒体内容64的存储媒体62,每一多媒体内容64包含相应清单文件66及一或多个表示68A至68N(表示68)。在一些实例中,输出接口32还可将数据直接发送至网络74。

在一些实例中,表示68可分成若干适配集。即,表示68的各种子集可包含相应共同特性集合,例如编解码器、配置文件及层级、分辨率、视图的数目、区段的文件格式、可识别将与待解码及呈现(例如由扬声器)的表示及/或音频数据一起显示的文本的语言或其它特性的文本类型信息、可描述适配集中的表示的场景的相机角度或真实世界相机视角的相机角度信息、描述对于特定观众的内容适合性的分级信息或类似信息。

清单文件66可包含指示对应于特定适配集的表示68的子集以及所述适配集的共同特性的数据。清单文件66还可包含表示适配集的个别表示的个别特性(例如位速率)的数据。以此方式,适配集可提供简化的网络带宽适配。适配集中的表示可使用清单文件66的适配集元素的子代元素来指示。

服务器装置60包含请求处理单元70及网络接口72。在一些实例中,服务器装置60可包含多个网络接口。此外,服务器装置60的特征中的任一者或全部可在内容传递网络的其它装置(例如路由器、网桥、代理装置、交换机或其它装置)上实施。在一些实例中,内容传递网络的中间装置可高速缓冲存储多媒体内容64的数据,且包含与服务器装置60的组件大致上一致的组件。一般来说,网络接口72经配置以经由网络74发送及接收数据。

请求处理单元70经配置以从客户端装置(例如客户端装置40)接收对存储媒体62的数据的网络请求。举例来说,请求处理单元70可实施超文本传送协议(HTTP)版本1.1,如在R.Fielding等人的RFC 2616,“超文本传送协议-HTTP/1.1”(网络工作群,IETF,1999年6月)中所描述。即,请求处理单元70可经配置以接收HTTP GET或部分GET请求,且响应于所述请求而提供多媒体内容64的数据。请求可指定表示68中的一者的区段,例如使用区段的URL。在一些实例中,所述请求还可指定区段的一或多个字节范围,因此包括部分GET请求。请求处理单元70可经进一步配置以服务HTTP HEAD请求以提供表示68中的一者的区段的标头数据。在任何情况下,请求处理单元70可经配置以处理所述请求以将请求的数据提供至例如客户端装置40的请求装置。

另外或替代地,请求处理单元70可经配置以经由例如eMBMS的广播或多播协议而传递媒体数据。内容准备装置20可用与如所描述大致上相同的方式创建DASH区段及/或子区段,但服务器装置60可使用eMBMS或另一广播或多播网络传送协议来传递这些区段或子区段。举例来说,请求处理单元70可经配置以从客户端装置40接收多播群组加入请求。即,服务器装置60可对与特定媒体内容(例如实况事件的广播)相关联的客户端装置(包含客户端装置40)通告与多播群组相关联的互联网协议(IP)地址。客户端装置40又可提交加入多播群组的请求。此请求可遍及网络74传播,例如经由构成网络74的路由器,使得使所述路由器将去往与多播群组相关联的IP地址的业务导引至订阅的客户端装置,例如客户端装置40。

如图1的实例中所绘示,多媒体内容64包含清单文件66,清单文件66可对应于媒体呈现描述(MPD)。清单文件66可含有不同替代表示68(例如具有不同质量的视频服务)的描述,且所述描述可包含例如编解码器信息、配置文件值、层级值、位速率,及表示68的其它描述性特性。客户端装置40可检索媒体呈现的MPD以确定如何存取表示68的区段。

具体地说,检索单元52可检索客户端装置40的配置数据(未展示)以确定视频解码器48的解码能力及视频输出44的显现能力。所述配置数据还可包含由客户端装置40的用户选择的任何或所有语言偏好、对应于由客户端装置40的用户设定的深度偏好的一或多个相机视角及/或由客户端装置40的用户选择的分级偏好。检索单元52可包括例如经配置以提交HTTP GET及部分GET请求的网页浏览器或媒体客户端。检索单元52可对应于由客户端装置40的一或多个处理器或处理单元(未展示)执行的软件指令。在一些实例中,关于检索单元52所描述的所有或部分功能性可以硬件或硬件、软件及/或固件的组合来实施,其中可提供必需的硬件以执行用于软件或固件的指令。

检索单元52可比较客户端装置40的解码及显现能力与由清单文件66的信息指示的表示68的特性。检索单元52可最初检索清单文件66的至少一部分以确定表示68的特性。举例来说,检索单元52可请求描述一或多个适配集的特性的清单文件66的部分。检索单元52可选择表示68中具有可由客户端装置40的译码及显现能力满足的特性的子集(例如适配集)。检索单元52可接着确定用于适配集中的表示的位速率,确定网络带宽的当前可用量,及从表示中具有可由网络带宽满足的位速率的一者检索区段。

一般来说,较高位速率表示可产生较高质量视频回放,而较低位速率表示可在可用网络带宽减少时提供足够质量视频回放。因此,当可用网络带宽相对高时,检索单元52可从相对高位速率表示检索数据,而当可用网络带宽低时,检索单元52可从相对低位速率表示检索数据。以此方式,客户端装置40可经由网络74流式处理多媒体数据,同时还适应网络74的改变的网络带宽可用性。

另外或替代地,检索单元52可经配置以根据例如eMBMS或IP多播的广播或多播网络协议来接收数据。在这些实例中,检索单元52可提交加入与特定媒体内容相关联的多播网络群组的请求。在加入多播群组之后,检索单元52可接收多播群组的数据,而无发出至服务器装置60或内容准备装置20的进一步请求。检索单元52可提交当不再需要多播群组的数据时离开多播群组的请求,例如以停止回放或将信道改变至不同多播群组。

网络接口54可接收及提供选定表示的区段的数据至检索单元52,检索单元52又可将所述区段提供至解封装单元50。解封装单元50可将视频文件的元素解封装成构成的PES流,解包化所述PES流以检索经编码数据,且将经编码数据发送至音频解码器46或视频解码器48,这取决于经编码数据为音频流还是视频流的部分,例如如由所述流的PES数据包标头所指示。音频解码器46解码经编码音频数据,且将经解码音频数据发送至音频输出42,而视频解码器48解码经编码视频数据,且将可包含流的多个视图的经解码视频数据发送至视频输出44。

视频编码器28、视频解码器48、音频编码器26、音频解码器46、封装单元30、检索单元52及解封装单元50各自可被实施为适用的多种合适处理电路系统中的任一者,合适处理电路系统是例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑电路系统、软件、硬件、固件或其任何组合。视频编码器28及视频解码器48中的每一者可包含于一或多个编码器或解码器中,编码器或解码器中的任一者可经集成为组合式视频编码器/解码器(CODEC)的部分。同样地,音频编码器26及音频解码器46中的每一者可包含于一或多个编码器或解码器中,编码器或解码器中的任一者可经集成为组合式CODEC的部分。包含视频编码器28、视频解码器48、音频编码器26、音频解码器46、封装单元30、检索单元52及/或解封装单元50的设备可包括集成电路、微处理器及/或无线通信装置(例如蜂窝电话)。

客户端装置40、服务器装置60及/或内容准备装置20可经配置以根据本发明的技术操作。出于实例的目的,本发明描述关于客户端装置40及服务器装置60的这些技术。然而,应理解,代替服务器装置60(或除了服务器装置60之外),内容准备装置20可经配置以执行这些技术。

如以下将更详细地所描述,内容准备装置20可经配置以:接收鱼眼视频数据;产生包含鱼眼视频数据的文件,文件包含语法结构,语法结构包含指定鱼眼视频数据的属性的多个语法元素,其中多个语法元素包含指示鱼眼视频类型信息的一或多个位;及输出文件。类似地,客户端装置40可经配置以:处理包含鱼眼视频数据的文件,文件包含语法结构,语法结构包含指定鱼眼视频数据的属性的多个语法元素,其中多个语法元素包含指示鱼眼视频类型信息的一或多个位;基于语法结构的一或多个位确定用于鱼眼视频数据的鱼眼视频类型信息;及基于确定输出鱼眼视频数据以供显现。

封装单元30可形成NAL单元,所述NAL单元包括识别NAL所属的程序的标头,以及有效负载,例如音频数据、视频数据或描述NAL单元对应于的输送或程序流的数据。举例来说,在H.264/AVC中,NAL单元包含1字节标头及变化大小的有效负载。在其有效负载中包含视频数据的NAL单元可包括各种粒度等级的视频数据。举例来说,NAL单元可包括视频数据的块、多个块、视频数据的切片或视频数据的全部图片。封装单元30可从视频编码器28接收呈基本流的PES数据包的形式的经编码视频数据。封装单元30可使每一基本流与对应程序相关联。

封装单元30还可汇编来自多个NAL单元的存取单元。一般来说,存取单元可包括用于表示视频数据的帧以及对应于所述帧的音频数据(当此音频数据可用时)的一或多个NAL单元。存取单元通常包含用于一个输出时间实例的所有NAL单元,例如用于一个时间实例的所有音频及视频数据。举例来说,如果每一视图具有20帧每秒(fps)的帧速率,那么每一时间实例可对应于0.05秒的时间间隔。在此时间间隔期间,可同时显现同一存取单元(同一时间实例)的所有视图的特定帧。在一个实例中,存取单元可包括一个时间实例中的经译码图片,其可呈现为初级经译码图片。

因此,存取单元可包括共同时间实例的所有音频及视频帧,例如对应于时间X的所有视图。本发明也将特定视图的经编码图片称作“视图分量”。即,视图分量可包括在特定时间用于特定视图的经编码图片(或帧)。因此,存取单元可被定义为包括共同时间实例的所有视图分量。存取单元的解码次序未必与输出或显示次序相同。

媒体呈现可包含媒体呈现描述(MPD),所述媒体呈现描述可含有不同替代表示(例如具有不同质量的视频服务)的描述,且所述描述可包含例如编解码器信息、配置文件值及层级值。MPD为清单文件(例如清单文件66)的一个实例。客户端装置40可检索媒体呈现的MPD以确定如何存取各种呈现的电影片段。电影片段可位于视频文件的电影片段方框(moof方框)中。

清单文件66(其可包括例如MPD)可通告表示68的区段的可用性。即,MPD可包含指示表示68中的一者的第一片段变得可用的挂钟时间的信息,以及指示表示68内的区段的持续时间的信息。以此方式,客户端装置40的检索单元52可基于在特定区段之前的区段的开始时间以及持续时间来确定每一区段可用的时间。

在封装单元30已基于所接收数据将NAL单元及/或存取单元汇编成视频文件之后,封装单元30将视频文件传至输出接口32以用于输出。在一些实例中,封装单元30可在本地存储视频文件或经由输出接口32将所述视频文件发送至远程服务器,而非将视频文件直接发送至客户端装置40。输出接口32可包括例如发射器、收发器、用于将数据写入至计算机可读媒体(例如光盘驱动器、磁性媒体驱动器(例如软盘驱动器))的装置、通用串行总线(USB)端口、网络接口或其它输出接口。输出接口32将视频文件输出至计算机可读媒体,例如传输信号、磁性媒体、光学媒体、存储器、闪存驱动器或其它计算机可读媒体。

网络接口54可经由网络74接收NAL单元或存取单元并经由检索单元52将所述NAL单元或存取单元提供至解封装单元50。解封装单元50可将视频文件的元素解封装至构成的PES流,解包化所述PES流以检索经编码数据,且将经编码数据发送至音频解码器46或视频解码器48,这取决于经编码数据为音频流还是视频流的部分,例如如由所述流的PES数据包标头所指示。音频解码器46解码经编码音频数据,且将经解码音频数据发送至音频输出42,而视频解码器48解码经编码视频数据,且将可包含流的多个视图的经解码视频数据发送至视频输出44。

图2为更详细地绘示图1的检索单元52的组件的实例集合的框图。在此实例中,检索单元52包含eMBMS中间件单元100、DASH客户端110及媒体应用程序112。

在此实例中,eMBMS中间件单元100进一步包含eMBMS接收单元106、高速缓冲存储器104及代理服务器102。在此实例中,eMBMS接收单元106经配置以经由eMBMS接收数据,例如根据单向输送文件传递(FLUTE),其在T.Paila等人的“FLUTE—单向输送文件传递”(网络工作群,RFC 6726,2012年11月,可在http://tools.ietf.org/html/rfc6726处获得)中被描述。即,eMBMS接收单元106可经由来自例如服务器装置60的广播接收文件,服务器装置60可充当广播多播服务中心(BM-SC)。

当eMBMS中间件单元100接收用于文件的数据时,eMBMS中间件单元100可将所接收数据存储于高速缓冲存储器104中。高速缓冲存储器104可包括计算机可读存储媒体,例如快闪存储器、硬盘、RAM或任一其它合适存储媒体。

代理服务器102可充当用于DASH客户端110的服务器。举例来说,代理服务器102可将MPD文件或其它清单文件提供至DASH客户端110。代理服务器102可通告用于MPD文件中的区段的可用性时间,以及可检索区段的超链接。这些超链接可包含对应于客户端装置40的本地主机地址前缀(例如用于IPv4的127.0.0.1)。以此方式,DASH客户端110可使用HTTPGET或部分GET请求而向代理服务器102请求区段。举例来说,对于可从链接http://127.0.0.1/rep1/seg3获得的区段,DASH客户端110可构造包含对http://127.0.0.1/rep1/seg3的请求的HTTP GET请求,且将所述请求提交至代理服务器102。代理服务器102可从高速缓冲存储器104检索所请求的数据且响应于这些请求而将数据提供至DASH客户端110。

根据本发明的技术,封装单元30可用信号发送且检索单元52可接收与使用受限制方案存储的任何或所有视频数据有关的重要视频信息、高动态范围/广色域(HDR/WCG)视频、VR/全向/360视频、帧装填的视频及具有显示定向改变的视频,使得重要视频信息可方便地由应用程序客户端(例如DASH客户端)存取,以作出内容拒绝/选择/接受/请求决策。如上所指出,重要视频信息可包含可用于内容选择(例如由检索单元52进行的对视频播放轨或其部分的选择以供消耗)的信息。

图3为绘示实例多媒体内容120的元素的概念图。多媒体内容120可对应于多媒体内容64(图1),或存储于存储媒体62中的另一多媒体内容。在图3的实例中,多媒体内容120包含媒体呈现描述(MPD)122及多个表示124A至124N(表示124)。表示124A包含任选标头数据126及区段128A至128N(区段128),而表示124N包含任选标头数据130及区段132A至132N(区段132)。出于方便起见,使用字母N来标明表示124中的每一者中的最后一个电影片段。在一些实例中,表示124之间可存在不同数目的电影片段。

MPD 122可包括与表示124分开的数据结构。MPD 122可对应于图1的清单文件66。同样地,表示124可对应于图1的表示68。一般来说,MPD 122可包含大体上描述表示124的特性的数据,例如译码及显现特性、适配集、MPD 122对应的配置文件、文本类型信息、相机角度信息、等级信息、特技模式信息(例如指示包含时间子序列的表示的信息)及/或用于检索远程周期(例如用于在回放期间至媒体内容内的目标化通告***)的信息。

标头数据126当存在时可描述区段128的特性,例如随机存取点(RAP,也被称作流存取点(SAP))的时间位置、区段128中的哪一者包含随机存取点、至区段128内的随机存取点的字节偏移、区段128的统一资源定位符(URL)或区段128的其它方面。标头数据130当存在时可描述用于区段132的类似特性。另外或替代地,这些特性可充分包含于MPD 122内。

区段128、132包含一或多个经译码视频样本,其中的每一者可包含视频数据的帧或切片。区段128的经译码视频样本中的每一者可具有类似特性,例如高度、宽度及带宽要求。这些特性可由MPD 122的数据描述,但此数据在图3的实例中未绘示。MPD 122可包含如由3GPP规范所描述的特性,并添加了本发明中所描述的用信号发送的信息中的任何者或全部。

区段128、132中的每一者可与唯一统一资源定位符(URL)相关联。因此,区段128、132中的每一者可使用流式处理网络协议(例如DASH)来独立地检索。以此方式,例如客户端装置40的目的地装置可使用HTTP GET请求来检索区段128或132。在一些实例中,客户端装置40可使用HTTP部分GET请求以检索区段128或132的特定字节范围。

图4为绘示实例视频文件150的元素的框图,所述实例视频文件可对应于表示的区段,例如图3的区段114、124中的一者。区段128、132中的每一者可包含大致上符合图4的实例中所绘示的数据的布置的数据。视频文件150可被称为封装区段。如上所述,根据ISO基本媒体文件格式及其扩展的视频文件将数据存储于一系列对象(被称作“方框”)中。在图4的实例中,视频文件150包含文件类型(FTYP)方框152、电影(MOOV)方框154、区段索引(sidx)方框162、电影片段(MOOF)方框164及电影片段随机存取(MFRA)方框166。虽然图4表示视频文件的实例,但应理解,根据ISO基本媒体文件格式及其扩展,其它媒体文件可包含类似于视频文件150的数据结构化的其它类型的媒体数据(例如音频数据、计时文本数据等等)。

文件类型(FTYP)方框152大体上描述用于视频文件150的文件类型。文件类型方框152可包含识别描述用于视频文件150的最佳用途的规范的数据。文件类型方框152可替代地放置于MOOV方框154、电影片段方框164及/或MFRA方框166之前。

在一些实例中,例如视频文件150的区段可包含在FTYP方框152之前的MPD更新方框(未展示)。MPD更新方框可包含指示将更新对应于包含视频文件150的表示的MPD的信息,连同用于更新所述MPD的信息。举例来说,MPD更新方框可提供用于待用以更新MPD的资源的URI或URL。作为另一实例,MPD更新方框可包含用于更新MPD的数据。在一些实例中,MPD更新方框可紧跟在视频文件150的区段类型(STYP)方框(未展示)之后,其中STYP方框可定义视频文件150的区段类型。

在图4的实例中,MOOV方框154包含电影标头(MVHD)方框156、视场(FOV)方框157、播放轨(TRAK)方框158及一或多个电影扩展(MVEX)方框160。一般来说,MVHD方框156可描述视频文件150的一般特性。举例来说,MVHD方框156可包含描述以下各者的数据:最初创建视频文件150的时间、最后修改视频文件150的时间、用于视频文件150的时间刻度、用于视频文件150的回放持续时间或大体上描述视频文件150的其它数据。

TRAK方框158可包含用于视频文件150的播放轨的数据。TRAK方框158可包含描述对应于TRAK方块158的播放轨的特性的播放轨标头(TKHD)方框。在一些实例中,TRAK方框158可包含经译码视频图片,而在其它实例中,所述播放轨的经译码视频图片可包含于电影片段164中,电影片段可由TRAK方框158及/或sidx方框162的数据参考。

在一些实例中,视频文件150可包含一个以上播放轨。因此,MOOV方框154可包含数目等于视频文件150中的播放轨的数目的TRAK方框。TRAK方框158可描述视频文件150的对应播放轨的特性。举例来说,TRAK方框158可描述用于对应播放轨的时间及/或空间信息。当封装单元30(图3)包含视频文件(例如视频文件150)中的参数集播放轨时,类似于MOOV方框154的TRAK方框158的TRAK方框可描述参数集播放轨的特性。封装单元30可在描述参数集播放轨的TRAK方框内用信号发送序列层级SEI消息存在于参数集播放轨中。{TRAK方框158还可包含如本发明中所描述的样本表方框(stbl)。此样本表可进一步包含同步样本方框(stss)}

MVEX方框160可描述对应电影片段164的特性,例如用信号发送视频文件150除了包含于MOOV方框154(如果存在)内的视频数据之外还包含电影片段164。在流式处理视频数据的情况下,经译码视频图片可包含于电影片段164中,而非在MOOV方框154中。因此,所有经译码视频样本可包含于电影片段164中,而非在MOOV方框154中。

MOOV方框154可包含数目等于视频文件150中的电影片段164的数目的MVEX方框160。MVEX方框160中的每一者可描述电影片段164中的对应者的特性。举例来说,每一MVEX方框可包含描述用于电影片段164中的所述对应者的时距的电影扩展标头方框(MEHD)方框。

如上文所指出,封装单元30可在视频样本中存储不包含实际经译码视频数据的序列数据集。视频样本可大体上对应于存取单元,其为在特定时间实例的经译码图片的表示。在AVC的情况下,经译码图片包含一或多个VCL NAL单元(其含有构造存取单元的所有像素的信息),及其它相关联非VCL NAL单元(例如SEI消息)。因此,封装单元30可在电影片段164中的一者中包含序列数据集,其可包含序列层级SEI消息。封装单元30可进一步将序列数据集及/或序列层级SEI消息的存在用信号发送为存在于MVEX方框160中的对应于电影片段164中的一者内的电影片段164中的一者中。

SIDX方框162为视频文件150的任选元素。即,符合3GPP文件格式的视频文件或其它此类文件格式未必包含SIDX方框162。根据3GPP文件格式的实例,SIDX方框可用以识别区段(例如视频文件150内含有的区段)的子区段。3GPP文件格式将子区段定义为“具有一或多个对应媒体数据方框及含有由电影片段方框参考的数据的媒体数据方框的一或多个连续电影片段方框的自含式集合,必须跟在电影片段方框之后,并在含有关于同一播放轨的信息的下一电影片段方框之前”。3GPP文件格式还指示SIDX方框“含有对由方框记录的(子)区段的子区段的参考的序列。所参考的子区段在呈现时间上相邻。类似地,由区段索引方框参考的字节始终在区段内相邻。所参考大小给出所参考材料中的字节的数目的计数”。

SIDX方框162大体上表示提供视频文件150中包含的区段的一或多个子区段的信息。举例来说,此类信息可包含子区段开始及/或结束的回放时间、子区段的字节偏移、所述子区段是否包含(例如开始于)流存取点(SAP)、SAP的类型(例如SAP为瞬时解码器刷新(IDR)图片、清洁随机存取(CRA)图片、断链存取(BLA)图片等等)、子区段中的SAP(就回放时间及/或字节偏移来说)的位置等等。

电影片段164可包含一或多个经译码视频图片。在一些实例中,电影片段164可包含一或多个图片群组(GOP),其中的每一者可包含许多经译码视频图片,例如帧或图片。此外,如上文所描述,在一些实例中,电影片段164可包含序列数据集。电影片段164中的每一者可包含电影片段标头方框(MFHD,图4中未展示)。MFHD方框可描述对应电影片段的特性,例如电影片段的序列号。电影片段164可按序列号次序包含于视频文件150中。

MFRA方框166可描述在视频文件150的电影片段164内的随机存取点。这可辅助执行特技模式,例如执行对在由视频文件150封装的区段内的特定时间位置(即,回放时间)的寻道。在一些实例中,MFRA方框166通常是任选的,且不需要包含于视频文件中。同样地,例如客户端装置40的客户端装置未必需要参考MFRA方框166来正确地解码及显示视频文件150的视频数据。MFRA方框166可包含数目等于视频文件150的播放轨的数目或在一些实例中等于视频文件150的媒体播放轨(例如非提示播放轨)的数目的播放轨片段随机存取(TFRA)方框(未展示)。

在一些实例中,电影片段164可包含一或多个流存取点(SAP),例如IDR图片。同样地,MFRA方框166可提供对SAP在视频文件150内的位置的指示。因此,视频文件150的时间子序列可由视频文件150的SAP形成。所述时间子序列还可包含其它图片,例如取决于SAP的P帧及/或B帧。时间子序列的帧及/或切片可布置于区段内,使得时间子序列的取决于子序列的其它帧/切片的帧/切片可被恰当地解码。举例来说,在数据的层次布置中,用于其它数据的预测的数据也可包含于时间子序列中。

根据本发明的技术,MOOV方框154可包含指示旋转及/或翻转中的任一者或两者是否应用于电影片段164中包含的视频数据的一或多个方框(例如SchemeInformationBox及/或RestrictedSchemeInfoBox)。另外或替代地,MOOV方框154可含有HDR/WCG视频的重要信息。

虚拟实境(VR)为虚拟地存在于通过显现自然及/或合成图像及与沉浸用户的移动相关的声音而创建的非物理世界中的能力,其允许与所述世界交互。随着在显现装置(例如头戴式显示器(HMD))及VR视频(通常也被称作360度视频或全向视频)创建方面取得的最新进展,可提供显著的体验质量。VR应用包含游戏、训练、教育、运动视频、在线购物、成人娱乐等等。

VR系统的一个实例包含以下组件及步骤:

1)相机套件,其典型地由指向不同方向且理想地共同地覆盖所述相机套件周围的所有视点的多个个别相机组成。

2)图像拼接,其中由多个个别相机拍摄的视频图片在时域中经同步并在空间域中拼接,以形成球体视频,但映射至矩形格式,例如等矩形(如世界地图)或立方体映射。

3)映射的矩形格式中的视频使用视频编解码器被编码/压缩,例如H.265/HEVC或H.264/AVC或其它视频译码标准。

4)经压缩视频位流可以媒体格式存储及/或封装,且经由网络传输(可能仅传输仅覆盖正由用户看到的区的子集)至接收器。

5)接收器接收视频位流或其部分,其可能以一格式封装,且发送经解码视频信号或其部分至显现装置。

6)显现装置可例如为HMD,其可跟踪头部移动及甚至眼眼移动时刻,且显现视频的对应部分,使得将沉浸式体验传递给用户。

在本文献的写作之时,全向媒体格式(OMAF)正由MPEG开发以定义实现全向媒体应用的媒体格式,其聚焦于具有360°视频及相关联音频的VR应用。其首先指定以下列表:可用于将球体或360°视频转换成二维矩形视频的投影方法,接着如何使用ISO基本媒体文件格式(ISOBMFF)存储全向媒体及相关联元数据,及如何使用经由HTTP的动态自适应流式处理(DASH)封装、用信号发送及流式处理全向媒体,及最终哪些视频及音频编解码器以及媒体译码配置可用于压缩及回放全向媒体信号。

OMAF将变为ISO/IEC 23090-2,且在此写作之时,最新草案规范可在以下找到:http://wg11.sc29.org/doc_end_user/documents/119_Torino/wg11/m40849-v1-m40849_OMAF_text_Berlin_output.zip。

本发明中所描述的实例技术与用于全向视频或图像数据的高阶信号发送有关。当用某些装置(例如头戴式显示器及头戴式耳机)消耗全向媒体内容时,媒体的仅仅对应于用户的查看定向的部分被显现,如同在捕获媒体之处及捕获媒体之时用户在现场(例如相机所在之处)。全向媒体应用的最流行形式中的一者为全向视频,也被称为360度视频。全向视频典型地由覆盖高达360度场景的多个相机捕获,例如如上所述。

一般来说,全向视频由一连串全向图像形成。因此,关于产生全向图像内容描述本发明中所描述的实例技术。接着,对于全向视频内容,这些全向图像可经依序显示。在一些实例中,用户可需要拍摄仅仅全向图像(例如作为用户的整个360度环境的快照),且在本发明中所描述的技术也适用于这些实例状况。

全向视频可为立体或单像的。当视频为立体的时,向每一眼睛展示不同图像,使得查看者可感知深度。因而,典型地使用面对各自方向的两个相机捕获立体视频。当视频为单像的时,向两只眼睛展示同一图像。

视频数据可被视为鱼眼视频数据,其中使用一或多个鱼眼镜头捕获视频数据(或被产生为如同使用一或多个鱼眼镜头捕获一样)。鱼眼镜头可为产生意图创建广全景或半球形图像的强视觉失真的超广角镜头。

本发明的技术可适用于捕获的视频内容、VR,及通常适用于视频及图像显示。技术可用于移动装置中,但所述技术不应被视为限于移动应用。一般来说,所述技术可用于虚拟实境应用、视频游戏应用,或需要360度球体视频/图像环境的其它应用。

在一些实例中,全向图像内容可用包含两个鱼眼镜头的相机装置捕获。在两个鱼眼镜头定位于相机装置的相对侧以捕获图像内容的球体的相对部分的情况下,图像内容可为单像且覆盖360度视频的完整球体。类似地,在两个鱼眼镜头定位于相机装置的同一侧以捕获图像内容的球体的同一部分的情况下,图像内容可为立体且覆盖360度视频的球体的一半。由相机产生的图像为圆形图像(例如一个图像帧包含两个圆形图像)。

图5A及5B为绘示根据本发明中所描述的一或多个实例技术的用于捕获全向图像内容的实例装置的框图。如图5A中所绘示,计算装置210A为包含位于计算装置210A的相对侧上的鱼眼镜头212A及鱼眼镜头212B以捕获覆盖全部球体的单像图像内容(例如完整360度视频内容)的视频捕获装置。如图5B中所绘示,计算装置210B为包含位于计算装置210B的同一侧上的鱼眼镜头212C及鱼眼镜头212D以捕获覆盖球体的大约一半的立体图像内容的视频捕获装置。计算装置210A或计算装置210B可为图1的内容准备装置20的视频源24的部分。

如上文所描述,相机装置包含多个鱼眼镜头。一些实例相机装置包含两个鱼眼镜头,但所述实例技术不限于两个鱼眼镜头。一个实例相机装置可包含16个镜头(例如用于拍摄3D VR内容的16相机阵列)。另一实例相机装置可包含八个镜头,每一镜头具有195度视角(例如每一镜头捕获360度中的195度的图像内容)。其它实例相机装置包含三个或四个镜头。一些实例可包含捕获360度图像内容的360度镜头。

本发明中所描述的实例技术大体上关于捕获全向图像/视频的两个鱼眼镜头来描述。然而,实例技术不受如此限制。实例技术可适用于包含多个(例如两个或多于两个)镜头(即使所述镜头并非鱼眼镜头)及多个鱼眼镜头的实例相机装置。举例来说,实例技术描述拼接捕获的图像的方式,且所述技术可适用于存在来自多个镜头(作为一实例,所述镜头可为鱼眼镜头)的多个捕获的图像的实例。虽然实例技术关于两个鱼眼镜头而描述,但实例技术不受如此限制,且适用于用于捕获全向图像/视频的各种相机类型。

OMAF中支持鱼眼VR/360视频。在此写作之时,最新草案OMAF规范指定鱼眼VR/360视频格式,其中替代应用投影及任选地逐个区域包装以在编码之前产生2D视频,对于每一存取单元,来自捕获相机的圆形图像直接嵌入于2D图片中,例如如图6中所展示。图6展示每视频图片多个鱼眼图像的实例。如图6中所展示,第一鱼眼图像202及第二鱼眼图像204嵌入于2D图片200中。

此鱼眼视频接着可经编码且位流可封装于ISOBMFF文件中且可经进一步封装为DASH表示。此外,鱼眼视频的性质(包含指示鱼眼视频的特性的参数)可经用信号发送并用以在客户端侧处正确地显现360视频。鱼眼VR/360视频方法的主要优点中的一者在于,其由移动终端支持低成本用户产生的VR内容。

用于受限制视频样本条目类型‘resv’的鱼眼全向视频方案的使用指示经解码图片为鱼眼视频图片。鱼眼全向视频方案的使用由SchemeTypeBox内等于‘fodv’(鱼眼全向视频)的scheme_type语法元素的值指示。用含于SchemeInformationBox内的FisheyeOmnidirectionalVideoBox指示鱼眼视频的格式,SchemeInformationBox包含于样本条目中所包含的RestrictedSchemeInfoBox中。在一些实例中,当方案类型为‘fodv’时,一个且仅一个FisheyeOmnidirectionalVideoBox应存在于SchemeInformationBox中。当FisheyeOmnidirectionalVideoBox存在于SchemeInformationBox中时,StereoVideoBox及RegionWisePackingBox不应存在于同一SchemeInformationBox中。如OMAF DIS的条款6中指定的FisheyeOmnidirectionalVideoBox含有FisheyeOmnidirectionalVideoInfo()语法结构,FisheyeOmnidirectionalVideoInfo()语法结构含有鱼眼视频性质参数。

FisheyeOmnidirectionalVideoInfo()语法结构的语法及语义在最新草案OMAF规范的条款6中被指定。语法如下:

Figure BDA0002342027400000241

Figure BDA0002342027400000251

OMAF DIS的当前草案中的FisheyeOmnidirectionalVideoInfo()语法结构的语义如下。

num_circular_images指定此方框适用于的每一样本的经译码图片中的圆形图像的数目。典型地,所述值等于2,但其它非零值也是可能的。

image_center_x为定点16.16值,其指定在亮度样本中此方框适用于的每一样本的经译码图片中的圆形图像的中心的水平坐标。

image_center_y为定点16.16值,其指定在亮度样本中此方框适用于的每一样本的经译码图片中的圆形图像的中心的竖直坐标。

full_radius为定点16.16值,其指定在亮度样本中从圆形图像的中心至完整圆图像的边缘的半径。

picture_radius为定点16.16值,其指定在亮度样本中从圆形图像的中心至图像边界的最靠近边缘的半径。圆形鱼眼图像可由相机图片裁剪。因此,此值指示其中像素可使用的圆的半径。

scene_radius为定点16.16值,其指定在亮度样本中从圆形图像的中心至图像中的区的最靠近边缘的半径,其中保证不存在来自相机主体自身的障碍且在围封区内不存在镜头失真过大而不能用于拼接。

image_rotation为定点16.16值,其指定圆形图像的以度计的旋转量。图像可被旋转图像+/-90度,或+/-180度,或任何其它值。

image_flip指定图像是否已翻转及图像如何翻转,及因此反向翻转操作需要应用。值0指示图像尚未翻转。值1指示图像已竖直地翻转。值2指示图像已水平地翻转。值3指示图像已竖直地及水平地翻转。

image_scale_axis_angle、image_scale_x及image_scale_y为三个定点16.16值,其指定图像是否已沿着轴线缩放及图像如何沿着轴线缩放。轴线由如由image_scale_axis_angle以度计的值指示的单一角度定义。0度的角度意味着水平向量为极佳水平且竖直向量为极佳竖直。image_scale_x及image_scale_y的值指示分别平行于及正交于轴线的方向的缩放比率。

field_of_view为定点16.16值,其指定鱼眼镜头的以度计的视场。用于半球形鱼眼镜头的典型值为180.0度。

num_angle_for_displaying_fov指定角的数目。根据num_angle_for_displaying_fov的值,displayed_fov及overlapped_fov的多个值是以相等间隔定义,所述间隔在12点钟处开始并顺时针走。

displayed_fov指定显示的视场及每一鱼眼相机图像的对应图像区。overlapped_fov指定包含就多个圆形图像之间的视场来说重叠区域的区域,重叠区域通常用于混合。displayed_fov及overlapped_fov的值小于或等于field_of_view的值。

注意:field_of_view的值是由每一鱼眼镜头的物理性质确定,而displayed_fov及overlapped_fov的值是由多个鱼眼镜头的配置确定。举例来说,当num_circular_images的值等于2且两个镜头对称地定位时,displayed_fov及overlapped_fov的值可分别默认地设定为180及190。然而,值可取决于镜头的配置及内容的特性而改变。举例来说,如果具有displayed_fov值(左侧相机=170且右侧相机=190)及overlapped_fov值(左侧相机=185且右侧=190)的拼接质量比具有默认值(180及190)的质量好,或如果相机的物理配置不对称,那么可取不等的displayed_fov与overlapped_fov值。另外,就多个(N>2)鱼眼图像而论,单一displayed_fov值不能指定每一鱼眼图像的精确区。如图6中所展示,displayed_fov(602)根据方向变化。为操控多个(N>2)鱼眼图像,引入num_angle_for_displaying_fov。举例来说,如果此值等于12,那么鱼眼图像分成12个扇区,其中每一扇区角为30度。

camera_center_yaw指定点的以2-16度为单位的偏航角,每一样本的经译码图片中的圆形图像的中心像素经投影至球体表面。这为指定相对于全局坐标轴的相机外部参数的3个角中的第一者。camera_center_yaw应在-180*216至180*216-1的范围中(包含端点)。

camera_center_pitch指定点的以2-16度为单位的俯仰角,每一样本的经译码图片中的圆形图像的中心像素经投影至球体表面。camera_center_pitch应在-90*216至90*216范围中(包含端点)。

camera_center_roll指定点的以2-16度为单位的横摇角,每一样本的经译码图片中的圆形图像的中心像素经投影至球体表面。camera_center_roll应在-180*216至180*216-1的范围中(包含端点)。

camera_center_offset_x、camera_center_offset_y及camera_center_offset_z为定点8.24值,其指示从单位球体的原点的XYZ偏差值,经译码图片中的圆形图像中的像素投影至所述单位球体上。camera_center_offset_x、camera_center_offset_y及camera_center_offset_z应在-1.0至1.0的范围中(包含端点)。

num_polynomial_coefficients为整数,其指定所存在的多项式系数的数目。多项式系数polynomial_coefficient_K的列表为定点8.24值,其表示多项式中的指定从鱼眼空间至无失真平面图像的变换的系数。

num_local_fov_region指定具有不同视场的局部适配区域的数目。

start_radius、end_radius、start_angle及end_angle指定局部适配/翘曲的区域以改变用于在本地显示的实际视场。start_radius及end_radius为定点16.16值,其指定最小及最大半径值。start_angle及end_angle指定最小及最大角值,其在12点钟处起始且以2-16度为单位顺时针增大。start_angle及end_angle应在-180*216至180*216-1的范围中(包含端点)。

radius_delta为定点16.16值,其指定增量半径值以用于表示每一半径的不同视场。

angle_delta指定以2-16度为单位的增量角值,以用于表示每一角的不同视场。

local_fov_weight为8.24定点格式,其指定由start_radius、end_radius、start_angle、end_angle、角度索引i及半径索引j指定的位置的视场的加权值。local_fov_weight的正值指定视场的扩大,而负值指定视场的收缩。

num_polynomial_coefficeients_lsc应为镜头阴影曲线的多项式概算的阶数。

polynomial_coefficient_K_lsc_R、polynomial_coefficient_K_lsc_G及polynomial_coefficient_K_lsc_B为8.24定点格式,其指定LSC参数以补偿沿着径向方向减少颜色的阴影伪影。倍增至原始颜色的补偿权重(w)是使用多项式表达式近似为从图像中心的半径的曲线函数。其被公式化为

Figure BDA0002342027400000281

其中p指示等于polynomial_coefficient_K_lsc_R、polynomial_coefficient_K_lsc_G或polynomial_coefficient_K_lsc_B的系数值,且r指示在由full_radius归一化之后的半径值。N等于num_polynomial_coefficeients_lsc的值。

num_deadzones为整数,其指定此方框适用于的每一样本的经译码图片中的死区的数目。

deadzone_left_horizontal_offset、deadzone_top_vertical_offset、deadzone_width及deadzone_height为整数值,其指定像素不可用的死区矩形区的位置及大小。deadzone_left_horizontal_offset及deadzone_top_vertical_offset分别指定在亮度样本中经译码图片中的死区的左上方拐角的水平及竖直坐标。deadzone_width及deadzone_height分别指定亮度样本中的死区的宽度及高度。为节省用于表示视频的位,死区内的所有像素应设定成相同像素值,例如全黑。

在MPEG文献m40783的第4项中解决高阶鱼眼视频信号发送。MPEG文献m40783描述以下高阶鱼眼视频信号发送。所述改变指示如下:(其中分别由开始及结束添加符号“[[+>]]”及“[[+<]]”包围的文本为添加,且分别由开始及结束删除符号“[[->]]”及“[[-<]]”包围的文本为移除;其它部分保持未改变):

使用FisheyeOmnidirectionalVideoInfo()中的初始24个位中的一者指示鱼眼视频为单像还是立体,且针对每一圆形图像添加视图ID。

Figure BDA0002342027400000282

Figure BDA0002342027400000291

[[+>]]monoscopic_flag等于1指示鱼眼全向视频为单像。值0指示鱼眼全向视频并非单像。

view_id指示圆形图像属于的视图的视图标识符。当对于所有圆形图像仅存在view_id的两个值0及1时,鱼眼视频为立体,具有等于0的view_id的圆形图像属于左视图,且具有等于1的view_id的圆形图像属于右视图。[[+<]]

本发明识别在对针对鱼眼VR视频的高阶信号发送方案的实例提议的方法中的问题及缺点。以下为这些问题的三个实例:

(1)使用视图识别语法元素(例如view_id)用信号发送鱼眼视频对于在球体表面上空间布置的鱼眼相机(或其它布置)可能并非最佳,这是因为由一个鱼眼相机捕获的一个圆形图像可属于多个视图。

(2)当前技术缺乏用于指示视频数据是否为立体鱼眼VR视频的任何机制。

(3)当前技术缺乏用于用信号发送用于DASH的高阶鱼眼VR视频信息的任何机制。

本发明描述技术及功能改善以减少用于鱼眼VR视频的高阶信号发送方案中的问题的数目。以下描述的提议的技术可独立应用及/或可按组合来应用。

在本发明的一个实例中,为解决涉及视图识别语法元素的使用的问题,内容准备装置20可经配置以使用FisheyeOmnidirectionalVideoInfo()语法结构(例如如在OMAF中所定义)中初始24个保留位中的一或多者来指示鱼眼视频类型信息。举例来说,内容准备装置20可使用FisheyeOmnidirectionalVideoInfo()语法结构中初始24个保留位中的一或多者来指示鱼眼视频为单像、立体(例如由左视图及右视图组成)还是其它(例如既非单像,也非立体)。内容准备装置20的任一硬件或软件单元可经配置以产生FisheyeOmnidirectionalVideoInfo()语法结构的位以指示鱼眼视频类型信息,包含视频编码器28及/或封装单元30。内容准备装置20可经配置以在经编码视频位流中用信号发送FisheyeOmnidirectionalVideoInfo()语法结构。在一些实例中,内容准备装置20可经配置以使用FisheyeOmnidirectionalVideoInfo()语法结构中的初始24个保留位中的两个位指示鱼眼视频类型信息。在其它实例中,内容准备装置20可经配置以使用FisheyeOmnidirectionalVideoInfo()语法结构中的初始24个保留位中的三个位指示鱼眼视频类型信息。

客户端装置40可经配置以接收经编码视频位流且解析所述FisheyeOmnidirectionalVideoInfo()语法结构。客户端装置40可经配置以解码FisheyeOmnidirectionalVideoInfo()语法结构的指示鱼眼视频类型信息的位。基于视频类型信息,客户端装置40可经配置以解码及/或处理经编码位流中的鱼眼视频数据。举例来说,客户端装置40可基于FisheyeOmnidirectionalVideoInfo()语法结构中的视频类型信息指示鱼眼视频数据经指示为立体、单像还是其它(例如既非音像,也非立体)来使用不同输出、解封装、解码、处理及/或呈现技术。

在本发明的另一实例中,为解决涉及指示立体鱼眼VR视频的问题,内容准备装置20可经配置以产生及添加旗标至FisheyeOmnidirectionalVideoInfo()语法结构以针对视频数据的每一圆形图像指示鱼眼视频立体信息。举例来说,所述旗标可指示鱼眼视频数据的圆形图像属于左视图还是右视图。内容准备装置20的任一硬件或软件单元可经配置以产生FisheyeOmnidirectionalVideoInfo()语法结构中的旗标以指示鱼眼视频立体信息,包含视频编码器28及/或封装单元30。内容准备装置20可经配置以在经编码视频位流中用信号发送FisheyeOmnidirectionalVideoInfo()语法结构。

客户端装置40可经配置以接收经编码视频位流且解析所述FisheyeOmnidirectionalVideoInfo()语法结构。客户端装置40可经配置以解码FisheyeOmnidirectionalVideoInfo()语法结构的指示鱼眼视频立体信息的旗标。基于视频类型信息,客户端装置40可经配置以解码及/或处理经编码位流中的鱼眼视频数据。举例来说,客户端装置40可基于FisheyeOmnidirectionalVideoInfo()语法结构中的鱼眼视频立体信息指示鱼眼视频数据属于左视图还是右视图来使用不同输出、解封装、解码、处理及/或呈现技术。

以下为以上针对用信号发送FisheyeOmnidirectionalVideoInfo()语法结构中的位及旗标以指示鱼眼视频类型信息及鱼眼视频立体信息描述的技术的实例实施方案。以下对语法结构FisheyeOmnidirectionalVideoInfo()的语法及语义改变如下(其中分别由开始及结束添加符号“[[+>]]”及“[[+<]]”包围的文本为添加,且分别由开始及结束删除符号“[[->]]”及“[[-<]]”包围的文本为移除;其它部分保持未改变):

Figure BDA0002342027400000311

[[+>]]view_dimension_idc等于0指示鱼眼全向视频为单像。值1指示鱼眼全向视频为立体(即,由左视图及右视图组成)。值2指示鱼眼全向视频既非单像,也非立体。值3为保留。

left_view_flag的值等于1指示圆形图像属于左视图。值0指示圆形图像属于右视图。[[+<]]

在本发明的另一实例中,为解决用于DASH的高阶鱼眼VR视频信息的问题,内容准备装置20可经配置以产生DASH鱼眼视频信息(FVI)描述符以用于用信号发送鱼眼视频数据为单像、立体(例如由左视图及右视图组成)还是其它(例如既非单像,也非立体)。当为立体时,内容准备装置20可经配置以在FVI描述符中产生图片中的圆形图像属于左视图还是右视图的指示。内容准备装置20的任一硬件或软件单元可经配置以产生FVI描述符,包含视频编码器28及/或封装单元30。内容准备装置20可经配置以在经编码视频位流中用信号发送所述FVI描述符。

客户端装置40及/或服务器装置60可经配置以接收经编码视频位流且解析所述FVI描述符。客户端装置40及/或服务器装置60可经配置以解码所述FVI描述符。基于FVI描述符的值,客户端装置40及/或服务器装置60可经配置以解码及/或处理经编码位流中的鱼眼视频数据。举例来说,客户端装置40及服务器装置60可基于FVI描述符中的鱼眼视频立体信息指示所述鱼眼视频数据经指示为立体、单像还是其它(例如既非单像,也非立体)或所述鱼眼视频数据属于左视图还是右视图来使用不同输出、解封装、解码、处理及/或呈现技术。

以下为用于DASH的FVI描述符的提议的实施方案的实例。此提议的实施例实施方案包含以下语法及语义。

具有等于“urn:mpeg:omaf:fvi:2017”的@schemeIdUri属性的鱼眼视频信息(FVI)SupplementalProperty元素可存在于适配集层级(即,直接在AdaptationSet元素中),且不应存在于其它层级(即,不应存在于MPD层级或直接在任一Representation元素中)。

FVI描述符指示在每一Representation中载有的鱼眼视频为单像、立体(即,由左视图及右视图组成)还是其它,且当为立体时,图片中的圆形图像属于左视图还是右视图。

具有等于“urn:mpeg:omaf:fvi:2017”的@schemeIdUri的FVI描述符的@value为如在下表中指定的值的逗号分开的列表:

Figure BDA0002342027400000321

图7为展示根据本发明的技术的用于产生文件的实例方法的流程图。图7的技术可由内容准备装置20的一或多个结构单元(包含视频编码器28及/或封装单元30)执行。

在本发明的一个实例中,内容准备装置20可经配置以:接收鱼眼视频数据(700);产生包含鱼眼视频数据的文件,文件包含语法结构,语法结构包含指定鱼眼视频数据的属性的多个语法元素,其中多个语法元素包含指示鱼眼视频类型信息的一或多个位(702);及输出文件(704)。

在一个实例中,鱼眼视频类型信息包含单像鱼眼视频数据的指示或立体鱼眼视频数据的指示中的至少一者。在一个实例中,语法结构为全向媒体格式FisheyeOmnidirectionalVideoInfo()语法结构,且一或多个位为FisheyeOmnidirectionalVideoInfo()语法结构中的初始24个保留位中的两个位。

在一个实例中,一或多个位为view_dimension_idc语法元素,其中view_dimension_idc语法元素的值0指示鱼眼视频数据为立体鱼眼视频数据,且其中view_dimension_idc语法元素的值1指示鱼眼视频数据为单像鱼眼视频数据。在一个实例中,view_dimension_idc语法元素的值2指示鱼眼视频数据既非单像鱼眼视频数据,也非立体鱼眼视频数据。

在一个实例中,鱼眼视频数据为立体鱼眼视频数据,且语法结构进一步包含指示立体鱼眼视频数据的图像在左视图还是右视图中的一或多个旗标。在一个实例中,一或多个旗标包含left_view_flag,其中left_view_flag的值1指示图像中的特定者在左视图中,且其中left_view_flag的值0指示图像中的特定者在右视图中。

图8为展示根据本发明的技术的用于处理文件的实例方法的流程图。图8的技术可由客户端装置40的一或多个结构单元(包含视频解码器48及/或解封装单元50)执行。

在本发明的一个实例中,客户端装置40可经配置以处理包含鱼眼视频数据的文件,文件包含语法结构,语法结构包含指定鱼眼视频数据的属性的多个语法元素,其中多个语法元素包含指示鱼眼视频类型信息的一或多个位(800);基于语法结构的一或多个位确定用于鱼眼视频数据的鱼眼视频类型信息(802);及基于确定输出鱼眼视频数据以供显现(804)。

在一个实例中,鱼眼视频类型信息包含单像鱼眼视频数据的指示或立体鱼眼视频数据的指示中的至少一者。在一个实例中,语法结构为全向媒体格式FisheyeOmnidirectionalVideoInfo()语法结构,且一或多个位为FisheyeOmnidirectionalVideoInfo()语法结构中的初始24个保留位中的两个位。

在一个实例中,一或多个位为view_dimension_idc语法元素,其中view_dimension_idc语法元素的值0指示鱼眼视频数据为立体鱼眼视频数据,且其中view_dimension_idc语法元素的值1指示鱼眼视频数据为单像鱼眼视频数据。在一个实例中,view_dimension_idc语法元素的值2指示鱼眼视频数据既非单像鱼眼视频数据,也非立体鱼眼视频数据。

在一个实例中,鱼眼视频数据为立体鱼眼视频数据,且语法结构进一步包含指示立体鱼眼视频数据的图像在左视图还是右视图中的一或多个旗标。在一个实例中,一或多个旗标包含left_view_flag,其中left_view_flag的值1指示图像中的特定者在左视图中,且其中left_view_flag的值0指示图像中的特定者在右视图中。

在一个实例中,客户端装置40可经进一步配置以基于语法结构的一或多个旗标确定立体鱼眼视频数据的图像在左视图还是右视图中,且基于确定输出立体鱼眼视频数据以供显现。

在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合来实施。如果以软件来实施,那么所述功能可作为一或多个指令或代码而存储于计算机可读媒体上或经由计算机可读媒体进行传输,且由基于硬件的处理单元执行。计算机可读媒体可包含:计算机可读存储媒体,其对应于例如数据存储媒体的有形媒体;或通信媒体,其包含例如根据通信协议促进计算机程序从一处传送至另一处的任何媒体。以此方式,计算机可读媒体大体上可对应于(1)为非暂时性的有形计算机可读存储媒体,或(2)例如信号或载波的通信媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索指令、代码及/或数据结构以用于实施本发明所描述的技术的任何可用媒体。计算机程序产品可包含计算机可读媒体。

作为实例而非限制,这些计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置、快闪存储器,或可用以存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。此外,任何连接被恰当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波的无线技术从网站、服务器或其它远程源传输指令,那么同轴电缆、光缆、双绞线、DSL或例如红外线、无线电及微波的无线技术包含于媒体的定义中。然而,应理解,计算机可读存储媒体及数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而是涉及非暂时性的有形存储媒体。如本文中所使用的磁盘及光盘包含紧密光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘及蓝光光盘,其中磁盘通常以磁性方式再生数据,而光盘用激光以光学方式再生数据。以上各者的组合也应包含于计算机可读媒体的范围内。

可由一或多个处理器执行指令,所述一或多个处理器是例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。此外,在一些方面中,本文中所描述的功能性可提供于经配置用于编码及解码的专用硬件及/或软件模块内,或并入于组合式编解码器中。此外,所述技术可完全实施于一或多个电路或逻辑元件中。

本发明的技术可实施于各种各样的装置或设备中,包含无线手机、集成电路(IC)或IC集合(例如芯片组)。在本发明中描述各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面,但未必需要由不同硬件单元来实现。更确切地说,如上文所描述,各种单元可在编解码器硬件单元中组合,或通过互操作性硬件单元(包含如上文所描述的一或多个处理器)的集合与合适软件及/或固件一起提供。

已描述了各种实例。这些及其它实例在所附权利要求书的范围内。

41页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种沉浸式视频传送方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类