客户端设备、客户端设备处理方法、服务器以及服务器处理方法

文档序号：1722495 发布日期：2019-12-17 浏览：16次 >En<

阅读说明：本技术 客户端设备、客户端设备处理方法、服务器以及服务器处理方法 (client device, client device processing method, server, and server processing method ) 是由塚越郁夫于 2018-04-19 设计创作，主要内容包括：允许多个客户端(查看器)共享它们的VR空间以便彼此进行通信。接收来自服务器的分布式服务器的流,该分布式服务器的流包括通过编码背景图像获得的视频流。接收来自另一客户端设备的客户端发送流,该客户端发送流包括用于显示另一客户端的代表图像的代表图像元信息。解码视频流以获得背景图像。基于代表图像元信息生成代表图像的图像数据。通过在背景图像上合成代表图像来获得显示图像数据。(Multiple clients (viewers) are allowed to share their VR space to communicate with each other. A stream of a distributed server from the servers is received, the stream of the distributed server including a video stream obtained by encoding the background image. A client transmit stream is received from another client device, the client transmit stream including representative image element information for displaying a representative image of the other client. The video stream is decoded to obtain a background image. Image data representing an image is generated based on the representative image element information. Display image data is obtained by synthesizing the representative image on the background image.)

技术领域

本技术涉及一种客户端设备、客户端设备处理方法、服务器以及服务器处理方法。更具体地，该技术涉及一种执行以下处理的客户端设备：在来自服务器的背景图像(或发送的发送图像)上合成诸如每个客户端的化身的代理图像(或代表图像)。

背景技术

存在头戴式显示器(HMD)，每个头戴式显示器(HMD)都佩戴在用户的头上，并且例如能够使用位于用户眼睛前面的显示部件向用户呈现图像(例如，参见专利文献1)。近年来，已经见证了在HMD上为使用虚拟现实(VR)而准备的全天空级图像的个人享受的趋势。可以期望每个人都享受个性化VR空间，多个人不仅可以单独查看它们的VR空间，而且还可以共享它们自己的VR空间以便彼此进行通信。

引用列表

专利文献

专利文献1：JP 2016-025633A

发明内容

技术问题

本技术的目的是允许多个客户端(查看器)共享它们的VR空间以便彼此进行通信。

解决问题的方法

根据本技术的一个概念，提供了一种客户端设备，包括：

接收部，被配置为接收来自服务器的分布式服务器的流，该分布式服务器的流包括通过编码背景图像获得的视频流，接收部还接收来自另一客户端设备的客户端发送流，该客户端发送流包括用于显示其他客户端的代理图像的代理图像元信息；以及

控制部，被配置为控制解码视频流以获得背景图像的解码处理、基于代理图像元信息生成代理图像的代理图像数据生成处理、以及在背景图像上合成代理图像的图像数据合成处理。

利用本技术，接收部接收来自服务器的分布式服务器的流，该分布式服务器的流包括通过编码背景图像获得的视频流，接收部还接收来自另一客户端设备的客户端发送流，该客户端发送流包括用于显示其他客户端的代理图像的代理图像元信息。代理图像例如是可识别为字符的化身或符号。

控制部或诸如计算机处理器的控制器控制解码处理、代理图像数据生成处理以及图像数据合成处理。解码处理涉及解码视频流以获得背景图像。代理图像数据生成处理涉及基于代理图像元信息生成代理图像。图像数据合成处理涉及在背景图像上合成代理图像。

例如，指示背景图像中的用于代理图像的允许合成范围的信息可以***视频流的层和/或分布式服务器的流的层中。基于指示允许合成范围的信息，控制部可以控制合成处理，如此代理图像被放置在背景图像中的允许合成范围内。

在这种情况下，代理图像元信息可以包括指示用于代理图像的允许合成范围内的合成位置的合成位置信息。控制部可以控制合成处理，如此在由合成位置信息指示的合成位置处合成代理图像。同样在这种情况下，例如，代理图像元信息可以包括指示代理图像的大小的大小信息。控制部可以控制合成处理，如此根据由大小信息指示的大小在背景图像上合成代理图像。

利用本技术，如上所述，基于代理图像元信息在背景图像中生成代理图像。代理图像在背景图像上合成。这允许每个客户端识别在公共背景图像上合成的另一个客户端的代理图像。因此，客户端可以共享它们的VR空间，以便彼此愉快地通信。

注意，根据本技术，例如，客户端发送流可以包括对应于代理图像元信息的音频数据以及对象元数据。控制部还可以执行音频输出处理，其中，对音频数据执行对应于对象元数据的渲染处理，以获得其声像位置与代理图像的合成位置一致的音频输出数据。这允许每个客户端识别好像每个代理图像在其背景图像中的合成位置处发射由代理图像表示的客户端的语音。

同样利用本技术，例如，客户端发送流可以包括对应于代理图像元信息的字幕(或文本)数据以及显示位置信息。控制部还可以控制字幕合成处理，以基于显示位置信息在背景图像上合成字幕显示数据，如此在对应于代理图像的合成位置的位置处显示由字幕数据表示的字幕。这允许每个客户端在对应于背景图像中的其他客户端的代理图像的合成位置的位置处识别来自另一客户端的代理图像的字幕。

同样利用本技术，例如，客户端设备还可以包括发送部，被配置为将客户端发送流发送到另一客户端设备，该客户端发送流包括用于显示自己的客户端的代理图像的代理图像元信息。代理图像数据生成处理还可以基于用于显示自己的客户端的代理图像的代理图像元信息生成自己的客户端的代理图像。这使得不仅可以在背景图像上合成其他客户端的代理图像，而且可以合成自己的客户端的代理图像。

同样利用本技术，例如，背景图像可以是宽视角图像，其中，宽视角是180度或更大的图像。控制部还可以控制剪辑背景图像的一部分以获得显示图像数据的图像剪辑处理。例如，可以在HMD上显示从显示图像数据导出的图像，其中，剪辑范围由安装在HMD上的传感器检测到的磁头的姿态确定。

此外，根据本技术的另一概念，提供了一种服务器，包括：

成像部，被配置为对被摄体成像以获得背景图像；以及

发送部，被配置为将分布式服务器的流发送到客户端设备，该分布式服务器的流包括通过编码背景图像获得的视频流；

其中，指示背景图像中的用于代理图像的允许合成范围的信息被***视频流的层中和/或分布式服务器的流的层中。

利用本技术，成像部对被摄体成像以获得背景图像。背景图像可以是例如宽视角图像的图像数据。发送部将分布式服务器的流发送到客户端设备，该分布式服务器的流包括通过编码背景图像获得的视频流。在这种配置中，指示背景图像中的用于代理图像的允许合成范围的信息被***视频流的层中和/或分布式服务器的流的层中。

根据本技术，如上所述，当发送时，指示背景图像中的用于代理图像的允许合成范围的信息被***视频流的层中和/或分布式服务器的流的层中。这使得客户端设备容易基于指示允许合成范围的信息将每个客户端的代理图像放置在由服务器所预期的范围内的背景图像中。

发明的有益效果

本技术允许多个客户端共享它们自己的VR空间以便彼此进行通信。注意，上述的有益效果不是对本公开的限制。从随后的描述中，本公开的其他优点将变得显而易见。

附图说明

[图1]图1是描绘体现本技术的空间共享显示系统的典型配置的框图。

[图2]图2是描绘服务器和在其间发送和接收流的多个客户端设备之间的典型关系的示意图。

[图3]图3是描绘服务器的典型配置的框图。

[图4]图4是描绘视频属性信息SEI消息的典型结构的表格图。

[图5]图5是描绘视频属性信息SEI消息的典型结构中的主要信息的内容的表格图。

[图6]图6是说明关于相机状态的信息的一组示意图。

[图7]图7是描绘保存在视频属性信息框中的典型信息的表格图。

[图8]图8是描绘客户端设备的发送系统的典型配置的框图。

[图9]图9是描绘化身渲染控制信息的典型结构以及该典型结构中的主要信息的内容的一组表格图。

[图10]图10是描绘化身数据库选择信息的典型结构以及该典型结构中的主要信息的内容的一组表格图。

[图11]图11是描绘作为关于每个对象的对象元数据的语音对象渲染信息的典型结构以及该典型结构中的主要信息的内容的一组表格图。

[图12]图12是说明如何获得“方位角”、“半径”以及“仰角”的值的示意图。

[图13]图13是说明TTML结构和元数据的典型结构的一组表格图。

[图14]图14是描绘客户端设备的接收系统的典型配置的框图。

[图15]图15是描绘接收模块的典型配置的框图。

[图16]图16是描绘化身数据库选择部的典型配置的框图。

[图17]图17是描绘化身数据库的典型列表的表格图。

[图18]图18是概述由渲染器执行的渲染处理的示意图。

[图19]图19是概述通过由渲染器执行的重新映射进行的声压控制的示意图。

[图20]图20是描绘典型背景图像的示意图。

[图21]图21是描绘其中化身和字幕在背景图像的允许合成范围(sy_window)中合成的典型状态的示意图。

具体实施方式

下面描述的是用于实现本发明的优选模式(在下文中称为实施方式)。注意，将在以下标题下给出描述：

1.实施方式

2.变化

1.实施方式

空间共享显示系统

图1描绘了体现本技术的空间共享显示系统10的典型配置。空间共享显示系统10被配置有经由诸如因特网的网络300与多个客户端设备200连接的服务器100。

服务器100将分布式服务器的流发送到每个客户端设备200，该分布式服务器的流包括通过编码通过捕获被摄体获得的背景图像而获得的视频流，该流是经由网络300而被发送的。例如，背景图像的图像数据是诸如180度或更大的宽视角图像的图像数据。指示背景图像中的用于代理图像的允许合成范围的信息被***视频流的层中和/或分布式服务器的流的层(容器)中。代理图像例如是可识别为字符的化身或符号。对于该实施方式，假设化身是代理图像。随后的描述将在代理图像是化身的假设下进行。

客户端设备200通过网络300接收从服务器100发送的分布式服务器的流。客户端设备200通过解码包括在分布式服务器的流中的视频流获得背景图像。另外，客户端设备200从另一客户端设备200接收包括用于显示其他客户端的化身的化身元信息的客户端发送帧(容器)，该帧经由网络300发送。

客户端设备200基于化身元信息生成化身的图像数据，并且将化身图像数据合成在背景图像数据上。在这种情况下，客户端设备200基于指示背景图像中的用于化身的允许合成范围的信息将化身放置在背景图像的允许合成范围内，该信息被***视频流的层中和/或分布式服务器的流的层中。

化身元信息包括指示用于化身的允许合成范围内的合成位置的合成位置信息。客户端设备200在由合成位置信息指示的合成位置处合成化身。另外，化身元信息包括指示化身大小的大小信息。客户端设备200根据由大小信息指示的大小将化身合成在背景图像上。

客户端设备200还经由网络300将客户端发送流(容器)发送到其他客户端设备200，该客户端发送流(容器)包括用于显示自己的化身的化身元信息。在这种情况下，客户端设备200基于用于显示自己的化身的化身元信息生成其自己的化身的图像数据，并且将化身图像数据合成在背景图像数据的图像数据上。

注意，据推测，一些客户端设备200可能不具有将客户端发送流(容器)发送到其他客户端设备200的能力，该客户端发送流(容器)包括用于显示自己的化身的化身元信息。

如果背景图像的图像数据是普通视角图像的图像数据，则客户端设备200将合成了化身图像数据的背景图像的图像数据作为未修改的显示图像数据发送到用作显示装置的HMD 400A。另一方面，如果背景图像的图像数据是宽视角图像的图像数据，则客户端设备200通过剪辑合成了化身图像数据的背景图像的图像数据的一部分来获得显示图像数据，并且将获得的显示图像数据发送到用作显示装置的HMD 400A。在这种情况下，例如根据安装在HMD上的传感器检测到的磁头的姿态来确定剪辑范围。

此外，来自另一客户端设备200的客户端发送流包括对应于化身元信息的音频数据以及对象元数据。此外，除了对象元数据之外，还存在对应于用于显示自己的化身的化身元信息的音频数据。客户端设备200根据对象元数据对音频数据执行渲染处理，以获得其声像位置与化身合成位置一致的音频输出数据。客户端设备200将获得的音频输出数据发送到用作音频输出装置的耳机(HP)400B。

来自另一客户端设备200的客户端发送流还包括对应于化身元信息的字幕数据以及显示位置信息。除了显示位置信息之外，还存在对应于用于显示自己的化身的化身元信息的字幕数据。客户端设备200根据显示位置信息将字幕显示数据合成在背景图像的图像数据上，如此在对应于化身的合成位置的位置处显示基于字幕数据的字幕。

图2描绘了服务器100和在其间发送和接收流的多个客户端设备200之间的典型关系。注意，在该示出的示例中，存在三个客户端设备200，每个客户端设备200将客户端发送帧发送到其他客户端设备200。客户端发送帧包括化身元信息、语音数据以及文本数据(字幕数据)。

服务器的配置

图3描绘了服务器100的典型配置。服务器100包括控制部101、***102、视频捕获装置103、格式转换处理部104、视频编码器105、音频捕获装置106、音频编码器108、容器编码器109以及网络接口110。这些组件经由总线111互连。

控制部101控制服务器100中的各个组件的操作。控制部101与用户操作部101a连接。***101接收来自GPS卫星的无线电波以获得位置信息(经度、纬度以及仰角)。视频捕获装置103是对被摄体成像并获得背景图像的图像数据的相机(成像部)。视频捕获装置103获得宽视角图像数据或用于获得宽视角图像数据的多个图像的图像数据。格式转换处理部104对由视频捕获装置103获得的图像数据执行映射处理(例如，宽视角图像的变形、多个图像的合成等)，从而获得图像格式的图像数据以输入到编码器。

视频编码器105通过对由格式转换处理部104获得的图像数据执行诸如HEVC的编码处理来获得编码的图像数据。然后，视频编码器105生成包括编码的图像数据的视频流。在这种情况下，视频编码器105将视频属性信息SEI消息(Video_attribute_informationSEI message)放置在用于访问单元(AU)的SEI消息组“SEI”中。

***到SEI消息中的是指示相机(成像部)的捕获状态的捕获信息、指示相机位置(捕获位置)的位置信息(GPS数据)以及指示背景图像中的用于化身的允许合成范围的信息。

图4描绘了视频属性信息SEI消息的典型结构(语法)。图5描绘了该典型结构中的主要信息的内容(语义)。八位字段“message_id”指示识别视频属性信息SEI消息的识别信息。八位字段“byte_length”指示作为该视频属性信息SEI消息的大小的后续字节数。

八位字段“target_content_id”指示识别视频内容的识别信息。字段“capture_position()”指示捕获位置。16位字段“position_latitude”指示捕获位置(以纬度为单位)。16位字段“position_longitude”指示捕获位置(以经度为单位)。16位字段“position_elevation”指示捕获位置(以仰角为单位)。

16位字段“camera_direction”指示其中在捕获时相机定向的方向。例如，如图6的子图(a)所示，该字段指示其中相机定向的诸如东、西、北或南的方向。16位字段“camera_V_angle”指示在捕获时相机相对于水平方向的角度，如图6的子图(b)所示。

字段“sy_window()”指示背景图像中用于化身的允许合成范围。16位字段“sy_window_x_start”指示允许合成范围的开始位置(水平位置)。16位字段“sy_window_y_start”指示允许合成范围的开始位置(垂直位置)。16位字段“sy_window_x_end”指示允许合成范围的结束位置(水平位置)。16位字段“sy_window_y_end”指示允许合成范围的结束位置(垂直位置)。

返回图3，音频捕获装置106是一个麦克风，其捕获对应于由视频捕获装置103成像的被摄体的语音(音频)，以便获得至少两个声道的音频数据，例如5.1声道音频数据。音频编码器108对由音频捕获装置106获得的音频数据执行诸如MPEG-H音频或AC4的编码处理，以便生成音频数据流。

容器编码器109生成包括由视频编码器105获得的视频流和由音频编码器108获得的音频流的容器作为分布式服务器的流，在该示例中，该容器是MP4流。

在这种情况下，容器编码器109在初始化段(IS)或在“moof”框中定义的“udta”框中定义视频属性信息框(“vaib”框)。

与SEI消息一样，***到视频属性信息框中的是指示相机(成像部)的捕获状态的捕获信息、指示相机位置(捕获位置)的位置信息(GPS数据)以及指示背景图像中的用于化身的允许合成范围的信息。注意，在视频属性信息框中***视频属性信息框和视频属性信息SEI消息两者不是强制性的；只能***两个中的任何一个。

图7描绘了保存在“vaib”框中的典型信息。字段“position_latitude”代表捕获位置(以纬度为单位)，“position_longitude”代表捕获位置(以经度为单位)，“position_elevation”代表捕获位置(以仰角为单位)。此外，字段“camera_direction”指示其中在捕获时相机定向的方向，该方向相对于北方。此外，字段“camera_V_angle”指示在捕获时相机相对于水平方向的角度。此外，字段“sy_window_x_start”代表允许合成范围的开始位置(水平位置)，“sy_window_y_start”代表允许合成范围的开始位置(垂直位置)，“sy_window_x_end”代表允许合成范围的结束位置(水平位置)，以及“sy_window_y_end”代表允许合成范围的结束位置(垂直位置)。

返回图3，网络接口110经由网络300与客户端设备200进行通信。网络接口110经由网络300将由容器编码器109获得的分布式服务器的流发送到客户端设备200。

下面是对图3所示的服务器100的操作的简要说明。视频捕获装置103对被摄体成像，以获得宽视角图像数据或用于获得宽视角图像数据的多个图像的图像数据。由视频捕获装置103获得的图像数据被提供给格式转换处理部104。格式转换处理部104对从视频捕获装置103提供的图像数据执行映射处理(例如，宽视角图像的变形、多个图像的合成等)，以便获得图像格式的图像数据以输入到编码器。

由格式转换处理部104获得的图像数据被提供给视频编码器105。视频编码器105通过对来自格式转换处理部104的图像数据执行诸如HEVC的编码处理来获得编码的图像数据。因此，视频编码器105生成包括编码的图像数据的视频流。

此外，视频编码器105将视频属性信息SEI消息(参见图4)放置在用于访问单元(AU)的SEI消息组“SEI”中。***到SEI消息中的是指示相机(成像部)的捕获状态的捕获信息、指示相机位置(捕获位置)的位置信息(GPS数据)以及指示背景图像中的用于化身的允许合成范围的信息。

音频捕获装置106捕获对应于由视频捕获装置103成像的被摄体的语音(音频)，以便获得至少两个声道的音频数据。每个声道的音频数据被提供给音频编码器108。音频编码器108对由音频捕获装置106获得的音频数据执行诸如MPEG-H音频或AC4的编码处理，以生成音频数据流。

由视频编码器105获得的视频流和由音频编码器108获得的音频流被提供给容器解码器109。容器编码器109生成包括视频流和音频流的容器作为分布式服务器的流，在这种情况下是MP4流。

此外，容器编码器109在初始化部分(IS)或在“moof”框中定义的“udta”框中新定义视频属性信息框(参见图7)。***到新定义的框中的是指示相机(成像部)的捕获状态的捕获信息、指示相机位置(捕获位置)的位置信息(GPS数据)以及指示背景图像中的用于化身的允许合成范围的信息。

由容器编码器109获得的分布式服务器的流被提供给网络接口110。网络接口110经由网络300将分布式服务器的流发送到客户端设备200。

客户端设备的配置

下面说明客户端设备200的典型配置。图8描绘了客户端设备200的发送系统200T的典型配置。发送系统200T包括控制部201、元数据生成器202、音频捕获装置203、对象信息生成部204、音频编码器205、字符生成部206、字幕编码器207、容器编码器208以及网络接口209。这些组件经由总线210互连。

控制部201控制客户端设备200，即，发送系统200T的各个组件。控制部201与用户操作部201a连接。根据用户对用户操作部201a的操作，元数据生成器202生成化身元信息。化身元信息包括化身渲染控制信息(avator_rendering_control_information)和化身数据库选择信息(avator_database_selection)。

化身渲染控制信息包括指示在背景图像的允许合成范围内的用于化身的合成位置的信息，以及指示化身的大小的信息。图9中的子图(a)指示化身渲染控制信息的典型结构(语法)，以及图9中的子图(b)描绘了该典型结构中的主要信息的内容(语义)。

八位字段“message_id”指示识别化身渲染控制信息的识别信息。八位字段“byte_length”指示作为该化身渲染控制信息的大小的后续字节数。

八位字段“client_id”指示识别发送该化身元信息的客户端(客户端设备200)的识别信息。八位字段“target_content_id”指示识别用于合成的视频内容(背景图像)的识别信息。八位字段“number_of_client_objects”指示从客户端发送的对象的数目，即化身的数目。

存在“client_object_id”字段、“avator_center_position_x”字段、“avator_center_position_y”字段以及“avator_rendering_size”字段，每个的数目与对象的数目一样多。八位字段“client_object_id”指示识别从客户端发送的对象(化身)的识别信息。

16位字段“avator_center_position_x”指示表示在允许合成范围(sy_window)内的化身合成位置的中心坐标的x坐标(水平位置)。16位字段“avator_center_position_y”指示表示在允许合成范围(sy_window)内的化身合成位置的中心坐标的y坐标(垂直位置)。16位字段“avator_rendering_size”指示要合成的化身的大小(即，大小)。注意，使用从化身合成位置的中心坐标开始的矩形的对角线来获得大小。在数据库中的化身图像的原始纵横比保持不变的情况下，以与要合成的化身的大小成比例的方式转换大小。

化身数据库选择信息包括用于从化身数据库获得化身图像数据的选择信息。图10中的子图(a)描绘了化身数据库选择信息的典型结构(语法)，以及图10中的子图(b)描绘了该典型结构中的主要信息的内容(语义)。

八位字段“message_id”指示识别化身数据库选择信息的识别信息。八位字段“byte_length”指示表示化身数据库选择信息的大小的后续字节数。八位字段“client_id”指示识别发送该化身数据库选择信息的客户端(客户端设备200)的识别信息。八位字段“target_content_id”指示识别用于合成的视频内容(背景图像)的识别信息。

八位字段“number_of_client_objects”指示从客户端发送的对象的数目，即化身的数目。存在“client_object_id”字段、“body_type”字段、“body_angle”字段、“emotional_type”字段和“face_angle”字段，每个的数目与对象的数目一样多。八位字段“client_object_id”指示识别从客户端发送的对象(化身)的识别信息。

16位字段“body_type”指示化身的整个身体类型。16位字段“body_angle”指示相对于前方定向的化身图像的角度属性。16位字段“emotional_type”指示化身的面部表情或情绪的类型。16位字段“face_angle”指示化身的面角。

返回图8，音频捕获装置203是一个麦克风，其捕获每个对象(即每个化身)的语音(音频)以获得音频数据。对象信息生成部204基于化身合成位置信息生成关于每个对象的对象元数据，以便输出关于每个对象的对象编码的数据(编码的样本数据、对象元数据)。

图11中的子图(a)描绘了作为关于每个对象(化身)的对象元数据的语音对象渲染信息(Voice_object_rendering_information)的典型结构，以及图11中的子图(b)描绘了该典型结构中的主要信息的内容(语义)。八位字段“message_id”指示识别语音对象渲染信息的识别信息。八位字段“byte_length”指示作为该化身数据库选择信息的大小的后续字节数。八位字段“client_id”指示识别发送音频数据的客户端(客户端设备200)的识别信息。八位字段“target_content_id”指示识别用于合成的视频内容(背景图像)的识别信息。

八位字段“number_of_client_objects”指示从客户端发送的对象的数目，即化身的数目。存在“client_object_id”字段、“方位角”字段、“半径”字段以及“仰角”字段，每个的数目与对象的数目一样多。八位字段“client_object_id”指示识别从客户端发送的对象(化身)的识别信息。

16位字段“方位角”指示方位角作为关于作为对象的化身的位置信息。16位字段“半径”指示半径作为关于作为对象的化身的另一位置信息。16位字段“仰角”指示仰角作为关于作为对象的化身的另一位置信息。

下面参考图12说明如何获得“方位角”、“半径”以及“仰角”的值。点P表示在HMD400A上扩展的图像中的化身合成位置的中心坐标。如上所述，合成化身的位置在背景图像中的用于化身的允许合成范围内。化身合成位置由化身合成位置信息(“avator_center_position_x”，“avator_center_position_y”)识别。

利用该实施方式，背景图像中的用于化身的允许合成范围被设置为对应于在HMD400A上扩展的图像范围。这允许根据化身合成位置信息识别在HMD 400A上扩展的图像中的点P的坐标。同样在该实施方式中，在默认显示状态下，在HMD 400A上扩展的图像的范围对应于背景图像中的用于化身的允许合成范围。

参考字符LT、LB、RT以及RB表示假定显示监视器上的虚拟扬声器。此外，点Q表示假定查看位置的中心。如果假设从点Q到点P的距离由r表示，QA与QB之间的角度由θ表示，QB与QP之间的角度由表示，则“方位角”、“半径”以及“仰角”(化身位置信息)的值定义如下：

方位角＝θ

仰角＝

半径＝r。

如上所述，当发送后者信息时，作为关于对象(化身)的合成位置信息的“方位角”、“半径”以及“仰角”的值包括在语音对象渲染信息(参见图11)中。在接收侧，这些值可以未修改地输入到渲染器作为对象元数据。

注意，同样在接收侧，包括在化身渲染控制信息(参见图9)中的化身合成位置信息(“avator_center_position_x”，“avator_center_position_y”)允许要识别的点P的坐标。作为假定查看位置的中心的点P和点Q也可用于获得“方位角”、“半径”以及“仰角”的值(参见图12)。所获得的值可以作为对象元数据输入到渲染器。

在这种情况下，不需要使用语音对象渲染信息(参见图11)来发送作为关于每个对象(化身)的合成位置信息的“方位角”、“半径”以及“仰角”的值。例如，将字段“number_of_client_objects”设置为0。

此外，即使在这种情况下，发送“半径”的值也允许服务器100将在合成对象的位置处的每个对象(化身)的适当深度位置通知客户端设备200。在这种情况下，例如，***到语音对象渲染信息(参见图11)中的字段“方位角”、“半径”以及“仰角”作为关于每个对象(化身)的合成位置信息被设置为无效值。

此外，即使在不发送“半径”的值的情况下，也可以在客户端设备200侧，通过基于包括在化身渲染控制信息(参见图9)中的信息“avator_rendering_size”来调整与对象(化身)的大小一致的“半径”获得值来设置每个对象(化身)的合成位置的适当深度位置。

返回图8，音频编码器205通过编码由对象信息生成部107获得的关于每个对象的对象编码的数据(编码的样本数据、对象元数据)来获得MPEG-H 3D音频编码的音频数据。编码的音频数据构成对应于化身元信息的音频数据。

根据用户对用户操作部201a的操作，字符输入部206根据需要生成对应于每个对象，即对应于每个化身的字幕文本数据(字符代码)DT。字幕编码器207接收文本数据DT的输入，以获得预定格式的字幕文本信息，该字幕文本信息是本实施方式的定时文本标记语言(TTML)。TTML构成对应于化身元信息的字幕数据。

图13中的子图(a)描绘了TTML结构。TTML以XML为基础进行描述。TTML包括报头和正文。报头包括诸如元数据、样式以及布局的各个元素。元数据包括元数据标题信息和版权信息等。除了标识符(id)之外，样式还包括诸如颜色、字体(fontFamily)、大小(fontSize)以及对齐(textAlign)的信息。除了识别其中放置字幕的区域的标识符(id)之外，布局还包括诸如范围(extent)、偏移(padding)、背景颜色(backgroundColor)以及对齐(displayAlign)的信息。正文包括字幕文本信息等。

利用该实施方式，字幕对象渲染信息被***TTML中。图13中的子图(b)描绘了元数据的典型结构(TTM：TTML元数据)。该结构包括诸如“target_content_id”、“client_id”以及“client_object_id”的信息。信息“target_content_id”指示识别用于合成的视频内容(背景图像)的识别信息。信息“client_id”指示识别发送字幕数据的客户端(客户端设备200)的识别信息。信息“client_object_id”指示识别从客户端发送的对象(化身)的识别信息。注意，关于字幕显示位置的信息包括在正文中。

返回图8，容器编码器208生成包括由元数据生成器202生成的化身元信息、由音频编码器205生成的3D音频编码的音频数据以及由字幕编码器207获得的作为字幕文本信息的TTML的容器作为客户端发送流，在这种情况下，容器是MP4流。

网络接口209经由网络300与其他客户端设备200通信。网络接口209经由网络300将由容器编码器208获得的客户端发送流发送到其他客户端设备200。

下面是对图8所示的发送系统200T的操作的简要说明。元数据生成器202根据用户对用户操作部201a的操作生成化身元信息。化身元信息包括化身渲染控制信息(参见图9)和化身数据库选择信息(参见图10)。化身渲染控制信息包括指示背景图像中允许合成范围内的化身合成位置的信息和指示化身大小的信息两者。此外，化身数据库选择信息包括用于从化身数据库获得化身的图像数据的选择信息。

音频捕获装置203通过捕获每个对象(即每个化身)的语音(音频)来获得音频数据。关于每个对象(化身)的音频数据被提供给对象信息生成部204。对象信息生成部204还被提供有关于背景图像中的每个对象(化身)的合成位置信息。

对象信息生成部204基于对象合成位置信息生成关于每个对象的对象元数据，以便获得关于每个对象的对象编码的数据(编码的样本数据、对象元数据)。对象编码的数据包括语音对象渲染信息(参见图11)作为关于每个对象(化身)的对象元数据。语音对象渲染信息包括关于每个对象(化身)的位置信息(θ，r)。

由对象信息生成部204获得的关于每个对象的对象编码的数据(编码的样本数据、对象元数据)被提供给音频编码器205。音频编码器205编码关于每个对象的对象编码的数据，以便获得MPEG-H 3D音频编码的音频数据。

根据用户对用户操作部201a的操作，字符输入部206根据需要生成对应于每个对象(即每个化身)的字幕文本数据(字符代码)DT。文本数据DT被提供给字幕编码器207。字幕编码器207还被提供有关于对应于每个对象(化身)的字幕的显示位置信息。

字幕编码器207基于文本数据DT获得作为关于字幕的文本信息的TTML。例如，渲染信息被***到TTML的元数据中(参见图13)。注意，与字幕的显示位置相关联的信息包括在磁头中。化身渲染信息可以可选地包括在磁头下的布局中，以及除了元数据之外的诸如“起源”和“范围”的信息。

容器编码器208被提供有由元数据生成器202生成的化身元信息、由音频编码器205获得的3D音频编码的音频数据以及由字幕编码器207获得的作为字幕文本信息的TTML。容器编码器208生成包括化身元信息、编码的音频数据以及TTML的MP4流作为客户端发送流。

由容器编码器208获得的客户端发送流被提供给网络接口209。网络接口209经由网络300将客户端分布式流发送到其他客户端设备200。

图14描绘了客户端设备200的接收系统200R的典型配置。接收系统200R包括控制部201、网络接口211、容器解码器212、视频解码器213、平面转换器214、接收模块215和接收模块215A、音频解码器216、混频器218以及合成部219。这些组件经由总线210互连。

控制部201控制客户端设备200的操作，即，接收系统200R中的各个组件的操作。控制部201与用户操作部201a连接。网络接口211经由网络300与服务器100和其他客户端设备200通信。网络接口211接收来自服务器100的上述分布式服务器的流。网络接口211还接收来自其他客户端设备200的上述客户端发送流。

容器解码器212从由网络接口211接收的分布式服务器的流(MP4流)中提取视频流和音频流。在这种情况下，容器解码器212从在初始化段(IS)或在“moof”框中定义的“udta”框中提取视频属性信息框(“vaib”框)。容器解码器212将提取的“vaib”框发送到控制部201。这允许控制部201识别指示相机的捕获状态的捕获信息、指示相机位置(捕获位置)的位置信息(GPS数据)以及指示背景图像中的用于化身的允许合成范围的信息。

视频解码器213通过对由容器解码器212提取的视频流执行解码处理来获得背景图像的图像数据。视频解码器213还提取***到视频流中的参数集和SEI消息，并将提取的信息发送到控制部201。

提取的信息还包括上述视频属性信息SEI消息(参见图4)。这允许控制部201识别指示相机的捕获状态的捕获信息、指示相机位置(捕获位置)的位置信息(GPS数据)以及指示背景图像中的化身的允许合成范围的信息。

如果由视频解码器213获得的背景图像的图像数据是非线性图像数据，则平面转换器214将非线性图像数据转换为线性图像数据。此外，如果背景图像的图像数据是宽视角图像的图像数据，则平面转换器214从图像数据中仅剪辑对应于HMD 400A的显示视角的部分以获得显示图像数据。

例如，背景图像中的用于化身的允许合成范围的大小被设置为对应于HMD 400A的显示视角。在其默认状态下，平面转换器214剪辑对应于允许合成范围的图像数据以获得显示图像数据。此后，平面转换器214例如根据安装在HMD上的传感器检测到的磁头的姿态来改变剪辑范围。

音频解码器216对由容器解码器212提取的音频流执行解码处理，以便获得用于由耳机(HP)400B音频再现的双声道音频数据。注意，在通过解码处理获得诸如5.1声道音频数据的多声道音频数据的情况下，音频解码器216将多声道数据下混频到双声道音频数据。

接收模块215处理通过网络接口214接收的客户端发送流，以获得化身的图像数据、关于化身的合成位置信息、对应于化身的字幕显示数据、关于字幕的显示位置信息以及对应于化身的双声道音频数据。

此外，接收模块215A处理由自己的客户端设备200的发送系统200T(参见图8)生成的客户端发送流，以获得化身的图像数据、关于化身的合成位置信息、对应于化身的字幕显示数据、关于字幕的显示位置信息以及对应于化身的双声道音频数据。接收模块215A被安装为在背景图像上合成自己的化身。注意，如果自己的客户端设备200没有设置有发送系统200T(参见图8)，则在接收系统200R(参见图14)中不需要接收模块215A。

图15描绘了接收模块215(215A)的典型配置。接收模块215(215A)包括容器解码器221、元信息分析部222、化身数据库选择部223、化身数据库224、大小转换部225、音频解码器226、渲染器227、字幕解码器228以及字体扩展部229。

容器解码器221从客户端发送流中提取化身元信息、3D音频编码的音频数据以及作为字幕文本信息的TTML。元信息分析部222分析由容器解码器221获得的化身元信息。

元信息分析部222基于化身数据库选择信息(参见图10)获得用于从化身数据库224获得化身的图像数据的选择信息。选择信息包括与化身的整个身体类型相关联的信息“body_type”、与相对于前方定向的化身的角度相关联的信息“body_angle”、与化身的面部表情或情绪的类型相关联的信息“emotional_type”、以及与化身的面角相关联的信息“face_angle”中的每一条。

此外，基于化身渲染控制信息(参见图9)，元信息分析部222获得与背景图像中的允许合成范围中的化身合成位置相关联的信息“avator_center_position_x”和“avator_center_position_y”以及与化身的大小相关联的信息“avator_rendering_size”。

化身数据库选择部223通过参考由元信息分析部222获得的选择信息，基于从化身数据库224获得的化身配置数据来获得化身的图像数据。

图16描绘了化身数据库选择部223的典型配置。化身数据库选择部223包括数据库映射部223a。数据库映射部223a接收与化身的整个身体类型相关联的信息“body_type”、与相对于前方定向的化身的角度相关联的信息“body_angle”、与化身的面部表情或情绪的类型相关联的信息“emotional_type”以及与化身的面角相关联的信息“face_angle”的输入。基于这些信息项，数据库映射部223a从化身数据库224获得化身配置数据，并且映射所获得的数据以获得化身图像数据。

图17描绘了化身数据库224的典型列表。例如，三个状态“直立”、“坐着”以及“躺着”被保持为与化身的整个身体类型相关联的信息“body_type”中的配置数据。此外，作为与相对于前方定向的化身的角度相关联的信息“body_angle”中的配置数据，例如保持六种状态：“面向前方”、“面向后方”、“面向右侧”、“面向左侧”、“面向上方”以及“面向下方”。此外，作为与化身的面部表情或情绪的类型相关联的信息“emotional_type”中的配置数据，例如保持四种状态：“无表情”、“微笑”、“哭泣”以及“生气”。此外，作为与化身的面角相关联的信息“face_angle”中的配置数据，保持两种状态：“直面前方”和“向下”。

返回图15，大小转换部225基于由元信息分析部222获得的大小信息对由化身数据库选择部223获得的化身图像数据执行大小转换处理，从而获得按大小转换的化身图像数据。

音频解码器226对由容器解码器221获得的音频编码的数据执行解码处理，以获得编码的样本数据和对象元数据(语音对象渲染信息)作为对象编码的数据。渲染器227对由音频解码器226获得的编码的样本数据和对象元数据执行渲染处理，以使得背景图像中的化身合成位置与声像位置一致的方式获得用于每个扬声器的声道数据。

图18概述了由渲染器227执行的渲染处理。在图18中，对应于图12的部件由相同的参考字符指定。包括在对象元数据中的化身位置信息(θ，r)对应于作为在HMD 400A上扩展的图像中的化身合成位置的中心坐标的点P。

注意，如上所述，客户端设备200使用包括在化身渲染控制信息(参见图9)中的化身合成位置信息(“avator_center_position_x”，“avator_center_position_y”)来识别点P的坐标。然后，可以使用作为假定查看位置的中心的点P和点Q来获得由渲染器227使用的“方位角”、“半径”以及“仰角”的值(参见图12)。

在这种情况下，“半径”的值可以从***从服务器100发送的语音对象渲染信息(参见图11)中的“半径”值获得，或者从基于包括在化身渲染控制信息(参见图9)中的信息“avator_rendering_size”根据对象(化身)的大小进行调整而获得的“半径”值获得。所获得的值使得可以设置化身合成位置的适当深度位置。

点P被投影到从作为中心查看位置的点Q扩展到各个扬声器的位置的轴Q-LT、Q-LB、Q-RT以及Q-RB上的向量r_LT、r_LB、r_RT以及r_RB。用于每个扬声器的声道数据的声压级被认为对应于四个向量的向量数量。

注意，图18的示例是在HMD 400A上扩展的图像处于默认状态的情况，即，在HMD400A上扩展的图像对应于背景图像中的用于化身的允许合成范围。如上所述，平面转换器214的剪辑范围根据安装在HMD上的传感器检测到的磁头的姿态而改变。

在这种情况下，相应地改变在HMD 400A上扩展的图像中的点P的位置。根据改变量，点P可以位于在HMD 400A上扩展的图像的外部。如果是这种情况，则渲染器227不是基于从化身位置信息(θ，r)获得的点P的位置而是根据点P的改变位置来设置用于每个扬声器的声道数据的声压级。

另外，渲染器227通过如上所述重新映射用于每个扬声器的声道数据来执行声压控制，以在将转换后的数据输出到后者之前将数据转换成双声道音频数据用于由耳机400B再现。注意，如果在客户端侧的音频输出不是由耳机400B而是由扬声器LT、LB、RT以及RB执行，则省略通过重新映射的声压控制。

图19概述了通过由渲染器227执行的重新映射的声压控制。参考字符D_LT、D_LB、D_RT以及D_RB分别表示输出到扬声器LT、LB、RT以及RB的通道数据。指示“左耳”和“右耳”代表用于由耳机400B再现的双声道音频数据。通过重新映射的声压控制涉及在将数据组合和下混频到双声道音频数据之前，在用于每个声道的数据上叠加从扬声器发送到左耳和右耳的声音的发送特性，这被称为磁头相关发送函数(HRTF)。

返回图15，字幕解码器228从由容器解码器221获得的TTML中获得字幕文本数据和控制代码。还获得显示位置信息作为控制代码中的一个。字体扩展部229通过基于字幕文本数据和由字幕解码器228获得的控制代码扩展字体来获得字幕显示数据(位图数据)。

下面是图15中所示的接收模块215(215A)的操作的简要说明。客户端发送流被提供给容器解码器221。容器解码器221从客户端发送流中提取化身元信息、3D音频编码的音频数据以及作为字幕文本信息的TTML。

由容器解码器221提取的化身元信息被提供给元信息分析部222。基于化身数据库选择信息(参见图10)，元信息分析部222从化身数据库224获得用于获得化身图像数据的选择信息。选择信息包括与化身的整个身体类型相关联的信息“body_type”、与相对于前方定向的化身的角度相关联的信息“body_angle”、与化身的面部表情或情绪的类型相关联的信息“emotional_type”、以及与化身的面角相关联的信息“face_angle”中的每一条。

由元信息分析部222获得的选择信息被提供给化身数据库选择部223。化身数据库选择部223基于选择信息从化身数据库224获得化身配置数据。化身数据库选择部223基于化身配置数据映射所获得的数据以获得化身图像数据。

由化身数据库选择部223获得的化身图像数据被提供给大小转换部225。大小转换部225还被提供有由元信息分析部222获得的化身大小信息。根据大小信息，大小转换部225对从化身数据库选择部223提供的化身图像数据执行大小转换处理，以便获得按大小转换的化身图像数据。由大小转换部225获得的化身图像数据与由元信息分析部222获得的化身合成位置信息一起从接收模块215(215A)输出。

此外，由容器解码器221提取的编码的音频数据被提供给音频解码器226。音频解码器226对编码的音频数据执行解码处理，以获得编码的样本数据和对象元数据(语音对象渲染信息)作为对象编码的数据。对象编码的数据被提供给渲染器227。

渲染器227对由音频解码器226获得的对象编码的数据(编码的样本数据和对象元数据)执行渲染处理，以便例如生成放置在HMD 400A上扩展的图像的左上、右上、右下以及左下的用于虚拟扬声器(参见图18)的声道数据，如此背景图像中的化身合成位置与声像的位置一致。

此外，渲染器227通过使用磁头相关传递函数(HRTF)重新映射四声道数据来执行声压控制，以便生成用于由耳机400B再现的双声道音频数据(参见图19)。因此由渲染器227获得的双声道音频数据从接收模块215(215A)输出。

由容器解码器221提取的TTML被提供给字幕解码器228。字幕解码器228从TTML获得字幕文本数据和控制代码。还获得显示位置信息作为控制代码中的一个。

由字幕解码器228获得的字幕文本数据和控制代码被提供给字体扩展部229。基于字幕文本数据和控制代码，字体扩展部229扩展字体以获得字幕显示数据(位图数据)。因此由字体扩展部229获得的字幕显示数据与由字幕解码器228获得的字幕显示位置信息一起从接收模块215(215A)输出。

返回图14，混频器218将由音频解码器216获得的双声道音频数据与由接收模块215和接收模块2215A(参见图15)获得的双声道音频数据合成，以获得要输出到耳机(HP)400B的双声道音频数据。

在控制部201的控制下，合成部219将由接收模块215和接收模块2215A获得的化身图像数据合成在由平面转换器214获得的显示图像数据上，如此基于合成位置信息化身被放置在背景图像中用于化身的允许合成范围中的特定位置。另外，合成部219根据显示位置信息合成由接收模块215和接收模块2215A获得的字幕显示数据，以便获得要输出到HMD400A的显示图像数据。

注意，图14中所示的接收系统200R的典型配置是包括用于处理由自己的客户端设备200的发送系统200T(参见图8)生成的客户端发送流的接收模块215A的示例。可选地，接收模块215A可以被处理由自己的客户端设备200的发送系统200T(参见图8)生成的化身元信息、编码的音频数据以及TTML的模块(即，图15中所示的接收模块215A的容器解码器221除外的配置)或者被接收对应于化身元信息、编码的音频数据以及TTML的其他数据或信息的输入的模块替换以获得类似输出。

下面是图14中所示的接收系统200R的操作的简要说明。网络接口211经由网络300接收来自服务器100的分布式服务器的流。网络接口211还经由网络300接收来自其他客户端设备200的客户端发送流。

由网络接口211接收的分布式服务器的流被提供给容器解码器212。容器解码器212从分布式服务器的流(MP4流)中提取视频流和音频流。

另外，容器解码器212从在初始化段(IS)或在“moof”框中定义的“udta”框中提取视频属性信息框。提取的框被转发到控制部201。这允许控制部201识别指示相机的捕获状态的捕获信息、指示相机位置(捕获位置)的位置信息(GPS数据)以及指示背景图像中的用于化身的允许合成范围的信息。

此外，由容器解码器212提取的视频流被提供给视频解码器213。视频解码器213对视频流执行解码处理以获得背景图像的图像数据。

视频解码器213提取***到视频流中的参数集和SEI消息，并且将提取的信息转发到控制部201。提取的信息还包括视频属性信息SEI消息(参见图4)。这允许控制部201识别指示相机的捕获状态的捕获信息、指示相机位置(捕获位置)的位置信息(GPS数据)以及指示背景图像中的用于化身的允许合成范围的信息。

由视频解码器213获得的背景图像的图像数据被提供给平面转换器214。如果背景图像的图像数据是非线性图像数据，则平面转换器214将非线性图像数据转换为线性图像数据。此外，平面转换器214从背景图像的图像数据中仅剪辑对应于HMD 400A的显示视角的部以获得显示图像数据。

例如，背景图像中的用于化身的允许合成范围的大小被设置为对应于HMD 400A的显示视角。在默认状态下，剪辑对应于允许合成范围的图像数据以获得显示图像数据。此后，例如根据安装在HMD上的传感器检测到的磁头的姿态来改变剪辑范围。

此外，由容器解码器212提取的音频流被提供给音频解码器216。音频解码器216对音频流执行解码处理，以获得用于由耳机(HP)400B音频再现的双声道音频数据。注意，如果通过解码处理获得诸如5.1声道音频数据的多声道音频数据，则音频解码器216将多声道音频数据下混频到双声道音频数据。

此外，由网络接口211接收的来自另一客户端设备200的客户端发送流被提供给接收模块215。接收模块215处理客户端发送流以获得化身的图像数据、关于化身的合成位置信息、对应于化身的字幕显示数据、关于字幕的显示位置信息以及对应于化身的双声道音频数据(参见图15)。

此外，由自己的客户端设备200的发送系统200T(参见图8)生成的客户端发送流被提供给接收模块215A。与接收模块215一样，接收模块215A处理客户端发送流以获得化身的图像数据、关于化身的合成位置信息、对应于化身的字幕显示数据、关于字幕的显示位置信息以及对应于化身的双声道音频数据(参见图15)。

由音频解码器216获得的双声道音频数据被提供给混频器218。混频器218还被提供有由接收模块215和接收模块215A获得的双声道音频数据。混频器218将由音频解码器216获得的双声道音频数据与由接收模块215和接收模块215A获得的双声道音频数据合成，以获得要输出到耳机(HP)400B的双声道音频数据。

由平面转换器214获得的显示图像数据被提供给合成部219。合成部219还被提供有由接收模块215和接收模块215A获得的化身图像数据、化身合成位置信息、字幕显示数据以及显示位置信息。合成部219基于合成位置信息将由接收模块215和接收模块215A获得的化身图像数据合成在由平面转换器214获得的显示图像数据上，如此化身被放置在背景图像中的用于化身的允许合成范围中的特定位置。此外，合成部219基于显示位置信息合成由接收模块215和接收模块215A获得的字幕显示数据，从而获得要输出到HMD 400A的显示图像数据。

图20描绘了典型的背景图像。虚线矩形框表示用于化身的允许合成范围(sy_window)。该背景图像的中心(由字符“+”表示)表示对应于视频属性信息SEI消息(参见图4)中或视频属性信息框(参见图7)中的信息“camera_direction”和“camera_V_angle”的位置。

图21描绘了其中化身和字幕在背景图像中的允许合成范围(sy_window)中合成的典型状态。在所示的示例中，呈现合成了三个化身A1、A2和A3以及两行字幕。在这种情况下，化身A1和与其相关联的字幕来自其信息“client_id”被给出为“0xA1”的客户端(客户端设备200)。化身A2来自其信息“client_id”是“0xA2”的客户端。此外，化身A3和与其相关联的字幕来自其信息“client_id”是“0xA3”的客户端(客户端设备200)。

在图1所示的空间共享显示系统10中，如上所述，客户端设备200各自基于化身元信息在背景图像的图像数据中生成化身图像数据，并且在背景图像的图像数据上合成所生成的化身图像数据。因此，每个客户端可以识别在公共背景图像上合成的其他客户端的化身。这允许客户端在愉快地彼此进行通信中共享它们的VR空间。

同样在图1所示的空间共享显示系统10中，对应于化身元信息的音频数据与对象元数据一起被包括在客户端发送流中。客户端设备200可以以反映对象元数据的方式对音频数据执行渲染处理，以获得具有与声像位置一致的化身合成位置的音频输出数据。这允许每个客户端识别好像在背景图像中的其合成位置处合成的每个化身发出由化身表示的客户端的声音一样。

同样在图1所示的空间共享显示系统10中，对应于化身元信息的字幕数据与显示位置信息一起被包括在客户端发送流中。客户端设备200可以基于显示位置信息在背景图像的图像数据上合成字幕显示数据，如此在对应于化身合成位置的位置处显示来自字幕数据的字幕。这允许每个客户端在对应于背景图像中的化身的合成位置的位置处识别来自由每个化身表示的客户端的字幕。

同样在图1所示的空间共享显示系统10中，指示背景图像中的用于化身的允许合成范围的信息被发送***通过编码背景图像的图像数据而获得的视频流的层中和/或包括视频流的分布式服务器的流的层中。这使得客户端设备200容易基于指示允许的合成范围的信息并以服务器100所期望的方式将每个客户端的化身放置在背景图像中。

2.变型例

注意，在上述实施方式中，例如，将每个客户端设备200与HMD 400A分开设置。可选地，HMD 400A和客户设备200可以整体地配置。此外，尽管未在上面讨论，但是拍摄的图像可以用作化身。

同样在上述实施方式中，容器例如是MP4流(ISOBMFF)。然而，根据本技术，除了MP4之外，容器也可以可选地是任何合适的格式，例如MPEG-2或MMT。

当实施时，本技术可以优选地配置如下：

(1)一种客户端设备，包括：

控制部，被配置为控制解码视频流以获得背景图像的解码处理、基于代理图像元信息生成代理图像的代理图像数据生成处理、以及基于背景图像合成代理图像的图像数据合成处理。

(2)如上文第(1)项所述的客户端设备，其中，指示背景图像中的用于代理图像的允许合成范围的信息被***视频流的层中和/或分布式服务器的流的层中；以及

基于指示允许合成范围的信息，控制部可以控制合成处理，使得代理图像被放置在背景图像中的允许合成范围内。

(3)如上文第(2)项所述的客户端设备，其中，代理图像元信息包括指示用于代理图像的允许合成范围内的合成位置的合成位置信息；以及

控制部能够以在由合成位置信息指示的合成位置处合成代理图像的方式控制合成处理。

(4)如上文第(2)或(3)项所述的客户端设备，其中，代理图像元信息包括指示代理图像的大小的大小信息；以及

控制部控制合成处理，从而根据由大小信息指示的大小在背景图像上合成代理图像。

(5)如上文第(3)项所述的客户端设备，其中，客户端发送流包括对应于代理图像元信息的音频数据以及对象元数据；以及

控制部还执行音频输出处理，其中，对音频数据执行对应于对象元数据的渲染处理，以获得其声像位置与代理图像的合成位置一致的音频输出数据。

(6)如上文第(3)或(5)项所述的客户端设备，其中，客户端发送流包括对应于代理图像元信息的字幕数据以及显示位置信息；以及

控制部还控制字幕合成处理，以基于显示位置信息在背景图像上合成字幕显示数据，从而在对应于代理图像的合成位置的位置处显示由字幕数据表示的字幕。

(7)如上文第(1)至(6)项中任一项所述的客户端设备，还包括发送部，被配置为将客户端发送流发送到另一客户端设备，该客户端发送流包括用于显示自己的客户端的代理图像的代理图像元信息；

其中，代理图像数据生成处理还基于用于显示自己的客户端的代理图像的代理图像元信息生成自己的客户端的代理图像。

(8)如上文第(1)至(7)项中任一项所述的客户端设备，其中，背景图像是宽视角图像的图像数据；

控制部还控制剪辑背景图像的一部分以获得显示图像数据的图像剪辑处理。

(9)一种客户端设备处理方法，包括：

接收步骤，用接收部从服务器接收包括通过编码背景图像而获得的视频流的分布式服务器的流，并且还从另一客户端设备接收客户端发送流，该客户端发送流包括用于显示其他客户端的代理图像的代理图像元信息；以及

控制步骤，使控制部控制解码视频流以获得背景图像的解码处理、基于代理图像元信息生成代理图像的代理图像数据生成处理、以及在背景图像上合成代理图像的图像数据合成处理。

(10)一种服务器，包括：

成像部，被配置为对被摄体成像以获得背景图像；以及

发送部，被配置为将分布式服务器的流发送到客户端设备，该分布式服务器的流包括通过编码背景图像获得的视频流；

其中，指示背景图像中的用于代理图像的允许合成范围的信息被***视频流的层中和/或分布式服务器的流的层中。

(11)如上文第(10)项所述的服务器，其中，背景图像是宽视角图像的图像数据。

(12)一种服务器处理方法，包括：

成像步骤，使成像部对被摄体成像以获得背景图像；以及

发送步骤，使发送部将分布式服务器的流发送到客户端设备，该分布式服务器的流包括通过编码背景图像获得的视频流；

其中，指示背景图像中的用于代理图像的允许合成范围的信息被***视频流的层中和/或分布式服务器的流的层中。

(13)一种客户端设备，包括：

接收器，被配置为接收来自服务器的分布式服务器的流，该分布式服务器的流包括通过编码背景图像获得的视频流，背景图像具有至少180度的视角，接收器还被配置为接收来自另一客户端设备的客户端发送流，该客户端发送流包括对应于另一客户端的代表图像的代表图像元信息；以及

控制器，被配置为

控制解码视频流以获得背景图像的解码处理，

基于代表图像元信息生成代表图像的代表图像数据生成处理，以及

基于背景图像合成代表图像的图像数据合成处理。

(14)根据(13)的客户端设备，其中，指示背景图像中的用于代表图像的允许合成范围的信息被***视频流的层中和/或分布式服务器的流的层中；以及

基于指示允许合成范围的信息，控制部可以控制合成处理，如此代理图像被放置在背景图像中的允许合成范围内。

(15)根据(14)的客户端设备，其中，代表图像元信息包括指示用于代表图像的允许合成范围内的合成位置的合成位置信息；以及

控制器被配置为控制合成处理，如此在由合成位置信息指示的合成位置处合成代表图像。

(16)根据(14)的客户端设备，其中，代表图像元信息包括指示代表图像的大小的大小信息；以及

控制器被配置为控制合成处理，如此根据由大小信息指示的大小在背景图像上合成代表图像。

(17)根据(15)的客户端设备，其中，客户端发送流包括对应于代表图像元信息的音频数据以及对象元数据；以及

控制器还被配置为执行音频输出处理，其中，对音频数据执行对应于对象元数据的渲染处理，以获得其声像位置与代表图像的合成位置一致的音频输出数据。

(18)根据(15)的客户端设备，其中，客户端发送流包括对应于代表图像元信息的文本数据以及显示位置信息；以及

控制器还被配置为控制文本合成处理，以基于显示位置信息在背景图像上合成文本显示数据，如此在对应于代表图像的合成位置的位置处显示由文本数据表示的文本。

(19)根据(13)的客户端设备，还包括发送器，被配置为将客户端发送流发送到另一客户端设备，该客户端发送流包括用于显示另一客户端的代表图像的代表图像元信息；

其中，代表图像数据生成处理还基于用于显示另一客户端的代表图像的代表图像元信息生成另一客户端的代表图像。

(20)根据(13)的客户端设备，其中，背景图像是宽视角图像的图像数据，该宽视角为270度或更大；

控制器还控制剪辑背景图像的一部分以获得显示图像数据的图像剪辑处理。

(21)一种客户端设备处理方法，包括：

使用接收器接收来自服务器的分布式服务器的流，该分布式服务器的流包括通过编码背景图像获得的视频流，发送器图像具有至少180度的视角，并且还接收来自另一客户端设备的客户端发送流，该客户端发送流包括用于显示另一客户端的代表图像的代表图像元信息；以及

用控制器控制

解码视频流以获得背景图像的解码处理，

基于代表图像元信息生成代表图像的代表图像数据生成处理，以及

基于背景图像合成代表图像的图像数据合成处理。

(22)一种服务器，包括：

成像装置，被配置为捕获被摄体的图像以获得背景图像，该背景图像具有至少180度的视角；以及

发送器，被配置为将分布式服务器的流发送到客户端设备，该分布式服务器的流包括通过编码背景图像获得的视频流；

其中，指示背景图像中的用于代表图像的允许合成范围的信息被***视频流的层中和/或分布式服务器的流的层中。

(23)根据(22)的服务器，其中，用于背景图像的图像数据是宽视角图像的图像数据，该宽视角为至少180度。

(24)一种具有计算机可读指令的非暂时性计算机可读介质，该计算机可读指令在由处理器执行时执行方法，该方法包括：

使用接收器从服务器接收包括通过编码背景图像获得的视频流的分布式服务器的流，发送器图像具有至少180度的视角，并且还从另一客户端设备接收客户端发送流，该客户端发送流包括用于显示另一客户端的代表图像的代表图像元信息；以及

用控制器控制

解码视频流以获得背景图像的解码处理，

基于代表图像元信息生成代表图像的代表图像数据生成处理，并且

基于背景图像合成代表图像的图像数据合成处理。

本技术的主要特征是化身元信息被包括在来自另一个客户端设备的客户端发送流中。在背景图像上合成根据化身元信息生成的化身的图像数据。这允许每个客户端识别在公共背景图像上合成的其他客户端的化身。因此，客户端可以在愉快地彼此进行通信中共享它们的VR空间(参见图2和图21)。

参考标记列表

10 空间共享显示系统

100 服务器

101 控制部

101a 用户操作部

102 ***

103 视频捕获装置

104 格式转换部

105 视频编码器

106 音频捕获装置

108 音频编码器

109 容器编码器

110 网络接口

111 总线

200 客户端设备

200T 发送系统

200R 接收系统

201 控制部

201a 用户操作部

202 元数据生成器

203 音频捕获装置

204 对象信息生成部

205 音频编码器

206 字符生成部

207 字幕编码器

208 容器编码器

209 网络接口

210 总线

211 网络接口

212 容器解码器

213 视频解码器

214 平面转换器

215、215A 接收模块

216 音频解码器

218 混频器

219 合成部

221 容器编码器

222 元信息分析部

223 化身数据库选择部

223a 数据库映射部

224 化身数据库

225 大小转换部

226 音频解码器

227 渲染器

228 字幕解码器

229 字体扩展部

300 网络

400A 头戴式显示器(HMD)

400B 耳机(HP)。

45页详细技术资料下载

客户端设备、客户端设备处理方法、服务器以及服务器处理方法

相关技术

网友询问留言