将以不同格式捕获的音频信号转换为减少数量的格式以简化编码及解码操作

文档序号：1026960 发布日期：2020-10-27 浏览：8次 >En<

阅读说明：本技术 将以不同格式捕获的音频信号转换为减少数量的格式以简化编码及解码操作 (Converting audio signals captured in different formats to a reduced number of formats to simplify encoding and decoding operations ) 是由 S·布鲁恩 M·埃克特 J·F·托里斯 S·布朗 D·S·麦格拉思于 2019-10-07 设计创作，主要内容包括：所公开实施例实现将由各种捕获装置以各种格式捕获的音频信号转变成可由音频编解码器(例如,沉浸式语音及音频服务IVAS编解码器)处理的有限数量的格式。在实施例中,音频装置的简化单元接收由耦合到所述音频装置的一或多个音频捕获装置捕获的音频信号。所述简化单元确定所述音频信号是否呈所述音频装置的编码单元支持/不支持的格式。基于所述确定,所述简化单元将所述音频信号转变成所述编码单元支持的格式。在实施例中,如果所述简化单元确定所述音频信号呈空间格式,那么所述简化单元可将所述音频信号转变成所述编码支持的空间“夹层”格式。(The disclosed embodiments enable the conversion of audio signals captured in various formats by various capture devices into a limited number of formats that can be processed by an audio codec (e.g., an immersive speech and audio service IVAS codec). In an embodiment, a simplified unit of an audio device receives audio signals captured by one or more audio capture devices coupled to the audio device. The reduction unit determines whether the audio signal is in a format supported/unsupported by an encoding unit of the audio device. Based on the determination, the reduction unit translates the audio signal into a format supported by the encoding unit. In an embodiment, if the simplification unit determines that the audio signal is in a spatial format, the simplification unit may transform the audio signal into a spatial "mezzanine" format supported by the encoding.)

相关申请案的交叉参考

本申请案主张于2018年10月8日申请的第62/742,729号美国临时专利申请案的优先权权利，所述案的全文以引用的方式并入。

技术领域

本发明的实施例大体上涉及音频信号处理，且更明确来说涉及经捕获音频信号的分配。

背景技术

语音及视频编码器/解码器(“编解码器”)标准开发最近集中于开发用于沉浸式语音及音频服务(IVAS)的编解码器。预期IVAS将支持一系列服务能力，例如关于单声道到立体声到完全沉浸式音频编码、解码及渲染的操作。合适IVAS编解码器还提供针对不同传输条件下的封包丢失及延迟抖动的高误差稳健性。IVAS希望由广泛范围的装置、端点及网络节点支持，包含(但不限于)移动及智能电话、电子平板计算机、个人计算机、会议电话、会议室、虚拟现实及增强现实装置、家庭影院装置及其它合适装置。因为这些装置、端点及网络节点可具有用于声音捕获及渲染的各种声接口，所以IVAS编解码器解决其中捕获及渲染音频信号的所有不同方式可能不切实际。

发明内容

所公开实施例能够将由各种捕获装置以各种格式捕获的音频信号转变成可由编解码器(例如，IVAS编解码器)处理的有限数量的格式。

在一些实施例中，建置于音频装置中的简化单元接收音频信号。所述音频信号可为由与所述音频装置耦合的一或多个音频捕获装置捕获的信号。例如，所述音频信号可为不同位置处的人之间的视频会议的音频。所述简化单元确定所述音频信号是否呈所述音频装置的编码单元(通常被称为“编码器”)不支持的格式。例如，简化单元可确定音频信号是否呈单声道、立体声或标准或专有空间格式。基于确定音频信号呈编码单元不支持的格式，简化单元将音频信号转变成编码单元支持的格式。例如，如果简化单元确定音频信号呈专有空间格式，那么简化单元可将音频信号转变成编码单元支持的空间“夹层”格式。简化单元将所述经转变音频信号传送到编码单元。

所公开实施例的优点在于，可通过将可能较大数量的音频捕获格式减少为有限数量的格式(例如，单声道、立体声及空间)而降低编解码器(例如，IVAS编解码器)的复杂性。因此，可将所述编解码器部署于各种装置上，不考虑所述装置的音频捕获能力。

这些及其它方面、特征及实施例可被表示为用于执行功能的方法、设备、系统、组件、程序产品、方式或步骤及以其它方式表示。

在一些实施方案中，音频装置的简化单元接收呈第一格式的音频信号。所述第一格式是所述音频装置支持的多个音频格式的集合中的一者。所述简化单元确定音频装置的编码器是否支持第一格式。根据所述编码器不支持第一格式，简化单元将音频信号转变成编码器支持的第二格式。所述第二格式是第一格式的替代表示。简化单元将呈第二格式的音频信号传送到编码器。编码器编码音频信号。音频装置存储所述经编码音频信号或将所述经编码音频信号传输到一或多个其它装置。

将音频信号转变成第二格式可包含产生用于音频信号的元数据。所述元数据可包含音频信号的一部分的表示。编码音频信号可包含将呈第二格式的音频信号编码成第二装置支持的输送格式。音频装置可通过传输包括第二格式不支持的音频信号的一部分的表示的元数据而传输所述经编码音频信号。

在一些实施方案中，由简化单元确定音频信号是否呈第一格式可包含确定音频捕获装置的数量及用于捕获音频信号的每一捕获装置的对应位置。一或多个其它装置中的每一者可经配置以从第二格式重现音频信号。一或多个其它装置中的至少一者可能无法从第一格式重现音频信号。

第二格式可将音频信号表示为音频场景中的音频对象的数量，两者都依靠用于载送空间信息的音频通道的数量。第二格式可包含用于载送空间信息的另一部分的元数据。第一格式及第二格式都可为空间音频格式。第二格式可为空间音频格式且第一格式可为与元数据相关联的单声道格式或与元数据相关联的立体声格式。音频装置支持的多个音频格式的集合可包含多个空间音频格式。第二格式可为第一格式的替代表示且其进一步特征在于实现可比程度的体验质量。

在一些实施方案中，音频装置的渲染单元接收呈第一格式的音频信号。所述渲染单元确定所述音频装置是否能够重现呈所述第一格式的所述音频信号。响应于确定音频装置无法重现呈第一格式的音频信号，渲染单元调适音频信号以在第二格式下可用。渲染单元传送呈第二格式的音频信号以用于渲染。

在一些实施方案中，由渲染单元将音频信号转变成第二格式可包含使用包含用于编码的第四格式不支持的音频信号的一部分的表示的元数据连同呈第三格式的音频信号。此处，在简化单元的上下文中所述第三格式对应于术语“第一格式”，所述“第一格式”是编码器侧处支持的多个音频格式的集合中的一者。在简化单元的上下文中，所述第四格式对应于术语“第二格式”，所述“第二格式”是编码器支持的格式且是第三格式的替代表示。在本说明书中的此处及别处，术语第一、第二、第三及第四是用于识别且并不一定指示特定顺序。

解码单元接收呈输送格式的音频信号。所述解码单元将呈所述输送格式的音频信号解码成第一格式，且将呈第一格式的音频信号传送到渲染单元。在一些实施方案中，调适音频信号以在第二格式下可用可包含调适解码以产生呈第二格式的经接收音频。在一些实施方案中，多个装置中的每一者经配置以重现呈第二格式的音频信号。多个装置中的一或多者无法重现呈第一格式的音频信号。

在一些实施方案中，简化单元从声预处理单元接收呈多个格式的音频信号。所述简化单元从装置接收所述装置的属性，所述属性包含所述装置支持的一或多个音频格式的指示。所述一或多个音频格式包含单声道格式、立体声格式或空间格式中的至少一者。简化单元将音频信号转变成作为一或多个音频格式的替代表示的摄取格式。简化单元将所述经转变的音频信号提供到编码单元以进行下游处理。声预处理单元、简化单元及所述编码单元中的每一者可包含一或多个计算机处理器。

在一些实施方案中，编码系统包含：捕获单元，其经配置以捕获音频信号；声预处理单元，其经配置以执行包括预处理所述音频信号的操作；编码器；及简化单元。所述简化单元经配置以执行以下操作。简化单元从所述声预处理单元接收呈第一格式的音频信号。所述第一格式是所述编码器支持的多个音频格式的集合中的一者。简化单元确定编码器是否支持第一格式。响应于确定编码器不支持第一格式，简化单元将音频信号转变成编码器支持的第二格式。简化单元将呈所述第二格式的音频信号传送到编码器。编码器经配置以执行包含以下项的操作：编码音频信号；及存储所述经编码音频信号或将所述经编码音频信号传输到另一装置中的至少一者。

在一些实施方案中，将音频信号转变成第二格式包含产生用于音频信号的元数据。所述元数据可包含第二格式不支持的音频信号的一部分的表示。编码器的操作可进一步包含通过传输包含第二格式不支持的音频信号的一部分的表示的元数据而传输经编码音频信号。

在一些实施方案中，第二格式将音频信号音频表示为音频场景中的对象的数量及用于载送空间信息的通道的数量。在一些实施方案中，预处理音频信号可包含执行噪声消除、执行回波消除、减少音频信号的通道的数量、增加音频信号的音频通道的所述数量或产生声元数据中的一或多者。

在一些实施方案中，解码系统包含解码器、渲染单元及回放单元。所述解码器经配置以执行包含(例如)将音频信号从输送格式解码成第一格式的操作。所述渲染单元经配置以执行以下操作。渲染单元接收呈所述第一格式的音频信号。渲染单元确定音频装置是否能够重现呈第二格式的音频信号。所述第二格式实现比第一格式使用更多输出装置。响应于确定所述音频装置能够重现呈第二格式的音频信号，渲染单元将音频信号转变成第二格式。渲染单元渲染呈第二格式的音频信号。回放单元经配置以执行包含起始在扬声器系统上播放经渲染音频信号的操作。

在一些实施方案中，将音频信号转变成第二格式可包含使用包含用于编码的第四格式不支持的音频信号的一部分的表示的元数据连同呈第三格式的音频信号。此处，在简化单元的上下文中所述第三格式对应于术语“第一格式”，所述“第一格式”是编码器侧处支持的多个音频格式的集合中的一者。在简化单元的上下文中所述第四格式对应于术语“第二格式”，所述“第二格式”是编码器支持的格式且是第三格式的替代表示。

在一些实施方案中，解码器的操作可进一步包含接收呈输送格式的音频信号及将呈第一格式的音频信号传送到渲染单元。

将从包含技术方案的以下描述明白这些及其它方面、特征及实施例。

附图说明

在图式中，为便于描述，展示示意性元件(例如表示装置、单元、指令块及数据元素的元件)的特定布置或排序。然而，所属领域的技术人员应理解，图式中的示意性元件的特定排序或布置并不希望暗示需要特定处理顺序或序列或过程分离。此外，在图式中包含示意性元件并不希望暗示在所有实施例中需要此元件或由此元件表示的特征可能不包含于一些实施例中的其它元件中或结合一些实施例中的其它元件。

此外，在图式中，在使用连接元件(例如实线或虚线或箭头)来说明两个或两个以上其它示意性元件之间或中间的连接、关系或关联的情况下，不存在任何此类连接元件并不希望暗示无连接、关系或关联可存在。换句话来说，在图式中未展示元件之间的一些连接、关系或关联以免模糊本发明。另外，为便于说明，使用单个连接元件来表示元件之间的多个连接、关系或关联。例如，在连接元件表示信号、数据或指令的通信的情况下，所属领域的技术人员应理解，此元件表示如实现所述通信可能需要的一或多个信号路径。

图1说明根据本发明的一些实施例的IVAS系统可支持的各种装置。

图2A是根据本发明的一些实施例的用于将经捕获音频信号转换为准备用于编码的格式的系统的框图。

图2B是根据本发明的一些实施例的用于将经捕获音频转换回成合适回放格式的系统的框图。

图3是根据本发明的一些实施例的用于将音频信号转换为编码单元支持的格式的实例性动作的流程图。

图4是根据本发明的一些实施例的用于确定音频信号是否呈编码单元支持的格式的实例性动作的流程图。

图5是根据本发明的一些实施例的用于将音频信号转换为合适回放格式的实例性动作的流程图。

图6是根据本发明的一些实施例的用于将音频信号转换为可用回放格式的实例性动作的另一流程图。

图7是根据本发明的一些实施例的用于实施参考图1到6所描述的特征的硬件架构的框图。

具体实施方式

在以下描述中，出于解释目的，陈述众多具体细节以提供对本发明的透彻理解。然而，将明白，可在没有这些具体细节的情况下实践本发明。

现将详细参考实施例，其实例在附图中进行说明。在以下详细描述中，陈述众多具体细节以提供对各个所描述实施例的透彻理解。然而，所属领域的一般技术人员将明白，可在不具有这些具体细节的情况下实践各个所描述实施例。在其它例子中，未详细描述众所周知的方法、程序、组件及电路以免不必要地模糊实施例的方面。以下描述可各自彼此独立使用或与其它特征的任何组合一起使用的若干特征。

如本文中所使用，术语“包含”及其变体应被解读为意味着“包含(但不限于)”的开放式术语。术语“或”应被解读为“及/或”，除非上下文另有明确规定。术语“基于”应被解读为“至少部分基于”。

图1说明IVAS系统可支持的各种装置。在一些实施方案中，这些装置通过呼叫服务器102通信，所述呼叫服务器102可从(例如)通过公用交换电话网(PSTN)或公用陆地移动网络装置(PLMN)说明的PSTN/其它PLMN装置104接收音频信号。此装置可使用G.711及/或G.722标准用于音频(话音)压缩及解压缩。装置104通常仅能够捕获及渲染单声道音频。IVAS系统经启用以也支持旧型用户设备106。所述旧型装置可包含增强型语音服务(EVS)装置、自适应多速率宽带(AMR-WB)话音到音频译码标准支持装置、自适应多速率窄带(AMR-NB)支持装置及其它合适装置。这些装置通常仅渲染及捕获单声道音频。

IVAS系统也经启用以支持捕获及渲染呈各种格式(包含高级音频格式)的音频信号的用户设备。例如，IVAS系统经启用以支持立体声捕获及渲染装置(例如，用户设备108、膝上型计算机114及会议室系统118)；单声道捕获及双声道渲染装置(例如，用户装置110及计算机装置112)；沉浸式捕获及渲染装置(例如，会议室使用设备116)；立体声捕获及沉浸式渲染装置(例如，家庭影院120)；单声道捕获及沉浸式渲染(例如，虚拟现实(VR)装备122)；沉浸式内容摄取124及其它合适装置。为直接支持所有这些格式，用于IVAS系统的编解码器将需要安装起来非常复杂且昂贵。因此，将需要用于在编码阶段之前简化编解码器的系统。

尽管以下描述集中于IVAS系统及编解码器，但所公开实施例可应用于用于任何音频系统的任何编解码器，其中优点在于，将较大数量的音频捕获格式减少为较小数量以降低音频编解码器的复杂性或用于任何其它所要原因。

图2A是根据本发明的一些实施例的用于将经捕获音频信号转换为准备用于编码的格式的系统200的框图。捕获单元210从一或多个捕获装置(例如，麦克风)接收音频信号。例如，捕获单元210可从一个麦克风接收音频信号(例如，单声道信号)、从两个麦克风接收音频信号(例如，立体声信号)、从三个麦克风或从另一数量及配置的音频捕获装置接收音频信号。捕获单元210可包含一或多个第三方的定制，其中所述定制可特定于所使用的捕获装置。

在一些实施方案中，用一个麦克风捕获单声道音频信号。例如，可用如图1中所说明的PSTN/PLMN电话104、旧型用户设备106、具有免提耳机的用户装置110、具有经连接耳机的计算机装置112及虚拟现实装备122捕获所述单声道信号。

在一些实施方案中，捕获单元210接收使用各种录制/麦克风技术捕获的立体声音频。例如，可由用户设备108、膝上型计算机114、会议室系统118及家庭影院120捕获立体声音频。在一个实例中，用相同位置处的以约90度或更大的扩展角放置的两个指向性麦克风捕获立体声音频。立体声效果由通道间层级差所引起。在另一实例中，立体声音频由两个空间移位的麦克风捕获。在一些实施方案中，所述空间移位的麦克风是全向麦克风。此配置中的立体声效果由通道间层级差及通道间时间差所引起。麦克风之间的距离对经感知立体声宽度具有相当大影响。在又另一实例中，用具有17厘米位移及110度的扩展角的两个指向性麦克风捕获音频。此系统通常被称为Office de Radiodiffusion Télévision(“ORTF”)立体声麦克风系统。又另一立体声捕获系统包含具有不同特性的两个麦克风，所述两个麦克风经布置使得一个麦克风信号是中间信号且另一个麦克风信号是旁侧信号。此布置通常被称为中间-旁侧(M/S)录制。来自M/S的信号的立体声效果通常建立在通道间层级差上。

在一些实施方案中，捕获单元210接收使用多麦克风技术捕获的音频。在这些实施方案中，音频的捕获涉及三个或三个以上麦克风的布置。通常需要此布置用于捕获空间音频且此布置也可有效地执行环境噪声抑制。在麦克风数量增加时，可由麦克风捕获的空间场景的细节数量也增加。在一些例子中，当麦克风数量增加时，还改进经捕获场景的准确度。例如，以免提模式操作的图1的各种用户设备(UE)可利用多个麦克风以产生单声道、立体声或空间音频信号。此外，具有多个麦克风的开放式膝上型计算机114可用于产生立体声捕获。一些制造商发行具有两到四个微机电系统(“MEMS”)麦克风的膝上型计算机，从而允许立体声捕获。例如，可在会议室用户设备216中实施多麦克风沉浸式音频捕获。

经捕获音频通常在被摄取到语音或音频编解码器中之前经历预处理阶段。因此，声预处理单元220从捕获单元210接收音频信号。在一些实施方案中，声预处理单元220执行噪声及回波消除处理、通道降混及升混(例如，减少或增加音频通道的数量)及/或任何种类的空间处理。声预处理单元220的音频信号输出通常适用于编码及传输到其它装置。在一些实施方案中，声预处理单元220的特定设计是由装置制造商执行，这是因为所述特定设计取决于用特定装置进行音频捕获的细节。然而，由相关声接口规范设置的要求可对这些设计设置限制，且确保满足特定质量要求。执行声预处理的目的是产生IVSA编解码器支持的一或多个不同种类的音频信号或音频输入格式以实现各种IVAS目标使用案例或服务层级。取决于与这些使用案例相关联的特定IVAS服务要求，可能需要IVAS编解码器来支持单声道、立体声及空间格式。

通常，当单声道格式是唯一可用格式(例如，基于捕获装置的类型，例如，如果发送装置的捕获能力受限)时，使用单声道格式。对于立体声音频信号，声预处理单元220将经捕获信号转变成满足特定惯例(例如，通道排序左-右惯例)的正规化表示。对于M/S立体声捕获，此过程可涉及(例如)矩阵操作，使得使用左-右惯例表示信号。在预处理之后，立体声信号满足特定惯例(例如，左-右惯例)。然而，移除关于特定立体声捕获装置的信息(例如，麦克风数量及配置)。

对于空间格式，在声预处理之后获得的空间输入信号或特定空间音频格式的种类可取决于发送装置类型及发送装置用于捕获音频的能力。同时，IVAS服务需求可能需要的空间音频格式包含低分辨率空间、高分辨率空间、元数据辅助的空间音频(MASA)格式，及高阶环境立体声(“HOA”)输送格式(HTF)或甚至其它空间音频格式。因此，具有空间音频能力的发送装置的声预处理单元220必须准备提供满足这些要求的适当格式中的空间音频信号。

低分辨率空间格式包含空间WXY、一阶环境立体声(“FOA”)及其它格式。空间WXY格式涉及其中省略高度分量(Z)的三通道一阶平面B格式音频表示。此格式对于其中空间分辨率要求并非很高且其中空间高度分量可被视为不相关的比特率高效沉浸式电话及沉浸式会议情景是有用的。所述格式对于会议电话特别有用，这是因为其使接收客户端能够执行在具有多个参与者的会议室中捕获的会议场景的沉浸式渲染。同样地，所述格式适用于在虚拟会议室中空间安排会议参与者的会议服务器。相比之下，FOA含有高度分量(Z)作为第4分量信号。FOA表示与低速率VR应用有关。

高分辨率空间格式包含基于通道、对象及场景的空间格式。取决于所涉及的音频分量信号的数量，这些格式中的每一者允许以实际上无限制的分辨率表示空间音频。然而，出于各种原因(例如，比特率限制及复杂性限制)，相对较少分量信号(例如，十二个)存在实际限制。其它空间格式包含或可依靠MASA或HTF格式。

要求支持IVAS的装置以支持上文所论述的大量及各种音频输入格式可导致在复杂性、存储器占用面积、实施方案测试及维护方面的巨大成本。然而，并非所有装置将具有支持所有音频格式的能力或受益于支持所有音频格式。例如，可具有仅支持立体声但不支持空间捕获的IVAS启用装置。其它装置可仅支持低分辨率空间输入，而另一类别的装置可仅支持HOA捕获。因此，不同装置将仅利用音频格式的特定子集。因此，如果IVAS编解码器必须支持所有音频格式的直接译码，那么IVAS编解码器将变得不必要地复杂及昂贵。

为解决此问题，图2A的系统200包含简化单元230。声预处理单元220将音频信号传送到简化单元130。在一些实施方案中，声预处理单元220产生连同音频信号一起传送到简化单元230的声元数据。所述声元数据可包含与音频信号有关的数据(例如，格式元数据，例如单声道、立体声、空间)。声元数据还可包含噪声消除数据及(例如)与捕获单元210的物理或几何性质有关的其它合适数据。

简化单元230将装置支持的各种输入格式转变成减少的通用编解码器摄取格式集合。例如，IVAS编解码器可支持三种摄取格式：单声道、立体声及空间。虽然单声道及立体声格式类似或相同于如由声预处理单元产生的相应格式，但空间格式可为“夹层”格式。夹层格式是可准确地表示从声预处理单元220获得且在上文所论述的任何空间音频信号的格式。此包含以基于任何通道、对象及场景的格式(或其组合)表示的空间音频。在一些实施方案中，夹层格式可将音频信号表示为音频场景中的对象的数量及用于载送用于所述音频场景的空间信息的通道的数量。另外，夹层格式可表示MASA、HTF或其它空间音频格式。合适空间夹层格式可将空间音频表示为m个对象及第n阶HOA(“mObj+HOAn”)，其中m及n是包含零的低整数。

图3的过程300说明用于将音频数据从第一格式转换为第二格式的实例性动作。在302，简化单元230(例如)从声预处理单元220接收音频信号。如上文所论述，从声预处理单元220接收的所述音频信号可为已执行噪声及回波消除处理以及执行通道降混及升混处理(例如，减少或增加音频通道的数量)的信号。在一些实施方案中，简化单元230接收声元数据连同音频信号。声元数据可包含格式指示及如上文所论述的其它信息。

在304，简化单元230确定音频信号是否呈音频装置的编码单元240支持或不支持的第一格式。例如，如图2A中所展示，音频格式检测单元232可分析从声预处理单元220接收的音频信号且识别所述音频信号的格式。如果音频格式检测单元232确定音频信号呈单声道格式或立体声格式，那么简化单元230将信号传递到编码单元240。然而，如果音频格式检测单元232确定信号呈空间格式，那么音频格式检测单元232将音频信号传递到转换单元234。在一些实施方案中，音频格式检测单元232可使用声元数据以确定音频信号的格式。

在一些实施方案中，简化单元230通过确定用于捕获音频信号的音频捕获装置(例如，麦克风)的数量、配置或位置而确定音频信号是否呈第一格式。例如，如果音频格式检测单元232确定音频信号是由单个捕获装置(例如，单个麦克风)捕获，那么音频格式检测单元232可确定所述音频信号是单声道信号。如果音频格式检测单元232确定音频信号是由彼此成特定角度的两个捕获装置捕获，那么音频格式检测单元232可确定所述信号是立体声信号。

图4是根据本发明的一些实施例的用于确定音频信号是否呈编码单元支持的格式的实例性动作的流程图。在402，简化单元230存取音频信号。例如，音频格式检测单元232可接收音频信号作为输入。在404，简化单元230确定音频装置的声捕获配置，例如，用于捕获音频信号的麦克风的数量及麦克风的位置配置。例如，音频格式检测单元232可分析音频信号且确定三个麦克风定位于空间内的不同位置处。在一些实施方案中，音频格式检测单元232可使用声元数据以确定声捕获配置。即，声预处理单元220可产生指示每一捕获装置的位置及捕获装置的数量的声元数据。元数据还可含有经检测音频性质的描述，例如声源的方向或指向性。在406，简化单元230比较声捕获配置与一或多个经存储声捕获配置。例如，经存储声捕获配置可包含每一麦克风的数量及位置以识别特定配置(例如，单声道、立体声或空间)。简化单元230比较所述声捕获配置中的每一者与音频信号的声捕获配置。

在408，简化单元230确定声捕获配置是否匹配与空间格式相关联的经存储声捕获配置。例如，简化单元230可确定用于捕获音频信号的麦克风的数量及麦克风在空间中的位置。简化单元230可比较所述数据与用于空间格式的经存储已知配置。如果简化单元230确定不与空间格式匹配(此可为音频格式是单声道或立体声的指示)，那么过程400移到412，其中简化单元230将音频信号传送到编码单元240。然而，如果简化单元230将音频格式识别为属于空间格式集合，那么过程400移到410，其中简化单元230将音频信号转变成夹层格式。

返回参考图3，在306，简化单元230根据确定音频信号呈编码单元不支持的格式而将音频信号转变成编码单元支持的第二格式。例如，转换单元234可将音频信号转换为夹层格式。所述夹层格式准确地表示最初以任何基于通道、对象及场景的格式(或其组合)表示的空间音频信号。另外，夹层格式可表示MASA、HTF或另一合适格式。例如，可用作空间夹层格式的格式可将音频表示为m个对象及第n阶HOA(“mObj+HOAn”)，其中m及n是包含零的低整数。夹层格式可因此需要表示具有可捕获音频信号的显式性质的波形(信号)及元数据的音频。

在一些实施方案中，转换单元234在将音频信号转变成第二格式时产生用于音频信号的元数据。所述元数据可与呈第二格式的音频信号的一部分相关联，例如，对象元数据包含一或多个对象的位置。另一实例是其中使用一组专有捕获装置捕获音频及其中编码单元及/或夹层格式不支持或有效地表示所述装置的数量及配置。在此类情况中，转换单元234可产生元数据。所述元数据可包含转换元数据或声元数据中的至少一者。所述转换元数据可包含与编码程序及/或夹层格式不支持的格式的一部分相关联的元数据子集。例如，当在经配置以特别输出由专有配置捕获的音频的系统上重播音频信号时，转换元数据可包含用于捕获(例如，麦克风)配置的装置设置及/或用于输出装置(例如，扬声器)配置的装置设置。源自于声预处理单元220及/或转换单元234的元数据还可包含声元数据，所述声元数据描述特定音频信号性质，例如经捕获声音所来自的空间方向、声音的指向性或扩散度。在此实例中，可确定音频是空间的，呈空间格式，但经表示为具有额外元数据的单声道或立体声信号。在此情况中，所述单声道或立体声信号及所述元数据经传播到编码器240。

在308，简化单元230将呈第二格式的音频信号传送到编码单元。如图2A中所说明，如果音频格式检测单元232确定音频呈单声道或立体声格式，那么音频格式检测单元232将音频信号传送到编码单元。然而，如果音频格式检测单元232确定音频信号呈空间格式，那么音频格式检测单元232将音频信号传送到转换单元234。转换单元234在将空间音频转换为(例如)夹层格式之后，将音频信号传送到编码单元240。在一些实施方案中，除了音频信号之外，转换单元234还将转换元数据及声元数据传送到编码单元240。

编码单元240接收呈第二格式(例如，夹层格式)的音频信号且将呈第二格式的音频信号编码成输送格式。编码单元240将经编码音频信号传播到某一发送实体，所述发送实体将经编码音频信号传输到第二装置。在一些实施方案中，编码单元240或后续实体存储经编码音频信号以用于稍后传输。编码单元240可接收呈单声道、立体声或夹层格式的音频信号且编码所述信号以用于音频输送。如果音频信号呈夹层格式且编码单元从简化单元230接收转换元数据及/或声元数据，那么编码单元将转换元数据及/或声元数据传送到第二装置。在一些实施方案中，编码单元240将转换元数据及/或声元数据编码成第二装置可接收并解码的特定信号。编码单元接着将经编码音频信号输出到待输送到一或多个其它装置的音频输送。因此，(例如，图1中的装置中的)每一装置能够编码呈第二格式(例如，夹层格式)的音频信号，但所述装置通常无法编码呈第一格式的音频信号。

在实施例中，编码单元240(例如，先前描述的IVAS编解码器)对通过简化阶段提供的单声道、立体声或空间音频信号进行操作。依靠可基于协商的IVAS服务层级、发送及接收侧装置能力及可用比特率中的一或多者的编解码器模式选择来进行编码。

举例来说，服务层级可包含IVAS立体声电话、IVAS沉浸式会议、IVAS用户产生的VR串流或另一合适服务层级。可对选择IVAS编解码器操作的合适模式所针对的特定IVAS服务层级指配特定音频格式(单声道、立体声、空间)。

此外，可响应于发送及接收侧装置能力来选择IVAS编解码器操作模式。例如，取决于发送装置能力，编码单元240可能无法存取(例如)空间摄取信号，这是因为编码单元240仅具备单声道或立体声信号。另外，端到端能力交换或对应编解码器模式请求可指示接收端具有特定渲染限制，从而无需编码及传输空间音频信号或反之亦然。在另一实例中，另一装置可请求空间音频。

在一些实施方案中，端到端能力交换不能完全解决远程装置能力。例如，编码点可能不具有关于解码单元(有时被称为解码器)是否将为单个单声道扬声器、立体声扬声器或其是否将经双声道渲染的信息。实际渲染情景在服务会话期间可改变。例如，如果经连接回放设备改变，那么渲染情景可改变。在实例中，可能不存在端到端能力交换，这是因为在IVAS编码会话期间未连接接收(sink)装置。此可针对语音邮件服务或在(用户产生的)虚拟现实内容串流服务中发生。接收装置能力未知或归因于模糊性而无法解析的另一实例是需要支持多个端点的单个编码器。例如，在IVAS会议或虚拟现实内容分配中，一个端点可使用耳机且另一端点可向立体声扬声器渲染。

解决此问题的方式是假定最小可能接收装置能力及选择对应IVAS编解码器操作模式(在特定情况中，其可为单声道)。解决此问题的另一方式是需要IVAS解码器(即使编码器是在支持空间或立体声音频的模式中操作)推导可在具有相对较低音频能力的装置上渲染的经解码音频信号。即，编码为空间音频信号的信号也应可针对立体声渲染及单声道渲染两者来解码。同样地，编码为立体声的信号也应可针对单声道渲染来解码。

例如，在IVAS会议中，呼叫服务器应仅需要执行单个编码且发送相同编码到多个端点，所述多个端点中的一些可为双声道的且一些可为立体声的。因此，单个双通道编码可支持在(例如)具有立体声扬声器的膝上型计算机114及会议室系统118上的渲染及在用户装置110及虚拟现实装备122上的具有双声道呈现的沉浸式渲染两者。因此，单个编码可同时支持两个结果。因此，一种含义是，双通道编码支持由单个编码的立体声扬声器播出及双声道渲染播出两者。

另一实例涉及高质量单声道提取。系统可支持从经编码空间或立体声音频信号提取高质量单声道信号。在一些实施方案中，可提取增强型语音服务(“EVS”)编解码器位串流以(例如)使用标准EVS解码器进行单声道解码。

替代性地或除了服务层级及装置能力之外，可用比特率是可控制编解码器模式选择的另一参数。在一些实施方案中，比特率需求随着可在接收端处提供的体验质量及随着音频信号的分量的相关联数量而增加。在最低端比特率下，仅单声道音频渲染是可能的。EVS编解码器提供低到每秒5.9千位的单声道操作。随着比特率增加，可实现较高质量服务。然而，编码质量(“QoE”)仍归因于仅单声道操作及渲染而受限。对于(常规)双通道立体声，次高层级的QoE是可能的。然而，系统需要高于最低单声道比特率的比特率以提供有用质量，这是因为现有两个音频信号分量待传输。空间声音体验需要高于立体声的QoE。在比特率范围的较低端处，可用可被称为“空间立体声”的空间信号的双声道表示来实现此体验。空间立体声依靠到编码器(例如，编码单元240)中的空间音频信号摄取的编码器侧双声道预渲染(具有适当标头相关传送功能(“HRTF”))且因其仅由两个音频分量信号组成而有可能为最紧凑空间表示。因为空间立体声载送更多感知信息，所以实现足够质量所需的比特率有可能高于常规立体声信号所需的比特率。然而，空间立体声表示在定制接收端处的渲染方面可能会有限制。这些限制可包含对耳机渲染、对使用一组预选定HRTF或对无需标头跟踪的渲染的限制。通过用于编码呈空间格式的音频信号的编解码器模式实现较高比特率下的甚至更高QoE，所述空间格式并不依靠编码器中的双声道预渲染而是表示经摄取的空间夹层格式。取决于比特率，可调整所述格式的所表示音频分量信号的数量。例如，此可导致在从如上文所论述的空间WXY到高分辨率空间音频格式的范围内的更有力或较不有力的空间表示。此取决于可用比特率实现低到高空间分辨率且提供解决大范围的渲染情景(包含使用标头跟踪的双声道)的灵活性。此模式被称为“通用空间”模式。

在一些实施方案中，IVAS编解码器以EVS编解码器的比特率(即，在每秒5.9千位到128千位的范围中)操作。对于使用在带宽限制环境中的传输的低速率立体声操作，可需要低到13.2kbp的比特率。此要求可能经受使用特定IVAS编解码器的技术可行性，且可能仍实现有吸引力的IVAS服务操作。对于使用在带宽限制环境中的传输的低速率立体声操作，实现空间渲染及同时立体声渲染的最低比特率可能低到每秒24.4千位。对于通用空间模式中的操作，低空间分辨率(空间WXY、FOA)有可能低到每秒24.4千位，然而，在此空间分辨率下，可如同空间立体声操作模式一样实现音频质量。

现参考图2B，接收装置接收包含经编码音频信号的音频输送串流。所述接收装置的解码单元250接收(例如，在如由编码器编码的呈输送格式的)经编码音频信号且将其解码。在一些实施方案中，解码单元250接收在以下四种模式中的一者中编码的音频信号：单声道、(常规)立体声、空间立体声或通用空间。解码单元250将音频信号传送到渲染单元260。渲染单元260从解码单元250接收音频信号以渲染音频信号。值得注意的是，通常无需恢复被摄取到简化单元230中的原始第一空间音频格式。此实现IVAS解码器实施方案的解码器复杂性及/或存储器占用面积的显著节省。

图5是根据本发明的一些实施例的用于将音频信号转换为可用回放格式的实例性动作的流程图。在502，渲染单元260接收呈第一格式的音频信号。例如，渲染单元260可接收呈以下格式的所述音频信号：单声道、常规立体声、空间立体声、通用空间。在一些实施方案中，模式选择单元262接收音频信号。模式选择单元262识别音频信号的格式。如果模式选择单元262确定回放配置支持音频信号的格式，那么模式选择单元262将音频信号传送到渲染器264。然而，如果模式选择单元确定不支持音频信号，那么模式选择单元执行进一步处理。在一些实施方案中，模式选择单元262选择不同解码单元。

在504，渲染单元260确定音频装置是否能够重现回放配置支持的呈第二格式的音频信号。例如，渲染单元260可(例如，基于扬声器及/或其它输出装置的数量及其与经解码音频相关联的配置及/或元数据)确定音频信号呈空间立体声格式，但音频装置能够仅回放单声道中的经接收音频。在一些实施方案中，并非系统中的所有装置(例如，如图1中所说明)能够重现呈第一格式的音频信号，但所有装置能够重现呈第二格式的音频信号。

在506，渲染单元260基于确定输出装置能够重现呈第二格式的音频信号而调适音频解码以产生呈第二格式的信号。作为替代例，渲染单元260(例如，模式选择单元262或渲染器264)可使用元数据(例如，声元数据、转换元数据或声元数据与转换元数据的组合)以将所述音频信号调适为第二格式。在508，渲染单元260传送呈所支持的第一格式或所支持的第二格式的音频信号以用于音频输出(例如，传送到与扬声器系统介接的驱动器)。

在一些实施方案中，渲染单元260通过使用包含第二格式不支持的音频信号的一部分的表示的元数据连同呈第一格式的音频信号而将音频信号转变成第二格式。例如，如果接收呈单声道格式的音频信号且元数据包含空间格式信息，那么渲染单元可使用元数据将呈所述单声道格式的音频信号转变成空间格式。

图6是根据本发明的一些实施例的用于将音频信号转换为可用回放格式的实例性动作的另一框图。在602，渲染单元260接收呈第一格式的音频信号。例如，渲染单元260可接收呈单声道、常规立体声、空间立体声或通用空间格式的所述音频信号。在一些实施方案中，模式选择单元262接收音频信号。在604，渲染单元260检索音频装置的音频输出能力(例如，音频回放能力)。例如，渲染单元260可检索扬声器的数量、所述扬声器的位置配置及/或可用于回放的其它回放装置的配置。在一些实施方案中，模式选择单元262执行所述检索操作。

在606，渲染单元260比较第一格式的音频性质与音频装置的输出能力。例如，模式选择单元262可(例如，基于声元数据、转换元数据或声元数据与转换元数据的组合)确定音频信号呈空间立体声格式且音频装置能够经由立体声扬声器系统仅回放呈常规立体声格式的音频信号(例如，基于扬声器及其它输出装置配置)。渲染单元260可比较第一格式的音频性质与音频装置的输出能力。在608，渲染单元260确定音频装置的输出能力是否匹配第一格式的音频输出性质。如果音频装置的输出能力与第一格式的音频性质不匹配，那么过程600移到610，其中渲染单元260(例如，模式选择单元262)执行获得变为第二格式的音频信号的动作。例如，渲染单元260可调适解码单元250以解码呈第二格式的经接收音频或渲染单元可使用声元数据、转换元数据或声元数据与转换元数据的组合以将音频从空间立体声格式转换为所支持的第二格式(在给定实例中，其是常规立体声)。如果音频装置的输出能力匹配第一格式的音频输出性质，或在转换操作610之后，那么过程600移到612，其中渲染单元260(例如，使用渲染器264)将现确保支持的音频信号传送到输出装置。

图7展示适用于实施本发明的实例实施例的实例系统700的框图。如所展示，系统700包含中央处理单元(CPU)701，所述中央处理单元701能够根据存储于(例如)只读存储器(ROM)702中的程序或从(例如)存储单元708加载到随机存取存储器(RAM)703的程序执行各种过程。在RAM 703中，还视需要存储在CPU 701执行各种过程时所需的数据。CPU 701、ROM702及RAM 703经由总线704彼此连接。输入/输出(I/O)接口705也连接到总线704。

以下组件连接到I/O接口705：输入单元706，其可包含键盘、鼠标或类似物；输出单元707，其可包含显示器(例如液晶显示器(LCD))及一或多个扬声器；存储单元708，其包含硬盘或另一合适存储装置；及通信单元709，其包含网络接口卡，例如网卡(例如，有线或无线)。

在一些实施方案中，输入单元706包含不同位置中的一或多个麦克风(取决于主机装置)，从而实现呈各种格式(例如，单声道、立体声、空间、沉浸式及其它合适格式)的音频信号的捕获。

在一些实施方案中，输出单元707包含具有各种数量的扬声器的系统。如图1中所说明，输出单元707(取决于主机装置的能力)可渲染呈各种格式(例如，单声道、立体声、沉浸式、双声道及其它合适格式)的音频信号。

通信单元709经配置以(例如，经由网络)与其它装置通信。驱动器710还视需要连接到I/O接口705。可移动介质711(例如磁盘、光盘、磁光盘、闪存盘或另一合适可移动介质)安装于驱动器710上，使得从其读取的计算机程序视需要安装到存储单元708中。所属领域的技术人员将理解，尽管系统700被描述为包含上述组件，但在实际应用中，可添加、移除及/或替换这些组件中的一些且所有这些修改或变更全部落在本发明的范围内。

根据本发明的实例实施例，上文所描述的过程可实施为计算机软件程序或在计算机可读存储介质上实施。例如，本发明的实施例包含包括有形地体现于机器可读介质上的计算机程序的计算机程序产品，所述计算机程序包含用于执行方法的程序代码。在此类实施例中，计算机程序可经由通信单元709从网络下载并安装，及/或从可移动介质711安装。

通常，本发明的各种实例实施例可实施于硬件或专用电路(例如，控制电路)、软件、逻辑或其任何组合中。例如，简化单元230及上文所论述的其它单元可由控制电路(例如，CPU连同图7的其它组件)执行，因此，控制电路可执行本发明中所描述的动作。一些方面可实施于硬件中，而其它方面可实施于可由控制器、微处理器或其它计算装置(例如，控制电路)执行的固件或软件中。虽然本发明的实例实施例的各个方面被说明及描述为框图、流程图或使用某一其它图形表示来说明及描述，但将了解，作为非限制性实例，本文中所描述的所述框、设备、系统、技术或方法可实施于硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算装置或其某一组合中。

此外，流程图中所展示的各种框可被视为方法步骤及/或被视为由计算机程序代码的操作所引起的操作，及/或被视为经建构以实行(若干)相关联功能的多个经耦合逻辑电路元件。例如，本发明的实施例包含计算机程序产品，所述计算机程序产品包含有形地体现于机器可读介质上的计算机程序，所述计算机程序含有经配置以实行如上文所描述的方法的程序代码。

在本发明的上下文中，机器可读介质可为可含有或存储程序以供指令执行系统、设备或装置使用或结合所述指令执行系统、设备或装置使用的任何有形介质。所述机器可读介质可为机器可读信号介质或机器可读存储介质。机器可读介质可为非暂时性的且可包含(但不限于)电子、磁性、光学、电磁、红外或半导体系统、设备或装置或前述项的任何合适组合。机器可读存储介质的更特定实例将包含具有一或多个导线的电连接、便携计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便携光盘只读存储器(CD-ROM)、光学存储装置、磁性存储装置或前述项的任何合适组合。

用于实行本发明的方法的计算机程序代码可用一或多个编程语言的任何组合撰写。这些计算机程序代码可被提供到通用计算机、专用计算机或具有控制电路的其它可编程数据处理设备的处理器，使得程序代码在由计算机或其它可编程数据处理设备的处理器执行时，引起实施流程图及/或框图中所指定的功能/操作。程序代码可完全在计算机上、部分在所述计算机上、作为独立软件封装、部分在所述计算机上且部分在远程计算机上或完全在所述远程计算机或服务器上执行，或分布遍及一或多个远程计算机及/或服务器。

25页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：用于产生或解码包括沉浸式音频信号的位流的方法及装置

将以不同格式捕获的音频信号转换为减少数量的格式以简化编码及解码操作

相关技术

网友询问留言