一种适应于个性化交互系统的音频对象编码方法

文档序号:1578620 发布日期:2020-01-31 浏览:17次 >En<

阅读说明:本技术 一种适应于个性化交互系统的音频对象编码方法 (Audio object coding method suitable for personalized interactive system ) 是由 胡瑞敏 胡晨昊 王晓晨 武庭照 吴玉林 于 2019-10-14 设计创作,主要内容包括:本发明公开了一种适应于个性化交互系统的音频对象编码方法,在编码阶段,本发明首先将待编码的多个音频对象,从时域分帧加窗变换到频域;根据每个对象的能量大小进行排序,确定对象编码顺序;循环提取每步编码对象及对应下混信号,依此计算每步的参数及残差;利用奇异值分解,对大尺寸的残差矩阵进行分解压缩;将最终混合信号,参数及残差分解矩阵合成码流。在解码阶段,利用分解矩阵重构残差;然后根据每个对象的残差与参数,逐步将对象从下混信号中解码重建。本发明通过有顺序的多步编解码与残差分解,可以同时保证低码率和高质量的重建每个音频对象。(The invention discloses an audio object coding method suitable for a personalized interactive system, which comprises the steps of firstly, framing and converting a plurality of audio objects to be coded from a time domain to a frequency domain, sequencing according to the energy of each object, determining the coding sequence of the objects, circularly extracting each step of coded objects and corresponding downmix signals, calculating parameters and residual errors of each step according to the parameters, decomposing large-size residual matrixes by using singular values, decompressing the final mixed signals, the parameters and the residual decomposition matrixes into code streams, reconstructing the residual errors by using the decomposition matrixes in a decoding stage, and then gradually decoding and reconstructing the objects from the downmix signals according to the residual errors and the parameters of each object.)

一种适应于个性化交互系统的音频对象编码方法

技术领域

本发明属于数字音频信号处理技术领域,具体涉及一种多步逐级下混与重建的音频对象编码解码方法,适用于空间音频的个性化交互系统,允许在用户根据自身需求调整音频对象。

背景技术

基于声道编码的空间音频技术可以实现三位音频场景的编码与重建,比单声道或立体声音频技术更能提供身临其境的听觉体验,如MPEG空间音频编码、NHK22.2扬声器阵列等,因而越来越受到人们的欢迎。但传统基于声道的空间音频系统仍然存在的局限性,其灵活性较低,难以满足支持个性化交互功能的音频服务系统。因此,新一代音频编码技术将音频场景分解为一系列独立对象,以对象为基本元素进行编码传输。

国际上许多学者和研究机构已在音频对象编码方面的开展了研究工作,并提出多种音频对象编码方法。其中最具代表性的是德国知名研究机构Fraunhofer提出的空间音频对象联合编码技术(Spatial audio object coding,SAOC)[文献1],该方法编码传输多个音频对象的下混信号和边信息,在解码端根据边信息将音频对象从下混信号中分离重构。SAOC方法可以以低码率传输大量音频对象,大大提升了音频对象编码效率,并使得用户可以根据自身的听音需求进行个性化的调整与交互[文献2]。

在SAOC框架中,为了获得较低的编码比特率,在同一子带中使用相同的参数作为边信息。这导致了频域混叠失真,严重降低了听力体验,例如一个音频对象信号播放时会包含其他对象信号成分混合[文献3]。甚至,这一问题会影响到后续用户端的空间音频个性化交互服务。一些研究利用残差信号来补偿这一失真,提高解码音质[文献4][文献5]。然而,这些方法只能提高某个目标对象的听音体验,其他对象仍然存在混叠失真问题,并不能保证每个音频对象都有较好的解码音质。

文献1:Breebaart,J.,Engdeg°ard,J.,Falch,C.,et al.:Spatial audio objectcoding (saoc)-the upcoming mpeg standard on parametric object based audiocoding.In:Audio Engineering Society Convention 124.Audio Engineering Society(2008).

文献2:Coleman,P.,Franck,A.,Francombe,J.,et al.:An audio-visual systemfor objectbased audio:From recording to listening.IEEE Transactions onMultimedia 20(8),1919-1931(2018).

文献3:Wu,T.,Hu,R.,Wang,X.,Ke,S.:Audio object coding based on optimalparameter frequency resolution.Multimedia Tools and Applications pp.1-16(2019).文献4:Kim,K.,Seo,J.,Beack,S.,Kang,K.,Hahn,M.:Spatial audio objectcoding with two-step coding structure for interactive audio service.IEEETransactions on Multimedia 13(6),1208-1216(2011).

文献5:Lee,B.,Kim,K.,Hahn,M.:Efficient residual coding method ofspatial audio object coding with two-step coding structure for interactiveaudio services.IEICE TRANSACTIONS on Information and Systems 99(7),1949-1952(2016).

发明内容

为解决上述技术问题,本发明提供了一种多步逐级下混与重建的音频对象编解码方法,能够在中低码率下进行高质量的音频编解码,保证所有音频对象都具有良好解码音质。

本发明所采用的技术方案是:一种适应于个性化交互系统的音频对象编码方法,其特征在于,包括以下步骤:

步骤A1:对输入的音频对象序列进行分帧加窗,将时域信号转换到频域信号,得到每个音频对象的时频矩阵;

步骤A2:根据每个对象的时频矩阵,计算对象频域能量进行排序,确定多步逐级编码中每步需要编码的对象;

步骤A3:根据确定的编码顺序,逐步下混并计算对应的边信息;所述逐步下混指将当前处理流程中输入的对象对数据进行矩阵相加,得到一个和矩阵;其中逐步下混信号并不作为传输码流进行传输;所述边信息包含对象残差与对象增益参数矩阵;其中,对象增益参数通过对象对中两个输入信号的能量比计算得到;

步骤A4:利用奇异值分解将边信息中的对象残差分解为左、右奇异矩阵与奇异值;

步骤A5:量化奇异矩阵、奇异值及对象增益参数,获得边信息码流;

步骤A6:将步骤A3中的最终下混信号进行编码,获得下混信号码流;

步骤A7:步骤A5和步骤A6得到的码流合成为输出码流,传输到解码端。

与现有音频对象编码技术相比,本发明的优势在于:利用多步逐级编解码,最大程度上利用残差补偿解码失真,保证每个音频对象都具有较好的听音质量;同时引入奇异值分解将残差信息分解压缩,降低码率。因此,本发明可以保证在中低码率下,解码得到高质量的音频对象,以满足音频个性化交互系统的使用需求。

附图说明

图1是本发明实施例的编码原理图;

图2是本发明实施例的解码原理图。

具体实施方式

为了便于本领域的技术人员理解和实施本发明,下面结合附图以及具体实施示例对本发明的技术方案作进一步说明,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明:

本发明在现有音频对象编码方法的基础上开展进一步研究,提出了多步逐级下混与重建的音频对象编解码方法。首先,根据对象频域能量研究最佳编码顺序,确定每步需要编码和计算边信息的对象,最终可以得到每个对象的残差信息,有效降低所有重建对象的信号失真与混淆;然后利用奇异值分解方法将残差信息分为三个低维矩阵,从而达到压缩残差信息,降低比特率的目的。

参见图1,本发明提出一种适应于个性化交互系统的多音频对象编码方法,本实施示例以输入A、B、C、D四个对象举例说明,具体实施示例包含以下步骤:

步骤A1:输入音频对象A、B、C、D(可包含人声、钢琴、吉他等多种不同对象),将每个对象分帧加窗,时域信号转换到频域信号,得到每个音频对象的时频矩阵;

本实施例中,通过分帧、加窗与改进离散余弦变换MDCT将原本时域的一维声音信号,变为频域的二维频谱图,输出得到的是矩阵形式的对象数据。

输入的音频对象信号采样率为44.1Khz,位深度16位,wav音频格式。

应注意的是,此处规定的音频参数和对象种类仅为举例说明本发明的实施过程,并不用于限定本发明。

分帧加窗中,每帧长度1024,窗函数选择hanning窗,50%时域交叠;时频变换选择改进离散余弦变换MDCT,变换长度为2048点;最终输出多个矩阵形式的音频对象信号,其中矩阵行数等于帧数(或列数等于帧数)、矩阵的列数等于频点数(或行数等于频点数)。

应注意的是,此处规定的帧长,窗函数类型以及变换方式等只是为了举例说明本发明的具体实施步骤,并不用作限定本发明。

步骤A2:根据每个对象的时频矩阵,计算对象频域能量进行排序,确定多步逐级编码中每步需要编码的对象;

本实施例中,根据矩阵形式的对象数据,计算对象频域能量,选择从大到小的能量排序方式,确定每步需要编码的对象顺序;编码顺序,指优先编码能量较大的音频对象。

对象频域能量的计算如下式所示:

Figure BDA0002232447780000041

其中,||Si||表示第i个音频对象的总能量,Oi表示第i个对象在所有对象总能量中所占比例;根据每个对象Oi值从大到小排序,排序顺序为D(S1)、B(S2)、A(S3)、C(S4),优先编码Oi值大的对象;应注意的是,此处规定的i∈[1,4]以及从大到小的排序方式,仅为举例说明本发明的具体实施步骤,并不用作限定本发明。

步骤A3:根据编码顺序,逐步下混并计算对应的边信息(对象残差与奇异矩阵、奇异值);

本实施例中,逐步下混指将当前处理流程中输入的对象对数据进行矩阵相加,得到一个和矩阵;其中逐步下混信号并不作为传输码流进行传输;边信息包含对象残差与对象增益参数矩阵;其中,对象增益参数通过对象对中两个输入信号的能量比计算得到;

对象残差与对象增益参数的计算公式如下所示:

Figure BDA0002232447780000042

Figure BDA0002232447780000051

其中,R(i)为第i+1个对象的残差信号,Go(i)为第i+1个对象的增益参数,Gd(i)为第i个下混信号的增益参数;公式中Xi表示第i步得到的下混信号,Po(i)为对象i的能量,Pd(i)为第i步下混信号的能量。在本实施实例中N=4,表示需要编码的对象个数。

应注意的是,此处规定的对象数量N=4仅为举例说明本发明的具体实施步骤,并不用作限定本发明。

结合本实例,根据步骤A2确定的编码顺序以上公式多步逐级下混计算过程如下:第一步,将对象D、B作为对象对进行下混及参数提取(在第一步中,D被视为下混信号进行计算),得到两个对象的下混信号X1,并计算得到第二个对象B的增益参数Go(1)及其残差R(1);第二步,将下混信号X1、A作为对象对进行下混及参数提取,得到第二步的下混信号X2,并计算第三个对象A的增益参数Go(2)及其残差R(2);第三步,将下混信号X2、C作为对象对进行下混及参数提取,得到第三步的下混信号X3(即需要传输到解码端的最终下混信号),并计算第四个对象C的增益参数Go(3)及其残差R(3)。至此,四个对象通过以上三步完成下混与参数提取。

应注意的是,此处规定的编码顺序与步数仅为举例说明本发明的具体实施步骤,并不用作限定本发明。

步骤A4:利用奇异值分解将边信息中的对象残差分解为系数矩阵与核向量;

本实施例中,通过奇异值分解方法对多个对象的残差矩阵进行降维压缩,减少残差信息带来的数据量上升;残差矩阵会被分解为三个小矩阵,分别为左奇异矩阵、奇异值矩阵、右奇异矩阵;其中,奇异值矩阵仅传输矩阵对角线上的数值。

奇异值分解SVD是一种矩阵特征值分解,用于将矩阵归约成其组成部分的矩阵分解方法,以使高维矩阵分解为几个低维矩阵进行表示,以达到数据压缩的目的。分解过程如下所示:

Figure BDA0002232447780000052

Figure BDA0002232447780000061

其中,R(i)P×Q为第i+1个对象的残差信号,行数P为MDCT变换长度的一半,列数Q为音频对象的帧数。U为左奇异矩阵,Λ为奇异值矩阵,V为右奇异矩阵。Λ矩阵中对角线上的奇异值按从大到小排序。

为了进行降维,可以选择前r个奇异值(取r=50)和对应的奇异矩阵近似表示R(i),近似表示如下:

Figure BDA0002232447780000062

Figure BDA0002232447780000063

其中,

Figure BDA0002232447780000064

为奇异值矩阵的一部分,

Figure BDA0002232447780000065

Figure BDA0002232447780000066

为原始左右奇异矩阵的前50行(或列)。利用以上三个矩阵可以近似表示残差信号,并降低矩阵维度,压缩边信息数据量。

应注意的是,此处规定的r=50仅为举例说明本发明的具体实施步骤,并不用作限定本发明。

步骤A5:量化奇异值、奇异矩阵及对象增益参数,获得边信息码流;

本实施例中,量化可通过查表法实现。在量化操作中,残差分解矩阵与增益参数中的元素取值范围不同,因此量化前通过归一化处理来统一量化表。然后根据每个元素值的大小在量化表中查找最接近的量化值,并将对应的量化索引作为边信息量化码流输出。

步骤A6:将步骤A3中的最终下混信号进行编码,获得下混信号码流;

本实施例中,最终下混信号为解码端进行对象信号重建的基础,其采用AAC128k进行编码。

应注意的是,对最终下混信号采用AAC 128k编码仅为举例说明本发明的具体实施步骤,并不用作限定本发明。

步骤A7:步骤A5和步骤A6得到的码流合成为输出码流,传输到解码端。

合成输出码流指将最终下混信号码流与边信息码流进行码流合并,并添加标志位用于标识解析。最终下混信号码流指经AAC编码后的输出码流,边信息码流指残差分解矩阵与增益参数量化后输出的量化索引码流。参见图2,本发明还提出了一种适应于个性化交互系统的多音频对象解码方法,本实施示例以输入A、B、C、D四个对象举例说明,具体实施示例包含以下步骤:

步骤B1:解析接收到的码流,得到边信息码流与最终下混信号码流;

本实施例中,解析码流指根据合成输出码流的方法进行反推,得到最终下混信号码流与边信息码流。

步骤B2:下混信号码流经过AAC解码得到下混信号;

本实施例中,最终下混信号码流是经过AAC编码压缩后得到的数据流,在经过AAC解码后可得到传输前的最终下混信号。

步骤B3:边信息码流经过去量化后得到左、右奇异矩阵、奇异值及对象增益参数;

本实施例中,边信息在进行量化时进行了归一化,在去量化时对应进行去归一化。经此,可解析得到传输前的边信息。

步骤B4:左、右奇异矩阵与奇异值进行矩阵合成恢复出对象残差;

本实施例中,矩阵合成是将左奇异矩阵,奇异值矩阵,右奇异矩阵相乘得到近似的对象残差,具体见公式:

Figure BDA0002232447780000071

Figure BDA0002232447780000072

步骤B5:根据编码顺序反向解码,利用边信息从传输下混信号中循环重构音频对象频域信号;

利用对象增益参数将对象从对应的下混信号中分离出来,再与残差信号进行计算弥补混叠失真后可以得到重构的音频对象频域信号,如下式所示:

Figure BDA0002232447780000073

Figure BDA0002232447780000074

Figure BDA0002232447780000075

其中,S′i是重构得到的频域对象信号,X′i是重构得到的逐步下混信号,Gd(i)为每步对应下混信号的增益参数。

Figure BDA0002232447780000076

是解码端通过矩阵合成得到的残差信息,即步骤B4所完成的工作。对象的解码顺序与编码顺序相反,每个对象在对应的解码步骤中从逐步下混信号中解析重构。

结合本实例,根据步骤B5确定的解码顺序,根据以上公式(8)(9)(10)多步逐级重构对象过程如下:第一步,利用增益参数Go(3)及其残差

Figure BDA0002232447780000081

从最终下混信号X3中重构对象C(即S′4),利用增益参数Gd(3)从最终下混信号X3中重构得到逐步下混信号X′2;第二步,利用增益参数Go(2)及其残差

Figure BDA0002232447780000082

从逐步下混信号X′2中重构对象A(即S′3),利用增益参数Gd(2)从最逐步下混信号X′2中重构得到逐步下混信号X′1;第三步,利用增益参数Go(1)及其残差

Figure BDA0002232447780000083

从逐步下混信号X′1中重构对象B(即S′2),利用逐步下混信号X′1与重构对象B相减,可得重构对象D(即S′1)。至此,通过三步解码,将对象从对应的逐步下混信号中依次恢复出来,并利用残差信息对其重构信号进行了补偿,减小混叠失真带来的音质降低。

应注意的是,此处A、B、C、D四个对象与解码步数仅为举例说明本发明的具体实施步骤,并不用作限定本发明。

步骤B6:利用时频反变换,将频域的音频对象信号转换到时域。

本实施例中,逐步重建的对象信号仍然是频域信号,需要进行时频反变换将其转换到时域内才可进行后续的渲染、个性化交互、播放等功能。所以,解码方法中的反变换是将对象频域信号进行去窗,改进离散余弦逆变换操作得到时域联系信号。

与现有音频对象编码方法相比,本发明具有的优势及特点是:

利用多步逐级编解码,最大程度上利用残差补偿解码失真,保证每个音频对象都具有较好的听音质量;同时引入奇异值分解将残差信息分解压缩,降低码率。因此,本发明可以保证在中低码率下,解码得到高质量的音频对象,以满足音频个性化交互系统的使用需求。

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:支持变换长度切换的频域音频编码器、解码器、编码和解码方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类