利用旋转的插值和量化进行空间化音频编解码

文档序号:328161 发布日期:2021-11-30 浏览:9次 >En<

阅读说明:本技术 利用旋转的插值和量化进行空间化音频编解码 (Spatialized audio codec with rotated interpolation and quantization ) 是由 S.拉戈特 P.马埃 于 2020-02-10 设计创作,主要内容包括:本发明涉及用于压缩音频信号的编码,该音频信号在高于0阶的环绕声表示中的N个通道的每个通道中随时间形成一连串样本帧,该方法包括:-基于通道并针对当前帧形成通道间协方差矩阵,并且搜索(S3)所述协方差矩阵的特征向量以用于获得特征向量矩阵,-测试(S5)特征向量矩阵以证实它表示N维空间中的旋转,并且如果不是这样的话,则校正(S6)特征向量矩阵,直到针对当前帧获得旋转矩阵,以及-在对所述信号进行分离通道编码之前,将所述旋转矩阵(S7)应用于N个通道的信号。(The invention relates to an encoding for compressing an audio signal forming a succession of sample frames over time in each of N channels in a surround sound representation above 0 th order, the method comprising: -forming an inter-channel covariance matrix based on the channels and for the current frame, and searching (S3) the eigenvectors of the covariance matrix for obtaining an eigenvector matrix, -testing (S5) the eigenvector matrix to verify that it represents a rotation in the N-dimensional space, and if not, correcting (S6) the eigenvector matrix until a rotation matrix is obtained for the current frame, and-applying the rotation matrix (S7) to the signals of the N channels before separate channel coding the signals.)

具体实施方式

本发明旨在通过以下内容实现优化编码:

-自适应时间矩阵化(特别是利用通过PCA/KLT获得的自适应变换(“PCA”表示主要分量分析,“KLT”表示卡尔胡恩-洛维变换)),

-优选地随后是多通道-单通道编码。

自适应矩阵化允许比固定矩阵化更有效地分解成通道。根据本发明的矩阵化有利地使得在多通道-单通道编码之前对通道进行去相关成为可能,以使得当通道被重新组合以便在解码中重建环绕声信号时,通过对每个通道进行编码而引入的编解码噪声对空间图像的扭曲在总体上尽可能小。

此外,本发明能够确保矩阵化参数的温和自适应,以便避免帧边缘处的“咔哒声”类型伪像或空间图像中的过快波动,乃至由于从矩阵化(其随后由单通道编解码器的不同实例编码)产生的各种单独通道中的过强变化(例如,与通道之间的音频源的不适时置换有联系)而导致的编解码伪像。下面呈现了多通道-单通道编码,优选地在通道之间具有可变比特分配(在自适应矩阵化之后),但是在一些变型中,可以使用立体声核心编解码器的多个实例或其他。

为了便于理解本发明,关于n维旋转和PCA/KLT或SVD型分解(“SVD”表示奇异值分解)的某些解释性概念在下面重新总结。

旋转和“四元数”

信号由连续的音频样本块表示,这些块在下面称为“子帧”。

本发明使用具有适合于每帧量化的参数的n维旋转表示,尤其是有效的子帧插值。2维、3维和4维中使用的旋转表示被定义如下。

旋转(围绕原点)是将一个向量改变为另一向量的n维空间变换,使得:

-向量的振幅被保留

-在旋转之前定义正交坐标系的向量的叉积在旋转之后被保留(不存在反射)。

大小为n×n的矩阵M是当且仅当MT.M=In时的旋转矩阵,其中In表示大小为n×n的单位矩阵(即,M是酉矩阵,MT表示M的转置),并且其行列式为+1。

在本发明中使用了等同于旋转矩阵的表示的几个表示:

在二维(2D平面)(n=2):我们使用旋转角度作为表示,如下。

给定旋转角度θ,我们推导出旋转矩阵:

给定旋转矩阵,我们可以通过观察到矩阵轨迹为2cosθ来计算角度θ。注意,在应用下面呈现的主要分量分解(PCA)和特征值分解(EVD)之前,也可以直接根据协方差矩阵进行估计θ。

各个角度θ1和θ2的两次旋转之间的插值可以通过θ1与θ2之间的线性插值来完成,考虑到这两个角度之间的单位圆上的最短路径约束。

在三维(3D)空间(n=3):欧拉角度和四元数用作表示。在一些变型中,也可以使用这里没有提及的轴-角度表示。

大小为3×3的旋转矩阵可以分解为沿x、y或z轴角度为θ的3个基本旋转的乘积。

取决于轴的组合,角度称为欧拉角度或卡丹角度。

然而,3D旋转的另一表示由四元数给出。四元数是形式为数字q=a+bi+cj+dk的、具有四个分量的复数表示的推广,其中,i2=j2=k2=ijk=-1。

实部a称为标量,并且三个虚部(b,c,d)形成3D向量。四元数的范数是(范数1的)单位四元数表示旋转——然而,这种表示不是唯一的;因此,如果q表示旋转,则-q表示相同的旋转。

给定单位四元数q=a+bi+cj+dk(其中a2+b2+c2+d2=1),相关联的旋转矩阵为:

欧拉角度不允许对3D旋转正确地插值;为此,我们改为使用四元数或轴-角度表示。SLERP(“球面线性插值”)插值方法包括根据以下公式进行插值:

其中,0≤α≤1是从q1到q2的插值因子,并且Ω是两个四元数之间的角度:

Ω=arccos(q1.q2)

其中,q1.q2表示两个四元数之间的点积(与两个4维向量之间的点积相同)。

这相当于遵循4D球面上的大圆、以作为α的函数的恒定角速度进行插值。必须确保,最短路径被用于通过在q1.q2<0时改变四元数之一的符号进行插值。注意,可以使用四元数插值的其他方法(归一化线性插值或非线性插值、样条等)。

注意,也可以通过轴-角度表示来插值3D旋转;在这种情况下,角度像在2D情况下一样被插值,并且轴可以例如通过SLERP方法(在3D中)被插值,同时确保最短路径在3D单位球面上被采用,并且考虑到由轴r和角度θ给出的表示等同于由相反方向的轴-r和角度2π-θ给出的表示的事实。

在4维(n=4)中,旋转可以由6个角度(n(n-1)/2))来参数化,并且我们展示了,与四元数q1=a+bi+cj+dk和q2=w+xi+yj+zk相关联的两个大小为4×4的矩阵(称为四元数(Q1)和反四元数)的乘积给出了大小为4×4的旋转矩阵。

可以找到相关联的四元数对(q1,q2)以及相关联的四元数矩阵和反四元数矩阵,使得:

并且

他们的积给出了大小为4×4的矩阵:

并且可以证实该矩阵满足旋转矩阵的性质(酉矩阵且行列式等于1)。

相反,给定4×4旋转矩阵,这个矩阵可以例如用称为“凯莱分解”的方法分解成形式为的矩阵乘积。这涉及计算称为“四方变换(tetragonal transform)”(或相关矩阵)的中间矩阵以及由此以对两个四元数的符号有一些不确定性(这可以通过下面进一步提及的附加“最短路径”约束来消除)来推导四元数。

奇异值分解(或“SVD”)

奇异值分解(SVD)包括分解大小为m×n的实矩阵A,其形式如下:

A=U∑VT

其中,u是大小为m×m的酉矩阵(uTU=Im),∑是大小为m×n的矩形对角矩阵,其系数σi≥0为实数且为正数(i=1…p,其中p=min(m,n)),V是大小为n×n的酉矩阵(VTV=In),并且VT是V的转置。∑的对角线上的σi系数是矩阵A的奇异值。按照惯例,它们通常按降序列出,并且在这种情况下,与A相关联的对角矩阵∑是唯一的。

A的秩r由非零系数σi的数量给出。因此,我们可以将奇异值分解改写为:

其中,Ur=[u1,u2,…,ur]是A的左侧的奇异向量(或输出向量),∑r=diag(σ1,…,σr),并且Vr=[v1,v2,…,vr]是A的右侧的奇异向量(或输入向量)。该矩阵公式也可以改写为:

如果总和被限制于索引i<r,则我们得到仅表示“主要的”信息的“经滤波的”矩阵。

我们还可以写为:

Avi=σiui

这展示了矩阵A将vi变换成σiui

A的SVD与ATA和AAT的特征值分解有关,因为:

ATA=V(∑T∑)VT

AAT=U(∑∑T)UT

T∑和∑∑T的特征值是U的列是AAT的特征向量,而V的列是ATA的特征向量。

SVD可以用几何学来解释:矩阵A在维度n中的球形的图像是在维度m中具有在方向u1,u2,...,um上的且长度为σ1,...,σm的主轴的超椭圆。

卡尔胡恩-洛维变换(或“KLT”)

具有以0为中心的随机向量x和协方差矩阵Rxx=E[x xT]的卡尔胡恩-洛维变换(KLT)被定义如下:

y=VTx

其中,V是通过将Rxx分解成特征值而获得的特征向量矩阵(按照惯例,特征向量是列向量)

Rxx=VAVT

其中,Λ=diag(λ1,...,λn)是系数为特征值的对角矩阵。矩阵V=[v1,v2,...,vn]包含Rxx的特征向量(列),使得

Rxxvi=λnvi

我们可以将KLT看作基(basis)的改变,因为乘积VTx表示特征向量所给出的基中的向量x。

逆变换由下式给出:

x=Vy

KLT使得将x的分量去相关成为可能;变换后的向量y的方差是Rxx的特征值。

主要分量分析(或“PCA”)

主要分量分析(PCA)是一种产生正交变量并在投影之后最大化变量的方差(或等效地最小化重建误差)的降维技术。

下面呈现的PCA,虽然也是基于分解成特征值(诸如KLT),是这样的:估计的协方差矩阵是根据N个观察到的维度为n的向量xi(i=1…N)来计算的:

假设这些向量居中:

分解成形式为的特征值允许计算主要分量:yn=VTxn

PCA是一种将数据投影到新的基中以便最大化投影之后变量的方差的矩阵VT的变换。

注意,PCA也可以从信号xi的SVD中获得,该信号以大小为n×N矩阵X的形式表示。在这种情况下,我们可以写为:

X=UDVT

我们证实XXT=UDDTUT,这对应于XXT的对角化。因此,PCA的投影向量对应于U的列向量,并且投影给出UTX=DVT作为结果。

还注意到,PCA通常被视为一种用于将高维度的数据集“压缩”成包含很少主要分量的集合的降维技术。在本发明中,PCA有利地使得将多维输入信号去相关成为可能,但是避免了通道的消除(因此减少了通道的数量),以便避免引入伪像。这导致最小编码比特率,以避免“截断”空间图像,除非在特定的变型中,特征值低至使得可以允许零速率(例如,以便更好地对具有合成地空间化的单一源的、人工创建的环绕声声音进行编码)。

我们现在参考图2来描述在本发明意义内的方法中针对当前帧t实施的步骤的一般原理。

步骤S1包括对于每个帧t使用ACN(环绕声通道号)通道排序惯例来获得环绕声通道(这里在所描述的示例中是四个通道W、Y、Z、X)的各个信号。这些信号可以用n×L矩阵的形式来表示(对于n个环绕声通道(这里是4个)和每帧L个样本)。

在下一步骤S2中,这些通道的信号可以可选地例如通过高通滤波器进行预处理,如下面参考图3所述。

在下一步骤S3中,主要分量分析PCA或等效方式的卡尔胡恩-洛维变换KLT被应用于这些信号,以从n个通道的协方差矩阵中获得特征值和特征向量矩阵。在本发明的变型中,可以使用SVD。

在步骤S4中,针对当前帧t获得的特征向量矩阵经历带符号置换(permutation),使得它尽可能与前一帧t-1的相同性质的矩阵对齐。原则上,我们确保特征向量矩阵中的列向量的轴尽可能地对应于前一帧的矩阵中相同位置处的列向量的轴,并且如果不是这样的话,则置换当前帧t的矩阵中不对应的特征向量的位置。然后,我们还确保特征向量从一个矩阵到另一矩阵的方向也是一致的。换句话说,最初我们只对承载特征向量的直线感兴趣(仅仅是朝向(orientation),而没有方向(direction)),并且对于每条线,我们在前一帧t-1的矩阵中寻找最近的线。为此,向量在当前帧的矩阵中被置换。然后,在第二步中,我们尝试匹配(方向性)向量的朝向(orientation)。为此,我们反转不具有正确朝向的特征向量的符号。

这样的实施例使得确保两个矩阵之间的最大一致成为可能,从而避免声音回放期间两个帧之间可听见的咔哒声。

在步骤S5中,我们还确保当前帧t的特征向量矩阵(由此通过带符号置换进行校正)确实表示旋转的应用(n=2个通道的角度的旋转,三个欧拉角度的旋转,轴和角度的旋转,或者与一阶平面环绕声表示W、Y、Z相对应的n=3的四元数的旋转,以及类型为W、Y、Z、X的一阶环绕声表示中n=4的两个四元数的旋转)。

为了确保它确实是旋转,在步骤S6中,通过置换而校正的当前帧t的特征向量矩阵的行列式必须是正数并且等于(或者实际上接近)+1。如果它等于(或接近)-1,则应该:

-再次置换两个特征向量(例如,与低能量通道相关联的两个特征向量,因此不是很有代表性),或者

-优选地,在步骤S6中反转列的所有元素的符号(例如,与低能通道相关联的列)。

然后,在步骤S7中,我们获得有效地与旋转相对应的当前帧t的特征向量矩阵。

然后,在步骤S8中,该矩阵的参数(例如,诸如角度值、轴和角度的值、或者该矩阵的(多个)四元数的值)可以被编码在为此目的分配的多个比特中。在另一可选但有利的实施例中,在步骤S9中观察到针对当前帧t估计的旋转矩阵与前一帧t-1的旋转矩阵之间的显著差异(例如,大于阈值)的情况下,可以确定可变数量的插值子帧:否则,该数量的子帧被固定在预定值。步骤S10包括:

-将当前帧划分成子帧,以及

-对要应用于从前一帧t-1的矩阵到当前帧t的矩阵的连续子帧的矩阵进行插值,以便平滑两个矩阵之间随时间的差异。

在步骤S11中,插值后的旋转矩阵被应用于表示步骤S1(或可选的S2)的环绕声通道信号的K个子帧中的每个子帧的矩阵n X(L/K),以便在步骤S14的多通道-单通道编码之前尽可能多地将这些信号去相关。记得,事实上,根据一般方法,我们希望在该多通道-单通道变换之前尽可能多地将这些信号去相关。对分离通道的比特分配在步骤S12中完成,并且在步骤S13中进行编码。

在步骤S14中,在实行步骤S15的复用从而结束用于压缩编码的方法之前,可以根据该通道的代表性和网络RES上的可用比特率来决定每个通道要分配的比特数(图7)。在一个实施例中,针对当前帧估计每个通道中的能量,并且将该能量乘以针对该通道和针对给定比特率的预定义分数(该分数例如是下面参考图3解释的MOS分数)。因此,对要为每个通道分配的比特数进行加权。这样的实施例是有利的,并且可能是在环绕声上下文中单独保护的对象。

图7示出了本发明意义内的编码设备DCOD和解码设备DDEC,这些设备相对于彼此是对偶的(意味着是“可反转的”),并且通过通信网络RES而彼此连接。

编码设备DCOD包括处理电路,通常包括:

-存储器MEM1,用于存储本发明意义内的计算机程序的指令数据(这些指令可以分布在编码器DCOD与解码器DDEC之间);

-接口INT1,用于接收分布在不同通道(例如,四个一阶通道W、Y、Z、X)上的环绕声信号,以用于在本发明的意义内对它们进行压缩编码;

-处理器PROC1,用于接收这些信号和通过执行存储在存储器MEM1中的计算机程序指令来处理它们,以用于对它们进行编码;以及

-通信接口COM1,用于经由网络来传输编码信号。

-解码设备DDEC包括其自己的处理电路,通常包括:

-存储器MEM2,用于存储本发明意义内的计算机程序的指令数据(如上所述,这些指令可以分布在编码器DCOD与解码器DDEC之间);

-接口COM2,用于从RES网络接收编码信号,以用于在本发明的意义内从压缩中解码出它们;

-处理器PROC2,用于通过执行存储在存储器MEM2中的计算机程序指令来处理这些信号,以用于对它们进行解码;以及

-输出接口INT2,用于以环绕声通道W'、Y'、Z'、X'的形式传送解码信号,例如以用于回放它们。

当然,该图7示出了本发明意义内的编解码器(编码器或解码器)的结构实施例的一个示例。下面图3至图6描述了这些功能更强的编解码器的详细实施例。

现在参考图3来描述本发明意义内的编码器设备。

编码器的策略是尽可能多地将环绕声信号的通道去相关,并且用核心编解码器对它们进行编码。这种策略使得限制解码的环绕声信号中的伪像成为可能。更具体地,这里我们寻求在多通道-单通道编码之前对输入通道应用优化的去相关。此外,对于编码器和解码器来说插值的计算成本有限,因为它是在特定的域(2D的角度、3D的四元数、4D的四元数对)中实行的,这使得对于为PCA/KLT分析计算的协方差矩阵进行插值成为可能,而不是每帧几次地重复分解成特征值和特征向量。

然而,在讨论在本发明的意义内执行的核心编码之前,这里呈现了编码器的一些有利的特征,特别是诸如作为感知标准的函数的用于编码的分配比特预算的优化,如下所示。

在这里描述的编码器的实施例中,编码器通常可以是标准化的3GPP EVS(“增强话音服务”)编码器的扩展。有利的是,可以使用EVS编码比特率,而无需修改EVS比特流的结构。因此,多通道-单通道编码(下面描述的图3的块340)在这里通过对每个变换的通道的可能分配来工作,其限制在用于超宽音频频带中进行编码的以下比特率:9.6;13.2;16.4;24.4;32;48;64;96和128kbps。

当然,可以通过修改EVS编解码器来增加附加的比特率(以在分配中具有更详细的粒度)。也可以使用除EVS以外的编解码器,例如编解码器。

一般来说,记住,编码的粒度越精细,必须预留越多的比特来表示比特率的可能组合。必须在分配的精细度与描述比特分配的附加信息之间做出折衷。这种分配在这里由图3的块320进行优化,这将在下面描述。这本身是有利的特征,并且独立于分解成特征向量,以便在本发明的意义内建立旋转矩阵。这样,由块320执行的比特分配可以是单独保护的对象。

参考图3,块300在索引为t的当前帧中接收输入信号Y。这里没有示出索引,以免使标签复杂化。这是大小为n×L的矩阵。在适配于一阶环绕声上下文的实施例中,我们有n=4个通道W、Y、Z、X(由此根据ACN次序来定义),它们可以根据SN3D惯例进行归一化。在变型中,通道的次序可以替代为例如W、X、Y、Z(遵循FuMa惯例),并且归一化可以不同(N3D或FuMa)。因此,通道W、Y、Z、X对应于连续的行:y1,l、y2,l、y3,l、y4,l,它们将以一维信号yi(l)(l=1,…,L)的形式来表示。因此,这是占据帧t的从1到L的一连串样本。

假设(在每个通道中)信号以48kHz进行采样,而不损失一般性。帧长度固定在20ms,即L=960个连续样本,而不损失一般性。替代地,可以例如使用L=640个样本的帧长度以32kHz进行采样。

下面描述的PCA/KLT分析和PCA/KLT变换是在时域中执行的。因此,可以理解,我们这里保持在时域中,而不必执行子带变换或更一般的频率变换。

在每一帧处,编码器的块300应用预处理(可选的)以获得被表示为Y的经预处理的输入信号。这可以是对输入信号通道的每个新的20ms帧进行高通滤波(其截止频率通常为20Hz)。该操作允许去除有可能会偏置协方差矩阵估计的连续分量,使得来自块300的信号输出可以被认为具有零均值。传递函数被表示为Hpre(z),因此我们对每个通道都有:Xi(z)=Hpre(z)Yi(z)。如果没有应用块300,我们有X=Y。块340中的低通滤波器也可以被应用于执行多通道-单通道编码,但是当应用块300时,可以在块340中使用的单通道编码的预处理期间的高通滤波优选地被禁用,以避免重复相同的预处理,从而降低整体复杂度。

上述传递函数Hpre(z)可以是以下类型:

通过将该滤波器应用于输入信号的n个通道中的每一个,其系数可以如下表所示:

8kHz 16kHz 32kHz 48kHz
b<sub>0</sub> 0.988954248067140 0.994461788958.195 0.997227049904470 0.998150511190452
b<sub>1</sub> -1.977908496134280 -1.988923577916390 -1.994454099808940 -1.996301022380904
b<sub>2</sub> 0.988954248067140 0.994461788958195 0.997227049904470 0.998150511190452
a<sub>1</sub> 1.977786483776764 1.988892905899653 1.994446410541927 1.996297601769122
a<sub>2</sub> -0.978030508491796 -0.988954249933127 -0.994461789075954 -0.996304442992686

替代地,可以使用另一类型的滤波器,例如,频率为50Hz的六阶巴特沃兹滤波器。

在一些变型中,预处理可以包括固定的矩阵化步骤,该步骤可以保持相同数量的通道或者减少通道的数量。下面给出了应用于B-格式环绕声信号的四个通道的矩阵化的示例:

注意,在这种情况下,在解码时必须通过经由MA→B=MB→A -1对解码信号进行矩阵化来反转该预处理,以找到原始格式的通道。

下一个块310在每个帧t处估计通过确定PCA/KLT的特征向量并证实由这些特征向量形成的变换矩阵确实表征了旋转而获得的变换矩阵。下面参考图4进一步给出块310的操作的细节。该变换矩阵执行通道的矩阵化,以便将它们去相关,使得通过块340应用独立的多通道-单通道类型的编码成为可能。如下面详述的,块310向复用器发送表示变换矩阵的量化索引,以及可选地,对当前帧t的每个子帧的变换矩阵的插值数量进行编码的信息,这也将在下面详述。

块320基于给定的B个比特的预算来确定每个通道的最佳比特率分配(在PCA/KLT变换之后)。该块通过计算比特率的每个可能组合的分数来寻找比特率在通道之间的分布;通过寻找最大化该分数的组合来找到最佳分配。

可以使用几个标准来定义每个组合的分数。

例如,通道的单通道编码的可能比特率的数量可以被限制为具有超宽音频频带的EVS编解码器的九个离散比特率:9.6;13.2;16.4;24.4;32;48;64;96和128kbps。然而,如果根据本发明的编解码器在与索引为t的当前帧中的B个比特的预算相关联的给定比特率下操作,则通常只能使用这些列出的比特率的子集。例如,如果编解码器比特率固定在4×13.2=52.8kbps以表示四个通道,并且如果每个通道接收到9.6kbps的最小预算以保证每个通道的超宽频带,则用于编码独立通道的比特率的可能组合必须遵守所使用的比特率保持低于可用比特率的约束,该可用比特率对应于:

Bmultimono=B-Boverhead,

其中,Boverhead是如下所述的用于每帧编码的附加信息(比特分配+旋转数据)的比特预算。例如,对于四通道环绕声编码的情况,Boverhead可以是每20ms帧Boverhead=55比特(即2.75kbps)的量级;这包括用于对旋转矩阵进行编码的51比特和用于对分离通道编码的比特分配进行编码的4比特(如下所述)。对于4×13.2=52.8kbps的总比特率,这因此留下了Bmultimono=50.05kbps的预算。

就每个通道的比特率而言,这给出了对每个通道的比特率的以下置换:

-单元集(9.6,9.6,9.6,9.6)——总计=38.4

-(13.2,9.6,9.6,9.6)的置换——总计=42kbps

-(13.2,13.2,9.6,9.6)的置换——总计=45.6kbps

-(13.2,13.2,13.2,9.6)的置换——总计=49.2kbps

-(16.4,9.6,9.6,9.6)的置换——总计=45.2kbps

-(16.4,13.2,9.6,9.6)的置换——总计=48.8kbps

可以看出,一些遵守最大预算限制的组合具有比其他组合低得多的比特率,并且最后只能保留两个相关的组合:

-(13.2,13.2,13.2,9.6)的置换——4种情况,并且未使用的比特率为50.5-49.2=1.3kbps

-和(16.4,13.2,9.6,9.6)的置换——12种情况,并且未使用的比特率为50.5-48.8=1.7kbps

这能够说明十六种组合是特别有意义的,并且可以用4比特(16个值)来编码。此外,取决于所选的分配,一定数量的比特可能仍未使用。

可以看出,基于PCA/KLT处理并允许灵活的比特分配的自适应矩阵化的编码可能导致未使用的比特,并且对于一些通道来说,导致比特率(例如,9.6kbps)低于在每个通道之间平均分布的比特率(例如,每个通道13.2kbps)。

为了改善这种情况,块320然后可以评估由PCA/KLT变换(块310的输出)产生的4个通道的比特率的所有可能(相关)组合,并且为它们分配分数。该分数的计算基于:

-每个通道的能量,以及

-可以预先存储并且由主观或客观测试产生的平均分数;这个分数被表示为MOS(对于“平均意见分数”,其为一组测试者的平均分数),与分配的比特率相关联。

然后,这个分数可以用下面的等式来定义

其中,Ei是通道i上信号s(l)(l=…L-1)的当前帧(索引为t)中的能量,

其中:

最佳分配可以使得:

替代地,因子Ei可以固定在与通道i相关联的特征值所取的值,该值是通过分解成输入到块310的信号的特征值并在可能的带符号置换之后产生的。

对于与比特率Ri=50bi(以比特/秒为单位)相对应的每20ms帧的预算bi(以比特数为单位)来说,MOS分数Q(bi)优选地是用于块340中的多通道-单通道编码的编解码器的主观质量分数。首先,我们可以使用EVS标准化编码器的(平均)主观MOS分数,由下表给出:

κ<sub>i</sub> 0 1 2 3 4 5 6 7 8
b<sub>i</sub> 192 264 328 488 640 960 1280 1920 2560
R<sub>i</sub> 9600 13200 16400 24400 32000 48000 64000 96000 128000
Q(b<sub>i</sub>) 3.62 3.79 4.25 4.60 4.53 4.82 4.83 4.85 4.87

替代地,可以从预测编解码器的质量的其他(主观或客观)测试中推导出每个列出的比特率的其他MOS分数。还可以根据信号类型的分类(例如,没有背景噪声的语音信号,或者具有环境噪声的语音,或者音乐或混合内容),通过重用由EVS编解码器实施的分类方法,并且通过在执行比特分配之前将它们应用于环绕声输入信号的W通道,来适配当前帧中所使用的MOS分数。MOS分数也可以对应于由不同类型的方法和评级量表产生的平均分数:MOS(绝对)从1到5,DMOS(从1到5),MUSHRA(从0到100)。

在EVS编码器被另一编解码器替换的变型中,比特率bi和分数Q(bi)的列表可以在该另一编解码器的基础上被替换。还可以向EVS编码器添加附加的编码比特率,从而补充比特率和MOS分数的列表,乃至修改EVS编码器和潜在的相关联的MOS分数。

在另一替代方案中,通道之间的分配通过用幂α加权能量来细化,其中α取0与1之间的值。通过改变α的值,我们由此可以控制能量在分配中的影响:α越接近1,能量在分数中越显著,从而通道之间的分配越不平等。相反,α越接近0,能量越不显著,通道之间的分配分布得越均匀。因此,分数以下列形式表示:

在另一替代方案中,为了使分配更稳定,可以将第二加权添加到分数函数中,以惩罚帧间比特率变化。如果帧t中的比特率组合与帧t-1中的比特率组合不同,则向分数添加惩罚。分数以下列形式表示:

其中,当bt,i=bt-1,i时,βi具有预定常数作为其值(例如,0.1),并且当bt,i≠bt-1,i时,βi=0。

这种附加的加权使得限制通道之间比特率的过度频繁波动成为可能。利用这种加权,只有能量的显著变化才会导致比特率的变化。此外,常数的值可以变化,以调整分配的稳定性。

再次参考图3,一旦为每一帧计算了比特率,该比特率就由块330编码,例如对所有比特率组合穷尽地进行编码。在9个比特率和4个通道的情况下,所需的比特率是比特,其中对应于四舍五入到下一整数。4个比特率的组合可以以索引的形式进行编码:然而,可能更倾向于:列举(最初是离线地)与给定比特预算相关的不同比特率组合,并且使用最小比特率来表示这些组合。该索引然后可以由“置换码”+“组合偏移”类型的编码来表示;例如,在我们使用4比特索引对包括(13.2,13.2,13.2,9.6)的4个置换和(16.4,13.2,9.6,9.6)的12个置换的16个比特率组合进行编码的示例中,我们可以使用索引0-3对前4个可能的置换(偏移为0,码范围为0-3)进行编码,并且使用索引4-15对12个其他可能的置换(偏移为4,码为0-3)进行编码。

再次参考图3,复用块350将来自块310的n个矩阵化通道和来自块320的分配给每个通道的比特率作为输入,以便然后用与例如EVS编解码器相对应的核心编解码器对不同通道分离地进行编码。如果使用的核心编解码器允许立体声或多通道编码,则多通道-单通道方法可以被多通道-立体声或多通道编码替换。一旦通道被编码,相关联的比特流就被发送到复用器(块350)。

在总预算的一部分没有被完全使用的帧中,复用器(块350)可以应用零比特填充来达到分配给当前帧的比特预算,即个比特。替代地,剩余的比特预算可以被重新分配用于对变换后的通道进行编码以便使用整个可用预算,并且如果多通道-单通道编码基于EVS类型技术,则指定的3GPP EVS编码算法可以被修改以引入附加的比特率。在这种情况下,也可以将这些附加的比特率集成到定义bi与Q(bi)之间的对应关系的表中。

比特也可以被预留,以便能够在两种编码模式之间切换:

-根据本发明利用旋转矩阵的编码进行编码,以及

-如果前一帧的旋转矩阵也是单位矩阵(例如,当环绕声信号包括非常扩散的声源或在空间上围绕某些优选方向分布的多个源时,在这种情况下环绕声通道的相关性比混合更孤立的点源的声音的相关性低),则根据本发明利用限制于单位矩阵(因此不被传输)的旋转矩阵进行编码相当于直接的多通道-单通道编码。

这两种模式之间的选择意味着使用流中的比特来指示是当前帧使用限制于单位矩阵的旋转矩阵而不传输旋转参数(比特=0),还是对旋转矩阵进行编码(比特=1)。当bit=0时,在某些变型中,可以将固定比特分配给分离的通道,而不传输比特分配。

现在参考图4来详细描述应用PCA/KLT分析和变换的块310。在该块中,编码器在块400中根据(经预处理的)环绕声通道来计算协方差矩阵:

替代地,该矩阵可以由相关矩阵替换,其中通道通过它们各自的标准偏差被预先归一化,或者通常反映相对重要性的权重可以被应用于每个通道;此外,归一化项1/(L-1)可以被省略或由另一值(例如,1/L)替换。这些值Cij对应于xi与xj之间的方差。

编码器然后在块410中通过计算矩阵C的特征值和特征向量来执行分解成特征值(EVD对于“特征值分解”)。特征向量在这里被表示为Vt,以指示帧t的索引,因为在索引t-1的前一帧中获得的特征向量Vt-1优选地被存储并随后被使用。特征值被表示为:λ1,λ2,...,λn

替代地,可以使用经预处理的通道X的奇异值分解(SVD)。因此我们获得奇异向量(左边的U和右边的V)和奇异值σi。在这种情况下,我们可以认为特征值λi并且特征向量Vt由左边U上的n个奇异向量(列)给出。

然后,编码器在块420中对帧t的变换矩阵的列应用第一带符号置换(其中列是特征向量),以便避免与前一帧t-1的变换矩阵有太大差异,这将导致在前一帧的边界处的咔哒声问题。

因此,一旦针对帧t获得变换矩阵的粗略草稿,块430就从索引为t的当前帧中获取n个估计的特征向量Vt=vt,0,...,vt,n,以及从索引为t-1的前一帧中存储的n个特征向量Vt-1,并且对估计的向量Vt应用带符号置换,使得它们尽可能地接近Vt-1。因此,帧t的特征向量被置换,使得相关联的基尽可能地接近帧t-1的基。这具有改善变换信号地帧的连续性的效果(在变换矩阵被应用于通道之后)。

另一约束是变换矩阵必须对应于旋转。该约束确保编码器可以将变换矩阵转换成广义欧拉角度(块430),以便用如上所述的预定比特预算来量化它们(块440)。为此,该矩阵的行列式必须为正数(通常等于+1)。

优选地,最佳带符号置换通过两个步骤获得:

-第一步(上面呈现的图2中的S4)匹配两帧之间最接近的向量,只关注轴,而不关注轴的方向(朝向)。这个问题可以被公式化为任务指派的组合问题,其中目标是找到使成本最小化的配置。成本可以在这里被定义为帧t与t-1的特征向量矩阵之间的互相关的绝对值的轨迹。

Ct=tr(abs(corr(Vt,Vt-1)))

其中,tr(.)表示矩阵的轨迹,abs(.)相当于对矩阵的所有系数应用绝对值运算,并且corr(V1,V2)给出了向量V1与V2之间的相关矩阵。

在一个实施例中,“匈牙利”方法(或“匈牙利算法”)用于确定给出帧t的特征向量的置换的最优指派;

-第二步(图2中的S6)包括确定每个置换特征向量的方向/朝向。块420计算帧t-1的置换特征向量与帧t的特征向量之间的互相关

如果互相关矩阵Γt的对角线上的值是负数,则这表示特征向量的方向之间的符号变化。然后在中对相对应的特征向量执行符号逆转。

在两个步骤结束时,帧t处的变换矩阵由Vt表示,使得在下一帧处所存储的矩阵变成Vt-1

替代地,通过计算被转换成3D或4D的基矩阵的变化,并且通过将基矩阵的这种变化分别转换成单位四元数或两个单位四元数,可以完成对于最佳带符号置换的搜索。然后,搜索变成最近邻搜索,其利用表示可能的带符号置换的集合的字典。例如,在4D的情况下,4个值的12个可能的偶数置换(总共24个置换)与以下写作4D向量的单位四元数对相关联:

·(1,0,0,0)和(1,0,0,0)

·(0,0,0,1)和(0,0,-1,0)

·(0,1,0,0)和(0,0,0,-1)

·(0,0,1,0)和(0,-1,0,0)]

·(0.5,-0.5,-0.5,-0.5)和(0.5,0.5,0.5,0.5)

·(0.5,0.5,0.5,0.5)和(0.5,-0.5,-0.5,-0.5)

·(0.5,-0.5,0.5,-0.5)和(0.5,-0.5,0.5,0.5)

·(0.5,-0.5,0.5,0.5)和(0.5,-0.5,-0.5,0.5)

·(0.5,0.5,-0.5,0.5)和(0.5,0.5,-0.5,-0.5)

·(0.5,-0.5,-0.5,0.5)和(0.5,0.5,-0.5,0.5)

·(0.5,0.5,-0.5,-0.5)和(0.5,0.5,0.5,-0.5)

·(0.5,0.5,0.5,-0.5)和(0.5,-0.5,0.5,-0.5)

通过使用上述列表作为预定义四元数对的字典,并且通过针对与基矩阵的变化相关联的四元数对执行最近邻搜索,可以完成对于(偶数)最优置换的搜索。这种方法的一个优点是重用四元数和四元数对类型的旋转参数。

在下一个块460中实施的运算假设在带符号置换之后的变换矩阵确实是旋转矩阵;变换矩阵必然是酉矩阵,但它的行列式也必须等于1

det(Vt)=1

然而,从块410和420产生的变换矩阵(在EVD和带符号置换之后)是正交(酉)矩阵,其可以具有-1或1的行列式,这意味着反射或旋转矩阵。

如果变换矩阵是反射矩阵(如果它的行列式等于-1),则可以通过反转特征向量(例如,与最低值相关联的特征向量)或通过反转两列(特征向量)将其修改为旋转矩阵。

特征向量分解(例如,通过吉文斯旋转)或奇异值分解的某些方法可以导致本质上是旋转矩阵(行列式为+1)的变换矩阵;在这种情况下,证实行列式为+1的步骤将是可选的。

块430将旋转矩阵转换成参数。在优选实施例中,角度表示用于量化(对于4D情况为6个广义欧拉角度,对于3D情况为3个欧拉角度,并且在2D中为一个角度)。对于环绕声的情况(4个通道),我们根据David K.Hoffman、Richard C.Raffenetti和Klaus Ruedenberg,在《数学物理杂志》13,528(1972)上发表的文章“Generalization of Euler Angles to N-Dimensional Orthogonal Matrices”中描述的方法获得了6个广义欧拉角度;对于平面环绕声的情况(3个通道),我们获得3个欧拉角度,并且对于立体声情况,我们根据现有技术中公知的方法获得旋转角度。在优选实施例中,使用标量量化,并且量化步长例如对于每个角度来说是相同的。例如,在4个通道的情况下,我们用3×(8+9)=51比特对6个广义欧拉角度(3个角度被定义在步长为π/256的在8比特中编码的区间[-π/2,π/2]中,并且另外3个角度被定义在步长为π/256的在9比特中编码的区间[-π,π]中)进行编码。变换矩阵的量化索引被发送到复用器(块350)。此外,如果用于量化的参数与用于插值的参数不匹配,则块440可以将量化的参数转换成量化的旋转矩阵

替代地,块430和440可以被如下替换:

-块430可以执行旋转矩阵到一对单位四元数(4个通道的情况)的转换、到单位四元数(3个通道的情况)的转换、以及到角度(2个通道的情况)的转换。

对于4D情况,这种到一对四元数的转换可以通过下面的伪码对旋转矩阵(其系数被表示为R[i,j],i,j=0…3)实行:

相关联的矩阵A[i,j]的计算如下:

A[0,0]=R[0,0]+R[1,1]+R[2,2]+R[3,3]

A[1,0]=R[1,0]-R[0,1]+R[3,2]-R[2,3]

A[2,0]=R[2,0]-R[3,1]-R[0,2]+R[1,3]

A[3,0]=R[3,0]+R[2,1]-R[1,2]-R[0,3]

A[0,1]=R[1,0]-R[0,1]-R[3,2]+R[2,3]

A[1,1]=-R[0,0]-R[1,1]+R[2,2]+R[3,3]

A[2,1]=-R[3,0]–R[2,1]-R[1,2]-R[0,3]

A[3,1]=R[2,0]-R[3,1]+R[0,2]-R[1,3]

A[0,2]=R[2,0]+R[3,1]-R[0,2]-R[1,3]

A[1,2]=R[3,0]-R[2,1]-R[1,2]+R[0,3]

A[2,2]=-R[0,0]+R[1,1]-R[2,2]+R[3,3]

A[3,2]=-R[1,0]-R[0,1]-R[3,2]-R[2,3]

A[0,3]=R[3,0]-R[2,1]+R[1,2]-R[0,3]

A[1,3]=-R[2,0]-R[3,1]-R[0,2]-R[1,3]

A[2,3]=R[1,0]+R[0,1]-R[3,2]-R[2,3]

A[3,3]=-R[0,0]+R[1,1]+R[2,2]-R[3,3]

A=A/4

根据相关联的矩阵来计算2个四元数:

A2=square(A)#系数的平方

q1=sqrt(A2.sum(axis=1))#对行求和

q2=sqrt(A2.sum(axis=0))#对列求和

符号的确定:

对于k=0...3:如果sign(A[i,k])<0,则q2[k]=-q2[k]

对于k=0...3:如果sign(A[k,j])!=sign(q1[k]*q2[j]),则q1[k]=-q1[k]

对于大小为3×3的矩阵R[i,j](i,j=0…2),对于3D情况的到四元数的转换可以如下实行:

简化相关联的矩阵的计算:

q[0]=(R[0,0]+R[1,1]+R[2,2]+1)^2+(R[2,1]-R[1,2])^2+(R[0,2]-R[2,0])^2+(R[1,0]-R[0,1])^2

q[1]=(R[2,1]-R[1,2])^2+(R[0,0]-R[1,1]-R[2,2]+1)^2+(R[1,0]+R[0,1])^2+(R[2,0]+R[0,2])^2

q[2]=(R[0,2]-R[2,0])^2+(R[1,0]+R[0,1])^2+(R[1,1]-R[0,0]-R[2,2]+1)^2+(R[2,1]+R[1,2])^2

q[3]=(R[1,0]-R[0,1])^2+(R[2,0]+R[0,2])^2+(R[2,1]+R[1,2])^2+(R[2,2]-R[0,0]-R[1,1]+1)^2

对于i=0…3:q[i]=sqrt(q[i])/4

四元数q的计算:

如果(R[2,1]-R[1,2])<0,则q[1]=-q[1]

如果(R[0,2]-R[2,0])<0,则q[2]=-q[2]

如果(R[1,0]-R[0,1])<0,则q[3]=-q[3]

对于2×2矩阵的情况,根据现有技术的已知方法来计算角度。

在一些变型中,单位四元数q1、q2(4D情况)和q(3D情况)可以被转换成现有技术中已知的轴-角度表示

-块440可以在所指示的域中执行量化:

*4个通道的情况:单位四元数对q1和q2通过4维的球面量化字典进行量化;按照惯例,q1用半球面字典进行量化(因为q1和-q1对应于相同的3D旋转),并且q2用球面字典进行量化。字典的示例可以由基于4维多面体的预定义点给出;在一些变型中,可以量化双关联的轴-角度表示,这将等同于四元数对;

*3个通道的情况:单位四元数通过4维的球面量化字典进行量化-字典的示例可以由基于4维多面体的预定义点给出;

*2个通道的情况:角度通过均匀标量量化进行量化。

我们现在描述用于两个连续帧之间的旋转矩阵的插值的块460。它可以在应用这些矩阵之后消除通道中的不连续性。通常,如果两组角度或四元数从前一帧t-1到下一帧t相差太大,则在这两个帧之间的子帧中没有应用平滑过渡的情况下,可听见的咔哒声是一个问题。然后,在为帧t-1计算的旋转矩阵与为帧t计算的旋转矩阵之间实行过渡插值。编码器在块460中当前帧与前一帧之间的旋转的(量化)表示进行插值,以便避免变换之后各种通道的过度快速波动。插值的数量可以是固定的(等于预定值)或自适应的。然后,根据在块450中确定的插值的数量,将每个帧分成子帧。因此,如果使用自适应插值,则在自适应地确定该数目的情况下,块450可以在选定数量的比特中对要执行的插值的数量进行编码,从而对要提供的子帧的数量进行编码;在固定插值的情况下,不必对信息进行编码。

接下来,块460将旋转矩阵转换成表示旋转矩阵的特定域。帧被分成子帧,并且在选定的域中,对每个子帧实行插值。

对于一阶环绕声输入信号(具有4个通道W、X、Y、Z),在块460中,编码器从6个量化的欧拉角度重建量化的4D旋转矩阵,然后将其转换成用于插值目的的两个单位四元数。在编码器的输入是平面环绕声信号(3个通道W、X、Y)的变型中,在块460中,编码器从3个量化的欧拉角度重建量化的3D旋转矩阵,然后将其转换成用于插值目的的单位四元数。在编码器输入是立体声信号的变型中,编码器在块460中使用用旋转角度量化的2D旋转的表示。

在具有4个通道的实施例中,对于帧t与帧t-1之间的旋转矩阵的插值,借由凯莱因子分解将为帧t计算的旋转矩阵分解成两个四元数(四元数对),并且我们使用为前一帧t-1存储的四元数对,表示为(QL,t-1,QR,t-1)。

对于每个子帧,四元数在每个子帧中被两两插值。

对于左四元数(QL,t),该块确定两个可能(QL,t或-QL,t)之间的最短路径。取决于情况,当前帧的四元数的符号被反转。然后使用球面线性插值(SLERP)为左四元数计算插值:

其中,α对应于插值因子(α=1/K,2/K,...1),且αΩL=arccos(QL,t-1·QL,t)。

对于右四元数(QR,t),如果存在对于左四元数的逆转,那么我们必须保持奇偶性,并且制定右四元数的符号。这种符号约束在下文中称为“联合最短路径约束”。然后插值的计算类似于左四元数:

其中,α对应于插值因子(α=1/K,2/K,...1),且ΩR=arccos(QR,t-1·QR,t)。

一旦为两个四元数计算了插值,就计算了尺寸4×4的旋转矩阵(分别是对于平面环绕声的3×3或对于立体声情况的2×2)。

这种到旋转矩阵的转换可以根据以下伪码来实行:

4D情况:对于四元数对

-如前所述,计算四元数矩阵和反四元数矩阵,并且计算矩阵乘积。

3D情况:对于四元数q=(w,x,y,z),我们得到大小为3×3的矩阵M[i,j](i,j=0…2)。

xy=2*x*y

xz=2*x*z

yz=2*y*z

wx=2*w*x

wy=2*w*y

wz=2*w*z

xx=2*x*x

yy=2*y*y

zz=2*z*z

M[0][0]=1-(yy+zz)

M[0][1]=(xy-wz)

M[0][2]=(xz+wy)

M[1][0]=(xy+wz)

M[1][1]=1-(xx+zz)

M[1][2]=(yz-wx)

M[2][0]=(xz-wy)

M[2][1]=(yz+wx)

M[2][2]=1-(xx+yy);

最后,在插值块460中每子帧计算的矩阵(或它们的转置)然后被用于变换块470,该变换块470通过将由此找到的旋转矩阵应用于已经由块300预处理的环绕声通道来产生n个变换的通道。

下面,我们返回到块450中要确定的子帧数量K,块450用于该数量为自适应的情况。测量当前帧与前一帧之间的最终差异,或者直接根据描述旋转矩阵的参数的角度差异来确定。在后一情况下,我们想要确保连续子帧之间的角度变化是不可察觉的。自适应数量的子帧的实施对于降低编解码器的平均复杂度来说特别有利,但是如果选择降低复杂度,则最好使用具有固定数量的子帧的插值。

帧t的校正旋转矩阵与帧t-1的旋转矩阵之间的最终差异给出了两个帧之间的通道矩阵化的差异的幅度的度量。该差值越大,在块460中完成的插值的子帧数量越多。为了测量这种差异,我们使用当前帧与前一帧的变换矩阵之间的互相关矩阵的绝对值之和,如下所示:

δt=‖In-corr(Vt,Vt-1)‖

其中,In是单位矩阵,Vt是索引为t的帧的特征向量,并且‖M‖是矩阵M的范数,其在这里对应于所有系数的绝对值之和。可以使用其他矩阵范数(例如,弗罗贝纽斯范数)。

如果两个矩阵相同,那么该差异等于0。矩阵越不相似,差异δt的值越大。可以将预定的阈值应用于δt,例如,根据以下决策逻辑,每个阈值与预定数量的插值相关联:

阈值:{4.0,5.0,6.0,7.0}

用于插值的子帧数量K:{10,48,96,192}

因此,仅两个比特就足以对给出细分(子帧)数量的4个可能值进行编码。

然后,由块450确定的插值数量K被发送到插值模块460,并且在自适应情况下,子帧数量以二进制索引的形式被编码,该二进制索引被发送到复用器(块350)。

插值的实施使得最终能够在多通道-单通道编码之前应用输入通道去相关的优化。实际上,由于这种对于去相关的搜索,分别为前一帧t-1和当前帧t计算的旋转矩阵可能非常不同,但是即使如此,插值也使得平滑这种差异成为可能。

所使用的插值只需要编码器和解码器有限的计算成本,因为它是在特定域(2D中为角度、3D中为四元数、4D中为四元数对)中执行的。这种方法比对为PCA/KLT分析计算的协方差矩阵进行插值和每帧重复几次EVD类型特征值分解更有利。

然后,块470使用在块460中计算的变换矩阵来执行每个子帧的环绕声通道的矩阵化。这种矩阵化相当于计算每个子帧的其中X(α)对应于大小为n×(L/K)(对于α=1/K,2/K,...1)的子块。包含在这些通道中的信号然后被发送到用于多通道-单通道编码的块340。

现在参考图5,描述本发明的示例性实施例中的解码器。

在块500对当前帧t的比特流进行解复用之后,分配信息被解码(块510),这使得对为n个变换的通道中的每个通道接收的(多个)比特流进行解复用和解码(块520)成为可能。

块520调用分离地执行的核心解码的多个实例。核心解码可以是EVS类型的,可选地被修改以提高其性能。使用多通道-单通道方法,每个通道被分离地解码。如果先前使用的编码是立体声或多通道编码,则可以用多通道-立体声或多通道来替换多通道-单通道方法以进行解码。如此解码的通道被发送到块530,块530对当前帧的旋转矩阵进行解码和可选地对要用于插值的子帧数量K(如果插值是自适应的)进行解码。对于每个矩阵,插值块460将帧分成子帧,对于这些子帧,可以在由块610(图6)编码的流中读取数量K,并且对旋转矩阵进行插值,目的是在不存在传输误差的情况下找到与编码器的块460中相同的矩阵,以便能够反转先前在块470中完成的变换。

块530执行与块470相反的矩阵化,以便重建解码信号,如下面参考图6详细描述的。这种矩阵化相当于计算每个子帧的其中对应于大小为n×(L/K)(对于α=1/K,2/K,...)的连续子块。

块530通常执行解码以及与图3的块310所执行的相反的PCA/KLT合成。在块600中,对当前帧中的旋转量化参数的量化索引进行解码。可以使用标量量化,并且对于每个角度来说量化步长相同。在自适应情况下,对插值子帧的数量进行解码(块610)以找到集合{10,48,96,192}当中的子帧数量K;在帧长度L不同的一些变型中,可以调整这组值。解码器的插值与编码器中执行的插值(块460)相同。

块620使用在块460中计算的变换矩阵的逆(实际上为转置)来执行每个子帧的环绕声通道的逆矩阵化。

因此,本发明使用与MPEG-H编解码器完全不同的方法,该方法具有基于变换矩阵的特定表示的叠加,该变换矩阵在时域中被限制为从一帧到另一帧的旋转矩阵,特别是能够利用确保方向一致(包括考虑符号的方向)的映射对变换矩阵进行插值。

本发明的一般方法是通过PCA在时域中对环绕声声音进行编码,特别是以优化的方式(特别是在四元数/四元数对的域中)将PCA变换矩阵制定为旋转矩阵并且通过子帧进行插值,以便提高质量。插值步长是固定的或自适应的,这取决于互相关矩阵与参考矩阵(单位)之间或要进行插值的矩阵之间的差异的标准。旋转矩阵的量化可以在广义欧拉角度域中实施。然而,优选地,可以选择在四元数和四元数对的域中(分别)量化3维和4维的矩阵,这使得保持在相同的域中进行量化和插值成为可能。

此外,使用特征向量的对齐来避免从一帧到另一帧的咔哒声和通道逆转的问题。

当然,本发明不限于上面作为示例而描述的实施例,而是扩展到其他变型。

上面的描述由此讨论了4个通道的情况。

然而,在一些变型中,也可以对多于四个的多个通道进行编码。该实施方式与n=4的情况保持相同(就功能块而言),但是四元数对的插值被下面的一般方法替换。

帧t-1和t处的变换矩阵被表示为Vt-1和Vt。可以用Vt-1与Vt之间的因子α来执行插值,使得:

项可以通过的特征值分解来直接计算。实际上,如果则我们有

还要注意,该变型也可以通过单位四元数对(4D情况)、单位四元数(3D情况)或角度来替换插值,然而这将是不太有利的,因为这将需要附加的对角化步骤和功率计算,而上述实施例对于2、3或4个通道的这些情况来说更有效。

32页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:存储器装置接口及方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类