一种基于人耳听觉频率尺度信号分解的音频编解码方法

文档序号:1773593 发布日期:2019-12-03 浏览:20次 >En<

阅读说明:本技术 一种基于人耳听觉频率尺度信号分解的音频编解码方法 (A kind of audio encoding and decoding method based on human auditory system dimensions in frequency signal decomposition ) 是由 林志斌 刘晓峻 狄敏 吴宝佳 于 2019-10-29 设计创作,主要内容包括:本发明公开了一种基于人耳听觉频率尺度信号分解的音频编解码方法,为了较好的使用心理声学模型,将线性频域的处理结果折算到对应的人耳听觉频率尺度(Bark)上,用以控制线性频域参数的量化误差。直接在人耳听觉频率尺度上进行信号分解,实现时域信号在Bark尺度的投影计算,本发明采用基于人耳听觉频率尺度进行音频信号的非均匀子带分解,有效的利用人耳听觉的心理声学模型,提升了心理声学模型计算精度和编解码的效率,本发明的量化对象为子带时域信号,在满足音频编解码码率的前提下将编解码量化失真控制在心理声学模型的参数允许范围内,量化方式新颖且效率高。(The invention discloses a kind of audio encoding and decoding methods based on human auditory system dimensions in frequency signal decomposition, for preferable applied mental acoustic model, the processing result of linear frequency domain is converted onto corresponding human auditory system dimensions in frequency (Bark), to control the quantization error of linear frequency domain parameter.Signal decomposition is directly carried out in human auditory system dimensions in frequency, realize that time-domain signal is calculated in the projection of Bark scale, the present invention uses the non-homogeneous sub-band division that audio signal is carried out based on human auditory system dimensions in frequency, the effective psychoacoustic model for utilizing human auditory system, improve the efficiency of psychoacoustic model computational accuracy and encoding and decoding, quantization object of the invention is subband time-domain signal, under the premise of meeting audio coding decoding code rate by encoding and decoding quantizing distortion control in the parameter allowed band of psychoacoustic model, quantification manner is novel and high-efficient.)

一种基于人耳听觉频率尺度信号分解的音频编解码方法

技术领域

本发明涉及一种基于人耳听觉频率尺度信号分解的音频编解码方法,属于语音处理技术领域。

背景技术

现有的音频编解码方法主要有针对语音的编解码方法和针对通用音频信号的编解码方法。针对语音的编解码方法中,若要在较低码率下实现较好音质的语音传输,均为基于码激励线性预测的核心编解码方法,究其本质,是由于语音信号可用一个准确的信号生成模型来获取,码激励线性预测核心方法能通过矢量量化的方式成功的将激励信号和声道模型参数进行数据压缩。而针对通用音频的编解码方法,其基本核心均为感知编解码方法,如果要实现高音质的音频数据传输,不可避免使用均匀子带分解的频率变换方法,如修正的余弦变换(MDCT)等,其原因在于其可以实现临界降采样的实数运算,并且变换结果和信号频域信息有直接的关联,容易施加心理声学模型。如典型的MPEG MP3为是一种通用型的音频编解码方法,包含了均匀子带分解和MDCT两种信号变换方式。从本质上说,这种编解码方法是变换域的编码方式,编码中量化的对象是MDCT变换结果,量化的依据则是在满足码率的前提下尽可能的把量化噪声控制在心理声学掩蔽曲线以下。然而,人耳心理声学模型所对应的频率尺度为非均匀特征,传统的编解码方法将线性频域的处理结果折算到心理声学模型对应的非均匀频率尺度上,再根据非均匀频率尺度中的扩散函数及纯音度判别计算心理声学掩蔽特征,用以提高编解码效率。

发明内容

发明目的:为了克服现有技术中存在的不足,本发明提供一种基于人耳听觉频率尺度信号分解的音频编解码方法,通过对音频信号的基于人耳听觉频率尺度的非均匀分解,精确计算心理声学模型参数,有效的提升通用型音频编解码压缩效率和编解码音质。

技术方案:为实现上述目的,本发明采用的技术方案为:

一种基于人耳听觉频率尺度信号分解的音频编解码方法,包括以下步骤:

步骤1,获取输入音频信号。将线性频域的音频信号折算到对应的人耳听觉频率尺度上,线性频率和人耳听觉频率尺度变换关系如下:

(1)

其中,b为人耳听觉频率尺度,z为变换函数,f为线性频率。

在人耳听觉频率尺度上进行音频信号分解,实现时域信号在人耳听觉频率尺度的投影计算:

(2)

其中,X(b)为投影后系数,x(n)为采样点n处的采样值,z -1(b)为人耳听觉频率尺度域逆变换函数,j为复数符号,根据投影后系数得到心理声学感知模型参数,进而确定心理声学感知模型。

步骤2,在人耳听觉频率尺度上进行音频信号短时正交变换分解。

步骤3,人耳听觉频率尺度心理声学模型参数计算:在人耳听觉频率尺度上计算心理声学模型中,使频谱在不同频段内具有不同的频率分辨率,使频谱分布直接和临界频带相匹配,将计算获取的心理声学感知模型变换回时域,在时域进行分割并利用已有的切比雪夫正交变换得到短时感知域系数,根据短时感知域系数获取用于控制量化、码率和失真的心理声学感知模型参数。

步骤4,根据量化、码率和失真的心理声学感知模型参数对投影后系数进行量化,将量化的结果进行熵编码,得到熵编码后的编码量化参数,进一步提升编码压缩率。

步骤5,将心理声学感知模型参数和熵编码后的编码量化参数进行码流打包,形成编码数据流。

步骤6,解码过程为编码过程的逆过程,首先获取数据码流,进行数据反量化,反量化后数据进行听觉频率尺度逆变化合成音频信号,多帧信号组合还原形成解码音频数据流。

优选的:步骤2中变换所使用的正交基是切比雪夫展式,定义域为[-1,1],表达式如下:

(3)

其中,T k (x)为切比雪夫多项式的第k阶正交基,x为定义域的自变量,k表示正交基阶数。

优选的:步骤2中离散化的切比雪夫展式的正变换和逆变换公式如下:

(4)

(5)

其中,C(k)为第k阶短时正交变换系数,N为定义域上音频信号帧的帧长样点数,x j 为所选取离散化的音频信号帧第j采样点数据值,样点位置按照N阶切比雪夫多项式的零点分布位置选取,C(0)表示第0阶短时正变换系数。

本发明相比现有技术,具有以下有益效果:

1.本发明采用基于人耳听觉频率尺度进行音频信号的非均匀子带分解,有效的利用人耳听觉的心理声学模型,提升了心理声学模型计算精度和编解码的效率。

2.本发明的量化对象为子带时域信号,在满足音频编解码码率的前提下将编解码量化失真控制在心理声学模型的参数允许范围内,量化方式新颖且效率高。

附图说明

图1为基于人耳听觉频率尺度信号分解的编码器框图。

图2为基于人耳听觉频率尺度信号分解的解码器框图。

具体实施方式

下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于人耳听觉频率尺度信号分解的音频编解码方法,如图1、2所示,包括以下步骤:

步骤1,获取输入音频信号。 现有的通用音频编解码方法均采用MDCT变换域的编解码方法,为了较好的使用心理声学模型,将线性频域的处理结果折算到对应的人耳听觉频率尺度(Bark)上,用以控制线性频域参数的量化误差。同时为了实现较好的编解码效果,心理声学模型的计算普遍要求精确到1/3Bark精度,而线性频域在Bark尺度下的折算普遍存在误差,在低频段尤其明显,具体的线性频率和人耳听觉频率尺度存在如下变换关系:

(1)

其中,f为线性频率,b为人耳听觉频率尺度,z为变换函数,低频频率尺度折算误差较大。

本发明直接在人耳听觉频率尺度上进行信号分解,实现时域信号在Bark尺度的投影计算,一方面在心理声学模型参数的计算更为直接,另一方面心理声学模型所控制的量化对象与心理声学模型完全匹配,获得更好的编解码效果,其中的投影计算方法如下:

(2)

其中,X(b)为投影后系数,x(n)为采样点n处的采样值,z -1(b)为Bark域逆变换函数。

编码方法的如图1所示。信号首先进行听觉频率尺度投影计算,依据分析的结果决定编码所采用的帧长,并计算相应的心理声学模型参数,这一过程通过直接投影的方式或足够精确的非均匀临界子带分解的方式进行。投影系数直接衍生出心理声学感知模型参数,心理声学感知模型参数用于控制投影系数的量化过程,量化的目标是使得量化误差在码率允许的前提下尽可能的满足心理声学感知模型的约束条件。量化的结果再经过一次熵编码,最后和相应的控制参量一起打包形成码流。具体包括以下步骤

步骤2,在听觉频域尺度上进行音频信号短时正交变换分解,变换所使用的正交基是切比雪夫(Chebyshev)展式,定义域为[-1,1],表达式如下:

(3)

其中,T k (x)为Chebyshev多项式的第k阶正交基,x为定义域的自变量。离散化的Chebyshev展式的正变换(DChT)和逆变换公式(IDChT)如下:

(4)

(5)

其中,C(k)为短时正交变化系数,N为定义域上音频信号帧的帧长样点数,x j 为所选取离散化的音频信号帧第j采样点数据值。样点位置按照N阶Chebyshev多项式的零点分布位置选取。

步骤3,人耳听觉频率尺度心理声学模型参数计算:在人耳听觉频率尺度上计算心理声学模型中,使频谱在不同频段内具有不同的频率分辨率,使频谱分布直接和临界频带相匹配,将计算获取的心理声学感知模型变换回时域,在时域进行分割并利用已有的Chebyshev正交变换得到短时感知域系数,通过短时感知域系数获取用于控制量化、码率和失真的心理声学感知模型参数。

步骤4,根据量化、码率和失真的心理声学感知模型参数对投影后系数进行量化,将量化的结果进行熵编码,得到熵编码后的编码量化参数,进一步提升编码压缩率。

步骤5,将心理声学感知模型参数和熵编码后的编码量化参数进行码流打包,形成编码数据流。

步骤6,解码过程为编码过程的逆过程,如图2所示,首先获取数据码流,进行数据反量化,反量化后数据进行听觉频率尺度逆变化合成音频信号,多帧信号组合还原形成解码音频数据流。与通用的音频编解码方法类似,由于心理声学模型只在编码端起作用,因此解码方案的运算量和存储量相比编码方案有显著降低。

本发明采用人耳听觉频率尺度信号分解方法对信号加以处理,信号分解结果在频率尺度上投影拟合人耳听觉临界频带,通过这种方式匹配人耳心理声学模型非均匀频率尺度和提升压缩率。

以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

9页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种移动网络环境下的环绕声误码修复方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类