音频渲染方法及装置

文档序号:1925728 发布日期:2021-12-03 浏览:24次 >En<

阅读说明:本技术 音频渲染方法及装置 (Audio rendering method and device ) 是由 王宾 卡尔·阿姆斯特朗 加文·科尔尼 高原 于 2020-05-29 设计创作,主要内容包括:本申请公开了一种音频渲染方法及装置,涉及音频信号处理领域,该方法提高了双耳渲染信号对声像定位的精确度,减少了双耳渲染信号的头中效应,以及提高了双耳渲染信号的声场宽度。该方法包括:获取待渲染音频信号;基于K(K是正整数)个第一头相关传输函数HRTF和K个第二HRTF,确定K个第一融合HRTF;基于K个第三HRTF和K个第四HRTF,确定K个第二融合HRTF;根据K个第一融合HRTF和待渲染音频信号,确定第一目标渲染信号,第一目标渲染信号是用于向收听者左耳输出的渲染信号;根据K个第二融合HRTF和待渲染音频信号,确定第二目标渲染信号,第二目标渲染信号是用于向收听者右耳输出的渲染信号。(The application discloses an audio rendering method and an audio rendering device, and relates to the field of audio signal processing. The method comprises the following steps: acquiring an audio signal to be rendered; determining K first fusion HRTFs based on K (K is a positive integer) first Head Related Transfer Functions (HRTFs) and K second HRTFs; determining K second fusion HRTFs based on the K third HRTFs and the K fourth HRTFs; determining a first target rendering signal according to the K first fusion HRTFs and the audio signal to be rendered, wherein the first target rendering signal is a rendering signal for outputting to the left ear of a listener; determining a second target rendering signal according to the K second fusion HRTFs and the audio signal to be rendered, wherein the second target rendering signal is a rendering signal for outputting to the right ear of the listener.)

音频渲染方法及装置

技术领域

本申请涉及音频信号处理领域,尤其涉及一种音频渲染方法及装置。

背景技术

随着高性能计算机和信号处理技术的飞速发展,人们对语音、音频体验提出了越来越高的要求,浸入式音频能够满足人们在这方面的需求。例如,第四代移动通信技术(the4th generation mobile communication technology,4G)/第五代移动通信技术(the 5thgeneration mobile communication technology,5G)通信语音,虚拟现实(virtualreality,VR)、增强现实(augmented reality,AR)、混合显示(mixed reality,MR)等影音技术受到越来越多的关注。一个具有沉浸感的虚拟现实系统,不仅需要震撼的视觉效果,还需要逼真的听觉效果配合,视听的融合能大大提高虚拟现实系统的沉浸感体验感。

其中,音频的核心是三维音频技术,目前实现三维音频主要有两种重放方式:基于扬声器的重放和基于耳机的重放。目前现有影音设备中比较常用的还是基于耳机的双耳重放。而如何提高三维音频基于耳机的双耳重放的听觉效果,是亟待解决的技术问题。

发明内容

本申请提供了一种音频渲染方法及装置,提高了双耳渲染信号对声像定位的精确度,减少了双耳渲染信号的头中效应,以及提高了双耳渲染信号的声场宽度。

为达上述目的,本申请提供如下技术方案:

第一方面,本申请提供了一种音频渲染方法,该方法包括:获取待渲染音频信号。基于K个第一头相关传输函数HRTF和K个第二HRTF,确定K个第一融合HRTF,K个第一融合HRTF是用于处理待渲染音频信号的左耳HRTF。其中,K个第一HRTF是用于处理待渲染音频信号中的低频带信号的左耳HRTF,K个第二HRTF是用于处理待渲染音频信号中的高频带信号的左耳HRTF,K是正整数。基于K个第三HRTF和K个第四HRTF,确定K个第二融合HRTF,K个第二融合HRTF是用于处理待渲染音频信号的右耳HRTF;其中,K个第三HRTF是用于处理待渲染音频信号中的低频带信号的右耳HRTF,K个第四HRTF是用于处理待渲染音频信号中的高频带信号的右耳HRTF。根据K个第一融合HRTF和待渲染音频信号,确定第一目标渲染信号,第一目标渲染信号是用于向收听者左耳输出的渲染信号;根据K个第二融合HRTF和待渲染音频信号,确定第二目标渲染信号,第二目标渲染信号是用于向收听者右耳输出的渲染信号。

通过该可能的设计,通过根根据用于处理待渲染音频信号中的低频带信号的左耳HRTF(即K个第一HRTF),和用于处理待渲染音频信号中的高频带信号的左耳HRTF(即K个第二HRTF是)得到的K个第一融合HRTF,来处理待渲染音频信号,可以提高双耳渲染信号的ITD的准确度。通过根根据用于处理待渲染音频信号中的低频带信号的右耳HRTF(即K个第三HRTF),和用于处理待渲染音频信号中的高频带信号的右耳HRTF(即K个第四HRTF是)得到的K个第二融合HRTF,来处理待渲染音频信号,可以提高双耳渲染信号的ILD的准确度。这样的话,高准确度的ITD和ILD,提高了双耳渲染信号对声像定位的精确度,减少了双耳渲染信号的头中效应,以及提高了双耳渲染信号的声场宽度。

在一种可能的实现方式中,上述的第一HRTF和第二HRTF是基于同一左耳HRTF确定的。上述的第三HRTF和第四HRTF是基于同一右耳HRTF确定的。

在另一种可能的设计方式中,在上述“基于K个第一HRTF和K个第二HRTF,确定K个第一融合HRTF”之前,上述方法还包括:获取K个左耳初始HRTF,该K个左耳初始HRTF是基于K个虚拟扬声器的信号,以收听者的头中心位置为甜点位置测量的左耳的HRTF,该K个左耳初始HRTF与K个虚拟扬声器的信号一一对应。基于该K个左耳初始HRTF,确定K个第一HRTF和K个第二HRTF。在上述“基于K个第三HRTF和K个第四HRTF,确定K个第二融合HRTF”之前,上述方法还包括:获取K个右耳初始HRTF,该K个右耳初始HRTF是基于K个虚拟扬声器的信号,以收听者的头中心位置为甜点位置测量的右耳的HRTF,该K个右耳初始HRTF与K个虚拟扬声器的信号一一对应。基于该K个右耳初始HRTF,确定K个第三HRTF和K个第四HRTF。其中,上述K个虚拟扬声器是以收听者的头中心位置为甜点位置设置的K个虚拟扬声器。

在另一种可能的设计方式中,上述“基于K个左耳初始HRTF,确定K个第一HRTF和K个第二HRTF”包括:对K个左耳初始HRTF进行低通滤波处理,以得到K个第一HRTF;对K个左耳初始HRTF进行高通滤波处理,以得到K个第二HRTF。上述“基于K个右耳初始HRTF,确定K个第三HRTF和K个第四HRTF”包括:对K个右耳初始HRTF进行低通滤波处理,以得到K个第三HRTF;对K个右耳初始HRTF进行高通滤波处理,以得到K个第四HRTF。

通过上述三种可能的设计,音频渲染装置可以对通用的HRTF(即K个左耳初始HRTF和K个右耳初始HRTF)进行高低通滤波,从而得到上述K个第一HRTF和K个第二HRTF,以及确定K个第三HRTF和K个第四HRTF。这样,音频渲染装置即可根据K个第一HRTF和K个第二HRTF得到用于处理待渲染音频信号的K个第一融合HRTF,以及,根据K个第二HRTF和K个第四HRTF得到用于处理待渲染音频信号的K个第二融合HRTF。这样的话,当采用K个第一融合HRTF和K个第二融合HRTF处理待渲染音频信号,可以提高双耳渲染信号的ITD和ILD的准确度,从而提高了双耳渲染信号对声像定位的精确度,减少了双耳渲染信号的头中效应,以及提高了双耳渲染信号的声场宽度。

在另一种可能的设计方式中,上述“基于K个左耳初始HRTF,确定K个第一HRTF和K个第二HRTF”包括:对K个左耳初始HRTF进行低通滤波处理和延时处理,以得到K个第一HRTF;对K个左耳初始HRTF进行高通滤波处理,以得到K个第二HRTF。或者,对K个左耳初始HRTF进行低通滤波处理,以得到K个第一HRTF;对K个左耳初始HRTF进行高通滤波处理和延时处理,以得到K个第二HRTF。上述“基于K个右耳初始HRTF,确定K个第三HRTF和K个第四HRTF”包括:对K个右耳初始HRTF进行低通滤波处理和延时处理,以得到K个第三HRTF;对K个右耳初始HRTF进行高通滤波处理,以得到K个第四HRTF。或者,对K个右耳初始HRTF进行低通滤波处理,以得到K个第三HRTF;对K个右耳初始HRTF进行高通滤波处理和延时处理,以得到K个第四HRTF。

通过该可能的设计,音频渲染装置在对通用的HRTF(即K个左耳初始HRTF和K个右耳初始HRTF)进行高低通滤波后,还对经高通滤波的K个左耳初始HRTF或经低通滤波的K个左耳初始HRTF进行延时处理,以及,对经高通滤波的K个右耳初始HRTF或经低通滤波的K个右耳初始HRTF进行延时处理,从而得到上述K个第一HRTF和K个第二HRTF,以及确定K个第三HRTF和K个第四HRTF。这样的话,可以消除基于该K个第一HRTF和K个第二HRTF得到的K个第一融合HRTF的有害效果,以及消除基于K个第三HRTF和K个第四HRTF得到的K个第二融合HRTF的有害效果,从而提高的最终渲染所得信号的质量。

在另一种可能的设计方式中,上述待渲染音频信号包括J个声道信号,J是正整数。上述“根据K个第一融合HRTF和待渲染音频信号,确定第一目标渲染信号”包括:将K个第一融合HRTF变换到待渲染音频信号域,以得到J个第一目标HRTF。该J个第一目标HRTF是该待渲染音频信号域中的左耳HRTF,该J个第一目标HRTF与J个声道信号一一对应。然后,根据该J个第一目标HRTF和J个声道信号,确定第一目标渲染信号。上述“根据K个第二融合HRTF和待渲染音频信号,确定第二目标渲染信号”包括:将K个第二融合HRTF变换到待渲染音频信号域,以得到J个第二目标HRTF。该J个第二目标HRTF是待渲染音频信号域中的右耳HRTF,该J个第二目标HRTF与J个声道信号一一对应。根据该J个第二目标HRTF和J个声道信号,确定第二目标渲染信号。

在另一种可能的设计方式中,上述“根据J个第一目标HRTF和J个声道信号,确定第一目标渲染信号”包括:将J个第一目标HRTF中每个第一目标HRTF,分别和J个声道信号中对应的声道信号进行卷积,以得到第一目标渲染信号。上述“根据J个第二目标HRTF和J个声道信号,确定第二目标渲染信号”包括:将J个第二目标HRTF中每个第二目标HRTF,分别和J个声道信号中对应的声道信号进行卷积,以得到第二目标渲染信号。

根据该两种可能的设计,音频渲染装置将K个第一融合HRTF和K个第二融合HRTF变换到待渲染音频信号域中,并用其处理待渲染音频信号,从而提高了双耳渲染信号的ITD和ILD的准确度,进而提高了双耳渲染信号对声像定位的精确度,减少了双耳渲染信号的头中效应,以及提高了双耳渲染信号的声场宽度。

在另一种可能的设计方式中,上述“获取待渲染音频信号”包括:接收经音频解码器解码得到的待渲染音频信号。或者,接收音频采集器采集到的待渲染音频信号。或者,获取多个音频信号经合成处理后所得到的待渲染音频信号。

根据该可能的设计,本申请提供的音频渲染方法可以应用于多种不同的应用场景中。

第二方面,本申请提供一种音频渲染方法,该方法包括:获取待渲染音频信号。将该待渲染音频信号划分为高频带信号和低频带信号。以第一位置为甜点位置,确定该高频带信号对应的第一渲染信号,以第二位置为甜点位置,确定该高频带信号对应的第二渲染信号;其中,当第一位置是收听者的左耳位置时,第二位置是收听者的右耳位置,或者,当第一位置是收听者的右耳位置时,第二位置是收听者的左耳位置。以收听者的头中心位置为甜点位置,确定该低频带信号对应的第三渲染信号和第四渲染信号;其中,第三渲染信号用于确定向第一位置输出的渲染信号,第四渲染信号用于确定向第二位置输出的渲染信号。接着,将第一渲染信号和第三渲染信号融合,得到第一目标渲染信号;将第二渲染信号和第四渲染信号融合,得到第二目标渲染信号。其中,第一目标渲染信号是用于向第一位置输出的渲染信号,第二目标渲染信号是用于向第二位置输出的渲染信号。

通过该可能的设计,音频渲染装置将待渲染音频信号划分为高频带信号和低频带信号,并以收听者的双耳位置为甜点位置对高频带信号进行渲染,从而提高了渲染信号的双耳强度差(interaural level difference,ILD)的准确度。音频渲染装置以收听者的头中心位置为甜点位置对低频带信号进行渲染,从而提高了渲染信号的双耳时间差(interaural time difference,ITD)的准确度。因此,通过本申请实施例提供的音频渲染方法得到的双耳渲染信号具有高准确度的ITD和ILD,从而提高了双耳渲染信号对声像定位的精确度,减少了双耳渲染信号的头中效应,以及提高了双耳渲染信号的声场宽度。

在一种可能的设计方式中,上述“将第一渲染信号和第三渲染信号融合,得到第一目标渲染信号;将第二渲染信号和第四渲染信号融合,得到第二目标渲染信号”包括:对第一渲染信号的过渡带内信号和第二渲染信号的过渡带内信号分别进行淡入处理,对第三渲染信号的过渡带内信号和第四渲染信号的过渡带内信号分别进行淡出处理;其中,该过渡带是以高频带信号和低频带信号的临界频率为中心,向上浮动第一带宽以及向下浮动第二带宽的频带。然后,根据经淡入处理后的第一渲染信号和经淡出处理后的第三渲染信号,得到第一融合信号,根据经淡入处理后的第二渲染信号和经淡出处理后的第四渲染信号,得到第二融合信号。接着,将第一融合信号、第一渲染信号的过渡带外信号、以及第三渲染信号的过渡带外信号叠加,得到第一目标渲染信号;将第二融合信号、第二渲染信号的过渡带外信号、以及第四渲染信号的过渡带外信号叠加,得到第二目标渲染信号。

在另一种可能的设计方式中,上述“对第一渲染信号的过渡带内信号和第二渲染信号的过渡带内信号分别进行淡入处理”包括:通过淡入因子,对该第一渲染信号的过渡带内信号和第二渲染信号的过渡带内信号分别进行淡入处理。上述“对第三渲染信号的过渡带内信号和第四渲染信号的过渡带内信号分别进行淡出处理”包括:通过淡出因子,对该第三渲染信号的过渡带内信号和第四渲染信号的过渡带内信号分别进行淡出处理。其中,过渡带对应T个淡入因子和淡出因子的组合,T是正整数,T个组合中任一个组合所对应的淡入因子与淡出因子的和为1。

通过该两种可能的设计,可以将第一渲染信号和第三渲染信号通过渐变的方式的融合在一起,从而得到平滑的第一目标渲染信号,以及将第二渲染信号和第四渲染信号通过渐变的方式的融合在一起,从而得到平滑的第二目标渲染信号。这样,有助于提高第一目标渲染信号和第二目标渲染信号的质量。

在另一种可能的设计方式中,在上述“将第一渲染信号和第三渲染信号融合,得到第一目标渲染信号;将第二渲染信号和第四渲染信号融合,得到第二目标渲染信号”之前,上述方法还包括:对第一渲染信号或第三渲染信号进行梳状滤波处理,以使经梳状滤波处理后的第一渲染信号或第三渲染信号的群延时为固定值。对第二渲染信号或第四渲染信号进行梳状滤波处理,以使经梳状滤波处理后的第二渲染信号或第四渲染信号的群延时均为固定值。上述“将第一渲染信号和第三渲染信号融合,得到第一目标渲染信号”包括:将第一渲染信号和第三渲染信号中,经梳状滤波处理后的渲染信号和未经梳状滤波处理的渲染信号融合,得到第一目标渲染信号。上述“将第二渲染信号和第四渲染信号融合,得到第二目标渲染信号”包括:将第二渲染信号和第四渲染信号中,经梳状滤波处理后的渲染信号和未经梳状滤波处理的渲染信号融合,得到第二目标渲染信号。

通过该可能的设计,可以消除第一渲染信号和第三渲染信号融合后得到的第一融合信号的梳状效应,以及消除第二渲染信号和第四渲染信号融合后得到的第二融合信号的梳状效应。

在另一种可能的设计方式中,上述“以第一位置为甜点位置,确定高频带信号对应的第一渲染信号,以第二位置为甜点位置,确定高频带信号对应的第二渲染信号”包括:以第一位置为甜点位置,获取高频带信号对应的M个第一信号。该M个第一信号分别是M个虚拟扬声器的信号,该M个第一信号与M个虚拟扬声器一一对应;其中,M是正整数。以第二位置为甜点位置,获取高频带信号对应的N个第二信号。该N个第二信号分别是N个虚拟扬声器的信号,该N个第二信号与N个虚拟扬声器一一对应;其中,N是正整数,N=M。获取M个第一头相关传输函数HRTF和N个第二HRTF,其中,该M个第一HRTF与M个第一信号一一对应,该N个第二HRTF与N个第二信号一一对应。然后,根据M个第一信号和M个第一HRTF,确定第一渲染信号,根据N个第二信号和N个第二HRTF,确定第二渲染信号。

通过该可能的设计,实现了以收听者的双耳位置(即第一位置和第二位置)为甜点位置对高频带信号的渲染,这样的话,可以提高渲染所得信号的ILD的准确度,从而提高了双耳渲染信号对声像定位的精确度,减少了双耳渲染信号的头中效应,以及提高了双耳渲染信号的声场宽度。

在另一种可能的设计方式中,上述“以第一位置为甜点位置,获取高频带信号对应的M个第一信号”包括:对高频带信号进行处理,得到M个虚拟扬声器的M个第一信号;M个虚拟扬声器是以第一位置为甜点位置设置的M个虚拟扬声器。上述“以第二位置为甜点位置,获取高频带信号对应的N个第二信号”包括:对高频带信号进行处理,得到N个虚拟扬声器的N个第二信号;N个虚拟扬声器是以第二位置为甜点位置设置的N个虚拟扬声器。

在另一种可能的设计方式中,上述方法还包括:对高频带信号进行处理,得到X个虚拟扬声器对应的X个初始信号。其中,该X个初始信号与X个虚拟扬声器一一对应,X个虚拟扬声器是以头中心位置为甜点位置设置的X个虚拟扬声器。其中,X是正整数,X=M=N。上述“以第一位置为甜点位置,获取高频带信号对应的M个第一信号”包括:将X个初始信号分别旋转第一角度,得到M个第一信号。其中,该第一角度是第一连线和第二连线的夹角,该第一连线是第一虚拟扬声器的位置与头中心位置的连线,该第二连线是第一虚拟扬声器的位置与第一位置的连线。其中,第一虚拟扬声器是X个虚拟扬声器中的任一个虚拟扬声器。上述“以第二位置为甜点位置,获取高频带信号对应的N个第二信号”包括:将X个初始信号分别旋转第二角度,得到N个第二信号。其中,该第二角度是第一连线和第三连线的夹角,该第三连线是第一虚拟扬声器的位置与第二位置的连线。

通过该两种可能的设计,音频渲染装置可以直接根据高频带信号,确定出M个第一信号和N个第二信号。或者,音频渲染装置可以根据高频带信号,先确定以头中心位置为甜点位置设置的X个虚拟扬声器的信号,然后再进一步根据该X个虚拟扬声器的信号,确定出上述M个第一信号和上述N个第二信号。这样的话,提高了本申请方案实现的灵活度。

在另一种可能的设计方式中,上述M个第一HRTF是基于M个第一信号,以第一位置为甜点位置测量的第一位置的HRTF。上述N个第二HRTF是基于N个第二信号,以第二位置为甜点位置测量的第二位置的HRTF。

在另一种可能的设计方式中,上述“获取M个HRTF和N个第二HRTF”包括:获取Y个初始HRTF,该Y个初始HRTF是基于Y个虚拟扬声器的信号,以头中心位置为甜点位置测量的头中心位置的HRTF,该Y个虚拟扬声器是以头中心位置为甜点位置设置的Y个虚拟扬声器,该Y个初始HRTF与Y个虚拟扬声器的信号一一对应。其中,Y是正整数,Y=M=N。将Y个初始HRTF分别旋转第三角度,得到M个第一HRTF。其中,该第三角度是第三连线和第四连线的夹角,该第三连线是第二虚拟扬声器的位置与头中心位置的连线,该第四连线是第二虚拟扬声器的位置和第一位置的连线。其中,该第二虚拟扬声器是Y个虚拟扬声器中的任一个虚拟扬声器。将Y个初始HRTF分别旋转第四角度,得到N个第二HRTF。其中,该第四角度是第三连线和第五连线之间的夹角,该第五连线是第二虚拟扬声器的位置和第二位置的连线。

通过该两种可能的设计,音频渲染装置可以直接根据M个第一信号确定出M个第一HRTF,以及根据N个第二信号确定出N个第二HRTF。或者,音频渲染装置可以先基于Y个虚拟扬声器的信号,以头中心位置为甜点位置测量的头中心位置的Y个初始HRTF,然后再根据Y个初始HRTF,确定出M个第一HRTF和N个第二HRTF。这样的话,提高了本申请方案实现的灵活度。

在另一种可能的设计方式中,上述“以收听者的头中心位置为甜点位置,确定低频带信号对应的第三渲染信号和第四渲染信号”包括:对低频带信号进行处理,得到R个第三信号,该R个第三信号分别是R个虚拟扬声器的信号,该R个第三信号与R个虚拟扬声器一一对应,该R个虚拟扬声器是以头中心位置为甜点位置设置的R个虚拟扬声器。其中,R是正整数。获取R个第三HRTF,该R个第三HRTF是基于R个第三信号,以头中心位置为甜点位置测量的第一位置的HRTF,该R个第三HRTF与R个第三信号一一对应。获取R个第四HRTF,该R个第四HRTF是基于R个第三信号,以头中心位置为甜点位置测量的第二位置的HRTF,该R个第四HRTF与R个第三信号一一对应。接着,根据R个第三信号和R个第三HRTF,确定第三渲染信号,根据R个第三信号和R个第四HRTF,确定第四渲染信号。

通过该可能的设计,实现了以收听者的头中心位置为甜点位置对低频带信号的渲染,这样的话,可以提高渲染所得信号的ITD的准确度,从而提高了双耳渲染信号对声像定位的精确度,减少了双耳渲染信号的头中效应,以及提高了双耳渲染信号的声场宽度。

在另一种可能的设计方式中,上述“获取待渲染音频信号”包括:接收经音频解码器解码得到的待渲染音频信号。或者,接收音频采集器采集到的待渲染音频信号。或者,获取多个音频信号经合成处理后所得到的待渲染音频信号。

根据该可能的设计,本申请提供的音频渲染方法可以应用于多种不同的应用场景中。

第三方面,本申请提供了一种音频渲染装置。

在一种可能的设计方式中,该音频渲染装置用于执行上述第一方面或第二方面提供的任一种方法。本申请可以根据上述第一方面或二方面提供的任一种方法,对该音频渲染装置进行功能模块的划分。例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。示例性的,本申请可以按照功能将该音频渲染装置划分为获取单元、划分单元、确定单元以及融合单元等,或者,本申请可以按照功能将该音频渲染装置划分为获取单元和确定单元等。上述划分的各个功能模块执行的可能的技术方案和有益效果的描述均可以参考上述第一方面或其相应的可能的设计提供的技术方案,或者可以参考上述第二方面或其相应的可能的设计提供的技术方案,此处不再赘述。

在另一种可能的设计中,该音频渲染装置包括:存储器和一个或多个处理器,存储器和处理器耦合。存储器用于存储计算机指令,处理器用于调用该计算机指令,以执行如第一方面及其任一种可能的设计方式提供的任一种方法,或者,执行如第二方面及其任一种可能的设计方式提供的任一种方法。

第四方面,本申请提供了一种计算机可读存储介质,如计算机非瞬态的可读存储介质。其上储存有计算机程序(或指令),当该计算机程序(或指令)在音频渲染装置上运行时,使得该音频渲染装置执行上述第一方面中或第二方面中的任一种可能的实现方式提供的任一种方法。

第五方面,本申请提供了一种计算机程序产品,当其在音频渲染装置上运行时,使得第一方面中或第二方面中的任一种可能的实现方式提供的任一种方法被执行。

第六方面,本申请提供了一种芯片系统,包括:处理器,处理器用于从存储器中调用并运行该存储器中存储的计算机程序,执行第一方面中或第二方面中的实现方式提供的任一种方法。

可以理解的是,上述提供的任一种装置、计算机存储介质、计算机程序产品或芯片系统等均可以应用于上文所提供的对应的方法,因此,其所能达到的有益效果可参考对应的方法中的有益效果,此处不再赘述。

在本申请中,上述音频渲染装置的名字对设备或功能模块本身不构成限定,在实际实现中,这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本申请类似,属于本申请权利要求及其等同技术的范围之内。

本申请的这些方面或其他方面在以下的描述中会更加简明易懂。

附图说明

图1为本申请实施例提供的一种影音系统的结构示意图;

图2为本申请实施例提供的一种终端设备的结构示意图;

图3为本申请实施例提供的一种音频渲染方法的流程示意图一;

图4为本申请实施例提供的一种虚拟扬声器的位置场景图一;

图5为本申请实施例提供的一种虚拟扬声器的位置场景图二;

图6为本申请实施例提供的一种音频信号的有害效应的极端情况的示意图;

图7为本申请实施例提供的一种梳状滤波的示意图;

图8为本申请实施例提供的一种信号淡入淡出的示意图;

图9为本申请实施例提供的一种音频渲染方法的流程示意图二;

图10为本申请实施例提供的一种音频渲染方法的流程示意图三;

图11为本申请实施例提供的一种第一角度和第二角度的示意图;

图12为本申请实施例提供的一种第三角度和第四角度的示意图;

图13为本申请实施例提供的一种音频渲染方法的流程示意图四;

图14为本申请实施例提供的一种低通滤波示意图;

图15为本申请实施例提供的一种高通滤波示意图;

图16为本申请实施例提供的一种音频渲染装置的结构示意图一;

图17为本申请实施例提供的一种音频渲染装置的结构示意图二;

图18为本申请实施例提供的一种芯片系统的结构示意图;

图19为本申请实施例提供的计算机程序产品的结构示意图。

具体实施方式

以下,说明本申请实施例中涉及的部分术语或技术:

1)、头相关传输函数(head related transfer function,HRTF)

声源发出的声波经头部、耳廓、躯干等散射后到达双耳,其中的物理过程可视为一个线性时不变的声滤波系统,其特性可由HRTF描述。也就是说,HRTF描述了声波从声源到双耳的传输过程。

HRTF可以更形象的解释为:如果声源发出的音频信号为X,该音频信号X传输到预定位置后的音频信号为Y,则(X卷积Z等于Y),其中,Z即为HRTF。

2)、甜点位置

当通过位于不同位置处的多个扬声器(或扬声器设备)同时播放一段音频时,收听者收听到该音频的最佳位置,即为该多个扬声器的甜点位置。

示例性的,电影放映厅的四周通常设置了多个音响设备(即扬声器设备)。通常,在电影放映厅靠近中间的位置处,观众可以收听到最好的电影音效。因此,该位置即为该多个音响设备的甜点位置。

3)、头中效应

头中效应常见于耳机,尤其是入耳式耳机。其具体表现是:通过耳机收听音频(例如音乐)时,仿佛音乐存在于收听者的脑中,而非收听者所在的空间中。好的声场(soundfield)可以营造出好的临场感,使收听者仿佛置身于一个音乐厅的中心位置,并且被周围(外界)的各个乐器声包围。

4)、声像定位(image localization)

声像定位是指对音频(例如乐器或人声)声像能够准确地进行定位,甚至能清晰地确定声场(sound field)的特征。这里,声场是指媒质中有声波存在的区域。

声源与收听者的双耳之间可以形成相同或不同的角度。由于角度的差距,使得声源播放的音频由声源位置传到收听者左、右耳的时间产生微小的时间差。而人耳的生理特性对该微小的时间差非常敏感,因此使人能够产生准确的方向感。同时,由于角度的差距,使得声源播放的音频由声源位置到达收听者左、右耳的距离产生微小的差距,人耳可以通过声音强弱的微小差距产生距离感,从而使声像得到准确地定位。

5)、其他术语

在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请的实施例中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。本申请中术语“至少一个”的含义是指一个或多个,本申请中术语“多个”的含义是指两个或两个以上。

应理解,在本文中对各种所述示例的描述中所使用的术语只是为了描述特定示例,而并非旨在进行限制。如在对各种所述示例的描述和所附权利要求书中所使用的那样,单数形式“一个(“a”,“an”)”和“该”旨在也包括复数形式,除非上下文另外明确地指示。

还应理解,本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。术语“和/或”,是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本申请中的字符“/”,一般表示前后关联对象是一种“或”的关系。

还应理解,在本申请的各个实施例中,各个过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。

应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。

还应理解,术语“包括”(也称“includes”、“including”、“comprises”和/或“comprising”)当在本说明书中使用时指定存在所陈述的特征、整数、步骤、操作、元素、和/或部件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、部件、和/或其分组。

还应理解,术语“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地,根据上下文,短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

应理解,说明书通篇中提到的“一个实施例”、“一实施例”、“一种可能的实现方式”意味着与实施例或实现方式有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”、“一种可能的实现方式”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

图1为本申请实施例提供的一种影音系统10的结构示意图。影音系统10可以为VR系统、AR系统、MR系统或其他流式传输系统。当然,本申请实施例对于影音系统10的实际形态不作具体限定。如图1所示,影音系统10包括发送端11和接收端12。

发送端11,用于采集音频信号和视频信号,并分别对音频信号和视频信号进行编码,以得到码流。如图1所示,发送端11可以包括采集模块(acquisition)111、音频预处理模块(audio preprocessing)112、音频编码模块(audio encoding)113、视频组合模块(visual stitching)114、预测绘图模块(projection and mapping)115、视频编码模块(video encoding)116、图像编码模块(image encoding)117、封装模块(file/segmentencapsulation)118以及传输模块(delivery)119。

其中,采集模块111,可以用于采集声源的音频信号,并将音频信号传输至音频预处理模块112进行预处理。采集模块111还可以用于采集视频信号。该视频信号经过视频组合模块114、预测绘图模块115、视频编码模块116以及图像编码模块117的处理后,将编码后的视频信号传输至封装模块118。

音频预处理模块112,用于对采集模块111采集到的音频信号进行预处理,例如以20Hz或50Hz为临界频率,滤除该音频信号中的低频部分。然后,音频预处理模块112将预处理后的音频信号传输至音频编码模块113。

音频编码模块113,用于对预处理后的音频信号进行编码,并将编码后的音频信号传输至封装模块118。

封装模块118,用于将编码后的音频信号和编码后的视频信号进行封装得到码流,该码流通过传输模块119传输至接收端12的传输模块121。可选的,传输模块119和传输模块121可以是有线通信模块或者无线通信模块,本申请实施例对此不作具体限定。

需要说明的是,当影音系统10为流式传输系统时,传输模块119具体可以实现为服务器的形式,即发送端11将码流上传至服务器,由接收端12按照需求从服务器下载码流,以实现传输模块119的功能,该过程不再进行赘述。

接收端12,用于获取传输模块119传输的码流,并对该码流进行解码,以得到音频信号和视频信号。然后,接收端12分别对该音频信号和该视频信号进行渲染,并播放所渲染的音频或视频。如图1所示,接收端12可以包括传输模块121、解封装模块(file/segmentdecapsulation)122、音频解码模块(audio decoding)123、音频渲染模块(audiorendering)124、扬声器/耳机(loudspeakers/headphones)125、视频解码模块(videodecoding)126、图像解码模块(image decoding)127、视频渲染模块(visual rendering)128以及播放器(display)129。

传输模块121,用于获取传输模块119传输的码流,并将该码流传输至解封装模块122。

解封装模块122,用于对码流进行解封装,获得编码后的音频信号和编码后的视频信号,并将编码后的音频信号传输至音频解码模块123,将编码后的视频信号传输至视频解码模块126和图像解码模块127。

音频解码模块123,用于对编码后的音频信号进行解码,并将解码后的音频信号传输至音频渲染模块124。

音频渲染模块124,用于对解码后的音频信号进行渲染处理,并将渲染信号传输至扬声器/耳机209进行播放。

视频解码模块126、图像解码模块127以及视频渲染模块128,用于对编码后的视频信号进行处理,并将处理后的视频信号传输至播放器129播放。

需要说明的是,图1中示出的结构并不构成对影音系统10的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

可以理解的是,上述发送端11和上述接收端12可以设置在不同的终端设备中,当然,也可以设置在同一个终端设备中,本申请实施例对此不作限定。其中,该终端设备可以是具有音频信号和视频信号处理能力的电子设备,例如可以是手机,可穿戴设备,VR设备或AR设备等,对此不作限定。

参考图2,本申请实施例提供了一种终端设备20的结构示意图。终端设备20可以是图1中的发送端11,也可以是图1中的接收端12,或者可以是包括图1中的发送端11和接收端12的终端设备,本申请实施例对此不作限定。如图2所示,终端设备20可以包括处理器21、存储器22、通信接口23以及总线24。其中,处理器21、存储器22以及通信接口23之间可以通过总线24连接。

处理器21是终端设备20的控制中心,可以是一个通用中央处理单元(centralprocessing unit,CPU),也可以是其他通用处理器等。其中,通用处理器可以是微处理器或者是任何常规的处理器等。

作为示例,处理器21可以包括一个或多个CPU,例如图2中所示的CPU 0和CPU 1。

存储器22可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。

一种可能的实现方式中,存储器22可以独立于处理器21存在。存储器22可以通过总线24与处理器21相连接,用于存储数据、指令或者程序代码。处理器21调用并执行存储器22中存储的指令或程序代码时,能够实现本申请实施例提供的音频渲染方法。

另一种可能的实现方式中,存储器22也可以和处理器21集成在一起。

通信接口23,用于终端设备20与其他设备(如服务器等)通过通信网络连接,该通信网络可以是以太网,无线接入网(radio access network,RAN),无线局域网(wirelesslocal area networks,WLAN)等。通信接口23可以包括用于接收数据的接收单元,以及用于发送数据的发送单元。

应理解,接收单元和发送单元,可以和图1中的传输模块119以及传输模块120的功能相似或相同。

总线14,可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component Interconnect,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图2中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

需要指出的是,图2中示出的结构并不构成对该终端设备20的限定,除图2所示部件之外,该终端设备20可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

本申请实施例提供了一种音频渲染方法和装置,该方法可以应用于图1所示的影音系统10的接收端12中,具体的,该方法可以应用于上述音频渲染模块124中。或者,该方法可以应用于图2所示的终端设备20中,当该方法应用于图2所示的终端设备20中时,可以通过处理器21执行存储器22中的程序指令实现本申请实施例提供的音频渲染方法。通过执行本申请实施例提供的音频渲染方法,可以提高双耳渲染信号对声像定位的精确度,减少双耳渲染信号的头中效应,以及提高双耳渲染信号的声场宽度。

下面结合附图,对本申请实施例提供的音频渲染方法进行描述。

实施例一

在本实施例中,音频渲染装置将待渲染音频信号转换到虚拟扬声器信号域,并在虚拟扬声器信号域中渲染待渲染音频信号。

请参考图3,图3示出了本申请实施例提供的一种音频渲染方法的流程示意图。该方法可以包括以下步骤:

S101、音频渲染装置获取待渲染音频信号。

其中,待渲染音频信号可以包括至少2个独立的声道信号。这里,1个独立的声道信号,可以通过1个音频采集器采集声源的音频得到。具体的,音频采集器可以将声源的音频转换为电信号,从而得到1个独立的声道信号。

可选的,该待渲染音频信号可以是一阶高保真度立体声响复制(firs-orderambisonics,FOA)信号,也可以是高阶高保真度立体声响复制(high-order ambisonics,HOA)信号。其中,FOA信号包括4个独立的声道信号,HOA信号包括(S+1)2个独立的声道信号,这里,S是大于1的整数。例如,当S是2时,HOA信号包括9(即(2+1)2)个独立的声道信号。

可选的,音频渲染装置可以接收经音频解码器解码得到的待渲染音频信号。示例性的,音频渲染装置可以接收经图1中的音频解码模块123解码的音频信号,并将该解码后的音频信号作为待渲染音频信号。

可选的,音频渲染装置可以接收音频采集器采集到的待渲染音频信号。音频渲染装置可以接收音频采集器采集到的至少2声道信号,并将该至少2声道信号作为待渲染音频信号进行渲染。

可选的,音频渲染装置可以获取多个音频信号经合成处理后所得到的待渲染音频信号。这里,该多个音频信号可以是单声道信号,也可以是多声道信号,对此不作限定。

S102、音频渲染装置将所获取的待渲染音频信号划分为高频带信号和低频带信号。

通常,人耳可以感知到的频率范围大约为0~20000Hz,因此,待渲染音频信号的频率范围可以分布在0~20000Hz之间。

可选的,音频渲染装置可以按照预设频率,将待渲染音频信号划分为高频带信号和低频带信号,本申请实施例对该预设频率的取值不作限定。这里,该预设频率即为高频带信号和低频带信号的临界频率。

具体的,若待渲染音频信号的频率范围是[0,fs],音频渲染装置可以按照预设频率fc,将待渲染音频信号划分为频率范围为(fc,fs]的高频带信号,以及频率范围为[0,fc]的低频带信号。或者,音频渲染装置可以按照预设频率fc,将待渲染音频信号划分为频率范围为[fc,fs]的高频带信号,以及频率范围为[0,fc)低频带信号。其中,0<fc<fs

可以看出,上述临界频率可以归属于高频带信号的频率范围,也可以归属于低频带信号频率范围,对此不作限定。

示例性的,以fs是20000Hz、fc是1500Hz为例,这时,待渲染音频信号的频率范围是[0,20000Hz]。音频渲染装置以1500Hz为临界频率,将待渲染音频信号划分为频率范围为(1500Hz,20000Hz]的高频带信号,以及频率范围为[0,1500Hz]的低频带信号。或者,音频渲染装置以1500Hz为临界频率,将待渲染音频信号划分为频率范围为[1500Hz,20000Hz]的高频带信号,以及频率范围为[0,1500Hz)的低频带信号。

S103、音频渲染装置确定高频带信号对应的第一渲染信号和第二渲染信号。

第一渲染信号可以是音频渲染装置以第一位置为甜点位置,对高频带信号进行渲染处理得到的渲染信号。第二渲染信号可以是音频渲染装置以第二位置为甜点位置,对高频带信号进行渲染处理得到的渲染信号。这样,通过以收听者的双耳位置为甜点位置来渲染待渲染音频信号的高频带信号,可以提高渲染信号的双耳强度差(interaural leveldifference,ILD)的准确度。这样,高准确度的ILD,提高了双耳渲染信号对声像定位的精确度,减少了双耳渲染信号的头中效应,以及提高了双耳渲染信号的声场宽度。

其中,如果第一位置是收听者的左耳位置,则第二位置是收听者的右耳位置,这时,第一渲染信号是高频带信号经渲染处理后得到的左耳渲染信号,第二渲染信号是高频带信号经渲染处理后得到的右耳渲染信号。如果第一位置是收听者的右耳位置,则第二位置可以是收听者的左耳位置,这种情况下,第一渲染信号是高频带信号经渲染处理后得到的右耳渲染信号,第二渲染信号是高频带信号经渲染处理后得到的左耳渲染信号。对此不作限定。

可以理解的是,当以第一位置为甜点位置时,在该甜点位置的预设位置处,设置有M个虚拟扬声器,该M虚拟扬声器用于产生M个声源信号。其中,M是正整数。例如,M可以是大于或等于3的整数。又例如,M的取值可以大于或等于待渲染音频信号声道的数量,本申请实施例对此不作限定。

可以理解的是,当以第二位置为甜点位置时,在该甜点位置的预设位置处,设置有N个虚拟扬声器,该N虚拟扬声器用于产生N个声源信号。其中,N是正整数,N=M。

示例性的,以第一位置为收听者的左耳位置,第二位置为收听者的右耳位置为例。参考图4,图4示出了以收听者的左耳位置为甜点位置时,设置的M个虚拟扬声器的分布情况。这里,以M是3为例。如图4所示,B为收听者的左耳位置,若以位置B为甜点位置,则3个虚拟扬声器(包括虚拟扬声器411、虚拟扬声器412以及虚拟扬声器413)可以分布于椭圆形的预设曲线41上。

图4还示出了以收听者的右耳位置为甜点位置时,设置的N个虚拟扬声器的分布情况。这里,以N是3为例。如图4所示,C为收听者的右耳位置,若以位置C为甜点位置,则3个虚拟扬声器(包括虚拟扬声器421、虚拟扬声器422以及虚拟扬声器423)可以分布于椭圆形的预设曲线42上。

音频渲染装置基于上述设置的M个虚拟扬声器的信号确定高频带信号对应的第一渲染信号,以及基于设置的N个虚拟扬声器确定高频带信号对应的第二渲染信号,即音频渲染装置将待渲染音频信号转换到虚拟扬声器信号域,并在虚拟扬声器信号域确定出待渲染音频信号的高频带信号对应的双耳渲染信号。

具体的,音频渲染装置基于上述设置的M个虚拟扬声器的信号确定高频带信号对应的第一渲染信号,以及基于上述设置的N个虚拟扬声器的信号确定高频带信号对应的第二渲染信号的具体过程,可以参考下文描述,这里不予赘述。

S104、音频渲染装置确定低频带信号对应的第三渲染信号和第四渲染信号。

第三渲染信号和第四渲染信号可以是音频渲染装置以收听者的头中心位置为甜点位置,对低频带信号进行渲染处理后得到的渲染信号。这样,通过以收听者的头中心位置为甜点位置来渲染待渲染音频信号的低频带信号,可以提高渲染信号的双耳时间差(interaural timedifference,ITD)的准确度。这样,高准确度的ITD,提高了双耳渲染信号对声像定位的精确度,减少了双耳渲染信号的头中效应,以及提高了双耳渲染信号的声场宽度。

可以理解的是,当以收听者的头中心位置为甜点位置时,在预设位置处,设置有R个虚拟扬声器,该R个虚拟扬声器用于产生R个声源信号。其中,R是正整数。例如,R可以是大于或等于3的整数。又例如,R的取值可以大于等于待渲染音频信号声道的数量,本申请实施例对此不作限定。

参考图5,图5示出了以收听者的头中心位置为甜点位置时,设置的R个虚拟扬声器的分布情况。这里,以R是3为例。如图5所示,A为收听者的头中心位置,若以位置A为甜点位置,则3个虚拟扬声器(包括虚拟扬声器51、虚拟扬声器52以及虚拟扬声器53)可以分布于椭圆形的预设曲线50上。

音频渲染装置基于上述设置的R个虚拟扬声器的信号确定低频带信号对应的第三渲染信号和第四渲染信号,即音频渲染装置将待渲染音频信号转换到虚拟扬声器信号域,并在虚拟扬声器信号域确定出待渲染音频信号的低频带信号对应的双耳渲染信号。

具体的,音频渲染装置基于上述设置的R个虚拟扬声器的信号确定低频带信号对应的第三渲染信号和第四渲染信号的具体过程,可以参考下文描述,这里不予赘述。

可以理解的是,本申请实施例对S103和S104执行的时序不作限定。例如,本申请实施例可以同时执行S103和S104,或者,也可以先执行S103,再执行S104等。

S105(可选的)、音频渲染装置对第一渲染信号或第三渲染信号进行梳状滤波处理,以使经梳状滤波处理后的第一渲染信号或第三渲染信号的群延时为固定值。音频渲染装置对第二渲染信号或第四渲染信号进行梳状滤波处理,以使经梳状滤波处理后的第二渲染信号或第四渲染信号的群延时为固定值。

由于第一渲染信号、第二渲染信号、第三渲染信号和第四渲染信号均包括不同频率的音频渲染信号(参考下文S1033和S1043),而不同频率的音频渲染信号分别具有不同的延迟时间。这样的话,当将第一渲染信号和第三渲染信号融合叠加时,或者,当将第二渲染信号和第四渲染信号融合叠加时,输出的融合信号会存在类似梳状滤波的有害效应(或称为梳状效应)。这里,梳状效应是指由于具有不同频率波形的声音或者具有不同相位的声音,在叠加后会形成蕴含复杂结构的声音波形。

示例性的,参考图6,图6示出了一种音频信号的有害效应的极端情况的示意图。其中,横轴表示频率,纵轴表示音频信号的幅值。如图6所示,该音频信号的谷点处频率所对应的信号幅值是0,这种情况下,说明该频率点的信号是缺失的。

为了消除梳状效应的有害效果(destructive interference),在将第一渲染信号和第三渲染信号融合叠加前,音频渲染装置可以对第一渲染信号或第三渲染信号进行梳状滤波处理,例如对第一渲染信号行梳状滤波处理,以使经梳状滤波处理后的第一渲染信号的群延时为固定值,或者,对第三渲染信号行梳状滤波处理,以使经梳状滤波处理后的第三渲染信号的群延时为固定值。这样,即可消除第一渲染信号和第三渲染信号中,经梳状滤波处理后的渲染信号和未经梳状滤波处理的渲染信号融合后,所得到的融合信号(即第一目标渲染信号)的梳状效应。

类似的,在将第二渲染信号和第四渲染信号融合叠加前,音频渲染装置可以对第二渲染信号或第四渲染信号进行梳状滤波处理,例如对第二渲染信号行梳状滤波处理,以使经梳状滤波处理后的第二渲染信号的群延时为固定值,或者,对第四渲染信号行梳状滤波处理,以使经梳状滤波处理后的第四渲染信号的群延时为固定值。这样,即可消除第二渲染信号和第四渲染信号中,经梳状滤波处理后的渲染信号和未经梳状滤波处理的渲染信号融合后,所得到的融合信号(即第二目标渲染信号)的梳状效应。

下面,以音频渲染装置对第三渲染信号和第四渲染信号分别进行梳状滤波处理,以使经梳状滤波处理后的第三渲染信号和第四渲染信号的群延时均为固定值为例进行说明。

在一种可能的实现方式中,音频渲染装置可以通过预置的渐变梳状滤波器(gradual group delay filter),对第三渲染信号进行梳状滤波处理,以使第三渲染信号的群延迟渐变为固定的预设值,从而消除经梳状滤波处理后的第三渲染信号和未经梳状滤波处理的第一渲染信号融合时所产生的梳状效应的有害效果。类似的,音频渲染装置可以通过预置的渐变梳状滤波器,对第四渲染信号进行梳状滤波处理,以使第四渲染信号的群延迟渐变为固定的预设值,从而消除经梳状滤波处理后的第四渲染信号和未经梳状滤波处理的第二渲染信号融合时所产生的梳状效应的有害效果。这里,本申请实施例对预设值的取值不作具体限定。

参考图7,图7示出了音频渲染装置通过预置的渐变梳状滤波器,对第三渲染信号或第四渲染信号进行梳状滤波处理后的效果。如图7所示,第三渲染信号或第四渲染信号经梳状滤波处理后,渲染信号的群延时约为固定的预设值。

可以理解的是,本申请实施例也可以通过其他方式对第三渲染信号和第四渲染信号进行梳状滤波处理,本申请实施例对此不作限定。

S106、音频渲染装置将第一渲染信号和第三渲染信号融合,得到第一目标渲染信号。音频渲染装置将第二渲染信号和第四渲染信号融合,得到第二目标渲染信号。

在一种可能的实现方式中,音频渲染装置可以将第一渲染信号和第三渲染信号叠加,得到第一目标渲染信号。音频渲染装置可以将第二渲染信号和第四渲染信号叠加,得到第二目标渲染信号。

在另一种可能的实现方式中,音频渲染装置可以对第一渲染信号的过渡带内信号和第二渲染信号的过渡带内信号进行淡入处理,以及对第三渲染信号的过渡带内信号和第四渲染信号的过渡带内信号进行淡出处理。接着,音频渲染装置可以根据经淡入处理后的第一渲染信号和经淡出处理后的第三渲染信号,得到第一融合信号。音频渲染装置可以根据经淡入处理后的第二渲染信号和经淡出处理后的第四渲染信号,得到第二融合信号。这里,第一融合信号即为过渡带内用于向第一位置输出的渲染信号,第二融合信号即为过渡带内用于向第二位置输出的渲染信号。

其中,过渡带是以高频带信号和低频带信号的临界频率为中心,向上浮动第一带宽以及向下浮动第二带宽的频带。这里,第一带宽和第二带宽可以相同,也可以不同,对此不作限定。

以临界频率是fc,第一带宽和第二带宽均是fx为例,则过渡带的频率范围可以是[fc--fx,fc-+fx]。

示例性的,以fc是1500Hz,fx是200Hz为例。这时,过渡带是[(1500-200)Hz,(1500+200)Hz],即过渡带是[1300Hz,1700Hz]。

具体的,音频渲染装置可以通过淡入因子,对第一渲染信号的过渡带内信号和第二渲染信号的过渡带内信号进行淡入处理。音频渲染装置可以通过淡出因子,对第三渲染信号的过渡带内信号和第四渲染信号的过渡带内信号进行淡出处理。可以理解的是,过渡带可以对应T个淡入因子和淡出因子的组合,T个组合中任一个组合所对应的淡入因子与淡出因子的和为1,其中,T是正整数。

示例性的,过渡带包括T个频点,每个频点可以对应1个淡入因子和淡出因子的组合,即T个频点对应T个淡入因子和淡出因子的组合。这样的话,第t个频点所对应的淡入因子与第t个频点所对应的淡出因子的和为1。其中,t是整数,1≤t≤T。

例如,若T是512,过渡带的淡入因子过渡带的淡出因子则过渡带所对应的512个淡入因子和淡出因子的组合为:可以看出,Qr+Qc=(1,1,……,1,1),过渡带内的淡入因子是从0到1渐变的系数,过渡带内的淡出因子是从1到0渐变的系数。

可选的,音频渲染装置可以通过公式(1)计算得到第一融合信号,通过公式(2)计算得到第二融合信号:

公式(1) Yr1=Y10×Qr+Y30×Qc

公式(2) Yr2=Y20×Qr+Y40×Qc

其中,Qr是淡入因子,Qc是淡出因子,Yr1是第一融合信号,Y10是第一渲染信号的过渡带内信号,Y30是第三渲染信号的过渡带内信号,Yr2是第二融合信号,Y20是第二渲染信号的过渡带内信号,Y40是第四渲染信号的过渡带内信号。

参考图8,图8示出了本申请实施例对第一渲染信号进行淡入处理,以及对第三渲染信号进行淡出处理的示意图。其中,第三渲染信号的过渡带内信号经淡出因子Qc处理后,信号的幅值从第三渲染信号的幅值渐变为0,第一渲染信号经淡入因子Qr处理后,信号的幅值从0渐变为第三渲染信号的幅值。

类似的,第四渲染信号的过渡带内信号经淡出因子Qc处理后,信号的幅值从第四渲染信号的幅值渐变为0,第二渲染信号经淡入因子Qr处理后,信号的幅值从0渐变为第二渲染信号的幅值。

然后,音频渲染装置可以将第一融合信号、第一渲染信号的过渡带外信号、以及第三渲染信号的过渡带外信号叠加,得到第一目标渲染信号。音频渲染装置可以将第二融合信号、第二渲染信号的过渡带外信号、以及第四渲染信号的过渡带外信号叠加,得到第二目标渲染信号。这里,第一目标渲染信号是用于向第一位置输出的渲染信号,第二目标渲染信号是用于向第二位置输出的渲染信号。

可选的,音频渲染装置可以通过公式(3)计算得到第一目标渲染信号SY1,以及通过公式(4)计算得到第二目标渲染信号SY2

公式(3) SY1=Y11+Yr1+Y31

公式(4) SY2=Y21+Yr2+Y41

其中,Y11是上述第一渲染信号的过渡带外信号,Yr1是第一融合信号,Y31是上述第三渲染信号的过渡带外信号,Y21是上述第二渲染信号的过渡带外信号,Yr2是第二融合信号,Y41是上述第四渲染信号的过渡带外信号。

这样,音频渲染装置通过将待渲染音频信号划分为高频带信号和低频带信号,并以收听者的双耳位置为甜点位置对高频带信号进行渲染,这样,提高了渲染信号的ILD的准确度。音频渲染装置以收听者的头中心位置为甜点位置对低频带信号进行渲染,这样,提高了渲染信号的ITD的准确度。然后,音频渲染装置将渲染后的高频带信号(第一渲染信号和第二渲染信号)以及渲染后的低频带信号(第三渲染信号和第四渲染信号)进行融合,从而得到第一目标渲染信号和第二目标渲染信号。其中,第一目标渲染信号和第二目标渲染信号即为向收听者输出的双耳渲染信号。这样,通过本申请实施例提供的音频渲染方法得到的双耳渲染信号具有高准确度的ITD和ILD,从而提高了双耳渲染信号对声像定位的精确度,减少了双耳渲染信号的头中效应,以及提高了双耳渲染信号的声场宽度。

下面,对音频渲染装置获取第一渲染信号和第二渲染信号的过程予以说明:

参考图9,上述S103还可以包括:

S1031、音频渲染装置获取高频带信号对应的M个第一信号和N个第二信号。其中,M和N分别为正整数。

这里,M个第一信号是以第一位置为甜点位置时,以该甜点位置设置的M个虚拟扬声器的M个信号,该M个虚拟扬声器与M个第一信号一一对应。例如,以M是3为例,3个第一信号可以分别为信号1、信号2以及信号3,3个虚拟扬声器可以分别为虚拟扬声器1、虚拟扬声器2以及虚拟扬声器3。这样的话,信号1可以与虚拟扬声器1对应,信号2可以与虚拟扬声器2对应,信号3可以与虚拟扬声器3对应。

N个第二信号是以第二位置为甜点位置时,以该甜点位置设置的N个虚拟扬声器的N个信号,该N个虚拟扬声器与N个第二信号一一对应。例如,以N是3为例,3个第二信号可以分别为信号1、信号2以及信号3,3个虚拟扬声器可以分别为虚拟扬声器1、虚拟扬声器2以及虚拟扬声器3。这样的话,信号1可以与虚拟扬声器1对应,信号2可以与虚拟扬声器2对应,信号3可以与虚拟扬声器3对应。

具体的,音频渲染装置可以通过下述的任一种方式,获取高频带信号对应的第一信号和第二信号:

方式一,音频渲染装置对高频带信号进行处理,得到上述M个虚拟扬声器的M个第一信号,该M个虚拟扬声器是以第一位置为甜点位置设置的M个虚拟扬声器。音频渲染装置对高频带信号进行处理,得到上述N个虚拟扬声器的N个第二信号,该N个虚拟扬声器是以第二位置为甜点位置设置的N个虚拟扬声器。

可选的,音频渲染装置可以基于获取的待渲染音频信号中的高频带信号,通过公式(5),计算得到以第一位置为甜点位置时的M个虚拟扬声器的信号,即M个第一信号:

其中,M是虚拟扬声器的个数,m表示M个虚拟扬声器中第m个虚拟扬声器,m是整数,且1≤m≤M。Pm表示第m个虚拟扬声器的信号。W、X、Y以及Z分别表示高频带信号的四个分量,其中,W表示环境分量,X表示X方向坐标分量,Y表示Y方向坐标分量,Z表示Z方向坐标分量。表示以甜点位置为中心,第m个虚拟扬声器的俯仰角,θm表示以甜点位置为中心,第m个虚拟扬声器的方位角。可以看出,一组和θm可以标识一个虚拟扬声器的位置。

可选的,音频渲染装置可以基于获取的待渲染音频信号中的高频带信号,通过公式(6),计算得到以第二位置为甜点位置时的N个虚拟扬声器的信号,即N个第二信号:

其中,N是虚拟扬声器的个数,n表示N个虚拟扬声器中第n个虚拟扬声器,n是整数,且1≤n≤N。Pn表示第n个虚拟扬声器的信号。W、X、Y以及Z分别表示高频带信号的四个分量,其中,W表示环境分量,X表示X方向坐标分量,Y表示Y方向坐标分量,Z表示Z方向坐标分量。表示以甜点位置为中心,第n个虚拟扬声器的俯仰角,θn表示以甜点位置为中心,第n个虚拟扬声器的方位角。可以看出,一组和θn可以标识一个虚拟扬声器的位置。

容易理解的是,上述虚拟扬声器的信号是指该虚拟扬声器所发出的声源信号,虚拟扬声器的信号位置即该虚拟扬声器的位置。

方式二,音频渲染装置对高频带信号进行处理,得到X个虚拟扬声器对应的X个初始信号,该X个初始信号与X个虚拟扬声器一一对应。其中,该X个虚拟扬声器是以收听者头中心位置为甜点位置设置的X个虚拟扬声器,X是正整数,X=M=N。

例如,以X是3为例,3个初始信号可以分别为初始信号1、初始信号2以及初始信号3,3个虚拟扬声器可以分别为虚拟扬声器1、虚拟扬声器2以及虚拟扬声器3。这样的话,初始信号1可以与虚拟扬声器1对应,初始信号2可以与虚拟扬声器2对应,初始信号3可以与虚拟扬声器3对应。

进一步的,音频渲染装置可以将该X个初始信号分别旋转第一角度,得到M个第一信号。其中,第一角度可以是第一连线和第二连线的夹角,第一连线是上述X个虚拟扬声器中的任一个虚拟扬声器(对应本申请实施例的第一虚拟扬声器)与头中心位置的连线,第二连线是该第一虚拟扬声器与第一位置的连线。

音频渲染装置还可以将该X个初始信号分别旋转第二角度,得到N个第二信号。其中,第二角度可以是上述第一连线和第三连线的夹角,第三连线可以是第一虚拟扬声器与第二位置的连线。可以理解的是,第一角度和第二角度可以相同,也可以不同,对此不作限定。

可选的,如果第一角度和第二角度不同,音频渲染装置可以基于第一角度和第二角度确定第一预设角度,并将上述X个初始信号分别正向旋转该第一预设角度,以得到M个第一信号。音频渲染装置还可以将上述X个初始信号分别逆向旋转该第一预设角度,以得到N个第二信号。其中,正向旋转表示向第一位置侧旋转,逆向旋转表示向第二位置侧旋转。示例性的,该第一预设角度可以是第一角度和第二角度的平均值,当然不限于此。

参考图11,图11示意性的示出了上述的第一角度和第二角度。如图11所示,虚拟扬声器110可以是上述的第一虚拟扬声器,虚拟扬声器110和收听者的头中心位置A的连线即为是上述的第一连线,若位置B是第一位置,位置C是第二位置,则虚拟扬声器110和第一位置B(例如是收听者的左耳位置)的连线即为上述的第二连线,虚拟扬声器110和第二位置C(例如是收听者的右耳位置)的连线即为上述的第三连线。这样的话,第一连线和第二连线的夹角即为上述的第一角度,第一连线和第三连线的夹角即为上述的第二角度。

如图11所示,在以收听者的头中心位置为原点的坐标系中,第一连线与X轴的夹角为a0,第二连线与X轴的夹角为a1,第三连线与X的夹角为a2。这样的话,第一角度可以为|a0-a1|,第二角度可以为|a0-a2|。基于此,上述的第一预设角度可以是|a0-a1|和|a0-a2|的平均值,当然不限于此。

S1032、音频渲染装置获取M个第一HRTF和N个第二HRTF。

其中,该M个第一HRTF是第一位置为甜点位置时,第一位置的HRTF,该M个第一HRTF与该M个第一信号一一对应。例如,以M是3为例,3个第一信号可以分别为信号1、信号2以及信号3,3个第一HRTF可以分别为HRTF 1、HRTF 2以及HRTF 3。这样的话,信号1可以与HRTF 1对应,信号2可以与HRTF 2对应,信号3可以与HRTF 3对应。

该N个第二HRTF是第二位置为甜点位置时,第二位置的HRTF,该N个第二HRTF与该N个第二信号一一对应。例如,以N是3为例,3个第二信号可以分别为信号1、信号2以及信号3,3个第二HRTF可以分别为HRTF 1、HRTF 2以及HRTF 3。这样的话,信号1可以与HRTF 1对应,信号2可以与HRTF 2对应,信号3可以与HRTF 3对应。

具体的,音频渲染装置可以通过下述的任一种方式,获取M个第一HRTF和N个第二HRTF:

方式一、音频渲染装置可以从第一对应关系库获取上述M个第一HRTF,以及从第二对应关系库中获取上述N个第二HRTF。

可选的,音频渲染装置可以预先以第一位置(例如第一位置可以是收听者的左耳位置)为甜点位置,基于M个虚拟扬声器的信号(即上述M个第一信号),测量第一位置的M个HRTF,并将每个虚拟扬声器的位置,和测量到的与该位置处虚拟扬声器对应的HRTF存储为第一对应关系库。音频渲染装置还可以预先以第二位置(例如第二位置可以是收听者的右耳位置)甜点位置,基于N个虚拟扬声器的信号(即上述N个第二信号),测量第二位置的HRTF,并将每个虚拟扬声器的位置,和测量到的与该位置处的虚拟扬声器所对应的HRTF存储为第二对应关系库。其中,第一对应关系库和第二对应关系库可以是同一个数据库,也可以是两个独立的数据库,对此不作限定。

当音频渲染装置确定甜点位置为第一位置,则相应的可以确定M个虚拟扬声器的位置。这样的话,音频渲染装置可以根据确定的M个虚拟扬声器的位置,从第一对应关系库中获取该M个虚拟扬声器的位置所对应的M个HRTF,该M个HRTF即为上述M个虚拟扬声器的信号对应的M个第一HRTF。类似的,音频渲染装置还可以根据确定的N个虚拟扬声器的位置,从第二对应关系库中获取该N个虚拟扬声器的位置所对应的N个HRTF,该N个HRTF即为上述N个虚拟扬声器的信号对应的N个第二HRTF。

示例性的,如图4所示,音频渲染装置在确定虚拟扬声器411的位置(包括俯仰角和方位角等)后,从第一对应关系库中获取与虚拟扬声器411的位置所对应的HRTF,并将该HRTF作为虚拟扬声器411的信号对应的第一HRTF。类似的,音频渲染装置确定虚拟扬声器421的位置后,从第二对应关系库中获取与虚拟扬声器421的位置所对应的HRTF,并将该HRTF作为虚拟扬声器421的信号对应的第二HRTF。

方式二、音频渲染装置可以从第三对应关系库获取Y个初始HRTF,并将该Y个初始HRTF分别旋转第三角度,得到M个第一HRTF,以及将该Y个初始HRTF分别旋转第四角度,得到N个第二HRTF。其中,Y是整数,并且,Y=M=N。

其中,Y个初始HRTF是基于Y个虚拟扬声器的信号,以收听者的头中心位置为甜点位置测量的该头中心位置的HRTF。这里,该Y个虚拟扬声器是以头中心位置为甜点位置的Y个虚拟扬声器,该Y个初始HRTF与该Y个虚拟扬声器的信号一一对应。

可选的,音频渲染装置可以预先以收听者的头中心位置为甜点位置,基于上述Y个虚拟扬声器的信号,测量该头中心位置的HRTF,并将每个虚拟扬声器的位置和测量到的该位置处的虚拟扬声器所对应的HRTF存储为第三对应关系库。音频渲染装置可以根据上述Y个虚拟扬声器的位置,从第三对应关系库中获取该Y个虚拟扬声器的位置对应的Y个初始HRTF。

然后,音频渲染装置可以将所获取的Y个初始HRTF分别旋转第三角度,以得到M个第一HRTF,以及将所获取的Y个初始HRTF分别旋转第四角度,以得到N个第二HRTF。

其中,该M个第一HRTF与上述M个第一信号一一对应。该N个第二HRTF与上述N个第二信号一一对应。

例如,以M是3为例,3个第一信号可以分别为信号1、信号2以及信号3,3个第一HRTF可以分别为HRTF 1、HRTF 2以及HRTF 3。这样的话,信号1可以与HRTF 1对应,信号2可以与HRTF 2对应,信号3可以与HRTF 3对应。再例如,以N是3为例,3个第二信号可以分别为信号1、信号2以及信号3,3个第二HRTF可以分别为HRTF 1、HRTF 2以及HRTF 3。这样的话,信号1可以与HRTF 1对应,信号2可以与HRTF 2对应,信号3可以与HRTF 3对应。

上述的第三角度可以是第三连线和第四连线的夹角,第三连线是上述Y个虚拟扬声器中的任意一个(对应本申请实施例中的第二虚拟扬声器)与头中心位置的连线,第四连线是该第二虚拟扬声器和第一位置的连线。上述的第四角度可以是上述第三连线和第五连线之间的夹角,这里,第五连线是该第二虚拟扬声器和第二位置的连线。

参考图12,图12示意性的示出了第三角度θ1和第四角度θ2。如图12所示,虚拟扬声器120可以是上述的第二虚拟扬声器,即以收听者头中心位置为甜点位置设置的Y个虚拟扬声器中的任意一个虚拟扬声器。虚拟扬声器120和收听者的头中心位置A的连线即为是上述的第三连线,若位置B是第一位位置,位置C是第二位置,则虚拟扬声器120和第一位置B(例如是收听者的左耳位置)的连线即为上述的第四连线,虚拟扬声器110和第二位置C(例如是收听者的右耳位置)的连线即为上述的第五连线。这样的话,第三连线和第四连线的夹角即为上述的第三角度,第三连线和第五连线的夹角即为上述的第四角度。

S1033、音频渲染装置基于M个第一信号和M个第一HRTF,确定第一渲染信号,以及基于N个第二信号和N个第二HRTF,确定第二渲染信号。

具体的,音频渲染装置可以将上述确定的M个第一信号分别与M个第一HRTF卷积,得到M个渲染信号。接着,音频渲染装置将该M个渲染信号叠加,从而得到第一渲染信号。类似的,音频渲染装置可以将上述确定的N个第二信号分别与N个第二HRTF卷积,得到N个渲染信号。接着,音频渲染装置将该N个渲染信号叠加,从而得到第二渲染信号。

可选的,音频渲染装置可以通过公式(7)计算得到第一渲染信号Y1,以及通过公式公式(8)计算得到第二渲染信号Y2

其中,Pm表示第m个虚拟扬声器的信号,即第m个第一信号,为卷积符号,HRTFm表示第m个虚拟扬声器的信号对应的第一HRTF。Pn表示第n个虚拟扬声器的信号,即第n个第二信号,HRTFn表示第n个虚拟扬声器的信号对应的第二HRTF。

应理解,第一渲染信号Y1包括第一渲染信号的过渡带内信号Y10,以及第一渲染信号的过渡带外信号Y11,即Y1=Y10+Y11。同理,第二渲染信号Y2包括第二渲染信号的过渡带内信号Y20,以及第二渲染信号的过渡带外信号Y21,即Y2=Y20+Y21

可以理解的是,第一信号是基于以第一位置为甜点位置的虚拟扬声器的信号,因此,基于第一信号计算得到的第一渲染信号可以是用于向第一位置输出的渲染信号。第二信号是基于以第二位置为甜点位置的虚拟扬声器的信号,因此,基于第二信号计算得到的第二渲染信号可以是用于向第二位置输出的渲染信号。

下面,对音频渲染装置获取第三渲染信号和第四渲染信号的过程予以说明:

参考图10,上述S104还可以包括:

S1041、音频渲染装置获取低频带信号对应的R个第三信号。其中,R是正整数。

这里,该R个第三信号分别是R个虚拟扬声器的信号,该R个虚拟扬声器是是以收听者头中心位置为甜点位置时,该甜点位置对应的R个虚拟扬声器。该R个虚拟扬声器与该R个第三信号一一对应。例如,以R是3为例,3个第三信号可以分别为信号1、信号2以及信号3,3个虚拟扬声器可以分别为虚拟扬声器1、虚拟扬声器2以及虚拟扬声器3。这样的话,信号1可以与虚拟扬声器1对应,信号2可以与虚拟扬声器2对应,信号3可以与虚拟扬声器3对应。

可选的,音频渲染装置可以基于获取的待渲染音频信号中的低频带信号,通过公式(9),计算得到以收听者的头中心位置为甜点位置时的R个虚拟扬声器的信号,即R个第三信号:

其中,R是虚拟扬声器的个数,r表示R个虚拟扬声器中第r个虚拟扬声器,r是整数,且1≤r≤R。Pr表示第r个虚拟扬声器的信号。W、X、Y以及Z分别表示低频带信号的四个分量,其中,W表示环境分量,X表示X方向坐标分量,Y表示Y方向坐标分量,Z表示Z方向坐标分量。表示以甜点位置为中心,第r个虚拟扬声器的俯仰角,θr表示以甜点位置为中心,第r个虚拟扬声器的方位角。可以看出,一组和θr可以标识一个虚拟扬声器的位置。

容易理解的是,上述虚拟扬声器的信号是指该虚拟扬声器所发出的声源信号,虚拟扬声器的信号位置即该虚拟扬声器的位置。

S1042、音频渲染装置获取R个第三HRTF和R个第四HRTF。

其中,该R个第三HRTF是基于上述R个第三信号,以收听者的头中心位置为甜点位置测量的第一位置的HRTF,该R个第三HRTF与R个第三信号一一对应。例如,以R是3为例,3个第三信号可以分别为信号1、信号2以及信号3,3个第三HRTF可以分别为HRTF 1、HRTF 2以及HRTF 3。这样的话,信号1可以与HRTF 1对应,信号2可以与HRTF 2对应,信号3可以与HRTF 3对应。

该R个第四HRTF是基于上述R个第三信号,以收听者的头中心位置为甜点位置测量的第二位置的HRTF,该R个第四HRTF与R个第三信号一一对应。例如,以R是3为例,3个第三信号可以分别为信号1、信号2以及信号3,3个第四HRTF可以分别为HRTF 1、HRTF2以及HRTF 3。这样的话,信号1可以与HRTF 1对应,信号2可以与HRTF 2对应,信号3可以与HRTF 3对应。

可选的,音频渲染装置可以预先以收听者的头中心位置为甜点位置,基于上述R个虚拟扬声器的信号(即上述R个第三信号),测量第一位置(例如第一位置可以是收听者的左耳位置)的HRTF,并将每个虚拟扬声器的位置和测量到的该位置处的虚拟扬声器所对应的HRTF存储为第四对应关系库。音频渲染装置还可以预先以收听者的头中心位置为甜点位置,基于上述R个虚拟扬声器的信号(即上述R个第三信号),测量第二位置(例如第二位置可以是收听者的右耳位置)的HRTF,并将每个虚拟扬声器的位置和测量到的该位置处的虚拟扬声器所对应的HRTF存储为第五对应关系库。这里,第四对应关系库和第五对应关系库可以是同一个数据库,也可以是两个独立的数据库,对此不作限定。

当音频渲染装置确定甜点位置为收听者头中心,则相应的可以确定R个虚拟扬声器的位置。这样的话,音频渲染装置可以根据确定的R个虚拟扬声器的位置,从第四对应关系库中获取该R个虚拟扬声器的位置所对应的R个HRTF,该R个HRTF即为上述R个虚拟扬声器的信号对应的第三HRTF。类似的,音频渲染装置还可以根据确定的R个虚拟扬声器的位置,从第五对应关系库中获取该R个虚拟扬声器的位置所对应的R个HRTF,该R个HRTF即为上述R个虚拟扬声器的信号对应的第四HRTF。

示例性的,如图5所示,音频渲染装置确定虚拟扬声器51的位置(包括俯仰角和方位角等)后,从第四对应关系库中获取与虚拟扬声器51的位置所对应的HRTF,并将该HRTF作为虚拟扬声器51的信号对应的第三HRTF。音频渲染装置确定虚拟扬声器51的位置后,还从第五对应关系库中获取与虚拟扬声器51的位置所对应的HRTF,并将该HRTF作为虚拟扬声器51的信号对应的第四HRTF。

S1043、音频渲染装置基于R个第三信号和R个第三HRTF,确定第三渲染信号,以及基于R个第三信号和R个第四HRTF,确定第四渲染信号。

具体的,音频渲染装置可以将上述确定的R个第三信号分别与R个第三HRTF卷积,得到R个渲染信号。接着,音频渲染装置将该R个渲染信号叠加,从而得到第三渲染信号。类似的,音频渲染装置可以将上述确定的R个第三信号分别与R个第四HRTF卷积,得到R个渲染信号。接着,音频渲染装置将该R个渲染信号叠加,从而得到第四渲染信号。

可选的,音频渲染装置可以通过公式(10)计算得到第三渲染信号Y3,以及通过公式公式(11)计算得到第四渲染信号Y4

其中,Pr表示第r个虚拟扬声器的信号,即第r个第三信号,HRTFr_1表示第r个虚拟扬声器的信号对应的第三HRTF,HRTFr_2表示第r个虚拟扬声器的信号对应的第四HRTF。

应理解,第三渲染信号Y3包括第三渲染信号的过渡带内信号Y30,以及第三渲染信号的过渡带外信号Y31,即Y3=Y30+Y31。同理,第四渲染信号Y4包括第四渲染信号的过渡带内信号Y40,以及第四渲染信号的过渡带外信号Y41,即Y4=Y40+Y41

可以理解的是,用于确定第三渲染信号的R个第三HRTF,是测量第一位置的HRTF。因此,第三渲染信号可以是用于向第一位置输出的渲染信号。用于确定第四渲染信号的第四HRTF,是测量第二位置的HRTF。因此,第四渲染信号可以是用于向第二位置输出的渲染信号。

综上,本申请实施例提供了一种音频渲染方法,在该方法中,音频渲染装置将待渲染音频信号划分为高频带信号和低频带信号,并以收听者的双耳位置为甜点位置对高频带信号进行渲染,这样,提高了渲染信号的ILD的准确度。音频渲染装置以收听者的头中心位置为甜点位置对低频带信号进行渲染,这样,提高了渲染信号的ITD的准确度。然后,音频渲染装置将渲染后的高频带信号(第一渲染信号和第二渲染信号)以及渲染后的低频带信号(第三渲染信号和第四渲染信号)进行融合,从而得到第一目标渲染信号和第二目标渲染信号。其中,第一目标渲染信号和第二目标渲染信号即为向收听者输出的双耳渲染信号。这样,通过本申请实施例提供的音频渲染方法得到的双耳渲染信号具有高准确度的ITD和ILD,从而提高了双耳渲染信号对声像定位的精确度,减少了双耳渲染信号的头中效应,以及提高了双耳渲染信号的声场宽度。

实施例二

在本实施例中,音频渲染装置将用于处理待渲染音频信号的HRTF转换到待渲染音频信号域,并在待渲染音频信号域中渲染待渲染的音频信号。

请参考图13,图13示出了本申请实施例提供的另一种音频渲染方法的流程示意图。该方法可以包括以下步骤:

S201、音频渲染装置获取待渲染音频信号。

具体的,音频渲染装置获取待渲染音频信号的描述可以参考上述的S101中的描述,这里不再赘述。

其中,待渲染音频信号包括J个声道信号,J是正整数,例如,J可以是大于或等于2的整数。

S202、音频渲染装置获取K个左耳初始HRTF和K个右耳初始HRTF。

这里,该K个左耳初始HRTF可以是基于K个虚拟扬声器的信号,以收听者的头中心位置为甜点位置测量的左耳的HRTF,该K个左耳初始HRTF与K个虚拟扬声器的信号一一对应。该左耳初始HRTF是左耳HRTF,待渲染音频信号经左耳HRTF处理后,可以得到向收听者的左耳输出的渲染信号。其中,K是正整数,例如,K可以是大于或等于3的整数。

该K个右耳初始HRTF可以是基于K个虚拟扬声器的信号,以收听者的头中心位置为甜点位置测量的右耳的HRTF,该K个右耳初始HRTF与K个虚拟扬声器的信号一一对应。该右耳初始HRTF是右耳HRTF,待渲染音频信号经右耳HRTF处理后,可以得到向收听者的右耳输出的渲染信号。

其中,上述的K个虚拟扬声器是以收听者的头中心位置为甜点位置设置的K个虚拟扬声器。

具体的,音频渲染装置获取K个左耳初始HRTF和K个右耳初始HRTF的过程,可以参考上述S中获取R个第三HRTF和R个第四HRTF的描述,这里不再赘述。

S203、音频渲染装置基于上述K个左耳初始HRTF,确定K个第一HRTF和K个第二HRTF。音频渲染装置基于上述K个右耳初始HRTF,确定K个第三HRTF和K个第四HRTF。

其中,K个第一HRTF可以是低频带HRTF,该低频带HRTF可以是用于处理待渲染音频信号中的低频带信号的左耳HRTF。K个第二HRTF可以是高频带HRTF,该高频带HRTF可以是用于处理待渲染音频信号中的高频带信号的左耳HRTF。

K个第三HRTF可以是低频带HRTF,该低频带HRTF可以是用于处理待渲染音频信号中的低频带信号的右耳HRTF。K个第四HRTF可以是高频带HRTF,该高频带HRTF可以是用于处理待渲染音频信号中的高频带信号的右耳HRTF。

可以理解的是,上述低频带信号的频率范围和上述高频带信号的频率范围,可以覆盖待渲染音频信号的频率范围。

具体的,音频渲染装置可以通过下述任一种可能的实现方式得到K个第一HRTF和K个第二HRTF,以及K个第三HRTF和K个第四HRTF。

第一种可能的实现方式,音频渲染装置可以对上述K个左耳初始HRTF分别进行低通滤波处理,以得到K个第一HRTF。音频渲染装置还可以对上述K个左耳初始HRTF分别进行高通滤波处理,以得到K个第二HRTF。

音频渲染装置可以对上述K个右耳初始HRTF分别进行低通滤波处理,以得到K个第三HRTF。音频渲染装置还可以对上述K个右耳初始HRTF分别进行高通滤波处理,以得到K个第四HRTF。

可选的,音频渲染装置可以通过低通滤波器,对上述K个左耳初始HRTF分别进行低通滤波处理。音频渲染装置还可以通过高通滤波器,对上述K个左耳初始HRTF分别进行高通滤波处理。

示例性的,以上述K个左耳初始HRTF中的第k个左耳初始HRTF为例,音频渲染装置通过低通滤波器,可以滤除该第k个左耳初始HRTF的高频部分,从而得到该第k个左耳初始HRTF对应的第k个第一HRTF,如图14所示。这里,k是正整数,1≤k≤K。

又示例性的,以上述K个左耳初始HRTF中的第k个左耳初始HRTF为例,音频渲染装置通过高通滤波器,可以滤除该第k个左耳初始HRTF的低频部分,从而得到该第k个左耳初始HRTF对应的第k个第二HRTF,如图15所示。

类似的,音频渲染装置可以通过低通滤波器,对上述K个右耳初始HRTF分别进行低通滤波处理,以得到K个第三HRTF。音频渲染装置还可以通过高通滤波器,对上述K个右耳初始HRTF分别进行高通滤波处理,以得到K个第四HRTF。此处不再赘述。

第二种可能的实现方式,音频渲染装置可以对上述K个左耳初始HRTF分别进行低通滤波处理,以得到K个第一初始HRTF。音频渲染装置还可以对上述K个左耳初始HRTF分别进行高通滤波处理,以得到K个第二初始HRTF。然后,音频渲染装置对K个第一初始HRTF或K个第二初始HRTF进行延时处理,以得到K个第一HRTF或K个第二HRTF。具体的,若音频渲染装置对K个第一初始HRTF进行延时处理,可以得到K个第一HRTF。这时,K个第二初始HRTF即为K个第二HRTF。若音频渲染装置对K个第二初始HRTF进行延时处理,可以得到K个第二HRTF。这时,K个第一初始HRTF即为K个第一HRTF。

需要说明的是,若音频渲染装置对K个第一初始HRTF进行延时处理,则不对K个第二初始HRTF进行延时处理。若音频渲染装置对K个第二初始HRTF进行延时处理,则不对K个第一初始HRTF进行延时处理。也就是说,对于K个第一HRTF中的第k个第一HRTF,以及K个第二HRTF中第k个第二HRTF而言,该第k个第一HRTF和该第k个第二HRTF中的至少一个是经延时处理得到的。这样的话,可以消除该第k个第一HRTF和该第k个第二HRTF叠加时产生的有害效果。这里,有害效果的相关描述可以参考上述S105中的描述,这里不予赘述。

音频渲染装置还可以对上述K个右耳初始HRTF分别进行低通滤波处理,以得到K个第三初始HRTF。音频渲染装置还可以对上述K个右耳初始HRTF分别进行高通滤波处理,以得到K个第四初始HRTF。然后,音频渲染装置对K个第三初始HRTF或K个第四初始HRTF进行延时处理,以得到K个第三HRTF或K个第四HRTF。具体的,若音频渲染装置对K个第三初始HRTF进行延时处理,可以得到K个第三HRTF。这时,K个第四初始HRTF即为K个第四HRTF。若音频渲染装置对K个第四初始HRTF进行延时处理,可以得到K个第四HRTF。这时,K个第三初始HRTF即为K个第三HRTF。

需要说明的是,若音频渲染装置对K个第三初始HRTF进行延时处理,则不对K个第四初始HRTF进行延时处理。若音频渲染装置对K个第四初始HRTF进行延时处理,则不对K个第三初始HRTF进行延时处理。也就是说,对于K个第三HRTF中的第k个第三HRTF,以及K个第四HRTF中第k个第四HRTF而言,该第k个第三HRTF和该第k个第四HRTF中的至少一个是经延时处理得到的。这样的话,可以消除该第k个第三HRTF和该第k个第四HRTF叠加时产生的有害效果。

具体的,音频渲染装置可以对K个第一初始HRTF进行延时处理,使处理后的K个第一初始HRTF的群延时为固定值,即K个第一HRTF的群延时为固定值。或者,音频渲染装置可以对K个第二初始HRTF进行延时处理,使处理后的K个第二初始HRTF的群延时为固定值,即K个第二HRTF的群延时为固定值。

需要说明的是,若音频渲染装置对K个第一初始HRTF进行延时处理时,为每个第一初始HRTF设置不同的延时值。这样,可以使得经延时处理后的K个第一初始HRTF的群延时为固定值,即K个第一HRTF的群延时为固定值。类似的,若音频渲染装置对K个第二初始HRTF进行延时处理时,为每个第二初始HRTF设置不同的延时值。这样,可以使得经延时处理后的K个第二初始HRTF的群延时为固定值,即K个第二HRTF的群延时为固定值。

类似的,音频渲染装置可以对K个第三初始HRTF进行延时处理,使处理后的K个第三初始HRTF的群延时为固定值,即K个第三HRTF的群延时为固定值。或者,音频渲染装置可以对K个第四初始HRTF进行延时处理,使处理后的K个第四初始HRTF的群延时为固定值,即K个第四HRTF的群延时为固定值。

需要说明的是,若音频渲染装置对K个第三初始HRTF进行延时处理时,为每个第三初始HRTF设置不同的延时值。这样,可以使得经延时处理后的K个第三初始HRTF的群延时为固定值,即K个第三HRTF的群延时为固定值。类似的,若音频渲染装置对K个第四初始HRTF进行延时处理时,为每个第四初始HRTF设置不同的延时值。这样,可以使得经延时处理后的K个第四初始HRTF的群延时为固定值,即K个第四HRTF的群延时为固定值。

第三种可能的方式,音频渲染装置可以对上述K个左耳初始HRTF分别进行延时处理。然后,音频渲染装置可以对未经延时处理的K个左耳初始HRTF进行低通滤波处理,以得到K个第一HRTF,并对经延时处理的K个左耳初始HRTF进行高通滤波处理,以得到K个第二HRTF。或者,音频渲染装置可以对经延时处理的K个左耳初始HRTF进行低通滤波处理,以得到K个第一HRTF,并对未经延时处理的K个左耳初始HRTF进行高通滤波处理,以得到K个第二HRTF。

也就是说,对于K个第一HRTF中的第k个第一HRTF,以及K个第二HRTF中第k个第二HRTF而言,该第k个第一HRTF和该第k个第二HRTF中的至少一个是经延时处理的。这样的话,可以消除该第k个第一HRTF和该第k个第二HRTF叠加时产生的有害效果。其中,延时处理和有害效果的相关描述可以参考上述第二种可能的实现方式中延时处理和有害效果的描述,这里不再赘述。

音频渲染装置可以对上述K个右耳初始HRTF分别进行延时处理。然后,音频渲染装置可以对未经延时处理的K个右耳初始HRTF进行低通滤波处理,以得到K个第三HRTF,并对经延时处理的K个右耳初始HRTF进行高通滤波处理,以得到K个第四HRTF。或者,音频渲染装置可以对经延时处理的K个右耳初始HRTF进行低通滤波处理,以得到K个第三HRTF,并对未经延时处理的K个右耳初始HRTF进行高通滤波处理,以得到K个第四HRTF。

也就是说,对于K个第三HRTF中的第k个第三HRTF,以及K个第四HRTF中第k个第四HRTF而言,该第k个第三HRTF和该第k个第四HRTF中的至少一个是经延时处理得到的。这样的话,可以消除该第k个第三HRTF和该第k个第四HRTF叠加时产生的有害效果。

可选的,音频渲染装置还可以在上述的几种可能的实现方式的基础上,对K个第一HRTF和K个第二HRTF、以及K个第三HRTF和K个第四HRTF均进行延时处理。并且,音频渲染装置为每个待处理的HRTF设置相同的延时值。这样的话,根据相同延时值进行延时处理所得到的HRTF,作用于待渲染音频信号后,可以得到波形平滑的渲染信号,提高了渲染信号的质量。

可以看出,上述的第一HRTF和第二HRTF是基于同一左耳HRTF(即上述的左耳初始HRTF)确定的。上述的第三HRTF和第四HRTF是基于同一右耳HRTF(即上述的右耳初始HRTF)确定的。

S204、音频渲染装置根据上述确定的K个第一HRTF和K个第二HRTF,确定K个第一融合HRTF。音频渲染装置根据上述确定的K个第三HRTF和K个第四HRTF,确定第二融合HRTF。

其中,K个第一融合HRTF是用于处理待渲染音频信号的左耳HRTF,K个第二融合HRTF是用于处理待渲染音频信号的右耳HRTF。

音频渲染装置将上述确定的K个第一HRTF分别和K个第二HRTF中对应的第二HRTF叠加,即可得到K个第一融合HRTF。音频渲染装置将上述确定的K个第三HRTF分别和K个第四HRTF中对应的第四HRTF叠加,即可得到K个第二融合HRTF。

其中,基于同一个左耳初始HRTF得到的第一HRTF和第二HRTF对应,基于同一个右耳初始HRTF得到的第三HRTF和第四HRTF对应。由于第一HRTF和第二HRTF是基于同一个左耳初始HRTF得到的,可以使得基于第一HRTF和第二HRTF得到的第一融合HRTF的准确度更高,从而可以提高左耳渲染信号的ITD的准确度;同理,由于第三HRTF和第四HRTF是基于同一个右耳初始HRTF得到的,可以使得基于第三HRTF和第四HRTF得到的第二融合HRTF的准确度更高,从而可以提高右耳渲染信号的ITD的准确度。

示例性的,对于K个左耳初始HRTF中的第k个左耳初始HRTF而言,基于该第k个左耳初始HRTF可以得到第k个第一HRTF和第k个第二HRTF。将第k个第一HRTF和第k个第二HRT叠加,即可得到第k个第一融合HRTF。

又示例性的,对于K个右耳初始HRTF中的第k个右耳初始HRTF而言,基于该第k个右耳初始HRTF可以得到第k个第三HRTF和第k个第四HRTF。将第k个第三HRTF和第k个第四HRTF叠加,即可得到第k个第二融合HRTF。

可以理解的是,本申请实施例对步骤S201和步骤S202~S204的执行时序不作限定。例如可以同时执行步骤S201和步骤S202~S204。或者,也可以先执行步骤S201,再执行步骤S202~S204,对此不作限定。

S205、基于待渲染音频信号,音频渲染装置将上述确定的K个第一融合HRTF变换(transform)到待渲染音频信号域,以得到J个第一目标HRTF。音频渲染装置将上述确定的K个第二融合HRTF变换到待渲染音频信号域,以得到J个第二目标HRTF。

其中,J可以大于K,可以等于K,也可以小于K,对此不作限定。

由于上述K个第一融合HRTF,是基于以收听者的左耳位置为甜点位置所设置的K个虚拟扬声器的信号测量得到的HRTF确定的,即K个第一融合HRTF与K个虚拟扬声器的信号一一对应。因此,音频渲染装置需要将第一融合HRTF变换到待渲染音频信号域中,以得到与待渲染音频信号中的J个声道信号一一对应的HRTF。

类似的,上述K个第二融合HRTF,是基于以收听者的右耳位置为甜点位置所设置的K个虚拟扬声器的信号测量得到的HRTF确定的,即K个第二融合HRTF与K个虚拟扬声器的信号一一对应。因此,音频渲染装置需要将第二融合HRTF变换到待渲染音频信号域中,以得到与待渲染音频信号中的J个声道信号一一对应的HRTF。

具体的,音频渲染装置可以基于待渲染音频信号,根据预设的算法,将上述确定的K个第一融合HRTF变换到待渲染音频信号域,以得到J个第一目标HRTF,该J个第一目标HRTF是待渲染音频信号域中的左耳HRTF,该J个第一目标HRTF与J个声道信号一一对应;

音频渲染装置可以基于待渲染音频信号,根据预设的算法,将上述确定的K个第二融合HRTF变换到待渲染音频信号域,以得到J个第二目标HRTF,该J个第二目标HRTF是待渲染音频信号域中的右耳HRTF,该J个第二目标HRTF与J个声道信号一一对应。

可选的,该预设的算法可以是矩阵变换算法。下面以具体的示例对该矩阵变换算法进行说明。

可选的,音频渲染装置可以根据公式(12)所示的公式,将K个第一融合HRTF变换到待渲染音频信号域,得到J个第一目标HRTF:

其中,yj表示第j个声道信号对应的第一目标HRTF,第j个声道信号对应的第一目标HRTF用于处理J个声道信号中的第j个声道信号,j是正整数,1≤j≤J。xk表示K个第一融合HRTF中的第k个第一融合HRTF。q11…qk1表示J个声道信号中的第一个声道信号对应的域转换系数,q1j…qkj表示J个声道信号中的第j个声道信号对应的域转换系数。其中,域转换系数可以是声道信号乘以K个不同的权重系数得到的,例如q11…qk1分别是第一个声道信号分别乘以K个不同的权重系数得到的。容易看出,J个第一目标HRTF与J个声道信号一一对应。

类似的,音频渲染装置可以根据公式(12)所示的公式,将K个第二融合HRTF变换到待渲染音频信号域,得到J个第二目标HRTF。这时,yj表示第j个声道信号对应的第二目标HRTF,第j个声道信号对应的第二目标HRTF用于处理J个声道信号中的第j个声道信号。xk表示K个第二融合HRTF中的第k个第二融合HRTF。q11…qk1表示J个声道信号中的第一个声道信号对应的域转换系数,q1j…qkj表示J个声道信号中的第j个声道信号对应的域转换系数。其中,域转换系数可以是声道信号乘以K个不同的权重系数得到的,例如q11…qk1分别是第一个声道信号分别乘以K个不同的权重系数得到的。容易看出,J个第二目标HRTF与J个声道信号一一对应。

S206、音频渲染装置根据确定的J个第一目标HRTF和待渲染音频信号,确定第一目标渲染信号。音频渲染装置根据确定的J个第二目标HRTF和待渲染音频信号,确定第二目标渲染信号。

具体的,音频渲染装置将J个第一目标HRTF中每个第一目标HRTF,分别和待渲染音频信号所包括的J个声道信号中对应的声道信号进行卷积,得到J个声道对应的渲染信号。接着,音频渲染装置将J个声道对应的渲染信号进行叠加,得到第一目标渲染信号。这里,第一目标渲染信号是向收听者的左耳输出的渲染信号。

示例性的,对于J个第一目标HRTF中的第j个第一目标HRTF而言,若与该第j个第一目标HRTF对应的声道信号是J个声道信号中的第j个声道信号,则音频渲染装置将第j个第一目标HRTF和第j个声道信号进行卷积,以得到第j个声道信号的渲染信号。

类似的,音频渲染装置将J个第二目标HRTF中每个第二目标HRTF,分别和待渲染音频信号所包括的J个声道信号中对应的声道信号进行卷积,得到J个声道对应的渲染信号。接着,音频渲染装置将J个声道对应的渲染信号进行叠加,得到第二目标渲染信号。这里,第二目标渲染信号是向收听者的右耳输出的渲染信号。

示例性的,对于J个第二目标HRTF中的第j个第二目标HRTF而言,若与该第j个第二目标HRTF对应的声道信号是J个声道信号中的第j个声道信号,则音频渲染装置将第j个第二目标HRTF和第j个声道信号进行卷积,以得到第j个声道信号的渲染信号。

这样,通过将以收听者头中心位置作为甜点位置的双耳HRTF进行高低通滤波,可以得到低频带HRTF(即第一HRTF或第三HRTF)和高频带HRTF(即第二HRTF或第四HRTF)。这样,当待渲染音频信号经低频带HRTF作用后,所得到的双耳渲染信号的ITD的准确度高。当待渲染音频信号经高频带HRTF作用后,所得到的双耳渲染信号的ILD的准确度高。这样的话,高准确度的ITD和ILD,提高了双耳渲染信号对声像定位的精确度,减少了双耳渲染信号的头中效应,以及提高了双耳渲染信号的声场宽度。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对音频渲染装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

如图16所示,图16示出了本申请实施例提供的一种音频渲染装置160的结构示意图。音频渲染装置160可以用于执行上述的音频渲染方法,例如用于执行图3、图9或图10所示的方法。其中,音频渲染装置160可以包括获取单元161、划分单元162、确定单元163以及融合单元164。

获取单元161,用于获取待渲染音频信号。划分单元162,用于将待渲染音频信号划分为高频带信号和低频带信号。确定单元163,用于以第一位置为甜点位置,确定高频带信号对应的第一渲染信号;以及用于以第二位置为甜点位置,确定高频带信号对应的第二渲染信号;其中,第一位置是收听者的左耳位置时,第二位置是收听者的右耳位置,或者,第一位置是收听者的右耳位置时,第二位置是收听者的左耳位置。确定单元163,还用于以收听者的头中心位置为甜点位置,确定低频带信号对应的第三渲染信号和第四渲染信号;其中,第三渲染信号用于确定向第一位置输出的渲染信号,第四渲染信号用于确定向第二位置输出的渲染信号。融合单元164,用于将第一渲染信号和第三渲染信号融合,得到第一目标渲染信号;将第二渲染信号和第四渲染信号融合,得到第二目标渲染信号。其中,第一目标渲染信号是用于向第一位置输出的渲染信号,第二目标渲染信号是用于向第二位置输出的渲染信号。

作为示例,结合图3,获取单元161可以用于执行S101,划分单元162可以用于执行S102,确定单元163可以用于执行S103和S104,融合单元164可以用于执行S106。

可选的,融合单元164具体用于:对第一渲染信号的过渡带内信号和第二渲染信号的过渡带内信号分别进行淡入处理,以及对第三渲染信号的过渡带内信号和第四渲染信号的过渡带内信号分别进行淡出处理。其中,过渡带是以高频带信号和低频带信号的临界频率为中心,向上浮动第一带宽以及向下浮动第二带宽的频带。根据经淡入处理后的第一渲染信号和经淡出处理后的第三渲染信号,得到第一融合信号,根据经淡入处理后的第二渲染信号和经淡出处理后的第四渲染信号,得到第二融合信号。将第一融合信号、第一渲染信号的过渡带外信号、以及第三渲染信号的过渡带外信号叠加,得到第一目标渲染信号;将第二融合信号、第二渲染信号的过渡带外信号、以及第四渲染信号的过渡带外信号叠加,得到第二目标渲染信号。

作为示例,结合图3,融合单元164可以用于执行S106。

可选的,融合单元164具体用于:通过淡入因子,对第一渲染信号的过渡带内信号和第二渲染信号的过渡带内信号分别进行淡入处理,以及通过淡出因子,对第三渲染信号的过渡带内信号和第四渲染信号的过渡带内信号分别进行淡出处理。其中,过渡带对应T个淡入因子和淡出因子的组合,T是正整数,T个组合中任一个组合所对应的淡入因子与淡出因子的和为1。

作为示例,结合图3,融合单元164可以用于执行S106。

可选的,音频渲染装置160还包括:滤波单元165,用于在融合单元164“将第一渲染信号和第三渲染信号融合,得到第一目标渲染信号;将第二渲染信号和第四渲染信号融合,得到第二目标渲染信号”之前,对第一渲染信号或第三渲染信号进行梳状滤波处理,以使经梳状滤波处理后的第一渲染信号或第三渲染信号的群延时为固定值;以及对第二渲染信号或第四渲染信号进行梳状滤波处理,以使经梳状滤波处理后的第二渲染信号或第四渲染信号的群延时均为固定值。融合单元164,具体用于将第一渲染信号和第三渲染信号中,经梳状滤波处理后的渲染信号和未经梳状滤波处理的渲染信号融合,得到第一目标渲染信号;以及,具体用于将第二渲染信号和第四渲染信号中,经梳状滤波处理后的渲染信号和未经梳状滤波处理的渲染信号融合,得到第二目标渲染信号。

作为示例,结合图3,滤波单元165可以用于执行S105,融合单元164可以用于执行S106。

可选的,获取单元161还用于:

以第一位置为甜点位置,获取高频带信号对应的M个第一信号。该M个第一信号分别是M个虚拟扬声器的信号,该M个第一信号与M个虚拟扬声器一一对应。其中,M是正整数。

以第二位置为甜点位置,获取高频带信号对应的N个第二信号。该N个第二信号分别是N个虚拟扬声器的信号,该N个第二信号与N个虚拟扬声器一一对应。其中,N是正整数,N=M;

获取M个第一头相关传输函数HRTF和N个第二HRTF。该M个第一HRTF与M个第一信号一一对应,该N个第二HRTF与N个第二信号一一对应。

确定单元163具体用于,根据M个第一信号和M个第一HRTF,确定第一渲染信号;根据N个第二信号和N个第二HRTF,确定第二渲染信号。

作为示例,结合图9,获取单元161可以用于执行S1031、S1032以及S1033。

可选的,获取单元161具体用于:对高频带信号进行处理,得到M个虚拟扬声器的M个第一信号,该M个虚拟扬声器是以第一位置为甜点位置设置的M个虚拟扬声器;对高频带信号进行处理,得到N个虚拟扬声器的N个第二信号,该N个虚拟扬声器是以第二位置为甜点位置设置的N个虚拟扬声器。

作为示例,结合图9,获取单元161可以用于执行S1031。

可选的,获取单元161还用于,对高频带信号进行处理,得到X个虚拟扬声器对应的X个初始信号,该X个初始信号与X个虚拟扬声器一一对应,该X个虚拟扬声器是以头中心位置为甜点位置设置的X个虚拟扬声器,其中,X是正整数,X=M=N。

获取单元161具体用于:

将X个初始信号分别旋转第一角度,得到M个第一信号,该第一角度是第一连线和第二连线的夹角,该第一连线是第一虚拟扬声器的位置与头中心位置的连线,该第二连线是第一虚拟扬声器的位置与第一位置的连线,其中,该第一虚拟扬声器是X个虚拟扬声器中的任一个虚拟扬声器。

将X个初始信号分别旋转第二角度,得到N个第二信号,该第二角度是第一连线和第三连线的夹角,该第三连线是第一虚拟扬声器的位置与第二位置的连线。

作为示例,结合图9,获取单元161可以用于执行S1031。

可选的,上述M个第一HRTF是基于M个第一信号,以第一位置为甜点位置测量的第一位置的HRTF。上述N个第二HRTF是基于N个第二信号,以第二位置为甜点位置测量的第二位置的HRTF。

可选的,获取单元161具体用于:

获取Y个初始HRTF,该Y个初始HRTF是基于Y个虚拟扬声器的信号,以头中心位置为甜点位置测量的头中心位置的HRTF。该Y个虚拟扬声器是以头中心位置为甜点位置设置的Y个虚拟扬声器,该Y个初始HRTF与Y个虚拟扬声器的信号一一对应。其中,Y是正整数,Y=M=N。

将Y个初始HRTF分别旋转第三角度,得到M个第一HRTF。其中,该第三角度是第三连线和第四连线的夹角,该第三连线是第二虚拟扬声器的位置与头中心位置的连线,该第四连线是第二虚拟扬声器的位置和第一位置的连线,该第二虚拟扬声器是Y个虚拟扬声器中的任一个虚拟扬声器;

将Y个初始HRTF分别旋转第四角度,得到N个第二HRTF。其中,该第四角度是第三连线和第五连线之间的夹角,该第五连线是第二虚拟扬声器的位置和第二位置的连线。

作为示例,结合图9,获取单元161可以用于执行S1032。

可选的,获取单元161还用于:

对低频带信号进行处理,得到R个第三信号,该R个第三信号分别是R个虚拟扬声器的信号,该R个第三信号与R个虚拟扬声器一一对应,该R个虚拟扬声器是以头中心位置为甜点位置设置的R个虚拟扬声器。其中,R是正整数。

获取R个第三HRTF,该R个第三HRTF是基于R个第三信号,以头中心位置为甜点位置测量的第一位置的HRTF,该R个第三HRTF与R个第三信号一一对应。

获取R个第四HRTF,该R个第四HRTF是基于R个第三信号,以头中心位置为甜点位置测量的第二位置的HRTF,该R个第四HRTF与R个第三信号一一对应。

确定单元163具体用于,根据R个第三信号和R个第三HRTF,确定第三渲染信号;根据R个第三信号和R个第四HRTF,确定第四渲染信号。

作为示例,结合图10,获取单元161可以用于执行S1041、S1042和S1043。

可选的,获取单元161具体用于:接收经音频解码器解码得到的待渲染音频信号;或者,接收音频采集器采集到的待渲染音频信号;或者,获取多个音频信号经合成处理后所得到的待渲染音频信号。

作为示例,结合图3,获取单元161可以用于执行S101。

关于上述可选方式的具体描述可以参见前述的方法实施例,此处不再赘述。此外,上述提供的任一种音频渲染装置160的解释以及有益效果的描述均可参考上述对应的方法实施例,不再赘述。

作为示例,结合图2,音频渲染装置160中的获取单元161、划分单元162、确定单元163、融合单元164和滤波单元165可以通过图2中的处理器21执行图2中的存储器22中的程序代码实现。

如图17所示,图17示出了本申请实施例提供的一种音频渲染装置170的结构示意图。音频渲染装置170可以用于执行上述的音频渲染方法,例如用于执行图13所示的方法。其中,音频渲染装置170可以包括获取单元171和确定单元172。

获取单元171,用于获取待渲染音频信号。确定单元172,用于基于K个第一头相关传输函数HRTF和K个第二HRTF,确定K个第一融合HRTF,K个第一融合HRTF是用于处理待渲染音频信号的左耳HRTF;其中,K个第一HRTF是用于处理待渲染音频信号中的低频带信号的左耳HRTF,K个第二HRTF是用于处理待渲染音频信号中的高频带信号的左耳HRTF,K是正整数。确定单元172,还用于基于K个第三HRTF和K个第四HRTF,确定K个第二融合HRTF,K个第二融合HRTF是用于处理待渲染音频信号的右耳HRTF;其中,K个第三HRTF是用于处理待渲染音频信号中的低频带信号的右耳HRTF,K个第四HRTF是用于处理待渲染音频信号中的高频带信号的右耳HRTF。确定单元172,还用于根据K个第一融合HRTF和待渲染音频信号,确定第一目标渲染信号,第一目标渲染信号是用于向收听者左耳输出的渲染信号;根据K个第二融合HRTF和待渲染音频信号,确定第二目标渲染信号,第二目标渲染信号是用于向收听者右耳输出的渲染信号。

作为示例,结合图13,获取单元171可以用于执行S201,确定单元172可以用于执行S204和S206。

可选的,上述的第一HRTF和第二HRTF是基于同一左耳HRTF确定的。上述的第三HRTF和第四HRTF是基于同一右耳HRTF确定的。

可选的,获取单元171,还用于在确定单元172基于K个第一HRTF和K个第二HRTF,确定K个第一融合HRTF之前,获取K个左耳初始HRTF,该K个左耳初始HRTF是基于K个虚拟扬声器的信号,以收听者的头中心位置为甜点位置测量的左耳的HRTF,该K个左耳初始HRTF与K个虚拟扬声器的信号一一对应。获取单元171,还用于在确定单元172基于K个第三HRTF和K个第四HRTF,确定K个第二融合HRTF之前,获取K个右耳初始HRTF,该K个右耳初始HRTF是基于K个虚拟扬声器的信号,以收听者的头中心位置为甜点位置测量的右耳的HRTF,该K个右耳初始HRTF与K个虚拟扬声器的信号一一对应。其中,K个虚拟扬声器是以收听者的头中心位置为甜点位置设置的K个虚拟扬声器。确定单元172,还用于基于K个左耳初始HRTF,确定K个第一HRTF和K个第二HRTF;以及,基于K个右耳初始HRTF,确定K个第三HRTF和K个第四HRTF。

作为示例,结合图13,获取单元171可以用于执行S202,确定单元172可以用于执行S203。

可选的,确定单元172,具体用于:

对K个左耳初始HRTF进行低通滤波处理,以得到K个第一HRTF。对K个左耳初始HRTF进行高通滤波处理,以得到K个第二HRTF。对K个右耳初始HRTF进行低通滤波处理,以得到K个第三HRTF。对K个右耳初始HRTF进行高通滤波处理,以得到K个第四HRTF。

作为示例,结合图13,确定单元172可以用于执行S203。

可选的,确定单元172,具体用于:

对K个左耳初始HRTF进行低通滤波处理和延时处理,以得到K个第一HRTF;对K个左耳初始HRTF进行高通滤波处理,以得到K个第二HRTF。或者,对K个左耳初始HRTF进行低通滤波处理,以得到K个第一HRTF;对K个左耳初始HRTF进行高通滤波处理和延时处理,以得到K个第二HRTF。

对K个右耳初始HRTF进行低通滤波处理和延时处理,以得到K个第三HRTF;对K个右耳初始HRTF进行高通滤波处理,以得到K个第四HRTF。或者,对K个右耳初始HRTF进行低通滤波处理,以得到K个第三HRTF;对K个右耳初始HRTF进行高通滤波处理和延时处理,以得到K个第四HRTF。

作为示例,结合图13,确定单元172可以用于执行S203。

可选的,上述待渲染音频信号包括J个声道信号,J是正整数。音频渲染装置170还包括变换单元173。变换单元173,用于将K个第一融合HRTF变换到待渲染音频信号域,以得到J个第一目标HRTF,该J个第一目标HRTF是待渲染音频信号域中的左耳HRTF,该J个第一目标HRTF与J个声道信号一一对应。变换单元173,还用于将K个第二融合HRTF变换到待渲染音频信号域,以得到J个第二目标HRTF,该J个第二目标HRTF是待渲染音频信号域中的右耳HRTF,该J个第二目标HRTF与J个声道信号一一对应。确定单元172,具体用于根据J个第一目标HRTF和J个声道信号,确定第一目标渲染信号;以及,根据J个第二目标HRTF和J个声道信号,确定第二目标渲染信号。

作为示例,结合图13,变换单元173可以用于执行S205。

可选的,确定单元172,具体用于将J个第一目标HRTF中每个第一目标HRTF,分别和J个声道信号中对应的声道信号进行卷积,以得到第一目标渲染信号;以及用于将J个第二目标HRTF中每个第二目标HRTF,分别和J个声道信号中对应的声道信号进行卷积,以得到第二目标渲染信号。

作为示例,结合图13,确定单元172可以用于执行S206。

可选的,获取单元171具体用于:接收经音频解码器解码得到的待渲染音频信号;或者,接收音频采集器采集到的待渲染音频信号;或者,获取多个音频信号经合成处理后所得到的待渲染音频信号。

作为示例,结合图13,获取单元171可以用于执行S201。

关于上述可选方式的具体描述可以参见前述的方法实施例,此处不再赘述。此外,上述提供的任一种音频渲染装置170的解释以及有益效果的描述均可参考上述对应的方法实施例,不再赘述。

作为示例,结合图2,音频渲染装置170中的获取单元171、确定单元172和变换单元173可以通过图2中的处理器21执行图2中的存储器22中的程序代码实现。

本申请实施例还提供一种芯片系统180,如图18所示,该芯片系统180包括至少一个处理器181和至少一个接口电路182。处理器181和接口电路182可通过线路互联。例如,接口电路182可用于接收信号(例如获取待渲染音频信号)。又例如,接口电路182可用于向其它装置(例如处理器181)发送信号。示例性的,接口电路182可读取存储器中存储的指令,并将该指令发送给处理器181。当该指令被处理器181执行时,可使得音频渲染装置执行上述实施例中的各个步骤。当然,该芯片系统180还可以包含其他分立器件,本申请实施例对此不作具体限定。

本申请另一实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当指令在音频渲染装置上运行时,该音频渲染装置执行上述方法实施例所示的方法流程中该音频渲染装置执行的各个步骤。

在一些实施例中,所公开的方法可以实施为以机器可读格式被编码在计算机可读存储介质上的或者被编码在其它非瞬时性介质或者制品上的计算机程序指令。

图19示意性地示出本申请实施例提供的计算机程序产品的概念性局部视图,该计算机程序产品包括用于在计算设备上执行计算机进程的计算机程序。

在一个实施例中,计算机程序产品是使用信号承载介质190来提供的。该信号承载介质190可以包括一个或多个程序指令,其当被一个或多个处理器运行时可以提供以上针对图3或图13描述的功能或者部分功能。因此,例如,参考图3中S101~S106,或者参考图13中S201~S206的一个或多个特征可以由与信号承载介质190相关联的一个或多个指令来承担。此外,图19中的程序指令也描述示例指令。

在一些示例中,信号承载介质190可以包含计算机可读介质191,诸如但不限于,硬盘驱动器、紧密盘(CD)、数字视频光盘(DVD)、数字磁带、存储器、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(random access memory,RAM)等等。

在一些实施方式中,信号承载介质190可以包含计算机可记录介质192,诸如但不限于,存储器、读/写(R/W)CD、R/W DVD、等等。

在一些实施方式中,信号承载介质190可以包含通信介质193,诸如但不限于,数字和/或模拟通信介质(例如,光纤电缆、波导、有线通信链路、无线通信链路、等等)。

信号承载介质190可以由无线形式的通信介质193(例如,遵守IEEE 1902.11标准或者其它传输协议的无线通信介质)来传达。一个或多个程序指令可以是,例如,计算机可执行指令或者逻辑实施指令。

在一些示例中,诸如针对图3或图13描述的音频渲染装置可以被配置为,响应于通过计算机可读介质191、计算机可记录介质192、和/或通信介质193中的一个或多个程序指令,提供各种操作、功能、或者动作。

应该理解,这里描述的布置仅仅是用于示例的目的。因而,本领域技术人员将理解,其它布置和其它元素(例如,机器、接口、功能、顺序、和功能组等等)能够被取而代之地使用,并且一些元素可以根据所期望的结果而一并省略。另外,所描述的元素中的许多是可以被实现为离散的或者分布式的组件的、或者以任何适当的组合和位置来结合其它组件实施的功能实体。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上和执行计算机执行指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

55页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于音频处理器在不同空间中调音适配声场的方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!