语音处理方法、装置、终端及介质

文档序号：1536659 发布日期：2020-02-14 浏览：11次 >En<

阅读说明：本技术 语音处理方法、装置、终端及介质 (Voice processing method, device, terminal and medium ) 是由鲍枫于 2019-08-15 设计创作，主要内容包括：本发明实施例提供了一种语音处理方法、装置、终端及介质,其中,所述方法包括：获取第一增强语音信号和第二增强语音信号,所述第一增强语音信号和所述第二增强语音信号分别为对含噪语音信号进行增强处理所得到；对所述第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号；对所述融合增强语音信号进行谐波恢复,得到谐波语音信号。可见,通过实施本申请,可以提高谐波恢复的精确性和合理性。(The embodiment of the invention provides a voice processing method, a voice processing device, a terminal and a medium, wherein the method comprises the following steps: acquiring a first enhanced voice signal and a second enhanced voice signal, wherein the first enhanced voice signal and the second enhanced voice signal are respectively obtained by enhancing a noisy voice signal; fusing the first enhanced voice signal and the second enhanced voice signal to obtain a fused enhanced voice signal; and carrying out harmonic recovery on the fusion enhanced voice signal to obtain a harmonic voice signal. Therefore, by implementing the method and the device, the accuracy and the reasonability of harmonic recovery can be improved.)

语音处理方法、装置、终端及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音处理方法、装置、终端及介质。

背景技术

在语音增强处理中，传统语音增强方法(如谱减法，统计模型法等)对平稳噪声具有较好的处理能力，而机器学***稳噪声具有较好的处理能力。同时，传统语音增强方法去噪量不足，而机器学习语音增强方法去噪量过多，会引起语音谐波信息的丢失。

目前，在谐波恢复部分仅采用一种增强语音方法处理得到的增强语音信号(或信息)进行谐波恢复，存在一定的局限性，会影响谐波恢复的精确性和合理性。

发明内容

本发明实施例提供了一种语音处理方法、装置、终端及计算机存储介质，可以有效的地对增强语音信号进行谐波恢复处理，得到更精确和合理的增强语音信号。

一方面，本发明实施例提供了一种语音处理方法，所述语音处理方法包括：

获取第一增强语音信号和第二增强语音信号，所述第一增强语音信号和所述第二增强语音信号分别为对含噪语音信号进行增强处理所得到；

对所述第一增强语音信号和第二增强语音信号进行融合，得到融合增强语音信号；

对所述融合增强语音信号进行谐波恢复，得到谐波语音信号。

另一方面，本发明实施例提供了一种语音处理装置，该语音处理装置包括：

处理单元，用于获取第一增强语音信号和第二增强语音信号，所述第一增强语音信号和所述第二增强语音信号分别为对含噪语音信号进行增强处理所得到；

融合单元，用于对所述第一增强语音信号和第二增强语音信号进行融合，得到融合增强语音信号；

恢复单元，用于对所述融合增强语音信号进行谐波恢复，得到谐波语音信号。

再一方面，本发明实施例提供了一种计算机设备，所述终端设备包括：处理器以及和处理器相连的存储器；其中，所述存储器包括计算机可读指令；所述处理器用于执行所述存储器中的计算机可读指令，从而使得所述终端设备执行如下步骤：

获取第一增强语音信号和第二增强语音信号，所述第一增强语音信号和所述第二增强语音信号分别为对含噪语音信号进行增强处理所得到；

对所述第一增强语音信号和第二增强语音信号进行融合，得到融合增强语音信号；

对所述融合增强语音信号进行谐波恢复，得到谐波语音信号。

再一方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如下步骤：

获取第一增强语音信号和第二增强语音信号，所述第一增强语音信号和所述第二增强语音信号分别为对含噪语音信号进行增强处理所得到；

对所述第一增强语音信号和第二增强语音信号进行融合，得到融合增强语音信号；

对所述融合增强语音信号进行谐波恢复，得到谐波语音信号。

本发明实施例在进行语音处理时，可对含噪语音信号进行增强处理，得到第一增强语音信号和第二增强语音信号，该增强处理方法可能使语音信号丢失语音谐波信息，但仅对一种信号进行谐波恢复具有一定得局限性，因此对第一增强语音信号和第二增强语音信号进行融合，得到融合增强语音信号，对融合增强语音信号进行谐波恢复，得到谐波语音信号。上述语音处理过程，根据融合后的增强语音信号进行谐波恢复处理，有效的恢复出语音谐波信息，能有效提高语音增强处理的精确性和合理性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1(a)是本发明实施例提供的一种含有0dB Babble噪声的语音信号；

图1(b)是本发明实施例提供的一种理想的纯净语音信号；

图1(c)是本发明实施例提供的一种长短期记忆网络进行语音增强得到的语音信号；

图2是本发明实施例公开的一种语音处理方法的流程示意图；

图3是本发明实施例公开的另一种语音处理方法的流程示意图；

图4是本发明实施例公开的另一种语音处理方法的流程示意图；

图5是本发明实施例提供的一种滤波器传递函数示意图；

图6是本发明实施例提供的一种对图1(a)所示的含噪语音信号进行语音处理的结果图；

图7是本发明实施例公开的另一种语音处理方法的流程示意图；

图8(a)是本发明实施例提供的一种时域纯净语音波形；

图8(b)是本发明实施例提供的一种纯净语音频谱；

图8(c)是本发明实施例提供的一种半波整流后时域纯净语音波形；

图8(d)是本发明实施例提供的一种半波整流后纯净语音频谱；

图9是本发明实施例公开的另一种语音处理方法的流程示意图；

图10是本发明实施例提供的一种可能的第二相关系数的示意图；

图11是本发明实施例提供的一种语音处理装置的结构示意图；

图12是本发明实施例提供的另一种语音处理装置的结构示意图；

图13是本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。另外，在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

本发明使用的术语仅仅是出于描述特定实施例的目的，而非限制本发明。本发明和权利要求书所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。应当理解的是，本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，此外，所使用的词语“如果”可以被解释成为“在……时”，或者，“当……时”，或者，“响应于确定”。

本申请中，语音增强的本质是语音降噪，如麦克风采集的语音通常是带有不同噪声的“污染”语音，语音增强的主要目的就是从被“污染”的含噪语音信号中恢复出“纯净”的语音信号。请参阅图1(a)-图1(c)，其中，图1(a)所示为含有0dBBabble噪声的语音信号，图1(b)所示为理想的纯净语音信号，对该含有0dBBabble噪声的语音信号进行语音增强处理，使其尽可能的接近理想的纯净语音信号。该语音增强处理可以按照其运用方法的不同，分成如下两大类：数字信号处理的传统语音增强方法和基于机器学***稳噪声具有较好的处理能力，但去噪量不足；而机器学***稳噪声具有较好的处理能力，但过多的去噪量则引起了语音谐波信息的丢失，如图1(c)所示，为采取机器学习方法中的长短期记忆网络(Long Short-Term Memory,LSTM)进行语音增强得到的语音信号，与图1(b)进行对比可以看出，其在高频处语音谐波部分丢失，且在中频和高频处还存在较多噪声。

基于上述的描述，本发明实施例提出一种语音处理方法。请参阅图2，图2为本发明实施例公开的一种语音处理方法的流程示意图，该语音处理方法可包括以下步骤S200-S204：

S200，终端获取第一增强语音信号和第二增强语音信号。

终端对含噪语音信号进行增强处理，得到包含第一增强语音信号和第二增强语音信号在内的至少两个增强语音信号。其中，该含噪语音信号可以是终端通过麦克风实时采集语音信息、也可以在语音数据库中获取、还可以是终端从互联网中下载的语音信号；其中，语音信号数据库可以包括：TED-LIUM、CHIME、VoxForge、LibriSpeech、2000HUB5English等；从互联网中下载的语音信号可以包括：从浏览器中下载的语音信号，和/或，从即时通讯应用中下载的语音信号；本发明实施例对此不作限定。

具体地，终端采用第一语音增强算法对含噪语音信号进行增强处理得到第一增强语音信号。由于在计算机处理中，语音信号通常由一些离散的采样点表示，在一些可能的实施例中，本申请涉及的第一增强语音信号也可理解为一些离散的采样点或采样点序列。因此，该第一增强语音信号可表示第一增益因子，该第一增益因子与含噪语音信号进行乘积运算可以得到去噪的语音信号。该第一语音增强算法为系统自定义设置的，用于语音增强处理，例如机器学习的语音增强方法，其可以包括但不限于：基于隐马尔科夫模型的语音增强、基于非负矩阵分解的语音增强、基于浅层神经网络的语音增强和基于深层神经网络的语音增强等。

终端采用第二语音增强算法对含噪语音信号进行增强处理得到第二增强语音信号。同理，在一些可能的实施例中，本申请涉及的第二增强语音信号也可理解为一些离散的采样点或采样点序列，因此，该第二增强语音信号可表示第二增益因子。该第二语音增强算法为系统自定义设置的，用于语音增强处理，例如传统的语音增强方法，其可以包括但不限于：谱减法、维纳滤波法、基于统计模型和自适应滤波的方法等。

同理，终端可采用不同的语音增强算法对含噪语音信号进行增强处理得到相应不同的增强语音信号，便于后续S202基于不同的增强语音信号进行融合得到融合增强语音信号。为方便描述，本申请仅以第一增强语音信号和第二增强语音信号为例进行相关内容的描述，但并不构成限定。

S202，终端对所述第一增强语音信号和第二增强语音信号进行融合，得到融合增强语音信号。

S204，终端对所述融合增强语音信号进行谐波恢复，得到谐波语音信号。

由前述可知，采用机器学习语音增强方法得到的第一增强语音信号去噪量不足，而采用传统语音增强方法去噪量过多而导致语音谐波信息丢失，使得到的第二增强语音信号失真。因此本申请考虑将该第一增强语音信号和第二增强语音信号进行融合，兼顾两种方法的优势，从而达到保证充足的去噪量并不引起过度失真的效果。可理解的，由于人在发浊音时，声带的震动产生带有周期性质的波形，即语音信号具有周期性和谐波性，而噪声信号不具有谐波性。因此，谐波恢复的实质是恢复出部分已丢失的语音谐波信息。

请参阅图3，图3为本发明实施例公开的另一种语音处理方法的流程示意图，该语音处理方法可包括以下步骤S300-S306：

S300，终端获取第一增强语音信号和第二增强语音信号。

终端对含噪语音信号进行增强处理，得到包含第一增强语音信号和第二增强语音信号在内的至少两个增强语音信号。其中，该含噪语音信号可以是终端通过麦克风实时采集语音信息、也可以在语音数据库中获取、还可以是终端从互联网中下载的语音信号；其中，语音信号数据库可以包括：TED-LIUM、CHIME、VoxForge、LibriSpeech、2000 HUB5English等；从互联网中下载的语音信号可以包括：从浏览器中下载的语音信号，和/或，从即时通讯应用中下载的语音信号；本发明实施例对此不作限定。

S302，终端对所述第一增强语音信号和第二增强语音信号进行融合，得到融合增强语音信号。

在一种实施方式中，终端可采用传统语音融合算法对第一增强语音信号和第二增强语音信号进行融合，得到融合增强语音信号。其中，传统语音融合算法可为系统自定义设置的，例如取平均值、取最大值、取最小值算法等等。

再一种实施方式中，终端基于相关系数对第一增强语音信号和第二增强语音信号进行融合，得到融合增强语音信号。其具体实现，在本申请下文进行阐述。

S304，终端对所述融合增强语音信号进行谐波恢复，得到谐波语音信号。

S306、对所述谐波语音信号进行谐波增强，得到目标增强语音信号。

若谐波语音信号为频域信号，则目标增强语音信号为频域信号。可选地，终端还可对该频域信号进行傅里叶反变换得到目标增强语音信号在时域上的表达式。

本发明实施例在进行语音处理时，可对含噪语音信号进行增强处理，得到第一增强语音信号和第二增强语音信号，该增强处理方法可能使语音信号丢失语音谐波信息，但仅对一种信号进行谐波恢复具有一定得局限性，因此对第一增强语音信号和第二增强语音信号进行融合，得到融合增强语音信号，对融合增强语音信号进行谐波恢复，得到谐波语音信号，对谐波语音信号进行谐波增强，得到目标增强语音信号。上述语音处理过程，根据融合后的增强语音信号进行谐波恢复处理，有效的恢复出语音谐波信息，提高增强语音信号的精确性和合理性。对恢复语音谐波信息的谐波语音信号进行谐波增强，达到增强谐波能量的作用，进一步提升了听觉感知质量和可懂度。

请参阅图4，图4为本发明实施例公开的另一种语音处理方法的流程示意图，图4所示方法详细说明了上述步骤S306中进行谐波增强的具体过程，可包括以下步骤S3060-S3064：

S3060：终端对含噪语音信号进行能量计算，得到所述含噪语音信号在基因周期内的语音能量E_p。

语音产生的主要激励源为声带，声带每次开启与闭合的时间是声带的震动周期，其倒数称为基音频率，对应的周期称为基音周期。采用基因估计算法对含噪语音信号进行分析可得到含噪语音信号的基音周期。该基因估计算法包括但不限于：时域估计法、变换法、混合法，其中时域估计法直接由含噪语音波形来估计基音周期，常见的有：自相关法、并行处理法、平均幅度差法、数据减少法等。

进一步的，得到含噪语音信号在基因周期内的语音能量E_p，如公式(3)所示：

其中，s(t)是含噪语音信号，具体采用时域表达方式表达。τ为时延，具体可为系统自定义的。

S3062：终端将预设的滤波器传递函数中包括的周期因子更新为所述E_p，得到新的滤波器传递函数。

滤波器传递函数为预先配置于终端中的，该预设的滤波器传递函数如公式(4)所示：

F(z)＝-aZ+1-aZ^-1 公式(4)

其中a为周期性因子。

终端将E_p直接赋值给公式(4)中的a，得到新的滤波器传递函数如公式(5)所示：

a＝E_p 公式(5)

举例说明，如图5示出一种该滤波器传递函数的示意图，其中图5中周期因子a/E_p为0.5。

S3064：终端采用所述新的滤波器传递函数对所述谐波语音信号进行谐波增强，得到目标增强语音信号。

谐波频点的位置与含噪语音信号的基频相对应，终端通过公式

得到基频f₀，从而确定谐波频点的位置，即该基频f₀对应在谐波语音信号处存在一个谐波频点。其中，f_s是含噪语音信号的采样率，P是含噪语音信号的基音周期。在该基因周期内的谐波频点数M，可通过

计算得到。进一步地，终端将新的滤波器传递函数作用在谐波语音信号中，(具体可作用在谐波语音信号中各个谐波频点上)，以进行谐波增强，达到提高谐波能量的作用，得到目标增强语音信号。如图6示例性给出一种采用本发明对图1(a)所示的含噪语音信号进行谐波增强后的结果示意图，与图1(c)对比，可以看出：本发明实施例得到的目标增强语音信号在中频和高频处去除了更多的背景噪声，同时还恢复出部分中高频语音谐波信息，增强了高频处谐波能量，提升了听觉感知质量和可懂度。

请参阅图7，图7为本发明实施例公开的另一种语音处理方法的流程示意图，图7所示方法详细说明了上述步骤204中进行谐波恢复的具体过程，可包括以下步骤S2040-S2044：

S2040：终端将所述融合增强语音信号和所述含噪语音信号进行再融合，得到第一融合增强信号。

终端将融合增强语音信号和含噪语音信号进行再融合，即将融合后的增益因子作用在含噪语音信号上，得到第一融合增强信号，该作用方法可以是进行乘积运算。

S2042：在时域上对所述第一融合增强信号进行谐波分析处理，得到第二融合增强信号。

若第一融合增强信号为频域信号，则终端需先采用傅里叶反变换将频域信号转换为时域信号，进而对该频域信号进行谐波分析处理。若第一融合增强信号为时域信号，则终端直接对该时域信号进行谐波分析处理。可选地，终端在进行谐波分析处理后，还需通过快速傅里叶变换处理得到第二融合增强信号，此时该第二融合增强信号为第一融合增强信号的谐波幅度谱。

其中，终端对第一融合增强信号进行谐波分析处理后的频谱会凸显其谐波性。该谐波分析处理的具体实施方式不做限定，其可包括但不限于正半波整流、负半波整理、绝对值处理等等。举例说明，请参见图8(a)-图8(d)分别示出两种谐波分析处理前后的波形对比示意图。如图8(a)为时域纯净语音波形，理想情况下的图8(a)纯净语音信号经过半波整流处理后得到图8(c)半波整流后时域纯净语音信号。图8(b)为纯净语音频谱，图8(d)为半波整流后纯净语音频谱。对比图8(b)和图8(d)，可以看出经过半波整流处理后的纯净语音信号频谱显出了谐波性，同理适用于绝对值处理。

S2044：对所述第一融合增强信号、所述第二融合增强信号及所述融合增强语音信号进行谐波恢复，得到谐波语音信号。

终端将第一融合增强信号的频谱和第二融合增强信号结合用于谐波恢复算法，并结合融合增强语音信号得到谐波语音信号，如公式(6)所示：

其中，

代表谐波语音信号的幅度谱，|X_enhanced|代表第一融合增强信号的幅度谱，X_half代表第二融合增强信号的幅度谱，代表融合增强语音信号。该谐波语音信号恢复出了部分丢失的语音谐波信息。

请参阅图9，图9为本发明实施例公开的另一种语音处理方法的流程示意图，图9所示方法详细说明了上述步骤202中对增强语音信号进行融合的具体过程，可包括以下步骤S2020-S2024：

S2020：对第一噪声信号和含噪语音信号进行相关性计算，得到第一相关系数。

终端通过机器学习语音增强方法可以得到第一噪声信号和第一增强语音信号。对第一噪声信号和含噪语音信号进行相关性计算，通过公式(7)可以计算得到第一相关性系数：

其中，矢量y₁代表含噪语音信号的幅度谱，d₁代表第一噪声信号的幅度谱，T代表矩阵转置运算。

S2022：对第二噪声信号和含噪语音信号进行相关性计算，得到第二相关系数。

终端通过传统语音增强方法可以得到第二噪声信号和第二增强语音信号。对第二噪声信号和含噪语音信号进行相关性计算，通过公式(8)可以计算得到第二相关性系数：

其中，矢量y₂代表含噪语音信号的幅度谱，d₂代表第二噪声信号的幅度谱，T代表矩阵转置运算。以第二相关性系数为例，如图10示出一种可能的第二相关系数的示意图。如图10所示，可以直观看出，该第二相关性系数可以有效地跟随输入含噪语音信号能量的变化而变化，是一种自适应参数，不受输入信号能量和类型的约束。

S2024：根据所述第一相关系数和所述第二相关系数，对所述第一增强语音信号和第二增强语音信号进行融合，得到融合增强语音信号。

终端利用相关性系数可以大致分辨出含噪语音信号的语音段或非语音段，从而自适应的调整第一增强语音信号和第二增强语音信号的融合比例。具体可采用如下公式(9)计算得到融合增强语音信号：

其中，

为融合增强语音信号，G₁为机器学习语音增强方法得到的第一增强语音信号，G₂为传统语音增强方法得到的第二增强语音信号。ρ₁为第一相关性系数，ρ₂为第二相关性系数。由根据公式(9)调整不同区域的两种增益比例，使得语音和非语音段能分别选择最佳增益信息。在非语音段时，ρ值较大，因此G₁所占比例大于G₂，在语音段时，ρ值较小，因此G₁所占比例小于G₂。达到自适应的选择最优增益的效果。

本发明实施例在进行语音处理时，可对含噪语音信号进行增强处理，得到第一增强语音信号和第二增强语音信号，该增强处理方法可能使语音信号丢失语音谐波信息，但仅对一种信号进行谐波恢复具有一定得局限性，因此对第一增强语音信号和第二增强语音信号进行融合，得到融合增强语音信号，对融合增强语音信号进行谐波恢复，得到谐波语音信号，对谐波语音信号进行谐波增强，得到目标增强语音信号。上述语音处理过程，根据融合后的增强语音信号进行谐波恢复处理，有效的恢复出语音谐波信息，提高增强语音信号的精确性和合理性。对恢复语音谐波信息的谐波语音信号进行谐波增强，达到增强谐波能量的作用，进一步提升了听觉感知质量和可懂度。

基于上述语音处理方法实施例的描述，本发明实施例还公开了一种语音处理装置10，该语音处理装置可以是运行于终端中的一个计算机程序(包括程序代码)。该语音处理装置可以执行上述语音处理的方法。请参见图11，该语音处理装置10可以运行如下单元：

处理单元100，用于获取第一增强语音信号和第二增强语音信号，所述第一增强语音信号和所述第二增强语音信号分别为对含噪语音信号进行增强处理所得到；

融合单元102，用于对所述第一增强语音信号和第二增强语音信号进行融合，得到融合增强语音信号；

恢复单元104，用于对所述融合增强语音信号进行谐波恢复，得到谐波语音信号。

在一种实施方式中，请参见图12，语音处理装置10包括处理单元100、融合单元102、恢复单元104，还可以包括增强单元106，具体用于：对所述谐波语音信号进行谐波增强，得到目标增强语音信号。

再一种实施方式中，增强单元106在用于对所述谐波语音信号进行谐波增强，得到目标增强语音信号时，具体用于：

对含噪语音信号进行能量计算，得到所述含噪语音信号在基因周期内的语音能量E_p；

将预设的滤波器传递函数中包括的周期因子更新为所述E_p，得到新的滤波器传递函数；

采用所述新的滤波器传递函数对所述谐波语音信号进行谐波增强，得到目标增强语音信号。

再一种实施方式中，恢复单元104在用于所述对所述融合增强语音信号进行谐波恢复，得到谐波语音信号时，具体用于：

将所述融合增强语音信号和所述含噪语音信号进行再融合，得到第一融合增强信号；

在时域上对所述第一融合增强信号进行谐波分析处理，得到第二融合增强信号；

对所述第一融合增强信号、所述第二融合增强信号及所述融合增强语音信号进行谐波恢复，得到谐波语音信号。

再一种实施方式中，恢复单元104在用于对所述第一融合增强信号、所述第二融合增强信号及所述融合增强语音信号进行谐波恢复，得到谐波语音信号时，具体用于：采用如下公式计算得到所述谐波语音信号：

其中，

谐波语音信号，|X_enhanced|为所述第一融合增强信号，|X_half|第二融合增强信号，

融合增强语音信号。

再一种实施方式中，融合单元102在用于对所述第一增强语音信号和第二增强语音信号进行融合，得到融合增强语音信号时，具体用于：

对第一噪声信号和含噪语音信号进行相关性计算，得到第一相关系数；

对第二噪声信号和含噪语音信号进行相关性计算，得到第二相关系数；

根据所述第一相关系数和所述第二相关系数，对所述第一增强语音信号和第二增强语音信号进行融合，得到融合增强语音信号；

其中，所述第一噪声信号和所述第二噪声信号分别为对所述含噪语音信号进行去噪处理得到的噪声信号。

再一种实施方式中，融合单元102在根据所述第一相关系数和所述第二相关系数，对所述第一增强语音信号和第二增强语音信号进行融合，得到融合增强语音信号时，具体用于：采用如下公式计算得到所述融合增强语音信号：

其中，ρ₁为所述第一相关系数，ρ₂为所述第二相关系数，G₁为所述第一增强语音信号，G₂为所述第二增强语音信号。

根据本发明的另一个实施例，图12所示的语音处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，基于语音处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本发明的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行上述的语音处理方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图13中所示的语音处理装置设备，以及来实现本发明实施例的语音处理方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

本发明实施例在进行语音处理时，终端可对含噪语音信号进行增强处理，得到第一增强语音信号和第二增强语音信号，该增强处理方法可能使语音信号丢失语音谐波信息，但仅对一种信号进行谐波恢复具有一定得局限性，因此对第一增强语音信号和第二增强语音信号进行融合，得到融合增强语音信号，对融合增强语音信号进行谐波恢复，得到谐波语音信号。上述语音处理过程，根据融合后的增强语音信号进行谐波恢复处理，有效的恢复出语音谐波信息，提高增强语音信号的精确性和合理性。

基于上述方法实施例以及装置实施例的描述，本发明实施例还提供一种终端20。请参见图12，该终端至少包括处理器201、输入设备202、输出设备203以及计算机存储介质204。所述输入设备202中还可包括麦克风，麦克风可用于采集语音信号，所述麦克风可以是终端出厂时配置在终端上的麦克风，也可以是与终端相连接的麦克风。其中，终端内的处理器201、输入设备202、输出设备203以及计算机存储介质204可通过总线或其他方式连接。

计算机存储介质204可以存储在终端的存储器中，所述计算机存储介质204用于存储计算机程序，所述计算机程序包括程序指令，所述处理器201用于执行所述计算机存储介质204存储的程序指令。处理器201(或称CPU(Central Processing Unit，中央处理器))是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；在一个实施例中，本发明实施例所述的处理器201可以用于对含噪语音信号进行一系列的语音处理，包括：对含噪语音信号进行增强处理，得到第一增强语音信号和第二增强语音信号；对所述第一增强语音信号和第二增强语音信号进行融合，得到融合增强语音信号；对所述融合增强语音信号进行谐波恢复，得到谐波语音信号，等等。

本发明实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是终端中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括终端中的内置存储介质，当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器201加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，可由处理器201加载并执行计算机存储介质中存放的一条或一条以上指令，以实现上述有关语音处理方法实施例中的方法的相应步骤；具体实现中，计算机存储介质中的一条或一条以上指令由处理器201加载并执行如下步骤：

获取第一增强语音信号和第二增强语音信号，所述第一增强语音信号和所述第二增强语音信号分别为对含噪语音信号进行增强处理所得到；

对所述第一增强语音信号和第二增强语音信号进行融合，得到融合增强语音信号；

对所述融合增强语音信号进行谐波恢复，得到谐波语音信号。

在一种实施方式中，在对所述融合增强语音信号进行谐波恢复，得到谐波语音信号之后，所述一条或一条以上指令由处理器201加载并具体执行：

对所述谐波语音信号进行谐波增强，得到目标增强语音信号。

再一种实施方式中，在用于对所述谐波语音信号进行谐波增强，得到目标增强语音信号时，所述一条或一条以上指令由处理器201加载并具体执行：

对含噪语音信号进行能量计算，得到所述含噪语音信号在基因周期内的语音能量E_p；

将预设的滤波器传递函数中包括的周期因子更新为所述E_p，得到新的滤波器传递函数；

采用所述新的滤波器传递函数对所述谐波语音信号进行谐波增强，得到目标增强语音信号。

再一种实施方式中，在用于所述对所述融合增强语音信号进行谐波恢复，得到谐波语音信号时，所述一条或一条以上指令由处理器201加载并具体执行：

将所述融合增强语音信号和所述含噪语音信号进行再融合，得到第一融合增强信号；

在时域上对所述第一融合增强信号进行谐波分析处理，得到第二融合增强信号；

对所述第一融合增强信号、所述第二融合增强信号及所述融合增强语音信号进行谐波恢复，得到谐波语音信号。

再一种实施方式中，在用于对所述第一融合增强信号、所述第二融合增强信号及所述融合增强语音信号进行谐波恢复，得到谐波语音信号时，所述一条或一条以上指令由处理器201加载并具体执行：

采用如下公式(1)计算得到所述谐波语音信号：

其中，

谐波语音信号，|X_enhanced|为所述第一融合增强信号，|X_half|第二融合增强信号，

融合增强语音信号。

再一种实施方式中，在用于对所述第一增强语音信号和第二增强语音信号进行融合，得到融合增强语音信号时，所述一条或一条以上指令由处理器201加载并具体执行：

对第一噪声信号和含噪语音信号进行相关性计算，得到第一相关系数；

对第二噪声信号和含噪语音信号进行相关性计算，得到第二相关系数；

根据所述第一相关系数和所述第二相关系数，对所述第一增强语音信号和第二增强语音信号进行融合，得到融合增强语音信号；

其中，所述第一噪声信号和所述第二噪声信号分别为对所述含噪语音信号进行去噪处理得到的噪声信号。

再一种实施方式中，在用于根据所述第一相关系数和所述第二相关系数，对所述第一增强语音信号和第二增强语音信号进行融合，得到融合增强语音信号时，所述一条或一条以上指令由处理器201加载并具体执行：

采用如下公式(2)计算得到所述融合增强语音信号：

其中，ρ₁为所述第一相关系数，ρ₂为所述第二相关系数，G₁为所述第一增强语音信号，G₂为所述第二增强语音信号。

本发明实施例在进行语音处理时，可对含噪语音信号进行增强处理，得到第一增强语音信号和第二增强语音信号，该增强处理方法可能使语音信号丢失语音谐波信息，但仅对一种信号进行谐波恢复具有一定得局限性，因此对第一增强语音信号和第二增强语音信号进行融合，得到融合增强语音信号，对融合增强语音信号进行谐波恢复，得到谐波语音信号，对谐波语音信号进行谐波增强，得到目标增强语音信号。上述语音处理过程，根据融合后的增强语音信号进行谐波恢复处理，有效的恢复出语音谐波信息，提高增强语音信号的精确性和合理性。对恢复语音谐波信息的谐波语音信号进行谐波增强，达到增强谐波能量的作用，进一步提升了听觉感知质量和可懂度。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

24页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种噪声消除方法、智能音箱及存储介质

语音处理方法、装置、终端及介质

相关技术

网友询问留言