一种语音信号增强方法和装置以及设备

文档序号：1273726 发布日期：2020-08-25 浏览：16次 >En<

阅读说明：本技术 一种语音信号增强方法和装置以及设备 (Voice signal enhancement method, device and equipment ) 是由肖龙源李稀敏叶志坚刘晓葳于 2020-04-30 设计创作，主要内容包括：本发明公开了一种语音信号增强方法和装置以及设备。其中,所述方法包括：获取语音信号和对应该语音信号的地理位置信息,和根据该地理位置信息,对该语音信号对应的语音现场匹配环境场景类型,和根据该环境场景类型,消除该语音信号中的环境噪声,和从该消除环境噪声后的语音信号中识别出所需的语音数据,以及增强该识别出的语音数据。通过上述方式,能够实现降低语音信号中包含的环境噪声的干扰,提高从语音信号进行语音识别的准确率,进而能够提高对该识别出的语音进行语音增强的效果。(The invention discloses a voice signal enhancement method, a voice signal enhancement device and voice signal enhancement equipment. Wherein the method comprises the following steps: acquiring a voice signal and geographical position information corresponding to the voice signal, matching an environment scene type to a voice field corresponding to the voice signal according to the geographical position information, eliminating environmental noise in the voice signal according to the environment scene type, identifying required voice data from the voice signal without the environmental noise, and enhancing the identified voice data. By the above mode, the interference of the environmental noise contained in the voice signal can be reduced, the accuracy of voice recognition from the voice signal is improved, and the effect of voice enhancement on the recognized voice can be improved.)

一种语音信号增强方法和装置以及设备

技术领域

本发明涉及语音技术领域，尤其涉及一种语音信号增强方法和装置以及设备。

背景技术

语音增强是指当语音信号被各种各样的环境噪声干扰、甚至淹没后，从环境噪声背景中提取有用的语音信号，抑制、降低环境噪声干扰的技术。

然而，现有的语音信号增强方案，一般是对语音信号进行语音识别，并对该识别出的语音采用降噪方式进行语音增强，但是由于语音信号中包含环境噪声干扰，会造成语音识别不准确，导致语音增强效果不佳。

发明内容

有鉴于此，本发明的目的在于提出一种语音信号增强方法和装置以及设备，能够实现降低语音信号中包含的环境噪声的干扰，提高从语音信号进行语音识别的准确率，进而能够提高对该识别出的语音进行语音增强的效果。

根据本发明的一个方面，提供一种语音信号增强方法，包括：获取语音信号和对应所述语音信号的地理位置信息；根据所述地理位置信息，对所述语音信号对应的语音现场匹配环境场景类型；根据所述环境场景类型，消除所述语音信号中的环境噪声；从所述消除环境噪声后的语音信号中识别出所需的语音数据；增强所述识别出的语音数据。

其中，所述根据所述地理位置信息，对所述语音信号对应的语音现场匹配环境场景类型，包括：根据所述地理位置信息，获得对应所述地理位置信息的街景图像，根据所述街景图像，对所述语音信号对应的语音现场匹配环境场景类型。

其中，所述根据所述环境场景类型，消除所述语音信号中的环境噪声，包括：根据所述环境场景类型，从预设的环境噪声消声模型数据库中调取对应所述环境场景类型的环境噪声消声模型，根据所述调取的环境噪声消声模型，消除所述语音信号中的环境噪声。

其中，所述从所述消除环境噪声后的语音信号中识别出所需的语音数据，包括：采用基于所述语音信号的声纹特征和所需的语音数据的声纹特征，通过将所述语音信号中涵盖所述所需的语音数据的声纹特征最多且时间长度最短的语音数据作为目标语音数据的方式，从所述语音信号中识别出与所需的语音对应的语音数据。

其中，在所述增强所述识别出的语音数据之后，还包括：通过长短期记忆网络和交叉熵损失的损失函数采用预设次数的迭代方式，对所述增强后的语音数据进行优化。

根据本发明的另一个方面，提供一种语音信号增强装置，包括：获取模块、匹配模块、消除模块、识别模块和增强模块；所述获取模块，用于获取语音信号和对应所述语音信号的地理位置信息；所述匹配模块，用于根据所述地理位置信息，对所述语音信号对应的语音现场匹配环境场景类型；所述消除模块，用于根据所述环境场景类型，消除所述语音信号中的环境噪声；所述识别模块，用于从所述消除环境噪声后的语音信号中识别出所需的语音数据；所述增强模块，用于增强所述识别出的语音数据。

其中，所述匹配模块，具体用于：根据所述地理位置信息，获得对应所述地理位置信息的街景图像，根据所述街景图像，对所述语音信号对应的语音现场匹配环境场景类型。

其中，所述消除模块，具体用于：根据所述环境场景类型，从预设的环境噪声消声模型数据库中调取对应所述环境场景类型的环境噪声消声模型，根据所述调取的环境噪声消声模型，消除所述语音信号中的环境噪声。

其中，所述识别模块，具体用于：采用基于所述语音信号的声纹特征和所需的语音数据的声纹特征，通过将所述语音信号中涵盖所述所需的语音数据的声纹特征最多且时间长度最短的语音数据作为目标语音数据的方式，从所述语音信号中识别出与所需的语音对应的语音数据。

其中，所述语音信号增强装置，还包括：优化模块；所述优化模块，用于通过长短期记忆网络和交叉熵损失的损失函数采用预设次数的迭代方式，对所述增强后的语音数据进行优化。

根据本发明的又一个方面，提供一种语音信号增强设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一项所述的语音信号增强方法。

根据本发明的再一个方面，提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的语音信号增强方法。

可以发现，以上方案，可以获取语音信号和对应该语音信号的地理位置信息，和可以根据该地理位置信息，对该语音信号对应的语音现场匹配环境场景类型，和可以根据该环境场景类型，消除该语音信号中的环境噪声，和可以从该消除环境噪声后的语音信号中识别出所需的语音数据，以及可以增强该识别出的语音数据，能够实现降低语音信号中包含的环境噪声的干扰，提高从语音信号进行语音识别的准确率，进而能够提高对该识别出的语音进行语音增强的效果。

进一步的，以上方案，可以根据该地理位置信息，获得对应该地理位置信息的街景图像，根据该街景图像，对该语音信号对应的语音现场匹配环境场景类型，这样的好处是能够实现提高对该语音信号对应的语音现场匹配的环境场景类型的准确率。

进一步的，以上方案，可以根据该环境场景类型，从预设的环境噪声消声模型数据库中调取对应该环境场景类型的环境噪声消声模型，根据该调取的环境噪声消声模型，消除该语音信号中的环境噪声，这样的好处是能够实现降低该语音信号中包含的环境噪声的干扰。

进一步的，以上方案，可以采用基于该语音信号的声纹特征和所需的语音数据的声纹特征，通过将该语音信号中涵盖该所需的语音数据的声纹特征最多且时间长度最短的语音数据作为目标语音数据的方式，从该语音信号中识别出与所需的语音对应的语音数据，这样的好处是能够提高从该语音信号中识别出与所需的语音对应的语音数据的准确率，提高从语音信号进行语音识别的准确率。

进一步的，以上方案，可以通过长短期记忆网络和交叉熵损失的损失函数采用预设次数的迭代方式，对该增强后的语音数据进行优化，这样的好处是由于长短期记忆网络能够保留语音数据上下文的信息，该交叉熵损失的损失函数能够使语音数据的特征更加突出，该预设次数的迭代能够使提高对该增强后的语音数据进行优化的优化精度，能够实现提高对该增强后的语音数据进行优化的优化精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明语音信号增强方法一实施例的流程示意图；

图2是本发明语音信号增强方法另一实施例的流程示意图；

图3是本发明语音信号增强装置一实施例的结构示意图；

图4是本发明语音信号增强装置另一实施例的结构示意图；

图5是本发明语音信号增强设备一实施例的结构示意图。

具体实施方式

下面结合附图和实施例，对本发明作进一步的详细描述。特别指出的是，以下实施例仅用于说明本发明，但不对本发明的范围进行限定。同样的，以下实施例仅为本发明的部分实施例而非全部实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明提供一种语音信号增强方法，能够实现降低语音信号中包含的环境噪声的干扰，提高从语音信号进行语音识别的准确率，进而能够提高对该识别出的语音进行语音增强的效果。

请参见图1，图1是本发明语音信号增强方法一实施例的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括如下步骤：

S101：获取语音信号和对应该语音信号的地理位置信息。

在本实施例中，可以通过对该语音信号对应的语音的语音现场进行位置定位的方式，获取对应该语音信号的地理位置信息，也可以通过在获取该语音信号时在该语音信号内容中标注对应的语音的语音现场的地理位置信息，通过获取该标注的地理位置信息的方式，获取对应该语音信号的地理位置信息等，本发明不加以限定。

S102：根据该地理位置信息，对该语音信号对应的语音现场匹配环境场景类型。

其中，该根据该地理位置信息，对该语音信号对应的语音现场匹配环境场景类型，可以包括：

根据该地理位置信息，获得对应该地理位置信息的街景图像，根据该街景图像，对该语音信号对应的语音现场匹配环境场景类型，这样的好处是能够实现提高对该语音信号对应的语音现场匹配的环境场景类型的准确率。

在本实施例中，该环境场景类型可以包括景区、体育中心、展览场馆、健身房、运动场地、火车站、机场、工厂车间、中小学学校、高校寝室楼、图书馆、高档写字楼、公寓、小区住房、员工宿舍、物流园区、工业园区、高校操场、高校教学楼、办公室、医院住院楼、无人便利店、公园、公交站、地铁、生活小区、商场、药店、加油站、菜市场等，本发明不加以限定。

S103：根据该环境场景类型，消除该语音信号中的环境噪声。

其中，该根据该环境场景类型，消除该语音信号中的环境噪声，可以包括：

根据该环境场景类型，从预设的环境噪声消声模型数据库中调取对应该环境场景类型的环境噪声消声模型，根据该调取的环境噪声消声模型，消除该语音信号中的环境噪声，这样的好处是能够实现降低该语音信号中包含的环境噪声的干扰。

在本实施例中，该环境噪声可以包括下述类别：

一、周期性噪声，例如电气干扰噪声，发动机旋转部分引起的干扰噪声等，这类干扰噪声表现为一些离散的窄频峰；

二、冲激噪声，例如一些电火花、放电产生的干扰噪声；

三、宽带噪声，这是指高斯噪声或白噪声一类的噪声，它们的特点是频带宽，几乎覆盖整个语音频带；

四、语音干扰噪声，例如话筒中拾入其它人的说话，或者传输时遇到串音引起的语音噪声。

S104：从该消除环境噪声后的语音信号中识别出所需的语音数据。

其中，该从该消除环境噪声后的语音信号中识别出所需的语音数据，可以包括：

采用基于该语音信号的声纹特征和所需的语音数据的声纹特征，通过将该语音信号中涵盖该所需的语音数据的声纹特征最多且时间长度最短的语音数据作为目标语音数据的方式，从该语音信号中识别出与所需的语音对应的语音数据，这样的好处是能够提高从该语音信号中识别出与所需的语音对应的语音数据的准确率，提高从语音信号进行语音识别的准确率。

S105：增强该识别出的语音数据。

在本实施例中，可以将该识别出的语音数据增强至预设的增强值等，本发明不加以限定。

其中，在该增强该识别出的语音数据之后，还可以包括：

通过长短期记忆网络和交叉熵损失的损失函数采用预设次数的迭代方式，对该增强后的语音数据进行优化，这样的好处是由于长短期记忆网络能够保留语音数据上下文的信息，该交叉熵损失的损失函数能够使语音数据的特征更加突出，该预设次数的迭代能够使提高对该增强后的语音数据进行优化的优化精度，能够实现提高对该增强后的语音数据进行优化的优化精度。

可以发现，在本实施例中，可以获取语音信号和对应该语音信号的地理位置信息，和可以根据该地理位置信息，对该语音信号对应的语音现场匹配环境场景类型，和可以根据该环境场景类型，消除该语音信号中的环境噪声，和可以从该消除环境噪声后的语音信号中识别出所需的语音数据，以及可以增强该识别出的语音数据，能够实现降低语音信号中包含的环境噪声的干扰，提高从语音信号进行语音识别的准确率，进而能够提高对该识别出的语音进行语音增强的效果。

进一步的，在本实施例中，可以根据该地理位置信息，获得对应该地理位置信息的街景图像，根据该街景图像，对该语音信号对应的语音现场匹配环境场景类型，这样的好处是能够实现提高对该语音信号对应的语音现场匹配的环境场景类型的准确率。

进一步的，在本实施例中，可以根据该环境场景类型，从预设的环境噪声消声模型数据库中调取对应该环境场景类型的环境噪声消声模型，根据该调取的环境噪声消声模型，消除该语音信号中的环境噪声，这样的好处是能够实现降低该语音信号中包含的环境噪声的干扰。

进一步的，在本实施例中，可以采用基于该语音信号的声纹特征和所需的语音数据的声纹特征，通过将该语音信号中涵盖该所需的语音数据的声纹特征最多且时间长度最短的语音数据作为目标语音数据的方式，从该语音信号中识别出与所需的语音对应的语音数据，这样的好处是能够提高从该语音信号中识别出与所需的语音对应的语音数据的准确率，提高从语音信号进行语音识别的准确率。

请参见图2，图2是本发明语音信号增强方法另一实施例的流程示意图。本实施例中，该方法包括以下步骤：

S201：获取语音信号和对应该语音信号的地理位置信息。

可如上S101所述，在此不作赘述。

S202：根据该地理位置信息，对该语音信号对应的语音现场匹配环境场景类型。

可如上S102所述，在此不作赘述。

S203：根据该环境场景类型，消除该语音信号中的环境噪声。

可如上S103所述，在此不作赘述。

S204：从该消除环境噪声后的语音信号中识别出所需的语音数据。

可如上S104所述，在此不作赘述。

S205：增强该识别出的语音数据。

可如上S105所述，在此不作赘述。

S206：通过长短期记忆网络和交叉熵损失的损失函数采用预设次数的迭代方式，对该增强后的语音数据进行优化。

可以发现，在本实施例中，可以通过长短期记忆网络和交叉熵损失的损失函数采用预设次数的迭代方式，对该增强后的语音数据进行优化，这样的好处是由于长短期记忆网络能够保留语音数据上下文的信息，该交叉熵损失的损失函数能够使语音数据的特征更加突出，该预设次数的迭代能够使提高对该增强后的语音数据进行优化的优化精度，能够实现提高对该增强后的语音数据进行优化的优化精度。

本发明还提供一种语音信号增强装置，能够实现降低语音信号中包含的环境噪声的干扰，提高从语音信号进行语音识别的准确率，进而能够提高对该识别出的语音进行语音增强的效果。

请参见图3，图3是本发明语音信号增强装置一实施例的结构示意图。本实施例中，该语音信号增强装置30包括获取模块31、匹配模块32、消除模块33、识别模块34和增强模块35。

该获取模块31，用于获取语音信号和对应该语音信号的地理位置信息。

该匹配模块32，用于根据该地理位置信息，对该语音信号对应的语音现场匹配环境场景类型。

该消除模块33，用于根据该环境场景类型，消除该语音信号中的环境噪声。

该识别模块34，用于从该消除环境噪声后的语音信号中识别出所需的语音数据。

该增强模块35，用于增强该识别出的语音数据。

可选地，该匹配模块32，可以具体用于：

根据该地理位置信息，获得对应该地理位置信息的街景图像，根据该街景图像，对该语音信号对应的语音现场匹配环境场景类型。

可选地，该消除模块33，可以具体用于：

根据该环境场景类型，从预设的环境噪声消声模型数据库中调取对应该环境场景类型的环境噪声消声模型，根据该调取的环境噪声消声模型，消除该语音信号中的环境噪声。

可选地，该识别模块34，可以具体用于：

采用基于该语音信号的声纹特征和所需的语音数据的声纹特征，通过将该语音信号中涵盖该所需的语音数据的声纹特征最多且时间长度最短的语音数据作为目标语音数据的方式，从该语音信号中识别出与所需的语音对应的语音数据。

请参见图4，图4是本发明语音信号增强装置另一实施例的结构示意图。区别于上一实施例，本实施例所述语音信号增强装置40还包括优化模块41。

该优化模块41，用于通过长短期记忆网络和交叉熵损失的损失函数采用预设次数的迭代方式，对该增强后的语音数据进行优化。

该语音信号增强装置30/40的各个单元模块可分别执行上述方法实施例中对应步骤，故在此不对各单元模块进行赘述，详细请参见以上对应步骤的说明。

本发明又提供一种语音信号增强设备，如图5所示，包括：至少一个处理器51；以及，与至少一个处理器51通信连接的存储器52；其中，存储器52存储有可被至少一个处理器51执行的指令，指令被至少一个处理器51执行，以使至少一个处理器51能够执行上述的语音信号增强方法。

其中，存储器52和处理器51采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器51和存储器52的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器51处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器51。

处理器51负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器52可以被用于存储处理器51在执行操作时所使用的数据。

本发明再提供一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

在本发明所提供的几个实施方式中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本发明各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的部分实施例，并非因此限制本发明的保护范围，凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

14页详细技术资料下载

一种语音信号增强方法和装置以及设备

相关技术

网友询问留言