一种语音去噪方法、语音识别方法及计算机可读存储介质

文档序号：1339709 发布日期：2020-07-17 浏览：9次 >En<

阅读说明：本技术 一种语音去噪方法、语音识别方法及计算机可读存储介质 (Voice denoising method, voice recognition method and computer readable storage medium ) 是由张广学肖龙源蔡振华李稀敏刘晓葳于 2020-03-03 设计创作，主要内容包括：本发明涉及人计算机技术领域,提供了一种语音去噪方法,所述方法包含步骤：获取待处理语音；确定所述待处理语音中所包含的各噪声的类型及对应的位置范围；分别基于所述噪声的类型,获取各所述噪声的特征信息；基于所述特征信息及所述位置范围明确所述噪声的起止位置；基于所述特征信息及所述起止位置,对所述噪声进行去噪处理。本实施例所提供的语音去噪方法,通过对待处理语音中的各种噪声进行识别,并进一步基于各噪声的位置信息及特征信息对其进行反向补偿,从而实现语音去噪的目的。(The invention relates to the technical field of computers, and provides a voice denoising method, which comprises the following steps: acquiring a voice to be processed; determining the type and the corresponding position range of each noise contained in the voice to be processed; respectively acquiring characteristic information of each noise based on the type of the noise; specifying a start-stop position of the noise based on the feature information and the position range; and denoising the noise based on the characteristic information and the start-stop position. The voice denoising method provided by this embodiment recognizes various noises in the voice to be processed, and further performs reverse compensation on the noises based on the position information and the feature information of the noises, thereby achieving the purpose of voice denoising.)

技术领域

本发明涉及计算机信息技术领域，尤其涉及一种语音去噪方法、语音识别方法及计算机可读存储介质。

背景技术

语音识别技术，也被称为自动语音识别Automatic Speech Recognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

随着数据处理技术的进步以及移动互联网的快速普及，计算机技术被广泛地运用到了社会的各个领域，随之而来的则是海量数据的产生。其中，语音数据受到了人们越来越多的重视。语音识别是一门交叉学科。近二十年来。语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

应用需求的不断增加，对语音识别的准确性也提出了更高的要求，其中如何实现语音去噪，以对待识别数据进行净化，从而提升识别准确率，已成为行业重要研究课题。

发明内容

针对上述问题，本发明的实施例提供了一种语音去噪方法，所述方法包含步骤：获取待处理语音；确定所述待处理语音中所包含的各噪声的类型及对应的位置范围；分别基于所述噪声的类型，获取各所述噪声的特征信息；基于所述特征信息及所述位置范围明确所述噪声的起止位置；基于所述特征信息及所述起止位置，对所述噪声进行去噪处理。本实施例所提供的语音去噪方法，通过对待处理语音中的各种噪声进行识别，并进一步基于各噪声的位置信息及特征信息对其进行反向补偿，从而实现语音去噪的目的。

基于同样的发明构思，本发明实施例还提供了一种语音识别方法，所述方法具体包含步骤：基于上述的语音去噪方法对待识别语音进行去噪处理；基于语音识别模型对去噪后的所述待识别语音进行识别。

以及，一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的语音去噪方法和/或上述语音识别方法。

在一实施中，所述确定所述待处理语音中所包含的各噪声的类型及对应的位置范围具体包含：

基于噪声识别模型对所述待处理语音进行识别，以获得所述待处理语音中所包含的各噪声类型及对应的位置范围。

在一实施中，所述噪声识别模型的获取方法包含：收集噪声语料，并标记所述噪声语料所属类型；基于时延神经网络构建噪声识别算法；基于标记后的所述噪声语料对所述噪声识别算法进行训练，以得到所述噪声识别模型。

在一实施中，所述特征信息包含固定频率、周期性变化和变化趋势中的一种或多种。

在一实施中，所述基于所述特征信息及所述位置范围明确所述噪声的起止位置具体包含：基于所述位置范围确定所述噪声对应的所述待处理语音片段；基于所述特征信息对所述片段包含的特征信息进行匹配，以明确所述噪声在所述待处理语音中的起止位置。

在一实施中，所述基于所述特征信息及所述起止位置，对所述噪声进行去噪处理具体包含：基于所述起止位置，确定所述噪声对应的所述待处理语音数据；基于所述特征信息对所述待处理语音数据进行反向补偿。

附图说明

一个或多个实施方式通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施方式的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1绘示本发明第一实施例所提供的语音去噪方法流程图；

图2绘示第一实施例中噪声识别模型的获取方法流程图；

图3绘示第一实施例中明确所述噪声的起止位置方法流程图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

在本发明的第一实施例中，提出了一种语音去噪方法，先对待识别语音中包含的噪声进行初步确认，再对各噪声的特征信息进行确认和获取，并基于特征信息进行去噪处理，从而提高噪声识别的准确率，本实施例所提供的方法可通过在服务设备上执行相应的代码程序来实现，服务设备可包含业务服务器、机器人、手机、平板电脑等智能终端设备。

具体请参照图1，图1绘示本发明第一实施例所提供的语音去噪方法流程图。如图1所示，所述方法具体包含步骤：

步骤101，获取待处理语音。

在本实施中，待处理语音可以是单纯需要进行去噪处理的语音数据，也可以是待识别的语音数据，本发明不作限制。其中，待处理语音可以是一个语音数据片段，也可以是一组完整的语音数据。服务终端可通过采集设备直接从声源获取待处理语音，也可以是从其他设备或应用获取。

步骤102，确定所述待处理语音中所包含的各噪声的类型及对应的位置范围。

本实施中，可基于噪声识别模型对待处理语音进行识别，以获得待处理语音中所包含的各噪声类型及对应的位置范围。其中，噪声识别模型可以是预先构建并训练完成的。

具体而言，请参考图2，图2为绘示噪声识别模型的获取方法流程图，所述方法包含如下步骤：

步骤201，收集噪声语料，并标记所述噪声语料所属类型。

具体而言，噪声语料可包含生活中各个场景的非话语音，例如：车鸣声、关门声、敲桌子声、咳嗽声、打雷声等，收集噪声的方式可包含直接从声源获取，或者网络资源库获取，在收集噪声语料的过程中，还可以收集到的噪声语料进行筛选，例如，可以基于语音识别模型对收集到的噪声语料进行测试，若语音识别模型在某种噪声环境下的识别率很低，则可将这种噪声语料加入训练集中，若对识别率没有影响或影响不到，则对这种噪声语料进行筛除。

噪声语料收集并筛选完之后，可对噪声语料进行分类，具体的分类维度可基于实际应用需求进行，例如：可按噪声源的物理特性分类，包含气体动力噪声、机械噪声和电磁性噪声等；可按噪声源的时间特性分类，包含稳态噪声、非稳态噪声和脉冲噪声等；可按照噪声频率成分分类，包含低频噪声、中频噪声和高频噪声等。较佳的，可对噪声语料进行多维度的分类。

确定了噪声语料的分类后，可对收集到的噪声语料进行标记，具体可先为各个分类设置不同的标识值，从而可基于各噪声语料所归属的分类对应的标识值对噪声语料进行标记。

步骤202，基于时延神经网络构建噪声识别算法。

在本实施中，可使用时延神经网络(Time-Delay Neural Network，TDNN)构建噪声识别算法。

步骤203，基于标记后的所述噪声语料对所述噪声识别算法进行训练，以得到所述噪声识别模型。

在本实施中，可先将噪声语料转换成频域特征，然后直接使用频域特征进行模型训练，以保证噪声特征的非损失。

通过训练得到的噪声识别模型，输入层可包含语音数据，输出层可包含语音数据中所包含的噪声的噪声类型，以及所在位置范围。

值得注意的是，待处理语音可包含多种噪声，通过噪声识别模型，可将待处理语音中所包含的各种噪声进行识别，并对应输出各噪声的噪声类型及在待处理语音中的位置范围。

步骤103，分别基于所述噪声的类型，获取各所述噪声的特征信息。

在本实施中，可基于各所述噪声的类型，查询预设噪声库，以获得各所述噪声的特征信息。其中，噪声库中的数据为预先收集的，可以是基于构建噪声识别模型中所收集的噪声语料获得的，包含有噪声类型、及特征信息字段，记录有各噪声类型所对应的特征信息，其中，所述特征信息可包含固定频率、周期性变化和变化趋势中的一种或多种。

步骤104，基于所述特征信息及所述位置范围明确所述噪声的起止位置。

通过上述步骤的执行，可确定出待识别语音中包含的各噪声的噪声类型、位置范围以及特征信息，在本步骤中，可通过图3所示的方法，以实现基于特征信息及位置范围明确噪声的起止位置。

如图3所示，所述方法包含步骤：

步骤301，基于所述位置范围确定所述噪声对应的所述待处理语音片段。

具体而言，可基于位置范围，从待处理语音中确定出包含该噪声的语音片段，可以理解的是，若待处理语音中包含有多个噪声，那么可分别基于各噪声对应的位置范围，获取包含其的语音片段。

步骤302，基于所述特征信息对所述片段包含的特征信息进行匹配，以明确所述噪声在所述待处理语音中的起止位置。

如文所述，特征信息可包含固定频率、周期性变化和变化趋势中的一种或多种，在本步骤中，可对应于噪声的特征信息所包含的内容，获取到语音片段的特征信息，从而通过匹配，可明确噪声在语音片段中的具体位置，进而准确的获取到噪声在待处理语音中的起止位置。

步骤105，基于所述特征信息及所述起止位置，对所述噪声进行去噪处理。

在本实施中，可基于各噪声对应的起止位置，分别确定各噪声对应的待处理语音数据，如此一来，可基于各噪声的特征信息对待处理语音数据进行语音反向补偿，从而实现去噪处理。

值得注意的是，待处理语音中可能包含有各种噪声，且各种噪声可能在不同的位置范围出现，如此一来，可能出现同一待处理语音数据包含有多种噪声需要进行去噪，在这种情况下，较佳的，可依次对各噪声进行反向补偿，且在每次反向补偿后，重新匹配特征信息，以确定其他待处理的噪声的特征信息依然存在于该待处理语音数据中，从而避免对同一待处理语音数据多次补偿后，破坏了本身的数据特性。

通过上述实施例所提供的语音去噪方法，可通过噪声识别模型对待处理语音中所包含的各噪声的类型及位置范围进行识别，然后从预设噪声库中，获取到各噪声的特征信息，并基于特征信息和位置范围进一步确定出各噪声的起止位置，从而可基于起止位置和特征信息对待处理语音进行反向补充，实现去噪的目的，通过结合借助噪声识别模型和具体的数据匹配的方法，可提高噪声识别的准确性，避免单独依赖识别模型或数据匹配的方式，而出现的效率低或准确度低的问题。

基于同样的发明构思，本发明的第二实施例提供了一种语音识别方法，所述方法可包含在通过上述方法实施例对待识别语音进行去噪处理，之后，基于语音识别模型对去噪后的待识别语音进行识别。

通过预先对待识别语音进行去噪处理，可将待识别语音中影响识别准确率的噪声进行去除，从而提高语音识别准确率。

基于同样的发明构思，本发明另一实施例涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时，实现第一实施例中的方法。

基于同样的发明构思，本发明另一实施例涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时，实现第二实施例中的方法。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

8页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种基于自适应采样率的降噪模型处理方法及系统

一种语音去噪方法、语音识别方法及计算机可读存储介质

相关技术

网友询问留言