用于语音识别的音频数据处理方法及装置

文档序号：784686 发布日期：2021-04-09 浏览：34次 >En<

阅读说明：本技术 用于语音识别的音频数据处理方法及装置 (Audio data processing method and device for voice recognition ) 是由罗海斯·马尔斯胡正倫于 2020-12-24 设计创作，主要内容包括：本发明实施例公开了一种用于语音识别的音频数据处理方法、装置、设备和存储介质,该方法包括：当缓冲区中存储的音频比特流大于目标检测长度时,确定所述音频比特流是否大于最大检测长度；根据确定出的所述音频比特流是否大于最大检测长度的结果,确定对应的端点检测器对所述音频比特流进行端点检测,所述端点检测器包括静默描述符检测器、基于长期网络模型的第一端点检测器以及基于短期网络模型的第二端点检测器；根据所述端点检测的结果,对所述音频比特流进行处理得到用于语音识别的音频样本。本方案避免了连续语音片段被分割为不同部分进行语音识别导致识别性能下降的问题,使得语音区域不会被破坏,显著提高了语音识别的效率和准确率。(The embodiment of the invention discloses an audio data processing method, an audio data processing device, audio data processing equipment and a storage medium for voice recognition, wherein the method comprises the following steps: when the audio bit stream stored in the buffer is larger than the target detection length, determining whether the audio bit stream is larger than the maximum detection length; determining a corresponding endpoint detector to perform endpoint detection on the audio bit stream according to a result of determining whether the audio bit stream is greater than a maximum detection length, wherein the endpoint detector comprises a silence descriptor detector, a first endpoint detector based on a long-term network model and a second endpoint detector based on a short-term network model; and processing the audio bit stream according to the result of the endpoint detection to obtain an audio sample for voice recognition. The scheme avoids the problem that the recognition performance is reduced because the continuous voice segment is divided into different parts for voice recognition, so that the voice area can not be damaged, and the efficiency and the accuracy of the voice recognition are obviously improved.)

用于语音识别的音频数据处理方法及装置

技术领域

本申请实施例涉及计算机领域，尤其涉及一种用于语音识别的音频数据处理方法及装置。

背景技术

在使用音频流进行音频传输的时，需要对音频流进行分割以进行语音识别。在客户端和服务器之间，音频流传输的方式主要包括采用音频帧的方式传输以及采用音频数据块的方式进行传输。

在采用音频帧的传输方式中，音频帧序列从音频发送端发送至音频接收端，接收端对音频帧序列进行解码，逐一输入至语音识别器进行语音识别，该种方式无法实现批处理，造成语音识别效率较低。

在采用音频数据块的传输方式中，每个音频数据块作为一个音频段在客户端和服务器之间进行传输。现有技术中，将音频流划分为固定长度的音频段，如图1所示，图1a为现有技术中一种音频数据分段示意图，其以每个20s的时间间隔对音频流进行划分，该种划分方式灵活性较差，可能导致语音识别时，连续的语音片段被进行了切分，由此降低了语音识别效率。

发明内容

本发明实施例提供了一种用于语音识别的音频数据处理方法、装置、设备和存储介质，避免了连续语音片段被分割为不同部分进行语音识别导致识别性能下降的问题，使得语音区域不会被破坏，显著提高了语音识别的效率和准确率。

第一方面，本发明实施例提供了一种用于语音识别的音频数据处理方法，该方法包括：

当缓冲区中存储的音频比特流大于目标检测长度时，确定所述音频比特流是否大于最大检测长度；

根据确定出的所述音频比特流是否大于最大检测长度的结果，确定对应的端点检测器对所述音频比特流进行端点检测，所述端点检测器包括静默描述符检测器、基于长期网络模型的第一端点检测器以及基于短期网络模型的第二端点检测器；

根据所述端点检测的结果，对所述音频比特流进行处理得到用于语音识别的音频样本。

第二方面，本发明实施例还提供了一种用于语音识别的音频数据处理装置，该装置包括：

音频长度检测模块，用于当缓冲区中存储的音频比特流大于目标检测长度时，确定所述音频比特流是否大于最大检测长度；

音频端点检测模块，用于根据确定出的所述音频比特流是否大于最大检测长度的结果，确定对应的端点检测器对所述音频比特流进行端点检测，所述端点检测器包括静默描述符检测器、基于长期网络模型的第一端点检测器以及基于短期网络模型的第二端点检测器；

音频处理模块，用于根据所述端点检测的结果，对所述音频比特流进行处理得到用于语音识别的音频样本。

第三方面，本发明实施例还提供了一种用于语音识别的音频数据处理设备，该设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例所述的用于语音识别的音频数据处理方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行本发明实施例所述的用于语音识别的音频数据处理方法。

本发明实施例中，当缓冲区中存储的音频比特流大于目标检测长度时，确定所述音频比特流是否大于最大检测长度，根据确定出的所述音频比特流是否大于最大检测长度的结果，确定对应的端点检测器对所述音频比特流进行端点检测，所述端点检测器包括静默描述符检测器、基于长期网络模型的第一端点检测器以及基于短期网络模型的第二端点检测器，根据所述端点检测的结果，对所述音频比特流进行处理得到用于语音识别的音频样本。本方案避免了连续语音片段被分割为不同部分进行语音识别导致识别性能下降的问题，使得语音区域不会被破坏，显著提高了语音识别的效率和准确率。

附图说明

图1a为现有技术中一种音频数据分段示意图；

图1为本发明实施例提供的一种音频数据处理方法的流程图；

图1b为本发明提供的语音信息和固定噪声信息的混合的示意图；

图1c为本发明提供的语音信息和非平稳噪声混合的示意图；

图1d为本发明实施例提供的一种对音频比特流进行端点检测的示意图；

图2为本发明实施例提供的另一种音频数据处理方法的流程图；

图3为本发明实施例提供的另一种音频数据处理方法的流程图；

图3a为本发明实施例提供的一种基于长期网络模型的第一端点检测器对音频数据进行端点检测的标记示意图；

图4为本发明实施例提供的另一种音频数据处理方法的流程图；

图4a为发明实施例提供的一种音频信息缓存示意图；

图5为本发明实施例提供的一种音频数据处理装置的结构框图；

图6为本发明实施例提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明实施例，而非对本发明实施例的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部结构。

图1为本发明实施例提供的一种音频数据处理方法的流程图，本实施例可适用于语音识别过程，该方法可以由计算设备如手机、笔记本、iPad、服务器、台式机等设备来执行，具体包括如下步骤：

步骤S101、当缓冲区中存储的音频比特流大于目标检测长度时，确定所述音频比特流是否大于最大检测长度。

在一个实施例中，音频数据以音频比特流方式由发送端编码后传输至接收端，接收端将接收到的音频比特流存储至缓冲区，以进行批处理操作进行语音识别，得到对应的语音内容。在语音识别过程中，为了提高语音识别的实时性以及避免识别的音频比特流过短导致的识别准确率低的问题，设置有目标检测长度以及最大检测长度。示例性的，该目标检测长度可以是20秒的音频比特流，最大检测长度可以是30秒的音频比特流。

对于接收到的一段音频比特流，将其存储至缓冲区后，对该音频比特流的长度进行检测，当其大于目标检测长度时，判断其是否大于最大检测长度，以分情况对其进行分段处理。

步骤S102、根据确定出的所述音频比特流是否大于最大检测长度的结果，确定对应的端点检测器对所述音频比特流进行端点检测。

在一个实施例中，设置有三种端点检测器以对音频比特流的端点进行检测，以用于对其进行分段后进行语音识别。其中，本方案的端点指在一段音频信息中的非语音帧的起点和/或终点，端点之间为连续的非语音帧片段，在语音识别过程中，为了提高识别效率需要对音频信息进行合理的分段，现有一种常规分段方式为采用固定时间间隔如20s对音频比特流进行分段，如前述的图1a所示的分段方式，其会将连续的语音帧信息划分为不同的分段，由此带来语音识别精准度差、性能低的问题。

本方案不采取固定时长间隔的方式进行分段，而是使用三个端点检测器级联的方式，分别为静默描述符检测器、基于长期网络模型的第一端点检测器以及基于短期网络模型的第二端点检测器。其中，该静默描述符检测器对音频比特流的静默描述符(SID值)进行检测，具体的，某些情况下，音频比特流发送端会对非语音信息即静音信息进行标记，如添加静默描述符以指示后续的音频帧为非语音帧，当SID＝0时，其用于指示后续的音频帧为非语音帧，也即当前语音帧的终点；当发送端开始发送语音帧信息时，添加静默描述符令SID＝1以指示后续音频帧为语音帧。但是在某些情况下，如非平稳噪声的场景，该种统计方式可行性将显著降低。如图1b所示，图1b为本发明提供的语音信息和固定噪声信息的混合的示意图，由图1b可知，可以很容易的进行语音帧和非语音帧的区分。图1c为本发明提供的语音信息和非平稳噪声混合的示意图，由图1c可知，很难通过传统的统计的方式进行语音帧和非语音帧的区分。

相应的，本方案中还设置有基于长期网络模型的第一端点检测器以及基于短期网络模型的第二端点检测器。其中，短期网络模型由卷积层和全连接层组成，长期网络模型由第二端点检测器的卷积层输出、递归层和全连接层组成。

其中，基于长期网络模型的第一端点检测器用于有效的区分语音和高能量的非语音，具备较强的关联、记忆特性，检测精度非常高。基于短期网络模型的第二端点检测器的关联、记忆特性强于第一端点检测器，检测精度适中，更适用于长度较长的音频信息的语音帧和非语音帧的区分。

在一个实施例中，根据确定出的音频比特流是否大于最大检测长度的结果，动态配置选择不同的端点检测器以确定音频比特流对应的端点。

步骤S103、根据所述端点检测的结果，对所述音频比特流进行处理得到用于语音识别的音频样本。

在一个实施例中，在针对不同的音频比特流长度选择对应的静默描述符检测器、基于长期网络模型的第一端点检测器以及基于短期网络模型的第二端点检测器进行端点检测，以区分音频比特流对应的语音信息和非语音信息。示例性的，如图1d所示，图1d为本发明实施例提供的一种对音频比特流进行端点检测的示意图，由图1d可知，检测到的端点为端点1和端点2，则将端点1和端点2之间的语音帧信息进行分割得到待语音识别的音频样本。

在另一个实施例中，如果在当前的音频比特流中未检测到端点，即当前音频比特流对应的信息全部为语音信息，则将其整体作为音频样本进行缓存以用于后续的语音识别。

由上述方案可知，根据确定出的音频比特流是否大于最大检测长度的结果，确定对应的端点检测器对所述音频比特流进行端点检测，端点检测器包括静默描述符检测器、基于长期网络模型的第一端点检测器以及基于短期网络模型的第二端点检测器，根据端点检测的结果，对音频比特流进行处理得到用于语音识别的音频样本，提高了音频信息分段的灵活性，显著提高了语音识别的效率和准确率。

图2为本发明实施例提供的另一种音频数据处理方法的流程图，给出了一种具体的根据确定出的是否大于最大检测长度的结果，确定对应的端点检测器对音频比特流进行端点检测的方法。如图2所示，技术方案具体如下：

步骤S201、当缓冲区中存储的音频比特流大于目标检测长度时，确定所述音频比特流是否大于最大检测长度。

步骤S202、如果所述音频比特流不大于所述最大检测长度，则通过静默描述符检测器以及基于长期网络模型的第一端点检测器对所述音频比特流进行端点检测。

在一个实施例中，当确定出音频比特流不大于所述最大检测长度，则采用检测效果好的静默描述符检测器以及基于长期网络模型的第一端点检测器进行端点检测。

具体的，首先检测该音频比特流是否存在静默标识符，如果存在则根据静默标识符的指示确定端点，如果存在端点，即检测到SID＝0，则将该静默标识符后的音频比特流确定为非语音帧进行分割。

如果不存在静默标识符，或检测到SID值为1，则对该音频比特流进行解码，将解码后的音信数据输入至基于长期网络模型的第一端点检测器，通过该长期网络模型的第一端点检测器进行端点检测。如果检测到非语音信息端点，则进行相应的音频信息分割得到音频样本以用于语音识别；如果未检测到非语音信息端点，则将该音频信息整体作为音频样本进行缓存存储。

步骤S203、根据所述端点检测的结果，对所述音频比特流进行处理得到用于语音识别的音频样本。

由上述方案可知，如果音频比特流不大于最大检测长度，则通过静默描述符检测器以及基于长期网络模型的第一端点检测器对音频比特流进行端点检测，以合理识别出非语音帧，基于此进行音频信息的分割，避免了将连续的语音信息分割为不同部分进行语音识别带来的识别精度和效率底下的问题。

图3为本发明实施例提供的另一种音频数据处理方法的流程图，给出了一种具体的通过静默描述符检测器以及基于长期网络模型的第一端点检测器对所述音频比特流进行端点检测的方法。如图3所示，技术方案具体如下：

步骤S301、对缓冲区中存储的音频比特流的长度进行检测。

步骤S301、判断音频比特流的长度是否大于目标检测长度，如果是，则执行步骤S302，否则继续执行步骤S301。

步骤S303、判断音频比特流是否大于最大检测长度，如果否，则执行步骤S304。

步骤S304、对音频比特流中的静默描述符进行检测。

步骤S305、确定是否检测到静默描述符，如果是，则执行步骤S306，否则执行步骤S307。

步骤S306、根据静默描述符的位置确定音频比特流的端点。

步骤S307、基于长期网络模型的第一端点检测器对所述音频比特流进行端点检测，将检测到的端点确定为所述音频比特流的端点。

在一个实施例中，对音频比特流进行解码后输入至基于长期网络模型的第一端点检测器，示例性的，通过该基于长期网络模型的第一端点检测器对多个预设长度的音频帧进行标记，示例性的，对语音信息帧组标记为1，非语音信息帧组标记为0，根据帧组标记情况确定端点。如图3a所示，图3a为本发明实施例提供的一种基于长期网络模型的第一端点检测器对音频数据进行端点检测的标记示意图，由图可知，第一区域为非语音帧区域，第二区域为语音帧区域，因此基于该端点a对该音频信息进行分段，以得到音频样本(第二区域)用于后续进行语音识别。

步骤S308、根据所述端点检测的结果，对所述音频比特流进行处理得到用于语音识别的音频样本。

由上述方案可知，基于长期网络模型的第一端点检测器对所述音频比特流进行端点检测，有效的进行语音信息和非语音信息的区分，进而进行相应的分割处理，避免了将语音信息割裂导致的语音识别错误的问题，提高了语音还是别准确率。

图4为本发明实施例提供的另一种用于语音识别的音频数据处理方法的流程图，给出了一种具体的音频比特流大于最大检测长度的处理方法。如图4所示，技术方案具体如下：

步骤S401、对缓冲区中存储的音频比特流的长度进行检测。

步骤S401、判断音频比特流的长度是否大于目标检测长度，如果是，则执行步骤S402，否则继续执行步骤S401。

步骤S403、判断音频比特流是否大于最大检测长度，如果否，则执行步骤S404，如果是，则执行步骤S411。

步骤S404、对音频比特流中的静默描述符进行检测。

步骤S405、确定是否检测到静默描述符，如果是，则执行步骤S406，否则执行步骤S407。

步骤S406、根据静默描述符的位置确定音频比特流的端点，进行音频分割得到音频样本。

步骤S407、进行音频比特流的解码，基于长期网络模型的第一端点检测器对解码后的音频信息进行端点检测。

步骤S408、确定是否检测到端点，如果是，则执行步骤S409，否则执行步骤S410。

步骤S409、将检测到的端点确定为所述音频比特流的端点，进行音频分割得到音频样本。

步骤S410、将该音频信息进行缓存存储。

步骤S411、通过基于短期网络模型的第二端点检测器对所述音频比特流进行端点检测。

在一个实施例中，当确定出音频比特流大于最大检测长度时，利用该基于短期网络模型的第二端点检测器对所述音频比特流进行端点检测。利用其自身的网络模型特性提高端点检测的准确率和效率。

步骤S412、确定是否检测到端点，如果是，则执行步骤S409，否则执行步骤S410。

由上述方案可知，本方案采用多个端点检测器级联的方式对接收到的音频比特流进行分段，针对不同的输入音频比特流的长度选取合适的端点检测器进行端点检测，如果音频比特流不大于最大检测长度，则通过静默描述符检测器以及基于长期网络模型的第一端点检测器对音频比特流进行端点检测，如果音频比特流大于最大检测长度，则通过基于短期网络模型的第二端点检测器对音频比特流进行端点检测，将检测到的端点确定为音频比特流的端点，由此实现了合理的音频分割生成音频样本，提升了后续的语音识别的准确率。

在上述技术方案的基础上，如果在当前音频比特流解码后的音频信息中未检测到端点，则不对其进行分割，而是进行缓存存储。图4a为发明实施例提供的一种音频信息缓存示意图，由图4a所示，音频信息x为输入的一段音频比特流对应的解码信息，音频信息y为输入的另一段音频比特流对应的解码信息，在音频信息x和音频信息y中未检测到端点，则表征音频信息x和音频信息y均为语音信息，将其顺序缓存后，输入值语音识别器进行语音识别。该种音频处理方式保证了连续的语音信息不被分割，提升了语音识别性能。

图5为本发明实施例提供的一种音频数据处理装置的结构框图，该装置用于执行上述实施例提供的用于语音识别的音频数据处理方法，具备执行方法相应的功能模块和有益效果。如图5所示，该装置具体包括：音频长度检测模块101、音频端点检测模块102和音频处理模块103，其中，

音频长度检测模块101，用于当缓冲区中存储的音频比特流大于目标检测长度时，确定所述音频比特流是否大于最大检测长度；

音频端点检测模块102，用于根据确定出的所述音频比特流是否大于最大检测长度的结果，确定对应的端点检测器对所述音频比特流进行端点检测，所述端点检测器包括静默描述符检测器、基于长期网络模型的第一端点检测器以及基于短期网络模型的第二端点检测器；

音频处理模块103，用于根据所述端点检测的结果，对所述音频比特流进行处理得到用于语音识别的音频样本。

由上述方案可知，当缓冲区中存储的音频比特流大于目标检测长度时，确定所述音频比特流是否大于最大检测长度；根据确定出的所述音频比特流是否大于最大检测长度的结果，确定对应的端点检测器对所述音频比特流进行端点检测，所述端点检测器包括静默描述符检测器、基于长期网络模型的第一端点检测器以及基于短期网络模型的第二端点检测器；根据所述端点检测的结果，对所述音频比特流进行处理得到用于语音识别的音频样本。本方案避免了连续语音片段被分割为不同部分进行语音识别导致识别性能下降的问题，使得语音区域不会被破坏，显著提高了语音识别的效率和准确率。

在一个可能的实施例中，所述音频端点检测模块102具体用于：

如果所述音频比特流不大于所述最大检测长度，则通过静默描述符检测器以及基于长期网络模型的第一端点检测器对所述音频比特流进行端点检测。

在一个可能的实施例中，所述音频端点检测模块102具体用于：

对所述音频比特流中的静默描述符进行检测，如果检测到所述静默描述符，则根据所述静默描述符的位置确定所述音频比特流的端点。

在一个可能的实施例中，所述音频端点检测模块102具体用于：

如果未检测到所述静默描述符，则基于长期网络模型的第一端点检测器对所述音频比特流进行端点检测，将检测到的端点确定为所述音频比特流的端点。

在一个可能的实施例中，所述长期网络模型由所述第二端点检测器的卷积层输出、递归层和全连接层组成。

在一个可能的实施例中，所述音频端点检测模块102具体用于：

如果所述音频比特流大于所述最大检测长度，则通过基于短期网络模型的第二端点检测器对所述音频比特流进行端点检测，将检测到的端点确定为所述音频比特流的端点。

在一个可能的实施例中，所述短期网络模型由卷积层和全连接层组成。

在一个可能的实施例中，所述音频处理模块103具体用于：

如果在所述音频比特流中检测到端点，则根据所述端点所处的位置进行分段和解码处理，生成多个用于语音识别的音频样本。

在一个可能的实施例中，所述音频处理模块103具体用于：

如果在所述音频比特流中未检测到端点，则对所述音频比特流进行解码和缓存处理。

图6为本发明实施例提供的一种音频数据处理设备的结构示意图，如图6所示，该设备包括处理器201、存储器202、输入装置203和输出装置204；设备中处理器201的数量可以是一个或多个，图6中以一个处理器201为例；设备中的处理器201、存储器202、输入装置203和输出装置204可以通过总线或其他方式连接，图6中以通过总线连接为例。存储器202作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的用于语音识别的音频数据处理方法对应的程序指令/模块。处理器201通过运行存储在存储器202中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的用于语音识别的音频数据处理方法。输入装置203可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置204可包括显示屏等显示设备。

本发明实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种用于语音识别的音频数据处理方法，该方法包括：

当缓冲区中存储的音频比特流大于目标检测长度时，确定所述音频比特流是否大于最大检测长度；

根据所述端点检测的结果，对所述音频比特流进行处理得到用于语音识别的音频样本。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明实施例可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务，或者网络设备等)执行本发明实施例各个实施例所述的方法。

值得注意的是，上述用于语音识别的音频数据处理装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明实施例的保护范围。

注意，上述仅为本发明实施例的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明实施例不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明实施例的保护范围。因此，虽然通过以上实施例对本发明实施例进行了较为详细的说明，但是本发明实施例不仅仅限于以上实施例，在不脱离本发明实施例构思的情况下，还可以包括更多其他等效实施例，而本发明实施例的范围由所附的权利要求范围决定。

16页详细技术资料下载

用于语音识别的音频数据处理方法及装置

相关技术

网友询问留言