流式语音端点检测方法、装置及设备

文档序号：702075 发布日期：2021-04-13 浏览：7次 >En<

阅读说明：本技术 流式语音端点检测方法、装置及设备 (Streaming voice endpoint detection method, device and equipment ) 是由李锴丛继晔沈来信于 2020-12-23 设计创作，主要内容包括：本申请公开了一种流式语音端点检测方法、装置及设备,所述方法包括：使用语音端点检测模型,判断流式语音的待检测点的语音状态是否满足预设条件；当流式语音的待检测点的语音状态满足预设条件时,确认所述待检测点为语音端点。(The application discloses a streaming voice endpoint detection method, a device and equipment, wherein the method comprises the following steps: judging whether the voice state of a point to be detected of the streaming voice meets a preset condition or not by using a voice endpoint detection model; and when the voice state of the point to be detected of the streaming voice meets the preset condition, confirming that the point to be detected is a voice endpoint.)

流式语音端点检测方法、装置及设备

技术领域

本申请涉及语音识别技术领域，尤其涉及一种流式语音端点检测方法、装置及设备。

背景技术

现有技术中语音端点的检测方法往往基于门限和统计概率模型，来判定给定音频数据中是否存在真正语音的技术。其常被应用于语音识别、语音编解码、降噪、增益等算法中，用于分离语音与非语音数据。近年来，深度学习技术也被应用在语音端点检测的算法中。

在实现现有技术的过程中，发明人发现：

以往的语音端点检测方法，不论是传统的概率模型，还是深度学习模型，在准确率上虽然已经处于成熟阶段，但是当所处环境处于短暂的人声噪音或是背景噪音时，仍会使现有技术语音端点检测方法错误判断产生跳变或者语音端点的起点与尾点由于吐字发音不清晰等问题造成模型错判丢字的情况。

因此，本发明提供一种可减少噪音导致跳变或者由于吐字发音不清晰导致丢字的流式语音端点检测方法、装置及设备。

发明内容

本申请实施例提供一种可减少噪音导致跳变或者由于吐字发音不清晰导致丢字的流式语音端点检测方法、装置及设备，用以解决语音端点检测方法错误判断产生跳变或者语音端点的起点与尾点由于吐字发音不清晰等问题造成模型错判丢字的问题。

一种流式语音端点检测方法，包括：

使用语音端点检测模型，判断流式语音的待检测点的语音状态是否满足预设条件；

当流式语音的待检测点的语音状态满足预设条件时，确认所述待检测点为语音端点。

进一步的，当流式语音的待检测点的语音状态满足预设条件时，确认所述待检测点为语音端点，具体包括：

当待检测点语音状态由静音转为非静音，且待检测点非静音状态连续的检测点个数大于或等于预置参数时，待检测点静音状态为语音端点；

当待检测点语音状态由非静音转为静音，且待检测点静音状态连续的检测点个数大于或等于预置参数时，待检测点静音状态连续的检测点个数等于预置参数的待检测点为语音端点。

进一步的，当待检测点语音状态由静音转为非静音，且待检测点非静音状态连续的检测点个数大于或等于预置参数时，待检测点静音状态为语音端点的起始端点。

进一步的，当待检测点语音状态由非静音转为静音，且待检测点静音状态连续的检测点个数大于或等于预置参数时，待检测点静音状态连续的检测点个数等于预置参数的待检测点为语音端点的结束端点。

进一步的，预置参数根据流式语音中每一帧的长度设置，具体包括：

语音帧的长度设置在20ms-50ms，预置参数根据语音帧的长度设置为5-7。

进一步的，流式语音的片段帧数与语音端点检测模型所规定的帧数相等。

进一步的，语音端点检测模型由前馈型序列记忆网络FSMN神经网络、卷积神经网络CNN和循环神经网络LSTM的结合体convlstm神经网络中的一种训练得出。

进一步的，语音端点检测模型采用卷积神经网络CNN和循环神经网络LSTM的结合体convlstm神经网络训练的主要流程为：输入层、一维卷积运算层、一维卷积运算层、一维卷积运算层、LSTM层、全连接层、批归一化层、激活层、全连接层、输出层。

一种流式语音端点检测装置，其特征在于，所述语音端点检测装置包括：

输入模块，使用语音端点检测模型，判断流式语音的待检测点的语音状态是否满足预设条件；

输出模块，当流式语音的待检测点的语音状态满足预设条件时，确认所述待检测点为语音端点。

一种流式语音端点检测设备，其特征在于，所述语音端点检测设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述流式语音端点检测设备执行权利要求1至8所述的语音端点检测方法。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的流式语音端点检测方法流程图；

图2为本申请实施例提供的流式语音端点检测模型网络结构示意图；

图3为本申请实施例提供的流式语音端点检测输出结果判断图；

图4为本申请实施例提供的流式语音端点检测装置结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参照图1，本申请提供的流式语音端点检测方法，包括：

S100：使用语音端点检测模型，判断流式语音的待检测点的语音状态是否满足预设条件。

其中，流式语音为通过多种步骤制作而成的专业为检测端点所设置或者随机获取的一段语音中的一种。

进一步的，在本申请提供的一种优选实施例中，流式语音可以是随机获取的一段语音；也可以是通过多种步骤制作而成的专业为检测端点所设置而成语音。通过多种步骤制作而成的专业为检测端点所设置而成语音，即在既有的纯语音数据上，随机插入多个间隔的空白片段来作为静音段，静音段与纯语音数据既非静音段之间形成音频后，将噪声数据随机与现有音频混合，得到流式语音。静音段的长度设置根据纯语音的时长来设置其具体时间，此处静音的长度设置为随机的1s-5s；每个静音段在插入既有的纯语音数据中时，生成对应的标签以方便后续的使用；静音段的帧数应与原有的纯语音的帧数保持一致；而噪声数据的噪声强度可以随机设置，此处噪声数据的噪声强度设置为-5dB--25dB。可以理解的是，这里纯语音数据、静音段、噪声数据的噪声强度的具体设置，显然不构成对本申请具体保护范围的限制。

其中，流式语音的片段帧数与语音端点检测模型所规定的帧数相等。

进一步的，在本申请提供的一种优选实施例中，流式语音的片段帧数应设置为能够使语音端点检测模型检测到的音频，因此，流式语音的片段帧数应与语音端点检测模型所规定的帧数相等。

其中，语音端点检测模型的得出为通过多种步骤制作而成的专业为检测端点所设置而成的流式语音经过多次训练得出。将流式语音按比例分为训练集及验证集，从训练集及验证集中提取梅尔频率倒谱系数特征；对采集到的梅尔频率倒谱系数特征通过前馈型序列记忆网络神经网络或者卷积神经网络CNN和循环神经网络LSTM的结合体convlstm神经网络进行训练得到。

进一步的，在本申请提供的一种优选实施例中，流式语音按7：3的比例分为训练集和验证集，然后从训练集和验证集中提取梅尔频率倒谱系数的特征，梅尔频率倒谱系数的得出具体过程：预加重、分帧加窗、快速傅里叶变换、角带通滤波器、计算每个滤波器组输出的对数能量、对数能量、动态差分参数的提取。梅尔频率倒谱系数输入数据维度采用的是36*10，梅尔频率倒谱系数的特征为36维，10为上下文长度为10帧，每帧的长度定位为30ms，结合帧数后也就是每次利用300ms长度的音频来预测当前帧是否为非静音段。可以理解的是，这里对语音数据进行处理的具体数值，显然不构成对本申请具体保护范围的限制。

请参照图2，本申请所采用的神经网络采用卷积神经网络CNN和循环神经网络LSTM的结合体convlstm神经网络来对采集到的梅尔频率倒谱系数特征进行训练，训练的顺序为：输入层、一维卷积运算层、一维卷积运算层、一维卷积运算层、LSTM层、全连接层、批归一化层、激活层、全连接层、输出层。在本申请实施例中，卷积神经网络CNN和循环神经网络LSTM的结合体convlstm神经网络所采用的是Focal Loss具体公式为：

FL(pt)＝-(1-pt)γlog(pt)，

其中γ大于等于零，此处设为2，(1-pt)γ为损失函数平衡因子，用于使参数向少例、难例倾斜。

经过训练得到语音端点检测模型，可以理解的是，这里对语音数据进行处理的具体数值，显然不构成对本申请具体保护范围的限制。

其中，流式语音的待检测点的语音状态是否满足预设条件由语音端点检测模型对流式语音的待检测点进行判断得出。

进一步的，在本申请提供的一种优选实施例中，对流式语音的待检测点的语音状态使用语音端点检测模型进行语音状态判断，具体包括：

请参照图3，在本申请实施例中，对流式语音判断得到的非静音与静音的结果用阿拉伯数字来表示：

若语音端点检测模型检测到语音由静音变为非静音或者为非静音时，则其输出结果为1；

若语音端点检测模型检测到语音由非静音变为静音或者为静音时，则其输出结果为0。

通过语音端点模型对语音状态进行判断从而得出由0或1组合而成的如图三所示的数字组合。从数字组合中可以看出，流式语音的待检测点有的满足预设条件，而有的则不满足预设条件，当不满足预设条件时，具体可以分为两种情况：当待检测点并非由静音转为非静音、非静音转为静音时，可判断其为静音或者非静音持续的状态无需判断；当待检测点语音状态由静音转为非静音且待检测点两侧静音和非静音状态连续的检测点个数小于预置参数、待检测点语音状态由非静音转为静音且待检测点两侧非静音和静音状态连续的检测点个数小于预置参数时，待检测点语音状态可以认定为其并非语音端点而是语音端点检测方法错误判断产生跳变或者语音端点的起点与尾点由于吐字发音不清晰等问题造成模型错判丢字。当满足预设条件时则可确定其为语音端点。可以理解的是，这里输出结果采用的表达方式，显然不构成对本申请具体保护范围的限制。

S200：当流式语音的待检测点的语音状态满足预设条件时，确认所述待检测点为语音端点。其中，语音端点满足预设条件时，既当待检测点语音状态由静音转为非静音，且待检测点非静音状态连续的检测点个数大于或等于预置参数时，待检测点静音状态为语音端点；当待检测点语音状态由非静音转为静音，且待检测点静音状态连续的检测点个数大于或等于预置参数时，待检测点静音状态连续的检测点个数等于预置参数的待检测点为语音端点。上述语音端点大于或者等于预置参数时，还用到maxbuff函数来判断语音端点的具体帧，在此实施例中预置参数与maxbuff的值相同。

进一步的，在本申请提供的一种优选实施例中，当待检测点语音状态由静音转为非静音，且待检测点非静音状态连续的检测点个数大于或等于预置参数时，maxbuff中第一帧既待检测点静音状态的帧为语音端点的起始端点。

进一步的，在本申请提供的一种优选实施例中，当待检测点语音状态由非静音转为静音，且待检测点静音状态连续的检测点个数大于或等于预置参数时，maxbuff中最后一帧既待检测点静音状态连续的检测点个数等于预置参数的待检测点的帧为语音端点的结束端点。

其中，预置参数的设置根据流式语音中每一帧的长度来决定。

进一步的，在本申请提供的一种优选实施例中，预置参数的设置根据流式语音中每一帧的长度来决定，流式语音帧的长度设置在20ms-50ms，预置参数根据语音帧的长度设置为5-7。在此实施例中流式语音帧的长度设置为30ms，预置参数设置值为5，即流式语音中的任意连续5个待检测点为一个单位，当语音端点检测模型输出的结果为连续的5个0或1或者超过5个0或1时则满足预设条件中的一部分。可以理解的是，这里预置参数的具体数值，显然不构成对本申请具体保护范围的限制。

请参照图4，一种流式语音端点检测装置100，包括：

输入模块10，使用语音端点检测模型，判断流式语音的待检测点的语音状态是否满足预设条件。

进一步的，在本申请提供的一种实施例中，所述输入模块10，用于使用语音端点检测模型，判断流式语音的待检测点的语音状态是否满足预设条件。

输出模块11，当流式语音的待检测点的语音状态满足预设条件时，确认所述待检测点为语音端点。

进一步的，在本申请提供的一种实施例中，输出模块11，用于当流式语音的待检测点的语音状态满足预设条件时，确认所述待检测点为语音端点。

这里语音端点检测装置的一种具体应用可以理解为一种虚拟的装置，例如与浏览器相类似的软件产品。输入模块10，输出模块11的一种具体应用可以理解为可以独立封装的功能函数。

一种流式语音端点检测设备，其特征在于，所述语音端点检测设备包括：存储器和至少一个处理器，所述存储器中存储有指令。

存储器存储有语音端点检测程序，所述语音端点检测程序被处理器执行时实现如上述任一项实施例中所述的语音端点检测方法的步骤。其中，语音端点检测程序被处理器执行时所实现的方法可参照本发明语音端点检测方法的各个实施例，因此不再过多赘述。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

10页详细技术资料下载

流式语音端点检测方法、装置及设备

相关技术

网友询问留言