可定制的低延时命令词识别方法及装置

文档序号：193343 发布日期：2021-11-02 浏览：29次 >En<

阅读说明：本技术 可定制的低延时命令词识别方法及装置 (Customizable low-delay command word recognition method and device ) 是由司玉景李全忠何国涛蒲瑶于 2021-07-29 设计创作，主要内容包括：本发明涉及一种可定制的低延时命令词识别方法及装置,包括获取待识别语音,并根据待识别语音确定待处理的声学特征；将声学特征输入到预构建的神经网络分类模型中进行识别,获取声学特征所属的每个建模单元的后验概率；其中,建模单元为带调拼音；根据后验概率计算每个命令词的置信度以及其包含的建模单元出现的时间点；根据置信度和时间点来判断是否输出该命令词。本发明能够对汉语中所有的带调拼音进行建模,采用简单高效的打分机制,完成低延时命令词列表的识别任务,降低了命令词识别的开发成本和时间成本。本发明采用的置信度计算方法具有极低的计算复杂度和空间复杂度,并具有较高的准确率和较低的误唤醒率,可实时地检测命令词是否出现。(The invention relates to a customizable low-delay command word recognition method and device, which comprises the steps of obtaining a voice to be recognized, and determining acoustic characteristics to be processed according to the voice to be recognized; inputting the acoustic features into a pre-constructed neural network classification model for identification, and acquiring the posterior probability of each modeling unit to which the acoustic features belong; wherein, the modeling unit is Pinyin with tone; calculating the confidence coefficient of each command word and the time point of the appearance of the modeling unit contained in the command word according to the posterior probability; and judging whether to output the command word according to the confidence coefficient and the time point. The method can model all the toned pinyin in the Chinese, adopts a simple and efficient scoring mechanism, completes the identification task of a low-delay command word list, and reduces the development cost and time cost of command word identification. The confidence coefficient calculation method adopted by the invention has extremely low calculation complexity and space complexity, higher accuracy and lower false wake-up rate, and can detect whether the command word appears in real time.)

可定制的低延时命令词识别方法及装置

技术领域

本发明属于人工智能技术领域，具体涉及一种可定制的低延时命令词识别方法及装置。

背景技术

近年来，随着信息技术和物联网的不断发展，语音作为最直接、最便捷的人机交互方法，得到人们越来越多的关注。命令词识别是语音识别的一个重要领域，被广泛应用于语音命令控制系统。低延时命令词识别系统的任务是在一段连续的语音中自动发现并定位一些事先指定的命令词，并且整个过程是实时的，也就是说命令词一旦出现，系统需要立刻给出相应的结果。但是不同于传统的文本格式的文档，语音数据作为一种对声音信号的编码，计算机难以直接提取有效信息的数据形态。此外，由于多种外在音素(如背景噪声、说话人语速、口音等)的影响，也使得开发出一套有效的命令词识别系统变得复杂和困难。

相关技术中，根据命令词是否可定制的区别，命令词识别系统可以分为可定制系统和非可定制系统。其中，可定制的特性体现在命令词检测模型不依赖于用户指定命令词，从而实现用户修改命令词列表时，模型无需重新训练；而非可定制的命令词系统，命令词列表是和模型相关的，用户想修改命令词列表时，需要重新采集命令词的录音和标注，然后重新进行模型训练，这样无疑会增加时间成本和开发成本。现有的命令词识别技术包括动态时间规整方法(DTW)，基于隐马尔科夫模型(HMM)的方法，以及基于深度学习的方法。其中，基于HMM+DNN的关键词过滤(keyword/filter)框架可以达到命令词可定制的目的，但是它的效果不如基于深度学习的方法，并且解码计算复杂度高，且内存占用多。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种可定制的低延时命令词识别方法及装置，以解决现有技术中可定制系统效果差、解码计算复杂度高，且内存占用多的问题。

为实现以上目的，本发明采用如下技术方案：一种可定制的低延时命令词识别方法，包括：

获取待识别语音，并根据所述待识别语音确定待处理的声学特征；

将所述声学特征输入到预构建的神经网络分类模型中进行识别，获取所述声学特征所属的每个建模单元的后验概率；其中，所述建模单元为带调拼音，包括声母、韵母和声调；

根据所述后验概率计算每个命令词对应的置信度以及其包含的建模单元出现的时间点；

根据所述置信度和时间点判断是否输出该命令词。

进一步的，还包括：构建神经网络分类模型，所述构建神经网络分类模型，包括：

从训练语音库中获取语音数据，对所述语音数据标注对应的建模单元；

获取所述语音数据对应的声学特征；

将所述语音数据对应的声学特征输入到神经网络进行训练，获取所述语音数据对应的声学特征所属的每个建模单元的后验概率；

基于所述语音数据对应的声学特征所属的每个建模单元的后验概率采用时序分类损失函数对所述语音数据对应的声学特征迭代训练，生成神经网络分类模型。

进一步的，所述根据所述后验概率计算每个命令词对应的置信度采用的计算公式为：

其中，p_ik表示时间点k时，第i个建模单元对应的后验概率；h_max＝t-window_size表示命令词检测的开始点；window_size表示命令词检测的时间窗口，取命令词的平均时长；t_i表示在命令词检测时间窗口中第i个建模单元对应的后验概率最大的时间点；f(t)表示置信度；n表示命令词包括建模单元的个数。

进一步的，所述根据所述置信度和时间点判断是否输出该命令词，包括：

将所述置信度与预设阈值进行对比；

若命令词的置信度大于等于预设阈值，并且命令词包含的建模单元出现的时间点满足时间预设条件，则输出该命令词。

进一步的，如果存在多个命令词的置信度大于等于预设阈值且命令词包含的建模单元出现的时间点满足时间预设条件，则输出置信度最大的命令词。

进一步的，对所述语音数据标注对应的建模单元之前，还包括：

对所述语音数据对应的带调拼音采用声母、韵母及声调进行建模，生成多个建模单元。

进一步的，所述根据所述待识别语音确定待处理的声学特征之前，还包括：

对所述待识别语音进行降噪处理。

进一步的，所述神经网络分类模型为

深度前馈序列记忆神经网络。

本申请实施例提供一种可定制的低延时命令词识别装置，包括：

获取模块，用于获取待识别语音，并根据所述待识别语音确定待处理的声学特征；

识别模块，用于将所述声学特征输入到预构建的神经网络分类模型中进行识别，获取所述声学特征所属的每个建模单元的后验概率；其中，所述建模单元为带调拼音，包括声母、韵母和声调；

计算模块，用于根据所述后验概率计算每个命令词对应的置信度以及其包含的建模单元出现的时间点；

输出模块，用于根据所述置信度和时间点判断是否输出该命令词。

进一步的，还包括：

构建模块，用于构建神经网络分类模型；

所述构建神经网络分类模型，包括：

从训练语音库中获取语音数据，对所述语音数据标注对应的建模单元；

获取所述语音数据对应的声学特征；

将所述语音数据对应的声学特征输入到神经网络进行训练，获取所述语音数据对应的声学特征所属的每个建模单元的后验概率；

基于所述语音数据对应的声学特征所属的每个建模单元的后验概率和所述语音数据对应的建模单元采用时序分类损失函数对所述语音数据对应的声学特征迭代训练，生成神经网络分类模型。

本发明采用以上技术方案，能够达到的有益效果包括：

本发明提供一种可定制的低延时命令词识别方法及装置，其采用神经网络模型对汉语中所有的带调拼音进行建模，结合连接时序分类准则输出后验概率区分性大的优势，采用一种简单高效的打分机制，提出了一种可定制的低延时命令词识别方法。本申请通过使用基于深度前馈序列记忆神经网络(DFSMN)和连接时序分类准则(CTC)对语音信号的拼音信息进行建模并利用海量语音数据对模型进行训练，采用训练后的模型对命令词列表进行识别。除此之外，本发明采用简单高效的打分机制，完成了低延时命令词列表的识别任务。针对更改命令词的需求，本发明无需重新训练模型，只需提供命令词对应的带调拼音信息，大大降低了命令词识别系统的开发成本和时间成本。

本发明针对CTC模型提出的置信度计算方法，具有极低的计算复杂度和空间复杂度，并具有较高的准确率和较低的误唤醒率，另外，具有较低的延时，可实时地检测命令词是否出现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明可定制的低延时命令词识别方法的步骤示意图；

图2为本发明可定制的低延时命令词识别方法的流程示意图；

图3为本发明可定制的低延时命令词识别装置的结构示意图；

图4为本发明可定制的低延时命令词识别方法涉及的硬件运行环境的计算机设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

下面结合附图介绍本申请实施例中提供的一个具体的可定制的低延时命令词识别方法及装置。

如图1所示，本申请实施例中提供的可定制的低延时命令词识别方法，包括：

S101，获取待识别语音，并根据所述待识别语音确定待处理的声学特征；

可以理解的是，语音是用户发出的；例如用户可以对智能家用冰箱说，“打开冰箱”，那么“打开冰箱”就是待识别语音，本申请中需要对待识别语音进行处理得到待识别语音的声学特征，其中处理方式可采用现有技术实现，例如对待识别语音进行预处理、加窗、FFT变换、梅尔滤波器等步骤提取到待识别语音声学特征。其中预处理可以为声音去噪处理。

S102，将所述声学特征输入到预构建的神经网络分类模型中进行识别，获取所述声学特征所属的每个建模单元的后验概率；其中，所述建模单元为带调拼音，包括声母、韵母和声调；

本申请预先训练神经网络分类模型，然后将得到的声学特征输入到神经网络分类模型中进行计算，得到建模单元(带调拼音)的后验概率。其中，后验概率是信息理论的基本概念之一。在一个通信系统中，在收到某个消息之后，接收端所了解到的该消息发送的概率称为后验概率。

S103，根据所述后验概率计算每个命令词对应的置信度以及其包含的建模单元出现的时间点；

本申请中针对神经网络分类模型提出置信度计算方法，降低了计算复杂度和空间复杂度，具有较高的准确率。

S104，根据所述置信度和时间点判断是否输出该命令词。

最终，根据置信度的大小进行决策判断输出命令词，例如输出“打开冰箱”。

可定制的低延时命令词识别方法的工作原理为：参见图2，首先构建神经网络分类模型，然后获取待识别语音，并根据待识别语音确定待处理的声学特征；将所述声学特征输入到预构建的神经网络分类模型中进行识别，获取所述声学特征所属的每个建模单元的后验概率；其中，所述建模单元为带调拼音，包括声母、韵母和声调；根据所述后验概率计算每个命令词对应的置信度以及其包含的建模单元出现的时间点；根据所述置信度和时间点判断是否输出该命令词。其中，所述神经网络分类模型为深度前馈序列记忆神经网络(DFSMN)。可以理解的是，本申请中的神经网络分类模型还可以采用LSTM、GRU等模型，本申请在此不做限定。本申请中的建模单元是基于声母、韵母和声调构建的，可以获得更好的汉字识别功能，提高了识别准确率，减少识别错误的情况。

一些实施例中，还包括：构建神经网络分类模型，所述构建神经网络分类模型，包括：

从训练语音库中获取语音数据，对所述语音数据标注对应的建模单元；

获取所述语音数据对应的声学特征；

将所述语音数据对应的声学特征输入到神经网络进行训练，获取所述语音数据对应的声学特征所属的每个建模单元的后验概率；

具体的，本申请预先构建神经网络分类模型，具体流程为，收集并并标注好语音数据，将收集并并标注好的语音数据做预处理、加窗、FFT变换、梅尔滤波器等步骤，提取可供模型训练声学特征，将所述语音数据对应的声学特征输入到神经网络进行训练，获取所述语音数据对应的声学特征所属的每个建模单元的后验概率，也就是将标注好的带调拼音作为输出，采用时序分类损失函数(CTC)对所述语音数据对应的声学特征迭代训练，在海量数据下通过深度学习的方法完成模型参数的训练，得到可使用的深度前馈序列记忆神经网络的分类模型。

一些实施例中，本申请利用神经网路分类模型计算得到的带调拼音的后验概率，计算每个命令词对应的置信度，即每个命令词可能出现的概率，假设命令词包含n个带调拼音(因为CTC模型的鲁棒性较好，因此，本发明采用原始的后验概率，省去了后验平滑的步骤)。

所述根据所述后验概率计算每个命令词对应的置信度采用的计算公式为：

其中，p_ik表示时间点k时第i个建模单元对应的后验概率；h_max＝t-window_size表示命令词检测的开始点；window_size表示命令词检测的时间窗口，取命令词的平均时长；t_i表示在命令词检测时间窗口中第i个建模单元对应的后验概率最大的时间点；f(t)表示置信度；n表示命令词包括建模单元的个数。

一些实施例中，所述根据所述置信度和时间点判断是否输出该命令词，包括：

将所述置信度与预设阈值进行对比；

若命令词的置信度大于等于预设阈值，并且命令词包含的建模单元出现的时间点满足时间预设条件，则输出该命令词。

优选的，如果存在多个命令词的置信度大于等于预设阈值且满足时间预设条件，则输出置信度最大的命令词。

具体的，当置信度大于等于预先设置的阈值，并且满足时间顺序，便输出该命令词，如果有多个命令词同时满足上述条件，则输出置信度最大的命令词。即，t时间点检测到某个命令词时，该命令词需要同时满足下面的条件：

f(t)≥threshold (3)

t₁≤t₂≤…≤t_n (4)

其中，threshold为预设阈值，t₁为命令词中第一个建模单元对应的时间点，t₂为命令词中第二个建模单元对应的时间点，t_n为命令词中第n个建模单元对应的时间点。例如，置信度最高的命令词是“打开冰箱”，则首先转成带调拼音da3 kai1 bing1 xiang1”，其中，建模单元“da3”对应的时间点为为t₁，建模单元“kai1”对应的时间点为t₂，建模单元“bing1”对应的时间点为t₃，建模单元“xiang1”对应的时间点为t₄，此时必须满足t₁≤t₂≤t₃≤t₄时，表明该命令词“打开冰箱”包含的建模单元符合时间预设条件，则输出“打开冰箱”的命令。如果存在多个命令词的置信度大于预设阈值并且存在多个命令词包含的建模单元出现的时间点满足时间预设条件，则输出多个命令词的置信度中的最大置信度对应的命令词。

一些实施例中，对所述语音数据标注对应的建模单元之前，还包括：

对所述语音数据对应的带调拼音采用声母、韵母及声调进行建模，生成多个建模单元。

本申请中建模单元也就是带调拼音，包括声母、韵母和声调，能够提升文字识别准确率。

优选的，所述根据所述待识别语音确定待处理的声学特征之前，还包括：

对所述待识别语音进行降噪处理。

本申请中对待识别语音提取声学特征之前，先对待识别语音进行去噪处理，除去噪声干扰。

如图3所示，本申请实施例提供一种可定制的低延时命令词识别装置，包括：

获取模块301，用于获取待识别语音，并根据所述待识别语音确定待处理的声学特征；

识别模块302，用于将所述声学特征输入到预构建的神经网络分类模型中进行识别，获取所述声学特征所属的每个建模单元的后验概率；其中，所述建模单元为带调拼音，包括声母、韵母和声调；

计算模块303，用于根据所述后验概率计算每个命令词对应的置信度以及其包含的建模单元出现的时间点；

输出模块304，用于根据所述置信度和时间点判断是否输出该命令词。

本申请提供的一种可定制的低延时命令词识别装置的工作原理为，获取模块301获取待识别语音，并根据所述待识别语音确定待处理的声学特征；识别模块302将所述声学特征输入到预构建的神经网络分类模型中进行识别，获取所述声学特征所属的每个建模单元的后验概率；其中，所述建模单元为带调拼音，包括声母、韵母和声调；计算模块303根据所述后验概率计算每个命令词对应的置信度以及其包含的建模单元出现的时间点；输出模块304根据所述置信度和时间点判断是否输出该命令词。

优选的，本申请提供的一种可定制的低延时命令词识别装置，还包括：

构建模块，用于构建神经网络分类模型；

所述构建神经网络分类模型，包括：

从训练语音库中获取语音数据，对所述语音数据标注对应的建模单元；

获取所述语音数据对应的声学特征；

将所述语音数据对应的声学特征输入到神经网络进行训练，获取所述语音数据对应的声学特征所属的每个建模单元的后验概率；

本申请实施例提供一种计算机设备，包括处理器，以及与处理器连接的存储器；

存储器用于存储计算机程序，计算机程序用于执行上述任一实施例提供的可定制的低延时命令词识别方法；

处理器用于调用并执行存储器中的计算机程序。存储器可以包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。该计算机设备存储有操作系统，存储器是计算机可读介质的示例。所述计算机程序被所述处理器执行时，使得所述处理器执行可定制的低延时命令词识别方法，如图4示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的可定制的低延时命令词识别方法可以实现为一种计算机程序的形式，计算机程序可在如图4所示的计算机设备上运行。

一些实施例中，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：获取待识别语音，并根据所述待识别语音确定待处理的声学特征；将所述声学特征输入到预构建的神经网络分类模型中进行识别，获取所述声学特征所属的每个建模单元的后验概率；其中，所述建模单元为带调拼音，包括声母、韵母和声调；根据所述后验概率计算每个命令词对应的置信度以及其包含的建模单元出现的时间点；根据所述置信度和时间点判断是否输出该命令词。

本申请还提供一种计算机存储介质，计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光光盘(DVD)或其他光学存储、磁盒式磁带存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

一些实施例中，本发明还提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：获取待识别语音，并根据所述待识别语音确定待处理的声学特征；将所述声学特征输入到预构建的神经网络分类模型中进行识别，获取所述声学特征所属的每个建模单元的后验概率；其中，所述建模单元为带调拼音，包括声母、韵母和声调；根据所述后验概率计算每个命令词对应的置信度以及其包含的建模单元出现的时间点；根据所述置信度和时间点判断是否输出该命令词。

综上所述，本发明提供一种可定制的低延时命令词识别方法及装置，包括获取待识别语音，并根据待识别语音确定待处理的声学特征；将声学特征输入到预构建的神经网络分类模型中进行识别，获取声学特征所属的每个建模单元的后验概率；其中，建模单元为带调拼音，包括声母、韵母和声调；根据后验概率计算每个命令词对应的置信度以及其包含的建模单元出现的时间点；根据置信度和时间点判断是否输出该命令词。本发明能够对汉语中所有的带调拼音进行建模，采用简单高效的打分机制，完成低延时命令词列表的识别任务，大大降低了命令词识别的开发成本和时间成本。本发明采用的置信度计算方法，具有极低的计算复杂度和空间复杂度，并具有较高的准确率和较低的误唤醒率，另外，具有较低的延时，可实时地检测命令词是否出现。

可以理解的是，上述提供的方法实施例与上述的装置实施例对应，相应的具体内容可以相互参考，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品，该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

13页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：基于多级触发机制的超低功耗唤醒方法及装置

可定制的低延时命令词识别方法及装置

相关技术

网友询问留言