语音识别用于特定目标唤醒的方法及装置

文档序号：1273719 发布日期：2020-08-25 浏览：28次 >En<

阅读说明：本技术 语音识别用于特定目标唤醒的方法及装置 (Method and device for specific target wake-up by voice recognition ) 是由李政吴国扬陈心章于 2019-02-19 设计创作，主要内容包括：本发明公开一种语音识别用于特定目标唤醒的方法及装置,其中方法包括如下步骤：接收特定目标的语音讯息,提取其中的语音特征；将特定目标的语音特征作为以鉴别式训练的HVS模型的输入数据并进行训练,得到特定目标声学模型,并储存特定目标声学模型；接收待测目标的语音讯息,提取其中的语音特征；将待测目标的语音特征作为以鉴别式训练的潜藏向量状态模型的输入数据并进行训练,得到待测目标的声学模型；比对待测目标的声学模型与特定目标的声学模型,若两者有关联则将待测目标的语音特征使用语言模型进行语言解码,并根据语言解码结果判断是否唤醒。本发明采用鉴别式训练的HVS模型作为声学模型,能够精准且快速地判断目标,进而达到唤醒的功用。(The invention discloses a method and a device for waking up a specific target by voice recognition, wherein the method comprises the following steps: receiving a voice message of a specific target and extracting voice characteristics in the voice message; the voice characteristics of the specific target are used as input data of an HVS model which is trained in an identification mode, training is carried out, a specific target acoustic model is obtained, and the specific target acoustic model is stored; receiving a voice message of a target to be detected, and extracting voice characteristics in the voice message; taking the voice characteristics of the target to be tested as input data of a hidden vector state model trained in an identification mode, and training to obtain an acoustic model of the target to be tested; and comparing the acoustic model of the target to be detected with the acoustic model of the specific target, if the acoustic model of the target to be detected and the acoustic model of the specific target are related, performing language decoding on the voice characteristics of the target to be detected by using the language model, and judging whether to awaken or not according to a language decoding result. According to the invention, the HVS model of discriminant training is used as the acoustic model, so that the target can be accurately and quickly judged, and further the awakening function is achieved.)

语音识别用于特定目标唤醒的方法及装置

技术领域

本发明涉及一种语音识别领域，尤其涉及一种语音识别的方法及装置。

背景技术

近年来，智慧音箱逐渐改变人们生活的方式，智慧音箱作为语音助理可协助用户执行生活上的任务，例如帮忙叫车、购物、提醒事项、记录资讯等等，尽管智慧音箱带来生活上更多便利，然而智慧音箱仍有许多安全隐患，有时智慧音箱无法有效地判别使用者是否为初始设定的用户而进行信用卡下订商品的可能性，因此，为了防止有心人士使用，目前市面上许多智慧音箱会采用语音识别的方式作为防护措施。

一般的智慧音箱通常采用语音唤醒的方式唤醒智慧音箱进而执行后续任务，所谓语音唤醒的方式通常是从一段连续的语音中自动撷取一些使用者预先注册的语音指令(唤醒词)。传统上使用隐藏式马可夫模型(Hidden Markov Model，HMM)的技术，利用单独的音素(Phoneme)、音节的特征向量比对，找出机率最大(最有可能)的单字，后来，又结合高斯混合模型(Gaussian Mixture Model，GMM)形成经典的GMM-HMM模型。现有的GMM-HMM模型常采用最大相似度训练方法(Maximum Likelihood)，然而此种方法在某些因素下容易使得竞争者答案机率大于正确答案机率，则导致正确率的下降，因此仍有进步改善的空间。

发明内容

本发明的目的是针对上述现有技术存在的缺陷和不足，提出一种语音识别用于特定目标唤醒的实现方法，利用特定目标的唤醒词结合采用鉴别式训练的潜藏向量状态模型(Hidden Vector State Model，简称HVS Model)，实现对特定目标的身分识别监测，从而达到特定目标语音唤醒的目的。

为实现上述目的，本发明实施例一方面提出了一种语音识别用于特定目标唤醒的方法，包括以下步骤：

S1：接收一特定目标的语音讯息并对所述特定目标的语音讯息进行预处理，提取所述特定目标的一语音特征；

S2：将所述特定目标的语音特征作为以鉴别式训练的潜藏向量状态模型(HVS Model)的输入数据并进行训练，得到一特定目标声学模型，并储存所述特定目标声学模型；

S3：接收一待测目标的语音讯息并对所述待测目标的语音讯息进行预处理，提取所述待测目标的一语音特征；

S4：将所述待测目标的语音特征作为以鉴别式训练的潜藏向量状态模型的输入数据并进行训练，得到一待测目标的声学模型；

S5：比对所述待测目标的声学模型与所述特定目标的声学模型之间的关联性，若两者有关联则将所述待测目标的语音特征使用至少一语言模型进行语言解码，并根据语言解码结果判断是否唤醒。

具体地，所述特定目标的语音讯息与所述待测目标的语音讯息中包括至少一唤醒词。

具体地，所述预处理包括：将语音讯息进行杂讯抑制处理及回音消除处理。

具体地，所述语音特征利用梅尔倒频谱系数(MFCC)的方式取得。

具体地，所述鉴别式训练采用最大互信息法(MMI)进行训练。

具体地，所述语言模型包括一词库模型或一文法模型或及其组合。

具体地，所述根据语言解码结果判断是否达到语音识别的唤醒，其步骤包含：将所述待测目标的语音特征进行语言解码；判断待测目标语音讯息其中是否包含所述唤醒词；若包含所述唤醒词则语音识别唤醒启动，若没有包含所述唤醒词则语音识别唤醒未启动。

本发明实施例另一方面提出一种语音识别用于特定目标唤醒的装置，包括：

一采集模组，包括多个麦克风阵列，用于接收特定目标与待测目标的语音讯息，其中所述语音讯息包含一唤醒词；

一提取模组，连接所述采集模组，用于提取所述特定目标以及所述待测目标的语音讯息其中的MFCC语音特征；

一训练模组，连接所述提取模组，用于将所述特定目标以及所述待测目标的语音讯息其中的MFCC语音特征作为以最大互信息法训练的潜藏向量状态模型的输入数据，并获取训练后的特定目标的声学模型与待测目标的声学模型；

一存储模组，连接所述训练模组，用于保存训练完成的特定目标的声学模型；

一解码模组，连接所述提取模组，用于将所述待测目标的语音讯息进行语言解码；以及

一处理器模组，连接所述训练模组、所述存储模组与所述解码模组，用于比对所述存储模组中的特定目标的声学模型与待测目标的声学模型，以及根据比对结果判断是否启动所述解码模组进行待测目标的语音讯息的语言解码，并根据语言解码后的待测目标的语音讯息确认是否包含唤醒词以唤醒所述装置。

具体地，所述装置进一步包括一注册模组，所述注册模组连接所述采集模组与所述存储模组，所述注册模组用于启动保存特定目标的声学模型到所述存储模组。

具体地，所述装置进一步包括一无线通讯模组，其中，所述无线通讯模组用于进行外部通讯连接。

与现有技术相比，本发明语音识别用于特定目标唤醒的方法及装置采用鉴别式训练的潜藏向量状态模型作为声学模型，使用鉴别式训练除了最大化正确答案的出现机率外，也会将竞争者的出现机率降低，增加其正确答案与竞争者之间的鉴别能力，能够快速且准确地判断待测目标是否为特定目标，进而达到唤醒的功用。

附图说明

图1为本发明实施例一种语音识别用于特定目标唤醒的方法流程示意图。

图2为本发明实施例一种语音识别用于特定目标唤醒的装置示意图。

图中各附图标记说明如下：

100　语音识别装置　　　11　　采集模组

12　　提取模组　　　　　13　　训练模组

14　　存储模组　　　　　15　　解码模组

16　　处理器模组　　　　17　　注册模组

18　　无线通讯模组

S101～S105　　　　流程步骤。

具体实施方式

为详细说明本发明的技术内容、构造特征、所达成的目的及功效，以下兹例举实施例并配合图式详予说明。

请参阅图１，图１为本发明实施例公开的一种语音识别用于特定目标唤醒的方法流程示意图，包括如下步骤：

步骤Ｓ１０１：接收一特定目标的语音讯息并对所述特定目标的语音讯息进行预处理，提取所述特定目标的一语音特征；

具体的，此步骤中特定目标指的是进行语音识别中达到唤醒条件的注册用户，而语音讯息为事先准备好的文本，此文本内容中会包含预设的一唤醒词，特定目标先朗读文本内容并经由本发明实施例一语音识别装置１００的一采集模组１１收集特定目标的语音讯息。

具体的，此步骤中所收集的语音讯息为类比语音讯号，需要将类比语音讯号转成数位语音讯号才可进行后续语音识别处理。另外，在语音讯息中可能会包含其他环境噪音，因此也需要对语音讯息进行预处理，滤除无用的环境噪音并取得有效的语音讯号，所述预处理包含对数位语音讯号进行杂讯抑制处理及回音消除处理，上述预处理可以参照目前现有降噪处理的技术。

具体的，完成预处理后的语音讯号需要提取特定目标的语音特征，本发明实施例中采用梅尔倒频谱系数(Mel-frequency Cepstral Coefficients, 简称MFCC)的方式撷取特定目标的语音特征，将预处理后的语音讯号切割为多个音框(Frame blocking)、针对需要加重语音讯号的部分进行预强调(Pre-emphasis)、进行加窗(Window)等作业，得到更加清晰、明确的一段语音特征。

步骤Ｓ１０２：将所述特定目标的语音特征作为以鉴别式训练的潜藏向量状态模型(Hidden Vector State Model, 简称HVS Model)的输入数据并进行训练，得到一特定目标声学模型，并储存所述特定目标声学模型；

具体的，此步骤中将特定目标的语音特征作为输入资料进行声学模型的训练，在本发明实施例中采用潜藏向量状态模型并使用鉴别式训练的方式进行训练，鉴别式训练不以最大化训练声学语料的相似度为目标，而以最小化分类(或辨识)错误为目标，增进辨识率。

其中鉴别式训练是以最大互信息法(Maximum Mutual Information, 简称MMI)为准则进行训练，其能够将最大化正确答案出现的机率提高，并有效的降低竞争者出现的机率，并增加正确答案与竞争者的鉴别性。

具体的，此步骤中储存所述特定目标声学模型指的是储存到本发明实施例语音识别装置１００的一存储模组１４。

步骤Ｓ１０３：接收一待测目标的语音讯息并对所述待测目标的语音讯息进行预处理，提取所述待测目标的一语音特征；

具体的，此步骤中待测目标指的是欲进行语音识别比对的使用人，待测目标输出一段语音讯息，并经由本发明实施例语音识别装置１００的一采集模组１１收集待测目标的语音讯息。

具体的，此步骤中对待测目标的语音讯息进行预处理，并提取所述待测目标的语音特征，其处理步骤等同于上述对特定目标的语音讯息进行预处理，并提取所述特定目标的语音特征的流程。

步骤Ｓ１０４：将所述待测目标的语音特征作为以鉴别式训练的潜藏向量状态模型的输入数据并进行训练，得到一待测目标的声学模型；

具体的，此步骤中对待测目标的语音特征作为输入资料进行声学模型的训练，在本发明实施例中采用潜藏向量状态模型并使用鉴别式训练的方式进行训练，鉴别式训练是以最大互信息法(Maximum Mutual Information, 简称MMI)为准则进行训练。

步骤Ｓ１０５：比对所述待测目标的声学模型与所述特定目标的声学模型之间的关联性，若两者有关联则将所述待测目标的语音特征使用至少一语言模型进行语言解码，并根据语言解码结果判断是否唤醒。

具体的，此步骤中当待测目标的声学模型符合特定目标的声学模型则进行语言解码，假若待测目标的声学模型不符合特定目标的声学模型则不进行任何动作，所述语言解码使用待测目标的语音特征作为输入资料进行语言模型的训练，在本发明实施例中语言模型包含一词库模型及一文法模型。

当待测目标的声学模型判别为特定目标的声学模型，则代表此时待测目标为特定目标，因此进行语言解码确认待测目标的语音讯息是否包含唤醒词。将待测目标的语音特征进行词库模型与文法模型的训练，解析得到待测目标的语音讯息内容，然后再判断待测目标的语音讯息内容是否包含唤醒词，若包含唤醒词则语音识别唤醒启动，若没有包含唤醒词则语音识别唤醒未启动。

请参阅图2，本发明实施例一语音识别用于特定目标唤醒的装置。一语音识别装置１００包含一采集模组１１、一提取模组１２、一训练模组１３、一存储模组１４、一解码模组１５、一处理器模组１６、一注册模组１７以及一无线通讯模组１８。

所述采集模组１１与提取模组１２和注册模组１７连接，其中采集模组１１设置多个麦克风阵列用于接收特定目标与待测目标的语音讯息，收集的语音讯息为类比语音讯号需要转化成数位语音讯号，同时将数位语音讯号进行杂讯抑制处理及回音消除处理，然后将处理完的数位语音讯息传送到提取模组１２。

所述特定目标的定义是根据本发明语音识别用于特定目标唤醒的对象，所述待测目标的定义是语音识别装置１００进行语音识别的对象。

所述特定目标的语音讯息中包含一预设的唤醒词。

所述提取模组１２与采集模组１１、训练模组１３以及解码模组１５连接，提取模组１２用于接收采集模组１１处理后的语音讯息，并提取其中特定目标与待测目标的语音特征，再传送到训练模组１３进行声学模型训练或是传送到解码模组１５进行解码。

所述提取特定目标与待测目标的语音特征是采用梅尔倒频谱系数(Mel-frequency Cepstral Coefficients, 简称MFCC)的方式撷取其语音讯息的语音特征。

所述训练模组１３与提取模组１２、存储模组１４以及处理器模组１６连接。所述训练模组１３用于接收提取模组１２提取完的特定目标与待测目标的语音特征，并将特定目标与待测目标的语音特征作为以最大互信息法训练的潜藏向量状态模型的输入数据，最后获取训练后的声学模型，并根据特定目标与待测目标进行不同步骤。若是特定目标则将特定目标的声学模型传送到存储模组１４，若是待测目标则将待测目标的声学模型传送到处理器模组１６。

所述存储模组１４与训练模组１３、处理器模组１６以及注册模组１７连接。所述存储模组１４用于保存训练模组１３训练完成的特定目标的声学模型。在本发明实施例中，当特定目标进行注册模组１７的操作，则训练模组１３训练后的特定目标的声学模型会传送到存储模组１４进行保存。另外，当处理器模组１６进行待测目标与特定目标的声学模型比对时，则存储模组１４将保存的特定目标的声学模型传送到处理器模组１６。

所述解码模组１５与提取模组１２及处理器模组１６连接。所述解码模组１５用于将待测目标的语音讯息进行语言解码，更具体的说明，提取模组１２将待测目标的语音特征作为以词库模型及文法模型的输入资料进行训练，并将结果传送到处理器模组１６。

所述处理器模组１６与训练模组１３、存储模组１４、解码模组１５与无线通讯模组１８连接。所述处理器模组１６用于比对特定目标的声学模型与待测目标的声学模型，并根据两个声学模型的比对结果判断是否启动所述解码模组１５进行语言解码，更具体的说明，当训练模组１３传送待测目标的声学模型则处理器模组１６同时从存储模组１４中取得特定目标的声学模型，并在处理器模组１６中进行这两个声学模型的比对。

当确认特定目标的声学模型与待测目标的声学模型有关连，即代表待测目标为特定目标，因此进行待测目标的语音讯息语言解码判断其中是否包含唤醒词，故处理器模组１６会启动解码模组１５，并由解码模组１５进行语言解码。

所述解码模组１５从提取模组１２中获取待测目标的语音特征，并将语言解码的运算结果回传给处理器模组１６，处理器模组１６会根据待测目标的声学模型以及语言解码后结果判断待测目标的语音讯息中是否包含唤醒词。

当处理器模组１６得到待测目标的语音讯息中包含唤醒词则执行语音识别装置１００的唤醒，反之则不执行。

所述注册模组１７与采集模组１１以及存储模组１４连接。所述注册模组１７用于提供特定目标进行语音识别装置１００的注册，其中注册模组１７包含一启动元件以及一显示元件，当特定目标碰触启动元件则同时启动存储模组１４，表示采集模组１１此次收集到的语音讯息经过训练模组１３训练后的声学模型需要保存到存储模组１４，另外，当特定目标碰触启动元件则显示元件启动提供特定目标确认目前是否为注册阶段。

在本发明实施例中，所述启动元件为一种按钮，所述显示元件为一种发光二极管。

所述无线通讯模组１８与处理器模组１６连接。所述无线通讯模组１８用于当处理器模组１６确认唤醒语音识别装置１００成功后进行与外部通讯连接。

在本发明实施例中，所述无线通讯模组１８包含一种Wi-Fi模组或一种蓝牙模组。

以上所述，本发明语音识别用于特定目标唤醒的方法及装置采用鉴别式训练的潜藏向量状态模型作为声学模型，使用最大互信息法的鉴别式训练除了最大化正确答案的出现机率外，也会将竞争者的出现机率降低，增加其正确答案与竞争者之间的鉴别能力，能够快速且准确地判断待测目标是否为特定目标，进而达到唤醒的功用。

10页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：极低功耗关键词唤醒神经网络电路

语音识别用于特定目标唤醒的方法及装置

相关技术

网友询问留言