端到端唤醒词检测方法及装置

文档序号:1244051 发布日期:2020-08-18 浏览:23次 >En<

阅读说明:本技术 端到端唤醒词检测方法及装置 (End-to-end awakening word detection method and device ) 是由 解传栋 胡博 刘忠亮 唐文琦 于 2019-01-24 设计创作,主要内容包括:本发明公开了一种端到端唤醒词检测方法及装置,所述方法包括:接收待检测语音;依次提取所述待检测语音中每个语音帧的声学特征;将提取的声学特征输入预先构建的声学模型,得到所述声学模型输出的每个语音帧中的目标发音单元的后验概率;将每个目标发音单元作为一个节点,并在所述目标发音单元前后插入虚拟静音节点,得到目标-时间关系矩阵;逐帧计算所述目标-时间关系矩阵中各节点的累积概率;根据所述矩阵中各节点的累积概率确定最优路径;根据所述最优路径确定唤醒词检测结果。利用本发明,可以提高检测结果的准确性,降低误唤醒率。(The invention discloses a method and a device for detecting an end-to-end awakening word, wherein the method comprises the following steps: receiving a voice to be detected; sequentially extracting the acoustic characteristics of each voice frame in the voice to be detected; inputting the extracted acoustic features into a pre-constructed acoustic model to obtain the posterior probability of a target pronunciation unit in each voice frame output by the acoustic model; taking each target pronunciation unit as a node, and inserting a virtual mute node in front of and behind the target pronunciation unit to obtain a target-time relation matrix; calculating the cumulative probability of each node in the target-time relation matrix frame by frame; determining an optimal path according to the cumulative probability of each node in the matrix; and determining a detection result of the awakening word according to the optimal path. By using the invention, the accuracy of the detection result can be improved, and the false wake-up rate can be reduced.)

端到端唤醒词检测方法及装置

技术领域

本发明涉及语音唤醒技术领域,具体涉及一种端到端唤醒词检测方法及装置。

背景技术

语音唤醒技术是指智能设备在休眠状态下检测到用户的特定语音(通常为设定的唤醒词)时,使设备进入等待状态,进而进入语音智能交互流程。语音唤醒的应用领域非常广泛,比如机器人、音箱、汽车等。评价语音唤醒效果的主要指标有唤醒率、误唤醒率,语音识别过程中解码器性能的优劣对其起着关键性作用。

目前,大多数智能设备使用的唤醒检测方法是基于端到端技术的唤醒词检测方法。传统的端到端模型中,解码器中的声学模型的输出一般是与发音单元对应,所述发音单元可以是词、字、或者音节。声学模型主要用于计算语音特征和每个发音模板之间的似然度,其输入为语音特征,输出为目标发音单元的后验概率。比如,输入一段语音,其中包含唤醒词“你好汪仔”,基于字的端到端声学模型输出为:“你”,“好”,“汪”,“仔”,“sil”和“other”六个输出的概率,其中“sil”表示静音输出,“other”表示非“你好汪仔”的其他语音输出。

现有的端到端唤醒词检测方法,是通过对声学模型输出的目标发音单元进行动态规划,然后通过寻找最优值,判断某个路径的最优值是否超过预先设定的阈值,然后决定是否唤醒。这种检测方法至少存在以下缺点:唤醒词检出率还有待提高,而且存在一定程度的误唤醒。

发明内容

本发明实施例提供一种端到端唤醒词检测方法及装置,以提高检测结果的准确性,降低误唤醒率。

为此,本发明提供如下技术方案:

一种端到端唤醒词检测方法,所述方法包括:

接收待检测语音;

依次提取所述待检测语音中每个语音帧的声学特征;

将提取的声学特征输入预先构建的声学模型,得到所述声学模型输出的每个语音帧中的目标发音单元的后验概率;

将每个目标发音单元作为一个节点,并在所述目标发音单元前后插入虚拟静音节点,根据所述目标发音单元的后验概率得到目标-时间关系矩阵;

逐帧计算所述目标-时间关系矩阵中各节点的累积概率;

根据所述矩阵中各节点的累积概率确定最优路径;

根据所述最优路径确定唤醒词检测结果。

可选地,所述声学模型为基于唤醒词中目标发音单元的端到端声学模型。

可选地,所述目标发音单元为音节、或字、或词。

可选地,所述方法还包括按以下方式构建所述声学模型:

收集唤醒词数据和非唤醒词数据;

分别对所述唤醒词数据和非唤醒词数据进行时间标记,得到帧级别标签数据;

利用所述帧级别标签数据训练得到所述声学模型。

可选地,所述分别对所述唤醒词数据和非唤醒词数据进行时间标记,得到帧级别标签数据包括:

确定唤醒词和非唤醒词的标签映射关系;

分别对所述唤醒词数据和非唤醒词数据进行对齐,得到所述唤醒词数据和非唤醒词数据中每个字与所述字占有的语音帧的对应关系;

根据所述标签映射关系及所述对应关系,分别将所述唤醒词数据和非唤醒词数据映射为标签形式,得到帧级别标签数据。

可选地,所述确定唤醒词和非唤醒词的标签映射关系包括:

将所述唤醒词的开始时间段和结束时间段使用静音表示;

对于所述唤醒词中的每个字按照位置顺序设定所述字对应的标签;

对于静音和唤醒词之外的其它词或字,设定对应的标签为0。

可选地,所述对所述唤醒词数据和非唤醒词数据进行对齐包括:

利用预先建立的对齐模型分别对所述唤醒词数据和非唤醒词数据进行对齐。

可选地,所述逐帧计算所述目标-时间关系矩阵中各节点的累积概率包括:

确定能够到达所述节点之前所有路径中的最优路径累计概率;

将所述最优路径累计概率与所述节点的概率相加,得到所述节点的累积概率。

可选地,所述根据所述矩阵中各节点的累积概率确定最优路径包括:

根据所述矩阵中各节点的累积概率计算各路径的得分,将得分最大的路径作为最优路径。

可选地,所述根据所述最优路径确定唤醒词检测结果包括:

所述最优路径上各目标发音单元对应的累积概率均大于设定的最大概率阈值,则确定检测到唤醒词。

可选地,所述根据所述最优路径确定唤醒词检测结果包括:

确定所述最优路径上各目标发音单元的起始位置和结束位置,根据所述累积概率及起始位置和结束位置计算所述目标发音单元的长度及平均概率;

根据所述最优路径上各目标发音单元的长度和/或平均概率确定是否满足设定条件;

如果是,则确定检测到唤醒词。

可选地,所述根据所述累积概率及起始位置和结束位置计算所述目标发音单元的长度及平均概率包括:

将所述目标发音单元的结束位置与起始位置相减得到所述目标发音单元的长度;

将对应所述结束位置的累积概率与对应所述起始位置的累积概率相减,然后除以所述目标发音单元的长度,得到所述目标发音单元的平均概率。

可选地,所述设定条件包括:

在设定区间内各目标发音单元的长度均大于设定的长度阈值;和/或

在设定区间内各目标发音单元的平均概率均大于设定的平均概率阈值。

一种端到端唤醒词检测装置,所述装置包括:

接收模块,用于接收待检测语音;

特征提取模块,用于依次提取所述待检测语音中每个语音帧的声学特征;

声学检测模块,用于将提取的声学特征输入预先构建的声学模型,得到所述声学模型输出的每个语音帧中的目标发音单元的后验概率;

矩阵构建模块,用于将每个目标发音单元作为一个节点,并在所述目标发音单元前后插入虚拟静音节点,根据所述目标发音单元的后验概率得到目标-时间关系矩阵;

计算模块,用于逐帧计算所述目标-时间关系矩阵中各节点的累积概率;

最优路径确定模块,用于根据所述矩阵中各节点的累积概率确定最优路径;

检测模块,用于根据所述最优路径确定唤醒词检测结果。

可选地,所述声学模型为基于唤醒词中目标发音单元的端到端声学模型。

可选地,所述目标发音单元为音节、或字、或词。

可选地,所述装置还包括:模型构建模块,用于构建所述声学模型;所述模型构建模块包括:

数据收集单元,用于收集唤醒词数据和非唤醒词数据;

标记单元,用于分别对所述唤醒词数据和非唤醒词数据进行时间标记,得到帧级别标签数据;

训练单元,用于利用所述帧级别标签数据训练得到所述声学模型。

可选地,所述标记单元包括:

映射关系确定单元,用于确定唤醒词和非唤醒词的标签映射关系;

对齐单元,用于分别对所述唤醒词数据和非唤醒词数据进行对齐,得到所述唤醒词数据和非唤醒词数据中每个字与所述字占有的语音帧的对应关系;

映射单元,用于根据所述标签映射关系及所述对应关系,分别将所述唤醒词数据和非唤醒词数据映射为标签形式,得到帧级别标签数据。

可选地,所述映射关系确定单元,具体用于将所述唤醒词的开始时间段和结束时间段使用静音表示;对于所述唤醒词中的每个字按照位置顺序设定所述字对应的标签;对于静音和唤醒词之外的其它词或字,设定对应的标签为0。

可选地,所述对齐单元,具体用于利用预先建立的对齐模型分别对所述唤醒词数据和非唤醒词数据进行对齐。

可选地,所述计算模块,具体用于确定能够到达所述节点之前所有路径中的最优路径累计概率,将所述最优路径累计概率与所述节点的概率相加,得到所述节点的累积概率。

可选地,所述最优路径确定模块,具体用于根据所述矩阵中各节点的累积概率计算各路径的得分,将得分最大的路径作为最优路径。

可选地,所述检测模块,具体用于断所述最优路径上各目标发音单元对应的累积概率是否均大于设定的最大概率阈值,如果是,则确定检测到唤醒词。

可选地,所述检测模块包括:

确定单元,用于确定所述最优路径上各目标发音单元的起始位置和结束位置,根据所述累积概率及起始位置和结束位置计算所述目标发音单元的长度及平均概率;

判断单元,用于根据所述最优路径上各目标发音单元的长度和/或平均概率确定是否满足设定条件,如果是,则确定检测到唤醒词。

可选地,所述确定单元将所述目标发音单元的结束位置与起始位置相减得到所述目标发音单元的长度;将对应所述结束位置的累积概率与对应所述起始位置的累积概率相减,然后除以所述目标发音单元的长度,得到所述目标发音单元的平均概率。

可选地,所述设定条件包括:

在设定区间内各目标发音单元的长度均大于设定的长度阈值;和/或

在设定区间内各目标发音单元的平均概率均大于设定的平均概率阈值。

一种计算机设备,包括:一个或多个处理器、存储器;

所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现前面所述的方法。

一种可读存储介质,其上存储有指令,所述指令被执行以实现前面所述的方法。

本发明实施例提供的端到端唤醒词检测方法及装置,在各目标发音单元前后插入虚拟静音节点,根据所述目标发音单元的后验概率得到目标-时间关系矩阵;逐帧计算所述目标-时间关系矩阵中各节点的累积概率;根据所述矩阵中各节点的累积概率确定最优路径;根据所述最优路径确定唤醒词检测结果。由于在目标发音单元之间添加了虚拟静音节点,从而使其更符合正常的发音规律,有效地提高了检测结果的准确性,提高了唤醒词的检出率,抑制了误唤醒现象。

在进行动态时间规划处理中,考虑到静音和唤醒词之外的其它词或字在动态时间规划中起到的作用并不明显,而且会与静音形成竞争关系,因此本发明对静音和唤醒词之外的其他词或字均表示为静音,避免了对静音表达的影响,进一步提高了检测结果的准确性。

进一步地,在训练声学模型时,利用对齐模型分别对唤醒词数据和非唤醒词数据进行对齐,得到训练数据的时间信息,进而得到帧级别标签数据,利用所述帧级加标签数据训练得到所述声学模型,相比于现有技术中通过人工进行时间信息标注,大大节省了人力资源,提高了模型训练效率。

进一步地,通过对目标发音单元长度和/或平均概率等条件的限制,有效地降低了误唤醒。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。

图1是本发明实施例中构建声学模型的流程图;

图2是本发明实施例端到端唤醒词检测方法的一种流程图;

图3是本发明实施例中端到端HMM转移逻辑示意图;

图4是本发明实施例端到端唤醒词检测方法的另一种流程图;

图5是本发明实施例端到端唤醒词检测装置的一种结构框图;

图6是本发明实施例中模型构建模块的一种结构框图;

图7是本发明实施例端到端唤醒词检测装置的另一种结构框图;

图8是根据一示例性实施例示出的一种用于端到端唤醒词检测方法的装置的框图;

图9是本发明实施例中服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。

本发明实施例提供一种端到端唤醒词检测方法及装置,根据声学模型输出的各目标发音单元的后验概率,在进行动态时间规划时,在所述目标发音单元前后插入虚拟静音节点,逐帧计算各目标发音单元的累积概率,然后根据所述累积概率确定最优路径,根据所述最优路径确定唤醒词检测结果。

下面首先对本发明实施例中声学模型的训练过程进行详细说明。

如图1所示,是本发明实施例中构建声学模型的一种流程图,包括以下步骤:

步骤101,收集唤醒词数据和非唤醒词数据。

所述唤醒词数据是指包含设定的唤醒词的语音数据,所述非唤醒词数据是指不包含所述唤醒词的语音数据。通常要求非唤醒词数据的总时长与唤醒词数据的总时长相同或大于唤醒词数据的总时长,比如时长比例为2:1或3:1。

步骤102,分别对所述唤醒词数据和非唤醒词数据进行时间标记,得到帧级别标签数据。

首先,需要确定唤醒词和非唤醒词的标签映射关系。在本发明实施例中,将所述唤醒词的开始时间段和结束时间段使用静音表示;对于所述唤醒词中的每个字按照位置顺序设定所述字对应的标签,例如,对于唤醒词“你好汪仔”,其中各字对应的标签分别为1、2、3、4,对应的标签映射关系为(1-2-3-4);对于静音和唤醒词之外的其它词或字,设定对应的标签为0,对应的标签映射关系为(-0/0-/-0-)。

其次,分别对所述唤醒词数据和非唤醒词数据进行对齐,得到所述唤醒词数据和非唤醒词数据中每个字与所述字占有的语音帧的对应关系,也就是说,每个字占有的哪几帧。

在本发明实施例中,可以利用预先建立的对齐模型分别对所述唤醒词数据和非唤醒词数据进行对齐。所述对齐模型为状态级的语音识别模型,具体可以采用神经网络模型,比如DNN-HMM模型,利用所述唤醒词数据和非唤醒词数据进行训练得到。

最后,根据所述标签映射关系及所述对应关系,分别将所述唤醒词数据和非唤醒词数据映射为标签形式,得到帧级别标签数据。

步骤103,利用所述帧级别标签数据训练得到所述声学模型。

所述声学模型可以采用神经网络模型,比如DNN-HMM模型。所述声学模型的输入为当前帧中提取的声学特征,输出为当前帧中目标发音单元的后验概率。

以“你好汪仔”为例,目标发音单元为(0-1-2-3-4),所述声学模型的输出为这些目标发音单元对应的后验概率。

利用对齐模型分别对唤醒词数据和非唤醒词数据进行对齐,相比于现有技术中通过人工进行时间信息标注的方式,可以大大节省人力资源,提高模型训练效率。

利用所述声学模型,可以得到待检测语音的每个语音帧中各目标发音单元的后验概率。

如图2所示,是本发明实施例端到端唤醒词检测方法的流程图,包括以下步骤:

步骤201,接收待检测语音。

比如,可以通过麦克风接收,所述麦克风可以设置在待唤醒设备上,也可以设置在待唤醒设备的控制器比如遥控器上。

步骤202,依次提取所述待检测语音中每个语音帧的声学特征。

对接收的待检测语音需要进行分帧处理,另外,还可以对分帧后的语音数据进行预加重处理,以增加语音的高频分辨率。

所述声学特征可以是MFCC(Mel-Frequency CepstralCoefficients,梅尔频率倒谱系数)特征、或者PLP(Linear Predictive Coding,线性预测分析)特征、或者Filterbank特征等,这些声学特征的提取可以采用现有技术,在此不再赘述。

步骤203,将提取的声学特征输入预先构建的声学模型,得到所述声学模型输出的每个语音帧中各目标发音单元的后验概率。

在本发明实施例中,所述声学模型为基于唤醒词中目标发音单元的端到端声学模型,具体可以采用DNN(Deep Neural Networks,深度神经网络),比如,FFNN(Feed ForwardNeural Network,前馈神经网络)、CNN(Convolutional Neural Network,卷积神经网络)、RNN(Recurrent Neural Network,循环神经网络)中的一种或多种的组合形式。所述声学模型的输入为从当前帧中提取的声学特征,输出为当前帧中目标发音单元的后验概率。

所述声学模型可以利用收集的大量语音数据进行训练得到,具体训练过程将在后面详细描述。

所述目标发音单元是指唤醒词的一个发音单位,具体可以是音节、字、或者词。

步骤204,将每个目标发音单元作为一个节点,并在所述目标发音单元前后插入虚拟静音节点,根据所述目标发音单元的后验概率得到目标-时间关系矩阵。

所述目标-时间关系矩阵为DTW(Dynamic Time Warping,动态时间归整)矩阵,其纵轴为各节点,以“你好汪仔”为例,其对应的标签为1-2-3-4,在各目标发音单元前后插入虚拟静音节点后形式为(0-1-0-2-0-3-0-4-0);横轴为以帧为单位的时间,纵轴与横轴的交点即为每个节点的值,为该节点的后验概率与其权重的乘积。为了便于描述,后面将矩阵中每个节点的值称为该节点的概率。

步骤205,逐帧计算所述目标-时间关系矩阵中各节点的累积概率。

在本发明实施例中,采用动态规划方法,分别计算所述目标-时间关系矩阵中每个节点(包括虚拟静音节点和目标发音单元)的累积概率,每个节点的累积概率为能够到达该节点之前所有路径中最优路径累计概率和当前节点的概率之和。具体地,可以先确定能够到达所述节点之前所有路径中的最优路径累计概率,然后将所述最优路径累计概率与所述节点的概率相加,得到所述节点的累积概率。

如图3所示,由于添加了虚拟静音节点,在动态规划时,对于能够到达每个目标发音单元的路径不仅包括前一目标发音单元至该目标发音单元的路径,还包括前一虚拟静音节点至该目标发音单元的路径。

假设用state[]表示节点集合,即标签集合,则计算公式如下:

1)对于虚拟静音节点,即sil_state=0时,

dp[i][t]=max(dp[i][t-1],dp[i-1][t-1])+out[i][t];

其中,dp[i][t]表示第i个节点(该节点为虚拟静音节点)在第t帧的累积概率,dp[i][t-1]表示第i个节点(该节点为虚拟静音节点)在第t-1帧的累积概率,dp[i-1][t-1]表示第i-1个节点(该节点为目标发音单元)在第t-1帧的累积概率,out[i][t]表示第i个节点(该节点为虚拟静音节点)在第t帧的概率。

也就是说,选取上一帧该虚拟静音节点的累积概率、上一帧前一目标发音单元节点的累积概率这两者中的最大值作为截止到上一帧该虚拟静音节点的累积概率,并将截止到上一帧该虚拟静音节点的累积概率加上当前帧该虚拟静音节点的概率作为截止到当前帧该虚拟静音节点的累积概率。

2)对于第一个目标发音单元节点,即sil_state≠0,并且i=1时,计算公式与上述类似。

也就是说,选取上一帧该目标发音单元节点的累积概率、上一帧前一虚拟静音节点的累积概率这两者中的最大值作为截止到上一帧该目标发音单元节点的累积概率,并将截止到上一帧该目标发音单元节点的累积概率加上当前帧该目标发音单元节点的概率作为截止到当前帧该目标发音单元节点的累积概率。

3)对于其它目标发音单元节点,即sil_state≠0,并且i>1时,

dp[i][t]=max{max(dp[i][t-1],dp[i-1][t-1]),dp[i-2][t-1]}+out[i][t];

其中,dp[i][t]表示第i个节点(该节点为目标发音单元节点)在第t帧的累积概率,dp[i][t-1]表示第i个节点(该节点为目标发音单元节点)在第t-1帧的累积概率,dp[i-1][t-1]表示第i-1个节点(该节点为虚拟静音单元)在第t-1帧的累积概率,dp[i-2][t-1]表示第i-2个节点(该节点为目标发音单元)在第t-1帧的累积概率,out[i][t]表示第i个节点(该节点为目标发音单元节点)在第t帧的概率。

也就是说,选取上一帧该目标发音单元节点的累积概率、上一帧前一目标发音单元节点的累积概率、上一帧前一虚拟静音节点的累积概率这三者中的最大值作为截止到上一帧该目标发音单元节点的累积概率,并将截止到上一帧该目标发音单元节点的累积概率加上当前帧该目标发音单元节点的概率作为截止到当前帧该目标发音单元节点的累积概率。

步骤206,根据所述矩阵中各节点的累积概率确定最优路径。

具体地,可以根据所述矩阵中各节点的累积概率计算各路径的得分,将得分最大的路径作为最优路径。

步骤207,根据所述最优路径确定唤醒词检测结果。

比如,可以判断所述最优路径上各目标发音单元对应的累积概率是否均大于设定的最大概率阈值,如果是,则确定检测到唤醒词;否则确定未检测到唤醒词。

本发明实施例提供的端到端唤醒词检测方法,在各目标发音单元前后插入虚拟静音节点,得到目标-时间关系矩阵;根据声学模型输出的每个语音帧中的目标发音单元的后验概率,逐帧计算所述目标-时间关系矩阵中各节点的累积概率;根据所述矩阵中各节点的累积概率确定最优路径;根据所述最优路径确定唤醒词检测结果。由于在目标发音单元之间添加了虚拟静音节点,从而使其更符合正常的发音规律,有效地提高了检测结果的准确性,提高了唤醒词的检出率,抑制了误唤醒现象。

在进行动态时间规划处理中,考虑到静音和唤醒词之外的其它词或字在动态时间规划中起到的作用并不明显,而且会与静音形成竞争关系,因此对静音和唤醒词之外的其他词或字均表示为静音,避免了对静音表达的影响,进一步提高了检测结果的准确性。

如图4所示,是本发明实施例端到端唤醒词检测方法的另一种流程图,包括以下步骤:

步骤401,接收待检测语音。

步骤402,依次提取所述待检测语音中每个语音帧的声学特征。

步骤403,将提取的声学特征输入预先构建的声学模型,得到所述声学模型输出的每个语音帧中各目标发音单元的后验概率。

步骤404,构建目标-时间关系矩阵,并利用动态规划算法确定最优路径。

所述目标-时间关系矩阵的构建方式、以及最优路径的确定过程可参见图2所示的步骤204至步骤206,在此不再赘述。

步骤405,确定所述最优路径上各目标发音单元的起始位置和结束位置,根据所述累积概率及起始位置和结束位置计算所述目标发音单元的长度及平均概率。

在动态规划过程中,累积概率计算到最后一帧后,逐帧回溯确定各帧中是否包含相应的目标发音单元。具体地,如果当前帧中该目标发音单元的概率大于设定的输出阈值,则确定当前帧中包含该目标发音单元。这样,回溯到起始帧后,即可得到所有包含该目标发音单元的各帧,进而可以得到各目标发音单元的起始位置和结束位置,将所述目标发音单元的结束位置与起始位置相减即可得到所述目标发音单元的长度。

相应地,对于每个目标发音单元,将对应其结束位置的累积概率与对应其起始位置的累积概率相减,然后除以所述目标发音单元的长度,即可得到所述目标发音单元的平均概率。

步骤406,根据所述最优路径上各目标发音单元的长度和/或平均概率确定是否满足设定条件;如果是,则执行步骤407;否则,执行步骤408。

在本发明实施例中,所述设定条件可以是:在设定区间内各目标发音单元的长度均大于设定的长度阈值;和/或在设定区间内各目标发音单元的平均概率均大于设定的平均概率阈值。

步骤407,确定检测到唤醒词。

步骤408,确定未检测到唤醒词。

本发明实施例提供的端到端唤醒词检测方法,通过进一步限制各目标发音单元的长度及平均概率,可以有效地降低误唤醒率。

当然,在实际应用中,还可以限制非静音总长度(比如可以根据不同语速来确定唤醒词的长度阈值)及平均概率、静音总长度、字或词之间的静音长度等,保证在更符合正常说话风格的情况下进行唤醒操作。

本发明实施例提供的端到端唤醒词检测方法,可以应用于多种智能设备,如家居设备、音箱、平板电脑、手机、穿戴设备、机器人、玩具等,可以使所述智能设备在休眠或锁屏状态下也能准确检测到用户的语音指令,即唤醒词,使处于休眠状态下的设备直接进入到等待指令状态或者直接执行语音指令对应的操作。

相应地,本发明实施例还提供一种端到端唤醒词检测装置,如图5所示,是该装置的一种结构框图。

在该实施例中,所述端到端唤醒词检测装置包括以下各模块:

接收模块501,用于接收待检测语音;

特征提取模块502,用于依次提取所述待检测语音中每个语音帧的声学特征;具体可以先对接收模块501接收的语音进行分帧操作,得到各语音帧,然后提取各语音帧的声学特征,所述声学特征可以是MFCC特征、或者PLP特征、或者Filterbank特征等,这些声学特征的提取可以采用现有技术,在此不再赘述;

声学检测模块503,用于将提取的声学特征输入预先构建的声学模型,得到所述声学模型输出的每个语音帧中的目标发音单元的后验概率;所述目标发音单元是指唤醒词的一个发音单位,具体可以为音节、或字、或词;

矩阵构建模块504,用于将每个目标发音单元作为一个节点,并在所述目标发音单元前后插入虚拟静音节点,根据所述目标发音单元的后验概率得到目标-时间关系矩阵;

计算模块505,用于逐帧计算所述目标-时间关系矩阵中各节点的累积概率;

最优路径确定模块506,用于根据所述矩阵中各节点的累积概率确定最优路径;具体地,可以根据所述矩阵中各节点的累积概率计算各路径的得分,将得分最大的路径作为最优路径;

检测模块507,用于根据所述最优路径确定唤醒词检测结果;比如,可以判断所述最优路径上各目标发音单元对应的累积概率是否均大于设定的最大概率阈值,如果是,则确定检测到唤醒词;否则确定未检测到唤醒词。

在本发明实施例中,所述声学模型为基于唤醒词中目标发音单元的端到端声学模型,具体可以采用DNN,比如,FFNN、CNN、RNN中的一种或多种的组合形式。所述声学模型的输入为从当前帧中提取的声学特征,输出为当前帧中目标发音单元的概率。

所述声学模型可以预先由相应的模型构建模块利用收集的大量语音数据进行训练得到,所述语音数据包括唤醒词数据和非唤醒词数据。所述模型构建模块可以集成于该装置中,也可以独立于该装置,对此本发明实施例不做限定。

所述模型构建模块的一种结构框图如图6所示,包括以下各单元:

数据收集单元61,用于收集唤醒词数据和非唤醒词数据;

标记单元62,用于分别对所述唤醒词数据和非唤醒词数据进行时间标记,得到帧级别标签数据;

训练单元63,用于利用所述帧级别标签数据训练得到所述声学模型。

所述标记单元62具体可以包括:映射关系确定单元、对齐单元、映射单元。其中:

所述映射关系确定单元用于确定唤醒词和非唤醒词的标签映射关系,在本发明实施例中,可以将所述唤醒词的开始时间段和结束时间段使用静音表示;对于所述唤醒词中的每个字按照位置顺序设定所述字对应的标签;对于静音和唤醒词之外的其它词或字,设定对应的标签为0,不再设定传统的other标签。

所述对齐单元用于分别对所述唤醒词数据和非唤醒词数据进行对齐,比如利用预先建立的对齐模型分别对所述唤醒词数据和非唤醒词数据进行对齐,得到所述唤醒词数据和非唤醒词数据中每个字与所述字占有的语音帧的对应关系;

所述映射单元用于根据所述标签映射关系及所述对应关系,分别将所述唤醒词数据和非唤醒词数据映射为标签形式,得到帧级别标签数据。

在本发明实施例中,利用对齐模型分别对唤醒词数据和非唤醒词数据进行对齐,相比于现有技术中通过人工进行时间信息标注的方式,可以大大节省人力资源,提高模型训练效率。所述对齐模型可以采用神经网络模型,比如DNN-HMM模型,利用所述唤醒词数据和非唤醒词数据进行训练得到。

所述声学模型可以采用神经网络模型,比如DNN-HMM模型。所述声学模型的输入为当前帧中提取的声学特征,输出为当前帧中目标发音单元的后验概率。

利用所述声学模型得到的各目标发音单元的后验概率,图5中的所述计算模块505在计算所述目标-时间关系矩阵中各节点的累积概率时,首先确定能够到达所述节点之前所有路径中的最优路径累计概率,然后将所述最优路径累计概率与所述节点的概率相加,得到所述节点的累积概率。具体计算方式可以参照前面本发明方法实施例中的描述,在此不再赘述。

本发明实施例提供的端到端唤醒词检测装置,在各目标发音单元前后插入虚拟静音节点,得到目标-时间关系矩阵;根据声学模型输出的每个语音帧中的目标发音单元的后验概率,逐帧计算所述目标-时间关系矩阵中各节点的累积概率;根据所述矩阵中各节点的累积概率确定最优路径;根据所述最优路径确定唤醒词检测结果。由于在目标发音单元之间添加了虚拟静音节点,从而使其更符合正常的发音规律,有效地提高了检测结果的准确性,提高了唤醒词的检出率,抑制了误唤醒现象。

在进行动态时间规划处理中,考虑到静音和唤醒词之外的其它词或字在动态时间规划中起到的作用并不明显,而且会与静音形成竞争关系,因此对静音和唤醒词之外的其他词或字均表示为静音,避免了对静音表达的影响,进一步提高了检测结果的准确性。

如图7所示,是本发明实施例端到端唤醒词检测装置的另一种结构框图。

与图5所示实施例的区别在于,在该实施例中,所述检测模块507包括:确定单元571和判断单元572。其中:

所述确定单元571用于确定所述最优路径上各目标发音单元的起始位置和结束位置,根据所述累积概率及起始位置和结束位置计算所述目标发音单元的长度及平均概率。

所述确定单元571具体可以在所述计算模块505计算各节点的累积概率到最后一帧后,逐帧回溯确定各帧中是否包含相应的目标发音单元。具体地,如果当前帧中该目标发音单元的概率大于设定的输出阈值,则确定当前帧中包含该目标发音单元。这样,回溯到起始帧后,即可得到所有包含该目标发音单元的各帧,进而可以得到各目标发音单元的起始位置和结束位置,将所述目标发音单元的结束位置与起始位置相减即可得到所述目标发音单元的长度。另外,对于每个目标发音单元,将对应其结束位置的累积概率与对应其起始位置的累积概率相减,然后除以所述目标发音单元的长度,即可得到所述目标发音单元的平均概率。

所述判断单元572用于根据所述最优路径上各目标发音单元的长度和/或平均概率确定是否满足设定条件,如果是,则确定检测到唤醒词。

在本发明实施例中,所述设定条件可以是:在设定区间内各目标发音单元的长度均大于设定的长度阈值;和/或在设定区间内各目标发音单元的平均概率均大于设定的平均概率阈值。

本发明实施例提供的端到端唤醒词检测装置,通过进一步限制各目标发音单元的长度及平均概率,可以有效地降低误唤醒率。

当然,在实际应用中,还可以限制非静音总长度(比如可以根据不同语速来确定唤醒词的长度阈值)及平均概率、静音总长度、字或词之间的静音长度等,保证在更符合正常说话风格的情况下进行唤醒操作。

本发明实施例提供的端到端唤醒词检测装置,可以应用于多种智能设备,如家居设备、音箱、平板电脑、手机、穿戴设备、机器人、玩具等,可以使所述智能设备在休眠或锁屏状态下也能准确检测到用户的语音指令,即唤醒词,使处于休眠状态下的设备直接进入到等待指令状态或者直接执行语音指令对应的操作。

需要说明的是,在本发明实施例的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明实施例的描述中,除非另有说明,“多个”的含义表示两个或两个以上。

图8是根据一示例性实施例示出的一种用于端到端唤醒词检测方法的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。

参照图8,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。

处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。

电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。

在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行上述各方法实施例中的部分或全部步骤,以降低误唤醒率。。

图9是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

23页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种面向中文语音识别的语言模型建模方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!