一种词边界估计方法、装置及电子设备

文档序号：936948 发布日期：2021-03-05 浏览：18次 >En<

阅读说明：本技术 一种词边界估计方法、装置及电子设备 (Word boundary estimation method and device and electronic equipment ) 是由陈孝良王江冯大航常乐于 2019-09-04 设计创作，主要内容包括：本发明提供一种词边界估计方法、装置及电子设备,获取待进行语音识别的语音数据；对所述语音数据分帧,并提取每一帧语音的声学特征；对于每一帧语音,计算所述声学特征在各声学建模单元上的后验概率；基于所述后验概率,在WFST模型中搜索,得到所述语音数据的识别结果及识别结果中每一词的词尾时间边界。即通过本发明,可以实现对语音识别过程中的每个词添加时间边界信息。(The invention provides a word boundary estimation method, a word boundary estimation device and electronic equipment, which are used for acquiring voice data to be subjected to voice recognition; framing the voice data, and extracting acoustic features of each frame of voice; for each frame of voice, calculating posterior probability of the acoustic features on each acoustic modeling unit; and searching in a WFST model based on the posterior probability to obtain the recognition result of the voice data and the time boundary of the tail of each word in the recognition result. Namely, the invention can realize that time boundary information is added to each word in the speech recognition process.)

一种词边界估计方法、装置及电子设备

技术领域

本发明涉及语音识别领域，更具体的说，涉及一种词边界估计方法、装置及电子设备。

背景技术

语音识别中的词边界估计，属于语音识别技术领域。对于一段给定的语音信号，我们可以通过语音识别技术得到对应的文本信息。

但是在一些特定场景下，需要在识别的过程中，对每个词添加准确的时间边界信息。比如，客服场景中，我们通过语音识别技术转录的文本中发现客服人员说了一些不文明的言语词汇，此时可以根据为词添加的时间边界信息快速定位到对应词在录音中的位置。

发明内容

有鉴于此，本发明提供一种词边界估计方法、装置及电子设备，以解决亟需对语音识别过程中的每个词添加时间边界信息的问题。

为解决上述技术问题，本发明采用了如下技术方案：

一种词边界估计方法，包括：

获取待进行语音识别的语音数据；

对所述语音数据分帧，并提取每一帧语音的声学特征；

对于每一帧语音，计算所述声学特征在各声学建模单元上的后验概率；

基于所述后验概率，在WFST模型中搜索，得到所述语音数据的识别结果及识别结果中每一词的词尾时间边界；所述词尾时间边界基于空边确定；所述空边输出为空。

可选地，基于所述后验概率，在WFST模型中搜索，得到所述语音数据的识别结果及识别结果中每一词的词尾时间边界，包括：

获取所述WFST模型中的WFST优化模型；所述WFST优化模型识别出所述语音数据中的词语的结尾时间与实际结尾时间不一致；

在WFST优化模型搜索过程中，将当前词语的WFST输出保存在令牌中；所述令牌包括：输出词以及输出词的时间信息；

判断是否确定出当前词语的词尾时间边界；

若确定出当前词语的词尾时间边界，更新所述令牌中保存的内容。

可选地，所述确定出当前词语的词尾时间边界，包括：

获取紧邻当前词语输出的一组空边；

将一组所述空边中最后一个输出为空的边对应的所述令牌中的时间信息的末尾时间作为所述当前词语的词尾时间边界。

可选地，基于所述后验概率，在WFST优化模型中搜索，得到所述语音数据的识别结果及识别结果中每一词的词尾时间边界，还包括：

判断是否确定出识别结果中每一词的词尾时间边界；

若否，返回执行所述在WFST优化模型搜索过程中，将当前词语的WFST输出保存在令牌中这一步骤。

可选地，若判断出已确定出所述语音数据的识别结果中每一词的词尾时间边界之后，还包括：

选取当前时刻所有令牌中代价最小的令牌中的输出结果作为所述语音数据的语音识别结果；所述语音识别结果包括：所述语音数据的识别结果及识别结果中每一词的词尾时间边界。

可选地，所述空边的输入为空。

可选地，基于所述后验概率，在WFST模型中搜索，得到所述语音数据的识别结果及识别结果中每一词的词尾时间边界，包括：

获取所述WFST模型中的WFST优化模型；所述WFST优化模型识别出所述语音数据中的词语的结尾时间与实际结尾时间不一致；

在WFST优化模型搜索过程中，若识别出语音数据中的词语的语音识别结果，将得到所述语音识别结果的时间作为所述词语的词尾时间边界。

一种词边界估计装置，包括：

数据获取模块，用于获取待进行语音识别的语音数据；

特征提取模块，用于对所述语音数据分帧，并提取每一帧语音的声学特征；

概率计算模块，用于对于每一帧语音，计算所述声学特征在各声学建模单元上的后验概率；

时间确定模块，用于基于所述后验概率，在WFST模型中搜索，得到所述语音数据的识别结果及识别结果中每一词的词尾时间边界；所述词尾时间边界基于空边确定；所述空边输出为空。

可选地，所述时间确定模块包括：

模型获取子模块，用于获取所述WFST模型中的WFST优化模型；所述WFST优化模型识别出所述语音数据中的词语的结尾时间与实际结尾时间不一致；

信息保存子模块，用于在WFST优化模型搜索过程中，将当前词语的WFST输出保存在令牌中；所述令牌包括：输出词以及输出词的时间信息；所述WFST模型包括所述WFST优化模型、且所述WFST优化模型识别出所述语音数据中的词语的结尾时间与实际结尾时间不一致；

第一判断子模块，用于判断是否确定出当前词语的词尾时间边界；

更新子模块，用于若确定出当前词语的词尾时间边界，更新所述令牌中保存的内容。

可选地，所述第一判断子模块包括：

空边获取单元，用于获取紧邻当前词语输出的一组空边；

时间确定单元，用于将一组所述空边中最后一个输出为空的边对应的所述令牌中的时间信息的末尾时间作为所述当前词语的词尾时间边界。

可选地，所述时间确定模块还包括：

第二判断子模块，用于判断是否确定出识别结果中每一词的词尾时间边界；

所述信息保存子模块，还用于若所述第二判断子模块判断出未确定出识别结果中每一词的词尾时间边界，在WFST优化模型搜索过程中，将当前词语的WFST输出保存在令牌中。

可选地，所述时间确定模块还包括：

结果确定子模块，用于选取当前时刻所有令牌中代价最小的令牌中的输出结果作为所述语音数据的语音识别结果；所述语音识别结果包括：所述语音数据的识别结果及识别结果中每一词的词尾时间边界。

可选地，所述时间确定模块用于基于所述后验概率，在WFST模型中搜索，得到所述语音数据的识别结果及识别结果中每一词的词尾时间边界时，具体用于：

获取所述WFST模型中的WFST优化模型，在WFST优化模型搜索过程中，若识别出语音数据中的词语的语音识别结果，将得到所述语音识别结果的时间作为所述词语的词尾时间边界；所述WFST优化模型识别出所述语音数据中的词语的结尾时间与实际结尾时间不一致。

一种电子设备，包括：存储器和处理器；

其中，所述存储器用于存储程序；

处理器调用程序并用于：

获取待进行语音识别的语音数据；

对所述语音数据分帧，并提取每一帧语音的声学特征；

对于每一帧语音，计算所述声学特征在各声学建模单元上的后验概率；

相较于现有技术，本发明具有以下有益效果：

本发明提供一种词边界估计方法、装置及电子设备，获取待进行语音识别的语音数据；对所述语音数据分帧，并提取每一帧语音的声学特征；对于每一帧语音，计算所述声学特征在各声学建模单元上的后验概率；基于所述后验概率，在WFST模型中搜索，得到所述语音数据的识别结果及识别结果中每一词的词尾时间边界。即通过本发明，可以实现对语音识别过程中的每个词添加时间边界信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的WFST模型的内部结构示意图；

图2为本发明实施例提供的一种词边界估计方法的方法流程图；

图3为本发明实施例提供的另一种词边界估计方法的方法流程图；

图4为本发明实施例提供的一种词边界估计装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种词边界估计方法，该词边界估计方法主要依赖加权有限状态转换器WFST模型，现对WFST模型进行解释说明。

WFST模型通常由以下几个基本模块所构成：

1、声学模型；语音识别系统多采用基于一阶隐马尔科夫模型(HMM)进行建模。声学模型本身定义了一些更具推广性的声学建模单元。一般来说，一个HMM由多个状态组成，状态就是声学模型的最小建模单元。

2、发音词典；发音词典包含语音识别系统所能处理的词汇集及其发音。发音词典实际提供了声学模型与语言模型的映射。

3、语言模型；语言模型对语音识别系统所针对的语言进行建模，建立语言词汇之间相关性。通常情况下，规则语言模型、统计语言模型都可以作为语音识别语言模型。在实际应用中，有限资源的离线命令词识别系统基于规则的语言模型，大词汇量连续语音识别系统基于统计语言模型，包括并不限于N元文法模型、递归神经网络模型等。

4、解码器；解码器是语音识别系统的核心之一，其任务是对输入的信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串。从数学角度可以更加清楚的了解上述模块之间的关系。

在本发明实施例中，可以使用GMM(GaussianMixtureModel，高斯混合模型)和DNN(DeepNeuralNetworks，深度神经网络模型)建模出的声学模型中建模单元的分类模型。

由于HMM(HiddenMarkovModel，隐马尔可夫模型)模型能够很好地描述语音的时变性和短时平稳性，已被广泛应用于大词表连续语音识别系统的声学建模。

本发明对现有的WSFT进行了进一步的改进，使其能够识别语音数据中每一词的词尾时间边界。

参照图1，WFST是一种用于大规模的语音识别的加权有限状态转换器，每一个状态转换均用输入A和输出B符号标记。因此，所构建的网络(WFST)用于生成从输入符号序列或字符串到输出字符串的映射。WFST除了输入和输出符号之外还对状态转换进行加权。权重值可以是编码概率，持续时间或沿路径积累的任何其他数量，如图3中的0.5，以计算将输入字符串映射到输出字符串的总体权重。WFST用于语音识别通常是表示在语音处理中输入语音信号后输出识别结果的各种可能的路径选择及其相应的概率。

参照图2，词边界估计方法可以包括：

S11、获取待进行语音识别的语音数据的声学特征。

在具体实现中，用户可以通过配置有麦克风等声卡设备的电子设备输入语音数据。

其中，该电子设备可以为移动设备，如手机、平板电脑、个人数字助理、穿戴设备(如眼镜、手表等)等等，也可以为固定设备，如个人电脑、智能电视、智能家居/家电(如空调、电饭煲)等等，本发明实施例对此不加以限制。

S12、对所述语音数据分帧，并提取每一帧语音的声学特征。

在获取到语音数据之后，对该语音数据进行分帧，并提取每一帧子语音的声学特征。声学特征可以包括：MFCC、Fbank等。

S13、对于每一帧语音，计算所述声学特征在各声学建模单元上的后验概率。

本实施例中，采用深度神经网络算法DNN估计每一帧语音在各声学建模单元上的后验概率。DNN是通过大量的数据训练得到，DNN的输入为声学特征，输入为后验概率。后验概率是指WFST的边的权重值，用来寻找最优路径。

S14、基于所述后验概率，在WFST模型中搜索，得到所述语音数据的识别结果及识别结果中每一词的词尾时间边界。

本实施例中的WFST模型即为上述介绍的WFST模型。所述词尾时间边界基于空边确定；空边对应的最后末尾时间为所述当前词语的词尾时间边界。另外，空边的输出为空，若词尾的前边非停顿，即前边是连续的词语，如吃饭，吃和饭之间无停顿，则所述空边输入不为空。若吃和饭之间有停顿，如停顿1秒，则空边输入也为空。

本公开的实施例中，在WFST模型中进行搜索过程中出现输出为空的情况时：

当输入为空时，则很可能为语音中的停顿；输入不为空时，可能为无意义的语音词(类似停顿)，或是识别出有效信息后的冗余尾音，都可以此来确定词尾。通常情况下，如果确认为停顿，同时在此停顿前通过WFST模型识别出了一个完整的词，则可以确认此为词尾；如果是识别出有效信息后的冗余尾音，则很可能为WFST优化算法中提前识别出了语音信息，也即输入不为空在WFST优化算法中较常见，其具体确认词尾时间办法见后述方案。

本实施例中，获取待进行语音识别的语音数据；对所述语音数据分帧，并提取每一帧语音的声学特征；对于每一帧语音，计算所述声学特征在各声学建模单元上的后验概率；基于所述后验概率，在WFST模型中搜索，得到所述语音数据的识别结果及识别结果中每一词的词尾时间边界。即通过本发明，可以实现对语音识别过程中的每个词添加时间边界信息。

另外，当前对于识别过程中词时间边界估计方面，方法是构建一个HCLG的解码图，在解码过程中，保存每一时刻的词图lattice信息，等解码完成后，回溯lattice得到对应的识别结果及识别结果的时间边界信息。具体的：基于所述后验概率，在WFST模型中搜索，得到所述语音数据的识别结果及识别结果中每一词的词尾时间边界，包括：

获取所述WFST模型中的WFST优化模型，在WFST优化模型搜索过程中，若识别出语音数据中的词语的语音识别结果，将得到所述语音识别结果的时间作为所述词语的词尾时间边界。其中，所述WFST模型包括所述WFST优化模型，WFST优化模型不需要完全对语音每一帧进行维特比搜索，即不需要搜索到实际的语音词尾即可获得最终结果，实现语音识别，也正是因为这样导致了语音识别标记的词尾信息和实际的词尾信息不一致。也即所述WFST优化模型识别出所述语音数据中的词语的结尾时间与实际结尾时间不一致，一般识别的词语的结尾时间早于实际结尾时间。WFST优化模型使用的优化算法可以是output push算法，或者weight push算法。WFST中的优化操作，包括空转移去除(epsilon removal)，确定化操作(determinization)，权重推移(weight pushing)和最小化操作(minimization)。本实施例中产生时间位移的是权重推移(weight pushing)。

举例来说，假设语音为我们，women，在进行语音识别时，在识别到men中的e时，即可识别到语音“我们”的语音识别结果为文字“我们”。则将这一时刻作为“我们”的词尾时间边界。但是在实际上，语音“我们”并没有结果，即WFST边上的输出做了前移，也就是说标记的词尾时间并不是真正的词尾时间。

另外，这种解码方式，对于一段较长的识别任务，生成的lattice的规模会随着时间的增长而增大，系统消耗的内存会越来越大，回收lattice中的死路经的时间开销也会逐渐增大。本发明进一步，我们在解码过程中去掉lattice的生成过程，在令牌传递过程中，解码结果直接保存在令牌中，遇到有词输出时，标记当前时间为对应词尾时间，当词出现时，我们并不会把当前时间当作词尾时间，而是在之后的若干帧中实时更新当前词的时间边界信息，如果当前输出是空，则更新当前时间为当前词的时间边界，直到遇到下一个词为止。

本发明的另一实施例中，对步骤S14“基于所述后验概率，在WFST模型中搜索，得到所述语音数据的识别结果及识别结果中每一词的词尾时间边界”进行详细介绍，参照图3，具体包括：

S24、获取所述WFST模型中的WFST优化模型；所述WFST优化模型识别出所述语音数据中的词语的结尾时间与实际结尾时间不一致。

S25、在WFST优化模型搜索过程中，将当前词语的WFST输出保存在令牌中。

所述WFST模型包括所述WFST优化模型、且所述WFST优化模型识别出所述语音数据中的词语的结尾时间与实际结尾时间不一致。WFST优化模型即为上述的WFST优化模型。

所述令牌包括：输出词以及输出词的时间信息，即本实施例中采用令牌传递的方式进行输出词以及输出词的时间信息，令牌中保存的就是当前识别的词语的识别结果以及识别时间。

所述的令牌可能为多个，在WFST中进行搜索时，为每一条WFST搜索路径都配置一个令牌以保存时间信息，即令牌的数量与搜索路径的数量相同。当一次WFST运算完毕，会从所有的可能中保留概率高的1个或多个，所以令牌的数量是动态变化的。最终输出时选择概率最高(也即代价最小)的那一个边对应的令牌，将该令牌中的信息取出作为最终的识别结果，以及对应的词尾信息。

其中，令牌传递又称“标记传送”，局部网数据送取的一种控制方法，多用于环形网。

令牌由专用的信息块组成，典型的令牌由连续的8位“1”组成。当网络所有节点都空闲时，令牌就从一个节点传送到下一个节点。当某一节点要求发送信息时，它必须获得令牌并在发送之前把它从网络上取走。一旦传送完数据，就把令牌转送给下一个节点，每个节点都具备有发送/接收令牌的装置。使用这种传送方法决不会发生碰撞，这是因为在某一瞬间只有一个节点有可能传送数据。最大的问题是令牌在传送过程中丢失或受到破坏，从而使节点找不到令牌从而无法传送信息。

在搜索的过程中，可以采用维特比算法在WFST优化模型中搜索。

S26、判断是否确定出当前词语的词尾时间边界；若是，执行步骤S27。

在实际应用中，确定出当前词语的词尾时间边界的过程可以是：

获取紧邻当前词语输出的一组空边，将一组所述空边中最后一个输出为空的边对应的所述令牌中的时间信息的末尾时间作为所述当前词语的词尾时间边界。

用户在语音时，习惯性的会说完一个词语之后，停顿一下，此时就会产生了无效语音，无效语音在WFST优化模型中使用空边表示，如我们吃饭了，则“我们”和“吃饭”中间会有停顿，这个停顿时间就可以作为结尾时间；在WFST优化模型中，搜索每一词语紧邻的输入不为空，输出为空的一组空边，若找到紧邻词语的一组空边(可能只有一个)之后，获取所述若干空边中最后一个输入不为空，输出为空的空边，将这个输入不为空，输出为空的空边的末尾时间作为词尾时间边界。举例来说，假设“我们”之后对应空边，空边延续一段时间才会出现下一词语，将出现下一词语的上一时刻，即空边的末尾时间作为“我们”的词尾时间边界。

即为确认WFST模型中获得的空边是词语结尾，需要判断输入不为空，输出为空的空边的位置，在紧邻当前词语后面的若干个输入为空，输出不为空的空边中，最后一个输入不为空，输出为空的空边才可以作为词尾输出。

最终选择多个输入不为空，输出为空的空边中的最后一个作为词尾，并将该空边的时间信息作为词尾时间保存在令牌中。

S27、更新所述令牌中保存的内容。

若确定出当前词语的词尾时间边界，则释放令牌，将令牌中的内容更新为将要识别的词语以及该词语的时间信息。

S28、判断是否确定出所述语音数据中的每一词的词尾时间边界；若是，执行步骤S29，若不是，返回执行步骤S25。

S29、选取当前时刻所有令牌中代价最小的令牌中的WFST输出作为所述语音数据的语音识别结果。

所述语音识别结果包括：所述语音数据的识别结果及识别结果中每一词的词尾时间边界。

当确定出所述语音数据中的每一词的词尾时间边界，则选取当前时刻所有令牌中代价最小的令牌中的WFST输出作为所述语音数据的语音识别结果，当未确定出所述语音数据中的每一词的词尾时间边界，则继续识别下一语音。

本实施例中，可以获取比较精确的词边界信息，解决词边界记录不准确的问题。

需要说明的是，本实施例中的步骤S21-23的具体实现过程，请参照上述实施例中的相应说明，在此不再赘述。

可选的，在上述词边界估计方法的实施例的基础上，本发明的另一实施例提供了一种词边界估计装置，参照图4，可以包括：

数据获取模块101，用于获取待进行语音识别的语音数据；

特征提取模块102，用于对所述语音数据分帧，并提取每一帧语音的声学特征；

概率计算模块103，用于对于每一帧语音，计算所述声学特征在各声学建模单元上的后验概率；

时间确定模块104，用于基于所述后验概率，在WFST模型中搜索，得到所述语音数据的识别结果及识别结果中每一词的词尾时间边界；所述词尾时间边界基于空边确定；所述空边输出为空。此外，空边输入还可以为空。

其中，时间确定模块用于基于所述后验概率，在WFST模型中搜索，得到所述语音数据的识别结果及识别结果中每一词的词尾时间边界时，具体用于：

需要说明的是，本实施例中的各个模块的工作过程，请参照上述实施例中的相应说明，在此不再赘述。

本发明的另一实施例中，所述时间确定模块包括：

模型获取子模块，用于获取所述WFST模型中的WFST优化模型；所述WFST优化模型识别出所述语音数据中的词语的结尾时间与实际结尾时间不一致；

信息保存子模块，用于在WFST优化模型搜索过程中，将当前词语的WFST输出保存在令牌中；所述令牌包括：输出词以及输出词的时间信息；

第一判断子模块，用于判断是否确定出当前词语的词尾时间边界；

更新子模块，用于若确定出当前词语的词尾时间边界，更新所述令牌中保存的内容。

进一步，所述第一判断子模块包括：

空边获取单元，用于获取紧邻当前词语输出的一组空边；

时间确定单元，用于将一组所述空边中最后一个输出为空的边对应的所述令牌中的时间信息的末尾时间作为所述当前词语的词尾时间边界。

所述时间确定模块还包括：

第二判断子模块，用于判断是否确定出识别结果中每一词的词尾时间边界；

所述时间确定模块还包括：

本实施例中，可以获取比较精确的词边界信息，解决词边界记录不准确的问题。

需要说明的是，本实施例中的各个模块和子模块的工作过程，请参照上述实施例中的相应说明，在此不再赘述。

可选的，在上述词边界估计方法的实施例的基础上，本发明的另一实施例提供了一种电子设备，包括：存储器和处理器；

其中，所述存储器用于存储程序；

处理器调用程序并用于：

获取待进行语音识别的语音数据；

对所述语音数据分帧，并提取每一帧语音的声学特征；

对于每一帧语音，计算所述声学特征在各声学建模单元上的后验概率；

进一步，基于所述后验概率，在WFST模型中搜索，得到所述语音数据的识别结果及识别结果中每一词的词尾时间边界，包括：

获取所述WFST模型中的WFST优化模型；所述WFST优化模型识别出所述语音数据中的词语的结尾时间与实际结尾时间不一致；

在WFST优化模型搜索过程中，将当前词语的WFST输出保存在令牌中；所述令牌包括：输出词以及输出词的时间信息；

判断是否确定出当前词语的词尾时间边界；

若确定出当前词语的词尾时间边界，更新所述令牌中保存的内容。

进一步，所述确定出当前词语的词尾时间边界，包括：

获取紧邻当前词语输出的一组空边；

将一组所述空边中最后一个输出为空的边对应的所述令牌中的时间信息的末尾时间作为所述当前词语的词尾时间边界。

进一步，基于所述后验概率，在WFST优化模型中搜索，得到所述语音数据的识别结果及识别结果中每一词的词尾时间边界，还包括：

判断是否确定出识别结果中每一词的词尾时间边界；

若否，返回执行所述在WFST优化模型搜索过程中，将当前词语的WFST输出保存在令牌中这一步骤。

进一步，若判断出已确定出所述语音数据的识别结果中每一词的词尾时间边界之后，还包括：

进一步，所述空边的输入为空。

进一步，基于所述后验概率，在WFST模型中搜索，得到所述语音数据的识别结果及识别结果中每一词的词尾时间边界，包括：

获取所述WFST模型中的WFST优化模型；所述WFST优化模型识别出所述语音数据中的词语的结尾时间与实际结尾时间不一致；

在WFST优化模型搜索过程中，若识别出语音数据中的词语的语音识别结果，将得到所述语音识别结果的时间作为所述词语的词尾时间边界。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

17页详细技术资料下载

一种词边界估计方法、装置及电子设备

相关技术

网友询问留言