语音识别方法、装置、电子设备和存储介质

文档序号：812438 发布日期：2021-03-26 浏览：7次 >En<

阅读说明：本技术 语音识别方法、装置、电子设备和存储介质 (Voice recognition method and device, electronic equipment and storage medium ) 是由高建清万根顺于 2020-12-11 设计创作，主要内容包括：本发明实施例提供一种语音识别方法、装置、电子设备和存储介质,其中方法包括：确定待识别的语音数据；基于所述语音数据对应的场景关联文本,对所述语音数据进行语音识别,得到所述语音数据的语音识别结果；所述场景关联文本是基于多个关联用户的应用记录数据确定得到的。本发明实施例提供的语音识别方法、装置、电子设备和存储介质,通过获取同一语音识别场景下的不同用户在不同应用间的应用记录数据,利用关联用户间关注点的相似性,提取得到场景关联文本,为待识别语音数据提供了与当前场景关联程度高的辅助文本,提高了基于该场景关联文本得到的语音识别结果的准确性。(The embodiment of the invention provides a voice recognition method, a voice recognition device, electronic equipment and a storage medium, wherein the method comprises the following steps: determining voice data to be recognized; performing voice recognition on the voice data based on the scene associated text corresponding to the voice data to obtain a voice recognition result of the voice data; the scene associated text is determined based on application recording data of a plurality of associated users. According to the voice recognition method, the voice recognition device, the electronic equipment and the storage medium, the application recording data of different users in different applications in the same voice recognition scene are obtained, the scene associated text is extracted and obtained by utilizing the similarity of the attention points among the associated users, the auxiliary text with high association degree with the current scene is provided for the voice data to be recognized, and the accuracy of the voice recognition result obtained based on the scene associated text is improved.)

语音识别方法、装置、电子设备和存储介质

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种语音识别方法、装置、电子设备和存储介质。

背景技术

随着人工智能技术的不断发展，语音识别技术被广泛应用于会议、采访、授课以及演讲等场景。

现有的语音识别技术通常在进行语音识别之前，预先获取可能与当前使用场景相关的语料，以辅助进行语音识别。然而，若实际进行语音采集和语音识别时发生主题变更，或者提前获取的语料有误，反而会降低语音识别的准确性。

发明内容

本发明实施例提供一种语音识别方法、装置、电子设备和存储介质，用以解决现有技术中语音识别准确性欠佳的缺陷。

本发明实施例提供一种语音识别方法，包括：

确定待识别的语音数据；

基于所述语音数据对应的场景关联文本，对所述语音数据进行语音识别，得到所述语音数据的语音识别结果；

所述场景关联文本是基于多个关联用户的应用记录数据确定得到的。

根据本发明一个实施例的语音识别方法，所述基于所述语音数据对应的场景关联文本，对所述语音数据进行语音识别，得到所述语音数据的语音识别结果，包括：

基于所述语音数据对应的场景关联文本，对所述语音数据的声学隐层特征进行解码，得到所述语音数据每一时段的每一候选分词的概率；

基于所述语音数据每一时段的每一候选分词的概率，确定所述语音识别结果。

根据本发明一个实施例的语音识别方法，所述场景关联文本包括热词；

所述基于所述语音数据对应的场景关联文本，对所述语音数据的声学隐层特征进行解码，得到所述语音数据每一时段的每一候选分词的概率，包括：

基于所述热词，或基于所述热词及其激励系数，对所述语音数据每一时段的每一候选分词的概率进行校正，并基于校正后的每一时段的每一候选分词的概率，确定所述语音识别结果。

根据本发明一个实施例的语音识别方法，所述热词是基于如下步骤确定的：

确定所述语音数据的历史语音数据的第一持续时间范围；

从所述多个关联用户的应用使用数据中筛选所述第一持续时间范围内输入的查询关键词；

选取至少预设数量个用户均输入的查询关键词，和/或选取每一用户输入的与当前场景相关联的查询关键词，作为所述热词。

根据本发明一个实施例的语音识别方法，在至少两个用户的查询关键词中出现的热词、在任一用户的查询关键词中存在重复词或相近词的热词，以及其他热词的激励系数依次递减，且任一热词在不同用户的查询关键词中出现的频率越高，其激励系数越大。

根据本发明一个实施例的语音识别方法，所述场景关联文本包括所述语音数据的各个历史语音片段对应的历史扩展文本；

所述基于所述语音数据对应的场景关联文本，对所述语音数据的声学隐层特征进行解码，得到所述语音数据每一时段的每一候选分词的概率，包括：

基于通用语料库和所述各个历史语音片段对应的历史扩展文本，对所述语音数据的声学隐层特征进行解码，得到所述语音数据每一时段的每一候选分词的概率。

根据本发明一个实施例的语音识别方法，所述基于通用语料库和所述各个历史语音片段对应的历史扩展文本，对所述语音数据的声学隐层特征进行解码，得到所述语音数据每一时段的每一候选分词的概率，包括：

分别基于通用语料库和各个历史语音片段对应的历史扩展文本，对所述语音数据任一时段的声学隐层特征进行解码，得到对应通用语料库和各个历史语音片段的所述任一时段的任一候选分词的候选概率；

基于对应通用语料库和各个历史语音片段的所述任一候选分词的候选概率，以及通用语料库和各个历史语音片段对应的权重，确定所述任一候选分词的概率；

其中，离所述语音数据越近的历史语音片段对应的权重越大。

根据本发明一个实施例的语音识别方法，所述分别基于通用语料库和各个历史语音片段对应的历史扩展文本，对所述语音数据任一时段的声学隐层特征进行解码，得到对应通用语料库和各个历史语音片段的所述任一时段的任一候选分词的候选概率，包括：

基于任一历史语音片段对应的各个类型的历史扩展文本及其对应的重要性系数，确定对应所述任一历史语音片段的所述任一候选分词的候选概率。

根据本发明一个实施例的语音识别方法，所述各个类型的历史扩展文本包括浏览内容扩展文本、热词查询扩展文本以及预设扩展文本中的至少一种；

其中，任一历史语音片段对应的浏览内容扩展文本是基于如下步骤获取的：

确定所述任一历史语音片段的第二持续时间范围；

从所述多个关联用户的应用记录数据中筛选所述第二持续时间范围内的浏览内容；

选取与热词相关联的浏览内容、至少两个用户间相互关联的浏览内容以及与当前场景相关联的浏览内容中的至少一种，作为所述任一历史语音片段对应的浏览内容扩展文本。

本发明实施例还提供一种语音识别装置，包括：

语音数据确定单元，用于确定待识别的语音数据；

语音识别单元，用于基于所述语音数据对应的场景关联文本，对所述语音数据进行语音识别，得到所述语音数据的语音识别结果；

所述场景关联文本是基于多个关联用户的应用记录数据确定得到的。

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音识别方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音识别方法的步骤。

本发明实施例提供的语音识别方法、装置、电子设备和存储介质，通过获取同一语音识别场景下的不同用户在不同应用间的应用记录数据，利用关联用户间关注点的相似性，提取得到场景关联文本，为待识别语音数据提供了与当前场景关联程度高的辅助文本，提高了基于该场景关联文本得到的语音识别结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音识别方法的流程示意图；

图2为本发明又一实施例提供的语音识别方法的流程示意图；

图3为本发明实施例提供的热词确定方法的流程示意图；

图4为本发明实施例提供的查询关键词的示意图；

图5为本发明实施例提供的解码方法的流程示意图；

图6为本发明实施例提供的浏览内容扩展文本确定方法的流程示意图；

图7为本发明实施例提供的浏览内容的示意图；

图8为本发明另一实施例提供的语音识别方法的流程示意图；

图9为本发明实施例提供的语音识别装置的结构示意图；

图10为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对此，本发明实施例提供了一种语音识别方法。图1为本发明实施例提供的语音识别方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待识别的语音数据；

步骤120，基于语音数据对应的场景关联文本，对语音数据进行语音识别，得到语音数据的语音识别结果；

场景关联文本是基于多个关联用户的应用记录数据确定得到的。

此处，多个关联用户为同一语音识别场景下相关联的多个智能终端使用者。例如，在会议场景下，多个关联用户可以为该会议的多个参会人，在演讲场景下，多个关联用户可以为该演讲的多个听众等。由于多个关联用户处于同一语音识别场景下，因此多个关联用户在该语音识别场景下使用移动终端上的不同应用所产生的应用记录数据，例如会议或演讲过程中，各个用户使用搜索引擎类、娱乐购物类或生活服务类等应用进行查询或浏览所得的数据，通常与当前的语音识别场景的关联程度较大，即使当前发生了主题变更，该主题变更也会体现在多个关联用户的应用记录数据中，因此获取的场景关联文本会随之进行调整，从而保证其与当前场景的高度关联性。

因此，可以基于多个关联用户的应用记录数据，挖掘其中与当前场景关联程度较大的文本，作为场景关联文本。其中，可以根据同一语音识别场景下不同用户的关注点存在相似性，利用不同用户所提供的应用记录数据之间的关联性，相互确认各用户提供的应用记录数据与当前语音识别场景的相关程度，从而获取与当前语音识别场景更相关的文本，以提升识别的准确率，并剔除不相关的文本内容，缓解语音识别的误触发。另外，从多个关联用户的应用记录数据中获取场景关联文本，可以克服从单一用户的应用记录数据中获取关联文本的方式带来的用户偏向性，可以提高场景关联文本与当前场景的关联程度。

此处，可以首先在多个关联用户之间建立共享机制，以获取各个用户的应用记录数据。例如，可以由任一用户发起共享建议，通过现有局域网内的相互通信的渠道发送和接受共享消息。当其它用户确认参与共享时，可以同步进行时间同步的校对和确认。例如，可以以发起共享建议的用户所使用的智能终端设备时间作为基准，其它用户的智能终端设备记录其与发起方的时间偏差，从而实现时间的同步。

然后，基于语音数据对应的场景关联文本，辅助进行语音识别，得到待识别语音数据的语音识别结果。例如，可以基于场景关联文本，辅助确定待识别的语音数据的语义信息，并且还可以提供与当前语境更为契合的语言表达方式，从而消除同音词或近音词等带来的歧义性，并得到更加符合当前场景语言表达规范的识别结果，进而提高语音识别的准确性。

本发明实施例提供的方法，通过获取同一语音识别场景下的不同用户在不同应用间的应用记录数据，利用关联用户间关注点的相似性，提取得到场景关联文本，为待识别语音数据提供了与当前场景关联程度高的辅助文本，提高了基于该场景关联文本得到的语音识别结果的准确性。

基于上述实施例，图2为本发明又一实施例提供的语音识别方法的流程示意图，如图2所示，步骤120包括：

步骤121，基于语音数据对应的场景关联文本，对语音数据的声学隐层特征进行解码，得到语音数据每一时段的每一候选分词的概率；

步骤122，基于语音数据每一时段的每一候选分词的概率，确定语音识别结果。

此处，待识别语音数据对应的场景关联文本，可以提供与当前场景的语境更为契合的语言表达方式，有助于从众多发音相同或相近的词语中选择出正确的词语，并得到更加符合当前场景语言表达规范的识别结果。

因此，在对语音数据的声学隐层特征进行解码的过程中，对于语音数据的任一时段，例如对应一个字或一个词的发音过程，可以结合该时段的声学隐层特征中包含的音素信息以及场景关联文本，确定该时段可能表达的候选分词的概率。其中，语音数据的声学隐层特征可以用于确定该语音数据对应的声学状态和音素。然后，基于语音数据每一时段的每一候选分词的概率，确定每一时段对应的分词，从而组合形成整个语音数据的语音识别结果。

基于上述任一实施例，场景关联文本包括热词；

步骤121包括：

基于热词，或基于热词及其激励系数，对语音数据每一时段的每一候选分词的概率进行校正，并基于校正后的每一时段的每一候选分词的概率，确定语音识别结果。

此处，场景关联文本可以包括多个关联用户的应用记录数据中频繁出现的关键词，即热词。由于热词在当前语音识别场景下的多个关联用户处频繁出现，故可以推断在语音数据中出现该热词的可能性也较大。因此，可以基于热词对语音数据每一时段的每一候选分词的概率进行校正。例如，对于任一时段，可以将其中作为热词的候选分词的概率增加一个预设数值，提高作为热词的候选分词被选为该时段对应分词的可能性。

此外，场景关联文本中可能包括多个热词，而不同热词的重要性可能不一致。例如出现次数较多的热词的重要性更高，或者在多个用户的应用记录数据中均出现的热词，代表该词得到了多个用户的关注，其重要性也更高。因此，在进行热词激励时，可以对不同重要性的热词进行区分，为不同重要性的热词设置不同的激励系数，从而提高热词激励的效果，进一步提高语音识别的准确性。其中，重要性更高的热词的激励系数更高，在校正候选分词的概率时，增加的数值也更高。然后，基于热词及其激励系数对语音数据每一时段的每一候选分词的概率进行校正。例如，对于任一时段，在校正其中作为热词的候选分词的概率时，可以将预设数值乘以该热词的激励系数之后与该候选分词的概率相加。

本发明实施例提供的方法，场景关联文本中包括获取得到的热词，从而通过热词激励的方式，提高作为热词的候选分词被选为任一时段对应分词的可能性，从而提高语音识别的准确性。

基于上述任一实施例，图3为本发明实施例提供的热词确定方法的流程示意图，如图3所示，该方法包括：

步骤310，确定语音数据的历史语音数据的第一持续时间范围。

此处，第一持续时间范围可以为历史语音数据从开始采集到结束采集所持续的时间段，历史语音数据可以为当前语音数据之前的一句或多句。其中，可以根据当前语音数据之前得到的历史语音识别结果的边界信息，截取历史语音数据及其对应的第一持续时间范围。

步骤320，从多个关联用户的应用使用数据中筛选第一持续时间范围内输入的查询关键词。

此处，可以首先获取多个关联用户的应用使用数据中的查询关键词以及进行关键词搜索的时间，例如利用智能终端的输入法功能，将通过拼音输入法、语音输入法或手写输入法等产生的输入记录作为查询关键词，并将产生该查询关键词的时间作为关键词搜索的时间。然后，根据关键词搜索的时间，获取第一持续时间范围内输入的查询关键词。图4为本发明实施例提供的查询关键词的示意图，如图4所示，假设第一持续时间范围为T0～T1，其中T0可以表示历史语音数据的开始，T1表示历史语音数据的结束，同时还可表示当前语音数据的开始。在第一持续时间范围内筛选得到的查询关键词如图4所示，其中U1K1表示用户1在应用中输入的第1个查询关键词，UNKM表示用户N在应用中输入的第M个查询关键词。

步骤330，选取至少预设数量个用户均输入的查询关键词，和/或选取每一用户输入的与当前场景相关联的查询关键词，作为热词。

此处，若多个不同用户，例如2个以上的用户，均输入同一个查询关键词，则可以认为该关键词为热词；对于仅在某一个用户处出现的查询关键词，可以基于TF-IDF策略计算其与当前已有的语音识别结果或预先获取的与当前场景相关的文本等的相关性，并设置阈值以选取与当前场景关联程度较大的查询关键词，作为热词。其中，若任一查询关键词在任一用户的查询关键词中存在相同或相近的其他查询关键词，则可以设置相对较低的阈值，对于其他查询关键词，则可以设置相对较高的阈值。然后，基于历史语音数据对应的热词，对此步获得的热词进行去重，并将历史语音数据对应的热词与此步获得的去重后的热词组合，得到当前语音数据对应的热词。另外，当前语音数据对应的热词可以立即生效，也可以在第一持续时间范围的结束时刻再生效，本发明实施例对此不作具体限定。

在此之前，由于存在任一用户在不同应用重复输入相同的查询关键词，或在同一应用内多次输入或引擎自动纠正后输入相同或相近的查询关键词，故可以对同一用户的查询关键词进行去重。首先，对于任一用户i，其输入的查询关键词为Ki1到KiM。若M个查询关键词中存在完全相同的词，则删除其余重复的查询关键词；若M个查询关键词中存在基于拼音恢复方案认为发音相似的查询关键词，或存在基于现有的字形相似检验方案认为字形相似的查询关键词，则基于TF-IDF策略计算发音相似或字形相似的查询关键词与当前已有的语音识别结果或预先收集的与当前场景相关的文本之间的相关性，并设定阈值以选取发音相似或字形相似的查询关键词中与当前场景更相关的查询关键词。若发音相似或字形相似的查询关键词对应的相关性均未达到阈值，则仅保留最后一个出现的查询关键词。

本发明实施例提供的方法，通过选取多个用户均输入的查询关键词，和/或每一用户输入的与当前场景相关联的查询关键词作为热词，提高了热词与当前语音识别场景的关联程度，有助于进一步提高语音识别的准确性。

基于上述任一实施例，在至少两个用户的查询关键词中出现的热词、在任一用户的查询关键词中存在重复词或相近词的热词，以及其他热词的激励系数依次递减，且任一热词在不同用户的查询关键词中出现的频率越高，其激励系数越大。

此处，考虑到一个热词在多个用户的查询关键词中均出现，表明该热词得到了多个用户的关注，因此该热词出现在该语音识别场景下的语音数据中的可能性也较大，因此该热词的重要性相较于仅在某一个用户的查询关键词中出现的热词的重要性会更大。同时，若任一热词在不同用户的查询关键词中出现的频率越高，表明该热词得到了越多用户的关注，其重要性也越高。另外，若任一热词在任一用户的查询关键词中存在重复词或相近词，表明对该用户而言，该热词较重要，因此该热词的重要性相较于其他热词的重要性更大。

因此，在设置热词的激励系数时，在至少两个用户的查询关键词中出现的热词、在任一用户的查询关键词中存在重复词或相近词的热词，以及其他热词的激励系数依次递减，且任一热词在不同用户的查询关键词中出现的频率越高，其激励系数越大。

其中，对于在至少两个用户的查询关键词中出现的热词，其激励系数可以设置为1+(在不同用户间出现的次数/用户个数)；对于在任一用户的查询关键词中存在重复词或相近词的热词，其激励系数可以设置为1+1/用户个数，其他热词的激励系数则可以设置为1。

本发明实施例提供的方法，在为热词设置激励系数时，在至少两个用户的查询关键词中出现的热词、在任一用户的查询关键词中存在重复词或相近词的热词，以及其他热词的激励系数依次递减，且任一热词在不同用户的查询关键词中出现的频率越高，其激励系数越大，对重要性不同的热词进行了区分，有助于进一步提高语音识别的准确性。

基于上述任一实施例，场景关联文本包括语音数据的各个历史语音片段对应的历史扩展文本；

步骤121包括：

基于通用语料库和各个历史语音片段对应的历史扩展文本，对语音数据的声学隐层特征进行解码，得到语音数据每一时段的每一候选分词的概率。

此处，场景关联文本还可以包括当前语音数据的各个历史语音片段对应的历史扩展文本。其中，任一历史语音片段对应的历史扩展文本可以是该历史语音片段从开始采集到结束采集这一时间段内，从多个关联用户的应用记录数据中获取或扩展的文本。例如，用户在这一时间段内浏览过的内容，或是与用户在这一时间段浏览的内容或查询的内容相关的其他文本。由于各个历史扩展文本是当前语音数据的各个历史语音片段采集过程中生成的，因此其与当前语音识别场景的关联程度较高，也可以为当前语音数据提供与当前场景的语境更为契合的语言表达方式，有助于从众多发音相同或相近的词语中选择出正确的词语，并得到更加符合当前场景语言表达规范的识别结果。

因此，在对当前语音数据的声学隐层特征进行解码时，可以结合通用语料库和各个历史语音片段对应的历史扩展文本，作为语言模型计算语音数据每一时段对应的每一候选分词的概率时参考的语料库。例如，当语言模型为统计语言模型时，为了计算任一时段对应的每一候选分词的n-gram概率时，可以依据通用语料库和各个历史语音片段对应的历史扩展文本组成的语料库，统计每一候选分词出现在此处的概率。其中，任一候选分词越符合该语料库给出的语言表达方式，其概率越高。

本发明实施例提供的方法，场景关联文本中包括各个历史语音片段对应的历史扩展文本，从而通过更新语言模型语料库的方式，提高符合各个历史扩展文本给出的语言表达方式的候选分词的概率，得到更加符合当前场景语言表达规范的识别结果，从而提高语音识别的准确性。

基于上述任一实施例，图5为本发明实施例提供的解码方法的流程示意图，如图5所示，基于通用语料库和各个历史语音片段对应的历史扩展文本，对语音数据的声学隐层特征进行解码，得到语音数据每一时段的每一候选分词的概率，包括：

步骤1211，分别基于通用语料库和各个历史语音片段对应的历史扩展文本，对语音数据任一时段的声学隐层特征进行解码，得到对应通用语料库和各个历史语音片段的该时段的任一候选分词的候选概率。

此处，分别将通用语料库，以及各个历史语音片段对应的历史扩展文本作为语言模型的语料库，对语音数据任一时段的声学隐层特征进行解码，计算得到分别对应通用语料库和各个历史语音片段的该时段任一候选分词的候选概率。

以三元语言模型(Trigram language model)为例，可以分别以通用语料库和各个历史语音片段对应的历史扩展文本作为该语言模型的语料库，计算得到对应通用语料库和各个历史语音片段的任一时段任一候选分词的候选概率P_t(w_x|w_x-2w_x-1)、P_Pi(w_x|w_x-2w_x-1)、P_P(i-1)(w_x|w_x-2w_x-1)、…、P_P1(w_x|w_x-2w_x-1)。其中，历史语音片段共有i段，w_x-2和w_x-1为任一时段的前两个时段对应的分词，P_t(w_x|w_x-2w_x-1)为对应通用语料库的任一时段任一候选分词的候选概率，P_Pi(w_x|w_x-2w_x-1)、P_P(i-1)(w_x|w_x-2w_x-1)、…、P_P1(w_x|w_x-2w_x-1)为对应各个历史语音片段的任一时段任一候选分词的候选概率。

步骤1212，基于对应通用语料库和各个历史语音片段的该候选分词的候选概率，以及通用语料库和各个历史语音片段对应的权重，确定该候选分词的概率；

其中，离语音数据越近的历史语音片段对应的权重越大。

此处，可以将对应通用语料库和各个历史语音片段的任一候选分词的候选概率进行加权求和，得到该候选分词的概率。其中，任一历史语音片段离当前语音数据越近，在该历史语音片段的采集过程中生成的历史扩展文本与当前语音数据的关联程度越大，据此计算得到的任一候选分词的概率也越准确，故其权重也越大。在为各个历史语音片段设置权重时，可以预先设定一个基础权重和一个遗忘系数，在基础权重的基础上乘以遗忘系数的n次方，其中n＝1，...，i，i为历史语音片段的个数，可以得到依次递减的权重序列，从而可以将其作为各个历史语音片段的权重。由于在加权求和时，所有的权重之和为1，因此可以将1与各个历史语音片段的权重之和之间的差值，作为通用语料库的权重。例如，可以采用如下公式确定该候选分词的概率：

P_new(w_x|w_x-2w_x-1)

＝(1-α)βP_Pi(w_x|w_x-2w_x-1)

+(1-α)β²P_P(i-1)(w_x|w_x-2w_x-1)+…

+(1-α)βⁱP_P1(wx|w_x-2w_x-1)+[1-(1-α)β

-(1-α)β²-…-(1-α)βⁱ]P_t(w_x|w_x-2w_x-1)

其中，P_new(w_x|w_x-2w_x-1)为该候选分词的概率，1-α为基础权重，β为遗忘系数。

本发明实施例提供的方法，分别将通用语料库和各个历史语音片段对应的历史扩展文本作为语言模型的语料库，计算得到对应通用语料库和各个历史语音片段的任一候选分词的候选概率，并基于对应通用语料库和各个历史语音片段的该候选分词的候选概率，以及通用语料库和各个历史语音片段对应的权重，确定该候选分词的概率，对各个历史语音片段对应的历史扩展文本进行了重要性的区分，突出了离当前语音数据较近的历史语音片段对应的历史扩展文本，有助于提高语音识别的准确性。

基于上述任一实施例，步骤1211包括：

基于任一历史语音片段对应的各个类型的历史扩展文本及其对应的重要性系数，确定对应该历史语音片段的该候选分词的候选概率。

此处，为了丰富历史扩展文本，可以从不同途径获取不同类型的历史扩展文本。例如，可以获取用户在该历史语音片段的采集过程中浏览过的与当前场景相关的内容，或是获取与用户在这一时间段浏览或查询的内容相关的其他文本。不同类型的历史扩展文本与当前场景的关联程度存在差异，因此在进行语音识别时，不同类型的历史扩展文本所起的作用也相应不同。

为了体现各个类型的历史扩展文本在解码过程中所起作用不同，可以为各个类型的历史扩展文本设置相应的重要性系数。其中，任一类型的历史扩展文本与当前场景越相关，其重要性系数越高。分别将任一历史语音片段对应的各个类型的历史扩展文本作为语言模型的语料库，计算对应各个类型的历史扩展文本的该候选分词的候选概率，然后基于各个类型的历史扩展文本对应的重要性系数进行加权求和，得到对应该历史语音片段的该候选分词的候选概率。

基于上述任一实施例，各个类型的历史扩展文本包括浏览内容扩展文本、热词查询扩展文本以及预设扩展文本中的至少一种。

其中，浏览内容扩展文本是从多个关联用户的浏览数据中获取的与当前场景相关联的文本，热词查询扩展文本是基于已有的热词，在预先获取的语料库中进行关键词查询得到的文本，而预设扩展文本则是基于浏览内容扩展文本和/或热词查询扩展文本，从预先获取的语料库中进行文本相似度计算后，获取的与浏览内容扩展文本和/或热词查询扩展文本关联程度较大的文本。此处，考虑到浏览内容扩展文本是从多个关联用户的浏览内容中获取得到的，其与当前场景的关联程度更高，因此其重要性系数高于热词查询扩展文本和预设扩展文本。例如，可以将热词查询扩展文本和预设扩展文本的重要性系数设为1，而浏览内容扩展文本的重要性系数可以设置得更高。

图6为本发明实施例提供的浏览内容扩展文本确定方法的流程示意图，如图6所示，该方法包括：

步骤610，确定该历史语音片段的第二持续时间范围。

此处，第二持续时间范围可以为该历史语音片段从开始采集到结束采集所持续的时间段。其中，可以根据当前语音数据之前得到的历史语音识别结果的分段信息，截取各个历史语音片段及其对应的第一持续时间范围。

步骤620，从多个关联用户的应用记录数据中筛选第二持续时间范围内的浏览内容。

此处，可以首先获取多个关联用户的应用使用数据中的浏览内容以及产生该浏览内容的时间。例如可以获取各个用户在不同应用中的浏览网址对应的网页文字内容，或者对各个用户浏览的界面进行自动截屏，并基于现有的光学字符识别方法获取其中的文本内容，同时记录产生该浏览内容的时间。然后，根据产生浏览内容的时间，获取第二持续时间范围内的浏览内容。图7为本发明实施例提供的浏览内容的示意图，如图7所示，假设第二持续时间范围为P0～P1，其中P0可以表示该历史语音片段的开始，T1表示该历史语音片段的结束，同时还可表示下一历史语音片段的开始。在第二持续时间范围内筛选得到的浏览内容如图7所示，其中U1H1表示用户1在应用中的第1个浏览内容，UNHL表示用户N在应用中的第L个浏览内容。

步骤630，选取与热词相关联的浏览内容、至少两个用户间相互关联的浏览内容以及与当前场景相关联的浏览内容中的至少一种，作为该历史语音片段对应的浏览内容扩展文本。

此处，可以选取与热词相关联的浏览内容作为浏览内容扩展文本。例如，对于任一用户，可以基于从该历史语音片段的采集过程中获取的热词，利用现有的TF-IDF策略计算其与该用户的各个浏览内容之间的相关性，并筛选出相关度较高的浏览内容作为浏览内容扩展文本。对于剩下的浏览内容，可以对来源于不同用户的浏览内容进行相关性度量，若相关性较强，则均可作为浏览内容扩展文本。对于上述两种方式得到的浏览内容扩展文本，为了便于描述，可将其称为用户间重要的浏览内容扩展文本，其重要性系数可以设置为1+选定文本数量/总文本数量，以对不同用户均重点关注的浏览内容进行强调。其中，选定文本数量为所有浏览内容中按照上述两种方式筛选出来的浏览内容扩展文本数量，总文本数量为所有浏览内容的数量。

对于剩下的浏览内容，可以计算其与当前已有的语音识别结果进行相关性度量，若相关性较强，则可被选取为浏览内容扩展文本，以保证其与当前场景的强相关性。对于该种方式得到的浏览内容扩展文本，为了便于描述，可将其称为用户内重要的浏览内容扩展文本，其重要性系数可以设置为1。

在此基础上，基于任一历史语音片段对应的各个类型的历史扩展文本及其对应的重要性系数，确定对应该历史语音片段的任一时段的任一候选分词的候选概率时，可以分别基于用户间重要的浏览内容扩展文本、用户内重要的浏览内容扩展文本、热词查询扩展文本以及预设扩展文本作为语言模型的语料库，计算对应用户间重要的浏览内容扩展文本、用户内重要的浏览内容扩展文本、热词查询扩展文本以及预设扩展文本的该候选分词的候选概率，然后基于用户间重要的浏览内容扩展文本、用户内重要的浏览内容扩展文本、热词查询扩展文本以及预设扩展文本对应的重要性系数进行加权求和，得到对应该历史语音片段的该候选分词的候选概率。例如，可以采用以下公式确定对应该历史语音片段的该候选分词的候选概率：

P_Pi(w_x|w_x-2w_x-1)

＝U_EiP_Ei(w_x|w_x-2w_x-1)+U_IiP_Ii(w_x|w_x-2w_x-1)

+U_SiP_Si(w_x|w_x-2w_x-1)+U_BiP_B(w_x|w_x-2w_x-1)

其中，P_Pi(w_x|w_x-2w_x-1)为对应历史语音片段i的该候选分词的候选概率；P_Ei(w_x|w_x- ₂w_x-1)为对应用户间重要的浏览内容扩展文本的该候选分词的候选概率，U_Ei为其重要性系数；P_Ii(w_x|w_x-2w_x-1)为对应用户内重要的浏览内容扩展文本的该候选分词的候选概率，U_Ii为其重要性系数；P_Si(w_x|w_x-2w_x-1)为对应热词查询扩展文本的该候选分词的候选概率，U_Si为其重要性系数；P_B(w_x|w_x-2w_x-1)为对应预设扩展文本的该候选分词的候选概率，U_Bi为其重要性系数。

基于上述任一实施例，图8为本发明另一实施例提供的语音识别方法的流程示意图，如图8所示，该方法包括：

步骤810，在多个关联用户之间建立共享机制。通过多个关联用户之间的信息共享，以便获取各个用户的应用记录数据。

步骤820，获取各个用户使用不同应用产生的应用记录数据。例如，获取各个用户通过搜索引擎类、娱乐购物类或生活服务类等不同应用进行查询所输入的查询关键词以及对查询结果进行浏览的浏览内容。

步骤830，基于多个关联用户的应用记录数据，确定待识别语音数据对应的热词及其生效时间。其中，热词可采用如上述任一实施例提供的热词确定方法生成，在此不再赘述。另外，每一热词的生效时间为第一持续时间范围的结束时刻。

步骤840，基于多个关联用户的应用记录数据，确定待识别语音数据的各个历史语音片段对应的历史扩展文本及其生效时间。其中，历史扩展文本包括浏览内容扩展文本、热词查询扩展文本和预设扩展文本中。浏览内容扩展文本可以采用如上述任一实施例提供的浏览内容扩展文本确定方法生成，在此不再赘述。任一历史语音片段对应的历史扩展文本在该历史语音片段的下一语音片段的持续时间范围内有效。

步骤850，基于待识别语音数据对应的热词和历史扩展文本，对该语音数据进行语音识别，得到该语音数据的语音识别结果。

下面对本发明实施例提供的语音识别装置进行描述，下文描述的语音识别装置与上文描述的语音识别方法可相互对应参照。

基于上述任一实施例，图9为本发明实施例提供的语音识别装置的结构示意图，如图9所示，该装置包括语音数据确定单元910和语音识别单元920。

其中，语音数据确定单元910用于确定待识别的语音数据；

语音识别单元920用于基于语音数据对应的场景关联文本，对语音数据进行语音识别，得到语音数据的语音识别结果；

场景关联文本是基于多个关联用户的应用记录数据确定得到的。

本发明实施例提供的装置，通过获取同一语音识别场景下的不同用户在不同应用间的应用记录数据，利用关联用户间关注点的相似性，提取得到场景关联文本，为待识别语音数据提供了与当前场景关联程度高的辅助文本，提高了基于该场景关联文本得到的语音识别结果的准确性。

基于上述任一实施例，语音识别单元920包括：

解码单元，用于基于语音数据对应的场景关联文本，对语音数据的声学隐层特征进行解码，得到语音数据每一时段的每一候选分词的概率；

语音识别结果确定单元，用于基于语音数据每一时段的每一候选分词的概率，确定语音识别结果。

基于上述任一实施例，场景关联文本包括热词；

解码单元包括：

热词激励单元，用于基于热词，或基于热词及其激励系数，对语音数据每一时段的每一候选分词的概率进行校正，并基于校正后的每一时段的每一候选分词的概率，确定语音识别结果。

本发明实施例提供的装置，场景关联文本中包括获取得到的热词，从而通过热词激励的方式，提高作为热词的候选分词被选为任一时段对应分词的可能性，从而提高语音识别的准确性。

基于上述任一实施例，该装置还包括热词确定单元，用于：

确定语音数据的历史语音数据的第一持续时间范围；

从多个关联用户的应用使用数据中筛选第一持续时间范围内输入的查询关键词；

选取至少预设数量个用户均输入的查询关键词，和/或选取每一用户输入的与当前场景相关联的查询关键词，作为热词。

本发明实施例提供的装置，通过选取多个用户均输入的查询关键词，和/或每一用户输入的与当前场景相关联的查询关键词作为热词，提高了热词与当前语音识别场景的关联程度，有助于进一步提高语音识别的准确性。

本发明实施例提供的装置，在为热词设置激励系数时，在至少两个用户的查询关键词中出现的热词、在任一用户的查询关键词中存在重复词或相近词的热词，以及其他热词的激励系数依次递减，且任一热词在不同用户的查询关键词中出现的频率越高，其激励系数越大，对重要性不同的热词进行了区分，有助于进一步提高语音识别的准确性。

基于上述任一实施例，场景关联文本包括语音数据的各个历史语音片段对应的历史扩展文本；

解码单元包括：

概率计算单元，用于基于通用语料库和各个历史语音片段对应的历史扩展文本，对语音数据的声学隐层特征进行解码，得到语音数据每一时段的每一候选分词的概率。

本发明实施例提供的装置，场景关联文本中包括各个历史语音片段对应的历史扩展文本，从而通过更新语言模型语料库的方式，提高符合各个历史扩展文本给出的语言表达方式的候选分词的概率，得到更加符合当前场景语言表达规范的识别结果，从而提高语音识别的准确性。

基于上述任一实施例，概率计算单元包括：

候选概率计算单元，用于分别基于通用语料库和各个历史语音片段对应的历史扩展文本，对语音数据任一时段的声学隐层特征进行解码，得到对应通用语料库和各个历史语音片段的该时段的任一候选分词的候选概率；

概率确定单元，用于基于对应通用语料库和各个历史语音片段的该候选分词的候选概率，以及通用语料库和各个历史语音片段对应的权重，确定该候选分词的概率；

其中，离语音数据越近的历史语音片段对应的权重越大。

本发明实施例提供的装置，分别将通用语料库和各个历史语音片段对应的历史扩展文本作为语言模型的语料库，计算得到对应通用语料库和各个历史语音片段的任一候选分词的候选概率，并基于对应通用语料库和各个历史语音片段的该候选分词的候选概率，以及通用语料库和各个历史语音片段对应的权重，确定该候选分词的概率，对各个历史语音片段对应的历史扩展文本进行了重要性的区分，突出了离当前语音数据较近的历史语音片段对应的历史扩展文本，有助于提高语音识别的准确性。

基于上述任一实施例，候选概率计算单元用于：

基于任一历史语音片段对应的各个类型的历史扩展文本及其对应的重要性系数，确定对应该历史语音片段的该候选分词的候选概率。

基于上述任一实施例，各个类型的历史扩展文本包括浏览内容扩展文本、热词查询扩展文本以及预设扩展文本中的至少一种。

该装置还包括浏览内容扩展文本确定单元，用于：

确定该历史语音片段的第二持续时间范围；

从多个关联用户的应用记录数据中筛选第二持续时间范围内的浏览内容；

选取与热词相关联的浏览内容、至少两个用户间相互关联的浏览内容以及与当前场景相关联的浏览内容中的至少一种，作为该历史语音片段对应的浏览内容扩展文本。

图10示例了一种电子设备的实体结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040，其中，处理器1010，通信接口1020，存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令，以执行语音识别方法，该方法包括：确定待识别的语音数据；基于所述语音数据对应的场景关联文本，对所述语音数据进行语音识别，得到所述语音数据的语音识别结果；所述场景关联文本是基于多个关联用户的应用记录数据确定得到的。

此外，上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的语音识别方法，该方法包括：确定待识别的语音数据；基于所述语音数据对应的场景关联文本，对所述语音数据进行语音识别，得到所述语音数据的语音识别结果；所述场景关联文本是基于多个关联用户的应用记录数据确定得到的。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的语音识别方法，该方法包括：确定待识别的语音数据；基于所述语音数据对应的场景关联文本，对所述语音数据进行语音识别，得到所述语音数据的语音识别结果；所述场景关联文本是基于多个关联用户的应用记录数据确定得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

21页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种组合型语音识别处理方法

语音识别方法、装置、电子设备和存储介质

相关技术

网友询问留言