一种语音识别方法、装置、存储介质和电子设备

文档序号：139072 发布日期：2021-10-22 浏览：12次 >En<

阅读说明：本技术 一种语音识别方法、装置、存储介质和电子设备 (Voice recognition method and device, storage medium and electronic equipment ) 是由张一珂冯晓冰刘毅马龙于 2021-09-13 设计创作，主要内容包括：本申请提供一种语音识别方法、装置、存储介质和电子设备,涉及计算机技术领域。该方法应用于计算设备,从计算设备的存储器中获取语音数据后,可以获得语音数据对应的各个候选文本,并基于各个候选文本确定至少一个初始文本,基于至少一个初始文本对应的文本特征,确定目标领域,基于目标领域对应的语言模型,分别获得各个候选文本各自对应的领域文本评估值,根据各个候选文本各自对应的预估发音评估值、预估文本评估值和领域文本评估值,从各个候选文本中获得语音数据对应的目标文本。由于可以先确定出语音数据对应的目标领域,然后根据目标领域对应的语言模型获得语音数据对应的目标文本,从而可以提高对语音数据进行语音识别的识别准确率。(The application provides a voice recognition method, a voice recognition device, a storage medium and electronic equipment, and relates to the technical field of computers. The method is applied to computing equipment, after voice data are obtained from a memory of the computing equipment, each candidate text corresponding to the voice data can be obtained, at least one initial text is determined based on each candidate text, a target field is determined based on text characteristics corresponding to at least one initial text, field text evaluation values corresponding to each candidate text are respectively obtained based on a language model corresponding to the target field, and target texts corresponding to the voice data are obtained from each candidate text according to estimated pronunciation evaluation values, estimated text evaluation values and field text evaluation values corresponding to each candidate text. The target field corresponding to the voice data can be determined firstly, and then the target text corresponding to the voice data is obtained according to the language model corresponding to the target field, so that the recognition accuracy rate of voice recognition on the voice data can be improved.)

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种语音识别方法、装置、存储介质和电子设备。

背景技术

随着语音识别技术的发展及推广，智能设备（如，智能手机，智能音箱、智能客服和车载信息娱乐系统等）可以通过安装人工智能（Artificial Intelligence，AI）语音助手，来实现线路导航和音乐搜索等功能。

AI语音助手主要是基于语音识别技术采集目标对象的语音数据，并对语音数据进行识别，以确定语音数据对应的文本内容，从而基于获得的文本内容实现具体的应用功能。

相关技术下，AI语音助手可以采用单领域语音识别技术，也可以采用多领域语音识别技术；其中，单领域语音识别技术是采用某一特定领域的语音数据进行训练得到的，多领域语音识别技术是采用多个不同领域的语音数据进行训练得到的。

然而，单领域语音识别技术只能对某一特定领域的语音数据的识别精度较高，而对其他领域的语音数据的识别精度都较低。例如，单领域语音识别技术是线路导航领域的语音识别技术，则该语音识别技术对与线路导航相关的语音数据的识别精度较高，但是对与音乐搜索相关的语音数据的识别精度就较低。多领域语音识别技术由于在进行训练时，对不同领域的语音数据均没有侧重，从而导致训练得到的语音识别技术在对不同领域的语音数据进行识别时，得到的识别结果的正确率都较低，对各个领域的语音数据进行识别的识别效果均较差。

发明内容

为解决现有存在的技术问题，本申请实施例提供一种语音识别方法、装置、存储介质和电子设备，可以提高对语音数据进行语音识别的识别准确率。

为达到上述目的，本申请实施例的技术方案是这样实现的：

第一方面，本申请实施例提供了一种语音识别方法，应用于计算设备，包括：

从所述计算设备的存储器中获取待识别语音数据，对所述待识别语音数据进行语音识别，获得相应的各个候选文本，并基于所述各个候选文本各自对应的预估发音评估值和预估文本评估值，从所述各个候选文本中获得所述待识别语音数据对应的至少一个初始文本；

基于所述至少一个初始文本对应的文本特征，确定相应的目标领域，并基于所述目标领域对应的目标语言模型，分别获得所述各个候选文本各自对应的领域文本评估值；

根据所述各个候选文本各自对应的预估发音评估值、预估文本评估值和领域文本评估值，从所述各个候选文本中获得所述待识别语音数据对应的目标文本。

第二方面，本申请实施例还提供了一种语音识别装置，应用于计算设备，包括：

初始文本确定单元，用于从所述计算设备的存储器中获取待识别语音数据，对所述待识别语音数据进行语音识别，获得相应的各个候选文本，并基于所述各个候选文本各自对应的预估发音评估值和预估文本评估值，从所述各个候选文本中获得所述待识别语音数据对应的至少一个初始文本；

文本评估值确定单元，用于基于所述至少一个初始文本对应的文本特征，确定相应的目标领域，并基于所述目标领域对应的目标语言模型，分别获得所述各个候选文本各自对应的领域文本评估值；

目标文本确定单元，用于根据所述各个候选文本各自对应的预估发音评估值、预估文本评估值和领域文本评估值，从所述各个候选文本中获得所述待识别语音数据对应的目标文本。

在一种可选的实施例中，所述初始文本确定单元，具体用于：

根据所述各个候选文本各自对应的预估发音评估值和预估文本评估值，分别确定所述各个候选文本各自对应的综合评估值；

基于所述各个候选文本各自对应的综合评估值，从所述各个候选文本中获得所述待识别语音数据对应的至少一个初始文本。

在一种可选的实施例中，所述初始文本确定单元，还用于：

按照所述综合评估值由高到低或由低到高的顺序，从所述各个候选文本中选取所述综合评估值小于设定阈值的至少一个候选文本，并将所述至少一个候选文本作为所述待识别语音数据对应的至少一个初始文本。

在一种可选的实施例中，所述文本评估值确定单元，具体用于：

对所述至少一个初始文本中的各个初始文本分别进行特征提取，获得所述各个初始文本各自对应的文本特征；

根据所述各个初始文本各自对应的文本特征，分别确定所述各个初始文本各自对应的初始领域；

基于获得的所述各个初始文本各自对应的初始领域，确定所述待识别语音数据对应的目标领域。

在一种可选的实施例中，所述文本评估值确定单元，还用于：

针对所述各个初始文本，分别执行以下操作：

获取一个初始文本包括的各个单词，并根据所述各个单词构建得到所述一个初始文本对应的单词序列；

分别确定所述各个单词各自在所述单词序列中的词频信息，并根据获得的各个词频信息，得到所述一个初始文本对应的文本特征。

在一种可选的实施例中，所述文本评估值确定单元，还用于：

针对所述各个初始文本，分别执行以下操作：

根据一个初始文本对应的文本特征，确定所述一个初始文本属于各个预设领域的分类概率值；

将所述各个预设领域中，分类概率值符合第一设定条件的预设领域，作为所述一个初始文本对应的初始领域。

在一种可选的实施例中，所述文本评估值确定单元，还用于：

基于所述各个初始文本各自对应的初始领域，确定对应同一初始领域的初始文本数量；

将所述初始文本数量符合第二设定条件对应的初始领域，作为所述待识别语音数据对应的目标领域。

在一种可选的实施例中，所述文本评估值确定单元，还用于：

针对所述各个候选文本，分别执行以下操作：

基于所述目标领域对应的目标语言模型，分别确定一个候选文本中包括的各个单词各自对应的预测评估值；所述目标领域对应的目标语言模型是根据所述目标领域对应的样本数据训练得到的；

对获得的各个预测评估值进行求和，得到所述一个候选文本对应的领域文本评估值。

在一种可选的实施例中，所述目标文本确定单元，具体用于：

对所述各个候选文本各自对应的预估发音评估值、预估文本评估值和领域文本评估值进行加权求和，分别得到所述各个候选文本各自对应的识别评估值；

将所述识别评估值符合第三设定条件的候选文本，作为所述待识别语音数据对应的目标文本。

第三方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现第一方面的语音识别方法。

第四方面，本申请实施例还提供了一种电子设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器实现第一方面的语音识别方法。

本申请实施例提供的语音识别方法、装置、存储介质和电子设备，应用于计算设备，该方法可以从计算设备的存储器中获取待识别语音数据，对语音数据进行语音识别，获得相应的各个候选文本，并基于各个候选文本各自对应的预估发音评估值和预估文本评估值，从各个候选文本中确定出至少一个初始文本，然后基于至少一个初始文本对应的文本特征，确定相应的目标领域，以及基于目标领域对应的目标语言模型，分别获得各个候选文本各自对应的领域文本评估值，最后根据各个候选文本各自对应的预估发音评估值、预估文本评估值和领域文本评估值，从各个候选文本中获得语音数据对应的目标文本。由于可以先确定出语音数据对应的目标领域，然后选取与目标领域相关的语言模型，对语音数据进行进一步的识别，进而确定出语音数据对应的目标文本，从而与相关技术中的单领域语音识别技术只能对特定领域的语音数据的语音识别准确率较高，以及多领域语音识别技术对各个领域的语音数据的语音识别准确率都较低相比，可以提高对各个领域的语音数据进行语音识别的识别准确率，同时也可以解决对不同领域中的对应有同音异形词汇的语音数据的语音识别问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音识别方法的应用场景图；

图2为本申请实施例提供的一种语音识别方法的流程示意图；

图3a为本申请实施例提供的一种确定初始文本的流程示意图；

图3b为本申请实施例提供的另一种确定初始文本的流程示意图；

图3c为本申请实施例提供的一种确定初始领域的流程示意图；

图3d为本申请实施例提供的一种确定目标领域的流程示意图；

图3e为本申请实施例提供的一种确定领域文本评估值的流程示意图；

图3f为本申请实施例提供的一种确定目标文本的流程示意图；

图4为本申请实施例提供的另一种语音识别方法的流程示意图；

图5a为本申请实施例提供的另一种确定初始文本的流程示意图；

图5b为本申请实施例提供的另一种确定目标领域的流程示意图；

图5c为本申请实施例提供的另一种确定目标文本的流程示意图；

图6为本申请实施例提供的一种语音识别装置的结构示意图；

图7为本申请实施例提供的一种电子设备的结构示意图；

图8为本申请实施例提供的另一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

需要说明的是，本申请的文件中涉及的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

以下对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

（1）语音识别：将人的语音转换为文本的技术，目标是让运行语音识别系统的设备能够听写出不同人所说出的连续语音所包括的文本。

（2）语言模型：语言结构的知识表示，这里语言结构可以包括词语、句子之间的规律，例如语法、词语常用搭配等的知识表示。

下面结合附图及具体实施例对本申请作进一步详细的说明。

下文中所用的词语“示例性”的意思为“用作例子、实施例或说明性”。作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本申请实施例涉及人工智能（Artificial Intelligence, AI）和机器学习技术，基于人工智能中的语音处理技术（Speech Technology）和机器学习（Machine Learning,ML）而设计。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、语音处理技术、以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能在多个领域展开研究和应用，例如常见的智能家居、图像检索、视频监控、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗等，相信随着技术的发展，人工智能将在更多的领域得到应用，并发挥越来越重要的价值。

语音处理技术的关键技术有自动语音识别技术（ASR）和语音合成技术（TTS）以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，目前，语音已成为人机交互方式之一。

自然语言处理技术，是计算机科学领域与人工智能领域中的一个重要方向。其研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括语音处理、语义理解、文本处理等技术。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。本申请实施例在确定出语音数据对应的目标领域后，可以根据目标领域选择基于机器学习或深度学习的语言模型，以通过语言模型得到语音数据对应的候选文本的领域文本评估值，进而确定出语音数据对应的目标文本。

为更好地理解本申请实施例提供的技术方案，下面对本申请实施例提供的技术方案适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

本申请实施例所提供的语音识别方法可以应用于图1示出的应用场景中。参见图1所示，服务器100通过网络200与终端设备300进行通信连接，其中，网络200可以是但不限于局域网、城域网或广域网等，与服务器100连接的终端设备300的数量可以是多个。终端设备300可以通过网络200和服务器100相互传输通信数据和消息。

终端设备300可以是智能手机、智能音箱、智能客服和车载信息娱乐系统等。服务器100可以是一台服务器或由若干台服务器组成的服务器集群或云计算中心，或者是一个虚拟化平台，也可以是个人计算机、大中型计算机或计算机集群等。根据实现需要，本申请实施例中的应用场景中可以具有任意数目的终端设备和服务器。本申请对此不做特殊限定。本申请实施例提供的语音识别方法可以由服务器100执行，或者由终端设备300执行，也可以由终端设备300和服务器100协作执行。

示例性地，终端设备300中安装有AI语音助手，终端设备300在获取到用户的语音数据后，可以将该语音数据发送给服务器100，服务器100在接收到语音数据后，可以从存储器中读取该语音数据，对该语音数据进行语音识别，获得相应的各个候选文本，并基于各个候选文本各自对应的预估发音评估值和预估文本评估值，从各个候选文本中获得语音数据对应的至少一个初始文本，然后基于至少一个初始文本对应的文本特征，确定相应的目标领域，并基于目标领域对应的目标语言模型，分别获得各个候选文本各自对应的领域文本评估值，最后根据各个候选文本各自对应的预估发音评估值、预估文本评估值和领域文本评估值，从各个候选文本中获得语音数据对应的目标文本。并且，服务器100在得到语音数据对应目标文本后，可以将该目标文本发送给终端设备300，以使终端设备300执行相应的具体应用功能。

目前，随着语音识别技术的发展及推广，智能设备（如，智能手机，智能音箱、智能客服和车载信息娱乐系统等）可以通过安装AI语音助手，采集目标对象的语音数据，并对语音数据进行语音识别得到对应的文本内容，从而可以基于获得的文本内容实现具体的应用功能。

相关技术中的AI语音助手常采用根据某一特定领域的语音数据进行训练得到的单领域语音识别技术，或者采用根据多个不同领域的语音数据进行训练得到的多领域语音识别技术。

然而，单领域语音识别技术只能对某一特定领域的语音数据的识别精度较高，而对其他领域的语音数据的识别精度都较低。多领域语音识别技术由于在对不同领域的语音数据进行识别时，对不同领域的语音数据均没有侧重，从而使得对各个领域的语音数据进行识别得到的识别结果的正确率都较低。

此外，不同领域的术语、名词可能存在发音相同或相似的情况，而在对不同领域存在同音异形的语音数据进行语音识别时，无论是单领域语音识别技术还是多领域语音识别技术均无法得到正确的识别结果，例如，当输入的语音数据为“an-he-qiao”时，歌曲“安和桥”和地点“安河桥”发音相同，目前的语音识别技术无法确定正确的识别结果是“安和桥”还是“安河桥”。

为了解决上述问题，本申请实施例提供了一种语音识别方法，可以对语音数据进行语音识别，获得相应的各个候选文本，并基于各个候选文本各自对应的预估发音评估值和预估文本评估值，从各个候选文本中获得待识别语音数据对应的至少一个初始文本，然后基于至少一个初始文本对应的文本特征，确定相应的目标领域，并基于目标领域对应的目标语言模型，分别获得各个候选文本各自对应的领域文本评估值，最后根据各个候选文本各自对应的预估发音评估值、预估文本评估值和领域文本评估值，从各个候选文本中获得待识别语音数据对应的目标文本。该方法可以提高对各个领域的语音数据进行语音识别的识别准确率。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际的处理过程中或者装置执行时，可按照实施例或者附图所示的方法顺序执行或者并行执行。

图2示出了本申请实施例提供的一种语音识别方法的流程图，该方法可以应用于计算设备，该计算设备可以是终端设备，也可以是服务器，即该方法可以由图1中的服务器100执行，也可以由终端设备或其它电子设备执行。示例性地，下文以用于进行语音识别的服务器作为执行主体，说明本申请实施例的语音识别方法的具体实现过程。其它设备执行的具体实施过程与服务器单独执行的过程类似，本文中不再赘述。

如图2所示，该语音识别方法包括如下步骤：

步骤S201，从计算设备的存储器中获取待识别语音数据，对待识别语音数据进行语音识别，获得相应的各个候选文本，并基于各个候选文本各自对应的预估发音评估值和预估文本评估值，从各个候选文本中获得待识别语音数据对应的至少一个初始文本。

在步骤S201中，计算设备可以是服务器，可以先从服务器的存储器中获取待识别语音数据，然后对待识别语音数据进行语音识别，获得相应的各个候选文本，以及各个候选文本各自对应的预估发音评估值和预估文本评估值。

根据各个候选文本各自对应的预估发音评估值和预估文本评估值，可以分别确定各个候选文本各自对应的综合评估值，然后按照综合评估值由高到低或由低到高的顺序，从各个候选文本中选取综合评估值小于设定阈值的至少一个候选文本，并将至少一个候选文本作为待识别语音数据对应的至少一个初始文本。

在该实施例中，通过对待识别语音数据进行语音识别，得到多个候选文本，并根据各个候选文本各自对应的预估发音评估值和预估文本评估值，从多个候选文本中选取出待识别语音数据对应的至少一个初始文本。由于不是直接通过对语音数据进行语音识别，就得到语音数据对应的目标文本，而是先得到语音数据对应的多个文本，并根据该多个文本来确定出的语音数据对应的目标领域，再对语音数据进行识别，确定语音数据对应的目标文本，从而可以得到语音数据对应的较为准确的目标文本。

例如，如图3a所示，可以先获取用户输入的待识别语音数据，然后对待识别语音数据进行语音识别，得到候选文本A、候选文本B、候选文本C、候选文本D和候选文本E共5个候选文本，以及候选文本A对应的预估发音评估值a1和预估文本评估值l1，候选文本B对应的预估发音评估值a2和预估文本评估值l2，候选文本C对应的预估发音评估值a3和预估文本评估值l3，候选文本D对应的预估发音评估值a4和预估文本评估值l4，候选文本E对应的预估发音评估值a5和预估文本评估值l5。

然后，根据候选文本A对应的预估发音评估值a1和预估文本评估值l1，可以得到候选文本A对应的综合评估值s1，根据候选文本B对应的预估发音评估值a2和预估文本评估值l2，可以得到候选文本B对应的综合评估值s2，根据候选文本C对应的预估发音评估值a3和预估文本评估值l3，可以得到候选文本C对应的综合评估值s3，根据候选文本D对应的预估发音评估值a4和预估文本评估值l4，可以得到候选文本D对应的综合评估值s4，以及根据候选文本E对应的预估发音评估值a5和预估文本评估值l5，可以得到候选文本E对应的综合评估值s5。

假设综合评估值s1为-85，综合评估值s2为-60，综合评估值s3为-93，综合评估值s4为-46，综合评估值s5为-75，设定阈值为-50，则可以确定各个综合评估值中小于设定阈值-50的综合评估值对应的候选文本有候选文本A、候选文本B、候选文本C和候选文本E。因此，可以从候选文本A、候选文本B、候选文本C、候选文本D和候选文本E中选取候选文本A、候选文本B、候选文本C和候选文本E作为待识别语音数据对应的初始文本。

具体地，如图3b所示，假设用户输入的语音数据为“bo-fang-an-he-qiao”，对该语音数据进行语音识别，可以得到候选文本A“播放安和桥”，候选文本B“播放安河桥”，且候选文本A对应的预估发音评估值a1为-80，候选文本A对应的预估文本评估值l1为70，候选文本B对应的预估发音评估值a2为-90，候选文本B对应的预估文本评估值l2为60。根据预估发音评估值a1和预估文本评估值l1，可以得到候选文本A对应的综合评估值为-10，根据预估发音评估值a2和预估文本评估值l2，可以得到候选文本B对应的综合评估值为-30。假设设定阈值为-5，则根据综合评估值小于设定阈值，可以将候选文本A和候选文本B均作为语音数据“bo-fang-an-he-qiao”对应的初始文本，即语音数据“bo-fang-an-he-qiao”对应的初始文本分别为“播放安和桥”和“播放安河桥”。

步骤S202，基于至少一个初始文本对应的文本特征，确定相应的目标领域，并基于目标领域对应的目标语言模型，分别获得各个候选文本各自对应的领域文本评估值。

在步骤S202中，可以对至少一个初始文本中的各个初始文本分别进行特征提取，获得各个初始文本各自对应的文本特征，并根据各个初始文本各自对应的文本特征，分别确定各个初始文本各自对应的初始领域，然后基于获得的各个初始文本各自对应的初始领域，确定待识别语音数据对应的目标领域。

在该实施例中，由于先确定了至少一个初始文本，并根据各个初始文本对应的文本特征，确定各个初始文本对应的初始领域，以根据该初始领域来确定出语音数据对应的目标领域，从而可以将各个初始文本分类到较为正确的初始领域中，进而根据该正确的初始领域，可以较为准确地预测出语音数据对应的目标领域。

具体地，针对各个初始文本，可以分别执行以下操作：获取一个初始文本包括的各个单词，并根据各个单词构建得到一个初始文本对应的单词序列，分别确定各个单词各自在单词序列中的词频信息，并根据获得的各个词频信息，得到一个初始文本对应的文本特征。

在该实施例中，可以通过根据初始文本中包括的各个单词构建得到的单词序列，来确定出各个单词各自在单词序列中的词频信息，以得到初始文本对应的文本特征。由于可以较为合理和准确地提取出初始文本中的文本特征，从而可以根据该文本特征，正确地将初始文本分类到相应的初始领域中，以最终确定出语音数据对应的目标领域。

在一种实施例中，针对各个初始文本，可以分别执行以下操作：分别获取一个初始文本的一元文法、二元文法和三元文法，其中，初始文本的一元文法表示一个词出现的概率与历史词无关，初始文本的二元文法表示一个词出现的概率仅与它前一个历史词有关，初始文本的三元文法表示一个词出现的概率仅与它前两个历史词有关。统计一个初始文本的一元文法、二元文法和三元文法分别对应的词频-逆文档频率（Term Frequency-InverseDocument Frequency，TF-IDF），根据一个初始文本的一元文法、二元文法和三元文法分别对应的TF-IDF值，得到一个初始文本对应的文本特征。

例如，一个初始文本为“语音｜识别｜系统｜的｜构建｜方法”，可以先分别得到该初始文本的一元文法为{<s>，语音，识别，系统，的，构建，方法，</s>}，该初始文本的二元文法为{<s>｜语音，语音｜识别，识别｜系统，系统｜的，的｜构建，构建｜方法，方法｜</s>}，该初始文本的三元文法为{<s>|语音｜识别，语音｜识别｜系统，识别｜系统｜的，系统｜的｜构建，的｜构建｜方法，构建｜方法｜</s>}。其中，<s>和</s>分别表示句子开始和结束。然后统计该初始文本的一元文法、二元文法、三元文法分别对应的TF-IDF值，并根据该初始文本的一元文法、二元文法、三元文法分别对应的TF-IDF值，得到该初始文本对应的文本特征。

在得到各个初始文本各自对应的文本特征后，针对各个初始文本，可以分别执行以下操作：基于一个初始文本对应的文本特征，确定一个初始文本属于各个预设领域的分类概率值，将各个预设领域中，分类概率值符合第一设定条件的预设领域，作为一个初始文本对应的初始领域。

在该实施例中，由于可以先根据初始文本对应的文本特征，得到初始文本属于各个预设领域的概率值，然后根据该概率值来确定出初始文本对应的初始领域，从而可以较为准确地将各个初始文本分类到相应的初始领域中，进而可以根据各个初始文本对应的初始领域，来预测出语音数据对应的目标领域。

例如，预设领域有线路导航、音乐搜索、百科问答、影视搜索和商品搜索共5个领域，则如图3c所示，在得到初始文本A对应的文本特征后，可以根据该文本特征，确定初始文本A分别属于线路导航、音乐搜索、百科问答、影视搜索和商品搜索的分类概率值。假设初始文本A属于线路导航的分类概率值为0.84，初始文本A属于音乐搜索的分类概率值为0.93，初始文本A属于百科问答的分类概率值为0.43，初始文本A属于影视搜索的分类概率值为0.65，初始文本A属于商品搜索的分类概率值为0.55，第一设定条件为分类概率值最高。则可以在线路导航、音乐搜索、百科问答、影视搜索和商品搜索中，选择分类概率值最高的领域，即选择音乐搜索作为初始文本A对应的初始领域。

在获取到各个初始文本各自对应的初始领域后，可以基于各个初始文本各自对应的初始领域，确定对应同一初始领域的初始文本数量，并将初始文本数量符合第二设定条件对应的初始领域，作为待识别语音数据对应的目标领域。

在该实施例中，由于可以根据多个初始文本对应的初始领域，来确定出待识别语音数据对应的目标领域，从而可以较为准确地预测出待识别语音数据所属的目标领域，以达到根据该目标领域对应的语言模型对待识别语音数据进行再次识别，得到较为正确的目标文本的目的。

例如，如图3d所示，待识别语音数据对应的初始文本为初始文本A、初始文本B、初始文本C和初始文本D共4个初始文本，并且初始文本A对应的初始领域为音乐搜索，初始文本B对应的初始领域为线路导航，初始文本C对应的初始领域为音乐搜索，初始文本D对应的初始领域为音乐搜索。假设第二设定条件为对应于同一初始领域的初始文本数量最多，由于对应于音乐搜索的初始文本数量为3个，对应于线路导航的初始文本数量为1个，则可以将音乐搜索作为待识别语音数据对应的目标领域。

在确定出待识别语音数据对应的目标领域后，针对各个候选文本，可以分别执行以下操作：基于目标领域对应的目标语言模型，分别确定一个候选文本中包括的各个单词各自对应的预测评估值，对获得的各个预测评估值进行求和，得到一个候选文本对应的领域文本评估值。其中，目标领域对应的目标语言模型是根据目标领域对应的样本数据训练得到的。

在该实施例中，由于可以根据目标领域对应的目标语言模型，对多个候选文本进行再次识别，确定出各个候选文本各自对应的领域文本评估值，从而可以得到对待识别语音数据进行再次识别的较为合理的识别结果，进而依据该识别结果来确定出待识别语音数据对应的目标文本，进一步提高了对待识别语音数据进行语音识别的识别正确率。

例如，如图3e所示，候选文本W中包括有单词W1、单词W2、单词W3、单词A4和单词W5共5个单词，基于目标领域对应的目标语言模型，可以分别确定单词W1对应的预测评估值为-1，单词W2对应的预测评估值为-3，单词W3对应的预测评估值为-2，单词W4对应的预测评估值为-5，单词W5对应的预测评估值为-2。则对各个预测评估值进行求和，可以得到候选文本W对应的领域文本评估值为-1-3-2-5-2=-13。

步骤S203，根据各个候选文本各自对应的预估发音评估值、预估文本评估值和领域文本评估值，从各个候选文本中获得待识别语音数据对应的目标文本。

在步骤S203中，可以先对各个候选文本各自对应的预估发音评估值、预估文本评估值和领域文本评估值进行加权求和，分别得到各个候选文本各自对应的识别评估值，然后将识别评估值符合第三设定条件的候选文本，作为待识别语音数据对应的目标文本。

在该实施例中，可以通过各个候选文本各自对应的预估发音评估值、预估文本评估值和领域文本评估值，分别得到各个候选文本各自对应的识别评估值，从而可以根据识别评估值的高低，从多个候选文本中确定出待识别语音数据对应的目标文本。由于在对待识别语音数据进行再次识别得到领域文本评估值后，还需要结合对待识别语音数据进行初始识别得到的预估发音评估值和预估文本评估值，从而可以得到较为准确的待识别语音数据对应的目标文本，提高了对各个领域的语音数据进行语音识别的识别准确度。

例如，如图3f所示，待识别语音数据对应的候选文本为候选文本A、候选文本B、候选文本C和候选文本D共4个候选文本，假设候选文本A对应的预估发音评估值为-80、预估文本评估值为40、领域文本评估值为20；候选文本B对应的预估发音评估值为-70、预估文本评估值为35、领域文本评估值为40；候选文本C对应的预估发音评估值为-90、预估文本评估值为45、领域文本评估值为25；候选文本D对应的预估发音评估值为-100、预估文本评估值为40、领域文本评估值为40。各个预估发音评估值对应的权重为1，各个预估文本评估值对应的权重为0.5，各个领域文本评估值为0.5，则对各个候选文本各自对应的预估发音评估值、预估文本评估值和领域文本评估值进行加权求和，可以分别得到候选文本A对应的识别评估值为-80+40×0.5+20×0.5=-50，候选文本B对应的识别评估值为-70+35×0.5+40×0.5=-32.5，候选文本C对应的识别评估值为-90+45×0.5+25×0.5=-55，候选文本D对应的识别评估值为-100+40×0.5+40×0.5=-60，第三设定条件为识别评估值最低。则可以从候选文本A、候选文本B、候选文本C和候选文本D中，选择候选文本B作为待识别语音数据对应的目标文本。

在一种实施例中，本申请实施例提供的语音识别方法在确定出待识别语音数据对应的目标文本后，还可以根据该目标文本，实现相应的应用功能。例如，终端设备上安装的AI语音助手在获取到用户输入的语音数据“bo-fang-an-he-qiao”后，可以确定该语音数据对应的目标文本为“播放安和桥”，则可以调取歌曲“安和桥”，并播放歌曲“安和桥”。

上述实施例提供的语音识别方法，可以先对语音数据进行语音识别，获得相应的各个候选文本，并基于各个候选文本各自对应的预估发音评估值和预估文本评估值，从各个候选文本中确定出至少一个初始文本，然后基于至少一个初始文本对应的文本特征，确定相应的目标领域，并基于目标领域对应的目标语言模型，分别获得各个候选文本各自对应的领域文本评估值，最后根据各个候选文本各自对应的预估发音评估值、预估文本评估值和领域文本评估值，从各个候选文本中获得语音数据对应的目标文本。由于可以先确定出语音数据对应的目标领域，然后选取与目标领域相关的语言模型，确定语音数据对应的目标文本，从而与相关技术相比，可以提高对各个领域的语音数据进行语音识别的识别准确率。

在一些实施例中，本申请提出的语音识别方法可以按照图4示出的过程进行实现，该过程可以由图1中的服务器100执行，也可以由终端设备或其它电子设备执行。示例性地，下文以用于进行语音识别的服务器作为执行主体，其它设备执行的具体实施过程与服务器单独执行的过程类似，本文中不再赘述。

如图4所示，可以包括如下步骤：

步骤S401，获取待识别语音数据。

获取用户输入的待识别语音数据。例如，可以采用终端设备上安装的AI语音助手采集用户输入的语音数据，并将采集得到的语音数据发送给服务器。

步骤S402，对待识别语音数据进行语音识别，获得相应的各个候选文本，以及各个候选文本各自对应的预估发音评估值和预估文本评估值。

在获取到待识别语音数据后，可以采用隐马尔科夫模型-深度神经网络（HiddenMarkov Model-Deep Neural Networks，HMM-DNN）对待识别语音数据进行语音识别，从而获得相应的多个候选文本，并同时可以获得各个候选文本各自对应的预估发音评估值和预估文本评估值。

在对待识别语音数据进行语音识别时，也可以采用循环神经网络-传感器（Recurrent Neural Network-Transducer，RNN-T）、Encoder-Decoder、听说写（ListenAttend and Spell，LAS）等方法，本申请在此不作限定。

步骤S403，根据各个候选文本各自对应的预估发音评估值和预估文本评估值，分别确定各个候选文本各自对应的综合评估值。

在得到各个候选文本各自对应的预估发音评估值和预估文本评估值后，可以根据预估发音评估值和预估文本评估值，分别确定出各个候选文本各自对应的综合评估值。

对于各个候选文本h_i各自对应的预估发音评估值a_i和预估文本评估值l_i，可以根据以下公式来得到各个候选文本h_i各自对应的综合评估值s_i：

其中，α，β为常数，通常α和β的值接近1。

步骤S404，基于各个候选文本各自对应的综合评估值，从各个候选文本中获得待识别语音数据对应的至少一个初始文本。

按照综合评估值由高到低或由低到高的顺序，可以从各个候选文本中选取综合评估值小于设定阈值的至少一个候选文本，并将至少一个候选文本作为待识别语音数据对应的至少一个初始文本。

在一种实施例中，在得到待识别语音数据对应的各个候选文本，以及各个候选文本对应的综合评估值后，也可以选择综合评估值中最高概率值对应的候选文本，并将该候选文本作为待识别语音数据对应的初始文本。

步骤S405，对至少一个初始文本中的各个初始文本分别进行特征提取，获得各个初始文本各自对应的文本特征。

在对至少一个初始文本中的各个初始文本分别进行特征提取时，可以提取各个初始文本的一元文法、二元文法和三元文法，并得到一元文法、二元文法和三元文法分别对应的TF-IDF值。根据各个初始文本的一元文法、二元文法和三元文法分别对应的TF-IDF值，得到各个初始文本各自对应的文本特征。

在根据各个初始文本的一元文法、二元文法和三元文法，得到各个初始文本各自对应的文本特征时，也可以采取词频（Term Frequency，TF）、Word2Vec、全局向量（GlobalVector，GloVe）等方法，本申请在此不作限定。

步骤S406，根据各个初始文本各自对应的文本特征，分别确定各个初始文本各自对应的初始领域。

针对各个初始文本，可以分别执行以下操作：根据一个初始文本对应的文本特征，确定一个初始文本属于各个预设领域的分类概率值，并将各个预设领域中，分类概率值符合第一设定条件的预设领域，作为一个初始文本对应的初始领域。

具体地，针对各个初始文本中的一个初始文本，可以采用逻辑回归模型（Logisticregression，LR）作为分类模型来确定该初始文本属于各个预设领域的分类概率值。每个预设领域都可以对应有一个LR模型，则根据LR模型，确定初始文本h_i属于预设领域C_j的分类概率值，可以采用以下公式得到：

其中，θ_j为预设领域C_j对应的LR模型的参数，f为初始文本h_i对应的文本特征。

在根据初始文本对应的文本特征，确定初始文本属于各个预设领域的分类概率值时，也可以采用K近临（k-nearest neighbor，KNN）、支持向量机（support vector machine，SVM）、条件随机场（conditional random filed，CRF）、卷积神经网络（Convolution NeuralNetwork，CNN）、循环神经网络（Recurrent Neural Network，RNN）和Transformer等模型，本申请在此不作限定。

在得到初始文本h_i属于预设领域C_j的分类概率值后，初始文本h_i对应的初始领域，可以根据以下公式得到：

其中，D是所有预设领域C_j的数目，P(C_j|h_i; θ_j)为根据预设领域C_j对应的LR模型得到的初始文本h_i属于预设领域C_j的分类概率值，P(C₀)为一个常数，满足0< P(C₀)<1，表示初始文本h_i不属于各个预设领域C_j的分类概率值，即初始文本h_i属于特殊领域C₀的分类概率值，也即当根据预设领域C_j对应的LR模型得到的初始文本h_i属于预设领域C_j的分类概率值均小于P(C₀)时，可以确定初始文本h_i属于一个特殊领域C₀。例如，假设只有音乐搜索和线路导航两个预设领域，则P(C₀)=0.5。

步骤S407，基于获得的各个初始文本各自对应的初始领域，确定待识别语音数据对应的目标领域。

基于各个初始文本各自对应的初始领域，可以确定对应同一初始领域的初始文本数量，并将初始文本数量符合第二设定条件对应的初始领域，作为待识别语音数据对应的目标领域。

步骤S408，基于目标领域对应的目标语言模型，分别获得各个候选文本各自对应的领域文本评估值。

在对待识别语音数据进行语音识别之前，可以根据各个预设领域对应的样本数据分别训练得到各个预设领域对应的语言模型，则在确定出待识别语音数据对应的目标领域后，可以选取已训练的目标领域对应的目标语言模型。

并且，针对各个候选文本，可以分别执行以下操作：基于目标领域对应的目标语言模型，分别确定一个候选文本中包括的各个单词各自对应的预测评估值，并对获得的各个预测评估值进行求和，得到一个候选文本对应的领域文本评估值。

在一种实施例中，可以采用N元文法语言模型作为目标领域对应的目标语言模型，并根据目标领域对应的N元文法语言模型得到各个候选文本h_i分别对应的领域文本评估值p_i。目标领域对应的目标语言模型也可以采用长短期记忆网络（Long Short-Term Memory，LSTM）、门控循环单元（Gate Recurrent Unit，GRU）、CNN、RNN、Transformer等模型，本申请在此不作限定。

步骤S409，根据各个候选文本各自对应的预估发音评估值、预估文本评估值和领域文本评估值，从各个候选文本中获得待识别语音数据对应的目标文本。

在得到各个候选文本各自对应的预估发音评估值、预估文本评估值和领域文本评估值后，可以对各个候选文本各自对应的预估发音评估值、预估文本评估值和领域文本评估值进行加权求和，分别得到各个候选文本各自对应的识别评估值，并将识别评估值符合第三设定条件的候选文本，作为待识别语音数据对应的目标文本。

具体地，候选文本h_i对应的识别评估值k_i可以根据以下公式得到：

其中，α，β和γ均为常数，0<β<1，0<γ<1且β+γ=1。例如，可以取α=1.0，β=0.5，γ=0.5。

并且，在确定出候选文本h_i对应的识别评估值k_i后，可以将识别评估值k_i中概率值最高的候选文本h_i作为待识别语音数据对应的目标文本。

本申请实施例提供的语音识别方法可以在多领域语音识别场景下提升对各个领域的语音数据进行语音识别的识别正确率，并且可以解决现有的通用语音识别方法中不同领域的语言学知识源耦合在一起的问题，进而解决了对不同领域中同音异形词汇的识别问题，以及只对某一特定领域对应的语言模型进行优化而导致得到的语音识别方法对该特定领域的语音数据进行语音识别的识别效果较好，而对其他领域的语音数据进行语音识别的识别性能下降的问题。

下面采用一个具体的应用场景，对以上实施例做出进一步详细说明：

如图5a所示，假设用户输入的语音数据为“qu-bu-la-ge-guang-chang”，则终端设备在获取到语音数据“qu-bu-la-ge-guang-chang”后，可以对语音数据“qu-bu-la-ge-guang-chang”进行语音识别，得到候选文本A“去不拉格光场”，候选文本B“去布拉格广场”，候选文本C“取布拉格广场”和候选文本D“去步拉各广场”，且候选文本A“去不拉格光场”对应的预估发音评估值为-70、预估文本评估值为35；候选文本B“去布拉格广场”对应的预估发音评估值为-80、预估文本评估值为40；候选文本C“取布拉格广场”对应的预估发音评估值为-90、预估文本评估值为55，候选文本D“去步拉各广场” 对应的预估发音评估值为-60、预估文本评估值为30。

各个预估发音评估值对应的权重为1，各个预估文本评估值对应的权重为0.5，则对各个候选文本各自对应的预估发音评估值和预估文本评估值进行加权求和，可以分别得到候选文本A“去不拉格光场”对应的综合评估值为-70+35×0.5=-52.5，候选文本B“去布拉格广场”对应的综合评估值为-80+40×0.5=-60，候选文本C“取布拉格广场”对应的综合评估值为-90+55×0.5=-62.5，候选文本D“去步拉各广场” 对应的综合评估值为-60+30×0.5=-45。

设定阈值为-50，则当从各个候选文本中选取综合评估值小于设定阈值-50的候选文本时，可以将候选文本A“去不拉格光场”、候选文本B“去布拉格广场”和候选文本C“取布拉格广场”作为语音数据“qu-bu-la-ge-guang-chang”对应的初始文本。

如图5b所示，可以得到语音数据“qu-bu-la-ge-guang-chang”对应的初始文本为初始文本A“去不拉格光场”，初始文本B“去布拉格广场”和初始文本C“取布拉格广场”。分别对初始文本A“去不拉格光场”、初始文本B“去布拉格广场”和初始文本C“取布拉格广场”进行特征提取，得到初始文本A“去不拉格光场”对应的文本特征、初始文本B“去布拉格广场”对应的文本特征和初始文本C“取布拉格广场”对应的文本特征。

假设预设领域为线路导航和音乐搜索两个领域，则根据初始文本A“去不拉格光场”对应的文本特征，可以确定初始文本A“去不拉格光场”属于线路导航的分类概率值为0.7，属于音乐搜索的分类概率值为0.4；根据初始文本B “去布拉格广场”对应的文本特征，可以确定初始文本B“去布拉格广场”属于线路导航的分类概率值为0.9，属于音乐搜索的分类概率值为0.7；根据初始文本C“取布拉格广场”对应的文本特征，可以确定初始文本C“取布拉格广场”属于线路导航的分类概率值为0.5，属于音乐搜索的分类概率值为0.8。若第一设定条件为分类概率值最高，则可以确定初始文本A“去不拉格光场”对应的初始领域为线路导航，初始文本B“去布拉格广场”对应的初始领域为线路导航，初始文本C“取布拉格广场”对应的初始领域为音乐搜索。若第二设定条件为对应于同一初始领域的初始文本数量最多，则可以确定语音数据“qu-bu-la-ge-guang-chang”对应的目标领域为线路导航。

如图5c所示，在确定语音数据“qu-bu-la-ge-guang-chang”对应的目标领域为线路导航后，可以基于线路导航对应的目标语言模型，分别确定候选文本A“去不拉格光场”对应的领域文本评估值为60，候选文本B“去布拉格广场”对应的领域文本评估值为30，候选文本C“取布拉格广场”对应的领域文本评估值为40，候选文本D“去步拉各广场”对应的领域文本评估值为50。若各个预估发音评估值对应的权重为1，各个预估文本评估值对应的权重为0.5，各个领域文本评估值对应的权重为0.5，则对各个候选文本各自对应的预估发音评估值、预估文本评估值和领域文本评估值进行加权求和，可以得到候选文本A“去不拉格光场”对应的识别评估值为-70+35×0.5+60×0.5=-22.5，候选文本B“去布拉格广场”对应的识别评估值为-80+40×0.5+30×0.5=-45，候选文本C“取布拉格广场”对应的识别评估值为-90+55×0.5+40×0.5=-42.5，候选文本D“去步拉各广场” 对应的识别评估值为-60+30×0.5+50×0.5=-20。

若第三设定条件为识别评估值最低，则可以将候选文本B“去布拉格广场”作为语音数据“qu-bu-la-ge-guang-chang”对应的目标文本，即可以确定出语音数据“qu-bu-la-ge-guang-chang”对应的目标文本为“去布拉格广场”。

在一种实施例中，可以将本申请提出的语音识别方法与现有的通用语音识别方法在对语音数据进行语音识别后得到的目标文本的字错误率方面进行比较，比较的结果可以如表1所示：

表1

其中，测试集1和测试集2均为从智能车载语音业务场景下采集的语音数据，且测试集1中仅包含有线路导航领域的语音数据，测试集2中仅包含有音乐搜索领域的语音数据。采用字错误率作为评估语音识别方法性能高低的评估指标是因为字错误率越低表示语音识别方法的性能越好，识别准确率越高。

与图2所示的语音识别方法基于同一发明构思，本申请实施例中还提供了一种语音识别装置，该语音识别装置可以布设在服务器或终端设备中。由于该装置是本申请语音识别方法对应的装置，并且该装置解决问题的原理与该方法相似，因此该装置的实施可以参见上述方法的实施，重复之处不再赘述。

图6示出了本申请实施例提供的一种语音识别装置的结构示意图，如图6所示，该语音识别装置应用于计算设备，可以包括初始文本确定单元601、文本评估值确定单元602和目标文本确定单元603。

其中，初始文本确定单元601，用于从计算设备的存储器中获取待识别语音数据，对待识别语音数据进行语音识别，获得相应的各个候选文本，并基于各个候选文本各自对应的预估发音评估值和预估文本评估值，从各个候选文本中获得待识别语音数据对应的至少一个初始文本；

文本评估值确定单元602，用于基于至少一个初始文本对应的文本特征，确定相应的目标领域，并基于目标领域对应的目标语言模型，分别获得各个候选文本各自对应的领域文本评估值；

目标文本确定单元603，用于根据各个候选文本各自对应的预估发音评估值、预估文本评估值和领域文本评估值，从各个候选文本中获得待识别语音数据对应的目标文本。

在一种可选的实施例中，初始文本确定单元601，具体用于：

根据各个候选文本各自对应的预估发音评估值和预估文本评估值，分别确定各个候选文本各自对应的综合评估值；

基于各个候选文本各自对应的综合评估值，从各个候选文本中获得待识别语音数据对应的至少一个初始文本。

在一种可选的实施例中，初始文本确定单元601，还用于：

按照综合评估值由高到低或由低到高的顺序，从各个候选文本中选取综合评估值小于设定阈值的至少一个候选文本，并将至少一个候选文本作为待识别语音数据对应的至少一个初始文本。

在一种可选的实施例中，文本评估值确定单元602，具体用于：

对至少一个初始文本中的各个初始文本分别进行特征提取，获得各个初始文本各自对应的文本特征；

根据各个初始文本各自对应的文本特征，分别确定各个初始文本各自对应的初始领域；

基于获得的各个初始文本各自对应的初始领域，确定待识别语音数据对应的目标领域。

在一种可选的实施例中，文本评估值确定单元602，还用于：

针对各个初始文本，分别执行以下操作：

获取一个初始文本包括的各个单词，并根据各个单词构建得到一个初始文本对应的单词序列；

分别确定各个单词各自在单词序列中的词频信息，并根据获得的各个词频信息，得到一个初始文本对应的文本特征。

在一种可选的实施例中，文本评估值确定单元602，还用于：

针对各个初始文本，分别执行以下操作：

根据一个初始文本对应的文本特征，确定一个初始文本属于各个预设领域的分类概率值；

将各个预设领域中，分类概率值符合第一设定条件的预设领域，作为一个初始文本对应的初始领域。

在一种可选的实施例中，文本评估值确定单元602，还用于：

基于各个初始文本各自对应的初始领域，确定对应同一初始领域的初始文本数量；

将初始文本数量符合第二设定条件对应的初始领域，作为待识别语音数据对应的目标领域。

在一种可选的实施例中，文本评估值确定单元602，还用于：

针对各个候选文本，分别执行以下操作：

基于目标领域对应的目标语言模型，分别确定一个候选文本中包括的各个单词各自对应的预测评估值；目标领域对应的目标语言模型是根据目标领域对应的样本数据训练得到的；

对获得的各个预测评估值进行求和，得到一个候选文本对应的领域文本评估值。

在一种可选的实施例中，目标文本确定单元603，具体用于：

对各个候选文本各自对应的预估发音评估值、预估文本评估值和领域文本评估值进行加权求和，分别得到各个候选文本各自对应的识别评估值；

将识别评估值符合第三设定条件的候选文本，作为待识别语音数据对应的目标文本。

与上述方法实施例和装置实施例基于同一发明构思，本申请实施例中还提供了一种电子设备。

在一种实施例中，电子设备可以是服务器，如图1所示的服务器100。在该实施例中，电子设备的结构可以如图7所示，包括存储器701，通讯模块703以及一个或多个处理器702。

存储器701，用于存储处理器702执行的计算机程序。存储器701可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及运行即时通讯功能所需的程序等；存储数据区可存储各种即时通讯信息和操作指令集等。

存储器701可以是易失性存储器（volatile memory），例如随机存取存储器（random-access memory，RAM）；存储器701也可以是非易失性存储器（non-volatilememory），例如只读存储器，快闪存储器（flash memory），硬盘（hard disk drive，HDD）或固态硬盘（solid-state drive，SSD）、或者存储器701是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器701可以是上述存储器的组合。

处理器702，可以包括一个或多个中央处理单元（central processing unit，CPU）或者为数字处理单元等等。处理器702，用于调用存储器701中存储的计算机程序时实现上述语音识别方法。

通讯模块703用于与终端设备和其他电子设备进行通信。如果电子设备为服务器，则服务器可以通过通讯模块703接收终端设备发送的语音数据。

本申请实施例中不限定上述存储器701、通讯模块703和处理器702之间的具体连接介质。本公开实施例在图7中以存储器701和处理器702之间通过总线704连接，总线704在图7中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线704可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

在另一种实施例中，电子设备可以是智能手机、智能音箱、智能客服和车载信息娱乐系统等任意电子设备，示例性地，该电子设备也可以是图1中所示的终端设备300。

图8示出了一种本申请实施例提供的电子设备的结构框图。如图8所示，该电子设备包括：射频（Radio Frequency，RF）电路810、存储器820、输入单元830、显示单元840、传感器850、音频电路860、无线保真（wireless fidelity，WiFi）模块870、处理器880等部件。本领域技术人员可以理解，图8中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图8对电子设备的各个构成部件进行具体的介绍：

RF电路810可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器880处理；另外，将设计上行的数据发送给基站。

存储器820可用于存储软件程序以及模块，如本申请实施例中的语音识别方法以及装置对应的程序指令/模块，处理器880通过运行存储在存储器820的软件程序以及模块，从而执行电子设备的各种功能应用以及数据处理，如本申请实施例提供的语音识别方法。存储器820可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个应用的应用程序等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元830可用于接收用户输入的数字或字符信息，以及产生与终端的用户设置以及功能控制有关的键信号输入。

可选的，输入单元830可包括触控面板831以及其它输入设备832。

其中，触控面板831，也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板831上或在触控面板831附近的操作），并根据预先设定的程式实现相应的操作，如用户点击功能模块的快捷标识的操作等。可选的，触控面板831可以包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器880，并能接收处理器880发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板831。

可选的，其他输入设备832可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元840可用于显示由用户输入的信息或展示给用户的界面信息以及电子设备的各种菜单。显示单元840即为终端设备的显示系统，用于呈现界面，如显示桌面、应用的操作界面或直播应用的操作界面等。

显示单元840可以包括显示面板841。可选的，显示面板841可以采用液晶显示屏（Liquid Crystal Display，LCD）、有机发光二极管（Organic Light-Emitting Diode，OLED）等形式来配置。

进一步的，触控面板831可覆盖显示面板841，当触控面板831检测到在其上或附近的触摸操作后，传送给处理器880以确定触摸事件的类型，随后处理器880根据触摸事件的类型在显示面板841上提供相应的界面输出。

虽然在图8中，触控面板831与显示面板841是作为两个独立的部件来实现电子设备的输入和输入功能，但是在某些实施例中，可以将触控面板831与显示面板841集成而实现终端的输入和输出功能。

电子设备还可包括至少一种传感器850，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板841的亮度，接近传感器可在电子设备移动到耳边时，关闭显示面板841的背光。作为运动传感器的一种，加速计传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等; 至于电子设备还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路860、扬声器861，传声器862可提供用户与电子设备之间的音频接口。音频电路860可将接收到的音频数据转换后的电信号，传输到扬声器861，由扬声器861转换为声音信号输出；另一方面，传声器862将收集的声音信号转换为电信号，由音频电路860接收后转换为音频数据，再将音频数据输出处理器880处理后，经RF电路810以发送给比如另一电子设备，或者将音频数据输出至存储器820以便进一步处理。

WiFi属于短距离无线传输技术，电子设备通过WiFi模块870可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块870，但是可以理解的是，其并不属于电子设备的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器880是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器820内的软件程序和/或模块，以及调用存储在存储器820内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器880可包括一个或多个处理单元；可选的，处理器880可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、应用及应用内部的功能模块等软件程序，如本申请实施例提供的语音识别方法等。调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器880中。

可以理解，图8所示的结构仅为示意，电子设备还可包括比图8中所示更多或者更少的组件，或者具有与图8所示不同的配置。图8中所示的各组件可以采用硬件、软件或其组合实现。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中的语音识别方法。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

34页详细技术资料下载

一种语音识别方法、装置、存储介质和电子设备

相关技术

网友询问留言