一种使用信心分在多套语音识别结果中进行选择的方法

文档序号：450929 发布日期：2021-12-28 浏览：13次 >En<

阅读说明：本技术 一种使用信心分在多套语音识别结果中进行选择的方法 (Method for selecting among multiple sets of voice recognition results by using confidence score ) 是由赵浩天林锋于 2021-10-20 设计创作，主要内容包括：本发明涉及音频识别的技术领域,具体涉及一种使用信心分在多套语音识别结果中进行选择的方法,包括：采集车内人员语音音频；将所述语音音频分别发送至离线识别引擎和在线识别引擎,在接收到每个引擎的分析结果后立即发送至评分模型,得到对应的信心分；判断所述评分模型最先输出的信心分是否大于等于第一预设阈值；若最先输出的信心分大于等于所述第一预设阈值,则将所述最先输出的信心分对应的分析结果作为识别结果输出；若最先输出的信心分小于所述第一预设阈值,则等待所述评分模型输出每个引擎的分析结果对应的信心分。本发明能够解决现有技术识别语音时无法兼顾速度与准确性的缺陷。(The invention relates to the technical field of audio recognition, in particular to a method for selecting among a plurality of sets of voice recognition results by using confidence score, which comprises the following steps: collecting voice and audio of people in the vehicle; respectively sending the voice audio to an offline recognition engine and an online recognition engine, and immediately sending the voice audio to a scoring model after receiving the analysis result of each engine to obtain corresponding confidence scores; judging whether the confidence score output by the scoring model firstly is greater than or equal to a first preset threshold value; if the first output confidence score is larger than or equal to the first preset threshold, outputting an analysis result corresponding to the first output confidence score as a recognition result; and if the first output confidence score is smaller than the first preset threshold value, waiting for the scoring model to output the confidence score corresponding to the analysis result of each engine. The invention can overcome the defect that the prior art cannot take speed and accuracy into account when recognizing the voice.)

技术领域

本发明涉及音频识别的技术领域，具体涉及一种使用信心分在多套语音识别结果中进行选择的方法。

背景技术

车载语音助手由于受到车机端芯片计算能力和网络连接稳定性的限制，通常会在车端和云端同时部署识别引擎。在实际使用的过程中，需要进行识别引擎的选择，通用的做法是基于网络超时或者基于识别引擎识别出的文字进行的判断。基于网络超时的判断是指在网络状态良好，在线的识别结果在设置的超时前返回的时候，优先采用在线的识别结果，否则使用离线的识别结果。基于识别引擎识别出的文字进行判断是指训练语义模型或者基于模板的规则对识别文字进行分类，优先选择语音助手能够正确执行的指令。以上方式存在的问题是：

一方面在基于网络超时的方法中，由于车载系统的网络条件通常不稳定，为了顺利与云端系统实现交互通常需要把等待网络超时设置得比较长，这就导致了用户通常情况下需要等待较长的时间才能接收到车载语音助手的反馈。这种方法忽略了离线识别在特定领域下能够又快又准确地识别一些指令(例如车控类指令)的优势，导致反馈速度较慢。

另一方面在基于识别引擎识别出的文本的方法中，仅考虑识别结果的语义信息，忽略了用户说话的声学特性在车载多个场景(如与机器人对话、和同车其他人对话、自言自语等不同场景)下的区别。这一区别恰好可能导致语音识别结果的差异从而导致选择结果与用户实际说的话有较大偏差，导致识别结果不准确。

发明内容

因此，本发明要解决现有技术识别语音时无法兼顾速度与准确性的缺陷，从而提供一种使用信心分在多套语音识别结果中进行选择的方法。

根据本发明的第一方面，提供一种使用信心分在多套语音识别结果中进行选择的方法，包括如下步骤：采集车内人员语音音频；将所述语音音频分别发送至离线识别引擎和在线识别引擎，其中，离线识别引擎为部署在车辆上的模型进行语音识别的引擎；在线识别引擎为部署在云端的模型进行语音识别的引擎；在接收到每个引擎的分析结果后立即发送至评分模型，得到对应的信心分，其中，每个分析结果对应一个信心分，所述信心分越高表示所述分析结果越准确；判断所述评分模型最先输出的信心分是否大于等于第一预设阈值；若最先输出的信心分大于等于所述第一预设阈值，则将所述最先输出的信心分对应的分析结果作为识别结果输出；若最先输出的信心分小于所述第一预设阈值，则等待所述评分模型输出每个引擎的分析结果对应的信心分；综合每个分析结果对应的信心分来确定所述语音音频的反馈结果。

可选的，所述综合每个分析结果对应的信心分来确定所述语音音频的反馈结果，包括：判断每个引擎的分析结果对应的信心分是否大于等于第二预设阈值，并统计大于等于所述第二预设阈值的信心分的数量；若大于等于第二预设阈值的信心分数量为0，则发送重新采集语音音频的请求；若大于等于第二预设阈值的信心分数量为1，则将该信心分对应的分析结果作为识别结果输出；若大于等于第二预设阈值的信心分数量为多个，则利用预设策略选择相应的信心分对应的分析结果作为识别结果输出。

可选的，所述等待所述评分模型输出每个引擎的分析结果对应的信心分，包括：若等待预设时长所述评分模型还未收到目标引擎的分析结果，则停止等待所述评分模型输出信心分。

可选的，所述离线识别引擎包括离线声学模型、离线语言模型和离线解码器，所述在线识别引擎包括在线声学模型、在线语音模型和在线解码器，其中，所述将所述语音音频分别发送至离线识别引擎和在线识别引擎，还包括：将所述语音音频发送至离线声学模型，并输出离线声学概率；根据所述离线声学概率输出得到离线语言概率；利用所述离线解码器结合所述离线声学概率和语言模型对所述语音音频进行解码，得到所述离线识别引擎的分析结果；将所述语音音频发送至在线声学模型，并输出在线声学概率；根据所述在线声学概率输出得到在线语言概率；利用所述在线解码器结合所述在线语言概率对所述语音音频进行解码，得到所述在线识别引擎的分析结果。

可选的，所述分析结果包括识别结果、解码代价分数以及音频帧数，其中，所述解码代价分数越高，对应的信心分越低，所述识别结果为所述语音音频识别出的语言文字，该语言文字字数与所述音频帧数的匹配度越低，对应的信心分越低。

可选的，所述解码代价分数包括声学代价分数与语言代价分数，所述声学代价分数为所述声学概率的负对数，所述语言代价分数为所述语言概率的负对数。

可选的，所述在线识别引擎包括在线车载识别引擎与在线通用识别引擎，所述在线车载识别引擎的语言模型由车载场景的语料训练而成，所述在线通用识别引擎的语言模型由一般场景的语料训练而成。

根据本发明的第二方面，提供一种使用信心分在多套语音识别结果中进行选择的系统，包括：采集模块，用于采集车内人员语音音频；发送模块，用于将所述语音音频分别发送至离线识别引擎和在线识别引擎，其中，离线识别引擎为部署在车辆上的模型进行语音识别的引擎；在线识别引擎为部署在云端的模型进行语音识别的引擎；评分模块，用于在接收到每个引擎的分析结果后立即发送至评分模型，得到对应的信心分，其中，每个分析结果对应一个信心分，所述信心分越高表示所述分析结果越准确；判断模块，用于判断所述评分模型最先输出的信心分是否大于等于第一预设阈值；确定模块，用于综合每个分析结果对应的信心分来确定所述语音音频的反馈结果。

根据本发明的第三方面，提供一种计算机设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行上述的使用信心分在多套语音识别结果中进行选择的方法。

根据本发明的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行上述的使用信心分在多套语音识别结果中进行选择的方法。

本发明技术方案，具有如下优点：

1.本发明提供的一种使用信心分在多套语音识别结果中进行选择的方法，包括如下步骤：采集车内人员语音音频；将所述语音音频分别发送至离线识别引擎和在线识别引擎，其中，离线识别引擎为部署在车辆上的模型进行语音识别的引擎；在线识别引擎为部署在云端的模型进行语音识别的引擎；在接收到每个引擎的分析结果后立即发送至评分模型，得到对应的信心分，其中，每个分析结果对应一个信心分，所述信心分越高表示所述分析结果越准确；判断所述评分模型最先输出的信心分是否大于等于第一预设阈值；若最先输出的信心分大于等于所述第一预设阈值，则将所述最先输出的信心分对应的分析结果作为识别结果输出；若最先输出的信心分小于所述第一预设阈值，则等待所述评分模型输出每个引擎的分析结果对应的信心分；综合每个分析结果对应的信心分来确定所述语音音频的反馈结果。通过上述设置，首先采集车内人员语音音频，而后将所采集到的语音音频发送至离线识别引擎和在线识别引擎，各个识别引擎在得出分析结果后立即发送至评分模型，评分模型对各个分析结果进行评分，得到信心分，若最先输出的信心分大于等于第一预设阈值，则将最先输出的信心分对应的分析结果作为识别结果输出，否则，等待评分模型输出每个引擎的分析结果对应的信心分，而后综合每个分析结果对应的信心分来确定语音音频的反馈结果，从而能够兼顾语音识别的速度与准确性。

2.本发明提供的一种使用信心分在多套语音识别结果中进行选择的方法，所述综合每个分析结果对应的信心分来确定所述语音音频的反馈结果，包括：判断每个引擎的分析结果对应的信心分是否大于等于第二预设阈值，并统计大于等于所述第二预设阈值的信心分的数量；若大于等于第二预设阈值的信心分数量为0，则发送重新采集语音音频的请求；若大于等于第二预设阈值的信心分数量为1，则将该信心分对应的分析结果作为识别结果输出；若大于等于第二预设阈值的信心分数量为多个，则利用预设策略选择相应的信心分对应的分析结果作为识别结果输出。通过上述设置，若没有信心分大于等于第一预设阈值，则判断每个引擎的分析结果对应的信心分是否大于等于第二预设阈值，并统计大于等于第二预设阈值的信心分的数量，若大于等于第二预设阈值的信心分数量为0，则发送重新采集语音音频的请求；若大于等于第二预设阈值的信心分数量为1，则将该信心分对应的分析结果作为识别结果输出；若大于等于第二预设阈值的信心分数量为多个，则利用预设策略选择相应的信心分对应的分析结果作为识别结果输出，从而保证了语音识别的准确性。

3.本发明提供的一种使用信心分在多套语音识别结果中进行选择的方法，所述等待所述评分模型输出每个引擎的分析结果对应的信心分，包括：若等待预设时长所述评分模型还未收到目标引擎的分析结果，则停止等待所述评分模型输出信心分。通过上述设置，当车内人员的语音音频一直无法被识别，则退出语音识别过程，从而避免系统进入死循环。

4.本发明提供的一种使用信心分在多套语音识别结果中进行选择的方法，所述离线识别引擎包括离线声学模型、离线语言模型和离线解码器，所述在线识别引擎包括在线声学模型、在线语音模型和在线解码器，其中，所述将所述语音音频分别发送至离线识别引擎和在线识别引擎，还包括：将所述语音音频发送至离线声学模型，并输出离线声学概率；根据所述离线声学概率输出得到离线语言概率；利用所述离线解码器结合所述离线声学概率和语言模型对所述语音音频进行解码，得到所述离线识别引擎的分析结果；将所述语音音频发送至在线声学模型，并输出在线声学概率；根据所述在线声学概率输出得到在线语言概率；利用所述在线解码器结合所述在线语言概率对所述语音音频进行解码，得到所述在线识别引擎的分析结果。通过上述设置，离线识别引擎通过离线声学模型得到离线声学概率，通过离线语言模型得到离线语言概率，而后利用离线解码器对语音音频进行解码，得到离线识别引擎的分析结果；在线识别引擎通过在线声学模型得到在线声学概率，通过在线语言模型得到在线语言概率，而后利用在线解码器对语音音频进行解码，得到在线识别引擎的分析结果。

5.本发明提供的一种使用信心分在多套语音识别结果中进行选择的方法，所述分析结果包括识别结果、解码代价分数以及音频帧数，其中，所述解码代价分数越高，对应的信心分越低，所述识别结果为所述语音音频识别出的语言文字，该语言文字字数与所述音频帧数的匹配度越低，对应的信心分越低。通过上述设置，增加了除识别结果之外的其他两路输出：解码代价分数和音频帧数，从而使得信心分的评判更加准确。

6.本发明提供的一种使用信心分在多套语音识别结果中进行选择的方法，所述解码代价分数包括声学代价分数与语言代价分数，所述声学代价分数为所述声学概率的负对数，所述语言代价分数为所述语言概率的负对数。通过上述设置，由声学概率可便捷地计算出声学代价分数，由语言概率可便捷地计算出语言代价分数。

7.本发明提供的一种使用信心分在多套语音识别结果中进行选择的方法，所述在线识别引擎包括在线车载识别引擎与在线通用识别引擎，所述在线车载识别引擎的语言模型由车载场景的语料训练而成，所述在线通用识别引擎的语言模型由一般场景的语料训练而成。通过上述设置，在线识别引擎的覆盖范围更广，从而能够更加准确地识别车内人员的语音音频。

8.本发明提供的一种使用信心分在多套语音识别结果中进行选择的系统，包括：采集模块，用于采集车内人员语音音频；发送模块，用于将所述语音音频分别发送至离线识别引擎和在线识别引擎，其中，离线识别引擎为部署在车辆上的模型进行语音识别的引擎；在线识别引擎为部署在云端的模型进行语音识别的引擎；评分模块，用于在接收到每个引擎的分析结果后立即发送至评分模型，得到对应的信心分，其中，每个分析结果对应一个信心分，所述信心分越高表示所述分析结果越准确；判断模块，用于判断所述评分模型最先输出的信心分是否大于等于第一预设阈值；确定模块，用于综合每个分析结果对应的信心分来确定所述语音音频的反馈结果。通过上述设置，首先采集车内人员语音音频，而后将所采集到的语音音频发送至离线识别引擎和在线识别引擎，各个识别引擎在得出分析结果后立即发送至评分模型，评分模型对各个分析结果进行评分，得到信心分，若最先输出的信心分大于等于第一预设阈值，则将最先输出的信心分对应的分析结果作为识别结果输出，否则，等待评分模型输出每个引擎的分析结果对应的信心分，而后综合每个分析结果对应的信心分来确定语音音频的反馈结果，从而能够兼顾语音识别的速度与准确性。

附图说明

为了更清楚地说明本发明

具体实施方式

或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的一种使用信心分在多套语音识别结果中进行选择的方法的流程图；

图2为本申请实施例的一种使用信心分在多套语音识别结果中进行选择的方法的步骤S107的结构示意图；

图3为本申请实施例的一种使用信心分在多套语音识别结果中进行选择的系统的结构示意图；

图4为本申请实施例的计算机设备的结构示意图。

附图标记说明：1、采集模块；2、发送模块；3、评分模块；4、判断模块；5、确定模块。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本申请实施例提供的一种使用信心分在多套语音识别结果中进行选择的方法，主要用于识别车内人员的语音音频，相较于传统的使用信心分在多套语音识别结果中进行选择的方法，方法能够兼顾语音识别的速度以及准确度。参照图1-2，本方法包括如下步骤：

步骤S101，采集车内人员语音音频。

步骤S102，将所述语音音频分别发送至离线识别引擎和在线识别引擎，其中，离线识别引擎为部署在车辆上的模型进行语音识别的引擎；在线识别引擎为部署在云端的模型进行语音识别的引擎。

其中，为了提高对语音音频识别的速度与准确度，可设置多个离线识别引擎与在线识别引擎。

步骤S103，在接收到每个引擎的分析结果后立即发送至评分模型，得到对应的信心分，其中，每个分析结果对应一个信心分，所述信心分越高表示所述分析结果越准确。

其中，信心分数模型根据解码器的输出，对该次识别结果的正确性是否有信心进行打分。一般地，定义信心分数的计算公式为：

score＝f(costs，frame_count，query_text)；

公式f的输入为上述解码器的三个输出，costs为声学和语言的解码代价分数，frame_count为输入音频的帧数，query_text为识别结果。公式f可以通过对大量的音频数据进行建模并训练模型得到。模型可以是线性回归模型、决策树模型或者其他复杂的深度学习模型。不论采用哪种模型，建模得到的结果在大趋势上一定是分数越高表示越有信心识别结果是对的，分数低则表示识别结果很可能不对。

步骤S104，判断所述评分模型最先输出的信心分是否大于等于第一预设阈值。

其中，在通常情况下，在线语音识别引擎由于网络波动或者网络延时等原因，其识别速度往往慢于离线识别引擎，因此评分模型最先输出的信心分为离线识别引擎所对应的信心分，若该信心分大于等于第一预设阈值，则能够提高语音识别的速度。

步骤S105，若最先输出的信心分大于等于所述第一预设阈值，则将所述最先输出的信心分对应的分析结果作为识别结果输出。

步骤S106，若最先输出的信心分小于所述第一预设阈值，则等待所述评分模型输出每个引擎的分析结果对应的信心分。

步骤S107，综合每个分析结果对应的信心分来确定所述语音音频的反馈结果。

通过上述设置，首先采集车内人员语音音频，而后将所采集到的语音音频发送至离线识别引擎和在线识别引擎，各个识别引擎在得出分析结果后立即发送至评分模型，评分模型对各个分析结果进行评分，得到信心分，若最先输出的信心分大于等于第一预设阈值，则将最先输出的信心分对应的分析结果作为识别结果输出，此时能够提高语音识别的速度，否则，等待评分模型输出每个引擎的分析结果对应的信心分，而后综合每个分析结果对应的信心分来确定语音音频的反馈结果，此时能够提高语音识别的准确度，从而能够兼顾语音识别的速度与准确性。

步骤S107还包括如下子步骤：

步骤S2071，判断每个引擎的分析结果对应的信心分是否大于等于第二预设阈值，并统计大于等于所述第二预设阈值的信心分的数量；

步骤S2072，若大于等于第二预设阈值的信心分数量为0，则发送重新采集语音音频的请求；

步骤S2073，若大于等于第二预设阈值的信心分数量为1，则将该信心分对应的分析结果作为识别结果输出；

步骤S2074，若大于等于第二预设阈值的信心分数量为多个，则利用预设策略选择相应的信心分对应的分析结果作为识别结果输出。

其中，预设策略有如下几种：

第一种，从多个信心分中挑选出分值最高的一个，并将该信心分对应的分析结果最为识别结果输出；

第二种，根据实际的业务场景采用不同的选择策略，例如结合在线的多种语义模型如话术分类、命名实体识别、语义拒识等模型得出综合的分数，比较通用结果和专用结果的综合分数，来最终决定用哪一个结果。

通过上述设置，若没有信心分大于等于第一预设阈值，则判断每个引擎的分析结果对应的信心分是否大于等于第二预设阈值，并统计大于等于第二预设阈值的信心分的数量，若大于等于第二预设阈值的信心分数量为0，则发送重新采集语音音频的请求；若大于等于第二预设阈值的信心分数量为1，则将该信心分对应的分析结果作为识别结果输出；若大于等于第二预设阈值的信心分数量为多个，则利用预设策略选择相应的信心分对应的分析结果作为识别结果输出，从而保证了语音识别的准确性。

应当注意的是，若等待预设时长所述评分模型还未收到目标引擎的分析结果，则停止等待所述评分模型输出信心分。

通过上述设置，当车内人员的语音音频一直无法被识别，则退出语音识别过程，从而避免系统进入死循环。

所述离线识别引擎包括离线声学模型、离线语言模型和离线解码器，所述在线识别引擎包括在线声学模型、在线语音模型和在线解码器，其中，所述将所述语音音频分别发送至离线识别引擎和在线识别引擎，还包括：将所述语音音频发送至离线声学模型，并输出离线声学概率；根据所述离线声学概率输出得到离线语言概率；利用所述离线解码器结合所述离线声学概率和语言模型对所述语音音频进行解码，得到所述离线识别引擎的分析结果；将所述语音音频发送至在线声学模型，并输出在线声学概率；根据所述在线声学概率输出得到在线语言概率；利用所述在线解码器结合所述在线语言概率对所述语音音频进行解码，得到所述在线识别引擎的分析结果。

通过上述设置，离线识别引擎通过离线声学模型得到离线声学概率，通过离线语言模型得到离线语言概率，而后利用离线解码器对语音音频进行解码，得到离线识别引擎的分析结果；在线识别引擎通过在线声学模型得到在线声学概率，通过在线语言模型得到在线语言概率，而后利用在线解码器对语音音频进行解码，得到在线识别引擎的分析结果。

所述分析结果包括识别结果、解码代价分数以及音频帧数，其中，所述解码代价分数越高，对应的信心分越低，所述识别结果为所述语音音频识别出的语言文字，该语言文字字数与所述音频帧数的匹配度越低，对应的信心分越低。通过上述设置，增加了除识别结果之外的其他两路输出：解码代价分数和音频帧数，从而使得信心分的评判更加准确。

其中，语言文字字数与所述音频帧数的匹配度的具体含义为：例如一个5秒钟的音频只预测出3个字，对应的信心分不会搞，识别结果很有可能不对。

所述解码代价分数包括声学代价分数与语言代价分数，所述声学代价分数为所述声学概率的负对数，所述语言代价分数为所述语言概率的负对数。通过上述设置，由声学概率可便捷地计算出声学代价分数，由语言概率可便捷地计算出语言代价分数。

其中，语音识别的解码过程即结合声学模型、语言模型以及发音词典等，找出最有可能的识别文字结果的过程。以典型的基于WFST(加权有限状态转换器)的解码器为例，语言模型结合发音词典被表示为一个加权有向图，图中的每条边上有输入标签(发音)、输出标签(文字)和权重(语言模型的代价，概率的负对数)。解码的过程即根据声学模型预测出的音频每帧的可能的发音及其概率，在这个图上进行跳转，每次跳转会有一个声学代价(该发音的概率的负对数)和一个语言代价(跳转的边上的权重)。最终会选择一条总代价最小的路径，该路径上的输出标签连起来即识别的文字结果，路径上每次跳转的声学和语言代价分数也输出出来，作为评分模型的输入。

所述在线识别引擎包括在线车载识别引擎与在线通用识别引擎，所述在线车载识别引擎的语言模型由车载场景的语料训练而成，所述在线通用识别引擎的语言模型由一般场景的语料训练而成。通过上述设置，在线识别引擎的覆盖范围更广，从而能够更加准确地识别车内人员的语音音频。

实施例2

本发明提供的一种使用信心分在多套语音识别结果中进行选择的系统，用于实施上述实施例中的使用信心分在多套语音识别结果中进行选择的方法，参照图3，包括如下模块：

采集模块1，用于采集车内人员语音音频；

发送模块2，用于将所述语音音频分别发送至离线识别引擎和在线识别引擎，其中，离线识别引擎为部署在车辆上的模型进行语音识别的引擎；在线识别引擎为部署在云端的模型进行语音识别的引擎；

评分模块3，用于在接收到每个引擎的分析结果后立即发送至评分模型，得到对应的信心分，其中，每个分析结果对应一个信心分，所述信心分越高表示所述分析结果越准确；

判断模块4，用于判断所述评分模型最先输出的信心分是否大于等于第一预设阈值；

确定模块5，用于综合每个分析结果对应的信心分来确定所述语音音频的反馈结果。

通过上述设置，首先采集车内人员语音音频，而后将所采集到的语音音频发送至离线识别引擎和在线识别引擎，各个识别引擎在得出分析结果后立即发送至评分模型，评分模型对各个分析结果进行评分，得到信心分，若最先输出的信心分大于等于第一预设阈值，则将最先输出的信心分对应的分析结果作为识别结果输出，否则，等待评分模型输出每个引擎的分析结果对应的信心分，而后综合每个分析结果对应的信心分来确定语音音频的反馈结果，从而能够兼顾语音识别的速度与准确性。

实施例3

参照图4，本发明实施例还提供了一种计算机设备，该设备包括处理器和存储器，其中处理器和存储器可以通过总线或者其他方式连接，图中以通过总线连接为例。

处理器可以为中央处理器(Central Processing Unit，CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、图形处理器(GraphicsProcessing Unit，GPU)、嵌入式神经网络处理器(Neural-network Processing Unit，NPU)或者其他专用的深度学习协处理器、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的使用信心分在多套语音识别结果中进行选择的方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述计算机设备具体细节可以对应参阅图至图所示的实施例中对应的相关描述和效果进行理解，此处不再赘述。

本发明实施例还提供一种非暂态计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的使用信心分在多套语音识别结果中进行选择的方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

15页详细技术资料下载

一种使用信心分在多套语音识别结果中进行选择的方法

相关技术

网友询问留言