一种语音识别缺陷检测方法和装置

文档序号：116971 发布日期：2021-10-19 浏览：31次 >En<

阅读说明：本技术 一种语音识别缺陷检测方法和装置 (Voice recognition defect detection method and device ) 是由韩传宇孙仿逊易晖翁志伟于 2021-06-24 设计创作，主要内容包括：本发明实施例提供了一种语音识别缺陷检测方法和装置,所述方法包括：接收车载系统转发的语音请求；对所述语音请求的文本进行意图分类；根据意图分类结果,对所述文本进行置信度分类；根据置信度分类结果,从所述文本确定候选词进行筛选,筛选出关键词作为语音识别缺陷。本发明实施例可以更准确地识别出语音请求的文本中的语音识别缺陷。(The embodiment of the invention provides a method and a device for detecting voice recognition defects, wherein the method comprises the following steps: receiving a voice request forwarded by a vehicle-mounted system; performing intent classification on text of the voice request; performing confidence classification on the text according to the intention classification result; and determining candidate words from the text according to the confidence classification result, screening, and screening out keywords as voice recognition defects. The embodiment of the invention can more accurately identify the voice identification defect in the text of the voice request.)

一种语音识别缺陷检测方法和装置

技术领域

本发明涉及人工智能技术领域，特别是涉及一种语音识别缺陷检测方法和一种语音识别缺陷检测装置。

背景技术

智能语音系统，已广泛应用在手机、手环、音箱、电视、车辆等产品中，并支持问答、语音控制等多种语音交互场景。语音系统中语音识别ASR (Automatic SpeechRecognition) 的精准性，是影响智能语音产品发展的关键制约因素，语音识别系统将用户的语音请求转换为文本，智能语音系统根据文本进行后续的自然语言处理NLP（NaturalLanguage Processing）。但由于技术上的原因，语音识别系统生成的文本可能包含错误词，继而导致后续的自然语言处理出现偏差。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音识别缺陷检测方法和相应的一种语音识别缺陷检测装置。

为了解决上述问题，本发明实施例公开了一种语音识别缺陷检测方法，包括：

接收车载系统转发的语音请求；

对所述语音请求的文本进行意图分类；

根据意图分类结果，对所述文本进行置信度分类；

根据置信度分类结果，从所述文本确定候选词进行筛选，筛选出关键词作为语音识别缺陷。

可选地，所述根据意图分类结果，对所述文本进行置信度分类，包括：

根据所述意图分类结果确定所述文本是否具有用户意图；

若根据所述意图分类结果确定所述文本具有用户意图，则对所述文本进行置信度分类。

可选地，所述根据置信度分类结果，从所述文本确定候选词进行筛选，筛选出关键词作为语音识别缺陷，包括：

若根据所述置信度分类结果确定所述文本存在错误词，则从所述文本确定候选词进行筛选，筛选出关键词作为语音识别缺陷。

可选地，所述对所述语音请求的文本进行意图分类，包括：

采用预设意图分类模型预测所述文本是否具有用户意图，得到预测结果；预测结果包括文本具有用户意图的概率和不具有用户意图的概率。

可选地，所述根据所述意图分类结果确定所述文本是否具有用户意图，包括：

根据所述文本具有用户意图的概率和不具有用户意图的概率，判断是否满足预设概率条件；所述预设概率条件包括：具有用户意图的概率大于不具有用户意图的概率，和/或，具有用户意图的概率大于预设概率阈值；

若满足所述预设概率条件，则确定所述文本具有用户意图；

若不满足所述预设概率条件，则确定所述文本不具有用户意图。

可选地，所述对所述文本进行置信度分类，包括：

获取所述文本的置信度信息，所述置信度信息包括对所述语音请求进行语音识别得到的所述文本的每个词的置信度；

根据所述置信度信息，对所述文本进行分类，得到置信度分类结果；所述置信度分类结果为文本存在错误词或文本不存在错误词。

可选地，所述根据所述置信度信息，对所述文本进行分类，得到置信度分类结果，包括：

判断所述文本的各个词中，是否具有置信度低于预设置信度阈值的词；

若所述文本具有置信度低于预设置信度阈值的词，则确定所述文本存在错误词；

若所述文本不具有置信度低于预设置信度阈值的词，则确定所述文本不存在错误词。

可选地，所述根据所述置信度信息，对所述文本进行分类，得到置信度分类结果，包括：

确定所述文本的各个字的置信度和各个字的构词位置；

根据所述文本的各个字的置信度和各个字的构词位置，预测所述文本是否存在错误字；

根据预测结果，确定置信度分类结果。

可选地，所述根据所述文本的各个字的置信度和各个字的构词位置，预测所述文本是否存在错误字，包括：

将所述文本的各个字、各个字对应的置信度和各个字的构词位置，输入预设错误预测模型进行处理，得到各个字是否错误的预测结果。

可选地，从所述文本确定候选词进行筛选，筛选出关键词作为语音识别缺陷，包括：

识别所述文本对应的领域；

分别确定所述文本的各个词，在所述领域的文本中的重要程度；

根据所述文本的各个词在所述领域的文本中的重要程度，确定候选词；

根据所述候选词的词性，筛选出关键词作为语音识别缺陷。

可选地，所述根据所述候选词的词性，筛选出关键词作为语音识别缺陷，包括：

从所述候选词中，筛选出名词和/或动词作为语音识别缺陷。

本发明实施例还公开了一种语音识别缺陷检测装置，包括：

语音请求接收模块，用于接收车载系统转发的语音请求；

意图分类模块，用于对所述语音请求的文本进行意图分类；

置信度分类模块，用于根据意图分类结果，对所述文本进行置信度分类；

筛选模块，用于根据置信度分类结果，从所述文本确定候选词进行筛选，筛选出关键词作为语音识别缺陷。

可选地，所述置信度分类模块包括：

意图确定子模块，用于根据所述意图分类结果确定所述文本是否具有用户意图；

置信度分类子模块，用于若根据所述意图分类结果确定所述文本具有用户意图，则对所述文本进行置信度分类。

可选地，所述筛选模块包括：

筛选子模块，用于若根据所述置信度分类结果确定所述文本存在错误词，则从所述文本确定候选词进行筛选，筛选出关键词作为语音识别缺陷。

可选地，所述意图分类模块包括：

意图预测子模块，用于采用预设意图分类模型预测所述文本是否具有用户意图，得到预测结果；预测结果包括文本具有用户意图的概率和不具有用户意图的概率。

可选地，所述意图确定子模块包括：

概率条件判断单元，用于根据所述文本具有用户意图的概率和不具有用户意图的概率，判断是否满足预设概率条件；所述预设概率条件包括：具有用户意图的概率大于不具有用户意图的概率，和/或，具有用户意图的概率大于预设概率阈值；

第一意图确定单元，用于若满足所述预设概率条件，则确定所述文本具有用户意图；

第二意图确定单元，用于若不满足所述预设概率条件，则确定所述文本不具有用户意图。

可选地，所述置信度分类子模块包括：

置信度信息获取单元，用于获取所述文本的置信度信息，所述置信度信息包括对所述语音请求进行语音识别得到的所述文本的每个词的置信度；

置信度分类单元，用于根据所述置信度信息，对所述文本进行分类，得到置信度分类结果；所述置信度分类结果为文本存在错误词或文本不存在错误词。

可选地，所述置信度分类单元包括：

置信度阈值比较子单元，用于判断所述文本的各个词中，是否具有置信度低于预设置信度阈值的词；

第一错误词确定子单元，用于若所述文本具有置信度低于预设置信度阈值的词，则确定所述文本存在错误词；

第二错误词确定子单元，用于若所述文本不具有置信度低于预设置信度阈值的词，则确定所述文本不存在错误词。

可选地，所述置信度分类单元包括：

字信息确定子单元，用于确定所述文本的各个字的置信度和各个字的构词位置；

错误字预测子单元，用于根据所述文本的各个字的置信度和各个字的构词位置，预测所述文本是否存在错误字；

置信度分类子单元，用于根据预测结果，确定置信度分类结果。

可选地，所述错误字预测子单元，包括：

模型预测子单元，用于将所述文本的各个字、各个字对应的置信度和各个字的构词位置，输入预设错误预测模型进行处理，得到各个字是否错误的预测结果。

可选地，所述筛选模块包括：

领域识别子模块，用于识别所述文本对应的领域；

重要程度确定子模块，用于分别确定所述文本的各个词，在所述领域的文本中的重要程度；

候选词确定子模块，用于根据所述文本的各个词在所述领域的文本中的重要程度，确定候选词；

关键词筛选子模块，用于根据所述候选词的词性，筛选出关键词作为语音识别缺陷。

可选地，所述关键词筛选子模块包括：

词性筛选单元，用于从所述候选词中，筛选出名词和/或动词作为语音识别缺陷。

本发明实施例还公开了一种电子设备，包括：处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的语音识别缺陷检测方法的步骤。

本发明实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的语音识别缺陷检测方法的步骤。

本发明实施例包括以下优点：

本发明实施例中，服务器可以接收车载系统转发的语音请求；对将语音请求进行语音识别得到的文本进行意图分类；根据意图分类结果，对文本进行置信度分类；根据置信度分类结果，从文本确定候选词进行筛选，筛选出关键词作为语音识别缺陷。本发明实施例可以更准确地识别出语音请求的文本中的语音识别缺陷。

附图说明

图1是本发明实施例提供的一种语音识别缺陷检测处理方法的步骤流程图；

图2是本发明实施例提供的另一种语音识别缺陷检测方法的步骤流程图；

图3是本发明实施例中一种挖掘ASR错误的查询文本的流程图；

图4是本发明实施例提供的一种文本处理装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

语音识别缺陷主要由于语音识别系统将相似的语音错误识别，进而影响在实际应用场景中的语音交互。例如。在车载场景中，用户的语音请求对应的实际文本为：“打开除除雾两档”，语音识别系统识别得到的文本为：“打开窗户风速两档。”语音识别系统错误的将“窗户风速”识别为“除除雾”。

为了降低语音识别缺陷对语音交互的影响，本发明提出一种语音识别缺陷检测方法可以从语音请求的文本中，筛选出关键词作为语音识别缺陷，进而可以对文本进行纠错，以进行语音交互。

参照图1，示出了本发明实施例提供的一种语音识别缺陷检测方法的步骤流程图，所述方法具体可以包括如下步骤：

步骤101，接收车载系统转发的语音请求。

在车载场景中，车载系统可以接收用户发出的语音请求，将语音请求发送至服务器。服务器可以包括语音识别系统，可以通过语音识别系统将语音请求识别为文本。

语音识别系统基于预先训练得到的语音识别模型对语音进行识别。语音识别模型可以通过收集大量的语音来训练得到，使用不同语音训练得到的语音识别模型的识别效果各有差异，不同语音识别系统对同一语音的识别得到的文本也可能有差异。

步骤102，对所述语音请求的文本进行意图分类。

服务器可以对语音请求的文本进行意图分类，得到意图分类结果。

步骤103，根据意图分类结果，对所述文本进行置信度分类。

意图分类结果可以表示各个文本对应的意图类型。根据文本对应的意图类型，可以选择对特定意图类型的文本进行置信度分类，得到置信度分类结果。

置信度分类是指利用文本的置信度信息进行分类，确定文本是属于语音识别准确的情况或语音识别错误的情况。置信度信息可以是语言识别系统对语音进行语音识别时输出的置信度信息，可以表示语言识别系统对语音进行识别的准确程度，准确程度越高存在语言识别缺陷的概率越低，准确程度越低存在语言识别缺陷的概率越高。

步骤104，根据置信度分类结果，从所述文本确定候选词进行筛选，筛选出关键词作为语音识别缺陷。

对于属于语音识别错误的文本，可以从文本确定候选词进行筛选，筛选出关键词作为语音识别缺陷。

本发明中，服务器可以接收车载系统转发的语音请求；对将语音请求进行语音识别得到的文本进行意图分类；根据意图分类结果，对文本进行置信度分类；根据置信度分类结果，从文本确定候选词进行筛选，筛选出关键词作为语音识别缺陷。本发明更准确地识别出语音请求的文本中的语音识别缺陷。

参照图2，示出了本发明实施例提供的一种语音识别缺陷检测方法的步骤流程图，所述方法具体可以包括如下步骤：

步骤201，接收车载系统转发的语音请求。

步骤202，对所述语音请求的文本进行意图分类。

服务器可以对语音请求的文本进行意图分类，得到意图分类结果。意图分类结果可以表示语言请求的文本是否具有用户意图。

在车载场景中，车载系统不仅仅采集到用户的语音请求，还可能包括环境音、杂音等非用户语音，如车辆播放的导航语音。服务器通过语音识别系统识别得到的文本中可以包括：对用户的语音请求识别得到的文本，对非用户语音识别得到的文本。

自然语言处理通常关注的是用户说出的具有用户意图的语言请求，而对用户说出的不具有用户意图的用户语音和非用户语音并不关注。ASR系统对用户语音识别得到的文本可以进一步分为，具有用户意图的文本和不具有用户意图的文本。

在本发明中，所述步骤202可以进一步包括：采用预设意图分类模型预测所述文本是否具有用户意图，得到预测结果；预测结果包括文本具有用户意图的概率和不具有用户意图的概率。

预设意图分类模型可以是预先训练的用于预测文本是否具有用户意图的模型。预设意图分类模型不需要预测文本对应的用户意图是什么，只需要预测文本是否具有用户意图。

在一种示例中，意图分类模型可以为BERT（Bidirectional EncoderRepresentations from Transformers，基于转换器的双向编码表征）+ SOFTMAX构成的多标签分类模型。意图分类模型的训练过程可以包括：对作为样本的文本添加标签，标签可以分为：有用户意图、无用户意图、不属于用户语音（例如；车辆的语音播报）；将作为样本的文本和对应的标签输入意图分类模型，以训练意图分类模型。意图分类模型的使用过程可以包括：将文本输入意图分类模型，得到意图分类模型输出的对应各个标签的置信度。例如，输入的文本为“我要听歌”，意图分类模型输出为：“我要听歌”，标签“具有用户意图的”的概率为0.9，标签“不具有用户意图”的概率为0.1，标签“不属于用户语音”的概率为0。在实际中，本领域技术人员还可以其他的机器训练的模型来预测文本是否具有用户意图，本发明对此不做限定。

步骤203，根据所述意图分类结果确定所述文本是否具有用户意图。

在本发明中，所述步骤203可以进一步包括：根据所述文本具有用户意图的概率和不具有用户意图的概率，判断是否满足预设概率条件；所述预设概率条件包括：具有用户意图的概率大于不具有用户意图的概率，和/或，具有用户意图的概率大于预设概率阈值；若满足所述预设概率条件，则确定所述文本具有用户意图；若不满足所述预设概率条件，则确定所述文本不具有用户意图。

在一种示例中，若预测文本具有用户意图的概率大于具有用户意图的概率，则认为满足预设概率条件。在另一种示例中，若预测文本具有用户意图的概率大于具有用户意图的概率，且具有用户意图的概率大于预设概率阈值，则认为满足预设概率条件。再又一种示例中，若预测文本具有用户意图的概率大于预设概率阈值（例如0.8），则认为满足预设概率条件。

步骤204，若根据所述意图分类结果确定所述文本具有用户意图，则获取所述文本的置信度信息，所述置信度信息包括对所述语音请求进行语音识别得到的所述文本的每个词的置信度。

在本发明中，可以根据意图分类结果确定文本是否具有用户意图。对具有用户意图的文本，可以进一步进行置信度分类。对不具有用户意图的文本，则不进行后续的自然语言处理。

进行置信度分类需要获取文本的置信度信息，置信度信息包括对所述语音请求进行语音识别得到的所述文本的每个词的置信度。例如，对语音进行语音识别处理得到的文本为：“打开窗户风速两档”，语音实际为：“打开除除雾两档”，“打开窗户风速两档”所包含的词的置信度分别为：“打开”，置信度0.99；“窗户”，置信度0.4；“风速”，置信度0.7；“两”，置信度1；“档”，置信度1。其中，文本包括哪些词，可以通过分词处理得到。

步骤205，根据所述置信度信息，对所述文本进行分类，得到置信度分类结果；所述置信度分类结果为文本存在错误词或文本不存在错误词。

错误词是语音识别系统错误识别的词，根据文本的每个词的置信度进行分类，确定文本存在错误词的类型或不存在错误词的类型。

在本发明一种可选示例中，所述步骤205可以进一步包括如下子步骤：

子步骤S11，判断所述文本的各个词中，是否具有置信度低于预设置信度阈值的词。

子步骤S12，若所述文本具有置信度低于预设置信度阈值的词，则确定所述文本存在错误词。

子步骤S13，若所述文本不具有置信度低于预设置信度阈值的词，则确定所述文本不存在错误词。

若文本中有一个词的置信度低于预设置信度阈值，则将该文本确定为存在错误词。若文本中所有词的置信度都不低于预设置信度阈值，则将该文本确定为不存在错误词。

预设置信度阈值可以通过对大量的文本的词的置信度统计分析得到。具体的，可以分析属于不同置信度区间的词的文本，存在错误词的比例。根据存在错误词的比例较高的区间，确定置信度阈值。例如，将置信度从0-1，以0.1为单位划分为10个区间，每个区间选取100条文本；由标注人员听音，标记听音结果和文本是否一致，分别标出正常，缺陷，缺失音频几种情况。分析在每个区间的文本存在错误词的比例。若确定置信度0-0.8的区间中，文本存在错误词的比例大于比例阈值，则确定0.8为置信度阈值。

在本发明另一种可选示例中，所述步骤205可以进一步包括如下子步骤：

子步骤S21，确定所述文本的各个字的置信度和各个字的构词位置。

在本发明中，可以把分词视为字的构词位置分类问题，字的构词位置（也可以称为词位）可以分为：词首、词尾、词中、单字词。例如，文本：“播放的歌曲是挪威的森林”的分词结果为：播放/的/歌曲/是/挪威的森林，构词位置标注为播（B）放（E）的（S）歌（B）曲（E）是（S）挪（B）威（I）的（I）森（I）林（E）。其中B表示词首、I表示词中，E表示词尾，S表示单字词。

子步骤S22，根据所述文本的各个字的置信度和各个字的构词位置，预测所述文本是否存在错误字。

在本发明中，将文本的各个字、各个字对应的置信度和各个字的构词位置，输入预设错误预测模型进行处理，得到各个字是否错误的预测结果。

错误预测模型可以预测各个字是否为ASR错误。在一种示例中，错误预测模型可以为BiLSTM（Bi-directional Long Short-Term Memory，双向循环神经网路）+SOFTMAX构成的预测模型。错误预测模型的训练过程可以包括：对作为样本的文本的各个字添加表示是否识别错误的标注结果；将作为样本的文本的各个字、各个字对应的置信度和各个字的构词位置，以及各个字对应的标注结果输入错误预测模型，以训练错误预测模型。例如，参照表1为训练错误预测模型的输入信息：

字	构词位置	置信度	标注结果
				播	B	0.355	W（正确）
放	E	0.355	W
				的	S	0.222	W
是	S	0.486	W
				什	B	0.99	R（错误）
么	E	0.99	R

表1。

错误预测模型的预测过程可以包括：文本的各个字、各个字对应的置信度和各个字的构词位置输入错误预测模型，得到错误预测模型输出的各个字对应的是否识别错误的预测结果。例如，参照表2为错误预测模型的预测过程的输出信息和对应输出的预测结果：

字	构词位置	置信度	预测结果
				打	B	0.99	R
开	E	0.99	R
				窗	B	0.4	W
户	E	0.4	W
				风	B	0.739	W
速	E	0.739	W
				两	S	1	R
档	S	1	R

表2。

子步骤S23，根据预测结果，确定置信度分类结果。

预测结果可以为文本中存在错误字或文本中不存在错误字，若文本中存在错误字，则确定文本存在错误词；若文本中不存在错误字，则确定文本不存在错误词。

步骤206，若根据所述置信度分类结果确定所述文本存在错误词，则从所述文本确定候选词进行筛选，筛选出关键词作为语音识别缺陷。

在本发明中，所述步骤205可以进一步包括如下子步骤：

子步骤S31，识别所述文本对应的领域。

在本发明中，服务器可以调用语音识别系统将语音请求转换为文本，然后调用自然语言理解系统对语音请求的文本进行自然语言理解处理得到用户意图，再根据识别得到的用户意图进行后续操作。自然语言理解处理可以包括领域识别和意图识别两部分，自然语言理解系统可以先对文本进行领域识别得到对应的领域，然后再对文本进行意图识别得到对应用户意图。例如，文本：“打开车窗”的对应领域可以为控制；文本：“打开音乐”的对应领域可以为音乐。

子步骤S32，分别确定所述文本的各个词，在所述领域的文本中的重要程度。

词在某个领域的文本中的重要程度，可以表示该词对文本语义的重要程度。词在某个领域的文本中的重要程度越大，表示该词对文本语义的重要程度越大。

在本发明中，词在某个领域的文本中的重要程度可以使用词频TF（TermFrequency）-逆文档频率IDF（Inverse Document Frequency）值来表示。所述子步骤S32具体可以包括：获取所述领域的文本数据；采用所述领域的文本数据，计算所述文本的各个词，在所述领域的文本中的TF-IDF值。其中，某个领域的文本数据可以从语料库中提取得到。

子步骤S33，根据所述文本的各个词在所述领域的文本中的重要程度，确定候选词。

可以将词在领域的文本中的重要程度较大的词，作为候选词。在一种示例，所述子步骤S33可以包括：将文本的各个词按照词在领域的文本中的重要程度进行排序；根据排序结果，从文本的各个词中选取候选词。

可以按照重要程度由大至小进行排序，或按照重要程度由小至大进行排序。在一种示例中，可以对文本的各个词在领域的TF-IDF值，按照从大至小进行排序。可以从文本的各个词中，选择排序顺序在预设顺序范围内的词作为候选词。在一种示例中，若是按照由大至小的方式进行排序，则可以选择排序在前N个词作为候选词。其中，N可以为可设置的整数。例如，对于“打开”、“窗户”、“风速”、“两”、“档”，这5个词，可以选择排序在前的3个词作为候选词，得到“窗户”、“风速”、“档”为候选词。

子步骤S34，根据所述候选词的词性，筛选出关键词作为语音识别缺陷。

在本发明中，所述子步骤S34可以包括：从所述候选词中，筛选出名词和/或动词作为语音识别缺陷。

对候选词进行词性分析，确定各个词的词性。由于动词、名词通常在句中占据核心地位，对文本的语义表示更为重要，因此筛选出名词和/或动词作为语音识别缺陷。

在本发明中，服务器可以接收车载系统转发的语音请求，对语音请求进行语音识别得到的文本进行意图分类；若根据意图分类结果确定文本具有用户意图，则获取文本的置信度信息；根据置信度信息，对文本进行分类，得到置信度分类结果；若根据置信度分类结果确定文本存在错误词，则从文本确定候选词进行筛选，筛选出关键词作为语音识别缺陷。本发明可以更准确地识别出语音请求的文本中的语音识别缺陷。

另一方面，本发明的语音识别缺陷的检测方法，除了可以在实时语音交互场景中，识别语音请求的语音识别缺陷。还可以用在对大规模的语音请求进行语音识别缺陷的挖掘，采用存在语音识别缺陷的文本，可以用于对语音识别系统的语音识别模型进行优化，以提高语音识别模型的识别效果，从而可以根据更准确的文本进行后续自然语言处理。参照图3所示为本发明实施例中一种挖掘语音识别缺陷文本的流程图。

对大规模的语音请求，通过语音识别系统进行语音识别得到对应的文本。

对于所有语音请求对应的文本，首先通过意图分类模型对各个文本进行预测，预测文本是具有用户意图或不具有用户意图或不属于对用户语音识别到的文本。

将不具有用户意图或不属于用户语音识别到的文本过滤掉并结束处理，无需标注人员进行处理。

对具有用户意图的查询文本根据置信度进行分类。语音识别系统对语音进行语音识别的输出结果，可以包括文本，以及文本的每个词的置信度。

根据置信度进行分类的方式可以包括两种，第一种是判断文本的各个词的置信度是否小于置信度阈值，置信度阈值可以是通过统计分析得到的用于判断词是否存储ASR错误的置信度阈值；若文本的某个词的置信度小于置信度阈值，则认为文本可能存在错误词，需要进一步通过标注人员处理；若文本所有词的置信度都不小于置信度阈值，则认为查询文本不存在错误词，结束处理，无需标注人员进行处理。第二种是通过错误预测模型预测查询文本是否存在错误词，错误预测模型被训练为可以根据查询文本的各个字、各个字对应的置信度和各个字的构词位置，预测查询文本的各个字是否为错误字；若文本存在预测为错误字，则认为该文本存在错误词。

对于确认为不存在错误词的文本，结束处理，无需标注人员进行处理。

对于确认为存在错误词的文本，可以进一步筛选出关键词作为语音识别缺陷，在标注人员对文本进行处理时，可以向标注人员提示筛选出关键词，帮助标注人员标注。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了本发明实施例提供的一种语音识别缺陷检测装置的结构框图，具体可以包括如下模块：

语音请求接收模块401，用于接收车载系统转发的语音请求；

意图分类模块402，用于对所述语音请求的文本进行意图分类；

置信度分类模块403，用于根据意图分类结果，对所述文本进行置信度分类；

筛选模块404，用于根据置信度分类结果，从所述文本确定候选词进行筛选，筛选出关键词作为语音识别缺陷。

在本发明中，所述置信度分类模块403可以包括：

意图确定子模块，用于根据所述意图分类结果确定所述文本是否具有用户意图；

置信度分类子模块，用于若根据所述意图分类结果确定所述文本具有用户意图，则对所述文本进行置信度分类。

在本发明中，所述筛选模块404可以包括：

筛选子模块，用于若根据所述置信度分类结果确定所述文本存在错误词，则从所述文本确定候选词进行筛选，筛选出关键词作为语音识别缺陷。

在本发明中，所述意图分类模块402可以包括：

在本发明中，所述意图确定子模块可以包括：

第一意图确定单元，用于若满足所述预设概率条件，则确定所述文本具有用户意图；

第二意图确定单元，用于若不满足所述预设概率条件，则确定所述文本不具有用户意图。

在本发明中，所述置信度分类子模块可以包括：

置信度信息获取单元，用于获取所述文本的置信度信息，所述置信度信息包括对所述语音请求进行语音识别得到的所述文本的每个词的置信度；

在本发明中，所述置信度分类单元可以包括：

置信度阈值比较子单元，用于判断所述文本的各个词中，是否具有置信度低于预设置信度阈值的词；

第一错误词确定子单元，用于若所述文本具有置信度低于预设置信度阈值的词，则确定所述文本存在错误词；

第二错误词确定子单元，用于若所述文本不具有置信度低于预设置信度阈值的词，则确定所述文本不存在错误词。

在本发明中，所述置信度分类单元可以包括：

字信息确定子单元，用于确定所述文本的各个字的置信度和各个字的构词位置；

错误字预测子单元，用于根据所述文本的各个字的置信度和各个字的构词位置，预测所述文本是否存在错误字；

置信度分类子单元，用于根据预测结果，确定置信度分类结果。

在本发明中，所述错误字预测子单元可以包括：

在本发明中，所述筛选模块404可以包括：

领域识别子模块，用于识别所述文本对应的领域；

重要程度确定子模块，用于分别确定所述文本的各个词，在所述领域的文本中的重要程度；

候选词确定子模块，用于根据所述文本的各个词在所述领域的文本中的重要程度，确定候选词；

关键词筛选子模块，用于根据所述候选词的词性，筛选出关键词作为语音识别缺陷。

在本发明中，所述关键词筛选子模块可以包括：

词性筛选单元，用于从所述候选词中，筛选出名词和/或动词作为语音识别缺陷。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备，包括：

包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述语音识别缺陷检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现上述语音识别缺陷检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语音识别缺陷检测方法和一种语音识别缺陷检测装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

17页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种语音识别方法及装置

一种语音识别缺陷检测方法和装置

相关技术

网友询问留言