语音识别系统优化方法和装置

文档序号：1965038 发布日期：2021-12-14 浏览：8次 >En<

阅读说明：本技术 语音识别系统优化方法和装置 (Speech recognition system optimization method and device ) 是由薛少飞于 2021-09-14 设计创作，主要内容包括：本发明公开一种语音识别系统优化方法和装置,其中,语音识别系统优化方法,包括：将待筛选音频数据分别输入至目标优化ASR系统和N个可用ASR系统中进行语音识别得到N+1个语音识别结果；对N+1个语音识别结果进行度量,确定M个语音识别结果并将M个语音识别结果送入标注专家进行标注；以及将标注专家标注过的M个语音识别结果再输入至目标ASR系统以对所述目标ASR系统进行优化。本申请实施例的方案通过将待优化指标(识别准确率)融入到系统设计中,使得设计出的主动学习方法能够优化这一指标,能够有效提升主动学习在语音识别应用中的效果,并且可以在只获得语音识别文字结果的情况下,利用多系统进行优化,大大降低了应用主动学习技术的门槛。(The invention discloses a method and a device for optimizing a voice recognition system, wherein the method for optimizing the voice recognition system comprises the following steps: respectively inputting the audio data to be screened into a target optimization ASR system and N available ASR systems for voice recognition to obtain N +1 voice recognition results; measuring the N +1 voice recognition results, determining M voice recognition results and sending the M voice recognition results to a labeling expert for labeling; and inputting the M speech recognition results labeled by the labeling experts into the target ASR system to optimize the target ASR system. According to the scheme of the embodiment of the application, the index to be optimized (identification accuracy rate) is integrated into the system design, so that the designed active learning method can optimize the index, the effect of active learning in speech recognition application can be effectively improved, multiple systems can be utilized for optimization under the condition that only speech recognition character results are obtained, and the threshold of applying an active learning technology is greatly reduced.)

语音识别系统优化方法和装置

技术领域

本发明属于语音识别技术领域，尤其涉及语音识别系统优化方法和装置。

背景技术

相关技术中，主动学习是近年来比较热门的技术，在学术届有比较多的论文进行相关研究，主要应用在文档分类和信息提取、图像检索、入侵检测、自然语言处理、语音环境识别等领域。

在真实的数据分析场景中，我们可以获取海量的数据，但是这些数据都是未标注数据，很多经典的分类算法并不能直接使用。那肯定会有人说，数据是没有标注的，那我们就标注数据喽！这样的想法很正常也很单纯，但是数据标注的代价是很大的，即使我们只标注几千或者几万训练数据，标注数据的时间和金钱成本也是巨大的。因此，为了尽可能地减小训练集及标注成本，在机器学习领域中，提出主动学习(active learning)方法，优化分类模型。主动学习(active learning)，指的是这样一种学习方法：有的时候，有类标的数据比较稀少而没有类标的数据是相当丰富的，但是对数据进行人工标注又非常昂贵，这时候，学习算法可以主动地提出一些标注请求，将一些经过筛选的数据提交给专家进行标注。这个筛选过程也就是主动学习主要研究的地方。

请参考图1，主动学习的模型如下：A＝(C,Q,S,L,U)，其中C为一组或者一个分类器，L是用于训练已标注的样本。Q是查询函数，用于从未标注样本池U中查询信息量大的信息，S是督导者，可以为U中样本标注正确的标签。学习者通过少量初始标记样本L开始学习，通过一定的查询函数Q选择出一个或一批最有用的样本，并向督导者询问标签，然后利用获得的新知识来训练分类器和进行下一轮查询。主动学习是一个循环的过程，直至达到某一停止准则为止。

查询函数Q用于查询一个或一批最有用的样本。那么，什么样的样本是有用的呢？即查询函数查询的是什么样的样本呢？在各种主动学习方法中，查询函数的设计最常用的策略是：不确定性准则(uncertainty)和差异性准则(diversity)。

对于不确定性，我们可以借助信息熵的概念来进行理解。我们知道信息熵是衡量信息量的概念，也是衡量不确定性的概念。信息熵越大，就代表不确定性越大，包含的信息量也就越丰富。事实上，有些基于不确定性的主动学习查询函数就是使用了信息熵来设计的，比如熵值装袋查询(Entropy query-by-bagging)。所以，不确定性策略就是要想方设法地找出不确定性高的样本，因为这些样本所包含的丰富信息量，对我们训练模型来说就是有用的。

差异性的理解，之前说到或查询函数每次迭代中查询一个或者一批样本。我们当然希望所查询的样本提供的信息是全面的，各个样本提供的信息不重复不冗余，即样本之间具有一定的差异性。在每轮迭代抽取单个信息量最大的样本加入训练集的情况下，每一轮迭代中模型都被重新训练，以新获得的知识去参与对样本不确定性的评估可以有效地避免数据冗余。但是如果每次迭代查询一批样本，那么就应该想办法来保证样本的差异性，避免数据冗余。

样例选择算法：根据获得未标注样例的方式，可以将主动学习分为两种类型：基于流的和基于池的。基于流(stream-based)的主动学习中，未标记的样例按先后顺序逐个提交给选择引擎，由选择引擎决定是否标注当前提交的样例，如果不标注，则将其丢弃。基于池(pool-based)的主动学习中则维护一个未标注样例的集合，由选择引擎在该集合中选择当前要标注的样例。

基于池的样例选择算法

a.基于不确定度缩减的方法

这类方法选择那些当前基准分类器最不能确定其分类的样例进行标注。这类方法以信息熵作为衡量样例所含信息量大小的度量，而信息熵最大的样例正是当前分类器最不能确定其分类的样例。从几何角度看，这种方法优先选择靠近分类边界的样例。

b.基于版本缩减的方法

这类方法选择那些训练后能够最大程度缩减版本空间的样例进行标注。在二值分类问题中，这类方法选择的样例总是差不多平分版本空间。例如QBC算法从版本空间中随机选择若干假设构成一个委员会，然后选择委员会中的假设预测分歧最大的样例进行标注。为了优化委员会的构成，可以采用Bagging,AdaBoost等分类器集成算法从版本空间中产生委员会。

c.基于泛化误差缩减的方法

这类方法试图选择那些能够使未来泛化误差最大程度减小的样例。其一般过程为：首先选择一个损失函数用于估计未来错误率，然后将未标注样例集中的每一个样例都分别估计其能给基准分类器带来的误差缩减，选择估计值最大的那个样例进行标注。这类方法直接针对分类器性能的最终评价指标，但是计算量较大，同时损失函数的精度对性能影响较大。

基于流的样例选择算法

基于池的算法大多可以通过调整以适应基于流的情况。但由于基于流的算法不能对未标注样例逐一比较，需要对样例的相应评价指标设定阈值，当提交给选择引擎的样例评价指标超过阈值，则进行标注，但这种方法需要针对不同的任务进行调整，所以难以作为一种成熟的方法投入使用。

QBC曾用于解决基于流的主动学习问题。样例以流的形式连续提交给选择引擎，选择引擎选择那些委员会(此处委员会只由两个成员分类器组成)中的成员分类器预测不一致的样例进行标注。

发明人在实现本申请的过程中发现，目前的主动学习技术，尤其是在在语音识别领域应用的主动学习技术其共同的相似点包括：

a.以单一语音识别系统为基础，通过定义数据筛选的指标选择认为更有价值的数据进行标注和后续训练工作，如使用置信度等

b.必须使用语音识别系统的额外技术指标来衡量数据，即不能单纯使用语音识别的文字结果，该特性要求技术使用者必须能够获取到语音识别系统的内置参数，通常只有语音识别系统的拥有者才能做到。

发明内容

本发明实施例提供一种语音识别系统优化方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音识别系统优化方法，包括：将待筛选音频数据分别输入至目标优化ASR(Automatic Speech Recognition，自动语音识别)系统和N个可用ASR系统中进行语音识别得到N+1个语音识别结果；对所述N+1个语音识别结果进行度量，确定M个语音识别结果并将所述M个语音识别结果送入标注专家进行标注；将所述标注专家标注过的M个语音识别结果再输入至所述目标ASR系统以对所述目标ASR系统进行优化。

第二方面，本发明实施例提供一种语音识别系统优化装置，包括：识别程序模块，配置为将待筛选音频数据分别输入至目标优化ASR系统和N个可用ASR系统中进行语音识别得到N+1个语音识别结果；标注程序模块，配置为对所述N+1个语音识别结果进行度量，确定M个语音识别结果并将所述M个语音识别结果送入标注专家进行标注；以及优化程序模块，配置为将所述标注专家标注过的M个语音识别结果再输入至所述目标ASR系统以对所述目标ASR系统进行优化。

第三方面，提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行第一方面所述的语音识别系统优化方法的步骤。

第四方面，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述方法的步骤。

本申请实施例提供的方法通过利用已有ASR系统的识别结果和/或中间结果和/或模型参数来指导待优化系统的优化，例如，对于识别结果，通过对不同ASR系统的识别结果进行各种度量，得到各识别结果的标注价值，之后将标注价值更高的识别结果进行专家标注，并将标注的结果用于优化训练待优化ASR系统，从而可以只对更有标注价值的数据进行标注，节省人力物力。通过将待优化指标(识别准确率)融入到系统设计中，使得设计出的主动学习方法能够优化这一指标。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为相关技术中主动学习的模型图；

图2为本发明实施例提供的一种语音识别系统优化方法的流程图；

图3为本发明实施例提供的另一种语音识别系统优化方法的流程图；

图4为本发明实施例的语音识别系统优化的方案的一具体实施例的框架设计图；

图5为本发明一实施例提供的一种语音识别系统优化装置的框图；

图6为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图2，其示出了本发明的一种语音识别系统优化方法的一实施例的流程图。本实施例的方案适用于对语音识别系统进行优化。

如图2所示，在步骤101中，将待筛选音频数据分别输入至目标优化ASR系统和N个可用ASR系统中进行语音识别得到N+1个语音识别结果；

在步骤102中，对所述N+1个语音识别结果进行度量，确定M个语音识别结果并将所述M个语音识别结果送入标注专家进行标注；

在步骤103中，将所述标注专家标注过的M个语音识别结果再输入至所述目标ASR系统以对所述目标ASR系统进行优化。

在本实施例中，语音识别系统优化装置通过利用已有ASR系统的识别结果和/或中间结果和/或模型参数来指导待优化系统的优化，例如，对于识别结果，通过对不同ASR系统的识别结果进行各种度量，得到各识别结果的标注价值，之后将标注价值更高的识别结果进行专家标注，并将标注的结果用于优化训练待优化ASR系统，从而可以只对更有标注价值的数据进行标注，节省人力物力。通过将待优化指标(识别准确率)融入到系统设计中，使得设计出的主动学习方法能够优化这一指标。

在一些可选的实施例中，在所述将待筛选音频数据分别输入至目标优化ASR系统和N个可用ASR系统中进行语音识别得到N+1个语音识别结果之前，所述方法还包括：对所述待筛选音频数据进行数据扩增形成多个扩增结果。从而可以通过扩增得到一些欺骗数据，如果ASR系统能

在进一步可选的实施例中，所述数据扩增的方式包括pitch改变、加噪声、加混响和/或音频压缩。

进一步可选的，上述对所述N+1个语音识别结果进行度量包括：对所述N个可用ASR系统中的任意两个系统对所述待筛选音频数据的识别结果进行第一差异度计算；对所述目标优化ASR系统对所述待筛选音频数据的第一识别结果和所述可用ASR系统对所述待筛选音频数据的第二识别结果进行第二差异性计算；对所述可用ASR系统对所述待筛选音频数据的第一扩增结果的第三识别结果和所述可用ASR系统对所述待筛选音频数据的第二扩增结果的第四识别结果进行第一困惑度计算；和/或对所述目标ASR系统对所述待筛选音频数据的第一扩增结果的第三识别结果和所述目标ASR系统对所述待筛选音频数据的第二扩增结果的第四识别结果进行第二困惑度计算。通过计算上述一系列数据，可以更好地表征待优化ASR系统识别的准确性和对自己识别结果的确定性，进而可以选出待优化ASR系统识别的不那么准确的和/或对自己的识别结果不那么确定的识别结果进行后续的标注和再训练以优化待优化ASR系统。

请参考图3，其示出了本发明的另一种语音识别系统优化方法的一实施例的流程图。该流程图是对上述图1中步骤102进一步限定的步骤的流程图。

如图3所示，在步骤201中，基于所述第一差异度计算的结果、所述第二差异度计算的结果、所述第一困惑度计算的结果和/或所述第二困惑度计算的结果形成标注价值判断函数；

然后，在步骤202中，利用所述标注价值判断函数计算所述N+1个识别结果的标注价值；

最后，在步骤203中，基于所述标注价值确定所述N+1个识别结果中需要标注的M个语音识别结果并将所述M个语音识别结果送入标注专家进行标注。

在本申请实施例中，通过综合考虑已有ASR系统之间识别结果的差异、已有ASR系统与待优化ASR系统识别结果的差异，以及已有ASR系统对同一音频数据的不同扩增数据的识别结果的困惑度、待优化ASR系统对同一音频数据的不同扩增数据的识别结果的困惑度，得到标注价值判断函数用于表征各识别结果的标注价值，之后从中选出标注价值更高的识别结果进行专家标注和后续的标注再训练优化。

在一些可选的实施例中，所述第二困惑度计算的结果越大，所述标注价值判断函数的标注价值越高；所述第二差异度计算的结果越大，所述标注价值判断函数的标注价值越高；和/或所述第一差异度计算的结果越小、所述第一困惑度计算的结果越小且所述第二差异度计算的结果越大、所述第二困惑度计算的结果越大，所述标注价值判断函数的标注价值越高。从而可以通过差异度、困惑度等与标注价值判断函数的关系，建立相应的标注价值判断函数，进行综合计算，得到标注价值最高的一个或多个识别结果进行专家标注，并使用该标注后的识别结果对系统进行优化。

进一步可选的，所述度量的指标包括编辑距离和/或各ASR系统的置信度。从而不仅可以利用ASR系统的最终识别结果进行编辑距离的计算，还可以利用ASR系统的中间结果，如置信度等，还可以利用ASR系统的模型参数，如lattice(词图)等，本申请在此不再赘述。需要说明的是，虽然在本申请的实施例中，只给出了使用最终结果(识别结果)进行度量的过程，但本领域技术人员可以理解，还可以使用模型的参数或者模型的中间结果进行计算，本申请在此没有限制。

需要说明的是，以上实施例中虽然采用了步骤101、步骤102等具有明确先后顺序的数字，限定了步骤的先后顺序，但是在实际的应用场景中，有些步骤是可以并列执行的，有些步骤的先后顺序也不受到以上数字的限定，本申请在此没有限制，在此不再赘述。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本发明的过程中发现这些相似技术的缺陷：

1)通常定义的技术指标并非直接和最后要优化的目标相关联，比如置信度指标与最终的语音识别准确率并不直接关联；

2)不能使用多个语音识别系统进行联合学习；

3)使用者必须能够获取到语音识别系统的内置参数，通常只有语音识别系统的拥有者才能做到。

发明人还发现上述缺陷是由于以下原因导致的：目前的主动学习技术，尤其是在语音识别领域应用的主动学习技术以单一语音识别系统为基础，通过定义数据筛选的指标选择认为更有价值的数据进行标注和后续训练工作，此种技术架构决定了以上的缺陷。

发明人在实现本发明的过程中发现为什么本领域技术人员不容易想到本申请实施例方案的原因如下：

1)在现有主动学习框架内，从业人员通常通过寻找更好的数据筛选的指标来提升主动学习的效果，而非寻找架构层面的解决方法；

2)部分从业人员会通过引入语音合成系统来在现有主动学习的框架内进行一些多系统联合优化的工作，比如利用语音识别系统对合成的语音数据进行识别，之后将识别效果不好的数据进行人为检查和筛选，之后再回流到语音识别系统。

本申请实施例的方案通过以下特征可以解决上述一个或多个缺陷：

1)通常定义的技术指标并非直接和最后要优化的目标相关联，比如置信度指标与最终的语音识别准确率并不直接关联：

发明人将语音识别的字准确率这一需要优化的最终指标融入到系统设计中，使得设计出的主动学习方法能够明确地再优化这一指标。

2)不能使用多个语音识别系统进行联合学习：

发明人设计的方法融合多个语音识别系统进行学习，可以利用其它语音识别系统的结果，“指导”目标语音识别系统的优化；

3)使用者必须能够获取到语音识别系统的内置参数，通常只有语音识别系统的拥有者才能做到：

发明人设计的方法，可以在只获得语音识别结果的情况下对语音识别系统进行优化(也可以在获得语音识别系统内置参数的情况下进行更有效的优化)。

请参考图4，其示出了本申请实施例的框架设计图。

如图4所示，整个系统框架由主动数据扩增模块、目标优化ASR系统S、多个已有可用ASR系统O(1,2,3......)、主动数据筛选模块、标注专家构成。

a.主动数据扩增模块：用于对待筛选音频数据进行鲁棒性扩增，目标在不改变语音内容的情况下(例如，人做标注时会标注出相同的结果)，产生出不同的音频，扩增方法包括但不限于pitch改变、加噪声、加混响、音频压缩等。引入该模块的原因是基于一个假设，即一个好的语音识别系统应当具有好的识别鲁棒性，能够对一定改动的“欺骗性”语音给出相同的识别结果，这些识别结果越一致，说明识别系统越“确信”自己的判断。

b.目标优化ASR系统S：是指待优化的ASR系统，对于该系统我们可以获取到所有的模型参数、中间结果和最终识别结果，也即我们可以对它进行训练，用它对音频进行识别，获取包括识别结果、置信度、lattice等信息。

c.已有可用ASR系统O(1,2,3......)：指用来度量音频的其它语音识别系统，这些识别系统并不会在我们主动学习的架构中进行迭代优化，对于这些模型我们只能够确保获得最终的识别结果，其它的信息包括模型参数和中间结果等则不能确保获得。

d.主动数据筛选模块：该模块用来对目标优化ASR系统S和已有可用ASR系统O(1,2,3......)的结果进行处理，最终产出数据是否送到标注专家处进行标注，再进入模型训练的判断，该判断过程所使用的度量方法将在2)中进行详细描述。

2)度量方法定义

假设以X代表一条待筛选的语音数据，我们在主动数据扩增模块以N种不同的方法对X进行了扩增，Xn表示以第n种扩增方法后的数据；Sn＝S(Xn)表示使用目标优化ASR系统S对Xn进行识别后的识别结果，Ow,n＝Ow,n(Xn)(w＝1,2,3...O)表示使用已有可用ASR系统O(1,2,3......)中的第w个系统对Xn进行识别后的识别结果。

我们以E(Si,Sj)表示目标优化ASR系统S对扩增数据Xi,Xj的识别结果Si,Sj之间差异性的度量；以E(Ow,i,Ow,j)表示相同的已有可用识别系统Ow，对扩增数据Xi,Xj的识别结果Ow,i，Ow,j之间差异性的度量；以E(Si,Ow,i)表示目标优化ASR系统对扩增数据Xi的识别结果Si与已有可用识别系统Ow对相同扩增数据Xi的识别结果Ow,i之间差异性的度量；E值越大，说明两个识别结果的差异性越大，该指标可以但不限于以编辑距离等方式进行度量。

我们定义对一个音频X的标注价值的判断函数为：

其中，

表示待优化识别系统对X的识别结果与已有识别系统w对X的识别结果的差异性；

表示已有识别系统w对X的识别结果与已有识别系统w’对X的识别结果的差异性；

表示已有识别系统w对自身识别结果的困惑度(E越大，识别鲁棒性越差，说明系统对识别结果越不确信)；

表示待优化识别系统s对自身识别结果的困惑度(E越大，识别鲁棒性越差，说明系统对识别结果越不确信)，因对于待优化识别系统s，我们可以获取到包括置信度在内的中间结果，因此此处的Ps(X)也可以使用置信度倒数表示，总之Ps(X)越大说明待优化识别系统s在该数据X上的识别表现越可能存在问题。

αs,βww’等则表示预先设置的系数。

该价值函数的核心意义是，对于音频数据，一方面如果待优化识别系统s对于自己的识别结果越困惑(Ps(X)越大)，以及其识别结果与其它已有识别系统之间的差异越大(Hsw(X)越大)，说明待优化识别系统对于识别结果越没有把握；另一方面如果已有识别系统对于自己的识别结果越不困惑(Pw(X)越小)，以及两个已有识别系统之间的差异越小(Hww’(X)越小)，说明其它的已有语音识别系统倾向于对识别结果越有把握。则此时这种待优化识别系统没有把握，而其它的已有语音识别系统有把握的数据更加应当被标注。

发明人发现本申请实施例能够达到的更深层次的效果：

1)有效提升主动学习在语音识别应用中的效果，并且可以在只获得语音识别文字结果的情况下，利用多系统进行优化，大大降低了应用主动学习技术的门槛；

2)提出了一套框架方案，可以适配多种不同的具体方法和情况，在实际应用中具有很高的鲁棒性；可以和无监督学习方法直接结合，起到更好的优化效果。

请参考图5，其示出了本发明一实施例提供的一种语音识别系统优化装置的框图。

如图5所示，识别程序模块510、标注程序模块520和优化程序模块530。

其中，识别程序模块510，配置为将待筛选音频数据分别输入至目标优化ASR系统和N个可用ASR系统中进行语音识别得到N+1个语音识别结果；标注程序模块520，配置为对所述N+1个语音识别结果进行度量，确定M个语音识别结果并将所述M个语音识别结果送入标注专家进行标注；以及优化程序模块530，配置为将所述标注专家标注过的M个语音识别结果再输入至所述目标ASR系统以对所述目标ASR系统进行优化。

应当理解，图5中记载的诸模块与参考图1和图2中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如识别程序模块可以描述为将待筛选音频数据分别输入至目标优化ASR系统和N个可用ASR系统中进行语音识别得到N+1个语音识别结果的模块，另外，还可以通过硬件处理器来实现相关功能模块，例如识别程序模块可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语音识别系统优化方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

将待筛选音频数据分别输入至目标优化ASR系统和N个可用ASR系统中进行语音识别得到N+1个语音识别结果；

对所述N+1个语音识别结果进行度量，确定M个语音识别结果并将所述M个语音识别结果送入标注专家进行标注；

将所述标注专家标注过的M个语音识别结果再输入至所述目标ASR系统以对所述目标ASR系统进行优化。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音识别系统优化装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至语音识别系统优化装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项语音识别系统优化方法。

图6是本发明实施例提供的电子设备的结构示意图，如图6所示，该设备包括：一个或多个处理器610以及存储器620，图6中以一个处理器610为例。用于语音识别系统优化方法的设备还可以包括：输入装置630和输出装置640。处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接，图6中以通过总线连接为例。存储器620为上述的非易失性计算机可读存储介质。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例用于语音识别系统优化装置方法。输入装置630可接收输入的数字或字符信息，以及产生与用于语音识别系统优化装置的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于语音识别系统优化装置中，包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

将待筛选音频数据分别输入至目标优化ASR系统和N个可用ASR系统中进行语音识别得到N+1个语音识别结果；

对所述N+1个语音识别结果进行度量，确定M个语音识别结果并将所述M个语音识别结果送入标注专家进行标注；

将所述标注专家标注过的M个语音识别结果再输入至所述目标ASR系统以对所述目标ASR系统进行优化。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

16页详细技术资料下载

语音识别系统优化方法和装置

相关技术

网友询问留言