语音识别中间结果的质量评测方法和装置

文档序号：1467473 发布日期：2020-02-21 浏览：20次 >En<

阅读说明：本技术 语音识别中间结果的质量评测方法和装置 (Method and device for evaluating quality of voice recognition intermediate result ) 是由李如子殷运鹏于 2019-12-06 设计创作，主要内容包括：本发明实施例提供一种语音识别中间结果的质量评测方法和装置，其中方法包括：确定语音识别的每一中间结果；基于每一中间结果，确定质量评测参数；基于所述质量评测参数，确定质量评测结果。本发明实施例提供的方法和装置，基于每一中间结果，确定质量评测参数，能够从语音结果过程中输出的中间结果整体的角度进行分析，从而提高中间结果质量评测的全面性和准确性。(The embodiment of the invention provides a method and a device for evaluating the quality of a voice recognition intermediate result, wherein the method comprises the following steps: determining each intermediate result of the speech recognition; determining a quality evaluation parameter based on each intermediate result; and determining a quality evaluation result based on the quality evaluation parameter. The method and the device provided by the embodiment of the invention determine the quality evaluation parameters based on each intermediate result, and can analyze the overall intermediate result output in the voice result process, thereby improving the comprehensiveness and the accuracy of the quality evaluation of the intermediate result.)

语音识别中间结果的质量评测方法和装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别中间结果的质量评测方法和装置。

背景技术

随着人工智能技术的不断突破，语音识别技术得到了迅速的发展。当前的语音识别技术，可以在实时解码过程中将中间结果抛出给用户，让用户感知会话过程中一直有字幕弹出，优化用户在语音识别的实时性方面的体验。

现有的针对语音识别中间结果的质量评测方法是将最后一次的中间结果直接与最终结果的标注内容进行对标，统计出字精确率作为中间结果的衡量指标。但是上述方法无法满足中间结果质量评测的全面性和准确性的需求。

发明内容

本发明实施例提供一种语音识别中间结果的质量评测方法和装置，用以解决现有的中间结果质量评测不够全面，且准确性低的问题。

第一方面，本发明实施例提供一种语音识别中间结果的质量评测方法，包括：

确定语音识别的每一中间结果；

基于每一中间结果，确定质量评测参数；

基于所述质量评测参数，确定质量评测结果。

优选地，所述基于每一中间结果，确定质量评测参数，具体包括：

基于每一中间结果确定相邻差异性评测参数；

和/或，基于每一中间结果，以及最终标注结果，确定整体准确性评测参数。

优选地，所述基于每一中间结果确定相邻差异性评测参数，具体包括：

基于每一中间结果确定整体顺滑度和/或相邻结果相似度；

其中，所述整体顺滑度用于表征相邻中间结果的字数差异；所述相邻结果相似度用于表征相邻中间结果的文本差异。

优选地，所述基于每一中间结果确定相邻结果相似度，具体包括：

基于任一中间结果与所述任一中间结果的相邻中间结果，确定所述任一中间结果的相邻标注内容；

基于所述任一中间结果以及所述相邻标注内容，确定所述任一中间结果对应的相邻对标结果；

基于每一所述中间结果对应的相邻对标结果，确定相邻结果相似度。

优选地，所述基于任一中间结果与所述任一中间结果的相邻中间结果，确定所述任一中间结果的相邻标注内容，具体包括：

计算任一中间结果与所述任一中间结果的相邻中间结果所对应的每一中间拆分标注内容之间的中间拆分相似度；其中，所述中间拆分标注内容是基于预设中间步长对所述相邻中间结果进行逐次拆分得到的；

将最大的中间拆分相似度对应的中间拆分标注内容作为所述任一中间结果的相邻标注内容。

优选地，所述基于每一中间结果，以及最终标注结果，确定整体准确性评测参数，具体包括：

基于任一中间结果，以及所述最终标注结果，确定所述任一中间结果的个体准确性评测参数；

基于每一中间结果的个体准确性评测参数，确定所述整体准确性评测参数。

优选地，所述基于任一中间结果，以及所述最终标注结果，确定所述任一中间结果的个体准确性评测参数，具体包括：

计算任一中间结果与所述最终标注结果所对应的每一最终拆分标注内容之间的最终拆分相似度；其中，所述最终拆分标注内容是基于预设最终步长对所述最终标注结果进行逐次拆分得到的；

基于最大的最终拆分相似度对应的最终拆分标注内容，以及所述任一中间结果，确定所述任一中间结果的个体准确性评测参数。

第二方面，本发明实施例提供一种语音识别中间结果的质量评测装置，包括：

中间结果确定单元，用于确定语音识别的每一中间结果；

参数确定单元，用于基于每一中间结果确定质量评测参数；

质量评测单元，用于基于所述质量评测参数，确定质量评测结果。

第三方面，本发明实施例提供一种电子设备，包括处理器、通信接口、存储器和总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信，处理器可以调用存储器中的逻辑指令，以执行如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的一种语音识别中间结果的质量评测方法和装置，基于每一中间结果，确定质量评测参数，能够从语音结果过程中输出的中间结果整体的角度进行分析，从而提高中间结果质量评测的全面性和准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音识别中间结果的质量评测方法的流程示意图；

图2为本发明实施例提供的整体顺滑度的示意图；

图3为本发明实施例提供的相邻结果相似度的确定方法的流程示意图；

图4为本发明实施例提供的相邻标注内容的确定方法的流程示意图；

图5为本发明另一实施例提供的相邻结果相似度的确定方法的流程示意图；

图6为本发明实施例提供的整体准确性评测参数的确定方法的流程示意图；

图7为本发明实施例提供的个体准确性评测参数的确定方法的流程示意图；

图8为本发明另一实施例提供的整体准确性评测参数的确定方法的流程示意图；

图9为本发明实施例提供的语音识别中间结果的质量评测装置的结构示意图；

图10为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

语音识别的实时解码过程中，可以将中间结果抛出给用户，让用户感知会话过程中一直有字幕弹出。如何对用户获取的中间结果进行合理衡量是语音识别中间结果输出中的一个非常重要的环节。当前由于中间结果所对应的标注文本以及衡量指标的缺失，导致中间结果给用户的感受除了使用主观测试以及非常简单的客观测试外，一直无法依赖客观标准进行精准衡量。

为了实现语音识别中间结果的质量评测，发明人起初将最终结果的标注内容作为最后一次的中间结果的标注内容，直接与最终一次的中间结果进行对标，并将对标得到的字精确率作为语音识别中间结果的质量评测指标。但是上述方法实际上仅能够评测最后一次中间结果的质量，并不能体现其余每次中间结果的质量，由此进行中间结果评测过于片面。此外，由于随着中间结果输出次数的增加，中间结果的准确性会越来越高，仅用最后一次的中间结果进行质量评测，无法代表多次输出的中间结果整体，且会导致质量评测结果虚高。再者，仅应用单次的中间结果进行质量评测，也无法体现逐次输出的中间结果带给用户的实时性体验感受。

对此，本发明实施例提供一种语音识别中间结果的质量评测方法。图1为本发明实施例提供的语音识别中间结果的质量评测方法的流程示意图，如图1所示，该方法包括：

步骤110，确定语音识别的每一中间结果。

具体地，在语音识别的实时解码过程中，逐个输出中间结果，对应记录每一中间结果，以及中间结果的输出顺序。此处，中间结果为多个，且本发明实施例不对中间结果的具体数量作限定。

步骤120，基于每一中间结果确定质量评测参数。

具体地，质量评测参数用于表征每一中间结果的质量，质量测评参数具体可以体现为中间结果之间的顺滑度，例如相邻的中间结果之间的字数之差，或者相邻的中间结果之间的相似度，还可以体现为每一中间结果的准确性，例如每一中间及其分别对应的标注内容之间的相似度，还可以体现为中间结果之间的顺滑度以及每一中间结果的准确性两者的结合等，本发明实施例对此不作具体限定。

步骤130，基于质量评测参数，确定质量评测结果。

具体地，质量评测结果用于反映对语音识别中的中间结果进行质量评测得到的结果，质量评测结果可以是得分、等级等，本发明实施例对此不作具体限定。

本发明实施例提供的方法，基于每一中间结果，确定质量评测参数，能够从语音结果过程中输出的中间结果整体的角度进行分析，从而提高中间结果质量评测的全面性和准确性。

基于上述任一实施例，质量评测参数包括相邻差异性评测参数和/或整体准确性评测参数。对应地，步骤120具体包括步骤121和/或步骤122：

步骤121，基于每一中间结果确定相邻差异性评测参数。

具体地，相邻差异性评测参数用于表征相邻的中间结果之间的差异性，通过相邻的中间结果之间的差异性可以反映用户在会话过程中感知到的中间结果输出的顺滑程度，差异越小，则用户感知越顺滑。此处，相邻差异性评测参数可以包括相邻的中间结果的字数差异，或者相邻的中间结果分别对应于相同语音数据的部分的文本差异等，本发明实施例对此不作具体限定。

步骤122，基于每一中间结果，以及最终标注结果，确定整体准确性评测参数。

具体地，最终标注结果为语音识别输出的最终结果对应的标注内容。整体准确性评测参数用于表征每一中间结果的准确性。整体准确性评测参数可以包括每一中间结果的字正确率，或者每一中间结果中出现各种错误的概率等，本发明实施例对此不作具体限定。

最终标注结果对应于语音数据整体，每一中间结果均对应于语音数据中的一部分，由此可以建立起最终标注结果与每一中间结果之间的关联性，并将最终标注结果中对应于分布语音数据的部分标注结果用于评测对应的中间结果的准确性，进而得到整体准确性评测参数。

需要说明的是，步骤120中，可以执行步骤121不执行步骤122，或者执行步骤122不执行步骤121，再或者既执行步骤121又执行步骤122，本发明实施例对此不作具体限定。

对应地，步骤130具体包括：基于相邻差异性评测参数和/或整体准确性评测参数，确定质量评测结果。

具体地，在执行步骤121不执行步骤122的情况下，可以根据步骤121确定的相邻差异性评测参数，确定质量评测结果；在执行步骤122不执行步骤121的情况下，可以根据步骤122确定的整体准确性评测参数，确定质量评测结果；在既执行步骤121又执行步骤122的情况下，可以结合根据步骤121确定的相邻差异性评测参数，以及根据步骤122确定的整体准确性评测参数，确定质量评测结果。

本发明实施例提供的方法，基于相邻差异性评测参数进行质量评测，能够通过相邻差异性评测参数反映用户在会话过程中感知到的中间结果输出的顺滑程度，应用客观标准精准衡量用户感知；基于整体准确性评测参数进行质量评测，能够通过整体准确性评测参数反映每次输出的中间结果的准确性，从而提高中间结果质量评测的全面性和准确性。

基于上述实施例，该方法中，步骤121具体包括：基于每一中间结果确定整体顺滑度和/或相邻结果相似度；其中，整体顺滑度用于表征相邻中间结果的字数差异；相邻结果相似度用于表征相邻中间结果的文本差异。

具体地，相邻差异性评测参数包括整体顺滑度和/或相邻结果相似度，分别从中间结果的字数和文本两个方面表征相邻的中间结果之间的差异。

其中，整体顺滑度可以包括每一个中间结果及其相邻的前一中间结果的字数差，或者每一中间结果及其相邻的前一中间结果的字数差的均值等。相邻结果相似度可以包括每一中间结果及其相邻的后一中间结果中对应于相同语音数据的文本的差异，例如相同字占比，错误占比等。

基于上述任一实施例，图2为本发明实施例提供的整体顺滑度的示意图，如图2所示，该方法中，步骤121中，基于每一中间结果确定整体顺滑度，具体包括：基于每两个相邻的中间结果的字数差，以及中间结果的总数量，确定整体顺滑度。

例如，可以将每两个相邻的中间结果的字数差之和，除以中间结果的总数量，得到相邻的中间结果的字数差的均值，作为整体顺滑度。

图2中，n为中间结果的总数量，n为大于等于2的整数。Num(i)为第i次中间结果的字数，i为小于等于n的正整数。每一次中间结果旁标注的公式，例如第i次中间结果旁标注的Num(i)-Num(i-1)，用于表示第i次中间结果及其前一次中间结果的字数差。

由此得到如下公式：

整体顺滑度

＝[Num(1)+Num(2)-Num(1)+…+Num(n)-Num(n-1)]/n

＝Num(n)/n

下表示出左右两组不同的中间结果，表中，左侧中间结果中，中间结果7的字数为7，整体顺滑度＝Num(7)/7＝7/7＝1，右侧中间结果中，中间结果2的字数为6，整体顺滑度＝Num(2)/2＝6/2＝3，显然左侧中间结果每次输出的字数比上次的字数差距小，用户感受顺滑，右侧中间结果每次输出的字数比上次的字数差距大，用户感受并不友善，左侧中间结果的整体顺滑度优于右侧中间结果，且整体顺滑度约接近于1，用户感受越佳。

中间结果1	“查”	中间结果1	“查”
				中间结果2	“查找”	中间结果2	“查找文祠幼儿”
中间结果3	“查找文”
				中间结果4	“查找文祠”
中间结果5	“查找文祠幼”
				中间结果6	“查找文祠幼儿”
中间结果7	“查找文祠幼儿园”

基于上述任一实施例，图3为本发明实施例提供的相邻结果相似度的确定方法的流程示意图，如图3所示，步骤121中，所述基于每一中间结果确定相邻结果相似度，具体包括：

步骤1211，基于任一中间结果与该中间结果的相邻中间结果，确定该中间结果的相邻标注内容。

具体地，针对任一中间结果，该中间结果的相邻中间结果可以是该中间结果的前一中间结果或者后一中间结果。该中间结果的相邻标注内容是相邻中间结果中与该中间结果最相似的片段，即相邻中间结果中，对应于该中间结果所对应的语音数据部分的文本片段。两个相邻的中间结果中，对应于相同语音数据的部分可用于比较说明相邻中间结果的文本差异，进而体现用户在会话过程中感知到的中间结果输出的顺滑程度。

步骤1212，基于该中间结果以及相邻标注内容，确定该中间结果对应的相邻对标结果。

具体地，通过将中间结果以及中间结果的相邻标注内容继续对标，即可得到该中间结果的相邻对标结果。相邻对标结果可以是中间结果及其相邻标注内容的相同字数，或者不同类型的错误分别对应的字数等，本发明实施例对此不作具体限定。例如，相邻对标结果可以包括H、I、S、D和N，其中H表示中间结果相比相邻标注内容的正确字数，I、S和D表示中间结果相比相邻标注内容的***错误字数、替换错误字数和删除错误字数，N为相邻标注内容的总字数。

步骤1213，基于每一中间结果对应的相邻对标结果，确定相邻结果相似度。

具体地，任一中间结果对应的相邻对标结果用于表征该中间结果及其相邻中间结果的文本差异，基于每一中间结果对应的相邻对标结果，即可分析每一中间结果之间的文本差异，得到相邻结果相似度。

例如，可以将基于下式计算得到的所有中间结果的字加权精确度作为相邻结果相似度：

ACC＝(H₁+H₂+…+H_n-I₁-I₂-…-I_n)/(N₁+N₂+…+N_n)

式中，H₁、I₁和N₁分别表示第1个中间结果相比相邻标注内容的正确字数、***错误字数，以及相邻标注内容的总字数；n为中间结果的总数量。

本发明实施例提供的方法，通过分析每一中间结果对应的相邻对标结果，确定相邻结果相似度，从而从相邻中间结果的文本方面衡量了用户在会话过程中感知到的中间结果输出的顺滑程度。

基于上述任一实施例，图4为本发明实施例提供的相邻标注内容的确定方法的流程示意图，如图4所示，步骤1211具体包括：

步骤1211-1，计算任一中间结果与该中间结果的相邻中间结果所对应的每一中间拆分标注内容之间的中间拆分相似度；其中，中间拆分标注内容是基于预设中间步长对相邻中间结果进行逐次拆分得到的。

具体地，预设中间步长是预先设定的对相邻中间结果进行拆分的步长，作为优选，预设中间步长可以是1个字。预设中间步长为1个字时，基于预设中间步长对相邻中间结果进行逐次拆分，使得相邻中间结果中的m个字最终会被拆分为m个中间拆分标注内容，分别为“w₁”、“w₁w₂”、“w₁w₂w₃”、…、“w₁w₂w₃…w_m”，其中w₁表示相邻中间结果中的第1个字。

中间拆分相似度用于表征任一中间结果及其相邻中间结果所对应的任一中间拆分标注内容，两者之间的相似度。本发明实施例中，中间结果以及中间拆分标注内容之间的相似度，可以通过多种方式表示，例如Jaccard相关系数、余弦距离、欧几里得距离等，本发明实施例对此不作具体限定。

作为优选，可以应用中间结果以及中间拆分标注内容之间编辑距离表征中间拆分相似度。编辑距离(Edit Distance)是针对二个字符串的差异程度的量化量测。中间结果与该中间结果的相邻中间结果所对应的任一中间拆分标注内容之间的编辑距离，用于衡量中间结果与任一中间拆分标注内容两者字符串的差异程度，编辑距离越小则差异越小，对应的中间拆分相似度越大。

步骤1211-2，将最大的中间拆分相似度对应的中间拆分标注内容作为该中间结果的相邻标注内容。

基于上述任一实施例，图5为本发明另一实施例提供的相邻结果相似度的确定方法的流程示意图，如图5所示，相邻结果相似度的确定方法如下：

首先，按照预设中间步长对每一中间结果进行逐次拆分，得到每一中间结果所对应的每一中间拆分标注内容。此处，预设中间步长为1个字，由此得到的任一中间结果所对应的每一中间拆分标注内容在图5所示的方框中以“w₁”、“w₁w₂”、“w₁w₂w₃”、…、“w₁w₂w₃…w_m”的形式呈现。

需要说明的是，本发明实施例中将下一中间结果作为当前中间结果的相邻中间结果，将最终标注结果作为最后一个中间结果的相邻中间结果。

例如，每一中间结果所对应的中间拆分标注内容如下表所示：

其次，针对任一中间结果，计算该中间结果与其相邻中间结果所对应的每一中间拆分标注内容之间的编辑距离，从而得到该中间结果与每一中间拆分标注内容之间的中间拆分相似度。从中选取中间拆分相似度最大，即编辑距离最小的中间拆分标注内容作为该中间结果的相邻标注内容。在编辑距离计算的过程中，可能存在两个编辑距离最小值的情况，例如“查找文四”这一中间结果与中间拆分标注内容“查找文”和“查找文祠”这两部分编辑距离都为最小(距离为1)，此时取字符串长度最短的为该中间结果的相邻标注内容。

针对每一个中间结果执行上述操作，即可得到每个中间结果与下一中间结果的相邻标注结果，具体可以表现为“中间结果n→相邻标注内容”的形式，对应于中间结果1为“查找→查找”，中间结果2为“查找文→查找文”，中间结果3为“查找文四→查找文”，中间结果4为“查找文泗幼儿园→查找文祠幼儿园”。

接着，针对任一中间内容及其相邻标注内容进行对标，得到该中间结果的相邻对标结果H、I、S、D、N。上述4个中间结果的H、I、S、D、N分别为：“查找→查找”(H＝2，I＝0，S＝0，D＝0，N＝2)，“查找文→查找文”(H＝3，I＝0，S＝0，D＝0，N＝3)，“查找文四→查找文”(H＝3，I＝1，S＝0，D＝0，N＝3)，“查找文泗幼儿园→查找文祠幼儿园”(H＝6，I＝0，S＝1，D＝0，N＝7)。通过计算每一中间结果的相邻对标结果中的正确字数与***错误字数之差，以及每一中间结果的相邻标注内容的总字数两者的比值，可以得到所有中间结果的字加权精确度作为相邻结果相似度。此处，相邻结果相似度ACC＝(H1+H2+…Hn-I1-I2-…In)/(N1+N2+…Nn)＝(14-1)/16＝81.25％。

基于上述任一实施例，图6为本发明实施例提供的整体准确性评测参数的确定方法的流程示意图，如图6所示，步骤122具体包括：

步骤1221，基于任一中间结果，以及最终标注结果，确定该中间结果的个体准确性评测参数。

具体地，针对任一中间结果，最终标注结果中存在部分文本对应于该中间结果所对应的语音数据，可以选择最终标注结果中对应于该中间结果所对应的语音数据的部分文本，与该中间结果进行对标，以确定该中间结果的个体准确性评测参数。

此处，个体准确性评估参数是针对于单个中间结果而言的，用于衡量单个中间结果相对于最终标注结果的准确性。

步骤1222，基于每一中间结果的个体准确性评测参数，确定整体准确性评测参数。

具体地，在得到针对于每一个单个的中间结果的个体准确性评测参数后，即可得到针对于中间结果整体而言的整体准确性评测参数。

本发明实施例提供的方法，每一中间结果的个体准确性评测参数，确定整体准确性评测参数，充分考虑了每一中间结果的准确性，提高了质量评测的可靠性和准确性。

基于上述任一实施例，图7为本发明实施例提供的个体准确性评测参数的确定方法的流程示意图，如图7所示，步骤1221具体包括：

步骤1221-1，计算任一中间结果与最终标注结果所对应的每一最终拆分标注内容之间的最终拆分相似度；其中，最终拆分标注内容是基于预设最终步长对最终标注结果进行逐次拆分得到的。

具体地，预设最终步长是预先设定的对最终标注结果进行拆分的步长，作为优选，预设最终步长可以是1个字。预设最终步长为1个字时，基于预设最终步长对最终标注结果进行逐次拆分，使得最终标注结果中的m个字最终会被拆分为m个最终拆分标注内容，分别为“w₁”、“w₁w₂”、“w₁w₂w₃”、…、“w₁w₂w₃…w_m”，其中w₁表示最终标注结果中的第1个字。

最终拆分相似度用于表征任一中间结果以及最终标注结果所对应的任一最终拆分标注内容，两者之间的相似度。本发明实施例中，中间结果以及最终拆分标注内容之间的相似度，可以通过多种方式表示，例如Jaccard相关系数、余弦距离、欧几里得距离等，本发明实施例对此不作具体限定。

作为优选，可以应用中间结果以及最终拆分标注内容之间编辑距离表征最终拆分相似度。

任一中间结果与任一最终拆分标注内容之间的编辑距离，用于衡量该中间结果与该最终拆分标注内容两者字符串的差异程度，编辑距离越小则差异越小，最终拆分相似度越大。

步骤1221-2，基于最大的最终拆分相似度对应的最终拆分标注内容，以及该中间结果，确定该中间结果的个体准确性评测参数。

具体地，由于会话过程中，每一个中间结果是实时变化的，因此该过程中每一个中间结果的标注是无法标记的。而最大的最终拆分相似度对应的最终拆分标注内容，即最接近于中间结果的最终标注结果中的部分文本，可直接作为中间结果对应的标注内容。

将最大的最终拆分相似度对应的最终拆分标注内容与中间结果进行对标，即可确定该中间结果的个体准确性评测参数。类似于中间结果的相邻对标结果，中间结果的个体准确性评测参数也可以包括H、I、S、D和N，其中H、I、S和D表示中间结果相比最小的编辑距离对应的最终拆分标注内容的正确字数、***错误字数、替换错误字数和删除错误字数，N为最小的编辑距离对应的最终拆分标注内容的总字数。

对应地，可以将基于下式计算得到的所有中间结果的字加权精确度作为整体准确性评测参数：

ACC＝(H₁+H₂+…+H_n-I₁-I₂-…-I_n)/(N₁+N₂+…+N_n)

式中，H₁、I₁和N₁分别表示第1个中间结果相比最小的编辑距离对应的最终拆分标注内容的正确字数、***错误字数，以及最小的编辑距离对应的最终拆分标注内容的总字数；n为中间结果的总数量。

基于上述任一实施例，图8为本发明另一实施例提供的整体准确性评测参数的确定方法的流程示意图，如图8所示，整体准确性评测参数的确定方法如下：

首先，按照预设最终步长对最终标注结果进行逐次拆分，得到最终标注结果对应的每一最终拆分标注内容。

此处，预设最终步长为1个字。由此得到的最终标注结果所对应的每一最终拆分标注内容在图8所示的方框中以“w₁”、“w₁w₂”、“w₁w₂w₃”、…、“w₁w₂w₃…w_m”的形式呈现。假设最终标注结果为“查找文祠幼儿园”，下表所示为该最终标注结果所对应的多个最终拆分标注内容：

查

找

w1w2

查

找

文

w1w2w3

……

查

找

文

祠

幼

儿

……

查

找

文

祠

幼

儿

园

w1w2w3…wm

其次，计算任一中间结果与最终标注结果对应的每一最终拆分标注内容之间的编辑距离，进而得到该中间结果与最终标注结果对应的每一最终拆分标注内容之间的最终拆分相似度。随即将最小编辑距离，即最大最终拆分相似度对应的最终拆分标注内容作为中间结果的最终拆分标注内容，具体可以表现为“中间结果n→对应标注”的形式。假设中间结果顺次为“查找”、“查找文”、“查找文四”、“查找文泗幼儿园”，每个中间结果的对应最终拆分标注内容分别为“查找→查找”，“查找文→查找文”，“查找文四→查找文祠”，“查找文泗幼儿园→查找文祠幼儿园”。在编辑距离计算的过程中，可能会存在两个编辑距离最小值，例如“查找文四”这一中间结果与最终拆分标注内容“查找文”和“查找文祠”的编辑距离都为最小(距离为1)，此时取字符串长度最长的为最终拆分标注内容。

接着，针对任一中间内容及其最终拆分标注内容进行对标，得到该中间结果的个体准确性评测参数，包括H、I、S、D、N。由此得到每个中间结果的个体准确性评测参数分别为：“查找→查找”(H＝2，I＝0，S＝0，D＝0，N＝2)，“查找文→查找文”(H＝3，I＝0，S＝0，D＝0，N＝3)，“查找文四→查找文祠”(H＝3，I＝0，S＝1，D＝0，N＝4)，“查找文泗幼儿园→查找文祠幼儿园”(H＝6，I＝0，S＝1，D＝0，N＝7)。通过计算每一中间结果的个体准确性评测参数中的正确字数与***错误字数之差，以及每一中间结果的最终拆分标注内容的总字数两者的比值，可以得到所有中间结果的字加权精确度作为整体准确性评测参数。此处，整体准确性评测参数ACC＝(H1+H2+…Hn-I1-I2-…In)/(N1+N2+…Nn)＝(14-0)/16＝87.5％。

基于上述任一实施例，图9为本发明实施例提供的语音识别中间结果的质量评测装置的结构示意图，如图9所示，该装置包括中间结果确定单元910、参数确定单元920以及质量评测单元930；

其中，中间结果确定单元910用于确定语音识别的每一中间结果；

参数确定单元920用于基于每一中间结果确定质量评测参数；

质量评测单元930用于基于所述质量评测参数，确定质量评测结果。

本发明实施例提供的装置，基于每一中间结果，确定质量评测参数，能够从语音结果过程中输出的中间结果整体的角度进行分析，从而提高中间结果质量评测的全面性和准确性。

基于上述任一实施例，该装置中，所述参数确定单元920包括：

相邻差异性评测单元，用于基于每一中间结果确定相邻差异性评测参数；

和/或，整体准确性评测单元，用于基于每一中间结果，以及最终标注结果，确定整体准确性评测参数。

基于上述任一实施例，该装置中，所述相邻差异性评测单元具体用于：

基于每一中间结果确定整体顺滑度和/或相邻结果相似度；

其中，所述整体顺滑度用于表征相邻中间结果的字数差异；所述相邻结果相似度用于表征相邻中间结果的文本差异。

基于上述任一实施例，该装置中，所述相邻差异性评测单元具体包括：

相邻标注确定子单元，用于基于任一中间结果与所述任一中间结果的相邻中间结果，确定所述任一中间结果的相邻标注内容；

相邻对标子单元，用于基于所述任一中间结果以及所述相邻标注内容，确定所述任一中间结果对应的相邻对标结果；

相邻结果确定子单元，用于基于每一所述中间结果对应的相邻对标结果，确定相邻结果相似度。

基于上述任一实施例，该装置中，所述相邻标注确定子单元具体用于：

将最大的中间拆分相似度对应的中间拆分标注内容作为所述任一中间结果的相邻标注内容。

基于上述任一实施例，该装置中，整体准确性评测单元包括：

个体准确性子单元，用于基于任一中间结果，以及所述最终标注结果，确定所述任一中间结果的个体准确性评测参数；

整体准确性子单元，用于基于每一中间结果的个体准确性评测参数，确定所述整体准确性评测参数。

基于上述任一实施例，该装置中，个体准确性子单元具体用于：

基于最大的最终拆分相似度对应的最终拆分标注内容，以及所述任一中间结果，确定所述任一中间结果的个体准确性评测参数。

图10为本发明实施例提供的电子设备的结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040，其中，处理器1010，通信接口1020，存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令，以执行如下方法：确定语音识别的每一中间结果；基于每一中间结果，确定质量评测参数；基于所述质量评测参数，确定质量评测结果。

此外，上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：确定语音识别的每一中间结果；基于每一中间结果，确定质量评测参数；基于所述质量评测参数，确定质量评测结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

20页详细技术资料下载

语音识别中间结果的质量评测方法和装置

相关技术

网友询问留言