语音标注质量评价方法、装置、设备及存储介质

文档序号：650542 发布日期：2021-04-23 浏览：9次 >En<

阅读说明：本技术 语音标注质量评价方法、装置、设备及存储介质 (Voice annotation quality evaluation method, device, equipment and storage medium ) 是由喻涛吴思远熊世富于 2020-12-26 设计创作，主要内容包括：本申请提出一种语音标注质量评价方法、装置、设备及存储介质,该方法包括：获取与目标语音对应的待标注的语音识别结果,所述待标注的语音识别结果通过对所述目标语音的语音识别结果进行文本片段替换得到,其中,替换后的文本片段是相对于所述目标语音的错误文本片段；获取标注对象对所述待标注的语音识别结果进行文本标注处理得到的标注结果,所述文本标注处理为标注识别错误的文本的处理；根据所述待标注的语音识别结果以及所述标注结果,确定所述标注对象对所述目标语音进行语音标注的标注质量。上述过程实现了对标注对象的语音标注质量的自动评价,实现了对标注对象的语音标注工作的监督,利于提升标注对象语音标注质量。(The application provides a method, a device, equipment and a storage medium for evaluating voice labeling quality, wherein the method comprises the following steps: acquiring a voice recognition result to be marked corresponding to target voice, wherein the voice recognition result to be marked is obtained by replacing a text segment of the voice recognition result of the target voice, and the replaced text segment is an error text segment relative to the target voice; acquiring a labeling result obtained by performing text labeling processing on the voice recognition result to be labeled by a labeling object, wherein the text labeling processing is the processing of labeling the text with recognition errors; and determining the labeling quality of the target voice by the labeling object according to the voice recognition result to be labeled and the labeling result. The process realizes the automatic evaluation of the voice labeling quality of the labeled object, realizes the supervision of the voice labeling work of the labeled object and is beneficial to improving the voice labeling quality of the labeled object.)

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语音标注质量评价方法、装置、设备及存储介质。

背景技术

有监督训练是语音识别模型训练中常用的训练方式，该有监督训练需要大量的具有文本标注的语音数据作为训练样本。常规的有监督训练样本获取方法是，通过人工或机器，对语音数据进行文本标注得到训练样本。

其中，对语音数据的标注质量，直接影响语音数据的文本标注的准确性，进而影响对模型的训练效果。因此需要对语音数据的标注质量进行评价，从而对标注对象的标注工作进行监督。

发明内容

基于上述需求，本申请提出一种语音标注质量评价方法、装置、设备及存储介质，能够用于对标注对象的语音标注质量进行自动评价。

本申请提出的技术方案具体如下：

一种语音标注质量评价方法，包括：

获取与目标语音对应的待标注的语音识别结果，所述待标注的语音识别结果通过对所述目标语音的语音识别结果进行文本片段替换得到，其中，替换后的文本片段是相对于所述目标语音的错误文本片段；

获取标注对象对所述待标注的语音识别结果进行文本标注处理得到的标注结果，所述文本标注处理为标注识别错误的文本的处理；

根据所述待标注的语音识别结果以及所述标注结果，确定所述标注对象对所述目标语音进行语音标注的标注质量。

可选的，所述获取与目标语音对应的待标注的语音识别结果，包括：

从目标语音的语音识别结果中，确定出待替换文本；

从预设的文本库中选择与所述待替换文本相匹配的文本，作为目标文本；

将所述语音识别结果中的待替换文本替换为所述目标文本，得到待标注的语音识别结果。

可选的，所述从目标语音的语音识别结果中，确定出待替换文本，包括：

对目标语音的语音识别结果进行分词处理，确定所述语音识别结果包含的各个分词；

至少根据所述各个分词的识别信息，从所述各个分词中选择分词作为待替换文本，其中，所述识别信息包括置信度信息、位置信息以及词性信息中的至少一种。

可选的，所述至少根据所述各个分词的识别信息，从所述各个分词中选择分词作为待替换文本，包括：

分别将每个分词的识别信息输入预先训练的分类模型，确定对每个分词的分类结果，所述分类结果是表示分词能否被替换的分类结果；

其中，所述分类模型至少以词汇的识别信息为训练样本，以词汇能否被替换为样本标签，训练得到；

基于对每个分词的分类结果，从各个分词中选择分词作为待替换文本。

可选的，所述基于对每个分词的分类结果，从各个分词中选择分词作为待替换文本，包括：

若所述语音识别结果包含的各个分词中，存在能够被替换的分词，则从能够被替换的分词中选择至少一个分词，作为待替换文本；

若所述语音识别结果包含的各个分词中，不存在能够被替换的分词，则将所述语音识别结果中的设定位置处的文本确定为待替换文本。

可选的，所述从预设的文本库中选择与所述待替换文本相匹配的文本，作为目标文本，包括：

从预设的文本库中，筛选与所述待替换文本相同类型的文本，作为候选文本；

从各个候选文本中，选择一个目标候选文本，作为目标文本；

其中，所述目标候选文本对应的语音与所述待替换文本对应的语音的差异度大于设定差异阈值，和/或，将所述语音识别结果中的待替换文本替换为所述目标候选文本得到的文本，与所述语音识别结果的语法结构相同。

可选的，所述文本标注处理为标记识别错误的文本的处理，或者为修改识别错误的文本的处理。

可选的，当所述文本标注处理为修改识别错误的文本的处理时，所述根据所述待标注的语音识别结果以及所述标注结果，确定所述标注对象对所述目标语音进行语音标注的标注质量，包括：

通过将所述待标注的语音识别结果与所述标注结果进行比对，至少确定所述标注对象对所述待标注的语音识别结果中的目标文本的修改率；所述目标文本是对所述目标语音的语音识别结果进行文本片段替换时，被替换进所述语音识别结果的文本片段；

至少根据所述标注对象对所述待标注的语音识别结果中的目标文本的修改率，确定所述标注对象对所述目标语音进行语音标注的标注质量。

可选的，所述通过将所述待标注的语音识别结果与所述标注结果进行比对，至少确定所述标注对象对所述待标注的语音识别结果中的目标文本的修改率，包括：

通过将所述待标注的语音识别结果与所述标注结果进行比对，确定所述标注对象对所述待标注的语音识别结果中的目标文本的修改率以及修改正确率；其中，当将所述待标注的语音识别结果中的目标文本修改为与该目标文本对应的被替换文本时，确定对该目标文本修改正确；

所述至少根据所述标注对象对所述待标注的语音识别结果中的目标文本的修改率，确定所述标注对象对所述目标语音进行语音标注的标注质量，包括：

根据所述标注对象对所述待标注的语音识别结果中的目标文本的修改率以及修改正确率，确定所述标注对象对所述目标语音进行语音标注的标注质量。

可选的，所述方法还包括：

通过将所述待标注的语音识别结果与所述标注结果进行比对，确定所述待标注的语音识别结果中的、未被所述标注对象修改的目标文本；

确定检查对象对所述待标注的语音识别结果中的、未被所述标注对象修改的目标文本的修改率；

基于所述检查对象对所述待标注的语音识别结果中的、未被所述标注对象修改的目标文本的修改率，确定所述检查对象对所述目标语音进行语音标注的标注质量。

一种语音标注质量评价装置，包括：

文本获取单元，用于获取与目标语音对应的待标注的语音识别结果，所述待标注的语音识别结果通过对所述目标语音的语音识别结果进行文本片段替换得到，其中，替换后的文本片段是相对于所述目标语音的错误文本片段；

标注结果获取单元，用于获取标注对象对所述待标注的语音识别结果进行文本标注处理得到的标注结果，所述文本标注处理为标注识别错误的文本的处理；

质量评价单元，用于根据所述待标注的语音识别结果以及所述标注结果，确定所述标注对象对所述目标语音进行语音标注的标注质量。

一种语音标注质量评价设备，包括：

存储器和处理器；

其中，所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现上述的语音标注质量评价方法。

一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现上述的语音标注质量评价方法。

本申请实施例提出的语音标注质量评价方法，能够自动获取与目标语音对应的待标注的语音识别结果，以及，获取标注对象对该待标注的语音识别结果进行文本标注处理得到的标注结果。然后，根据该待标注的语音识别结果以及该标注结果，确定标注对象对目标语音进行语音标注的标注质量。上述过程实现了对标注对象的语音标注质量的自动评价，实现了对标注对象的语音标注工作的监督，利于提升标注对象语音标注质量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例提供的一种语音标注质量评价方法的流程示意图；

图2是本申请实施例提供的一种语音标注质量评价装置的结构示意图；

图3是本申请实施例提供的一种语音标注质量评价设备的结构示意图。

具体实施方式

本申请实施例技术方案应用于评价标注对象对语音数据进行文本标注的标注质量的应用场景。采用本申请实施例技术方案，能够客观评价标注对象的语音标注质量，从而达到对标注对象的监督目的。

其中，为了提高语音标注效率，标注对象进行语音标注时，通常是先由自动语音标注系统，对语音数据进行文本标注，得到语音标注结果，然后，由标注对象对该语音标注结果进行修改、校验等标注处理，具体是将该语音标注结果中的错误文本修改为正确文本，或者标注出其识别错误的文本，从而得到与语音数据对应的文本标注结果。因此，本申请实施例对标注对象的语音标注质量进行评价，也可以理解为评价标注对象对语音数据的文本标注结果进行标注的质量。

本申请实施例所提出的技术方案，可以示例性的应用于处理器等硬件处理装置或软件处理程序中，从而实现自动评价标注对象的语音标注质量。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1所示，本申请实施例提出的语音标注质量评价方法，包括：

S101、获取与目标语音对应的待标注的语音识别结果。

上述的目标语音，是指用于作为语音识别模型训练样本的语音数据，其可以是任意类型、任意语种、任意时长的语音数据。

上述的待标注的语音识别结果通过对上述目标语音的语音识别结果进行文本片段替换得到。

其中，上述的目标语音的语音识别结果，是指对该目标语音进行语音识别得到的文本形式的识别结果，该语音识别结果可以通过对目标语音进行语音识别得到，也可以从预先存储的数据中读取得到。

本申请实施例对目标语音的语音识别结果进行文本片段替换，即，将语音识别结果中的某一个或某几个文本片段替换为其他的文本片段，得到替换后的文本，作为待标注的语音识别结果。

为了保证对标注对象的标注质量评价的科学性，本申请实施例对目标语音的语音识别结果进行文本片段替换时，保证替换后的文本片段是相对于所述目标语音的错误文本片段，从而使得替换得到的待标注的语音识别结果，是相对于目标语音的错误语音识别文本。

示例性的，从目标语音的语音识别结果中，选择待替换的文本片段，然后将该待替换的文本片段替换为与其语义不同的文本片段，即可得到待标注的语音识别结果。

S102、获取标注对象对所述待标注的语音识别结果进行文本标注处理得到的标注结果。

其中，上述的标注对象，是指实施语音标注的对象，其具体可以是语音标注人员或者是语音标注机器、算法、程序等。

通常情况下，标注对象通过对自动化的语音标注系统的语音标注结果进行文本标注处理，得到语音标注结果。例如将语音标注结果中的错误标注文本修改为正确文本等，得到的修改结果作为对语音数据的标注结果。

因此，当通过执行步骤S101获取与目标语音对应的待标注的语音识别结果后，由标注对象对该待标注的语音识别结果进行文本标注处理，以及，获取标注对象对该待标注的语音识别结果进行文本标注处理得到的标注结果。

其中，标注对象对上述的待标注的语音识别结果进行文本标注处理，具体是识别该待标注的语音识别结果中的识别错误文本，以及对识别到的识别错误的文本进行标注处理，例如对其进行标记，或者将其标注为正确文本等。

上述的错误标注文本，以及识别错误文本，是指与上述目标语音中的相应语音片段不对应的文本。

标注对象通过校验待标注的语音识别结果中的各个文本片段是否与相应的语音片段的语音内容相匹配，可以确定文本片段与相应语音片段是否对应，进而可以确定待标注的语音识别结果中的错误标注文本或识别错误文本。

S103、根据所述待标注的语音识别结果以及所述标注结果，确定所述标注对象对所述目标语音进行语音标注的标注质量。

对于本申请实施例技术方案的执行主体来说，待标注的语音识别结果中被替换的文本信息是明确的，比如对哪个位置的文本片段进行了替换，该文本片段替换前的实际文本等，而对于标注对象来说，这些被替换文本的信息是未知的，因此，可以通过考察标注对象能否准确识别待标注的语音识别结果中的被替换文本并进行标注处理，来判断标注对象是否认真听了目标语音并且认真进行了标注处理。如果标注对象能够准确识别待标注的语音识别结果中的被替换文本并进行标注处理，即可认为标注对象认真听了目标语音并且认真进行了标注处理，此时认为标注对象对目标语音进行语音标注的质量较高，否则，认为标注对象对目标语音进行语音标注的质量较低。

示例性的，通过将待标注的语音识别结果与标注对象的标注结果进行对比，可以判断标注对象是否认真听了目标语音并且认真进行了标注处理，进而可以确定标注对象对目标语音进行语音标注的标注质量。

通过上述介绍可见，本申请实施例提出的语音标注质量评价方法，能够自动获取与目标语音对应的待标注的语音识别结果，以及，获取标注对象对该待标注的语音识别结果进行文本标注处理得到的标注结果。然后，根据该待标注的语音识别结果以及该标注结果，确定标注对象对目标语音进行语音标注的标注质量。上述过程实现了对标注对象的语音标注质量的自动评价，实现了对标注对象的语音标注工作的监督，利于提升标注对象语音标注质量。

示例性的，本申请实施例通过执行如下步骤S1～S3，获取与目标语音对应的待标注的语音识别结果：

S1、从目标语音的语音识别结果中，确定出待替换文本。

其中，上述的待替换文本，是指在对目标语音的语音识别结果进行文本片段替换时，被替换的文本片段，该待替换文本可以是单个或多个的字符、分词、词组、短语等。

作为优选的实现方式，本申请实施例从目标语音的语音识别结果中，任意选择单个的字符、分词、词组、短语等，作为待替换文本。

示例性的，可以从目标语音的语音识别结果中，选择特定语句成分的文本，作为待替换文本，例如选择主语、谓语、宾语等。

或者，本申请实施例按照如下步骤S11～S12的处理，从目标语音的语音识别结果中确定出待替换文本：

S11、对目标语音的语音识别结果进行分词处理，确定所述语音识别结果包含的各个分词。

示例性的，通过文本分词工具，可以实现对目标语音的语音识别结果的分词处理，得到该语音识别结果包含的各个分词。

S12、至少根据所述各个分词的识别信息，从所述各个分词中选择分词作为待替换文本，其中，所述识别信息包括置信度信息、位置信息以及词性信息中的至少一种。

对目标语音的语音识别结果进行分词后，可以得到多个分词，此时，本申请实施例对各个分词进行分析，从而确定分词选择策略。

比如，如果选择的分词恰好是识别错误的，则将该分词作为待替换文本的效果更好，可以避免选择识别正确的分词让标注对象进行修改而浪费标注对象的时间。鉴于此，可选择置信度较低的分词作为待替换文本。分词的置信度较低，往往表明与该分词对应的语音的辨识难度较大，对现有语音识别系统来说，识别难度也较大，在标注对象标注时也应该更加关注。

另外，其他信息，如待替换文本的位置信息、待替换文本的词性信息，对是否将该词所在位置选作替换点也有帮助，例如一些语气词“吗、么、嘛”、指代词“他、它、她”，该写哪个字本来就很模棱两可，由于后面对于标注质量的评估还依赖于对待替换文本(目标文本)的修改率，为保证修改率能准确反映标注对象的标注质量(即标客修改这些词则代表标注质量好，而不修改则表明标注质量差)，如果将模棱两可的词汇作为替换点，而标注对象不修改，系统即会判定标注对象的标注质量差，但这样判断并不合理，所以不应该把这样的词汇作为替换点。

而类似于上述的语气词和指代词，通常出现在句尾和句首。因此，分词在语音识别结果中的位置，也可以作为从分词中确定待替换文本的依据。

基于上述分析，本申请实施例将分词的置信度信息、位置信息以及词性信息中的至少一种信息，作为该分词的识别信息，根据目标语音的语音识别结果中包含的各个分词的识别信息，从各个分词中选择分词作为待替换文本。

例如，基于该语音识别结果包含的各个分词的识别信息，从中选择置信度低于设定阈值，和/或位于语音识别结果中间位置，和/或语音识别结果中的非语气词和非指代词，作为待替换文本。

作为一种优选的实现方式，本申请实施例预先训练分类模型，用于对分词进行二分类处理，确定分词能否被替换。

该分类模型的训练过程如下：

首先，获取大批量的带有真实文本标注的音频数据，并利用语音识别系统，对音频数据进行语音识别，得到识别文本。

对音频数据的识别文本进行分词处理，并将该识别文本与真实文本标注进行对比，确定识别文本中的识别错误的分词，以及识别正确的分词。

然后，基于该识别文本中的各个分词的正确与否，以及各个分词的位置、词性等识别信息，建立以分词的识别信息为训练样本，以分词的分类结果(能否被替换)为样本标签的训练数据。

其中，识别错误并且不是语气词和指代词的分词，其分类结果为能够被替换的分词，否则分类结果为不能被替换的分词。

经过上述处理，利用处理得到的训练数据，对神经网络模型进行训练，得到分类模型，则该分类模型能够基于分词的识别信息，确定分词能否被替换。

则，当获取上述目标语音的语音识别结果包含的各个分词的识别信息后，分别将每个分词的识别信息输入上述的分类模型，确定对每个分词的分类结果，也就是确定每个分词能否被替换。

基于对各个分词的分类结果，即可从各个分词中选择分词作为待替换文本，例如，如果经过上述分类处理，在该语音识别结果包含的各个分词中，存在能够被替换的分词，则从能够被替换的分词中选择一个或多个分词，作为待替换文本，比如，从所有能够被替换的分词中，选择第一个分词，作为待替换文本。

如果在该语音识别结果包含的各个分词中，不存在能够被替换的分词，则将该语音识别结果中的设定位置处的文本确定为待替换文本，优选的，本申请实施例将语音识别结果的中间位置处的分词确定为待替换文本，或者，也可以将其他位置处的非语气词或非指代词作为待替换文本。

S2、从预设的文本库中选择与所述待替换文本相匹配的文本，作为目标文本。

其中，上述的文本库，是与目标语音的说话文本内容风格接近的文本库，该文本库覆盖了较广的文本类型范围，为了便于从中选择与待替换文本相匹配的文本，该文本库中的文本也均为分词的形式。

则，本申请实施例从该预设的文本库中，筛选与该待替换文本相同类型的文本，作为候选文本。

示例性的，本申请实施例预先构建词聚类模型，对该预设的文本库中的词进行聚类处理，将其中包含的文本分词聚类为不同的分词类别。

则，当从该文本库中选择与待替换文本相匹配的文本时，从该文本库中选择与该待替换文本相同类型的文本，作为候选文本。然后，再从所选择的各个候选文本中，选择文本作为用于替换该待替换文本的目标文本。

示例性的，将目标语音的语音识别结果中的待替换文本替换成其它的明显错误的文本后，可以让标注对象在认真听目标语音时发现语音识别结果明显不对时认真的去听音频并矫正其中的错误文本。

而语音识别结果中的被替换文本，希望是不易被标注对象在不听目标语音的情况下察觉的，以防止标注对象仅对语音识别结果中存在异样的地方认真做标注，而对其他地方则不重视，所以目标文本的选取，需要保证替换后整个句子依然是通顺的，同时目标文本要保证其声学发音与音频里与待替换文本对应的声学发音的差别大，这样便可以通过计算标注对象对这些文本的修改程度来达到标注质量评估的目的，因为如果这些文本没能在标注时被修改，则可以认为标注对象根本没有认真听语音，标注质量必然是差的，而如果被修改了，则一定是标注对象通过认真听音才发现的。

因而，对于挑选出的候选文本，可以选一个文本层面相似但声学发音上差异较大(大于设定差异阈值)的目标候选文本作为目标文本，则将该语音识别结果中的待替换文本替换为该目标候选文本后，得到的文本与原语音识别结果的文本的语法结构相同。

示例性的，在确定候选文本后，对于每个候选文本，利用其替换语音识别结果中的待替换文本后，使用预设的语言模型计算文本替换后的整个文本的ppl(困惑度，perplexity)值，同时计算该候选文本与原来的待替换文本的在字或音上的声学相似度，本案选取字的声学相似度，进行字符串的比对，发声相同的字符占原词总字符数的比例，即为所述声学相似度。

根据所有候选文本的ppl值以及字的相似度，综合确定一个最优的候选文本作为待替换文本的替换文本，即上述的目标文本。更具体地，满足声学相似度小于20％，且ppl最小的候选文本，可以被确定为目标文本。

上述的语言模型，可以采用ngram或RNN等建模方案的语言模型，本案采用传统ngram建模的语言模型，语言模型阶数为3，利用搜集到的含量文本数据库来训练一个效果较好的语言模型资源，进行语料清洗、分词等操作，再进行ngram统计得到最终的语言模型。

可选的，当从候选文本中选择上述的目标候选文本时，也可以只选择与待替换文本的声学发音差异较大的文本，作为目标候选文本，或者只要保证将目标语音的语音识别结果中的待替换文本替换为目标候选文本得到的文本，与该语音识别结果的语法结构相同即可。

就是，当从上述的各个候选文本中选择目标候选文本作为目标文本时，应当保证目标候选文本对应的语音与所述待替换文本对应的语音的差异度大于设定差异阈值，和/或，将所述语音识别结果中的待替换文本替换为所述目标候选文本得到的文本，与所述语音识别结果的语法结构相同。

S3、将所述语音识别结果中的待替换文本替换为所述目标文本，得到待标注的语音识别结果。

经过上述方式选择目标文本，并用目标文本替换上述语音识别结果中的待替换文本后，得到的完整文本作为待标注的语音识别结果。

基于上述的目标文本选择方式，可以使得到的待标注的语音识别结果与原语音识别结果的语法结构相同，并且语义通顺，但是当认真听目标语音时，又能发现待标注的语音识别结果中的明显文本错误。

例如，原语音识别结果是“帮我打开空调”，如果“空调”被选择为待替换文本，则从“空调”的词类(例如，该词类含有“空调/热水器/微波炉/冰箱/…”)中选出一个词例如“热水器”来替换原词，构成待标注的语音识别结果“帮我打开热水器”。该待标注的语音识别结果与原语音识别结果，满足文本层面相似(语义通顺，标注对象无法从文本层面判断得出“热水器”是被替换掉了的错误文本，而必须去认真听音频)但声学发音上差异较大(标注对象认真听音频，必然能发现此处文本错了，并进行文本修正)的特性。由标注对象对该待标注的语音识别结果进行文本标注处理，即可判断该标注对象是否认真进行标注，从而科学考察其语音标注质量。

标注对象对待标注的语音识别结果进行文本标注处理，具体可以是标记待标注的语音识别结果中的识别错误文本的处理，或者是修改识别错误的文本的处理。

在本申请实施例中，设定标注对象在对标注文本进行文本标注处理时，对其中包含的识别错误的文本进行修改，也就是将待标注的语音识别结果中包含的与对应的语音内容不相符的文本进行修改。

同时，标注对象的语音标注质量通常无法根据标注对象对单条语音的标注质量来反映，因此，需要由标注对象对大量的语音进行标注，通过统计反映标注对象的语音标注质量。因此，上述的目标语音，应当取大量的目标语音，相应的，上述的待标注的语音识别结果，是与各个目标语音对应的大量的待标注的语音识别结果。其中的每条待标注的语音识别结果，均是按照上述处理方式得到。

则，上述的根据待标注的语音识别结果以及标注结果，确定标注对象对目标语音进行语音标注的标注质量，具体包括：

首先，通过将待标注的语音识别结果与标注结果进行比对，至少确定标注对象对待标注的语音识别结果中的目标文本的修改率。

其中，上述的目标文本是对目标语音的语音识别结果进行文本片段替换时，被替换进该语音识别结果的文本片段。

具体的，对于本申请实施例技术方案的执行主体(例如处理器、语音标注质量评价系统等)来说，原语音识别结果中的待替换文本，以及用于替换该待替换文本的目标文本，均是有记录的，但是对于标注对象来说，这些信息是不可见的。

当标注对象完成标注得到标注结果后，将该标注结果与待标注的语音识别结果，使用编辑距离算法计算待标注的语音识别结果中的目标文本被修改的情况，例如确定目标文本是否被修改。

当待标注的语音识别结果为大量文本时，统计标注对象对每个待标注的语音识别结果中的目标文本的修改情况，即可确定标注对象对该大量待标注的语音识别结果中的目标文本的修改率。

然后，至少根据标注对象对待标注的语音识别结果中的目标文本的修改率，确定标注对象对目标语音进行语音标注的标注质量。

具体的，如果标注对象能够发现待标注的语音识别结果中的目标文本并对其进行修改，则说明标注对象认真听了目标语音并进行了正确标注，而不是草草了事，语音标注质量有保证；相反，如果标注对象不能发现待标注的语音识别结果中的目标文本并对其进行修改，则说明标注对象没有认真听目标语音，或者没有认真进行标注，此时的语音标注质量较低。

因此，通过统计标注对象对待标注的语音识别结果中的目标文本的修改率，可以反映标注对象对目标语音进行语音标注的标注质量。

如果标注对象对待标注的语音识别结果中的目标文本的修改率较高，则标注对象对目标语音进行语音标注的标注质量较高；否则，可以确定标注对象对目标语音进行语音标注的标注质量较低。

进一步的，当将待标注的语音识别结果与标注对象的标注结果进行对比时，还可以同时确定标注对象对待标注的语音识别结果中的目标文本的修改率以及修改正确率。

其中，当标注对象将待标注的语音识别结果中的目标文本修改为与该目标文本对应的被替换文本时，确定对该目标文本的修改正确，否则，认为对该目标文本的修改错误。

按照上述规则，基于标注对象对待标注的语音识别结果中的目标文本的修改，可以确定其对待标注的语音识别结果中的目标文本的修改正确率。

则，当确定标注对象的语音标注质量时，可以根据标注对象对待标注的语音识别结果中的目标文本的修改率以及修改正确率，来确定标注对象对目标语音进行语音标注的标注质量。

例如，当标注对象对待标注的语音识别结果中的目标文本的修改率大于设定的修改率阈值，并且修改正确率大于设定的修改率阈值，则可以认为该标注对象的语音标注质量过关；否则，认为该标注对象的语音标注质量不过关。

另外，在语音标注业务中，还存在检查对象的角色，检查对象的任务是对标注对象的语音标注工作进行检查、校对，其主要工作是，检查标注对象对待标注的语音识别结果中的目标文本是否进行了修改，以及对于标注对象未修改的目标文本，进行补充修改，或者，对标注对象修改错误的目标文本，进行纠正修改。

该检查对象可以是检查人员，或者是语音标注机器、算法、程序等。

则，在语音标注质量评价时，还可以对检查对象的语音标注质量进行评价。

示例性的，本申请实施例通过如下方式，对检查对象的语音标注质量进行评价：

首先，通过将上述的待标注的语音识别结果与标注对象的标注结果进行对比，确定待标注的语音识别结果中的、未被标注对象修改的目标文本。

也就是，将待标注的语音识别结果与标注对象的标注结果进行对比，从中筛选出标注文本中的、未被标注对象修改的目标文本。

同时，获取检查对象对上述的标注对象的标注结果的修改结果。

然后，基于检查对象对上述的标注对象的标注结果的修改结果，确定检查对象对待检测文本中的、未被标注对象修改的目标文本的修改率。

以及，基于检查对象对待检测文本中的、未被标注对象修改的目标文本的修改率，确定检查对象对目标语音进行语音标注的标注质量。

例如，假设总共有100个待标注的语音识别结果，每个待标注的语音识别结果中包含一个目标文本，也就是每个待标注的语音识别结果中有一处文本片段被目标文本替换。则经过标注对象进行标注处理后，将其中的98个待标注的语音识别结果中的目标文本进行了修改，而剩余的两个待标注的语音识别结果中的目标文本未被标注对象修改。

此时，如果检查对象对这两个待标注的语音识别结果中的目标文本进行了修改，则说明检查对象对标注对象的标注结果进行了认真校验，因此可确定其语音标注质量较高；相反，如果检查对象对这两个待标注的语音识别结果中的目标文本未做修改，或者未完全修改，则说明检查对象没有对标注对象的标注结果进行认真校验，因此可认为其语音标注质量较低。

进一步的，还可以结合检查对象对待标注的语音识别结果中的、未被所述标注对象修改的目标文本的修改正确率，对检查对象的语音标注质量进行评价，具体处理过程，可参见上述的结合标注对象对待标注的语音识别结果的目标文本的修改率和修改正确率，来评价标注对象的语音标注质量的处理过程。

本申请实施例还提出一种语音评价质量评价装置，参见图2所示，该装置包括：

文本获取单元100，用于获取与目标语音对应的待标注的语音识别结果，所述待标注的语音识别结果通过对所述目标语音的语音识别结果进行文本片段替换得到，其中，替换后的文本片段是相对于所述目标语音的错误文本片段；

标注结果获取单元110，用于获取标注对象对所述待标注的语音识别结果进行文本标注处理得到的标注结果，所述文本标注处理为标注识别错误的文本的处理；

质量评价单元120，用于根据所述待标注的语音识别结果以及所述标注结果，确定所述标注对象对所述目标语音进行语音标注的标注质量。

本申请实施例提出的语音标注质量评价装置，能够自动获取与目标语音对应的待标注的语音识别结果，以及，获取标注对象对该待标注的语音识别结果进行文本标注处理得到的标注结果。然后，根据该待标注的语音识别结果以及该标注结果，确定标注对象对目标语音进行语音标注的标注质量。上述过程实现了对标注对象的语音标注质量的自动评价，实现了对标注对象的语音标注工作的监督，利于提升标注对象语音标注质量。

可选的，所述获取与目标语音对应的待标注的语音识别结果，包括：

从目标语音的语音识别结果中，确定出待替换文本；

从预设的文本库中选择与所述待替换文本相匹配的文本，作为目标文本；

将所述语音识别结果中的待替换文本替换为所述目标文本，得到待标注的语音识别结果。

可选的，所述从目标语音的语音识别结果中，确定出待替换文本，包括：

对目标语音的语音识别结果进行分词处理，确定所述语音识别结果包含的各个分词；

可选的，所述至少根据所述各个分词的识别信息，从所述各个分词中选择分词作为待替换文本，包括：

分别将每个分词的识别信息输入预先训练的分类模型，确定对每个分词的分类结果，所述分类结果是表示分词能否被替换的分类结果；

其中，所述分类模型至少以词汇的识别信息为训练样本，以词汇能否被替换为样本标签，训练得到；

基于对每个分词的分类结果，从各个分词中选择分词作为待替换文本。

可选的，所述基于对每个分词的分类结果，从各个分词中选择分词作为待替换文本，包括：

若所述语音识别结果包含的各个分词中，存在能够被替换的分词，则从能够被替换的分词中选择至少一个分词，作为待替换文本；

若所述语音识别结果包含的各个分词中，不存在能够被替换的分词，则将所述语音识别结果中的设定位置处的文本确定为待替换文本。

可选的，所述从预设的文本库中选择与所述待替换文本相匹配的文本，作为目标文本，包括：

从预设的文本库中，筛选与所述待替换文本相同类型的文本，作为候选文本；

从各个候选文本中，选择一个目标候选文本，作为目标文本；

可选的，所述文本标注处理为标记识别错误的文本的处理，或者为修改识别错误的文本的处理。

至少根据所述标注对象对所述待标注的语音识别结果中的目标文本的修改率，确定所述标注对象对所述目标语音进行语音标注的标注质量。

所述至少根据所述标注对象对所述待标注的语音识别结果中的目标文本的修改率，确定所述标注对象对所述目标语音进行语音标注的标注质量，包括：

根据所述标注对象对所述待标注的语音识别结果中的目标文本的修改率以及修改正确率，确定所述标注对象对所述目标语音进行语音标注的标注质量。

可选的，所述质量评价单元还用于：

通过将所述待标注的语音识别结果与所述标注结果进行比对，确定所述待标注的语音识别结果中的、未被所述标注对象修改的目标文本；

确定检查对象对所述待标注的语音识别结果中的、未被所述标注对象修改的目标文本的修改率；

具体的，上述的语音标注质量评价装置的各个单元的具体工作内容，请参见上述方法实施例的内容，此处不再赘述。

本申请另一实施例还提出一种语音标注质量评价设备，参见图3所示，该设备包括：

存储器200和处理器210；

其中，所述存储器200与所述处理器210连接，用于存储程序；

所述处理器210，用于通过运行所述存储器200中存储的程序，实现上述任一实施例公开的语音标注质量评价方法。

具体的，上述语音标注质量评价设备还可以包括：总线、通信接口220、输入设备230和输出设备240。

处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器210可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器210可包括主处理器，还可包括基带芯片、调制解调器等。

存储器200中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器2102执行存储器200中所存放的程序，以及调用其他设备，可用于实现本申请实施例所提供的语音标注质量评价方法的各个步骤。

本申请另一实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时，实现上述任一实施例提供的语音标注质量评价方法的各个步骤。

具体的，上述的语音标注质量评价设备的各个部分的具体工作内容，以及上述的存储介质上的计算机程序被处理器运行时的具体处理内容，均可以参见上述的语音标注质量评价方法的各个实施例的内容，此处不再赘述。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

20页详细技术资料下载

语音标注质量评价方法、装置、设备及存储介质

相关技术

网友询问留言