音频标注的检错方法和装置
阅读说明:本技术 音频标注的检错方法和装置 (Error detection method and device for audio annotation ) 是由 张晴晴 朱冬 贾艳明 何淑琳 于 2020-11-12 设计创作,主要内容包括:本申请公开了一种音频标注的检错方法,包括:获取音频数据,并将音频数据切分为多个音频片段;对音频片段进行标注,得到初始标注文本;采用通用文本检错模型对初始标注文本进行检错处理,以得到第一标注文本;确定通用文本检错模型的混淆词典;采用文本分类模型识别第一标注文本的领域类别;根据领域类别,采用领域类别对应的领域文本检错模型对第一标注文本进行检错处理,以得到第二标注文本;将通用文本检错模型的混淆词典与领域文本检错模型的第二标注文本作为微调模型的数据库;根据第二标注文本的语义,采用微调模型对第二标注文本进行微调处理,以得到最终的第三标注文本。(The application discloses an error detection method for audio annotation, which comprises the following steps: acquiring audio data and cutting the audio data into a plurality of audio segments; labeling the audio clip to obtain an initial labeling text; adopting a general text error detection model to perform error detection processing on the initial labeling text to obtain a first labeling text; determining a confusion dictionary of a universal text error detection model; identifying the field type of the first labeled text by adopting a text classification model; according to the field type, performing error detection processing on the first labeling text by adopting a field text error detection model corresponding to the field type to obtain a second labeling text; taking the confusion dictionary of the universal text error detection model and the second labeled text of the field text error detection model as a database of the fine tuning model; and performing fine tuning processing on the second labeled text by adopting a fine tuning model according to the semantic meaning of the second labeled text to obtain a final third labeled text.)
技术领域
本申请属于语音识别领域,具体涉及一种音频标注的检错方法和装置。
背景技术
随着语音识别技术的发展,语音识别技术逐渐运用到多种领域中,例如:日常生活的智能家居,教育领域的智能应用,医学或是金融等领域的智能机器人等场景。目前的语音识别技术依赖于深度学习训练的语音识别模型将语音转写为文本,再对文本进行后续处理。而高效且高准确率的语音识别模型又依赖于大量高质量的语音数据。
但是在实现本申请过程中,发明人发现通常情况下,训练语音识别模型所需的语音数据,采用人工标注的方法获得。
目前至少存在如下问题:每条语音的标注质量,受当前标注人员的疲劳程度和知识认知水平的影响,标注过程中难免会出现标注文本存在错别字的情况。即便后续质检人员严格把控,最终可能得到的标注数据存在文本错误,使用这类数据会造成训练的语音识别模型过程曲折,识别效果欠佳。当然也增加了质检成本,以及质检人员质检压力。
发明内容
本申请实施例的目的是提供音频标注的检错方法和装置,能够解决目前语音标注质量易受标注人员的疲劳程度和知识认知水平的影响,导致语音识别模型准确性低,识别效果欠佳的技术问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种音频标注的检错方法,包括:
获取音频数据,并将所述音频数据切分为多个音频片段;
对所述音频片段进行标注,得到初始标注文本;
采用通用文本检错模型对所述初始标注文本进行检错处理,以得到第一标注文本;
确定所述通用文本检错模型的混淆词典;
采用文本分类模型识别所述第一标注文本的领域类别;
根据所述领域类别,采用所述领域类别对应的领域文本检错模型对所述第一标注文本进行检错处理,以得到第二标注文本;
将所述通用文本检错模型的所述混淆词典与所述领域文本检错模型的所述第二标注文本作为微调模型的数据库;
根据所述第二标注文本的语义,采用所述微调模型对所述第二标注文本进行微调处理,以得到最终的第三标注文本。
进一步地,所述混淆词典包括个人混淆词典和共享混淆词典,所述确定所述通用文本检错模型的混淆词典,具体包括:
经特定标注人员修改确认后,对标注错误的文本以及标注错误发生的频率进行记录;
在所述频率高于阈值时,将所述标注错误的文本加入到所述特定标注人员的个人混淆词典中;
统计多名标注人员的所述个人混淆词典,在标注错误的文本发生的次数高于预设次数时,将所述标注错误的文本加入到共享混淆词典。
进一步地,采用通用文本检错模型对所述初始标注文本进行检错处理,以得到第一标注文本,具体包括:
采用通用文本检错模型查找出标注错误的位置;
从混淆词典中获取用于替换错误标注的候选项列表;
从所述候选项列表中获取候选项对错误标注进行替换;
采用N-gram模型计算替换后的标注文本的流畅度和困惑度;
根据所述流畅度和所述困惑度确定最佳的目标候选项,以得到第一标注文本。
进一步地,所述根据所述领域类别,采用所述领域类别对应的领域文本检错模型对所述第一标注文本进行检错处理,以得到第二标注文本,之后,还包括:
在所述第一标注文本存在错误的情况下,生成检错信息;
其中,所述检错信息包括音频片段索引、错误位置索引和候选词。
进一步地,所述领域类别包括:经济类、教育类、科技类、社会类、游戏类和娱乐类。
第二方面,本申请实施例提供了一种音频标注的检错装置,其特征在于,包括:
获取模块,用于获取音频数据,并将所述音频数据切分为多个音频片段;
标注模块,用于对所述音频片段进行标注,得到初始标注文本;
第一检错模块,用于采用通用文本检错模型对所述初始标注文本进行检错处理,以得到第一标注文本;
确定模块,用于确定所述通用文本检错模型的混淆词典;
识别模块,用于采用文本分类模型识别所述第一标注文本的领域类别;
第二检错模块,用于根据所述领域类别,采用所述领域类别对应的领域文本检错模型对所述第一标注文本进行检错处理,以得到第二标注文本;
入库模块,用于将所述通用文本检错模型的所述混淆词典与所述领域文本检错模型的所述第二标注文本作为微调模型的数据库;
微调模块,用于根据所述第二标注文本的语义,采用所述微调模型对所述第二标注文本进行微调处理,以得到最终的第三标注文本。
进一步地,所述混淆词典包括个人混淆词典和共享混淆词典,所述确定模块,具体包括:
记录子模块,用于经特定标注人员修改确认后,对标注错误的文本以及标注错误发生的频率进行记录;
个人词典子模块,用于在所述频率高于阈值时,将所述标注错误的文本加入到所述特定标注人员的个人混淆词典中;
共享词典子模块,用于统计多名标注人员的所述个人混淆词典,在标注错误的文本发生的次数高于预设次数时,将所述标注错误的文本加入到共享混淆词典。
进一步地,所述第一检错模块,具体包括:
查找子模块,用于采用通用文本检错模型查找出标注错误的位置;
获取子模块,用于从混淆词典中获取用于替换错误标注的候选项列表;
替换子模块,用于从所述候选项列表中获取候选项对错误标注进行替换;
计算子模块,用于采用N-gram模型计算替换后的标注文本的流畅度和困惑度;
确定子模块,用于根据所述流畅度和所述困惑度确定最佳的目标候选项,以得到第一标注文本。
进一步地,所述检错装置还包括:
生成模块,用于在所述第一标注文本存在错误的情况下,生成检错信息;
其中,所述检错信息包括音频片段索引、错误位置索引和候选词。
进一步地,所述领域类别包括:经济类、教育类、科技类、社会类、游戏类和娱乐类。
在本申请实施例中,通过通用文本检错模型、领域文本检错模型和微调模型,实现对音频数据的自动化检错,充分利用通用文本检错模型快速准确的优势的同时,进一步考虑领域类别以及上下文语义,避免了标注人员的疲劳程度和知识认知水平对于标注质量的影响,提高标注质量,进而提高语音识别模型准确性与识别效果。
附图说明
图1是本申请实施例提供的一种音频标注的检错方法的流程示意图;
图2是本申请实施例提供的另一种音频标注的检错方法的流程示意图;
图3是本申请实施例提供的一种音频标注的检错装置的结构示意图。
附图标记说明:
30-检错装置、301-获取模块、302-标注模块、303-第一检错模块、3031-查找子模块、3032-获取子模块、3033-替换子模块、3034-计算子模块、3035-确定子模块、304-确定模块、3041-记录子模块、3042-个人字典子模块、3043-共享字典子模块、305-识别模块、306-第二检错模块、307-入库模块、308-微调模块、309-生成模块。
本发明目的的实现、功能特点及优点将结合实施例、参照附图做进一步说明。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的语音处理方法进行详细地说明。
实施例一
参照图1,示出了本申请实施例提供的一种音频标注的检错方法的流程示意图,音频标注的检错方法包括:
S101:获取音频数据,并将音频数据切分为多个音频片段。
可选地,利用话音检测系统对音频数据进行话音打点,根据打点对音频数据进行切分。
可选地,可以将音频数据按照预设时长,例如3s,进行切分。也可以将音频数据根据音素长度,例如6个音素单元,进行切分。
S102:对音频片段进行标注,得到初始标注文本。
可以采用现有的音频标注方法进行标注,在此不再赘述。
S103:采用通用文本检错模型对初始标注文本进行检错处理,以得到第一标注文本。
具体地,通用文本检错模型至少包括N-Gram的语言模型。
通用文本检错模型的数据库包括混淆词典,其中,混淆词典包括词级拼音混淆集、字形混淆集和词级混淆集。
需要理解的是,通过通用检错模型可以找出标注错误的位置,并且从混淆词典中的查找出候选项列表。
经过通用文本检错模型处理后的第一标注文本已初步解决了一些基本的混淆错误。
S104:确定通用文本检错模型的混淆词典。
具体地,可以通过后台记录标注错误的词语以及相应的候选项词语确定通用文本检错模型的混淆词典。
进一步地,混淆词典可以包括特定标注人员的个人混淆词典和所有标注人员的共享混淆词典。
S105:采用文本分类模型识别第一标注文本的领域类别。
具体地,文本分类模型包括但不限于TextCNN,TextRNN,TextRCNN,BERT。
其中的领域类别可以包括经济类、教育类、科技类、社会类、游戏类和娱乐类。
S106:根据领域类别,采用领域类别对应的领域文本检错模型对第一标注文本进行检错处理,以得到第二标注文本。
可以理解的是,每个领域类别均对应有各自的领域文本检错模型。
具体地,领域文本检错模型包括但不限于BERT和Transformers。
本实施例中以BERT作为分类模型为例,对领域文本检错模型做进一步说明。
采用BERT(Bidirectional Encoder Representation from Transformers)实现第一标注文本中错误词的发现和候选词的过滤,利用BERT中掩蔽的语言模型(Masked LM)对第一标注文本进行逐字掩蔽,最终使用BERT的解码器从混淆词典的字形混淆集中获得候选项。
经过领域文本检错模型处理后的第二标注文本,由于考虑了文本所属的领域,相较于第一标注文本,准确性更高。
S107:将通用文本检错模型的混淆词典与领域文本检错模型的第二标注文本作为微调模型的数据库;
S108:根据第二标注文本的语义,采用微调模型对第二标注文本进行微调处理,以得到最终的第三标注文本。
需要说明的是,微调模型利用通用文本检错模型的混淆词典与领域文本检错模型的第二标注文本,提取第二标注文本的语义信息,进一步的根据上下文语义检错,以获得最终的第三标注文本。
例如,经过通用文本检错模型和领域文本检错模型处理后的第二标注文本为“为了逃出敌人的包围圈,他的求胜欲很强”,在利用音频片段进行判断时是正确的。但是,经过上下文语义识别的微调模型时,可以检查出“求胜欲”应为“求生欲”。
在本申请实施例中,通过通用文本检错模型、领域文本检错模型和微调模型,实现对音频数据的自动化检错,充分利用通用文本检错模型快速准确的优势的同时,进一步考虑领域类别以及上下文语义,避免了标注人员的疲劳程度和知识认知水平对于标注质量的影响,提高标注质量,进而提高语音识别模型准确性与识别效果。
实施例二
参照图2,示出了本申请实施例提供的另一种音频标注的检错方法的流程示意图,语音处理方法,包括:
S201:获取音频数据,并将音频数据切分为多个音频片段。
S202:对音频片段进行标注,得到初始标注文本。
S203:采用通用文本检错模型查找出标注错误的位置。
S204:从混淆词典中获取用于替换错误标注的候选项列表。
S205:从候选项列表中获取候选项对错误标注进行替换。
可选地,选择候选项列表中优先级最高的候选项进行替换。
S206:采用N-gram模型计算替换后的标注文本的流畅度和困惑度。
应当理解的是,流畅度越高,困惑度越低,则标注文本的准确性越高。反之,流畅度越低,困惑度越高,则标注文本的准确性越低。
S207:根据流畅度和困惑度确定最佳的目标候选项,以得到第一标注文本。
应当理解的是,最佳的目标候选项在替换之后的流畅度最高和/或困惑度最低。
通过流畅度和困惑度的比较,可以提高选取最佳目标候选项的准确性。
S208:经特定标注人员修改确认后,对标注错误的文本以及标注错误发生的频率进行记录。
S209:在频率高于阈值时,将标注错误的文本加入到特定标注人员的个人混淆词典中。
S210:统计多名标注人员的个人混淆词典,在标注错误的文本发生的次数高于预设次数时,将标注错误的文本加入到共享混淆词典。
需要说明的是,本实施例中混淆词典一般都包括个人混淆词典和共享混淆词典。
通过个人混淆词典和共享混淆词典的形式,可以达到个性化纠错和共性错误分享相结合的作用。
S211:采用文本分类模型识别第一标注文本的领域类别。
S212:根据领域类别,采用领域类别对应的领域文本检错模型对第一标注文本进行检错处理,以得到第二标注文本。
S213:在第一标注文本存在错误的情况下,生成检错信息。
其中,检错信息包括音频片段索引、错误位置索引和候选词。
通过音频片段索引、错误位置索引和候选词可以快速定位到错误发生的具体位置,提高检错的效率。
S214:将通用文本检错模型的混淆词典与领域文本检错模型的第二标注文本作为微调模型的数据库。
S215:根据第二标注文本的语义,采用微调模型对第二标注文本进行微调处理,以得到最终的第三标注文本。
在本申请实施例中,通过流畅度和困惑度的比较,提高选取最佳目标候选项的准确性,通过个人混淆词典和共享混淆词典的形式,达到个性化纠错和共性错误分享相结合的作用,可以进一步的避免标注人员的疲劳程度和知识认知水平对于标注质量的影响,提高标注质量。
实施例三
参照图3,示出了本申请实施例提供的一种音频标注的检错装置的结构示意图,检错装置30包括:
获取模块301,用于获取音频数据,并将音频数据切分为多个音频片段;
标注模块302,用于对音频片段进行标注,得到初始标注文本;
第一检错模块303,用于采用通用文本检错模型对初始标注文本进行检错处理,以得到第一标注文本;
确定模块304,用于确定通用文本检错模型的混淆词典;
识别模块305,用于采用文本分类模型识别第一标注文本的领域类别;
第二检错模块306,用于根据领域类别,采用领域类别对应的领域文本检错模型对第一标注文本进行检错处理,以得到第二标注文本;
入库模块307,用于将通用文本检错模型的混淆词典与领域文本检错模型的第二标注文本作为微调模型的数据库;
微调模块308,用于根据第二标注文本的语义,采用微调模型对第二标注文本进行微调处理,以得到最终的第三标注文本。
进一步地,混淆词典包括个人混淆词典和共享混淆词典,确定模块304,具体包括:
记录子模块3041,用于经特定标注人员修改确认后,对标注错误的文本以及标注错误发生的频率进行记录;
个人词典子模块3042,用于在频率高于阈值时,将标注错误的文本加入到特定标注人员的个人混淆词典中;
共享词典子模块3043,用于统计多名标注人员的个人混淆词典,在标注错误的文本发生的次数高于预设次数时,将标注错误的文本加入到共享混淆词典。
进一步地,第一检错模块303,具体包括:
查找子模块3031,用于采用通用文本检错模型查找出标注错误的位置;
获取子模块3032,用于从混淆词典中获取用于替换错误标注的候选项列表;
替换子模块3033,用于从候选项列表中获取候选项对错误标注进行替换;
计算子模块3034,用于采用N-gram模型计算替换后的标注文本的流畅度和困惑度;
确定子模块3035,用于根据流畅度和困惑度确定最佳的目标候选项,以得到第一标注文本。
进一步地,检错装置30还包括:
生成模块309,用于在第一标注文本存在错误的情况下,生成检错信息;
其中,检错信息包括音频片段索引、错误位置索引和候选词。
进一步地,领域类别包括:经济类、教育类、科技类、社会类、游戏类和娱乐类。
本申请实施例提供的检错装置30能够实现上述方法实施例中实现的各个过程,为避免重复,这里不再赘述。
在本申请实施例中,通过通用文本检错模型、领域文本检错模型和微调模型,实现对音频数据的自动化检错,充分利用通用文本检错模型快速准确的优势的同时,进一步考虑领域类别以及上下文语义,避免了标注人员的疲劳程度和知识认知水平对于标注质量的影响,提高标注质量,进而提高语音识别模型准确性与识别效果。
本申请实施例中的虚拟装置可以是装置,也可以是终端中的部件、集成电路、或芯片。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
- 上一篇:一种医用注射器针头装配设备
- 下一篇:文本纠错分词方法、系统及电子设备