一种基于语音识别的中文语音校对方法和装置

文档序号：1773574 发布日期：2019-12-03 浏览：20次 >En<

阅读说明：本技术 一种基于语音识别的中文语音校对方法和装置 (A kind of Chinese speech proofreading method and device based on speech recognition ) 是由孟君郝玉峰曹琼于 2019-08-27 设计创作，主要内容包括：本发明涉及语音识别技术领域的方面,提供一种基于语音识别的中文语音校对方法及装置。基于语音识别的中文语音校对方法,其中,包括：获取文本语料步骤,获取原始文本的文本语料及对应的文本带调拼音；获取音频步骤,基于文本语料,获取音频；识别步骤,通过语音识别引擎对音频进行识别,得到识别文字及对应的带调拼音；比对步骤,将识别语料信息与文本信息进行比对；校对步骤,根据比对结果,标识出识别语料信息中与文本信息不相匹配的差异文字及差异文字在音频中对应的时间段。通过对比,将识别文本与文本语料进行校对,从而标识差异文字的位置,有助于快速标识音频中出现转写错误的位置,提高校对效率,增强文本与音频的一致性。(The present invention relates to the aspects of technical field of voice recognition, provide a kind of Chinese speech proofreading method and device based on speech recognition.Chinese speech proofreading method based on speech recognition, wherein include: to obtain corpus of text step, obtain the corpus of text and corresponding text band tune phonetic of urtext；Audio step is obtained, corpus of text is based on, obtains audio；Identification step identifies audio by speech recognition engine, obtains identification text and corresponding band tune phonetic；Step is compared, identification corpus information is compared with text information；Step is proofreaded, according to comparison result, identifies in identification corpus information with the difference text and difference text that text information does not match that the corresponding period in audio.By comparison, identification text is proofreaded with corpus of text, to identify the position of difference text, helps quickly to identify and occurs the position of transcription errors in audio, raising correction efficiency, the consistency of enhancing text and audio.)

技术领域

本发明一般地涉及语音识别技术领域，特别是涉及一种基于语音识别的中文语音校对方法及装置。

背景技术

中文语音合成库的制作过程中，在请专业发音人根据设计好的文本语料完成录音后，会存在发音人漏读、错读、多读及声调等问题，最终会导致音频和原始文本不一致，而语音合成数据库对音频和文本的一致性要求很高，期望正确率能达到99.9％，因此在完成录音后，校对成了必不可少的步骤。在校对环节，需要保证音频和词级、音素级的标注文本一一对应。音频和其相应的标注是否一致直接影响了语音合成的效果和听感。

目前一般采用人工逐句检查校对的方式。为提高校对正确率，采用了流程控制的方法，即采用两名校对人员，一人校对后将校对结果交给另一个人重新校对一遍，都校对完后再由质检人员进行抽检。逐句检查及二次校对降低了工作效率，增加了成本。

发明内容

为了解决现有技术中存在的上述问题，本发明提供一种基于语音识别的中文语音校对方法及装置。

第一方面，本发明实施例提供一种基于语音识别的中文语音校对方法，其中，包括：获取文本语料步骤，获取原始文本的文本信息，其中，文本信息包括文本语料及文本预料对应的文本带调拼音；获取音频步骤，基于文本语料，获取音频；识别步骤，通过语音识别引擎对音频进行识别，得到识别语料信息，其中，识别语料信息包括识别文字及识别文本对应的文字带调拼音；比对步骤，将识别语料信息与文本信息进行比对；校对步骤，根据比对结果，标识出识别文字中与文本语料不相匹配的差异文字及差异文字在音频中对应的时间段。

在一实施例中，识别语料信息还包括：识别文字的时间信息，其中，时间信息为识别文字中每个文字对应于音频的时间段；校对步骤还包括：基于时间信息，在音频中标识出差异文字对应的时间段。

在一实施例中，通过语音识别引擎识别音频，得到文字音素；基于文字因素，得到时间信息。

在一实施例中，基于语音识别的中文语音校对方法还包括：纠错步骤，根据标识出的差异文字及差异文字对应的时间段，对识别文字以及音频进行修正。

在一实施例中，校对步骤还包括：对差异文字的类型进行标识，其中，类型包括：替换、***或删除。

在一实施例中，标识包括：当类型为替换或***时，标识类型对应的识别文字的时间段；当类型为删除时，标识类型对应的识别文字的前一识别文字的时间段。

在一实施例中，标识包括：标识类型对应的识别文字前后相邻的一个或多个识别文字的时间段。

在一实施例中，语音识别引擎包括声学模型、语言模型和解码字典。

在一实施例中，语言模型包括扩充文本库语料，对语言模型的文本语料库进行扩充，其中，文本库语料包括儿化音文本。

在一实施例中，解码字典包括音素扩充，其中，音素包括：多音字的拼音和声调。

第二方面，本发明实施例提供一种基于语音识别的中文语音校对装置，其中，包括：获取文本语料模块，用于获取原始文本的文本信息，其中，文本信息包括文本语料及文本语料对应的文本带调拼音；获取音频模块，用于基于文本语料，获取音频；识别模块，用于通过语音识别引擎对音频进行识别，得到识别语料信息，其中，识别语料信息包括识别文字及识别文本对应的文字带调拼音；比对模块，用于将识别语料信息与文本信息进行比对；校对模块，用于根据比对结果，标识出识别文字中与文本语料不相匹配的差异文字及差异文字在音频中对应的时间段。

在一实施例中，识别语料信息还用于：识别文字的时间信息，其中，时间信息为识别文字中每个文字对应于音频的时间段；校对模块还用于：基于时间信息，在音频中标识出差异文字对应的时间段。

在一实施例中，通过语音识别引擎识别音频，得到文字音素；基于文字音素，得到时间信息。

在一实施例中，基于语音识别的中文语音校对装置还包括：纠错模块，用于根据标识出的差异文字及差异文字对应的时间段，对识别文字以及音频进行修正。

在一实施例中，校对模块还用于：对差异文字的类型进行标识，其中，类型包括：替换、***或删除。

在一实施例中，标识包括：标识类型对应的识别文字前后相邻的一个或多个识别文字的时间段。

在一实施例中，语音识别引擎包括声学模型、语言模型和解码字典。

在一实施例中，语言模型包括扩充文本库语料，对语言模型的文本语料库进行扩充，其中，文本库语料包括儿化音文本。

在一实施例中，解码字典包括音素扩充，其中，音素包括：多音字的拼音和声调。

第三方面，本发明实施例提供一种电子设备，其中，电子设备包括：存储器，用于存储指令；以及处理器，用于调用存储器存储的指令执行第一方面所提供的基于语音识别的中文语音校对方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行第一方面所提供的基于语音识别的中文语音校对方法。

本发明提供的一种基于语音识别的中文语音校对方法及装置，通过对比，将原始文本对应的音频生成的文字与文本语料分成两部分，将出现差异文字对应部分识别文本与对应的部分文本语料进行校对，从而标识音频中出现差异文字的位置并进行标识，有助于快速标识音频中出现转写错误的位置，提高校对效率，增强文本与音频的一致性。

附图说明

通过参考附图阅读下文的详细描述，本发明实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示出了本发明实施例提供的一种基于语音识别的中文语音校对方法的流程示意图；

图2示出了本发明实施例提供的一种校对类型标识示意图；

图3示出了本发明实施例提供的另一种基于语音识别的中文语音校对方法的流程示意图；

图4示出了本发明实施例提供的另一种校对类型标识示意图；

图5示出了本发明实施例提供的又一种校对类型标识示意图；

图6示出了本发明实施例提供的一种基于语音识别的中文语音校对装置示意图；

图7示出了本发明实施例提供的另一种基于语音识别的中文语音校对装置示意图；

图8示出了本发明实施例提供的一种电子设备示意图；

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。

需要注意，虽然本文中使用“第一”、“第二”等表述来描述本发明的实施方式的不同模块、步骤和数据等，但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分，而并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。

图1为基于语音识别的中文语音校对方法10的一个实施例的流程示意图。如图1所示，该实施例方法包括：获取文本语料步骤110、获取音频步骤120、识别步骤130、比对步骤140、校对步骤150。下面对图1中的各个步骤进行详细说明。

获取文本语料步骤110，获取原始文本的文本信息，其中，文本信息包括文本语料及文本语料对应的文本带调拼音。

在本实施例中，获取一段文本语料和与文本语料中文字一一对应的文本带调拼音作为参考文本，用于与语音识别引擎所识别出的识别语料信息进行对比。从而对识别文字以及音频的发音进行校对，提高校对的准确率，使校对结果更准确，从而提升音频与识别文字的一致性。原始文本可以是任意一段中文文本，也可以是根据需求所制作的特殊文本，原始文本可通过本地数据库或者云端中进行获取。在一例中，文本语料与文本带调拼音同时获得；在另一例中，文本带调拼音在文本语料获取后进行获取。

获取音频步骤120，基于文本语料，获取音频。

在本实施例中，将获取的文本语料进行朗读，得到与文本语料相关的音频，作为识别样本，用于语音识别引擎进行识别。

识别步骤130，通过语音识别引擎对音频进行识别，得到识别语料信息，其中，识别语料信息包括识别文字及识别文字对应的文字带调拼音。

在本实施例中，将通过语音识别引擎对音频进行解析，获得两种文本，一种文本为只含有与音频对应的识别文字的纯文本，另一种为带有识别文字和识别文字对应的带调拼音以及音频的语音波形图。将生成的识别文字用于与原始文本进行比对，文本带调拼音与文字带调拼音进行对比，便于准确的标识出差异文字在语音波形图中的位置，从而对音频以及识别文字进行校对。

比对步骤140，将识别文字与文本语料进行比对。

在本实施例中，将通过录音生成的识别文字与文本语料进行比对，判断识别文字的准确性，确认识别文字是否需要进行校对。将识别文字分为需要校对和不需要校对的两类识别文字。需要校对的为：在比对的过程中，识别文字与对应的文本语料不一致和/或文本带调拼音与对应的文字带调拼音不一致的部分；不需要校对的为：在比对的过程中，识别文字与对应的语料文本和文本带调拼音与对应的文字带调拼音均完全一致的部分。如图2所示，在校对的构成中将文本语料与文本带调拼音放在一起，识别文本与文字带调拼音放在一起，将原始文本放置在上方作为参考语料，将识别语料信息放在下方进行对比，例如：

原始文本：今天天气怎么样

jin1 tian1 tian1 qi4 zen3 mo1 yang4

识别语料信息：今天天气怎么样

jin1 tian1 tian1 qi4 zen3 mo1 yang5，

根据比对结果，将需要校对的部分识别语料信息与对应的部分文本信息通过校对工具进行校对。

校对步骤150，根据比对结果，标识出识别文字中与文本语料不相匹配的差异文字及差异文字在音频中对应的时间段。

在本实施例中，根据比对结果，将需要校对的部分识别语料信息与对应的部分文本信息通过校对工具进行校对。在校对的过程中，通过文字别对，能够快速标识差异文字的位置，从而可标识出语音波形图中发生差异的时间段，有助于对音频纠错，从而保证音频与文字的一致性。将识别文字分类进行校对，有助于减少校对工作的任务量，节约时间，从而提升校对效率。

在本实施例中，通过对比，将原始文本对应的音频生成的文字与文本语料分成两部分，将出现差异文字对应部分识别语料信息与对应的部分文本信息进行校对，从而标识音频中出现差异文字的时间段并对其进行标识，有助于快速标识音频中出现错误的位置，提高校对效率，增强文本与音频的一致性。

在一实施例中，识别语料信息还包括：识别文字的时间信息，其中，时间信息为识别文字中每个文字对应于音频的时间段；校对步骤150还包括：基于时间信息，在音频中标识出文字对应的时间段。使用基于Chain-TDNN(链式-延时神经网络)结构的声学模型和N-元语言模型构建语音识别引擎，并对待识别语音进行识别，通过解析识别出的网格信息确定识别文字中每个文字对应于音频的时间段，便于在校对中，快速找到识别文字与其对应的音频段。

在一实施例中，通过语音识别引擎识别音频，得到文字音素及时间信息。通过语音识别引擎，可获取音频中每一个音素及每一个音素对应音频中时间点。通过解码词典，将音素进行组合，从而获得识别文字的文字带调拼音及文字带调拼音的时间段，从而确定识别文字中的每一个字的时间段。通过时间段，便于快速标识和原始文本不同的文字在语音波形图中所处的位置，从而快速完成校对，提高校对速率。

图2示出基于语音识别的中文语音校对方法10的另一个实施例的流程示意图。如图2所示，该实施例方法还包括：纠错步骤160，根据标识出的差异文字及差异文字对应的时间段，对识别文字进行修正。

根据在语音波形图中标识的位置，将差异文字进行修改，使识别语料信息与文本信息一致，从而完成对音频中出现错误的时间段进行修改，对录制的音频进行完善。

在一实施例中，校对步骤150还包括：对差异文字的类型进行标识，其中，类型包括：替换、***或删除。替换类型为：音频通过识别引擎转换成文字时，将文字生成与原始文本不同的文字，但识别文字与文本语料字数相同。例如：原始文本中的文本语料为“彼此之间相互都不想说话”，而生成的识别文字为“彼此之间互相都不想说话”，识别文字中“互相”为文本语料中“相互”的差异文字，这种差异类型为替换。***类型为：音频通过语音识别引擎转换成文字时，音素合成发生错误或在录制音频的的过程中多念与原始文本无关的字，导致语音识别引擎在转换成文字的过程中，生成文本语料中不存在的文字。例如：原始文本中的文本语料为“时间都去哪了”，而生成的识别文字为“时间都去哪儿了”，识别文字中“儿”为文本语料中不存在的文字，这种差异类型为***。删除类型为：音频通过语音识别引擎转换成文字时，音素合成发生错误或在录制音频的的过程中漏念与原始文本有关的字，导致语音识别引擎在转换成文字的过程中，缺少文本语料中存在的文字。例如：原始文本中的文本语料为“小明的电话响了”，而生成的识别文字为“小明电话响了”，识别文本中缺少文本语料中的“的”，这种差异类型为删除。使用动态规划算法对比识别文字和文本语料，查找文本中不同部分的字所在位置。在语音识别引擎将音频识别为文字的过程中，通常会发生替换、***或删除等类型的差异。将差异文字根据差异的类型进行分类标识，有助于快速确认差异的种类，从而对识别文字和/音频进行修改；还有助于对语音识别引擎进行修改，从而提高语音识别转换成文字的准确率。

在一实施例中，标识包括：当类型为替换或***时，标识类型对应的识别文字的时间段；当类型为删除时，标识类型对应的识别文字的前一识别文字的时间段。因为差异的类型不同，因此，对对应的差异文字的时间段也不完全相同。如图4和图5所示，差异的类型为替换或***，则意味着在语音识别引擎转换文字的过程中，针对一些文字音素，在解析合成的过程中发生了错误，或在录制音频时读错字的顺序，但替换或***类型的差异文字在音频中有对应的时间段，因此，在校对标识中，标识识别文字对应的时间段即可，便于对文字进行修改或针对音频中的发音进行修改，提高校对速率；差异类型为删除，则意味着在语音识别引擎转换文字的过程中，针对一些文字音素，在解析合成的过程中发生了损失，或在录制音频时发生跳读等失误，导致在音频转换成文字的过程中，造成了文本缺失，因此，在校对标识中，对应的误标识文字没有对应的时间段，无法进行标识，因为语音的连贯性，则对缺失的差异文字的前一个识别文字进行标识，便于确认和添加缺少的文字和/或音频中缺少的音素。在一例中，当两个差异文字连在一起时，则将两个差异文字的时间段合并在一起，便于统一进行校对。根据差异的种类不同，进行不同方式的标识，使校对的过程更具有针对性，能够灵活地对音频进行校对。

在一实施例中，标识包括：标识类型对应的识别文字前后相邻的一个或多个识别文字的时间段。为了保持音频、识别文本的词级和音素与文本语料及文本音素一一对应，在标识差异文字时，标识对应的识别文字前后相邻的一个或多个识别文字的时间段，例如：针对当前差异文字的时间上，在前后扩展两三个字的时长。在一例中，扩展字数不够时，则直接扩展到句首和/或句尾。通过扩展时间段的时长来对语音波形图进行标识，有助于保持语义的连续性，从而降低对语音合成的影响和听感。

在一实施例中，语音识别引擎包括声学模型、语言模型和解码字典。通过声学模型将音频转换成音素，解码词典确认音素组合的拼音及声调，语言模型将音素转换成文字。

在一实施例中，语言模型包括扩充文本库语料，对语言模型的文本语料库进行扩充，其中，文本库语料包括儿化音文本。在实际应用中，很多文字在读的过程中会产生儿化音。为便于语言模型能够准确的将音素转化成文字，消除儿化音对合成文字的影响，在训练语言模型时，对文本语料库进行扩充，使合成的文本更准确。

在一实施例中，解码字典包括音素扩充，其中，音素包括：多音字的拼音和声调。一个汉字的拼音是由多个音素共同组成，包括：韵母、声母及声调。但并非所有的汉字均仅有一个发音，部分汉字是多音字。有的字在读的过程中会发生变调，例如：当同一个三声字连在一起时，在读的时候，其中的一个三声字就会变调；作为语气词时，会发出轻声(五调)，如：“好吧”，“吧”则发轻声；一些词在读的过程中，会增加儿化音，“去哪”，在读的时候会变成“去哪儿”等。为了便于在组合音素尽可能覆盖每一个字的发音，对解码字典的音素进行扩充，使合成的音素能够更准确的与文字进行匹配，使语音识别引擎转化生成的文字更准确，从而降低差异的概率。

图6为基于语音识别的中文语音校对装置20的一个示意图。如图6所示，该实施例装置包括：获取文本语料模块210，用于获取原始文本的文本信息，其中，文本信息包括文本语料及文本语料对应的文本带调拼音；获取音频模块220，用于基于文本语料，获取音频；识别模块230，用于通过语音识别引擎对音频进行识别，得到识别语料信息，其中，识别语料信息包括识别文字及识别文本对应的文字带调拼音；比对模块240，用于将识别语料信息与文本信息进行比对；校对模块250，用于根据比对结果，标识出识别语料信息中与文本信息不相匹配的差异文字及差异文字在音频中对应的时间段。

在一实施例中，识别语料信息还用于：识别文字的时间信息，其中，时间信息为识别文字中每个文字对应于音频的时间段；校对模块250还用于：基于时间信息，在音频中标识出差异文字对应的时间段。

在一实施例中，通过语音识别引擎识别音频，得到文字音素；基于文字音素，得到时间信息。

图7为基于语音识别的中文语音校对装置20的另一个示意图。如图7所示，该实施例装置还包括：纠错模块260，用于根据标识出的差异文字及差异文字对应的时间段，对识别文字以及音频进行修正。

在一实施例中，校对模块还用于：对差异文字的类型进行标识，其中，类型包括：替换、***或删除。

在一实施例中，标识包括：标识类型对应的识别文字前后相邻的一个或多个识别文字的时间段。

在一实施例中，语音识别引擎包括声学模型、语言模型和解码字典。

在一实施例中，语言模型包括扩充文本库语料，对语言模型的文本语料库进行扩充，其中，文本库语料包括儿化音文本。

在一实施例中，解码字典包括音素扩充，其中，音素包括：多音字的拼音和声调。

装置中的各个模块所实现的功能与上文描述的方法中的步骤相对应，其具体实现和技术效果请参见上文对于方法步骤的描述，在此不再赘述。

如图8所示，本发明的一个实施方式提供了一种电子设备30。其中，该电子设备30包括存储器310、处理器320、输入/输出(Input/Output，I/O)接口330。其中，存储器310，用于存储指令。处理器320，用于调用存储器310存储的指令执行本发明实施例的用于基于语音识别的中文语音校对方法。其中，处理器320分别与存储器310、I/O接口330连接，例如可通过总线系统和/或其他形式的连接机构(未示出)进行连接。存储器310可用于存储程序和数据，包括本发明实施例中涉及的用于基于语音识别的中文语音校对的程序，处理器320通过运行存储在存储器310的程序从而执行电子设备30的各种功能应用以及数据处理。

本发明实施例中处理器320可以采用数字信号处理器(Digital SignalProcessing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现，所述处理器320可以是中央处理单元(Central Processing Unit，CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。

本发明实施例中的存储器310可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(Random Access Memory，RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(Read-OnlyMemory，ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)等。

本发明实施例中，I/O接口330可用于接收输入的指令(例如数字或字符信息，以及产生与电子设备30的用户设置以及功能控制有关的键信号输入等)，也可向外部输出各种信息(例如，图像或声音等)。本发明实施例中I/O接口330可包括物理键盘、功能按键(比如音量控制按键、开关按键等)、鼠标、操作杆、轨迹球、麦克风、扬声器、和触控面板等中的一个或多个。

在一些实施方式中，本发明提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行上文所述的任何方法。

尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本发明的方法和装置能够利用标准编程技术来完成，利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是，此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。

此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中，软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现，其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。

出于示例和描述的目的，已经给出了本发明实施的前述说明。前述说明并非是穷举性的也并非要将本发明限制到所公开的确切形式，根据上述教导还可能存在各种变形和修改，或者是可能从本发明的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本发明的原理及其实际应用，以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本发明。

15页详细技术资料下载

一种基于语音识别的中文语音校对方法和装置

相关技术

网友询问留言