语音文本的输出方法及装置、存储介质、电子装置

文档序号：344497 发布日期：2021-12-03 浏览：9次 >En<

阅读说明：本技术 语音文本的输出方法及装置、存储介质、电子装置 (Voice text output method and device, storage medium and electronic device ) 是由苏腾荣马志芳李想赵培于 2020-05-27 设计创作，主要内容包括：本发明提供了一种语音文本的输出方法及装置、存储介质、电子装置,上述方法包括：对目标语音进行语音识别,得到基于音素的语音识别结果；根据预置的音素混淆矩阵对所述语音识别结果进行修正,并输出修正后的语音文本；其中,所述音素混淆矩阵用于指示正确结果的音素序列和发音混淆的N个音素序列之间每个音素的混淆概率,其中,N为正整数,即通过上述技术方案,通过生成的音素混淆矩阵对语音识别结果进行修正,进而能够得到修正后的语音文本,因此,可以解决现有技术中传统语音对话系统中语音输出结果与真实输入存在的偏差无法进行修正等问题,以减少语音错误产生的严重影响,适应各种个性化口音。(The invention provides a method and a device for outputting a voice text, a storage medium and an electronic device, wherein the method comprises the following steps: carrying out voice recognition on the target voice to obtain a voice recognition result based on phonemes; correcting the voice recognition result according to a preset phoneme confusion matrix, and outputting a corrected voice text; the phoneme confusion matrix is used for indicating the confusion probability of each phoneme between the phoneme sequence with the correct result and the N phoneme sequences with pronunciation confusion, wherein N is a positive integer, namely, according to the technical scheme, the generated phoneme confusion matrix is used for correcting the voice recognition result, and then the corrected voice text can be obtained.)

技术领域

本发明涉及通信领域，具体而言，涉及一种语音文本的输出方法及装置、存储介质、电子装置。

背景技术

相关技术中，传统语音对话系统的基本框架如图1所示，语音通过录音设备输入后，经过信号处理和语音识别后进入对话系统，得到合适的反馈内容后进行语音输出。除了语音识别过程中，除了自身的算法误差，还有背景噪声、口语发音不准确、个性化习惯性误读、自然口语发音和连读等问题，导致语音识别的输出文本会产生一些偏差。在智能语音对话系统中，语音识别和对话系统的串联关系决定了级联错误容易对系统产生影响。

现有的智能对话系统的检索技术，一般是针对文本层面进行优化，包括实体识别、语义理解、词性标注等自然语言处理技术。这些技术可以使对话系统给出一个相对合理的输出。但是由于对话系统的输入是语音识别后的文本输出，有些文本与真实输入的偏差很小，对话系统却不能对这种错误进行修正，使得后续的检索工作产生更大的偏差。

针对相关技术中，传统语音对话系统中语音输出结果与真实输入存在的偏差无法进行修正等问题，尚未提出有效的技术方案。

发明内容

本发明实施例提供了一种语音文本的输出方法及装置、存储介质、电子装置，以至少解决相关技术中，传统语音对话系统中语音输出结果与真实输入存在的偏差无法进行修正等问题。

根据本发明的一个实施例，提供了一种语音文本的输出方法，包括：对目标语音进行语音识别，得到基于音素的语音识别结果；根据预置的音素混淆矩阵对所述语音识别结果进行修正，并输出修正后的语音文本；其中，所述音素混淆矩阵用于指示正确结果的音素序列和发音混淆的N个音素序列之间每个音素的混淆概率，其中，N为正整数。

在一个示例性实施例中，根据预置的音素混淆矩阵对所述语音识别结果进行修正，并输出修正后的语音文本之前，上述方法还包括：获取已标注正确结果的音素序列，以及发音混淆的N个音素序列；将所述已标注正确结果的音素序列和所述N个音素序列对齐，以确定用于指示所述每个音素的混淆概率的音素混淆矩阵。

在一个示例性实施例中，根据预置的音素混淆矩阵对所述语音识别结果进行修正，包括：将所述语音识别结果和所述音素混淆矩阵进行运算，得到运算结果；根据运算结果对所述语音识别结果进行修正。

在一个示例性实施例中，将所述语音识别结果和所述音素混淆矩阵进行运算，得到运算结果，包括：预设算法对所述语音识别结果和音素混淆矩阵运算，得到多个混淆概率值，其中，所述多个混淆概率值用于指示所述运算结果。

在一个示例性实施例中，根据运算结果对所述语音识别结果进行修正，包括：从所述多个混淆概率值中选择混淆概率值最大所对应的正确结果的音速序列；根据所述混淆概率最大所对应的正确结果的音速序列对所述语音识别结果进行修正。

在一个示例性实施例中，上述方法还包括：获取目标对象的语料数据；根据获取到的所述语料数据确定所述语料数据对应的正确结果的音素序列，以及发音混淆的M个音素序列，其中，M为正整数；根据所述语料数据对应的正确结果的音素序列，以及发音混淆的M个音素序列确定所述目标对象的音素混淆矩阵。

根据本发明的另一个实施例，提供了一种语音文本的输出装置，包括：确定模块，用于对目标语音进行语音识别，得到基于音素的语音识别结果；处理模块，用于根据预置的音素混淆矩阵对所述语音识别结果进行修正，并输出修正后的语音文本；其中，所述音素混淆矩阵用于指示正确结果的音素序列和发音混淆的N个音素序列之间每个音素的混淆概率，其中，N为正整数。

在一个示例性实施例中，所述处理模块，还用于获取已标注正确结果的音素序列，以及发音混淆的N个音素序列；将所述已标注正确结果的音素序列和所述N个音素序列对齐，以确定用于指示所述每个音素的混淆概率的音素混淆矩阵。

在一个示例性实施例中，所述处理模块，还用于将所述语音识别结果和所述音素混淆矩阵进行运算，得到运算结果；根据运算结果对所述语音识别结果进行修正。

在一个示例性实施例中，所述处理模块，还用于按照预设算法对所述语音识别结果和音素混淆矩阵运算，得到多个混淆概率值，其中，所述多个混淆概率值用于指示所述运算结果。

在一个示例性实施例中，所述处理模块，还用于从所述多个混淆概率值中选择混淆概率值最大所对应的正确结果的音速序列；根据所述混淆概率最大所对应的正确结果的音速序列对所述语音识别结果进行修正。

在一个示例性实施例中，上述装置还包括：获取模块，用于获取目标对象的语料数据；对应模块，根据获取到的所述语料数据确定所述语料数据对应的正确结果的音素序列，以及发音混淆的M个音素序列，其中，M为正整数；根据所述语料数据对应的正确结果的音素序列，以及发音混淆的M个音素序列确定所述目标对象的音素混淆矩阵。

在一个示例性实施例中，对应模块还用于在接收到所述目标对象的语音数据的情况下，对所述目标对象的语音数据进行识别，以得到基于音素的目标识别结果；根据所述目标对象的音素混淆矩阵对所述目标识别结果进行修正。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，对目标语音进行语音识别，得到基于音素的语音识别结果；根据预置的音素混淆矩阵对所述语音识别结果进行修正，并输出修正后的语音文本；其中，所述音素混淆矩阵用于指示正确结果的音素序列和发音混淆的N个音素序列之间每个音素的混淆概率，其中，N为正整数，即通过上述技术方案，通过预先生成的音素混淆矩阵对语音识别结果进行修正，进而能够得到修正后的语音文本，因此，可以解决现有技术中传统语音对话系统中语音输出结果与真实输入存在的偏差无法进行修正等问题，以减少语音错误产生的严重影响，适应各种个性化口音。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是相关技术中的传统语音对话系统的基本框架图；

图2是本发明实施例的一种语音文本的输出方法的计算机终端的硬件结构框图；

图3是根据本发明实施例的语音文本的输出方法的流程图；

图4是根据本发明可选实施例的生成混淆矩阵的主要过程的流程图；

图5是根据本发明可选实施例的混淆矩阵与对话系统进行自适应的流程图(一)；

图6是根据本发明可选实施例的混淆矩阵与对话系统进行自适应的流程图(二)；

图7是根据本发明实施例的语音文本的输出装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例所提供的方法实施例可以在计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图2是本发明实施例的一种语音文本的输出方法的计算机终端的硬件结构框图。如图2所示，计算机终端可以包括一个或多个(图2中仅示出一个)处理器202(处理器202可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器204，在一个示例性实施例中，上述计算机终端还可以包括用于通信功能的传输设备206以及输入输出设备208。本领域普通技术人员可以理解，图2所示的结构仅为示意，其并不对上述计算机终端的结构造成限定。例如，计算机终端还可包括比图2中所示更多或者更少的组件，或者具有与图2所示等同功能或比图2所示功能更多的不同的配置。

存储器204可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的语音文本的输出方法对应的计算机程序，处理器202通过运行存储在存储器204内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器204可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器204可进一步包括相对于处理器202远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置206用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中，传输装置206包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置206可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种语音文本的输出方法，图3是根据本发明实施例的语音文本的输出方法的流程图，该流程包括如下步骤：

步骤S302，对目标语音进行语音识别，得到基于音素的语音识别结果；

步骤S304，根据预置的音素混淆矩阵对所述语音识别结果进行修正，并输出修正后的语音文本；其中，所述音素混淆矩阵用于指示正确结果的音素序列和发音混淆的N个音素序列之间每个音素的混淆概率，其中，N为正整数。

通过上述步骤，对目标语音进行语音识别，得到基于音素的语音识别结果；根据预置的音素混淆矩阵对所述语音识别结果进行修正，并输出修正后的语音文本；其中，所述音素混淆矩阵用于指示正确结果的音素序列和发音混淆的N个音素序列之间每个音素的混淆概率，其中，N为正整数，即通过上述技术方案，通过预先生成的音素混淆矩阵对语音识别结果进行修正，进而能够得到修正后的语音文本，因此，可以解决现有技术中传统语音对话系统中语音输出结果与真实输入存在的偏差无法进行修正等问题，以减少语音错误产生的严重影响，提高系统的鲁棒性和适应各种个性化口音的灵活性。

在一个示例性实施例中，根据预置的音素混淆矩阵对所述语音识别结果进行修正，并输出修正后的语音文本之前，可以通过以下方式生成音素混淆矩阵：获取已标注正确结果的音素序列，以及发音混淆的N个音素序列；将所述已标注正确结果的音素序列和所述N个音素序列对齐，以确定用于指示所述每个音素的混淆概率的音素混淆矩阵。

也就是说，在通过预置的音素混淆矩阵对语音识别结果进行修正之前，可以预先获取已标注正确结果的音素序列与多个发音混淆的音素序列进行对齐匹配，具体的匹配过程可以采用现有技术中的任何一种实现方式，本发明实施例对此不进行限定。

通过本发明实施例，从目标语音中获取基于音素的语音识别结果，通过加权相加或相乘的运算方式将语音识别结果与预置的音素混淆矩阵进行运算，根据运算结果修正语音识别结果，需要说明的是，对于运算方式本发明对此不做过多限定。

在一个示例性实施例中，将所述语音识别结果和所述音素混淆矩阵进行运算，得到运算结果，包括：通过预设算法对所述语音识别结果和音素混淆矩阵运算，得到多个混淆概率值，其中，所述多个混淆概率值用于指示所述运算结果。

根据预设算法，将语音识别结果和音素混淆矩阵进行运算得到用于指示运算结果的混淆概率值，需要说明的是，混淆概率值越大，则表明基于音素的语音识别结果中的音素和混淆概率值对应位置的音素相似度越高。

在一个示例性实施例中，根据运算结果对所述语音识别结果进行修正，包括：从所述多个混淆概率值中选择混淆概率值最大所对应的正确结果的音速序列；根据所述混淆概率最大所对应的正确结果的音速序列对所述语音识别结果进行修正，根据预设算法，将语音识别结果和音素混淆矩阵进行运算得到用于指示运算结果的混淆概率值，并选择混淆概率值最大的运算结果所对应的正确结果的音速序列，利用正确结果的音速序列修正语音识别结果。

为了提高音素混淆矩阵对不同目标对象的不同口音的修正的准确程度，在一个示例性实施例中，上述方法还包括：获取目标对象的语料数据；根据获取到的所述语料数据确定所述语料数据对应的正确结果的音素序列，以及发音混淆的M个音素序列，其中，M为正整数；根据所述语料数据对应的正确结果的音素序列，以及发音混淆的M个音素序列确定所述目标对象的音素混淆矩阵，也就是说，可以针对目标对象生成专门用于修正目标对象的语音信息的目标对象的音素混淆矩阵。

为了针对不同目标对象进行特殊发音修正，获取目标对象的语料数据，根据语料数据确定对应的正确结果的音素序列与发音混淆的多个音素序列，生成目标对象的音素混淆矩阵。将目标对象的语料数据作为个性化调整音素混淆矩阵的参考数据，从而针对多个具有不同语料的目标对象生成差别化的音素混淆矩阵，进而减少因口音差异、习惯性误读、地域性差异(吞音、连读、儿化音、某些声\韵母混淆)等带来的音素混淆，提升系统的信息检索鲁棒性。

在一个示例性实施例中，根据所述语料数据对应的正确结果的音素序列，以及发音混淆的M个音素序列确定所述目标对象的音素混淆矩阵之后，上述方法还包括：在接收到所述目标对象的语音数据的情况下，对所述目标对象的语音数据进行识别，以得到基于音素的目标识别结果；根据所述目标对象的音素混淆矩阵对所述目标识别结果进行修正，例如，当再次接收到具有同样语料数据的目标对象的语音数据时，获取目标对象的基于音素的目标识别结果，并根据已生成的音素混淆矩阵对目标对象的目标识别结果进行修正。

可选地，通过以下方式获取所述正确结果的音素序列：从脚本数据中获取已标注好正确结果的音素序列。

为了更好的理解上述语音文本的输出方法的过程，以下再结合一可选实施例对上述语音文本的输出方法流程进行说明。

本发明可选实施例中，主要提供了一种基于个性化口语发音混淆矩阵的智能对话系统信息检索技术，该技术同时还可以优化不同用户不同口音(相当于本发明实施中的语料数据)情况下错误，以减少语音错误产生的严重影响、提高系统的鲁棒性和适应各种个性化口音灵活性。对于语音的识别错误问题，首先生成一个公共的发音混淆矩阵(相当于本发明实施例中的音素混淆矩阵)，如图4为本发明可选实施例生成混淆矩阵的主要过程，混淆矩阵是依据已标注好正确结果的文本数据(相当于本发明实施例已标注正确结果的音素序列)初步生成的，把标注的正确结果和识别出的可能存在发音混淆的文本分别转化成音素序列，并对两个序列进行对齐，然后统计每个因素的混淆概率作为初始的基础混淆矩阵。

为了针对不同用户的个性化口音进行特殊发音修正，系统会将匹配结果的置信度超过自适应阈值的数据作为个性化调整混淆矩阵的音素考数据，从而针对每个不同用户生成差别化的个性化口音混淆矩阵，图5、6为混淆矩阵与对话系统进行自适应的流程图。

语音识别生成的文本错误度不高的时候，可能因为语言模型和知识库的差异导致文本发音不同、文本同音字等问题。对传统的检索方式来说即使是写法不同也会对信息的检索造成难以预料的影响。

本发明实施例在文本检索的时候引入音素作为检索依据，可以消除文本同音字的影响，而引入混淆矩阵可以减少文本发音识别误差造成的影响。系统的运行中，根据不同用户自修正的多个个性化混淆矩阵，则可以减少不同用户口音的差异、习惯性误读、地域性差异(吞音、连读、儿化音、某些声\韵母混淆)等带来的音素混淆，提升系统的信息检索鲁棒性。实际应用效果如下：

知识库中的标准语句：我想听英语；我想听音乐；窝先挺一年；加快圣诞节疯狂；我想听忘情水；我想听笨小孩；

不同用户输入的检索1：

初始化数据为音素……

Please input a Query：(q to exit)：

我想听往情水

uu uo x iang t ing uu uang q ing sh ui

查询结果为：

uu uo x iang t ing uu uang q ing sh ui

5：[1.0，0.0]

uu uo x iang t ing ii ing vv v

1：[0.53333336，5.0]

uu uo x iang t ing ii in vv ve

2：[0.53333336，6.5]

j ia k uai sh eng d an j ie f eng k uang

4：[0.48214287，8.0]

uu uo x iang t ing b en x iao h ai

6：[0.44444445，6.5]

uu uo x ian t ing ii i n ian

3：[0.40833333，7.428571]

不同用户输入的检索结果2：

Please input a Query：(q to exit)：

我想听本小哈

uu uo x iang t ing b en x iao h ai

6：[0.8402778，0.0]

uu uo x iang t ing ii ing vv v

1：[0.40833333，5.142857]

uu uo x iang t ing ii in vv ve

2：[0.40833333，5.142857]

uu uo x iang t ing uu uang q ing sh ui

5：[0.3402778，5.142857]

uu uo x ian t ing ii i n ian

5：[0.3，6.0]

实际在音乐场景测试的有益效果如下表1所示：

目标语音	音素混淆矩阵修正后的语音文本
		播放向天再借无百年	向天再借五百年
放一首向天再借500年	向天再借五百年
		播放一首让我坐里的眼睛	让我做你的眼睛
播放一首让我做您的眼睛	让我做你的眼睛
		放一首让我坐里德眼睛	让我做你的眼睛
煨了之小苹果	小苹果
		不放一首让我做米得眼睛	让我做你的眼睛
我要听一千零一页	一千零一夜
		小油放一首青春修炼手册	青春修炼书册
我想听高丽咖喱	咖喱咖喱
		播放一首大忙叫我来巡山	大王叫我来巡山
看想听放首我们的时光	我们的时光
		我想听莓时间	没时间
我想听唐姜汁歌	长江之歌
		我想听听空之城	天空之城
我想听林俊杰的书了你的世界又如何	输了你赢了世界又如何

表1

综上，通过本发明实施例，引入音素及音素混淆矩阵为对话系统信息检索时提供信息修正功能。音素混淆矩阵的主要应用领域包括语音识别中发音模糊的克服、方言的识别效果提升，中英文双语语音识别方法等，本发明将会把音素混淆矩阵应用于智能对话系统的信息检索问题来解决个性化口语发音中的识别错误问题。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种语音文本的输出装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图7是根据本发明实施例的语音文本的输出装置的结构框图，如图7所示，该装置包括：

(1)确定模块72，用于对目标语音进行语音识别，得到基于音素的语音识别结果；

(2)处理模块74，用于根据预置的音素混淆矩阵对所述语音识别结果进行修正，并输出修正后的语音文本；其中，所述音素混淆矩阵用于指示正确结果的音素序列和发音混淆的N个音素序列之间每个音素的混淆概率，其中，N为正整数。

通过上述装置，对目标语音进行语音识别，得到基于音素的语音识别结果；根据预置的音素混淆矩阵对所述语音识别结果进行修正，并输出修正后的语音文本；其中，所述音素混淆矩阵用于指示正确结果的音素序列和发音混淆的N个音素序列之间每个音素的混淆概率，其中，N为正整数，即通过上述技术方案，通过生成的音素混淆矩阵对语音识别结果进行修正，进而能够得到修正后的语音文本，因此，可以解决现有技术中传统语音对话系统中语音输出结果与真实输入存在的偏差无法进行修正等问题，以减少语音错误产生的严重影响，提高系统的鲁棒性和适应各种个性化口音的灵活性。

在一个示例性实施例中，所述处理模块，还用于将所述语音识别结果和所述音素混淆矩阵进行运算，得到运算结果；根据运算结果对所述语音识别结果进行修正，从目标语音中获取基于音素的语音识别结果，通过加权相加或相乘的运算方式将语音识别结果与预置的音素混淆矩阵进行运算，根据运算结果修正语音识别结果，需要说明的是，对于运算方式本发明对此不做过多限定。

在一个示例性实施例中，所述处理模块，还用于从所述多个混淆概率值中选择混淆概率值最大所对应的正确结果的音速序列；根据所述混淆概率最大所对应的正确结果的音速序列对所述语音识别结果进行修正，根据预设算法，将语音识别结果和音素混淆矩阵进行运算得到用于指示运算结果的混淆概率值，并选择混淆概率值最大的运算结果所对应的正确结果的音速序列，利用正确结果的音速序列修正相应的语音识别结果。

在一个示例性实施例中，上述装置还包括：获取模块，用于获取目标对象的语料数据；确定模块，根据获取到的所述语料数据确定所述语料数据对应的正确结果的音素序列，以及发音混淆的M个音素序列，其中，M为正整数；根据所述语料数据对应的正确结果的音素序列，以及发音混淆的M个音素序列确定所述目标对象的音素混淆矩阵。

为了针对不同目标对象的语料数据进行特殊发音修正，获取目标对象的语料数据，根据语料数据确定对应的正确结果的音素序列与发音混淆的多个音素序列，生成目标对象的音素混淆矩阵。将目标对象的语料数据作为个性化调整音素混淆矩阵的参考数据，从而针对多个具有不同语料的目标对象生成差别化的音素混淆矩阵，进而减少因口音差异、习惯性误读、地域性差异(吞音、连读、儿化音、某些声\韵母混淆)等带来的音素混淆，提升系统的信息检索鲁棒性。

在一个示例性实施例中，确定模块还用于在接收到所述目标对象的语音数据的情况下，对所述目标对象的语音数据进行识别，以得到基于音素的目标识别结果；根据所述目标对象的音素混淆矩阵对所述目标识别结果进行修正，例如，当再次接收到具有同样语料数据的目标对象的语音数据时，获取目标对象的基于音素的目标识别结果，并根据已生成的音素混淆矩阵对目标对象的目标识别结果进行修正。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，对目标语音进行语音识别，得到基于音素的语音识别结果；

S2，根据预置的音素混淆矩阵对所述语音识别结果进行修正，并输出修正后的语音文本；其中，所述音素混淆矩阵用于指示正确结果的音素序列和发音混淆的N个音素序列之间每个音素的混淆概率，其中，N为正整数。

在一个示例性实施例中，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

在一个示例性实施例中，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，对目标语音进行语音识别，得到基于音素的语音识别结果；

在一个示例性实施例中，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，在一个示例性实施例中，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

16页详细技术资料下载

语音文本的输出方法及装置、存储介质、电子装置

相关技术

网友询问留言