口音识别声学模型训练、口音识别方法、装置和存储介质

文档序号：193307 发布日期：2021-11-02 浏览：57次 >En<

阅读说明：本技术 口音识别声学模型训练、口音识别方法、装置和存储介质 (Method and device for training acoustic model for accent recognition, and storage medium ) 是由曹松军马龙于 2021-01-26 设计创作，主要内容包括：本申请涉及一种口音识别声学模型训练方法、装置、计算机设备和存储介质。所述方法包括：获取训练数据；提取训练语音对应的声学特征；将声学特征和口音区域特征输入初始口音识别声学模型中,初始口音识别声学模型将口音区域特征进行变换,得到初始变换特征,对声学特征进行语音特征提取,得到初始语音特征,将初始变换特征和初始语音特征进行合并,得到初始合并特征,并对初始合并特征进行语音音素识别,得到初始语音音素信息；基于初始语音音素信息和对应的音素标签计算损失信息,基于损失信息更新初始口音识别声学模型,并循环迭代执行,直到训练完成时,得到目标口音识别声学模型。采用本方法能够口音识别的准确性。(The application relates to a method and a device for training an acoustic model for voice recognition, computer equipment and a storage medium. The method comprises the following steps: acquiring training data; extracting acoustic features corresponding to training voices; inputting the acoustic features and the accent region features into an initial accent recognition acoustic model, transforming the accent region features by the initial accent recognition acoustic model to obtain initial transformation features, extracting voice features of the acoustic features to obtain initial voice features, combining the initial transformation features and the initial voice features to obtain initial combination features, and performing voice phoneme recognition on the initial combination features to obtain initial voice phoneme information; and calculating loss information based on the initial voice phoneme information and the corresponding phoneme label, updating the initial accent recognition acoustic model based on the loss information, and performing iteration in a circulating way until training is finished to obtain the target accent recognition acoustic model. By adopting the method, the accuracy of the accent recognition can be improved.)

技术领域

本申请涉及计算机技术领域，特别是涉及一种口音识别声学模型训练、口音识别方法、装置、计算机设备和存储介质。

背景技术

随着人工智能技术的发展，出现了语音识别技术，语音识别技术进一步可以拆分为四大部分：

1.前端处理：包括语音信号的降噪、声源定位、回声消除等技术。

2.声学模型：对语音信号到对应发音单元的映射关系进行建模。

3.语言模型和词典：对发音单元到汉字的映射关系进行建模。

4.解码器：结合声学模型、语言模型、词典，进行语音到文字的整个搜索过程。

传统技术中，通常是使用声学模型对语音信号进行识别得到对应的发音单元。然而，目前的声学模型通常是对未携带有口音的语音进行识别，从而能够保证语音识别结果的准确性，然而，目前的声学模型对携带有口音的语音进行发音单元识别时，准确性会大幅下降，从而导致口音语音识别结果的准确性大幅下降。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高口音识别得到的发音单元的准确性，从而提高口音语音识别结果的口音识别声学模型训练、口音识别方法、装置、计算机设备和存储介质。

一种口音识别声学模型训练方法，所述方法包括：

获取训练数据，训练数据包括训练语音、训练语音对应的口音区域特征和音素标签；

提取训练语音对应的声学特征；

将声学特征和口音区域特征输入初始口音识别声学模型中，初始口音识别声学模型将口音区域特征进行变换，得到初始变换特征，对声学特征进行语音特征提取，得到初始语音特征，将初始变换特征和初始语音特征进行合并，得到初始合并特征，并对初始合并特征进行语音音素识别，得到初始语音音素信息；

基于初始语音音素信息和对应的音素标签计算损失信息，基于损失信息更新初始口音识别声学模型，并返回将声学特征和口音区域特征输入初始口音识别声学模型中的步骤迭代执行，直到训练完成时，得到目标口音识别声学模型。

在其中一个实施例中，所述将所述声学特征输入所述初始特征提取网络中进行语音特征提取，得到所述初始语音特征，包括：

将所述声学特征通过频谱增强进行变形，得到声学增强特征，将所述声学增强特征输入所述初始特征提取网络中进行语音特征提取，得到所述初始语音特征。

在其中一个实施例中，起始音素识别网络包括起始语音音素特征提取网络和起始口音音素识别网络；

所述将所述起始语音特征输入到起始音素识别网络中进行语音音素识别，得到起始语音音素信息，包括：

将所述起始语音特征输入到所述起始语音音素特征提取网络中进行语音音素特征提取，得到起始语音音素特征，并将所述起始语音音素特征输入到起始口音音素识别网络中进行音素识别，得到所述起始语音音素信息。

在其中一个实施例中，起始语音音素特征提取网络包括至少一个起始时延神经网络和至少一个起始门控循环网络，所述起始时延神经网络和所述起始门控循环网络为交替网络结构；

所述将所述起始语音特征输入到所述起始语音音素特征提取网络中进行语音音素特征提取，得到起始语音音素特征，包括：

将所述起始语音特征输入所述起始时延神经网络中进行计算，得到起始时延特征，并将所述起始时延特征输入到所述起始门控循环网络中进行计算，得到所述起始语音音素特征。

在其中一个实施例中，所述基于所述训练完成的起始口音识别声学模型建立所述基础口音识别声学模型，包括：

将训练完成的起始特征提取网络作为所述基础特征提取网络，将训练完成的起始时延神经网络作为所述基础时延神经网络，将训练完成的起始门控循环网络作为所述基础门控循环网络，将训练完成的起始口音音素识别网络作为所述基础口音音素识别网络，并建立参数初始化的转换网络，得到所述基础口音识别声学模型。

在其中一个实施例中，在所述基于所述初始语音音素信息和对应的音素标签计算损失信息，基于所述损失信息更新所述初始口音识别声学模型，并返回将所述声学特征和所述口音区域特征输入初始口音识别声学模型中的步骤迭代执行，直到训练完成时，得到目标口音识别声学模型之后，还包括：

获取目标区域对应的目标口音数据，所述目标口音数据包括目标区域语音和对应的目标区域语音音素标签；

获取所述目标区域对应的目标区域特征并提取所述目标区域语音对应的目标区域语音声学特征；

将所述目标区域语音声学特征和目标区域特征输入到所述目标口音识别声学模型中，所述目标口音识别声学模型将所述目标区域特征进行变换，得到目标区域变换特征，基于所述目标区域声学特征进行语音特征提取，得到目标区域语音特征，基于所述目标区域变换特征和所述目标区域语音特征进行合并，得到目标区域合并特征，基于所述目标区域合并特征进行语音音素识别，得到目标区域语音音素信息；

基于所述目标区域语音音素信息和对应的目标区域语音音素标签计算目标区域语音损失信息，基于所述目标区域语音损失信息更新所述目标口音识别声学模型中所述目标区域对应的音素识别网络，并返回将所述目标区域语音声学特征和目标区域特征输入到所述目标口音识别声学模型中的步骤迭代执行，直到目标训练完成时，得到优化口音识别声学模型。

一种口音识别声学模型训练装置，所述装置包括：

数据获取模块，用于获取训练数据，训练数据包括训练语音、训练语音对应的口音区域特征和音素标签；

特征提取模块，用于提取训练语音对应的声学特征；

模型训练模块，用于将声学特征和口音区域特征输入初始口音识别声学模型中，初始口音识别声学模型将口音区域特征进行变换，得到初始变换特征，对声学特征进行语音特征提取，得到初始语音特征，将初始变换特征和初始语音特征进行合并，得到初始合并特征，并对初始合并特征进行语音音素识别，得到初始语音音素信息；

循环迭代模块，用于基于初始语音音素信息和对应的音素标签计算损失信息，基于损失信息更新初始口音识别声学模型，并返回将声学特征和口音区域特征输入初始口音识别声学模型中的步骤迭代执行，直到训练完成时，得到目标口音识别声学模型。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取训练数据，训练数据包括训练语音、训练语音对应的口音区域特征和音素标签；

提取训练语音对应的声学特征；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取训练数据，训练数据包括训练语音、训练语音对应的口音区域特征和音素标签；

提取训练语音对应的声学特征；

上述口音识别声学模型训练方法、装置、计算机设备和存储介质，通过提取训练语音对应的声学特征，将声学特征和口音区域特征输入初始口音识别声学模型中，初始口音识别声学模型将口音区域特征进行变换，得到初始变换特征，对声学特征进行语音特征提取，得到初始语音特征，将初始变换特征和初始语音特征进行合并，得到初始合并特征，并对初始合并特征进行语音音素识别，得到初始语音音素信息；基于初始语音音素信息和对应的音素标签计算损失信息，基于损失信息更新初始口音识别声学模型，并返回将声学特征和口音区域特征输入初始口音识别声学模型中的步骤迭代执行，直到训练完成时，得到目标口音识别声学模型。由于使用口音区域特征和声学特征共同作用来训练得到目标口音识别声学模型，从而能够目标口音识别声学模型能够学习到更丰富的信息，从而使得目标口音识别声学模型在进行口音语音识别时，提高识别的准确性，进而提高口音语音识别结果的准确性。

一种口音识别方法，所述方法包括：

获取到待识别口音语音和对应的待识别区域信息；

提取待识别口音语音对应的待识别声学特征并获取待识别区域信息对应的待识别区域特征；

将待识别声学特征和待识别区域特征输入到目标口音识别声学模型中，目标口音识别声学模型将待识别区域特征进行变换，得到待识别变换特征，对待识别声学特征进行语音特征提取，得到待识别语音特征，将待识别变换特征和待识别语音特征进行合并，得到待识别合并特征，并对待识别合并特征进行语音音素识别，得到待识别口音语音对应的语音音素信息；

基于口音音素信息进行文本识别，得到待识别口音语音对应的目标文本。

一种口音识别装置，所述装置包括：

待识别语音获取模块，用于获取到待识别口音语音和对应的待识别区域信息；

待识别特征提取模块，用于提取待识别口音语音对应的待识别声学特征并获取待识别区域信息对应的待识别区域特征；

模型识别模块，用于将待识别声学特征和待识别区域特征输入到目标口音识别声学模型中，目标口音识别声学模型将待识别区域特征进行变换，得到待识别变换特征，对待识别声学特征进行语音特征提取，得到待识别语音特征，将待识别变换特征和待识别语音特征进行合并，得到待识别合并特征，并对待识别合并特征进行语音音素识别，得到待识别口音语音对应的语音音素信息；

文本得到模块，用于基于口音音素信息进行文本识别，得到待识别口音语音对应的目标文本。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取到待识别口音语音和对应的待识别区域信息；

提取待识别口音语音对应的待识别声学特征并获取待识别区域信息对应的待识别区域特征；

基于口音音素信息进行文本识别，得到待识别口音语音对应的目标文本。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取到待识别口音语音和对应的待识别区域信息；

提取待识别口音语音对应的待识别声学特征并获取待识别区域信息对应的待识别区域特征；

基于口音音素信息进行文本识别，得到待识别口音语音对应的目标文本。

上述口音识别方法、装置、计算机设备和存储介质，通过提取待识别口音语音对应的待识别声学特征并获取待识别区域信息对应的待识别区域特征，将待识别声学特征和待识别区域特征输入到目标口音识别声学模型中，目标口音识别声学模型将待识别区域特征进行变换，得到待识别变换特征，对待识别声学特征进行语音特征提取，得到待识别语音特征，将待识别变换特征和待识别语音特征进行合并，得到待识别合并特征，并对待识别合并特征进行语音音素识别，得到待识别口音语音对应的语音音素信息。然后基于口音音素信息进行文本识别，得到待识别口音语音对应的目标文本。由于目标口音识别声学模型使用待识别区域特征和待识别声学特征来对待识别口音语音对应的语音音素信息进行识别，使得训练得到的待识别口音语音对应的语音音素信息更加准确性，从而提高了识别得到的目标文本的准确性。

附图说明

图1为一个实施例中口音识别声学模型训练方法的应用环境图；

图2为一个实施例中口音识别声学模型训练方法的流程示意图；

图3为一个实施例中得到初始语音音素信息的流程示意图；

图4为另一个实施例中得到初始语音音素信息的流程示意图；

图5为一个实施例中得到初始语音音素特征的流程示意图；

图6为一个具体实施例中初始口音识别声学模型的架构示意图；

图7为一个实施例中得到目标口音识别声学模型的流程示意图；

图8为一个实施例中建立初始口音识别声学模型的流程示意图；

图9为一个实施例中得到基础语音音素信息的流程示意图；

图10为一个实施例中得到初始口音识别声学模型的流程示意图；

图11为一个实施例中得到基础语音音素特征的流程示意图；

图12为一个具体实施例中基础口音识别声学模型的架构示意图；

图13为一个实施例中建立基础口音识别声学模型的流程示意图；

图14为一个具体实施例中起始口音识别声学模型的架构示意图；

图15为一个实施例中得到优化口音识别声学模型的流程示意图；

图16为一个实施例中口音识别方法的流程示意图；

图17为一个具体实施例中口音识别声学模型训练方法的流程示意图；

图18为一个具体实施例中区域特征和区域的对应关系的示意图；

图19为一个具体实施例中口音识别的应用场景示意图；

图20为一个实施例中口音识别声学模型训练装置的结构框图；

图21为一个实施例中口音识别装置的结构框图；

图22为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一

本申请实施例提供的方案涉及人工智能的语音识别技术，具体通过如下实施例进行说明:

本申请提供的口音识别声学模型训练方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102向服务器发送模型训练指令，服务器104接收到终端发送的模型训练指令，从数据库中获取训练数据，训练数据包括训练语音、训练语音对应的口音区域特征和音素标签；服务器104提取训练语音对应的声学特征；服务器104将声学特征和口音区域特征输入初始口音识别声学模型中，初始口音识别声学模型将口音区域特征进行变换，得到初始变换特征，对声学特征进行语音特征提取，得到初始语音特征，将初始变换特征和初始语音特征进行合并，得到初始合并特征，并对初始合并特征进行语音音素识别，得到初始语音音素信息；服务器104基于初始语音音素信息和对应的音素标签计算损失信息，基于损失信息更新初始口音识别声学模型，并返回将声学特征和口音区域特征输入初始口音识别声学模型中的步骤迭代执行，直到训练完成时，得到目标口音识别声学模型。然后可以向终端102返回模型训练完成的提醒信息。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种口音识别声学模型训练方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取训练数据，训练数据包括训练语音、训练语音对应的口音区域特征和音素标签。

其中，训练数据指在对初始口音识别声学模型训练时使用的数据。训练语音是指在对初始口音识别声学模型训练时使用的语音，该训练语音可以包括不同的口音语音。每条训练语音都有对应的口音区域特征和音素标签。口音区域特征是指训练语音对应的口音区域，不同的区域的语音有不同的口音。不同的区域对应有不同的口音区域特征，该口音区域特征可以是预先设置好的，也可以是根据区域进行特征提取得到的。音素标签是指训练语音对应音素的标签。音素(phone)，是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。

具体地，服务器可以直接从数据库获取到训练数据，该训练数据包括训练语音、训练语音对应的口音区域特征和音素标签。服务器也可以从提供数据服务的服务方中获取到训练数据，服务器也可以从互联网采集得到训练数据。在一个实施例中，服务器获取到训练语音和训练语音对应的口音区域，然后获取到区域对应的口音区域特征，得到训练数据。

步骤204，提取训练语音对应的声学特征。

其中，声学特征是指表示语音声学特性的特征，包括基频特征、共振峰特征、MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)特征、PNCC (改进的MFCC)特征和i-vector(声纹特征)特征中的至少一种，优选的，可以提取得到PNCC特征和i-vector特征作为训练语音对应的声学特征。

具体地，服务器可以从训练数据中获取到任意口音区域特征对应的训练语音，然后可以使用信号处理技术从训练语音中提取到对应的声学特征，比如，可以使用PNCC算法提取到PNCC特征，可以使用i-vector特征提取得到i-vector 特征。可以检测语音中的基音周期得到基频特征，使用倒谱法提取共振峰特征。可以使用MFCC提取算法提取到MFCC特征。

步骤206，将声学特征和口音区域特征输入初始口音识别声学模型中，初始口音识别声学模型将口音区域特征进行变换，得到初始变换特征，对声学特征进行语音特征提取，得到初始语音特征，将初始变换特征和初始语音特征进行合并，得到初始合并特征，并对初始合并特征进行语音音素识别，得到初始语音音素信息。

其中，初始口音识别声学模型是指未经训练的多任务口音识别声学模型，即初始口音识别声学模型中的参数可以是初始化得到的，比如，可以是全零初始化，也可以是随机初始化等等。该多任务是指多个区域特征对应的口音识别任务。初始变换特征是指对口音区域特征进行初始变换得到的特征，该变换可以是线性变换，也可以是非线性变换。初始语音特征是指对声学特征进一步进行语音特征提取后得到的特征，从而能够使得到的初始语音特征具有较高的鲁棒性。初始合并特征是指将初始变换特征和初始语音特征进行合并后得到的特征。初始语音音素信息是指初始口音识别声学模型识别得到的初始语音音素信息，该语音音素信息可以是训练语音对应的音素，也可以是音素对应状态的概率分布。

具体地，服务器预先建立好初始口音识别声学模型，然后在训练时，将声学特征和口音区域特征输入初始口音识别声学模型中，初始口音识别声学模型将口音区域特征使用初始变换参数进行变换，得到初始变换特征，对声学特征使用初始语音特征提取参数进行语音特征提取，得到初始语音特征，将初始变换特征和初始语音特征进行合并，得到初始合并特征，其中，对将初始变换特征和初始语音特征进行合并可以是直接将初始变换特征和初始语音特征进行拼接，得到初始合并特征，也可以是对初始变换特征和初始语音特征进行向量运算，得到初始合并特征，其中，向量运算可以包括向量和运算、向量积运算、数量积运算等等。然后对初始合并特征使用所述区域特征对应的语音音素识别参数进行语音音素识别，得到初始语音音素信息。

步骤208，基于初始语音音素信息和对应的音素标签计算损失信息，基于损失信息更新初始口音识别声学模型。

其中，损失信息用于表示初始语音音素信息和对应的音素标签之间的误差。

具体地，服务器使用损失函数计算初始语音音素信息和对应的音素标签之间的误差，得到损失信息，然后使用损失信息基于梯度下降算法反向更新初始口音识别声学模型中的参数。

步骤210，判断训练是否完成，当训练未完成时，返回将声学特征和口音区域特征输入初始口音识别声学模型中的步骤迭代执行。当训练完成时，执行步骤212。

步骤212，得到目标口音识别声学模型。

其中，判断训练是否完成是判断训练是否达到训练完成条件即是判断模型是否收敛，训练完成条件包括训练迭代次数达到最大迭代次数、训练得到的损失信息小于预设损失阈值以及训练得到的模型参数不再发生变化中的至少一种。目标口音识别声学模型是指训练完成的口音识别声学模型，用于对不同区域的口音语音进行识别。

具体地，服务器判断训练是否完成，当训练未完成时，返回将声学特征和口音区域特征输入初始口音识别声学模型中的步骤迭代执行。当训练完成时，得到目标口音识别声学模型。

上述口音识别声学模型训练方法中，通过提取训练语音对应的声学特征，将声学特征和口音区域特征输入初始口音识别声学模型中，初始口音识别声学模型将口音区域特征进行变换，得到初始变换特征，对声学特征进行语音特征提取，得到初始语音特征，将初始变换特征和初始语音特征进行合并，得到初始合并特征，并对初始合并特征进行语音音素识别，得到初始语音音素信息；基于初始语音音素信息和对应的音素标签计算损失信息，基于损失信息更新初始口音识别声学模型，并返回将声学特征和口音区域特征输入初始口音识别声学模型中的步骤迭代执行，直到训练完成时，得到目标口音识别声学模型。由于使用口音区域特征和声学特征共同作用来训练得到目标口音识别声学模型，从而能够目标口音识别声学模型能够学习到更丰富的信息，从而使得目标口音识别声学模型在进行口音语音识别时，提高识别的准确性，进而提高口音语音识别结果的准确性。

在一个实施例中，初始口音识别声学模型包括：初始转换网络、初始特征提取网络和初始音素识别网络；

如图3所示，步骤206，即将声学特征和口音区域特征输入初始口音识别声学模型中，包括：

步骤302，将口音区域特征输入初始转换网络中进行转换，得到初始转换特征。

其中，初始转换网络是用于进行特征转换的网络。初始转换网络中的网络参数可以是初始化得到的，也可以是通过预训练得到的。

具体地，服务器将口音区域特征输入初始转换网络中进行转换，得到初始转换特征。在一个实施例中，该初始转换网络可以是初始线性转换网络，可以进行线性转换。也可以是初始非线性转换网络，可以进行非线性转换。

步骤304，将声学特征输入初始特征提取网络中进行语音特征提取，得到初始语音特征。

具体地，初始特征提取网络是用户进行语音特征提取的网络，比如，可以是CNN(Convolutional Neural Networks，卷积神经网络)网络、RNN(Recurrent NeuralNetwork，循环神经网络)网络等等。初始特征提取网络中的网络参数可以是初始化得到的，也可以是通过预训练得到的。服务器将声学特征输入初始特征提取网络中进行语音特征提取，得到初始语音特征。通过初始特征提取网络能够提取到更能表征语音的特征，从而提高鲁棒性。

步骤306，将初始转换特征和初始语音特征进行合并，得到初始合并特征。

步骤308，将初始合并特征输入初始音素识别网络中进行语音音素识别，得到初始语音音素信息。

其中，初始音素识别网络是指用于进行语音音素识别的网络，该初始音素识别网络可以是一个多任务网络，每个区域都有一个对应的区域语音音素识别网络。

具体地，服务器计算初始转换特征对应向量和初始语音特征对应向量的和，得到初始合并特征，然后将初始合并特征输入初始音素识别网络中区域特征对应的音素识别网络中进行识别，得到输出的初始语音音素信息。

在上述实施例中，通过使用初始转换网络得到初始转换特征并使用初始特征提取网络提取到初始语音特征，然后将初始转换特征和初始语音特征进行合并，使用初始音素识别网络对初始合并特征进行语音音素识别，得到初始语音音素信息，由于对合并特征进行语音音素识别，从而能够使识别的口音语音音素信息更加准确。

在一个实施例中，步骤304，将声学特征输入初始特征提取网络中进行语音特征提取，得到初始语音特征，包括：

将声学特征通过频谱增强进行变形，得到声学增强特征，将声学增强特征输入初始特征提取网络中进行语音特征提取，得到初始语音特征。

其中，频谱增强是指通过SpecAugment(A Simple Data Augmentation Methodfor Automatic Speech Recognition，一个用于自动语音识别的简单数据扩增方法) 技术在时频域做masking操作。声学增强特征是指经过频谱增强后得到的特征。

具体地，服务器将声学特征通过频谱增强进行变形，得到声学增强特征，其中，可以对声学特征通过时间变形、频谱掩膜以及时间掩膜操作进行变形，得到声学增强特征，将声学增强特征输入初始特征提取网络中进行语音特征提取，得到初始语音特征。通过同时使用声学增强特征来训练口音识别声学模型，能够提高训练得到的模型的鲁棒性。

在一个实施例中，初始音素识别网络包括初始语音音素特征提取网络、初始目标转换网络和至少两个不同口音区域特征对应的初始口音音素识别网络；

如图4所示，步骤308，即将初始合并特征输入初始音素识别网络中进行语音音素识别，得到初始语音音素信息，包括：

步骤402，将初始合并特征输入初始语音音素特征提取网络中进行语音音素特征提取，得到初始语音音素特征。

其中，初始语音音素特征提取网络是用于提取口音语音音素特征的网络。可以是深度神经网络。初始语音音素特征是指提取到的口音语音音素的特征。

具体地，服务器中将初始合并特征输入初始语音音素特征提取网络中进行计算，得到输出的初始语音音素特征。

步骤404，将口音区域特征输入初始目标转换网络中进行转换，得到初始目标转换特征。

其中，初始目标转换网络是用于将口音区域特征进行转换的网络，该训练好的目标转换网络和转换网络的网络参数是不同。其中，可以是进行线性转换，也可以是非线性转换。初始目标转换特征是指通过初始目标转换网络进行转换得到的特征。

具体地，服务器可以将口音区域特征输入初始目标线性转换网络中进行线性转换，得到初始目标线性转换特征，也可以将口音区域特征输入初始目标非线性转换网络中进行非线性转换，得到初始目标非线性转换特征。

步骤405，将初始语音音素特征和初始目标转换特征进行合并，得到目标合并特征，将目标合并特征输入口音区域特征对应的初始口音音素识别网络中进行音素识别，得到初始语音音素信息。

其中，目标合并特征是指使用初始语音音素特征与目标转换网络输出的特征进行合并后得到的特征。

具体地，初始音素识别网络中包括至少两个不同口音区域特征对应的初始口音音素识别网络。即初始口音音素识别网络有多个，不同的初始口音音素识别网络用于使用对应区域的口音音素。比如，可以是不同的国家区域对应的英语口音音素识别网络，例如，中国区域、美国区域、英国区域、日本区域等的英语口音音素识别网络。当训练语音对应的区域特征为中国区域特征时，服务器将目标合并特征输入中国区域特征对应的初始中国英语口音音素识别网络中进行音素识别，得到初始中国英语口音语音音素信息。也可以是不同的区域的方言，比如，中文在不同的区域有不同的方言，将方言语音输入到对应的方言区域的口音音素识别网络中进行音素识别，得到初始语音音素信息。然后在使用初始语音音素信息计算得到的损失信息进行参数更新时，更新初始音素识别网络中该区域特征对应的初始口音音素识别网络的网络参数，其他区域特征对应的初始口音音素识别网络的网络参数保持不变。

在上述实施例中，在训练时，通过将初始语音音素特征和初始目标转换特征进行合并，得到目标合并特征，将目标合并特征输入口音区域特征对应的初始口音音素识别网络中进行音素识别，得到初始语音音素信息，由于使用该区域特征对应的初始口音音素识别网络中对该区域特征对应的初始语音音素特征进行识别，能够提高识别得到的初始语音音素信息的准确性。

在一个实施例中，初始语音音素特征提取网络包括至少一个初始时延神经网络、至少一个初始门控循环网络和至少一个初始中间转换网络，初始时延神经网络和初始门控循环网络为交替网络结构；

如图5所示，步骤402，即将初始合并特征输入初始语音音素特征提取网络中进行语音音素特征提取，得到初始语音音素特征，包括：

步骤502，将初始合并特征输入初始时延神经网络中进行计算，得到初始时延特征。

其中，时延神经网络是指TDNN(Time Delay Neural Network)，是一个应用于语音识别问题的卷积神经网络，使用FFT预处理的语音信号作为输入，其隐含层由2个一维卷积核组成，以提取频率域上的平移不变特征。初始时延神经网络是指初始口音识别声学模型中参数初始化的时延神经网络。初始时延特征是指使用初始时延神经网络提取到的频率域上的平移不变特征。交替网络结构是指初始时延神经网络连接下一个初始门控循环网络，而该初始门控循环网络连接下一个初始时延神经网络，即初始时延神经网络和初始门控循环网络交替连接。

具体地，服务器将初始合并特征输入初始时延神经网络中，提取频率域上的平移不变特征，得到初始时延特征。在一个实施例中，可以使用多个初始时延神经网络对初始合并特征进行提取，每个初始时延神经网络的输出要输入到下一个初始时延神经网络中时，都需要和转换网络转换得到的特征进行合并，得到合并后的特征，然后将合并后的特征输入到下一个初始时延神经网络中进行计算，能够使计算得到的初始时延特征含有区域信息，从而能够提高后续进行音素识别的准确性。

步骤504，将口音区域特征输入初始中间转换网络中进行转换，得到初始中间转换特征。

其中，中间转换网络是指在初始时延神经网络和初始门控循环网络之间的转换网络，该转换网络用于对口音区域特征进行转换，可以是线性转换，也可使非线性转换。初始中间转换特征是指使用初始中间转换网络对口音区域特征进行转换得到的特征。即初始时延特征要输入到初始门控循环网络中时需要和初始中间转换特征进行合并后才能输入到初始门控循环网络中进行计算。

步骤506，将初始时延特征和初始中间转换特征进行合并，得到初始中间合并特征，将初始中间合并特征输入到初始门控循环网络中进行计算，得到初始语音音素特征。

其中，初始中间合并特征是指将初始时延特征和初始中间转换特征合并得到的特征。门控循环网络是指GRU(Gated Recurrent Unit门控循环单元)，GRU 不使用单元状态,而是使用隐藏状态来传输信息。它也只有两个门,一个重置门和一个更新门，能够保存长期序列中的信息，且不会随时间而清除或因为与预测不相关而移除，避免了梯度消失问题。门控循环网络是指标准循环神经网络的改进版。初始门控循环网络用于提取得到初始语音音素特征。

具体地，服务器将初始时延特征和初始中间转换特征进行合并，得到初始中间合并特征，将初始中间合并特征输入到初始门控循环网络中进行计算，得到初始语音音素特征。

在上述实施例中，通过使用时延神经网络得到初始时延特征，并使用初始中间转换网络得到初始中间转换特征，将初始时延特征和初始中间转换特征进行合并，得到初始中间合并特征，将初始中间合并特征输入到初始门控循环网络中进行计算，得到初始语音音素特征，即通过使用时延神经网络和门控循环网络交替组成的网络来对语音时序信号进行建模，从而能够提高模型训练的效率，并通过转换网络来得到合并特征，使用合并特征进行计算，从而提高训练得到的模型的准确性。

在一个具体的实施例中，如图6所示，为初始口音识别声学模型的架构示意图，具体来说：

服务器获取到训练数据，训练数据包括训练方言语音、训练方言语音对应的口音区域特征和音素标签，提取训练语音对应的声学特征，将声学特征和口音区域特征输入初始口音识别声学模型中，初始口音识别声学模型将声学特征通过SpecAugment进行数据增强，得到声学增强特征，将声学增强特征输入到 CNN1网络和CNN2网络中进行语音特征提取，得到初始语音特征，通过两层 CNN1和CNN2能够提取到更抽象鲁棒的特征。然后将初始语音特征输入多层 TDNN(时延神经网络)和GRU(Gated Recurrent Unit门控循环单元)交织而成的网络部分，该部分主要作用是对时序信号进行建模，其中，将初始语音特征输入到Tdnn1网络中进行计算，得到输出，通过将区域特征(1-hot vector,一维向量)通过Affine1(仿射变换)网络进行线性转换，得到初始转换特征，将初始转换特征与输出进行合并，得到初始合并特征，将初始合并特征输入到Tdnn2 (-1，0，1)网络中进行计算，得到输出，再通过将区域特征通过Affine2网络进行线性转换，得到初始转换特征，将初始转换特征与输出进行合并，得到初始合并特征，依次进行计算，其中，两层Tdnn网络和一层Opgru网络交替进行计算，每个网络的输出都要和对应的Affine网络计算得到的转换特征进行合并后作为下一个网络的输入。最后得到Opgru3网络的输出，将该输出与区域特征通过Affine10网络计算而得到的初始转换特征进行合并，得到初始合并特征，将初始合并特征输入到方言音素识别层中该方言区域特征对应的Affine网络中进行音素识别，得到输出层输出的初始口音音素信息，然后计算损失信息，根据损失信息更新该初始口音识别声学模型，当训练完成时，得到目标口音识别声学模型。

在一个实施例中，如图7所示，基于初始语音音素信息和对应的音素标签计算损失信息，基于损失信息更新初始口音识别声学模型，并返回将声学特征和口音区域特征输入初始口音识别声学模型中的步骤迭代执行，直到训练完成时，得到目标口音识别声学模型，包括：

步骤702，初始语音音素信息和对应的音素标签使用最大互信息优化函数计算损失信息，当损失信息未符合训练完成条件时，基于损失信息反向更新初始口音识别声学模型的参数，得到更新口音识别声学模型。

步骤704，将更新口音识别声学模型作为初始口音识别声学模型，并将声学特征和口音区域特征输入初始口音识别声学模型中的步骤迭代执行，直到损失信息符合训练完成条件时，将符合训练完成条件的初始口音识别声学模型作为目标口音识别声学模型。

具体地，训练的准则使用LFMMI(最大互信息lattice-free maximum mutualinformation)，并使用梯度下降法进行训练。即服务器使用最大互信息优化函数计算初始语音音素信息和对应的音素标签之间的误差，得到损失信息，判断该损失信息是否达到预设的损失阈值，当未达到损失阈值时，基于损失信息反向更新初始口音识别声学模型的参数，得到更新口音识别声学模型，然后将更新口音识别声学模型作为初始口音识别声学模型，并返回将声学特征和口音区域特征输入初始口音识别声学模型中的步骤迭代执行，直到损失信息符合训练完成条件时，将符合训练完成条件的初始口音识别声学模型作为目标口音识别声学模型。在一个实施例中，当获取的训练数据为第一口音区域特征对应的训练语音时，使用该第一口音区域特征对应的训练语音进行训练，得到更新口音识别声学模型，该更新口音识别声学模型是更新了第一口音区域特征对应的音素识别网络的参数，其他口音区域特征对应的音素识别网络的参数保持不变的模型，然后将更新口音识别声学模型作为初始口音识别声学模型，并返回获取训练数据，该训练数据可以是其他口音区域特征对应的训练语音的步骤进行执行，直到损失信息符合训练完成条件时，将符合训练完成条件的初始口音识别声学模型作为目标口音识别声学模型。

在上述实施例中，通过使用最大互信息优化函数在模型训练过程中进行有害，能够使训练得到的目标口音识别声学模型提高口音识别的准确性。

在一个实施例中，如图8所示，在步骤202之前，即在获取训练数据之前，还包括：

步骤802，获取基础训练数据，基础训练数据包括基础训练语音、基础训练语音对应的基础口音区域特征和基础音素标签。

其中，基础训练数据指在对基础口音识别声学模型训练时使用的数据，该基础口音识别声学模型是指未经训练的单任务口音识别声学模型，该单任务是指口音识别任务。基础口音识别声学模型可以是初始口音识别声学模型的预训练模型，即将训练完成的基础口音识别声学模型的参数作为初始口音识别声学模型的初始参数。基础训练数据可以是与训练数据相同，也可以不同，还可以是训练数据中的一部分。比如，起始训练数据可以是20000小时的语音数据，则训练数据可以是从20000小时的语音数据中选取4000小时带有区域信息的语音数据，则基础训练数据也开始是从20000小时的语音数据中选取4000小时带有区域信息的语音数据。基础训练语音是指基础训练数据中的语音。基础口音区域特征是指基础训练语音对应区域的特征，即该基础训练语音是该区域的口音语音。基础音素标签是指基础训练语音对应音素的标签。

具体地，服务器可以从数据库中获取到基础训练数据，也可以从训练数据中选取到带区域信息的基础训练数据。服务器还可以从互联网采集得到的基础训练数据。

步骤804，提取基础训练语音对应的基础声学特征。

具体地，基础声学特征是指基础训练语音对应的声学特征。服务器可以使用信号处理技术从基础训练语音中提取到对应的声学特征，比如，可以使用 PNCC算法提取到PNCC特征，可以使用i-vector特征提取得到i-vector特征。可以检测语音中的基音周期得到基频特征，使用倒谱法提取共振峰特征。可以使用MFCC提取算法提取到MFCC特征。

步骤806，将基础声学特征和基础口音区域特征输入基础口音识别声学模型中，基础口音识别声学模型将基础口音区域特征输入到基础转换网络中进行转换，得到基础转换特征，将基础声学特征输入到基础特征提取网络中进行语音特征提取，得到基础语音特征，基于基础转换特征和基础语音特征进行合并，得到基础合并特征，将基础合并特征输入到基础音素识别网络中进行语音音素识别，得到基础语音音素信息。

其中，基础口音识别声学模型用于作为初始口音识别声学模型的预训练模型进行预训练，该基础口音识别声学模型包括基础转换网络、基础特征提取网络和基础音素识别网络。基础转换网络用于将基础口音区域特征进行转换，可以是线性转换，也可以是非线性转换。基础转换特征是指基础口音区域特征对应的转换特征。基础特征提取网络用于提取到更加抽象和鲁棒的特征。基础语音特征是指基础训练语音对应的特征。基础合并特征是将基础转换特征和基础语音特征合并得到的特征，基础音素识别网络用于识别基础训练语音对应的基础语音音素信息。基础语音音素信息是指基础训练语音对应的语音音素信息。该基础语音音素信息可以是基础训练语音对应的音素，也可以是音素对应状态的概率分布

具体地，服务器将基础声学特征和基础口音区域特征输入到基础口音识别声学模型中，基础口音识别声学模型接收到输入的基础声学特征和基础口音区域特征，将基础口音区域特征输入到基础转换网络中进行转换，得到基础转换特征，将基础声学特征输入到基础特征提取网络中进行语音特征提取，得到基础语音特征，基于基础转换特征和基础语音特征进行合并，得到基础合并特征，其中，该合并可以是直接拼接，也可以是进行向量运算。将基础合并特征输入到基础音素识别网络中进行语音音素识别，得到基础语音音素信息。在一个实施例中，也可以将基础声学特征通过频谱增强进行变形，得到基础声学增强特征，将基础声学增强特征输入到基础特征提取网络中进行语音特征提取，得到基础语音特征。即通过SpecAugmen技术在时频域做masking操作，得到基础声学增强特征。

步骤808，基于基础语音音素信息和对应的基础音素标签计算基础损失信息，基于基础损失信息更新基础口音识别声学模型。

步骤810，判断基础训练是否完成，当基础训练完成时，执行步骤812，当基础训练未完成时，返回步骤806继续迭代执行。

其中，基础损失信息是指基础口音识别声学模型在训练时得到的损失信息。

具体地，服务器使用预先设置好的损失函数计算于基础语音音素信息和对应的基础音素标签之间的误差，得到基础损失信息，使用基础损失信息通过梯度下降算法反向更新基础口音识别声学模型中基础转换网络、基础特征提取网络和基础音素识别网络的参数，得到更新后的基础口音识别声学模型，然后判断基础训练是否完成，可以判断训练次数是否达到最大迭代次数，也可以是判断损失信息是否达到预设损失阈值，也可以是判断更新后的基础口音识别声学模型的参数是否发生变化。当判断基础训练未完成时，将更新后的基础口音识别声学模型作为基础口音识别声学模型，并返回将基础声学特征和基础口音区域特征输入基础口音识别声学模型的步骤迭代执行。在一个实施例中，也可以返回到获取基础训练数据的步骤迭代执行，即从基础训练数据中获取到任意一个基础训练语音进行迭代执行。当判断基础训练完成时，将更新后的基础口音识别声学模型作为训练完成的基础口音识别声学模型。

步骤812，得到训练完成的基础口音识别声学模型，基于训练完成的基础口音识别声学模型建立初始口音识别声学模型。

具体地，服务器使用训练完成的基础口音识别声学模型建立初始口音识别声学模型，可以将基础口音识别声学模型中的目标基础转换网络、目标基础特征提取网络和目标基础音素识别网络的参数作为初始口音识别声学模型中的初始参数，得到初始口音识别声学模型。

在上述实施例中，通过使用基础训练数据训练得到的基础口音识别声学模型，然后使用训练完成的基础口音识别声学模型建立初始口音识别声学模型，然后对初始口音识别声学模型进行训练，得到目标口音识别声学模型，由于初始口音识别声学模型的参数是使用训练完成的基础口音识别声学模型的参数得到的，从而使得在训练初始口音识别声学模型时能够更快的收敛，提高模型的训练效率，并且能够提高训练目标口音识别声学模型的准确性。

在一个实施例中，如图9所示，基础音素识别网络包括基础语音音素特征提取网络、基础目标转换网络和基础口音音素识别网络；

步骤806，将基础合并特征输入到基础音素识别网络中进行语音音素识别，得到基础语音音素信息，包括：

步骤902，将基础合并特征输入到基础语音音素特征提取网络中进行语音音素特征提取，得到基础语音音素特征。

其中，基础语音音素特征提取网络是用于提取基础训练语音音素特征的网络，可以是深度神经网络，比如TDNN网络、RNN网络等等。基础语音音素特征是指提取到的基础训练语音音素的特征。

具体地，服务器将基础合并特征输入到基础音素识别网络中进行语音音素识别，得到基础语音音素信息。

步骤904，将基础口音区域特征输入基础目标转换网络中进行转换，得到基础目标转换特征。

其中，基础目标转换网络是用于将基础口音区域特征进行转换的网络，该基础目标转换网络和基础转换网络的网络参数是不同，可以进行线性转换，也可以进行非线性转换。基础目标转换特征是指通过基础目标转换网络进行转换得到的特征。

具体地，服务器可以将基础口音区域特征输入基础目标转换网络中进行线性转换，得到基础目标线性转换特征，也可以进行非线性转换，得到基础目标非线性转换特征。其中，线性转换可以是仿射变换(Affine Transformation)。

步骤906，将基础语音音素特征和基础目标转换特征进行合并，得到基础目标合并特征，将基础目标合并特征输入基础口音音素识别网络中进行音素识别，得到基础语音音素信息。

其中，基础目标合并特征是指将基础语音音素特征和基础目标转换特征合并后得到的特征。基础口音音素识别网络用于对基础训练语音对应的口音音素进行识别，比如，该基础口音音素识别网络可以是一个线性转换的网络。基础语音音素信息是指基础训练语音对应的口音音素信息。

具体地，服务器计算基础语音音素特征与基础目标转换特征的向量和，得到基础目标合并特征，将基础目标合并特征输入基础口音音素识别网络中进行音素识别，得到基础语音音素信息。

在上述实施例中，通过在进行口音音素识别时使用基础语音音素特征与基础目标转换特征合并后的特征进行识别，能够提高识别得到的基础语音音素信息的准确性。

在一个实施例中，如图10所示，步骤812，基于训练完成的基础口音识别声学模型建立初始口音识别声学模型，包括：

步骤1002，将训练完成的基础口音识别声学模型中的基础转换网络作为初始口音识别声学模型中的初始转换网络。

步骤1004，将训练完成的基础口音识别声学模型中的基础特征提取网络作为初始口音识别声学模型中的初始特征提取网络。

步骤1006，将训练完成的基础口音识别声学模型中的基础语音音素特征提取网络作为初始口音识别声学模型中的初始语音音素特征提取网络。

步骤1008，将训练完成的基础口音识别声学模型中的基础目标转换网络作为初始口音识别声学模型中的初始目标转换网络。

具体地，服务器将训练完成的基础口音识别声学模型中的基础目标转换网络、基础特征提取网络、基础语音音素特征提取网络、基础目标转换网络作为初始口音识别声学模型中的初始转换网络、初始特征提取网络、初始语音音素特征提取网络、初始目标转换网络，即将基础口音识别声学模型中网络参数共享到初始口音识别声学模型中的网络。

步骤1010，并建立至少两个不同口音区域特征对应的初始口音音素识别网络，得到初始口音识别声学模型。

其中，初始口音音素识别网络是指网络参数初始化的口音音素识别网络。

具体地，服务器根据口音区域特征的数量，建立每个口音区域特征对应的初始口音音素识别网络，每个口音区域特征对应的初始口音音素识别网络用于识别该口音区域特征对应语音的口音音素。服务器根据基础目标转换网络、基础特征提取网络、基础语音音素特征提取网络、基础目标转换网络和至少两个不同口音区域特征对应的初始口音音素识别网络，得到初始口音识别声学模型。

在上述实施例中，通过使用训练完成的基础口音识别声学模型建立初始口音识别声学模型，能够使初始口音识别声学模型的训练提高效率和准确性。

在一个实施例中，基础语音音素特征提取网络包括至少一个基础时延神经网络、至少一个基础门控循环网络和至少一个基础中间转换网络，基础时延神经网络和基础门控循环网络为交替网络结构；

如图11所示，步骤902，将基础合并特征输入到基础语音音素特征提取网络中进行语音音素特征提取，得到基础语音音素特征，包括：

步骤1102，将基础合并特征输入基础时延神经网络中进行计算，得到基础时延特征。

步骤1104，将基础口音区域特征输入基础中间转换网络中进行转换，得到基础中间转换特征。

其中，基础时延神经网络是指基础口音识别声学模型中的时延神经网络，用于对输入的特征提取频率域上的平移不变特征。基础时延特征是指基础时延神经网络提取得到的特征。基础中间转换网络是指在基础时延神经网络和基础门控循环网络之间的转换网络，该基础中间转换网络用于对基础口音区域特征进行转换，可以是非线性转换，也可以是线性转换。

具体地，服务器将基础合并特征作为入基础时延神经网络的输入进行计算，得到输出的基础时延特征。同时将基础口音区域特征输入基础中间转换网络中进行转换，得到基础中间转换特征。基础中间转换特征是指通过基础中间转换网络得到的转换特征。

步骤1106，将基础时延特征和基础中间转换特征进行合并，得到基础中间合并特征，将基础中间合并特征输入到基础门控循环网络中进行计算，得到基础语音音素特征。

其中，基础门控循环网络是指通过基础中间合并特征提取得到基础语音音素特征的网络。

具体地，服务器要将基础时延特征输入到基础门控循环网络中时，需要先将基础时延特征和基础中间转换特征进行合并，得到基础中间合并特征，然后将基础中间合并特征输入到基础门控循环网络中进行计算，得到基础语音音素特征。

在上述实施例两种，通过基础时延神经网络和基础门控循环网络对语音时序信号进行建模，从而提取得到的基础语音音素特征，从而能够提高得到的基础语音音素特征的准确性。

在一个具体的实施例中，如图12所示，为基础口音识别声学模型的架构示意图，该基础口音识别声学模型的架构示意图中除语音音素识别层以外其他架构部分和初始口音识别声学模型的架构示意图基本保持一致。具体来说：

服务器将基础声学特征和基础口音区域特征输入到该基础口音识别声学模型中，基础口音识别声学模型通过将基础声学特征进行数据增强后，通过CNN 网络进行特征提取，得到基础语音特征，先将基础语音特征输入到Tdnn1网络中，得到输出的特征。同时将基础口音声学特征输入到affine网络中进行线性转换，得到转换特征，通过基础语音特征和Tdnn1网络的输出进行合并，得到基础合并特征。然后将基础合并特征输入到Tdnn和GRU的交替网络中，得到输出的基础语音音素特征，其中，在Tdnn和GRU的交替网络中如果第L层的输出为H_L，维度大小为h*1，区域特征对应的向量为V，维度大小为v*1，并且当 affine网络的参数矩阵为W_L，维度为v*h，则得到的第L+1层的输入(也可以理解为第L层的输出)为如下公式(1)所示。

H’_L＝H_L+W_LV 公式(1)

其中，H’_L为第L层的输出同时作为第L+1层的输入。

然后将输出的基础语音音素特征和通过区域特征输入到Affine10网络得到的变换特征进行合并后输入到语音音素识别层进行识别，得到输出的基础语音音素信息，然后计算损失信息，当损失信息未小于预设阈值时继续迭代执行，直到损失信息小于预设阈值，得到训练完成的基础口音识别声学模型，根据训练好的基础口音识别声学模型建立初始口音识别声学模型。

在一个实施例中，如图13所示，在步骤802之前，即在获取基础训练数据之前，还包括：

步骤1302，获取起始训练数据，起始训练数据包括起始训练语音和对应的起始音素标签。

其中，起始训练数据是用于训练起始口音识别声学模型的数据，起始口音识别声学模型是基础口音识别声学模型的预训练模型，即将训练好的起始口音识别声学模型作为基础口音识别声学模型中的参数。起始口音识别声学模型的网络架构和未包括线性转换网络的基础口音识别声学模型的网络架构一致。训练好的起始口音识别声学模型用于识别口音语音对应的音素。起始口音识别声学模型中的模型参数是初始化得到的，可以是随机初始化，也可以是为零初始化等等。起始训练语音是起始训练数据中的语音，可以是不同的口音语音。起始音素标签是指起始训练语音对应音素的标签。

具体地，服务器可以直接从数据库中获取到起始训练数据。也可以从互联网中采集到起始训练数据，还可以是从提高数据服务的服务方中获取到起始训练数据。

步骤1304，提取起始训练语音对应的起始声学特征，将起始声学特征输入到参数初始化的起始口音识别声学模型中，起始口音识别声学模型将起始声学特征输入到起始特征提取网络进行特征提取，得到起始语音特征，并将起始语音特征输入到起始音素识别网络中进行语音音素识别，得到起始语音音素信息。

其中，起始声学特征是指起始训练语音对应的声学特征，服务器可以使用信号处理技术从起始训练语音中提取到对应的声学特征，比如，可以使用PNCC 算法提取到PNCC特征，可以使用i-vector特征提取得到i-vector特征。可以检测语音中的基音周期得到基频特征，使用倒谱法提取共振峰特征。可以使用 MFCC提取算法提取到MFCC特征等等。起始特征提取网络是指用于对起始声学特征进行特征提取的网络，可以提取到更抽象鲁棒的特征。起始语音特征是指起始训练语音对应的语音特征。起始语音音素信息是指起始训练语音对应的语音音素信息。

具体地，服务器在训练起始口音识别声学模型时，先提取起始训练语音对应的起始声学特征，然后将起始声学特征输入到参数初始化的起始口音识别声学模型中，起始口音识别声学模型将起始声学特征输入到起始特征提取网络进行特征提取，得到起始语音特征，并将起始语音特征输入到起始音素识别网络中进行语音音素识别，得到起始语音音素信息。在一个实施例中，起始声学特征在输入起始特征提取网络之前通过SpecAugmen技术在时频域做masking操作，得到起始声学增强特征，然后将起始声学增强特征输入到起始特征提取网络进行特征提取，得到起始语音特征。

步骤1306，基于起始语音音素信息和对应的起始语音音素标签计算起始损失信息，基于起始损失信息更新起始口音识别声学模型中的参数。

其中，起始损失信息是指训练起始口音识别声学模型时得到的损失信息。

具体地，服务器使用损失函数计算起始语音音素信息和对应的起始语音音素标签之间的误差，得到损失信息，然后使用起始损失信息更新起始口音识别声学模型中的参数，即更新起始特征提取网络的参数以及起始音素识别网络中的参数。

步骤1308，判断起始训练是否完成，当训练完成时，执行步骤1310，当训练未完成时，返回步骤1304执行。

1210，得到训练完成的起始口音识别声学模型，基于训练完成的起始口音识别声学模型建立基础口音识别声学模型。

其中，起始训练完成是指起始训练达到起始训练完成条件。起始训练完成条件可以是训练次数达到最大迭代次数或者起始损失信息达到预设阈值或者更新后的参数不再发生变化等等。

具体地，服务器判断是否达到了起始训练完成条件，当未达到训练完成条件时，返回将起始声学特征输入到参数初始化的起始口音识别声学模型中的步骤迭代执行，直到起始训练完成时，得到训练完成的起始口音识别声学模型。当训练完成时，得到训练完成的起始口音识别声学模型，使用训练完成的起始特征提取网络和起始音素识别网络建立基础口音识别声学模型。

在上述实施例中，通过训练得到的起始口音识别声学模型来建立基础口音识别声学模型，能够使基础口音识别声学模型在训练时更快的收敛并且使训练得到的基础口音识别声学模型的准确性更高。

在一个实施例中，起始音素识别网络包括起始语音音素特征提取网络和起始口音音素识别网络；

步骤1304，即将起始语音特征输入到起始音素识别网络中进行语音音素识别，得到起始语音音素信息，包括步骤：

将起始语音特征输入到起始语音音素特征提取网络中进行语音音素特征提取，得到起始语音音素特征，并将起始语音音素特征输入到起始口音音素识别网络中进行音素识别，得到起始语音音素信息。

具体地，起始语音音素特征提取网络用于对起始训练语音进行音素特征提取。起始语音音素特征是指起始训练语音对应的音素特征。起始口音音素识别网络用于对起始训练语音对应的音素进行识别。起始语音音素信息是指起始训练语音对应的音素信息。服务器将起始语音特征输入到起始语音音素特征提取网络中进行语音音素特征提取，得到起始语音音素特征，然后将起始语音音素特征输入到起始口音音素识别网络中进行音素识别，得到起始语音音素信息。

在一个实施例中，起始语音音素特征提取网络包括至少一个起始时延神经网络和至少一个起始门控循环网络，起始时延神经网络和起始门控循环网络为交替网络结构；

步骤1304，即将起始语音特征输入到起始语音音素特征提取网络中进行语音音素特征提取，得到起始语音音素特征，包括步骤：

将起始语音特征输入起始时延神经网络中进行计算，得到起始时延特征，并将起始时延特征输入到起始门控循环网络中进行计算，得到起始语音音素特征。

其中，起始时延神经网络是指起始口音识别声学模型中的时延神经网络。起始时延特征是指提取到的时延特征。起始门控循环网络是指起始口音识别声学模型中的门控循环网络。起始语音音素特征是指提取得到的启示语音对应的音素特征。服务器将起始语音特征输入起始时延神经网络中提取频率域上的平移不变特征，得到起始时延特征。然后将起始时延特征输入到起始门控循环网络中进行计算，得到起始语音音素特征。在一个实施例中，可以是多个s门控循环网络相连接，然后再连接门控循环网络，该门控循环网络再连接多个门控循环网络，不断交替连接。从而能够使提取得到的起始语音音素特征更加的准确。

在一个实施例中，基于训练完成的起始口音识别声学模型建立基础口音识别声学模型，包括步骤：

将训练完成的起始特征提取网络作为基础特征提取网络，将训练完成的起始时延神经网络作为基础时延神经网络，将训练完成的起始门控循环网络作为基础门控循环网络，将训练完成的起始口音音素识别网络作为基础口音音素识别网络，并建立参数初始化的转换网络，得到基础口音识别声学模型。

具体地，服务器将训练完成的起始口音识别声学模型中的参数作为基础口音识别声学模型中的参数，并建立参数初始化的转换网络，该参数初始化的转换网络用于对区域特征进行转换，得到转换特征，然后与基础时延神经网络、基础门控循环网络和基础口音音素识别网络中的输出进行合并，得到基础合并特征。根据得到的基础特征提取网络、基础时延神经网络、基础门控循环网络、基础口音音素识别网络和参数初始化的转换网络得到基础口音识别声学模型。即通过使用训练好的起始口音识别声学模型建立基础口音识别声学模型，能够提高训练基础口音识别声学模型的效率和准确性。

在一个具体的实施例中，如图14所示，为起始口音识别声学模型的架构示意图，在训练该起始口音识别声学模型时，获取到起始训练数据，该起始训练语音可以是带有区域信息的口音语音，也可以是未带有区域信息的口音语音。具体来说，服务器将起始训练语音对应的声学特征输入到该起始口音识别声学模型中，该声学特征可以是40维的PNCC和200维的i-vector特征，通过该架构示意图进行识别，得到输出的8464个因素状态，然后计算损失信息，使用损失信息更新起始口音识别声学模型中初始化的参数，得到更新后的口音识别声学模型，然后将更新后的口音识别声学模型作为起始口音识别声学模型不断进行循环迭代，知道训练完成时，得到训练完成的起始口音识别声学模型，然后将训练完成的起始口音识别声学模型作为基础口音识别声学模型的一部分来建立基础口音识别声学模型。

在一个实施例中，如图15所示，在基于初始语音音素信息和对应的音素标签计算损失信息，基于损失信息更新初始口音识别声学模型，并返回将声学特征和口音区域特征输入初始口音识别声学模型中的步骤迭代执行，直到训练完成时，得到目标口音识别声学模型之后，还包括：

步骤1502，获取目标区域对应的目标口音数据，目标口音数据包括目标区域语音和对应的目标区域语音音素标签。

其中，目标区域是指需要优化口音识别效果的区域。目标口音数据是指目标区域对应的口音语音数据。目标区域语音是指目标区域对应的口音语音。目标区域语音音素标签是指目标区域语音音素的标签。

具体地，当需要优化任意一个区域的口音识别效果时，即需要提高口音识别准确性，此时服务器可以从数据库中获取到该目标区域对应的目标口音数据，也可以从互联网采集到目标区域对应的目标口音数据。

步骤1504，获取目标区域对应的目标区域特征并提取目标区域语音对应的目标区域语音声学特征。

具体地，目标区域特征是指目标区域对应的特征，可以根据预先设置好的区域与区域特征的对应关系来获取到目标区域对应的目标区域特征。目标区域语音声学特征是指目标区域语音对应的声学特征，即服务器使用信号处理技术提取目标区域语音对应的目标区域语音声学特征。

步骤1506，将目标区域语音声学特征和目标区域特征输入到目标口音识别声学模型中，目标口音识别声学模型将目标区域特征进行变换，得到目标区域变换特征，基于目标区域声学特征进行语音特征提取，得到目标区域语音特征，基于目标区域变换特征和目标区域语音特征进行合并，得到目标区域合并特征，基于目标区域合并特征进行语音音素识别，得到目标区域语音音素信息。

其中，目标区域变换特征是指将目标区域特征进行变换得到的特征，可以是线性特征，也可以是非线性特征。目标区域语音特征是指目标区域语音对应的语音特征。目标区域合并特征是指将目标区域变换特征和目标区域语音特征合并后得到的特征。

具体地，服务器使用目标区域对应的目标口音数据对目标口音识别声学模型进行优化。即服务器将目标区域语音声学特征和目标区域特征输入到目标口音识别模型中，得到输出的目标区域语音音素信息，

步骤1508，基于目标区域语音音素信息和对应的目标区域语音音素标签计算目标区域语音损失信息，基于目标区域语音损失信息更新目标口音识别声学模型中目标区域对应的音素识别网络，并返回将目标区域语音声学特征和目标区域特征输入到目标口音识别声学模型中的步骤迭代执行，直到目标训练完成时，得到优化口音识别声学模型。

具体地，目标区域对应的音素识别网络是指该目标区域在多任务音素识别网络中对应的网络。此时，服务器使用预先设置好的损失函数计算目标区域语音音素信息和对应的目标区域语音音素标签之间的误差，得到目标区域语音损失信息。使用目标区域语音损失信息只更新目标区域对应的音素识别网络，保持目标口音识别声学模型中其他参数不变。然后返回将目标区域语音声学特征和目标区域特征输入到目标口音识别声学模型中的步骤迭代执行，直到目标训练完成时，得到优化口音识别声学模型。

在上述实施例中，通过使用目标区域对应的目标口音数据来优化目标口音识别声学模型，从能在保证其他区域口音识别准确性的基础上进一步提高对目标区域对应的口音识别的准确性。

在一个实施例中，如图16所示，提供了一种口音识别方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤1602，获取到待识别口音语音和对应的待识别区域信息。

其中，待识别口音语音是指需要进行识别的口音语音。待识别区域信息是指待识别口音语音对应的区域。不同的口音语音对应有不同的区域信息。

具体地，服务器可以从数据库中获取到待识别口音语音和对应的待识别区域信息。服务器也可以获取到麦克风采集得到的待识别口音语音，然后获取到该待识别口音语音对应的待识别区域信息。服务器也可以获取到终端上传的待识别口音语音和应的待识别区域信息。

步骤1602，提取待识别口音语音对应的待识别声学特征并获取待识别区域信息对应的待识别区域特征。

其中，待识别声学特征是指待识别口音语音对应的声学特征，待识别区域特征是指待识别口音语音对应的区域的特征。

具体地，服务器提取到待识别口音语音对应的待识别声学特征然后获取到待识别区域信息对应的待识别区域特征。在一个实施例中，可以将待识别区域信息对应的区域文本进行向量化，得到待识别区域特征。

步骤1602，将待识别声学特征和待识别区域特征输入到目标口音识别声学模型中，目标口音识别声学模型将待识别区域特征进行变换，得到待识别变换特征，对待识别声学特征进行语音特征提取，得到待识别语音特征，将待识别变换特征和待识别语音特征进行合并，得到待识别合并特征，并对待识别合并特征进行语音音素识别，得到待识别口音语音对应的语音音素信息。

其中，待识别变换特征是指将待识别区域特征进行变换得到的特征。待识别语音特征是指待识别语音对应的特征。待识别合并特征是指将待识别变换特征和待识别语音特征进行合并得到的特征。

具体地，服务器将待识别声学特征和待识别区域特征输入到目标口音识别声学模型中，目标口音识别声学模型将待识别区域特征进行变换，得到待识别变换特征，对待识别声学特征进行语音特征提取，得到待识别语音特征，将待识别变换特征和待识别语音特征进行合并，得到待识别合并特征，并对待识别合并特征进行语音音素识别，得到目标口音识别声学模型输出的待识别口音语音对应的语音音素信息。在一个实施例中，目标口音识别声学模型可以是上述口音识别声学模型训练方法的任意实施例中训练得到的口音识别声学模型。在一个具体的实施例中，服务器可以使用如图6所示的口音识别声学模型来对待识别语音进行识别，得到待识别口音语音对应的语音音素信息。

步骤1602，基于口音音素信息进行文本识别，得到待识别口音语音对应的目标文本。

其中，目标文本是指待识别口音语音对应的文本。

具体地，服务器使用口音音素信息进行文本识别，即可以使用词典和语音模型对口音音素信息进行文本识别，得到待识别口音语音对应的目标文本。

上述口音识别方法中，通过提取待识别口音语音对应的待识别声学特征并获取待识别区域信息对应的待识别区域特征，将待识别声学特征和待识别区域特征输入到目标口音识别声学模型中，目标口音识别声学模型将待识别区域特征进行变换，得到待识别变换特征，对待识别声学特征进行语音特征提取，得到待识别语音特征，将待识别变换特征和待识别语音特征进行合并，得到待识别合并特征，并对待识别合并特征进行语音音素识别，得到待识别口音语音对应的语音音素信息。然后基于口音音素信息进行文本识别，得到待识别口音语音对应的目标文本。由于目标口音识别声学模型使用待识别区域特征和待识别声学特征来对待识别口音语音对应的语音音素信息进行识别，使得训练得到的待识别口音语音对应的语音音素信息更加准确性，从而提高了识别得到的目标文本的准确性。

在一个具体的实施例中，如图17所示，提供一种口音识别声学模型训练方法，具体包括以下步骤：

步骤1702，获取起始训练数据，起始训练数据包括起始训练语音和对应的起始音素标签，提取起始训练语音对应的起始声学特征。

步骤1704，将起始声学特征输入到参数初始化的起始口音识别声学模型中，起始口音识别声学模型将起始声学特征输入到起始特征提取网络进行特征提取，得到起始语音特征，并将起始语音特征输入到起始音素识别网络中进行语音音素识别，得到起始语音音素信息。

步骤1706，基于起始语音音素信息和对应的起始语音音素标签计算起始损失信息，基于起始损失信息更新起始口音识别声学模型中的参数，并返回将起始声学特征输入到参数初始化的起始口音识别声学模型中的步骤迭代执行，直到起始训练完成时，得到训练完成的起始口音识别声学模型。

步骤1708，基于训练完成的起始口音识别声学模型建立基础口音识别声学模型，并从起始训练数据中获取基础训练数据，基础训练数据包括基础训练语音、基础训练语音对应的基础口音区域特征和基础音素标签，提取基础训练语音对应的基础声学特征。

步骤1710，将基础声学特征和基础口音区域特征输入基础口音识别声学模型中，基础口音识别声学模型将基础口音区域特征输入到基础转换网络中进行转换，得到基础转换特征，将基础声学特征输入到基础特征提取网络中进行语音特征提取，得到基础语音特征，基于基础转换特征和基础语音特征进行合并，得到基础合并特征，将基础合并特征输入到基础音素识别网络中进行语音音素识别，得到基础语音音素信息。

步骤1712，基于基础语音音素信息和对应的基础音素标签计算基础损失信息，基于基础损失信息更新基础口音识别声学模型，并返回将基础声学特征和基础口音区域特征输入基础口音识别声学模型中的步骤迭代执行，直到基础训练完成时，得到训练完成的基础口音识别声学模型。

步骤1714，基于训练完成的基础口音识别声学模型建立初始口音识别声学模型。将基础训练数据作为训练数据，该训练数据包括训练语音、训练语音对应的口音区域特征和音素标签，提取训练语音对应的声学特征。

步骤1716，将声学特征和口音区域特征输入初始口音识别声学模型中，初始口音识别声学模型将口音区域特征进行变换，得到初始变换特征，对声学特征进行语音特征提取，得到初始语音特征，将初始变换特征和初始语音特征进行合并，得到初始合并特征，并对初始合并特征进行语音音素识别，得到初始语音音素信息。

步骤1718，基于初始语音音素信息和对应的音素标签计算损失信息，基于损失信息更新初始口音识别声学模型，并返回将声学特征和口音区域特征输入初始口音识别声学模型中的步骤迭代执行，直到训练完成时，得到目标口音识别声学模型。

在一个具体的实施例中，对目标口音识别声学模型进行测试，具体来说：

使用中文方言数据来对本申请中训练得到的各个口音识别声学模型进行对比测试，首先将中国区域划分为十个区域，并设置好每个区域对应的区域特征，具体每个区域特征的划分和使用的训练数据和测试数据如下表 1所示。

表1数据集表

其中，每个区域都有对应的区域特征，具体的区域特征和区域的对应关系可以如图18所示。然后使用测试数据进行测试得到的识别结果，然后计算方言语音对应的文字错误率。文字错误率对比结果如下表2所示，文字错误率越小模型识别准确性越高，识别效果越好。

表2测试结果字错误率对比表

区域划分	A0	A1	A2
				1	4.93	4.73	4.63
2	6.41	5.96	5.60
				3	5.23	4.93	4.80
4	4.64	3.96	3.89
				5	4.98	4.91	4.86
6	6.07	6.05	5.60
				7	6.21	6.03	5.71
8	6.61	6.69	6.56
				9	4.01	3.79	3.73
10	5.75	5.73	5.87
				全部	5.37	5.14	5.02

其中，A0表示训练好的起始口音识别声学模型，A1表示训练好的基础口音识别声学模型，A2表示目标口音识别声学模型。明显可以是看出， A1模型和A2模型相对于A0模型识别效果都有明显的提升，即A2模型的准确性和A1模型的准确性都有明显的提高，识别得到的字错误率明显减少。

并且进一步，新增270小时的区域一的数据对A1模型再次进行训练，当训练完成后，得到新的模型A1+。同样使用该新增270小时的区域一的数据对A2模型再次进行训练，当训练完成后，得到新的模型A2+，然后使用测试数据对A1+模型和A2+模型进行测试，得到的测试结果文字错误率如下表3所示。其中，文字错误率越小模型识别准确性越高，识别效果越好。

表3测试结果文字错误率对比表

区域划分	A1	A1+	A2	A2+
					1	4.73	4.59	4.63	4.45
2	5.96	6.03	5.60	5.60
					3	4.93	5.15	4.80	4.80
4	3.96	4.05	3.89	3.89
					5	4.91	4.90	4.86	4.86
6	6.05	5.89	5.60	5.60
					7	6.03	6.14	5.71	5.71
8	6.69	7.30	6.56	6.56
					9	3.79	3.76	3.73	3.73
10	5.73	5.74	5.87	5.87
					全部	5.14	5.20	5.02	4.99

其中，明显可以看出，A2+模型相对于A2模型提高了对区域1方言语音的识别准确性，并且未影响其他区域方言语音的识别效果。即A2模型可以是更加方便灵活的针对指定口音区域类别的语音进行优化，同时不会对其他区域类型的口音识别造成损失，提高了识别的稳定性和灵活性。

本申请还提供一种应用场景，该应用场景应用上述的口音识别方法。具体地，该口音识别方法在该应用场景的应用如下：

如图19所示，为口音识别方法具体的应用场景示意图。其中，预先训练得到目标口音识别声学模型，将目标口音识别声学模型进行部署到云端服务器中。并且预先训练好语言模型，将语言模型同样也部署到云端服务器中。具体来说：

通过麦克风阵列采集到待识别语音，将待识别语音通过声学前端算法进行处理，比如，通过噪声抑制、混响印制、回声消除、音源定位等处理得到处理后的待识别语音，将处理后的待识别语音发送到云端服务器中，通过云端识别算法进行识别，比如，通过目标口音识别声学模型和语言模型识别得到待识别语音对应的云端识别结果，同时也可以将处理后的待识别语音通过离线识别算法进行离线识别，最后通过融合算法将云端识别结果、离线识别结果结合离线和云端语义信息进行融合，得到待识别语音对应的识别结果，将识别结果进行展示。

应该理解的是，虽然图2-17的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-17中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图20所示，提供了一种口音识别声学模型训练装置 2000，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：数据获取模块2002、特征提取模块2004、模型训练模块2006和循环迭代模块2008，其中：

数据获取模块2002，用于获取训练数据，训练数据包括训练语音、训练语音对应的口音区域特征和音素标签；

特征提取模块2004，用于提取训练语音对应的声学特征；

模型训练模块2006，用于将声学特征和口音区域特征输入初始口音识别声学模型中，初始口音识别声学模型将口音区域特征进行变换，得到初始变换特征，对声学特征进行语音特征提取，得到初始语音特征，将初始变换特征和初始语音特征进行合并，得到初始合并特征，并对初始合并特征进行语音音素识别，得到初始语音音素信息；

循环迭代模块2008，用于基于初始语音音素信息和对应的音素标签计算损失信息，基于损失信息更新初始口音识别声学模型，并返回将声学特征和口音区域特征输入初始口音识别声学模型中的步骤迭代执行，直到训练完成时，得到目标口音识别声学模型。

在一个实施例中，初始口音识别声学模型包括：初始转换网络、初始特征提取网络和初始音素识别网络；模型训练模块2006，包括：

转换单元，用于将口音区域特征输入初始转换网络中进行转换，得到初始转换特征；

语音特征提取单元，用于将声学特征输入初始特征提取网络中进行语音特征提取，得到初始语音特征；

初始合并单元，用于将初始转换特征和初始语音特征进行合并，得到初始合并特征；

识别单元，用于将初始合并特征输入初始音素识别网络中进行语音音素识别，得到初始语音音素信息。

在一个实施例中，语音特征提取单元还用于将声学特征通过频谱增强进行变形，得到声学增强特征，将声学增强特征输入初始特征提取网络中进行语音特征提取，得到初始语音特征。

在一个实施例中，初始音素识别网络包括初始语音音素特征提取网络、初始目标转换网络和至少两个不同口音区域特征对应的初始口音音素识别网络；

识别单元，包括：

音素特征提取子单元，用于将初始合并特征输入初始语音音素特征提取网络中进行语音音素特征提取，得到初始语音音素特征；

目标转换子单元，用于将口音区域特征输入初始目标转换网络中进行转换，得到初始目标转换特征；

音素识别子单元，用于将初始语音音素特征和初始目标转换特征进行合并，得到目标合并特征，将目标合并特征输入口音区域特征对应的初始口音音素识别网络中进行音素识别，得到初始语音音素信息。

音素特征提取子单元还用于将初始合并特征输入初始时延神经网络中进行计算，得到初始时延特征；将口音区域特征输入初始中间转换网络中进行转换，得到初始中间转换特征；将初始时延特征和初始中间转换特征进行合并，得到初始中间合并特征，将初始中间合并特征输入到初始门控循环网络中进行计算，得到初始语音音素特征。

在一个实施例中，循环迭代模块2008还用于初始语音音素信息和对应的音素标签使用最大互信息优化函数计算损失信息，当损失信息未符合训练完成条件时，基于损失信息反向更新初始口音识别声学模型的参数，得到更新口音识别声学模型；将更新口音识别声学模型作为初始口音识别声学模型，并将声学特征和口音区域特征输入初始口音识别声学模型中的步骤迭代执行，直到损失信息符合训练完成条件时，将符合训练完成条件的初始口音识别声学模型作为目标口音识别声学模型。

在一个实施例中，口音识别声学模型训练装置2000，还包括：

基础数据获取模块，用于获取基础训练数据，基础训练数据包括基础训练语音、基础训练语音对应的基础口音区域特征和基础音素标签；

基础特征提取模块，用于提取基础训练语音对应的基础声学特征；

基础模型训练模块，用于将基础声学特征和基础口音区域特征输入基础口音识别声学模型中，基础口音识别声学模型将基础口音区域特征输入到基础转换网络中进行转换，得到基础转换特征，将基础声学特征输入到基础特征提取网络中进行语音特征提取，得到基础语音特征，基于基础转换特征和基础语音特征进行合并，得到基础合并特征，将基础合并特征输入到基础音素识别网络中进行语音音素识别，得到基础语音音素信息；

基础循环模块，用于基于基础语音音素信息和对应的基础音素标签计算基础损失信息，基于基础损失信息更新基础口音识别声学模型，并返回将基础声学特征和基础口音区域特征输入基础口音识别声学模型中的步骤迭代执行，直到基础训练完成时，得到训练完成的基础口音识别声学模型；

初始模型建立模块，用于基于训练完成的基础口音识别声学模型建立初始口音识别声学模型。

在一个实施例中，基础音素识别网络包括基础语音音素特征提取网络、基础目标转换网络和基础口音音素识别网络；基础模型训练模块还用于将基础合并特征输入到基础语音音素特征提取网络中进行语音音素特征提取，得到基础语音音素特征；将基础口音区域特征输入基础目标转换网络中进行转换，得到基础目标转换特征；将基础语音音素特征和基础目标转换特征进行合并，得到基础目标合并特征，将基础目标合并特征输入基础口音音素识别网络中进行音素识别，得到基础语音音素信息。

在一个实施例中，初始模型建立模块还用于将训练完成的基础口音识别声学模型中的基础转换网络作为初始口音识别声学模型中的初始转换网络；将训练完成的基础口音识别声学模型中的基础特征提取网络作为初始口音识别声学模型中的初始特征提取网络；将训练完成的基础口音识别声学模型中的基础语音音素特征提取网络作为初始口音识别声学模型中的初始语音音素特征提取网络；将训练完成的基础口音识别声学模型中的基础目标转换网络作为初始口音识别声学模型中的初始目标转换网络；并建立至少两个不同口音区域特征对应的初始口音音素识别网络，得到初始口音识别声学模型。

在一个实施例中，基础语音音素特征提取网络包括至少一个基础时延神经网络、至少一个基础门控循环网络和至少一个基础中间转换网络，基础时延神经网络和基础门控循环网络为交替网络结构；基础模型训练模块还用于将基础合并特征输入基础时延神经网络中进行计算，得到基础时延特征；将基础口音区域特征输入基础中间转换网络中进行转换，得到基础中间转换特征；将基础时延特征和基础中间转换特征进行合并，得到基础中间合并特征，将基础中间合并特征输入到基础门控循环网络中进行计算，得到基础语音音素特征。

在一个实施例中，口音识别声学模型训练装置2000，还包括：

起始数据获取模块，用于获取起始训练数据，起始训练数据包括起始训练语音和对应的起始音素标签；

起始模型训练模块，用于提取起始训练语音对应的起始声学特征，将起始声学特征输入到参数初始化的起始口音识别声学模型中，起始口音识别声学模型将起始声学特征输入到起始特征提取网络进行特征提取，得到起始语音特征，并将起始语音特征输入到起始音素识别网络中进行语音音素识别，得到起始语音音素信息；

起始模型循环模块，用于基于起始语音音素信息和对应的起始语音音素标签计算起始损失信息，基于起始损失信息更新起始口音识别声学模型中的参数，并返回将起始声学特征输入到参数初始化的起始口音识别声学模型中的步骤迭代执行，直到起始训练完成时，得到训练完成的起始口音识别声学模型；

基础模型建立模块，用于基于训练完成的起始口音识别声学模型建立基础口音识别声学模型。

在一个实施例中，起始音素识别网络包括起始语音音素特征提取网络和起始口音音素识别网络；起始模型训练模块还用于将起始语音特征输入到起始语音音素特征提取网络中进行语音音素特征提取，得到起始语音音素特征，并将起始语音音素特征输入到起始口音音素识别网络中进行音素识别，得到起始语音音素信息。

在一个实施例中，起始语音音素特征提取网络包括至少一个起始时延神经网络和至少一个起始门控循环网络，起始时延神经网络和起始门控循环网络为交替网络结构；起始模型训练模块还用于将起始语音特征输入起始时延神经网络中进行计算，得到起始时延特征，并将起始时延特征输入到起始门控循环网络中进行计算，得到起始语音音素特征。

在一个实施例中，基础模型建立模块还用于将训练完成的起始特征提取网络作为基础特征提取网络，将训练完成的起始时延神经网络作为基础时延神经网络，将训练完成的起始门控循环网络作为基础门控循环网络，将训练完成的起始口音音素识别网络作为基础口音音素识别网络，并建立参数初始化的转换网络，得到基础口音识别声学模型。

在一个实施例中，口音识别声学模型训练装置2000，还包括：：

目标区域优化模块，用于获取目标区域对应的目标口音数据，目标口音数据包括目标区域语音和对应的目标区域语音音素标签；获取目标区域对应的目标区域特征并提取目标区域语音对应的目标区域语音声学特征；将目标区域语音声学特征和目标区域特征输入到目标口音识别声学模型中，目标口音识别声学模型将目标区域特征进行变换，得到目标区域变换特征，基于目标区域声学特征进行语音特征提取，得到目标区域语音特征，基于目标区域变换特征和目标区域语音特征进行合并，得到目标区域合并特征，基于目标区域合并特征进行语音音素识别，得到目标区域语音音素信息；基于目标区域语音音素信息和对应的目标区域语音音素标签计算目标区域语音损失信息，基于目标区域语音损失信息更新目标口音识别声学模型中目标区域对应的音素识别网络，并返回将目标区域语音声学特征和目标区域特征输入到目标口音识别声学模型中的步骤迭代执行，直到目标训练完成时，得到优化口音识别声学模型。

在一个实施例中，如图21所示，提供了一种口音识别装置2100，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：待识别语音获取模块2102、待识别特征提取模块2104、模型识别模块2106和文本得到模块2108，其中：

待识别语音获取模块2102，用于获取到待识别口音语音和对应的待识别区域信息；

待识别特征提取模块2104，用于提取待识别口音语音对应的待识别声学特征并获取待识别区域信息对应的待识别区域特征；

模型识别模块2106，用于将待识别声学特征和待识别区域特征输入到目标口音识别声学模型中，目标口音识别声学模型将待识别区域特征进行变换，得到待识别变换特征，对待识别声学特征进行语音特征提取，得到待识别语音特征，将待识别变换特征和待识别语音特征进行合并，得到待识别合并特征，并对待识别合并特征进行语音音素识别，得到待识别口音语音对应的语音音素信息；

文本得到模块2108，用于基于口音音素信息进行文本识别，得到待识别口音语音对应的目标文本。

关于口音识别声学模型训练装置和口音识别装置的具体限定可以参见上文中对于口音识别声学模型训练方法和口音识别方法的限定，在此不再赘述。上述口音识别声学模型训练装置和口音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图22所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各种训练数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种口音识别声学模型训练方法和口音识别方法。

本领域技术人员可以理解，图22中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory， SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

49页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：口音分类模型训练和口音分类方法、装置和存储介质

口音识别声学模型训练、口音识别方法、装置和存储介质

相关技术

网友询问留言