声学特征转换及模型训练方法、装置、设备、介质

文档序号:154800 发布日期:2021-10-26 浏览:16次 >En<

阅读说明:本技术 声学特征转换及模型训练方法、装置、设备、介质 (Acoustic feature conversion and model training method, device, equipment and medium ) 是由 林诗伦 于 2020-12-30 设计创作,主要内容包括:本申请提供了一种声学特征转换及模型训练方法、装置、设备、介质,应用于人工智能领域;其中,所述声学特征转换方法包括:将待转换文本序列输入至转换模型的编码器网络,得到文本表示序列;待转换文本序列包括音韵特征信息;将文本表示序列输入至转换模型的基础注意力网络,得到当前时间步的第一注意力状态、第一上下文向量和基础注意力得分矩阵;将当前时间步的第一注意力状态和第一上下文向量输入至转换模型的解码器网络,得到第一声学特征;第一声学特征用于合成待转换文本序列对应的音频数据。通过本申请提供的声学特征转换方法,能够生成质量较高的声学特征。(The application provides an acoustic feature conversion and model training method, device, equipment and medium, which are applied to the field of artificial intelligence; the acoustic feature conversion method comprises the following steps: inputting a text sequence to be converted into an encoder network of a conversion model to obtain a text representation sequence; the text sequence to be converted comprises rhyme characteristic information; inputting the text representation sequence into a basic attention network of a conversion model to obtain a first attention state, a first context vector and a basic attention scoring matrix of the current time step; inputting a first attention state and a first context vector of a current time step into a decoder network of a conversion model to obtain a first acoustic feature; the first acoustic feature is used for synthesizing audio data corresponding to the text sequence to be converted. By the acoustic feature conversion method, acoustic features with high quality can be generated.)

声学特征转换及模型训练方法、装置、设备、介质

技术领域

本申请涉及人工智能技术领域,尤其涉及一种声学特征转换方法、装置、设备及计算机可读存储介质。

背景技术

人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,该技术企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

语音合成技术通过一定的规则或模型算法将文本转换为对应的音频内容。传统的语音合成技术主要基于拼接方法或统计参数方法,可以实现文本到语音的特征转换。然而,传统的语音合成技术中文本到语音的特征转换方案得到的声学特征质量较低,无法满足应用场景需求。

发明内容

本申请实施例提供一种声学特征转换方法、装置、设备及计算机可读存储介质,能够生成质量较高的声学特征。

本申请实施例的技术方案是这样实现的:

本申请实施例提供一种声学特征转换方法,包括:将待转换文本序列输入至转换模型的编码器网络,得到文本表示序列;待转换文本序列包括音韵特征信息;将文本表示序列输入至转换模型的基础注意力网络,得到当前时间步的第一注意力状态、第一上下文向量和基础注意力得分矩阵;将当前时间步的第一注意力状态和第一上下文向量输入至转换模型的解码器网络,得到第一声学特征;第一声学特征用于合成待转换文本序列对应的音频数据;其中,转换模型在训练过程中的损失函数与至少一个指导注意力网络对应的第一损失值相关;第一损失值用于表征指导注意力网络输出的指导注意力得分矩阵和基础注意力得分矩阵之间的距离。

在本申请的一些实施例中,所述将文本表示序列输入至转换模型的基础注意力网络,得到当前时间步的第一注意力状态、第一上下文向量和基础注意力得分矩阵,包括:根据上一时间步的第二注意力状态、第二上下文向量和第二声学特征,确定当前时间步的第一注意力状态;根据文本表示序列、第一注意力状态和当前时间步的序列位置,确定基础注意力得分矩阵;根据基础注意力得分矩阵和文本表示序列,确定第一上下文向量。

在本申请的一些实施例中,所述文本表示序列包括多个序列位置对应的文本表示向量;所述根据基础注意力得分矩阵和文本表示序列,确定第一上下文向量,包括:根据基础注意力得分矩阵中每一序列位置对应的注意力权重,对每一序列位置对应的文本表示向量进行加权求和,得到第一上下文向量。

在本申请的一些实施例中,所述将当前时间步的第一状态和第一上下文向量输入至转换模型的解码器网络,得到第一声学特征,包括:获取上一时间步的第二解码器状态;将第二解码器状态、第一上下文向量和第一注意力状态输入至解码器网络,得到第一声学特征。

在本申请的一些实施例中,所述将第二解码器状态、第一上下文向量和第一注意力状态输入至解码器网络,得到第一声学特征,包括:根据第二解码器状态、第一上下文向量和第一注意力状态,确定第一解码器状态;基于预设的仿射函数,将第一解码器状态转换为第一声学特征。

在本申请的一些实施例中,所述方法还包括:将第一声学特征输入至转换模型的后处理网络,得到第一待转换特征;将第一待转换特征输入至预设的声码器,得到待转换文本序列对应的音频数据。

本申请实施例提供一种转换模型训练方法,包括:获取样本数据;样本数据包括样本文本序列;将样本文本序列输入至转换模型的编码器网络,得到样本表示序列;将样本表示序列输入至转换模型的基础注意力网络,得到当前时间步的样本基础得分矩阵;将样本表示序列输入至转换模型的至少一个指导注意力网络,得到每一指导注意力网络输出的当前时间步的样本指导得分矩阵;根据样本基础得分矩阵和每一指导注意力网络输出的样本指导得分矩阵,确定每一指导注意力网络对应的第一损失值;第一损失值用于表征指导注意力网络输出的样本指导得分矩阵和样本基础得分矩阵之间的距离;利用每一指导注意力网络对应的第一损失值对转换模型的模型参数进行调整,以得到训练后的转换模型。

在本申请的一些实施例中,所述将样本表示序列输入至转换模型的基础注意力网络,得到当前时间步的样本基础得分矩阵,包括:根据上一时间步的第四注意力状态、第四上下文向量和第四声学特征,确定当前时间步的第三注意力状态;根据样本表示序列、第三注意力状态和当前时间步的序列位置,确定样本基础得分矩阵。

在本申请的一些实施例中,所述样本数据还包括样本文本序列对应的样本声学特征;所述方法还包括:根据样本基础得分矩阵和第三注意力状态,确定第三上下文向量;将第三注意力状态和第三上下文向量输入至转换模型的解码器网络,得到第三声学特征;第三声学特征用于合成样本文本序列对应的音频数据;根据第三声学特征和样本声学特征,确定第二损失值;所述利用每一指导注意力网络对应的第一损失值对转换模型的模型参数进行调整,以得到训练后的转换模型,包括:利用第二损失值,和每一指导注意力网络对应的第一损失值对转换模型的模型参数进行调整,以得到训练后的转换模型。

在本申请的一些实施例中,在指导注意力网络为前向注意力网络的情况下,所述将样本表示序列输入至转换模型的至少一个指导注意力网络,得到每一指导注意力网络输出的当前时间步的样本指导得分矩阵,包括:基于当前时间步的样本基础得分矩阵和上一时间步的第二对齐参数,确定当前时间步的第一对齐参数;对第一对齐参数进行归一化,得到前向注意力网络输出的第一指导得分矩阵;所述根据样本基础得分矩阵和每一指导注意力网络输出的样本指导得分矩阵,确定每一指导注意力网络对应的第一损失值,包括:根据样本基础得分矩阵和第一指导得分矩阵确定前向注意力网络对应的第一损失值。

在本申请的一些实施例中,所述第一对齐参数包括每一序列位置对应的第一子参数;所述基于当前时间步的基础注意力得分矩阵和上一时间步的第二对齐参数,确定当前时间步的第一对齐参数,包括:基于样本基础得分矩阵中每一序列位置对应的注意力权重和第二对齐参数中每一序列位置对应的第二子参数,确定当前时间步的每一序列位置对应的第一子参数。

在本申请的一些实施例中,在指导注意力网络为高斯注意力网络的情况下,所述将样本表示序列输入至转换模型的至少一个指导注意力网络,得到每一指导注意力网络输出的当前时间步的样本指导得分矩阵,包括:根据第三注意力状态,获取当前时间步的第一均值参数、第一方差参数和第一偏移参数;根据第一均值参数、第一方差参数和第一偏移参数确定混合高斯分布;基于混合高斯分布得到高斯注意力网络输出的第二指导得分矩阵;所述根据样本基础得分矩阵和每一指导注意力网络输出的样本指导得分矩阵,确定每一指导注意力网络对应的第一损失值,包括:根据样本基础得分矩阵和第二指导得分矩阵确定高斯注意力网络对应的第一损失值。

在本申请的一些实施例中,所述根据第三注意力状态,获取当前时间步的第一均值参数、第一方差参数和第一偏移参数,包括:通过多层感知器将第三注意力状态转换为均值中间参数、方差中间参数和偏移中间参数;基于将方差中间参数输入至指数函数,得到第一方差参数;将偏移中间参数输入至第一激活函数,得到第一偏移参数;将均值中间参数输入至第二激活函数,根据第二激活函数输出的参数与上一时间步的第二均值参数,确定第一均值参数。

在本申请的一些实施例中,所述方法还包括:将第三声学特征输入至转换模型的后处理网络,得到第二待转换特征;根据第二待转换特征和样本声学特征,确定第三损失值;利用每一指导注意力网络对应的第一损失值对转换模型的模型参数进行调整,以得到训练后的转换模型,包括:利用第三损失值,和每一指导注意力网络对应的第一损失值对转换模型的模型参数进行调整,以得到训练后的转换模型。

本申请实施例提供一种声学特征转换装置,所述装置包括:第一输入模块,用于将待转换文本序列输入至转换模型的编码器网络,得到文本表示序列;待转换文本序列包括音韵特征信息;第二输入模块,用于将文本表示序列输入至转换模型的基础注意力网络,得到当前时间步的第一注意力状态、第一上下文向量和基础注意力得分矩阵;第三输入模块,用于将当前时间步的第一注意力状态和第一上下文向量输入至转换模型的解码器网络,得到第一声学特征;第一声学特征用于合成待转换文本序列对应的音频数据;其中,转换模型在训练过程中的损失函数与至少一个指导注意力网络对应的第一损失值相关;第一损失值用于表征指导注意力网络输出的指导注意力得分矩阵和基础注意力得分矩阵之间的距离。

本申请实施例提供一种转换模型训练装置,所述装置包括:编码模块,用于获取样本数据;样本数据包括样本文本序列;将样本文本序列输入至转换模型的编码器网络,得到样本表示序列。基础注意力模块,用于将样本表示序列输入至转换模型的基础注意力网络,得到当前时间步的样本基础得分矩阵。指导注意力模块,用于将样本表示序列输入至转换模型的至少一个指导注意力网络,得到每一指导注意力网络输出的当前时间步的样本指导得分矩阵。调参模块,用于根据样本基础得分矩阵和每一指导注意力网络输出的样本指导得分矩阵,确定每一指导注意力网络对应的第一损失值;第一损失值用于表征指导注意力网络输出的样本指导得分矩阵和样本基础得分矩阵之间的距离;利用每一指导注意力网络对应的第一损失值对转换模型的模型参数进行调整,以得到训练后的转换模型。

本申请实施例提供一种计算机设备,包括:

存储器,用于存储可执行指令;

处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的声学特征转换方法或转换模型训练方法。

本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的声学特征转换方法或转换模型训练方法。

本申请实施例具有以下有益效果:

本申请实施例通过转换模型将待转换文本序列转换为可以合成音频数据的第一声学特征,其中,该转换模型的模型参数在训练过程中基于至少一个指导注意网络对应的第一损失值进行了调整,使得该转换模型具备了各个指导注意力网络的优点。如此,可以提升该转换模型的转换准确率,提高声学特征的质量,并且扩大了本申请的应用场景。并且,在实际应用中,可以为用户的良好交互提供技术支持,使用本申请实施例方法转换的声学特征可以得到更加准确的音频信息,便于用户使用,提升用户使用体验。

附图说明

图1A是本申请实施例提供的声学特征转换系统的一个可选的架构示意图;

图1B是本发明实施例提供的车载语音合成系统的一个可选的架构示意图;

图2A是本申请实施例提供的声学特征转换设备的结构示意图;

图2B是本申请实施例提供的转换模型训练设备的结构示意图

图3是本申请实施例提供的声学特征转换方法的一个可选的流程示意图;

图4是本申请实施例提供的声学特征转换方法的一个可选的流程示意图;

图5是本申请实施例提供的声学特征转换方法的一个可选的流程示意图;

图6是本申请实施例提供的转换模型训练方法的一个可选的流程示意图;

图7是本申请实施例提供的转换模型训练方法的一个可选的流程示意图;

图8是本申请实施例提供的转换模型训练方法的一个可选的流程示意图;

图9是本申请实施例提供的转换模型训练方法的一个可选的流程示意图;

图10是本申请实施例提供的转换模型训练方法的一个可选的流程示意图;

图11是本申请实施例提供的一个可选的云服务场景的场景示意图;

图12是本申请实施例提供的一个可选的定制语音场景的场景示意图;

图13是本申请实施例提供的一个可选的语音合成系统架构图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。

在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使在本实施例中描述的本申请实施例能够以除了在在本实施例中图示或描述的以外的顺序实施。

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。

本申请实施例提供的方案涉及人工智能技术,具体通过如下实施例进行说明:

AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请实施例所涉及机器学习技术。

其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。

(1)语音合成:也被称为文字转语音(Text to Speech,TTS),其作用是将计算机自己产生的或外部输入的文字信息转变为可以听得懂的、流利的语音并朗读出来。

(2)频谱:频谱(Spectrograms)是指一个时域的信号在频域下的表示方式,可以针对信号进行傅里叶变换而得,所得的结果是分别以幅度及相位为纵轴,频率为横轴的两张图,语音合成技术应用中多会省略相位的信息,只保留不同频率下对应的幅度信息。

(3)基频:在声音中,基频(Fundamental frequency)是指一个复音中基音的频率,用符号FO表示。在构成一个复音的若干个音中,基音的频率最低,强度最大。基频的高低决定一个音的高低。平常所谓语音的频率,一般指的是基音的频率。

(4)声码器:声码器(Vocoder)源自人声编码器(Voice Encoder)的缩写,又称语音信号分析合成系统,其作用是将声学特征转换为声音。

(5)GMM:混合高斯模型(Gaussian Mixture Model)是单一高斯概率密度函数的延伸,用多个高斯概率密度函数更为精确地对变量分布进行统计建模。

(6)DNN:深度神经网络(Deep Neural Network)是一种判别模型,是包含超过两个隐藏层的MLP(多层感知机),除了输入节点外,每个节点都是一个带有非线性激活函数的神经元,与MLP一样,DNN可以使用反向传播算法进行训练。

(7)CNN:卷积神经网络(Convolutional Neural Network)是一种前馈神经网络,其神经元可对感受野内的单元进行响应。CNN通常由多个卷积层和顶端的全连接层组成,其通过共享参数降低模型的参数量,使之在图像和语音识别方面得到广泛应用。

(8)RNN:循环神经网络(Recurrent Neural Network,RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(Recursive Neural Network)。

(9)LSTM:长短时记忆网络(Long Short-Term Memory),是一种循环神经网络,它在算法中加入了一个判断信息有用与否的Cell。一个Cell中放置了输入门、遗忘门和输出门。信息进入LSTM后,根据规则来判断是否有用。符合算法认证的信息才会留下,不符的信息则通过遗忘门被遗忘。该网络适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。

(10)GRU:循环门单元(Gate Recurrent Unit),是循环神经网络的一种。和LSTM一样,也是为了解决长期记忆和反向传播中的梯度等问题而提出的。与LSTM相比,GRU内部少了一个“门控”,参数比LSTM少,在多数情况下能够达到与LSTM相当的效果并有效降低计算耗时。

(11)CTC:连续时间分类(Connectionist Temporal Classification)是一种时序分类算法,其优点是可以对没有对齐的数据进行自动对齐,主要用在没有事先对齐的序列化数据上。比如语音识别、光学字符识别等。

参见图1A,图1A是本申请实施例提供的声学特征转换系统100的一个可选的架构示意图,为实现支撑一个声学特征转换应用,终端400-1通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。图1A还示出了服务器200可以为服务器集群,该服务器集群包括服务器200-1至200-3,同样地,服务器200-1至200-3可以是实体机器,也可以是利用虚拟化技术(如容器技术及虚拟机技术等)构建的虚拟机器,本申请实施例对此不做限定,当然,在本实施例中也可使用单个服务器来进行服务的提供。

在本申请的一些实施例中,任何形式的终端400-1可通过网络300接入到用于提供语音合成服务的服务器200。终端正常接入服务器200后,将需要合成的文本发送至服务器200,服务器200进行快速合成后,可通过流式或整句返回的形式,向终端发送对应的合成音频。一次完整的语音合成流程为:终端将需要合成的待转换文本序列上传至服务器200,服务器200接收到待转换文本序列后,将待转换文本序列输入至转换模型的编码器网络,得到文本表示序列;待转换文本序列包括音韵特征信息;将文本表示序列输入至转换模型的基础注意力网络,得到当前时间步的第一注意力状态、第一上下文向量和基础注意力得分矩阵;将当前时间步的第一注意力状态和第一上下文向量输入至转换模型的解码器网络,得到第一声学特征;通过第一声学特征快速合成出待转换文本序列对应的音频,并完成音频压缩等处理操作;服务器通过流式或整句返回的方式将音频返回到终端,终端接收到音频后可进行流畅自然的语音播放。

以车载终端场景为例,请参照图1B,图1B是本发明实施例提供的车载语音合成系统的一个可选的架构示意图,为实现支撑一个示例性应用,车辆设备11为在道路上行驶的任意的车辆,车辆设备11中的车载设备12(比如,车辆的中控系统或车载电脑等),其中,车载设备12可以通过有线/无线的方式与终端400-2建立连接,车载设备12还可以通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。图1B还示出了服务器200可以为服务器集群,该服务器集群包括服务器200-1至200-3,同样地,服务器200-1至200-3可以是实体机器,也可以是利用虚拟化技术(如容器技术及虚拟机技术等)构建的虚拟机器。终端400-2可以为手机、平板、穿戴式设备等移动设备。

在相关技术中,车载设备一旦接收到消息就将消息排入消息队列并即时开始进行消息提醒,类似手机,个人电脑端的体验,或者是车载设备接收到消息后不进行消息提醒,需要等用户主动查看新消息,上述方案中,用户主动查看消息的方式均会对驾驶车辆行驶的用户产生过多的干扰,造成安全隐患。针对上述车载终端场景中的消息提醒问题,可以通过包括本申请提供的声学特征转换方法的语音合成系统,可以将消息转换为音频并告知用户,降低了对用户的干扰,消除了安全隐患。

在本申请的一些实施例中,车载设备12中设置有语音合成系统,在该车载设备12接收到需要进行语音播报的消息后,可以采用车载设备12中预设的语音合成系统,获取该消息对应的待转换文本序列,将待转换文本序列输入至转换模型的编码器网络,得到文本表示序列;将文本表示序列输入至转换模型的基础注意力网络,得到当前时间步的第一注意力状态、第一上下文向量和基础注意力得分矩阵;将当前时间步的第一注意力状态和第一上下文向量输入至转换模型的解码器网络,得到第一声学特征;通过第一声学特征快速合成出待转换文本序列对应的音频,并完成音频压缩等处理操作。之后可以通过该车载设备内置的音频播放设备输出该音频,或者,通过流式或整句返回的方式将音频发送至车辆设备11,并通过车辆设备11中的音频播放设备输出该音频。

在本申请的一些实施例中,车载设备12在接收到需要进行语音播报的消息后,将需要合成的待转换文本序列上传至服务器200,服务器200接收到待转换文本序列后,将待转换文本序列输入至转换模型的编码器网络,得到文本表示序列;待转换文本序列包括音韵特征信息;将文本表示序列输入至转换模型的基础注意力网络,得到当前时间步的第一注意力状态、第一上下文向量和基础注意力得分矩阵;将当前时间步的第一注意力状态和第一上下文向量输入至转换模型的解码器网络,得到第一声学特征;通过第一声学特征快速合成出待转换文本序列对应的音频,并完成音频压缩等处理操作;服务器通过流式或整句返回的方式将音频返回到车辆设备11。之后可以通过该车载设备内置的音频播放设备输出该音频,或者,通过流式或整句返回的方式将音频发送至车辆设备11,并通过车辆设备11中的音频播放设备输出该音频。

在本申请的一些实施例中,车载设备12可以通过以下方式接收需要进行语音播报的消息。其中,车载设备12与终端400-2连接,终端400-2可以接收需要进行语音播放的信息,该信息可以包括以下至少之一:其他终端发送的短信信息、即时通讯软件接收到的信息、任意应用软件的推送消息和用户指定的待播放信息等。在终端接收到上述需要进行语音播放的信息后,会将该信息传输至该车载设备12,车载设备12可以通过上述实施例提供的语音合成系统,将该信息合成为音频,并通过车载设备12或车辆设备11的音频播放设备输出该音频。

参见图2A,图2A是本申请实施例提供的声学特征转换设备500的结构示意图,图2A所示的声学特征转换设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。声学特征转换设备500中的各个组件通过总线系统540耦合在一起。可理解,总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2A中将各种总线都标为总线系统540。

参见图2B,图2B是本申请实施例提供的转换模型训练设备600的结构示意图,图2B所示的转换模型训练设备600包括:至少一个处理器610、存储器650、至少一个网络接口620和用户接口630。转换模型训练设备600中的各个组件通过总线系统640耦合在一起。可理解,总线系统640用于实现这些组件之间的连接通信。总线系统640除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2B中将各种总线都标为总线系统640。

处理器510/610可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530/630包括使得能够呈现媒体内容的一个或多个输出装置531/631,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530/630还包括一个或多个输入装置532/632,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550/650包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器550/650旨在包括任意适合类型的存储器。存储器550/650可选地包括在物理位置上远离处理器510/610的一个或多个存储设备。

在本申请的一些实施例中,存储器550/650能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。

操作系统551/651,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;

网络通信模块552/652,用于经由一个或多个(有线或无线)网络接口520/620到达其他计算设备,示例性的网络接口520/620包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;

显示模块553/653,用于经由一个或多个与用户接口530/630相关联的输出装置531/631(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);

输入处理模块554/654,用于对一个或多个来自一个或多个输入装置532/632之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在本申请的一些实施例中,本申请实施例提供的声学特征转换装置/转换模型训练装置可以采用软硬件结合的方式实现,作为示例,本申请实施例提供的声学特征转换装置/转换模型训练装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的声学特征转换方法/转换模型训练方法。

在本申请的一些实施例中,本申请实施例提供的声学特征转换装置/转换模型训练装置可以采用软件方式实现,图2A示出了存储在存储器550中的声学特征转换装置555,其可以是程序和插件等形式的软件,包括以下软件模块:第一输入模块5551、第二输入模块5552和第三输入模块5553。图2B示出了存储在存储器650中的转换模型训练装置655,其可以是程序和插件等形式的软件,包括以下软件模块:编码模块6551、基础注意力模块6552、指导注意力模块6553和调参模块6554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。

将在下文中说明各个模块的功能。

在另一些实施例中,本申请实施例提供的装置可以采用硬件方式实现,作为示例,本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的声学特征转换方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件。

将结合本申请实施例提供的服务器的示例性应用和实施,在本申请实施例中,将以服务器为执行主体说明本申请实施例提供的声学特征转换方法。

参见图3,图3是本申请实施例提供的声学特征转换方法的一个可选的流程示意图,将结合图3示出的步骤进行说明。

在步骤301中,将待转换文本序列输入至转换模型的编码器网络,得到文本表示序列;待转换文本序列包括音韵特征信息。

在本申请的一些实施例中,该待转换文本序列包括的音韵特征信息可以包括以下至少之一:音素、声调以及韵律边界。其中,音素是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素;音素分为元音与辅音两大类。示例地,对于中文来说,音素包括声母(声母,是使用在韵母前面的辅音,跟韵母一齐构成的一个完整的音节)和韵母(即元音)。对于英文来说,音素包括元音和辅音。声调是指声音的高低升降的变化。示例地,中文中有四个声调:阴平、阳平、上声和去声,英文包括重读、次重读和轻读,日文包括重读和轻读。韵律边界用于指示在阅读文本时应该在哪些地方进行停顿。示例地,韵律边界分为“#1”、“#2”、“#3”和“#4”等不同停顿等级的韵律边界,其停顿程度依次增大。

在本申请的一些实施例中,在执行步骤301之前,可以获取原始文本,并对该原始文本进行处理,得到所述待转换文本序列。其中,该原始文本为任意语种下的字符序列。以英语语种为例,该原始文本为“The sky is blue”;以汉语语种为例,该原始文本为“天空是蓝色”。

在本申请的一些实施例中,可以通过预设的音韵特征转换模型对该原始文本进行处理,得到携带音韵特征信息的待转换文本序列。该音韵特征转换模型可以包括文本正则化(Text Normalization,TN)模型、字素到音素(Grapheme-to-Phoneme,G2P)模型、分词模型以及韵律模型。其中,可以通过TN模型将原始文本中的数字、符号、缩写等转换成语言文字,通过G2P模型获取多语种文本的音素,通过分词模型对多语种文本进行分词,通过韵律模型获取多语种的韵律边界以及声调。

其中,该G2P模型可以采用循环神经网络(Recurrent Neural Network,RNN)和长短期记忆网络(Long Short-Term Memory,LSTM)来实现从字素到音素的转化。分词模型可以为n-gram模型、隐马尔可夫模型、朴素贝叶斯分类模型等。韵律模型为预训练语言模型BERT(Bidirectional Encoder Representationfrom Transformers)、双向LSTM-CRF(Conditional Random Field,条件随机场)模型等。

例如,以该原始文本为“天空是蓝色”为例,可以通过预设的音韵特征转换模型处理该原始文本,得到的待转换文本序列可以为“tiānkōng#1shì#2lánsè”,可以看出,该待转换文本序列包含了音素、声调以及韵律边界。

在本申请的一些实施例中,该编码器网络用于将携带音韵特征信息的原始待转换文本序列转换为注意力网络可以识别的文本表示序列,其中,该注意力网络可以为步骤302中的基础注意力网络。该编码器网络可以为CBHG(Convolution Bank+Highway network+bidirectional Gated Recurrent Unit,卷积层+高速网络+双向递归神经网络)网络。通过该CBHG网络,可以减少过拟合,并且可以使得到的第一声学特征的更加贴近真实的声学特征。

其中,可以通过公式(1-1)来实现上述步骤301。

其中,表示文本表示序列,表示待转换文本序列,CBHG Encoder为上述CBHG网络;L为序列长度。

在本申请的一些实施例中,CBHG网络由卷积层、高速网络以及双向递归神经网络组成。

在步骤302中,将文本表示序列输入至转换模型的基础注意力网络,得到当前时间步的第一注意力状态、第一上下文向量和基础注意力得分矩阵。

在本申请的一些实施例中,该基础注意力网络可以包括注意力RNN模块(Attention-RNN)和基础注意力模块,在将该文本表示序列输入至转换模型的基础注意力网络后,该注意力RNN模块会获取该第一注意力状态,该基础注意力模块会基于该第一注意力状态和该文本表示序列确定该基础注意力得分矩阵,之后根据该第一注意力状态和基础注意力得分矩阵,可以确定第一上下文向量。

其中,文本表示序列按照时间顺序,依次输入到基础注意力网络中,时间顺序则表示时间步的概念。该第一注意力状态为注意力RNN模块的隐藏层神经元在当前时间步的隐藏状态,隐藏状态是连接各隐藏层各神经元的中介值。

在步骤303中,将当前时间步的第一注意力状态和第一上下文向量输入至转换模型的解码器网络,得到第一声学特征;第一声学特征用于合成待转换文本序列对应的音频数据。

在本申请的一些实施例中,该解码器网络可以包括解码器RNN模块(Decoder-RNN),在将当前时间步的第一注意力状态和第一上下文向量输入至该解码器网络后,该解码器RNN模块可以根据当前时间步的第一注意力状态和第一上下文向量,确定第一声学特征。

在本申请的一些实施例中,该第一声学特征用于合成待转换文本序列对应的音频数据,其中,该第一声学特征可以以压缩谱图的形式呈现,例如,可以采用幅度谱图(magnitude spectrograms),梅尔谱图(Mel spectrograms)。使用压缩谱图代替例如原始谱图可以减少冗余,从而减少训练过程和特征转换过程所需的计算量和耗时。

在本申请的一些实施例中,转换模型在训练过程中的损失函数与至少一个指导注意力网络对应的第一损失值相关;第一损失值用于表征指导注意力网络输出的指导注意力得分矩阵和基础注意力得分矩阵之间的距离。

其中,该转换模型的训练过程可以包括:获取样本数据;样本数据包括样本文本序列;将样本文本序列输入至转换模型的编码器网络,得到样本表示序列;将样本表示序列输入至转换模型的基础注意力网络,得到当前时间步的样本基础得分矩阵;将样本表示序列输入至转换模型的至少一个指导注意力网络,得到每一指导注意力网络输出的当前时间步的样本指导得分矩阵;根据样本基础得分矩阵和每一指导注意力网络输出的样本指导得分矩阵,确定每一指导注意力网络对应的第一损失值;第一损失值用于表征指导注意力网络输出的样本指导得分矩阵和样本基础得分矩阵之间的距离;利用每一指导注意力网络对应的第一损失值对转换模型的模型参数进行调整,以得到训练后的转换模型。

在上述转换模型的训练过程中,是根据至少一个指导注意力网络对应的第一损失值对该转换模型的模型参数进行调整,且第一损失值用于表征指导注意力网络输出的样本指导得分矩阵和样本基础得分矩阵之间的距离;在利用转换模型进行文本到语音的特征转换的过程中,虽然在该转换模型的各注意力网络中只使用了基础注意力网络,但是该转换模型的模型参数已经基于至少一个指导注意力网络进行了调整,至少一个指导注意力网络的特性已经融合进了该转换模型,因此,在文本到语音的声学特征转换的过程中,仍然具备每一指导注意力网络的优点。

在本申请的一些实施例中,该至少一个指导注意力网络与该基础注意力网络的机制均不相同。例如,该基础注意力网络的机制可以为位置敏感注意力机制;在基础注意力网络使用位置敏感注意力机制的情况下,每一指导注意力网络的机制为不是该位置敏感注意力机制的任意机制。示例性的,指导注意力网络的机制可以为单调性注意力机制(例如前向注意力机制)、动态卷积注意力机制(例如混合高斯注意力机制)等。

以基础注意力网络采用位置敏感注意力机制、存在采用前向注意力机制的指导注意力网络和采用混合高斯注意力机制的指导注意力网络为例,在训练过程中由于前向注意力机制为基础注意力网络提供一个强单调性指导,减少训练过程中误对齐带来的不良影响,提升了训练的速度以及所生成声学特征的质量;在训练过程中由于混合高斯注意力机制给基础注意力网络带来了长句合成的能力,使得基础注意力网络能够合成十倍于训练数据长度的句子,大大提升了整个系统对长句合成的鲁棒性。

需要说明的是,转换模型中的至少一个指导注意力网络仅在模型训练过程中使用,用于调整该转换模型的模型参数,得到训练后的转换模型,在实际进行文本到语音的特征转换的过程中,在将待转换文本序列输入至该训练后的转换模型后,只使用基础注意力网络,不使用至少一个指导注意力网络。

通过本申请实施例对于图3的上述示例性实施可知,本申请实施例通过转换模型将待转换文本序列转换为可以合成音频数据的第一声学特征,其中,该转换模型的模型参数在训练过程中基于至少一个指导注意网络对应的第一损失值进行了调整,使得该转换模型具备了各个指导注意力网络的优点。如此,可以提升该转换模型的转换准确率,提高声学特征的质量,并且扩大了本申请的应用场景。并且,在实际应用中,可以为用户的良好交互提供技术支持,使用本申请实施例方法转换的声学特征可以得到更加准确的音频信息,便于用户使用,提升用户使用体验。

参见图4,图4是本申请实施例提供的声学特征转换方法的一个可选的流程示意图,基于图3,图3中的步骤302包括步骤401至步骤403,步骤303包括步骤404和步骤405,将结合图4示出的步骤进行说明。

在步骤401中,根据上一时间步的第二注意力状态、第二上下文向量和第二声学特征,确定当前时间步的第一注意力状态。

在本申请的一些实施例中,可以通过公式(1-2)实现上述步骤401:

st=AttentionRNN(st-1,ct-1,ot-1) 公式(1-2);

其中,ct-1表示上一时间步的第二上下文向量,st-1表示上一时间步的第二注意力状态,ot-1上一时间步的第二声学特征,st表示当前时间步的第一注意力状态。

在步骤402中,根据文本表示序列、第一注意力状态和当前时间步的序列位置,确定基础注意力得分矩阵。

在本申请的一些实施例中,可以通过公式(1-3)实现上述步骤402:

αt=LSAttention(st,hi,lt) 公式(1-3);

其中,αt表示当前时间步的基础注意力得分矩阵,st表示当前时间步的第一注意力状态,hi表示文本表示序列,lt表示当前时间步的序列位置。

在步骤403中,根据基础注意力得分矩阵和文本表示序列,确定第一上下文向量。

在本申请的一些实施例中,所述文本表示序列包括多个序列位置对应的文本表示向量。可以根据以下方式实现上述步骤403:根据基础注意力得分矩阵中每一序列位置对应的注意力权重,对每一序列位置对应的文本表示向量进行加权求和,得到第一上下文向量。

例如,可以通过公式(1-4)来实现上述步骤403:

ct=∑iαt,ihi 公式(1-4);

其中,ct表示当前时间步的第一上下文向量,αt,i表示当前时间步的在序列位置为i对应的注意力权重,hi表示序列位置为i对应的文本表示向量。

在步骤404中,获取上一时间步的第二解码器状态。

在步骤405中,将第二解码器状态、第一上下文向量和第一注意力状态输入至解码器网络,得到第一声学特征。

在本申请的一些实施例中,可以根据以下方式实现上述步骤405:根据第二解码器状态、第一上下文向量和第一注意力状态,确定第一解码器状态;基于预设的仿射函数,将第一解码器状态转换为第一声学特征。

在本申请的一些实施例中,可以通过公式(1-5)和公式(1-6)实现步骤405:

dt=DecoderRNN(dt-1,ct,st) 公式(1-5);

其中,dt表示当前时间步的第一解码器状态,dt-1表示上一时间步的第二解码器状态,ct表示当前时间步的第一上下文向量,st表示当前时间步的第一注意力状态。

ot=Affine(dt) 公式(1-6);

其中,dt表示当前时间步的第一解码器状态,Affine(.)表示预设的仿射函数,ot表示当前时间步的第一声学特征。

参见图5,图5是本申请实施例提供的声学特征转换方法的一个可选的流程示意图,基于上述实施例,在图3中的步骤303之后,所述方法还包括步骤501和步骤502,将结合图5示出的步骤进行说明。

在步骤501中,将第一声学特征输入至转换模型的后处理网络,得到第一待转换特征。

在本申请的一些实施例中,该转化模型还包括后处理网络(postnet)。该后处理网络可以为CBHG网络。

在步骤502中,将第一待转换特征输入至预设的声码器,得到待转换文本序列对应的音频数据。

在本申请的一些实施例中,后处理网络可以对第一声学特征进行处理,以得到的第一待转换特征,将该第一待转换特征作为声码器的输入,可以得到声码器输出的音频数据,该音频数据为根据该待转换文本序列合成的语音。

通过本申请实施例对于图5的上述示例性实施可知,本申请实施例相比于没有后处理网络的语音合成模型,本申请提供的包括的后处理网络的转换模型可以利用更多的上下文信息。并且来自后处理网络的第一待转换特征包含更好的分辨谐波和高频共振峰结构,这减少了合成音的不自然度。

参见图6,图6是本申请实施例提供的转换模型训练方法的一个可选的流程示意图,将结合图6示出的步骤进行说明。

在步骤601中,获取样本数据;样本数据包括样本文本序列。

在步骤602中,将样本文本序列输入至转换模型的编码器网络,得到样本表示序列。

在本申请的一些实施例中,可以采用公式(1-7)将该样本文本序列转换为样本表示序列。

其中,表示文本表示序列,表示待转换文本序列,CBHG Encoder为上述CBHG网络;L为序列长度。

在步骤603中,将样本表示序列输入至转换模型的基础注意力网络,得到当前时间步的样本基础得分矩阵。

在步骤604中,将样本表示序列输入至转换模型的至少一个指导注意力网络,得到每一指导注意力网络输出的当前时间步的样本指导得分矩阵。

在本申请的一些实施例中,该至少一个指导注意力网络与该基础注意力网络的机制均不相同。例如,该基础注意力网络的机制可以为位置敏感注意力机制;在基础注意力网络使用位置敏感注意力机制的情况下,每一指导注意力网络的机制为不是该位置敏感注意力机制的任意机制。示例性的,指导注意力网络的机制可以为单调性注意力机制(例如前向注意力机制)、动态卷积注意力机制(例如混合高斯注意力机制)等。

在本申请的一些实施例中,在对所述转换模型进行训练的过程中,基于转换模型中的每一指导注意力网络,均会得到该指导注意力网络对应的样本指导得分矩阵。

在步骤605中,根据样本基础得分矩阵和每一指导注意力网络输出的样本指导得分矩阵,确定每一指导注意力网络对应的第一损失值。

在本申请的一些实施例中,该第一损失值用于表征所述指导注意力网络输出的样本指导得分矩阵和所述样本基础得分矩阵之间的距离。在一些实施例中,可以通过计算样本指导得分矩阵和样本基础得分矩阵之间L1范数作为指导注意力网络对应的第一损失值。

在步骤606中,利用每一指导注意力网络对应的第一损失值对转换模型的模型参数进行调整,以得到训练后的转换模型。

通过本申请实施例对于图6的上述示例性实施可知,本申请实施例基于至少一个指导注意网络对应的第一损失值进行了调整,使得该转换模型具备了各个指导注意力网络的优点。如此,可以提升该转换模型的转换准确率,提高声学特征的质量,并且扩大了本申请的应用场景。并且,在实际应用中,由于训练过程中可以根据实际需求选择不同特性的指导注意力网络,可以使得本申请实施例最终生成的转换模型可以适用于不同的应用场景,应用范围更广;同时,由于在训练过程中将各指导注意力网络的特征融合进基础注意力网络,在使用过程中无需使用各指导注意力网络,可以保证模型更新过程中无需对现有转换模型的框架做调整,运维成本和更新成本较低。

参见图7,图7是本申请实施例提供的转换模型训练方法的一个可选的流程示意图,基于图6,图6中的步骤603可以包括步骤701和步骤702,步骤604可以包括步骤703和步骤704,步骤605可以更新为步骤705,将结合图7示出的步骤进行说明。

在步骤701中,根据上一时间步的第四注意力状态、第四上下文向量和第四声学特征,确定当前时间步的第三注意力状态。

在本申请的一些实施例中,可以通过公式(1-8)实现上述步骤701:

s′t=AttentionRNN(s′t-1,c′t-1,o′t-1) 公式(1-8);

其中,c′t-1表示上一时间步的第四上下文向量,s′t-1表示上一时间步的第四注意力状态,o′t-1上一时间步的第四声学特征,s′t表示当前时间步的第三注意力状态。

在步骤702中,根据样本表示序列、第三注意力状态和当前时间步的序列位置,确定样本基础得分矩阵。

在本申请的一些实施例中,可以通过公式(1-9)实现上述步骤702:

α′t=LSAttention(s′t,h′i,l′t) 公式(1-9);

其中,α′t表示当前时间步的样本基础得分矩阵,s′t表示当前时间步的第三注意力状态,h′i表示样本表示序列,l′t表示当前时间步的序列位置。

在转换模型包括前向注意力网络的情况下,步骤604可以包括:

在步骤703中,基于当前时间步的样本基础得分矩阵和上一时间步的第二对齐参数,确定当前时间步的第一对齐参数。

在本申请的一些实施例中,所述第一对齐参数包括每一序列位置对应的第一子参数;可以通过以下方式实现上述步骤703:基于样本基础得分矩阵中每一序列位置对应的注意力权重和第二对齐参数中每一序列位置对应的第二子参数,确定当前时间步的每一序列位置对应的第一子参数。

在本申请的一些实施例中,可以通过公式(1-10)实现上述步骤703:

et,i=(et-1,i+et-1,i-1t,i 公式(1-10);

其中,et,i表示当前时间步每一序列位置i对应的第一子参数,et-1表示上一时间步的第二对齐参数,et-1,i表示该第二对齐参数在每一序列位置i对应的第二子参数;et-1,i-1表示该第二对齐参数在每一序列位置i-1对应的第二子参数,αt,i表示当前时间步的在序列位置为i对应的注意力权重。

在步骤704中,对第一对齐参数进行归一化,得到前向注意力网络对应的第一指导得分矩阵。

在本申请的一些实施例中,可以通过公式(1-11)实现上述步骤704:

其中,aft,i表示前向注意力网络对应的第一指导得分矩阵,et,i表示当前时间步每一序列位置i对应的第一子参数,即第一对齐参数。

在步骤705中,根据样本基础得分矩阵和第一指导得分矩阵确定前向注意力网络对应的第一损失值。

其中,通过计算aft,i和α′t之间的距离,确定该前向注意力网络对应的第一损失值。

通过本申请实施例对于图7的上述示例性实施可知,本申请实施例通过前向指导网络对该转换模型的模型参数进行调整,可以减少训练过程中误对齐带来的不良影响,提升了训练的速度以及所生成声学特征的质量。

参见图8,图8是本申请实施例提供的转换模型训练方法的一个可选的流程示意图,基于图6,图6中的步骤603可以包括步骤801和步骤802,步骤604可以包括步骤803、步骤804和步骤805,步骤605可以更新为步骤806,将结合图8示出的步骤进行说明。

在步骤801中,根据上一时间步的第四注意力状态、第四上下文向量和第四声学特征,确定当前时间步的第三注意力状态。

在步骤802中,根据文本表示序列、第三注意力状态和当前时间步的序列位置,确定样本基础得分矩阵。

在本申请的一些实施例中,步骤801和步骤802的实现方法与图7实施例中步骤701和步骤702的实现方法相同,在此不再赘述。

在步骤803中,根据第三注意力状态,获取当前时间步的第一均值参数、第一方差参数和第一偏移参数。

在本申请的一些实施例中,可以通过以下方法实现上述步骤803:通过多层感知器将所述第三注意力状态转换为均值中间参数、方差中间参数和偏移中间参数;基于将所述方差中间参数输入至指数函数,得到所述第一方差参数;将所述偏移中间参数输入至第一激活函数,得到所述第一偏移参数;将所述均值中间参数输入至第二激活函数,根据所述第二激活函数输出的参数与所述上一时间步的第二均值参数,确定所述第一均值参数。

在本申请的一些实施例中,可以通过公式(1-12)、公式(1-13)、公式(1-14)、公式(1-15)实现上述步骤803:

ω′t,μ′t,σ′t=MLP(s′t) 公式(1-12);

其中,s′t表示当前时间步的第三注意力状态,ω′t表示当前时间步的偏移中间参数,μ′t表示当前时间步的均值中间参数,σ′t表示当前时间步的方差中间参数,MLP(.)表示多层感知器。

ωt=softmax(ω′t) 公式(1-13);

其中,ωt表示当前时间步的第一偏移参数,ω′t表示当前时间步的偏移中间参数,softmax(.)表示第一激活函数。

σt=exp(σ′t) 公式(1-14);

其中,σt表示当前时间步的第一方差参数,σ′t表示当前时间步的方差中间参数,exp(.)表示指数函数。

μt=softplus(μ′t)+μt-1 公式(1-15);

其中,μt表示当前时间步的第一均值参数,μ′t表示当前时间步的均值中间参数,softplus(.)表示第二激活函数。

在步骤804中,根据第一均值参数、第一方差参数和第一偏移参数确定混合高斯分布。

在步骤805中,基于混合高斯分布得到高斯注意力网络输出的第二指导得分矩阵。

在本申请的一些实施例中,可以通过公式(1-16)实现上述步骤805:

其中,agt,i表示高斯注意力网络输出的第二指导得分矩阵。

在步骤806中,根据样本基础得分矩阵和第二指导得分矩阵确定高斯注意力网络对应的第一损失值。

其中,通过计算agt,i和α′t之间的距离,确定该前向注意力网络对应的第一损失值。

通过本申请实施例对于图8的上述示例性实施可知,本申请实施例通过高斯注意力网络对该转换模型的模型参数进行调整,可以使转换模型具备长句合成的能力,使得转换模型能够处理十倍于训练数据长度的文本序列。

参见图9,图9是本申请实施例提供的转换模型训练方法的一个可选的流程示意图,基于图6,图6中的步骤601可以更新为步骤901,步骤604可以包括步骤902、步骤903和步骤904,所述方法还包括步骤905和步骤906,步骤606可以更新为步骤907。将结合图9示出的步骤进行说明。

在步骤901中,获取样本数据;样本数据包括样本文本序列和样本文本序列对应的样本声学特征。

在本申请的一些实施例中,该样本声学特征为该样本文本序列对应的标准声学特征,本申请需要将该转换模型训练成可以将任意一个样本文本序列转换至与该标准声学特征接近甚至相同的声学特征。该样本声学特征可以根据实际场景的不同进行选择,例如,对于同一个样本文本序列,可以对应不同风格特点的样本声学特征,可以根据目标风格特点,选择该目标风格特点的样本声学特征作为该样本文本序列的标注,进而对该转换模型进行训练,此时得到的训练后的转换模型可以将文本序列转换为具有目标风格特点的声学特征。

在步骤902中,根据上一时间步的第四注意力状态、第四上下文向量和第四声学特征,确定当前时间步的第三注意力状态。

在步骤903中,根据文本表示序列、第三注意力状态和当前时间步的序列位置,确定样本基础得分矩阵。

在本申请的一些实施例中,步骤801和步骤802的实现方法与图7实施例中步骤701和步骤702的实现方法相同,在此不再赘述。

在步骤904中,根据样本基础得分矩阵和第三注意力状态,确定第三上下文向量。

在本申请的一些实施例中,所述样本表示序列包括多个序列位置对应的样本表示向量。可以根据以下方式实现上述步骤904:根据样本基础得分矩阵中每一序列位置对应的注意力权重,对每一序列位置对应的样本表示向量进行加权求和,第三上下文向量。

可以通过公式(1-17)来实现上述步骤403:

c′t=∑iα′t,ih′i 公式(1-17);

其中,c′t表示当前时间步的第三上下文向量,α′t,i表示当前时间步的样本基础得分矩阵中在序列位置为i对应的注意力权重,h′i表示序列位置为i对应的样本表示向量。

在步骤905中,将第三注意力状态和第三上下文向量输入至转换模型的解码器网络,得到第三声学特征;第三声学特征用于合成样本文本序列对应的音频数据。

在本申请的一些实施例中,可以根据以下方式实现上述步骤905:根据第四解码器状态、第三上下文向量和第三注意力状态,确定第三解码器状态;基于预设的仿射函数,将第三解码器状态转换为第三声学特征。

在本申请的一些实施例中,可以通过公式(1-18)和公式(1-19)实现步骤905:

d′t=DecoderRNN(d′t-1,c′t,s′t) 公式(1-18);

其中,d′t表示当前时间步的第三解码器状态,d′t-1表示上一时间步的第四解码器状态,c′t表示当前时间步的第三上下文向量,s′t表示当前时间步的第三注意力状态。

o′t=Affine(d′t) 公式(1-19);

其中,d′t表示当前时间步的第三解码器状态,Affine(.)表示预设的仿射函数,o′t表示当前时间步的第三声学特征。

在步骤906中,根据第三声学特征和样本声学特征,确定第二损失值。

在步骤907中,利用第二损失值,和每一指导注意力网络对应的第一损失值对转换模型的模型参数进行调整,以得到训练后的转换模型。

在本申请的一些实施例中,该转换模型的损失函数与该第二损失值,和每一指导注意力网络对应的第一损失值相关,通过该损失函数可以得到该转换模型的整体损失值,通过该整体损失值可以对该转换模型中各个子网络的模型参数进行调整。

在本申请的一些实施例中,该转换模型的损失函数还包括第二损失值和每一第一损失值对应的损失权重,该损失函数可以为根据各损失值对应的损失权重对各损失值进行加权求和,以得到所述整体损失值。损失值的损失权重的大小用于表征该损失值对应的方面对转换模型的影响程度,即转换模型对该方面的关注程度。

例如,若损失函数的前向指导注意力网络对应的损失权重较大,表明该前向指导网络对该转换模型的影响较大,通过此损失函数训练的得到的转换模型训练速度较快,准确度较高;若损失函数的高斯指导注意力网络对应的损失权重较大,表明该高斯指导注意力网络对该转换模型的影响较大,通过此损失函数训练的得到的转换模型对长句合成方面的效果较好。

参见图10,图10是本申请实施例提供的转换模型训练方法的一个可选的流程示意图,基于图9,所述方法还包括步骤1001和步骤1002,图9中的步骤907可以更新为步骤1003。将结合图10示出的步骤进行说明。

在步骤1001中,将第三声学特征输入至转换模型的后处理网络,得到第二待转换特征。

在步骤1002中,根据第二待转换特征和样本声学特征,确定第三损失值。

在步骤1003中,利用第二损失值、第三损失值,和每一指导注意力网络对应的第一损失值对转换模型的模型参数进行调整,以得到训练后的转换模型。

在本申请的一些实施例中,该转换模型的损失函数与该第二损失值、第三损失值,和每一指导注意力网络对应的第一损失值相关,通过该损失函数可以得到该转换模型的整体损失值,通过该整体损失值可以对该转换模型中各个子网络的模型参数进行调整。

在本申请的一些实施例中,该转换模型的损失函数还包括第二损失值、第三损失值,和每一第一损失值对应的损失权重,该损失函数可以为根据各损失值对应的损失权重对各损失值进行加权求和,以得到所述整体损失值。损失值的损失权重的大小用于表征该损失值对应的方面对转换模型的影响程度,即转换模型对该方面的关注程度。

例如,若损失函数的前向指导注意力网络对应的损失权重较大,表明该前向指导网络对该转换模型的影响较大,通过此损失函数训练的得到的转换模型训练速度较快,准确度较高;若损失函数的高斯指导注意力网络对应的损失权重较大,表明该高斯指导注意力网络对该转换模型的影响较大,通过此损失函数训练的得到的转换模型对长句合成方面的效果较好。

下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。

随着智能设备(如智能手机、智能音箱等)的快速发展,语音交互技术作为一种自然的交互方式得到越来越多的应用。作为语音交互技术中重要的一环,语音合成技术也取得了长足的进步。本申请提出并实现了一种多注意力机制指导学习的文本至声学特征转换模型。该模型将端到端文本至声学特征转换分为编码模块(Encoder)、多个注意力模块(Attention)以及对应解码模块(Decoder)。训练时使用多种注意力机制对基础注意力模块进行指导学习,实际使用时仅保留基础注意力模块。该方案可在不需更改线上引擎代码的前提下,将不同有利于提升合成鲁棒性和质量的注意力机制的特征转移到基础注意力机制上。得到的端到端模型可对输入文本进行合成,输出更加鲁棒、高质的声学特征供后续声码器使用。该方案广泛应用于阅读类APP智能朗读、智能客服、新闻播报、智能设备交互等场景。

本申请的核心分为两个部分。第一部分是基干网络,将端到端文本至声学特征模型分解为多个模块。其中包含了编码模块(Encoder)、基础注意力模块(Attention)以及基础解码模块(Decoder),这些模块在训练和实际使用中都保留。第二部分为多注意力指导学习网络,该网络与基干网络共享编码模块,此外包含了两个不同的注意力模块及对应的解码模块用于指导基础注意力模块的学习。多注意力指导学习网络只在训练时候使用,为基础注意力机制的学习提供指导,实际使用时去除该部分。这种创新的多注意力指导学习模式,能够将各种注意力机制的特点灌输给基础注意力机制,使得线上前向框架不需要作任何更改的情况下提升合成的鲁棒性及质量。

语音合成技术通过一定的规则或模型算法将文本转换为对应的音频内容。传统的语音合成技术主要基于拼接方法或统计参数方法。随着深度学习在语音识别领域不断取得突破,国内外一些前沿互联网公司开始将深度学习引入到语音合成领域,并取得了很大的进展。

传统的语音合成方法可以划分为两大类:拼接方法与参数方法。基于拼接的语音合成系统将现有音频切分成小单元,合成时通过一些动态算法将这些小单元串联起来,再加以后处理便可形成新的音频。基于参数的语音合成系统将现有音频转换成频谱(Spectrograms)及声学参数,如基频(Fundamental frequency),发音持续时间(Duration)等,并训练声学模型,合成时声学模型根据文本信息预测出相关参数送给声码器(Vocoder)以合成新的音频。这两种方法一般都包含前端和后端两个组件。前端负责文本分析和语言学特征提取,如分词、POS tagger、歧义消除和韵律结构预测。后端负责将前端提取出的语音学特征转换为音频,可能包含的操作有声学参数预测,韵律建模及音频生成等。在过去的数十年间,基于拼接或参数方法的语音合成系统占主导地位。然而,传统技术均需要繁多的模块及精良的特征设计。另外,由于模块间的割裂及模型容量不足,基于传统方法的语音合成系统在自然度和保真度上存在较大提升空间。

申请经过研究发现,传统的技术方案存在以下需解决问题:(1)传统的语音合成技术如拼接合成、参数合成,均需要繁多的模块及精良的特征设计。另外,由于模块间的割裂及模型容量不足,基于传统方法的语音合成系统在自然度和保真度上存在较大提升空间;(2)基于深度学习的端到端语音合成在自然度和保真度上有很大提高,但是单一的注意力机制无法应对线上合成对鲁棒性的要求。

在本申请的一些实施例中,本申请实施例提供的文本至声学特征转换方法的应用场景广泛。本申请提供两个应用场景,在第一个应用场景中,可以将语音合成方案放于云服务上,作为一种基础技术赋能于使用该云服务的用户,如银行智能客服等。在第二个应用场景中,可将该方案用于垂直领域下的个性化场景,如书籍智能朗读、新闻播报等。

请参阅图11所示的云服务场景的场景示意图。在该云服务场景中,各种智能设备如智能机器人,智能手机均可通过无线网络接入到位于提供语音合成服务的服务器。智能设备正常接入服务器后,将需要合成的文本发送至服务器,服务器进行快速合成后,可通过流式或整句返回的形式,向设备发送对应的合成音频。一次完整的语音合成流程为:客户端将需要合成的文本上传至服务器,服务器接收到文本后进行相应的规整化处理;将规整化后的文本信息输入到根据业务设计并组合而成的端到端语音合成系统中,快速合成出文本对应的音频,并完成音频压缩等处理操作;服务器通过流式或整句返回的方式将音频返回到客户端,接收到音频后客户端可进行流畅自然的语音播放。

整个过程中,后台语音合成服务延迟很小,客户端基本可立即获得返回结果。用户可以在短时间内听到所需内容,解放双眼,交互自然便捷。

请参阅图12所示的定制语音场景的场景示意图。在该定制语音场景中,很多垂直场景中需要定制的专属音色语音合成服务,如在小说朗读、新闻播报等领域。定制化语音合成服务的具体流程如图12所示:需求方提交其产品所需语音合成的音色需求清单,如发音人性别,音色类型等;后台收到需求方的清单后,根据所需音色情况采集音库,训练对应的定制模型;合成样例交付需求方检验确认后,将定制模型部署上线;需求方的应用(如阅读类APP,新闻客户端等)将所需文本发送至后台对应模型;用户可在应用中听到用对应的定制音色朗读的内容,合成流程与云服务场景的服务相同。

个性化定制语音合成对系统的鲁棒性、泛化性及实时性等提出了更高的要求,可模块化的端到端系统可根据实际情况灵活做出调整,在几乎不影响合成效果的前提下,保障了不同需求下系统的高适配性。

本申请将重点解决上述问题。将端到端文本转声学特征模块分为两部分。第一部分是基干网络,将端到端文本至声学特征转换模型分解为多个模块。其中包含了编码模块(Encoder)、基础注意力模块(Attention)以及基础解码模块(Decoder),基础注意力机制模块使用位置敏感注意力机制,这些模块在训练和实际使用中都保留。第二部分为多注意力指导学习网络,该网络与基干网络共享编码模块,此外包含了两个具有各自特点的注意力模块及对应的解码模块用于指导基础注意力模块的学习。其中前向注意力机制模块为基础注意力机制提供一个强单调性指导,减少训练过程中误对齐带来的不良影响,提升了训练的速度以及所生成声学特征的质量。基于混合高斯模型的注意力机制给基础注意力机制带来了长句合成的能力,使得基础注意力机制能够合成十倍于训练数据长度的句子,大大提升了整个系统对长句合成的鲁棒性。多注意力指导学习网络只在训练时候使用,为基础注意力机制的学习提供指导,实际使用时去除该部分。基于本申请实施例中的多注意力指导学习模式,能够将各种注意力机制的特点灌输给基础注意力机制,使得线上前向框架不需要作任何更改的情况下提升合成的鲁棒性及质量。

如图13所示,为本申请提供的语音合成系统架构图,其中,文本A110被输入至CBHG编码器网络A120,可以得到隐藏文本表示序列A130,在训练过程中,需要将该隐藏文本表示序列A130分别输入至前向注意力网络A141、基础注意力网络A140和高斯注意力网络A142,可以得到每一注意力网络输出的注意力分数矩阵,可以根据A141和A142的注意力分数矩阵分别和A141的注意力分数矩阵之间的距离对该声学特征转换模型的模型参数进行调整。在使用过程中,该隐藏文本表示序列A130仅仅输入至基础注意力网络A140,再经过解码器网络A150,可以得到文本对应A110的声学特征,为了提升后续语音合成的真实性,可以通过CBHG后处理网络A160对该声学特征进行处理。

在本申请的一些实施例中,将位置敏感注意力机制作为基础注意力网络的注意力机制。本申请使用CBHG编码器将带有音调和韵律信息的汉语拼音序列转换为更适合注意力机制的隐藏文本表示参阅公式(2-1)。

注意力RNN(attention RNN)使用上一时间步的状态,上一时间步的上下文向量和上一时间步的解码结果作为输入,并输出当前状态st以计算注意力得分,参阅公式(2-2)。

st=AttentionRNN(st-1,ct-1,ot-1) 公式(2-2);

其中,ct-1上一时间步的上下文向量,st-1上一时间步的状态,ot-1上一时间步的解码结果,当前状态st

位置敏感注意力机制将当前状态,隐藏表示和位置相关信息作为输入来获取注意力得分αt,参阅公式(2-3)。

αt=LSAttention(st,hi,lt) 公式(2-3);

其中,st当前状态,hi隐藏文本表示,lt位置相关信息

然后计算当前时刻的上下文向量ct,参阅公式(2-4)

ct=∑iαt,ihi 公式(2-4);

最后,当前注意力RNN状态和上下文向量被输入到解码器RNN。

然后,获得解码器dt的当前状态,参阅公式(2-5),并通过仿射函数获得最终解码结果ot,参阅公式(2-6)。

dt=DecoderRNN(dt-1,ct,st) 公式(2-5);

ot=Affine(dt) 公式(2-6);

在以上基本结构中引入了多指导注意力机制。所有指导注意力模块与基本注意力模块共享编码器,并且每个都有自己的注意RNN和解码器RNN(结构相同)。以图11为例,前向注意力网络A141有对应的解码器网络A151,高斯注意力网络A142有对应的解码器网络A152。其中,

在本申请的一些实施例中,可以选择两种具有的不同注意力机制的指导注意力网络,即前向注意力网络和基于GMM的注意力网络(高斯注意力网络),以提供指导注意力得分矩阵aft和agt

其中,作为一种单调注意机制,前向注意仅考虑在每个解码时间步长满足单调条件的对齐路径,以确保最终对齐路径的单调性。经过验证,该方法可加快收敛速度并提高特征生成的稳定性。训练过程通常无法学习任何有效的比对方法,在训练中添加固定的对角线掩码以约束注意力对齐矩阵有助于解决此问题。

参考连接临时分类模型(CTC),定义了一个中间变量et,i,表示所有单调对齐路径的概率总和。et,i可以递归计算(这里αt,i可以是基本注意力模块生成的当前时间步t上序列位置i的注意力权重)。然后,aft,i可以通过归一化获得,可以参阅公式(2-7,2-8)。

et,i=(et-1,i+et-1,i-1t,i 公式(2-7);

与前向注意不同,高斯注意力网络是纯粹与位置有关的注意机制。它可以给基本注意机制带来不同于单调注意机制的好处,例如长句子合成的鲁棒性(比训练过程中看到的长得多),同时保持较短话语的自然性。

给定当前关注的RNN状态st,首先通过多层感知器(MLP)计算三个中间参数ω′t,μ′t,σ′t,参阅公式(2-9)。

ω′t,μ′t,σ′t=MLP(st) 公式(2-9);

然后通过变化的传递函数完善三个中间参数,以获得混合高斯分布的参数。其中,方差由指数函数计算,均值和偏移分别由softplus、softmax得到,以确保其为正,参阅公式(2-10、2-11、2-12)。

ωt=softmax(ω′t) 公式(2-10);

σt=exp(σ′t) 公式(2-11);

μt=softplus(μ′t)+μt-1 公式(2-12);

高斯注意力网络使用N混合高斯分布来产生注意力得分agt,i,参阅公式(2-13)。

在训练过程中,指导组件与基本结构一起进行了训练。推理中仅保留基本模块。训练损失函数包括三个部分。第一个是解码器输出与真实声学特征之间的距离。然后是后处理网络的输出与真实声学特征之间的距离。最后一部分包括基本对齐分数和所有指导对齐分数之间的距离。为简洁起见,可以采用L1范数作为距离度量。

本申请实施例提供的转换模型,能够将各种注意力机制的特点灌输给基础注意力机制,使得线上前向框架不需要作任何更改的情况下提升合成的鲁棒性及质量。可稳定输出高可理解度、高自然度、高保真度的语音合成服务。本方案既可部署于云端为各种设备提供通用合成服务,也可根据不同应用自身需求定制专属音色。可以不断吸收新提出的注意力机制的特长,热更新整个文本转声学特征网络而无需修改前向框架是本技术方案的有益效果。

在本申请的一些实施例中,指导注意力机制可以包括类似于前向注意力机制的单调性注意力机制,还可以包括类似于混合高斯注意力机制同样考虑了位置信息的动态卷积注意力机制。

下面继续说明本申请实施例提供的声学特征转换装置555的实施为软件模块的示例性结构,在本申请的一些实施例中,如图2A所示,存储在存储器550的声学特征转换装置555中的软件模块可以包括:

第一输入模块5551,用于将待转换文本序列输入至转换模型的编码器网络,得到文本表示序列;待转换文本序列包括音韵特征信息;

第二输入模块5552,用于将文本表示序列输入至转换模型的基础注意力网络,得到当前时间步的第一注意力状态、第一上下文向量和基础注意力得分矩阵;

第三输入模块5553,用于将当前时间步的第一注意力状态和第一上下文向量输入至转换模型的解码器网络,得到第一声学特征;第一声学特征用于合成待转换文本序列对应的音频数据;其中,转换模型在训练过程中的损失函数与至少一个指导注意力网络对应的第一损失值相关;第一损失值用于表征指导注意力网络输出的指导注意力得分矩阵和基础注意力得分矩阵之间的距离。

在本申请的一些实施例中,所述第二输入模块5552,还用于根据基础注意力得分矩阵中每一序列位置对应的注意力权重,对每一序列位置对应的文本表示向量进行加权求和,得到第一上下文向量。

在本申请的一些实施例中,所述第二输入模块5552,还用于获取上一时间步的第二解码器状态;将第二解码器状态、第一上下文向量和第一注意力状态输入至解码器网络,得到第一声学特征。

在本申请的一些实施例中,所述第二输入模块5552,还用于根据第二解码器状态、第一上下文向量和第一注意力状态,确定第一解码器状态;基于预设的仿射函数,将第一解码器状态转换为第一声学特征。

在本申请的一些实施例中,所述第三输入模块5553,还用于将第一声学特征输入至转换模型的后处理网络,得到第一待转换特征;将第一待转换特征输入至预设的声码器,得到待转换文本序列对应的音频数据。

下面继续说明本申请实施例提供的转换模型训练装置655的实施为软件模块的示例性结构,在本申请的一些实施例中,如图2B所示,存储在存储器650的转换模型训练装置655中的软件模块包括:

编码模块6551,用于获取样本数据;样本数据包括样本文本序列;将样本文本序列输入至转换模型的编码器网络,得到样本表示序列。

基础注意力模块6552,用于将样本表示序列输入至转换模型的基础注意力网络,得到当前时间步的样本基础得分矩阵。

指导注意力模块6553,用于将样本表示序列输入至转换模型的至少一个指导注意力网络,得到每一指导注意力网络输出的当前时间步的样本指导得分矩阵。

调参模块6554,用于根据样本基础得分矩阵和每一指导注意力网络输出的样本指导得分矩阵,确定每一指导注意力网络对应的第一损失值;第一损失值用于表征指导注意力网络输出的样本指导得分矩阵和样本基础得分矩阵之间的距离;利用每一指导注意力网络对应的第一损失值对转换模型的模型参数进行调整,以得到训练后的转换模型。

在本申请的一些实施例中,所述基础注意力模块6552,还用于根据上一时间步的第四注意力状态、第四上下文向量和第四声学特征,确定当前时间步的第三注意力状态;根据样本表示序列、第三注意力状态和当前时间步的序列位置,确定样本基础得分矩阵。

在本申请的一些实施例中,所述样本数据还包括样本文本序列对应的样本声学特征;所述调参模块6554,还用于根据样本基础得分矩阵和第三注意力状态,确定第三上下文向量;将第三注意力状态和第三上下文向量输入至转换模型的解码器网络,得到第三声学特征;第三声学特征用于合成样本文本序列对应的音频数据;根据第三声学特征和样本声学特征,确定第二损失值;利用第二损失值,和每一指导注意力网络对应的第一损失值对转换模型的模型参数进行调整,以得到训练后的转换模型。

在本申请的一些实施例中,在指导注意力网络为前向注意力网络的情况下,所述指导注意力模块6553,还用于基于当前时间步的样本基础得分矩阵和上一时间步的第二对齐参数,确定当前时间步的第一对齐参数;对第一对齐参数进行归一化,得到前向注意力网络输出的第一指导得分矩阵;所述调参模块6554,还用于根据样本基础得分矩阵和第一指导得分矩阵确定前向注意力网络对应的第一损失值。

在本申请的一些实施例中,所述第一对齐参数包括每一序列位置对应的第一子参数;所述指导注意力模块6553,还用于基于样本基础得分矩阵中每一序列位置对应的注意力权重和第二对齐参数中每一序列位置对应的第二子参数,确定当前时间步的每一序列位置对应的第一子参数。

在本申请的一些实施例中,在指导注意力网络为高斯注意力网络的情况下,所述指导注意力模块6553,还用于根据第三注意力状态,获取当前时间步的第一均值参数、第一方差参数和第一偏移参数;根据第一均值参数、第一方差参数和第一偏移参数确定混合高斯分布;基于混合高斯分布得到高斯注意力网络输出的第二指导得分矩阵;所述调参模块6554,还用于根据样本基础得分矩阵和第二指导得分矩阵确定高斯注意力网络对应的第一损失值。

在本申请的一些实施例中,所述指导注意力模块6553,还用于通过多层感知器将第三注意力状态转换为均值中间参数、方差中间参数和偏移中间参数;基于将方差中间参数输入至指数函数,得到第一方差参数;将偏移中间参数输入至第一激活函数,得到第一偏移参数;将均值中间参数输入至第二激活函数,根据第二激活函数输出的参数与上一时间步的第二均值参数,确定第一均值参数。

在本申请的一些实施例中,所述调参模块6554,还用于将第三声学特征输入至转换模型的后处理网络,得到第二待转换特征;根据第二待转换特征和样本声学特征,确定第三损失值;利用第三损失值,和每一指导注意力网络对应的第一损失值对转换模型的模型参数进行调整,以得到训练后的转换模型。

本公开实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的声学特征转换方法或转换模型训练方法。

本公开实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的声学特征转换方法或转换模型训练方法,例如,如图3至图10示出的方法。

在本申请的一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。

在本申请的一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。

作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述,通过本申请实施例能够实现以下技术效果:

(1)本申请实施例通过转换模型将待转换文本序列转换为可以合成音频数据的第一声学特征,其中,该转换模型的模型参数在训练过程中基于至少一个指导注意网络对应的第一损失值进行了调整,使得该转换模型具备了各个指导注意力网络的优点。如此,可以提升该转换模型的转换准确率,提高声学特征的质量,并且扩大了本申请的应用场景。并且,在实际应用中,可以为用户的良好交互提供技术支持,使用本申请实施例方法转换的声学特征可以得到更加准确的音频信息,便于用户使用,提升用户使用体验。

(2)本申请实施例相比于没有后处理网络的语音合成模型,本申请提供的包括的后处理网络的转换模型可以利用更多的上下文信息。并且来自后处理网络的第一待转换特征包含更好的分辨谐波和高频共振峰结构,这减少了合成音的不自然度。

(3)本申请实施例基于至少一个指导注意网络对应的第一损失值进行了调整,使得该转换模型具备了各个指导注意力网络的优点。如此,可以提升该转换模型的转换准确率,提高声学特征的质量,并且扩大了本申请的应用场景。并且,在实际应用中,由于训练过程中可以根据实际需求选择不同特性的指导注意力网络,可以使得本申请实施例最终生成的转换模型可以适用于不同的应用场景,应用范围更广;同时,由于在训练过程中将各指导注意力网络的特征融合进基础注意力网络,在使用过程中无需使用各指导注意力网络,可以保证模型更新过程中无需对现有转换模型的框架做调整,运维成本和更新成本较低。

(4)本申请实施例通过前向指导网络对该转换模型的模型参数进行调整,可以减少训练过程中误对齐带来的不良影响,提升了训练的速度以及所生成声学特征的质量。

(5)本申请实施例通过高斯注意力网络对该转换模型的模型参数进行调整,可以使转换模型具备长句合成的能力,使得转换模型能够处理十倍于训练数据长度的文本序列。

以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

39页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:歌声合成方法、装置、计算机设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!