语音合成方法、装置、系统和存储介质

文档序号：1506829 发布日期：2020-02-07 浏览：31次 >En<

阅读说明：本技术 语音合成方法、装置、系统和存储介质 (Speech synthesis method, apparatus, system and storage medium ) 是由李秀林钟彩桂边会康于 2019-10-31 设计创作，主要内容包括：本发明实施例提供了一种语音合成方法、装置、系统及存储介质,所述方法包括：利用文本分析模型对待处理文本进行分析,将待处理文本转化为包含一个或多个控制元素的第一编辑文本；生成与第一编辑文本对应的第一语音；接收用户对待处理文本进行编辑的编辑指令；根据所述编辑指令修改所述第一编辑文本中的所述控制元素,以生成第二编辑文本；生成与所述第二编辑文本对应的第二语音；接收用户对所述第二语音的确认指令；以所述待处理文本和所述第二编辑文本为训练样本,对所述文本分析模型进行训练；利用经训练的文本分析模型进行后续语音合成。本发明实施例能够在后续语音合成中生成更加符合用户需求的语音,从而改善用户体验,提高语音合成质量。(The embodiment of the invention provides a voice synthesis method, a device, a system and a storage medium, wherein the method comprises the following steps: analyzing the text to be processed by using a text analysis model, and converting the text to be processed into a first edited text containing one or more control elements; generating a first voice corresponding to the first edited text; receiving an editing instruction for editing a text to be processed by a user; modifying the control element in the first editing text according to the editing instruction to generate a second editing text; generating a second voice corresponding to the second edited text; receiving a confirmation instruction of the user to the second voice; training the text analysis model by taking the text to be processed and the second editing text as training samples; subsequent speech synthesis is performed using the trained text analysis model. The embodiment of the invention can generate the voice which is more in line with the user requirement in the subsequent voice synthesis, thereby improving the user experience and improving the voice synthesis quality.)

语音合成方法、装置、系统和存储介质

技术领域

本发明涉及文语转换(TTS)技术领域，更具体地涉及一种语音合成方法、装置、系统和存储介质。

背景技术

语音合成技术是将文本转化为语音输出的过程。语音合成技术可以让机器发声，是实现人机交互的重要环节。随着语音技术的快速发展，wavenet、waveglow等高质量语音合成技术方案不断涌现，为用户获取高质量的合成语音创造了条件。随着高音质方案的逐渐成熟，合成语音可以达到接近以假乱真的水平，可以大大提升新的合成应用场景开拓速度。

但是，即便是高音质的语音合成系统，所合成的语音当中，也难免出现读音错误、停顿错误、语气、情感等错误。此外，在有些场景下，比如读故事、读小说等场景，可能需要有角色扮演的需要，还需要配备不同的音色进行合成。所以，在某些场景下，高音质的合成，仍然难以达到完全令人满意的效果。

发明内容

考虑到上述问题而提出了本发明。

根据本发明一个方面，提供了一种语音合成方法，所述方法包括：

利用文本分析模型对待处理文本进行分析，并根据分析结果将所述待处理文本转化为包含一个或多个控制元素的第一编辑文本；

生成与所述第一编辑文本对应的第一语音；

接收用户对所述待处理文本进行编辑的编辑指令，其中所述编辑指令包括用户基于对所述第一语音的试听体验而编辑的控制标签的信息；

根据所述编辑指令修改所述第一编辑文本中的所述控制元素，以生成第二编辑文本；

生成与所述第二编辑文本对应的第二语音；

接收用户对所述第二语音的确认指令，其中所述确认指令是用户基于对所述第二语音的试听体验而发出的；

以所述待处理文本和所述第二编辑文本为训练样本，对所述文本分析模型进行训练；

利用经训练的文本分析模型进行后续语音合成。

示例性地，所述根据所述编辑指令修改所述第一编辑文本中的所述控制元素的步骤包括：

根据所述编辑指令修改所述第一编辑文本中已存在的所述控制元素的参数；和/或

根据所述编辑指令在所述第一编辑文本中添加新的控制元素。

示例性地，所述以所述待处理文本和所述第二编辑文本为训练样本，对所述文本分析模型进行训练的步骤包括：

获取所述第二编辑文本中经修改的控制元素或所添加的新的控制元素中的任一个，以作为目标控制元素；

利用所述待处理文本和所述目标控制元素的当前参数训练所述文本分析模型。

示例性地，经修改的控制元素或所添加的新的控制元素的参数包括可量化的参数，所述以所述待处理文本和所述第二编辑文本为训练样本，对所述文本分析模型进行训练的步骤包括：

获取所述经修改的控制元素或所添加的新的控制元素的可量化的参数的当前值及其标准值，其中，所述标准值是由所述文本分析模型针对所述可量化的参数确定的取得最大概率的值；

计算所述当前值与所述标准值之间的差值；

在所述差值小于第一阈值的情况下，利用所述待处理文本和所述当前值训练所述文本分析模型。

示例性地，经修改的控制元素或所添加的新的控制元素的参数具有多个候选参数值，所述以所述待处理文本和所述第二编辑文本为训练样本，对所述文本分析模型进行训练的步骤包括：

获取所述经修改的控制元素的当前参数值及候选参数值；

在所述当前参数值与所述候选参数值中的任一个相同的情况下，利用所述待处理文本和所述经修改的控制元素的当前参数值训练所述文本分析模型。

示例性地，所述接收用户对所述待处理文本进行编辑的编辑指令的步骤包括：

获取用户在所述待处理文本中确定的编辑位置和控制标签；

检测所述第一编辑文本在所述编辑位置处是否包含与所述控制标签相对应的控制元素；

若所述第一编辑文本在所述编辑位置处包含与所述控制标签相对应的控制元素，至少输出与所述编辑位置处包含的所述控制元素的参数值不同的其它候选参数值以供用户选择，所述其它候选参数值是由所述文本分析模型确定的；

若所述第一编辑文本在所述编辑位置处不包含与所述控制标签相对应的控制元素，输出在所述编辑位置处与所述控制标签对应的控制元素的多个候选参数值以供用户选择，所述多个候选参数值是由所述文本分析模型确定的；

接收用户所选择的候选参数值。

示例性地，所述以所述待处理文本和所述第二编辑文本为训练样本，对所述文本分析模型进行训练之前，所述语音合成方法还包括：

将所述训练样本存储到语料库中；

统计所述语料库中存储的所有训练样本的数量；

其中所述对所述文本分析模型进行训练在所述所有训练样本的数量超过第二阈值的情况下执行。

示例性地，所述控制标签包括以下类型中的一种或多种：停顿标签、重音标签、音量标签、音速标签、多音字拼音标签、数字标签、背景标签。

示例性地，所述控制标签以不同文字、不同图像、不同颜色和/或不同符号显示在所述待处理文本中。

根据本发明的另一方面，还提供了一种语音合成装置，包括：

第一编辑文本模块，用于利用文本分析模型对待处理文本进行分析，并根据分析结果将所述待处理文本转化为包含一个或多个控制元素的第一编辑文本；

第一语音模块，用于生成与所述第一编辑文本对应的第一语音；

编辑指令接收模块，用于接收用户对所述待处理文本进行编辑的编辑指令，其中所述编辑指令包括用户基于对所述第一语音的试听体验而编辑的控制标签的信息；

第二编辑文本模块，用于根据所述编辑指令修改所述第一编辑文本中的所述控制元素，以生成第二编辑文本；

第二语音模块，用于生成与所述第二编辑文本对应的第二语音；

确认指令接收模块，用于接收用户对所述第二语音的确认指令，其中所述确认指令是用户基于对所述第二语音的试听体验而发出的；

模型训练模块，用于以所述待处理文本和所述第二编辑文本为训练样本，对所述文本分析模型进行训练；

后续合成模块，用于利用经训练的文本分析模型进行后续语音合成。

根据本发明的再一方面，还提供了一种语音合成系统，包括：处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行上述的语音合成方法。

根据本发明的又一方面，还提供了一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行上述的语音合成方法。

根据本发明实施例的技术方案，能够根据用户基于试听体验对待处理文本的编辑生成新的语音，并且根据待处理文本和新的语音对文本分析模型进行训练，从而能够在后续语音合成中生成更加符合用户需求的语音，改善用户体验，提高语音合成质量。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的

具体实施方式

。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出了根据本发明一个实施例的语音合成方法的示意性流程图；

图2示出了根据本发明一个实施例的接收用户对所述待处理文本进行编辑的编辑指令的示意性流程图；

图3示出了根据本发明一个实施例的训练文本分析模型的示意性流程图；

图4示出了根据本发明另一个实施例的训练文本分析模型的示意性流程图；

图5示出了根据本发明再一个实施例的训练文本分析模型的示意性流程图；

图6示出了根据本发明又一个实施例的训练文本分析模型的示意性流程图；

图7示出了根据本发明一个实施例的语音合成装置的示意性框图；

图8示出了根据本发明一个实施例的语音合成系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

为提高语音合成质量，本申请的实施例基于用户的试听体验训练文本分析模型，然后利用经训练的文本分析模型进行后续语音合成。文本分析模型是语音合成系统中的关键组件，其主要用于对文本进行分析，以确定文本中的字符的发音，例如，确定每个字符要发什么音、怎么发音、哪些字符的发音之间有发音停顿、停顿有多久等等。

请参阅图1，示出了根据本发明一个实施例的语音合成方法的示意性流程图。如图1所示，本发明实施例的语音合成方法100包括：

S110：利用文本分析模型对待处理文本进行分析，并根据分析结果将所述待处理文本转化为包含一个或多个控制元素的第一编辑文本。

如前所述，文本分析模型用于对需要进行语音合成的待处理文本进行分析。文本分析模型对待处理文本的分析内容主要包括：待处理文本中词或短语的边界，字符的读音，文本中出现的数字、姓氏、特殊字符、专有词语以及各种多音字的读音方式等。

根据文本分析模型的分析结果，可以将待处理文本转化为带有控制元素的第一编辑文本。所述控制元素用于指示文本分析模型对待处理文本的分析结果。根据不同的控制对象，控制元素可以包括以下元素中的一个或多个：停顿元素、重音元素、音量元素、音速元素、多音字拼音元素、数字元素、背景元素等等。停顿元素表示在待处理文本的特定位置***特定时长的停顿。重音元素用于表示待处理文本的特定字符的重音。音量元素用于表示待处理文本的发音音量。音速元素用于表示待处理文本的发音速度。多音字拼音元素用于表示待处理文本中特定字符的读音。数字元素用于表示待处理文本中的数字是属于电话号码、门牌号、序列号、邮政编码等哪种发音形式。背景元素用于表示在待处理文本中***背景声音。

待处理文本可以是用户通过人机交互界面输入的。人机交互界面可以供用户和后台语音合成系统进行交互。该界面中可以包含多种人机交互控件，例如文本框、编辑按钮等。其中的文本框可以用于接收用户输入的待处理文本。

在一个示例中，所述待处理文本通过人机交互界面中的文本框输入，以下通过具体文本进行说明。

以诗句“白日依山尽，黄河入海流”为例，经文本分析模型的分析，可以将上述诗句转化为包含停顿元素、多音字读音元素、音速元素、音量元素等多种控制元素的第一编辑文本。为了简便起见，以下仅列出了第一编辑文本中的停顿元素作为示例：

白日<break time＝″200ms″/>依山尽<break time＝″500ms″/>黄河<break time＝″200ms″/>入海流。

上述第一编辑文本中的<break time＝″200ms″/>和<break time＝″500ms″/>代表停顿元素，其含义分别表示在第一个停顿元素的位置处停顿200ms和在第二个停顿元素的位置处停顿500ms，其中的200ms和500ms分别为停顿元素的具体参数值。

需要说明的是，每种控制元素可以具有对应的参数，用于表示该控制元素所对应的语音属性。例如，停顿元素对应的参数为文本中的具***置处(特定字符之间)的语音停顿时长。音速元素对应的参数为具体文本的语音输出速度。多音字拼音元素的参数为作为多音字的具体字符的读音，等等。

本领域技术人员可以理解，除了停顿元素以外，第一编辑文本中还可以包含音量元素、音速元素、多音字拼音元素等其他控制元素。由于篇幅所限，本文不再进行一一列举。

S120：生成与所述第一编辑文本对应的第一语音。

本步骤用于根据第一编辑文本中包含的控制元素，生成对应的第一语音。仍以上文的诗句“白日依山尽，黄河入海流”为例，则生成相应的第一语音时，会在“白日”后面停顿200ms，在“依山尽”后面停顿500ms，在“黄河”后面停顿200ms。

S130：接收用户对所述待处理文本进行编辑的编辑指令，其中所述编辑指令包括用户基于对所述第一语音的试听体验而编辑的控制标签的信息。

在步骤S120生成第一语音后，用户可以接收并试听该第一语音。在用户对第一语音试听的基础上，本步骤S130用于接收用户基于试听体验发出的编辑指令。上述编辑指令包括但不限于执行以下操作的指令：修改第一语音的音速，在第一语音中添加停顿，修改第一语音中原有的停顿时长，修改第一语音中多音字的读音，等等。

本领域技术人员可以理解，上述编辑指令的最终作用对象是第一语音。然而由于第一语音本身是无法可视化的，因此在本申请的实施例中，提供给用户对待处理文本进行编辑的编辑接口。通过对待处理文本进行编辑，可以实现对第一语音的编辑。

本发明实施例中，可以为用户提供用于对待处理文本进行编辑的人机交互界面。用户的编辑指令可以通过与人机交互界面进行交互，例如点击人机交互界面中的相应按钮，而发出。上述编辑按钮可包含多个，其中每个编辑按钮通过不同的图案、颜色等进行区分，分别对应不同的编辑指令。例如，音速按钮用于对待处理文本修改音速，停顿按钮用于对待处理文本修改停顿时长，多音字按钮用于对待处理文本修改多音字拼音。优选地，本发明实施例中的编辑按钮的功能与控制元素的功能一一对应。

在一个具体实施例中，每点击一次编辑按钮，相应的可以向待处理文本中添加对应的控制标签。控制标签供用户在待处理文本的基础上进行添加，用于标记对于第一编辑文本的对应位置上的控制元素进行修改。控制标签也包含多种，分别与控制元素一一对应，例如停顿标签、重音标签、音量标签、音速标签、多音字拼音标签、数字标签、背景标签等，分别用于标记针对对应控制元素的修改。例如，编辑指令中在待处理文本“白日依山尽”的“白日”后面添加了停顿标签，则表示需要对第一编辑文本的对应位置处的停顿元素进行修改。

上述控制标签可以有多种表现形式，例如基于SSML语音的标签形式，或者是其它富文本形式，例如文字、图案、颜色、符号或以上几种的结合，从而使用户更易于辨认，在待处理文本中更加直观清楚地体现出修改位置和修改内容。例如，编辑指令为在输出的语音中添加下雨声的背景，此时可以在待处理文本的起始位置添加背景标签，该背景标签的表现形式可以是雨滴的图案。通过将控制标签设置为多种表现形式，可以更加直观形象地反映出对第一编辑文本所做的修改，增加视觉体验。

上述对待处理文本发出的编辑指令，可以在文本框内的待处理文本中体现出来，也可以不体现出来。例如，当编辑指令为通过音速按钮将音速由低速修改为高速时，可以只修改音速按钮中对应的选项，无需在待处理文本上进行任何标记；当编辑指令为通过停顿按钮修改待处理文本中的停顿时长时，可以在待处理文本的相应位置处添加对应的停顿时长；当编辑指令为通过多音字按钮修改待处理文本中的多音字读音时，可以在待处理文本的相应字符之后添加具体的读音。

仍以诗句“白日依山尽，黄河入海流”为例，若用户在试听第一语音的基础上，想要在“依”的后面和“入”的后面各增加200ms停顿，同时将第一语音中的多音字“尽”的读音从三声“Jin3”修改为四声“Jin4”，则可以对待处理文本进行如下编辑：

白日依<200ms>山尽<Jin4>，黄河入<200ms>海流

通过在待处理文本中体现出编辑指令的内容，有利于用户清楚了解当前对待处理文本做出了哪些编辑指令，使得对于第一语音的修改更加符合预期。

S140：根据所述编辑指令修改所述第一编辑文本中的所述控制元素，以生成第二编辑文本。

在用户对待处理文本发出编辑指令的基础上，本发明实施例根据编辑指令相应地修改第一编辑文本中的控制元素。

仍以诗句“白日依山尽，黄河入海流”为例，若用户发出的编辑指令为在“依”的后面和“入”的后面各增加200ms停顿，则相当于在第一编辑文本的基础上进一步在“依”的后面和“入”的后面各增加参数值为200ms的停顿标签，修改后生成第二编辑文本如下所示：

白日<break time＝″200ms″/>依<break time＝″200ms″/>山尽<break time＝″500ms″/>黄河<break time＝″200ms″/>入<break time＝″200ms″/>海流。

S150：生成与所述第二编辑文本对应的第二语音。

本步骤类似于前述步骤S120，用于根据第二编辑文本中包含的控制元素，生成对应的第二语音。对于上文的诗句“白日依山尽，黄河入海流”为例，本发明实施例生成的第二语音中，会在“白日”后面停顿200ms，在“依”后面停顿200ms，在“尽”后面停顿500ms，在“黄河”后面停顿200ms，在“入”后面停顿200ms。

S160：接收用户对所述第二语音的确认指令，其中所述确认指令是用户基于对所述第二语音的试听体验而发出的。

在步骤S150生成第二语音后，用户可以接收并试听该第二语音。在用户对第二语音试听的基础上，若用户对第二语音感到满意，则可以点击人机交互界面中的相应按钮，例如“确认”按钮、“保存”按钮或“下载”按钮，以发出对第二语音的确认指令。在接收到用户的确认指令后，可以认为第二语音符合用户要求，不再需要修改。

S170：以所述待处理文本和所述第二编辑文本为训练样本，对所述文本分析模型进行训练。

相对于利用文本分析模型生成的第一语音而言，第二语音是更加符合用户预期的语音。在此基础上，本发明实施例将待处理文本及与第二语音对应的第二编辑文本作为训练样本，对文本分析模型进行训练。由于第二编辑文本是在第一编辑文本的基础上基于用户的修改而得到的，因此第二编辑文本更能反映当前用户的喜好特征。用待处理文本和第二编辑文本对文本分析模型进行训练，可以使得文本分析模型更多地学习到第二编辑文本中的由控制元素表征的发音特征。

S180：利用经训练的文本分析模型进行后续语音合成。

在以后接收到待处理文本后，可以利用该经训练的文本分析模型对其进行分析，并根据分析结果将待处理文本转化为包含控制元素的后台编辑文本。最后，生成与该后台编辑文本对应的语音。本领域普通技术人员可以理解这些步骤的具体实现，为了简洁不再赘述。

本发明实施例利用经训练的文本分析模型进行后续语音合成，从而使得训练后的文本分析模型对待处理文本分析后得到的编辑文本更加符合用户要求，从而改善用户体验，提高语音合成质量。

如前参考图1所示的利用待处理文本和第二编辑文本对文本分析模型进行训练的语音合成方法，其中包括接收用户对所述待处理文本进行编辑的编辑指令的步骤S130。图2示出了接收用户对所述待处理文本进行编辑的编辑指令的示意性流程图，如图2所示，语音合成方法100中的步骤S130包括以下步骤：

S131：获取用户在所述待处理文本中确定的编辑位置和控制标签。

所述待处理文本中确定的编辑位置是用户期望语音发生改变的位置。例如，其可以通过当前光标所在的位置来确定。根据前文所述，编辑按钮的类型与控制元素是一一对应的，因此通过具体添加的控制标签就可以获取到相应的需要修改的控制元素。例如，若用户添加的是音速标签，则需要修改的是在第一编辑文本对应位置的音速元素；若用户点击的是停顿按钮，则对应控制元素的标签类型为停顿标签；若用户添加的是多音字拼音标签，则需要修改的是第一编辑文本对应位置处的多音字拼音元素。

具体实施时，可以将每个控制标签与其对应的控制元素作为数据对存储在数据表中。当检测到待处理文本中添加了哪个控制标签时，可以通过查找数据表确定在第一编辑文本的对应位置出需要修改的控制元素。

S132：检测所述第一编辑文本在所述编辑位置处是否包含与控制标签相对应的控制元素。

用户在待处理文本中确定编辑位置和控制标签的目的在于，在所述编辑位置修改相应的控制元素。因此本步骤用于首先确定用户的编辑指令是在所述编辑位置上更改已有的控制元素还是添加新的控制元素，具体可通过检测在所述编辑位置处是否包含与控制标签相对应的控制元素来确定。即，如果第一编辑文本在所述编辑位置处包含与控制标签相对应的控制元素，则当前编辑指令是要修改已有控制元素的参数；如果第一编辑文本在所述编辑位置处不包含与控制标签相对应的控制元素，则当前编辑指令是要添加新的控制元素及其参数。

S133：若所述第一编辑文本在所述编辑位置处包含与控制标签相对应的控制元素，至少输出与所述编辑位置处包含的所述控制元素的参数值不同的其它候选参数值以供用户选择，所述其它候选参数值是由所述文本分析模型确定的。

本步骤是针对编辑指令用于在所述编辑位置上修改已有的控制元素的情况。对已有的控制元素进行修改，实际上就是修改所述控制元素的参数值。该实施例中，输出与控制元素的参数值不同的候选参数值以向用户提供选择。所述候选参数值是由文本分析模型计算得到的。可以理解，如果文本分析模型计算获得多个候选参数值，可以仅呈现概率较大的一部分，并且多个候选参数值可以根据概率由大到小的顺序排列。

仍以诗句“白日依山尽”为例，检测到用户光标位于“白日”后面并添加了停顿标签，则可以确定用户的编辑指令是用于确定“白日”后面的语音停顿。若第一编辑文本中在“白日”后面已经包含了参数值为200ms的停顿元素，那么当前编辑指令会对已经包含的停顿元素的参数值进行修改。此时，后台可以通过人机交互界面向用户提供不同于200ms的一个或多个其它候选参数值，例如提供“300ms”、“100ms”和“500ms”三个候选参数值。上述三个候选参数值是由文本分析模型计算出的在当前编辑位置处可能存在的停顿时长，且三个候选参数值按照概率从大到小的顺序排列。

S134：若所述第一编辑文本在所述编辑位置处不包含与控制标签相对应的控制元素，输出在所述编辑位置处的控制元素的多个候选参数值以供用户选择，所述多个候选参数值是由所述文本分析模型确定的。

本步骤是针对编辑指令要在所述编辑位置上添加新的控制元素的情况。本领域技术人员可以理解，添加新的控制元素同时意味着添加对应的参数。本发明实施例可以向用户提供多个候选参数值后，接收用户选择的其中一个候选参数值。其中，所述候选参数值是由文本分析模型计算得到的。类似地，可以仅提供文本分析模型所确定的概率较大的候选参数值，并且多个候选参数值可以根据概率由大到小的顺序排列。

仍以诗句“白日依山尽”为例，检测到用户光标位于“依”后面，添加的控制标签为停顿标签，则可以确定用户的编辑指令是用于确定“白日”后面的语音停顿。若第一编辑文本中在“依”后面未包含停顿元素，那么当前编辑指令需要在“依”后面添加新的停顿元素。此时，后台可以通过人机交互界面向用户提供一个或多个其它候选参数值，例如提供“200ms”，“300ms”和“100ms”三个候选参数值，上述三个候选参数值是由文本分析模型计算出的在当前编辑位置处可能存在的停顿时长，且三个候选参数值按照概率从大到小的顺序排列。其中，“200ms”是文本分析模型计算出的在当前编辑位置概率最大的停顿时长。

S135：接收用户所选择的候选参数值。可以根据用户对步骤S133或步骤S134中所输出的候选参数值的选择，例如对所选择的候选参数值的鼠标点击操作，来确定所接收的候选参数值。

本实施例通过确定编辑指令用于修改已有的控制元素还是添加新的控制元素，对应输出不同的候选参数，可以提高编辑指令的规范性和合理性，缩短用户的编辑时间，提高语音合成质量。

替代地，在用户在待处理文本中确定了编辑位置和控制标签之后，还可以允许用户直接手动输入期望的任何参数值，而不是在所输出的候选参数值的基础上进行选择。在该替代方案中，用户的自由度更大，对用户的要求也更高。

如前参考图1所示的利用待处理文本和第二编辑文本对文本分析模型进行训练的语音合成方法，在步骤S130接收用户对所述待处理文本进行编辑的编辑指令之后，还包括步骤S140根据所述编辑指令修改所述第一编辑文本中的所述控制元素，以生成第二编辑文本。

示例性地，步骤S140中根据所述编辑指令修改所述第一编辑文本中的所述控制元素可以包含以下情况：根据所述编辑指令修改所述第一编辑文本中已存在的所述控制元素的参数，和/或根据所述编辑指令在所述第一编辑文本中添加新的控制元素。通过区分修改原有的控制元素和添加新的控制元素，可以保证对第一编辑文本中控制元素的修改能够准确、有序地进行，避免修改时产生混乱或错误。

如前所述，语音合成方法100包括步骤S170以所述待处理文本和所述第二编辑文本为训练样本，对所述文本分析模型进行训练。第二编辑文本是在第一编辑文本基础上进行修改而生成的，因此也包含了一个或多个控制元素。对文本分析模型进行训练的目的是使文本分析模型对待处理文本进行分析后，所生成的编辑文本中包含的控制元素及其参数值更加接近于经修改的第二编辑文本中包含的控制元素及其参数值。因此，将待处理文本和第二编辑文本作为训练样本，实际上是利用待处理文本和第二编辑文本中经修改的控制元素及其参数值对文本分析模型进行训练。

示例性地，可以针对第二编辑文本中经修改的每一个控制元素，结合待处理文本中的上下文关系对文本分析模型进行训练。图3示出了根据本发明一个实施例中训练文本分析模型的示意性流程图，如图3所示，以所述待处理文本和所述第二编辑文本为训练样本，对文本分析模型进行训练的步骤包括：

S310：获取所述第二编辑文本中经修改的控制元素或所添加的新的控制元素中的任一个，以作为目标控制元素；

S320：利用所述待处理文本和所述目标控制元素的当前参数训练所述文本分析模型。

仍以诗句“白日依山尽，黄河入海流”为例，若第二编辑文本中在“依”的后面添加了参数值为200ms的新的停顿元素1，在“入”的后面添加了参数值为200ms的新的停顿元素2，并且将“尽”后面原有的停顿元素3的参数值从500ms修改为600ms，则分别将停顿元素1、停顿元素2和停顿元素3作为目标控制元素。

进一步，利用诗句“白日依山尽，黄河入海流”和停顿元素1对文本分析模型进行训练，使其学习到在“白日依山尽，黄河入海流”的上下文环境中，需要在“依”后面添加参数值为200ms的停顿元素。利用诗句“白日依山尽，黄河入海流”和停顿元素2对文本分析模型进行训练，使其学习到在“白日依山尽，黄河入海流”的上下文环境中，需要在“入”后面添加参数值为200ms的停顿元素。利用诗句“白日依山尽，黄河入海流”和停顿元素3对文本分析模型进行训练，使其学习到在“白日依山尽，黄河入海流”的上下文环境中，需要在“尽”后面添加参数值为600ms的停顿元素。

通过将第二编辑文本中任一个经修改的控制元素或者新添加的控制元素与待处理文本相结合后，对文本分析模型进行训练，能够准确地反映用户的修改意图，使得文本分析模型的输出更加符合用户预期。

示例性的，除了将第二编辑文本中任一个经修改的控制元素或所添加的新的控制元素作为目标控制元素之外，还可以对第二编辑文本中经修改的控制元素或所添加的新的控制元素进行筛选，以筛选后得到的控制元素作为目标控制元素来确定训练样本。

图4示出了根据本发明另一个实施例的训练文本分析模型的示意性流程图。在该实施例中，控制元素的参数是可量化的。参数可量化指的是参数具有具体数值。具有可量化的参数的控制元素包括：音速元素、音量元素、停顿元素等。音速元素中的参数用于指定文本或文本中的一部分字符的语意发音速度。音量元素中的参数用于指定文本或文本中的一部分字符的语音发音音量。停顿元素中的参数用于指定文本中特定位置的具体的语音停顿时长。如图4所示，以所述待处理文本和所述第二编辑文本为训练样本，对文本分析模型进行训练的步骤包括：

S410：获取所述经修改的控制元素或所添加的新的控制元素的可量化的参数的当前值及其标准值。所述标准值是由文本分析模型针对所述可量化的参数确定的取得最大概率的值。

可量化的参数的当前值，指的是控制元素在第二编辑文本中的取值，也就是控制元素的修改值。可量化的参数的标准值，指的是由文本分析模型经计算所确定出来的该参数最大概率的取值。本领域普通技术人员可以理解，文本分析模型是根据基本的语义、语法等文本规则来计算控制元素的参数值的。即使文本分析模型计算出来的某些控制元素的参数值不完全符合用户的预期，但也是符合基本的语义、语法等文本规则的，因此可以作为标准值参考。换言之，标准值具有一定的可信度。

S420：计算所述当前值与所述标准值之间的差值。

通过计算控制元素的参数的当前值和标准值之间的差值，可以获得用户期望与标准值之间的差距。

S430：在所述差值小于第一阈值的情况下，利用所述待处理文本和所述当前值训练所述文本分析模型。

若控制元素的参数的当前值和标准值之间的差值过大，则说明用户的当前期望距离标准值相去较远，这种情况可能是由于用户的特殊需求或者是恶搞而造成的。用户的特殊需求或者恶搞不符合常规需求，不具有普遍适用性，因此无需将与标准值相去较远的控制元素的参数值作为训练样本。基于上述原因，本发明实施例仅在所述差值小于第一阈值的情况下，利用所述待处理文本和所述当前值训练所述文本分析模型。

仍以诗句“白日依山尽，黄河入海流”为例，对于“尽”后面的停顿标签，假设文本分析模型计算得出的标准值是500ms。若第二编辑文本中对于该停顿标签的参数修改值为5000ms，远远超过了标准值500ms，则可以不将参数值为5000ms的停顿元素作为训练样本。关于第一阈值的具体取值，可以根据实际情况进行不同的设定，例如，本实施例中将第一阈值的取值设为1000ms。

通过对第二编辑文本中经修改的控制元素根据可量化的参数值进行筛选，可以保证选取的训练样本具有普遍适用性，符合大多数用户的常规需求。

如前所述，可以对第二编辑文本中经修改的控制元素或所添加的新的控制元素进行筛选，以决定是否用于训练文本分析模型。除了根据可量化的参数的取值对控制元素进行筛选之外，还可以根据候选参数值对控制元素进行筛选，并利用将筛选后得到的控制元素，结合待处理文本中的上下文关系对文本分析模型进行训练。

图5示出了根据本发明另一个实施例训练文本分析模型的示意性流程图。在该实施例中，与上文中所述可量化的参数不同，本发明实施例中的控制元素的参数具有多个候选参数值。例如多音字拼音元素包括多个可供选择的多音字读音，多音字拼音元素的参数值是从多个可供选择的多音字读音中确定的其中一个。又例如数字元素包括多个可供选择的数字类型，数字标签的参数值是从多个可供选择的数字类型中确定的其中一个。如图5所示，以所述待处理文本和所述第二编辑文本为训练样本，对文本分析模型进行训练的步骤包括：

S510：获取所述经修改的控制元素的当前参数值及候选参数值。

本发明实施例中的候选参数值指的是由文本分析模型获得的对于控制元素的参数的所有可能取值。一般来说，控制元素的参数的所有候选参数值是固定不变的。例如某个多音字的所有候选读音是确定的，当该多音字处于不同的上下文环境中时，需要从多个候选读音中选择一个。某个数字的候选数字类型也是有限的，比如电话号码类型、数值类型、邮政编码类型等等。当该数字位于不同的上下文环境中时，需要从多个候选数字类型中选择一个。

S520：在所述当前参数值与所述候选参数值中的任一个相同的情况下，利用所述待处理文本和所述经修改的控制元素的当前参数值训练所述文本分析模型。

由于控制元素的所有候选参数值是固定不变的，因此无论用户对第一编辑文本中的控制元素进行何种修改，最终得到的修改值必定是多个候选参数值中的一个。如果不是，则说明控制元素的参数的当前修改值已经偏离了基本的文本规则，不具有普遍适用性。例如“长”的候选拼音只有“zhang3”和“chang2”两种，若第二编辑文本中的多音字拼音标签的修改值出现了除“zhang3”和“chang2”之外的其它拼音，那么显然当前修改值是错误的，因此不能作为训练样本。

通过基于候选参数值对控制元素进行筛选，只有所述控制元素的当前参数值与所述候选参数值中的任一个相同的情况下，才将所述控制元素的当前参数值作为训练样本，可以保证训练样本的准确性，避免产生错误。

可以理解，对于以所述待处理文本和所述第二编辑文本为训练样本，对文本分析模型进行训练的步骤，可以使用语料库。通过语料库存储上述训练样本，并且从语料库中获取训练样本，以对文本分析模型进行训练。图6示出了根据本发明一个实施例的语音合成方法中使用语料库进行文本分析模型的训练的示意性流程图，如图6所示，使用语料库进行文本分析模型的训练步骤包括：

S610：将待处理文本和所述第二编辑文本组成的训练样本存储到语料库中；

S620：统计所述语料库中存储的所有训练样本的数量；

S630：在所述所有训练样本的数量超过第二阈值的情况下，对所述文本分析模型进行训练。

本领域技术人员可以理解，训练样本的数量越多，模型的训练效果越好。通过语料库存储所有训练数据，并且当训练数据的数量达到一定规模后，开始执行对文本分析模型的训练，可以节约计算资源，提升文本分析模型的训练效果。

根据本发明另一方面，还提供了一种语音合成装置。图7示出了根据本发明一个实施例的语音合成装置的示意性框图。

如图7所示，装置700包括第一编辑文本模块710、第一语音模块720、编辑指令接收模块730、第二编辑文本模块740、第二语音模块750、确认指令接收模块760、模型训练模块770和后续合成模块780。

所述各个模块可分别执行上文中所述的语音合成方法的各个步骤/功能。以下仅对该装置700的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

第一编辑文本模块710，用于利用文本分析模型对待处理文本进行分析，并根据分析结果将所述待处理文本转化为包含一个或多个控制元素的第一编辑文本；

第一语音模块720，用于生成与所述第一编辑文本对应的第一语音；

编辑指令接收模块730，用于接收用户对所述待处理文本进行编辑的编辑指令，其中所述编辑指令包括用户基于对所述第一语音的试听体验而编辑的控制标签的信息；

第二编辑文本模块740，用于根据所述编辑指令修改所述第一编辑文本中的所述控制元素，以生成第二编辑文本；

第二语音模块750，用于生成与所述第二编辑文本对应的第二语音；

确认指令接收模块760，用于接收用户对所述第二语音的确认指令，其中所述确认指令是用户基于对所述第二语音的试听体验而发出的；

模型训练模块770，用于以所述待处理文本和所述第二编辑文本为训练样本，对所述文本分析模型进行训练；

后续合成模块780，用于利用经训练的文本分析模型进行后续语音合成。

根据本发明再一方面，还提供了一种语音合成系统，包括：处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行上述的语音合成方法。

图8示出了根据本发明一个实施例的语音合成系统800的示意性框图。如图8所示，系统800包括输入装置810、存储装置820、处理器830以及输出装置840。

所述输入装置810用于接收用户所输入的操作指令以及采集数据。输入装置810可以包括键盘、鼠标、麦克风、触摸屏和图像采集装置等中的一个或多个。在一个示例中，所述输入装置810用于接收待处理文本，并且还用于接收用户对待处理文本进行编辑的编辑指令和对第二语音的确认指令。

所述存储装置820存储用于实现根据本发明实施例的语音合成方法中的相应步骤的计算机程序指令。

所述处理器830用于运行所述存储装置820中存储的计算机程序指令，以执行根据本发明实施例的语音合成方法的相应步骤，并且用于实现根据本发明实施例的语音合成装置中的第一编辑文本模块710、第一语音模块720、编辑指令接收模块730、第二编辑文本模块740、第二语音模块750、确认指令接收模块760、模型训练模块770和后续合成模块780。

所述输出装置840用于向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。用户可以通过输出装置840试听前述第一语音或第二语音。输出装置840还用于输出经训练的文本分析模型进行后续语音合成所生成的语音。

在一个实施例中，在所述计算机程序指令被所述处理器830运行时使所述系统800执行以下步骤：

利用文本分析模型对待处理文本进行分析，并根据分析结果将所述待处理文本转化为包含一个或多个控制元素的第一编辑文本；

生成与所述第一编辑文本对应的第一语音；

接收用户对所述待处理文本进行编辑的编辑指令，其中所述编辑指令包括用户基于对所述第一语音的试听体验而编辑的控制标签的信息；

根据所述编辑指令修改所述第一编辑文本中的所述控制元素，以生成第二编辑文本；

生成与所述第二编辑文本对应的第二语音；

接收用户对所述第二语音的确认指令，其中所述确认指令是用户基于对所述第二语音的试听体验而发出的；

以所述待处理文本和所述第二编辑文本为训练样本，对所述文本分析模型进行训练；

利用经训练的文本分析模型进行后续语音合成。

此外，根据本发明又一方面，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时使得所述计算机或处理器执行本发明实施例的上述语音合成方法的相应步骤，并且用于实现根据本发明实施例的上述语音合成装置中的相应模块或上述用于语音合成系统中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

在一个实施例中，所述计算机程序指令被计算机或处理器运行时，使得所述计算机或处理器执行以下步骤：

利用文本分析模型对待处理文本进行分析，并根据分析结果将所述待处理文本转化为包含一个或多个控制元素的第一编辑文本；

生成与所述第一编辑文本对应的第一语音；

接收用户对所述待处理文本进行编辑的编辑指令，其中所述编辑指令包括用户基于对所述第一语音的试听体验而编辑的控制标签的信息；

根据所述编辑指令修改所述第一编辑文本中的所述控制元素，以生成第二编辑文本；

生成与所述第二编辑文本对应的第二语音；

接收用户对所述第二语音的确认指令，其中所述确认指令是用户基于对所述第二语音的试听体验而发出的；

以所述待处理文本和所述第二编辑文本为训练样本，对所述文本分析模型进行训练；

利用经训练的文本分析模型进行后续语音合成。

本领域普通技术人员通过阅读上述关于语音合成方法的描述，能够理解上述语音合成装置、语音合成系统和存储介质的具体实现和技术效果。为了简洁，在此不再赘述。

上述语音合成方案，能够根据用户基于试听体验对待处理文本的编辑生成新的语音，并且根据待处理文本和新的语音对文本分析模型进行训练，从而能够在后续语音合成中生成更加符合用户需求的语音，改善用户体验，提高语音合成质量。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的语音合成装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

22页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种生成个性化语音的方法及装置

语音合成方法、装置、系统和存储介质

相关技术

网友询问留言