语音合成方法、装置、计算机设备和存储介质

文档序号:702073 发布日期:2021-04-13 浏览:12次 >En<

阅读说明:本技术 语音合成方法、装置、计算机设备和存储介质 (Speech synthesis method, apparatus, computer device and storage medium ) 是由 刘夏冰 于 2020-12-25 设计创作,主要内容包括:本申请涉及一种语音合成方法、装置、计算机设备和存储介质,适用于计算机技术领域。方法包括:获取待合成的目标文本,目标文本由至少两种语言组成;将目标文本输入至文本合成模型中,文本合成模型包括与至少两种语言一一对应的至少两个特征提取模块、特征融合模块以及语音转换模块;分别通过至少两个特征提取模块对目标文本进行特征提取处理,得到与至少两个特征提取模块一一对应的至少两个文本特征;通过特征融合模块将至少两个文本特征进行融合处理,得到融合特征;通过语音转换模块,对融合特征进行语音转换处理,得到目标文本对应的合成语音。采用本方法能够将至少由两种语言组成的目标文本合成对应的合成语音。(The application relates to a speech synthesis method, a speech synthesis device, computer equipment and a storage medium, which are applicable to the technical field of computers. The method comprises the following steps: acquiring a target text to be synthesized, wherein the target text consists of at least two languages; inputting a target text into a text synthesis model, wherein the text synthesis model comprises at least two feature extraction modules, a feature fusion module and a voice conversion module which are in one-to-one correspondence with at least two languages; respectively carrying out feature extraction processing on the target text through at least two feature extraction modules to obtain at least two text features which are in one-to-one correspondence with the at least two feature extraction modules; fusing at least two text features through a feature fusion module to obtain fusion features; and performing voice conversion processing on the fusion characteristics through a voice conversion module to obtain the synthetic voice corresponding to the target text. By adopting the method, the target text composed of at least two languages can be synthesized into the corresponding synthesized voice.)

语音合成方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域,特别是涉及一种语音合成方法、装置、计算机设备和存储介质。

背景技术

随着人工智能的不断发展,语音合成技术(Text To Speech,简称TTS)已经越来越成熟,其中,语音合成技术是一种将文本转换为合成语音的技术,通过语音合成技术,可以为用户提供可懂、清晰、自然而富有表现力的合成语音。

当前,在语音合成技术中,针对单语言文本的研究较多,所谓单语言文本指的是只包含一种语言的文本,目前,将单语言文本转换为合成语音的技术已经较为成熟。

然而,随着全球化发展,各国之间沟通交流增强,混合语言文本在人们的日常生活中已经越来越常见,所谓混合语言文本指的是包括至少两种语言的文本,例如,“我并不care这件事”、“我正在准备一个presentation”等。但是,目前,针对混合语言文本的语音合成技术研究较少,技术相对不成熟。

发明内容

基于此,有必要针对上述技术问题,提供一种语音合成方法、装置、计算机设备和存储介质,能够将至少包括两种语言的文本合成语音。

第一方面,提供了一种语音合成方法,该方法包括:

获取待合成的目标文本,目标文本由至少两种语言组成;将目标文本输入至文本合成模型中,文本合成模型包括与至少两种语言一一对应的至少两个特征提取模块、特征融合模块以及语音转换模块;分别通过至少两个特征提取模块对目标文本进行特征提取处理,得到与至少两个特征提取模块一一对应的至少两个文本特征;通过特征融合模块将至少两个文本特征进行融合处理,得到融合特征;通过语音转换模块,对融合特征进行语音转换处理,得到目标文本对应的合成语音。

在其中一个实施例中,将目标文本输入至文本合成模型中,包括:将目标文本转换为目标音素标写符号;将目标音素标写符号输入至声学特征识别模型中,得到目标音素标写符号对应的声学特征;将声学特征输入至文本合成模型中。

在其中一个实施例中,通过特征融合模块将至少两个文本特征进行融合处理,包括:对于每个文本特征,在文本特征中确定至少两个语言特征,并根据提取到文本特征的特征提取模块所对应的目标语言,确定各语言特征对应的权重,至少两个语言特征与至少两种语言一一对应;根据各个文本特征中的语言特征以及各个文本特征中的语言特征对应的权重,对至少两个文本特征进行融合处理。

在其中一个实施例中,在文本特征中确定至少两个语言特征,包括:在目标文本中确定至少两个语言文本,其中,至少两个语言文本与至少两种语言一一对应;根据至少两个语言文本在目标文本中的位置,在文本特征中确定至少两个语言特征。

在其中一个实施例中,根据提取到文本特征的特征提取模块所对应的目标语言,确定各语言特征对应的权重,包括:根据提取到文本特征的特征提取模块所对应的目标语言,在至少两个语言特征中确定第一语言特征和第二语言特征,其中,第一语言特征与目标语言相对应,第二语言特征与目标语言不对应;将第一权重作为第一语言特征对应的权重,将第二权重作为第二语言特征对应的权重,其中,第一权重大于第二权重。

在其中一个实施例中,语言特征为矩阵,根据各个文本特征中的语言特征以及各个文本特征中的语言特征对应的权重,对至少两个文本特征进行融合处理,包括:将各语言特征与各语言特征对应的权重相乘,得到多个修正语言特征;对于至少两种语言中的每种语言,将语言对应的各个修正语言特征相加,得到语言对应的候选语言特征;对各候选语言特征进行拼接处理。

在其中一个实施例中,文本合成模型的训练过程包括:获取与至少两种语言一一对应的至少两组训练集,其中,每组训练集包括多个训练样本,各训练样本包括训练文本以及训练文本对应的真实合成语音;利用至少两组训练集分别训练与至少两种语言一一对应的至少两个单语言文本合成模型;基于至少两个单语言文本合成模型获取至少两个特征提取模块;将获取到的至少两个特征提取模块、预设的融合模块和预设的语音转换模块组成文本合成模型。

第二方面,提供了一种语音合成装置,该装置包括:

第一获取模块,用于获取待合成的目标文本,目标文本由至少两种语言组成;

输入模块,用于将目标文本输入至文本合成模型中,文本合成模型包括与至少两种语言一一对应的至少两个特征提取模块、特征融合模块以及语音转换模块;

第二获取模块,用于分别通过至少两个特征提取模块对目标文本进行特征提取处理,得到与至少两个特征提取模块一一对应的至少两个文本特征;

第三获取模块,用于通过特征融合模块将至少两个文本特征进行融合处理,得到融合特征;

第四获取模块,用于通过语音转换模块,对融合特征进行语音转换处理,得到目标文本对应的合成语音。

在其中一个实施例中,上述输入模块,具体用于:将目标文本转换为目标音素标写符号;将目标音素标写符号输入至声学特征识别模型中,得到目标音素标写符号对应的声学特征;将声学特征输入至文本合成模型中。

在其中一个实施例中,上述第三获取模块,包括:

确定单元,用于对于每个文本特征,在文本特征中确定至少两个语言特征,并根据提取到文本特征的特征提取模块所对应的目标语言,确定各语言特征对应的权重,至少两个语言特征与至少两种语言一一对应;

融合单元,用于根据各个文本特征中的语言特征以及各个文本特征中的语言特征对应的权重,对至少两个文本特征进行融合处理。

在其中一个实施例中,上述确定单元,具体用于:在目标文本中确定至少两个语言文本,其中,至少两个语言文本与至少两种语言一一对应;根据至少两个语言文本在目标文本中的位置,在文本特征中确定至少两个语言特征。

在其中一个实施例中,上述融合单元,具体用于:根据提取到文本特征的特征提取模块所对应的目标语言,在至少两个语言特征中确定第一语言特征和第二语言特征,其中,第一语言特征与目标语言相对应,第二语言特征与目标语言不对应;将第一权重作为第一语言特征对应的权重,将第二权重作为第二语言特征对应的权重,其中,第一权重大于第二权重。

在其中一个实施例中,语言特征为矩阵,上述融合单元,具体用于:将各语言特征与各语言特征对应的权重相乘,得到多个修正语言特征;对于至少两种语言中的每种语言,将语言对应的各个修正语言特征相加,得到语言对应的候选语言特征;对各候选语言特征进行拼接处理。

在其中一个实施例中,上述语音合成装置,还包括:

第五获取模块,用于获取与至少两种语言一一对应的至少两组训练集,其中,每组训练集包括多个训练样本,各训练样本包括训练文本以及训练文本对应的真实合成语音;

训练模块,用于利用至少两组训练集分别训练与至少两种语言一一对应的至少两个单语言文本合成模型;

第六获取模块,用于基于至少两个单语言文本合成模型获取至少两个特征提取模块;

组成模块,用于将获取到的至少两个特征提取模块、预设的融合模块和预设的语音转换模块组成文本合成模型。

第三方面,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现如上述第一方面任一所述的语音合成方法。

第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述第一方面任一的所述语音合成方法。

上述语音合成方法、装置、计算机设备和存储介质,通过获取待合成的目标文本,且将目标文本输入至文本合成模型中。分别通过文本合成模型中的至少两个特征提取模块对目标文本进行特征提取处理,得到与至少两个特征提取模块一一对应的至少两个文本特征。然后,通过文本合成模型中的特征融合模块将至少两个文本特征进行融合处理,得到融合特征,再通过文本合成模型中的语音转换模块,对融合特征进行语音转换处理,得到目标文本对应的合成语音。本申请实施例提供了一种对混合语言文本进行语音合成的方法,在该方法中,可以将至少由两种语言组成的目标文本输入至文本合成模型中,通过文本合成模型中与至少两种语言一一对应的至少两个特征提取模块对目标文本进行特征提取,得到与特征提取模块对应的至少两个文本特征。其中,由于各特征提取模块提取出的文本特征中不同语言特征的准确度不同,以目标文本中包括中文文本和英文文本为例说明,在中文特征提取模块提取出的文本特征中,中文语言特征的准确度较高,英文语言特征的准确度较低;在英文特征提取模块提取出的文本特征中,英文语言特征的准确度较高,中文语言特征的准确度较低,从而将中文特征提取模型中的中文对应的文本特征与英文特征提取模型中的英文对应的文本特征进行融合处理,使得得到的融合特征针对各种语言准确度都较高,然后对融合特征进行语音转换处理,得到至少由两种语言组成的目标文本对应的合成语音。最终实现了对混合语言文本转换为合成语言的研究。

附图说明

图1为一个实施例中语音合成方法的流程示意图;

图2为一个实施例中语音合成方法中文本合成模型的示意图;

图3为一个实施例中语音合成步骤的流程示意图;

图4为另一个实施例中语音合成方法的流程示意图;

图5为另一个实施例中语音合成方法的流程示意图;

图6为另一个实施例中语音合成方法的流程示意图;

图7为另一个实施例中语音合成方法的流程示意图;

图8为另一个实施例中语音合成方法的流程示意图;

图9为一个实施例中语音合成装置的结构框图;

图10为一个实施例中语音合成装置的结构框图;

图11为一个实施例中语音合成装置的结构框图;

图12为一个实施例中计算机设备为终端时的内部结构图;

图13为一个实施例中计算机设备为服务器时的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

随着人工智能的不断发展,语音合成技术越来越成熟。当前,语音合成技术可以应用多种场景中。

例如,在一种可能的阅读听书场景中,语音合成技术应用于各种阅读类APP,能够为用户提供多种音库的朗读功能,释放用户的双手和双眼,提供更极致的阅读体验。

在另一种可能的资讯播报场景中,语音合成技术提供专为新闻资讯播报场景打造的特色音库,让手机、音箱等设备化身专业主播,随时随地为用户播报新鲜资讯。

在另一种可能的订单播报场景中,语音合成技术可应用于打车软件、餐饮叫号、排队软件等场景,通过语音合成技术进行订单播报,让用户便捷获得通知信息。

在另一种可能的场景中,语音合成技术可以集成到儿童故事机、智能机器人、平板设备等智能硬件设备,使用户与设备的交互更自然、更亲切。

当前,在语音合成技术中,针对单语言文本的研究较多,所谓单语言文本指的是只包含一种语言的文本,目前,将单语言文本转换为合成语音的技术已经较为成熟。

然而,随着全球化发展,各国之间沟通交流增强,混合语言文本在人们的日常生活中已经越来越常见,所谓混合语言文本指的是包括至少两种语言的文本,例如,“我并不care这件事”、“我正在准备一个presentation”等。但是,目前,针对混合语言文本的语音合成技术研究较少,技术相对不成熟。

本申请针对上述技术问题提出了一种语音合成的方法,该方法主要包括:获取由至少两种语言组成的待合成的目标文本,并将目标文本输入至由与至少两种语言一一对应的至少两个特征提取模块、特征融合模块以及语音转换模块组成的文本合成模型中。分别通过文本合成模型中至少两个特征提取模块对目标文本进行特征提取处理,得到与至少两个特征提取模块一一对应的至少两个文本特征,并通过文本合成模型中特征融合模块将所述至少两个文本特征进行融合处理,得到融合特征,最后通过文本合成模型中语音转换模块,对融合特征进行语音转换处理,得到目标文本对应的合成语音。本申请实施例提供了一种对混合语言文本进行语音合成的方法,在该方法中,可以将至少由两种语言组成的目标文本输入至文本合成模型中,通过文本合成模型中与至少两种语言一一对应的至少两个特征提取模块对目标文本进行特征提取,得到与特征提取模块对应的至少两个文本特征。其中,由于各特征提取模块提取出的文本特征中不同语言特征的准确度不同,以目标文本中包括中文文本和英文文本为例说明,在中文特征提取模块提取出的文本特征中,中文语言特征的准确度较高,英文语言特征的准确度较低;在英文特征提取模块提取出的文本特征中,英文语言特征的准确度较高,中文语言特征的准确度较低,从而将中文特征提取模型中的中文对应的文本特征与英文特征提取模型中的英文对应的文本特征进行融合处理,使得得到的融合特征针对各种语言准确度都较高,然后对融合特征进行语音转换处理,得到至少由两种语言组成的目标文本对应的合成语音。最终实现了对混合语言文本转换为合成语言的研究。

需要说明的是,本申请实施例提供的语音合成的方法,其执行主体可以是语音合成的装置,该语音合成的装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部,其中,该计算机设备可以是服务器或者终端,其中,本申请实施例中的服务器可以为一台服务器,也可以为由多台服务器组成的服务器集群,本申请实施例中的终端可以是智能手机、个人电脑、平板电脑、可穿戴设备、儿童故事机以及智能机器人等其他智能硬件设备。下述方法实施例中,均以执行主体是计算机设备为例来进行说明。

在本申请一个实施例中,如图1所示,提供了一种语音合成方法,以该方法应用于计算机设备为例进行说明,包括以下步骤:

步骤101,计算机设备获取待合成的目标文本。

其中,目标文本由至少两种语言组成,例如,该至少两种语言可以是中文和英文,目标文本可以由中文文本和英文文本组成。

在本申请实施例中,在该计算机设备为服务器的情况下,可选的,服务器可以接收终端发送的目标文本;服务器还可以在服务器数据库中提取目标文本。

在该计算机设备为终端的情况下,可选的,该终端可以接收用户输入的目标文本;该终端也可以获取界面展示的目标文本;该终端还可以在终端数据中提取目标文本。本申请实施例对计算机设备获取目标文本的方式不做具体限定。

步骤102,计算机设备将目标文本输入至文本合成模型中。

在本申请实施例中,文本合成模型用于将输入的目标文本合成目标文本对应的合成语音。可选的,文本合成模型的训练过程可以包括:获取多个训练样本,各训练样本包括用于训练的训练文本以及与训练文本对应的真实合成语音,利用训练文本以及真实合成语音训练文本合成模型。文本合成模型可以包括与至少两种语言一一对应的至少两个特征提取模块、特征融合模块以及语音转换模块,其结构图如图2所示。

其中,文本合成模型可以包括与至少两种语言一一对应的至少两个特征提取模块,且特征提取模块用于对输入的目标文本进行特征提取,得到与至少两个特征提取模块一一对应的至少两个文本特征。例如目标文本中包括的至少两种语言分别为中文和英文,那么与至少两种语言一一对应的至少两个特征提取模块就分别为中文特征提取模块和英文特征提取模块。中文特征提取模块对目标文本进行特征提取,得到中文特征提取模块对应的文本特征,英文特征提取模块对目标文本进行特征提取,得到英文特征提取模块对应的文本特征。

其中,中文特征提取模块针对中文文本提取得到的文本特征准确度较高,针对英文文本提取得到的文本特征准确度较高低;而英文特征提取模块针对英文文本提取得到的文本特征准确度较高,针对中文文本提取得到的文本特征准确度较高低。因此可知,在中文特征提取模块提取出的文本特征中,中文语言特征的准确度较高,英文语言特征的准确度较低;在英文特征提取模块提取出的文本特征中,英文语言特征的准确度较高,中文语言特征的准确度较低。

其中,特征融合模块用于对至少两个特征提取模块提取得到的文本特征进行融合处理,得到融合后的融合特征。基于上述例子,特征融合模块对中文特征提取模块对应的文本特征和英文特征提取模块对应的文本特征,进行融合处理,得到融合后的融合特征。

由上述内容可知,各特征提取模块针对不同语言的文本提取到的文本特征的准确度不同,且,在中文特征提取模块提取出的文本特征中,中文语言特征的准确度较高,英文语言特征的准确度较低;在英文特征提取模块提取出的文本特征中,英文语言特征的准确度较高,中文语言特征的准确度较低。因此,可选的,计算机设备可以将中文特征提取模块提取出的文本特征中的中文语言特征与英文特征提取模块提取出的文本特征中的英文语言特征进行融合,从而使得融合后的融合特征针对每种语言的准确度都较高,使得最终合成的合成语音准确度较高,且清晰自然。

其中,语音转换模块用于对特征融合模块融合后的融合特征进行转换处理,得到合成语音。

步骤103,计算机设备分别通过至少两个特征提取模块对目标文本进行特征提取处理,得到与至少两个特征提取模块一一对应的至少两个文本特征。

在本申请实施例中,基于上述内容可知,计算机设备将目标文本输入至至少两个特征提取模块,至少两个特征提取模块分别对目标文本进行特征提取,从而得到与至少两个特征提取模块一一对应的至少两个文本特征。

步骤104,计算机设备通过特征融合模块将至少两个文本特征进行融合处理,得到融合特征。

在本申请实施例中,有上述内容可知,目标文本经过至少两个特征提取模块进行特征提取,得到至少两个特征提取模块一一对应的至少两个文本特征,为了最终文本合成模型输出的合成语言清晰自然,因此,计算机设备需要对得到的至少两个文本特征通过特征融合模块进行特征融合,得到融合特征。

步骤105,计算机设备通过语音转换模块,对融合特征进行语音转换处理,得到目标文本对应的合成语音。

在本申请实施例中,计算机设备将融合后的融合特征输入至语音转换模块,通过语音转换模块将融合特征转化为目标文本对应的合成语音。

上述语音合成方法,计算机设备通过获取待合成的目标文本,且将目标文本输入至文本合成模型中。计算机设备分别通过文本合成模型中的至少两个特征提取模块对目标文本进行特征提取处理,得到与至少两个特征提取模块一一对应的至少两个文本特征。然后,计算机设备通过文本合成模型中的特征融合模块将至少两个文本特征进行融合处理,得到融合特征,再通过文本合成模型中的语音转换模块,对融合特征进行语音转换处理,得到目标文本对应的合成语音。在该方法中,可以将至少由两种语言组成的目标文本输入至文本合成模型中,通过文本合成模型中与至少两种语言一一对应的至少两个特征提取模块对目标文本进行特征提取,得到与特征提取模块对应的至少两个文本特征。其中,由于各特征提取模块提取出的文本特征中不同语言特征的准确度不同,以目标文本中包括中文文本和英文文本为例说明,在中文特征提取模块提取出的文本特征中,中文语言特征的准确度较高,英文语言特征的准确度较低;在英文特征提取模块提取出的文本特征中,英文语言特征的准确度较高,中文语言特征的准确度较低,从而将中文特征提取模型中的中文对应的文本特征与英文特征提取模型中的英文对应的文本特征进行融合处理,使得得到的融合特征针对各种语言准确度都较高,然后对融合特征进行语音转换处理,得到至少由两种语言组成的目标文本对应的合成语音。最终实现了对混合语言文本转换为合成语言的研究。

在本申请一个可选的实施例中,如图3所示,上述将目标文本输入至文本合成模型中,可以包括以下步骤:

步骤301,计算机设备将目标文本转换为目标音素标写符号。

在本申请实施例中,可选的,计算机设备可以将目标文本通过展示界面展示给用户,用户读取展示界面上的目标文本,并将目标文本标注为目标音素标写符号,输入至计算机设备。可选的,在本申请实施例中,目标音素标写符号可以是国际音标。

可选的,计算机设备可以根据预先训练好的文本转换模型将目标文本转换为目标音素标写符号。其中,文本转换模型用于将输入的目标文本转换为目标文本对应的目标音素标写符号。文本转换模型的训练过程可以包括:获取多个文本转化训练样本,各文本转化训练样本包括用于训练文本转换模型的训练文本以及与训练文本对应的音素标写符号,基于各文本转化训练样本中的训练文本以及与训练文本对应的音素标写符号训练文本转换模型。

步骤302,计算机设备将目标音素标写符号输入至声学特征识别模型中,得到目标音素标写符号对应的声学特征。

在本申请实施例中,计算机设备将目标音素标写符号输入至声学特征识别模型中。其中,声学特征识别模型用于将输入的目标音素标写符号识别为目标音素标写符号对应的声学特征。可选的,本申请实施例中,声学特征可以为梅尔普特征。

可选的,在本申请实施例中,声学特征识别模型的训练过程可以包括:获取多个声学特征训练样本,各声学特征训练样本中包括用于训练声学特征模型的音素标写符号以及与音素标写符号对应的声学特征,基于各声学特征训练样本中的音素标写符号以及与音素标写符号对应的声学特征训练声学特征识别模型。

步骤303,计算机设备将声学特征输入至文本合成模型中。

在本申请实施例中,计算机设备将声学特征识别模型输出的声学特征输入至文本合成模型中,从而将目标文本对应的声学特征合成为合成语音。

在本申请实施例中,计算机设备将目标文本转换为目标音素标写符号,并将目标音素标写符号输入至声学特征识别模型中,得到目标音素标写符号对应的声学特征,然后将声学特征输入至文本合成模型中。上述方法,通过将目标文本转换为目标音素标写符号,从而使得目标文本中的至少两个语言文本以相同的规格的目标音素标写符号输入至声学特征识别模型,得到目标音素标写符号对应的声学特征。从而简化了声学特征识别模型的训练以及使用过程。此外,将目标音素标写符号对应的声学特征输入至文本合成模型中,而不是将目标文本直接输入至文本合成模型。如果将目标文本直接输入至文本合成模型,将会导致文本合成模型训练复杂,且根据目标文本输出的合成语音生硬而不清晰。然而,上述方法将声学特征输入至文本合成模型中,使得文本合成模型输入的合成语言更加自然清晰。

在本申请一个可选的实施例中,如图4所示,上述通过特征融合模块将至少两个文本特征进行融合处理,可以包括以下步骤:

步骤401,对于每个文本特征,计算机设备在文本特征中确定至少两个语言特征,并根据提取到文本特征的特征提取模块所对应的目标语言,确定各语言特征对应的权重。

其中,至少两个语言特征与至少两种语言一一对应。

在本申请实施例中,对于上述与至少两种语言一一对应的至少两个特征提取模块输出的每个文本特征,计算设备基于目标文本中每个语言文本所在的位置,在每个文本特征中确定至少两个语言特征。

例如,目标文本中包括中文和英文两种语言,与两种语言一一对应的两个特征提取模块分别为中文特征提取模块和英文特征提取模块,计算机设备根据目标文本中中文文本和英文文本在目标文本中的位置,分别在中文特征提取模块和英文特征提取模块输出的文本特征中,确定中文语言特征和英文语言特征。

可选的,目标文本为“我并不care这件事”,两个特征提取模块分别为中文特征提取模块和英文特征提取模块,计算机设备根据“我并不care这件事”中,“我并不这件事”和“care”的位置分别在中文特征提取模块和英文特征提取模块输出的文本特征中,确定“我并不这件事”对应的中文语言特征和“care”对应的英文语言特征。

在本申请实施例中,在对于每个文本特征确定各文本特征中至少两个语言特征之后,计算机设备分别提取文本特征的特征提取模块所对应的目标语言,根据各特征提取模块提取到各语言特征的准确性,确定各语言特征对应的权重。

例如,由基于上述例子,在对于每个文本特征确定各文本特征中的中文语言特征和英文语言特征之后,计算机设备确定中文特征提取模块对应的目标语言为中文,英文特征提取模块对应的目标语言为英文。计算机设备根据中文特征提取模块和英文特征提取模提取中文语言特征和英文语言特征的准确性,确定各文本特征中中文语言特征和英文语言特征对应的权重。

步骤402,计算机设备根据各个文本特征中的语言特征以及各个文本特征中的语言特征对应的权重,对至少两个文本特征进行融合处理。

在本申请实施例中,计算机设备在去确定各个文本特征中的语言特征以及各个文本特征中的语言特征对应的权重之后,可选的,可以将各个语言特征以及各个语言特征对应的权重进行相乘或者相除,从而实现对至少两个文本特征进行融合处理。

在本申请实施例中,计算机设备对于获取到的每个文本特征,在文本特征中确定至少两个语言特征,以便对每个文本特征中的不同的语言特征进行不同处理。计算机设备根据提取到文本特征的特征提取模块所对应的目标语言,确定各语言特征对应的权重,由于不同特征提取模块提取到的文本特征中不同语言特征的准确度不同,因此根据取到文本特征的特征提取模块所对应的目标语言,确定各语言特征对应的权重,可以保证对各语言特征的准确性。然后,计算机设备根据各个文本特征中的语言特征以及各个文本特征中的语言特征对应的权重,对至少两个文本特征进行融合处理,从而保证了融合处理后的融合特征的准确性,进一步保证了文本合成模型输出的合成语言的准确以及保证合成语言清晰自然。

在本申请一个可选的实施例中,如图5所示,上述在文本特征中确定至少两个语言特征,可以包括以下步骤:

步骤501,计算机设备在目标文本中确定至少两个语言文本。

其中,至少两个语言文本与至少两种语言一一对应。例如,至少两种语言分别为中文和英文,则至少两个语言文本分别为中文文本和英文文本。

在本申请实施例中,可选的,计算机设备获取到的目标文本中带有至少两种语言的标识信息,计算机设备基于目标文本中带有的至少两种语言的标识信息在目标文本中确定至少两个语言文本。例如,目标文本为“我并不care这件事”,其中“care”对应的标识信息为英文,“我并不这件事”对应的标识信息为中文,计算机设备通过读取“care”对应的标识信息以及“我并不这件事”对应的标识信息,确定“care”为英文文本以及“我并不这件事”为中文文本。

计算机设备可以通过文本确定模型,在目标文本中确定至少两个语言文本。其中,文本确定模型用于对输入文本确定模型的目标文本确定目标文本包括的语言文本。例如,将“我”输入至文本确定模型后,文本确定模型可以确定“我”为中文文本;将“care”输入至文本确定模型后,文本确定模型可以确定“care”为英文文本;将“我并不care这件事”输入至文本确定模型后,文本确定模型可以确定“我并不这件事”为中文文本,“care”为英文文本。

步骤502,计算机设备根据至少两个语言文本在目标文本中的位置,在文本特征中确定至少两个语言特征。

在本申请实施例中,在目标文本中确定至少两个语言文本之后,计算机设备根据目标文本中至少两个语言文本的位置,分别在至少两个特征提取模块输出的至少两个文本特征中确定至少两个语言特征。

在本申请实施例中,计算机设备在目标文本中确定至少两个语言文本,并根据至少两个语言文本在目标文本中的位置,在文本特征中确定至少两个语言特征。在确定了每个文本特征中至少两个语言特征,有利于针对每个文本特征中至少两个语言特征进行权重分配,避免了每个文本特征中至少两个语言特征权重分配错误。

在本申请一个可选的实施例中,语言特征为矩阵,如图6所示,上述根据各个文本特征中的语言特征以及各个文本特征中的语言特征对应的权重,对至少两个文本特征进行融合处理,可以包括以下步骤:

步骤601,计算机设备根据提取到文本特征的特征提取模块所对应的目标语言,在至少两个语言特征中确定第一语言特征和第二语言特征。

在本申请实施例中,其中,第一语言特征与目标语言相对应,第二语言特征与目标语言不对应。

在本申请实施例中,计算机设备根据提取到的文本特征的特征提取模块,去确定各特征提取模块对应的目标语言,并基于各特征提取模块的目标语言在各文本特征中确定第一语言特征和第二语言特征。

例如,目标文本中包括中文和英文两种语言,与两种语言一一对应的两个特征提取模块分别为中文特征提取模块和英文特征提取模块。中文特征提取模块的目标语言为中文,那么计算机设备在中文特征提取模块输出的文本特征中确定中文语言特征为第一语言特征,英文语言特征为第二语言特征;从英文特征提取模块输出的文本特征中确定英文语言特征为第一语言特征,中文语言特征为第二语言特征。

步骤602,计算机设备将第一权重作为第一语言特征对应的权重,将第二权重作为第二语言特征对应的权重,其中,第一权重大于第二权重。

在本申请实施例中,其中,第一权重大于第二权重。由于,各特征提取模块对目标文本中不同语言本文进行特征提取,提取到的不同语言特征的准确度不同。因此,计算机设备需要在各特征提取模块输出的文本特征中确定至少两个语言特征,并根据各特征提取模块提取到的不同语言特征的准确度,将第一权重作为第一语言特征对应的权重,将第二权重作为第二语言特征对应的权重。

可选的,基于上述例子可知,在中文特征提取模块输出的文本特征中确定中文语言特征为第一语言特征,英文语言为第二语言特征,那么将第一权重作为中文语言特征对应的权重,将第二权重作为英文语言特征对应的权重,且第一权重大于第二权重,其中,第一权重可以是80%,第二权重可以是20%,且中文语言特征可以为第一中文矩阵,英文语言特征可以为第二英文矩阵;在英文特征提取模块输出的文本特征中确定英文语言特征为第一语言特征,中文语言为第二语言特征,那么将第一权重作为英文语言特征对应的权重,将第二权重作为中文语言特征对应的权重,且第一权重大于第二权重,其中,第一权重可以是80%,第二权重可以是20%,且英文语言特征可以为第一英文矩阵,中文语言特征可以为第二中文矩阵。

步骤603,计算机设备将各语言特征与各语言特征对应的权重相乘,得到多个修正语言特征。

在申请实施例中,在获取到各语言特征与各语言特征对应的权重之后,计算机设备将各语言特征与各语言特征对应的权重相乘,得到多个修正后的语言特征。

继续基于上述例子。可选的,计算机设备将中文特征体提取模块对应的文本特征中的中文语言特征确定为第一语言特征,英文语言特征确定为第二语言特征,且第一语言特征对应的第一权重为80%,第二语言特征对应的第二权重为20%,可选的,第一语言特征可以是第一语言;计算机设备将英文特征体提取模块对应的文本特征中的英文语言特征确定为第一语言特征,中文语言特征确定为第二语言特征,且第一语言特征对应的第一权重为80%,第二语言特征对应的第二权重为20%。计算机设备将中文特征体提取模块对应的文本特征中的中文语言特征乘以80%,英文语言特征乘以20%,并将英文特征体提取模块对应的文本特征中的英文语言特征乘以80%,中文语言特征乘以20%,即第一中文矩阵乘以80%,第二英文矩阵乘以20%,第一英文矩阵乘以80%,第二中文矩阵乘以20%,从而得到多个修正语言特征。

步骤604,计算机设备对于至少两种语言中的每种语言,将语言对应的各个修正语言特征相加,得到语言对应的候选语言特征。

在本申请实施例中,在得到多个修正语言特征后,计算机设备确定各个修正语言特征对应的语言,从各修正语言特征中确定出至少两种语言。基于确定出的每种语言,计算机设备将各语言对应的各个修正语言特征进行相加,从而得到各语言对应的候选语言特征。

例如,基于上述例子可知,计算机设备得到中文特征提取模块对应的修正中文语言特征和修正英文语言特征以及英文特征提取模块对应的修正英文语言特征和修正中文语言特征,计算机设备分别将中文特征提取模块对应的修正中文语言特征和英文特征提取模块对应的修正中文语言特征进行相加,得到候选中文特征,并将中文特征提取模块对应的修正英文语言特征和英文特征提取模块对应的修正英文语言特征进行相加,得到候选英文特征。即将上述第一中文矩阵乘以80%后加上第二中文矩阵乘以20%,得到候选中文特征;将上述第二英文矩阵乘以20%后加上第一英文矩阵乘以80%,得到候选英文特征。

步骤605,计算机设备对各候选语言特征进行拼接处理。

在本申请实施例中,计算机设备在获取到各候选语言特征后,将各候选语言特征进行拼接处理。

基于上述内容,即计算机设备将上述候选中文特征与候选英文特征进行拼接处理,得到中英文拼接语言特征。

在本申请实施例中,计算机设备根据取到文本特征的特征提取模块所对应的目标语言,在至少两个语言特征中确定第一语言特征和第二语言特征,使得第一语言特征为目标语言对应的语言特征。然后,计算机设备将第一权重作为第一语言特征对应的权重,将第二权重作为第二语言特征对应的权重,并将各语言特征与各语言特征对应的权重相乘,得到多个修正语言特征,保证了各文本特征中各两个语言特征的准确性,从而也保证了多个修正语言特征的准确性。对于至少两种语言中的每种语言,计算机设备将语言对应的各个修正语言特征相加,得到语言对应的候选语言特征,并对各候选语言特征进行拼接处理。上述方法,在对语言对应的各个修正语言特征相加之后,使得各个语言对应的候选语言特征成为各个语言对应的最优特征,将各候选语言特征进行拼接处理,使得目标文本对应的整体语言特征达到最优,从而保证了文本合成模型输出的合成语音准确且清晰自然。

在本申请一个可选的实施例中,如图7所示,上述语音合成方法中,文本合成模型的训练过程可以包括以下步骤:

步骤701,计算机设备获取与至少两种语言一一对应的至少两组训练集。

其中,每组训练集包括多个训练样本,各训练样本包括训练文本以及训练文本对应的真实合成语音。

在本申请实施例中,可选的,在该计算机设备为服务器的情况下,服务器可以接收终端发送的与至少两种语言一一对应的至少两组训练集;服务器还可以在服务器数据库中提取与至少两种语言一一对应的至少两组训练集。

可选的,在该计算机设备为终端的情况下,该终端可以接收用户输入的与至少两种语言一一对应的至少两组训练集;该终端也可以获取界面展示的与至少两种语言一一对应的至少两组训练集;该终端还可以在终端数据中提取与至少两种语言一一对应的至少两组训练集。本申请实施例对计算机设备获取与至少两种语言一一对应的至少两组训练集的方式不做具体限定。

步骤702,计算机设备利用至少两组训练集分别训练与至少两种语言一一对应的至少两个单语言文本合成模型。

在本申请实施例中,在获取了与至少两种语言一一对应的至少两组训练集之后,计算机设备可以利用各训练集分别训练各训练集语言对应的各单语言文本合成模型。各单语言文本合成模型的训练方式可以为,获取各单语言文本合成模型对应的训练集,各训练集中包括多个训练样本。各训练样本包括训练文本以及训练文本对应的真实合成语音,基于各训练样本中的训练文本以及训练文本对应的真实合成语音训练各单语言文本合成模型。

例如,可选的,计算机设备获取了中文训练集和英文训练集,分别利用中文训练集和英文训练集训练中文文本合成模型和英文文本合成模型。下面,以中文文本合成模型的训练过程为例,介绍中文文本合成模型的训练过程:计算机设备获取中文训练集,其中,中文训练集中包括多个中文训练样本,各中文训练样本中包括中文文本和中文文本对应的真实合成语音,基于各中文训练样本中的中文文本和中文文本对应的真实合成语音训练中文文本合成模型。

步骤703,计算机设备基于至少两个单语言文本合成模型获取至少两个特征提取模块。

在本申请实施例中,在训练得到至少两个单语言文本合成模型之后,计算机设备可以通过知识蒸馏的方式,将各单语言文本合成模型倒数第二层的输出特征,作为与各单语言文本合成模型对应的特征提取模块的标签特征,训练至少两个特征提取模块。

可选的,基于上述例子可知,计算机设备训练得到中文文本合成模型和英文文本合成模型,利用知识蒸馏的方式,分别将中文文本合成模型和英文文本合成模型倒数第二层的输出特征,作为中文特征提取模块和英文特征提取模块的标签特征,以此训练中文特征提取模块和英文特征提取模块。

步骤704,计算机设备将获取到的至少两个特征提取模块、预设的融合模块和预设的语音转换模块组成文本合成模型。

在本申请实施例中,计算机设备语根据特征融合的需求,可以预先训练分类模型,分类模型用于对目标文本中的至少两种语言进行分类,然会将训练好的分类模块链接到特征融合模块,指导各文本特征的融合。

可选的,计算机设备可以基于上述单语言文本合成模型最后一层的内容,训练语音转换模型,将融合特征转换为合成语音。

在本申请实施例中,计算机设备将获取到的的至少两个特征提取模块、预设的融合模块和预设的语音转换模块组成文本合成模型。

在本申请实施例中,计算机设备获取与至少两种语言一一对应的至少两组训练集,并利用至少两组训练集分别训练与至少两种语言一一对应的至少两个单语言文本合成模型。由于单语言文本合成模型的对应的训练集较大,且方法成熟,从而可以保证训练得到的各单语言文本合成模型的准确性。在训练得到至少两个单语言文本合成模型之后,计算机设备基于至少两个单语言文本合成模型获取至少两个特征提取模块,在保证各单语言文本合成模型的准确性的情况下,可以保证至少两个特征提取模块的准确性。然后,计算机设备将获取到的至少两个特征提取模块、预设的融合模块和预设的语音转换模块组成文本合成模型。其中,预设的融合模块和预设的语音转换模块可以经过多次训练,且准确性较高。基于至少两个特征提取模块的准确性,以及预设的融合模块和预设的语音转换模块的准确性,从而保证了文本合成模型的准确性,提高了基于文本合成模型对目标文件进行语音合成,得到的合成语言的准确性。

为了更好的说明本申请的提供的语音合成方法,本申请提供一种语音合成方法的整体流程方面进行解释说明的实施例,如图8所示,该方法包括:

步骤801,计算机设备获取与至少两种语言一一对应的至少两组训练集,其中,每组训练集包括多个训练样本,各训练样本包括训练文本以及训练文本对应的真实合成语音。

步骤802,计算机设备利用至少两组训练集分别训练与至少两种语言一一对应的至少两个单语言文本合成模型。

步骤803,计算机设备基于至少两个单语言文本合成模型获取至少两个特征提取模块。

步骤804,计算机设备将获取到的至少两个特征提取模块、预设的融合模块和预设的语音转换模块组成文本合成模型。

步骤805,计算机设备获取待合成的目标文本,目标文本由至少两种语言组成。

步骤806,计算机设备将目标文本转换为目标音素标写符号。

步骤807,计算机设备将目标音素标写符号输入至声学特征识别模型中,得到目标音素标写符号对应的声学特征。

步骤808,计算机设备将声学特征输入至文本合成模型中。

步骤809,计算机设备在目标文本中确定至少两个语言文本,其中,至少两个语言文本与至少两种语言一一对应。

步骤810,计算机设备根据至少两个语言文本在目标文本中的位置,在文本特征中确定至少两个语言特征。

步骤811,计算机设备根据提取到文本特征的特征提取模块所对应的目标语言,在至少两个语言特征中确定第一语言特征和第二语言特征,其中,第一语言特征与目标语言相对应,第二语言特征与目标语言不对应。

步骤812,计算机设备将第一权重作为第一语言特征对应的权重,将第二权重作为第二语言特征对应的权重,其中,第一权重大于第二权重。

步骤813,计算机设备将各语言特征与各语言特征对应的权重相乘,得到多个修正语言特征。

步骤814,计算机设备对于至少两种语言中的每种语言,将语言对应的各个修正语言特征相加,得到语言对应的候选语言特征。

步骤815,计算机设备对各候选语言特征进行拼接处理。

步骤816,计算机设备通过语音转换模块,对融合特征进行语音转换处理,得到目标文本对应的合成语音。

应该理解的是,虽然图1以及3-8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1以及图3-8中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图9所示,提供了一种语音合成装置900,包括:第一获取模块901、输入模块902、第二获取模块903、第三获取模块904以及第四获取模块905,其中:

第一获取模块901,用于获取待合成的目标文本,目标文本由至少两种语言组成。

输入模块902,用于将目标文本输入至文本合成模型中,文本合成模型包括与至少两种语言一一对应的至少两个特征提取模块、特征融合模块以及语音转换模块。

第二获取903,用于分别通过至少两个特征提取模块对目标文本进行特征提取处理,得到与至少两个特征提取模块一一对应的至少两个文本特征。

第三获取模块904,用于通过特征融合模块将至少两个文本特征进行融合处理,得到融合特征。

第四获取模块905,用于通过语音转换模块,对融合特征进行语音转换处理,得到目标文本对应的合成语音。

在其中一个实施例中,上述输入模块902,具体用于:将目标文本转换为目标音素标写符号;将目标音素标写符号输入至声学特征识别模型中,得到目标音素标写符号对应的声学特征;将声学特征输入至文本合成模型中。

在其中一个实施例中,如图10所示,上述第三获取模块904,包括:确定单元9041以及融合单元9042,其中:

确定单元9041,用于对于每个文本特征,在文本特征中确定至少两个语言特征,并根据提取到文本特征的特征提取模块所对应的目标语言,确定各语言特征对应的权重,至少两个语言特征与至少两种语言一一对应;

融合单元9042,用于根据各个文本特征中的语言特征以及各个文本特征中的语言特征对应的权重,对至少两个文本特征进行融合处理。

在其中一个实施例中,上述确定单元9041,具体用于:在目标文本中确定至少两个语言文本,其中,至少两个语言文本与至少两种语言一一对应;根据至少两个语言文本在目标文本中的位置,在文本特征中确定至少两个语言特征。

在其中一个实施例中,上述融合单元9042,具体用于:根据提取到文本特征的特征提取模块所对应的目标语言,在至少两个语言特征中确定第一语言特征和第二语言特征,其中,第一语言特征与目标语言相对应,第二语言特征与目标语言不对应;将第一权重作为第一语言特征对应的权重,将第二权重作为第二语言特征对应的权重,其中,第一权重大于第二权重。

在其中一个实施例中,语言特征为矩阵,上述融合单元9042,具体用于:将各语言特征与各语言特征对应的权重相乘,得到多个修正语言特征;对于至少两种语言中的每种语言,将语言对应的各个修正语言特征相加,得到语言对应的候选语言特征;对各候选语言特征进行拼接处理。

在其中一个实施例中,如图11所示,上述语音合成装置900,还包括:第五获取模块906、训练模块907、第六获取模块908以及组成模块909,其中:

第五获取模块906,用于获取与至少两种语言一一对应的至少两组训练集,其中,每组训练集包括多个训练样本,各训练样本包括训练文本以及训练文本对应的真实合成语音;

训练模块907,用于利用至少两组训练集分别训练与至少两种语言一一对应的至少两个单语言文本合成模型;

第六获取模块908,用于基于至少两个单语言文本合成模型获取至少两个特征提取模块;

组成模块909,用于将获取到的至少两个特征提取模块、预设的融合模块和预设的语音转换模块组成文本合成模型。

关于语音合成装置的具体限定可以参见上文中对于语音合成方法的限定,在此不再赘述。上述语音合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音合成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音合成数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音合成方法。

本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在本申请一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

获取待合成的目标文本,目标文本由至少两种语言组成;将目标文本输入至文本合成模型中,文本合成模型包括与至少两种语言一一对应的至少两个特征提取模块、特征融合模块以及语音转换模块;分别通过至少两个特征提取模块对目标文本进行特征提取处理,得到与至少两个特征提取模块一一对应的至少两个文本特征;通过特征融合模块将至少两个文本特征进行融合处理,得到融合特征;通过语音转换模块,对融合特征进行语音转换处理,得到目标文本对应的合成语音。

在本申请一个实施例中,处理器执行计算机程序时还实现以下步骤:将目标文本转换为目标音素标写符号;将目标音素标写符号输入至声学特征识别模型中,得到目标音素标写符号对应的声学特征;将声学特征输入至文本合成模型中。

在本申请一个实施例中在一个实施例中,处理器执行计算机程序时还实现以下步骤:对于每个文本特征,在文本特征中确定至少两个语言特征,并根据提取到文本特征的特征提取模块所对应的目标语言,确定各语言特征对应的权重,至少两个语言特征与至少两种语言一一对应;根据各个文本特征中的语言特征以及各个文本特征中的语言特征对应的权重,对至少两个文本特征进行融合处理。

在本申请一个实施例中,处理器执行计算机程序时还实现以下步骤:在目标文本中确定至少两个语言文本,其中,至少两个语言文本与至少两种语言一一对应;根据至少两个语言文本在目标文本中的位置,在文本特征中确定至少两个语言特征。

在本申请一个实施例中,处理器执行计算机程序时还实现以下步骤:根据提取到文本特征的特征提取模块所对应的目标语言,在至少两个语言特征中确定第一语言特征和第二语言特征,其中,第一语言特征与目标语言相对应,第二语言特征与目标语言不对应;将第一权重作为第一语言特征对应的权重,将第二权重作为第二语言特征对应的权重,其中,第一权重大于第二权重。

在本申请一个实施例中,语言特征为矩阵,在一个实施例中,处理器执行计算机程序时还实现以下步骤:将各语言特征与各语言特征对应的权重相乘,得到多个修正语言特征;对于至少两种语言中的每种语言,将语言对应的各个修正语言特征相加,得到语言对应的候选语言特征;对各候选语言特征进行拼接处理。

在本申请一个实施例中,处理器执行计算机程序时还实现以下步骤:获取与至少两种语言一一对应的至少两组训练集,其中,每组训练集包括多个训练样本,各训练样本包括训练文本以及训练文本对应的真实合成语音;利用至少两组训练集分别训练与至少两种语言一一对应的至少两个单语言文本合成模型;基于至少两个单语言文本合成模型获取至少两个特征提取模块;将获取到的至少两个特征提取模块、预设的融合模块和预设的语音转换模块组成文本合成模型。

在本申请一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取待合成的目标文本,目标文本由至少两种语言组成;将目标文本输入至文本合成模型中,文本合成模型包括与至少两种语言一一对应的至少两个特征提取模块、特征融合模块以及语音转换模块;分别通过至少两个特征提取模块对目标文本进行特征提取处理,得到与至少两个特征提取模块一一对应的至少两个文本特征;通过特征融合模块将至少两个文本特征进行融合处理,得到融合特征;通过语音转换模块,对融合特征进行语音转换处理,得到目标文本对应的合成语音。

在本申请一个实施例中,计算机程序被处理器执行时还实现以下步骤:将目标文本转换为目标音素标写符号;将目标音素标写符号输入至声学特征识别模型中,得到目标音素标写符号对应的声学特征;将声学特征输入至文本合成模型中。

在本申请一个实施例中,计算机程序被处理器执行时还实现以下步骤:对于每个文本特征,在文本特征中确定至少两个语言特征,并根据提取到文本特征的特征提取模块所对应的目标语言,确定各语言特征对应的权重,至少两个语言特征与至少两种语言一一对应;根据各个文本特征中的语言特征以及各个文本特征中的语言特征对应的权重,对至少两个文本特征进行融合处理。

在本申请一个实施例中,计算机程序被处理器执行时还实现以下步骤:在目标文本中确定至少两个语言文本,其中,至少两个语言文本与至少两种语言一一对应;根据至少两个语言文本在目标文本中的位置,在文本特征中确定至少两个语言特征。

在本申请一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据提取到文本特征的特征提取模块所对应的目标语言,在至少两个语言特征中确定第一语言特征和第二语言特征,其中,第一语言特征与目标语言相对应,第二语言特征与目标语言不对应;将第一权重作为第一语言特征对应的权重,将第二权重作为第二语言特征对应的权重,其中,第一权重大于第二权重。

在本申请一个实施例中,语言特征为矩阵,在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将各语言特征与各语言特征对应的权重相乘,得到多个修正语言特征;对于至少两种语言中的每种语言,将语言对应的各个修正语言特征相加,得到语言对应的候选语言特征;对各候选语言特征进行拼接处理。

在本申请一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取与至少两种语言一一对应的至少两组训练集,其中,每组训练集包括多个训练样本,各训练样本包括训练文本以及训练文本对应的真实合成语音;利用至少两组训练集分别训练与至少两种语言一一对应的至少两个单语言文本合成模型;基于至少两个单语言文本合成模型获取至少两个特征提取模块;将获取到的至少两个特征提取模块、预设的融合模块和预设的语音转换模块组成文本合成模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

27页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:语言模型训练、视频字幕校验方法、装置、设备及介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!