音频合成方法、装置、电子设备及存储介质

文档序号：36603 发布日期：2021-09-24 浏览：25次 >En<

阅读说明：本技术 音频合成方法、装置、电子设备及存储介质 (Audio synthesis method and device, electronic equipment and storage medium ) 是由卢家辉于 2021-05-27 设计创作，主要内容包括：本公开涉及一种音频合成方法、装置、电子设备及存储介质,该方法包括：获取原始音频的背景音乐和原始语音信息,原始语音信息包括：原始语音的文本信息,旋律信息以及文本信息与旋律信息对应的时间信息；获取与文本信息对应的目标文本；根据旋律信息以及时间信息,将目标文本转换成目标语音；合成目标语音与背景音乐,得到目标音频。本公开技术方案,可以自动根据旋律信息以及时间信息,将目标文本转换成目标语音,并通过合成目标语音与背景音乐,最终得到替换歌词的目标音频,避免用户通过手动或者通过录音来获得目标语音等繁琐操作,极大地降低用户的创作门槛,提高用户的创作积极性,提升用户上传视频的质量,提高视频网站流量和点击量。(The present disclosure relates to an audio synthesis method, apparatus, electronic device, and storage medium, the method comprising: acquiring background music and original voice information of original audio, wherein the original voice information comprises: text information, melody information and time information corresponding to the text information and the melody information of the original voice; acquiring a target text corresponding to the text information; converting the target text into target voice according to the melody information and the time information; and synthesizing the target voice and the background music to obtain the target audio. According to the technical scheme, the target text can be automatically converted into the target voice according to the melody information and the time information, the target audio for replacing the lyrics is finally obtained by synthesizing the target voice and the background music, complex operations that a user obtains the target voice manually or through recording are avoided, the creation threshold of the user is greatly reduced, the creation enthusiasm of the user is improved, the quality of uploading videos of the user is improved, and the flow and click rate of video websites are improved.)

音频合成方法、装置、电子设备及存储介质

技术领域

本公开涉及数据处理技术，尤其涉及一种音频合成方法、装置、电子设备及存储介质。

背景技术

在视频网站上，很多专业生产内容(Professionally Generated Content，PGC)的作者会上传包含替换过歌词的歌曲的视频剪辑作品。与原始歌曲相比，替换歌词大多趣味性强，针砭时弊，并且原始歌曲通常为热门经典歌曲，因此，包含这些替换过歌词的歌曲的视频剪辑作品，很容易在网络上引起广泛传播，能够很大地提高视频网站的流量和点击量。

然而，目前这些替换过歌词的歌曲大多数是由PGC用户生产出来的。对于普通互联网用户而言，如果想要剪辑出类似的作品，需要用户手动生成替换歌词的歌声音频或者需要用户通过录音来获得替换歌词的歌声音频。这样的操作过程繁琐复杂且门槛高，普通用户无法方便地生成替换歌词的歌曲。

发明内容

本公开提供一种音频合成方法、装置、电子设备及存储介质，以至少解决相关技术中生成替换歌词的歌曲的操作过程繁琐复杂且门槛高的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种音频合成方法，包括：

获取原始音频的背景音乐和原始语音信息，所述原始语音信息包括：原始语音的文本信息，旋律信息以及所述文本信息与所述旋律信息对应的时间信息；

获取与所述文本信息对应的目标文本；

根据所述旋律信息以及所述时间信息，将所述目标文本转换成目标语音；

合成所述目标语音与所述背景音乐，得到目标音频。

在一种可选的实现方式中，所述获取原始音频的背景音乐和原始语音信息的步骤，包括：

获取所述原始音频；

从所述原始音频中提取出所述背景音乐和所述原始语音；

对所述原始语音进行语音识别，获得原始文本，所述原始文本中的字符对应的时间信息，所述原始语音的声学特征参数以及所述声学特征参数对应的时间信息；其中，所述文本信息为所述原始文本所包含的信息，所述旋律信息为所述原始语音的声学特征参数，所述时间信息包括所述原始文本中的字符对应的时间信息以及所述声学特征参数对应的时间信息。

在一种可选的实现方式中，所述根据所述旋律信息以及所述时间信息，将所述目标文本转换成目标语音的步骤，包括：

对所述目标文本中的第一字符进行语音合成，获得第一语音片段；

根据所述原始文本中的字符与时间信息之间的对应关系，确定原始字符对应的第一时间信息，所述原始字符为所述原始文本中与所述第一字符对应的字符；

根据所述声学特征参数与时间信息之间的对应关系，确定所述第一时间信息对应的第一声学特征参数；

根据所述第一声学特征参数，调整所述第一语音片段的声学特征，获得目标语音片段；

所述合成所述目标语音与所述背景音乐，得到目标音频的步骤，包括：

根据所述第一时间信息，合成所述目标语音片段与所述背景音乐，得到所述目标音频。

在一种可选的实现方式中，在对所述原始语音进行语音识别，获得原始文本的步骤之后，还包括：

根据所述原始文本中的各字符对应的时间信息，对所述原始文本进行断句处理，得到多个原始文本片段；

统计各所述原始文本片段所包含的字符个数，获得所述文本信息。

在一种可选的实现方式中，所述目标文本包括目标文本片段，所述获取与所述文本信息对应的目标文本的步骤，包括：

输出显示所述原始文本片段所包含的字符个数，以提示用户根据所述字符个数进行输入；

获取与所述原始文本片段对应的目标文本片段。

在一种可选的实现方式中，在所述合成所述目标语音与所述背景音乐，得到目标音频的步骤之后，还包括：

根据所述原始文本片段中各字符对应的时间信息，计算所述原始文本片段的起始时间和持续时长；

根据所述原始文本片段的起始时间和持续时长，输出显示所述目标文本片段。

在一种可选的实现方式中，所述输出显示所述目标文本片段的步骤，包括：

根据所述原始文本片段中各字符对应的时间信息，以动画形式显示所述目标文本片段中的各字符。

根据本公开实施例的第二方面，提供一种音频合成装置，包括：

信息获取模块，被配置为获取原始音频的背景音乐和原始语音信息，所述原始语音信息包括：原始语音的文本信息，旋律信息以及所述文本信息与所述旋律信息对应的时间信息；

文本获取模块，被配置为获取与所述文本信息对应的目标文本；

语音转换模块，被配置为根据所述旋律信息以及所述时间信息，将所述目标文本转换成目标语音；

音频合成模块，被配置为合成所述目标语音与所述背景音乐，得到目标音频。

在一种可选的实现方式中，所述信息获取模块具体被配置为：

获取所述原始音频；

从所述原始音频中提取出所述背景音乐和所述原始语音；

在一种可选的实现方式中，所述语音转换模块具体被配置为：

对所述目标文本中的第一字符进行语音合成，获得第一语音片段；

根据所述声学特征参数与时间信息之间的对应关系，确定所述第一时间信息对应的第一声学特征参数；

根据所述第一声学特征参数，调整所述第一语音片段的声学特征，获得目标语音片段；

所述音频合成模块具体被配置为：

根据所述第一时间信息，合成所述目标语音片段与所述背景音乐，得到所述目标音频。

在一种可选的实现方式中，所述信息获取模块还被配置为：

根据所述原始文本中的各字符对应的时间信息，对所述原始文本进行断句处理，得到多个原始文本片段；

统计各所述原始文本片段所包含的字符个数，获得所述文本信息。

在一种可选的实现方式中，所述目标文本包括目标文本片段，所述文本获取模块具体被配置为：

输出显示所述原始文本片段所包含的字符个数，以提示用户根据所述字符个数进行输入；

获取与所述原始文本片段对应的目标文本片段。

在一种可选的实现方式中，所述装置还包括文本显示模块，被配置为：

根据所述原始文本片段中各字符对应的时间信息，计算所述原始文本片段的起始时间和持续时长；

根据所述原始文本片段的起始时间和持续时长，输出显示所述目标文本片段。

在一种可选的实现方式中，所述文本显示模块具体被配置为：

根据所述原始文本片段中各字符对应的时间信息，以动画形式显示所述目标文本片段中的各字符。

根据本公开的第三方面，提供一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的音频合成方法。

根据本公开的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如第一方面所述的音频合成方法。

根据本公开的第五方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序由电子设备的处理器执行时实现如第一方面所述的音频合成方法。

本公开实施例提供的技术方案至少带来以下有益效果：

本公开首先获取原始音频的背景音乐和原始语音信息，原始语音信息包括：原始语音的文本信息，旋律信息以及文本信息与旋律信息对应的时间信息；然后获取与文本信息对应的目标文本；之后根据旋律信息以及时间信息，将目标文本转换成目标语音；之后合成目标语音与背景音乐，得到目标音频。采用本公开技术方案，只需要获取原始音频的背景音乐、文本信息、旋律信息、时间信息以及与文本信息对应的目标文本，就可以自动根据旋律信息以及时间信息，将目标文本转换成目标语音，并通过合成目标语音与背景音乐，得到将原始音频中的原始语音替换成目标语音的目标音频，避免用户通过手动生成目标语音或者通过录音来获得目标语音等繁琐操作，极大地降低用户的创作门槛，普通互联网用户通过移动端的视频剪辑软件就可以完成替换歌词的歌曲的视频剪辑，从而极大地提高用户的创作积极性，提升用户上传视频的质量，进而提高视频网站流量和点击量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种音频合成方法的流程图。

图2是根据一示例性实施例示出的另一种音频合成方法的流程图。

图3是根据一示例性实施例示出的一种音频合成装置的框图。

图4是根据一示例性实施例示出的一种电子设备的框图。

图5是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

目前，替换过歌词的歌曲的视频大多数是由PGC作者生产出来的。其中，PGC指专业生产内容，这些内容大多制作精良，趣味性强，很容易在互联网引起广泛传播。PGC作者就是专门生产PGC内容的作者。与一般互联网用户不同，PGC作者大多熟练掌握视频软件的操作，视频剪辑水平比一般互联网用户高很多。对于普通互联网用户而言，如果想要剪辑出替换过歌词的歌曲的视频，需要用户手动生成替换歌词的歌声音频或者需要用户通过录音来获得替换歌词的歌声音频。这样的操作过程繁琐复杂且门槛高，普通用户无法方便地生成替换歌词的歌曲。

图1是根据一示例性实施例示出的一种音频合成方法的流程图，该音频合成方法可以应用于终端等电子设备。其中，终端包括但不限于平板电脑、智能手机、掌上阅读器、膝上型计算机、台式计算机、可穿戴设备等。如图1所示，该音频合成方法包括以下步骤。

在步骤S11中，获取原始音频的背景音乐和原始语音信息，原始语音信息包括：原始语音的文本信息，旋律信息以及文本信息与旋律信息对应的时间信息。

其中，原始音频例如可以是一首歌曲中的一段或一整首等，由背景音乐和原始语音组成。背景音乐即是无人声的音乐，可以包括歌曲中滤掉歌声后的音乐，还可以包括纯音乐等，本实施例对此不作限定。原始语音可以为原始歌曲中歌声等，本实施例对此不作限定。

原始文本可以是对原始语音如歌声进行语音识别得到的歌词文本等。

文本信息可以包括对原始语音进行语音识别得到的原始文本(如歌词)中的字符数量等信息，本实施例对此不作限定。

旋律信息可以包括原始语音的音调等声学特征参数，本实施例对此不作限定。

文本信息与旋律信息对应的时间信息例如可以包括原始文本中的各字符以及旋律信息中的声学特征参数分别在背景音乐中的起始时间和持续时长(也可以为结束时间)等信息，本实施例对此不作限定。

本实施例中，原始音频的背景音乐和原始语音信息可以由用户导入终端；也可以预先存储在终端中；还可以是由用户从本地或音乐库中选取原始音频如一首歌曲，从原始音频中提取出背景音乐和原始语音，再对原始语音进行分析获得文本信息、旋律信息以及文本信息与旋律信息对应的时间信息，后续实施例会对后一种实现方式进行详细描述。

在步骤S12中，获取与文本信息对应的目标文本。

在具体实现中，获取用户输入的目标文本，目标文本可以作为替换原始文本如原始歌词的歌词文本。

用户输入的目标文本可以是与背景音乐对应的部分歌词文本或完整歌词文本等，本实施例对此不作限定。

当文本信息为原始文本中的字符数量时，与文本信息对应的目标文本可以是与原始文本中的字符数量一致的目标文本。

在步骤S13中，根据旋律信息以及时间信息，将目标文本转换成目标语音。

在具体实现中，可以将原始语音的旋律信息作为目标文本的旋律信息，例如，将原始文本中各字符对应的音调作为目标文本中各字符的音调；并按照文本信息与旋律信息对应的时间信息，例如将原始文本中各字符在背景音乐中的时间信息作为目标文本中各字符在目标语音中的时间信息，采用语音合成(Text To Speech，TTS)技术，将目标文本转换成语音信号，获得目标语音。TTS技术可以将用户或者外界输入的文本，转化为语音输出，生成文本对应的语音信号，从而使得机器能够模仿人的语音说话。

在步骤S14中，合成目标语音与背景音乐，得到目标音频。

在具体实现中，可以采用歌声合成技术，将目标语音与原始音频中的背景音乐相融合，得到目标音频，从而创造出替换了歌词的歌曲。

本示例性实施例提供的音频合成方法，只需要获取原始音频的背景音乐、文本信息、旋律信息、时间信息以及与文本信息对应的目标文本，就可以自动根据旋律信息以及时间信息，将目标文本转换成目标语音，并通过合成目标语音与背景音乐，最终得到将原始音频中的原始语音替换成目标语音的目标音频，获得替换了歌词的音频，避免用户通过手动生成目标语音或者通过录音来获得目标语音等繁琐操作，极大地降低用户的创作门槛，普通互联网用户通过移动端的视频剪辑软件就可以完成替换歌词的歌曲的视频剪辑，从而极大地提高用户的创作积极性，提升用户上传视频的质量，进而提高视频网站流量和点击量，具有极大的正向作用。

在一种可选的实现方式中，步骤S11具体可以包括：获取原始音频；从原始音频中提取出背景音乐和原始语音；对原始语音进行语音识别，获得原始文本，原始文本中的字符对应的时间信息，原始语音的声学特征参数以及声学特征参数对应的时间信息；其中，文本信息为原始文本所包含的信息，旋律信息为原始语音的声学特征参数，时间信息包括原始文本中的字符对应的时间信息以及声学特征参数对应的时间信息。

在具体实现中，首先可以由用户从本地或音乐库导入一首歌曲，从而获取原始音频。然后可以采用人声分离技术，将原始音频中的背景音乐和原始语音分离出来，分离得到的背景音乐和原始语音可以分别保存在本地磁盘。其中，人声分离技术是利用人声侦测原理，找出原始音频中具有人声的部分，使用鲁棒主成分分析(Robust principle componentanalysis，RPCA)将人声与配乐加以分离，分离得到的人声即原始语音，配乐即背景音乐。

之后可以采用语音识别技术，对保存在本地的原始语音进行语音识别，识别成原始文本，该原始文本可以包括多个字符。在识别过程中，可以获得原始文本中的字符对应的时间信息、原始语音的声学特征参数以及声学特征参数对应的时间信息。其中，字符对应的时间信息可以包括字符在背景音乐中的起始时间和持续时长(也可以为结束时间)。声学特征参数对应的时间信息可以包括声学特征参数在背景音乐中的起始时间和持续时长(也可以为结束时间)。

上述过程可以在视频剪辑软件中完成。其中，语音识别技术是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。

本实现方式中，用户可以自主选择原始音频，进而获得任意原始音频的背景音乐和原始语音信息，有助于提高用户创作视频的质量。

在一种可选的实现方式中，步骤S13具体可以包括：对目标文本中的第一字符进行语音合成，获得第一语音片段；根据原始文本中的字符与时间信息之间的对应关系，确定原始字符对应的第一时间信息，原始字符为原始文本中与第一字符对应的字符；根据声学特征参数与时间信息之间的对应关系，确定第一时间信息对应的第一声学特征参数；根据第一声学特征参数，调整第一语音片段的声学特征，获得目标语音片段。

其中，第一字符为目标文本中的任一字符。

其中，原始文本中的字符与时间信息之间的对应关系可以根据原始文本中的字符对应的时间信息获得。

声学特征参数与时间信息之间的对应关系可以根据声学特征参数对应的时间信息获得。

在具体实现中，可以采用语音合成(Text To Speech，TTS)技术，首先将第一字符转换为语音信号，获得第一语音片段；然后确定该第一字符对应的第一时间信息；之后确定该第一时间信息对应的第一声学特征参数；之后按照第一声学特征参数，对第一语音片段的声学特征进行调整，进而获得第一字符对应的目标语音片段。目标语音可以包括目标文本中各字符对应的目标语音片段。

本实现方式中，步骤S14具体可以包括：根据第一时间信息，合成目标语音片段与背景音乐，得到目标音频。

其中，第一时间信息包括目标语音片段在背景音乐中的起始时间和持续时长(也可以为结束时间)。

具体地，可以采用歌声合成技术，将目标语音片段与背景音乐按照第一时间信息对齐融合，得到与第一字符对应的目标音频片段。目标音频包括目标文本中各字符对应的目标音频片段。

在一种可选的实现方式中，在步骤S11中，在对原始语音进行语音识别，获得原始文本的步骤之后，还可以包括：根据原始文本中的各字符对应的时间信息，对原始文本进行断句处理，得到多个原始文本片段。

其中，原始文本片段例如可以对应原始文本中的一句歌词。

当原始文本片段为一句歌词时，可以根据歌词中各字符之间的间隔时间，对歌词文本进行断句处理，得到原始文本片段。

在具体实现中，可以以原始文本片段为单位，存储原始文本片段的起始时间以及该原始文本片段所包含的各字符的持续时长等。例如可以以json的文本形式保存上述信息，保存的形式如下所示：

需要说明的是，在上述json文本当中，是将每一句歌词(即原始文本片段)作为数组当中的一个元素，元素当中还记录了每一句歌词的起始时间以及歌词中每个字符的持续时长。

在一种可选的实现方式中，在步骤S11中，在得到多个原始文本片段的步骤之后，还可以包括：统计各原始文本片段所包含的字符个数，获得文本信息。

在一种可选的实现方式中，目标文本可以包括目标文本片段，在步骤S12中具体可以包括：输出显示原始文本片段所包含的字符个数，以提示用户根据字符个数进行输入；获取与原始文本片段对应的目标文本片段。

在具体实现中，可以遍历json根节点的数组，取出数组当中的每个元素(对应每一句歌词的信息)，获取每一句歌词的字符个数，然后可以在终端界面当中弹出文本框提示用户可以按照该句歌词的字符个数修改歌词，用户在文本框输入的替换歌词或目标文本片段的字数可以与原始歌词或原始文本片段的字符个数相同。之后可以将用户输入的目标文本片段保存到json文件当中，直至json根节点的数组当中的最后一句歌词遍历结束。

在一种可选的实现方式中，在步骤S14之后，还可以包括：根据原始文本片段中各字符对应的时间信息，计算原始文本片段的起始时间和持续时长；根据原始文本片段的起始时间和持续时长，输出显示目标文本片段。

具体地，可以计算原始文本片段中各字符的持续时长之和，得到原始文本片段的持续时长；根据原始文本片段中首字符的起始时间，以及原始文本片段的持续时长，输出显示目标文本片段。

其中，输出显示目标文本片段的步骤，具体可以包括：根据原始文本片段中各字符对应的时间信息，以动画形式显示目标文本片段中的各字符。

具体地，可以按照原始文本片段中各字符的持续时长，以动画形式显示目标文本片段中的各字符。

在具体实现中，可以将原始文本片段的起始时间和持续时长作为目标文本片段的起始时间和持续时长。目标文本片段的持续时长可以作为目标文本片段的显示时长，在视频剪辑软件当中添加字幕，输出显示目标文本片段。还可以将原始文本片段中各字符的持续时长作为目标文本片段中各字符的持续时长，在字幕中添加卡拉OK动画。

通过本技术方案，普通互联网用户也可以方便地完成替换歌词的歌曲，并结合创作后的歌曲进行视频的剪辑，极大地提高了用户剪辑视频的积极性。对于视频网站而言，能够极大地提升用户上传视频的质量，对于提高视频网站流量和点击量，有极大的正向作用。

图2是根据一示例性实施例示出的另一种音频合成方法的流程图，如图2所示，该音频合成方法包括以下步骤。

在步骤S21中，获取用户从本地导入的一首歌曲或从线上音乐库选择的一首歌曲。其中，歌曲即原始音频。

在步骤S22中，利用人声分离技术，将歌曲中的人声和背景音乐分离，分别保存在本地磁盘。其中，歌曲中的人声即原始语音。

在步骤S23中，利用语音识别技术，将人声当中的音调识别出来，并识别出每句歌词的字数、起始时间以及每个字的持续时长，以json形式保存起来。

在步骤S24中，弹出对话框，提示用户根据每句歌词的字数修改歌词，将用户修改的歌词保存到json文件当中。其中，修改后的歌词即目标文本。

在步骤S25中，利用歌声合成技术，根据人声当中的音调以及每句歌词中每个字的持续时长，将用户修改的歌词生成目标语音，并根据每句歌词的起始时间合并目标语音和背景音乐，生成目标音频。

在步骤S26中，添加字幕内容。

本实现方式，通过整合人声分离算法，语音识别技术和歌声合成技术，可以在视频剪辑软件中创建一种全新的交互，该交互可以让普通互联网用户也能方便地生成替换歌词的歌曲的视频作品，极大地提高普通互联网用户创作该类视频的积极性。这种一站式的交互，省去了用户校准替换歌词的繁琐操作，极大地降低用户的使用门槛，对于提高用户创作替换歌词视频的创作积极性有极大的意义。

图3是根据一示例性实施例示出的一种音频合成装置的框图。参照图3，该装置包括：

信息获取模块31，被配置为获取原始音频的背景音乐和原始语音信息，所述原始语音信息包括：原始语音的文本信息，旋律信息以及所述文本信息与所述旋律信息对应的时间信息；

文本获取模块32，被配置为获取与所述文本信息对应的目标文本；

语音转换模块33，被配置为根据所述旋律信息以及所述时间信息，将所述目标文本转换成目标语音；

音频合成模块34，被配置为合成所述目标语音与所述背景音乐，得到目标音频。

在一种可选的实现方式中，所述信息获取模块具体被配置为：

获取所述原始音频；

从所述原始音频中提取出所述背景音乐和所述原始语音；

在一种可选的实现方式中，所述语音转换模块具体被配置为：

对所述目标文本中的第一字符进行语音合成，获得第一语音片段；

根据所述声学特征参数与时间信息之间的对应关系，确定所述第一时间信息对应的第一声学特征参数；

根据所述第一声学特征参数，调整所述第一语音片段的声学特征，获得目标语音片段；

所述音频合成模块具体被配置为：

根据所述第一时间信息，合成所述目标语音片段与所述背景音乐，得到所述目标音频。

在一种可选的实现方式中，所述信息获取模块还被配置为：

根据所述原始文本中的各字符对应的时间信息，对所述原始文本进行断句处理，得到多个原始文本片段；

统计各所述原始文本片段所包含的字符个数，获得所述文本信息。

在一种可选的实现方式中，所述目标文本包括目标文本片段，所述文本获取模块具体被配置为：

输出显示所述原始文本片段所包含的字符个数，以提示用户根据所述字符个数进行输入；

获取与所述原始文本片段对应的目标文本片段。

在一种可选的实现方式中，所述装置还包括文本显示模块，被配置为：

根据所述原始文本片段中各字符对应的时间信息，计算所述原始文本片段的起始时间和持续时长；

根据所述原始文本片段的起始时间和持续时长，输出显示所述目标文本片段。

在一种可选的实现方式中，所述文本显示模块具体被配置为：

根据所述原始文本片段中各字符对应的时间信息，以动画形式显示所述目标文本片段中的各字符。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是本公开示出的一种电子设备800的框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，电子设备800可以包括以下一个或组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或处理器820来执行指令，以完成任一实施例所述的方法的全部或部分步骤。此外，处理组件802可以包括一个或模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行任一实施例所述的方法。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成任一实施例所述的方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括可读性程序代码，该可读性程序代码可由装置800的处理器820执行以完成任一实施例所述的方法。可选地，该程序代码可以存储在装置800的存储介质中，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图5是本公开示出的一种电子设备1900的框图。例如，电子设备1900可以被提供为一服务器。

参照图5，电子设备1900包括处理组件1922，其进一步包括一个或处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行任一实施例所述的方法。

电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理，一个有线或无线网络接口1950被配置为将电子设备1900连接到网络，和一个输入输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统，例如WindowsServerTM，MacOSXTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

21页详细技术资料下载

音频合成方法、装置、电子设备及存储介质

相关技术

网友询问留言