音频制作方法、装置、设备及存储介质

文档序号：989485 发布日期：2020-11-06 浏览：1次 >En<

阅读说明：本技术 音频制作方法、装置、设备及存储介质 (Audio production method, device, equipment and storage medium ) 是由谢少龙于 2020-07-30 设计创作，主要内容包括：本申请公开了一种音频制作方法、装置、设备及存储介质,属于音频处理技术领域。所述方法包括：显示第一音频的音频编辑界面,所述音频编辑界面包括所述第一音频的至少一句歌词和歌词编辑控件,所述至少一句歌词包括第一歌词；接收在所述歌词编辑控件上对所述第一歌词的歌词编辑操作,所述歌词编辑操作包括输入第二歌词；将所述第一音频中的所述第一歌词替换为所述第二歌词,生成第二音频,所述第二音频包括根据所述第二歌词生成的人声音频。该方法可以简化音频的制作步骤。(The application discloses an audio making method, an audio making device, audio making equipment and a storage medium, and belongs to the technical field of audio processing. The method comprises the following steps: an audio editing interface displaying a first audio, the audio editing interface comprising at least one lyric of the first audio and a lyric editing control, the at least one lyric comprising first lyrics; receiving a lyric editing operation on the lyric editing control for the first lyric, wherein the lyric editing operation comprises inputting second lyric; replacing the first lyrics in the first audio with the second lyrics to generate a second audio, wherein the second audio comprises human voice audio generated according to the second lyrics. The method can simplify the audio production steps.)

音频制作方法、装置、设备及存储介质

技术领域

本发明实施例涉及多媒体技术领域，特别涉及一种音频制作方法、装置、设备及存储介质。

背景技术

用户在音频软件上听到喜欢的歌曲时，可能会想基于该歌曲进行再创作。例如，使用改变歌曲的歌词，来制作自己专属的音乐。

相关技术中，用户想要进行歌曲的再创作，需要使用专业的音频编辑软件，根据专业的音频编辑方法对歌曲进行伴奏和人声的分离，然后对伴奏或人声进行再编辑，再将编辑后的人声和伴奏合成得到新的歌曲。

相关技术中的歌曲制作方法，需要用户具有专业的音频编辑能力，音频制作的步骤过于复杂。

发明内容

本发明实施例提供了一种音频制作方法、装置、设备及存储介质，可以简化音频的制作步骤。所述技术方案如下：

一方面，提供了一种音频制作方法，所述方法包括：

显示第一音频的音频编辑界面，所述音频编辑界面包括所述第一音频的至少一句歌词和歌词编辑控件，所述至少一句歌词包括第一歌词；

接收在所述歌词编辑控件上对所述第一歌词的歌词编辑操作，所述歌词编辑操作包括输入第二歌词；

将所述第一音频中的所述第一歌词替换为所述第二歌词，生成第二音频，所述第二音频包括根据所述第二歌词生成的人声音频。

可选地，所述方法还包括：

获取目标音色，所述目标音色用于生成所述人声音频；

所述将所述第一音频中的所述第一歌词替换为所述第二歌词，生成第二音频，包括：

根据所述目标音色将所述第一音频中的所述第一歌词替换为所述第二歌词，生成所述第二音频。

可选地，所述根据所述目标音色将所述第一音频中的所述第一歌词替换为所述第二歌词，生成所述第二音频，包括：

根据所述目标音色、所述第二歌词的音素、所述第一音频中所述第一歌词对应的音符生成包含所述第二歌词的所述人声音频；

获取所述第一音频的模板音频，所述模板音频包括伴奏音频和主旋律音频中的至少一种；

根据所述模板音频和所述人声音频生成所述第二音频。

可选地，所述根据所述目标音色、所述第二歌词的音素、所述第一音频中所述第一歌词对应的音符生成包含所述第二歌词的所述人声音频，包括：

将所述目标音色的音色标识、所述第二歌词的所述音素、所述第一音频中所述第一歌词对应的音符输入声学模型获取梅尔频谱；

调用声码器将所述梅尔频谱转换为所述人声音频。

可选地，所述第二音频包括：

音频时长小于所述第一音频，且所述第二歌词的人声音频片段根据所述目标音色生成，除所述第二歌词之外的歌词的人声音频片段使用所述第一音频的原声音色的音频；

或，

所述音频时长等于所述第一音频，且所述第二歌词的人声音频片段根据所述目标音色生成，除所述第二歌词之外的歌词的人声音频片段使用所述第一音频的原声音色的音频；

或，

所述音频时长小于所述第一音频，且全部歌词的所述人声音频是根据所述目标音色生成的音频；

或，

所述音频时长等于所述第一音频，且全部歌词的所述人声音频是根据所述目标音色生成的音频。

可选地，所述方法还包括：

获取训练数据，所述训练数据包括：训练歌词的音素、所述训练歌词的音符、所述训练歌词的音素位置信息、所述训练歌词的音符位置信息、训练音频的音色标识、所述训练音频的梅尔频谱中的至少一种；

根据所述训练数据训练初始模型得到所述声学模型。

可选地，所述方法还包括：

显示所述第二音频的音频播放界面，所述音频播放界面包括播放控件；

响应于接收触发所述播放控件的播放操作，播放所述第二音频。

可选地，所述获取目标音色，包括：

显示音色选择界面，所述音色选择界面包括至少一个候选音色和选择控件；

响应于接收到触发所述选择控件的选择操作，根据所述选择操作从所述候选音色中确定所述目标音色；

所述根据所述目标音色将所述第一音频中的所述第一歌词替换为所述第二歌词，生成包含所述第二歌词的所述第二音频之后，还包括：

播放所述第二音频。

另一方面，提供了一种音频制作装置，所述装置包括：

显示模块，用于显示第一音频的音频编辑界面，所述音频编辑界面包括所述第一音频的至少一句歌词和歌词编辑控件，所述至少一句歌词包括第一歌词；

交互模块，用于接收在所述歌词编辑控件上对所述第一歌词的歌词编辑操作，所述歌词编辑操作包括输入第二歌词；

生成模块，用于将所述第一音频中的所述第一歌词替换为所述第二歌词，生成第二音频，所述第二音频包括根据所述第二歌词生成的人声音频。

可选地，所述装置还包括：

获取模块，用于获取目标音色，所述目标音色用于生成所述人声音频；

所述生成模块，还用于根据所述目标音色将所述第一音频中的所述第一歌词替换为所述第二歌词，生成所述第二音频。

可选地，所述生成模块，还用于根据所述目标音色、所述第二歌词的音素、所述第一音频中所述第一歌词对应的音符生成包含所述第二歌词的所述人声音频；

所述获取模块，还用于获取所述第一音频的模板音频，所述模板音频包括伴奏音频和主旋律音频中的至少一种；

所述生成模块，还用于根据所述模板音频和所述人声音频生成所述第二音频。

可选地，所述生成模块，包括：

模型子模块，用于将所述目标音色的音色标识、所述第二歌词的所述音素、所述第一音频中所述第一歌词对应的音符输入声学模型获取梅尔频谱；

声码器子模块，用于调用声码器将所述梅尔频谱转换为所述人声音频。

可选地，所述第二音频包括：

或，

所述音频时长小于所述第一音频，且全部歌词的所述人声音频是根据所述目标音色生成的音频；

或，

所述音频时长等于所述第一音频，且全部歌词的所述人声音频是根据所述目标音色生成的音频。

可选地，所述装置还包括：

所述获取模块，还用于获取训练数据，所述训练数据包括：训练歌词的音素、所述训练歌词的音符、所述训练歌词的音素位置信息、所述训练歌词的音符位置信息、训练音频的音色标识、所述训练音频的梅尔频谱中的至少一种；

训练模块，用于根据所述训练数据训练初始模型得到所述声学模型。

可选地，所述装置还包括：

所述显示模块，还用于显示所述第二音频的音频播放界面，所述音频播放界面包括播放控件；

所述交互模块，还用于接收触发所述播放控件的播放操作；

播放模块，用于响应于接收触发所述播放控件的播放操作，播放所述第二音频。

可选地，所述装置还包括：

所述显示模块，还用于显示音色选择界面，所述音色选择界面包括至少一个候选音色和选择控件；

所述交互模块，还用于接收触发所述选择控件的选择操作；

所述获取模块，还用于响应于接收到触发所述选择控件的选择操作，根据所述选择操作从所述候选音色中确定所述目标音色。

播放模块，用于播放所述第二音频。

另一方面，提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器上存储有指令，所述指令被所述处理器执行时实现上述的音频制作方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述的音频制作方法。

另一方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述的音频制作方法。

本发明实施例提供的技术方案带来的有益效果是：

通过在音频编辑界面接收用户对歌曲歌词的更改，根据用户更改后的歌词和原歌曲生成改编后的歌曲，使用户可以一键修改歌曲的歌词快速生成新的歌曲，简化用户生成音频的操作步骤，提高音频编辑的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种计算机系统的结构框图；

图2是根据另一示例性实施例示出的一种音频制作方法的流程图；

图3是根据另一示例性实施例示出的一种音频编辑界面的示意图；

图4是根据另一示例性实施例示出的一种音频制作方法的流程图；

图5是根据另一示例性实施例示出的一种音色选择界面的示意图；

图6是根据另一示例性实施例示出的一种音频制作方法的流程图；

图7是根据另一示例性实施例示出的一种音频制作方法的流程图；

图8是根据另一示例性实施例示出的一种声学模型训练方法的流程图；

图9是根据另一示例性实施例示出的一种音频制作装置的结构示意图；

图10是根据另一示例性实施例示出的一种终端的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在对本发明实施例进行详细介绍之前，先对本发明实施例涉及的应用场景和实施环境进行简单介绍。

首先，对本发明实施例涉及的名词进行简要解释。

用户界面(User Interface，UI)控件，在应用程序的用户界面上能够看见的任何可视控件或元素，比如，图片、输入框、文本框、按钮、标签等控件，其中一些UI控件响应用户的操作，比如，用户触发编辑控件，可以输入文字。本申请实施例中涉及的UI控件，包括但不限于：歌词编辑控件、播放控件、选择控件。

音素(phone)：是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素分为元音与辅音两大类。如汉语音节啊(ā)只有一个音素，爱(ài)有两个音素，代(dài)有三个音素等。音素是构成音节的最小单位或最小的语音片段，是从音质的角度划分出来的最小的线性的语音单位。音素是具体存在的物理现象。国际音标(由国际语音学会制定，用来统一标示各国语音的字母。也称为“国际语音学字母”“万国语音学字母”)的音标符号与全人类语言的音素一一对应。音素一般用国际音标(International Phonetic Alphabet，IPA)标记。国际音标是国际上通行的一种记音符号，由国际语音协会于1888年制定并公布，后经多次修改。用国际音标记音，用于表示发音上的音素细节时，采用[]，用于标记音位则采用//。音素一般分为元音和辅音两大类。

然后，对本发明实施例涉及的实时环境进行简单介绍。

参考图1，示出了本申请一个示例性实施例提供的计算机系统的结构示意图，该计算机系统包括终端120和服务器140。终端120与服务器140之间通过有线或者无线网络相互连接。

可选地，终端120可以是笔记本电脑、台式电脑、智能手机、平板电脑、智能音箱、智能机器人中的至少一种。

终端120包括第一存储器和第一处理器。第一存储器中存储有第一程序；上述第一程序被第一处理器调用执行以实现音频制作方法。第一存储器可以包括但不限于以下几种：随机存取存储器(Random Access Memory，RAM)、只读存储器(Read Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)、以及电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)。

第一处理器可以是一个或者多个集成电路芯片组成。可选地，第一处理器可以是通用处理器，比如，中央处理器(Central Processing Unit，CPU)或者网络处理器(NetworkProcessor，NP)。可选地，第一处理器可以通过来实现本申请提供的音频制作方法或声学模型的训练方法。

服务器140包括第二存储器和第二处理器。第二存储器中存储有第二程序，上述第二程序被第二处理器调用来实现本申请提供的音频制作方法。示例性的，第二存储器中存储有第二程序；上述第二程序被第二处理器调用执行以实现音频制作方法。可选地，第二存储器可以包括但不限于以下几种：RAM、ROM、PROM、EPROM、EEPROM。可选地，第二处理器可以是通用处理器，比如，CPU或者NP。

示意性的，本申请提供的音频制作方法可以应用于歌曲改编、歌曲制作、歌曲预览等场景中。

本发明实施例提供的音频制作方法可以由终端来执行，或，由终端和服务器来执行；该终端具有音频制作功能，进一步地，该终端还具有音频播放功能。在一些实施例中，该终端可以为手机、平板电脑、台式计算机、便携式计算机等等，本发明实施例对此不作限定。

图2是根据另一示例性实施例示出的一种音频制作方法的流程图，本实施例以该音频制作方法应用于终端中进行举例说明，该音频制作方法可以包括如下几个步骤：

步骤210，显示第一音频的音频编辑界面，音频编辑界面包括第一音频的至少一句歌词和歌词编辑控件，至少一句歌词包括第一歌词。

音频编辑界面用于进行第一音频的编辑。示例性的，在音频编辑界面之前还可以包括音频选择界面，音频选择界面用于确定需要进行音频编辑的目标音频。示例性的，在本实施例中，以用户选择对第一音频进行编辑为例进行说明。

示例性的，音频编辑界面用于展示第一音频的音频信息。音频信息包括第一音频的歌词、MV(Music Video，音乐短片)、音轨、曲谱、音调图(用于标识主旋律的音调高低)、时域信号、频域信号、音频制作方信息、相关图片(专辑封面、演唱者图片等)、播放进度条、音频时长中的至少一种。

示例性的，音频编辑界面还包括用于编辑第一音频的编辑控件。编辑控件包括歌词编辑控件、音调编辑控件、曲谱编辑控件、重置控件、试听控件、完成控件、保存控件、音色选择控件、分享控件、剪辑控件(选取控件)中的至少一种。

示例性的，歌词编辑控件用于编辑第一音频的歌词，可选地，歌词编辑控件用于在被触发后显示歌词编辑界面，在歌词编辑界面中用户可以输入歌词，客户端在歌词编辑界面接收用户输入的歌词。示例性的，歌词编辑界面可以是新的用户界面，也可以是指位于音频编辑界面之上的编辑界面；歌词编辑界面包括编辑框，编辑框用于接收用户输入的文字信息。示例性的，第一音频的每一句歌词都对应有一个歌词编辑控件，客户端在接收到歌词编辑控件上的触发操作后，显示对应歌词的歌词编辑界面，示例性的，也可以第一音频的一段歌词对应一个歌词编辑控件，客户端在接收到歌词编辑控件上的触发操作后，显示对应段落歌词的歌词编辑界面，在该歌词编辑界面中用户可以编辑该段歌词。示例性的，也可以只有一个歌词编辑控件，客户端在接收到歌词编辑控件上的触发操作后，显示整个第一音频的歌词编辑界面，在该歌词编辑界面中用户可以编辑第一音频的全部歌词。示例性的，歌词编辑控件可以是设置在音频编辑界面上与歌词绑定的不可见的UI控件，用户通过点击、双击或长按歌词或歌词对应的区域，来触发该歌词对应的歌词编辑控件，进入该歌词的歌词编辑界面。示例性的，歌词编辑控件还可以是音频编辑界面上可见的图标，用户通过点击、双击或长按来触发歌词编辑控件，进入歌词编辑界面。

示例性的，音调编辑控件用于编辑第一音频的音调，例如，调整第一音频中某句歌词对应人声音频的音调高低。示例性的，曲谱编辑控件用于编辑第一音频的主旋律曲谱或伴奏曲谱或人声音调。音色选择控件用于选择生成第二音频的人声的音色。示例性的，客户端为用户提供了不同歌姬的音色，用户可以从中选择喜欢的音色来生成新歌曲，例如，歌姬的音色包括：青年音、萝莉音、御姐音、大叔音等。示例性的，重置控件用于清除用户对第一音频的历史编辑操作，使用户可以重新对第一音频进行编辑。试听控件用于播放根据用户对第一音频的修改得到的第二音频。完成控件用于完成本次音频编辑，生成第二音频。保存控件用于保存生成的第二音频。分享控件用于分享第二音频。剪辑控件用户从第一音频中选取部分音频片段，以该音频片段为基础生成第二音频。

示例性的，第一音频是歌曲的音频。示例性的，第一音频包括人声音频、主旋律音频和伴奏音频中的至少一种。人声音频是演唱第一音频的歌词的音频。主旋律音频是第一音频的主旋律音调的音频。示例性的，第一音频是由人声音频、主旋律音频、伴奏音频中的至少两种音频合成得到的音频。示例性的，第一音频对应有至少一句歌词，歌词是指第一音频所演唱的文字信息。

例如，如图3所示，给出了一种第一音频的音频编辑界面，在音频编辑界面中显示有第一音频的歌词301，第一歌词对应的歌词编辑控件302，当客户端接收到歌词编辑控件302上的触发操作时，显示第一歌词的歌词编辑界面303，用户可以在歌词编辑界面303上输入第二歌词，来替换第一歌词。

步骤230，接收在歌词编辑控件上对第一歌词的歌词编辑操作，歌词编辑操作包括输入第二歌词。

示例性的，客户端接收用户在歌词编辑控件上对第一歌词的歌词编辑操作，示例性的，用户通过歌词编辑控件唤出第一歌词的歌词编辑界面，客户端接收用户在歌词编辑界面中输入的第二歌词。

示例性的，第二歌词的字数可以与第一歌词相同，也可以与第一歌词不同。示例性的，为了保证根据第二歌词生成的第二音频的音频效果，可以限制用户输入的第二歌词的字数，例如，限制第二歌词的字数为以第一歌词的字数为基准上下浮动五个字。

示例性的，第一歌词可以是第一音频中的至少一句歌词，则对应的，第二歌词是与第一歌词相对应的至少一句歌词。

步骤250，将第一音频中的第一歌词替换为第二歌词，生成第二音频，第二音频包括根据第二歌词生成的人声音频。

客户端根据用户输入的第二歌词，将第一音频中第一歌词对应的人声音频片段替换为第二歌词的人声音频片段，得到第二音频。即，第二音频是根据第一音频的伴奏音频或/和主旋律音频，以及第二歌词的人声音频合成的音频。

示例性的，第二音频的音频时长不大于第一音频。即，第二音频的音频时长可以等于第一音频，或，第二音频的音频时长小于第一音频。例如，第二音频的音频时长等于第一音频，则第二音频是根据第一音频的全部伴奏音频或全部主旋律音频、第一音频的除第一歌词之外的其他歌词对应的人声音频、第二歌词对应的人声音频合成的音频。再如，第二音频的音频时长小于第一音频，则第二音频是根据从第一音频中截取出的音频片段生成的音频，该第一音频的音频片段与第二音频的音频时长相同，则第二音频是根据音频片段的伴奏音频或主旋律音频、音频片段的除第一歌词之外的其他歌词对应的人声音频、第二歌词对应的人声音频合成的音频。

示例性的，第二音频的生成步骤可以是由终端上的客户端来完成，也可以是由服务器来完成，服务器在生成第二音频后将第二音频发送给客户端。

示例性的，第二歌词的人声音频是根据用户选择的音色，由计算机生成的音频。如图4所示，步骤250之前还包括步骤240，步骤250还包括步骤251。

步骤240，获取目标音色，目标音色用于生成人声音频。

目标音色用于使客户端根据目标音色的声音特征来生成人声音频。

示例性的，目标音色可以是客户端默认的音色，也可以是由用户从多个候选音色中选出的音色。示例性的，一个音色代表了一种人声特征，客户端可以用虚拟歌姬来代指不同音色。例如，虚拟歌姬A来代指童音、虚拟歌姬B来代指成年男性的声音。

例如，客户端可以显示音色选择界面，音色选择界面包括至少一个候选音色和选择控件；客户端响应于接收到触发选择控件的选择操作，根据选择操作从候选音色中确定目标音色。示例性的，客户端可以根据用户选择的音色，实时生成第二音频，并播放第二音频。

例如，如图5所示，是一种音色选择界面，在音色选择界面中包括两个候选音色歌姬A和歌姬B，以及选择控件401，用户可以从歌姬A和歌姬B中选择一个作为目标音色，生成第二音频。例如，当前选中的音色为歌姬A，客户端正在播放根据歌姬A的音色生成的第二音频。若用户想要使用歌姬B的音色生成第二音频，则用户可以点击歌姬B然后点击选择控件401，来将目标音色更滑为歌姬B。

示例性的，第二音频的人声音频可以全部用目标音色来生成，也可以只有第二歌词部分使用目标音色来生成，还可以只有部分包含第二歌词的部分片段使用目标音色来生成。即，第二音频的人声音频可以包含一种音色：目标音色。第二音频的人声音频也可以包含两种音色：目标音色和第一音频原本的人声音频的原音色。

则，第二音频包括：音频时长小于第一音频，且第二歌词的人声音频片段根据目标音色生成，除第二歌词之外的歌词的人声音频片段使用第一音频的原声音色的音频；或，音频时长等于第一音频，且第二歌词的人声音频片段根据目标音色生成，除第二歌词之外的歌词的人声音频片段使用第一音频的原声音色的音频；或，音频时长小于第一音频，且全部歌词的人声音频是根据目标音色生成的音频；或，音频时长等于第一音频，且全部歌词的人声音频是根据目标音色生成的音频，中的任意一种。

步骤251，根据目标音色将第一音频中的第一歌词替换为第二歌词，生成第二音频。

示例性的，客户端根据使用目标音色生成的第二歌词的人声音频，来替换第一音频中第一歌词的人声音频，使用第一音频的伴奏音频或/和主旋律音频来合成得到第二音频。

示例性的，给出一种使用目标音色生成人声音频的方法，如图6所示，步骤251还包括步骤2511至步骤2513。

步骤2511，根据目标音色、第二歌词的音素、第一音频中第一歌词对应的音符生成包含第二歌词的人声音频。

客户端使用目标音色、第二歌词的音素、第一音频中第一歌词对应的音符来生成第二歌词的人声音频。若第二音频中的其他歌词的人声音频也是用目标音色来生成的，则还需要使用目标音色、其他歌词的音素、其他歌词在第一音频中对应的音符来生成其他歌词的人声音频。若第二音频中的其他歌词的人声音频使用第一音频的人声音频，则可以将第一音频的人声音频做剪切，然后与第二歌词的人声音频做拼接，得到第二音频的完整的人声音频。

示例性的，人声音频的合成还要用到音素的位置信息、音符的位置信息等。音素的位置信息用于标注该音素在音频中的位置。例如，第一音素在音频中占第1帧到第100帧的位置，第二音素在音频中占第101帧到第200帧的位置等。音符的位置信息用于标注该音符在音频中的位置，例如，第一个音符在音频中占第50帧到第200帧的位置。示例性的，根据上述位置关系，可以得到音频的每一帧对应的音素和音符的信息。

步骤2512，获取第一音频的模板音频，模板音频包括伴奏音频和主旋律音频中的至少一种。

示例性的，客户端获取第一音频的模板音频，模板音频是第一音频中除人声音频之外的音频。示例性的，模板音频包括伴奏音频和主旋律音频中的至少一种。

示例性的，对于每一个歌曲，需要提前制作歌曲的模板音频。模板音频的制作步骤包括以下几个步骤：1.获取歌曲的伴奏音频，示例性的，歌曲伴奏可以从原歌曲的音频中分离得到，或，直接获取歌曲的伴奏音频。示例性的，部分歌曲还会对伴奏进行剪辑，例如，剪辑出歌曲的副歌部分。2.人工扒谱，制作做主旋律音频的midi(Musical InstrumentDigital Interface，乐器数字接口)文件。3.制作模板音频，将伴奏音频和主旋律音频进行对齐、合成得到模板音频。

步骤2513，根据模板音频和人声音频生成第二音频。

客户端根据第一音频的模板音频和包含第二歌词的人声音频合成得到第二音频。

第二音频是与第一音频旋律、音调相同但歌词不同的音频。

示例性的，在得到第二音频后，客户端还可以对第二音频进行播放。如图4所示，在步骤250之后还包括步骤260和步骤270。

步骤260，显示第二音频的音频播放界面，音频播放界面包括播放控件。

示例性的，音频播放界面和音频编辑界面可以是同一界面。即，客户端在生成第二音频后，立即播放第二音频，使用户可以在音频编辑界面对生成的第二音频进行预览。

示例性的，音频播放界面和音频编辑界面也可以是不同界面。即，客户端在生成第二音频后，用户可以点击完成控件，来跳转至音频播放界面，进行第二音频的播放、保存或分享。

步骤270，响应于接收触发播放控件的播放操作，播放第二音频。

综上所述，本实施例提供的方法，通过在音频编辑界面接收用户对歌曲歌词的更改，根据用户更改后的歌词和原歌曲生成改编后的歌曲，使用户可以一键修改歌曲的歌词快速生成新的歌曲，简化用户生成音频的操作步骤，提高音频编辑的效率。

本实施例提供的方法，用户在更改歌词后，还需要选择歌姬，用歌姬的声音将用户改编的歌词生成人声音频，用人声音频替换原歌曲中原歌词部分的人声音频即可获得新的歌曲。用户可以选择不同的歌姬来演唱改编歌词，进而获得不同的新歌曲，丰富用户对歌曲的可编辑性，简化用户生成音频的操作步骤，提高编辑效率。

本实施例提供的方法，首先使用歌姬的音色、用户改编歌词的音素、原歌词的音符来生成使用原歌词曲调演唱改编歌词的人声音频，然后用原歌曲的伴奏和新生成的人声音频来合成得到新歌曲，从而实现一键更换歌曲的歌词，生成新歌曲，简化用户生成音频的操作。

本实施例提供的方法，新歌曲可以是原歌曲的一部分片段，也可以是整首歌曲，新歌曲可以是只有改变歌词部分使用用户指定歌姬声音进行演唱，也可以是全曲使用指定歌姬声音进行演唱。

本实施例提供的方法，在用户选择歌姬后，根据选中的歌姬生成新歌曲，然后立即播放新歌曲，让用户可以实时预览根据当前歌姬生成的歌曲，如果用户不满意歌曲效果，可以实时更换歌姬。

本实施例提供的方法，在生成新歌曲后，可以显示新歌曲的预览播放界面，让用户预览生成的新歌曲。

示例性的，本实施例给出一种使用神经网络模型来得到人声音频的方法。图7是根据另一示例性实施例示出的一种音频制作方法的流程图，本实施例以该音频制作方法应用于终端中进行举例说明，上述步骤2511还包括步骤2511-1至步骤2511-2。

步骤2511-1，将目标音色的音色标识、第二歌词的音素、第一音频中第一歌词对应的音符输入声学模型获取梅尔频谱。

示例性的，声学模型是一种深度神经网络声学模型。声学模型用于根据输入的二维文字信息生成梅尔频谱(mel谱)。示例性的，声学模型是采用长短期记忆网络(LongShort-Term Memory，LSTM)结构的神经网络模型。

梅尔频谱使用梅尔标度对音频的频域特征进行标注。将音频信号的时域波形进行分帧加窗、进行傅里叶变换就可以得到音频信号在每一帧的频域信号，将每一帧的频域信号进行堆叠就可以得到音频信号的声谱图，将声谱图中的频率使用梅尔标度进行标注就可以得到音频信号的梅尔频谱。同样的，根据音频信号的梅尔频谱可以对音频信号进行还原。梅尔标度，由Stevens，Volkmann和Newman在1937年命名。频率的单位是赫兹(Hz)，人耳能听到的频率范围是20-20000Hz，但人耳对Hz这种标度单位并不是线性感知关系。例如，如果人们适应了1000Hz的音调，再把音调频率提高到2000Hz，人耳只能觉察到频率提高了一点点，根本察觉不到频率提高了一倍。如果将普通的频率标度转化为梅尔频率标度，则人耳对频率的感知度就成了线性关系。也就是说，在梅尔标度下，如果两段语音的梅尔频率相差两倍，则人耳可以感知到的音调大概也相差两倍。梅尔标度和频率标度的映射关系如下式所示：

mel(f)＝2595*log₁₀(1+f/700)

其中，mel(f)为梅尔标度，f为频率。

示例性的，将目标音色的音色标识、第二歌词的音素、音素的位置信息、第一音频中第一歌词对应的音符、音符的位置信息输入声学模型获取梅尔频谱。

其中，第二歌词的音素的位置信息可以根据第一歌词的音素的位置信息来确定。当第二歌词与第一歌词的字数相同时，第二歌词的字位(各个字的位置)可以根据第一歌词的字位来确定，进而根据字位来确定音素的位置。当第二歌词与第一歌词的字数不同时，可以预先为第一歌词设计多种字位，例如，第一歌词原本有5个字，对应5个字位，则可以预设设计出当第二歌词有6个歌词时6个字位的分布，当第二歌词有8个字时8个字位的分布，然后根据预设的字位分布来依次确定第二歌词各个字的位置，从而确定第二歌词音素的位置。还可以从第一歌词中选取占用时长最长的字，将这个字占用的时长根据第二歌词比第一歌词多出的字数进行等分，根据等分结果在第一歌词的字位中填入字位，得到符合第二歌词字数的字位，然后将第二歌词依次填入字位确定各个字的位置，进而确定音素的位置。例如，第一歌词包括三个字“ABC”，第二歌词包括五个字“12345”，其中，第一歌词的A持续3秒，B持续1秒，C持续1秒，则将A的持续时长根据第一歌词和第二歌词的字数差进行等分，即，将3秒3等分得到第一秒一个字位，第二秒一个字位，第三秒一个字位，这样就可以多得到两个字位，填入第一歌词原本的字位中就可以得到五个字位，将第二歌词的五个字分别填入五个字位，就可以确定各个字的位置，进而确定音素的位置。

或者，也可以使用上述方法，直接根据第一歌词的音素的位置来确定第二歌词的音素的位置，当第一歌词和第二歌词的音素的数量不相等时，可以使用上述方法在第一歌词原本的音素位置中增加新的空位，从而使第二歌词多出的音素可以填入空位中。

示例性的，声学模型内包括分别与不同音色分别对应的多个声学模型，客户端根据输入的目标音色的音色标识，来调用与该音色标识对应的声学模型从而获得梅尔频谱。

步骤2511-2，调用声码器将梅尔频谱转换为人声音频。

客户端调用声码器来对梅尔频谱进行转换得到人声音频。示例性的，声码器可以使用WaveRNN声码器或WaveGlow声码器。

综上所述，本实施例提供的方法，对于人声音频的获取，首先使用声学模型来获取人声音频的梅尔频谱，声学模型是深度神经网络声学模型，用于根据输入的二维文本信息生成音频的梅尔频谱，在得到梅尔频谱后使用声码器将梅尔频谱转换为人声音频，从而获得使用指定歌姬声音生成的人声清唱的音频。

示例性的，本实施例给出一种训练声学模型的方法。图8是根据另一示例性实施例示出的一种声学模型训练方法的流程图，本实施例以方法应用于终端中进行举例说明，该方法包括以下步骤。

步骤310，获取训练数据，训练数据包括：训练歌词的音素、训练歌词的音符、训练歌词的音素位置信息、训练歌词的音符位置信息、训练音频的音色标识、训练音频的梅尔频谱中的至少一种。

示例性的，训练音频包括清唱音频(清唱数据)，训练歌词是清唱音频的歌词。示例性的，客户端获取清唱数据作为训练数据，清唱数据只包括人声音频，然后人工对清场数据进行音素、音符、音素位置信息、音符位置信息、音色标识等标注，根据清唱数据生成清唱数据的梅尔频谱，从而获得一个清唱数据对应的一组训练数据(音素、音符、音素位置信息、音符位置信息、音色标识和梅尔频谱)。示例性的，客户端获取多个清唱数据对应的多组训练数据。

步骤320，根据训练数据训练初始模型得到声学模型。

客户端将梅尔频谱作为期望，将音素、音符、音素位置信息、音符位置信息输入初始化模型中，对初始化模型进行训练，得到声学模型。

综上所述，本实施例提供的方法，通过训练声学模型，使客户端可以使用声学模型得到梅尔频谱，根据妹儿频谱获得人声音频，从而简化用户编辑音频的操作步骤，利用深度神经网络模型来完成这一步骤，既可以提高音频编辑效率又可以降低音频编辑操作对用户专业度的要求，使用户可以通过简单操作就生成自己想要的歌曲，提高用户的音频编辑能力。

图9是根据一示例性实施例示出的一种音频制作装置的结构示意图，该音频制作装置可以由软件、硬件或者两者的结合实现。该音频制作装置可以包括：

显示模块901，用于显示第一音频的音频编辑界面，所述音频编辑界面包括所述第一音频的至少一句歌词和歌词编辑控件，所述至少一句歌词包括第一歌词；

交互模块902，用于接收在所述歌词编辑控件上对所述第一歌词的歌词编辑操作，所述歌词编辑操作包括输入第二歌词；

生成模块903，用于将所述第一音频中的所述第一歌词替换为所述第二歌词，生成第二音频，所述第二音频包括根据所述第二歌词生成的人声音频。

可选地，所述装置还包括：

获取模块904，用于获取目标音色，所述目标音色用于生成所述人声音频；

所述生成模块903，还用于根据所述目标音色将所述第一音频中的所述第一歌词替换为所述第二歌词，生成所述第二音频。

可选地，所述生成模块903，还用于根据所述目标音色、所述第二歌词的音素、所述第一音频中所述第一歌词对应的音符生成包含所述第二歌词的所述人声音频；

所述获取模块904，还用于获取所述第一音频的模板音频，所述模板音频包括伴奏音频和主旋律音频中的至少一种；

所述生成模块903，还用于根据所述模板音频和所述人声音频生成所述第二音频。

可选地，所述生成模块903，包括：

模型子模块905，用于将所述目标音色的音色标识、所述第二歌词的所述音素、所述第一音频中所述第一歌词对应的音符输入声学模型获取梅尔频谱；

声码器子模块906，用于调用声码器将所述梅尔频谱转换为所述人声音频。

可选地，所述第二音频包括：

或，

所述音频时长小于所述第一音频，且全部歌词的所述人声音频是根据所述目标音色生成的音频；

或，

所述音频时长等于所述第一音频，且全部歌词的所述人声音频是根据所述目标音色生成的音频。

可选地，所述装置还包括：

所述获取模块904，还用于获取训练数据，所述训练数据包括：训练歌词的音素、所述训练歌词的音符、所述训练歌词的音素位置信息、所述训练歌词的音符位置信息、训练音频的音色标识、所述训练音频的梅尔频谱中的至少一种；

训练模块907，用于根据所述训练数据训练初始模型得到所述声学模型。

可选地，所述装置还包括：

所述显示模块901，还用于显示所述第二音频的音频播放界面，所述音频播放界面包括播放控件；

所述交互模块902，还用于接收触发所述播放控件的播放操作；

播放模块908，用于响应于接收触发所述播放控件的播放操作，播放所述第二音频。

可选地，所述装置还包括：

所述显示模块901，还用于显示音色选择界面，所述音色选择界面包括至少一个候选音色和选择控件；

所述交互模块902，还用于接收触发所述选择控件的选择操作；

所述获取模块904，还用于响应于接收到触发所述选择控件的选择操作，根据所述选择操作从所述候选音色中确定所述目标音色。

播放模块908，用于播放所述第二音频。

需要说明的是：上述实施例提供的音频制作装置在实现音频制作方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频制作装置与音频制作方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图10示出了本发明一个示例性实施例提供的终端1000的结构框图。该终端1000可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1000包括有：处理器1001和存储器1002。

处理器1001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1001可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1001可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1001还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1001所执行以实现本申请中方法实施例提供的音频制作方法。

在一些实施例中，终端1000还可选包括有：***设备接口1003和至少一个***设备。处理器1001、存储器1002和***设备接口1003之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1003相连。具体地，***设备包括：射频电路1004、触摸显示屏1005、摄像头组件1006、音频电路1007、定位组件1008和电源1009中的至少一种。

***设备接口1003可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器1001和存储器1002。在一些实施例中，处理器1001、存储器1002和***设备接口1003被集成在同一芯片或电路板上；在一些其他实施例中，处理器1001、存储器1002和***设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1004用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1004包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1004还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1005用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时，显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时，显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1005可以为一个，设置终端1000的前面板；在另一些实施例中，显示屏1005可以为至少两个，分别设置在终端1000的不同表面或呈折叠设计；在再一些实施例中，显示屏1005可以是柔性显示屏，设置在终端1000的弯曲表面上或折叠面上。甚至，显示屏1005还可以设置成非矩形的不规则图形，也即异形屏。显示屏1005可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件1006用于采集图像或视频。可选地，摄像头组件1006包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1001进行处理，或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1007还可以包括耳机插孔。

定位组件1008用于定位终端1000的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1008可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1009用于为终端1000中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于：加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。

加速度传感器1011可以检测以终端1000建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1011可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可以根据加速度传感器1011采集的重力加速度信号，控制触摸显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1012可以检测终端1000的机体方向及转动角度，陀螺仪传感器1012可以与加速度传感器1011协同采集用户对终端1000的3D动作。处理器1001根据陀螺仪传感器1012采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1013可以设置在终端1000的侧边框和/或触摸显示屏1005的下层。当压力传感器1013设置在终端1000的侧边框时，可以检测用户对终端1000的握持信号，由处理器1001根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013设置在触摸显示屏1005的下层时，由处理器1001根据用户对触摸显示屏1005的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1014用于采集用户的指纹，由处理器1001根据指纹传感器1014采集到的指纹识别用户的身份，或者，由指纹传感器1014根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1001授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1014可以被设置终端1000的正面、背面或侧面。当终端1000上设置有物理按键或厂商Logo时，指纹传感器1014可以与物理按键或厂商Logo集成在一起。

光学传感器1015用于采集环境光强度。在一个实施例中，处理器1001可以根据光学传感器1015采集的环境光强度，控制触摸显示屏1005的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1005的显示亮度；当环境光强度较低时，调低触摸显示屏1005的显示亮度。在另一个实施例中，处理器1001还可以根据光学传感器1015采集的环境光强度，动态调整摄像头组件1006的拍摄参数。

接近传感器1016，也称距离传感器，通常设置在终端1000的前面板。接近传感器1016用于采集用户与终端1000的正面之间的距离。在一个实施例中，当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变小时，由处理器1001控制触摸显示屏1005从亮屏状态切换为息屏状态；当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变大时，由处理器1001控制触摸显示屏1005从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图10中示出的结构并不构成对终端1000的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例还提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器上存储有指令，所述指令被所述处理器执行时实现上述所示实施例提供的音频制作方法。

本申请实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行上述所示实施例提供的音频制作方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例提供的音频制作方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的部分实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

27页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种可调背腔深度的偏流双层多孔板吸声装置

音频制作方法、装置、设备及存储介质

相关技术

网友询问留言