来自文本的韵律规则;重音或声调
一种语音数据标注方法和装置
本发明提供了一种语音数据标注方法和装置,涉及自然语言技术领域。本发明提供的语音数据标注方法和装置,通过获取待标注语音信息的待标注文本数据和待标注音频数据;将所述待标注文本数据转换为拼音序列数据;将所述待标注文本数据输入韵律标注模型中,获得输出的所述待标注文本数据的韵律标识;将所述拼音序列数据和所述待标注音频数据输入强制对齐模型,获得输出的所述拼音序列数据的起止时间标识;将所述拼音序列数据、所述韵律标识以及所述拼音序列数据的起止时间标识进行合并,生成语音标识拼音序列。本发明实施例从韵律标注及音素切分两方面,基于序列韵律标注及强制对齐模型的进行音素起止时间标注,实现自动标注语音数据的目的。

2021-11-02

访问量:32

音频数据的生成方法、装置、服务器和智能音箱
本说明书提供了音频数据的生成方法、装置、服务器和智能音箱。在一个实施例中,上述音频数据的生成方法通过利用韵律短语作为划分粒度,将目标文本拆分成与保存有多个预设韵律短语的预设的韵律短语缓存匹配的第一文本数据,以及与预设的韵律短语缓存不匹配的第二文本数据;通过检索预设的音频数据缓存,快速地找到与第一文本数据匹配的第一音频数据,同时针对第二文本数据,单独合成对应的第二音频数据;再拼接上述第一音频数据和第二音频数据,得到完整的目标文本的音频数据,从而可以高效地生成质量相对较高、用户使用体验相对较好的音频数据。

2021-10-19

访问量:22

一种根据越南语书写文本生成发音词典的方法
一种根据越南语书写文本生成发音词典的方法,包括如下步骤:将越南语书写文本分解为至少包括韵母和声调两种特征的音素、至多包括声母、韵母、声调特征的音素;各个音素用互不重复的音素符号表示;书写文本不同但发音相同的声母或韵母采用相同的音素符号表示;全部书写文本分解后,生成书写文本与音素符号对应关系,作为发音词典。本发明在实际发音的基础上构建越南语文字书写文本与发音词典音素间的对应关系,适用于不同大小语料的模型训练,提升了发音词典的准确性和适用性。本发明采用的发音词典构建方法,将越南语中包含的特殊字母和声调符号,用新的编码符号表示,降低了本领域技术人员的使用难度,提升发音词典的适用性。

2021-10-15

访问量:24

一种语音合成方法和装置
本发明实施例提供了一种语音合成方法和装置,所述方法包括:获取待合成文本;生成所述待合成文本的隐层特征以及韵律特征,并预测所述待合成文本中每一字符的时长;基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长,生成所述待合成文本对应的声学特征;根据所述待合成文本对应的声学特征,生成所述待合成文本对应的文本语音。从而实现无需预处理大量素材,而通过提取文本中的隐层特征以及韵律特征,并基于字符预测语音时长,实现字符级别的语音合成。而且合成语音质量较好,同时可以降低语音合成的难度,以便用户可以根据实际需要应用于不同场景中,满足用户的个性化需求。

2021-10-08

访问量:26

语音模型训练数据集构建方法及装置
本申请实施例提供一种语音模型训练数据集构建方法及装置,方法包括:获取多音字样本和非多音字样本后,对多音字样本和非多音字样本分别向量表征。进一步对多音字样本向量表征进行重复采样处理,根据重复采样的多音字样本向量表征构建新的多音字样本向量表征。最后合并多音字样本向量表征,新的多音字样本向量表征以及非多音字样本向量表征,得到构建的语音模型训练数据集。本申请提供的语音模型训练数据集构建方法及提取装置,能够增加语音模型训练数据集中多音字样本向量表征,避免多音字训练样本和非多音字训练样本分布不平衡的情况,进而提升被训练语音模型的转化准确率,提升用户使用体验。

2021-09-28

访问量:36

语音合成方法、装置、设备及存储介质
本申请涉及人工智能领域,具体公开了一种语音合成方法、装置、设备及存储介质,所述方法包括:获取待合成文本,并对所述待合成文本进行音素嵌入,得到所述待合成文本对应的音素嵌入文本;将所述音素嵌入文本输入至预先训练的分类器中进行预测,得到所述待合成文本对应的语言特征;对所述音频嵌入文本和所述语言特征进行编码,得到编码序列;对所述编码序列进行注意力计算,得到注意力输出;将所述注意力输出输入至预先训练的解码器进行解码,得到所述待合成文本对应的梅尔频谱;对所述梅尔频谱进行音频转换,得到所述待合成文本对应的合成语音。能够提高合成语音的自然度。

2021-09-28

访问量:29

一种快速语音克隆方法
本发明涉及一种快速语音克隆方法,包括如下步骤:步骤101、利用编码器模块获取声学特征;步骤102、利用合成器模块合成梅尔谱图;步骤103、利用声码器模块将梅尔谱图转换成克隆语音;该快速语音克隆方法,采用了3个模型联合建模,分别采用不同数据集,进行独立的训练。其可以使用目前的开源数据集并在低性能设备上克隆出良好效果的克隆语音,具有失真率低,频谱相似度高,对齐度高的优点。

2021-09-24

访问量:24

一种原声语音翻译方法
本发明公开了一种原声语音翻译方法,涉及语音翻译技术领域,一种原声语音翻译方法,包括以下步骤:源语言语音采集,声音特征学习模块提取说话人的声音特征,送入深度神经网络DNN训练学习,STT模块转换源语音的文字信息,并分别由翻译模块和语言特征学习模块获取,其中,语言特征学习提取和记录源语言的语言特征,通过合成语音模块进行语音合成模拟。本发明通过将语言发音特征作为特征值送入深度神经网络DNN训练学习,学习后获得分别用于翻译与合成模块参考的语言特征模型特征向量与人声特征模型特征向量,通过合成语音模块进行语音合成模拟,发出与说话人语音相似的声音,使翻译后合成的语音高度接近说话人本人的特征。

2021-09-24

访问量:35

音频合成方法、装置、电子设备及存储介质
本公开涉及一种音频合成方法、装置、电子设备及存储介质,该方法包括:获取原始音频的背景音乐和原始语音信息,原始语音信息包括:原始语音的文本信息,旋律信息以及文本信息与旋律信息对应的时间信息;获取与文本信息对应的目标文本;根据旋律信息以及时间信息,将目标文本转换成目标语音;合成目标语音与背景音乐,得到目标音频。本公开技术方案,可以自动根据旋律信息以及时间信息,将目标文本转换成目标语音,并通过合成目标语音与背景音乐,最终得到替换歌词的目标音频,避免用户通过手动或者通过录音来获得目标语音等繁琐操作,极大地降低用户的创作门槛,提高用户的创作积极性,提升用户上传视频的质量,提高视频网站流量和点击量。

2021-09-24

访问量:24

语音合成方法、装置、可读介质及电子设备
本公开涉及一种语音合成方法、装置、可读介质及电子设备,以提升语音合成的自然度、表现力。所述方法包括:确定待合成文本的韵律标注信息,所述韵律标注信息包括韵律边界信息、音高重音信息、边界调信息中的至少一者;确定所述待合成文本对应的音素序列;根据所述待合成文本的韵律标注信息,确定音素级别的韵律标签,所述韵律标签包括韵律边界标签、音高重音标签、边界调标签中的至少一者;根据所述音素序列和所述韵律标签,利用语音合成模型,生成与所述待合成文本对应的合成音频;其中,所述语音合成模型基于带有韵律标注信息的第一训练文本和所述第一训练文本对应的训练音频获得。

2021-09-21

访问量:28

注册成为会员可查看更多数据。