语音合成系统的零部件,例如合成设备结构或存储器管理
文本的语音合成方法、系统、装置、设备及存储介质
本申请提出一种文本的语音合成方法、系统、装置、设备及存储介质,该方法包括:从客户端包括的数据转换接口获得待转换的文本数据;通过预设声学服务模块和预设编解码脚本将文本数据转换为对应的语音数据。本申请在用户终端本地设置预设声学服务模块及预设编解码脚本,或用户终端设置预设编解码脚本,且服务器配置预设声学服务模块。客户端中设置数据转换接口,通过该接口访问语音合成服务。任意客户端中都可设置该接口,任意能安装客户端的设备都可使用语音合成服务,不用购买任何特定设备,也无需下载并安装额外的应用程序,不会增加用户终端上安装的应用程序的数量,节省了用户终端的存储资源和计算资源,降低了用户使用语音合成服务的成本。

2021-11-02

访问量:32

语音对话方法、装置、电子设备及存储介质
本公开提出一种语音对话方法、装置、电子设备及存储介质,属于电子设备技术领域。其中,该语音对话方法应用于电子设备包括:响应于检测到语音对话激活事件,通过目标通道获取用户语音信息;向服务器发送用户语音信息;接收服务器反馈的用户语音信息对应的应答结果;若应答结果中包括通道切换指令,则根据通道切换指令将目标通道切换为自适应波束形成对应的语音通道;以及将应答结果中的应答文本转换为应答语音,并通过扬声器播放。由此,能够在连续对话场景中实现单通道语音输入,从而提高连续对话的成功率和稳定性,进而提高用户体验。

2021-10-29

访问量:34

一种低质数据的自动化合成方法、装置及电子设备
本发明提供了一种低质数据的自动化合成方法、装置及电子设备,涉及语音技术领域,包括获取低质音频数据;对所述低质音频数据进行噪音分离,得到发音数据和噪音数据;基于所述噪音数据去除所述发音数据的背景噪音,得到去除背景噪音的发音数据;对所述发音数据进行语音识别,得到所述发音数据的文本信息;输入所述文本信息至预先训练的声学模型,得到合成的音频数据。本申请具有在保证全自动化的情形下对收集到的低质量音频数据进行语音合成任务的功能。

2021-10-29

访问量:29

一种抱杆倾角远程监控报警装置
本发明公开一种抱杆倾角远程监控报警装置,其测量部件用于设置在抱杆上,测量部件包括用于获取抱杆倾角信息的传感器和用于信号传送的第一数据收发单元;报警器用于发出警示信号;主机包括与第一数据收发单元建立无线通信的第二数据收发单元,以及数据处理单元、语音合成单元、扬声器和报警器供电接口;数据处理单元用于实时根据抱杆倾角信息确定抱杆倾偏角γ,并通过语音合成单元发送播报指令至扬声器;且数据处理单元还以抱杆倾偏角γ大于预设报警阈值为判断条件,输出导通控制信号,以通过报警器供电接口输出工作电压至报警器。应用本方案,在满足现场人员作业安全的基础上,能够及时有效地获知抱杆倾偏角的实时数值,并提高监测效率和质量。

2021-10-26

访问量:36

歌声合成方法、装置、计算机设备及存储介质
本发明公开了一种歌声合成方法、装置、计算机设备及存储介质,应用于计算机技术领域。本发明提供的方法包括:获取目标歌曲的音乐数据,通过预设的编码器对所述音乐数据进行编码,生成音乐编码数据;将音乐数据编码输入到注意力机制网络进行编码,生成特征信息;将特征信息输入到歌声合成模型中,并生成第一声谱数据;对所述第一声谱数据进行解码,得到第一线性谱数据,并通过傅里叶变换方式,将所述第一线性谱数据转换成目标歌曲音频。本发明通过少量的训练数据训练得到歌声合成模型,提高了目标歌曲音频的合成效率,同时保证目标歌曲音频的合成效果。

2021-10-26

访问量:29

一种语音合成方法和装置
本发明实施例提供了一种语音合成方法和装置,所述方法包括:获取输入文本和风格生成模块,根据所述输入文本和所述风格生成模块得到风格特征表示;获取音色标记以及目标语音合成模型;其中,所述目标语音合成模型为基于预先训练的用于提取相关时长表示的时长提取模型和用于提取风格特征表示的风格特征模块训练得到;根据所述输入文本与所述风格特征表示,以及所述音色标记与语音合成模型,得到具有相应风格及相应音色的情感语音。通过自定义情感特征表示的提取及预处理方式实现自定义风格的情感语音合成,在支持合成语音风格自定的基础上实现合成语音的风格适用于语料库中的所有音色,达到半监督的可自定义风格的情感语音合成的目的。

2021-10-22

访问量:26

文本分析与语音合成方法、装置、系统及存储介质
本发明提供一种文本分析与语音合成方法、装置、系统及存储介质。方法包括:获取待处理文本;对待处理文本进行人名识别,以确定待处理文本中出现的所有人名;将所有人名中属于同一角色的人名聚类在一起,以获得与至少一个角色一一对应的至少一个人名集合;至少基于至少一个人名集合确定全局角色信息,全局角色信息包括与至少一个角色一一对应的至少一组角色信息,每组角色信息包括对应角色的代表性角色名称和别名集合;结合全局角色信息对待处理文本中的任一目标语句进行文本分析,文本分析包括对至少一个预设项目的分析,至少一个预设项目包括以下一项或多项:文本类型、角色名称和角色属性。利用全局角色信息辅助识别局部的角色信息。

2021-10-22

访问量:30

语音合成方法、装置、系统及存储介质
本发明提供一种语音合成方法、装置、系统及存储介质。方法包括:获取待处理文本;对任一目标语句进行文本分析,以获得初始文本分析结果,文本分析包括对至少一个预设项目的分析,至少一个预设项目包括以下一项或多项:文本类型、角色名称、角色属性和情绪类别;输出文本结果信息,文本结果信息包括初始文本分析结果;接收用户输入的文本反馈信息;在文本反馈信息包括与初始文本分析结果相关的第一修改信息的情况下,基于第一修改信息对初始文本分析结果进行修改,以获得新文本分析结果;至少基于最终文本分析结果对目标语句进行语音合成。保证较高效率的同时获得高质量的合成语音。

2021-10-22

访问量:41

一种基于慕课语音数据集的语音合成方法
本发明公开了一种基于慕课语音数据集的语音合成方法,该方法的主要特征在于通过真实场景下的语音构建的数据集进行语音合成,并进行说话人转换和多语种语音合成;该方法运用端到端的语音合成模型生成梅尔频谱,并用基于生成对抗网络的声码器将梅尔频谱转换成最终音频。本发明在真实场景下的语音数据集上有良好的效果,降低了语音合成所需数据的要求,提高了合成音频的质量,使合成音频更贴近真实说话场景。

2021-10-22

访问量:46

音频处理方法、声码器、装置、设备及存储介质
本申请提供了一种音频处理方法、声码器、装置、设备及存储介质;方法包括:对待处理文本进行语音特征转换,得到至少一帧声学特征帧;通过帧率网络,从每帧声学特征帧中提取出条件特征;对当前帧进行频带划分与时域降采样,得到包含预设数量个采样点的n个子帧;通过采样预测网络,在第i轮预测过程中,对n个子帧中对应的当前m个相邻采样点同步进行采样值预测,得到m×n个子预测值,进而得到预设数量个采样点中每个采样点对应的n个子预测值;根据每个采样点对应的n个子预测值得到当前帧对应的音频预测信号;进而对至少一帧声学特征帧的每帧声学特征帧进行音频合成,得到目标音频。通过本申请,能够提高音频处理的速度与效率。

2021-10-22

访问量:36

注册成为会员可查看更多数据。