本发明涉及人工智能,提供一种语音转换方法、装置、设备及存储介质。该方法能够划分样本音频,得到第一音频片段,对第一音频片段进行重采样处理,得到第二音频片段,编码第一音频片段及第二音频片段,得到文本信息及音频特征,解码文本信息及音频特征,得到预测音频,编码预测音频进行编码处理,得到预测文本,计算第一损失值及第二损失值并调整预设学习器的网络参数,得到转换模型,将转换音频输入至转换模型中,得到初始音频,基于期望音色信息更新初始音频中的音色信息,得到目标音频。本发明能够实现对转换音频中的音色信息及音频节奏的转换,提高语音转换效果。此外,本发明还涉及区块链技术,所述目标音频可存储于区块链中。