利用神经网络
乐曲识别方法、装置、电子设备及计算机可读存储介质
本公开提供一种乐曲识别方法、乐曲识别装置、电子设备及计算机可读存储介质;涉及人工智能技术领域。该乐曲识别方法应用于包括音频输入装置的终端设备,该方法包括:通过音频输入装置接收用户输入的音频;对音频进行分析并确定音频的面貌信息,面貌信息包括无效音频、低信噪比音频或高信噪比音频;当面貌信息指示音频为低信噪比音频时,根据低信噪比识别策略对音频进行识别,并输出低信噪比识别结果;当面貌信息指示音频为高信噪比音频时,根据高信噪比识别策略对音频进行识别,并输出高信噪比识别结果;基于低信噪比识别结果或高信噪比识别结果确定所识别到的乐曲。本公开可以针对各种场景和音频进行有效的识别,并输出准确率较高的匹配结果。

2021-11-02

访问量:40

音频识别方法和装置、计算机设备、计算机可读存储介质
本申请涉及一种音频识别方法和装置、计算机设备、计算机可读存储介质。所述方法包括:获取音频数据对应的音频特征。从预设的异构关系图中获取异构关系特征,预设的异构关系图用于表示训练集中音频数据对应的标签之间的关系;标签之间的关系包括场景标签与场景标签之间的关系、事件标签与事件标签之间的关系、场景标签与事件标签之间的关系。预设的异构关系图为基于将初始异构关系图输入至预设的R-GCN关系图卷积神经网络所生成的。将音频特征及异构关系特征输入至预设的深度神经网络中进行音频识别,生成与音频数据对应的场景标签及事件标签。采用本方法能够同时进行音频中场景和事件的双重识别分类任务,并且提高识别分类的准确度和可信度。

2021-11-02

访问量:46

一种基于深度神经网络的工业音频故障监测系统和方法
本发明提供了一种基于深度神经网络的工业音频故障监测系统和方法,通过选择、构建工业音频特征集提高特征提取效率;通过引入深度学习模型作为分类器,提升了在工业音频分析领域分析故障的准确率;通过工业设备运作时产生的正常音频和异常音频训练深度学习分类模型,减少了人工决策的负担,提高了判断工业音频故障概率的准确性,实现了在复杂环境下实时监测工业设备的音频故障并进行故障预警的功能。本发明具备在线实时监测、预警等功能,具有部署成本低,功能整合度高和故障识别率高的优点,具备有广泛推广的能力。

2021-11-02

访问量:38

混合语音分离方法和装置、存储介质及电子设备
本发明公开了一种基于人工智能的混合语音分离方法和装置、存储介质及电子设备。其中,该方法包括:获取待分离的混合语音的时域波形;获取时域波形的3D张量;将3D张量作为N层处理结构中的第一层处理结构的输入数据,输入N层处理结构中,N层处理结构中除第一层处理结构外的前N/2层处理结构在进行重采样时,采样频率越来越小,每次采样的采样数据越来越大,N层处理结构中后N/2层处理结构进行重采样时,采样频率越来越大,每次采样的采样数据越来越小;获取N层处理结构的最后一层处理结构的目标输出数据;将目标输出数据分离为多路语音。本发明解决了混合语音分离效率低的技术问题。

2021-11-02

访问量:51

音频放大器在待机状态下的降噪方法、装置和电子设备
本申请公开了一种音频放大器在待机状态下的降噪方法、装置和电子设备,其通过使用第一卷积神经网络提取时域特征和第二卷积神经网络提取频域特征并融合,实现了充分利用音频信号在时域和频域上的高维统计信息来对音频信号进行分类,保证了音频信号的分类的准确性。另外,通过分类损失函数值+余弦损失函数值+最大似然估计项的损失函数值训练第一卷积神经网络和第二卷积神经网络,保证了在同时以第一卷积神经网络和第二卷积神经网络提取时域特征和频域特征的情况下,所提取出的特征在高维特征空间中的分布的一致性,从而使得融合后的分类特征图能够以彼此相符合的方式准确地表达时域信息和频域信息,进一步提高了分类的准确性。

2021-11-02

访问量:38

语音增强模型的训练方法和设备及语音增强方法和设备
本公开提供了一种语音增强模型的训练方法和设备及语音增强方法和设备。所述语音增强模型包括共享特征网络和多任务降噪网络,所述多任务降噪网络包括多个降噪网络,所述训练方法包括:获取包括干净语音信号和带噪语音信号的训练样本;将所述带噪语音信号的信息输入所述共享特征网络,得到所述带噪语音信号对应的特征;将所述特征分别输入所述多个降噪网络中的每个降噪网络,得到所述多个降噪网络分别预测的增强语音信号的信息;根据所述多个降噪网络分别预测的增强语音信号的信息和所述干净语音信号,计算所述语音增强模型的损失函数;通过根据所述损失函数调整所述共享特征网络和所述多个降噪网络的参数,对所述语音增强模型进行训练。

2021-11-02

访问量:21

基于多域扩张的音频增强方法及装置
本发明属于音频处理技术领域,具体涉及基于多域扩张的音频增强方法及装置。所述方法执行以下步骤:步骤1:将待处理音频进进行多域变换,得到待处理音频在频域、时域和映射域的波形;步骤2:对待处理音频在频域的波形进行叠加扩张,具体包括:将频域的波形代入预设的频域叠加扩张函数,生成一个中间叠加波形,将生成的中间叠加波形与频域的波形进行叠加,得到叠加波形。本发明通过对将待处理的音频进行多域变换,再分别对不同域的波形进行处理,以找回音频丢失帧,再对音频进行处理,可以显著提升音频的质量;同时在进行处理过程中,还通过多种手段去除了处理过程中产生的噪声,进一步提升了音频质量。

2021-11-02

访问量:42

一种基于生成对抗网络的多唱歌人歌声合成方法和系统
本发明公开了一种基于生成对抗网络的多唱歌人歌声合成方法和系统,属于歌声合成领域。本发明采用多频段并行的高保真波形生成器,用于捕捉不同频段不同敏感度的信息,且保证了计算的效率。同时,本发明使用了两个不同目标的判别器:条件判别器在输入波形的同时,引入了真实唱歌人的身份特征,用于判别生成器是否正确在波形中重建了唱歌人的身份(即音色等)信息;而非条件判别器仅用于判别该波形是生成的还是真实的。在训练过程中,生成器将尽量迷惑两个判别器,达到快速生成高保真波形的效果的同时,优化了遇到未见唱歌人时的退化问题。

2021-11-02

访问量:37

语音数据的处理方法及装置、存储介质、电子装置
本发明提供了一种语音数据的处理方法及装置、存储介质、电子装置,上述方法包括:获取待处理的语音数据;根据多个预设语音模型中各预设语音模型对应的权重,从多个预设语音模型中确定至少一个目标语音模型,各预设语音模型的权重表征该预设语音模型识别结果的置信度;通过至少一个目标语音模型对待处理的语音数据进行处理,解决了现有技术中在使用多种语音识别引擎(即语音模型)进行语音识别时,识别时间长,无法确定识别结果的准确率等问题,确保了语音数据进行识别的灵活性,提升对于识别准确率的确定时间。

2021-11-02

访问量:30

一种基于深度学习的语音情感识别方法
一种基于深度学习的语音情感识别方法,属于语音识别领域。现有语音情感识别率低。本发明方法的一种基于深度学习的语音情感识别方法包括,待测语音信息的预处理;情感特征提取;对提取的情感特征参数进行归一化处理的过程;设计DNN瓶颈层结合决策树和特征融合的语音情感识别系统;利用归一化处理的情感特征参数对识别系统进行训练;利用训练后的DNN瓶颈层结合决策树和特征融合的语音情感识别系统对获取待测语音信息进行语音识别。本发明方法提高了语音情感识别率。

2021-11-02

访问量:42

注册成为会员可查看更多数据。