提取参数的功率信息
检测音频质量方法、装置及存储介质
本申请公开了一种检测音频质量方法、装置及存储介质,属于计算机技术领域。所述方法包括:根据目标干声音频的每个待检测音频帧对应的功率谱,确定每个待检测音频帧对应的人声基频估计值;对于每个待检测音频帧,对待检测音频帧的功率谱中每个频点的功率值进行乘权处理;根据每个待检测音频帧对应的功率谱和乘权处理后的功率谱,确定每个待检测音频帧的人声存在概率;根据每个待检测音频帧对应的人声存在概率,在目标干声音频的待检测音频帧中,检测人声音频帧和非人声音频帧;根据人声音频帧对应的功率谱和非人声音频帧对应的功率谱,确定目标干声音频的音频质量信息。采用本申请,可以更加准确的判定干声音频的音频质量。

2021-11-02

访问量:37

音频信号的处理方法、装置及程序
从输入音波形取得电平的适当的指标。在音频信号,对从音节首起始的起音区间的电平值进行检测,生成直方图。

2021-10-29

访问量:29

一种语音编码方法、装置、设备、存储介质及产品
本申请提供了一种语音编码方法、装置、设备、存储介质及产品;该语音编码方法包括:获取前N帧噪声语音和每帧噪声语音对应的感知能量,其中,感知能量与听觉感知上的强弱程度相关,N为正整数;基于感知能量,确定前N帧噪声语音对应的标准感知能量;确定与标准感知能量负相关的噪声编码间隔;基于噪声编码间隔,对M帧噪声语音进行噪声编码,其中,M帧噪声语音为前N帧噪声语音之后的语音,编码后的M帧噪声语音用于生成舒适噪声,M为正整数。通过本申请,能够提升舒适噪声的生成质量。

2021-10-29

访问量:40

多说话人场景识别及网络训练方法、装置
本申请提供了一种多说话人场景识别及网络训练方法、装置,对语音分离模型和语音分类模型进行联合训练,保证了多说话人场景判断的连续性,使用语音分离模型训练来降低多说话人场景判断延迟。多说话人场景识别网络训练方法包括:获取训练语音样本集中的各个训练样本的对数梅尔能量谱,训练语音样本集包括单人说话语音信号和多人说话语音信号,多人说话语音信号标注有用于叠加生成多人说话语音信号的单人干净语音信号;根据训练语音样本集对语音分离模型与语音分类模型进行联合训练,其中,在联合训练过程中,使用训练语音样本集中训练样本的对数梅尔能量谱作为语音分离模型的输入,使用语音分离模型输出的频带点系数作为语音分类模型的输入。

2021-10-26

访问量:38

麦克风设备的检测方法、装置、存储介质及处理器
本发明公开了一种麦克风设备的检测方法、装置、存储介质及处理器。其中,该方法包括:采集每个麦克风设备的自动回音消除模块输出的音频信号;将音频信号转换为音频能量值;基于音频能量值,从麦克风设备集群中确定采集到声音信号的目标麦克风设备;计算目标麦克风设备采集到的声音信号的能量动态范围波动量;基于能量动态范围波动量,确定目标麦克风设备是否处于异常状态。本发明解决了由于现有技术中对麦克风设备检测效率较低的技术问题。

2021-10-22

访问量:28

一种声音处理方法、存储介质以及智能电视
本发明公开了一种声音处理方法、存储介质以及智能电视,所述方法获取待处理的音频信号,并将计算所述音频信号中每帧信号帧的能量以及过零率;根据计算得到的各信号帧的能量以及过零率,确定所述待处理的音频信号中的语音突变帧;对所述语音突变帧进行平滑处理,以得到处理后的音频信息。本发明通过音频信号中每帧信号帧的能量以及过零率确定该音频信号中的语音突变帧,并对语音突变帧的音量进行平滑,降低了进入语音突变帧产生的音量大幅度,从而避免了因音量瞬间大幅度变化给人们代理人的不适感,从而给用户的使用带来方便。

2021-10-22

访问量:40

一种说话人识别方法、装置、存储介质及设备
本申请公开了一种说话人识别方法、装置、存储介质及设备,该方法包括:首先获取待识别的目标语音,确定其采样率,提取其第一声学特征;并基于其采样率,对第一声学特征进行处理,得到第二声学特征,然后再将第二声学特征输入至预先构建的说话人识别模型,识别得到目标说话人的目标表征向量;其中,说话人识别模型是利用不同采样率的语音共同训练得到的;接着,可以根据目标表征向量,对目标说话人进行识别,得到目标说话人的识别结果。可见,由于本申请通过将第二声学特征输入至预先构建的说话人识别模型,既保证了输入高频语音声学特征时没有效果损失,又补偿了输入低频语音声学特征引起的效果下降,从而提升了识别结果的准确率。

2021-10-19

访问量:33

语音降噪方法、装置、存储介质及计算机设备
本申请涉及一种语音降噪方法、装置、存储介质及计算机设备,该方法包括:获取带噪语音信号的功率谱,得到第一功率谱;获取第一功率谱中每个频点的语音存在概率;根据第一功率谱中每个频点的语音存在概率,确定疑似噪声,对疑似噪声所对应的频点进行时频平滑,得到第二功率谱;获取第二功率谱中每个频点的语音存在概率;根据第二功率谱中每个频点的语音存在概率,获取第二功率谱中每个频点的平滑因子;根据每个频点的平滑因子确定每个频点的噪声估计值;根据每个频点的噪声估计值,对带噪语音信号中对应频点进行噪声滤除。通过本申请实现了准确、快速地估计噪声并进行滤除,降噪效果显著提高,且降低了去噪的复杂度,提高了降噪效率。

2021-10-01

访问量:26

具有多重注意机制的卷积循环神经网络的语音情感识别方法
本发明公布了一种具有多重注意机制的卷积循环神经网络的语音情感识别方法,包括:步骤1,提取谱图特征和帧级特征。步骤2,谱图特征输送进CNN模块来学习特征中的时频相关信息。步骤3,多头自注意力层作用于CNN模块来计算不同规模的全局特征下不同帧的权重,并融合CNN中不同深度的特征。步骤4,一个多维注意层作用于LSTM输入的帧级特征来综合考虑局部特征与全局特征的关系。步骤5,处理过的帧级特征输送进LSTM模型中来获取特征中的时间信息。步骤6,一个融合层来总结不同模块的输出来增强模型性能。步骤7,利用Softmax分类器对不同情感进行分类。本发明结合深度学习网络,模块内部采用并行的连接结构来同时处理特征,能够有效的提升语音情感识别的性能。

2021-09-28

访问量:32

语音信号的特征获取方法及装置
本公开实施例公开了一种语音信号的特征获取方法及装置,方法包括:对待分析的语音信号进行时频化处理,获取语音信号的语谱图;统计获取语谱图内各能量点的方向信息;根据语谱图内各能量点的方向信息,基于核密度估计算法建立形式背景,形式背景以能量点作为对象,能量点所含有的方向区间作为属性,用于描述语谱图中能量点与其所含有的方向区间之间的对应关系;根据形式背景,建立语音信号的方向共生属性拓扑图,方向共生属性拓扑图用于描述形式背景中属性对之间的共生关系。本技术方案可以用图的形式显示语音信号更加详细的方向信息,检测精度高,可解释性强,能有效分析语音信号的语谱图内能量点的方向值复杂多变的情况。

2021-09-24

访问量:39

注册成为会员可查看更多数据。