针对增加系统的鲁棒性而进行的模式转换和操作,如:防止信道噪音或者不同的工作条件
语音交互系统的自动增益控制方法、装置及系统
本申请公开了一种语音交互系统的自动增益控制方法、装置、系统以及计算机可读存储介质,该方法包括:接收语音信号;通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号;调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号;基于所述检测到唤醒词的声音信号,计算所述语音交互系统中自动增益控制所需的增益,以调节拾取音频数据的音量在预设范围内。本申请能够准确计算出每次交互所需的增益,保证语音识别的准确性,提升用户的交互体验。

2021-10-26

访问量:54

语音降噪方法和装置
本申请提供了一种语音降噪的方法和装置,该方法包括:获取M个第一语音频谱信号;对该M个第一语音频谱信号进行第一滤波降噪处理,得到M个第一降噪信号;根据该M个第一降噪信号中的每个第一降噪信号,确定第一掩码信息,该第一掩码信息用于表示该每个第一降噪信号中包括的多个频点中的每个频点属于第一目标频点的概率值,该第一目标频点包括预设的第一目标语音的频谱信号中包括的频点;根据该第一掩码信息,对该M个第一语音频谱信号进行第二滤波降噪处理,得到M个第二降噪信号,该M个第二降噪信号用于识别该第一语音中是否包含该第一目标语音。采用本申请提供的语音降噪方法和装置,能够提高语音信号的信噪比,从而提高语音识别的精确性。

2021-10-22

访问量:27

一种基于变分信息瓶颈的声纹识别方法及系统
本发明提供了一种基于变分信息瓶颈的声纹识别方法及系统,解决现有声纹识别模型提取的说话人嵌入鲁棒性差和区分性不强的问题。首先提出了一个由VovNet和超轻量级子空间注意力机制(ULSAM)组成的特征提取网络,用于提取多尺度多频率的帧级说话人信息;然后引入变分信息瓶颈作为一种正则化方法,对说话人特征向量进一步压缩,去除说话人无关的信息,只保留与判别说话人身份相关的信息,使得最终提取的说话人嵌入更具鲁棒性。相比于现有的声纹识别技术,本发明提升了声纹识别在噪声背景下的识别准确率,使得声纹识别技术更适用于实际生活场景。

2021-10-08

访问量:27

一种基于短语音的声纹识别方法
本发明公开了一种基于短语音的声纹识别方法,解决现有声纹识别模型在短语音条件下识别准确率低的问题。本发明首先提出了一种基于频谱的数据增强方式,扩充训练数据集;然后使用MFCC和PNCC的融合特征提取帧级说话人特征;帧级特征提取网络为一种改进的残差网络(ResNet)—深度残差收缩网络(DRSN),该网络在ResNet基础上加入软阈值化作为收缩层,用于去除冗余信息;最后使用双重自注意力机制将帧级特征聚合为句子级特征,得到说话人嵌入。相比于现有的声纹识别技术,本发明提取的说话人嵌入包含更丰富的说话人信息,从而提升了声纹识别在短语音条件下的识别准确率,使得声纹识别技术更适用于实际生活场景。

2021-10-08

访问量:35

一种基于音素对数似然比的时延神经网络的声纹识别方法
一种基于音素对数似然比的时延神经网络的声纹识别方法,所述方法包括步骤:获取语音数据;对所述语音数据进行预处理;使用音素识别器对预处理后的所述语音数据提取音素后验概率向量;使用预处理后的所述语音数据训练时延神经网络并提取X-vector辨别矢量;使用所述音素后验概率向量训练混合高斯模型-通用背景模型;使用所述混合高斯模型-通用背景模型计算I-vector辨别矢量;消除I-vector特征空间中信道信息影响;使用所述X-vector辨别矢量和所述I-vector辨别矢量生成新分类器;将X-vector特征和I-vector特征输入所述新分类器;获取所述新分类器的声纹信息输出。本申请能够对声纹的信息进行快速准确的识别,提升系统的鲁棒性,且可以跨平台使用。

2021-10-01

访问量:24

一种基于无人机的畜禽养殖污染源监测系统
本申请公开了一种基于无人机的畜禽养殖污染源监测系统,属于无人机污染监测领域。系统包括:红外线探测模块、雷达探测模块、音频识别模块、图像识别模块、无线传输模块、处理模块以及污染源识别模块。污染源识别模块通过利用红外线探测模块得到的红外热成像图所得出的信息、利用雷达探测模块得到的微分电路信号所得出的信息、利用音频识别模块得到的声波信号所得出的信息以及利用图像识别模块得到的图像识别信息所得出的信息通过污染源识别处理准确区分不同畜禽种类的养殖污染源,从而使得畜禽养殖污染源调查工作更加高效和准确。

2021-09-17

访问量:26

注册成为会员可查看更多数据。