训练,登记或模型的建立
智能设备的控制方法和装置、存储介质及电子设备
本发明公开了一种智能设备的控制方法和装置、存储介质及电子设备。其中,该方法包括:在智能设备处于已被唤醒的情况下,获取采集到的目标对象的语音数据;对语音数据进行声纹识别,得到目标对象的声纹特征;在声纹特征指示目标对象的身份角色类型为目标角色类型的情况下,控制智能设备将运行模式切换为与目标角色类型相匹配的模式。本发明解决了智能设备运行模式的切换方式单一的技术问题。

2021-11-02

访问量:56

声纹判别方法、装置、计算机设备和存储介质
本申请涉及一种声纹判别方法、装置、计算机设备和存储介质。方法包括:获取检材数据的第一质量参数组,并获取目标相关系数;基于第一预设模型与检材数据的第一质量参数组,确定目标预设阈值;基于目标预设阈值,对目标相关系数进行判别。由于存在语音训练样本的语音质量与检材数据的语音质量相匹配,从而使得基于语音训练样本训练得到的第一预设模型,可以与检材数据的语音质量相关联,且这种关联可以反映至输出的目标预设阈值上。由此,可以使得预设阈值可以与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,从而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。

2021-11-02

访问量:24

一种声纹识别方法、装置和电子设备
本申请实施例提供了一种声纹识别方法、装置和电子设备,在进行声纹识别时,可以先获取待识别语音的第一声纹特征与预设语音的第二声纹特征之间的第一相似度,并充分考虑到语音质量因子可以声纹识别结果的影响,因此,结合待识别语音对应的语音质量因子对第一相似度进行调整,得到第二相似度;再根据第二相似度对待识别语音进行声纹识别,这样可以解决因未考虑到语音质量因子而导致的声纹识别结果的准确度较低的问题,从而有效地提高了声纹识别结果的准确度。

2021-11-02

访问量:22

一种基于边界攻击的声纹识别对抗样本生成方法
一种基于边界攻击的声纹识别的对抗样本生成方法,包括以下步骤:1)对所使用的语音数据集进行数据预处理;2)搭建声纹识别模型;3)边界攻击生成对抗样本的算法,流程为:选择边界攻击算法的初始点;选择游走方向;超参数调整。本发明对声纹身份进行分类时未采用传统的声学特征的方法,而是通过将语音转化为语谱图进行训练,可以充分利用卷积神经网络在图像上提取特征的优点,使精度得到极大的提高;本发明属于黑盒攻击,不需要知道原始模型的结构和参数,只需要模型的分类标签,应用面更广更具实际意义。攻击成功率高,产生的对抗样本肉眼无法察觉。

2021-10-29

访问量:45

一种基于视听觉融合的多人对话点餐方法及系统
本发明公开了一种基于视听觉融合的多人对话点餐方法,持续采集多人对话的视频,将视频中人脸图像进行处理,得到每个点餐人的嘴部图像;结合嘴部图像,将混合语音分离,得到多个第一语音片段;将第一语音片段与点餐人进行匹配,得到确认了身份的第二语音片段,将同一个点餐人的多个语音片段分类到一起,对第二语音片段进行识别,包括餐厅菜名时,才处理该语音片段,提取其中的点餐信息,经点餐人确认后,将点餐信息传输给后厨,完成点餐。本发明能够实现多人长时间点餐识别,能够更加准确的分离混合语音,提高了语音分离的稳定性,且在点餐信息识别中保证了点餐人的隐私。

2021-10-29

访问量:34

说话者识别系统及其使用方法
一种说话者识别系统,其包括被配置成存储指令的非暂时性计算机可读介质。所述说话者识别系统进一步包括处理器,所述处理器连接至非暂时性计算机可读介质。处理器被配置成执行有关从输入语音数据中的多个帧中的每个帧提取声学特征的指令。处理器被配置成基于提取的声学特征而使用第一神经网络(NN)来执行有关计算多个帧中的每个帧的显著性值的指令,其中,第一NN是使用说话者后验的经训练的NN。处理器被配置成执行有关使用多个帧中的每个帧的显著性值来提取说话者特征的指令。

2021-10-26

访问量:18

语音交互系统的自动增益控制方法、装置及系统
本申请公开了一种语音交互系统的自动增益控制方法、装置、系统以及计算机可读存储介质,该方法包括:接收语音信号;通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号;调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号;基于所述检测到唤醒词的声音信号,计算所述语音交互系统中自动增益控制所需的增益,以调节拾取音频数据的音量在预设范围内。本申请能够准确计算出每次交互所需的增益,保证语音识别的准确性,提升用户的交互体验。

2021-10-26

访问量:54

一种语音鉴伪与说话人识别联合建模的方法
本发明提供一种语音鉴伪与说话人识别联合建模的方法及系统,其中方法包括:前端信号处理:把训练数据通过信号重采样统一到一个固定采样率,得到信号处理后的训练数据;特征提取:对信号处理后的训练数据的每帧信号提取Fbank特征;表示向量提取:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,再将片段序列输入可以识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;语音鉴伪和说话人识别联合分类:定义片段级别说话人识别目标函数;定义语音鉴伪目标函数;联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化。

2021-10-26

访问量:31

确定话术的方法、装置以及存储介质
本申请公开了一种确定话术的方法、装置以及存储介质。其中,该方法包括:确定交互对象对于交互意图产生的第一情绪类别,其中第一情绪类别分为正面情绪类别和负面情绪类别;在第一情绪类别属于负面情绪类别的情况下,从与第一情绪类别对应的话术集合中确定用于回复交互对象的目标话术,其中话术集合中每条话术对应有由机器学习算法计算的收益值;以及利用与目标话术对应的第一音频回复交互对象。

2021-10-22

访问量:26

一种说话人识别方法、装置、存储介质及设备
本申请公开了一种说话人识别方法、装置、存储介质及设备,该方法包括:首先获取待识别的目标语音,确定其采样率,提取其第一声学特征;并基于其采样率,对第一声学特征进行处理,得到第二声学特征,然后再将第二声学特征输入至预先构建的说话人识别模型,识别得到目标说话人的目标表征向量;其中,说话人识别模型是利用不同采样率的语音共同训练得到的;接着,可以根据目标表征向量,对目标说话人进行识别,得到目标说话人的识别结果。可见,由于本申请通过将第二声学特征输入至预先构建的说话人识别模型,既保证了输入高频语音声学特征时没有效果损失,又补偿了输入低频语音声学特征引起的效果下降,从而提升了识别结果的准确率。

2021-10-19

访问量:33

注册成为会员可查看更多数据。