人工神经网络,连接方法
声纹判别方法、装置、计算机设备和存储介质
本申请涉及一种声纹判别方法、装置、计算机设备和存储介质。方法包括:获取检材数据的第一质量参数组,并获取目标相关系数;基于第一预设模型与检材数据的第一质量参数组,确定目标预设阈值;基于目标预设阈值,对目标相关系数进行判别。由于存在语音训练样本的语音质量与检材数据的语音质量相匹配,从而使得基于语音训练样本训练得到的第一预设模型,可以与检材数据的语音质量相关联,且这种关联可以反映至输出的目标预设阈值上。由此,可以使得预设阈值可以与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,从而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。

2021-11-02

访问量:24

一种基于边界攻击的声纹识别对抗样本生成方法
一种基于边界攻击的声纹识别的对抗样本生成方法,包括以下步骤:1)对所使用的语音数据集进行数据预处理;2)搭建声纹识别模型;3)边界攻击生成对抗样本的算法,流程为:选择边界攻击算法的初始点;选择游走方向;超参数调整。本发明对声纹身份进行分类时未采用传统的声学特征的方法,而是通过将语音转化为语谱图进行训练,可以充分利用卷积神经网络在图像上提取特征的优点,使精度得到极大的提高;本发明属于黑盒攻击,不需要知道原始模型的结构和参数,只需要模型的分类标签,应用面更广更具实际意义。攻击成功率高,产生的对抗样本肉眼无法察觉。

2021-10-29

访问量:45

说话者识别系统及其使用方法
一种说话者识别系统,其包括被配置成存储指令的非暂时性计算机可读介质。所述说话者识别系统进一步包括处理器,所述处理器连接至非暂时性计算机可读介质。处理器被配置成执行有关从输入语音数据中的多个帧中的每个帧提取声学特征的指令。处理器被配置成基于提取的声学特征而使用第一神经网络(NN)来执行有关计算多个帧中的每个帧的显著性值的指令,其中,第一NN是使用说话者后验的经训练的NN。处理器被配置成执行有关使用多个帧中的每个帧的显著性值来提取说话者特征的指令。

2021-10-26

访问量:18

基于无监督领域对抗学习的说话人无关语音情感识别方法及系统
本发明公开了一种基于无监督领域对抗学习的说话人无关语音情感识别方法及系统,对情感语音数据进行预处理,获得高质量的情感语音样本,从所述情感语音样本中提取出单通道梅尔频谱作为时频特征,对所述时频特征经过深度卷积神经网络,得到语音情感的局部特征和全局特征,作为分层特征,建立无监督的深度领域对抗神经网络,将有标签的训练数据和无标签的测试数据提取分层特征后作为输入,对深度领域对抗网络进行训练,将待识别的情感语音数据预处理后输入训练好的深度领域对抗网络,得到语音情感识别结果。本发明识别效果更好、识别率更高。

2021-10-26

访问量:31

一种语音鉴伪与说话人识别联合建模的方法
本发明提供一种语音鉴伪与说话人识别联合建模的方法及系统,其中方法包括:前端信号处理:把训练数据通过信号重采样统一到一个固定采样率,得到信号处理后的训练数据;特征提取:对信号处理后的训练数据的每帧信号提取Fbank特征;表示向量提取:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,再将片段序列输入可以识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;语音鉴伪和说话人识别联合分类:定义片段级别说话人识别目标函数;定义语音鉴伪目标函数;联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化。

2021-10-26

访问量:31

基于语音的同人识别方法、装置、设备及存储介质
本发明涉及人工智能领域,公开了一种基于语音的同人识别方法、装置、设备及存储介质,该方法包括:提取待识别语音的特征参数,基于预设的向量机模型和特征参数,确定目标用户的年龄段,并从预设的注册用户的语音数据库中提取与年龄段对应的语音数据,将语音数据和待识别语音分别输入至预设的深度卷积神经网络中,输出音色特征向量,判断目标用户与注册用户是否为同人。本发明通过对语音进行格式转换和年龄识别,提取与目标用户具有相同年龄段的注册用户语音进行同人比对,提高了语音的识别率和同人识别的准确度。此外,本发明还涉及区块链技术,待识别语音和特征参数可存储于区块链中。

2021-10-26

访问量:27

语音交互方法、电子设备及可读存储介质
本发明提供一种语音交互方法、电子设备及可读存储介质,其中方法包括:获取用户的语音输入,并提取语音输入的梅尔倒谱系数特征,并基于梅尔倒谱系数特征,计算语音输入每帧的置信度;在基于所述置信度确定语音输入与预设唤醒词一致时,接收用户输入的语音服务指令,并将语音服务指令发送至服务器;接收服务器基于语音服务指令识别并下发的用户的指令意图;将指令意图转换为待执行指令,并基于待执行指令,执行对应的服务流程。本发明借助与服务器的数据交互及文本转语音TTS等核心技术,通过人机语音交互,使用户可以通过语音搜索入口获取目标服务,降低了对B端APP的学习成本,且极大地简化了作业场景操作流程,提高了服务效率。

2021-10-26

访问量:32

语音处理方法和语音处理装置
公开语音处理方法和语音处理装置。所述语音处理方法包括:对用户语音信号进行识别,以获取输入语句;对用户语音信号进行分析,以确定用户特征;基于确定的用户特征,获取适用于与获取的输入语句对应的输出语句的修饰词;以及将获取的修饰词添加到与获取的输入语句对应的输出语句,其中,获取的修饰词用于修饰所述输出语句中代表用户语音信号的发出者的核心词。

2021-10-26

访问量:13

流式数据处理的方法、装置、半导体芯片和计算机设备
本申请涉及一种流式数据处理的方法、装置、半导体芯片和计算机设备,其中,流式数据处理的方法包括:根据流式数据的时间轴,将流式数据分成多个数据块,其中,数据块与时间轴上的时间间隔对应,在第一时间间隔中,第一计算块对第一时间间隔中的数据块进行计算和分类,得到第一识别结果,并将第一识别结果进行缓存,在第二时间间隔中,第二计算块对第二时间间隔中的数据块进行计算,得到第二计算结果,第二计算块获取第一识别结果的缓存,将第一识别结果与第二计算结果进行分类,得到第二识别结果,解决了智能设备对流式数据处理的重复计算率高,导致智能设备的功耗大、成本高的问题,减少了对流式数据的重复计算率,提高了计算效率,降低了成本。

2021-10-22

访问量:24

一种说话人识别方法、装置、存储介质及设备
本申请公开了一种说话人识别方法、装置、存储介质及设备,该方法包括:首先获取待识别的目标语音,确定其采样率,提取其第一声学特征;并基于其采样率,对第一声学特征进行处理,得到第二声学特征,然后再将第二声学特征输入至预先构建的说话人识别模型,识别得到目标说话人的目标表征向量;其中,说话人识别模型是利用不同采样率的语音共同训练得到的;接着,可以根据目标表征向量,对目标说话人进行识别,得到目标说话人的识别结果。可见,由于本申请通过将第二声学特征输入至预先构建的说话人识别模型,既保证了输入高频语音声学特征时没有效果损失,又补偿了输入低频语音声学特征引起的效果下降,从而提升了识别结果的准确率。

2021-10-19

访问量:33

注册成为会员可查看更多数据。