以分析方法为特征的
语音分类网络训练方法、装置、计算设备及存储介质
本发明涉及人工智能技术领域,尤其涉及一种语音分类网络训练方法、装置、设备及存储介质。该语音分类网络训练方法包括获取小样本数据集;将同一类别的训练音频样本作为对比模型学习的训练集,以基于训练集预训练对比模型,计算对比模型的模型损失;通过模型损失迭代训练对比模型,以得到训练好的对比模型;其中,训练好的对比模型包括目标特征提取器;将目标特征提取器与一分类器连接,以构建语音分类网络;采用小样本学习方式基于小样本数据集对语音分类网络进行微调,得到训练好的语音分类网络。该方法通过引入有监督学习方式预训练对比模型保证新任务的数据表达能力的稳定性,从而保证模型对于新任务的预测准确性。

2021-11-02

访问量:39

乐曲识别方法、装置、电子设备及计算机可读存储介质
本公开提供一种乐曲识别方法、乐曲识别装置、电子设备及计算机可读存储介质;涉及人工智能技术领域。该乐曲识别方法应用于包括音频输入装置的终端设备,该方法包括:通过音频输入装置接收用户输入的音频;对音频进行分析并确定音频的面貌信息,面貌信息包括无效音频、低信噪比音频或高信噪比音频;当面貌信息指示音频为低信噪比音频时,根据低信噪比识别策略对音频进行识别,并输出低信噪比识别结果;当面貌信息指示音频为高信噪比音频时,根据高信噪比识别策略对音频进行识别,并输出高信噪比识别结果;基于低信噪比识别结果或高信噪比识别结果确定所识别到的乐曲。本公开可以针对各种场景和音频进行有效的识别,并输出准确率较高的匹配结果。

2021-11-02

访问量:40

一种炸街车快速筛选方法及系统
本发明公开了一种炸街车快速筛选方法及系统,该方法包括:接收来自麦克风阵列采集的声音数据;对接收的麦克风阵列采集的声音数据进行处理,判断声音数据中的声音是否为炸街车声音;若判断出声音数据中的声音为炸街车声音时,则采用图像采集装置对发出该声音的车辆进行抓拍,生成相关图像。本发明提供的炸街车快速筛选方法及系统,炸街车声音判断精度高、炸街车识别精度高;炸街车筛选速度快、提高执法人员效率。

2021-11-02

访问量:25

声纹特征的有效性检测方法、装置及电子设备
本申请实施例提供了一种声纹特征的有效性检测方法、装置及电子设备。该方法包括:对待处理声纹特征进行聚类处理,得到目标聚类,目标聚类中的声纹特征在待处理声纹特征中的占比大于预设值;基于目标聚类中是否存在与目标聚类的质心的距离不小于预设距离的声纹特征,确定待处理声纹的有效性。基于本方案,能够实现对声纹特征的有效性的检测,保证用于身份识别的声纹特征的有效性,从而能够为提高声纹识别的识别效果提供基础。

2021-10-29

访问量:33

一种基于深度学习声纹识别的困难气道评估方法及装置
本发明涉及一种基于深度学习声纹识别的困难气道评估方法及装置,方法包括以下步骤:获取患者的语音数据;对所述语音数据进行特征提取,得到声学特征、声纹特征和语音识别特征;构建基于语音技术的困难气道分类器,通过训练好的困难气道分类器对提取的所述声学特征、声纹特征和语音识别特征进行分析并对困难气道严重程度进行评分,得到困难气道的评估结果。本发明能够精准的对临床麻醉中困难气道做出预警。

2021-10-29

访问量:32

一种闽南语语音识别方法、系统、设备及介质
本发明公开了一种闽南语语音识别方法、系统、设备及介质,使用普通话音素作为建模单元对闽南语进行识别,相较于传统的使用闽南语音素作为建模单元,大幅减少了音素序列的数量,降低了基于音素的n-gram语言模型的复杂度,降低了工作量,从而提高了建模效率;同时,在目标函数中引入条件随机场CRF,CTC的状态后验可以看作是条件随机场的点势能,状态与状态之间的联系可以通过边势能引入,改善了词错误率水平,提高了声学模型的性能,从而提高了识别准确率。

2021-10-29

访问量:42

一种声音处理方法、存储介质以及智能电视
本发明公开了一种声音处理方法、存储介质以及智能电视,所述方法获取待处理的音频信号,并将计算所述音频信号中每帧信号帧的能量以及过零率;根据计算得到的各信号帧的能量以及过零率,确定所述待处理的音频信号中的语音突变帧;对所述语音突变帧进行平滑处理,以得到处理后的音频信息。本发明通过音频信号中每帧信号帧的能量以及过零率确定该音频信号中的语音突变帧,并对语音突变帧的音量进行平滑,降低了进入语音突变帧产生的音量大幅度,从而避免了因音量瞬间大幅度变化给人们代理人的不适感,从而给用户的使用带来方便。

2021-10-22

访问量:40

人机语音交互方法、装置、计算机设备和存储介质
本申请涉及一种人机语音交互方法、装置、计算机设备和存储介质。所述方法包括:接收来自用户的对话语音;识别出对话语音对应的语音文本,对语音文本进行语义分析,并基于语义分析的结果识别出用户的交互需求类型;在交互需求类型为任务相关型时,通过任务树模型确定出用于应答语音文本的回复文本;在交互需求类型为任务无关型时,通过概率模型确定出用于应答语音文本的回复文本;根据确定出的回复文本进行语音应答。采用本方法能够针对不同的聊天需求采用不同的回复策略以给出不同的个性化回复。

2021-10-22

访问量:24

一种识别用户通话响应状态的方法、装置和电子设备
本说明书实施例提供一种识别用户通话响应状态的方法,构建具有多个任务的通话状态识别模型,所述多个任务之间具有共用片段,不同任务的目标为不同的通话响应状态,向用户发起通话并获取声音信息,调用所述通话状态识别模型根据声音信息识别用户的通话响应状态,包括,所述多个任务的共用片段对声音信息进行处理,并将共用片段的处理结果传递至各任务的专有片段进行识别,根据多个任务的识别结果判别用户的通话响应状态。通过构建具有多个任务的通话状态识别模型,由于多个任务之间具有共用片段,对不同状态的计算过程中相同的部分计算过程避免重复计算,因而提高了通话时对用户响应状态识别的速度。

2021-10-19

访问量:47

基于参数共享非自回归语音识别训练解码方法及系统
本发明公开了基于参数共享非自回归语音识别训练解码方法及系统,训练方法:提取语音训练数据的特征,构成声学特征序列;将声学特征序列进行声学编码,输出声学编码状态序列;将声学编码状态序列和空白填充序列进行非自回归解码,结合文本标注训练数据,计算非自回归交叉熵损失;将声学编码状态序列和文本标注训练数据进行自回归解码,结合文本标注训练数据,计算自回归交叉熵损失;根据非自回归交叉熵损失和自回归交叉熵损失加权,得到联合损失,计算梯度,并进行反向传播;循环执行,直至训练完成;解码方法:通过训练好的模型进行语音识别;系统包括声学特征序列提取模块、声学编码器、非自回归解码器、自回归解码器、联合损失计算模块。

2021-10-08

访问量:41

注册成为会员可查看更多数据。