专门适用于不利环境中保持鲁棒性或增强语音强度的语音识别技术

本公开是关于一种语料降噪方法及装置、电子设备和存储介质。该方法包括：获取初始语料集合的估计标签分布；根据所述估计标签分布获取置信矩阵,所述置信矩阵用于描述类别条件下的标签噪声分布；基于所述置信矩阵获取所述初始语料集合中的噪声语料；处理所述初始语料集合中的噪声语料,获得目标语料集合。本实施例中可以通过标签的预测概率和标注标签来建立置信矩阵,并通过置信矩阵来识别出初始语料集合中的噪声语料,在对噪声语料处理后,可以减少目标语料中噪声语料所占的比例和歧义信息,使目标语料的边界更清晰,减少垂域模型的训练次数,进而减少训练所需要的计算资源和消耗时长,有利于提升训练效率。

2021-11-02

访问量：28

一种语音处理方法、装置及设备

本申请实施例提供一种语音处理方法、装置及设备,应用于语音系统,所述语音系统中包括麦克风和扬声器,该方法包括：获取所述麦克风在预设时段内采集的第一语音信号,所述第一语音信号包括用户语音信号和所述扬声器在所述预设时段内播放的语音信号；在缓存中获取所述预设时段内的第二语音信号；根据所述第一语音信号和所述第二语音信号,确定所述扬声器对所述缓存中的语音信号进行播放的时延；根据所述时延对所述第二语音信号进行校准处理,得到第三语音信号；根据所述第三语音信号对所述第一语音信号进行处理,以在所述第一语音信号中提取所述用户语音信号。提高了语音处理的准确性。

2021-11-02

访问量：36

流式端到端语音识别方法、装置及电子设备

本申请实施例公开了流式端到端语音识别方法、装置及电子设备,所述方法包括：以帧为单位对接收到的语音流进行语音声学特征提取并进行编码；对已完成编码的帧进行分块处理,并对同一分块中包含的需要进行编码输出的激活点数量进行预测；根据预测结果确定需要进行解码输出的激活点所在的位置,以便解码器在所述激活点所在的位置进行解码并输出识别结果。通过本申请实施例,能够提升流式端到端语音识别系统对噪声的鲁棒性,进而提升系统性能以及准确度。

2021-11-02

访问量：28

音频播放方法和电子设备

本申请公开了一种音频播放方法和电子设备,属于人工智能领域。该方法包括：首先基于针对目标视频聊天场景所获取的人脸图像信息,确定与目标视频聊天场景对应的背景音乐音频信息；以及,基于针对目标视频聊天场景所获取的用户语音信息,确定目标视频聊天场景中目标用户的语音特征参数信息；然后基于语音特征参数信息,调整背景音乐音频信息的音频特征参数信息,并基于音频特征参数信息播放背景音乐音频信息。

2021-10-29

访问量：32

音频处理的方法、装置、电子设备和存储介质

本申请涉及计算机技术领域,尤其涉及一种音频处理的方法、装置、电子设备和计算机可读存储介质。该方法包括获取待处理音频数据所对应的原始音频特征；调用第一网络模型对原始音频特征进行处理,得到第一音频特征,其中,第一音频特征包括至少一维特征；调用第二网络模型对原始音频特征以及第一音频特征进行处理,得到第二音频特征,其中,第二音频特征的特征数量大于第一音频特征的特征数量；根据第二音频特征以及原始音频特征,调用全连接网络模型获取待处理音频数据所对应的增益结果；根据增益结果以及待处理音频数据,生成去噪音频数据。该方法能够提升去噪效果,从而能够更准确地判断出音频中的语音,提升判断的准确性。

2021-10-29

访问量：39

语音识别信号预处理方法、装置、设备及计算机存储介质

本发明实施例涉及语音信号处理技术领域,公开了一种语音识别信号预处理方法,该方法包括：接收待识别语音信号,并提取待识别语音信号中各待识别语句的声纹特征,其中,待识别语音信号包括至少一个待识别语句；根据声纹模型库对各待识别语句的声纹特征进行识别,得到初始识别结果；其中,声纹模型库为根据待识别语音信号中当前待识别语句之前的各待识别语句进行短时注册构建得到；对待识别的语音信号的各待识别语句进行失真性分析,得到各待识别语句的失真度结果；根据失真度结果对声纹模型库及初始识别结果进行调整,得到目标声纹模型库及目标识别结果。通过上述方式,本发明实施例实现了语音识别的准确性的有益效果。

2021-10-29

访问量：46

一种音频数据的处理方法、装置及设备

本申请提供一种音频数据的处理方法、装置及设备,该方法包括：在降噪应用场景中,获取存在噪声的待处理音频数据；确定与所述待处理音频数据对应的音频特征向量；将所述音频特征向量输入给已训练的目标声码器模型,由所述目标声码器模型输出与所述音频特征向量对应的目标音频数据；其中,所述目标音频数据是对所述待处理音频数据的噪声进行降噪处理后的音频数据。通过本申请的技术方案,通过语音合成方式直接合成目标音频数据,不需要关注待处理音频数据中的噪声本身,只需要将音频特征向量输入给目标声码器模型,就能够用语音合成方式来生成目标音频数据,语音降噪的可靠性更高。

2021-10-29

访问量：30

一种低质数据的自动化合成方法、装置及电子设备

本发明提供了一种低质数据的自动化合成方法、装置及电子设备,涉及语音技术领域,包括获取低质音频数据；对所述低质音频数据进行噪音分离,得到发音数据和噪音数据；基于所述噪音数据去除所述发音数据的背景噪音,得到去除背景噪音的发音数据；对所述发音数据进行语音识别,得到所述发音数据的文本信息；输入所述文本信息至预先训练的声学模型,得到合成的音频数据。本申请具有在保证全自动化的情形下对收集到的低质量音频数据进行语音合成任务的功能。

2021-10-29

访问量：28

语音交互系统的自动增益控制方法、装置及系统

本申请公开了一种语音交互系统的自动增益控制方法、装置、系统以及计算机可读存储介质,该方法包括：接收语音信号；通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号；调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号；基于所述检测到唤醒词的声音信号,计算所述语音交互系统中自动增益控制所需的增益,以调节拾取音频数据的音量在预设范围内。本申请能够准确计算出每次交互所需的增益,保证语音识别的准确性,提升用户的交互体验。

2021-10-26

访问量：52

一种语音设备控制方法、系统、介质及语音设备

本申请提供一种语音设备控制方法,包括：获取显示设备输出的多媒体音频信号；利用麦克风阵列采集环境声音数据,生成对应的环境声音信号；所述环境声音数据包括语音操作指令和所述显示设备的声音数据；若在同一时间段内所述多媒体音频信号和所述环境声音信号具备信号一致性,基于所述多媒体音频信号对所述环境声音信号进行回声消除,得到所述语音操作指令,以便语音设备执行所述语音操作指令对应的操作本申请能够有效增强回声消除效果,提高声音信号的信噪比,从而提升用户体验。本申请还提供一种语音设备控制系统、计算机可读存储介质和语音设备,具有上述有益效果。

2021-10-26

访问量：49

注册成为会员可查看更多数据。

热门专题

技术分类