使用嘴唇位置,嘴唇运动或者脸部分析
语音处理方法、装置及系统
本申请涉及智能车辆技术领域,提供一种语音处理方法、装置及系统,其中获取用户的输入语音信息;根据输入语音信息,确定输入语音信息对应的多个第一置信度,多个第一置信度分别对应于多个语种;根据用户的用户特征修正多个第一置信度为多个第二置信度;根据多个第二置信度,确定输入语音信息的语种。采用如上所述的语音处理方法,在考虑了用户特征的基础上确定用户的输入语音信息的语种,因此,能够提高语种识别精度,提高语音识别能力。

2021-11-02

访问量:35

在空间区域内进行音区定位方法和装置、设备和介质
本公开实施例公开了一种在空间区域内进行音区定位的方法和装置、设备和介质,其中,方法包括:确定在设定空间区域内从至少一个视角各自采集到的图像;基于所述至少一个视角各自采集到的图像,确定所述设定空间区域内的人脸信息;确定所述设定空间区域内采集到的至少一路混合语音信号;对所述至少一路混合语音信号进行语音分离,获得至少一路语音分离信号;基于所述至少一路语音分离信号对应的第一唤醒信息以及所述人脸信息,确定所述第一唤醒信息对应的唤醒信号在所述设定空间区域内的声源位置。本公开实施例可以提高定位效率和准确度,提高了对同侧前后排声源的区分定位准确率。

2021-11-02

访问量:20

音频播放方法和电子设备
本申请公开了一种音频播放方法和电子设备,属于人工智能领域。该方法包括:首先基于针对目标视频聊天场景所获取的人脸图像信息,确定与目标视频聊天场景对应的背景音乐音频信息;以及,基于针对目标视频聊天场景所获取的用户语音信息,确定目标视频聊天场景中目标用户的语音特征参数信息;然后基于语音特征参数信息,调整背景音乐音频信息的音频特征参数信息,并基于音频特征参数信息播放背景音乐音频信息。

2021-10-29

访问量:32

一种基于视听觉融合的多人对话点餐方法及系统
本发明公开了一种基于视听觉融合的多人对话点餐方法,持续采集多人对话的视频,将视频中人脸图像进行处理,得到每个点餐人的嘴部图像;结合嘴部图像,将混合语音分离,得到多个第一语音片段;将第一语音片段与点餐人进行匹配,得到确认了身份的第二语音片段,将同一个点餐人的多个语音片段分类到一起,对第二语音片段进行识别,包括餐厅菜名时,才处理该语音片段,提取其中的点餐信息,经点餐人确认后,将点餐信息传输给后厨,完成点餐。本发明能够实现多人长时间点餐识别,能够更加准确的分离混合语音,提高了语音分离的稳定性,且在点餐信息识别中保证了点餐人的隐私。

2021-10-29

访问量:32

语音唤醒方法和设备
本申请涉及语音唤醒技术领域,尤其涉及一种语音唤醒方法和设备。其中,所述语音唤醒方法,应用于具有麦克风的电子设备,包括:检测到满足第一条件的至少两路麦克风输入的语音信号;根据所述至少两路麦克风输入的语音信号的语音能量是否满足第二条件,确定是否唤醒电子设备;其中,如果满足所述第二条件,则唤醒电子设备;如果不满足所述第二条件,则继续检测麦克风输入的语音信号。基于本申请实施例的方法和设备,可以实现以免唤醒词方式语音唤醒电子设备。

2021-10-29

访问量:33

一种唇部语音活动检测和结果纠错的语音识别系统和方法
本发明涉及一种唇部语音活动检测和结果纠错的语音识别系统及识别方法,其特征在于,包括音视频处理模块、语音活动检测器、语音识别器、专有名词数据库、识别结果纠错器。其中,所述音视频处理模块,用于将采集好的包含人脸的视频进行处理,划分成视频片段,提取出含有音频的视频片段;所述语音活动检测器,用于对含有音频的视频片段进行语音活动检测,判断出所述的含有音频的视频片段是否为含有语音的视频片段;所述语音识别器,用于对被检测为含有语音的视频片段中提取出的音频进行语音识别,得到语音识别的原始结果。所述识别结果纠错器,用于对语音识别器的识别结果进行纠错。

2021-10-29

访问量:30

一种人工智能语音识别分析方法、系统、装置及存储介质
本发明涉及语音识别技术领域,具体提供了一种人工智能语音识别分析方法、系统、装置及存储介质,其中,所述方法包括:获取语音数据,生成第一结果;获取口型数据,生成第二结果,其中所述口型数据与所述语音数据的起始时间和结束时间相同;对比第一结果和第二结果,生成最终结果并输出。本发明通过分别翻译语音数据和口型数据,并对比翻译结果,取正确率较高的翻译单词组成最终结果,提高了语音识别的正确率。

2021-10-29

访问量:36

目标对象的动作驱动方法、装置、设备及存储介质
本申请实施例提供一种目标对象的动作驱动方法、装置、设备及存储介质,涉及人工智能技术领域。方法包括:获取源语音和目标视频,所述目标视频中包括目标对象,对源语音在每一时刻的语音参数进行人脸参数转换处理,得到所述源语音在对应时刻的源参数;对目标视频进行参数提取,得到目标参数;根据对所述源参数和所述目标参数进行结合所得到的结合参数,对所述目标视频中的目标对象进行图像重构,得到重构图像;通过所述重构图像生成合成视频,其中,所述合成视频中具有所述目标对象,且所述目标对象的动作与所述源语音对应。通过本申请,能够使得最终得到的语音驱动目标对象动作的合成视频更加平滑和真实,提高了视频合成的视觉效果。

2021-10-26

访问量:33

语音识别方法、装置和非易失性计算机可读存储介质
本公开涉及一种语音识别方法、装置和非易失性计算机可读存储介质,涉及计算机技术领域。该语音识别方法包括:对视频流中各帧图像进行人体识别,确定各帧图像中语音发出方的生理特征;根据不同的语音发出方的生理特征,确定不同的语音发出方对应的语音识别模型;利用不同的语音发出方对应的语音识别模型,识别不同的语音发出方的语音,确定语音识别结果。

2021-10-19

访问量:35

一种手语交互方法、系统、设备及存储介质
本发明公开了一种手语交互方法、系统、设备及存储介质,涉及人工智能技术领域。该方法包括以下步骤:建立手势语义数据库;获取用户手势信息,并对用户手势信息进行分段截取,以截取到多个手势;将各个手势分别与手势语义数据库中的手势数据进行匹配,依次输出各个手势对应的语义信息;将各个手势对应的语义信息进行语义整合,生成目标手势语义信息;获取并识别用户语音信息,生成语音语义识别信息;将语音语义识别信息与手势语义数据库中的语义数据进行匹配,以得到对应的目标手势信息;根据目标手势语义信息和目标手势信息生成并发送对应的交互信息给对应的用户,完成交互。本发明对各个手势进行单独识别,保证识别的准确性,提高交互效果。

2021-10-19

访问量:40

注册成为会员可查看更多数据。