首页
最新技术
特色专题
技术名词
热点聚焦
行业风向
登录
注册
使用嘴唇位置,嘴唇运动或者脸部分析
语音处理方法、装置及系统
本申请涉及智能车辆技术领域,提供一种语音处理方法、装置及系统,其中获取用户的输入语音信息;根据输入语音信息,确定输入语音信息对应的多个第一置信度,多个第一置信度分别对应于多个语种;根据用户的用户特征修正多个第一置信度为多个第二置信度;根据多个第二置信度,确定输入语音信息的语种。采用如上所述的语音处理方法,在考虑了用户特征的基础上确定用户的输入语音信息的语种,因此,能够提高语种识别精度,提高语音识别能力。
2021-11-02
访问量:35
在空间区域内进行音区定位方法和装置、设备和介质
本公开实施例公开了一种在空间区域内进行音区定位的方法和装置、设备和介质,其中,方法包括:确定在设定空间区域内从至少一个视角各自采集到的图像;基于所述至少一个视角各自采集到的图像,确定所述设定空间区域内的人脸信息;确定所述设定空间区域内采集到的至少一路混合语音信号;对所述至少一路混合语音信号进行语音分离,获得至少一路语音分离信号;基于所述至少一路语音分离信号对应的第一唤醒信息以及所述人脸信息,确定所述第一唤醒信息对应的唤醒信号在所述设定空间区域内的声源位置。本公开实施例可以提高定位效率和准确度,提高了对同侧前后排声源的区分定位准确率。
2021-11-02
访问量:20
音频播放方法和电子设备
本申请公开了一种音频播放方法和电子设备,属于人工智能领域。该方法包括:首先基于针对目标视频聊天场景所获取的人脸图像信息,确定与目标视频聊天场景对应的背景音乐音频信息;以及,基于针对目标视频聊天场景所获取的用户语音信息,确定目标视频聊天场景中目标用户的语音特征参数信息;然后基于语音特征参数信息,调整背景音乐音频信息的音频特征参数信息,并基于音频特征参数信息播放背景音乐音频信息。
2021-10-29
访问量:32
一种基于视听觉融合的多人对话点餐方法及系统
本发明公开了一种基于视听觉融合的多人对话点餐方法,持续采集多人对话的视频,将视频中人脸图像进行处理,得到每个点餐人的嘴部图像;结合嘴部图像,将混合语音分离,得到多个第一语音片段;将第一语音片段与点餐人进行匹配,得到确认了身份的第二语音片段,将同一个点餐人的多个语音片段分类到一起,对第二语音片段进行识别,包括餐厅菜名时,才处理该语音片段,提取其中的点餐信息,经点餐人确认后,将点餐信息传输给后厨,完成点餐。本发明能够实现多人长时间点餐识别,能够更加准确的分离混合语音,提高了语音分离的稳定性,且在点餐信息识别中保证了点餐人的隐私。
2021-10-29
访问量:32
语音唤醒方法和设备
本申请涉及语音唤醒技术领域,尤其涉及一种语音唤醒方法和设备。其中,所述语音唤醒方法,应用于具有麦克风的电子设备,包括:检测到满足第一条件的至少两路麦克风输入的语音信号;根据所述至少两路麦克风输入的语音信号的语音能量是否满足第二条件,确定是否唤醒电子设备;其中,如果满足所述第二条件,则唤醒电子设备;如果不满足所述第二条件,则继续检测麦克风输入的语音信号。基于本申请实施例的方法和设备,可以实现以免唤醒词方式语音唤醒电子设备。
2021-10-29
访问量:33
一种唇部语音活动检测和结果纠错的语音识别系统和方法
本发明涉及一种唇部语音活动检测和结果纠错的语音识别系统及识别方法,其特征在于,包括音视频处理模块、语音活动检测器、语音识别器、专有名词数据库、识别结果纠错器。其中,所述音视频处理模块,用于将采集好的包含人脸的视频进行处理,划分成视频片段,提取出含有音频的视频片段;所述语音活动检测器,用于对含有音频的视频片段进行语音活动检测,判断出所述的含有音频的视频片段是否为含有语音的视频片段;所述语音识别器,用于对被检测为含有语音的视频片段中提取出的音频进行语音识别,得到语音识别的原始结果。所述识别结果纠错器,用于对语音识别器的识别结果进行纠错。
2021-10-29
访问量:30
一种人工智能语音识别分析方法、系统、装置及存储介质
本发明涉及语音识别技术领域,具体提供了一种人工智能语音识别分析方法、系统、装置及存储介质,其中,所述方法包括:获取语音数据,生成第一结果;获取口型数据,生成第二结果,其中所述口型数据与所述语音数据的起始时间和结束时间相同;对比第一结果和第二结果,生成最终结果并输出。本发明通过分别翻译语音数据和口型数据,并对比翻译结果,取正确率较高的翻译单词组成最终结果,提高了语音识别的正确率。
2021-10-29
访问量:36
目标对象的动作驱动方法、装置、设备及存储介质
本申请实施例提供一种目标对象的动作驱动方法、装置、设备及存储介质,涉及人工智能技术领域。方法包括:获取源语音和目标视频,所述目标视频中包括目标对象,对源语音在每一时刻的语音参数进行人脸参数转换处理,得到所述源语音在对应时刻的源参数;对目标视频进行参数提取,得到目标参数;根据对所述源参数和所述目标参数进行结合所得到的结合参数,对所述目标视频中的目标对象进行图像重构,得到重构图像;通过所述重构图像生成合成视频,其中,所述合成视频中具有所述目标对象,且所述目标对象的动作与所述源语音对应。通过本申请,能够使得最终得到的语音驱动目标对象动作的合成视频更加平滑和真实,提高了视频合成的视觉效果。
2021-10-26
访问量:33
语音识别方法、装置和非易失性计算机可读存储介质
本公开涉及一种语音识别方法、装置和非易失性计算机可读存储介质,涉及计算机技术领域。该语音识别方法包括:对视频流中各帧图像进行人体识别,确定各帧图像中语音发出方的生理特征;根据不同的语音发出方的生理特征,确定不同的语音发出方对应的语音识别模型;利用不同的语音发出方对应的语音识别模型,识别不同的语音发出方的语音,确定语音识别结果。
2021-10-19
访问量:35
一种手语交互方法、系统、设备及存储介质
本发明公开了一种手语交互方法、系统、设备及存储介质,涉及人工智能技术领域。该方法包括以下步骤:建立手势语义数据库;获取用户手势信息,并对用户手势信息进行分段截取,以截取到多个手势;将各个手势分别与手势语义数据库中的手势数据进行匹配,依次输出各个手势对应的语义信息;将各个手势对应的语义信息进行语义整合,生成目标手势语义信息;获取并识别用户语音信息,生成语音语义识别信息;将语音语义识别信息与手势语义数据库中的语义数据进行匹配,以得到对应的目标手势信息;根据目标手势语义信息和目标手势信息生成并发送对应的交互信息给对应的用户,完成交互。本发明对各个手势进行单独识别,保证识别的准确性,提高交互效果。
2021-10-19
访问量:40
注册成为会员可查看更多数据。
热门专题
左旋肉碱的制备方法 左旋肉碱生产工艺 左旋肉碱相关技术资料
免烧砖的制造方法及应用 免烧砖相关专利技术
水溶肥制备方法和应用 水溶肥相关技术资料
保温砂浆及其制备方法 保温砂浆相关技术资料
聚羧酸减水剂的配方 聚羧酸减水剂制备方法 聚羧酸减水剂相关技术资料
除湿机的结构设计 新型工业除湿机的制造 除湿机相关技术资料
脱硫剂的制备方法及系统 脱硫剂数字化评价装置及其评价方法
硅基材料的生产工艺 新型硅基负极材料 硅基材料相关生产制备工艺
柔性电池的制备方法 柔性电池的工艺原理 柔性电池相关生产制备技术资料
汽车充电桩的设计原理 新型汽车充电桩 汽车充电桩的生产制造设计工艺
技术分类
本小类其他组不包括的技术主题
判别语音信号之间的浊音和清音部分
语音信号的音调确定
语音信号内离散点的检测
从噪声判别声音
从音乐中判别声音
语音信号存在或不存在的检测
模拟声道参数
用于发送分析结果
用于评估合成或解码语音信号
提取与健康状况相关的参数
情感状态估计
语音信号的质量检测
用于处理视频信号
为检索
比较或判别
专门适用于特定用途
以分析窗类型为特征的
利用遗传算法
利用混沌理论
利用模糊逻辑
利用神经网络
以分析方法为特征的
提取参数的倒谱
提取参数的功率信息
提取参数的每个子带的频谱信息
提取参数的共振信息
提取参数的预测系数
提取参数的零交叉率
提取参数的相关性系数
以提取参数类型为特征的
不限于组G10L15/00-G10L21/00的语言或者声音分析技术
转换处理的零部件
转换成非可视形式
通过显示频域信息
通过显示时域信息
转换成可视信息
将语音转换成非可听表达形式,例如语音可视化、触觉辅助的语音处理
用于提高可识度
用于与其他信号的同步,例如,视频信号
拨打电话
下载资料
栏目导航
会员登录