为检索
一种语音识别方法、装置、存储介质及电子设备
本申请公开了一种语音识别方法、装置、存储介质及电子设备,其中,方法包括:获取多媒体数据流,所述多媒体数据流包括视频数据和音频数据,获取所述音频数据中的声纹信息,查找与所述声纹信息相关联的图片数据,采用所述图片数据对所述视频数据进行合成处理,输出所述音频数据和合成处理后的所述视频数据。采用本申请,通过拆分出多媒体数据流中的音频数据,比对音频数据中的声纹信息并匹配相关联的图片,丰富视频内容,提升视频的趣味性,采用声纹信息进行比对提高语音识别的准确性,提升视频应用的使用效果。

2021-11-02

访问量:41

智能设备的唤醒方法和装置、存储介质及电子装置
本发明公开了一种智能设备的唤醒方法和装置、存储介质及电子装置,其中,上述方法包括:从多个智能设备中获取允许被唤醒信号唤醒的智能设备作为候选设备;在候选设备的数量为多个的情况下,确定多个候选设备中每个候选设备对应的目标唤醒角度以及目标唤醒能量;根据所述目标唤醒角度和所述目标唤醒能量,从多个所述候选设备中确定目标设备,其中,所述目标设备用于响应所述唤醒信号。采用上述技术方案,解决了相关技术中,确定响应唤醒指令的智能设备的准确性较低等问题。

2021-11-02

访问量:41

虚拟机器人形象优化方法、系统、存储介质及计算机设备
本发明适用于虚拟机器人技术领域,提供了一种虚拟机器人形象优化方法,包括:解析识别语音信息中的播放歌曲的指令,生成所述歌曲的槽位参数信息;分析判断所述槽位参数信息中所述歌曲对应的类型,生成匹配所述类型的形象标签;根据所述形象标签对应的人物形象以变换虚拟机器人。还提供了一种虚拟机器人形象优化系统、用于存储执行所述方法的计算机程序的存储介质以及实现所述方法的计算机设备。借此,本发明能够有效的减少在播放歌曲时,降低歌曲本身与虚拟机器人的落差感,使虚拟人物形象和歌曲类型趋同,使用户在听虚拟机器人唱歌时更自然。

2021-10-29

访问量:59

数据处理方法以及设备
本申请实施例公开一种数据处理方法以及设备,其中方法包括如下步骤:对目标音频文件进行音频过滤,生成有效音频文件;提取所述有效音频文件的声学特征向量;对所述声学特征向量进行解码识别,生成所述目标音频文件对应的目标拼音序列和所述目标拼音序列对应的置信度得分;通过关键词检索库对所述目标拼音序列进行检索,生成所述目标音频文件的检索结果,所述检索结果用于表示是否命中所述关键词检索库中的关键词;根据所述置信度得分和所述检索结果对所述待处理音频文件是否为正常音频进行分析。采用本申请,可以提高对音频文件中关键词的检测效率。

2021-10-15

访问量:30

信息处理装置、信息处理系统及存储介质
本发明公开一种信息处理装置、信息处理系统及存储介质,其能够以基于声音的对话形式来检索符合希望的菜单品种。信息处理装置具备取得部、解析部、第一生成部、检索部以及第二生成部。取得部取得用户的声音数据。解析部解析声音数据。第一生成部基于解析部的解析结果,生成检索一个以上的对象的检索条件。检索部检索满足检索条件的一个以上的对象。第二生成部基于检索部的检索结果,生成向用户应答的应答数据。

2021-10-08

访问量:27

一种基于MVGG-CTC的关键词搜索方法
一种基于MVGG-CTC的关键词搜索方法,所述方法包括步骤:获取语音数据;对所述语音数据进行预处理;将所述语音数据输入MVGG-CTC模型中训练;构建语音模型和词典;将所述MVGG-CTC模型输出的拼音序列转化为连续文字;利用倒排索引构建语音关键词搜索库;在所述语音关键词搜索库中输入关键词进行检索;获取所述语音关键词搜索库输出的检索结果。本申请提供的一种基于MVGG-CTC的关键词搜索方法具有如下有益效果:(1)改进了网络结构,提升了语音识别的效率与准确度;(2)提升模型的鲁棒性;(3)能够实现快速关键词检索的智能自动识别。

2021-10-01

访问量:21

一种语音识别解码的方法及装置
本发明提供了一种语音识别解码的方法及装置。语音识别解码方法包括:确定待识别语音的N个子帧所对应的对数梅尔谱特征序列;通过经训练的神经网络编码器,处理所述对数梅尔谱特征序列,得到所述N个子帧各自对应的字符或者空白符的发射概率;根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。相比于传统的语音识别系统,本申请省略了帧级别对齐的流程,简化了训练和解码的流程;相比于端到端语音识别系统,在束搜索算法过程中使用加权有限状态转移器加快解码速度,高效地利用训练音频数据之外的文本数据,可以在多种领域快速部署语音识别系统。

2021-09-24

访问量:34

一种实现远程口语翻译服务的方法
本发明公开了一种实现远程口语翻译服务的方法,通过同步口语翻译,根据个人终端设备输入内容,能够优化出口语中在本行业的意思,实现准确表达,在口语翻译过程中,通过语音识别装置,能够实现口语和文字之间的转换,并按时间顺序做交谈记录,便于实现对口语交谈进行整理,在对口语翻译中,能够在语音识别后,针对关键词进行搜索,对实物结构以图片进行展示,确保口语交流中没有差异,在口语翻译过程中,将口语翻译数据同步上传大数据,根据关键词筛分,对谈话内容实现监管,对危险信息进行筛分,能够大大提高口语的翻译质量,更加的优化翻译过程,还能提高翻译的准确性,操作过程更加安全。

2021-09-21

访问量:33

搜索方法、装置、电子设备以及存储介质
本公开公开了搜索方法、装置、电子设备、存储介质以及程序产品,涉及计算机技术领域,尤其涉及智能搜索和语音技术。具体实现方案为:响应于来自本地程序的用于调起搜索应用程序的请求,调起搜索应用程序;在确定来自用户的唤醒语音信息正确的情况下,通过搜索应用程序接收用于搜索的语音搜索信息;以及基于语音搜索信息,通过搜索应用程序搜索与语音搜索信息相对应的目标搜索结果。

2021-09-21

访问量:25

注册成为会员可查看更多数据。