对讲话者
针对多口音语音识别的方法和装置
本发明公开针对多口音语音识别的方法和装置,其中,一种针对多口音语音识别的方法,其中,对于单语音识别系统,在编码阶段添加自适应层用于学习与口音有关的特征信息,包括:对于每个编码器块将口音表征向量作为一个指导信息,输入到所述自适应层中,用于指导所述自适应层中的转换函数,其中,一个编码器有多个串联的编码器块;将口音无关特征也同时输入到所述自适应层中;以及将所述口音无关特征和所述口音表征向量混合形成口音相关特征。本申请实施例进一步探讨了适应层的注入位置、口音基数和不同类型的口音基数,以实现更好的口音适应。

2021-11-02

访问量:34

自然语言理解方法及装置、交通工具及介质
本申请公开了一种自然语言理解方法,包括:接收语音请求并对语音请求进行逐帧识别以得到帧文本和识别文本,在逐帧识别过程中,利用预测模型对帧文本进行预测以得到预测文本,将预测文本进行处理以得到第一理解结果,在逐帧识别过程结束后,将识别文本与预测文本进行匹配,在识别文本和预测文本匹配的情况下,将第一理解结果作为语音请求的自然语言理解结果输出。可对用户的语音请求进行识别以及自然语言理解,同时,通过提前预测及NLU处理,可在超时等待的时间中提前完成NLU处理。本申请还公开了一种自然语言理解装置、交通工具和存储介质。

2021-10-29

访问量:30

多说话人场景识别及网络训练方法、装置
本申请提供了一种多说话人场景识别及网络训练方法、装置,对语音分离模型和语音分类模型进行联合训练,保证了多说话人场景判断的连续性,使用语音分离模型训练来降低多说话人场景判断延迟。多说话人场景识别网络训练方法包括:获取训练语音样本集中的各个训练样本的对数梅尔能量谱,训练语音样本集包括单人说话语音信号和多人说话语音信号,多人说话语音信号标注有用于叠加生成多人说话语音信号的单人干净语音信号;根据训练语音样本集对语音分离模型与语音分类模型进行联合训练,其中,在联合训练过程中,使用训练语音样本集中训练样本的对数梅尔能量谱作为语音分离模型的输入,使用语音分离模型输出的频带点系数作为语音分类模型的输入。

2021-10-26

访问量:36

控制方法、移动终端及存储介质
本申请提供控制方法、移动终端及存储介质。本申请提出的技术方案中,移动终端采集第一语音信息后,利用移动终端中的第一意图识别模型,获取第一语音信息所指示的第一用户意图信息,判断第一用户意图信息是否包含移动终端的预设控制指令以外的指令,若不包含,则根据第一用户意图信息控制移动终端;否则,向语言处理服务器发送该第一语音信息,语言处理服务器使用第二意图识别模型获取第一语音信息所指示的第二用户意图信息,并向移动终端发送该第二用户意图信息,移动终端根据该第二用户意图信息控制移动终端。本申请提出的技术方案可以提高用户的意图识别准确率和/或优化用户使用偏好,进而提高用户体验。

2021-10-15

访问量:48

语音识别方法、装置及电子设备
本公开提供一种语音识别方法、装置及电子设备,所述方法包括:提取待识别语音的目标声纹特征;从预先训练的多个语音识别模型中获取与所述目标声纹特征对应的目标语音识别模型,所述多个语音识别模型分别与多个地理区域对应;基于所述目标语音识别模型对所述待识别语音进行语音识别,得到语音识别结果。本公开实施例能够提高语音识别效果。

2021-09-17

访问量:39

注册成为会员可查看更多数据。