利用非声学特征的语音识别
语音处理方法、装置及系统
本申请涉及智能车辆技术领域,提供一种语音处理方法、装置及系统,其中获取用户的输入语音信息;根据输入语音信息,确定输入语音信息对应的多个第一置信度,多个第一置信度分别对应于多个语种;根据用户的用户特征修正多个第一置信度为多个第二置信度;根据多个第二置信度,确定输入语音信息的语种。采用如上所述的语音处理方法,在考虑了用户特征的基础上确定用户的输入语音信息的语种,因此,能够提高语种识别精度,提高语音识别能力。

2021-11-02

访问量:35

一种控制方法、装置、设备及存储介质
本发明公开了一种控制方法、装置、设备及存储介质。该方法包括:若麦克风处于未被占用状态,则通过所述麦克风采集语音信息,并通过车内摄像头采集图像信息;根据所述语音信息和所述图像信息确定说话人的位置信息;若根据所述说话人的位置信息从所述图像信息中截取说话人对应的第一图像信息;若根据所述第一图像信息确定说话人没有打电话,且根据所述图像信息和所述语音信息确定说话人未和车内除说话人外的其他人交谈,则将所述语音信息和所述图像信息发送至服务器,以使所述服务器根据所述语音信息和所述图像信息确定目标指令和回复语音信息;接收服务器发送的目标指令和回复语音信息,执行所述目标指令,并播放所述回复语音信息。

2021-10-22

访问量:26

利用用户跟踪自动调整显示系统的系统和方法
根据一个或多个实施例,提供了用于自动调整超声显示器的系统和方法。计算系统可包括供用户在程序中查看的显示器、耦合到显示器以调整显示器的位置或方向中的至少一个的致动器,以及图像采集设备。图像数据可由图像采集设备从本地环境采集。可以基于图像数据识别和/或定位目标对象。致动器可以根据识别的目标的位置调整显示器的位置或方向中的至少一个。该过程可根据频率或延迟期重复进行,以便在用户在环境中移动时持续跟踪用户并相应地调整显示器。

2021-10-15

访问量:34

语音提取方法、装置、设备和存储介质
本发明提供一种语音提取方法、装置、设备和存储介质。该方法包括:获取目标声源处的图像;根据所述目标声源在所述图像中的像素位置,确定所述目标声源的波达方向DOA;根据所述DOA,以及预设的N个波束的输出信号,提取目标声源的语音输出信号;所述N个波束是以麦克风阵列为基准而预设的具有不同指向的各个波束,N≥2。本发明实施例在语音信号的信噪比较低的情况下,特别是远距离悄悄话的情景下,根据目标声源处的图像的信息,确定目标声源的波达方向DOA,可以提高DOA估计的准确性,进而能够提高提取的语音信号的质量。

2021-09-28

访问量:44

使用序列到序列映射在模拟数据与语音识别输出之间进行协调
接收合成训练数据项,该合成训练数据项包括表示由模拟器输出的合成句子的第一符号序列。使用机器学习模型处理所述合成训练数据项,该机器学习模型输出表示所述合成句子的第二符号序列。通过用第二符号序列替换第一符号序列来修改所述合成训练数据项。在第一符号序列与第三符号序列之间存在统计学上的显著不匹配,该第三符号序列可由声学模型输出,该声学模型处理表示所述合成句子的话语的一组声学特征,并且在第二符号序列与第三符号序列之间不存在统计学上的显著不匹配。所述经修改的合成训练数据项可以被用于训练第二机器学习模型,该第二机器学习模型处理由所述声学模型输出的数据。

2021-09-24

访问量:62

注册成为会员可查看更多数据。