一种云计算一体机及语音交互系统

文档序号:170855 发布日期:2021-10-29 浏览:16次 >En<

阅读说明:本技术 一种云计算一体机及语音交互系统 (Cloud computing all-in-one machine and voice interaction system ) 是由 生桂勇 唐明军 王超 刘方 王平泉 陆延 于 2021-08-13 设计创作,主要内容包括:本发明属于语音交互技术领域,公开了一种云计算一体机及语音交互系统,且所述语音交互系统包括:语音采集模块,用于采集目标用户的语音资料;语音解析模块,用于从所述语音资料中识别语音信息,并将所述语音信息解析为第一文本;视频采集模块,用于采集目标用户的脸部图像资料;视频解析模块,用于从所述脸部图像资料中提取唇部特征,根据所述唇部特征识别唇语信息,并将所述唇语信息解析为第二文本;判断模块,用于判断所述第一文本与第二文本的相似度;主控模块,所述主控模块在所述第一文本与第二文本的相似度超过阈值时获取第二文本,并根据所述第二文本的文本信息执行控制;综上基于双重验证有效提高了语音交互的准确性。(The invention belongs to the technical field of voice interaction, and discloses a cloud computing all-in-one machine and a voice interaction system, wherein the voice interaction system comprises: the voice acquisition module is used for acquiring voice data of a target user; the voice analysis module is used for identifying voice information from the voice data and analyzing the voice information into a first text; the video acquisition module is used for acquiring facial image data of a target user; the video analysis module is used for extracting lip features from the face image data, identifying lip language information according to the lip features and analyzing the lip language information into a second text; the judging module is used for judging the similarity between the first text and the second text; the main control module acquires a second text when the similarity between the first text and the second text exceeds a threshold value, and executes control according to text information of the second text; therefore, the accuracy of voice interaction is effectively improved based on double verification.)

一种云计算一体机及语音交互系统

技术领域

本发明属于语音交互技术领域,具体涉及一种云计算一体机及语音交互系统。

背景技术

云计算一体机是指融合了计算、储存、虚拟化和管理的一体化设备,这类设备在进行维护和基础控制时,通常采用手动操作。随着语音技术的不断发展,各种语音交互控制设备层出不穷,在金融、家居、制造、建筑、医疗等多种领域都有广泛应用,为人们的日常生产和生活带来了极大便利。

综上,可将语音交互技术与云计算一体机相结合,以提供更为方便操作的一体化设备,但是现有的语音交互中其识别准确性较差,因此极易出现控制失误的现象。

发明内容

鉴于此,为解决上述背景技术中所提出的额问题,本发明的目的在于提供一种云计算一体机及语音交互系统。

为实现上述目的,本发明提供如下技术方案:

一种语音交互系统,包括:

语音采集模块,用于采集目标用户的语音资料;

语音解析模块,用于从所述语音资料中识别语音信息,并将所述语音信息解析为第一文本;

视频采集模块,用于采集目标用户的脸部图像资料;

视频解析模块,用于从所述脸部图像资料中提取唇部特征,根据所述唇部特征识别唇语信息,并将所述唇语信息解析为第二文本;

判断模块,用于判断所述第一文本与第二文本的相似度;

主控模块,所述主控模块在所述第一文本与第二文本的相似度超过阈值时获取第二文本,并根据所述第二文本的文本信息执行控制。

优选的,所述语音交互系统还包括:与所述视频采集模块连接的摄像头,且所述摄像头用于拍摄当前环境中的预设区域的图像。

优选的,所述语音采集模块在开始采集到目标用户的语音资料时,向所述视频采集模块发送启动通知;所述视频采集模块在接收到启动通知时,进入资料采集工作状态。

优选的,所述视频采集模块未采集到目标用户的脸部图像资料时,向所述语音采集模块发送休眠通知;所述语音采集模块在接收到休眠通知时,进入休眠准备状态。

优选的,所述语音采集模块在未采集到目标用户的语音资料时,向所述视频采集模块发送休眠通知,并继续执行语音资料采集;所述视频采集模块在接收到休眠通知时,进入休眠准备状态。

优选的,所述语音交互系统还包括:提取模块,用于从所述脸部图像资料和所述语音资料中提取部分资料,并将所述部分资料对应传输至视频解析模块和语音解析模块进行识别解析。

优选的,所述提取模块根据相同时间起点、相同时间终点对所述脸部图像资料和所述语音资料进行提取。

优选的,所述语音交互系统还包括登录模块和标记模块;所述登录模块用于接收登录指令,并根据所述登录指令唤醒标记模块;所述标记模块对所述登录指令的声纹进行目标标记,并将当前声纹登录的用户确定为目标用户。

优选的,所述语音交互系统还包括:语音播放模块,用于播放所述主控模块的控制反馈信息。

一种云计算一体机,包括上述所公开的语音交互系统。

本发明与现有技术相比,具有以下有益效果:

在本发明中,基于语音识别和唇动识别进行双重验证,由此有效保证语音交互指令识别的准确,避免误识别并提高用户体验。具体,在双重验证时还提供片段对比验证的方式,由此能更进一步提升验证的准确性。

另外,在本发明中,语音采集模块与视频采集模块的响应限定,使得整体云计算一体机及语音交互系统只有在采集到语音资料后,才进行脸部图像资料的采集,由此还有效保证语音资料的完整,并可有效降低功耗。

附图说明

图1为本发明实施例一中语音交互系统的结构框图;

图2为本发明实施例三中云计算一体机的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一:

结合图1所示,本实施例中提供了一种语音交互系统,包括:

语音采集模块10,用于采集目标用户的语音资料;

语音解析模块20,用于从语音资料中识别语音信息,并将语音信息解析为第一文本;

视频采集模块30,用于采集目标用户的脸部图像资料;

视频解析模块40,用于从脸部图像资料中提取唇部特征,根据唇部特征识别唇语信息,并将唇语信息解析为第二文本;

判断模块50,用于判断第一文本与第二文本的相似度;

主控模块60,主控模块60在第一文本与第二文本的相似度超过阈值时获取第二文本,并根据第二文本的文本信息执行控制;

与视频采集模块30连接的摄像头70,且摄像头70用于拍摄当前环境中的预设区域的图像;

提取模块80,用于从脸部图像资料和语音资料中提取部分资料,并将部分资料对应传输至视频解析模块40和语音解析模块20进行识别解析;

登录模块90,用于接收登录指令,并根据登录指令唤醒标记模块100;

标记模块100,对登录指令的声纹进行目标标记,并将当前声纹登录的用户确定为目标用户;

语音播放模块110,用于播放主控模块60的控制反馈信息。

具体关于上述语音交互系统,包括如下实施方式:

其一:

通过登录模块90进行登录,通过标记模块100进行标记;

在语音采集模块10开始采集到目标用户的语音资料时,向视频采集模块30发送启动通知;视频采集模块30在接收到启动通知时,进入资料采集工作状态。

在语音采集模块10在未采集到目标用户的语音资料时,向视频采集模块30发送休眠通知,并继续执行语音资料采集;视频采集模块30在接收到休眠通知时,进入休眠准备状态。

综上,获得目标用户的一段语音资料和一段脸部图像资料;

语音解析模块20和视频解析模块40分别进行上述语音资料和脸部图像资料的完整解析,由此得到完整的第一文本和第二文本;

判断模块50进行上述完整的第一文本和第二文本之间的对比,并在相似度超过90%时,主控模块60根据第二文本的文本信息执行控制。

其二:

通过登录模块90进行登录,通过标记模块100进行标记;

在语音采集模块10开始采集到目标用户的语音资料时,向视频采集模块30发送启动通知;视频采集模块30在接收到启动通知时,进入资料采集工作状态。

在语音采集模块10在未采集到目标用户的语音资料时,向视频采集模块30发送休眠通知,并继续执行语音资料采集;视频采集模块30在接收到休眠通知时,进入休眠准备状态。

综上,获得目标用户的一段语音资料和一段脸部图像资料;

提取模块80根据相同时间起点、相同时间终点对上述完整的语音资料和脸部图像资料进行提取,例如资料的完整时间为5min,则提取第30s至第40s的语音片段和脸部图像片段;

语音解析模块20和视频解析模块40分别进行上述语音片段和脸部图像片段的解析,由此得到部分的第一文本和第二文本;

判断模块50进行上述完整的第一文本和第二文本之间的对比,并在相似度超过90%时,基于语音解析模块20获得完整的第二文本,主控模块60则根据完整的第二文本的文本信息执行控制。

其三:

通过登录模块90进行登录,通过标记模块100进行标记;

在语音采集模块10开始采集到目标用户的语音资料时,向视频采集模块30发送启动通知;视频采集模块30在接收到启动通知时,进入资料采集工作状态。

在视频采集模块30未采集到目标用户的脸部图像资料时,向语音采集模块10发送休眠通知;语音采集模块10在接收到休眠通知时,进入休眠准备状态。

综上,在本实施方式中,保证语音采集模块10和视频采集模块30均能采集到资料时才整体语音交互系统才进入工作状态,由此能进一步避免预设区域外的语音对整体系统造成的干扰。

实施例二:

本实施例中提供了一种云计算一体机,该云计算一体机包括上述实施例一中所公开的语音交互系统,且在本实施例中语音交互系统为本地交互,因此语音交互系统中的各模块结构均安装于云计算一体机的机箱内。

实施例三:

结合图2所示,本实施例中提供了一种云计算一体机,该云计算一体机包括上述实施例一中所公开的语音交互系统,且在本实施例中语音交互系统为远程交互,因此语音交互系统中的各模块结构分为本地终端和远程终端两个部分,其中:

远程终端安装于移动电子设备上,并包括登录模块90、标记模块100、语音采集模块10、摄像头70、视频采集模块30和语音播放模块110。

本地终端安装于云计算一体机的机箱内,并包括语音解析模块20、视频解析模块40、判断模块50、主控模块60和提取模块80。

上述远程终端与本地终端中的各模块结构均通过无线网络远程连接。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

7页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于边界攻击的声纹识别对抗样本生成方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!