一种智能语音控制大屏显示方法、系统及其相关组件

文档序号：570093 发布日期：2021-05-18 浏览：16次 >En<

阅读说明：本技术 一种智能语音控制大屏显示方法、系统及其相关组件 (Intelligent voice control large screen display method, system and related components thereof ) 是由冯杰倪萌杜俊磊于 2021-01-11 设计创作，主要内容包括：本发明公开了一种智能语音控制大屏显示方法、系统及其相关组件,其方法包括：采集用户输入的语音音频,提取人声音频,将人声音频截取为指定音频以及需求音频；对需求音频进行训练和解码,获得目标文字；对目标文字进行拆分获取专用字,判断专用字的有效性；若有效则判断专用字是否属于权限指标,若专用字为权限指标,则调取指定音频以判断用户是否具有查看权限；若有查看权限,则将专用字推送至大屏展示模块进行展示,若用户不具有查看权限,则停止访问。本发明先判断专用字是否属于权限指标,再判断用户是否具有查看权限,从而定义了输入的语音音频为权限指标时如何进行展示,使大屏展示更加智能,应用场景更加广泛,给予用户更好的用户体验。(The invention discloses an intelligent voice control large screen display method, a system and related components thereof, wherein the method comprises the following steps: collecting voice audio input by a user, extracting voice audio, and intercepting the voice audio into designated audio and required audio; training and decoding the required audio to obtain target characters; splitting the target character to obtain a special character, and judging the effectiveness of the special character; if the special word is valid, judging whether the special word belongs to the authority index, and if the special word is the authority index, calling the specified audio to judge whether the user has the viewing authority; and if the user has the viewing permission, pushing the special word to a large-screen display module for display, and if the user does not have the viewing permission, stopping the access. According to the method, whether the special character belongs to the permission index or not is judged, and whether the user has the permission to check or not is judged, so that how to display the input voice audio serving as the permission index is defined, large-screen display is more intelligent, application scenes are wider, and better user experience is provided for the user.)

技术领域

本发明涉及智能语音技术领域，尤其涉及一种智能语音控制大屏显示方法、系统及其相关组件。

背景技术

随着信息化建设的快速发展和大数据时代的来临，各个行业对于指标可视化的需求越来越高。通过电子大屏，不仅需要将图片，视频等呈现给使用者观看，也需要对海量数据背后的价值进行挖掘和分析，帮助管理者发现数据背后的关系和规律，为决策提供依据。

目前，多数企业使用的大屏展示控制系统仍然需要通过鼠标点击，进行频繁操作来实现指标数据的展示，步骤繁琐且浪费时间。部分企业使用的语音控制大屏展示系统，对大屏展示的内容没有权限设置，造成电子大屏只能展示无权限指标，无法满足用户多样化的需求。在现有语音控制大屏显示系统中，存在以下两个局限：1、对说话人的权限不进行设置，导致电子大屏只能展示部分指标；2、在进行展示时只能展示无需权限指标的内容。

发明内容

本发明实施例提供了一种智能语音控制大屏显示方法、系统及其相关组件，旨在解决现有技术中语音控制大屏没有对说话人权限进行设置导致指标展示不全以及无法展示需要权限指标的内容的问题。

第一方面，本发明实施例提供了一种智能语音控制大屏显示方法，其包括：

采集用户输入的语音音频，并提取所述语音音频中的人声音频，将所述人声音频进行截取，获取指定音频以及需求音频，并将所述指定音频进行保存；

对所述需求音频进行训练和解码，获得目标文字；

对所述目标文字进行拆分获取专用字，并判断所述专用字的有效性；

若所述专用字有效则判断所述专用字是否属于权限指标，若所述专用字为权限指标，则调取所述指定音频以判断所述用户是否具有查看权限；

若所述用户具有查看权限，则将所述专用字推送至大屏展示模块进行展示，若所述用户不具有查看权限，则停止访问。

第二方面，本发明实施例提供了一种智能语音控制大屏显示系统，其包括：

音频获取单元，用于采集用户输入的语音音频，并提取所述语音音频中的人声音频，将所述人声音频进行截取，获取指定音频以及需求音频，并将所述指定音频进行保存；

目标文字获取单元，用于对所述需求音频进行训练和解码，获得目标文字；

目标文字拆分单元，用于对所述目标文字进行拆分获取专用字，并判断所述专用字的有效性；

用户权限确认单元，用于若所述专用字有效则判断所述专用字是否属于权限指标，若所述专用字为权限指标，则调取所述指定音频以判断所述用户是否具有查看权限；

大屏展示单元，用于若所述用户具有查看权限，则将所述专用字推送至大屏展示模块进行展示，若所述用户不具有查看权限，则停止访问。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的智能语音控制大屏显示方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的智能语音控制大屏显示方法。

本发明实施例提供了一种智能语音控制大屏显示方法、系统及其相关组件。该方法包括采集用户输入的语音音频，并提取所述语音音频中的人声音频，将所述人声音频进行截取，获取指定音频以及需求音频，并将所述指定音频进行保存；对所述需求音频进行训练和解码，获得目标文字；对所述目标文字进行拆分获取专用字，并判断所述专用字的有效性；若所述专用字有效则判断所述专用字是否属于权限指标，若所述专用字为权限指标，则调取所述指定音频以判断所述用户是否具有查看权限；若所述用户具有查看权限，则将所述专用字推送至大屏展示模块进行展示，若所述用户不具有查看权限，则停止访问。本发明实施例通过对用户输入的语音音频中的专用字是否属于权限指标进行判断，且进一步判断用户是否具有相应查看权限，从而决定是否将专用字在大屏上进行展示，从而定义了在用户输入的信息为权限指标时，如何将信息进行展示的过程，使大屏展示更加智能，应用场景更加广泛，同时让用户获得更好的使用体验。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的智能语音控制大屏显示方法的流程示意图；

图2为本发明实施例提供的智能语音控制大屏显示系统的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的一种智能语音控制大屏显示方法的流程示意图，该方法包括步骤S101～S105。

S101、采集用户输入的语音音频，并提取所述语音音频中的人声音频，将所述人声音频进行截取，获取指定音频以及需求音频，并将所述指定音频进行保存；

在本步骤中，在采集所述语音音频后，对所述语音音频中需要的人声音频进行提取，然后将所述人声音频截取为一段指定音频和一段需求音频。用户向大屏输入语音音频时，需要先对大屏进行唤醒，在预先为大屏进行命名后，每次输入语音音频时，需要先语音输入大屏的名字，这一段语音音频即为所述指定音频。所述指定音频将被保存至大屏内部的语音存储单元，以方便随时调取。所述需求音频则为实际语音输入的内容。例如，将大屏命名为“小智”，则在进行语音音频输入时，先向大屏语音输入“小智”或“小智小智”，从而激活所述大屏中的语音模块，然后再向所述大屏继续语音输入实际需要输入的内容信息。

在一实施例中，所述采集用户输入的语音音频，并提取所述语音音频中的人声音频包括：

基于高斯混合模型的语音活动检测对所述语音音频进行模型匹配，以区分所述语音音频中的人声音频和噪音音频，并提取所述人声音频。

在本实施例中，用户输入语音音频过程中，由于环境因素可能会存在部分噪音，使用基于高斯混合模型的语音活动检测对所述语音音频进行模型匹配，从而区分所述语音音频中的人声音频和噪声音频。基于高斯混合模型的语音活动检测，在频谱特种空间中建立环境噪音和语音的高斯混合模型，然后采用模型匹配的方法对所述语音音频进行区分，从而判断出噪声音频和人声音频。若用户输入的语音中仅存在噪声音频，则直接判定该语音音频无效，给予“重新输入音频”的提示。

S102、对所述需求音频进行训练和解码，获得目标文字；

在本步骤中，在获取需求音频后，需要对所述需求音频进行训练和解码两个阶段，从而对所述需求音频进行分析，得到目标文字。

在一实施例中，所述步骤S102包括：

对所述需求音频进行静音切除以及分帧预处理，并对预处理后的语音数据提取梅尔倒谱系数特征；

将所述梅尔倒谱系数特征输入至预训练的声学模型和语言模型进行解码，得到目标文字。

在本实施例中，首先对所述需求音频进行预处理，包括静音切除以及分帧，然后提取预处理后的语音数据的梅尔倒谱系数特征，再将所述梅尔倒谱系数特征进行解码得到目标文字。具体的，先对所述需求音频的首尾端进行静音切除，以降低干扰，然后对静音切除后的所述需求音频进行分帧处理，从而使语音信号具有短时平稳性，再对分帧处理后的语音数据提取梅尔倒谱系数特征(即MCFF特征，提取MCFF特征即根据人耳的生理特性，把每一帧波形变成一个多维向量，可以简单地理解为这个向量包含了这帧语音的内容信息)。在完成对所述需求语音的预处理后，将预处理提取出的梅尔倒谱系数特征输入至预训练的声学模型和语言模型中进行解码，得到目标文字。

在一具体实施例中，所述将所述梅尔倒谱系数特征输入至预训练的声学模型和语言模型进行解码，得到目标文字包括：

将所述梅尔倒谱系数特征输入至预训练的声学模型中进行特征解码，得到音素信息；

在预先创建的字典中查找与所述音素信息对应的字或词；

通过预训练的语言模型判断所述音素信息属于对应的所述字或词的概率，并通过所述概率选择并输出目标文字。

在本实施例中，先将所述梅尔倒谱系数特征输入至预训练的声学模型中，解码获得音素信息，再从所述字典中查找出与所述音素信息对应的字或词，最后再通过预训练的语言模型判断所述音素信息属于对应的所述字或词的概率，从而选择出对应的目标文字。在预先创建的所述字典中，对于中文是将拼音和汉字进行对应，对于英文是将音标和单词进行对应。

S103、对所述目标文字进行拆分获取专用字，并判断所述专用字的有效性；

在本步骤中，对目标文字进行拆分，获取包括原子指标、维度和意图中的一种或多种的专用字，然后判断这些专用字的有效性。所述目标文字的拆分过程即为目标文字转化为结构化的、机器可以理解的语言的过程。所述专用字包括原子指标、维度和意图，其中，所述原子指标是基于某一业务事件行为下的度量，是业务定义中不可再拆分的指标，具有明确业务含义的名称。所述维度是度量的环境，用来反映业务的一类属性，这类属性的集合构成一个维度，也可以称为实体对象。维度属于一个数据域，如地理维度(其中包括国家、地区、省市等)、时间维度(其中包括年、季、月、周、日等级别内容)。所述意图是指计算机理解的用户需求。以“深圳南山今年的营收”为例：该条指令的原子指标为“营收”，维度为“深圳南山”和“今年”，意图为“查看营收”。

在一实施例中，所述步骤S103包括：

获取所述目标文字中的所有专用字，并判断所述专用字中是否存在原子指标；

若所述专用字中存在原子指标，则判定所述专用字有效；

若所述专用字中不存在原子指标，则判定所述专用字无效。

在本实施例中，获取所述目标文字中所有类型的专用字，然后判断这些专用字中是否存在有原子指标，若存在原子指标，则说明所述目标文字拆分的专用字有效，否则视为无效，并给予“没有输入原子指标，请重新输入”的提示。

S104、若所述专用字有效则判断所述专用字是否属于权限指标，若所述专用字为权限指标，则调取所述指定音频以判断所述用户是否具有查看权限；

在本步骤中，若所述专用字中存在原子指标，则进一步判断所述专用字是否属于权限指标，若属于则再判断所述用户是否具有查看权限。本步骤的目的是为了确认用户是否具有查看权限，在进行确定之前，需要确认该专用字是否属于权限指标，如果所述专用字属于权限指标，则说明需要用户具有查看权限，才能查看所述专用字。

在一实施例中，所述步骤S104包括：

判断所述专用字中的原子指标是否属于权限指标；

若所述原子指标不属于权限指标，则直接将所述专用字推送至所述大屏展示模块；

若所述原子指标为权限指标，则调取所述指定音频并进行身份比对，以判断所述用户是否具有查看权限。

在本实施例中，判断所述专用字是否属于权限指标是根据所述专用字中的原子指标进行判断的，若所述原子指标属于权限指标，则所述专用字也属于权限指标，若所述原子指标不属于权限指标，则所述专用字也不属于权限指标。当所述原子指标不属于权限指标时，说明该语音音频无需权限即可查看，因此不需要用户具有查看权限，可直接将所述专用字推送至大屏展示模块进行展示。而所述原子指标为权限指标时，则说明该端语音音频需要用户具有查看权限，才能查看，此时应当调取保存的所述指定音频进行身份比对，查看用户的查看权限。

在一具体实施例中，所述调取所述指定音频并进行身份比对，以判断所述用户是否具有查看权限，包括：

通过声纹识别技术对所述指定音频进行声纹识别，并将声纹识别结果与预先存储的声纹特征进行匹配，若匹配通过则判定所述用户具有查看权限，若匹配不通过则判定所述用户不具有查看权限。

在本实施例中，通过对所述指定音频进行声纹识别，并将声纹识别结果与预先存储的声纹特征进行匹配，从而根据匹配结果获取用户的查看权限。所述声纹识别技术是生物识别技术的一种，也称为说话人识别，是一种通过声音判别说话人身份的技术。

S105、若所述用户具有查看权限，则将所述专用字推送至大屏展示模块进行展示，若所述用户不具有查看权限，则停止访问。

在本步骤中，当用户具有查看权限时，则在大屏展示模块上，将所述专用字显示出来，若用户不具有查看权限，则停止访问。所述大屏展示模块主要任务就是将所述专用字在大屏上以特定形式展示，比如静态图，动态图或单纯指标数值。

请参阅图2，图2为本发明实施例提供的一种智能语音控制大屏显示系统的示意性框图，该智能语音控制大屏显示系统200包括：

音频获取单元201，用于采集用户输入的语音音频，并提取所述语音音频中的人声音频，将所述人声音频进行截取，获取指定音频以及需求音频，并将所述指定音频进行保存；

目标文字获取单元202，用于对所述需求音频进行训练和解码，获得目标文字；

目标文字拆分单元203，用于对所述目标文字进行拆分获取专用字，并判断所述专用字的有效性；

用户权限确认单元204，用于若所述专用字有效则判断所述专用字是否属于权限指标，若所述专用字为权限指标，则调取所述指定音频以判断所述用户是否具有查看权限；

大屏展示单元205，用于若所述用户具有查看权限，则将所述专用字推送至大屏展示模块进行展示，若所述用户不具有查看权限，则停止访问。

在一实施例中，所述音频获取单元201包括：

人声音频提取单元，用于基于高斯混合模型的语音活动检测对所述语音音频进行模型匹配，以区分所述语音音频中的人声音频和噪音音频，并提取所述人声音频。

在一实施例中，所述目标文字获取单元202包括：

预处理单元，用于对所述需求音频进行静音切除以及分帧预处理，并对预处理后的语音数据提取梅尔倒谱系数特征；

解码单元，用于将所述梅尔倒谱系数特征输入至预训练的声学模型和语言模型进行解码，得到目标文字。

在一实施例中，所述解码单元包括：

音素信息获取单元，用于将所述梅尔倒谱系数特征输入至预训练的声学模型中进行特征解码，得到音素信息；

字典查找单元，用于在预先创建的字典中查找与所述音素信息对应的字或词；

目标文字判断单元，用于通过预训练的语言模型判断所述音素信息属于对应的所述字或词的概率，并通过所述概率选择并输出目标文字。

在一实施例中，所述目标文字拆分单元203包括：

专用字获取单元，用于获取所述目标文字中的所有专用字，并判断所述专用字中是否存在原子指标；

专用字有效判定单元，用于若所述专用字中存在原子指标，则判定所述专用字有效；

专用字无效判定单元，用于若所述专用字中不存在原子指标，则判定所述专用字无效。

在一实施例中，所述用户权限确认单元204包括：

权限指标判断单元，用于判断所述专用字中的原子指标是否属于权限指标；

专用字推送单元，用于若所述原子指标不属于权限指标，则直接将所述专用字推送至所述大屏展示模块；

身份比对单元，用于若所述原子指标为权限指标，则调取所述指定音频并进行身份比对，以判断所述用户是否具有查看权限。

在一实施例中，所述身份比对单元包括：

声纹识别单元，用于通过声纹识别技术对所述指定音频进行声纹识别，并将声纹识别结果与预先存储的声纹特征进行匹配，若匹配通过则判定所述用户具有查看权限，若匹配不通过则判定所述用户不具有查看权限。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的智能语音控制大屏显示方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的智能语音控制大屏显示方法。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

11页详细技术资料下载

一种智能语音控制大屏显示方法、系统及其相关组件

相关技术

网友询问留言