一种声音获取方法、装置、设备及系统

文档序号:1506848 发布日期:2020-02-07 浏览:23次 >En<

阅读说明:本技术 一种声音获取方法、装置、设备及系统 (Sound acquisition method, device, equipment and system ) 是由 齐昕 于 2018-07-25 设计创作,主要内容包括:本发明实施例提供了一种声音获取方法、装置、设备及系统,方法包括:先对人员的唇部图像进行分析,在判断人员存在唇部动作的情况下,再获取声音采集设备采集的声音;可以理解,如果人员存在唇部动作,则人员大概率是在开口说话,这种情况下,再获取声音采集设备采集的声音,减少了仅获取到噪声的概率。(The embodiment of the invention provides a sound acquisition method, a device, equipment and a system, wherein the method comprises the following steps: firstly, analyzing lip images of personnel, and acquiring sound collected by sound collection equipment under the condition that lip movement of the personnel is judged; it can be understood that if there is lip movement of a person, the person has a high probability of speaking at the opening, and in this case, the sound collected by the sound collection device is acquired again, which reduces the probability of acquiring only the noise.)

一种声音获取方法、装置、设备及系统

技术领域

本发明涉及数据处理技术领域,特别是涉及一种声音获取方法、装置、设备及系统。

背景技术

在智能家居领域、车载设备领域等多种领域中,通常需要进行语音识别,以方便对用户对家居设备、车载设备等进行控制。现有的识别方案一般包括:语音识别设备采集环境中的声音,对采集到的声音进行分析,得到用户发出的控制指令或其他交互信息。

但是上述方案中,语音识别设备并不能区分噪声和用户的语音,如果采集到的声音中仅包括环境中的噪声,语音识别设备也会对噪声进行分析,这样浪费了设备资源。

发明内容

本发明实施例的目的在于提供一种声音获取方法、装置、设备及系统,以减少仅获取到噪声的概率。

为达到上述目的,本发明实施例提供了一种声音获取方法,包括:

获取图像采集设备采集的人员唇部图像;

通过对所述唇部图像进行分析,判断所述人员是否存在唇部动作;

如果存在,则获取声音采集设备在所述人员存在唇部动作后采集的声音。

可选的,所述获取声音采集设备在所述人员存在唇部动作后采集的声音,包括:

确定所述人员相对于声音采集设备的方向;

根据所确定的方向,生成声音采集设备的采集参数;

向所述声音采集设备发送包含所述采集参数的获取指令;

接收所述声音采集设备根据所述获取指令采集的声音。

可选的,在所述获取声音采集设备在所述人员存在唇部动作后采集的声音之后,还包括:

基于所获取的声音及所述唇部图像,执行第一类交互任务。

可选的,在判定所述人员存在唇部动作的情况下,还包括:

对所述唇部图像进行特征提取,得到所述人员的唇语特征;

在所述获取声音采集设备在所述人员存在唇部动作后采集的声音之后,还包括:

对所获取的声音进行特征提取,得到所述人员的声音特征;

所述基于所获取的声音及所述唇部图像,执行第一类交互任务,包括:

将所述唇语特征和所述声音特征输入至预先训练得到的识别网络,基于输出结果执行第一类交互任务。

可选的,所述将所述唇语特征和所述声音特征输入至预先训练得到的识别网络,基于输出结果执行第一类交互任务,包括:

将所述唇语特征和所述声音特征发送至云端服务器,以使所述云端服务器将所述唇语特征和所述声音特征输入至预先训练得到的识别网络,得到输出结果,并获取所述输出结果对应的交互资源;

接收所述云端服务器发送的交互资源;基于所述交互资源执行第一类交互任务。

可选的,在所述获取声音采集设备在所述人员存在唇部动作后采集的声音之后,还包括:

将所获取的声音与预先存储的多个声音模型进行匹配;

执行匹配成功的声音模型对应的第二类交互任务。

为达到上述目的,本发明实施例还提供了一种声音获取装置,包括:

第一获取模块,用于获取图像采集设备采集的人员唇部图像;

判断模块,用于通过对所述唇部图像进行分析,判断所述人员是否存在唇部动作;如果存在,则触发第二获取模块;

第二获取模块,用于获取声音采集设备在所述人员存在唇部动作后采集的声音。

可选的,所述第二获取模块,具体用于:

确定所述人员相对于声音采集设备的方向;

根据所确定的方向,生成声音采集设备的采集参数;

向所述声音采集设备发送包含所述采集参数的获取指令;

接收所述声音采集设备根据所述获取指令采集的声音。

可选的,所述装置还包括:

第一交互模块,用于基于所获取的声音及所述唇部图像,执行第一类交互任务。

可选的,所述装置还包括:

第一提取模块,用于在判定所述人员存在唇部动作的情况下,对所述唇部图像进行特征提取,得到所述人员的唇语特征;

第二提取模块,用于对所获取的声音进行特征提取,得到所述人员的声音特征;

所述第一交互模块,具体用于:将所述唇语特征和所述声音特征输入至预先训练得到的识别网络,基于输出结果执行第一类交互任务。

可选的,所述第一交互模块,具体用于:

将所述唇语特征和所述声音特征发送至云端服务器,以使所述云端服务器将所述唇语特征和所述声音特征输入至预先训练得到的识别网络,得到输出结果,并获取所述输出结果对应的交互资源;

接收所述云端服务器发送的交互资源;基于所述交互资源执行第一类交互任务。

可选的,所述装置还包括:

匹配模块,用于将所获取的声音与预先存储的多个声音模型进行匹配;

第二交互模块,用于执行匹配成功的声音模型对应的第二类交互任务。

为达到上述目的,本发明实施例还提供了一种电子设备,包括处理器和存储器;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现上述任一种声音获取方法。

为达到上述目的,本发明实施例还提供了一种声音获取系统,包括:图像采集设备、声音采集设备和处理设备,其中,

所述图像采集设备,用于采集人员唇部图像,将所述唇部图像发送至所述处理设备;

所述处理设备,用于通过对所述唇部图像进行分析,判断所述人员是否存在唇部动作;如果存在,则向所述声音采集设备发送获取指令;

所述声音采集设备,用于将接收到所述获取指令后采集的声音发送至所述处理设备。

可选的,所述系统还包括:云端服务器;

所述处理设备,还用于在判定所述人员存在唇部动作的情况下,对所述唇部图像进行特征提取,得到所述人员的唇语特征;并且对所获取的声音进行特征提取,得到所述人员的声音特征;将所述唇语特征和所述声音特征发送至所述云端服务器;

所述云端服务器,还用于将所述唇语特征和所述声音特征输入至预先训练得到的识别网络,得到输出结果,并获取所述输出结果对应的交互资源;将所述交互资源发送至所述处理设备;

所述处理设备,还用于基于所述交互资源执行第一类交互任务。

应用本发明实施例进行声音获取时,先对人员的唇部图像进行分析,在判断人员存在唇部动作的情况下,再获取声音采集设备采集的声音;可以理解,如果人员存在唇部动作,则人员大概率是在开口说话,这种情况下,再获取声音采集设备采集的声音,减少了仅获取到噪声的概率。

当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的声音获取方法的第一种流程示意图;

图2为本发明实施例提供的一种识别网络示意图;

图3为本发明实施例提供的声音获取方法的第二种流程示意图;

图4为本发明实施例提供的一种声音获取装置的结构示意图;

图5为本发明实施例提供的一种电子设备的结构示意图;

图6为本发明实施例提供的一种声音获取系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为了解决上述技术问题,本发明实施例提供了一种声音获取方法、装置、设备及系统,该方法及装置可以应用于语音识别设备,如车载语音识别设备、家居语音识别设备等;或者也可以应用于声音采集设备,如智能音箱等,或者,也可以应用于其他电子设备等,如机器人等,具体不做限定。

下面首先对本发明实施例提供的一种声音获取方法进行详细介绍。图1为本发明实施例提供的声音获取方法的第一种流程示意图,包括:

S101:获取图像采集设备采集的人员唇部图像。

执行本方案的电子设备(执行主体,以下简称电子设备)可以与图像采集设备相连接,或者,本电子设备可以内置图像采集设备,具体不做限定。图像采集设备采集人员唇部图像。

举例来说,假设本方案应用于车载领域,以小汽车为例,假设小汽车中存在四个座位,则可以在这四个座位附近分别设置图像采集设备,以针对座位上的人员进行图像采集。具体的,可以在座位前方、或者左右两端、或者侧前方等位置设置图像采集设备,具***置不做限定。

图像采集设备可以设置于对准人员嘴唇的位置,以获取到人员的唇部图像。或者,图像采集设备也可以采集人员的全身图像、半身图像、头部图像等,然后在采集的图像中分割得到人员的唇部图像。

或者,在另一些场景中,也可以仅获取驾驶员的唇部图像。比如,在公交车中,仅在驾驶员附近设置图像采集设备,采集驾驶员的头部图像,然后在该头部图像中分割得到驾驶员的唇部图像。

再举一例,假设本方案应用于智能家居领域,图像采集设备可以设置于指定位置,图像采集设备采集人员图像,并在该人员图像中分割得到唇部图像,或者,图像采集设备直接采集人员的唇部图像。

S102:通过对唇部图像进行分析,判断人员是否存在唇部动作。如果存在,则执行S103。

举例来说,本电子设备可以预先存储唇动模型,也就是存在唇部动作的模型,将唇部图像与唇动模型进行匹配,如果匹配成功,则表示人员存在唇部动作。或者,本电子设备也可以存储不存在唇部动作的模型,将唇部图像与不存在唇部动作的模型进行匹配,如果匹配成功,则表示人员不存在唇部动作。

或者,也可以分析唇部图像中的双唇之间的距离,如果距离小于预设阈值,则表示人员不存在唇部动作,如果距离不小于预设阈值,则表示人员存在唇部动作。

S103:获取声音采集设备在所述人员存在唇部动作后采集的声音。

一种实施方式中,电子设备在S102判断结果为是的情况下,向声音采集设备发送获取指令,声音采集设备将接收到获取指令后采集的声音发送至电子设备。

举例来说,一种情况下,获取指令可以为启动指令。也就是说,先不启动声音采集设备,在S102判断结果为是的情况下,电子设备向声音采集设备发送启动指令,声音采集设备在接收到启动指令后,再开始采集声音,并将采集的声音发送至电子设备。

以上述小汽车的场景为例来说,可以在每个座位附近分别设置声音采集设备,以针对每个座位上的人员进行声音采集:假设座位1附近设置声音采集设备1,座位2附近设置声音采集设备2,座位3附近设置声音采集设备3,座位4附近设置声音采集设备4;这4个声音采集设备先处于关闭状态,假设电子设备判断座位3上的人员存在唇部动作后,电子设备向声音采集设备3发送启动指令,以启动声音采集设备3进行声音采集。

本实施方式中,仅在人员存在唇部动作的情况下,启动声音采集设备进行声音采集,一方面,减少了仅获取到噪声的概率,另一方面,提高了声音采集设备的资源利用率。

再举一例,声音采集设备可以一直处于工作状态,声音采集设备仅在接收到电子设备发送的获取指令后,将采集的声音发送至电子设备。

仍以上述小汽车的场景为例来说,上述4个声音采集设备一直处于工作状态,假设电子设备判断座位3上的人员存在唇部动作后,电子设备向声音采集设备3发送获取指令,声音采集设备3将接收到获取指令后采集的声音发送至电子设备。

另一种实施方式中,声音采集设备一直处于工作状态,并且实时将采集的声音发送至电子设备;这种情况下,电子设备将在S102判断为是的情况下接收到的声音确定为有效声音,也就是将声音采集设备在人员存在唇部动作后采集的声音确定为有效声音,后续仅读取有效声音进行分析处理。

作为一种实施方式,S103可以包括:确定所述人员相对于声音采集设备的方向;根据所确定的方向,生成声音采集设备的采集参数;向所述声音采集设备发送包含所述采集参数的获取指令;接收所述声音采集设备根据所述获取指令采集的声音。

本实施方式中,声音采集设备可以针对不同方向进行声音采集。举例来说,可以基于唇部图像和/或声音采集设备采集的声音,确定人员相对于声音采集设备的方向,作为采集方向。

延续上述例子,假设小汽车中的每个座位附近都设置有图像采集设备,通过对每个图像采集设备采集的唇部图像进行分析,判断出座位3上的人员存在唇部动作,则将座位3相对于声音采集设备的方向确定为采集方向。或者,也可以在S102判断结果为是的情况下,根据声音采集设备采集的声音,定位人员相对于声音采集设备的方向。或者,也可以结合唇部图像的分析结果和采集的声音定位人员相对于声音采集设备的方向,这样定位更精确。

举例来说,声音采集设备是可转动的,这种情况下,生成的采集参数可以包括声音采集设备的转动参数,如转动方向、转动角度等。仍以上述小汽车的场景为例来说,可以在车内设置一处声音采集设备,通过转动该声音采集设备,可以针对每个座位上的人员进行声音采集。假设电子设备判断座位3上的人员存在唇部动作后,电子设备生成向座位3方向进行转动的转动参数,将包含该转动参数的获取指令发送至声音采集设备,使得该声音采集设备转动至座位3的方向进行声音采集。

再举一例,声音采集设备可以为麦克风阵列。仍以小汽车为例来说,声音采集设备可以为6麦均匀直线麦克风阵列,该阵列可以位于车前窗上方正中,该阵列可以一直处于启动状态,持续采集车内声音,还可以对一定时间长度内采集的声音进行缓存。

在确定出人员相对于声音采集设备的方向后,可以基于该方向,确定所述麦克风阵列中每个麦克风的采集参数;基于所确定的采集参数,控制所述麦克风阵列进行声音采集。

可以理解,麦克风阵列可以针对不同方向进行声音采集。具体而言,可以通过调整麦克风参数,使其采集一些方向的声音,并且抑制另一些方向的声音,也就是控制麦克风阵列进行定向的波束成形,这样便实现了仅针对采集方向进行声音采集。

本实施方式中,在人员存在唇部动作的情况下,控制声音采集设备采集人员相对于声音采集设备的方向的声音,一方面,减少了仅获取到噪声的概率,另一方面,针对人员相对于声音采集设备的方向进行声音采集,采集的声音中噪音较少。

电子设备可以对S103获取的声音进行分析处理,可以理解,S103获取的声音中包括用户发送的语音,这样减少了仅对噪声进行分析的概率,提高了声音分析效率。

作为一种实施方式,S103之后,还可以基于所获取的声音及所述唇部图像,执行第一类交互任务。

这里的“第一类交互任务”是指人员向电子设备下达的任务,为了与下面内容中的交互任务相区分,本实施方式中的交互任务称为第一类交互任务。该第一类交互任务可以为控制指令,比如,“播放某歌曲”、“播报天气”等,或者,也可以为人员与电子设备之间的对话,具体不做限定。

现有方案中,得到人员的声音后,通常要对声音进行分析,进而执行相应的交互任务;而本方案中,结合声音及唇部图像,分析结果更准确,执行第一类交互任务也更准确。可以理解,基于唇部图像可以分析得到人员的唇语,结合声音及唇语可以分析得到人员发出的真实声音。

一种情况下,还可以对S103获取的声音进行降噪处理,结合降噪后的声音及唇部图像,分析结果更准确,执行第一类交互任务也更准确。如果声音采集设备为麦克风阵列,在确定出人员相对于声音采集设备的方向后,可以将所确定的方向作为采集方向,对非采集方向的声音进行降噪处理。

举例来说,可以在S102判断结果为是的情况下,对唇部图像进行特征提取,得到人员的唇语特征;并且对S103获取的声音进行特征提取,得到该人员的声音特征;然后将所述唇语特征和所述声音特征输入至预先训练得到的识别网络,基于输出结果执行第一类交互任务。

该识别网络可以如图2所示,可以先将声音特征和唇语特征分别输入至各自对应的CNN(Convolutional Neural Network,卷积神经网络),这两个CNN与Bi-GRU(Bi:双向;GRU:Gated Recurrent Unit,门控循环单元)相连接,这两个CNN的输出结果输入至Bi-GRU中,Bi-GRU与FC(fully connected layers,全连接层)相连接,Bi-GRU的输出结果输入至FC,FC的输出结果即为识别网络的输出结果,具体可以为人员发出的交互信息。

具体来说,声音特征对应的CNN,也就是图2中左侧的CNN,可以为两层的1D-CNN网络(1D:一维),卷积核为5,这两层的stride(步长)分别为1,2。唇语特征对应的CNN,也就是图2中右侧的CNN,可以为两层的STCNN(Spatial Transformer Convolutional NeuralNetwork,空间变化卷积神经网络),并且在每一层后面都有一个spatial max-pooling(空间最大池化)层。Bi-GRU可以为五层,它的hidden size(隐层单元个数)可以为1024。

基于该交互信息执行第一类交互任务。比如,该交互信息可以为人员与电子设备的对话,假设人员发出的交互信息为“我今天有个面试”,则电子设备执行的交互任务可以为:回答“祝你好运”。可以预先在电子设备中存储一些固定的对话模板,这样,电子设备便可以根据该对话模板与人员进行对话。该电子设备可以为智能音箱,这种情况下,执行主体可以为智能音箱,也可以为与智能音箱相连接的语音识别设备。具体交互过程有多种情况,不再一一列举。

图2中的CNN、Bi-GRU、FC都为识别网络的一部分。举例来说,CNN可以包含2层,Bi-GRU可以包含5层,声音特征可以采用80维的Fbank。该识别网络可以采用端到端的训练,训练框架可以在图2的基础上,在FC之后再连接一个损失函数,如CTC-loss。通过迭代训练,使得损失函数的损失最小,然后迭代结束,得到训练完成的识别网络。或者,也可以设定损失阈值,当损失函数的损失小于损失阈值时迭代结束,得到训练完成的识别网络。或者,也可以设定迭代次数,达到迭代次数后迭代结束,得到训练完成的识别网络。具体的训练过程不做限定。

一种实施方式中,上述识别网络可以位于云端服务器中,或者位于与云端服务器相连接的其他设备中;这样,可以将得到的唇语特征和声音特征发送至云端服务器,以使所述云端服务器将所述唇语特征和所述声音特征输入至预先训练得到的识别网络,得到输出结果,并获取所述输出结果对应的交互资源;接收所述云端服务器发送的交互资源;基于所述交互资源执行第一类交互任务。

执行本方案的设备(本电子设备)可以通过3G、4G、WIFI等网络与云端服务器进行通信,具体通信方式不做限定。

本电子设备可以理解为本地设备,本地设备的存储空间有限,本实施方式中,由云端服务器识别唇语特征和声音特征,节省了本地设备的存储空间。另一方面,本电子设备并不传输声音及图像的原始数据,而是传输唇语特征和声音特征,唇语特征和声音特征的数据量小于原始数据的数据量,因此,本实施方式提高了传输效率,占用较少的传输资源。

如上所述,识别网络的输出结果可以为人员发出的交互信息。仍以小汽车为例来说,假设交互信息为“播放某歌曲”,则云端服务器可以查找相应的歌曲,将该歌曲作为交互资源发送至车内音箱,该音箱播放接收到的歌曲。

假设交互信息为“播报天气”,则云端服务器可以查找当前的天气信息,将该天气信息作为交互资源发送至车内音箱,该音箱播报接收到的天气信息。执行本方案的设备可以为音箱,也可以为与音箱相连接的语音识别设备。

或者,假设交互信息为“我今天有个面试”,则云端服务器可以从自身存储的对话模板中查找相应的回答内容,比如回答内容可以为“祝你好运”,将该回答内容作为交互资源发送至车内音箱;该音箱播放“祝你好运”。具体交互过程有多种情况,不再一一列举。

云端服务器可以识别较长的对话,通过云端服务器,本电子设备可以执行较复杂的交互任务。

作为一种实施方式,在S103之后,还可以将所获取的声音与预先存储的多个声音模型进行匹配;执行匹配成功的声音模型对应的第二类交互任务。

一种情况下,第二类交互任务相较于第一类交互任务可以较简单。比如,第二类交互任务可以为一些简单的控制指令,如启动空调、启动音箱等;或者,人员也可以发出一些设备的唤醒词,这样,交互任务即为唤醒相应的设备,等等,具体不做限定。

本电子设备中也可以预先存储一些声音模型,如一些关键字的声音模型,比如“打开空调”、“打开音箱”等声音模型、或者一些唤醒词的声音模型,等等,具体不做限定。这些声音模型较简单,占用的存储空间较小,而且本方案不需要与云端服务器交互,响应较快,用户体验较佳。

一种情况下,本电子设备可以对自身存储的声音模型进行更新。比如,云端服务器可以向本电子设备推送新的声音模型,或者,本电子设备也可以定期到云端服务器拉取新的声音模型。

本领域技术人员可以理解,在车载领域中,车辆行驶时外界噪声很大,封闭车厢内的回音也会影响语音识别;而利用本方案,一方面,在判断出人员存在唇部动作的情况下,再获取声音采集设备在所述人员存在唇部动作后采集的声音,减少了仅获取到噪声的概率,进而减少了设备资源的浪费,提高了设备资源利用率;另一方面,结合声音及唇部图像,执行交互任务,准确性较佳。

图3为本发明实施例提供的声音获取方法的第二种流程示意图,包括:

S301:获取图像采集设备采集的人员唇部图像。

举例来说,假设本方案应用于车载领域,以小汽车为例,假设小汽车中存在四个座位,则可以在这四个座位附近分别设置图像采集设备,以针对座位上的人员进行图像采集。具体的,可以在座位前方、或者左右两端、或者侧前方等位置设置图像采集设备,具***置不做限定。

图像采集设备可以设置于对准人员嘴唇的位置,以获取到人员的唇部图像。或者,图像采集设备也可以采集人员的全身图像、半身图像、头部图像等,然后在采集的图像中分割得到人员的唇部图像。

S302:通过对唇部图像进行分析,判断人员是否存在唇部动作,如果存在,执行S303-S308。

举例来说,本电子设备可以预先存储唇动模型,也就是存在唇部动作的模型,将唇部图像与唇动模型进行匹配,如果匹配成功,则表示人员存在唇部动作。或者,本电子设备也可以存储不存在唇部动作的模型,将唇部图像与不存在唇部动作的模型进行匹配,如果匹配成功,则表示人员不存在唇部动作。

或者,也可以分析唇部图像中的双唇之间的距离,如果距离小于预设阈值,则表示人员不存在唇部动作,如果距离不小于预设阈值,则表示人员存在唇部动作。

S303:对唇部图像进行特征提取,得到该人员的唇语特征。

S304:确定该人员相对于声音采集设备的方向,作为采集方向。

S303与S304-S306的执行顺序不做限定。

举例来说,可以基于唇部图像和/或声音采集设备采集的声音,确定人员相对于声音采集设备的方向,作为采集方向。

延续上述例子,假设小汽车中的每个座位附近都设置有图像采集设备,通过对每个图像采集设备采集的唇部图像进行分析,判断出座位3上的人员存在唇部动作,则将座位3相对于声音采集设备的方向确定为采集方向。一种情况下,声音采集设备可以一直处于启动状态,这样,可以在S302判断结果为是的情况下,根据声音采集设备采集的声音,定位人员相对于声音采集设备的方向。或者,也可以结合唇部图像的分析结果和采集的声音定位人员相对于声音采集设备的方向,这样定位更精确。

S305:根据所确定的采集方向,生成声音采集设备的采集参数;向声音采集设备发送包含采集参数的获取指令;接收声音采集设备根据获取指令采集的声音。

举例来说,声音采集设备可以为麦克风阵列。仍以小汽车为例来说,声音采集设备可以为6麦均匀直线麦克风阵列,该阵列可以位于车前窗上方正中,该阵列可以一直处于启动状态,持续采集车内声音,还可以对一定时间长度内采集的声音进行缓存。

在确定出人员相对于声音采集设备的方向后,可以基于该方向,确定所述麦克风阵列中每个麦克风的采集参数;基于所确定的采集参数,控制所述麦克风阵列进行声音采集。

可以理解,麦克风阵列可以针对不同方向进行声音采集。具体而言,可以通过调整麦克风参数,使其采集一些方向的声音,并且抑制另一些方向的声音,也就是控制麦克风阵列进行定向的波束成形,这样便实现了仅针对采集方向进行声音采集。

本实施例中,在人员存在唇部动作的情况下,控制声音采集设备采集人员相对于声音采集设备的方向的声音,一方面,减少了仅获取到噪声的概率,另一方面,针对人员所在方向进行声音采集,采集的声音中噪音较少。

S306:对接收到的声音进行特征提取,得到该人员的声音特征。

可以理解,S305中接收到的声音包括存在唇部动作的人员的声音,因此,对S305中接收到的声音进行特征提取,可以得到该人员的声音特征。

S307:将唇语特征和声音特征发送至云端服务器。

云端服务器将所述唇语特征和所述声音特征输入至预先训练得到的识别网络,得到输出结果,并获取所述输出结果对应的交互资源。

S308:接收云端服务器发送的交互资源;基于该交互资源执行第一类交互任务。

该识别网络可以如图2所示,可以先将声音特征和唇语特征分别输入至各自对应的CNN(Convolutional Neural Network,卷积神经网络),这两个CNN与Bi-GRU(Bi:双向;GRU:Gated Recurrent Unit,门控循环单元)相连接,这两个CNN的输出结果输入至Bi-GRU中,Bi-GRU与FC(fully connected layers,全连接层)相连接,Bi-GRU的输出结果输入至FC,FC的输出结果即为识别网络的输出结果,具体可以为人员发出的交互信息。

具体来说,声音特征对应的CNN,也就是图2中左侧的CNN,可以为两层的1D-CNN网络(1D:一维),卷积核为5,这两层的stride(步长)分别为1,2。唇语特征对应的CNN,也就是图2中右侧的CNN,可以为两层的STCNN(Spatial Transformer Convolutional NeuralNetwork,空间变化卷积神经网络),并且在每一层后面都有一个spatial max-pooling(空间最大池化)层。Bi-GRU可以为五层,它的hidden size(隐层单元个数)可以为1024。

仍以小汽车为例来说,假设交互信息为“播放某歌曲”,则云端服务器可以查找相应的歌曲,将该歌曲作为交互资源发送至车内音箱;该音箱播放接收到的歌曲,也就是执行交互任务。

假设交互信息为“播报天气”,则云端服务器可以查找当前的天气信息,将该天气信息作为交互资源发送至车内音箱;该音箱播报接收到的天气信息,也就是执行交互任务。等等,具体交互内容不做限定。执行本方案的设备可以为音箱,也可以为与音箱相连接的语音识别设备。

或者,假设交互信息为“我今天有个面试”,则云端服务器可以从自身存储的对话模板中查找相应的回答内容,比如回答内容可以为“祝你好运”,将该回答内容作为交互资源发送至车内音箱;该音箱播放“祝你好运”。具体交互过程有多种情况,不再一一列举。

云端服务器可以识别较长的对话,通过云端服务器,本电子设备可以执行较复杂的交互任务。

本电子设备可以通过3G、4G、WIFI等网络与云端服务器进行通信,具体通信方式不做限定。

本电子设备可以理解为本地设备,本地设备的存储空间有限,本实施方式中,由云端服务器识别唇语特征和声音特征,节省了本地设备的存储空间。另一方面,本电子设备并不传输声音及图像的原始数据,而是传输唇语特征和声音特征,唇语特征和声音特征的数据量小于原始数据的数据量,因此,本实施方式提高了传输效率,占用较少的传输资源。

应用本发明实施例,一方面,在判断出人员存在唇部动作的情况下,再获取声音采集设备在所述人员存在唇部动作后采集的声音,减少了仅获取到噪声的概率,进而减少了设备资源的浪费,提高了设备资源利用率,另一方面,结合声音及唇部图像,执行交互任务,准确性较佳。

与上述方法实施例相对应,本发明实施例还提供一种声音获取装置,如图4所示,包括:

第一获取模块401,用于获取图像采集设备采集的人员唇部图像;

判断模块402,用于通过对所述唇部图像进行分析,判断所述人员是否存在唇部动作;如果存在,则触发第二获取模块;

第二获取模块403,用于获取声音采集设备在所述人员存在唇部动作后采集的声音。

作为一种实施方式,第二获取模块403,具体用于:

确定所述人员相对于声音采集设备的方向;

根据所确定的方向,生成声音采集设备的采集参数;

向所述声音采集设备发送包含所述采集参数的获取指令;

接收所述声音采集设备根据所述获取指令采集的声音。

作为一种实施方式,所述装置还包括:

第一交互模块(图中未示出),用于基于所获取的声音及所述唇部图像,执行第一类交互任务。

作为一种实施方式,所述装置还包括:第一提取模块和第二提取模块(图中未示出),其中,

第一提取模块,用于在判定所述人员存在唇部动作的情况下,对所述唇部图像进行特征提取,得到所述人员的唇语特征;

第二提取模块,用于对所获取的声音进行特征提取,得到所述人员的声音特征;

所述第一交互模块,具体用于:将所述唇语特征和所述声音特征输入至预先训练得到的识别网络,基于输出结果执行第一类交互任务。

作为一种实施方式,所述第一交互模块,具体用于:

将所述唇语特征和所述声音特征发送至云端服务器,以使所述云端服务器将所述唇语特征和所述声音特征输入至预先训练得到的识别网络,得到输出结果,并获取所述输出结果对应的交互资源;

接收所述云端服务器发送的交互资源;基于所述交互资源执行第一类交互任务。

作为一种实施方式,所述装置还包括:匹配模块和第二交互模块(图中未示出),其中,

匹配模块,用于将所获取的声音与预先存储的多个声音模型进行匹配;

第二交互模块,用于执行匹配成功的声音模型对应的第二类交互任务。

应用本发明图4所示实施例进行声音获取时,先对人员的唇部图像进行分析,在判断人员存在唇部动作的情况下,再获取声音采集设备采集的声音;可以理解,如果人员存在唇部动作,则人员大概率是在开口说话,这种情况下,再获取声音采集设备采集的声音,减少了仅获取到噪声的概率。

本发明实施例还提供一种电子设备,如图5所示,包括处理器501和存储器502;

存储器502,用于存放计算机程序;

处理器501,用于执行存储器502上所存放的程序时,实现上述任一种声音获取方法。

该电子设备可以为语音识别设备,如车载语音识别设备、家居语音识别设备等;或者也可以为声音采集设备,如智能音箱等,或者,也可以为其他电子设备等,如机器人等,具体不做限定。

上述电子设备提到的存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还一种声音获取系统,如图6所示,包括:图像采集设备、声音采集设备和处理设备,其中,

所述图像采集设备,用于采集人员唇部图像,将所述唇部图像发送至所述处理设备;

所述处理设备,用于通过对所述唇部图像进行分析,判断所述人员是否存在唇部动作;如果存在,则向所述声音采集设备发送获取指令;

所述声音采集设备,用于将接收到所述获取指令后采集的声音发送至所述处理设备。

举例来说,该获取指令可以为启动指令,声音采集设备在接收到启动指令之前处于关闭状态,在接收到启动指令之后处于工作状态。

或者,声音采集设备可以一直处于工作状态,声音采集设备仅在接收到处理设备发送的获取指令后,将采集的声音发送至处理设备。

或者,声音采集设备一直处于工作状态,并且实时将采集的声音发送至处理设备;这种情况下,处理设备将判定人员存在唇部动作后接收到的声音确定为有效声音,后续仅读取有效声音进行分析处理。

或者,该获取指令可以包括声音采集设备的采集参数。处理设备确定该人员相对于声音采集设备的方向;根据所确定的方向,生成声音采集设备的采集参数;向声音采集设备发送包含所述采集参数的获取指令。声音采集设备根据该采集参数进行声音采集,并将采集的声音发送至处理设备。

或者,声音采集设备可以为麦克风阵列;处理设备确定人员相对于麦克风阵列的方向作为采集方向,基于采集方向,确定麦克风阵列中每个麦克风的采集参数,处理设备向麦克风阵列发送包含该采集参数的获取指令。麦克风阵列根据该采集参数进行声音采集。

作为一种实施方式,所述系统还可以包括:云端服务器;

所述处理设备,还用于在判定所述人员存在唇部动作的情况下,对所述唇部图像进行特征提取,得到所述人员的唇语特征;并且对所获取的声音进行特征提取,得到所述人员的声音特征;将所述唇语特征和所述声音特征发送至所述云端服务器;

所述云端服务器,还用于将所述唇语特征和所述声音特征输入至预先训练得到的识别网络,得到输出结果,并获取所述输出结果对应的交互资源;将所述交互资源发送至所述处理设备;

所述处理设备,还用于基于所述交互资源执行第一类交互任务。

该处理设备中可以存储一些声音模型;该处理设备还可以将人员的声音与预先存储的声音模型进行匹配;执行匹配成功的声音模型对应的第二类交互任务。云端服务器可以向处理设备推送新的声音模型,或者,处理设备也可以定期到云端服务器拉取新的声音模型。

该处理设备可以通过3G、4G、WIFI等网络与云端服务器进行通信,具体通信方式不做限定。该处理设备还可以应用上述任一种声音获取方法。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例、设备实施例、系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

18页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于声纹的音频输出方法、装置、设备及可读存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!