分布式物联网设备的全屋智能语音交互方法及其系统

文档序号：1650331 发布日期：2019-12-24 浏览：31次 >En<

阅读说明：本技术 分布式物联网设备的全屋智能语音交互方法及其系统 (Full-house intelligent voice interaction method and system of distributed Internet of things equipment ) 是由郑敏郑炜乔于 2019-10-12 设计创作，主要内容包括：本发明公开了分布式物联网设备的全屋智能语音交互方法及其系统,由分布式物联网设备通过其麦克风阵列实时采集语音信号,将语音增强信号、唤醒信息和麦克风阵列采集信号在频域上的变换和相关函数计算的结果发给语音交互控制中心,由语音交互控制中心仲裁和确定出需要进行唤醒响应用户的设备,同时清除其他分布式子设备的唤醒信息,并将该唤醒响应设备的用户语音命令通过通信连接发送到语音云端服务器进行识别、语义理解,根据语音处理结果下达相对应的控制命令和语音回复内容给到响应用户唤醒的物联网设备。本发明提高了分布式物联网设备唤醒的响应准确率,同时也提高了全屋智能语音交互的用户体验。(The invention discloses a full-house intelligent voice interaction method and a system thereof of distributed Internet of things equipment, the distributed Internet of things equipment acquires voice signals in real time through a microphone array of the distributed Internet of things equipment, the voice enhancement signals, awakening information and the conversion of the signals acquired by the microphone array on a frequency domain and the result of related function calculation are sent to a voice interaction control center, the voice interaction control center arbitrates and determines equipment needing to awaken a response user, meanwhile, awakening information of other distributed sub-equipment is eliminated, a user voice command of the awakening response equipment is sent to a voice cloud server through a communication connection for identification and semantic understanding, and a corresponding control command and voice reply content are issued to the Internet of things equipment responding to the awakening of the user according to a voice processing result. The invention improves the response accuracy of the distributed Internet of things equipment awakening and simultaneously improves the user experience of the whole-house intelligent voice interaction.)

技术领域

本发明涉及人工智能语音技术领域，特别是分布式物联网设备的全屋智能语音交互方法及其系统。

背景技术

人工智能领域技术的不断发展，让语音识别的准确率不断得到提升，使得带语音交互的智能设备走进我们的日常生活。通过在智能设备中内置麦克风或麦克风阵列，可以实现让用户与智能设备进行近距离或具有一定距离的远场交互，但超过该距离范围，语音交互准确率会下降或甚至无法实现。现在很多带语音交互的智能设备分布在家庭环境中，如智能语音音箱放在客厅、智能台灯放在卧室等，设备间呈分布式放置，随着物联网的快速发展，将多种语音智能设备实现多设备互联是一个必然的技术趋势和智慧家庭的生活需求，在该场景下需要一种分布式物联网设备的全屋智能语音交互方法。现有技术中，分布式的物联网设备使用同一个唤醒词，当用户语音唤醒后，所有设备都响应了，无法判断应该由哪个设备响应用户的请求，严重影响了用户的使用体验。

发明内容

本发明为了解决上述问题，通过在本地局域网内对各个分布式物联网设备的唤醒信息进行仲裁决策，并快速决定与通知需进行唤醒响应的设备，降低网络延迟，提高了响应速度，同时也降低了分布式物联网设备的资源占用，节省了成本，有效解决家庭场景中多个语音输入设备互联、协同工作的问题，提高了分布式物联网设备唤醒的响应准确率，同时也提高了全屋智能语音交互的用户体验。

为此，根据本发明的一个方面，提供了分布式物联网设备的全屋智能语音交互方法，包括如下步骤：

S100:分布式物联网设备的每个子设备本地实时获取用户的语音，做语音唤醒判断；S200:每个语音唤醒命中的子设备计算麦克风阵列接收信号对应的频域变换和协方差矩阵；S300:在每个子设备上采用基于主成分特征向量的可控响应功率方式对协方差矩阵进行加权计算，得到可控响应功率函数；S400:在每个子设备上计算可控响应功率函数的平均值，该平均值用于表征对应的子设备接收用户语音信号的方位信息的强度；S500:语音交互控制中心将最大平均值对应子设备确定为响应用户唤醒的子设备,通知该子设备继续拾取用户语音命令,同时清除其他分布式子设备的唤醒信息,并向云端发起语音请求；S600:语音云端服务器实时执行语音识别、语义理解、对话管理和语音合成等操作处理用户语音命令,并将响应结果返回。本方法有效解决家庭场景中多个语音输入设备互联、协同工作的问题，实现了分布式物联网设备唤醒的响应准确率，同时也提高了全屋智能语音交互的用户体验。

在一些实施方式中，包括如下步骤：

S110:分布式物联网设备的每个子设备本地实时获取用户的语音，做语音唤醒判断；S120:每个语音唤醒命中的子设备计算麦克风阵列接收信号对应的频域变换和协方差矩阵；S130:在每个子设备上采用基于主成分特征向量的可控响应功率方式对协方差矩阵进行加权计算，得到第一可控响应功率函数；S140:在每个子设备上计算第一可控响应功率函数的平均值，该平均值用于表征对应的子设备接收用户语音信号的方位信息的强度；S150:语音交互控制中心将最大平均值对应子设备确定为响应用户唤醒的子设备,通知该子设备继续拾取用户语音命令,同时清除其他分布式子设备的唤醒信息,并向云端发起语音请求；S160:语音云端服务器实时执行语音识别、语义理解、对话管理和语音合成等操作处理用户语音命令,并将响应结果返回。在每个子设备上可以采用基于主成分特征向量的可控响应功率方式对协方差矩阵进行加权，得到加权后的第一可控响应功率函数，并计算各个第一可控响应功率函数的平均值，该平均值用于表征接收用户语音信号的方位信息的强度，再将最大平均值所对应的子设备确定为响应用户唤醒的子设备，这样可以提高了分布式物联网设备唤醒的响应准确率和可靠性。

在一些实施方式中，还包括如下步骤：

S310:分布式物联网设备的每个子设备本地实时获取用户的语音，做语音唤醒判断；S320:每个语音唤醒命中的子设备计算麦克风阵列接收信号对应的频域变换和协方差矩阵；S330:在每个子设备上采用基于改进的主成分特征向量的可控响应功率方式对协方差矩阵进行加权计算，得到第二可控响应功率函数；S340:在每个子设备上计算第二可控响应功率函数的平均值，该平均值用于表征对应的子设备接收用户语音信号的方位信息的强度；S350:语音交互控制中心将最大平均值对应子设备确定为响应用户唤醒的子设备,通知该子设备继续拾取用户语音命令,同时清除其他分布式子设备的唤醒信息,并向云端发起语音请求；S360:语音云端服务器实时执行语音识别、语义理解、对话管理和语音合成等操作处理用户语音命令,并将响应结果返回。该方法具有很强的抗干扰、抗噪声和抗混响的性能，同时借助带有方位信息的SRP算法使得唤醒决策结果总能让距离用户最近的物联网子设备进行准确响应，进一步提高了分布式物联网设备唤醒的响应准确率和鲁棒性。

在一些实施方式中，所述全屋智能语音交互方法将语音信号的采集、预处理、语音增强和唤醒放在分布式物联网设备处理，由语音交互控制中心进行决策和语音处理的请求与转发。

在一些实施方式中，所述分布式物联网设备包括多个物联网终端设备。

在一些实施方式中，每个所述物联网终端设备均配备各自的麦克风阵列；

所述麦克风阵列包括但不限于线性2麦、线性4麦、线性6麦、环形4麦或其他非规则麦克风阵列。

根据本发明的另一个方面，提供了分布式物联网设备的全屋智能语音交互系统，包括分布式物联网设备、语音交互控制中心和语音云端服务器，其中：

所述分布式物联网设备实时采集语音信号并做信号处理运算、信号增强、语音唤醒和播放语音回复内容，通过通信连接与语音交互仲裁中心进行数据传输；

所述语音交互控制中心根据每个所述分布式物联网设备上传的内容进行融合语音定位与语音唤醒的仲裁，确定出所述分布式物联网设备中需要进行唤醒响应的设备，同时清除其他分布式子设备的唤醒信息，并将该唤醒响应设备的用户语音命令通过通信连接发送到语音云端服务器，根据云端语音识别、语义理解结果下达相对应的控制命令和语音回复内容给到该唤醒响应的设备；

所述语音云端服务器执行语音识别、语义理解、对话管理和语音合成等处理操作，并将响应结果返回给语音交互控制中心。

在一些实施方式中，所述分布式物联网设备包括：

用于实时采集语音信号的麦克风阵列音频采集模块；

用于消除语音信号中回声的回声消除模块；

用于降低语音信号中噪音的降噪模块；

用于语音唤醒的语音唤醒检测模块；

用于对唤醒的语音做信号处理运算的唤醒后处理模块；

用于处理运算后的语音信号进行通信传递、实现数据传输的网络通信模块；

用于对唤醒的语音信号进行响应的语音唤醒响应模块；

用于执行接收的语音命令的语音命令执行模块；

用于播放语音回复内容的语音回复与播报模块。

在一些实施方式中，所述语音交互控制中心包括：

用于对分布式物联网设备上传的语音信号进行融合语音定位的语音代理服务模块；

用于对分布式物联网设备上传的语音信号进行语音唤醒的仲裁的语音唤醒仲裁模块；

用于分析出分布式物联网设备中需要进行唤醒响应的设备，清除其他分布式子设备的唤醒信息的信号分析与处理模块；

用于与分布式物联网设备和语音云端服务器进行通信连接的网络通信模块A。

在一些实施方式中，所述语音云端服务器包括：

用于对语音交互控制中心上传的语音信号进行识别的语音识别模块；

用于对语音信号进行理解的语义理解模块；

用于对语音信号进行对话处理的对话管理模块；

用于对对话技能进行调度处理的技能调度模块；

用于对对话技能与内容进行管理的技能与内容模块；

用于对对话内容产生响应的对话响应模块；

用于对语音交互控制中心上传的语音信号进行语音合成的合成模块；

用于与分布式物联网设备和语音交互控制中心进行通信连接的网络通信模块B。

与现有技术相比，本发明的有益效果如下：

本发明公开的语音交互中心通过在本地局域网内对各个分布式物联网设备的唤醒信息进行仲裁决策，并快速决定与通知需进行唤醒响应的设备，降低网络延迟，提高了响应速度，同时也降低了分布式物联网设备的资源占用，节省了成本。另外，本发明有效解决家庭场景中多个语音输入设备互联、协同工作的问题，提高了分布式物联网设备唤醒的响应准确率，同时也提高了全屋智能语音交互的用户体验。

附图说明

图1为本发明本发明的分布式物联网设备的全屋智能语音交互方法的流程图；

图2为本发明一实施例的分布式物联网设备的全屋智能语音交互方法的流程图；

图3为本发明又一实施例的分布式物联网设备的全屋智能语音交互方法的流程图；

图4为本发明一实施例的全屋智能的分布式物联网设备及其麦克风阵列的分布说明图；

图5为本发明的分布式物联网设备的全屋智能语音交互系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示意性地显示了根据本发明的分布式物联网设备的全屋智能语音交互方法的流程图，如图1所示，分布式物联网设备的全屋智能语音交互方法，包括如下步骤：

S100:分布式物联网设备的每个子设备本地实时获取用户的语音，做语音唤醒判断；

S200:每个语音唤醒命中的子设备计算麦克风阵列接收信号对应的频域变换和协方差矩阵；

S300:在每个子设备上采用基于主成分特征向量的可控响应功率方式对协方差矩阵进行加权计算，得到可控响应功率函数；

S400:在每个子设备上计算可控响应功率函数的平均值，该平均值用于表征对应的子设备接收用户语音信号的方位信息的强度；

S500:语音交互控制中心将最大平均值对应子设备确定为响应用户唤醒的子设备,通知该子设备继续拾取用户语音命令,同时清除其他分布式子设备的唤醒信息,并向云端发起语音请求；

S600:语音云端服务器实时执行语音识别、语义理解、对话管理和语音合成等操作处理用户语音命令,并将响应结果返回。

图2示意性地显示了根据本发明一实施例的分布式物联网设备的全屋智能语音交互方法的流程图，如图2所示，本实施例包括如下步骤：

S110:分布式物联网设备的每个子设备本地实时获取用户的语音，做语音唤醒判断。

本公开实施例中，分布式物联网设备表征多个智能终端，每个智能终端都有其麦克风阵列，包括但不限于线性2麦、线性4麦、线性6麦、环形4麦或其他非规则麦克风阵列。当用户发出唤醒语音信号后，此时全屋的分布式物联网设备都可能接收到该唤醒语音信号，当子设备执行语音唤醒命令后，这时如果多个子设备同时响应用户，会极大影响用户体验和语音交互质量，此时需要对用户声音的方位信号和唤醒强度进行决策出即将对用户的唤醒语音信号进行响应的物联网子设备或智能终端，即最适合与用户交互的唤醒设备。

S120:每个语音唤醒命中的子设备计算麦克风阵列接收信号对应的频域变换和协方差矩阵。

比如：x_m(t)和x_n(t)是子阵列中第m个麦克风和第n个麦克风接收的唤醒语音信号，把信号分成每帧长10毫秒的信号帧，和表示第l帧信号。

本公开实施例中，子设备对语音信号变换到频域上处理，即在频域上计算语音唤醒子设备的语音信号的协方差矩阵。通过离散傅立叶变换，接收信号的连续频谱可以这样近似描述，信号x_n[k]的第m帧的离散傅里叶变换的第l个频率分量表示如下：

L表示为离散傅里叶变换的点数，在频域上，协方差矩阵可以进行递归估计，表示为：

R_xx(l，m)＝αR_xx(l，m-1)+(1-α)X(l，m)X^H(l，m)

其中，R_xx(l，m)是在频域上第m帧数据更新的协方差矩阵估计结果，α是平滑因子，递归估计的初始化值为R_xx(l，1)＝X(l，1)X^H(l，1)。

S130：在每个子设备上采用基于主成分特征向量的可控响应功率(steered-response power based on principal eigenvector，SRP-PE)方式对协方差矩阵进行加权计算，得到第一可控响应功率函数。

在本公开实施例中，协方差矩阵估计的特征向量分解表达为

其中λ_i(l，m)是特征值，q_i(l，m)是特征值按大到小排序λ₁(l，m)≥λ₂(l，m)≥…λ_N(l，m)对应的特征向量。基于主成分特征向量的可控响应功率(steered-response power based on principal eigenvector，SRP-PE)，即第一可控响应功率函数可以通过以下公式计算：

上述可控响应功率的计算考虑了所有频率的信息，能准确地计算语音声源的方位信息。

S140：在每个子设备上计算第一可控响应功率函数的平均值，该平均值用于表征对应的子设备接收用户语音信号的方位信息的强度。

S150：语音交互控制中心根据接收到的各个子设备的第一可控响应功率函数的平均值，将最大平均值对应的子设备确定为响应用户唤醒的子设备，并通知该子设备进行响应提示，继续拾取用户语音命令，同时清除其他分布式子设备的唤醒信息，并持续将该子设备的用户语音命令向语音云端服务器发起语音处理请求。

S160:语音云端服务器实时执行语音识别、语义理解、对话管理和语音合成等操作处理用户语音命令,并将响应结果返回。

由上述实施例可见，在确定响应用户唤醒的子设备的过程中，在每个子设备上可以采用基于主成分特征向量的可控响应功率方式对协方差矩阵进行加权，得到加权后的第一可控响应功率函数，并计算各个第一可控响应功率函数的平均值，该平均值用于表征接收用户语音信号的方位信息的强度，再将最大平均值所对应的子设备确定为响应用户唤醒的子设备，这样可以提高了分布式物联网设备唤醒的响应准确率和可靠性。

图3示意性地显示了根据本发明又一实施例的分布式物联网设备的全屋智能语音交互方法的流程图，该全屋智能语音交互方法将语音信号的采集、预处理、语音增强和唤醒放在分布式物联网设备处理，由语音交互控制中心进行决策和语音处理的请求与转发，所述分布式物联网设备包括多个子设备，每个子设备上都有各自的麦克风阵列；所述方法也可以用于基于分布式麦克风阵列的决策设备上，所述分布式麦克风阵列包括多个子麦克风阵列。该方法建立图2所示方法的基础上，本实施例包括如下步骤：

S310:分布式物联网设备的每个子设备本地实时获取用户的语音，做语音唤醒判断；该步骤与S110相同，在这里不再详述。

S320:每个语音唤醒命中的子设备计算麦克风阵列接收信号对应的频域变换和协方差矩阵；该步骤与S120相同，在这里不再详述。

S330:在每个子设备上采用基于改进的主成分特征向量的可控响应功率方式对协方差矩阵进行加权计算，得到第二可控响应功率函数；协方差矩阵估计的特征向量分解跟步骤S130中的特征分解步骤相同，在这里不再详述。

在准备计算语音声源的方位信息的基础上，进一步降低计算的复杂度和提高抗噪性能，改进的基于主成分特征向量的可控响应功率(记为SRP-PE-M)，即第二可控响应功率函数仅考虑了低噪声的频率的信息来计算，表达如下：

其中，协方差矩阵估计R_xx(l,m)的第二大特征值与第一大特征值的比值表示为：

λ₂(l,m)/λ₁(l,m)，采用λ₂(l,m)/λ₁(l,m)的比值较小的频率信息进行计算SRP。上式中Δ(l.m)的值表示为：

其中δ是阈值，取值范围为大于0、且小于1，可以根据实际应用场景进行微调，作为建议，δ的值可以取0.3。

S340:在每个子设备上计算第二可控响应功率函数的平均值，该平均值用于表征对应的子设备接收用户语音信号的方位信息的强度。

S350:语音交互控制中心根据接收到的各个子设备的第二可控响应功率函数的平均值，将最大平均值对应的子设备确定为响应用户唤醒的子设备，并通知该子设备进行响应提示，继续拾取用户语音命令，同时清除其他分布式子设备的唤醒信息，并持续将该子设备的用户语音命令向语音云端服务器发起语音处理请求。该步骤与S150相同，在这里不再详述。

S360:语音云端服务器实时执行语音识别、语义理解、对话管理和语音合成等操作处理用户语音命令，并将响应结果返回。该步骤与S160相同，在这里不再详述。

由上述实施例可见，在确定响应用户唤醒的子设备的过程中，在每个子设备上可以采用基于改进的主成分特征向量的可控响应功率方式对协方差矩阵进行加权，得到加权后的第一可控响应功率函数，并计算各个第一可控响应功率函数的平均值，该平均值用于表征接收用户语音信号的方位信息的强度，再将最大平均值所对应的子设备确定为响应用户唤醒的子设备，该方法具有很强的抗干扰、抗噪声和抗混响的性能，同时借助带有方位信息的SRP算法使得唤醒决策结果总能让距离用户最近的物联网子设备进行准确响应，进一步提高了分布式物联网设备唤醒的响应准确率和鲁棒性。

图4示意性地显示了根据本发明一实施例的全屋智能的分布式物联网设备及其麦克风阵列的分布说明图，全屋智能语音交互方法将语音信号的采集、预处理、语音增强和唤醒放在分布式物联网设备处理，由语音交互控制中心进行决策和语音处理的请求与转发。

分布式物联网设备包括多个物联网终端设备。每个物联网终端设备均配备各自的麦克风阵列；麦克风阵列包括但不限于线性2麦、线性4麦、线性6麦、环形4麦或其他非规则麦克风阵列。该方法可以用于基于分布式麦克风阵列的决策设备上，分布式麦克风阵列包括多个子麦克风阵列。其中，客厅、厨房、卧室以及浴室均布置物联网终端设备，由于每个物联网终端设备均配备各自的麦克风阵列，因此，客厅中布置的物联网终端设备配备环形麦克风阵列，厨房的物联网终端设备配备线性麦克风阵列，一个卧室的物联网终端设备配备环形麦克风阵列，另一个卧室的物联网终端设备配备线性麦克风阵列，浴室的物联网终端设备配备线性麦克风阵列。

图5示意性地显示了根据本发明的分布式物联网设备的全屋智能语音交互系统框图，包括分布式物联网设备、语音交互控制中心和语音云端服务器，其中：

分布式物联网设备实时采集语音信号并做信号处理运算、信号增强、语音唤醒和播放语音回复内容，通过通信连接与语音交互仲裁中心进行数据传输；

语音交互控制中心根据每个所述分布式物联网设备上传的内容进行融合语音定位与语音唤醒的仲裁，确定出所述分布式物联网设备中需要进行唤醒响应的设备，同时清除其他分布式子设备的唤醒信息，并将该唤醒响应设备的用户语音命令通过通信连接发送到语音云端服务器，根据云端语音识别、语义理解结果下达相对应的控制命令和语音回复内容给到该唤醒响应的设备；

所述语音云端服务器执行语音识别、语义理解、对话管理和语音合成等处理操作，并将响应结果返回给语音交互控制中心。

分布式物联网设备包括：

用于实时采集语音信号的麦克风阵列音频采集模块1；用于消除语音信号中回声的回声消除模块2；用于降低语音信号中噪音的降噪模块3；用于语音唤醒的语音唤醒检测模块4；用于对唤醒的语音做信号处理运算的唤醒后处理模块5；用于处理运算后的语音信号进行通信传递、实现数据传输的网络通信模块6；用于对唤醒的语音信号进行响应的语音唤醒响应模块7；用于执行接收的语音命令的语音命令执行模块8；用于播放语音回复内容的语音回复与播报模块9。

语音交互控制中心包括：

用于对分布式物联网设备上传的语音信号进行融合语音定位的语音代理服务模块10。用于对分布式物联网设备上传的语音信号进行语音唤醒的仲裁的语音唤醒仲裁模块11。用于分析出分布式物联网设备中需要进行唤醒响应的设备，清除其他分布式子设备的唤醒信息的信号分析与处理模块12。用于与分布式物联网设备和语音云端服务器进行通信连接的网络通信模块A13。

语音云端服务器包括：

用于对语音交互控制中心上传的语音信号进行识别的语音识别模块14；用于对语音信号进行理解的语义理解模块15；用于对语音信号进行对话处理的对话管理模块16；用于对对话技能进行调度处理的技能调度模块17；用于对对话技能与内容进行管理的技能与内容模块18；用于对对话内容产生响应的对话响应模块19；用于对语音交互控制中心上传的语音信号进行语音合成的合成模块20；用于与分布式物联网设备和语音交互控制中心进行通信连接的网络通信模块B21。

本发明由分布式物联网设备通过其麦克风阵列实时采集语音信号，在本地端做语音定位、增强和唤醒处理，通过通信连接并将语音增强信号、唤醒信息和麦克风阵列采集信号在频域上的变换和相关函数计算的结果发给语音交互控制中心，由语音交互控制中心仲裁和确定出需要进行唤醒响应用户的设备，同时清除其他分布式子设备的唤醒信息，并将该唤醒响应设备的用户语音命令通过通信连接发送到语音云端服务器进行识别、语义理解，根据语音处理结果下达相对应的控制命令和语音回复内容给到响应用户唤醒的物联网设备，实现分布式物联网设备的全屋智能语音交互过程。本发明通过语音交互控制中心实现对分布式物联网设备的语音唤醒结果进行仲裁，并根据用户命令进行响应控制，提高分布式物联网设备唤醒的响应准确率。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

17页详细技术资料下载

分布式物联网设备的全屋智能语音交互方法及其系统

相关技术

网友询问留言