一种语音转发方法及服务器、智能语音设备

文档序号：88059 发布日期：2021-10-08 浏览：26次 >En<

阅读说明：本技术 一种语音转发方法及服务器、智能语音设备 (Voice forwarding method, server and intelligent voice equipment ) 是由陈维强王彦芳高雪松王月岭于 2020-04-28 设计创作，主要内容包括：本发明公开了一种语音转发方法及服务器、智能语音设备,所述方法包括接收第一智能语音设备采集的语音通知消息,确定第一智能语音设备的地址,根据语音通知消息确定出通知人的身份信息、第一通知信息和被通知人的身份信息,确定出第一转发内容,根据被通知人身份信息进行人员定位,定位到被通知人的位置后,确定出第二智能语音设备的地址,确定出第一语音消息,上传至消息总线进行第一语音消息转发。通过对被通知人进行人员定位,确定出被通知人的位置,依据被通知人的位置得到第二智能语音设备的地址,从而通过消息总线将语音消息进行转发,以使第二智能语音设备监听到语音消息后向被通知人播放,使得被通知人快速听取消息,提高消息转发效率。(The invention discloses a voice forwarding method, a server and intelligent voice equipment, wherein the method comprises the steps of receiving a voice notification message collected by first intelligent voice equipment, determining the address of the first intelligent voice equipment, determining identity information of a notifier, first notification information and identity information of a notified person according to the voice notification message, determining first forwarding content, carrying out personnel positioning according to the identity information of the notified person, determining the address of second intelligent voice equipment after positioning to the position of the notified person, determining the first voice message, and uploading to a message bus for forwarding the first voice message. Through carrying out personnel's location to the notified person, determine the position of notified person, obtain the address of second intelligence voice equipment according to the position of notified person to forward voice message through the message bus, so that second intelligence voice equipment monitors voice message back and broadcast to the notified person, make the notified person listen to the message fast, improve message forwarding efficiency.)

一种语音转发方法及服务器、智能语音设备

技术领域

本发明涉及智慧家居

技术领域

，尤其涉及一种语音转发方法及服务器、智能语音设备。

背景技术

智能音箱作为现代智能生活必不可少的家用小电器，为人民的生活带来了便利。但是，当前智能音箱应用大多集中在听歌、听新闻或智能家居控制等单体音箱可以完成的功能，或者智能音箱获取手机通讯录授权，实现手机与音箱之间通讯的功能，对于家庭内部音箱之间的协作交互研究较少。

发明内容

本发明实施例提供一种语音转发方法及服务器、智能语音设备，用于实现家庭成员之间消息的快速传达，提高消息转发效率。

第一方面，本发明实施例提供一种语音转发方法，包括：

接收第一智能语音设备采集的语音通知消息；所述第一智能语音设备为通知人唤醒的智能语音设备；

确定所述第一智能语音设备的地址，根据所述语音通知消息确定出通知人的身份信息、第一通知信息和被通知人的身份信息；

根据所述通知人的身份信息和所述第一通知信息，确定出第一转发内容；根据所述被通知人身份信息进行人员定位，定位到所述被通知人的位置，根据所述被通知人的位置，确定出第二智能语音设备的地址；

根据所述第一智能语音设备的地址、所述第一转发内容和所述第二智能语音设备的地址确定出第一语音消息，上传至消息总线进行第一语音消息转发。

上述技术方案中，通过对被通知人身份信息进行人员定位，快速的确定出被通知人的位置，然后依据被通知人的位置可以得到第二智能语音设备的地址，从而通过消息总线将第一语音消息进行转发，以使第二智能语音设备监听到该第一语音消息后向被通知人播放，使得被通知人可以快速听取消息，提高消息转发效率。

在某些实施例中，所述根据所述语音通知消息确定出通知人的身份信息、第一通知信息和被通知人的身份信息，包括：

对所述语音通知消息进行声纹识别，确定出所述通知人的身份信息；

对所述语音通知消息进行语义分析，提取出所述语音通知消息中的被通知人的身份信息和第一通知信息。

上述技术方案中，通过对语音通知消息进行识别，可以快速得到通知人的身份信息、通知信息和被通知人的身份信息，提高语音通知消息的处理效率。

在某些实施例中，所述根据所述被通知人的位置，确定出第二智能语音设备的地址，包括：

根据所述被通知人的位置确定出距离所述被通知人最近的智能语音设备的地址；

将所述距离所述被通知人最近的智能语音设备的地址确定为所述第二智能语音设备的地址。

上述技术方案中，依据被通知人的位置可以快速的将距离被通知人的位置最近的智能语音设备的地址确定为第二智能语音设备的地址，从而可以得到消息转发的目的地址。

在某些实施例中，在所述上传至消息总线进行第一语音消息转发之后，还包括：

获取所述第二智能语音设备在预设时间内发送的语音应答信息；

对所述语音应答信息进行识别，得到第二通知信息；

根据所述被通知人的身份信息和所述第二通知信息，确定第二转发内容；

根据所述第一智能语音设备的地址、所述第二转发内容和所述第二智能语音设备的地址确定出第二语音消息，上传至消息总线进行第二语音消息转发。

上述技术方案中，通过对第二智能语音设备在预设时间内发送的语音应答信息进行识别后生成第二语音消息，然后转发给通知人所在的第一智能语音设备，可以实现应答消息的快速回复，提高信息交互的效率。

在某些实施例中，所述方法还包括：

若无法定位到所述被通知人的位置；

则将所述第一转发内容确定为留言信息；并将所述通知人的身份信息、所述被通知人的身份信息、所述留言信息、当前时间和留言已读标志位存储在存储器的数据库中。

上述技术方案中，当无法定位被通知人的位置时，通过存储留言信息和留言智能语音设备的地址，可以实现点对点的留言，防止信息漏传。

在某些实施例中，所述方法还包括：

在确定所述被通知人的位置与所述留言智能语音设备的距离小于预设距离时，从所述存储器的数据库中确定出设定时间范围内所述被通知人的留言信息、所述通知人的身份信息；唤醒所述留言智能语音设备；

根据所述被通知人的留言信息、所述通知人的身份信息，进行语音合成，得到留言播放信息；

将所述留言播放信息发送给所述留言智能语音设备进行语音播放，并将所述留言已读标志位设置为已读。

上述技术方案中，通过在被通知人接近留言智能语音设备时，快速唤醒留言智能语音设备，并向被通知人播放留言语音，可以实现被通知人接近留言智能语音设备时自动播放留言。

在某些实施例中，所述方法还包括：

获取第三智能语音设备发送的用户的留言查询请求；

识别所述用户的身份信息；

根据所述用户的身份信息，从数据库中查询出所述用户的留言记录；

根据所述留言记录中通知人的身份信息和留言信息，进行语音合成，得到留言播放语音；

将所述留言播放语音发送给所述第三智能语音设备进行语音播放。

第二方面，本发明实施例提供一种服务器，所述服务器被配置成执行上述语音转发方法。

第三方面，本发明实施例提供一种智能语音设备，包括：

麦克风阵列，用于采集用户的语音信息；

扬声器，用于播放语音信息；

RFID(Radio Frequency Identification，射频识别)标签，用于确定所述智能语音设备的地址；

处理器，被配置为：

在确认服务器上传的第一语音消息中的目的地址为所述智能语音设备的地址时，获取所述第一语音消息中的第一转发内容；

对所述第一转发内容进行语音合成，得到第一转发语音播放信息，将所述第一转发语音播放信息通过所述扬声器进行播放。

在某些实施例中，所述处理器还被配置为：

采集预设时间内所述被通知人的语音应答信息；

将所述语音应答信息发送给服务器。

第四方面，本发明实施例提供一种智能语音设备，包括：

麦克风阵列，用于采集用户的语音信息；

扬声器，用于播放语音信息；

RFID标签，用于确定所述智能语音设备的地址；

处理器，被配置为：

在确认服务器上传的第二语音消息中的目的地址为所述智能语音设备的地址时，获取所述第二语音消息中的第二转发内容；

对所述第二转发内容进行语音合成，得到第二转发语音播放信息，将所述第二转发语音播放信息通过所述扬声器进行播放。

第五方面，本发明实施例提供一种智能语音设备，包括：

麦克风阵列，用于采集用户的语音信息；

扬声器，用于播放语音信息；

RFID标签，用于确定所述智能语音设备的地址；

处理器，被配置为：

获取留言播放信息；

将所述留言播放信息通过所述扬声器进行播放。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种系统架构示意图；

图2为本发明实施例提供的一种服务器的结构示意图；

图3为本发明实施例提供的一种智能语音设备的结构示意图；

图4为本发明实施例提供的一种语音转发和留言的方法的流程示意图；

图5为本发明实施例提供的一种语音消息上传的流程示意图；

图6为本发明实施例提供的一种消息监听的流程示意图；

图7为本发明实施例提供的一种语音留言的流程示意图；

图8为本发明实施例提供的一种播放留言的流程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

图1示例性的示出了本发明实施例所适用的一种语音转发和留言系统的结构，该系统可以包括服务器100、多个智能语音设备200，多个定位设备300。

如图1所示，服务器100可以通过网络与多个智能语音设备200连接，通过网络与多个定位设备300连接。该服务器100还可以通过移动通信网络与用户的移动终端400进行通信连接。在一些应用场景中，多个智能语音设备200和多个定位设备300可以通过网关与服务器100连接。

其中，多个定位设备300可以设置于预设空间(家庭房屋、办公室)内的多个预设位置(各个房间、走道、各个门口)。该定位设备300可以用于确定各智能语音设备200的地址以及预设空间内用户(家庭成员)的位置。在一些示例中，该定位设备300可以为RFID阅读器和RFID天线，在智能语音设备200上和用户身上可以设置RFID标签，定位设备300通过识别RFID标签来实现智能语音设备200和用户的定位，并将定位信息通过网络发送给服务器100。在一些示例中，预设空间内定位的方式可以通过现有技术中的室内定位技术来实现，不在赘述。

服务器100与智能语音设备200通过网络(如局域网、物联网)连接，其中制造语音设备可以包括智能音箱、语音控制面板、家用智感器等。

智能语音设备200的类型可以是一种也可以是多种(两种或两种以上)，不同的智能语音设备200可以设置于不同的区域。图1仅示例性示出了位于房间1处的智能语音设备a为智能音箱、位于房间2处的智能语音设备b为智能音箱、位于厨房内的智能语音设备c为冰箱的语音助手、位于房间3的智能语音设备d为智能语音面板、位于车辆内的智能语音设备e为车载语音中心。其中，智能语音设备200的位置可能是固定不变的(比如厨房内的冰箱的语音助手)也可能改变(比如车辆内的车载语音中心会随着车辆移动而改变位置)，若智能语音设备200的位置可改变，在智能语音设备200的位置变更后，可由定位设备300识别到智能语音设备200的位置变更后的地址，然后发送给服务器100来维护该智能语音设备200的位置信息。

该智能语音设备200能够受控于服务器100进行语音播放。在一些示例中，智能语音设备200可以播放转发语音播放信息和留言播放信息。

进一步地，智能语音设备200还能够与用户实现智能语音交互。本申请实施例中的智能语音设备200可采用分布式架构，即，多个智能语音设备200可与服务器100连接，将与用户输入的语音请求发送给服务器100进行语音处理以及响应用户的请求。一些智能语音设备200还具有显示屏，可以以图形方式进行信息显示。

服务器100具有语音信息的处理和转发的功能，服务器100接收到智能语音设备200发送的各种语音信息后，可以分别对语音信息的声纹进行声纹识别和对语音信息的内容进行语义识别，声纹识别主要是识别用户的身份信息，语义识别一般是将语音信息转换为文本信息，然后对文本信息进行语义分析后，按照预设的格式提取出相应的文本信息。

服务器100可以是一个独立部署的服务器100，也可以是分布式服务器100，还可以是服务器100集群。

基于上述架构，在一种实际应用场景中，可将一个家庭(住宅)内不同位置的智能语音设备200接入到服务器100，当某个智能语音设备200被唤醒后，服务器100接收到该唤醒的智能语音设备200发送的语音信息，然后进行识别得到转发内容，根据获取到的该家庭的成员用户的位置信息判断距离成员用户最近的智能语音设备200的地址，然后基于源地址、转发内容和目的地址，实现消息的快速转发，当距离该成员用户最近的智能语音设备200监听到该消息后，及时将该消息进行播放，以便该成员用户可以及时听到该消息。

以图1所示的系统架构为例，本发明实施例中，可首先搭建上述系统，具体包括以下配置操作：

(1)注册智能语音设备200。

将一个或多个地理范围内的智能语音设备200与网关连接，并在服务器100中对智能语音设备200进行注册，形成与该家庭关联的智能语音设备列表。其中，一个地理范围可以是一个住宅、一套居所、一个生产车间、一个公司办公室等。

智能语音设备列表中可包括智能语音设备200的相关信息，比如可包括：智能语音设备200的ID、智能语音设备200的地址(如IP地址、MAC地址)、智能语音设备200所处的位置区域、智能语音设备200的类型(比如智能音箱、车载语音中心)等。

(2)注册定位设备300。

将上述地理范围内的定位设备300注册到服务器100中。当然，也可将其他地理范围内的定位设备300注册到服务器100中，形成与该家庭关联的定位设备列表。

图2示例性的示出了本发明实施例提供的一种服务器100的结构。

如图2所示，该服务器100可以包括通信模块101、存储器102和处理器103。进一步的，该服务器100中还可以包括各种管理模块(未在图中示出)，这管理模块可以包括以下中的一个或各种组合：

设备接入管理模块，用于进行设备接入管理，比如对定位设备、智能语音设备进行注册以及进行关联；

设备位置管理模块，用于对智能语音设备的地址、位置进行更新维护管理；

用户位置管理模块，用于对用户位置进行更新维护管理。

其中，通信模块101，用于与多个智能语音设备组成网络，接收第一智能语音设备采集的语音通知消息。该第一智能语音设备为通知人唤醒的智能语音设备。

存储器102，用于存储留言信息。

处理器103，与所述通信模块101、所述存储器102连接，被配置为：

确定出所述第一智能语音设备的地址，根据语音通知消息确定出通知人的身份信息、第一通知信息和被通知人的身份信息。根据通知人的身份信息和所述第一通知信息，确定出第一转发内容。根据被通知人身份信息进行人员定位，定位到被通知人的位置，根据所述被通知人的位置，确定出第二智能语音设备的地址。根据第一智能语音设备的地址、第一转发内容和第二智能语音设备的地址确定出第一语音消息，上传至消息总线进行第一语音消息转发。

具体的，当可以依据被通知人身份信息定位到被通知人的位置时，服务器100可以实现语音转发的功能。

首先，通知人通过唤醒词唤醒第一智能语音设备时，服务器100可以快速的得到该第一智能语音设备的地址。第一智能语音设备可以采集通知人的语音通知信息，然后发送给服务器100。服务器100中的通信模块101在接收到该第一智能语音设备的语音通知信息后，处理器103可被配置为：对语音通知消息进行声纹识别，确定出通知人的身份信息，对语音通知消息进行语义分析，提取出语音通知消息中的被通知人的身份信息和第一通知信息。例如，通过调用声纹识别服务识别到通知人的身份信息是“妈妈”。通知人向唤醒的智能语音设备下发的语音通知新是“告诉小明，别熬夜，早点睡觉”。通过调用语音识别服务识别为文本信息，然后语义分析，经文本分类处理，可以提取出“被通知人的身份信息：小明；通知信息：‘别熬夜，早点睡觉’”。得到通知人的身份信息和第一通知信息后，可以生成第一转发内容。该第一转发内容可以按照预设格式生成，例如：转发内容可以为“妈妈告诉你：别熬夜，早点睡觉”。其中，声纹识别技术和语义分析技术可以使用通用的技术，此处不再赘述。

当依据被通知人的身份信息定位到被通知人的位置时，处理器103可以被配置为：根据被通知人的位置确定出距离被通知人最近的智能语音设备的地址。将距离被通知人最近的智能语音设备的地址确定为第二智能语音设备的地址。该第二智能语音设备的地址即为消息转发的目的地址，如第二智能语音设备的IP地址。

在得到第一智能语音设备的地址(IP地址)后，将该第一智能语音设备的地址作为消息转发的源地址，这样，对源地址、第一转发内容和目的地址进行封装，得到第一语音消息。这里的消息封装格式可以为通用格式，例如可以封装为json串。最终将第一语音消息上传至消息总线进行第一语音消息转发，使得上述第二智能语音设备监听到目的地址为该第二智能语音设备的地址时，对该第一语音消息进行语音合成后播放。从而实现了消息的快速转发，提高了转发效率。

图3示例性的示出了一种智能语音设备200的结构，如图3所示，该智能语音设备200可以包括：麦克风阵列201、扬声器202、RFID标签203、通信模块204和处理器205。

其中，麦克风阵列201，用于采集用户的语音信息；

扬声器202，用于播放语音信息；

RFID标签203，用于确定所述智能语音设备200的位置；

通信模块204，用于收发消息；

处理器205，与麦克风阵列201、扬声器202和通信模块204连接。

当图3所示的智能语音设备200为上述第二智能语音设备200时，该第二智能语音设备200的处理器205被配置为：

在确认服务器上传的第一语音消息中的目的地址为第二智能语音设备的地址时，获取第一语音消息中的第一转发内容。然后对第一转发内容进行语音合成，得到第一转发语音播放信息，将第一转发语音播放信息通过扬声器进行播放。

当确认消息总线中存在目的地址与本智能语音设备的地址一致时，拉取消息获得“转发内容”、“目的地址”、“源地址”。然后调用本地语音合成服务，将“转发内容”文本消息合成为语音消息，也就是转发语音播放信息，进行播放。

当播放完成后，该第二智能语音设备可以等待拾音，在等待预设时间内，被通知人有应答时，处理器205被配置为：采集预设时间内被通知人的语音应答信息，将语音应答信息发送给服务器。

上述预设时间可以依据经验设置，例如可以为10s，20s等。

在一些实施例中，当第二智能语音设备播放了上述第一语音消息后，还可以在预设时间内采集被通知人的语音应答信息，发送给服务器，如图2所示的结构，此时服务器的处理器103被配置为：

获取所述第二智能语音设备在预设时间内发送的语音应答信息，对语音应答信息进行识别，得到第二通知信息，根据被通知人的身份信息和所述第二通知信息，确定第二转发内容，根据第一智能语音设备的地址、第二转发内容和所述第二智能语音设备的地址确定出第二语音消息，上传至消息总线进行第二语音消息转发。

例如，语音应答信息为“我知道了，马上睡觉”，然后将该语音应答信息识别为文本信息“第二转发内容”，将该第二智能语音设备的地址作为源地址，该第一智能语音设备的地址作为目的地址，生成第二语音消息，将第二语音消息上传至消息总线，进行第二语音消息转发。

当第一智能语音设备接收到该第二语音消息后，基于图3所示的结构，第一智能语音设备的处理器205被配置为：在确认服务器上传的第二语音消息中的目的地址为该第一智能语音设备的地址时，获取第二语音消息中的第二转发内容。对第二转发内容进行语音合成，得到第二转发语音播放信息，将第二转发语音播放信息通过扬声器202进行播放。

可选的，当室内定位获取不到被通知人位置(可控的范围内查找不到小明的RFID标签)时，服务器可以实现语音留言的功能，基于图2所示的结构，服务器的处理器103被配置为：若无法定位到被通知人的位置；则将第一转发内容确定为留言信息。并将通知人的身份信息、被通知人的身份信息、留言信息、当前时间和留言已读标志位存储在存储器102的数据库中。

此时，可以将通知人的身份信息、被通知人的身份信息、留言信息、留言智能语音设备的地址、当前时间和留言已读标志位存储在关系型数据库留言表中，“留言已读标志位”用来标识留言信息是否已播放。

在一些实施例中，处理器103还被配置为：

在确定被通知人的位置与留言智能语音设备的距离小于预设距离时，从存储器102的数据库中确定出设定时间范围内被通知人的留言信息、通知人的身份信息。唤醒留言智能语音设备，根据被通知人的留言信息、通知人的身份信息，进行语音合成，得到留言播放信息。最后将留言播放信息发送给留言智能语音设备进行语音播放，并将留言已读标志位设置为已读。该预设距离和设定时间范围可以依据经验设置，例如，预设距离可以是设为1m、2m；设定时间范围可以为1h内、2h内或用户设定的任一范围值等，该设定时间范围也可以设置为无，此时表明播放用户所有未读的留言信息。该留言智能语音设备可以依据经验设置，当设置了留言智能语音设备后即可获得该留言智能语音设备的地址。例如可以设置为入户门口的智能语音设备或被通知人卧室内的智能语音设备。留言已读标志位设为已读后，可以保证每条留言仅自动播放一次，但是，用户可以通过查询方式多次读取。例如，用户可以通过智能语音设备查询一定时间范围内关于自己的所有留言信息。

当图3所示的智能语音设备200为留言智能语音设备时，该留言智能语音设备的处理器205可被配置为：获取服务器发送的留言播放信息；将留言播放信息通过扬声器进行播放。

例如上述第一转发内容为“妈妈告诉你：别熬夜，早点睡觉”，此时为留言信息，将该留言信息合成语音后，留言智能语音设备通过扬声器进行播放。

可选的，用户还可以在任一智能语音设备处查询关于自己的所有留言记录，此时，服务器的处理器103还可以被配置为：获取第三智能语音设备发送的用户的留言查询请求，然后识别用户的身份信息。根据用户的身份信息，从数据库中查询出用户的留言记录、根据留言记录中通知人的身份信息和留言信息，进行语音合成，得到留言播放语音。将留言播放语音发送给第三智能语音设备进行语音播放。具体流程类似智能语音设备主动向用户播放留言的过程，不在赘述。

下面将结合附图对本发明实施例中语音转发和留言的流程进行详细描述。

图4示例性的示出了本发明实施例提供的一种语音转发和留言的流程示意图，如图4所示，该流程可以包括如下步骤：

S401，接收第一智能语音设备采集的语音通知信息。

该第一智能语音设备为通知人唤醒的智能语音设备。通知人可以通过唤醒词唤醒第一智能语音设备，例如，XXX音箱。

S402，确定出所述第一智能语音设备的地址，根据所述语音通知消息确定出通知人的身份信息、第一通知信息和被通知人的身份信息。

当通知人唤醒第一智能语音设备时，服务器就可以确定出被唤醒的第一智能语音设备的地址，该第一智能语音设备的地址为源地址。当第一智能语音设备采集到通知人的语音通知信息时，服务器在接收到该第一智能语音设备的语音通知信息后，可以对语音通知消息进行声纹识别，确定出通知人的身份信息，同时对语音通知消息进行语义分析，提取出语音通知消息中的被通知人的身份信息和第一通知信息。

例如，通过调用声纹识别服务识别到通知人的身份信息是“妈妈”。通知人向唤醒的智能语音设备下发的语音通知新是“告诉小明，别熬夜，早点睡觉”。通过调用语音识别服务识别为文本信息，然后语义分析，经文本分类处理，可以提取出“被通知人的身份信息：小明；通知信息：‘别熬夜，早点睡觉’”。

S403，根据所述通知人的身份信息和所述第一通知信息，确定出第一转发内容；根据所述被通知人身份信息进行人员定位。

得到通知人的身份信息和第一通知信息后，可以生成第一转发内容。该第一转发内容可以按照预设格式或预设模板生成，例如：转发内容可以为“妈妈告诉你：别熬夜，早点睡觉”。同时还可以通过室内定位技术依据被通知人身份信息进行人员定位。

S404，判断是否定位到所述被通知人的位置，若是，则转入S405，否则转入S406。

S405，根据所述被通知人的位置，确定出第二智能语音设备的地址。

当可以定位到被通知人的位置时，说明被通知人在可控范围内，服务器可以根据被通知人的位置确定出距离该被通知人最近的智能语音设备的地址，然后将距离该被通知人最近的智能语音设备的地址确定为第二智能语音设备的地址。该第二智能语音设备的地址即为消息转发的目的地址，如第二智能语音设备的IP地址。

S406，将所述第一转发内容确定为留言信息；并将所述通知人的身份信息、所述被通知人的身份信息、所述留言信息、留言智能语音设备的地址、当前时间和留言已读标志位存储在数据库中。

服务器可以将通知人的身份信息、被通知人的身份信息、留言信息、留言智能语音设备的地址、当前时间和留言已读标志位存储在关系型数据库留言表中，“留言已读标志位”用来标识留言信息是否已播放。

进一步的，服务器在确定所述被通知人的位置与留言智能语音设备的距离小于预设距离时，从存储器的数据库中确定出设定时间范围内所述被通知人的留言信息、通知人的身份信息。在唤醒留言智能语音设备后，根据被通知人的留言信息、通知人的身份信息，进行语音合成，得到留言播放信息；将留言播放信息发送给留言智能语音设备进行语音播放，并将留言已读标志位设置为已读。此处唤醒留言智能语音设备的方式可以是通过软件来唤醒，或者是通过唤醒指令来实现。通过将留言已读标志位设为已读后，可以保证每条留言仅自动播放一次，但是，用户可以通过查询方式多次读取。例如，用户可以通过智能语音设备查询一定时间范围内关于自己的所有留言信息。

留言智能语音设备在接收到服务器发送的留言播放信息；将留言播放信息通过扬声器进行播放。例如留言信息为“妈妈告诉你：别熬夜，早点睡觉”，将该留言信息合成语音后，留言智能语音设备通过扬声器进行播放。

S407，根据所述第一智能语音设备的地址、所述第一转发内容和所述第二智能语音设备的地址确定出第一语音消息，上传至消息总线进行第一语音消息转发。

其中，第一智能语音设备的地址为源地址、第二智能语音设备的地址为目的地址，可以将源地址、第一转发内容和目的地址进行封装，得到第一语音消息。例如可以封装为json串。最终将第一语音消息上传至消息总线进行第一语音消息转发，使得上述第二智能语音设备监听到目的地址为该第二智能语音设备的地址时，对该第一语音消息进行语音合成后播放。从而实现了消息的快速转发，提高了转发效率。

当第二智能语音设备确认服务器上传的第一语音消息中的目的地址为智能语音设备的地址时，获取第一语音消息中的第一转发内容。然后对第一转发内容进行语音合成，得到第一转发语音播放信息，将第一转发语音播放信息进行播放。

也就是说，第二智能语音设备接收到消息总线中存在目的地址与本智能语音设备的地址一致时，拉取消息获得“转发内容”、“目的地址”、“源地址”。然后调用本地语音合成服务，将“转发内容”文本消息合成为语音消息，也就是转发语音播放信息，进行播放。

当播放完成后，该第二智能语音设备可以等待拾音，在等待预设时间内，被通知人有应答时，采集预设时间内被通知人的语音应答信息，将语音应答信息发送给服务器。

而服务器接收到该第二智能语音设备采集的被通知人的语音应答信息之后，同样是可以对语音应答信息进行识别，得到第二通知信息，根据被通知人的身份信息和所述第二通知信息，确定第二转发内容，根据第一智能语音设备的地址、第二转发内容和所述第二智能语音设备的地址确定出第二语音消息，上传至消息总线进行第二语音消息转发。

当第一智能语音设备接收到该第二语音消息后，获取第二语音消息中的第二转发内容。对第二转发内容进行语音合成，得到第二转发语音播放信息，将第二转发语音播放信息通过扬声器进行播放。

为了更好的解释本发明实施例，下面将在具体的场景下来描述语音转发和留言的过程。

以智能音箱为例，其中语音转发的流程可以包括语音消息上传和消息监听两个过程：

如图5所示的语音消息上传的流程：

S501，唤醒智能音箱。

通知人在需要将消息转发给被通知人时，首先需要语音唤醒智能音箱，通常是通过语音说出固定的唤醒词来实现。

S502，获取被唤醒的智能音箱的IP地址。

当智能音箱被唤醒时，服务器可以同时获取到被唤醒的智能音箱的IP地址。

S503，识别通知人的身份信息。

可以调用声纹识别服务来识别通知人的身份信息。

S504，发布语音转发指令。

智能音箱被唤醒后，通知人发布语音转发指令，比如“告诉小明，别熬夜，早点睡觉”。

S505，语音识别。

服务器可以调用语音识别服务把语音识别为文本信息。

S506，语义分析。

对文本信息进行语义分析，得到提取出语义信息：“被通知人：小明，通知信息：‘别熬夜，早点睡觉’”。

S507，人员定位。

由S506中的被通知人身份“小明”，通过人员定位找到小明目前的位置信息并通过对音箱位置的定位确定距离小明最近的智能音箱，获得其对应IP地址，此IP地址为转发的目的地址。

S508，生成转发内容。

通过S502获取的通知人身份信息，比如通知人身份是“妈妈”，结合通知信息，生成转发内容为“妈妈告诉你：别熬夜，早点睡觉”。

S509，上传消息总线。

把转发内容、源地址和目的地址封装成json串上传到消息总线。

图6示出了消息监听的流程：

如图6所示具体包括：

S601，监听消息的目的地址。

智能音箱可以通过线程监听消息总线中的各消息的目的地址。

S602，判断消息的目的地址是否等于智能音箱地址，若是，则转入S603，否则转入S601。

判断消息的目的地址是否与自己的地址一致。

S603，拉取消息。

拉取消息，得到消息中的转发内容、目的地址和源地址。

S604，语音合成。

调用语音合成服务把转发内容合成转发语音。

S605，播音。

智能音箱播放转发语音。

S606，启动唤醒。

在播放完成之后，通过软件的方式使得智能音箱处于唤醒状态。

S607，拾音。

等待拾音。

S608，判断5s内是否有用户应答，若是，则转入S609，否则转入S611。

S609，语音识别。

将应答信息进行语音识别为文本信息作为转发内容。

S610，上传消息至消息总线。

将原目的地址作为源地址，原源地址作为目的地址，结合转发内容，封装成json串上传至消息总线。

S611，停止拾音。

在该场景下，已上传到消息总线的消息为{“目的地址”：“xxxx”，“源地址”：“yyyy”,“转发信息”：“妈妈告诉你：别熬夜，早点睡觉”}，被小明所在房间的IP地址为“xxxx”的智能音箱监听到，将转发内容“妈妈告诉你：别熬夜，早点睡觉”合成语音并播放，播放完成后等待拾音，在5s之内如果小明应答，将应答信息经语音识别转化成需要转发的文本信息，并将“目的地址”设置为妈妈房间的原始智能音箱的IP地址，“源地址”即目前小明房间的智能音箱的IP地址，将“源地址，目的地址，转发内容”封装成json串上传至总线。同样，妈妈房间的智能音箱也在实时监控消息总线并播放目的地址与自己匹配的转发内容。

进一步的，语音留言的流程可以包括留言过程和播放留言过程：

图7示出了留言过程：

S701，唤醒智能音箱。

通知人在需要将消息转发给被通知人时，首先需要语音唤醒智能音箱，通常是通过语音说出固定的唤醒词来实现。

S702，识别通知人身份信息。

可以调用声纹识别服务来识别通知人的身份信息。

S703，发布语音转发指令。

智能音箱被唤醒后，通知人发布语音转发指令，比如“告诉小明，别熬夜，早点睡觉”。

S704，语音识别。

服务器可以调用语音识别服务把语音识别为文本信息。

S705，语义分析。

对文本信息进行语义分析，得到提取出语义信息：“被通知人：小明，通知信息：‘别熬夜，早点睡觉’”。

S706，人员定位。

由S506中的被通知人身份“小明”，通过人员定位查询小明目前的位置信息。

S707，查询不到被通知人的位置。

查询不到小明的位置(可控的范围内查找不到小明的RFID标签)。

S708，确定目的地址为留言音箱的IP。

将目的地址设置为留言音箱的IP地址。

S709，留言数据库存储。

将“被通知人身份信息”、“通知人身份信息”、“留言信息”、“目的地址IP”、“当前时间”以及“留言已读标志位”存入关系型数据库留言表中，“留言已读标志位”用来标识留言是否已播放。

图8示出了留言播放过程：

S801，确定用户靠近留言音箱。

用户与留言音箱相对距离小于设定值时，确定用户靠近留言音箱。

S802，查询数据库是否有给该用户的留言，若是，则转入S803，否则转入S801。

查询数据库中在设定时间范围内该用户对应的留言记录，其中，距离的设定值、设定时间范围可以由用户在智能终端上该智能音箱App端自行设定。

S803，提取留言信息。

当查找到数据库中有该用户相关留言记录时，提取留言信息与留言人，组合成“留言播放信息”：“XXX留言：XXXXX”。

S804，唤醒留言音箱。

通过软件唤醒留言音箱，并调用语音合成服务，将“留言播放信息”合成留言语音。

S805，播放留言。

播放留言语音同时将数据库中该条记录的“留言已读标识为”置为已读，以保证每条留言仅自动播放一次，用户可通过查询方式多次读取。

基于相同的技术构思，本发明实施例还提供一种计算设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行上述语音转发和留言的方法。

基于相同的技术构思，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行上述语音转发和留言的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以发生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令发生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令发生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以发生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

22页详细技术资料下载

一种语音转发方法及服务器、智能语音设备

相关技术

网友询问留言