远场语音留言交互方法及系统

文档序号：1833165 发布日期：2021-11-12 浏览：26次 >En<

阅读说明：本技术 远场语音留言交互方法及系统 (Far-field voice message interaction method and system ) 是由陈明佳于 2021-08-16 设计创作，主要内容包括：本发明实施例提供一种远场语音留言交互方法。该方法包括：缓存输入的用户语音,发送至服务云端；接收服务云端反馈的时间对齐信息,基于时间对齐信息对缓存的用户语音进行切割,至少确定用户语音中的语音留言指令音频段以及语音留言音频段；利用语音留言指令音频段触发留言功能,基于语音留言音频段确定留言内容,将留言内容发送至指定的设备进行播放。本发明实施例还提供一种用于设备端的远场语音留言交互系统。本发明实施例基于云端音频对齐以及本地的音频切割以及通话降噪融合实现了远场语音留言交互,减少了留言者的对话轮次,提升留言者的交互体验。(The embodiment of the invention provides a far-field voice message interaction method. The method comprises the following steps: caching the input user voice and sending the user voice to a service cloud; receiving time alignment information fed back by the service cloud, cutting the cached user voice based on the time alignment information, and at least determining a voice message instruction audio segment and a voice message audio segment in the user voice; and triggering a message leaving function by utilizing the voice message instruction audio segment, determining message leaving content based on the voice message audio segment, and sending the message leaving content to specified equipment for playing. The embodiment of the invention also provides a far-field voice message interaction system for the equipment terminal. The embodiment of the invention realizes far-field voice message interaction based on cloud audio alignment, local audio cutting and communication noise reduction fusion, reduces the conversation turns of message-leaving people, and improves the interaction experience of the message-leaving people.)

远场语音留言交互方法及系统

技术领域

本发明涉及智能语音领域，尤其涉及一种远场语音留言交互方法及系统。

背景技术

现在的语音交互类产品中，要实现远场语音留言功能，基本上都是要先唤醒，然后说固定指令，之后才可以说需要留言的内容，基于这样的流程实现语音留言功能。

在现有的基于一问一答的方案中，基本的方法步骤为：

User:唤醒

Sys:唤醒反馈

User：进入留言模式指定说法

Sys：反馈进入留言模式

User：留言内容

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

不够高效，需要经过多次的交互才能实现语音留言的功能，只要其中的一个环节出错都会导致交互失败需要重新开始。

基于原始音频播报的方案中，远距离交互在直接用原始音频播放可能会存在音量较小或者听感不佳的问题。

发明内容

为了至少解决现有技术中远场语音留言交互多轮才能完成，交互低效，远场语音的录音对于用户听感较差，如果留言的内容存在口音并且处于远场环境时，进一步影响用户的听感的问题。

第一方面，本发明实施例提供一种远场语音留言交互方法，应用于设备端，包括：

缓存输入的用户语音，发送至服务云端；

接收所述服务云端反馈的时间对齐信息，基于所述时间对齐信息对缓存的用户语音进行切割，至少确定所述用户语音中的语音留言指令音频段以及语音留言音频段；

利用所述语音留言指令音频段触发留言功能，基于所述语音留言音频段确定留言内容，将所述留言内容发送至指定的设备进行播放。

第二方面，本发明实施例提供一种语音留言交互方法，应用于设备端，包括：

将唤醒词和语音留言指令作为所述设备端的唤醒语句；

当输入的用户语音命中所述唤醒语句时，将所述用户语音中命中唤醒语句为节点对所述用户语音进行切割，将节点后的音频段落确定为语音留言音频段；

将所述语音留言音频段发送至指定的设备进行播放。

第三方面，本发明实施例提供一种远场语音留言交互方法，应用于服务云端，包括：

服务云端接收设备端发送的用户语音，识别所述用户语音对应的文本，其中，所述文本至少包括：语音留言指令文本以及语音留言文本；

确定所述文本中每一个文字在所述用户语音中对应的时间点，至少标记出所述语音留言指令文本以及语音留言文本与所述用户语音的时间对齐信息；

至少将所述语音留言指令文本以及语音留言文本与所述用户语音的时间对齐信息发送至所述设备端，用于辅助所述设备端切割用户语音。

第四方面，本发明实施例提供一种用于设备端的远场语音留言交互系统，包括：

信息传输程序模块，用于缓存输入的用户语音，发送至服务云端；

音频切割程序模块，用于接收所述服务云端反馈的时间对齐信息，基于所述时间对齐信息对缓存的用户语音进行切割，至少确定所述用户语音中的语音留言指令音频段以及语音留言音频段；

留言播放程序模块，用于利用所述语音留言指令音频段触发留言功能，基于所述语音留言音频段确定留言内容，将所述留言内容发送至指定的设备进行播放。

第五方面，本发明实施例提供一种用于设备端的远场语音留言交互系统，包括：

唤醒语句确定程序模块，用于将唤醒词和语音留言指令作为所述设备端的唤醒语句；

音频切割程序模块，用于当输入的用户语音命中所述唤醒语句时，将所述用户语音中命中唤醒语句为节点对所述用户语音进行切割，将节点后的音频段落确定为语音留言音频段；

留言播放程序模块，用于将所述语音留言音频段发送至指定的设备进行播放。

第六方面，本发明实施例提供一种用于服务云端的远场语音留言交互系统，包括：

语音识别程序模块，用于服务云端接收设备端发送的用户语音，识别所述用户语音对应的文本，其中，所述文本至少包括：语音留言指令文本以及语音留言文本；

音频对齐程序模块，用于确定所述文本中每一个文字在所述用户语音中对应的时间点，至少标记出所述语音留言指令文本以及语音留言文本与所述用户语音的时间对齐信息；

信息传输程序模块，用于至少将所述语音留言指令文本以及语音留言文本与所述用户语音的时间对齐信息发送至所述设备端，用于辅助所述设备端切割用户语音。

第七方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的远场语音留言交互方法的步骤。

第八方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的远场语音留言交互方法的步骤。

本发明实施例的有益效果在于：使用云端识别技术以及语义理解技术将识别内容中的指令部分与语音留言部分区分开，然后将音频与文字的时间关系进行对齐，将时间对齐信息返回设备端。设备端会按照对齐的时间信息对用户语音进行切割，保证唤醒词和留言内容连说的情况下准确的截取留言的内容。同时减少了用户远场语音留言的交互轮次，确保了留言者的交互体验。为了保证语音留言的音频适于听觉感受，会使用语音通话降噪算法对本地音频进行处理。保证在远场语音留言的场景下语音留言的音色也给人舒适的听感，提升收听者的感受。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种远场语音留言交互方法的流程图；

图2是本发明一实施例提供的一种远场语音留言交互方法的远场语音通话降噪的结构图；

图3是本发明另一实施例提供的一种远场语音留言交互方法的流程图；

图4是本发明又一实施例提供的一种远场语音留言交互方法的流程图；

图5是本发明一实施例提供的一种远场语音留言交互方法的设备端与服务云端的整体结构图；

图6是本发明一实施例提供的一种远场语音留言交互方法的音频文本对齐示意图；

图7是本发明一实施例提供的一种用于设备端的远场语音留言交互系统的结构示意图；

图8是本发明另一实施例提供的一种用于设备端的远场语音留言交互系统的结构示意图；

图9是本发明一实施例提供的一种用于服务云端的远场语音留言交互系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种远场语音留言交互方法的流程图，包括如下步骤：

S11：缓存输入的用户语音，发送至服务云端；

S12：接收所述服务云端反馈的时间对齐信息，基于所述时间对齐信息对缓存的用户语音进行切割，至少确定所述用户语音中的语音留言指令音频段以及语音留言音频段；

S13：利用所述语音留言指令音频段触发留言功能，基于所述语音留言音频段确定留言内容，将所述留言内容发送至指定的设备进行播放。

在本实施方式中，目的是将设备端将用户语音中的语音留言指令和的语音留言内容区分开，考虑到设备端的处理性能，利用服务云端的识别技术以及语义理解技术将用户语音中的指令部分与语音留言部分区分开。

对于步骤S11，在远场环境中，例如，用户要出门办事，走到门口突然想起来需要留言“你好小驰留言给爸爸今天回家的时候记得把煤气费交一下”，此时，声音穿过走廊，传播到客厅中的设备端(例如，可以是智能音响，或者智能电视，或其他电子设备)中。

用户作为留言者的“你好小驰留言给爸爸今天回家的时候记得把煤气费交一下”，设备端会将音频数据同时在本地缓存的基础上，实时的送入服务云端的系统中进行语音识别等处理，通过服务云端，将用户的留言内容中的语音留言指令部分与语音留言部分区分开，确定语音留言指令文本以及语音留言文本与所述用户语音的时间对齐信息；

在整个过程中，设备端一直会缓存一段一段的音频，该音频长度一般为2s左右，一般为一个唤醒词的长度。设备端被唤醒后即会将音频连续追加缓存到唤醒音频之后直到用户说的语音结束。这部分的音频均会被送入服务云端的识别系统中，在云端的识别系统中会将唤醒词+语音留言指令+语音留言内容均识别出来，并标记出每部分文本与音频的时间点对应关系。

如果用户并不是一整句“你好小驰留言给爸爸今天回家的时候记得把煤气费交一下”的输入，而是：

用户：唤醒词(你好小驰)

设备端：唤醒反馈语(你好啊)

用户：语音留言指令+语音留言内容(如：留言给爸爸今天回家的时候记得把煤气费交一下。)

此时，该部分的音频为“留言给爸爸今天回家的时候记得把煤气费交一下”，在服务云端的识别系统中会将语音留言指令+语音留言内容识别出来。

对于步骤S12，待服务云端处理完成，确定语音留言指令文本以及语音留言文本与所述用户语音的时间对齐信息之后，发送回设备端。设备端接收到服务云端反馈的时间对齐信息，对用户语音进行切割。

以“你好小驰留言给爸爸今天回家的时候记得把煤气费交一下”为例，时间对齐信息中：唤醒词：你好小驰，0～2500ms；对象：爸爸，3500ms～4500ms；时间：今天，4500ms～5500ms；内容：回家的时候记得把煤气费交一下，5500ms～10000ms。有了上述时间对齐信息，设备端本地的音频切割程序就可以将留言内容对应的语音通话的音频根据远端服务返回的时间信息进行切割，从而确定相应的语音留言指令音频段以及语音留言音频段。

同样的，如果用户说的内容为“留言给爸爸今天回家的时候记得把煤气费交一下”，那么所反馈的时间对齐信息：对象：爸爸，1000ms～2000ms；时间：今天，2000ms～3000ms；内容：回家的时候记得把煤气费交一下，3000ms～7500ms。

以上举例的两种场景唯一区别在于设备端缓存的音频不是从唤醒后到正式说留言内容的音频，只需要缓存语音留言指令+语音留言内容该部分的音频即可，其他的处理方式均相同。

对于步骤S13，设备端根据语音留言指令音频段触发留言功能，基于“回家的时候记得把煤气费交一下”确定留言内容，将留言内容发送到指定的设备进行播放，例如，发送到“对象：爸爸”的设备中进行播放。

作为一种实施方式，在所述缓存输入的用户语音之前，所述方法还包括：

将采集的用户语音输入至波束形成模块，用于在远场的人声环境中，提取清晰的用户人声；

经过所述波束形成模块处理后输入至自动增益模块，用于平稳远场环境中的所述用户语音；

经过所述自动增益模块处理后输入至深度学习后处理模块，用于对用户语音降噪。

在本实施方式中，为了适应远场环境，在设备端新增了远场语音通话降噪的模块如图2，在该模块中将原始用户语音的远场多通道音频通过波束形成模块，自动增益模块以及深度学习后处理模块，最后得到清晰的人声。波束形成模块主要是保证在周围有比较嘈杂的人声的情况下也能够提取出清晰的目标人的人声；自动增益模块主要是保证目标人说话声音忽大忽小时保证处理后的人声能够有一个相对平稳的音量，保证听音是稳定的。深度学习后处理模块主要是负责处理一些在波束形成模块无法一致或者处理的噪声，实现更清晰的远场人声。

作为一种实施方式，所述留言内容包括：语音留言音频段或合成留言音频；

当所述留言内容为所述语音留言音频段时，直接将所述语音留言音频段发送至指定的设备进行播放。

在本实施方式中，留言内容可以是用户的语音留言音频段，用户的语音留言音频段通常可以最准确的表达出用户的意图，本方法可以准确的分割出用户的留言音频段，从而提升用户的使用效果。

作为一种实施方式，所述方法还包括：接收所述服务云端反馈的识别文本；

当所述留言内容为所述合成留言音频时，基于所述时间对齐信息对所述识别文本进行切割，得到语音留言文本段；

基于所述语音留言文本段生成合成留言音频，将所述留言音频发送至指定的设备进行播放。

在本实施方式中，考虑到这样一种场景，可能使用留言的用户有着浓重的口音，例如，家里爷爷、奶奶、姥姥、姥爷这种长辈，在年轻时地域迁移，有的长辈说话可能会带着浓重的口音，在这种口音下，留言的收听者如果没有长时间与该长辈的沟通基础，即便是当面听，也有可能听不清楚，无法确定长辈说的是什么。在这种情况下，合成留言音频不失为一种选择。服务云端具备大量语种、口音的语音识别模型，可以最大限度的识别出长辈语音中的留言内容。

在这种情况下，如果留言的收听者听了语音留言音频段，即便是语音降噪解决了远场的问题，但还是听不懂，收听者可以请求设备端播放合成留言音频，这样避免了收听者听不懂留言音频段的问题。并且，本方法针对与远场进行了进一步的优化处理，从而提升合成留言音频的准确度。

通过该实施方式可以看出，使用云端识别技术以及语义理解技术将识别内容中的指令部分与语音留言部分区分开，然后将音频与文字的时间关系进行对齐，将时间对齐信息返回设备端。设备端会按照对齐的时间信息对用户语音进行切割，保证唤醒词和留言内容连说的情况下准确的截取留言的内容。同时减少了用户远场语音留言的交互轮次，确保了留言者的交互体验。为了保证语音留言的音频适于听觉感受，会使用语音通话降噪算法对本地音频进行处理。保证在远场语音留言的场景下语音留言的音色也给人舒适的听感，提升收听者的感受。

如图3所示为本发明一实施例提供的一种远场语音留言交互方法的流程图，包括如下步骤：

S21：将唤醒词和语音留言指令作为所述设备端的唤醒语句；

S22：当输入的用户语音命中所述唤醒语句时，将所述用户语音中命中唤醒语句为节点对所述用户语音进行切割，将节点后的音频段落确定为语音留言音频段；

S23：将所述语音留言音频段发送至指定的设备进行播放。

在本实施方式中，考虑到服务云端可能有时无法使用，所有的处理和操作均在设备端完成。并且整个方法相对简单，容易实现。

对于步骤S21，基于唤醒词的切割方案，在本方案中会在设备端的唤醒模型将唤醒词+语音留言指令的内容均作为唤醒词，例如，“你好小驰留言给爸爸今天回家的时候记得把煤气费交一下”中“你好小驰留言给爸爸”的内容作为唤醒词。

对于步骤S22，当留言者说唤醒词+语音留言指令+语音留言内容时，唤醒词+语音留言指令的部分会触发唤醒，并计算出唤醒的时间点信息，设备端用唤醒的时间信息将唤醒点之后的音频均作为留言内容的音频段进行切割处理。直接将用户语音中的“今天回家的时候记得把煤气费交一下”切割出来。

对于步骤S23，将切割后的语音留言音频段发送至目标收听者“爸爸”。

通过该实施方式可以看出，在远场语音留言交互中，不需要服务云端也可以实现高效的留言交互。由于设备端的算力通常有限，不能够无限的扩展说法，使用的效果相对没有设备端+服务云端的更加智能，但在网络、或者其他苛刻的环境下，本方法仅仅通过设备端就可以高效的实现远场语音留言交互。

如图4所示为本发明一实施例提供的一种远场语音留言交互方法的流程图，包括如下步骤：

S31：服务云端接收设备端发送的用户语音，识别所述用户语音对应的文本，其中，所述文本至少包括：语音留言指令文本以及语音留言文本；

S32：确定所述文本中每一个文字在所述用户语音中对应的时间点，至少标记出所述语音留言指令文本以及语音留言文本与所述用户语音的时间对齐信息；

S33：至少将所述语音留言指令文本以及语音留言文本与所述用户语音的时间对齐信息发送至所述设备端，用于辅助所述设备端切割用户语音。

在本实施方式中，以服务云端为主，在服务云端的识别系统中，会识别出用户语音的指令文本内容，并将文本信息与音频时间信息进行对齐保存对应的时间关系；识别的结果将会被送入NLP自然语言处理引擎，如果用户说的内容为需要留言的内容，服务云端会将语义解析的结果以及音频文字的时间对应信息同时返回本地。

对于步骤S31，承接设备端进行说明，设备端接收到“留言给爸爸今天回家的时候记得把煤气费交一下”的语音，进行远场语音降噪，将降噪处理后的音频发送至服务云端。服务云端接收设备端发送的用户语音，识别所述用户语音对应的文本，如图5所示为本方法设备端与服务云端的整体结构。服务云端在收到用户语音后，输入至识别服务系统中，通过识别服务系统中的语音识别模块，确定输入用户语音的文本内容“留言给爸爸今天回家的时候记得把煤气费交一下”。在得到的文本内容中确定出既有语音留言指令文本“留言给爸爸”，又有语音留言文本“今天回家的时候记得把煤气费交一下”。

对于步骤S32，首先确定用户语音中每个文字对应的时间点，有了每一个字的时间，然后，将每个字组合成词语，从而确定出每个词语的时间段，得到时间对齐信息：对象：爸爸，1000ms～2000ms；时间：今天，2000ms～3000ms；内容：回家的时候记得把煤气费交一下，3000ms～7500ms。具体的，利用云端音频文本对齐服务将文本和音频时间进行对齐。其中对齐方案图6所示。横轴表示输入的音频信息，纵轴表示每次输入可能对应的文字信息。通过搜索算法在如图6中能够找到一条当前输入的音频信息与文本信息最匹配的路径，如图6中深色的点组成的路径。在此路径的基础上就能确认，每一个文字信息对应的音频输入(如a对应的输入是x2)，有了单个文字对应信息的，就可以获得整个留言的语音内容的文字对应的音频时间信息。

对于步骤S33，将在步骤S32确定的时间对齐信息发送至设备端，通过时间对齐信息辅助设备端切割用户语音。

作为一种实施方式，所述文本还包括：唤醒词；

在所述确定所述文本中每一个文字在所述用户语音中对应的时间点之后，所述方法还包括：

标记出所述唤醒词、所述语音留言指令文本以及语音留言文本与所述用户语音的时间对齐信息；

至少将所述唤醒词、所述语音留言指令文本以及语音留言文本与所述用户语音的时间对齐信息发送至所述设备端。

在本实施方式中，考虑到用户的不同使用场景，如果用户说的内容为“你好小驰留言给爸爸今天回家的时候记得把煤气费交一下”，设备端接收到之后降噪处理后发送至服务云端。服务云端接收设备端发送的用户语音，识别所述用户语音对应的文本，通过识别服务系统中的语音识别模块，确定输入用户语音的文本内容“你好小驰留言给爸爸今天回家的时候记得把煤气费交一下”。在得到的文本内容中，有唤醒词“你好小驰”，又有语音留言指令文本“留言给爸爸”，还有语音留言文本“今天回家的时候记得把煤气费交一下”。首先确定每个字对应的时间点，有了每一个字对应的时间。然后，将每个字组合成词语，从而确定出每个词语的时间段，得到时间对齐信息：唤醒词：你好小驰，0～2500ms；对象：爸爸，3500ms～4500ms；时间：今天，4500ms～5500ms；内容：回家的时候记得把煤气费交一下，5500ms～10000ms。将该时间对齐信息发送至设备端。通过时间对齐信息辅助设备端切割用户语音。

作为一种实施方式，在至少将所述语音留言指令文本以及语音留言文本与所述用户语音的时间对齐信息发送至所述设备端之前，所述方法还包括：

对所述文本进行语义理解，提取出所述文本中的留言关键信息；

将所述留言关键信息、所述语音留言指令文本以及语音留言文本与所述用户语音的时间对齐信息发送至所述设备端。

所述留言关键信息至少包括：留言对象、时间、留言内容。

在本实施方式中，如图5所示为本方法设备端与服务云端的整体结构。考虑到用户输入的语音可能带有唤醒词，可能不带有唤醒词，如果不带有唤醒词时，服务云端接收到用户语音后，会输入至自然语言理解服务中，送入语义理解的引擎就变为语音留言指令+语音留言内容。语义理解引擎会提取出留言的关键信息如留言对象，时间，留言内容等(如：对象：爸爸，时间：今天，内容：回家的时候记得把煤气费交一下)。语义理解的信息会配合文本与音频的时间对齐信息一起传送回设备端，通过准确的NLP处理将多变的语音留言触发指令准确的解析。

作为一种实施方式，所述方法还包括：

对所述文本进行唤醒词过滤，对唤醒词过滤后的文本进行语义理解，提取出所述文本中的留言关键信息；

将所述留言关键信息、所述唤醒词、所述语音留言指令文本以及语音留言文本与所述用户语音的时间对齐信息发送至所述设备端。

在本实施方式中，考虑到用户输入的语音可能带有唤醒词，可能不带有唤醒词，如果带有唤醒词时，可以使用另一种处理方式，首先用户语音的文本送入语义理解引擎之前会将唤醒词对应的文本过滤，滤除用户语音中的唤醒词，这样减少自然语言理解服务的处理工作，提升远场语音交互效率，得到语音留言指令+语音留言内容之后相同的步骤不再赘述，。

如图7所示为本发明一实施例提供的一种用于设备端的远场语音留言交互系统的结构示意图，该系统可执行上述任意实施例所述的远场语音留言交互方法，并配置在终端中。

本实施例提供的一种用于设备端的远场语音留言交互系统10包括：信息传输程序模块11，音频切割程序模块12和留言播放程序模块13。

其中，信息传输程序模块11用于缓存输入的用户语音，发送至服务云端；音频切割程序模块12用于接收所述服务云端反馈的时间对齐信息，基于所述时间对齐信息对缓存的用户语音进行切割，至少确定所述用户语音中的语音留言指令音频段以及语音留言音频段；留言播放程序模块13用于利用所述语音留言指令音频段触发留言功能，基于所述语音留言音频段确定留言内容，将所述留言内容发送至指定的设备进行播放。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的远场语音留言交互方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

缓存输入的用户语音，发送至服务云端；

利用所述语音留言指令音频段触发留言功能，基于所述语音留言音频段确定留言内容，将所述留言内容发送至指定的设备进行播放。

如图8所示为本发明一实施例提供的一种用于设备端的远场语音留言交互系统的结构示意图，该系统可执行上述任意实施例所述的远场语音留言交互方法，并配置在终端中。

本实施例提供的一种用于设备端的远场语音留言交互系统20包括：唤醒语句确定程序模块21，音频切割程序模块22和留言播放程序模块23。

其中，唤醒语句确定程序模块21用于将唤醒词和语音留言指令作为所述设备端的唤醒语句；音频切割程序模块22用于当输入的用户语音命中所述唤醒语句时，将所述用户语音中命中唤醒语句为节点对所述用户语音进行切割，将节点后的音频段落确定为语音留言音频段；留言播放程序模块23用于将所述语音留言音频段发送至指定的设备进行播放。

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

将唤醒词和语音留言指令作为所述设备端的唤醒语句；

将所述语音留言音频段发送至指定的设备进行播放。

如图9所示为本发明一实施例提供的一种用于服务云端的远场语音留言交互系统的结构示意图，该系统可执行上述任意实施例所述的远场语音留言交互方法，并配置在终端中。

本实施例提供的一种用于服务云端的远场语音留言交互系统30包括：语音识别程序模块31，语音识别程序模块32和信息传输程序模块33。

其中，语音识别程序模块31用于服务云端接收设备端发送的用户语音，识别所述用户语音对应的文本，其中，所述文本至少包括：语音留言指令文本以及语音留言文本；音频对齐程序模块32用于确定所述文本中每一个文字在所述用户语音中对应的时间点，至少标记出所述语音留言指令文本以及语音留言文本与所述用户语音的时间对齐信息；信息传输程序模块33用于至少将所述语音留言指令文本以及语音留言文本与所述用户语音的时间对齐信息发送至所述设备端，用于辅助所述设备端切割用户语音。

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

服务云端接收设备端发送的用户语音，识别所述用户语音对应的文本，其中，所述文本至少包括：语音留言指令文本以及语音留言文本；

确定所述文本中每一个文字在所述用户语音中对应的时间点，至少标记出所述语音留言指令文本以及语音留言文本与所述用户语音的时间对齐信息；

至少将所述语音留言指令文本以及语音留言文本与所述用户语音的时间对齐信息发送至所述设备端，用于辅助所述设备端切割用户语音。

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的远场语音留言交互方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的远场语音留言交互方法的步骤。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

20页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：基于机器学习的PLC语音识别方法

远场语音留言交互方法及系统

相关技术

网友询问留言