智能外呼语音拼接方法、装置、设备、介质和程序产品

文档序号：1923523 发布日期：2021-12-03 浏览：15次 >En<

阅读说明：本技术 智能外呼语音拼接方法、装置、设备、介质和程序产品 (Intelligent outbound voice splicing method, device, equipment, medium and program product ) 是由牛伯宇陈永录刘浩韩萌于 2021-07-29 设计创作，主要内容包括：本公开提供了一种智能外呼语音拼接方法,可以应用于人工智能技术领域。该智能外呼语音拼接方法包括：获取智能外呼过程的通话日志、多个客户语音片段及与多个客户语音片段分别对应交互的多个预设话术文本；将多个预设话术文本分别转换为交互语音片段；基于通话日志记载的交互时序,将多个客户语音片段和各交互语音片段拼接,得到智能外呼过程的完整对话语音。本公开还提供了一种智能外呼语音拼接装置、设备、存储介质和程序产品。本公开通过将智能外呼过程中的预设话术文本转换为交互语音片段,且将交互语音片段和客户语音片段拼接起来形成智能外呼过程的完整对话语音,有利于提高对智能外呼过程的质检分析效率以及分析的准确度。(The present disclosure provides an intelligent outbound voice splicing method, which can be applied to the technical field of artificial intelligence. The intelligent outbound voice splicing method comprises the following steps: the method comprises the steps of obtaining a call log of an intelligent outbound process, a plurality of client voice segments and a plurality of preset call texts which are respectively and correspondingly interacted with the client voice segments; respectively converting a plurality of preset dialect texts into interactive voice fragments; and splicing the plurality of client voice segments and each interactive voice segment based on the interactive time sequence recorded by the call log to obtain the complete conversation voice of the intelligent outbound process. The present disclosure also provides an intelligent outbound voice splicing apparatus, device, storage medium and program product. According to the method and the device, the preset speech text in the intelligent outbound process is converted into the interactive speech fragment, and the interactive speech fragment and the client speech fragment are spliced to form the complete dialogue speech in the intelligent outbound process, so that the quality inspection analysis efficiency and the analysis accuracy in the intelligent outbound process are improved.)

技术领域

本公开涉及人工智能领域，具体涉及智能外呼领域，更具体地涉及一种智能外呼语音拼接方法、装置、设备、介质和程序产品。

背景技术

随着国内信贷市场急速扩张和竞争程度加剧，出现大量信用卡、小额贷款等金融信贷机构，随之而来的是国内信贷市场上出现了大量信贷不良等问题。对于这些信贷不良等问题，银行业金融机构加强了对信贷不良资产的处置和核销力度，包括催收逾期欠款等不良资产，一般通过拨打相应的电话给客户来催收逾期欠款等。目前常利用智能外呼平台给客户拨打电话，与客户进行人机交互，然后对相应的通话语音进行质检分析获取客户的需求以提高业务处理效率。然而，目前的智能外呼过程中智能外呼平台存储的通话语音仅为片段式音频，而且仅包括客户语音片段，银行业金融机构无法获取到完整对话语音来进行质检分析，存在质检分析效率不高以及准确度较低的问题。

发明内容

鉴于上述问题，本公开提供了形成完整对话语音的智能外呼语音拼接方法、装置、设备、介质和程序产品。

根据本公开的第一个方面，提供了一种智能外呼语音拼接方法，包括：获取智能外呼过程的通话日志、多个客户语音片段及与所述多个客户语音片段分别对应交互的多个预设话术文本；将所述多个预设话术文本分别转换为交互语音片段；基于所述通话日志记载的交互时序，将所述多个客户语音片段和各所述交互语音片段拼接，得到所述智能外呼过程的完整对话语音。

根据本公开的实施例，所述通话日志包括所述预设话术文本的第一播放顺序和各所述客户语音片段的起止时间，所述基于所述通话日志记载的交互时序，将所述多个客户语音片段和各所述交互语音片段拼接，得到所述智能外呼过程的完整对话语音包括：

根据所述起止时间，得到所述客户语音片段的第二播放顺序；

基于所述第二播放顺序，将所述多个客户语音片段排序；

按照所述第一播放顺序，在排序后各相邻的所述客户语音片段之间分别插入一个所述交互语音片段，形成所述完整对话语音。

根据本公开的实施例，所述方法还包括：在插入所述交互语音片段之后，在所述交互语音片段和与之相邻的客户语音片段之间插入静音片段。

根据本公开的实施例，所述方法还包括：根据所述起止时间，计算所述多个客户语音片段中各相邻的两个客户语音片段之间的时间间隔；将所述交互语音片段插入与之相邻的两个客户语音片段之间的时间间隔后，在所述交互语音片段和与之相邻的客户语音片段之间均插入所述静音片段。

根据本公开的实施例，所述通话日志还包括各所述预设话术文本的播放记录，所述基于所述通话日志记载的交互时序，将所述多个客户语音片段和各所述交互语音片段拼接，得到所述智能外呼过程的完整对话语音还包括：基于所述播放记录，判断各所述预设话术文本在所述智能外呼过程中是否完整播放；当所述预设话术文本未完整播放时，按照所述播放记录中所述预设话术文本的播放进度，剪辑所述预设话术文本对应的所述交互语音片段，得到播放语音片段；其中，在将所述多个客户语音片段和各所述交互语音片段拼接时，将所述未完整播放的预设话术文本对应的所述交互语音片段替换为播放语音片段，再将所述播放语音片段和与之相邻的客户语音片段拼接。

根据本公开的实施例，所述将所述多个预设话术文本分别转换为交互语音片段采用TTS语音合成。

根据本公开的实施例，所述方法还包括：在形成所述完整对话语音之后，对所述完整对话语音进行质检和分析。

本公开的第二方面提供了一种智能外呼语音拼接装置，包括：获取模块，用于获取智能外呼过程的通话日志、多个客户语音片段及与所述多个客户语音片段分别对应交互的多个预设话术文本；转换模块，用于将所述多个预设话术文本分别转换为交互语音片段；以及语音拼接模块，用于基于所述通话日志记载的交互时序，将所述多个客户语音片段和各所述交互语音片段拼接，得到所述智能外呼过程的完整对话语音。

根据本公开的实施例，所述通话日志包括所述预设话术文本的第一播放顺序和各所述客户语音片段的起止时间，所述语音拼接模块包括：第二播放顺序单元，用于根据所述起止时间，得到所述客户语音片段的第二播放顺序；排序单元，用于基于所述第二播放顺序，将所述多个客户语音片段排序；第一插入单元，用于按照所述第一播放顺序，在排序后各相邻的所述客户语音片段之间分别插入一个所述交互语音片段，形成所述完整对话语音。

根据本公开的实施例，所述语音拼接模块还包括：第二插入单元，用于在插入所述交互语音片段之后，在所述交互语音片段和与之相邻的客户语音片段之间插入静音片段。

根据本公开的实施例，所述装置还包括：计算模块，用于根据所述起止时间，计算所述多个客户语音片段中各相邻的两个客户语音片段之间的时间间隔；第三插入模块，用于将所述交互语音片段插入与之相邻的两个客户语音片段之间的时间间隔后，在所述交互语音片段和与之相邻的客户语音片段之间均插入所述静音片段。

根据本公开的实施例，所述通话日志还包括各所述预设话术文本的播放记录，所述语音拼接模块还包括：判断单元，用于基于所述播放记录，判断各所述预设话术文本在所述智能外呼过程中是否完整播放；播放语音单元，用于当所述预设话术文本未完整播放时，按照所述播放记录中所述预设话术文本的播放进度，剪辑所述预设话术文本对应的所述交互语音片段，得到播放语音片段；其中，在将所述多个客户语音片段和各所述交互语音片段拼接时，将所述未完整播放的预设话术文本对应的所述交互语音片段替换为播放语音片段，再将所述播放语音片段和与之相邻的客户语音片段拼接。

根据本公开的实施例，所述转换模块包括TTS合成单元，用于将所述多个预设话术文本分别转换为交互语音片段。

根据本公开的实施例，所述装置还包括：分析模块，用于在形成所述完整对话语音之后，对所述完整对话语音进行质检和分析。

本公开的第三方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行上述智能外呼语音拼接方法。

本公开的第四方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述智能外呼语音拼接方法。

本公开的第五方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述智能外呼语音拼接方法。

在本公开实施例采用的上述至少一个技术方案能够达到以下有益效果：

本公开通过将智能外呼过程中的预设话术文本转换为交互语音片段，且将交互语音片段和客户语音片段拼接起来形成智能外呼过程的完整对话语音，有利于提高对智能外呼过程的质检分析效率以及分析的准确度。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述内容以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的智能外呼语音拼接方法的系统架构图；

图2示意性示出了根据本公开实施例的智能外呼语音拼接方法的流程图；

图3示意性示出了根据本公开实施例的智能外呼语音拼接方法步骤S230的详细流程图；

图4示意性示出了根据本公开实施例的智能外呼语音拼接方法的时间轴；

图5示意性示出了根据本公开实施例的智能外呼语音拼接方法的流程图；

图6示意性示出了根据本公开另一实施例的智能外呼语音拼接方法的流程图；

图7示意性示出了根据本公开实施例的智能外呼语音拼接装置的结构框图；

图8示意性示出了根据本公开实施例的智能外呼语音拼接装置语音拼接模块730的结构框图；

图9示意性示出了根据本公开实施例的智能外呼语音拼接装置的结构框图；以及

图10示意性示出了根据本公开实施例的适于实现智能外呼语音拼接方法的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

在本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

本公开的实施例提供了一种智能外呼语音拼接方法，涉及人工智能领域，具体涉及智能外呼领域，包括：获取智能外呼过程的通话日志、多个客户语音片段及与多个客户语音片段分别对应交互的多个预设话术文本；将多个预设话术文本分别转换为交互语音片段；基于通话日志记载的交互时序，将多个客户语音片段和各交互语音片段拼接，得到智能外呼过程的完整对话语音。

本公开的实施例基于智能外呼平台发起的智能外呼通话进行展开，在智能外呼过程中，根据配置好的预设话术文本进行语音转换文字对客户提供对应的交互语音，同时在通话日志中记录调用的预设话术文本内容，例如通过TTS引擎将预设话术文本转换为相应的交互语音片段；客户在收到智能外呼平台发出的交互语音后回复相应的客户语音；智能外呼平台收到客户语音后，在通话日志中记录客户说话开始时间和结束时间，并通过MRCP协议调用ASR引擎对该客户语音进行语音识别，并将该客户语音转换为文字；智能外呼平台收到ASR引擎返回的文字后，通过HTTP协议调用业务流程请求对话状态更新，同时业务流程对话管理收到智能外呼平台的对话状态更新请求后，调用语义解析模块对客户语音转换的文字进行语义解析；根据语义解析的内容，智能外呼平台继续对客户提供配置好的预设话术文本对应的TTS语音，重复进行上述操作，从而完成智能外呼过程。

图1示意性示出了根据本公开实施例的智能外呼语音拼接方法的系统架构图。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

客户可以使用终端设备101通过网络102与服务器103交互。服务器103通过网络102发起对客户的通话请求。终端设备101上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备101可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器103可以是提供各种服务的服务器，例如可以对客户利用终端设备101与服务器103交互过程中，对智能外呼过程的存储、编辑、以及提供ASR服务和TTS语音服务的智能外呼平台服务器等(仅为示例)。

需要说明的是，本公开实施例所提供的智能外呼语音拼接方法一般可以由服务器103执行。相应地，本公开实施例所提供的智能外呼语音拼接装置一般可以设置于服务器103中。本公开实施例所提供的智能外呼语音拼接方法也可以由不同于服务器103且能够与终端设备101和/或服务器103通信的服务器或服务器集群执行。相应地，本公开实施例所提供的智能外呼语音拼接装置也可以设置于不同于服务器103且能够与终端设备101和/或服务器103通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

以下将基于图1描述的系统架构，通过图2～图6对公开实施例的智能外呼语音拼接方法进行详细描述。

图2示意性示出了根据本公开实施例的智能外呼语音拼接方法的流程图。

如图2所示，该实施例的智能外呼语音拼接方法包括操作S210～操作S230，该智能外呼语音拼接方法可以由服务器103执行。

在操作S210，获取智能外呼过程的通话日志、多个客户语音片段及与多个客户语音片段分别对应交互的多个预设话术文本。

根据本公开的实施例，预设话术文本为预置于智能外呼平台中的通用话术，用于在智能外呼过程中与客户交互，目前在交互过程中，例如，“您好，这里是工商银行外呼平台，不知道您现在接听是否方便？”，“根据您办理的相关业务，我行提示您上月信用卡已欠缴，请尽快前往相关业务办理平台”“感谢您的接听，祝您生活愉快”等等。预设话术文本还包括初始话术文本和结束话术文本以及中间话术文本，其中初始话术文本和结束话术文本分别作为智能外呼过程的开始标识和结束标识。

根据本公开的实施例，获取到的预设话术文本为预先配置的完整文本，在智能外呼过程中，该预设话术文本转换的交互语音片段完整播放或者不完整播放，其中初始话术文本和结束话术文本在智能外呼过程中确定为完整播放，该初始话术文本和结束话术文本为对客户进行相关的业务介绍等内容，无法被客户打断。

根据本公开的实施例，通话日志包括预设话术文本的第一播放顺序和各客户语音片段的起止时间。

根据本公开的实施例，通话日志还包括各预设话术文本的播放记录，播放记录用于判断各预设话术文本在智能外呼过程中是否完整播放。

在操作S220，将多个预设话术文本分别转换为交互语音片段。

根据本公开的实施例，将多个预设话术文本分别转换为交互语音片段采用TTS语音合成技术。

在操作S230，基于通话日志记载的交互时序，将多个客户语音片段和各交互语音片段拼接，得到智能外呼过程的完整对话语音。

图3示意性示出了根据本公开实施例的智能外呼语音拼接方法步骤S230的详细流程图；根据本公开的实施例，操作S230还可以包括操作S231～操作S233。

如图3所示，根据本公开的实施例，在操作S231，根据各客户语音片段的起止时间，得到所有客户语音片段的第二播放顺序。其中各客户语音片段的起止时间为具体的时刻，按照时刻的先后顺序可以得到智能外呼过程中所有的客户语音片段的第二播放顺序。

在操作S232，基于第二播放顺序，将多个客户语音片段排序。

图4示意性示出了根据本公开实施例的智能外呼语音拼接方法的时间轴。

如图4所示，例如，将智能外呼过程中的客户语音片段按照时刻顺序排列在时间轴上，时间轴上1表示交互语音片段，2表示客户语音片段，其中bos1和bos2分别为时间轴上两个客户语音片段的起始时间，eos1和eos2分别为时间轴上两个客户语音片段的终止时间，根据bos1、bos2、以及eos1、eos2在时间轴上的排列顺序，对客户语音片段进行排序。

在操作S233，按照第一播放顺序，在排序后各相邻的所述客户语音片段之间分别插入一个交互语音片段，形成完整对话语音。通过将交互语音片段插入具有确定时间线的客户语音片段之间，形成完整的通话语音，有利于质检分析。

图5示意性示出了根据本公开实施例的智能外呼语音拼接方法的流程图；根据本公开的实施例，该实施例的智能外呼语音拼接方法还包括操作S240。

如图5所示，在操作S240，在插入交互语音片段之后，在交互语音片段和与之相邻的客户语音片段之间插入静音片段。

根据本公开的实施例，根据起止时间，计算多个客户语音片段中各相邻的两个客户语音片段之间的时间间隔；在时间间隔中分别插入交互语音片段，再分别在交互语音片段和与之相邻的客户语音片段之间均插入静音片段。

请再参阅图4，时间轴上3为静音片段，通过计算时间轴上两个客户语音片段的时间间隔，即bos2与eos1的时间间隔，在该时间间隔中插入相应的交互语音片段1，交互语音片段1的时长为通过将预设文本转换为相应语速的交互语音片段，其中语速为预先设置好的播放速度，接着在交互语音片段与相邻的客户语音片段之间插入与剩下的时间间隔时长相等的静音片段。

根据本公开的实施例，交互语音片段和与之相邻的客户语音片段之间的静音片段的时长相等。

例如，在进行静音片段插入时，使在时间轴上的交互语音片段2两侧的静音片段3时长相等。

根据本公开的实施例，由于实际的智能外呼过程中，智能外呼平台会等待一段时间以识别客户是否结束此段客户语音，识别到客户结束说话后，继续选择预设话术文本来转换为相应的交互语音片段进行播放。为了还原实际的智能外呼过程，在交互语音片段和与之相邻的客户语音片段之间插入静音片段以表示上述等待时间，方便质检分析平台或者人员对完整对话语音中客户语音片段和交互语音片段进行区分，有利于提高质检分析效率，和从完整对话语音中获取准确度更高的质检分析结果。

图6示意性示出了根据本公开另一实施例的智能外呼语音拼接方法的流程图；根据本公开的实施例，该实施例的智能外呼语音拼接方法包括操作S601～操作S606。

如图6所示，在操作S601，获取智能外呼过程的通话日志、多个客户语音片段及与多个客户语音片段分别对应交互的多个预设话术文本。

根据本公开的实施例，通话日志还包括各预设话术文本的播放记录，播放记录用于判断各预设话术文本在智能外呼过程中是否完整播放，播放记录中记录了各预设话术文本的播放进度。

在操作S602，将多个预设话术文本分别转换为交互语音片段。

在操作S603，基于播放记录，判断预设话术文本在智能外呼过程中是否播放完整。

在操作S604，若一预设话术文本在智能外呼过程中未完整播放给客户，即在实际的智能外呼过程中被客户打断，按照播放记录中该预设话术文本的播放进度，对预设话术文本对应的交互语音片段进行剪辑处理，得到实际的智能外呼过程中已播放给客户的那段交互语音片段，即播放语音片段。

例如，比较预设话术文本的完整播放时长与播放记录中预设话术文本的实际播放时长，其中预设话术文本的完整播放时长为按照预设的语速转换的播放时间，例如智能外呼平台按照预设话术文本给客户播放语音应为“今天天气晴，36℃”，而实际外呼过程中由于客户的打断，智能外呼平台仅播放“今天天气”的内容，即预设话术文本未完整播放的情况。

在操作S605，将未完整播放的交互语音片段均替换为播放语音片段。由于目前对智能外呼过程获取到的只有预设话术文本和客户语音片段，无法对实际智能外呼过程中交互信息得到准确分析，而本公开通过判断预设话术文本在智能外呼过程中未完整播放，并将拼接过程中未完整播放的交互语音片段均替换为播放语音片段后，还原了实际智能外呼过程的通话内容，有利于提高质检分析的准确度，方便对客户进行需求分析和业务进度追踪。

在操作S606，基于通话日志记载的交互时序，将多个客户语音片段，与各交互语音片段或者播放语音片段拼接，得到智能外呼过程的完整对话语音。

若在智能外呼过程中各预设话术文本均完整播放给客户，则直接将多个客户语音片段与各预设话术文本对应的交互语音片段拼接，得到智能外呼过程的完整对话语音。

根据本公开的实施例，在形成完整对话语音之后，对完整对话语音进行质检和分析。通过对完整对话语音进行质检和分析，获取客户的实际需求以及对业务进度进行有效追踪，以提高业务处理效率。通过分析完整对话语音中客户的语气、语义，判断该通智能外呼过程中的业务执行是否有效，以及是否需要对该客户进行后续业务跟进，有利于降低质检成本，以及避免重复呼叫同一客户而导致的资源浪费。

基于上述智能外呼语音拼接方法，本公开还提供了一种智能外呼语音拼接装置。以下将结合图7对该装置700进行详细描述。

图7示意性示出了根据本公开实施例的智能外呼语音拼接装置的结构框图。

如图7所示，该实施例的智能外呼语音拼接装置700包括获取模块710、转换模块720和语音拼接模块730。

获取模块710用于获取智能外呼过程的通话日志、多个客户语音片段及与多个客户语音片段分别对应交互的多个预设话术文本。在一实施例中，获取模块710可以用于执行前文描述的操作S210，用于在智能外呼平台通过ASR引擎将客户语音片段转换为文字之前，先将客户语音片段存储于装置700中；在智能外呼平台在进行文本转换语音之前将每一预设话术文本存储于装置700中；以及提取智能外呼过程的通话日志。

转换模块720用于将多个预设话术文本分别转换为交互语音片段。在一实施例中，转换模块720可以用于执行前文描述的操作S220，在此不再赘述。

语音拼接模块730用于基于通话日志记载的交互时序，将多个客户语音片段和各交互语音片段拼接，得到智能外呼过程的完整对话语音。在一实施例中，语音拼接模块730可以用于执行前文描述的操作S230，在此不再赘述。

图8示意性示出了根据本公开实施例的智能外呼语音拼接装置语音拼接模块730的结构框图。

如图8所示，根据本公开的实施例，该语音拼接模块730包括：第二播放顺序单元731，用于根据起止时间，得到客户语音片段的第二播放顺序；排序单元732，用于基于第二播放顺序，将多个客户语音片段排序；第一插入单元733，用于按照第一播放顺序，在排序后各相邻的客户语音片段之间分别插入一个交互语音片段，形成完整对话语音。

图9示意性示出了根据本公开实施例的智能外呼语音拼接装置的结构框图。

如图9所示，根据本公开的实施例，语音拼接模块730还包括：第二插入单元734，用于在插入交互语音片段之后，在交互语音片段和与之相邻的客户语音片段之间插入静音片段。

根据本公开的实施例，装置700还包括：计算模块740，用于根据起止时间，计算所述多个客户语音片段中各相邻的两个客户语音片段之间的时间间隔；第三插入模块750，用于在时间间隔中分别插入客户语音片段，再分别在交互语音片段和与之相邻的交互语音片段之间插入静音片段。

根据本公开的实施例，通话日志还包括各预设话术文本的播放记录，语音拼接模块730还包括：判断单元735，用于基于播放记录，判断各所述预设话术文本在智能外呼过程中是否完整播放；播放语音单元736，用于当预设话术文本未完整播放时，按照播放记录中预设话术文本的播放进度，剪辑预设话术文本对应的交互语音片段，得到播放语音片段；其中，在将多个客户语音片段和各交互语音片段拼接时，将未完整播放的预设话术文本对应的交互语音片段替换为播放语音片段，再将播放语音片段和与之相邻的交互语音片段拼接。

根据本公开的实施例，该转换模块720包括TTS合成单元760，用于将多个预设话术文本分别转换为交互语音片段。

根据本公开的实施例，该装置700还包括：分析模块770，用于在形成完整对话语音之后，对完整对话语音进行质检和分析。

本公开提供的智能外呼语音拼接装置，通过获取模块710、转换模块720、语音拼接模块730的功能执行，将智能外呼过程中的预设话术文本转换为交互语音片段，且将交互语音片段和客户语音片段拼接起来形成智能外呼过程的完整对话语音，有利于提高对智能外呼过程的质检分析效率以及分析的准确度。

根据本公开的实施例，获取模块710、转换模块720和语音拼接模块730、计算模块740、第三插入模块750、分析模块770中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，获取模块710、转换模块720和语音拼接模块730、计算模块740、第三插入模块750、分析模块770中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，获取模块710、转换模块720和语音拼接模块730、计算模块740、第三插入模块750、TTS合成模块760、分析模块770中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图10示意性示出了根据本公开实施例的适于实现智能外呼语音拼接方法的电子设备的方框图。

如图10所示，根据本公开实施例的电子设备1000包括处理器1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。处理器1001例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))等等。处理器1001还可以包括用于缓存用途的板载存储器。处理器1001可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1003中，存储有电子设备900操作所需的各种程序和数据。处理器1001、ROM1002以及RAM1003通过总线1004彼此相连。处理器1001通过执行ROM 1002和/或RAM1003中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 1002和RAM 1003以外的一个或多个存储器中。处理器1001也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备1000还可以包括输入/输出(I/O)接口1005，输入/输出(I/O)接口1005也连接至总线1004。电子设备1000还可以包括连接至I/O接口1005的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分909经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的智能外呼语音拼接方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 1002和/或RAM 1003和/或ROM 1002和RAM 1003以外的一个或多个存储器。

本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本公开实施例所提供的智能外呼语音拼接方法。

在该计算机程序被处理器1001执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分1009被下载和安装，和/或从可拆卸介质1011被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被处理器1001执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

19页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种语音合成方法及语音合成模型的训练方法

智能外呼语音拼接方法、装置、设备、介质和程序产品

相关技术

网友询问留言