语音的生成方法和装置

文档序号：1639621 发布日期：2019-12-20 浏览：48次 >En<

阅读说明：本技术 语音的生成方法和装置 (Voice generation method and device ) 是由鲁雪冬宣善明于 2019-09-09 设计创作，主要内容包括：本发明公开了一种语音的生成方法和装置。其中,该方法包括：提取目标对象的特征信息；根据特征信息生成目标对象对应的变量语音信息；将变量语音信息与预设的模板语音信息进行合并,得到目标对象对应的语音信息,其中,外呼系统通过目标对象对应的语音信息完成目标对象对应的任务。本发明解决了现有技术中外呼话术模版单一导致难以针对用户特征进行自动对话的技术问题。(The invention discloses a method and a device for generating voice. Wherein, the method comprises the following steps: extracting characteristic information of a target object; generating variable voice information corresponding to the target object according to the characteristic information; and combining the variable voice information with preset template voice information to obtain the voice information corresponding to the target object, wherein the outbound system completes the task corresponding to the target object through the voice information corresponding to the target object. The invention solves the technical problem that automatic dialogue aiming at user characteristics is difficult to be carried out due to single external calling art template in the prior art.)

语音的生成方法和装置

技术领域

本发明涉及语音处理领域，具体而言，涉及一种语音的生成方法和装置。

背景技术

外呼系统指的是通过电脑自动往外拨打用户电话，将录制好的语音通过电脑播放给用户，在这一过程中使用的语音即为外呼话术。

常规的外呼话术模版是由多条固定的单句话组成，适用于营销类业务。例如，给用户打电话推销某个产品等，但是回访类、通知类业务，则需要针对具体的客户特征进行对话。而每个用户的特征并不相同，因此难以通过外呼系统实现该类业务。

针对现有技术中外呼话术模版单一导致难以针对用户特征进行自动对话的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语音的生成方法和装置，以至少解决现有技术中外呼话术模版单一导致难以针对用户特征进行自动对话的技术问题。

根据本发明实施例的一个方面，提供了一种语音的生成方法，包括：提取目标对象的特征信息；根据特征信息生成目标对象对应的变量语音信息；将变量语音信息与预设的模板语音信息进行合并，得到目标对象对应的语音信息，其中，外呼系统通过目标对象对应的语音信息完成目标对象对应的任务。

进一步地，模板语音信息根据预设的模板文字信息生成，模板文字信息包括变量信息和固定信息，其中，模板文字信息中的变量信息通过预设的占位符表示，其中，占位符中包括变量信息对应的标识信息。

进一步地，根据预设的模板文字信息生成模板语音信息，其中，根据预设的模板文字信息生成模板语音信息的步骤包括：根据占位符将模板文字信息进行分段，得到多段模板文字信息；分别对每段模板文字信息进行合成，得到多段模板语音信息。

进一步地，在提取目标对象的特征信息之后，确定目标对象的每个特征信息对应的标识信息；将变量语音信息与预设的模板语音信息进行合并，得到目标对象对应的语音信息的步骤包括：将每个特征信息按照特征信息的标识填充至预设的模板语音信息中。

进一步地，在提取目标对象的特征信息之后，将目标对象的特征信息与模板文字信息合成，得到合成文字；在将变量语音信息与预设的模板语音信息进行合并，得到目标对象对应的语音信息之后，将目标对象对应的语音信息和目标对象对应的合成文字对应存储。

根据本发明实施例的一个方面，提供了一种语音的生成装置，包括：提取模块，用于提取目标对象的特征信息；生成模块，用于根据特征信息生成目标对象对应的变量语音信息；合并模块，用于将变量语音信息与预设的模板语音信息进行合并，得到目标对象对应的语音信息，其中，外呼系统通过目标对象对应的语音信息完成目标对象对应的任务。

进一步地，上述装置还包括：生成模块，用于根据预设的模板文字信息生成模板语音信息，其中，生成模块包括：分段子模块，用于根据占位符将模板文字信息进行分段，得到多段模板文字信息；合成子模块，用于分别对每段模板文字信息进行合成，得到多段模板语音信息。

根据本发明实施例的一个方面，提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述的语音的生成方法。

根据本发明实施例的一个方面，提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述的语音的生成方法。

在本发明实施例中，提取目标对象的特征信息；根据特征信息生成目标对象对应的变量语音信息；将变量语音信息与预设的模板语音信息进行合并，得到目标对象对应的语音信息，其中，外呼系统通过目标对象对应的语音信息完成目标对象对应的任务。上述方案通过提取目标对象的特征信息，根据特征信息生成变量语音信息，并将变量语音信息与模板语音信息进行合并，从而生成了用于通过外呼系统对目标对象执行相关任务的语音信息。由于其生成的语音信息根据目标对象的特征信息得到，因此每个目标对象对应的语音信息与其特征强相关，也即，每个目标对象与其语音信息具有一一对应的关系，解决了现有技术中外呼话术模版单一导致难以针对用户特征进行自动对话的技术问题，进而可以实现通过外呼系统进行回访类、通知类业务等对客户特征具有针对性的外呼业务。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的语音的生成方法的流程图；

图2是根据本发明实施例的一种合成音频的示意图；

图3是根据本发明实施例的一种配置变量信息的示意图；

图4是根据本发明实施例的一种在变量模板中录入用户的特征信息的示意图；

图5是根据本发明实施例的一种存储变量语音信息的示意图；

图6是根据本发明实施例的一种存储合成文字和语音信息的示意图；

图7是根据本发明实施例的一种生成外呼话术的示意图；以及

图8是根据本发明实施例的语音的生成装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种语音的生成方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的语音的生成方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，提取目标对象的特征信息。

具体的，上述目标对象可以为待通话的用户，例如，需要对其进行回访的用户。目标对象的特征信息可以是用户的属性信息，例如：身份信息、用户购买的产品信息等。

步骤S104，根据特征信息生成目标对象对应的变量语音信息。

具体的，可以通过语音合成的方式生成特征信息对应的变量语音信息。

在一种可选的实施例，以对用户的回访为例进行说明。电饭煲厂家需要对其用户进行回访，厂家在销售电饭煲时记录了用户的相关信息，从这些信息中提取出用户的特征信息，并根据预存的语音合成方式，合成变量语音信息。例如，刘女士在购买了XX牌电饭煲一台，两个月后，XX厂家为了对刘女士进行回访，提取了刘女士的特征信息，该特征信息包括：刘、女士、XX、电饭煲。根据提取的这些特征信息再合成对应的语音，即为变量语音信息。

步骤S106，将变量语音信息与预设的模板语音信息进行合并，得到目标对象对应的语音信息，其中，外呼系统通过目标对象对应的语音信息完成目标对象对应的任务。

在上述方案中，将变量语音信息与模板语音信息进行合并，可以是将变量语音信息填充至模板语音信息中的对应位置，从而能够得到目标对象对应的语音信息。模板语音信息可以是根据模板文字信息生成的语音信息，例如，模板文字可以是“[姓氏][性别]，您好！我是[品牌]公司的回访员，请问您使用我们公司的[产品]的体验怎么样”，按照该模板文字合成语音，即可得到模板语音。

具体的，外呼系统通过电脑自动往外拨打用户的电话，从而完成一些语音任务，例如：产品推荐、用户回访等，在本申请的实施例中，以任务为回访用户为例进行说明。

仍在上述实施例中，将变量语音信息“刘”填充在[姓氏]中，将变量语音信息“女士”填充在[性别]中，将变量语音信息“XX”填充至[品牌]中，并将变量语音信息“电饭煲”填充至[产品]中，即可得到最终的语音信息。在使用时外呼系统拨通用户的电话，在检测到预设的触发语音(例如：喂、你好等)时，播放对应的语音信息，即可由及其完成对用户的回访任务。

由上可知，本申请上述实施例提取目标对象的特征信息；根据特征信息生成目标对象对应的变量语音信息；将变量语音信息与预设的模板语音信息进行合并，得到目标对象对应的语音信息，其中，外呼系统通过目标对象对应的语音信息完成目标对象对应的任务。上述方案通过提取目标对象的特征信息，根据特征信息生成变量语音信息，并将变量语音信息与模板语音信息进行合并，从而生成了用于通过外呼系统对目标对象执行相关任务的语音信息。由于其生成的语音信息根据目标对象的特征信息得到，因此每个目标对象对应的语音信息与其特征强相关，也即，每个目标对象与其语音信息具有一一对应的关系，解决了现有技术中外呼话术模版单一导致难以针对用户特征进行自动对话的技术问题，进而可以实现通过外呼系统进行回访类、通知类业务等对客户特征具有针对性的外呼业务。

作为一种可选的实施例，模板语音信息根据预设的模板文字信息生成，模板文字信息包括变量信息和固定信息，其中，模板文字信息中的变量信息通过预设的占位符表示，其中，占位符中包括变量信息对应的标识信息。

具体的，上述固定文字表示对于不同的用户或不同的产品无需进行改变的部分，变量信息用于表示需要根据不同的用户或不同的产品进行对应变化的部分。上述占位符用于在模板文字中表示变量信息。

在一个模板文字中包括多个变量信息的情况下，为了能够将准确的变量语音信息填充至模板语音信息中的准确位置，则需要为不同的变量信息进行编号，以区别不同的变量信息。

在一种可选的实施例中，一个模板为成为一条话术，首先对话术进行配置。在配置单条话术时，可以使用“#1#”、“#2#”的方式作为占位符，其中，#用于表示占位符的起始位置和终止位置，两个“#”中间的数字用于表示变量信息的标识，该变量信息的标识可以表示为变量的键，取值范围可以为1～99。

作为一种可选的实施例，方法还包括：根据预设的模板文字信息生成模板语音信息，其中，根据预设的模板文字信息生成模板语音信息的步骤包括：根据占位符将模板文字信息进行分段，得到多段模板文字信息；分别对每段模板文字信息进行合成，得到多段模板语音信息。

具体的，上述方案用于合成模板语音信息。在一种可选的实施例中，将变量信息作为分隔符将文字模板信息进行分段，将分段后的文字模板信息分别进行合成，得到模板音频，即模板语音信息，其中，由于模板文字信息为固定话术，因此仅合成一次即可，从而可以减少调用语音合成算法的次数，进而减少云存储空间占用量。

图2是根据本发明实施例的一种合成音频的示意图，结合图2所示，需要合成语音的文字为：您好，#1#，我是客户中心回访人员，为跟踪服务质量，想对您做个回访，您看方便吗？其中，#1#将该模板文字分为两段，因此分别对“您好”和“我是客户中心回访人员，为跟踪服务质量，想对您做个回访，您看方便吗”进行合成，得到两段模板语音信息。

作为一种可选的实施例，在提取目标对象的特征信息之后，上述方法还包括：确定目标对象的每个特征信息对应的标识信息；将变量语音信息与预设的模板语音信息进行合并，得到目标对象对应的语音信息的步骤包括：将每个特征信息按照特征信息的标识填充至预设的模板语音信息中。

在上述方案中，根据特征信息对应的标识信息，将其合并在语音信息中，从而保证每个变量语音信息能被合并在准确的位置上。

上述目标对象的特征信息实际为变量信息，这些变量信息需要进行配置。图3是根据本发明实施例的一种配置变量信息的示意图，结合图3所示，图3中示出了提取出的特征信息以及创建时间和更新时间，可以按照该模式对目标对象的特征信息进行存储，其中，每个特征信息都存储在其对应的标识(key)所在的行内，而特征信息则作为value进行存储。

图4是根据本发明实施例的一种在变量模板中录入用户的特征信息的示意图，结合图4，该模板中需要记录用户的电话、称呼和产品名称，从该表中即可提取到用户的特征信息，将用户的特征信息填写至图3的配置表中，即完成了对变量信息的配置。

在得到如表4所示的配置信息后，按照key值将对应的value填充至模板文字中，即可得到合成的文字，根据key值将value对应的变量语音信息填充至模板语音中，即可得到合并后的语音信息。

作为一种可选的实施例，在提取目标对象的特征信息之后，方法还包括：将目标对象的特征信息与模板文字信息合成，得到合成文字；在将变量语音信息与预设的模板语音信息进行合并，得到目标对象对应的语音信息之后，方法还包括：将目标对象对应的语音信息和目标对象对应的合成文字对应存储。

图5是根据本发明实施例的一种存储变量语音信息的示意图，结合图5所示，id即为该特征信息的编号，文字即为特征信息，音频即为该特征信息对应的变量语音信息。

将特征信息与模板文字信息进行合并，即可得到合成文字；将给变量语音信息与模板语音信息合并后，即可得到目标对象的语音信息。图6是根据本发明实施例的一种存储合成文字和语音信息的示意图，结合图6所示，音频即为合成后的语音信息，将合成文字与语音信息进行对应存储，从而能够在外呼系统使用时，机器人电话触达用户后，可以根据客户动态匹配该话术音频，达到机器人和客户交互对话的目的。例如，如果用户为王先生，即可查找到王先生所在的合成文字对应的音频；如果产品为双开门冰箱，即可查找到双开门冰箱所在的合成文字对应的音频。

在上述方案中，语音合成API调用一次需要5秒以上返回音频流，API响应时长和网络环境以及输入文字量成正比。导入用户数据后需要预先合成话术音频，上传云存储，外呼时下载到机器人服务器，减少通话延时，并保存在云存储的音频需要定期清理。为了优化语音合成API，缩短调用时间以支持实时对话，可减少或取消预先合成音频及云存储空间的使用。

图7是根据本发明实施例的一种生成外呼话术的示意图，结合图7对上述的语音的生成方法进行说明，首先需要进行话术配置，使用#{1-99}#填充变量位置，生成包含变量的话术分段合成音频。然后进行配置变量，生成用户特征信息模板，在该模板中填充用户的变量信息。最后导入已填充特征信息的用户数据，进行变量音频合成以及话术音频合成，最后进行外呼，以对用户进行回访。

实施例2

根据本发明实施例，提供了一种语音的生成装置的实施例，图8是根据本发明实施例的语音的生成装置的示意图，如图8所示，该装置包括：

提取模块80，用于提取目标对象的特征信息。

生成模块82，用于根据特征信息生成目标对象对应的变量语音信息。

合并模块84，用于将变量语音信息与预设的模板语音信息进行合并，得到目标对象对应的语音信息，其中，外呼系统通过目标对象对应的语音信息完成目标对象对应的任务。

作为一种可选的实施例，装置还包括：

生成模块，用于根据预设的模板文字信息生成模板语音信息，其中，生成模块包括：

分段子模块，用于根据占位符将模板文字信息进行分段，得到多段模板文字信息；

合成子模块，用于分别对每段模板文字信息进行合成，得到多段模板语音信息。

作为一种可选的实施例，上述装置还包括：确定模块，用于在提取目标对象的特征信息之后，确定目标对象的每个特征信息对应的标识信息；填充模块，用于将变量语音信息与预设的模板语音信息进行合并，得到目标对象对应的语音信息的步骤包括：将每个特征信息按照特征信息的标识填充至预设的模板语音信息中。

作为一种可选的实施例，装置还包括：合成模块，用于在提取目标对象的特征信息之后，将目标对象的特征信息与模板文字信息合成，得到合成文字；存储模块，用于在将变量语音信息与预设的模板语音信息进行合并，得到目标对象对应的语音信息之后，将目标对象对应的语音信息和目标对象对应的合成文字对应存储。

实施例3

根据本发明实施例，提供了一种存储介质，存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行实施例1中任意一项所述的语音的生成方法。

实施例4

根据本发明实施例，提供了一种处理器，处理器用于运行程序，其中，所述程序运行时执行实施例1中任意一项所述的语音的生成方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

13页详细技术资料下载

语音的生成方法和装置

相关技术

网友询问留言