音频或音频链接的生成方法及系统

文档序号：600197 发布日期：2021-05-04 浏览：23次 >En<

阅读说明：本技术 音频或音频链接的生成方法及系统 (Method and system for generating audio or audio link ) 是由王国李勇于 2020-12-28 设计创作，主要内容包括：本发明实施例提供一种音频或音频链接的生成方法。该方法包括：将文本进行切割处理,生成多个文本段；将多个文本段按照进栈方式向语音对话平台逐步请求TTS服务；按照出栈方式生成多个音频链接或多个音频文件。本发明实施例还提供一种音频或音频链接的生成系统。本发明实施例为用户或者公司提供了高度可定制化的文字或者文章链接生成音频流或者音频链接,为用户定制最“可甜可盐”的声音,可以制作各种定制化的听文章朗读软件,为智能家居产品提供可定制化的人工智能语音。同时还生成功能中为用户提供试听功能,提高用户的体验。(The embodiment of the invention provides a method for generating audio or audio links. The method comprises the following steps: cutting the text to generate a plurality of text segments; gradually requesting TTS service from the plurality of text segments to the voice conversation platform according to a stacking mode; and generating a plurality of audio links or a plurality of audio files according to the popping mode. The embodiment of the invention also provides a system for generating the audio or the audio link. The embodiment of the invention provides highly customizable words or article links for users or companies to generate audio streams or audio links, customizes the most sweet and salty sound for the users, can manufacture various customized article listening and reading software, and provides customizable artificial intelligent voice for intelligent household products. Meanwhile, a trial listening function is provided for the user in the generating function, and the user experience is improved.)

音频或音频链接的生成方法及系统

技术领域

本发明涉及智能语音领域，尤其涉及一种音频或音频链接的生成方法及系统。

背景技术

为了实现将文字转换成音频，通常使用文本转语音工具。用户在软件上输入或复制粘贴一些文字，用户再从软件中选择一些不同的音色，然后点击合成音频，生成用户需要的音频。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

文本转语音工具为了适普性，主要支持手动的内容输入和复制内容去生成音频流，通常使用标记文本方式，串行的合成音频，没法实现分布式生成音频链接，做到边试听边合成，要实现此技术需要考虑各种因素，实现难度大，需要花费的时间长，而且可能还会出现试听的音频顺序不一致(朗读的文字和音频不匹配)，另外背后没有强大的AI语音技术提供支持，没法实现多个性化定制。

发明内容

为了至少解决现有技术中串行合成处理效率慢、无法做到边合成边试听、无法为用户提供个性化音频生成的问题。

第一方面，本发明实施例提供一种音频或音频链接的生成方法，包括：

将文本进行切割处理，生成多个文本段；

将所述多个文本段按照进栈方式向语音对话平台逐步请求TTS服务；

按照出栈方式生成多个音频链接或多个音频文件。

第二方面，本发明实施例提供一种音频或音频链接的生成系统，包括：

文本切割程序模块，用于将文本进行切割处理，生成多个文本段；

服务请求程序模块，用于将所述多个文本段按照进栈方式向语音对话平台逐步请求TTS服务；

出栈程序模块，用于按照出栈方式生成多个音频链接或多个音频文件。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的音频或音频链接的生成方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的音频或音频链接的生成方法的步骤。

本发明实施例的有益效果在于：通过本方法实现的软件为用户或者公司提供了高度可定制化的文字或者文章链接生成音频流或者音频链接，为用户定制最“可甜可盐”的声音，可以制作各种定制化的听文章朗读软件(听朗读文章或者新闻)，为智能家居产品提供可定制化的人工智能语音。同时还生成功能中为用户提供试听功能，提高用户的体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种音频或音频链接的生成方法的流程图；

图2是本发明一实施例提供的一种音频或音频链接的生成方法的整体流程图；

图3是本发明一实施例提供的一种音频或音频链接的生成系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种音频或音频链接的生成方法的流程图，包括如下步骤：

S11：将文本进行切割处理，生成多个文本段；

S12：将所述多个文本段按照进栈方式向语音对话平台逐步请求TTS服务；

S13：按照出栈方式生成多个音频链接或多个音频文件。

在本实施方式中，前期做了大量软件和技术的相关调研，站在用户使用角度上设计出了能实现链接或者用户自行输入文本转音频或者音频链接的工具；可以基于我们开发的工具制作各种软件，譬如制作公众号文章里面的文章朗读，或者一些儿童朗读产品。

对于步骤S11，用户将需要转换成音频的文本输入到搭载本方法的工具中，接收到文本之后，对分别进行切割，将其切割成多个文本段。本方法考虑到公众号文章、或儿童朗读的环境，因此本方法可处理的文本量是较大的。例如，公众号中的文章、又或者安徒生童话，都是有成千上万字的内容，切割后也会有大量的文本段。

对于步骤S12，切割出大量的文本段后，并发的通过Http接口发送每个文本段到工具的后台。后台收到文本，会对接语音对话平台(例如思必驰的语音对话平台)的TTS(TextTo Speech，从文本到语音)文本转语音技术。将这些文本段按照进栈方式向思必驰语音对话平台逐步请求TTS服务。

对于步骤S13，TTS服务处理完之后，会按照出栈方式逐步的生成多个音频链接或音频文件。由于考虑到用户需要试听的功能，提供音频的同时还提供了音频链接，用户点击音频链接可以直接试听，也可以直接下载音频段试听。在TTS服务过程中，不断的进栈、出栈处理，实现了边转音频，边为用户提供试听的功能，试听功能不必等待文本全部合成完毕，用户无需等待。

在试听的时候，主要采用了分布式，根据(切割)每句话与音频段进行匹配。最后所有的文本段转换成音频后，通过Http接口返回给用户所需要的整体的音频流或者音频链接。整体的流程图如图2所示。

通过该实施方式可以看出，使用进栈、出栈为语音转文本实现高效率转化，同时在TTS服务过程中为用户提供了试听功能，无需等待全部处理完毕，提高用户的使用体验。

作为一种实施方式，在本实施例中，所述将文本进行切割处理，生成多个文本段包括：

响应于用户的个性化需求，对文本进行切割处理。

在本实施方式中，考虑到用户在转化音频时，会有独特的个性化需求。例如，搭载本方法的工具会将一篇文章先展示给用户。用户可以对文章进行文本再加工。例如，对文章中的多音字进行纠正、进一步添加停顿、设定不同的语速、自定义音色以及音量大小。这些功能在工具中都为用户进行提供。当用户个性化处理之后，点击工具的生成音频，工具开始对文本进行切割处理。

所述对文本进行切割处理还包括：根据标点符号对文本进行切割。在本实施方式中，考虑到合理的分割，标点符号较为标准，例如，可以设定一个句号进行分割，或者两个句号进行分割。这个可以根据实际情况进行调整。

通过该实施方式可以看出，为用户提供了个性化自定义的功能，让生成的音频更加贴合用户的需求。可以将生成的音频适用于文章朗读产品或者儿童朗读产品。

作为一种实施方式，所述文本来自于爬虫链接爬取用户上传的链接以及用户输入的文本。

在本实施方式中，考虑到文本如果全由用户输入过于麻烦，本方法提供了链接搜索文章的功能。用户在工具中输入文章链接，后台收到文章链接，通过爬虫爬取到该文章链接中的内容。爬取后还会进行一系列的容错处理。处理后将文本通过工具向用户进行展示。

通过该实施方式可以看出，为用户提供了高度可定制化的文字或文章链接来生成音频流或音频链接，便于用户的使用，提高使用效率。

如图3所示为本发明一实施例提供的一种音频或音频链接的生成系统的结构示意图，该系统可执行上述任意实施例所述的音频或音频链接的生成方法，并配置在终端中。

本实施例提供的一种音频或音频链接的生成系统10包括：文本切割程序模块11，服务请求程序模块12和出栈程序模块13。

其中，文本切割程序模块11用于将文本进行切割处理，生成多个文本段；服务请求程序模块12用于将所述多个文本段按照进栈方式向语音对话平台逐步请求TTS服务；出栈程序模块13用于按照出栈方式生成多个音频链接或多个音频文件。

进一步地，所述文本切割程序模块用于：

响应于用户的个性化需求，对文本进行切割处理。

进一步地，所述文本切割程序模块还用于：

根据标点符号对文本进行切割。

进一步地，所述文本来自于爬虫链接爬取用户上传的链接以及用户输入的文本。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的音频或音频链接的生成方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

将文本进行切割处理，生成多个文本段；

将所述多个文本段按照进栈方式向语音对话平台逐步请求TTS服务；

按照出栈方式生成多个音频链接或多个音频文件。

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的音频或音频链接的生成方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的音频或音频链接的生成方法的步骤。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

10页详细技术资料下载

音频或音频链接的生成方法及系统

相关技术

网友询问留言