CN110797004A - 数据传输方法和装置 - Google Patents
数据传输方法和装置 Download PDFInfo
- Publication number
- CN110797004A CN110797004A CN201810864442.9A CN201810864442A CN110797004A CN 110797004 A CN110797004 A CN 110797004A CN 201810864442 A CN201810864442 A CN 201810864442A CN 110797004 A CN110797004 A CN 110797004A
- Authority
- CN
- China
- Prior art keywords
- packet data
- text
- voice
- data
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
Abstract
本申请实施例公开了数据传输方法和装置。该方法的一具体实施方式包括:基于音频数据中的边界信息,对音频数据进行切分,得到多个包数据;对多个包数据中的每一个包数据进行编码,得到编码后的包数据,以及按照对应的播放次序,将编码后的包数据发送至终端。实现了以流式方式即将音频数据切分为包数据传输音频数据至终端并且可自适应网络状况控制切分方式,避免了诸如根据文本的停顿进行断句后传输较长的语句的语音而造成的播放卡顿的问题。同时,基于边界信息对音频数据的精确切分可确保每一个包数据在字的粒度上的完整性,避免了音频数据的播放中的抖动问题。
Description
技术领域
本申请涉及计算机领域,具体涉及数据传输领域,尤其涉及数据传输方法和装置。
背景技术
在向用户提供的与音频数据相关的服务中,是由服务器将诸如合成的语音、音乐的音频数据下发到用户的终端,在用户的终端上进行播放。
发明内容
本申请实施例提供了数据传输方法和装置。
第一方面,本申请实施例提供了数据传输方法,该方法包括:基于音频数据中的边界信息,对所述音频数据进行切分,得到多个包数据;对多个包数据中的每一个包数据进行编码,得到每一个包数据对应的编码后的包数据,以及按照对应的播放次序,将每一个包数据对应的编码后的包数据发送至终端。
第二方面,本申请实施例提供了数据传输装置,该装置包括:切分单元,被配置为基于音频数据中的边界信息,对所述音频数据进行切分,得到多个包数据;传输单元,被配置为对多个包数据中的每一个包数据进行编码,得到每一个包数据对应的编码后的包数据,以及按照对应的播放次序,将每一个包数据对应的编码后的包数据发送至终端。
本申请实施例提供的数据传输方法和装置,通过基于音频数据中的边界信息,对音频数据进行切分,得到多个包数据;对多个包数据中的每一个包数据进行编码,得到每一个包数据对应的编码后的包数据,以及按照对应的播放次序,将每一个包数据对应的编码后的包数据发送至终端。实现了以流式方式即将音频数据切分为包数据传输音频数据至终端并且可自适应网络状况控制切分方式,避免了诸如根据文本的停顿进行断句后传输较长的语句的语音而造成的播放卡顿的问题。同时,基于边界信息对音频数据的精确切分可确保每一个包数据在字的粒度上的完整性,避免了音频数据的播放中的抖动问题。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了适于用来实现本申请的实施例的示例性系统架构;
图2示出了根据本申请的数据传输方法的一个实施例的流程图;
图3示出了以流式传输包数据的一个示例性流程图;
图4示出了传输包数据的一个示例性流程图;
图5示出了根据本申请的数据传输装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
请参考图1,其示出了适于用来实现本申请的实施例的示例性系统架构。
如图1所示,终端101、网络102、服务器103。终端101可以为智能设备、智能手机、平板电脑、车载终端。网络102可以为有线通信网络或无线通信网络。
服务器103可以为提供TTS(Text To Speech)服务的服务器,服务器103可以部署在云端,终端101上安装有用于与服务器103传输数据的SDK(Software Development Kit)。服务器103可以持续合成文本的合成语音,将文本的合成语音发送至终端101,在终端101上利用SDK向终端101的用户播报文本的合成语音。
请参考图2,其示出了根据本申请的数据传输方法的一个实施例的流程。该方法包括以下步骤:
步骤201,基于音频数据中的边界信息,对音频数据进行切分,得到多个包数据。
在本实施例中,待传输到终端的音频数据可以为文本的合成语音、音乐的音频数据例如一首歌的音频数据等。当待传输到终端的音频数据为文本的合成语音时,音频数据中的边界信息与文本的韵律信息相关联。音频数据中的边界信息可以在对文本的合成语音进行切分之前,在合成文本的合成语音的过程中预先确定。文本的韵律信息包括:文本中的应组成词语一起被读出的文字。音频数据中的边界信息包括:文本中的应组成词语一起被读出的文字组成的词语的语音在待传输到终端的文本的合成语音中的起始位置和结束位置。当待传输到终端的音频数据为音乐的音频数据时,音频数据中的边界信息与音乐的节拍信息相关联。节拍信息包括:节拍类型。音频数据中的边界信息包括:待传输到终端的音乐的音频数据中的由对应于相同节拍类型的音频数据组成的音频数据段数据的起始位置和结束位置。相应地,在根据音频数据中的边界信息,对待传输到终端的音乐的音频数据进行切分之后,会得到多个音频数据段数据,每一个音频数据段数据作为一个包数据。每一个包数据中的音频数据均对应于相同的节拍类型。
在本实施例的一些可选的实现方式中,包数据包括至少一个对应于文字的语音。在待传输到终端的音频数据中,对应于文字的语音即为音频数据中的该文字的语音。例如,当待传输到终端的音频数据的为文本的合成语音时,在待传输到终端的文本的合成语音中,对应于一个文字的语音即为该文本的合成语音中的该文本中的该文字的语音,换言之,对应于一个文字的语音相当于该文本的合成语音中的读该字的语音。当待传输到终端的音频数据为音乐的音频数据时,在待传输到终端的音乐的音频数据中,对应于一个文字的语音为该音乐的歌词中的该文字的语音,换言之,对应于一个文字的语音相当于该音乐中的演唱该字的声音。
在本实施例中,当待传输到终端的音频数据为音乐的音频数据时,服务器可以持续地将音乐的音频数据发送至用户的终端,在用户的终端向用户播放。当待传输到终端的音频数据为文本的合成语音时,可以在服务器上持续地合成文本的合成语音,持续地将合成的文本的语音发送至用户的终端,在用户的终端向用户播放。
在本实施例中,当待传输到终端的音频数据为音乐的音频数据时,在音乐的音频数据中,该音乐的歌词中的一个字的语音的边界信息包括:在该音乐中该字的语音的起始时刻、在该音乐中该字的语音的结束时刻。可以预先对音乐的音频数据进行分析,确定该音乐的歌词中的每一个字的语音的边界信息。例如,当待传输到终端的音频数据为一首歌的音频数据时,可以预先对该首歌的音频数据进行分析,确定该首歌的歌词中的每一个字的语音的边界信息。由于已经预先确定音乐的歌词中的每一个字的语音的边界信息,因此,可以对待传输到终端的音乐的音频数据进行准确的切分,切分出的每一个包数据包中包含该音乐的歌词中的至少一个字的语音,并且切分出的包数据中仅包含该音乐的歌词中的完整的字的语音,换言之,切分出的包数据中仅包含歌词中的完整的字的演唱的声音。
在本实施例中,当待传输到终端的音频数据为文本的合成语音时,在文本的合成语音中,对应于文本中的文字的语音即为文字的语音。例如,对于一个文本“今天天气晴朗”,合成“今天天气晴朗”的合成语音,可以将该合成语音中“今”的语音称之为对应于文本中的文字“今”的语音,可以将该合成语音中“天”的语音称之为对应于文本中的文字“天”的语音。
在本实施例中,每一个文本可以包括一段文字。每执行一次步骤201-202,可以合成一个文本的合成语音即每合成一段文字的合成语音,将合成的一个文本的合成语音切分为多个包数据,按照对应的播放次序,依次发送至用户的终端,从而,以流式方式将一个文本的合成语音发送至用户的终端,在用户的终端依次播放每一个包数据中的语音。
在本实施例中,在一个文本的语音中,该文本中的一个字的语音的边界信息包括:该字的语音的起始时刻、该字的语音的结束时刻。在合成一个文本的合成语音的过程中,可以确定该文本中的每一个字的语音的边界信息。
例如,对于一个文本“今天天气晴朗”,在合成“今天天气晴朗”的合成语音的过程中,可以确定“今”的语音的边界信息、“天”的语音的边界信息、“天”的语音的边界信息、“气”的语音的边界信息、“晴”的语音的边界信息、“朗”的语音的边界信息。
在本实施例中,由于已经预先在合成一个文本的合成语音的过程中得到了文本中的每一个字的语音的边界,因此,可以对一个文本的合成语音进行准确的切分,切分出的每一个包数据包中包含该文本中的至少一个字的语音,并且切分出的包数据中仅包含完整的字的语音,换言之,切分出的包数据中仅包含完整的字的读音。
在本实施例中,以流式方式即将文本的合成语音切分为包数据传输文本的合成语音至终端并且可自适应网络状况控制切分方式,避免了根据文本的停顿进行断句后传输较长的语句的语音而造成的播放卡顿的问题。
在本实施例的一些可选的实现方式中,当待传输到终端的音频数据为文本的合成语音时,对应于文字的语音为对应于该文本中的文字的语音,一个文本的合成语音通过采用预设语音合成方式基于该文本而生成,预设语音合成方式包括以下之一:拼接合成方式、参数合成方式。当采用拼接合成方式时,文本的合成语音中的文本中的文字的语音的边界信息可以为从音库中选取出的文字的语音单元的边界信息。当采用参数合成方式时,文本的合成语音中的文本中的文字的语音的边界信息可以为通过时长预测模型预测出的文字的边界信息。
在通过拼接合成方式进行语音合成时,可以从音库中挑选一个文本中的每一个字的语音单元,利用挑选出的每一个字的语音单元进行拼接,得到一个文本的合成语音,每一个字的语音单元分别作为一个文本的合成语音中的每一个字的语音。在从音库中挑选一个文本中的每一个字的语音单元时,会挑选出位于字的边界上的语音单元,即每一个字的语音单元的边界为预测出的该字的边界。从而,确保每一个语音单元是一个完整的字的语音,不会包含文本中的其他的字的语音。
在通过拼接合成方式进行语音的过程中确定了一段文本中的每一个字对应的语音单元的边界,相当于确定了一段文本中的每一个字的语音在一段文本的合成语音中的边界。在后续的将一段文本的合成语音切分为多个包数据时,可以根据一段文本中的每一个字的语音在一段文本的合成语音中的边界,将一段文本的合成语音切分为多个包数据。
在通过参数合成方式进行语音合成时,会预测出一个文本中的每一个字的声学参数,利用预测出的每一个字的声学参数合成一个文本的合成语音。在通过参数合成方式进行语音合成时,可以通过时长预测模型预测出每一个字的边界,相应的,采用参数合成方式合成出的一个文本的合成语音中每一个字的语音的边界即为时长预测模型预测出的字的边界。
在通过参数合成方式进行语音合成的过程中可以确定采用参数合成方式合成出的一段文本的合成语音中每一个字的语音的边界,在后续的将一段文本的合成语音切分为多个包数据时,可以根据一段文本中的每一个字的语音在一段文本的合成语音中的边界,将一段文本的合成语音切分为多个包数据。
在本实施例的一些可选的方式中,在对一个文本对应语音进行切分时,可以基于文本的合成语音中的该文本中的文字的语音的边界信息和预设语音数量对该文本的合成语音进行切分,得到多个包数据。当包数据中包含的语音的数量为预设语音数量时,可以确保在当前网络状况下各个包数据对应的响应时长均小于时长阈值,包数据对应的响应时长为发送包数据的时刻和终端接收到包数据的时刻之间的时长。
换言之,在当前网络状况下,每一个在包含预设语音数量的文本中的文字的语音构成的包数据发送至用户的终端时,响应时长均小于时长阈值,从而,在当前的网络状况下,依次播放包数据中的语音时,可以向用户流畅地播放语音,避免因响应时长过长造成的播放卡顿的问题。
可以每间隔一定时长确定预设语音数量,从而,自适应网络状况,向用户的终端发送包数据,根据预设语音数量对文本对应的合成语音进行切分后依次发送至用户的终端,进而确保向用户流畅地播放文本对应的合成语音。
当基于预设语音数量,对文本的合成语音进行切分时,切分后的每一个包数据含的文字的语音的数量可以为预设语音数量。
例如,预设语音数量为1,对于一个文本“今天天气晴朗”,在合成“今天天气晴朗”的合成语音之后,可以基于“今”的语音的边界信息、“天”的语音的边界信息、“天”的语音边界信息、“气”的语音的边界信息、“晴”的语音的边界信息、“朗”的语音的边界信息进行切分,“今”、“天”、“天”、“气”、“晴”、“朗”的语音分别作为一个包数据。
当基于预设语音数量,对文本的合成语音进行切分时,切分后的每一个包数据包含的文字的语音的数量可以小于预设语音数量。
例如,预设语音数量为3,对于一个文本“今天天气晴朗”,在合成“今天天气晴朗”的合成语音之后,可以将2个文字的语音组成一个包数据。“今”、“天”的语音组成一个包数据,“天”、“气”的语音组成一个包数据,“晴”、“朗”的语音组成一个包数据。
在本实施例的一些可选的方式中,可以采用以下方式确定预设语音数量:可以通过执行至少一次测试操作确定预设语音数量。语音数量参数为表示切分后的包数据中包含的文字的语音的数量的参数。当首次执行测试操作首次时语音数量参数的参数值为预设初始值。在首次执行测试操作之前,可以首先在用户的终端上设置语音数量参数的一个初始值。
在一次测试操作中,用户的终端将一个表示包数据中包含的文字的语音的数量的语音数量参数的参数值发送至服务器,同时,用户的终端向服务器发送请求,服务器根据用户的终端发送的语音数量参数的参数值,将用于测试的语音切分为多个包数据。用于测试的语音包含多个文字的语音,可以预先确定用于测试的语音中的每一个文字的语音的边界信息。切分后得到的每一个包数据中的文本中的文字的语音的数量的为本次测试操作时用户的终端发送的语音数量参数的参数值。然后,服务器判断切分后得到的首个包数据对应响应时长是否大于时长阈值,即判断发送切分后得到的首个包数据的时刻和用户的终端接收到该首个包数据的时刻之间的时长是否大于时长阈值。当执行该次测试操作后得到的判断结果为首个包数据对应响应时长小于或等于时长阈值时,将在该次测试操作中基于的语音数量参数的参数值作为预设语音数量。当在执行该次测试操作后得到的判断结果为首个包数据对应响应时长大于时长阈值时,将在该次测试操作中基于的语音数量参数的参数值减小预设值,例如将在该次测试操作中基于的语音数量参数的参数值减小1,得到语音数量参数的新的参数值,然后,再次执行测试操作即执行下一次测试操作。在下一次测试操作中,将基于该次测试操作中基于的语音数量参数的参数值减小预设值之后得到的新的参数值对用于测试的语音进行切分。
步骤202,对包数据进行编码,得到编码后的包数据,以及按照对应的播放次序,将编码后的包数据发送至终端。
在本实施例中,在对待传输至终端的音频数据进行切分,得到多个包数据之后,可以对每一个包数据进行编码。对包数据进行编码后得到的编码数据可以作为包数据对应的编码后的包数据。在对每一个包数据进行编码之后,可以得到每一个包数据对应的编码后的包数据,然后,可以按照对应的播放次序,将每一个编码后的包数据发送至用户的终端。从而,以流式方式传输音频数据。用户的终端可以对每一个包数据对应的编码后的包数据进行解码,得到每一个包数据,根据每一个包数据对应的播放次序,依次向用户播放包数据中的语音。
当音频数据为文本的合成语音时,在基于文本的合成语音中的每一个文字的语音的边界信息,对文本的合成语音进行切分,得到多个包数据之后,可以对每一个包数据进行编码。对包数据进行编码后得到的编码数据可以作为包数据对应的编码后的包数据。在对每一个包数据进行编码之后,可以得到每一个包数据对应的编码后的包数据,然后,可以按照对应的播放次序,将每一个编码后的包数据发送至用户的终端。从而,以流式方式传输文本的合成语音。用户的终端可以对每一个包数据对应的编码后的包数据进行解码,得到每一个包数据,根据每一个包数据对应的播放次序,依次向用户播放包数据中的语音。
一个包数据对应的编码后的包数据对应的播放次序即为该包数据对应的播放次序。包数据对应的播放次序基于该包数据中的首个文字的语音所属的文字在文本中的次序确定。
例如,对于一个文本“今天天气晴朗”,在对合成“今天天气晴朗”的合成语音进行切分之后,得到3个包数据。一个包数据包括“今”、“天”的语音,一个包数据包括“天”、“气”的语音,一个包数据包括“晴”、“朗”的语音。3个包数据对应的播放次序由前至后依次为:包括“今”、“天”的语音的包数据、包括“天”、“气”的语音的包数据、包括“晴”、“朗”的语音的包数据。
请参考图3,其示了以流式传输包数据的一个示例性流程图。
package_level表示语音数量参数。一个文本输入到语音合成模型之后,得到文本的合成语音。语音合成模型的类型可以为拼接合成模型、参数合成模型。可以根据package_level,对该文本的合成语音进行切分,切分后的每一个包数据中的该文本中的文字的语音的数量可以小于或等于package_level的参数值。服务器可以将切分后得到的多个包数据按照对应的播放次序,依次发送至用户的终端。
在本实施例的一些可选的实现方式中,在对每一个包数据进行编码,得到每一个包数据对应的编码后的包数据时,可以生成每一个包数据对应的扩展包数据。一个包数据对应的扩展包数据包括:该包数据、在对应的播放次序上与该包数据相邻的其他的包数据中的部分数据。
换言之,在对每一个包数据进行编码,得到每一个包数据对应的编码后的包数据时,对于每一个包数据,可以将在对应的播放次序上与该包数据相邻的其他的包数据中的一部分数据与该包数据组成一个该包数据对应的扩展包数据。
在生成每一个包数据对应的扩展包数据之后,可以对每一个包数据对应的扩展包数据进行编码,对包数据对应的扩展包数据进行编码后得到的编码数据可以作为包数据对应的编码后的包数据。在对每一个包数据对应的扩展包数据进行编码之后,可以得到每一个包数据对应的编码后的包数据。然后,可以将每一个包数据对应的编码后的包数据发送至用户的终端,在用户的终端通过解码得到每一个包数据对应的扩展包数据,然后,再去除每一个包数据对应的扩展包数据中属于其他的包数据的数据,得到每一个数据包数据。
例如,对一个文本的合成语音进行切分之后,得到8个包数据。按照对应的播放次序依次为包数据1、包数据2、包数据3、包数据4、包数据5数据、包数据6、包数据7、包数据8,在时序上第一个包数据为包数据1、最后一个包数据为包数据8。在生成包数据1对应的扩展包数据时,可以将在对应的播放次序上与包数据1相邻的包数据2中的在时序上靠近包数据1的一部分数据与包数据1组成包数据1对应的扩展包数据。靠近包数据1的一部分数据可以为从包数据2的起始位置开始到结束位置之前的一个预设位置之间的数据。在生成包数据2对应的扩展包数据时,可以将在对应的播放次序上与包数据2相邻的包数据1中的在时序上靠近包数据2的一部分数据和在播放次序上与包数据2相邻的包数据3中的在时序上靠近包数据2的一部分数据以及包数据2组成包数据2对应的扩展包数据,依次类推。
在生成每一个包数据对应的扩展包数据之后,可以对每一个包数据对应的扩展包数据进行编码,得到将每一个包数据对应的编码后的包数据发送至用户的终端,在用户的终端通过解码得到每一个包数据对应的扩展包数据,然后,再去除每一个包数据对应的扩展包数据中属于其他的包数据的数据,得到包数据1、包数据2、包数据3、包数据4、包数据5数据、包数据6、包数据7、包数据8。
请参考图4,其示出了传输包数据的一个示例性流程图。
在图4中,示出了在服务器生成的包数据1对应的扩展包数据401、包数据2对应的扩展包数据402。包数据1对应的扩展包数据包括:包数据1、包数据2中的在时序上靠近包数据1的部分数据。包数据2对应的扩展包数据包括:包数据1中的在时序上靠近包数据2的部分数据、包数据2、包数据3中的在时序上靠近包数据2的部分数据。在服务器上对包数据1对应的扩展包数据进行编码得到包数据1对应的编码后的包数据,对包数据2对应的扩展包数据进行编码得到包数据2对应的编码后的包数据。在编码时可以采用opus编码器对包数据进行编码,编码后的包数据为opus编码格式。服务器将包数据1对应的编码后的包数据、包数据2对应的编码后的包数据发送至终端。在终端上对包数据1对应的编码后的包数据进行解码,得到包数据1对应的扩展包数据,在终端上去除包数据1对应的扩展包数据中的属于包数据2的数据,得到包数据1。在终端上对包数据2对应的编码后的包数据进行解码,得到包数据2对应的扩展包数据,在终端上去除包数据2对应的扩展包数据中的属于包数据1的数据和属于包数据3的数据,得到包数据2。通过生成每一个包数据对应的扩展包数据,对每一个包数据对应的扩展包数据进行编码,得到的每一个包数据对应的编码后的包数据,将每一个包数据对应的编码后的包数据发送至用户的终端,在用户的终端通过解码得到每一个包数据对应的扩展包数据,然后,再去除每一个包数据对应的扩展包数据中属于其他的包数据的数据,从而,可以避免在并行解码场景中由于不同解码器实例引起的语音包边界噪声问题。在诸如在播放合成语音的过程中用户通过快进或快退来快速定位到自己感兴趣的音频位置的情况下,可以确保播放的流畅度与自然度。
请参考图5,作为对上述各图所示方法的实现,本申请提供了一种数据传输装置的一个实施例,该装置实施例与图2所示的方法实施例相对应。
如图5所示,本实施例的数据传输装置包括:切分单元501,传输单元502。其中,切分单元501被配置为基于音频数据中的边界信息,对所述音频数据进行切分,得到多个包数据;传输单元502被配置为对多个包数据中的每一个包数据进行编码,得到每一个包数据对应的编码后的包数据,以及按照对应的播放次序,将每一个包数据对应的编码后的包数据发送至终端。
在本实施例的一些可选的实现方式中,包数据包括至少一个对应于文字的语音。
在本实施例的一些可选的实现方式中,音频数据为文本的合成语音,对应于文字的语音为对应于所述文本中的文字的语音,文本的合成语音通过采用预设语音合成方式基于所述文本而生成,预设语音合成方式包括以下之一:拼接合成方式、参数合成方式。
在本实施例的一些可选的实现方式中,边界信息为从音库中选取出的文字的语音单元的边界信息。
在本实施例的一些可选的实现方式中,边界信息为通过时长预测模型预测出的文字的边界信息。
在本实施例的一些可选的实现方式中,切分单元包括:自适应切分子单元,被配置为基于文本的合成语音中的对应于所述文本中的文字的语音的边界信息和预设语音数量,对文本的合成语音进行切分,得到多个包数据,其中,当包数据中包括的文字的语音的数量为预设语音数量时,包数据对应的响应时长小于时长阈值,包数据对应的响应时长为发送包数据的时刻和终端接收到包数据的时刻之间的时长。
在本实施例的一些可选的实现方式中,数据传输装置还包括:预设语音数量确定单元,被配置为当通过一次测试操作判断出首个包数据对应的响应时长小于或等于时长阈值时,将在所述测试操作中基于的语音数量参数的参数值作为预设语音数量,测试操作包括:基于语音数量参数的参数值,对用于测试的语音进行切分;判断切分后得到的所有包数据中的首个包数据对应响应时长是否大于时长阈值,其中,切分后得到的包数据中的文字的语音的数量为所述语音数量参数的参数值;当通过一次测试操作判断出首个包数据对应响应时长大于时长阈值时,将语音数量参数的参数值减小预设值,以及再次执行测试操作。
在本实施例的一些可选的实现方式中,传输单元包括:重叠编码传输子单元,被配置为生成每一个包数据对应的扩展包数据,包数据对应的扩展包数据包括:所述包数据、在对应的播放次序上与所述包数据相邻的其他的包数据中的部分数据;对每一个包数据对应的扩展包数据进行编码,得到每一个包数据对应的编码后的包数据;按照对应的播放次序,将每一个包数据对应的编码后的包数据发送至终端,其中,包数据对应的编码后的包数据在终端上被解码,得到包数据对应的扩展包数据并且包数据对应的扩展包数据在终端上被去除属于其他的包数据的数据,得到包数据。
图6示出了适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
如图6所示,计算机系统包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中,还存储有计算机系统操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:输入部分606;输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,本申请的实施例中描述的过程可以被实现为计算机程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包括用于执行流程图所示的方法的指令。该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。
本申请还提供了一种服务器,该服务器可以配置有一个或多个处理器;存储器,用于存储一个或多个程序,一个或多个程序中可以包含用以执行上述实施例中描述的操作的指令。当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述实施例中描述的操作。
本申请还提供了一种计算机可读介质,该计算机可读介质可以是服务器中所包括的;也可以是单独存在,未装配入服务器中。上述计算机可读介质承载有一个或者多个程序,当一个或者多个程序被服务器执行时,使得服务器:基于音频数据中的边界信息,对所述音频数据进行切分,得到多个包数据,包数据包括至少一个对应于文字的语音;对多个包数据中的每一个包数据进行编码,得到每一个包数据对应的编码后的包数据,以及按照对应的播放次序,将每一个包数据对应的编码后的包数据发送至终端。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被消息执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由消息执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行消息。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机消息的组合来实现。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。