媒体数据处理方法及装置、存储介质、计算机设备

文档序号:812512 发布日期:2021-03-26 浏览:35次 >En<

阅读说明:本技术 媒体数据处理方法及装置、存储介质、计算机设备 (Media data processing method and device, storage medium and computer equipment ) 是由 张乐雨 张慧敏 于 2020-12-10 设计创作,主要内容包括:本申请公开了一种媒体数据处理方法及装置、存储介质、计算机设备,该方法包括:接收源媒体数据,其中,所述源媒体数据包括视频数据和源音频数据;对所述源音频数据进行语音转译得到转译文本数据,并对所述转译文本数据进行翻译得到目标语言的翻译文本数据;获取所述转译文本数据对应的文本语义参数,并基于所述文本语义参数对预设的声音合成参数进行调整;根据调整后的声音合成参数对所述翻译文本数据进行声音合成,得到所述目标语言对应的音频数据;将所述目标语言对应的音频数据以及所述视频数据进行合成,得到合成媒体数据。本申请可以使得媒体数据适合不同语言习惯人群观看,并且保留与源媒体数据的情感更匹配的声音特征,提高用户观看体验。(The application discloses a media data processing method and device, a storage medium and computer equipment, wherein the method comprises the following steps: receiving source media data, wherein the source media data comprises video data and source audio data; performing voice translation on the source audio data to obtain translated text data, and translating the translated text data to obtain translated text data of a target language; acquiring text semantic parameters corresponding to the translated text data, and adjusting preset sound synthesis parameters based on the text semantic parameters; performing voice synthesis on the translated text data according to the adjusted voice synthesis parameters to obtain audio data corresponding to the target language; and synthesizing the audio data corresponding to the target language and the video data to obtain synthesized media data. According to the method and the device, the media data can be suitable for people with different language habits to watch, the sound characteristics which are more matched with the emotion of the source media data are reserved, and the watching experience of a user is improved.)

媒体数据处理方法及装置、存储介质、计算机设备

技术领域

本申请涉及数据处理技术领域,尤其是涉及到一种媒体数据处理方法及装置、存储介质、计算机设备。

背景技术

随着通信技术的不断发展,用户除了使用手机、平板电脑、台式电脑等智能终端设备进行通话或者查询信息之外,对其他功能的应用也越发广泛,目前随着视频直播平台、短视频平台的飞速发展,通过各类视频平台观看视频的用户遍布全球。

目前的视频观看过程中,视频生产者将录制的音频视频数据发送到视频服务器中,再由视频服务器将视频生产者录制的视频转发给视频观看者的终端进行播放。然而,观看视频的用户可能是世界各地的用户,并不能完全理解视频生产者上传的音频视频中的语言,导致观看视频体验差,视频平台的视频播放量难以提高。

发明内容

有鉴于此,本申请提供了一种媒体数据处理方法及装置、存储介质、计算机设备。

根据本申请的一个方面,提供了一种媒体数据处理方法,包括:

接收源媒体数据,其中,所述源媒体数据包括视频数据和源音频数据;

对所述源音频数据进行语音转译得到转译文本数据,并对所述转译文本数据进行翻译得到目标语言的翻译文本数据;

获取所述转译文本数据对应的文本语义参数,并基于所述文本语义参数对预设的声音合成参数进行调整;

根据调整后的声音合成参数对所述翻译文本数据进行声音合成,得到所述目标语言对应的音频数据;

将所述目标语言对应的音频数据以及所述视频数据进行合成,得到合成媒体数据。

可选地,所述对所述转译文本数据进行翻译得到目标语言的翻译文本数据,具体包括:

根据预设翻译线路对应的输入参数拼装规则对所述转译文本数据进行拼装,得到与所述转译文本数据对应的翻译输入数据;

调用所述预设翻译线路,将所述翻译输入数据作输入至所述预设翻译线路中进行翻译,得到翻译输出数据;

根据预设翻译线路对应的输出参数解析规则,对所述翻译输出数据进行解析,得到所述翻译文本数据。

可选地,所述调用所述预设翻译线路之前,所述方法还包括:

获取所述预设翻译线路对应的验证种子,并根据令牌生成规则生成所述验证种子对应的验证令牌;

利用所述验证令牌对所述预设翻译线路进行验证,若验证通过则确定所述预设翻译线路为可调用状态。

可选地,所述获取所述转译文本数据对应的文本语义参数,具体包括:

根据所述转译文本数据对应的文本结构对所述转译文本数据进行分割,得到所述转译文本数据对应的多个语句;

分别获取每个语句对应的语义参数,并根据所述每个语句对应的语义参数确定所述转译文本数据对应的文本语义参数。

可选地,所述接收源媒体数据,具体包括:

接收视频发布终端发送的所述源媒体数据;

所述将所述目标语言对应的音频数据以及所述视频数据进行合成,得到合成媒体数据,具体包括:

获取视频播放终端对应的播放语言,并从所述目标语言对应的音频数据中获取与所述播放语言对应的音频数据;

将所述播放语言对应的音频数据以及所述视频数据进行合成,得到播放媒体数据;

将所述播放媒体数据发送至所述视频播放终端。

可选地,所述将所述播放语言对应的音频数据以及所述视频数据进行合成,得到播放媒体数据,具体包括:

获取与所述播放语言对应的翻译文本数据;

将所述播放语言对应的翻译文本数据和音频数据以及所述视频数据进行合成,得到所述播放媒体数据。

可选地,所述获取视频播放终端对应的播放语言,具体包括:

根据所述视频播放终端所在的地理位置,确定所述视频播放终端的所述播放语言;或者,

根据所述视频播放终端对应的常用语言,确定所述视频播放终端的所述播放语言;或者,

根据所述视频播放终端发送的播放指令,解析所述播放指令指示的所述播放语言。

根据本申请的另一方面,提供了一种媒体数据处理装置,包括:

源数据接收模块,用于接收源媒体数据,其中,所述源媒体数据包括视频数据和源音频数据;

音频数据翻译模块,用于对所述源音频数据进行语音转译得到转译文本数据,并对所述转译文本数据进行翻译得到目标语言的翻译文本数据;

声音参数调整模块,用于获取所述转译文本数据对应的文本语义参数,并基于所述文本语义参数对预设的声音合成参数进行调整;

声音合成模块,用于根据调整后的声音合成参数对所述翻译文本数据进行声音合成,得到所述目标语言对应的音频数据;

媒体数据合成模块,用于将所述目标语言对应的音频数据以及所述视频数据进行合成,得到合成媒体数据。

可选地,所述音频数据翻译模块,具体包括:

输入数据拼装单元,用于根据预设翻译线路对应的输入参数拼装规则对所述转译文本数据进行拼装,得到与所述转译文本数据对应的翻译输入数据;

翻译数据输出单元,用于调用所述预设翻译线路,将所述翻译输入数据作输入至所述预设翻译线路中进行翻译,得到翻译输出数据;

翻译文本解析单元,用于根据预设翻译线路对应的输出参数解析规则,对所述翻译输出数据进行解析,得到所述翻译文本数据。

可选地,所述装置还包括:

验证令牌生成模块,用于所述调用所述预设翻译线路之前,获取所述预设翻译线路对应的验证种子,并根据令牌生成规则生成所述验证种子对应的验证令牌;

线路验证模块,用于利用所述验证令牌对所述预设翻译线路进行验证,若验证通过则确定所述预设翻译线路为可调用状态。

可选地,所述声音参数调整模块,具体包括:

语句分割单元,用于根据所述转译文本数据对应的文本结构对所述转译文本数据进行分割,得到所述转译文本数据对应的多个语句;

语义参数确定单元,用于分别获取每个语句对应的语义参数,并根据所述每个语句对应的语义参数确定所述转译文本数据对应的文本语义参数。

可选地,所述源数据接收模块,具体用于:接收视频发布终端发送的所述源媒体数据;

所述媒体数据合成模块,具体包括:

播放语言获取单元,用于获取视频播放终端对应的播放语言,并从所述目标语言对应的音频数据中获取与所述播放语言对应的音频数据;

播放数据合成单元,用于将所述播放语言对应的音频数据以及所述视频数据进行合成,得到播放媒体数据;

播放数据发送单元,用于将所述播放媒体数据发送至所述视频播放终端。

可选地,所述播放数据合成单元,具体包括:

播放文本获取子单元,用于获取与所述播放语言对应的翻译文本数据;

播放数据合成子单元,用于将所述播放语言对应的翻译文本数据和音频数据以及所述视频数据进行合成,得到所述播放媒体数据。

可选地,所述播放语言获取单元,具体包括:

第一语言获取子单元,用于根据所述视频播放终端所在的地理位置,确定所述视频播放终端的所述播放语言;或者,

第二语言获取子单元,用于根据所述视频播放终端对应的常用语言,确定所述视频播放终端的所述播放语言;或者,

第三语言获取子单元,用于根据所述视频播放终端发送的播放指令,解析所述播放指令指示的所述播放语言。

依据本申请又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述媒体数据处理方法。

依据本申请再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述媒体数据处理方法。

借由上述技术方案,本申请提供的一种媒体数据处理方法及装置、存储介质、计算机设备,接收源媒体数据之后,先对源媒体数据包含的源音频数据进行语音转译得到源音频数据对应的转译文本数据,然后将转译文本从源语言翻译为目标语言的翻译文本数据,并根据转译文本对应的文本语义参数调整声音合成参数,从而基于调整后的声音合成参数将翻译文本数据合成为相应目标语言的音频数据,并将该目标语言的音频数据与源媒体数据包含的视频数据进行组装,得到合成媒体数据。本申请实施例相比于现有技术中直接播放直播视频的方式,不仅可以将源媒体数据转换成多种不同语言的媒体数据,方便不同语言习惯的用户观看,还可以获取源音频数据的转译文本数据对应的文本语义参数确定声音合成参数,从而利用声音合成参数进行声音合成,使得合成得到的声音与源音频数据所表达的情绪情感更匹配,提高了合成媒体数据与源媒体数据的观感相似度,提高了用户的视频观看体验,也有助于提高视频平台的视频播放量。

上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的

具体实施方式

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1示出了本申请实施例提供的一种媒体数据处理方法的流程示意图;

图2示出了本申请实施例提供的另一种媒体数据处理方法的流程示意图;

图3示出了本申请实施例提供的一种媒体数据处理装置的结构示意图;

图4示出了本申请实施例提供的另一种媒体数据处理装置的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

在本实施例中提供了一种媒体数据处理方法,如图1所示,该方法包括:

步骤101,接收源媒体数据,其中,源媒体数据包括视频数据和源音频数据;

本申请实施例提供的媒体数据处理方法可以用于对直播平台中主播在直播终端设备录制的媒体数据进行处理,也可以用于对视频平台中视频上传方上传的媒体数据进行处理,本申请实施例以对主播直播时录制产生的媒体数据进行处理为例,对该方法进行解释说明,但本申请实施例并不限于上述应用场景。在上述实施例中,直播平台服务器接收源媒体数据,该源媒体数据包括视频数据和音频数据,音频数据对应的语言类型为主播使用的语言,例如在国内的大多数直播平台中,主播均使用中文进行直播,则该音频数据对应的语言为中文。

步骤102,对源音频数据进行语音转译得到转译文本数据,并对转译文本数据进行翻译得到目标语言的翻译文本数据;

在该实施例中,接收到源音频数据后,先将源音频数据进行语音转译,得到与该源音频数据对应的转译文本数据,即对该源音频数据进行语音识别将语音数据转译为文本数据,进而为了实现对媒体数据的语言转换,将语音转译得到的转译文本数据进行翻译,将转译文本数据翻译为目标语言得到翻译文本数据,例如可以将转译文本数据从中文翻译成英文、日文等。

步骤103,获取转译文本数据对应的文本语义参数,并基于文本语义参数对预设的声音合成参数进行调整;

在该实施例中,为了确保处理后的媒体数据能够表现出自然的语音效果,避免过于生硬的声音,得到转译文本数据之后,获取转译文本数据对应的文本语义参数,文本语义参数可以描述源媒体数据表达的语义信息,例如源媒体数据表达出作者开心的情绪,这种开心的情绪可以通过转译文本的文本语义参数来表达。进而基于文本语义参数可以对预设的声音合成参数进行调整,使得调整后的声音合成参数能够通过声音的一些特征反应出文本语义,声音合成参数具体可以包括声音波动幅度、基频、语速、音量、句子间隔时长等等。例如开心时语速较快,句子间隔时长较短。

步骤104,根据调整后的声音合成参数对翻译文本数据进行声音合成,得到目标语言对应的音频数据;

在该实施例中,根据调整后的声音合成参数对翻译文本数据进行声音合成,利用赋予文本语义信息的声音合成参数对翻译文本数据进行文本转声音的处理,得到目标语言对应的音频数据,从而实现将源媒体数据中的源语言对应的源音频数据转换为目标语言的音频数据。

步骤105,将目标语言对应的音频数据以及视频数据进行合成,得到合成媒体数据。

在该实施例中,生成目标语言对应的音频数据之后,将该音频数据与源媒体数据包含的视频数据进行组装,得到合成媒体数据,最终实现将源媒体数据从源语言转换为目标语言对应的合成媒体数据,以使不同语言习惯的用户能够看懂视频所表达的内容,提高用户的视频观看体验,提高视频平台的视频播放量。

通过应用本实施例的技术方案,接收源媒体数据之后,先对源媒体数据包含的源音频数据进行语音转译得到源音频数据对应的转译文本数据,然后将转译文本从源语言翻译为目标语言的翻译文本数据,并根据转译文本对应的文本语义参数调整声音合成参数,从而基于调整后的声音合成参数将翻译文本数据合成为相应目标语言的音频数据,并将该目标语言的音频数据与源媒体数据包含的视频数据进行组装,得到合成媒体数据。本申请实施例相比于现有技术中直接播放直播视频的方式,不仅可以将源媒体数据转换成多种不同语言的媒体数据,方便不同语言习惯的用户观看,还可以获取源音频数据的转译文本数据对应的文本语义参数确定声音合成参数,从而利用声音合成参数进行声音合成,使得合成得到的声音与源音频数据所表达的情绪情感更匹配,提高了合成媒体数据与源媒体数据的观感相似度,提高了用户的视频观看体验,也有助于提高视频平台的视频播放量。

进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了另一种媒体数据处理方法,如图2所示,该方法包括:

步骤201,接收视频发布终端发送的源媒体数据,其中,源媒体数据包括视频数据和源音频数据;

在该实施例中,主播在主播终端进行直播时,主播终端录制内容得到源媒体数据,这里的源媒体数据包括视频数据以及音频数据,主播终端将该源媒体数据发送给直播服务器,直播服务器接收主播终端发送的源媒体数据。

步骤202,对源音频数据进行语音转译得到转译文本数据,并对转译文本数据进行翻译得到目标语言的翻译文本数据;

步骤203,获取转译文本数据对应的文本语义参数,并基于文本语义参数对预设的声音合成参数进行调整;

步骤204,根据调整后的声音合成参数对翻译文本数据进行声音合成,得到目标语言对应的音频数据;

步骤202至步骤204对应的描述参见步骤102至步骤104对应的描述,在此不再赘述。具体的可以采用TTS技术进行声音合成,将计算机产生的、或外部输入的文字信息转变为可以听得懂的、流利的语音输出技术。

步骤205,获取视频播放终端对应的播放语言,并从目标语言对应的音频数据中获取与播放语言对应的音频数据;

在步骤205中,由于直播服务器需要将视频直播端发送的源媒体数据进行处理后转发给视频播放终端,因此为了确定将源媒体数据转换成何种语言,在该实施例中,目标语言可以包括多种,获取视频播放终端对应的播放语言,并从多种目标语言对应的音频数据中找出与播放语言对应的音频数据,以便利用该音频数据进行媒体数据的合成,方便不同语言习惯的人群观看视频直播。

在上述实施例中,具体地,根据视频播放终端所在的地理位置,确定视频播放终端的播放语言;或者,根据视频播放终端对应的常用语言,确定视频播放终端的播放语言;或者,根据视频播放终端发送的播放指令,解析播放指令指示的播放语言。

在该实施例中,可以根据视频播放终端的所在位置确定播放语言,例如根据视频播放终端所在的地理位置为日本,该地区的常用语言为日语,那么可以确定播放语言为日语。或者,可以根据直播服务器接收到的视频播放终端发送的直播观看请求中携带的播放语言,即根据播放指令解析播放语言。再或者,可以直接根据视频播放终端对应的常用语言确定播放语言,例如上一次观看视频时选择的语言。

步骤206,将播放语言对应的音频数据以及视频数据进行合成,得到播放媒体数据;

具体地,获取与播放语言对应的翻译文本数据;将播放语言对应的翻译文本数据和音频数据以及视频数据进行合成,得到播放媒体数据。

在上述实施例中,将播放语言对应的翻译文本数据作为字幕数据,利用该翻译文本数据、音频数据以及视频数据进行合成,得到播放媒体数据,使得合成的播放媒体数据不仅声音与观看用户的语言习惯匹配,字幕也与观看用户的语言习惯匹配,进一步提高了用户的视频观看体验。

步骤207,将播放媒体数据发送至视频播放终端。

在上述实施例中,合成播放媒体数据后,将该播放媒体数据发送至视频播放终端中,以供用户观看。

需要说明的是,在直播场景中,一般来说,为了保证视频播放质量,直播服务器通常会将视频缓存一段时间后再发送到视频播放终端中,例如缓存30秒,那么可以将缓存的视频按照每15秒做一次切分得到源媒体数据,分别对每一份源媒体数据进行播放语言的转换,以使视频播放端接收到的视频连续不卡顿,使视频播放质量得到保障。

在本申请任一实施例中,步骤102、步骤202中对源音频数据进行语音转译得到转译文本数据,具体包括:

步骤102-1,根据预设翻译线路对应的输入参数拼装规则对转译文本数据进行拼装,得到与转译文本数据对应的翻译输入数据;

步骤102-2,调用预设翻译线路,将翻译输入数据作输入至预设翻译线路中进行翻译,得到翻译输出数据;

步骤102-3,根据预设翻译线路对应的输出参数解析规则,对翻译输出数据进行解析,得到翻译文本数据。

在上述实施例中,首先获取预设翻译线路对应的输入参数拼装规则,然后按照该规则对所述待翻译的转译文本数据进行拼装,得到翻译输入数据,并将该翻译输入数据作为预设翻译线路对应的输入参数,调用预设翻译线路,并将翻译输入数据输入至该线路中进行翻译,得到输出参数,即翻译输出数据,进一步,为了获得能够被计算机所识别的翻译文本数据,还需要按照预设翻译线路对应的输出参数解析规则对翻译输出数据进行解析,最终得到翻译文本数据,从而实现利用翻译线路将转译文本数据翻译成翻译文本数据,实现文本数据从源语言向目标语言的转换。其中,预设翻译线路可以为各种终端或浏览器的接口,例如百度翻译、谷歌翻译接口等,也可以为预设的翻译数据库接口。

在一些应用场景中,一些翻译接口预先定义了调用验证规则,为避免恶意调用浪费资源,在调用接口之前需要进行验证,在上述实施例中,步骤102-2之前,还包括:

步骤102-4,获取预设翻译线路对应的验证种子,并根据令牌生成规则生成验证种子对应的验证令牌;

步骤102-5,利用验证令牌对预设翻译线路进行验证,若验证通过则确定预设翻译线路为可调用状态。

在上述实施例中,先获取预设翻译心路对应的验证种子,然后根据该预设翻译线路预先约定的令牌生成规则,根据该验证种子进行加密处理生成验证令牌,在调用预设翻译线路之前,通过该验证令牌进行验证,并在验证通过后,确定该预设翻译线路为可调用状态,预设翻译线路只有在可调用状态下,才可以被调用,否则无法被调用,避免预设翻译线路被恶意调用,浪费翻译线路资源,提高翻译效率。例如,调用谷歌翻译接口来获取验证种子,根据该验证种子以及当前时间对应的时间戳信息,按照预设加密算法,生成验证令牌,从而验证翻译接口请求。

在本申请任一实施例中,步骤103、步骤203中获取转译文本数据对应的文本语义参数,具体包括:

步骤103-1,根据转译文本数据对应的文本结构对转译文本数据进行分割,得到转译文本数据对应的多个语句;

步骤103-2,分别获取每个语句对应的语义参数,并根据每个语句对应的语义参数确定转译文本数据对应的文本语义参数。

在上述实施例中,根据转译文本数据的文本结构,具体可以根据文本中的阅读符号(例如句号、问号以及感叹号等)来对转译文本进行分割,从而将转译文本转换为多个语句,在完成语句提取后,对分割得到的各个语句进行特征词抽取,其中,特征词能够用于表征语句所隐含的情感,例如特征词可以包括连词以及否定词等。并对各个语句进行句法分析,确定各语句红连词前后的分词权重,而针对否定词则会进行极性反转或者双重否定的识别。根据各个语句中的情感词汇以及句法分析结果,综合确定出语句的评分,该评分则能够表征语句的语义参数。例如,语句的评分越低,那么语句所表征的情感越负面;语句的评分越高,那么语句所表征的情感越正面。例如,如果语句的评分为-10,那么则表示该语句所表征的情感为极端负面的情感(例如暴躁、狂怒等);如果语句的评分为-2,那么则表示该语句所表征的情感为较为负面的情感(例如心情低落等);而如果语句的评分为0,那么则表示该语句所表征的情感为中性;如果语句的评分为+7,那么则表示该语句所表征的情感为较为正面的情感(例如十分喜悦)。进而基于每个语句对应的语义参数,确定转译文本数据对应的文本语义参数,例如将每个语句对应的语义参数的平均值作为该文本语义参数,避免单个句子的语义参数差距过大,导致最终合成的声音表现出的情感情绪波动过大。

进一步的,作为图1方法的具体实现,本申请实施例提供了一种媒体数据处理装置,如图3所示,该装置包括:

源数据接收模块31,用于接收源媒体数据,其中,源媒体数据包括视频数据和源音频数据;

音频数据翻译模块32,用于对源音频数据进行语音转译得到转译文本数据,并对转译文本数据进行翻译得到目标语言的翻译文本数据;

声音参数调整模块33,用于获取转译文本数据对应的文本语义参数,并基于文本语义参数对预设的声音合成参数进行调整;

声音合成模块34,用于根据调整后的声音合成参数对翻译文本数据进行声音合成,得到目标语言对应的音频数据;

媒体数据合成模块35,用于将目标语言对应的音频数据以及视频数据进行合成,得到合成媒体数据。

在具体的应用场景中,如图4所示,可选地,音频数据翻译模块32,具体包括:

输入数据拼装单元321,用于根据预设翻译线路对应的输入参数拼装规则对转译文本数据进行拼装,得到与转译文本数据对应的翻译输入数据;

翻译数据输出单元322,用于调用预设翻译线路,将翻译输入数据作输入至预设翻译线路中进行翻译,得到翻译输出数据;

翻译文本解析单元323,用于根据预设翻译线路对应的输出参数解析规则,对翻译输出数据进行解析,得到翻译文本数据。

在具体的应用场景中,如图4所示,可选地,该装置还包括:

验证令牌生成模块36,用于调用预设翻译线路之前,获取预设翻译线路对应的验证种子,并根据令牌生成规则生成验证种子对应的验证令牌;

线路验证模块37,用于利用验证令牌对预设翻译线路进行验证,若验证通过则确定预设翻译线路为可调用状态。

在具体的应用场景中,如图4所示,可选地,声音参数调整模块33,具体包括:

语句分割单元331,用于根据转译文本数据对应的文本结构对转译文本数据进行分割,得到转译文本数据对应的多个语句;

语义参数确定单元332,用于分别获取每个语句对应的语义参数,并根据每个语句对应的语义参数确定转译文本数据对应的文本语义参数。

在具体的应用场景中,如图4所示,可选地,源数据接收模块31,具体用于:接收视频发布终端发送的源媒体数据;

媒体数据合成模块35,具体包括:

播放语言获取单元351,用于获取视频播放终端对应的播放语言,并从目标语言对应的音频数据中获取与播放语言对应的音频数据;

播放数据合成单元352,用于将播放语言对应的音频数据以及视频数据进行合成,得到播放媒体数据;

播放数据发送单元353,用于将播放媒体数据发送至视频播放终端。

可选地,播放数据合成单元352,具体包括:

播放文本获取子单元3521,用于获取与播放语言对应的翻译文本数据;

播放数据合成子单元3522,用于将播放语言对应的翻译文本数据和音频数据以及视频数据进行合成,得到播放媒体数据。

可选地,播放语言获取单元351,具体包括:

第一语言获取子单元3511,用于根据视频播放终端所在的地理位置,确定视频播放终端的播放语言;或者,

第二语言获取子单元3512,用于根据视频播放终端对应的常用语言,确定视频播放终端的播放语言;或者,

第三语言获取子单元3513,用于根据视频播放终端发送的播放指令,解析播放指令指示的播放语言。

需要说明的是,本申请实施例提供的一种媒体数据处理装置所涉及各功能单元的其他相应描述,可以参考图1至图2方法中的对应描述,在此不再赘述。

基于上述如图1至图2所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述如图1至图2所示的媒体数据处理方法。

基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。

基于上述如图1至图2所示的方法,以及图3至图4所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该计算机设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1至图2所示的媒体数据处理方法。

可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理和保存计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现接收源媒体数据之后,先对源媒体数据包含的源音频数据进行语音转译得到源音频数据对应的转译文本数据,然后将转译文本从源语言翻译为目标语言的翻译文本数据,并根据转译文本对应的文本语义参数调整声音合成参数,从而基于调整后的声音合成参数将翻译文本数据合成为相应目标语言的音频数据,并将该目标语言的音频数据与源媒体数据包含的视频数据进行组装,得到合成媒体数据。本申请实施例相比于现有技术中直接播放直播视频的方式,不仅可以将源媒体数据转换成多种不同语言的媒体数据,方便不同语言习惯的用户观看,还可以获取源音频数据的转译文本数据对应的文本语义参数确定声音合成参数,从而利用声音合成参数进行声音合成,使得合成得到的声音与源音频数据所表达的情绪情感更匹配,提高了合成媒体数据与源媒体数据的观感相似度,提高了用户的视频观看体验,也有助于提高视频平台的视频播放量。

本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

16页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于语音检测的语音交互方法及其装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!