一种视频同声翻译配置字幕方法及终端

文档序号:1173045 发布日期:2020-09-18 浏览:13次 >En<

阅读说明:本技术 一种视频同声翻译配置字幕方法及终端 (Method and terminal for configuring subtitles through simultaneous translation of videos ) 是由 郭铭煌 周春林 蔡权权 黄智全 颜林明 刘奕成 于 2020-05-06 设计创作,主要内容包括:本发明提出了一种视频同声翻译配置字幕方法和终端,所述方法包括:接收用户选择的目标语言操作指令,提取视频文件中的图像信号和音频信号;将所述目标语言和音频信号发送至云端服务器或第三方语音转文字翻译软件进行同步翻译后,回传以所述目标语言的文字形式显示的目标字幕;基于时间同步信息,将所述目标字幕与图像信号进行实时匹配;当出现所述图像信号或音频信号与目标字幕不同步时,接收用户选择的音画延迟操作指令,以延迟所述图像信号或音频信号的输出时间;所述终端,通过实施上述方法,解决了视频文件没有字幕或者字幕不是用户所熟悉的语言的问题,保证了翻译后的所述目标字幕与视频图像同步,提高了用户观看视频过程中的用户体验。(The invention provides a method and a terminal for configuring subtitles by simultaneous translation of videos, wherein the method comprises the following steps: receiving a target language operation instruction selected by a user, and extracting an image signal and an audio signal in a video file; sending the target language and the audio signal to a cloud server or third-party voice-to-text translation software for synchronous translation, and then returning a target caption displayed in a text form of the target language; matching the target caption with an image signal in real time based on time synchronization information; when the image signal or the audio signal is asynchronous with the target caption, receiving a sound and picture delay operation instruction selected by a user to delay the output time of the image signal or the audio signal; by implementing the method, the terminal solves the problem that the video file has no subtitles or the subtitles are not the language familiar to the user, ensures the synchronization of the translated target subtitles and the video image, and improves the user experience of the user in the process of watching the video.)

一种视频同声翻译配置字幕方法及终端

技术领域

本发明涉及多媒体技术领域,尤其涉及一种视频同声翻译配置字幕方法及终端。

背景技术

随着互联网和智能终端的发展,人们越来越多地使用诸如移动终端、平板电脑、台式电脑和智能电视等智能终端观看电影和视频,但是部分国外影视作品或视频会存在没有字幕,或者字幕不是用户熟悉的语言的情况,用户在观看的过程中会存在较差的观影体验。

因此,现有技术还有待改进和发展。

发明内容

鉴于上述状况,实有必要提供一种视频同声翻译配置字幕方法和终端,以解决上述问题。

本发明提供了一种视频同声翻译配置字幕方法,所述方法包括:

接收用户选择的目标语言操作指令,提取视频文件中的图像信号和音频信号;

将所述目标语言和所述音频信号发送至云端服务器或第三方语音转文字翻译软件;

所述云端服务器或第三方语音转文字翻译软件对提取的所述音频信号进行同步翻译后,回传以所述目标语言的文字形式显示的目标字幕;

基于时间同步信息,将所述目标字幕与所述图像信号进行实时匹配,在显示界面上同步显示所述目标字幕;

当播放过程中出现所述图像信号或所述音频信号与所述目标字幕不同步时,接收用户选择的音画延迟操作指令,以延迟所述图像信号或所述音频信号的输出时间,使得所述图像信号、所述音频信号与所述目标字幕同步匹配。

进一步地,将所述目标字幕与所述图像信号进行实时匹配,具体包括:

获取所述音频信号包括的至少一个音频数据帧,并确定所述音频数据帧的时间戳;

获取所述音频数据帧的时间戳所对应的所述图像信号,及所述图像信号包括的图像数据帧;

基于所述音频数据帧的时间戳,将所述音频数据帧所对应的所述目标字幕与所述图像数据帧相结合并进行实时匹配。

进一步地,接收用户选择的所述目标语言操作指令,提取所述图像信号和所述音频信号,具体包括:

在所述显示界面中设定悬浮按钮;

接收用户对所述悬浮按钮的点击选择所述目标语言操作指令;

基于选择的所述目标语言,提取所述图像信号和所述音频信号。

进一步地,在所述显示界面上同步显示所述目标字幕,具体包括:

所述悬浮按钮转变为悬浮窗口,所述悬浮窗口用于在所述显示界面上显示所述目标字幕;

通过点击操作所述悬浮窗口,选择字幕样式操作指令或音画延迟操作指令或音量调节操作指令,所述字幕样式包括字幕颜色、字幕透明度以及字体大小。

进一步地,所述悬浮窗口可通过手势操作,移动所述悬浮窗口在所述显示界面上的显示位置,或缩放所述悬浮窗口的显示比例。

进一步地,本发明还提供了一种终端,所述终端包括:

存储模块,用于存储视频播放程序和视频同声翻译配置字幕程序;

配置模块,用于接收用户选择的目标语言操作指令,接收用户选择的音画延迟操作指令,并显示配置后的字幕;

提取模块,用于提取视频文件中的图像信号和音频信号;

发送模块,用于将所述目标语言和所述音频信号发送至云端服务器或第三方语音转文字翻译软件进行翻译,并接收所述云端服务器或第三方语音转文字翻译软件回传以所述目标语言的文字形式显示的目标字幕;

同步模块,用于基于时间同步信息,将所述图像信号与所述目标字幕进行实时匹配;

视听模块,用于显示所述图像信号和播放所述音频信号。

进一步地,所述同步模块还用于:

获取所述音频信号包括的至少一个音频数据帧,并确定所述音频数据帧的时间戳;

获取所述音频数据帧的时间戳所对应的所述图像信号,及所述图像信号包括的图像数据帧;

基于所述音频数据帧的时间戳,将所述音频数据帧对应的所述目标字幕与所述图像数据帧相结合并进行实时匹配。

进一步地,所述配置模块还包括:

悬浮按钮模块,用于接收用户选择的所述目标语言操作指令;

悬浮窗口模块,用于显示所述目标字幕。

进一步地,所述悬浮窗口模块还用于:

接收用户选择的字幕样式操作指令或音画延迟操作指令或音量调节操作指令,所述字幕样式包括字幕颜色、字幕透明度以及字体大小。

进一步地,所述悬浮窗口模块还用于:

接收用户的手势操作指令,移动所述悬浮窗口在显示界面上的显示位置,或缩放所述悬浮窗口的显示比例。

本发明提供的一种视频同声翻译配置字幕方法和终端,通过在视频播放过程中,根据用户对语种的需求,将提取到的所述音频信号发送至所述云端服务器或所述第三方语音转文字翻译软件,转化成用户所需语种形式的所述目标字幕,并与视频图像同步显示,当出现所述图像信号与所述目标字幕不同步时,根据用户选择的所述音画延迟操作指令,以延迟所述图像信号或所述音频信号的输出时间,从而使得所述目标字幕、所述图像信号和所述音频信号同步播放,解决了现有技术方案中视频文件没有字幕或者字幕不是用户所熟悉的语言的问题,保证了翻译后的所述目标字幕、所述图像信号与所述音频信号的同步率,提高了用户观看视频过程中的用户体验。

附图说明

图1是本发明的一个实施例中的视频同声翻译配置字幕方法的流程图。

图2是本发明的一个实施例中的设定悬浮按钮的显示界面示意图。

图3是本发明的一个实施例中的点击悬浮按钮后的显示界面示意图。

图4是本发明的一个实施例中的悬浮按钮转变为悬浮窗口的显示界面示意图。

图5是本发明的一个实施例中的点击悬浮窗口后的显示界面示意图。

图6是本发明的一个实施例中的通过手势操作变更悬浮窗口显示位置后的显示界面示意图。

图7是本发明的一个实施例中的通过手势操作缩放悬浮窗口显示比例后的显示界面示意图。

图8是本发明的一个实施例中的视频同声翻译配置字幕方法中步骤S40的流程图。

图9是本发明的一个实施例中的终端的模块示意图。

主要元件符号说明

11 显示界面

12 悬浮按钮

13 悬浮窗口

100 终端

110 存储模块

120 配置模块

121 悬浮按钮模块

122 悬浮窗口模块

130 提取模块

140 发送模块

150 同步模块

160 视听模块

如下

具体实施方式

将结合上述附图进一步说明本发明。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。

请参阅图1,本发明提供了一种视频同声翻译配置字幕方法,所述视频同声翻译配置字幕方法包括以下步骤:

步骤S10、接收用户选择的目标语言操作指令,提取视频文件中的图像信号和音频信号。

在本实施例中,接收用户选择的所述目标语言操作指令,提取所述图像信号和所述音频信号,具体包括:

如图2-3所示,以诸如手机等的移动终端为例,在所述显示界面11中设定悬浮按钮12;点击所述悬浮按钮12,所述悬浮按钮12展开显示多个待选择的所述目标语言类型,接收用户对所述悬浮按钮12的点击选择所述目标语言操作指令;基于选择的所述目标语言,提取所述图像信号和所述音频信号。

进一步地,所述悬浮按钮12可以设置为播放或不播放视频文件均始终显示于所述显示界面11上,也可以设置为仅当播放视频文件时显示于所述显示界面11上。

进一步地,所述视频文件可以是实时拍摄的视频,也可以是本地所存储的视频,还可以是视频播放器在线播放的视频。提取所述音频信号可以是将下载完成或缓存完成的视频文件中的所有音频信号预先全部提取并进行翻译,从而实现先译后播功能,或者是视频文件边缓存播放边提取所述音频信号进行翻译,从而实现边译边播功能。所述目标语言可以是汉语、英语、法语、德语、日语、韩语等中的任一种语言。

步骤S20、将所述目标语言和所述音频信号发送至云端服务器或第三方语音转文字翻译软件。

步骤S30、所述云端服务器或第三方语音转文字翻译软件对提取的所述音频信号进行同步翻译后,回传以所述目标语言的文字形式显示的目标字幕。

在本实施例中,将所述目标语言和所述音频信号发送至云端服务器,以及所述云端服务器回传所述目标字幕的通信方式可以是通过蓝牙、WIFI、5G、移动通信网路中的任一种方式。所述第三方语音转文字翻译软件可以使预先下载安装好的第三方翻译软件,也可以是预先下载的离线语音转文字翻译包。

步骤S40、基于时间同步信息,将所述目标字幕与所述图像信号进行实时匹配,在显示界面上同步显示所述目标字幕。

在本实施例中,在所述显示界面上同步显示所述目标字幕,具体包括:

如图4-7所示,在所述显示界面11上,所述悬浮按钮12转变为悬浮窗口13,所述悬浮窗口13用于在所述显示界面11上显示所述目标字幕。通过点击所述悬浮窗口13,所述悬浮窗口13展开显示多个待选择的更多操作指令,例如:选择字幕样式操作指令或音画延迟操作指令或音量调节操作指令。所述目标字幕的字幕样式包括字幕颜色、字幕透明度以及字体大小,例如用户选择最后输出的所述目标字幕的颜色为红色,所述字幕透明度可根据用户的需要进行选择,字体大小也可以根据用户的需求进行选择或直接手势操作缩放,还可以选择其他的字幕参数或者相关设置。

进一步地,所述悬浮窗口13可通过手势操作,移动所述悬浮窗口13在所述显示界面11上的显示位置,或缩放所述悬浮窗口13的显示比例,例如通过手势操作拖拽所述悬浮窗口13在所述显示界面11上的显示位置,通过缩放所述悬浮窗口13的显示比例调节所述目标字幕的长度或字体大小等。

进一步地,将所述目标字幕与所述图像信号进行实时匹配,具体包括如图8所示的步骤:

S41、获取所述音频信号包括的至少一个音频数据帧,并确定所述音频数据帧的时间戳;

S42、获取所述音频数据帧的时间戳所对应的所述图像信号,及所述图像信号包括的图像数据帧;

S43、基于所述音频数据帧的时间戳,将所述音频数据帧所对应的所述目标字幕与所述图像数据帧相结合并进行实时匹配。

在本实施例中,所述音频数据帧的时间戳通常可以包括开始时间和结束时间。对于每一个所述音频数据帧,确定所述音频数据帧的开始时间点和结束时间点,并确定与所述音频数据帧的开始时间点和结束时间点分别对应的图像数据帧,最后基于所述开始时间点和所述结束时间点将与所述音频数据帧对应的所述目标字幕与所述图像数据帧相结合并进行实时匹配,从而实现在播放过程中,所述目标字幕与所述图像信号同步播放。

步骤S50、当播放过程中出现所述图像信号或所述音频信号与所述目标字幕不同步时,接收用户选择的音画延迟操作指令,以延迟所述图像信号或所述音频信号的输出时间,使得所述图像信号、所述音频信号与所述目标字幕同步匹配。

在本实施例中,当播放过程中出现所述图像信号或所述音频信号与所述目标字幕不同步时,用户点击所述悬浮窗口13选择所述音画延迟操作指令,所述音画延迟操作指令可以提供选择延迟时间,例如提供1S、5S、10S等具体可供选择的所述延迟时间,并显示于所述悬浮窗口13上,接收用户选择的所述延迟时间后,所述图像信号或所述音频信号依照用户选择的所述延迟时间进行延迟播放。所述音画延迟操作指令也可以提供选择提前时间,例如提供1S、5S、10S等具体可供选择的所述提前时间,并显示于所述悬浮窗口13上,接收用户选择的所述提前时间后,所述图像信号或所述音频信号依照用户选择的所述提前时间进行提前播放。当用户选择具体所述延迟时间后,所述目标字幕播放早于所述图像信号,接收用户选择的所述提前时间,用户可以反复交替选择所述延迟时间及/或所述提前时间,直至所述目标字幕、所述图像信号和所述音频信号同步播放。

本发明提供的一种视频同声翻译配置字幕方法,通过在视频播放过程中,根据用户对语种的需求,将提取到的所述音频信号发送至所述云端服务器或所述第三方语音转文字翻译软件,转化成用户所需语种形式的所述目标字幕,并与视频图像同步显示,当出现所述图像信号与所述目标字幕不同步时,根据用户选择的所述音画延迟操作指令,以延迟所述图像信号或所述音频信号的输出时间,从而使得所述目标字幕、所述图像信号和所述音频信号同步播放,解决了现有技术方案中视频文件没有字幕或者字幕不是用户所熟悉的语言的问题,保证了翻译后的所述目标字幕、所述图像信号与所述音频信号的同步率,提高了用户观看视频过程中的用户体验。

请参阅图9,作为对上述各图示所示的方法的实现,本发明提供一种终端100,所述终端100包括存储模块110、配置模块120、提取模块130、发送模块140、同步模块150和视听模块160。图3仅示出了所述终端100的部分模块,但是应理解的是,并不要求实施所有示出的模块,可以替代的实施更多或者更少的模块。

在本实施例中,所述终端100可以以各种形式来实施,例如手机、平板电脑、笔记本电脑、掌上电脑等移动终端,以及诸如数字电视、台式计算机等固定终端。

所述存储模块110,用于存储视频播放程序和视频同声翻译配置字幕程序。

在本实施例中,所述存储模块110可以是所述终端100的内部存储单元,例如手机的硬盘或内存,也可以是所述终端的外部存储设备,例如插接式硬盘、智能存储卡、安全数字卡、闪存卡等,还可以是既包括所述内部存储单元还包括所述外部存储设备。

所述配置模块120,用于接收用户选择的目标语言操作指令,接收用户选择的音画延迟操作指令,并显示配置后的字幕。

在本实施例中,所述配置模块120还包括悬浮按钮模块121和悬浮窗口模块122,所述悬浮按钮模块121和所述悬浮窗口模块122分别以悬浮按钮12和悬浮窗口13形式显示于所述视听模块160的显示界面11上。其中:

所述悬浮按钮模块121,用于接收用户选择的所述目标语言操作指令;

所诉悬浮窗口模块122,用于显示所述目标字幕。

在本实施例中,所述悬浮窗口模块122,还用于接收用户选择的所述字幕样式操作指令或音画延迟操作指令或音量调节操作指令。所述字幕样式包括字幕颜色、字幕透明度以及字体大小,例如用户选择最后输出的所述目标字幕的颜色为红色,所述字幕透明度可根据用户的需要进行选择,字体大小也可以根据用户的需求进行选择或直接手势操作缩放,还可以选择其他的字幕参数或者相关设置。

进一步地,所述悬浮窗口模块122,还用于接收用户的手势操作,移动所述悬浮窗口13的在所述显示界面11上的显示位置,或缩放所述悬浮窗口13的显示比例,例如通过手势操作拖拽所述悬浮窗口13在所述显示界面11上的显示位置,通过缩放所述悬浮窗口13的显示比例调节所述目标字幕的长度或字体大小等。

所述提取模块130,用于提取视频文件中的图像信号和音频信号。

所述发送模块140,用于将所述目标语言和所述音频信号发送至云端服务器或第三方语音转文字翻译软件进行翻译,并接收所述云端服务器或第三方语音转文字翻译软件回传以所述目标语言的文字形式显示的目标字幕。

在本实施例中,所述发送模块140与所述云端服务器的通信方式可以是通过蓝牙、WIFI、5G、移动通信网路中的任一种方式。

所述同步模块150,用于基于时间同步信息,将所述图像信号与所述目标字幕进行实时匹配。

在本实施例中,所述同步模块150,还用于获取所述音频信号包括的至少一个音频数据帧,并确定所述音频数据帧的时间戳;获取所述音频数据帧的时间戳所对应的所述图像信号,及所述图像信号包括的图像数据帧;基于所述音频数据帧的时间戳,将所述音频数据帧对应的所述目标字幕与所述图像数据帧相结合并进行实时匹配。

进一步地,当播放过程中出现所述图像信号与所述目标字幕不同步时,所述悬浮窗口模块122选择用户选择的所述音画延迟操作指令,所述音画延迟操作指令可以提供选择延迟时间,例如提供1S、5S、10S等具体可供选择的所述延迟时间,接收用户选择的所述延迟时间后,所述图像信号或所述音频信号依照用户选择的所述延迟时间进行延迟播放。所述音画延迟操作指令也可以提供选择提前时间,例如提供1S、5S、10S等具体可供选择的所述提前时间,接收用户选择的所述提前时间后,所述图像信号或所述音频信号依照用户选择的所述提前时间进行提前播放。当用户选择具体所述延迟时间后,所述目标字幕播放早于所述图像信号,接收用户选择的所述提前时间,用户可以反复交替选择所述延迟时间及/或所述提前时间,直至所述目标字幕、所述图像信号和所述音频信号同步播放。

所述视听模块160,用于显示所述图像信号和播放所述音频信号。

本发明提供的一种终端,通过在视频播放过程中,根据用户对语种的需求,将提取到的所述音频信号发送至所述云端服务器或所述第三方语音转文字翻译软件,转化成用户所需语种形式的所述目标字幕,并与视频图像同步显示,当出现所述图像信号与所述目标字幕不同步时,根据用户选择的所述音画延迟操作指令,以延迟所述图像信号或所述音频信号的输出时间,从而使得所述目标字幕、所述图像信号和所述音频信号同步播放,解决了现有技术方案中视频文件没有字幕或者字幕不是用户所熟悉的语言的问题,保证了翻译后的所述目标字幕、所述图像信号与所述音频信号的同步率,提高了用户观看视频过程中的用户体验。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神。

15页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:媒体信息的处理方法、系统、设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类