视频字幕处理方法、装置、电子设备及可读存储介质

文档序号：652438 发布日期：2021-04-23 浏览：16次 >En<

阅读说明：本技术 视频字幕处理方法、装置、电子设备及可读存储介质 (Video subtitle processing method and device, electronic equipment and readable storage medium ) 是由肖伟平高斌于 2020-12-24 设计创作，主要内容包括：本申请提供一种视频字幕处理方法、装置、电子设备及可读存储介质,涉及视频处理技术领域。方法包括：获取与视频文件对应的目标音频文件；将目标音频文件输入音频分离工具,用于从目标音频文件中获取人声数据；将音频分离工具输出的人声数据输入至语音识别工具,用于确定与人声数据对应的目标字幕文本；基于人声数据在目标音频文件中的相对时间位置,将与人声数据对应的目标字幕文本添加在与相对时间位置对应的视频文件中,得到目标视频文件。在本方案中,可以实现视频文件字幕的自动生成与自动添加,能够提高视频字幕的制作效率。(The application provides a video subtitle processing method and device, electronic equipment and a readable storage medium, and relates to the technical field of video processing. The method comprises the following steps: acquiring a target audio file corresponding to the video file; inputting the target audio file into an audio separation tool, and acquiring human voice data from the target audio file; inputting the voice data output by the audio separation tool into a voice recognition tool, and determining a target subtitle text corresponding to the voice data; and adding the target subtitle text corresponding to the voice data into the video file corresponding to the relative time position based on the relative time position of the voice data in the target audio file to obtain the target video file. According to the scheme, automatic generation and automatic addition of the video file subtitles can be achieved, and the video subtitle manufacturing efficiency can be improved.)

技术领域

本申请涉及视频处理技术领域，具体而言，涉及一种视频字幕处理方法、装置、电子设备及可读存储介质。

背景技术

随着短视频及各种直播平台的兴起，人们对视频的制作及分享的需求越来越多，其中，视频字幕可以将视频及音频内容更好的呈现给体验用户。目前，视频的字幕通常由人工制作并添加字幕。其中，在人工添加字幕期间，需要针对视频中的音频内容进行一系列文本填写、添加及上传合成字幕，使得制作并添加视频字幕的效率低。

发明内容

本申请实施例的目的在于提供一种视频字幕处理方法、装置、电子设备及可读存储介质，能够改善制作并添加视频字幕的效率低的问题。

为了实现上述目的，本申请的实施例通过如下方式实现：

第一方面，本申请实施例提供一种视频字幕处理方法，所述方法包括：

获取与视频文件对应的目标音频文件；

将所述目标音频文件输入音频分离工具，用于从所述目标音频文件中获取人声数据；

将所述音频分离工具输出的所述人声数据输入至语音识别工具，用于确定与所述人声数据对应的目标字幕文本；

基于所述人声数据在所述目标音频文件中的相对时间位置，将与所述人声数据对应的所述目标字幕文本添加在与所述相对时间位置对应的所述视频文件中，得到目标视频文件。

在上述的实施方式中，通过从音频数据中，提取出人声数据，有利于降低环境声音对语音转换的干扰，以提高语音转换为字幕文本的准确性。然后，将得到的目标字幕文本添加在视频文件中，如此，可以实现视频文件字幕的自动生成与自动添加，从而能够提高视频字幕的制作效率。

结合第一方面，在一些可选的实施方式中，将所述目标音频文件输入音频分离工具，用于从所述目标音频文件中获取人声数据，包括：

将所述目标音频文件输入所述音频分离工具；

通过所述音频分离工具从所述目标音频文件中提取得到与每个人声对应的人声数据。

在上述的实施方式中，通过从音频文件中分离出人声数据，有利于提高所转换得到的字幕文本的准确性，降低环境声音对转换字幕文本的干扰。

结合第一方面，在一些可选的实施方式中，在将所述音频分离工具输出的所述人声数据输入至语音识别工具之前，所述方法还包括：

从所述人声数据中选取声音频率大于预设频率，且大于所述预设频率的持续时长大于或等于预设时长的人声数据作为输入至所述音频分离工具的人声数据。

在上述的实施方式中，通过预设频率及预设时长，可以对得到的人声数据再次过滤，减少不必要的人声数据的转换，提高字幕文本的转换效率及准确性。

结合第一方面，在一些可选的实施方式中，所述目标字幕文本包括第一字幕文本及第二字幕文本，将所述音频分离工具输出的所述人声数据输入至语音识别工具，用于确定与所述人声数据对应的目标字幕文本，包括：

将所述音频分离工具输出的所述人声数据输入至所述语音识别工具；

通过所述语音识别工具确定与所述人声数据对应的第一语种的第一字幕文本；

通过语音识别工具将所述第一字幕文本翻译为第二语种的第二字幕文本；

根据所述第一字幕文本和所述第二字幕文本确定所述目标字幕文本。

在上述的实施方式中，目标字幕文本可以包括两类文本，如此，有利于丰富字幕样式，以便于根据不同语种配置相应的字幕文本。

结合第一方面，在一些可选的实施方式中，获取与视频文件对应的目标音频文件，包括：

从所述视频文件中的提取得到初始音频文件；

将所述初始音频文件转换为预设格式的所述目标音频文件。

结合第一方面，在一些可选的实施方式中，获取与视频文件对应的目标音频文件，包括：

从处理列表中未添加目标字幕文本的视频文件中，选择任一视频文件进行加载；

获取所加载的所述视频文件对应的目标音频文件。

在上述的实施方式中，基于处理列表，可以对批量的视频文件自动配置生成相应的字幕，有利于提高字幕生成的效率。

结合第一方面，在一些可选的实施方式中，在将所述目标音频文件输入音频分离工具之前，所述方法包括：

当所述目标音频文件的内容为空时，重新加载所述视频文件，并获取与所述视频文件对应的新的目标音频文件。

第二方面，本申请实施例还提供一种视频字幕处理装置，所述装置包括：

获取单元，用于获取与视频文件对应的目标音频文件；

输入单元，用于将所述目标音频文件输入音频分离工具，用于从所述目标音频文件中获取人声数据；

所述输入单元还用于将所述音频分离工具输出的所述人声数据输入至语音识别工具，用于确定与所述人声数据对应的目标字幕文本；

字幕添加单元，用于基于所述人声数据在所述目标音频文件中的相对时间位置，将与所述人声数据对应的所述目标字幕文本添加在与所述相对时间位置对应的所述视频文件中，得到目标视频文件。

第三方面，本申请实施例还提供一种电子设备，所述电子设备包括相互耦合的处理器及存储器，所述存储器内存储计算机程序，当所述计算机程序被所述处理器执行时，使得所述电子设备执行上述的方法。

第四方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行上述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的电子设备的结构示意图。

图2为本申请实施例提供的电子设备与服务器的通信连接示意图。

图3为本申请实施例提供的视频字幕处理方法的流程示意图。

图4为本申请实施例提供的视频字幕处理装置的框图。

图标：10-电子设备；11-处理模块；12-存储模块；20-服务器；100-视频字幕处理装置；110-获取单元；120-输入单元；130-字幕添加单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。需要说明的是，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，本申请实施例提供一种电子设备10，可以自动对视频文件生成并添加相应的字幕，以提高视频文件的字幕的制作效率。

电子设备10可以包括处理模块11及存储模块12。存储模块12内存储计算机程序，当计算机程序被所述处理模块11执行时，使得电子设备10能够执行下述方法中的各步骤。

当然，电子设备10还可以包括其他模块。例如，电子设备10还可以包括用于与服务器20或其他网络设备通信的通信模块。另外，电子设备10还可以包括固化在存储模块12中的视频字幕处理装置100的软件功能模块。

处理模块11、存储模块12以及通信模块等各个元件之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

在本实施例中，电子设备10可以为个人计算机、网络服务器等设备，这里不作具体限定。

请参照图2，在本实施例中，电子设备10可以通过通信模块与服务器20建立通信连接。服务器20可以用于存储完成字幕添加的目标视频文件。另外，服务器20还可以为提供第三方服务的服务器20。第三方服务包括但不限于语音转文本、文本翻译处理等服务。

请参照图3，本申请实施例提供一种视频字幕处理方法，可以应用于上述的电子设备10，由电子设备10执行或实现方法的各步骤。方法可以包括如下步骤：

步骤S210，获取与视频文件对应的目标音频文件；

步骤S220，将所述目标音频文件输入音频分离工具，用于从所述目标音频文件中获取人声数据；

步骤S230，将所述音频分离工具输出的所述人声数据输入至语音识别工具，用于确定与所述人声数据对应的目标字幕文本；

步骤S240，基于所述人声数据在所述目标音频文件中的相对时间位置，将与所述人声数据对应的所述目标字幕文本添加在与所述相对时间位置对应的所述视频文件中，得到目标视频文件。

下面将对方法的各步骤进行详细阐述，如下：

在步骤S210中，电子设备可以加载需要添加字幕的视频文件，然后从该视频文件中提取对应的音频文件，即为目标音频文件。在其他实施方式中，目标音频文件可以为独立于视频文件的音频数据，例如，目标音频文件可以为在拍摄视频文件时单独录制的音频文件，而不是从视频文件中提取得到的音频文件。其中，目标音频文件的时间轴与视频文件的时间轴通常相同。

在本实施例中，目标音频文件中，通常包括环境声音和人声等音频数据。其中，人声数据为电子设备需要进行语音转换的数据，环境声音为需要滤除的音频数据。

在提取得到视频文件的音频文件之前，电子设备可以通过koa2框架搭起nodejs服务。例如，编写名为api/v1/input的输入接口，支持入参字符串string格式的字段videoUrl，允许用户传输单个或多个对应的要解析的视频或音频文件路径，以读取视频文件或音频文件。

在步骤S220中，音频分离工具可以为安装在电子设备中的软件工具，或者为安装在服务器中的软件工具。电子设备可以将目标音频文件输入至音频分离工具，然后由音频分离工具对目标音频文件进行分离，以得到人声数据和环境声数据。

其中，音频分离工具可以是但不限于Spleeter库，可以根据实际情况进行确定。可理解地，Spleeter库可以根据音轨和音频的范围阈值，从目标音频文件中分离出的不同音轨的声音文件，并保存成wav格式。

在本实施例中，步骤S220可以包括：

将所述目标音频文件输入所述音频分离工具；

通过所述音频分离工具从所述目标音频文件中提取得到与每个人声对应的人声数据。

可理解地，若音频分离工具安装在服务器上，电子设备可以将目标音频文件发送至服务器，由服务器中的音频分离工具对目标音频文件进行分离处理。若音频分离工具安装在电子设备上，电子设备可以将得到的目标音频文件输入至音频分离工具，由音频分离工具对目标音频文件进行分离处理。

其中，音频分离工具在处理过程中，可以从目标音频文件提取得到与每个人声对应的人声数据。如此，当视频文件中存在多人在同一时段讲话时，可以提取得到每人对应的人声数据，以便于根据每人对应的人声数据进行字幕转换，从而有利于提高生成的字幕的准确性。

在步骤S230中，语音识别工具可以安装在服务器上，也可以安装在电子设备中。其中，语音识别工具和音频分离工具可以安装在同一服务器，或者安装在不同服务器，这里对语音识别工具和音频分离工具的安装位置不作具体限定。

在本实施例中，电子设备可以获取音频分离工具从目标音频文件中得到的人声数据，然后将得到的人声数据输入至语音识别工具。语音识别工具可以将通过语音识别算法，将人声数据转换为相应的文本内容。

例如，若人声数据对应的语种为汉语，则语音识别工具可以通过汉语语音识别算法将人声数据转换为汉语的文本内容。若人声数据对应的语种为英语，则语音识别工具可以通过英语语音识别算法将人声数据转换为英语的文本内容。其中，语音识别工具可以根据根据不同语种的声音特征，自动选择相应的语音识别算法，或者，由人工指定与每条人声数据对应的语音识别算法。

在本实施例中，目标字幕文本可以为一类语种对应的文本内容，例如，目标字幕文本为人声数据对应的语种的文本内容。或者，目标字幕文本可以包括两类或多类语种对应的文本内容。例如，人声数据为英语语种，目标字幕可以包括英语的文本内容，以及汉语的文本内容。

在本实施例中，步骤S230可以包括：

将所述音频分离工具输出的所述人声数据输入至所述语音识别工具；

通过所述语音识别工具确定与所述人声数据对应的第一语种的第一字幕文本；

通过语音识别工具将所述第一字幕文本翻译为第二语种的第二字幕文本；

根据所述第一字幕文本和所述第二字幕文本确定所述目标字幕文本。

可理解地，第一字幕文本可以为人声数据对应的语种的文本内容，第二字幕文本为基于第一字幕文本进行翻译后得到的字幕内容，第二字幕文本的语种不同于第一字幕内容的语种。

可理解地，语音识别工具还可以包括翻译工具，可以用于将第一语种的文本翻译为第二语种的文本。其中，第一语种和第二语种不同，可以根据实际情况进行确定。例如，第一语种为英语，第二语种为汉语，则语音识别工具可以将英语的第一字幕文本自动翻译为汉语的字幕文本，然后将英语和汉语的字幕文本进行合并，此时，目标字幕文本包括英文和汉语对应的两类文本的字幕。

在步骤S240中，音频分离工具在从目标音频文件提取得到人声数据时，可以记录每个人声数据在目标音频文件中的相对时间位置。另外，目标音频文件的时间轴与视频文件的时间轴通常相同。即，每个人声数据在目标音频文件中的相对时间位置与人声数据在视频文件中的相对时间位置相同。在添加字幕时，便可以将人声数据对应的目标字幕文本添加在视频文件中相应的相对时间位置，从而得到目标视频文件。

例如，一段视频文件的时长为60秒，一段人声数据在目标音频文件中的相对时间为10秒至15秒，在添加字幕时，便可以将该人声数据对应的字幕，添加在视频文件的10秒至15秒，使得字幕文本与视频文件的人声数据相对应。

作为一种可选的实施方式，在步骤S230之前，方法还可以包括：

在本实施例中，预设频率和预设时长可以根据实际情况进行确定。例如，预设频率可以为20赫兹，预设时长可以为100毫秒。可理解地，若人声数据中，存在频率小于或等于预设频率的数据，则表示这类数据通常为干扰数据；或者，在人声数据中，存在频率大于预设频率，但大于预设频率的持续时长小于预设时长(比如100毫秒)，则意味着该人声数据为干扰数据，并非是视频文件中存在字符含义的语音。其中，通过预设频率和预设时长，可以从人声数据中，进一步滤除干扰数据，提高输入至语音识别工具中的人声数据的有效性。基于此，在后期利用语音识别工具识别人声数据时，有利于提高将语音转换为字幕文本的准确率。

作为一种可选的实施方式，步骤S210可以包括：

从所述视频文件中的提取得到初始音频文件；

将所述初始音频文件转换为预设格式的所述目标音频文件。

在本实施例中，音频分离工具在对目标音频文件进行分离处理前，通常仅支持预设格式的音频文件。预设格式可以根据实际情况进行确定，可以是但不限于wav格式、speex格式、pcm格式等。若初始音频文件的数据格式不是预设格式，电子设备便可以将初始音频文件的数据格式转换为预设格式，然后将经过格式转换后的音频文件作为目标音频文件，如此，有利于将不同格式转换为音频分离工具能够支持的格式，以便于音频分离工具对目标音频文件进行处理。

作为一种可选的实施方式，步骤S210可以包括：

从处理列表中未添加目标字幕文本的视频文件中，选择任一视频文件进行加载；

获取所加载的所述视频文件对应的目标音频文件。

在本实施例中，处理列表为基于预处理的视频文件创建得到的列表。在处理列表中，可以包括每个视频文件的处理状态，例如，处理状态可以包括已处理、处理中、未处理等状态。电子设备可以对处理列表中的所有视频文件，逐个添加字幕。

可理解地，电子设备可以基于处理列表中的顺序，逐个对视频文件执行如上述的步骤S210至步骤S240，以完成字幕的添加。例如，在完成首个视频文件的字幕添加后，再从处理列表中，选择任一个未添加字幕的视频文件，作为下一个待处理视频文件，直至对所有视频文件添加完相应的字幕。基于此，通过处理列表的方式，可以一次性对多个视频文件进行添加，用户无需逐个触发视频文件的字幕添加，从而有利于简化用户的操作，提高视频文件字幕的制作效率。

作为一种可选的实施方式，在步骤S220之前，方法还可以包括：

当所述目标音频文件的内容为空时，重新加载所述视频文件，并获取与所述视频文件对应的新的目标音频文件。

在本实施例中，若目标音频文件的内容为空，通常表示所加载的视频文件存在问题，此时，需要重新加载视频文件，并重新从该视频文件中提取音频文件以作为新的目标音频文件。如此，有利于提高视频字幕的制作效率，避免音频文件为空时，需要人工重启动而影响视频字幕的制作效率。

在实施例中，在得到目标视频文件后，电子设备可以将目标视频文件存储在服务器，服务器可以将用于查看/下载目标视频文件的链接发送至电子设备。如此，用户可以通过链接查看或下载目标视频文件。

为了便于理解方法的实现过程，下面将举例阐述实现过程，如下：

第一步，电子设备本地通过koa2框架搭建nodejs服务，编写名为api/v1/input的输入接口，支持入参字符串string格式的字段videoUrl，允许用户传输单个或多个对应的要解析的视频或音频文件路径(多个路径可以通过分号‘；’分割)读取视频文件，支持入参字符串string格式的字段language，确定添加的字幕。

第二步，通过解析用户上传的路径字符串，得到需要解析的视频文件具体路径，通过调用nodejs提供的promise.all函数异步批量加载(使用node中的FS文件系统模块提供的readStream类函数)视频文件，通过readStream函数读取视频文件，同时将视频文件转化为数据流。

第三步，基于预先安装node版本的ffmpeg插件工具，读取的视频文件的数据流。其中，ffmpeg插件(const ffmpeg＝require(‘ffmpeg))，通过new ffmpeg(对应的视频文件流，callback)函数引入对应的文件流。Callback是回调函数，当ffmpeg插件读取了对应的视频文件流后，可以在callback中通过callback(video＝>console.log(video)),通过回调函数中生成的video对象，从而可以获取到对应视频文件的metadata(二进制数据)、duration.seconds(播放时长)等一系列解析的视频信息。

第四步，通过解析拿到对应的视频(video)对象后，可以通过video.fnExtractSoundToMP3将视频中的音频内容存储为mp3格式。然后将对应的mp3格式音频文件进行转码为预设格式。比如，通过video.setVideoFormat(‘pcm’)或者video.setVideoForma(‘wav’)或者其他格式类型将mp3格式转码成pcm(pcm_s16le)，wav，speex等预设格式。其中，音频的采样率可以为16000赫兹，或者8000赫兹，这里不作具体限定。比如，可以通过video.setAudioBitRate(16)设置比特率为16bit标准的格式，设置音频质量为128vide.setAudioQualuty(128)，保存为符合第三方标准的wav格式的目标音频文件。

第五步，使用Spleeter库处理wav格式的音频文件，通过音轨和音频的范围阈值(该阈值可以根据实际情况进行设置)分离出文件中的不同音轨的声音文件保存成wav格式。其中，Spleeter库可以剥离出人声音频文件和环境音文件。Spleeter库运行完后，可以在audio_output目录中生成两个文件：accompaniment.wav和vocals.wav。其中vocals.wav及对应的人声音频文件，accompaniment.wav为分离出的环境音。如果有多个人声则会生成vocals1.wav，vocals2.wav等文件，通过获取vocals开头的文件有的数量，就可以获取到具体的不同的人的人声音频文件。

第六步，将生成的wav格式多个人声音频文件及设置采样率字段16000，依次通过第三方提供的接口上传给第三方语音识别服务方(语音识别工具)。通过调用语音识别厂商的接口将对应的音频文件进行语音识别，获取接口返回对应的识别内容的字幕文本，对文本做非空判断，如果文本为空则提示用户上传的视频文件无效，提示用户重新上传视频文件，或者自动重新加载视频文件。

第七步，在服务器(语音识别工具安装在该服务器中)得到对应的多个字幕文本后，可以根据调用方传入的语种(language)字段，调用语音识别工具中的翻译工具，将文本文案转为对应language的字幕版本。

第八步，在服务器得到对应的多个字幕文本之后，返回至电子设备的是一串带逗号的字幕文本。然后，通过JSON提供的split(‘,’)函数，将文本转化为数组TextArry。基于多个人声音频文件(人声数据)，依次通过ffmpeg插件解析人声音频文件，通过video.metadata，解析文件中的频率波动，绘制一个由音频波动范围/100ms(毫秒)为单位长度的数组AudioArray，当频率波动范围大于20hz(赫兹)的时候代表正在说话，数组值为1；小于20hz的时候代表没说话，数组值为0。取出AudioArray中连续都为1的毫秒范围(如：第1000ms到第5000ms都为1，则第一秒到第五秒的音频中都在说话)，将TextArry中的元素与AudioArray一一按顺序对应，生成新的数组，即：字幕在视频中出现的时间相对应的关系数组。

第九步，将生成的多个音轨字幕与视频文件中出现时间相对应的数组，通过ffmpeg的video.addCommand()添加字幕，并生成新的视频文件，以作为目标视频文件。

第十步，将生成的已添加好的字幕目标视频文件保存到服务器，返回链接给电子设备。用户可以通过电子设备基于该链接下载目标视频文件。

请参照图4，本申请实施例还提供一种视频字幕处理装置100，可以应用于上述的电子设备中，用于执行方法中的各步骤。视频字幕处理装置100包括至少一个可以软件或固件(Firmware)的形式存储于存储模块中或固化在电子设备操作系统(Operating System，OS)中的软件功能模块。处理模块用于执行存储模块中存储的可执行模块，例如视频字幕处理装置100所包括的软件功能模块及计算机程序等。

视频字幕处理装置100可以包括获取单元110、输入单元120及字幕添加单元130，能够执行的操作内容可以如下：

获取单元110，用于获取与视频文件对应的目标音频文件；

输入单元120，用于将所述目标音频文件输入音频分离工具，用于从所述目标音频文件中获取人声数据；

所述输入单元120还用于将所述音频分离工具输出的所述人声数据输入至语音识别工具，用于确定与所述人声数据对应的目标字幕文本；

字幕添加单元130，用于基于所述人声数据在所述目标音频文件中的相对时间位置，将与所述人声数据对应的所述目标字幕文本添加在与所述相对时间位置对应的所述视频文件中，得到目标视频文件。

可选地，输入单元120还可以用于：将所述目标音频文件输入所述音频分离工具；通过所述音频分离工具从所述目标音频文件中提取得到与每个人声对应的人声数据。

视频字幕处理装置100可以包括筛选单元，在输入单元120将所述音频分离工具输出的所述人声数据输入至语音识别工具之前，筛选单元用于：从所述人声数据中选取声音频率大于预设频率，且大于所述预设频率的持续时长大于或等于预设时长的人声数据作为输入至所述音频分离工具的人声数据。

可选地，输入单元120还可以用于：将所述音频分离工具输出的所述人声数据输入至所述语音识别工具；通过所述语音识别工具确定与所述人声数据对应的第一语种的第一字幕文本；通过语音识别工具将所述第一字幕文本翻译为第二语种的第二字幕文本；根据所述第一字幕文本和所述第二字幕文本确定所述目标字幕文本。

可选地，获取单元110还可以用于：从所述视频文件中的提取得到初始音频文件；将所述初始音频文件转换为预设格式的所述目标音频文件。

可选地，获取单元110还可以用于：从处理列表中未添加目标字幕文本的视频文件中，选择任一视频文件进行加载；获取所加载的所述视频文件对应的目标音频文件。

可选地，在输入单元120将所述目标音频文件输入音频分离工具之前，获取单元110还可以用于在所述目标音频文件的内容为空时，重新加载所述视频文件，并获取与所述视频文件对应的新的目标音频文件。

在本实施例中，处理模块可以是一种集成电路芯片，具有信号的处理能力。上述处理模块可以是通用处理器。例如，该处理器可以是中央处理器(Central Processing Unit，CPU)、图形处理器(Graphics Processing Unit，GPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。

存储模块可以是，但不限于，随机存取存储器，只读存储器，可编程只读存储器，可擦除可编程只读存储器，电可擦除可编程只读存储器等。在本实施例中，存储模块可以用于存储视频文件、目标音频文件、音频分离工具、语音识别工具等。当然，存储模块还可以用于存储其他程序，处理模块在接收到执行指令后，执行该程序。

可以理解的是，图1所示的结构仅为电子设备的一种结构示意图，电子设备还可以包括比图1所示更多的组件。图1中所示的各组件可以采用硬件、软件或其组合实现。

需要说明的是，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子设备、视频字幕处理装置100的具体工作过程，可以参考前述方法中的各步骤对应过程，在此不再过多赘述。

本申请实施例还提供一种计算机可读存储介质。计算机可读存储介质中存储有计算机程序，当计算机程序在计算机上运行时，使得计算机执行如上述实施例中所述的视频字幕处理方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现，基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

综上所述，本申请提供一种视频字幕处理方法、装置、电子设备及可读存储介质。方法包括：获取与视频文件对应的目标音频文件；将目标音频文件输入音频分离工具，用于从目标音频文件中获取人声数据；将音频分离工具输出的人声数据输入至语音识别工具，用于确定与人声数据对应的目标字幕文本；基于人声数据在目标音频文件中的相对时间位置，将与人声数据对应的目标字幕文本添加在与相对时间位置对应的视频文件中，得到目标视频文件。在上述的实施方式中，通过从音频数据中，提取出人声数据，有利于降低环境声音对语音转换的干扰，以提高语音转换为字幕文本的准确性。然后，将得到的目标字幕文本添加在视频文件中，如此，可以实现视频文件字幕的自动生成与自动添加，从而能够提高视频字幕的制作效率。

在本申请所提供的实施例中，应该理解到，所揭露的装置、系统和方法，也可以通过其它的方式实现。以上所描述的装置、系统和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

15页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：多媒体数据的传输方法、装置、自动驾驶车辆及云服务器

视频字幕处理方法、装置、电子设备及可读存储介质

相关技术

网友询问留言