视频字幕的筛选方法、装置、设备及存储介质

文档序号：1113568 发布日期：2020-09-29 浏览：9次 >En<

阅读说明：本技术 视频字幕的筛选方法、装置、设备及存储介质 (Method, device and equipment for screening video subtitles and storage medium ) 是由杨震李彦亓超马宇驰于 2020-06-11 设计创作，主要内容包括：本申请提供了视频字幕的筛选方法、装置、设备及存储介质,涉及多媒体技术领域,该筛选方法通过获取视频字幕流对应的多帧视频图像上的字符信息,组合每一帧视频图像的字符信息得到对应的字幕文字块；根据字幕文字块的属性特征,提取并集合符合预设条件的字幕文字块,得到字幕组；计算所述字幕组中各字幕文字块的句置信度,根据句置信度从所述字幕组中选择目标字幕文字块；将所述目标字幕文字块对应的字符作为参考字幕,对所述参考字幕进行校准后得到最终字幕。本技术方案能够准确筛选出高质量的视频字幕,提高视频字幕筛选的效率。(The application provides a screening method, a device, equipment and a storage medium of video subtitles, which relate to the technical field of multimedia, wherein the screening method obtains character information on a plurality of frames of video images corresponding to video subtitle streams, and combines the character information of each frame of video images to obtain corresponding subtitle text blocks; extracting and collecting subtitle text blocks meeting preset conditions according to the attribute characteristics of the subtitle text blocks to obtain a subtitle group; calculating sentence confidence of each subtitle text block in the subtitle group, and selecting a target subtitle text block from the subtitle group according to the sentence confidence; and taking the characters corresponding to the target caption text block as a reference caption, and calibrating the reference caption to obtain a final caption. According to the technical scheme, high-quality video subtitles can be accurately screened out, and the video subtitle screening efficiency is improved.)

技术领域

本申请涉及多媒体领域，具体而言，本申请涉及一种视频字幕的筛选方法、装置、设备及存储介质。

背景技术

随着数字媒体技术的发展，视频在人们的日常生活中已经成为不可或缺的一部分。为了分析视频中的信息，如声音、文字和图像等，需要视频中的信息进行获取。

在相关技术中，为了获取视频中的字幕信息以对视频的内容进行分析，可以采用光学字符识别(Optical Character Recognition，OCR)技术对视频画面进行识别出字符以作为视频的字幕。

为了保证OCR识别的准确性，需要每秒对视频进行数次截图，使得识别出来的字幕具有一定的冗余性，从而保证了由于在视频背景变化等原因导致的部分字幕识别出错的情况下，能够从多个识别结果中筛选出符合要求的字幕。然而，OCR识别出来的字幕的质量参差不齐，筛选效率低。

发明内容

本申请的目的旨在至少解决上述技术缺陷之一，特别是字幕筛选效率低的问题。

第一方面，本申请提供了一种视频字幕的筛选方法，包括以下步骤：

获取视频字幕流对应的多帧视频图像上的字符信息，组合每一帧视频图像的字符信息得到对应的字幕文字块；

根据所述字幕文字块的属性特征，提取并集合符合预设条件的字幕文字块，得到字幕组；

计算所述字幕组中各字幕文字块的句置信度，根据所述句置信度从所述字幕组中选择目标字幕文字块；

将所述目标字幕文字块对应的字符作为参考字幕，对所述参考字幕进行校准后得到最终字幕。

在一实施例中，所述获取视频字幕流对应的多帧视频图像上的字符信息，组合每一帧视频图像的字符信息得到对应的字幕文字块的步骤包括：

对视频字幕流对应的多帧视频图像进行光学符号识别，得到各帧视频图像对应的字符信息；

根据所述字符信息的位置关系，将同一帧视频图像上的所述字符信息进行组合，得到各帧视频图像对应的字幕文字块。

在一实施例中，所述根据所述字幕文字块的属性特征，提取并集合符合预设条件的字幕文字块，得到字幕组的步骤包括：

获取各帧视频图像对应的字幕文字块的位置区域特征、内容特征以及时间特征；

将各帧视频图像对应的所述字幕文字块的位置区域特征、内容特征以及时间特征进行比较，根据比较结果提取符合预设条件的字幕文字块，得到中间字幕文字块；

将所述中间字幕文字块进行集合得到字幕组；所述字幕组包括至少两帧视频图像对应的字幕文字块。

在一实施例中，所述将各帧视频图像对应的所述字幕文字块的位置区域特征、内容特征以及时间特征进行比较，根据比较结果提取符合预设条件的字幕文字块，得到中间字幕文字块的步骤包括：

分别计算各帧视频图像对应的所述字幕文字块之间的位置区域重合度、文字内容相似度以及时间相邻程度；

从所述字幕文字块中提取所述位置区域重合度大于第一阈值、所述文字内容相似度大于第二阈值以及所述时间相邻程度大于第三阈值的字幕文字块，得到中间字幕文字块。

在一实施例中，所述计算所述字幕组中各字幕文字块的句置信度的步骤包括：

分别获取所述字幕组中各字幕文字块中各个字符的字置信度，将所述字置信度相加取平均值，得到所述字幕文字块对应的句置信度。

在一实施例中，所述根据所述句置信度从所述字幕组中选择目标字幕文字块的步骤包括：

比较字幕组中各个所述字幕文字块的句置信度，将所述句置信度的数值最大的字幕文字块确定为目标字幕文字块。

在一实施例中，所述对所述参考字幕进行校准后得到最终字幕的步骤包括：

获取所述参考字幕的各个字符及其对应的字置信度，确定需要进行校准的待纠正字符；

根据所述待纠正字符在所述参考字幕中的位置，从所述字幕组除所述目标字幕文字块之外的其余字幕文字块中确定与所述待纠正字符相同位置上的字符作为候选字符；

根据所述候选字符的置信度及其在所述字幕组中的出现频次，从所述候选字符中选择目标字符，利用目标字符对所述待纠正字符进行校准得到最终字幕。

在一实施例中，所述组合每一帧视频图像的字符信息得到对应的字幕文字块的步骤之后，还包括：

根据所述字幕文字块在所述视频图像的区域位置或出现频次，确定所述字幕文字块为水印；

删除所述水印对应的字幕文字块。

第二方面，本申请还提供了一种视频字幕的筛选装置，包括：

获取模块，用于获取视频字幕流对应的多帧视频图像上的字符信息，组合每一帧视频图像的字符信息得到对应的字幕文字块；

提取模块，用于根据所述字幕文字块的属性特征，提取并集合符合预设条件的字幕文字块，得到字幕组；

选择模块，用于计算所述字幕组中各字幕文字块的句置信度，根据所述句置信度从所述字幕组中选择目标字幕文字块；

得到模块，用于将所述目标字幕文字块对应的字符作为参考字幕，对所述参考字幕进行校准后得到最终字幕。

第三方面，本申请还提供了一种视频字幕的筛选设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面任一实施例所提及的视频字幕的筛选方法的步骤。

第四方面，本申请还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面任一实施例所提及的视频字幕的筛选方法的步骤。

上述实施例提供的视频字幕的筛选方法、装置、设备及存储介质，通过获取视频字幕流对应的多帧视频图像上的字符信息，组合每一帧视频图像的字符信息得到对应的字幕文字块；根据字幕文字块的属性特征，提取并集合符合预设条件的字幕文字块，得到字幕组；计算所述字幕组中各字幕文字块的句置信度，根据句置信度从所述字幕组中选择目标字幕文字块；将所述目标字幕文字块对应的字符作为参考字幕，对所述参考字幕进行校准后得到最终字幕。本技术方案通过同一字幕对应的视频图像，利用字幕的冗余性从各帧视频图像中识别出的多个字幕中筛选出高质量的字幕，提高了所筛选得到的字幕质量，提高字幕筛选效率和准确率。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是一实施例提供的视频字幕的筛选方法的流程图；

图2是一实施例提供的带有字幕的视频图像的示意图；

图3是一实施例的字幕校准的工作原理示意图；

图4是一实施例提供的视频字幕的筛选装置的结构示意图；

图5是一实施例提供的视频字幕的筛选设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

图1是一实施例提供的视频字幕的筛选方法的流程图，该视频字幕的筛选方法执行于计算机设备，如服务器、个人电脑、笔记本电脑、平板电脑、扫描机和智能手机等。

具体的，如图1所示，该视频字幕的筛选方法可以包括以下步骤：

S110、获取视频字幕流对应的多帧视频图像上的字符信息，组合每一帧视频图像的字符信息得到对应的字幕文字块。

视频播放时每秒播放多帧视频图像，如一秒播放20～30帧视频图像，视频字幕流也跟随视频图像进行播放。同一视频字幕流可能存在相邻的多帧视频图像中。在本实施例中，为了保证字幕信息的冗余性，便于后续的比较纠错，需要获取多帧视频图像以便于对该视频图像上的同一字幕信息进行比较。可选的，每秒均匀截取多帧图像，可以是连续截取多帧图像，也可以是间隔截取多帧图像。

可选的，截取到视频图像后，将识别出的字幕信息的字符数量较少的或者不存在字幕的视频图像去除。获取到视频字幕流对应的多帧视频图像后，识别视频图像上的字符信息。

进一步的，可以将每一帧视频图像上的字符信息进行组合得到对应的字幕文字块，例如，根据各个字符的位置和间隔距离，对字符信息进行组合。例如，若多个字符相邻且距离较短，可以认为该多个字符同属于同一个字幕语句，可以组合为一个字幕文字块。若两个字符相距较远，如存在空格间隔符等，则认为这两个字符属于不同的字幕语句，可以将该字符信息划分为两个及以上字幕文字块。在本实施例中，字幕文字块是由一个或多个相邻的字幕字符组成的一个语言整体。

图2是一实施例提供的带有字幕的视频图像的示意图，如图2所示，在一帧视频图像10上显示有字幕信息“酸奶味的杏仁”，其中字幕信息中包括“酸”“奶”“味”“的”“杏”“仁”等5个文字字符20，这5个文字字符20组合起来得到该帧视频图像10对应的字幕文字块30。如图3所示，字幕文字块30可以理解包括多个文字字符20在内的虚拟的文本框，通过获取该虚拟的文本框的四个角的坐标位置，可以得到该字幕文字块30在视频图像10上的区域。

继续参考图2，在该视频图像10的左上角还可能存在如“某网ABC”等水印40，水印40一般用于标识该视频图像的来源和制作者等。可选的，根据字幕文字块水印对应的字幕文字块删除，以对剩下的字幕文字块进行后续的处理，以提高视频字幕筛选的质量和效率。

在本实施例中，各帧视频图像的字符信息可能相同，对应的字幕文字块也可能相同。第一帧视频图像所得到的字幕文字块的内容为“酸奶味的杏仁”，第二帧视频图像所得到的字幕文字块的内容也为“酸奶味的杏仁”。可选的，由于受到视频图像背景颜色等因素的影响，机器识别视频图像上的字幕信息可能存在误差，第三帧视频图像所得到的字幕文字块的内容可能为“酸奶味的杏位”等。

S120、根据所述字幕文字块的属性特征，提取并集合符合预设条件的字幕文字块，得到字幕组。

字幕文字块的属性特征可以包括字幕中的字符个数、位置、文字内容、位置或字符个数或文字内容的重合度、在视频中的时间、对应的视频帧图像、字幕对应的字置信度和句置信度等。其中，字置信度是指字符在当前字幕语句中当前位置出现的可能性，句置信度是指该字幕语句在当前字幕流中当前位置出现的可能性。通常而言，可以基于当前字幕语句中上下文的语义确定该字幕语句中各个字符的字置信度，基于当前字幕流的上下文的各字幕语句的语义关系确定字幕流中各个字幕语句的句置信度。

在本实施例中，将各帧视频图像对应字幕文字块中具有相同或相似属性特征的字幕文字块提取出来，并集合得到字幕组，该字幕组包括多帧视频图像对应的字幕文字块，一般而言，同一字幕组对应同一个字幕语句。其中，该预设条件可以是字符个数相同、字幕文字块在视频图像中的位置相同、文字内容相同、出现时间相连或接近等条件。

S130、计算所述字幕组中各字幕文字块的句置信度，根据所述句置信度从所述字幕组中选择目标字幕文字块。

在本实施例中，一个字幕文字块包括位置相邻的多个字符，为了形象表示字幕文字块，一个字幕文字块可以理解为设置在一个虚拟的矩形文本框中的字幕字符。可选的，可以通过各个字幕文字块的上下文的语义关系，通过预先训练的神经网络语言模型得到各个字幕文字块的句置信度。

在一实施例中，步骤S130中的计算所述字幕组中各字幕文字块的句置信度可以通过以下步骤S1301获得：

S1301、分别获取所述字幕组中各字幕文字块中各个字符的字置信度，将所述文字的字置信度取平均值，得到所述字幕文字块对应的句置信度。

在本实施例中，一个字幕文字块包括多个字符，每个字符在该字幕语句中对应位置上的出现概率作为该字符对应的字置信度。进一步的，将该字幕文字块中的各个字符的字置信度相加取平均值，得到该字幕文字块对应的句置信度。

在一实施例中，步骤S130中的根据所述句置信度从所述字幕组中选择目标字幕文字块，可以通过以下步骤S1302获得：

S1302、比较字幕组中各个所述字幕文字块的句置信度，将所述句置信度的数值最大的字幕文字块确定为目标字幕文字块。

通常而言，字幕文字块的句置信度越高，各字幕文字块与上下文之间的语义关联性越强。可选的，得到各个字幕文字块对应的句置信度，将各置信度排序比较后，将字幕文字块的句置信度最高的字幕文字块作为该字幕组对应的目标字幕文字块。

S140、将所述目标字幕文字块对应的字符作为参考字幕，对所述参考字幕进行校准后得到最终字幕。

在本实施例中，将目标字幕文字块对应的字符作为参考字幕，由于在识别过程中受到视频图像的背景颜色等的影响，参考字幕的字符中可能存在错别字，因此，需要对参考字幕进行校准，将可能是错别字的字符进行纠正后得到最终字幕。

本实施例提供的视频字幕的筛选方法，通过获取视频字幕流对应的多帧视频图像上的字符信息，组合每一帧视频图像的字符信息得到对应的字幕文字块；根据字幕文字块的属性特征，提取并集合符合预设条件的字幕文字块，得到字幕组；计算所述字幕组中各字幕文字块的句置信度，根据句置信度从所述字幕组中选择目标字幕文字块；将所述目标字幕文字块对应的字符作为参考字幕，对所述参考字幕进行校准后得到最终字幕，从而准确筛选出高质量的字幕，提高字幕筛选效率。

为了使本申请的技术方案更为清晰，更为便于理解，下面对本技术方案中的多个步骤的具体的实现过程和方式加以详细的描述。

在一实施例中，步骤S110获取视频字幕流对应的多帧视频图像上的字符信息，组合每一帧视频图像的字符信息得到对应的字幕文字块，可以包括以下步骤：

S1101、对视频字幕流对应的多帧视频图像进行光学符号识别，得到各帧视频图像对应的字符信息。

光学字符识别(Optical Character Recognition，OCR)是指电子设备(例如扫描仪或数码相机)通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档或视频中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

在本实施例中，将字符字幕流对应的多帧视频图像进行光学符号识别，得到各帧视频图像的字符信息，可选的，为了表示视频图像及其对应的字符信息的映射关系，两者通过标识符等关联起来，比如，0001对应第一帧视频图像，而0001对应的字符信息则为对该第一帧视频图像识别出来的字符信息。

S1102、根据所述字符信息的位置关系，将同一帧视频图像上的所述字符信息进行组合，得到各帧视频图像对应的字幕文字块。

在本实施例中，将同一帧视频图像上的相邻位置的字符进行组合，得到该帧视频图像对应的字幕文字块，进而得到各帧视频图像对应的字幕文字块。可选的，当相邻位置的字符之间的位置距离关系小于预设距离值，则将该字符同属于同一字幕文字块。

在一实施例中，步骤S120根据所述字幕文字块的属性特征，提取并集合符合预设条件的字幕文字块，得到字幕组，可以包括以下步骤：

S1201、获取各帧视频图像对应的字幕文字块的位置区域特征、内容特征以及时间特征。

对于位置区域特征是指字幕文字块所在的字幕矩形文本框所对应的位置、形状面积大小，如该矩形文本框的四个角的位置坐标、形状及面积等特征；内容特征可以是指字幕文字内容特征，如文字、内容和字体等特征，时间特征可以是该字幕文字块在视频流对应的时间戳等。S1202、将各帧视频图像对应的所述字幕文字块的位置区域特征、内容特征以及时间特征进行比较，根据比较结果提取符合预设条件的字幕文字块，得到中间字幕文字块。

可选的，各帧视频图像可以是按时间顺序排列的连续的多帧视频图像或者是间隔的多帧图像。在本实施例中，可以将具有相同或相似的位置区域特征、内容特征以及时间特征的字幕文字块提取出来作为中间字幕文字块，而位置区域特征、内容特征以及时间特征相差较大的字幕文字块则将其去除。

在实施例中，在步骤S1202可以进一步包括以下子步骤：

S201、分别计算各帧视频图像对应的所述字幕文字块之间的位置区域重合度、文字内容相似度以及时间相邻程度。

由于OCR精度的问题，识别出来的字幕文字块所在位置区域可能存在偏差，位置区域通常是指字幕文字块所对应的矩形文本框所占据区域的位置及大小。位置区域重合度是指两个字幕文字块对应的矩形文本框的重合程度，若两个字幕文字块所在的位置区域的重合度越高，则认为两者为相同的字幕的可能性越大。本实施例中，将各帧视频图像的字幕文字块中的文字内容进行比较，若两者文字相同或内容相同程度越高，或者相同文字个数越多，则说明文字内容的相似度越高。在本实施例中，时间相邻程度可以通过各帧视频图像之间的时间差值来获得，通过该时间差值与预设时间间隔的比值来表示，若时间差值越小，则说明该视频图像之间相邻程度越高。

S202、从所述字幕文字块中提取所述位置区域重合度大于第一阈值、所述文字内容相似度大于第二阈值以及所述时间相邻程度大于第三阈值的字幕文字块，得到中间字幕文字块。

例如，第一帧视频图像的字幕文字块的内容为“酸奶味的杏仁”，第二帧视频图像的字幕文字块的内容为“酸奶味的杏位”，第三帧视频图像的字幕文字块的内容为“好好吃”。

基于上述例子，第一帧视频图像的字幕文字块的位置区域和第二帧视频图像的字幕文字块的位置区域几乎相同(包括位置及所占面积等)，其位置区域重合度高于第一阈值，而第二帧视频图像的字幕文字块的字幕区域与第三帧视频图像的字幕文字区域的位置区域相差较大，低于第一阈值。第一帧和第二帧视频图像的文字内容相似度较高，大于第二阈值，第二帧和第三帧视频图像的文字内容相似度较低，小于第二阈值。第一帧视频图像和第二帧视频图像之间，第二帧视频图像与第三帧视频图像之间时间相邻程度相同，大于第三阈值。可选的，第一阈值为90％，第二阈值为90％，第三相邻程度为95％。

在本实施例中，由于第一帧视频图像的字幕文字块和第二帧视频图像的字幕文字块的位置区域重合度、文字内容相似度以及时间相邻程度均满足预设条件，第二帧视频图像与第三帧视频图像的字幕文字块的位置区域重合度、文字内容相似度以及时间相邻程度至少一者不满足预设条件，则将第一帧视频图像的字幕文字块和第二帧视频图像的字幕文字块提取出来作为中间字幕文字块。

S1203、将所述中间字幕文字块进行集合得到字幕组；所述字幕组包括至少两帧视频图像对应的字幕文字块。

在本实施例中，中间字幕文字块可以是一个或多个字幕文字块。将该中间字幕文字块集合起来得到字幕组。也即是，字幕组中的各字幕文字块位置区域重合度、文字内容相似度以及时间相邻程度均相似或相同。

在一实施例中，步骤S140中的对所述参考字幕进行校准后得到最终字幕，可以包括以下步骤：

S1401、获取所述参考字幕的各个字符及其对应的字置信度，确定需要进行校准的待纠正字符。

在本实施例中，对视频图像进行OCR识别时，OCR系统根据识别结果返回所识别出来的各个字符及其该字符在当前字幕语句上对应位置的字置信度。该字置信度是OCR系统根据识别出来的字幕语句的语义关系自动计算得到的。例如，识别出来的字幕语句为“酸奶味的杏位”，其中，“酸”字符在当前位置上的字置信度为99.6，“奶”字符在当前位置上的字置信度为99.8，“味”字符在当前位置上的字置信度为99.7，“的”字符在当前位置上的字置信度为99.6，“杏”字符在当前位置上的字置信度为99.7，“位”字符在当前位置上的字置信度为80.1，由于“位”字符对应的字置信度明显低于其他字符，且低于预设的第四阈值，如95.9，则确定该“位”字符为需要进行校准的待纠正字符，并确定其所在位置，即“杏”字符所在位置的下一位置。

S1402、根据所述待纠正字符在所述参考字幕中的位置，从所述字幕组除所述目标字幕文字块之外的其余字幕文字块中确定与所述待纠正字符相同位置上的字符作为候选字符。

由于同一字幕对应多帧视频图像以保证字幕识别的冗余性，字幕组中包括多个该字幕的字幕文字块。由于OCR识别精度的问题，同一字幕在不同视频图像上受到该视频图像的背景颜色等影响，OCR对同一字幕的识别结果可能不同。

图3是一实施例的字幕校准的工作原理示意图，如图3所示，同一字幕在不同帧视频图像的识别结果不同，该识别结果为包括“酸奶味的杏仁”、“酸奶味的杏位”、“酸奶味的杏仨”等。从这些识别结果中提取与待纠正字符文字的字符作为候选字符，如，待纠正字符的位置为该字幕语句的最后一个字符位置，或“杏”字的下一字符位置，则将各个识别结果的最后一个位置的字符作为候选字符，得到候选字符集合为{仁，位，仨}。

S1403、根据所述候选字符的置信度及其在所述字幕组中的出现频次，从所述候选字符中选择目标字符，利用目标字符对所述待纠正字符进行校准得到最终字幕。

继续参考图3，如图3所示的结果，字幕组包括5个字幕文字块，而该字幕语句的最后一个字符“仁”字符在字幕组的出现频次为2次，在当前位置上的字置信度为0.5；“位”字符在字幕组的出现频次为3次，在当前位置上的字置信度为0.2；“仨”字符在字幕组的出现频次为1次，在当前位置上的字置信度为0.1。

进一步的，为候选字符的置信度和其在字幕组中的出现频次设置权重，将置信度和出现频次分别与其对应的权重的乘积相加得到比较结果，即置信度*权重1+出现频次*权重2，比较结果越大，则将该候选字符作为目标字符，将目标字符替代待纠正字符进行校准，得到最终字幕。

例如，参考字幕为“酸奶为的杏位”，而目标字符为“仁”，将“仁”字替换“位”字进行校准，得到最终字幕“酸奶味的杏仁”。

在一实施例中，步骤S110中的组合每一帧视频图像的字符信息得到对应的字幕文字块之后，还包括：

S1103、根据所述字幕文字块在所述视频图像的区域位置或出现频次，确定所述字幕文字块为水印。

由于水印一般设置在视频图像的边缘区域，通常每帧视频图像上的水印相同。在一实施例中，获取字幕文字块的中间点的位置坐标，若该中间点的位置坐标位于视频图像的边缘区域，则确定该字幕文字块为水印，在另一实施例中，获取该字幕文字块在各视频图像中的出现频次，或出现频次高于预设阈值，则确定为水印，如每帧视频图像上均存在该字幕文字块，则确定为该字幕文字块为水印。当然，为了更准确地判断字幕文字块是否为水印，结合该字幕文字块在视频图像上的区域位置及出现频次共同确定该字幕文字块为水印。

S1104、删除所述水印对应的字幕文字块。

删除该水印对应的字幕文字块，以提高视频字幕筛选的质量。

在其他实施例中，还可以将句置信度低于某阈值的字幕流确定为视频的干扰信息，或者将长度过短的字幕流确定为动效或其他不重要的信息等，将这些字幕流删除，以进一步提高视频筛选的质量。

下面对视频字幕的筛选装置的相关实施例进行详细阐述。

图4是一实施例提供的视频字幕的筛选装置的结构示意图，如图4示，该视频字幕的筛选装置10适用于对输入的文字进行自动纠正，该视频字幕的筛选装置10可以设置于用于视频字幕筛选的设备中。

具体的，该视频字幕的筛选装置10包括：获取模块110、提取模块120、选择模块130和得到模块140。

其中，获取模块110，用于获取视频字幕流对应的多帧视频图像上的字符信息，组合每一帧视频图像的字符信息得到对应的字幕文字块；提取模块120，用于根据所述字幕文字块的属性特征，提取并集合符合预设条件的字幕文字块，得到字幕组；选择模块130，用于计算所述字幕组中各字幕文字块的句置信度，根据所述句置信度从所述字幕组中选择目标字幕文字块；得到模块140，用于将所述目标字幕文字块对应的字符作为参考字幕，对所述参考字幕进行校准后得到最终字幕。

本实施例提供的视频字幕的筛选装置，通过获取模块110获取视频字幕流对应的多帧视频图像上的字符信息，组合每一帧视频图像的字符信息得到对应的字幕文字块；提取模块120根据字幕文字块的属性特征，提取并集合符合预设条件的字幕文字块，得到字幕组；选择模块130计算所述字幕组中各字幕文字块的句置信度，根据句置信度从所述字幕组中选择目标字幕文字块；得到模块140将所述目标字幕文字块对应的字符作为参考字幕，对所述参考字幕进行校准后得到最终字幕，从而准确筛选出高质量的字幕，提高字幕筛选效率。

在一实施例中，获取模块110包括：字符信息得到单元和字幕文字块得到单元；

字符信息得到单元，用于对视频字幕流对应的多帧视频图像进行光学符号识别，得到各帧视频图像对应的字符信息；

字幕文字块得到单元，用于根据所述字符信息的位置关系，将同一帧视频图像上的所述字符信息进行组合，得到各帧视频图像对应的字幕文字块。

在一实施例中，提取模块120包括：特征获取单元、中间字幕得到单元和字幕组生成单元；

特征获取单元，用于获取各帧视频图像对应的字幕文字块的位置区域特征、内容特征以及时间特征；

中间字幕得到单元，用于将各帧视频图像对应的所述字幕文字块的位置区域特征、内容特征以及时间特征进行比较，根据比较结果提取符合预设条件的字幕文字块，得到中间字幕文字块；

字幕组生成单元，用于将所述中间字幕文字块进行集合得到字幕组；所述字幕组包括至少两帧视频图像对应的字幕文字块。

在一实施例中，中间字幕得到单元包括：计算子单元和得到子单元；

其中，计算子单元，用于分别计算各帧视频图像对应的所述字幕文字块之间的位置区域重合度、文字内容相似度以及时间相邻程度；

得到子单元，用于从所述字幕文字块中提取所述位置区域重合度大于第一阈值、所述文字内容相似度大于第二阈值以及所述时间相邻程度大于第三阈值的字幕文字块，得到中间字幕文字块。

在一实施例中，选择模块130包括：句置信度计算单元，用于分别获取所述字幕组中各字幕文字块中各个字符的字置信度，将所述字置信度相加取平均值，得到所述字幕文字块对应的句置信度。

在一实施例中，选择模块130包括：目标文字块确定单元，用于比较字幕组中各个所述字幕文字块的句置信度，将所述句置信度的数值最大的字幕文字块确定为目标字幕文字块。

在一实施例中，得到模块140包括：待纠正字符确定单元、候选字符确定单元和字符校准单元；

其中，待纠正字符确定单元，用于获取所述参考字幕的各个字符及其对应的字置信度，确定需要进行校准的待纠正字符；

候选字符确定单元，用于根据所述待纠正字符在所述参考字幕中的位置，从所述字幕组除所述目标字幕文字块之外的其余字幕文字块中确定与所述待纠正字符相同位置上的字符作为候选字符；

字符校准单元，用于根据所述候选字符的置信度及其在所述字幕组中的出现频次，从所述候选字符中选择目标字符，利用目标字符对所述待纠正字符进行校准得到最终字幕。

在一实施例中，获取模块110还包括：水印确定单元和水印删除单元；水印确定单元，用于根据所述字幕文字块在所述视频图像的区域位置或出现频次，确定所述字幕文字块为水印；水印删除单元，用于删除所述水印对应的字幕文字块。

上述提供的视频字幕的筛选装置可用于执行上述任意实施例提供的视频字幕的筛选方法，具备相应的功能和有益效果。

图5是一实施例提供的视频字幕的筛选设备的结构示意图，如图5所示，该视频字幕的筛选设备包括处理器60、存储器61、输入装置62以及输出装置63。存储器61上存储有可在处理器60上运行的计算机程序，处理器60执行所述程序时实现如上述任一实施例中的视频字幕的筛选方法。

该视频字幕的筛选设备中处理器60的数量可以是一个或多个，图5以一个处理器60为例。该视频字幕的筛选设备中存储器61的数量可以是一个或者多个，图5中以一个存储器61为例。该视频字幕的筛选设备的处理器60和存储器61可以通过总线或者其他方式连接，图5中以通过总线连接为例。实施例中，视频字幕的筛选设备可以是电脑、扫描机和服务器等。

存储器61作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本方案任意实施例所述的视频字幕的筛选方法对应的程序指令/模块(例如，获取模块110、提取模块120、选择模块130和得到模块140)。存储器61可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器61可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器61可进一步包括相对于处理器60远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置62可用于接收输入的数字或者字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入，还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。输出装置63可以包括扬声器等音频设备或者打印机等文字输入设备。需要说明的是，输入装置62和输出装置63的具体组成可以根据实际情况设定。

处理器60通过运行存储在存储器61中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的视频字幕的筛选方法。

上述提供的计算机设备执行上述任意实施例提供的视频字幕的筛选方法时，具备相应的功能和有益效果。

本实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种视频字幕的筛选方法，包括：

获取视频字幕流对应的多帧视频图像上的字符信息，组合每一帧视频图像的字符信息得到对应的字幕文字块；

根据所述字幕文字块的属性特征，提取并集合符合预设条件的字幕文字块，得到字幕组；

计算所述字幕组中各字幕文字块的句置信度，根据所述句置信度从所述字幕组中选择目标字幕文字块；

将所述目标字幕文字块对应的字符作为参考字幕，对所述参考字幕进行校准后得到最终字幕。

当然，本实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的视频字幕的筛选方法操作，还可以执行任意实施例所提供的视频字幕的筛选方法中的相关操作，且具备相应的功能和有益效果。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本方案可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务端，或者网络设备等)执行本方案任意实施例所述的视频字幕的筛选方法。

本申请公开了A1、一种视频字幕的筛选方法，包括以下步骤：

获取视频字幕流对应的多帧视频图像上的字符信息，组合每一帧视频图像的字符信息得到对应的字幕文字块；

根据所述字幕文字块的属性特征，提取并集合符合预设条件的字幕文字块，得到字幕组；

计算所述字幕组中各字幕文字块的句置信度，根据所述句置信度从所述字幕组中选择目标字幕文字块；

将所述目标字幕文字块对应的字符作为参考字幕，对所述参考字幕进行校准后得到最终字幕。

A2.根据A1所述的视频字幕的筛选方法，所述获取视频字幕流对应的多帧视频图像上的字符信息，组合每一帧视频图像的字符信息得到对应的字幕文字块的步骤包括：

对视频字幕流对应的多帧视频图像进行光学符号识别，得到各帧视频图像对应的字符信息；

根据所述字符信息的位置关系，将同一帧视频图像上的所述字符信息进行组合，得到各帧视频图像对应的字幕文字块。

A3.根据A1所述的视频字幕的筛选方法，所述根据所述字幕文字块的属性特征，提取并集合符合预设条件的字幕文字块，得到字幕组的步骤包括：

获取各帧视频图像对应的字幕文字块的位置区域特征、内容特征以及时间特征；

将所述中间字幕文字块进行集合得到字幕组；所述字幕组包括至少两帧视频图像对应的字幕文字块。

A4.根据A3所述的视频字幕的筛选方法，所述将各帧视频图像对应的所述字幕文字块的位置区域特征、内容特征以及时间特征进行比较，根据比较结果提取符合预设条件的字幕文字块，得到中间字幕文字块的步骤包括：

分别计算各帧视频图像对应的所述字幕文字块之间的位置区域重合度、文字内容相似度以及时间相邻程度；

A5.根据A1所述的视频字幕的筛选方法，所述计算所述字幕组中各字幕文字块的句置信度的步骤包括：

分别获取所述字幕组中各字幕文字块中各个字符的字置信度，将所述字置信度相加取平均值，得到所述字幕文字块对应的句置信度。

A6.根据A1所述的视频字幕的筛选方法，所述根据所述句置信度从所述字幕组中选择目标字幕文字块的步骤包括：

比较字幕组中各个所述字幕文字块的句置信度，将所述句置信度的数值最大的字幕文字块确定为目标字幕文字块。

A7.根据A1所述的视频字幕的筛选方法，所述对所述参考字幕进行校准后得到最终字幕的步骤包括：

获取所述参考字幕的各个字符及其对应的字置信度，确定需要进行校准的待纠正字符；

A8.根据A1所述的视频字幕的筛选方法，所述组合每一帧视频图像的字符信息得到对应的字幕文字块的步骤之后，还包括：

根据所述字幕文字块在所述视频图像的区域位置或出现频次，确定所述字幕文字块为水印；

删除所述水印对应的字幕文字块。

B9.一种视频字幕的筛选装置，包括：

获取模块，用于获取视频字幕流对应的多帧视频图像上的字符信息，组合每一帧视频图像的字符信息得到对应的字幕文字块；

提取模块，用于根据所述字幕文字块的属性特征，提取并集合符合预设条件的字幕文字块，得到字幕组；

选择模块，用于计算所述字幕组中各字幕文字块的句置信度，根据所述句置信度从所述字幕组中选择目标字幕文字块；

得到模块，用于将所述目标字幕文字块对应的字符作为参考字幕，对所述参考字幕进行校准后得到最终字幕。

B10.根据B9所述的视频字幕的筛选装置，所述获取模块110包括：字符信息得到单元和字幕文字块得到单元；

字符信息得到单元，用于对视频字幕流对应的多帧视频图像进行光学符号识别，得到各帧视频图像对应的字符信息；

字幕文字块得到单元，用于根据所述字符信息的位置关系，将同一帧视频图像上的所述字符信息进行组合，得到各帧视频图像对应的字幕文字块。

B11.根据B9所述的视频字幕的筛选装置，提取模块120包括：特征获取单元、中间字幕得到单元和字幕组生成单元；

特征获取单元，用于获取各帧视频图像对应的字幕文字块的位置区域特征、内容特征以及时间特征；

字幕组生成单元，用于将所述中间字幕文字块进行集合得到字幕组；所述字幕组包括至少两帧视频图像对应的字幕文字块。

B12.根据B11所述的视频字幕的筛选装置，中间字幕得到单元包括：计算子单元和得到子单元；

计算子单元，用于分别计算各帧视频图像对应的所述字幕文字块之间的位置区域重合度、文字内容相似度以及时间相邻程度；

B13.根据B9所述的视频字幕的筛选装置，所述选择模块130包括：句置信度计算单元；

所述句置信度计算单元，用于分别获取所述字幕组中各字幕文字块中各个字符的字置信度，将所述字置信度相加取平均值，得到所述字幕文字块对应的句置信度。

B14.根据B9所述的视频字幕的筛选装置，选择模块130包括：目标文字块确定单元；

所述目标文字块确定单元，用于比较字幕组中各个所述字幕文字块的句置信度，将所述句置信度的数值最大的字幕文字块确定为目标字幕文字块。

B15.根据B9所述的视频字幕的筛选装置，得到模块140包括：待纠正字符确定单元、候选字符确定单元和字符校准单元；

所述待纠正字符确定单元，用于获取所述参考字幕的各个字符及其对应的字置信度，确定需要进行校准的待纠正字符；

所述候选字符确定单元，用于根据所述待纠正字符在所述参考字幕中的位置，从所述字幕组除所述目标字幕文字块之外的其余字幕文字块中确定与所述待纠正字符相同位置上的字符作为候选字符；

所述字符校准单元，用于根据所述候选字符的置信度及其在所述字幕组中的出现频次，从所述候选字符中选择目标字符，利用目标字符对所述待纠正字符进行校准得到最终字幕。

B16.根据B9所述的视频字幕的筛选装置，获取模块110还包括：水印确定单元和水印删除单元；

所述水印确定单元，用于根据所述字幕文字块在所述视频图像的区域位置或出现频次，确定所述字幕文字块为水印；

水印删除单元，用于删除所述水印对应的字幕文字块。

C17.一种视频字幕的筛选设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如A1至A8任一项所述的视频字幕的筛选方法的步骤。

C18.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如A1至A8任一项所述视频字幕的筛选方法的步骤。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

20页详细技术资料下载

视频字幕的筛选方法、装置、设备及存储介质

相关技术

网友询问留言