视频处理方法、装置、电子设备和存储介质

文档序号：1315140 发布日期：2020-07-10 浏览：8次 >En<

阅读说明：本技术 视频处理方法、装置、电子设备和存储介质 (Video processing method and device, electronic equipment and storage medium ) 是由张春焰姚圣源安涵岑杰鹏于 2020-03-25 设计创作，主要内容包括：本发明实施例公开了一种视频处理方法、装置、电子设备和存储介质。本发明可以获取目标视频；对目标视频进行文本识别,得到目标视频中所出现的文本,以及文本的文本位置；对文本进行分组处理,得到文本集合；基于文本位置以及文本集合,对文本集合中的文本进行类型分类,确定文本的文本类型；根据文本和文本类型生成视频详情信息；显示视频详情信息。本发明实施例可以高效、自动地识别出目标视频中所有的文本,以及该文本所在位置,结合文本及其所在的位置,可以生成对应的视频详情信息。由此,本方案可以提高视频处理方法的效果。(The embodiment of the invention discloses a video processing method, a video processing device, electronic equipment and a storage medium. The invention can obtain the target video; performing text recognition on the target video to obtain a text appearing in the target video and a text position of the text; grouping the texts to obtain a text set; classifying the types of the texts in the text set based on the text positions and the text set, and determining the text types of the texts; generating video detail information according to the text and the text type; and displaying the video detail information. The embodiment of the invention can efficiently and automatically identify all texts in the target video and the positions of the texts, and can generate corresponding video detail information by combining the texts and the positions of the texts. Therefore, the video processing method can improve the effect of the video processing method.)

视频处理方法、装置、电子设备和存储介质

技术领域

本发明涉及图像处理领域，具体涉及一种视频处理方法、装置、电子设备和存储介质。

背景技术

OCR(Optical Character Recognition，光学字符识别)技术是一种常用的字符识别技术，OCR技术可以识别将含有黑白点阵的图像中的文本，将其转换成文本格式，以供进一步编辑加工。

相比于静态的图片，动态视频中的文本可能会出现大小、角度、位置、文本内容等的改变，因此目前的字符识别技术很难提取视频中出现的文本，故很难针对动态视频中出现的文本进行进一步的编辑加工。

特别是对于目标视频(比如，比赛直播视频、比赛录播视频等)中所出现的文本信息(比如，篮球比赛中的比赛得分牌信息、电子游戏竞技比赛中的得分面板信息等)，目前的视频播放平台往往需要提取、识别出这些文本信息，并按照一定的比赛规则对这些文本信息进行归纳、统计与展示。

然而采用目前的常用方法很难正确、自动、高效地提取出目标视频中的文本信息，并对其进行一系列的加工处理，故目前视频处理方法的效果不佳。

发明内容

本发明实施例提供一种视频处理方法、装置、电子设备和存储介质，旨在提高视频处理方法的效果。

本发明实施例提供一种视频处理方法，包括：

获取目标视频；

对所述目标视频进行文本识别，得到所述目标视频中所出现的文本，以及所述文本的文本位置；

对所述文本进行分组处理，得到文本集合；

基于所述文本位置以及所述文本集合，对所述文本集合中的文本进行类型分类，确定所述文本的文本类型；

根据所述文本和所述文本类型生成视频详情信息；

显示所述视频详情信息。

本发明实施例提供一种视频处理装置，包括：

获取模块，用于获取目标视频；

识别模块，用于对所述目标视频进行文本识别，得到所述目标视频中所出现的文本，以及所述文本的文本位置；

集合模块，用于对所述文本进行分组处理，得到文本集合；

分类模块，用于基于所述文本位置以及所述文本集合，对所述文本进行类型分类，确定所述文本的文本类型；

生成模块，用于根据所述文本和所述文本类型生成视频详情信息；

显示模块，用于显示所述视频详情信息。

在一些实施例中，所述集合模块包括：

匹配子模块，用于在预设文本库中对所述文本进行类型匹配，若所述预设文本库中存在与所述文本匹配的预设文本，则将所述文本分至第一类型组；

第一分组子模块，用于若所述预设文本库中不存在与所述文本匹配的预设文本，且所述文本由数字构成，则将所述文本分至第二类型组；

第二分组子模块，用于若所述预设文本库中不存在与所述文本匹配的预设文本，且所述文本中包括预设时间符号，则将所述文本分至时间类型组。

在一些实施例中，所述目标视频为记录了对抗性比赛内容的视频，所述第一类型组包括参赛队名组和比赛阶段组，所述第一分组子模块，包括：

匹配子单元，用于在预设文本库中对所述文本进行类型匹配；

队名子单元，用于若所述预设文本库中存在与所述文本匹配的参赛队名，则将所述文本分至参赛队名组；

阶段子单元，用于若所述预设文本库中存在与所述文本匹配的比赛阶段，则将所述文本分至比赛阶段组；

在一些实施例中，所述预设文本包括参赛队名和比赛阶段，所述第二类型组包括比赛得分组，所述第二分组子模块用于：

若所述预设文本库中不存在与所述文本匹配的参赛队名和比赛阶段，且所述文本由数字构成，则将所述文本分至比赛得分组。

在一些实施例中，所述预设文本包括参赛队名和比赛阶段，所述预设时间符号包括第一预设时间符号和第二预设时间符号，所述时间类型组包括第一时间类型组和第二时间类型组，所述第二分组子模块用于：

若所述预设文本库中不存在与所述文本匹配的参赛队名和比赛阶段且所述文本中包括第一预设时间符号，则将所述文本分至第一时间类型组；

若所述预设文本库中不存在与所述文本匹配的参赛队名和比赛阶段且所述文本中包括第二预设时间符号，则将所述文本分至第二时间类型组。

在一些实施例中，所述目标视频为记录了对抗性比赛内容的视频，所述文本集合包括参赛队名组、比赛阶段组、比赛得分组、第一时间类型组、第二时间类型组，所述文本类型包括比赛阶段类型、第一时间类型、第二时间类型、主客队名类型、比赛得分类型，所述分类模块，包括：

阶段类型子模块，用于将所述比赛阶段组中文本的文本类型确定为比赛阶段类型；

第一时间类型子模块，用于将所述第一时间类型组中文本的文本类型确定为第一时间类型；

第二时间类型子模块，用于将所述第二时间类型组中文本的文本类型确定为第二时间类型；

主客判断子模块，用于根据所述参赛队名组中文本的文本位置，对所述参赛队名组中文本进行主客判断，确定所述参赛队名组中文本的主客队名类型；

得分类型判断子模块，用于根据所述比赛得分组中文本的文本位置，对所述比赛得分组中文本进行得分类型判断，确定所述比赛得分组中文本的比赛得分类型。

在一些实施例中，所述得分类型判断子模块，包括：

数量子单元，用于确定所述第一时间类型组、第二时间类型组、比赛得分组中文本的数量；

得分类型判断子单元，用于当所述比赛得分组中文本的数量为3，且所述第一时间类型组和第二时间类型组中文本的数量之和为1时，将所述第一时间类型组和第二时间类型组中文本的文本类型确定为第二时间类型，并根据所述参赛队名组中文本的文本位置对所述比赛得分组中文本进行得分类型判断，确定所述参赛队名组中文本的比赛得分类型；

第一相对位置关系子单元，用于当所述第一时间类型组中文本的数量为2时，根据所述文本位置确定所述第一时间类型组中文本之间的相对位置关系，将属于第一相对位置关系的文本的文本类型确定为第一时间类型，以及将属于第二相对位置关系的文本的文本类型确定为第二时间类型；

第二相对位置关系子单元，用于当所述第二时间类型组中文本的数量为2时，根据所述文本位置确定所述第二时间类型组中文本之间的相对位置关系，将属于第一相对位置关系的文本的文本类型确定为第一时间类型，以及将属于第二相对位置关系的文本的文本类型确定为第二时间类型。

在一些实施例中，得分类型判断子单元，用于：

当所述比赛得分组中具有一个属于预设文本范围的文本，则将属于预设文本范围的文本的文本类型确定为第二时间类型；

当所述比赛得分组中具有多个属于预设文本范围的文本，根据所述第二时间类型组中文本的文本位置统计所述比赛得分组中与所述第二时间类型组中文本之间具有预设位置关系的文本的数量；

若所述比赛得分组中与所述第二时间类型组中文本之间具有预设位置关系的文本的数量为1时，则将所述比赛得分组中与所述第二时间类型组中文本之间具有预设位置关系的文本的文本类型确定为第二文本类型，将所述比赛得分组中不与所述第二时间类型组中具有预设位置关系的文本的文本类型确定为比赛得分类型；

若所述比赛得分组中与所述第二时间类型组中文本之间具有预设位置关系的文本的数量为2时，计算所述比赛得分组中文本与预设坐标轴之间的相对距离；

若所述相对距离大于预设距离阈值，则将所述比赛得分组中相对距离最小的文本的文本类型确定为第二时间类型，将所述比赛得分组中相对距离非最小的文本的文本类型确定为比赛得分类型。

在一些实施例中，所述识别模块，包括：

特征提取子模块，用于对所述目标视频进行图像特征提取，得到所述目标视频的图像特征；

区域检测子模块，用于基于所述图像特征进行文本区域检测，得到所述目标视频中的文本区域特征；

文本识别子模块，用于基于所述图像特征进行文本识别，得到所述目标视频中的文本特征；

区域修整子模块，用于对所述文本区域特征进行区域修整处理，得到处理后的文本区域特征；

区域预测子模块，用于基于所述处理后的文本区域特征进行文本区域预测，确定所述目标视频中所出现的文本区域；

文本预测子模块，用于基于所述处理后的文本特征进行文本预测，确定所述目标视频中所出现的文本；

确定子模块，用于根据所述文本区域以及所述文本，确定所述文本的文本位置。

在一些实施例中，所述区域检测子模块，用于：

采用特征提取层根据所述图像特征进行多尺寸特征抽取，得到多个不同尺寸的图像特征；

采用多级融合层对所述多个不同尺寸的图像特征行特征融合处理，得到共享融合特征；

采用多通道输出层根据所述共享融合特征确定所述目标视频中的文本区域特征。

在一些实施例中，所述文本预测子模块，用于：

采用特征提取层根据所述图像特征进行多尺寸特征抽取，得到多个不同尺寸的图像特征；

采用多级融合层对所述多个不同尺寸的图像特征行特征合并处理，得到共享融合特征；

采用多通道输出层根据所述共享融合特征确定所述目标视频中所出现的文本。

在一些实施例中，所述文本识别子模块，用于：：

基于所述图像特征进行高维特征提取，得到高维图像特征；

根据所述高维图像特征提取文本时序特征；

根据所述文本时序特征确定所述目标视频中所出现的文本特征。

在一些实施例中，所述视频详情信息包括比赛详情报表和比赛趋势图，所述生成模块，用于：

根据所述文本和所述文本类型生成比赛详情报表和比赛趋势图；

在一些实施例中，所述目标视频为记录了对抗性比赛内容的视频，所述显示模块，用于：

显示比赛详情页面；

在比赛详情页面显示所述比赛详情报表和比赛趋势图。

本发明实施例提供一种电子设备，包括处理器和存储器，所述存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行任一项所述的视频处理方法中的步骤。

本发明实施例提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行任一项所述的视频处理方法中的步骤。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的视频处理方法的场景示意图；

图1b是本发明实施例提供的视频处理方法的流程示意图；

图1c是本发明实施例提供的视频处理方法的篮球比赛直播视频画面示意图；

图1d是本发明实施例提供的视频处理方法的文字识别网络结构示意图；

图1e是本发明实施例提供的视频处理方法的区域检测网络结构示意图；

图2a是本发明实施例提供的视频处理方法的篮球比赛直播视频的具体画面示意图；

图2b是本发明实施例提供的视频处理方法的另一种流程示意图；

图2c是本发明实施例提供的视频处理方法对文本集合中的文本进行类型分类的流程示意图；

图2d是本发明实施例提供的视频处理方法的视频详情页面示意图；

图3是本发明实施例提供的视频处理装置的结构示意图；

图4是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种视频处理方法、装置、电子设备和存储介质。

其中，该视频处理装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer，PC)等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

在一些实施例中，该视频处理装置还可以集成在多个电子设备中，比如，视频处理装置可以集成在多个服务器中，由多个服务器来实现本发明的视频处理方法。

在一些实施例中，服务器也可以以终端的形式来实现。

例如，参考图1a，该电子设备可以是智能手机，当用户使用该智能手机观看比赛直播时，该智能手机可以获取目标视频；对目标视频进行文本识别，得到目标视频中所出现的文本，以及文本的文本位置；然后对文本进行分组处理，得到文本集合；基于文本位置以及文本集合，对文本集合中的文本进行类型分类，确定文本的文本类型；根据文本和文本类型生成比赛详情信息；最后，该智能手机可以在屏幕上显示比赛详情页面，比赛详情页面可以包括比赛详情信息。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

人工智能(Artificial Intelligence，AI)是一种利用数字计算机来模拟人类感知环境、获取知识并使用知识的技术，该技术可以使机器具有类似于人类的感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习、深度学习等几大方向。

其中，计算机视觉(Computer Vision，CV)是利用计算机代替人眼对目标图像进行识别、测量等操作并进一步进行处理的技术。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、虚拟现实、增强现实、同步定位与地图构建等技术，比如，图像着色、图像描边提取等图像处理技术。

在本实施例中，提供了一种基于计算机视觉的视频处理方法，如图1b所示，该视频处理方法的具体流程可以如下：

101、获取目标视频。

目标视频可以是记录了对抗性比赛内容的视频，比如，篮球比赛视频、电子游戏竞技视频、足球比赛视频，等等。

除此之外，目标视频也可以是其他具有可视化文本内容的视频，比如，新闻视频、广告视频、股市视频，等等。

该目标视频的表现形式具有多种，比如，该目标视频可以是直播视频、录播视频，等等。

此处以篮球比赛直播视频为例进行说明，参考图1c，图1c是篮球比赛直播视频的视频画面，该视频画面包括了篮球比赛的画面内容，以及比赛得分板，该比赛得分板中可以包括该篮球比赛的队伍名称信息、队伍进球数信息，以及此刻比赛小节的剩余时间，等等。

在一些实施例中，可以通过区块链(Blockchain)技术从网络中接收目标视频。

其中，区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

在本实施例中，可以使用区块链技术作为平台产品服务层以及应用服务层，来获取目标视频，该平台产品服务层可以提供典型应用的基本能力和实现框架，技术人员可以基于这些基本能力，叠加业务的特性，完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。

102、对目标视频进行文本识别，得到目标视频中所出现的文本，以及文本的文本位置。

在目标视频的视频画面中往往会出现文本文字。

比如，在篮球比赛视频的视频画面中可以包括比赛得分文字、视频来源文字、视频下方滚动的新闻文字等等；比如，在电子游戏比赛视频的视频画面中可以包括玩家击杀文字、小队得分文字，等等。

在方案中，可以对目标视频中所出现的所有文本进行文本识别，识别出文本的内容以及其所处的位置。

比如，参考图1c，图1c是篮球比赛直播视频的视频画面，当目标视频为图1c的篮球比赛直播视频时，可以对目标视频中所出现的比赛得分板中的文本进行识别，得到文本的文本内容，及其所处文本位置的坐标点，该坐标点可以是文本中心所处的坐标点，也可以是文本最小包围框左上角和右下角的坐标。

例如，在图1c中，可以识别出文本“队伍A”、“22”、“队伍B”、“26”和“3：12”。其中，其文本位置分别为[(548，917)，(732，951)]、[(748，916)，(796，951)]、[(968，915)，(1117，949)]、[(1130，916)，(1177，952)]和[(1209，915)，(1270，953)]。

参考图1d，图1d所示的是文本识别网络，该文本识别网络可以是任意一种端到端文本检测的人工网络模型，比如，FOTS网络(Fast Oriented Text Spotting with aUnified Network)、EAST网络(An Efficient and Accurate Scene Text Detector)等two-stage算法模型；其中，FOTS网络模型中可以包括共享卷积网络、区域检测网络、文本识别网络和ROIRotate网络，等等。

比如，在一些实施例中，可以采用FOTS网络模型来执行步骤102，步骤如下：

(1)对目标视频进行图像特征提取，得到目标视频的图像特征。

在FOTS网络模型中，可以采用共享卷积网络来对目标视频进行图像特征提取，得到目标视频的图像特征。

其中，共享卷积网络的主干网络可以是任意一种图像特征提取网络，比如，可以是VGG网络(Visual Geometry Group Network)、Alexnet网络、深度残差网络(Deep ResidualNetwork，Resnet)，等等。

比如，在一些实施例中，为了解决随着人工神经网络的加深所出现的训练集准确率下降的问题，可以采用深度残差网络，如Resnet-18、Resnet-50等来使得网络尽可能的加深，并将输入信息绕道传到输出，从而在保护信息的完整性的同时，简化机器学习的目标和难度。

(2)基于图像特征进行文本区域检测，得到目标视频中的文本区域特征。

在FOTS网络模型中，可以采用区域检测网络来基于图像特征进行文本区域检测，得到目标视频中的文本区域特征。

其中，区域检测网络可以是任意一种基于深度学习的文本检测模型。

由于目前的区域检测网络大多是多级(multi-stage)的文本检测网络模型，在训练过程中需要对多个级(stage)进行调优，导致模型效果不佳，故在一些实施例中，为了消除中间的多级(如候选区域聚合、文本分词、后处理等)，直接预测文本行从而解决该问题，区域检测网络可以是EAST网络。

其中，EAST网络的网络结构可以参考图1e，包括特征提取层、多级融合层和多通道输出层。

其中，特征提取层中包括多个大小不同的卷积核，这些卷积核可以抽取不同尺度的特征图从而解决目标视频中文本尺度大小变换，导致的文本识别不精确的问题。

其中，特征提取层和多级融合层之间可以采用U-net(一种基于CNN的图像分割网络)的方法进行特征融合，即将共享卷机网络得到的特征从上到向下依次使用上池化、串联、卷积等操作进行合并得到融合的特征，之后使用大小为3×3、通道数为32的卷积核卷积得到最终的特征。

其中，在多通道输出层可以包括多个通道，比如，在一些实施例中，多通道输出层可以包括6个通道，第1个通道可以计算文本特征；对于每个文本，后面5个通道可以计算文本区域特征，最后一个通道可以计算文本角度特征。

在一些实施例中，最后还可以通过局部感知的非极大抑制(Locality-Aware Non-Maximum Suppression，Locality-Aware NMS)算法来解决候选文本区域重叠问题，产生最终的文本区域特征和文本特征。

比如，在一些实施例中，采用EAST网络进行步骤“基于图像特征进行文本区域检测，得到目标视频中的文本区域特征”时，可以包括以下步骤：

A.采用特征提取层根据图像特征进行多尺寸特征抽取，得到多个不同尺寸的图像特征；

B.采用多级融合层对多个不同尺寸的图像特征行特征融合处理，得到共享融合特征；

C.采用多通道输出层根据共享融合特征确定目标视频中的文本区域特征。

(3)基于图像特征进行文本识别，得到目标视频中的文本特征。

文本识别网络可以包括多种识别网络，比如，CRNN网络(ConvolutionalRecurrent Neural Network)，其中，CRNN网络可以包括卷积层、循环层和转录层。

在一些实施例中，卷积层可以为各种CNN网络，比如，VGG网络(Visual GeometryGroup Network)、GoogLeNet网络等，以减少CNN卷积核数量的同时增加卷积层深度，从而提取高维特征。

在一些实施例中，循环层可以为各种RNN网络，比如，长短期记忆网络(LSTM，LongShort-Term Memory)、双向长短期记忆网络(Bi-LSTM，Bidirectional Long Short-TermMemory)，等等。

比如，在一些实施例中，步骤“基于图像特征进行文本识别，得到目标视频中的文本特征”可以包括以下步骤：

A.基于图像特征进行高维特征提取，得到高维图像特征；

B.根据高维图像特征提取文本时序特征；

C.根据文本时序特征确定目标视频中所出现的文本特征。

其中，可以在CRNN网络的卷积层基于图像特征进行高维特征提取，得到高维图像特征，然后，在循环层根据高维图像特征提取文本时序特征，最后，在转录层根据文本时序特征确定目标视频中所出现的文本特征。

其中，为了保证得到的文本时序特征在时间上的连贯性，循环层可以是Bi-LSTM网络；为了将文本时序特征转换为标签序列，转录层可以是(Connectionist TemporalClassification，CTC)网络。

(4)对文本区域特征进行区域修整处理，得到处理后的文本区域特征。

其中，修整处理是指将文本区域特征映射，并输入到文本识别网络。

其中，可以采用RoIRotate网络进行特征映射，该RoIRotate网络可以将有角度的文本区域，经过仿射变换，转化为正常的轴对齐的文本区域。

(5)基于处理后的文本区域特征进行文本区域预测，确定目标视频中所出现的文本区域。

在本方案中，可以预测得到文本区域的边界，比如，对于矩形的文本区域，可以预测其左上角和右上角的坐标。

(6)基于处理后的文本特征进行文本预测，确定目标视频中所出现的文本。

在一些实施例中，步骤“基于文本特征进行文本预测，确定目标视频中所出现的文本”可以包括以下步骤：

A.采用特征提取层根据图像特征进行多尺寸特征抽取，得到多个不同尺寸的图像特征；

B.采用多级融合层对多个不同尺寸的图像特征进行特征合并处理，得到共享融合特征；

C.采用多通道输出层根据共享融合特征确定目标视频中所出现的文本。

比如，参考图1e的多通道输出层，经过1*1的卷积后，可以基于文本特征进行文本预测，确定目标视频中所出现文本的文本特征、文本区域特征和文本角度特征等。

(7)根据文本区域以及文本，确定文本的文本位置。

103、对文本进行分组处理，得到文本集合。

当得到文本后，可以根据文本内容来对文本进行分组处理。

比如，将由数字构成的文本分至得分组，将包含“：”符号且由数字构成的文本分至时间组，将由汉字构成的文本分至队名组和选手名组，等等。

例如，在一些实施例中，目标视频为记录了对抗性比赛内容的视频，可以将由汉字构成的文本分至队名组，由于比赛参赛队伍的队名往往是固定的，故可以先建立队伍名称的文本库，出现在该库中的文本都为队伍名，故步骤103可以包括如下步骤：

(1)在预设文本库中对文本进行类型匹配，若预设文本库中存在与文本匹配的预设文本，则将文本分至第一类型组。

在一些实施例中，第一类型组可以包括参赛队名组和比赛阶段组，其中，比赛阶段是指该时刻所处于比赛的阶段，比如，在一些电子竞技比赛中，比赛开始后0～10分钟可以称为第一阶段，在游戏开始后10～30分钟叫第二阶段，等等。

类似地，篮球比赛也包括第一阶段(1st)、第二阶段(2nd)、第三阶段(3rd)，等等。预设文本可以包括参赛队名和比赛阶段，故步骤“在预设文本库中对文本进行类型匹配，若预设文本库中存在与文本匹配的预设文本，则将文本分至第一类型组”可以包括如下步骤：

A.在预设文本库中对文本进行类型匹配；

B.若预设文本库中存在与文本匹配的参赛队名，则将文本分至参赛队名组；

C.若预设文本库中存在与文本匹配的比赛阶段，则将文本分至比赛阶段组。

其中，预设文本库可以包括预先存储记录的战队名称、选手名称等。判断一个文本是否是战队名称、选手名称，则可以在预设文本库中对文本进行类型匹配，若在在预设文本库中匹配到相同的文本，则说明该文本可以分至参赛队名组。

(2)若预设文本库中不存在与文本匹配的预设文本，且文本由数字构成，则将文本分至第二类型组。

在一些实施例中，预设文本可以包括参赛队名和比赛阶段，第二类型组可以包括比赛得分组，步骤“若预设文本库中不存在与文本匹配的预设文本，且文本由数字构成，则将文本分至第二类型组”可以包括如下步骤：

若预设文本库中不存在与文本匹配的参赛队名和比赛阶段，且文本由数字构成，则将文本分至比赛得分组。

比赛得分是指每个战队或队伍所获得的比赛得分。

(3)若预设文本库中不存在与文本匹配的预设文本，且文本中包括预设时间符号，则将文本分至时间类型组。

其中，预设时间符号可以指“：”、“，”、“.”，等等。

比如，若文本为“3：01”，则该文本不能与预设文本库中的文本相匹配，且该文本中包括预设时间符号“：”，则可以将文本分至时间类型组。

在一些实施例中，预设文本可以包括参赛队名和比赛阶段，预设时间符号可以包括第一预设时间符号和第二预设时间符号，时间类型组可以包括第一时间类型组和第二时间类型组，步骤“若预设文本库中不存在与文本匹配的预设文本，且文本中包括预设时间符号，则将文本分至时间类型组”可以包括如下步骤：

若预设文本库中不存在与文本匹配的参赛队名和比赛阶段且文本中包括第一预设时间符号，则将文本分至第一时间类型组；

若预设文本库中不存在与文本匹配的参赛队名和比赛阶段且文本中包括第二预设时间符号，则将文本分至第二时间类型组。

其中，在篮球比赛的计分篮中，可以显示小节剩余时间(一种比赛阶段)和剩余进攻时间，比如，由于篮球的游戏规则，该小节剩余时间可以为10分钟，该剩余进攻时间可以为25秒，故第一时间类型组中可以包括表达了小节剩余时间的文本，第二时间类型组中可以包括表达了剩余进攻时间。

104、基于文本位置以及文本集合，对文本集合中的文本进行类型分类，确定文本的文本类型。

其中，在一些实施例中，目标视频为记录了对抗性比赛内容的视频，文本集合可以包括参赛队名组、比赛阶段组、比赛得分组、第一时间类型组、第二时间类型组，文本类型可以包括比赛阶段类型、第一时间类型、第二时间类型、主客队名类型、比赛得分类型，等等。

比如，参赛队名组中可以包括多个表示了参赛队伍队名的文本，比赛阶段组可以包括多个表示了比赛在当前时刻处于哪个阶段的文本，比赛得分组中可以包括多个表示了各个队伍得分情况的文本，第一时间类型组中可以包括多个表示了比赛小节剩余时间的文本，第二时间类型组中可以包括多个表示了剩余进攻时间。

在一些实施例中，主客队名类型可以包括主场队伍队名类型和客场队伍队名类型。

由于初次分组后，每个集合中的文本并不一定就是该集合对应的类型，为了进一步确定文本类型，在步骤“基于文本位置以及文本集合的信息，对文本进行类型分类，确定文本的文本类型”可包括以下步骤：

(1)将比赛阶段组中文本的文本类型确定为比赛阶段类型。

(2)将第一时间类型组中文本的文本类型确定为第一时间类型。

(3)将第二时间类型组中文本的文本类型确定为第二时间类型。

(4)根据参赛队名组中文本的文本位置，对参赛队名组中文本进行主客判断，确定参赛队名组中文本的主客队名类型。

(5)根据比赛得分组中文本的文本位置，对比赛得分组中文本进行得分类型判断，确定比赛得分组中文本的比赛得分类型。

在一些实施例中，步骤“根据参赛队名组中文本的文本位置，对比赛得分组中文本进行得分类型判断，确定参赛队名组中文本的比赛得分类型”可包括以下步骤：

A.确定第一时间类型组、第二时间类型组、比赛得分组中文本的数量。

B.当比赛得分组中文本的数量为3，且第一时间类型组和第二时间类型组中文本的数量之和为1时，将第一时间类型组和第二时间类型组中文本的文本类型确定为第二时间类型，并根据参赛队名组中文本的文本位置对比赛得分组中文本进行得分类型判断，确定参赛队名组中文本的比赛得分类型。

在一些实施例中，步骤“根据参赛队名组中文本的文本位置对比赛得分组中文本进行得分类型判断，确定参赛队名组中文本的比赛得分类型”可包括以下步骤：

a.当比赛得分组中具有一个属于预设文本范围的文本，则将属于预设文本范围的文本的文本类型确定为第二时间类型；

b.当比赛得分组中具有多个属于预设文本范围的文本，根据第二时间类型组中文本的文本位置统计比赛得分组中与第二时间类型组中文本之间具有预设位置关系的文本的数量；

c.若比赛得分组中与第二时间类型组中文本之间具有预设位置关系的文本的数量为1时，则将比赛得分组中与第二时间类型组中文本之间具有预设位置关系的文本的文本类型确定为第二文本类型，将比赛得分组中不与第二时间类型组中具有预设位置关系的文本的文本类型确定为比赛得分类型；

d.若比赛得分组中与第二时间类型组中文本之间具有预设位置关系的文本的数量为2时，计算比赛得分组中文本与预设坐标轴之间的相对距离；

e.若相对距离大于预设距离阈值，则将比赛得分组中相对距离最小的文本的文本类型确定为第二时间类型，将比赛得分组中相对距离非最小的文本的文本类型确定为比赛得分类型。

比如，在篮球比赛场景中，预设文本范围可以是0～25中任意一个正整数，则符合该预设文本范围的文本可能是篮球比赛队伍的进球得分，也可能是篮球比赛的小节剩余时间。

其中，预设位置关系可以指左右关系、上下关系，等等。

比如，在篮球比赛场景中，比赛得分组中文本的数量为3时，3个文本中有一个是客场队伍得分，一个是主场队伍得分，还有一个可能是剩余进攻时间。

在篮球比赛中，剩余进攻时间小于25秒，而主客队伍得分均可以超过25分，故3个文本中，若仅有一个文本是小于25，则可以确定该文本为剩余进攻时间，另外两个文本为主客队伍得分。

由于篮球比赛记分牌中位于左边的数字往往是主场队伍的得分，位于中间的数字往往是客场队伍的得分，位于右边的数字往往是剩余进攻时间，故当3个文本均小于25时，根据3个文本之间的相对位置关系，可以判断这两个文本哪一个是主场队伍的得分，哪一个是客场队伍的得分，哪一个是剩余进攻时间。

其中，预设距离阈值是指文本与相对距离的预设阈值。

在篮球比赛直播场景中，由于篮球比赛记分牌可能出现旋转、缩放、位移等变化，故为了使得识别更加精确，在此可以以篮球比赛记分牌最下方为x轴，以篮球比赛记分牌最左边为y轴进行相对距离的计算。

预设坐标轴可以指上述x轴，也可以指上述y轴。

C.当第一时间类型组中文本的数量为2时，根据文本位置确定第一时间类型组中文本之间的相对位置关系，将属于第一相对位置关系的文本的文本类型确定为第一时间类型，以及将属于第二相对位置关系的文本的文本类型确定为第二时间类型。

比如，一般来说，小节剩余时间组中文本的数量为1，当小节剩余时间组中文本的数量为2时，说明小节剩余时间组中的文本一个为小节剩余时间，另一个为剩余进攻时间。

故可以根据这两个文本之间的相对位置关系，来判断哪个文本为小节剩余时间，哪个文本为剩余进攻时间。

D.当第二时间类型组中文本的数量为2时，根据文本位置确定第二时间类型组中文本之间的相对位置关系，将属于第一相对位置关系的文本的文本类型确定为第一时间类型，以及将属于第二相对位置关系的文本的文本类型确定为第二时间类型。

比如，一般来说，剩余进攻时间组中文本的数量为1，当剩余进攻时间组中文本的数量为2时，说明剩余进攻时间中的文本一个为小节剩余时间，另一个为剩余进攻时间。

故可以根据这两个文本之间的相对位置关系，来判断哪个文本为小节剩余时间，哪个文本为剩余进攻时间。

105、根据文本和文本类型生成视频详情信息。

在一些实施例中，目标视频为记录了对抗性比赛内容的视频，故视频详情信息可以包括比赛详情报表和比赛趋势图，步骤105可以根据文本和文本类型生成比赛详情报表和比赛趋势图。

比如，参考表1，表1是一种比赛详情报表，如下：

表1

在一些实施例中，还可以根据队伍得分生成比赛趋势图。

106、显示视频详情信息。

在一些实施例中，可以直接显示视频详情信息；在另一些实施例中，可以对视频详情信息进行进一步地处理后再进行显示，等等。

在一些实施例中，目标视频额可以是记录了对抗性比赛内容的视频，故不作106可以显示比赛详情页面，该比赛详情页面中可以包括视频详情信息；在另一些实施例中，可以对视频详情信息进行进一步地处理，并基于处理后的视频详情信息显示比赛详情页面，等等。

比如，在一些实施例中，步骤106可以显示比赛详情页面，并在比赛详情页面显示比赛详情报表和比赛趋势图。

在一些实施例中，可以通过区块链技术将视频详情信息、比赛详情报表和比赛趋势图等通过网络发送给移动终端，以便移动终端显示比赛详情页面，并在比赛详情页面显示比赛详情报表和比赛趋势图。

比如，参考图1a，智能手机的屏幕中可以同时显示比赛直播视频和比赛详情页面，在比赛详情页面中可以显示比赛详情报表和比赛趋势图。

由上可知，本发明实施例可以获取目标视频；对目标视频进行文本识别，得到目标视频中所出现的文本，以及文本的文本位置；对文本进行分组处理，得到文本集合；基于文本位置以及文本集合，对文本集合中的文本进行类型分类，确定文本的文本类型；根据文本和文本类型生成视频详情信息；显示视频详情信息。

由此本方案可以自动地识别出目标视频中所有的文本，以及该文本所在位置，克服了由于动态视频中文本旋转、缩放、位移等导致的识别效率低下的问题，本方案可以结合文本及其所在的位置正确地识别出文本所属的文本类型，从而生成正确的视频详情信息。故本方案可以提升视频处理方法的效果。

根据上述实施例所描述的方法，以下将作进一步详细说明。

在本实施例中，将以篮球比赛直播为例，对本发明实施例的方法进行详细说明。

参考图2a，图2a是篮球比赛直播画面示意图，该篮球比赛直播画面包括两个部分，分别是比赛画面和记分牌，在图2a中，记分牌中包括了主客场队伍名称：队伍A、队伍B，队伍A的得分26，队伍B的得分22，篮球比赛的小节阶段1st(第一阶段)，1st小节的小节剩余时间3：17，以及剩余进攻时间21。

如图2b所示，一种视频处理方法具体流程如下：

201、获取训练样本和初始文本识别模型，并采用训练样本训练该初始文本识别模型，直至该初始文本识别模型收敛，得到文本识别模型。

在本实施例中，目标视频为篮球直播视频，训练样本可以由篮球直播视频抽帧后标注获得。

比如，对篮球比赛四个赛季的比赛直播视频进行抽帧，每场比赛抽取30帧图片，总共大约8万张图片，获取图片后可以通过人工标注或机器标注的方法标注比赛图片中的文本、文本的位置信息。

比如，对于比赛得分牌中的7个内容：对阵双方队名及其得分、小节、小节剩余时间、剩余进攻时间等都需要标注其坐标和内容。

比如，如图2a，图2a展示了该比赛图片中客队队名的标注规则，当需要标注队伍A的得分26时，标注“26”以及该26的最小包围框(图中以虚线矩形框表示)的左上角和右下角的坐标。

比如，对于图2a中队伍A的得分26的标注可以是{26，[(260，399)，(310，449)]}。

在本实施例中，初始文本识别模型是FOTS模型，包括共享卷积网络、区域检测网络、Rotation网络、文本识别网络。

其中，共享卷积网络的主干网络是ResNet-50网络，区域检测网络为EAST网络，文本识别网络为基于VGG与Bi-LSTM的CRNN网络。

该FOTS模型的具体网络结构可以参考图1d，在此不做赘述。

其中，区域检测网络的损失函数L_d包括文本损失项L_s和区域损失项L_g，分别表示预测文本的损失，以及预测文本区域的损失，如下：

L_d＝λL_s+L_g

其中，λ表示平衡两个损失的权重。

对于文本分类损失项L_s，在本实施例中可以采用dice损失进行计算：

其中，i表示模型输出特征图像的像素点个数，p_i表示特征图像素点i预测为文本的概率，g_i表示特征图像的像素点真实标签。

对于区域损失项L_g，在本实施例中可以采用旋转角度损失L_θ和交并比(Intersection-over-Union，IoU)损失L_AABB进行计算：

L_g＝L_AABB+λL_θ

其中，其中，λ表示平衡两个损失的权重，表示文本区域的预测坐标，R为文本区域的真实坐标；表示文本区域的预测角度，θ为文本区域的真实角度。

其中，L_AABB是预测文本区域与真实文本区域之间的IoU损失，IoU损失是预测文本区域与真实文本区域的交叠率，即预测结果(Detection Resul)与Ground Truth(分类准确性)的交集比上它们的并集：

其中，文本识别网络在RNN部分，可以将提取的高维特征图输入到Bi-LSTM进行训练和识别，以捕获输入文本的序列特征，然后采用CTC网络将全连接后的字符分类转换为标签序列，这一部分的识别损失，可以采用分类对数损失：

L＝L_d+λL_r

其中，λ表示平衡两个任务损失的权重。

训练初始文本识别模型，直至L稳定收敛，得到文本识别模型。

202、获取篮球直播视频，采用文本识别模型对篮球直播视频进行文本识别，得到比赛视频中所出现的文本，以及文本的文本位置。

具体采用文本识别模型对篮球直播视频进行文本识别，得到篮球比赛视频中所出现的文本，以及文本的文本位置的步骤，可以参考步骤102，在此不做赘述。

203、对文本进行分组处理，得到文本集合，并基于文本位置以及文本集合，对文本集合中的文本进行类型分类，确定文本的文本类型。

在本实施例中，为了防止出现识别错误，若在步骤202得到比赛视频中所出现的文本的个数小于4且大于8，则直接返回空。

在本实施例中，可以在预设文本库中对文本进行类型匹配，若预设文本库中存在与文本匹配的预设文本，则将文本分至第一类型组，其中，第一类型组可以包括参赛队名组和比赛阶段组；

若预设文本库中不存在与文本匹配的预设文本，且文本由数字构成，则将文本分至第二类型组；

若预设文本库中不存在与文本匹配的预设文本，且文本中包括预设时间符号，则将文本分至时间类型组，其中，时间类型组包括小节剩余时间组(即第一时间类型组)和剩余进攻时间组(即第二时间类型组)。

其中，预设文本库可以包括参赛队名库和比赛阶段库。

比如，参赛队名库中可以包括多个参赛队名文本：湖人队、勇士队、快船队、灰熊队，等等。比赛阶段库可以包括多个比赛阶段名：1^st(第一阶段)、2^nd(第二阶段)、3^rd(第三阶段)、4^th(第四阶段)，等等。

当文本和参赛队名库中的文本匹配时，则可以将该文本分至参赛队名组。

当文本和比赛阶段库中的文本匹配时，则可以将该文本分至比赛阶段组。

在一些实施例中，第二类型组可以包括比赛得分组，若预设文本库中不存在与文本匹配的预设文本，且该文本全部由数字构成，则可以将文本分至比赛得分组。

其中，预设文本可以包括“:”和“.”，若文本包含“:”则将该文本加入小节剩余时间组，若文本包含“.”却但不包含“:”，则将文本加入剩余进攻时间组。

由于比赛得分牌样式不固定，其中的文字顺序不固定，比赛得分牌中的比赛得分很难单纯地通过位置来确定，且剩余进攻时间也可能为纯数字，故很难在三个纯数字中确定哪个是剩余进攻时间，哪个是比赛得分，故参考图2d，图2c是基于文本位置以及文本集合，对文本集合中的文本进行类型分类，确定文本的文本类型的流程示意图，当比赛得分组中的文字均为数字，且比赛得分组中文字的数量为3时，以下可以通过6中情况进行确定：

情况1：当比赛得分组中文字的数量为3，且第一时间类型组和第二时间类型组中文字的数量之和为1时，将第一时间类型组和第二时间类型组中文字的文字类型确定为第二时间类型，并根据参赛队名组中文字的文字位置对比赛得分组中文字进行得分类型判断，确定参赛队名组中文字的比赛得分类型。

即，当比赛得分组中有3个数字，且小节剩余时间组和剩余进攻时间组只有一个组有值，并且值的个数为1，则可以确定该仅有的一个的值为小节剩余时间，在此可以记为A。

然后，再判断比赛得分组中是否只有一个数字小于25，如果只有一个数字小于25，则该数字可以确定为剩余进攻时间，另外两个数字即可确定为比赛得分，这两个比赛得分可以根据他们的相对位置来确定主队得分和客队得分，比如，这两个比赛得分中位于相对靠左、靠上的比赛得分可以确定为主队得分，否则为客队得分。

若三个比赛得分中不止一个数字少于25，则可以判断三个数字中位于小节剩余时间A右边的个数。

当仅有一个数字位于小节剩余时间A右边时，则可以确定该数字为剩余进攻时间，其余两个数字为比赛得分，类似地，根据他们之间的相对位置可确定主队得分和客队得分。

当不止一个数字位于小节剩余时间A右边时，可以将这些数字记为数字B，数字C。在本实施例中，可以计算位于小节剩余时间A右侧的数字B、数字C在Y轴上相对于小节剩余时间A的距离Dy。

Dy较大者，当其与小节剩余时间A的距离大于预设阈值(比如，30)时，则可以确定Dy较近者为剩余进攻时间，其余两个数字为比赛得分。

数字B和数字C在Y轴上相对于小节剩余时间A较远者，当其与小节剩余时间A的距离小于预设阈值(比如，30)时，则可以计算数字B和数字C在X轴上相对于小节剩余时间A的距离Dx，Dx较小者则可以确定为剩余进攻时间，其余两个数字为比赛得分。

情况2：当第一时间类型组中文字的数量为2时，可以根据文字位置确定第一时间类型组中文字之间的相对位置关系，将属于第一相对位置关系的文字的文字类型确定为第一时间类型，以及将属于第二相对位置关系的文字的文字类型确定为第二时间类型。

即，当小节剩余时间组中的文本的个数为2时，则将这两个文本中相对位于左侧或者上侧的文本确定为小节剩余时间，将这两个文本中相对位于右侧或者下侧的文本确定为剩余进攻时间。

情况3：该情况与情况2类似，当第二时间类型组中文字的数量为2时，根据文字位置确定第二时间类型组中文字之间的相对位置关系，将属于第一相对位置关系的文字的文字类型确定为第一时间类型，以及将属于第二相对位置关系的文字的文字类型确定为第二时间类型。

即，当剩余进攻时间组中的文本的个数为2时，则将这两个文本中相对位于左侧或者上侧的文本确定为小节剩余时间，将这两个文本中相对位于右侧或者下侧的文本确定为剩余进攻时间。

情况4：小节剩余时间组中仅存在一个文本，则该文本为小节剩余时间，剩余进攻时间组中仅存在一个文本，则该文本为内容为剩余进攻时间。

情况5：小节剩余时间组中仅存在一个文本，则该文本为小节剩余时间，剩余进攻时间组中不存在任意文本，则剩余进攻时间为空。

情况6：剩余进攻时间组中仅存在一个文本，则该文本为剩余进攻时间，小节剩余时间组中不存在任意文本，则小节剩余时间为空。

最后对返回的内容进行校验，当且仅当主客队比赛得分和小节剩余时间都为正常值时返回识别结果，否则返回空。

204、根据文本和文本类型生成比赛详情信息，并显示比赛详情页面，比赛详情页面包括比赛详情信息。

参考图2d，当识别出文本和文本类型后，可以生成比赛详情信息，并显示比赛详情页面，比赛详情页面包括比赛详情信息。

本发明能够实时识别篮球比赛视频记分牌中的内容，并对记分牌中的内容正确映射到对阵双方队名和得分、比赛小节数、小节剩余时间、剩余进攻时间。

通过本方案，记分牌的识别准确率达到了92％以上，识别一帧图像耗时约1秒，有效地提高了视频处理方法的效果。

由上可知，本发明实施例可以高效、自动地识别出目标视频中所有的文本，以及该文本所在位置，结合文本及其所在的位置可以生成对应的比赛详情信息，相比于现有技术中需要识别记分牌才能提取文本的方案，本方案可以解决当记分牌出现位移、旋转、缩放、变形等情况下难以识别其中的文本的问题。此外，记分牌中的文本顺序可能会有变化，本方案可以在识别文本后，分析该文本是哪种文本类型，从而便于进一步的生成比赛详情信息，由此，本方案可以提高视频处理方法的效果。

为了更好地实施以上方法，本发明实施例还提供一种视频处理装置，该视频处理装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

比如，在本实施例中，将以视频处理装置具体集成在服务器中为例，对本发明实施例的方法进行详细说明。

例如，如图3所示，该视频处理装置可以包括获取模块301、识别模块302、集合模块303、分类模块304、生成模块305以及显示模块306，如下：

(一)获取模块301。

获取模块301可以用于获取目标视频。

(二)识别模块302。

识别模块302可以用于对目标视频进行文本识别，得到目标视频中所出现的文本，以及文本的文本位置。

在一些实施例中，识别模块302可以包括特征提取子模块、区域检测子模块、文本识别子模块、区域修整子模块、区域预测子模块、文本预测子模块以及确定子模块，如下：

(1)特征提取子模块。

特征提取子模块可以用于对目标视频进行图像特征提取，得到目标视频的图像特征。

(2)区域检测子模块。

区域检测子模块可以用于基于图像特征进行文本区域检测，得到目标视频中的文本区域特征。

(3)文本识别子模块。

文本识别子模块可以用于基于图像特征进行文本识别，得到目标视频中的文本特征。

(4)区域修整子模块。

区域修整子模块可以用于对文本区域特征进行区域修整处理，得到处理后的文本区域特征。

(5)区域预测子模块。

区域预测子模块可以用于基于处理后的文本区域特征进行文本区域预测，确定目标视频中所出现的文本区域。

(6)文本预测子模块。

文本预测子模块可以用于基于处理后的文本特征进行文本预测，确定目标视频中所出现的文本。

(7)确定子模块。

确定子模块可以用于根据文本区域以及文本，确定文本的文本位置。

在一些实施例中，区域检测子模块可以用于：

采用特征提取层根据图像特征进行多尺寸特征抽取，得到多个不同尺寸的图像特征；

采用多级融合层对多个不同尺寸的图像特征行特征融合处理，得到共享融合特征；

采用多通道输出层根据共享融合特征确定目标视频中的文本区域特征。

在一些实施例中，文本预测子模块可以用于：

采用特征提取层根据图像特征进行多尺寸特征抽取，得到多个不同尺寸的图像特征；

采用多级融合层对多个不同尺寸的图像特征行特征合并处理，得到共享融合特征；

采用多通道输出层根据共享融合特征确定目标视频中所出现的文本。

在一些实施例中，文本识别子模块可以用于：

基于图像特征进行高维特征提取，得到高维图像特征；

根据高维图像特征提取文本时序特征；

根据文本时序特征确定目标视频中所出现的文本特征。

(三)集合模块303。

集合模块303可以用于对文本进行分组处理，得到文本集合。

在一些实施例中，集合模块303可以包括匹配子模块、第一分组子模块以及第二分组子模块，如下：

(1)匹配子模块。

匹配子模块可以用于在预设文本库中对文本进行类型匹配，若预设文本库中存在与文本匹配的预设文本，则将文本分至第一类型组。

(2)第一分组子模块。

第一分组子模块可以用于若预设文本库中不存在与文本匹配的预设文本，且文本由数字构成，则将文本分至第二类型组。

(3)第二分组子模块。

第二分组子模块可以用于若预设文本库中不存在与文本匹配的预设文本，且文本中可以包括预设时间符号，则将文本分至时间类型组。

在一些实施例中，目标视频可以是记录了对抗性比赛内容的视频，第一类型组可以包括参赛队名组和比赛阶段组，第一分组子模块可以包括匹配子单元、队名子单元以及阶段子单元，如下：

A.匹配子单元。

匹配子单元可以用于在预设文本库中对文本进行类型匹配。

B.队名子单元。

队名子单元可以用于若预设文本库中存在与文本匹配的参赛队名，则将文本分至参赛队名组。

C.阶段子单元。

阶段子单元可以用于若预设文本库中存在与文本匹配的比赛阶段，则将文本分至比赛阶段组。

在一些实施例中，预设文本可以包括参赛队名和比赛阶段，第二类型组可以包括比赛得分组，第二分组子模块用于：

若预设文本库中不存在与文本匹配的参赛队名和比赛阶段，且文本由数字构成，则将文本分至比赛得分组。

在一些实施例中，预设文本可以包括参赛队名和比赛阶段，预设时间符号可以包括第一预设时间符号和第二预设时间符号，时间类型组可以包括第一时间类型组和第二时间类型组，第二分组子模块用于：

若预设文本库中不存在与文本匹配的参赛队名和比赛阶段且文本中可以包括第一预设时间符号，则将文本分至第一时间类型组；

若预设文本库中不存在与文本匹配的参赛队名和比赛阶段且文本中可以包括第二预设时间符号，则将文本分至第二时间类型组。

(四)分类模块304。

分类模块304可以用于基于文本位置以及文本集合，对文本进行类型分类，确定文本的文本类型。

在一些实施例中，目标视频可以是记录了对抗性比赛内容的视频，文本集合可以包括参赛队名组、比赛阶段组、比赛得分组、第一时间类型组、第二时间类型组，文本类型可以包括比赛阶段类型、第一时间类型、第二时间类型、主客队名类型、比赛得分类型，分类模块304可以包括阶段类型子模块、第一时间类型子模块、第二时间类型子模块、主客判断子模块以及得分类型判断子模块，如下：

(1)阶段类型子模块。

阶段类型子模块可以用于将比赛阶段组中文本的文本类型确定为比赛阶段类型。

(2)第一时间类型子模块。

第一时间类型子模块可以用于将第一时间类型组中文本的文本类型确定为第一时间类型。

(3)第二时间类型子模块。

第二时间类型子模块可以用于将第二时间类型组中文本的文本类型确定为第二时间类型。

(4)主客判断子模块。

主客判断子模块可以用于根据参赛队名组中文本的文本位置，对参赛队名组中文本进行主客判断，确定参赛队名组中文本的主客队名类型。

(5)得分类型判断子模块。

得分类型判断子模块可以用于根据比赛得分组中文本的文本位置，对比赛得分组中文本进行得分类型判断，确定比赛得分组中文本的比赛得分类型。

在一些实施例中，得分类型判断子模块可以包括数量子单元、得分类型判断子单元、第一相对位置关系子单元以及第二相对位置关系子单元，如下：

A.数量子单元。

数量子单元可以用于确定第一时间类型组、第二时间类型组、比赛得分组中文本的数量。

B.得分类型判断子单元。

得分类型判断子单元可以用于当比赛得分组中文本的数量为3，且第一时间类型组和第二时间类型组中文本的数量之和为1时，将第一时间类型组和第二时间类型组中文本的文本类型确定为第二时间类型，并根据参赛队名组中文本的文本位置对比赛得分组中文本进行得分类型判断，确定参赛队名组中文本的比赛得分类型。

C.第一相对位置关系子单元。

第一相对位置关系子单元可以用于当第一时间类型组中文本的数量为2时，根据文本位置确定第一时间类型组中文本之间的相对位置关系，将属于第一相对位置关系的文本的文本类型确定为第一时间类型，以及将属于第二相对位置关系的文本的文本类型确定为第二时间类型。

D.第二相对位置关系子单元。

第二相对位置关系子单元可以用于当第二时间类型组中文本的数量为2时，根据文本位置确定第二时间类型组中文本之间的相对位置关系，将属于第一相对位置关系的文本的文本类型确定为第一时间类型，以及将属于第二相对位置关系的文本的文本类型确定为第二时间类型。

在一些实施例中，得分类型判断子单元可以用于：

当比赛得分组中具有一个属于预设文本范围的文本，则将属于预设文本范围的文本的文本类型确定为第二时间类型；

当比赛得分组中具有多个属于预设文本范围的文本，根据第二时间类型组中文本的文本位置统计比赛得分组中与第二时间类型组中文本之间具有预设位置关系的文本的数量；

若比赛得分组中与第二时间类型组中文本之间具有预设位置关系的文本的数量为1时，则将比赛得分组中与第二时间类型组中文本之间具有预设位置关系的文本的文本类型确定为第二文本类型，将比赛得分组中不与第二时间类型组中具有预设位置关系的文本的文本类型确定为比赛得分类型；

若比赛得分组中与第二时间类型组中文本之间具有预设位置关系的文本的数量为2时，计算比赛得分组中文本与预设坐标轴之间的相对距离；

若相对距离大于预设距离阈值，则将比赛得分组中相对距离最小的文本的文本类型确定为第二时间类型，将比赛得分组中相对距离非最小的文本的文本类型确定为比赛得分类型。

(五)生成模块305。

生成模块305可以用于根据文本和文本类型生成视频详情信息。

在一些实施例中，目标视频可以是记录了对抗性比赛内容的视频，视频详情信息可以包括比赛详情报表和比赛趋势图，生成模块305可以用于：

根据文本和文本类型生成比赛详情报表和比赛趋势图；

(六)显示模块306。

显示模块306可以用于显示视频详情信息。

在一些实施例中，目标视频可以是记录了对抗性比赛内容的视频，视频详情信息可以包括比赛详情报表和比赛趋势图，显示模块306可以用于：

显示比赛详情页面；

在比赛详情页面显示比赛详情报表和比赛趋势图。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例的视频处理装置由获取模块获取目标视频；识别模块对目标视频进行文本识别，得到目标视频中所出现的文本，以及文本的文本位置；由集合模块，用于对文本进行分组处理，得到文本集合；由分类模块，基于文本位置以及文本集合，对文本进行类型分类，确定文本的文本类型；由生成模块根据文本和文本类型生成视频详情信息；由显示模块显示视频详情信息。由此，本发明实施例可以提升视频处理方法的效果。

本发明实施例还提供一种电子设备，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑，等等；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，等等。

在本实施例中，将以本实施例的电子设备是电子设备为例进行详细描述，比如，如图4所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403、输入模块404以及通信模块405等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。在一些实施例中，处理器401可包括一个或多个处理核心；在一些实施例中，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，在一些实施例中，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入模块404，该输入模块404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该电子设备还可包括通信模块405，在一些实施例中通信模块405可以包括无线模块，电子设备可以通过该通信模块405的无线模块进行短距离无线传输，从而为用户提供了无线的宽带互联网访问。比如，该通信模块405可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取目标视频；

对目标视频进行文本识别，得到目标视频中所出现的文本，以及文本的文本位置；

对文本进行分组处理，得到文本集合；

基于文本位置以及文本集合，对文本集合中的文本进行类型分类，确定文本的文本类型；

根据文本和文本类型生成视频详情信息；

显示视频详情信息。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本方案可以提高视频处理方法的效果。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种视频处理方法中的步骤。例如，该指令可以执行如下步骤：

获取目标视频；

对目标视频进行文本识别，得到目标视频中所出现的文本，以及文本的文本位置；

对文本进行分组处理，得到文本集合；

基于文本位置以及文本集合，对文本集合中的文本进行类型分类，确定文本的文本类型；

根据文本和文本类型生成视频详情信息；

显示视频详情信息。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种视频处理方法中的步骤，因此，可以实现本发明实施例所提供的任一种视频处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种视频处理方法、装置、电子设备和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

34页详细技术资料下载

视频处理方法、装置、电子设备和存储介质

相关技术

网友询问留言