一种基于深度学习的互联网教育视频图像筛选提取法

文档序号：1904684 发布日期：2021-11-30 浏览：16次 >En<

阅读说明：本技术 一种基于深度学习的互联网教育视频图像筛选提取法 (Internet education video image screening and extracting method based on deep learning ) 是由王晓跃耿晨熙于 2021-09-03 设计创作，主要内容包括：本发明公开了一种基于深度学习的互联网教育视频图像筛选提取法,属于多媒体数据检索技术领域,该筛选提取方法的具体步骤如下：步骤一、待检测多媒体数据输入；步骤二、特征提取；步骤三、特征融合；步骤四、筛选提取；本发明采用深度学习技术对多模态数据进行特征提取和特征融合,并将其投射到同一公共空间,通过相似度计算实现了多模态数据的跨模态检索,其相较于现有单一模态检索方法而言,其有利于提高多媒体素材筛选精度和提取效率,进而有利于辅助教师进行多媒体教案制作,提高教师在制作多媒体教案时的工作效率。(The invention discloses an internet education video image screening and extracting method based on deep learning, belonging to the technical field of multimedia data retrieval, and specifically comprising the following steps: step one, inputting multimedia data to be detected; step two, feature extraction; step three, feature fusion; step four, screening and extracting; the method adopts the deep learning technology to extract and fuse the characteristics of the multi-modal data, projects the multi-modal data to the same public space, and realizes the cross-modal retrieval of the multi-modal data through similarity calculation.)

技术领域

本发明涉及多媒体数据检索技术领域，尤其涉及一种基于深度学习的互联网教育视频图像筛选提取法。

背景技术

经检索，中国专利号CN111723111A公开了一种基于视频制作资料提取的方法、装置及设备，该发明方法虽然通过关键词搜索筛选出了符合需求的资料，但由于其输入数据模态较为单一，导致资料筛选精度和效率都相对较低；随着科技的发展，多媒体在教学中的使用日益普遍，在教学中占据越来越重要的地位；各类学校和学术单位，都在建设多媒体教室或多功能厅；多媒体教学集声音、图像、视频和文字等媒体为一体，可以作为一种有效的辅助教学手段，且能将所要呈现的内容直观的展示出来，方便对其进行理解，既能达到传授知识、开发智力及培养能力的目的，又能实现因材施教和个性化教学的目的，因此深受师生们及学术单位的青睐；但目前，多媒体教案多由老师通过办公软件制作而成，而在制作之前需教师提前收集和导入各部分内容所需的多媒体教案素材，然而，在这个信息呈爆炸式增长的时代，多模态的互联网数据常常让一些老师无所适从，老师们很难在海量的互联网数据中准确地找到自己想要的素材，导致其常常耗费掉大量时间在素材寻找上；深度学习技术作为机器学习领域中一个新的研究方向，其在文字、图像和声音识别上具有巨大潜力，因而，如何结合深度学习技术进行多模态检索已成为当下研究重点；因此，发明出一种基于深度学习的互联网教育视频图像筛选提取法变得尤为重要；

现有的多媒体数据筛选提取方法大多通过单一模态实现检索，该类方法由于其输入数据的模态较为单一，导致多媒体素材筛选精度和效率都相对较低，易降低教师在制作多媒体教案时的工作效率；为此，我们提出一种基于深度学习的互联网教育视频图像筛选提取法。

发明内容

本发明的目的是为了解决现有技术中存在的缺陷，而提出的一种基于深度学习的互联网教育视频图像筛选提取法。

为了实现上述目的，本发明采用了如下技术方案：

一种基于深度学习的互联网教育视频图像筛选提取法，该筛选提取方法的具体步骤如下：

步骤一、待检测多媒体数据输入，输入用户所需要进行检索的待检测多媒体数据，所述待检测多媒体数据为多模态数据，其具体包括文本数据和图像数据；

步骤二、特征提取，获取步骤一所述文本数据和图像数据，并将其分别输入对应文本模型和图像模型中进行向量特征提取，分别得到文本特征向量和图像特征向量；

步骤三、特征融合，获取步骤二所述文本特征向量和图像特征向量，通过融合算法构建其对应门特征与残差特征，并采用度量学习方法进行特征融合，得到融合特征向量，

步骤四、筛选提取，将多媒体教案素材库中多模态数据进行向量转化，得到目标数据特征向量，同时将其与融合特征向量一起投射到同一公共空间，并进行相似性度量计算，同时根据相似度进行排序，筛选提取出前N个候选数据作为检索结果。

进一步地，步骤一所述文本词向量在进行特征提取前需进行分词处理，所述分词处理是基于统计的分词算法，其用于进行停用词去除以及关键词划分，所述停用词包含两类：一类是指频繁出现的词，另一类是指某些虚词，其包括语气助词、副词、介词、连接词及感叹词，所述停用词通过符号代替，并将其从分词结果中去掉，所述符号包括“()”、“、”、“-”、“/”、和“&”。

进一步地，步骤二所述文本模型和图像模型分别为BERT文本表示模型和VGGNet网络模型。

进一步地，步骤三所述特征融合具体过程如下：

S1：根据所述文本特征向量和图像特征向量并利用同位元素对应相乘的方式构建门特征与残差特征，

所述门特征计算公式如下：

f_gate(φ_x,φ_t)＝σ(W_g*ReLU(φ＇_t))⊙φ_x (1)

所述残差特征计算公式如下：

f_res(φ_x,φ_t)＝σ(W_r*ReLU(φ＇_t) (2)

式中：σ为sigmoid函数，W_g和W_r均为3*3的卷积过滤器，ReLU为线性修正单元，⊙为同位元素对应相乘的计算方法；

S2：对构建完成的门特征与残差特征进行权重配比，并进行线性组合，其公式如下：

S3：采用深度度量学习方式对所述门特征与残差特征进行权重参数优化，得到融合特征向量。

进一步地，所述门特征与残差特征在进行构建前需要对文本特征向量和图像特征向量进行空间结构统一，即通过一个3*3的卷积过滤器对所述文本特征向量进行结构变换，其公式如下：

φ＇_t＝W*(φ_x，φ_t) (4)

式中：φ＇_t为结构变换后的文本特征向量，φ_x表示图像特征向量，φ_t表示文本特征向量，W表示一个3*3的卷积过滤器。

进一步地，步骤四所述相似性度量计算采用余弦距离算法实现，其具体公式如下：

式中：x为融合特征向量；y为目标数据特征向量；cos为余弦值，所述cos余弦值取值范围为[-1,1],若该cos余弦值越大，则表示两个向量越相似，反之，则相反。

相比于现有技术，本发明的有益效果在于：

本申请提出的一种基于深度学习的互联网教育视频图像筛选提取法，采用深度学习技术对多模态数据进行特征提取和特征融合，并将其投射到同一公共空间，通过相似度计算实现了多模态数据的跨模态检索，其相较于现有单一模态检索方法而言，其有利于提高多媒体素材筛选精度和提取效率，进而有利于辅助教师进行多媒体教案制作，提高教师在制作多媒体教案时的工作效率。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明提出的一种基于深度学习的互联网教育视频图像筛选提取法的整体流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1

参照图1，本实施例公开了一种基于深度学习的互联网教育视频图像筛选提取法，该筛选提取方法的具体步骤如下：

首先，待检测多媒体数据输入，输入用户所需要进行检索的待检测多媒体数据；

具体的，该待检测多媒体数据为多模态数据，其具体包括文本数据和图像数据，该文本数据和图像数据可通过单一模态形式输入实现跨模态筛选提取(即通过单一文本数据或单一图像数据实现多媒体数据的跨模态检索)，也可以进行模态组合式输入实现跨模态筛选提取(即通过文本数据加图像数据的多模态形式进行输入，以实现多媒体数据的跨模态检索)，该文本词向量在进行特征提取前需进行分词处理，分词处理是基于统计的分词算法，其用于进行停用词去除以及关键词划分，该停用词包含两类：一类是指频繁出现的词，另一类是指某些虚词，其包括语气助词、副词、介词、连接词及感叹词，停用词通过符号代替，并将其从分词结果中去掉，符号包括“()”、“、”、“-”、“/”、和“&”。

然后，特征提取，获取文本数据和图像数据，并将其分别输入对应文本模型和图像模型中进行向量特征提取，分别得到文本特征向量和图像特征向量；

具体的，该文本模型和图像模型分别为BERT文本表示模型和VGGNet网络模型，该BERT文本表示模型是由Google公司于2018年十月发布的预训练语言模型，它在自然语言处理领域的有关任务上表现出了非常强大的性能,其利用bert-as-service工具对原始文本数据进行处理，获取文本特征向量；该VGGNet网络模型具体为VGGNet-16网络模型，与VGGNet其余不同层次的网络结构相比，该VGGNet-16网络模型利用率更高，其在整个训练过程中，只包含了大小为3×3的卷积运算与大小为2×2的池化运算，证明该网络模型在兼顾了出色的特征表现力的同时还更为简单易用，将其作为图片特征提取器，可高效地获取图像特征向量；

接着，特征融合，获取文本特征向量和图像特征向量，通过融合算法构建其对应门特征与残差特征，并采用度量学习方法进行特征融合，得到融合特征向量，

具体的，由于输入的文本特征向量和图像特征向量分别输出自不同的网络模型，其在空间结构上的表达并不一致，因此，该特征融合采用了一种门特征与残差特征的构建与组合的方法，将两者特征融合，以获得在空间结构上保持一致，并结合其各自特征的统一表达方式，即以原始特征为依据形成融合特征向量；

最后，筛选提取，将多媒体教案素材库中多模态数据进行向量转化，得到目标数据特征向量，同时将其与融合特征向量一起投射到同一公共空间，并进行相似性度量计算，同时根据相似度进行排序，筛选提取出前N个候选数据作为检索结果；

具体的，该相似性度量计算采用余弦距离算法实现，其具体公式如下：式中：x为融合特征向量；y为目标数据特征向量；cos为余弦值，cos余弦值取值范围为[-1,1],若该cos余弦值越大，则表示两个向量越相似，反之，则相反；本申请其相较于现有单一模态检索方法而言，其有利于提高多媒体素材筛选精度和提取效率，进而有利于辅助教师进行多媒体教案制作，提高教师在制作多媒体教案时的工作效率。

实施例2

参照图1，本实施例公开了一种基于深度学习的互联网教育视频图像筛选提取法，除与上述实施例相同的结构外，本实施例将具体介绍特征融合的具体过程；

具体的，该特征融合具体过程如下：首先，对文本特征向量和图像特征向量进行空间结构统一，即通过一个3*3的卷积过滤器对文本特征向量进行结构变换，其公式如下：φ＇_t＝W*(φ_x，φ_t)，式中：φ＇_t为结构变换后的文本特征向量，φ_x表示图像特征向量，φ_t表示文本特征向量，W表示一个3*3的卷积过滤器；然后根据文本特征向量和图像特征向量并利用同位元素对应相乘的方式构建门特征与残差特征，其中，门特征计算公式如下：f_gate(φ_x,φ_t)＝σ(W_g*ReLU(φ＇_t))⊙φ_x；残差特征计算公式如下：f_res(φ_x,φ_t)＝σ(W_r*ReLU(φ＇_t)，式中：σ为sigmoid函数，W_g和W_r均为3*3的卷积过滤器，ReLU为线性修正单元，⊙为同位元素对应相乘的计算方法；接着，对构建完成的门特征与残差特征进行权重配比，并进行线性组合，其公式如下：最后，采用深度度量学习方式对门特征与残差特征进行权重参数优化，得到融合特征向量；

本实施例中提供采用深度学习技术对多模态数据进行特征提取和特征融合，并将其投射到同一公共空间，通过相似度计算实现了多模态数据的跨模态检索，其相较于现有单一模态检索方法而言，其有利于提高多媒体素材筛选精度和提取效率，进而有利于辅助教师进行多媒体教案制作，提高教师在制作多媒体教案时的工作效率。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

8页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：共享信息处理方法、装置、系统及计算机可读存储介质

一种基于深度学习的互联网教育视频图像筛选提取法

相关技术

网友询问留言