视频召回方法、装置、电子设备以及存储介质

文档序号：1937598 发布日期：2021-12-07 浏览：14次 >En<

阅读说明：本技术 视频召回方法、装置、电子设备以及存储介质 (Video recall method and device, electronic equipment and storage medium ) 是由高黎明廖东亮黄炜杰姚日恒王艺如黎功福徐进于 2021-05-17 设计创作，主要内容包括：本申请公开了一种视频召回方法、装置、电子设备以及存储介质,包括：获取样本视频对应的视频标题和查询信息,所述查询信息包括查询语句以及查询路径,检测所述视频标题与查询语句之间相同的关键词,得到相同关键词,根据所述查询路径以及相同关键词,构建用于表征所述样本视频、查询语句以及查询路径之间关联关系的异构图,基于所述异构图、查询语句和视频标题对预设视频召回模型进行训练,并通过训练后的视频召回模型进行视频召回,该方案可以视频查询时的召回率。(The application discloses a video recall method, a video recall device, electronic equipment and a storage medium, wherein the method comprises the following steps: the method comprises the steps of obtaining a video title and query information corresponding to a sample video, wherein the query information comprises a query sentence and a query path, detecting the same key words between the video title and the query sentence to obtain the same key words, constructing a special composition for representing the incidence relation among the sample video, the query sentence and the query path according to the query path and the same key words, training a preset video recall model based on the special composition, the query sentence and the video title, and performing video recall through the trained video recall model.)

技术领域

本发明涉及计算机技术领域，具体涉及一种视频召回方法、装置、电子设备以及存储介质。

背景技术

随着网络视频平台的发展，视频数量不断膨胀，用户需要花费大量的时间从海量的视频中查找自己感兴趣的视频。

目前的视频召回方法是根据用户输入的搜索词进行视频召回，具体的，是利用查询语句和视频标题之间的语义关联度进行视频召回，但是，通过该方法召回的视频往往与用户期望的视频不同，即，目前的视频召回方法召回率较低。

发明内容

本申请提供一种视频召回方法、装置、电子设备以及存储介质，可以提高视频查询时的召回率。

本申请提供了一种视频召回方法，包括：

获取样本视频对应的视频标题和查询信息，所述查询信息包括查询语句以及查询路径；

检测所述视频标题与查询语句之间相同的关键词，得到相同关键词；

根据所述查询路径以及相同关键词，构建用于表征所述样本视频、查询语句以及查询路径之间关联关系的异构图；

基于所述异构图、查询语句和视频标题对预设视频召回模型进行训练，并通过训练后的视频召回模型进行视频召回。

相应的，本申请还提供了一种视频召回装置，包括：

获取模块，用于获取样本视频对应的视频标题和查询信息，所述查询信息包括查询语句以及查询路径；

检测模块，用于检测所述视频标题与查询语句之间相同的关键词，得到相同关键词；

构建模块，用于根据所述查询路径以及相同关键词，构建用于表征所述样本视频、查询语句以及查询路径之间关联关系的异构图；

训练模块，用于基于所述异构图、查询语句和视频标题对预设视频召回模型进行训练；

召回模块，用于通过训练后的视频召回模型进行视频召回。

可选的，在本发明的一些实施例中，所述训练模块包括：

处理单元，用于对所述异构图进行图嵌入处理，得到所述异构图中每个节点对应的节点向量；

分词单元，用于分别对所述查询语句以及视频标题进行分词处理，得到所述查询语句对应的查询词集合以及所述视频标题对应的标题词集合；

训练单元，用于基于所述节点向量、查询词集合和标题词集合对预设视频召回模型进行训练，得到训练后的视频召回模型。

可选的，在本申请的一些实施例中，所述训练单元包括：

第一构建子单元，用于根据所述视频召回模型中的第一子网络、查询词集合以及标题词集合，构建所述查询语句对应的第一语义特征以及所述视频标题对应的第二语义特征；

第二构建子单元，用于基于所述视频召回模型中的第二子网络、所述节点向量以及所述相同关键词，构建所述查询语句对应的第一异构图特征以及所述视频标题对应的第二异构图特征；

训练子单元，用于根据所述第一语义特征、第二语义特征、第一异构图特征以及第二异构图特征对预设视频召回模型进行训练，得到训练后的视频召回模型。

可选的，在本申请的一些实施例中，所述第二构建子单元具体用于：

将所述节点向量输入至所述视频召回模型中的第二子网络中，得到所述异构图中每个节点对应的向量特征，所述向量特征携带有节点与节点之间的关联权重；

获取所述相同关键词对应的向量特征；

根据节点与节点之间的关联权重，构建每个节点向量在不同查询语句下对应的查询特征，并融合所述查询特征，得到所述查询语句对应的第一异构图特征；

基于所述相同关键词对应的向量特征，构建所述视频标题对应的第二异构图特征。

可选的，在本申请的一些实施例中，所述第一构建子单元具体用于：

将所述第一词向量输入至所述视频召回模型的第一子网络中，得到所述查询词集合中每个查询词对应的第一词嵌入表示，并对所述第一词嵌入表示进行平均池化处理，得到所述查询语句对应的第一语义特征，以及；

将所述第二词向量输入至所述视频召回模型的第二子网络中，得到所述标题词集合中每个标题词对应的第二词嵌入表示，并对所述第二词嵌入表示进行平均池化处理，得到所述视频标题对应的第二语义特征。

可选的，在本申请的一些实施例中，所述训练子单元具体用于：

融合所述第一语义特征和第一异构图特征，得到所述查询语句对应的查询特征，以及；

融合所述第二语义特征和第二异构图特征，得到所述视频标题对应的标题特征；

根据所述查询特征以及标题特征对预设视频召回模型进行训练，得到训练后的视频召回模型。

可选的，在本申请的一些实施例中，还包括构建单元，所述构建单元具体用于：

保留所述查询语句以及视频标题中词频小于预设值的关键词，并根据保留的关键词构建参考词典；

根据所述参考词典对齐所述查询语句和视频标题的文本长度。

可选的，在本申请的一些实施例中，所述召回模块具体用于：

当接收到视频搜索操作时，获取待召回视频集合、所述视频搜索操作对应的视频搜索语句以及视频搜索路径，所述待召回视频集合包括至少一个待召回视频，所述待召回视频对应一个待召回视频标题；

计算所述待召回视频标题与所述视频搜索语句之间的文本相似度，并基于所述文本相似度通过训练后的视频召回模型进行视频召回。

可选的，在本申请的一些实施例中，所述检测模块具体用于：

统计所述视频标题中每个关键词出现的频次，以及统计所述查询语句中每个关键词出现的频次；

在所述视频标题中去除频次大于预设值的关键词，得到处理后视频标题，以及；

在所述查询语句中去除频次大于预设值的关键词，得到处理后查询语句；

检测所述处理后视频标题与处理后查询语句之间相同的关键词，得到相同关键词。

本申请在获取样本视频对应的视频标题和查询信息后，所述查询信息包括查询语句以及查询路径，检测所述视频标题与查询语句之间相同的关键词，得到相同关键词，然后，根据所述查询路径以及相同关键词，构建用于表征所述样本视频、查询语句以及查询路径之间关联关系的异构图，最后，基于所述异构图、查询语句和视频标题对预设视频召回模型进行训练，并通过训练后的视频召回模型进行视频召回。本申请提供的视频召回方法，利用查询路径以及相同关键词，构建用于表征样本视频、查询语句以及查询路径之间关联关系的异构图，然后，再基于异构图、查询语句和视频标题对预设视频召回模型进行训练，后续通过训练后的视频召回模型对视频召回时，不仅可以利用查询语句和视频标题之间的语义关联度，还可以利用视频、查询语句以及查询路径之间关联关系，从而提高视频查询时的召回率。

附图说明

为了更清楚地说明本申请中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请提供的视频召回方法的场景示意图；

图1b是本申请提供的视频召回方法的流程示意图；

图1c是本申请提供的视频召回方法的异构图；

图1d是本申请提供的视频召回方法中视频召回模型的架构图；

图1e是本申请提供的视频召回方法中注意力机制的示意图；

图1f是本申请提供的视频召回方法中门控单元的结构图；

图2是本申请提供的视频召回方法的另一流程示意图；

图3是本申请提供的视频召回装置的结构示意图；

图4是本申请提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。

深度学习是机器学习的核心部分，其通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。其中，深度学习是机器学习领域中一个新的研究方向。即，深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如，人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的自然语言处理和深度学习等技术，现通过如下实施例进行说明。

本申请提供一种视频召回方法、装置、电子设备和存储介质。

其中，该视频召回装置具体可以集成在服务器或终端中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

例如，请参阅图1a，该视频召回装置集成在服务器上，服务器可以获取样本视频对应的视频标题和查询信息，其中，查询信息包括查询语句以及查询路径，然后，服务器检测视频标题与查询语句之间相同的关键词，得到相同关键词，接着，服务器根据查询路径以及相同关键词，构建用于表征样本视频、查询语句以及查询路径之间关联关系的异构图，最后，服务器可以基于异构图、查询语句和视频标题对预设视频召回模型进行训练，并通过训练后的视频召回模型进行视频召回，比如，服务器响应于终端触发的视频召回请求，通过训练后的视频召回模型召回目标视频，并将召回的目标视频发送至终端中，终端可以通过网页或小程序显示该目标视频。

本申请提供的视频召回方法，利用查询路径以及相同关键词，构建用于表征样本视频、查询语句以及查询路径之间关联关系的异构图，然后，再基于异构图、查询语句和视频标题对预设视频召回模型进行训练，后续通过训练后的视频召回模型对视频召回时，不仅可以利用查询语句和视频标题之间的语义关联度，还可以利用视频、查询语句以及查询路径之间关联关系，从而提高视频查询时的召回率。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优先顺序的限定。

一种视频召回方法，包括：获取样本视频对应的视频标题和查询信息，检测视频标题与查询语句之间相同的关键词，得到相同关键词，根据查询路径以及相同关键词，构建用于表征样本视频、查询语句以及查询路径之间关联关系的异构图，基于异构图、查询语句和视频标题对预设视频召回模型进行训练，并通过训练后的视频召回模型进行视频召回。

请参阅图1b，图1b为本申请提供的视频召回方法的流程示意图。该视频召回方法的具体流程可以如下：

101、获取样本视频对应的视频标题和查询信息。

视频泛指将一系列静态影像以电信号的方式加以捕捉、纪录、处理、储存、传送与重现的各种技术。网络技术的发达也促使视频的纪录片段以串流媒体的形式存在于因特网之上并可被电脑接收与播放。视频数据是随时间变化的图像流，含有更为丰富的其他媒体所无法表达的信息和内容。以视频的形式来传递信息，能够直观、生动、真实、高效地表达所要传递的内容。

其中，查询信息包括查询语句以及查询路径，样本视频可以是视频网站播放的视频，或者网页中插入的视频等，例如可以是各种影视视频、直播视频、节目视频以及短视频等等，并且，样本视频可以是从视频网站获取的，也可以是从视频数据库中获取的。

查询信息指的是用户查询该视频所产生的查询信息，查询信息包括查询语句以及查询路径，查询语句为查询该视频时所使用的语句，比如，用户输入“张三XX电视剧”查询视频A，那么，“张三XX电视剧”则为视频A对应的查询语句，并且，用户通过网站进入搜索引擎查询视频A，那么其对应的查询路径则为：搜索引擎-搜索结果页面-视频A。

102、检测视频标题与查询语句之间相同的关键词，得到相同关键词。

关键词源于英文“keywords”，特指单个媒体在制作使用索引时，所用到的词汇。关键词搜索是网络搜索索引主要方法之一，就是访问者希望了解的产品、服务和公司等的具体名称用语。

视频标题为描述视频内容的文本，如“xx工程师自制直升机”，其对应的关键词可以为“xx工程师”、“自制”以及“直升机”，而查询语句为用户查询该视频所使用的语句，如“xx工程师、直升机”、“直升机”或“xx工程师”，以查询语句为“xx工程师、直升机”为例，可以看出，该查询预计与视频标题之间的相同的关键词为“xx工程师”和“直升机”，则将“xx工程师”和“直升机”确定为视频标题与查询语句之间相同的关键词，即相同关键词。

需要说明的是，为了提高后续模型的召回能力，视频标题以及查询语句中常常会出现频次较高，但是不具有实际意义的关键词，如介词以及语气助词等等，故，在一些实施例中，可以去除这些频次较高的关键词，以提高后续模型的召回能力，也即，步骤“检测视频标题与查询语句之间相同的关键词，得到相同关键词”，具体可以包括：

(11)统计视频标题中每个关键词出现的频次，以及统计查询语句中每个关键词出现的频次；

(12)在视频标题中去除频次大于预设值的关键词，得到处理后视频标题，以及在查询语句中去除频次大于预设值的关键词，得到处理后查询语句；

(13)检测处理后视频标题与处理后查询语句之间相同的关键词，得到相同关键词。

例如，具体的，可以采用N元模型(N-Gram)统计视频标题中每个关键词出现的频次，以及统计查询语句中每个关键词出现的频次，需要说明的是，N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。该模型基于这样一种假设，第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是一元的Uni-Gram、二元的Bi-Gram和三元的Tri-Gram，在本申请中，Uni-gram、Bi-gram和Thri-gram对应的词频分别是：20、2和2。

103、根据查询路径以及相同关键词，构建用于表征样本视频、查询语句以及查询路径之间关联关系的异构图。

异构图(Heterogeneous Graph)是一种特殊的信息网络，它包含多种类型的对象或多种类型的连接。一个异构图，表示为G＝[V,E]，由一个对象集V和连接集E组成。异构图中可以存在不只一种节点和边，因此允许不同类型的节点拥有不同维度的特征或属性。

在本申请中，查询路径又可以成为元路径，元路径是连接两个对象的复合关系，是一种广泛应用的语义捕获结构，比如，对于电影视频而言，其元路径可以为电影视频-演员-电影视频，该元路径描述了两部电影视频之间的关系，又比如，元路径为电影视频-导演-电影视频则是指两部电影由同一个导演所导演的，异构性是异构图的一个内在属性，即各种类型的节点和边。例如，不同类型的节点具有不同的特征，其特征可能落在不同的特征空间中。

由此可见，本申请可以根据查询路径以及相同关键词，构建表征样本视频、查询语句以及查询路径之间关联关系的异构图，其中，样本视频的视频标题、查询语句以及相同关键词为该异构图中的节点，如图1c所示。

104、基于异构图、查询语句和视频标题对预设视频召回模型进行训练，并通过训练后的视频召回模型进行视频召回。

对于搜索类的产品而言，召回结果的排序往往会影响到用户体验。现有的模型往往只采用单一的计算方式计算召回结果和查询的相关性，或者计算语义相关性。语义模型可以计算查询和标题的语义相关性，从而确定召回结果的排序。然而，这样做忽略了通过该方法召回的视频往往与用户期望的视频不同，故，本申请利用语义信息和图结构信息对视频召回模型进行训练，使得后续视频召回模型在使用时，可以利用语义信息和图结构信息进行视频召回，提高了视频查询时的召回率。

需要说明的是，由于异构图、视频标题以及查询语句中均携带了许多高维的信息，在模型训练时不便于利用这些信息，因此，需要将高维的信息转化为低维的信息，即，可选的，在一些实施例中，步骤“基于异构图、查询语句和视频标题对预设视频召回模型进行训练”，具体可以包括：

(21)对异构图进行图嵌入处理，得到异构图中每个节点对应的节点向量；

(22)分别对查询语句以及视频标题进行分词处理，得到查询语句对应的查询词集合以及所述视频标题对应的标题词集合；

(23)基于节点向量、查询词集合和标题词集合对预设视频召回模型进行训练，得到训练后的视频召回模型。

其中，图嵌入，又称网络表示学习，是将一个网络中的节点基于网络的特点映射成一个低维度的向量，进而可以定量的衡量节点之间的相似性，便于更加方便地应用。

可选地，可以采用DeepWalk算法来对社交网络图进行图嵌入处理。DeepWalk是一种将随机游走(random walk)和Word2vec两种算法相结合的图结构数据挖掘算法。该算法能够学习网络的隐藏信息，能够将图中的节点表示为一个包含潜在信息的向量。

可选地，也可以采用GCN(Graph Convoluti onalnetworks，图卷积神经网络)来对异构图进行图嵌入处理。图卷积神经网络算法以每个节点的全局邻域作为输入，通过在图上定义卷积算法，迭代地聚合节点的邻域嵌入，并使用在前一次迭代中获得的嵌入及其嵌入的函数来获得新的嵌入。仅局部邻域的聚合嵌入使其具有可扩展性，并且多次迭代允许学习嵌入一个节点来描述全局邻域。

不管是采用DeepWalk算法，还是采用图卷积神经网络算法或者其他图嵌入方式进行特征提取，均可以得到图中所有节点的节点特征组成的节点特征集合。对异构图中每个节点的进行特征提取，得到的是异构图中各个节点对应的节点向量。其中，节点向量包括节点本身属性以及节点之间的拓扑或者连接关系。

此外，可以利用语言模型对查询语句以及视频标题进行分词处理，然后，再利用节点向量、查询词集合和标题词集合对预设视频召回模型进行训练，得到训练后的视频召回模型。

需要说明的是，在利用语言模型对查询语句以及视频标题进行分词处理之前，可以预先构建参考词典，基于参考词典对齐所述查询语句和视频标题的文本长度，然后，再利用语言模型对查询语句以及视频标题进行分词处理，即，可选的，在一些实施例中，还包括：

(31)保留查询语句以及视频标题中词频小于预设值的关键词，并根据保留的关键词构建参考词典；

(32)根据参考词典对齐查询语句和视频标题的文本长度。

例如，具体的，保留查询语句以及视频标题中词频小于2的关键词，并根据保留的关键词构建参考词典，然后，再根据参考词典对齐查询语句和视频标题的文本长度，并统一用预设标识(如<unk>)代表不在参考词典中的词，将文本长度大于预设文本长度的查询语句和/或视频标题进行截断，将文本长度小于预设文本长度用预设标识补齐，比如，预设文本长度为5，对查询语句“张三”和视频标题“张三坐飞机”进行对齐，则将查询语句调整为“张三<unk><unk><unk>”。

进一步的，本申请设计了一种融合语义信息和结构信息的端到端的视频召回模型。该模型的架构图如图1d所示，其中，第一子网络利用神经网络捕获查询语句的语义特征和视频标题的语义特征，第二子网络通过查询路径节点向量以及相同关键词，构建查询语句对应的异构图特征以及视频标题对应的异构图特征，然后，通过门机制融合这两部分信息，输出查询语句与视频标题之间相关性的预测值，最后，再根据预先标注的查询语句与视频标题之间相关性的实际值训练该视频召回模型，即，可选的，在一些实施例中，步骤“基于节点向量、查询词集合和标题词集合对预设视频召回模型进行训练，得到训练后的视频召回模型”，具体可以包括：

(41)根据视频召回模型中的第一子网络、查询词集合以及标题词集合，构建查询语句对应的第一语义特征以及视频标题对应的第二语义特征；

(42)基于视频召回模型中的第二子网络、节点向量以及相同关键词，构建查询语句对应的第一异构图特征以及视频标题对应的第二异构图特征；

(43)根据第一语义特征、第二语义特征、第一异构图特征以及第二异构图特征对预设视频召回模型进行训练，得到训练后的视频召回模型。

针对步骤(31)，可以利用第一子网络获取查询词集合以及标题词集合对应的词嵌入向量，然后，再对获取的词嵌入向量进行平均池化处理，最终得到查询语句对应的语义特征和视频标题对应的语义特征，即，可选的，在一些实施例中，步骤“根据视频召回模型中的第一子网络、查询词集合以及标题词集合，构建查询语句对应的第一语义特征以及视频标题对应的第二语义特征”，具体可以包括：

将第一词向量输入至视频召回模型的第一子网络中，得到查询词集合中每个查询词对应的第一词嵌入表示，并对第一词嵌入表示进行平均池化处理，得到查询语句对应的第一语义特征，以及将第二词向量输入至视频召回模型的第二子网络中，得到标题词集合中每个标题词对应的第二词嵌入表示，并对第二词嵌入表示进行平均池化处理，得到视频标题对应的第二语义特征。

针对步骤(32)，将异构图以及相同关键词作为第二子网络的输入，第二子网络中的异构图注意力神经网络可以学习到每个节点向量的特征表示，然后，可以获取相同关键词在异构图中的向量特征，最后，通过注意力池化(Attention-pooling)机制融合节点向量，得到查询语句的异构图特征，具体的，在每条查询路径下，通过注意力机制学习的每个节点的向量特征，注意力机制如图1e所示。然后，对于图上的每一个节点都会学到基于查询路径的不同向量特征，通过注意力机制将同一个节点的不同向量表征聚合成一个含有结构特征的向量表征(即查询语句对应的异构图特征)，而对于视频标题而言，则可以根据相同关键词对应的向量特征，构建用于描述视频标题的异构图特征，即，对相同关键词对应的向量特征进行拼接，得到视频标题对应的第二异构图特征，也即，可选的，在一些实施例中，步骤“基于视频召回模型中的第二子网络、异构图以及相同关键词，构建查询语句对应的第一异构图特征以及视频标题对应的第二异构图特征”，具体可以包括：

(51)将所述节点向量输入至所述视频召回模型中的第二子网络中，得到异构图中每个节点对应的向量特征；

(52)获取相同关键词对应的向量特征；

(53)根据节点与节点之间的关联权重，构建每个节点向量在不同查询语句下对应的查询特征，并融合查询特征，得到查询语句对应的第一异构图特征；

(54)基于相同关键词对应的向量特征，构建视频标题对应的第二异构图特征。

其中，向量特征携带有节点与节点之间的关联权重，在一些实施例中，可以使用自注意力机制构建查询语句对应的第一异构图特征，具体的，首先，建立查询语句中每个词与句子其他词k的注意力权重，然后将注意力权重向量进行归一化处理，并与查询语句的所有信息(如每个词的位置等等)进行线性加权，在这种方法中，句子中的每个词都能与句子中任意距离的其他词建立一个关联关系，目标是要能够在生成词语时，有一个不同词语的权重(即关联权重)的参考。

在得到第一语义特征、第二语义特征、第一异构图特征以及第二异构图特征后，可以基于第一语义特征、第二语义特征、第一异构图特征以及第二异构图特征对视频召回模型进行训练，具体的，可以融合查询语句的语义特征和图结构特征、以及融合视频标题的语义特征和图结构特征，然后，基于融合结果对视频召回模型进行训练，即，可选的，在一些实施例中，步骤“根据第一语义特征、第二语义特征、第一异构图特征以及第二异构图特征对预设视频召回模型进行训练，得到训练后的视频召回模型”，具体可以包括：

(61)融合第一语义特征和第一异构图特征，得到查询语句对应的查询特征，以及融合第二语义特征和第二异构图特征，得到视频标题对应的标题特征；

(62)根据查询特征以及标题特征对预设视频召回模型进行训练，得到训练后的视频召回模型。

具体的，请参阅图1f，通过门控单元将第一语义特征和第一异构图特征进行融合、以及将第二语义特征和第二异构图特征进行融合，该门控单元可以自适应地调整语义信息和图结构信息所占的比例，如果查询语句和视频标题的相似性较高，模型更偏重于语义信息，因为语义匹配模型在计算相似性有比较好的优势，如果查询语句和视频标题的相似性低，则模型会更注重结构信息，更倾向于通过异构图中的节点寻找目标视频。

可以理解的是，在得到训练后的视频召回模型后，当接收到视频搜索操作时，获取待召回视频集合、视频搜索操作对应的视频搜索语句以及视频搜索路径，其中，待召回视频集合包括至少一个待召回视频，待召回视频对应一个待召回视频标题，然后，可以计算待召回视频标题与所述视频搜索语句之间的文本相似度，并基于文本相似度通过训练后的视频召回模型进行视频召回，比如，当文本相似度小于50％时，则通过异构图中的节点寻找目标视频；当文本相似度大于或等于50％时，则根据语义特征召回目标视频。

本申请在获取样本视频对应的视频标题和查询信息后，检测视频标题与查询语句之间相同的关键词，得到相同关键词，然后，根据查询路径以及相同关键词，构建用于表征样本视频、查询语句以及查询路径之间关联关系的异构图，最后，基于异构图、查询语句和视频标题对预设视频召回模型进行训练，并通过训练后的视频召回模型进行视频召回。本申请提供的视频召回方法，利用查询路径以及相同关键词，构建用于表征样本视频、查询语句以及查询路径之间关联关系的异构图，然后，再基于异构图、查询语句和视频标题对预设视频召回模型进行训练，后续通过训练后的视频召回模型对视频召回时，不仅可以利用查询语句和视频标题之间的语义关联度，还可以利用视频、查询语句以及查询路径之间关联关系，从而提高视频查询时的召回率。

根据实施例所述的方法，以下将举例进一步详细说明。

在本实施例中将以该视频召回装置具体集成在服务器中为例进行说明。

请参阅图2，一种视频召回方法，具体流程可以如下：

201、服务器获取样本视频对应的视频标题和查询信息。

其中，样本视频可以是视频网站播放的视频，或者网页中插入的视频等，。例如可以是各种影视视频、直播视频、节目视频以及短视频等等，并且，样本视频可以是从视频网站获取的，也可以是从视频数据库中获取的。

查询信息指的是用户查询该视频所产生的查询信息，查询信息包括查询语句以及查询路径，查询语句为查询该视频时所使用的语句。

202、服务器检测视频标题与查询语句之间相同的关键词，得到相同关键词。

例如，具体的，服务器可以统计视频标题中每个关键词出现的频次，以及统计查询语句中每个关键词出现的频次，并且，在视频标题中去除频次大于预设值的关键词，得到处理后视频标题，以及在查询语句中去除频次大于预设值的关键词，得到处理后查询语句，最后，服务器检测处理后视频标题与处理后查询语句之间相同的关键词，得到相同关键词。

203、服务器根据查询路径以及相同关键词，构建用于表征样本视频、查询语句以及查询路径之间关联关系的异构图。

204、服务器基于异构图、查询语句和视频标题对预设视频召回模型进行训练，并通过训练后的视频召回模型进行视频召回。

由于异构图、视频标题以及查询语句中均携带了许多高维的信息，在模型训练时不便于利用这些信息，因此，需要将高维的信息转化为低维的信息，具体的，服务器对异构图进行图嵌入处理，得到异构图中每个节点对应的节点向量，然后，服务器可以分别对查询语句以及视频标题进行分词处理，得到查询语句对应的查询词集合以及所述视频标题对应的标题词集合，最后，服务器可以基于节点向量、查询词集合和标题词集合对预设视频召回模型进行训练，得到训练后的视频召回模型，服务器在得到训练后的视频召回模型后，当接收到视频搜索操作时，服务器获取待召回视频集合、视频搜索操作对应的视频搜索语句以及视频搜索路径，然后，服务器可以计算待召回视频标题与所述视频搜索语句之间的文本相似度，并基于文本相似度通过训练后的视频召回模型进行视频召回。

本申请的服务器在获取样本视频对应的视频标题和查询信息后，服务器检测视频标题与查询语句之间相同的关键词，得到相同关键词，然后，服务器根据查询路径以及相同关键词，构建用于表征样本视频、查询语句以及查询路径之间关联关系的异构图，最后，服务器基于异构图、查询语句和视频标题对预设视频召回模型进行训练，并通过训练后的视频召回模型进行视频召回。本申请提供的视频召回方法，利用查询路径以及相同关键词，构建用于表征样本视频、查询语句以及查询路径之间关联关系的异构图，然后，再基于异构图、查询语句和视频标题对预设视频召回模型进行训练，后续通过训练后的视频召回模型对视频召回时，不仅可以利用查询语句和视频标题之间的语义关联度，还可以利用视频、查询语句以及查询路径之间关联关系，从而提高视频查询时的召回率。

为便于更好的实施本申请的视频召回方法，本申请还提供一种基于上述视频召回装置(简称召回装置)。其中名词的含义与上述视频召回方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图3，图3为本申请提供的视频召回装置的结构示意图，其中该召回装置可以包括获取模块301、检测模块302、构建模块303、训练模块304以及召回模块305，具体可以如下：

获取模块301，用于获取样本视频对应的视频标题和查询信息。

其中，查询信息包括查询语句以及查询路径。样本视频可以是视频网站播放的视频，或者网页中插入的视频等，例如可以是各种影视视频、直播视频、节目视频以及短视频等等，并且，样本视频可以是从视频网站获取的，也可以是从视频数据库中获取的。

查询信息指的是用户查询该视频所产生的查询信息，查询信息包括查询语句以及查询路径，查询语句为查询该视频时所使用的语句

检测模块302，用于检测视频标题与查询语句之间相同的关键词，得到相同关键词。

构建模块303，用于根据查询路径以及相同关键词，构建用于表征样本视频、查询语句以及查询路径之间关联关系的异构图；

训练模块304，用于基于异构图、查询语句和视频标题对预设视频召回模型进行训练。

由于异构图、视频标题以及查询语句中均携带了许多高维的信息，在模型训练时不便于利用这些信息，因此，需要将高维的信息转化为低维的信息，具体的，训练模块304对异构图进行图嵌入处理，得到异构图中每个节点对应的节点向量，然后，训练模块304可以分别对查询语句以及视频标题进行分词处理，得到查询语句对应的查询词集合以及视频标题对应的标题词集合，最后，训练模块304可以基于节点向量、查询词集合和标题词集合对预设视频召回模型进行训练，得到训练后的视频召回模型。

可选的，在一些实施例中，训练模块304具体可以包括：

处理单元，用于对异构图进行图嵌入处理，得到异构图中每个节点对应的节点向量；

分词单元，用于分别对查询语句以及视频标题进行分词处理，得到查询语句对应的查询词集合以及视频标题对应的标题词集合；

训练单元，用于基于节点向量、查询词集合和标题词集合对预设视频召回模型进行训练，得到训练后的视频召回模型。

可选的，在一些实施例中，训练单元具体可以包括：

第一构建子单元，用于根据视频召回模型中的第一子网络、查询词集合以及标题词集合，构建查询语句对应的第一语义特征以及视频标题对应的第二语义特征；

第二构建子单元，用于基于视频召回模型中的第二子网络、节点向量以及所述相同关键词，构建查询语句对应的第一异构图特征以及视频标题对应的第二异构图特征；

训练子单元，用于根据第一语义特征、第二语义特征、第一异构图特征以及第二异构图特征对预设视频召回模型进行训练，得到训练后的视频召回模型。

可选的，在一些实施例中，第二构建子单元具体可以用于：将节点向量输入至视频召回模型中的第二子网络中，得到异构图中每个节点对应的向量特征，向量特征携带有节点与节点之间的关联权重；获取相同关键词对应的向量特征；根据节点与节点之间的关联权重，构建每个节点向量在不同查询语句下对应的查询特征，并融合查询特征，得到查询语句对应的第一异构图特征；基于相同关键词对应的向量特征，构建视频标题对应的第二异构图特征。

可选的，在一些实施例中，第一构建子单元具体可以用于：将第一词向量输入至视频召回模型的第一子网络中，得到查询词集合中每个查询词对应的第一词嵌入表示，并对第一词嵌入表示进行平均池化处理，得到查询语句对应的第一语义特征，以及将第二词向量输入至视频召回模型的第二子网络中，得到标题词集合中每个标题词对应的第二词嵌入表示，并对第二词嵌入表示进行平均池化处理，得到视频标题对应的第二语义特征。

可选的，在一些实施例中，训练子单元具体可以用于：融合第一语义特征和第一异构图特征，得到查询语句对应的查询特征，以及融合第二语义特征和第二异构图特征，得到视频标题对应的标题特征，根据查询特征以及标题特征对预设视频召回模型进行训练，得到训练后的视频召回模型。

可选的，在一些实施例中，还包括构建单元，构建单元具体可以用于：保留查询语句以及视频标题中词频小于预设值的关键词，并根据保留的关键词构建参考词典，根据参考词典对齐查询语句和视频标题的文本长度。

召回模块305，用于通过训练后的视频召回模型进行视频召回

在得到训练后的视频召回模型后，召回模块305当接收到视频搜索操作时，获取待召回视频集合、视频搜索操作对应的视频搜索语句以及视频搜索路径，然后，召回模块305可以计算待召回视频标题与所述视频搜索语句之间的文本相似度，并基于文本相似度通过训练后的视频召回模型进行视频召回，即，可选的，在一些实施例中，召回模块305具体可以用于：当接收到视频搜索操作时，获取待召回视频集合、视频搜索操作对应的视频搜索语句以及视频搜索路径，所述待召回视频集合包括至少一个待召回视频，待召回视频对应一个待召回视频标题；计算待召回视频标题与所述视频搜索语句之间的文本相似度，并基于文本相似度通过训练后的视频召回模型进行视频召回。

本申请的获取模块301在获取样本视频对应的视频标题和查询信息后，检测模块302检测视频标题与查询语句之间相同的关键词，得到相同关键词，然后，构建模块303根据查询路径以及相同关键词，构建用于表征样本视频、查询语句以及查询路径之间关联关系的异构图，最后，训练模块304基于异构图、查询语句和视频标题对预设视频召回模型进行训练，召回模块305通过训练后的视频召回模型进行视频召回。本申请提供的视频召回方法，利用查询路径以及相同关键词，构建用于表征样本视频、查询语句以及查询路径之间关联关系的异构图，然后，再基于异构图、查询语句和视频标题对预设视频召回模型进行训练，后续通过训练后的视频召回模型对视频召回时，不仅可以利用查询语句和视频标题之间的语义关联度，还可以利用视频、查询语句以及查询路径之间关联关系，从而提高视频查询时的召回率。

此外，本申请还提供一种电子设备，如图4所示，其示出了本申请所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取样本视频对应的视频标题和查询信息，检测视频标题与查询语句之间相同的关键词，得到相同关键词，根据查询路径以及相同关键词，构建用于表征样本视频、查询语句以及查询路径之间关联关系的异构图，基于异构图、查询语句和视频标题对预设视频召回模型进行训练，并通过训练后的视频召回模型进行视频召回。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请所提供的任一种视频召回方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请所提供的任一种视频召回中的步骤，因此，可以实现本申请所提供的任一种视频召回方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请所提供的一种视频召回方法、装置、电子设备以及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

22页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：用于视频推荐的方法及装置、带显示屏的冰箱

视频召回方法、装置、电子设备以及存储介质

相关技术

网友询问留言