基于多模态渐进式注意力模型解决视频问答任务的方法

文档序号：1875576 发布日期：2021-11-23 浏览：17次 >En<

阅读说明：本技术 基于多模态渐进式注意力模型解决视频问答任务的方法 (Method for solving video question-answering task based on multi-mode progressive attention model ) 是由孙广路刘昕雨梁丽丽李天麟于 2021-08-10 设计创作，主要内容包括：本发明的实施方式提供了一种基于多模态渐进式注意力模型解决视频问答任务的方法。该方法包括：一、针对视频问答任务中的多种模态信息,分别提取多种模态特征；二、利用问题对提取到的多种模态特征进行初步关注并计算相应的权重得分,再利用问题对重要模态特征进行迭代关注以定位到与问题最相关的模态特征；三、利用多模态融合算法实现特征的跨模态融合,再利用问题对视频的多模态融合表示进行关注,找出与问题相关的重要视频特征；四、将模型的部分有效输出结果进行融合,用于答案生成。相比现有的视频问答解决方案,本发明能够更精准地定位到与问题相关的视频帧或视频画面区域。本发明在视频问答任务中取得的效果相比于传统的方法更好。(The embodiment of the invention provides a method for solving a video question-answering task based on a multi-mode progressive attention model. The method comprises the following steps: firstly, aiming at various modal information in a video question and answer task, respectively extracting various modal characteristics; secondly, performing primary attention on the extracted various modal characteristics by using the problem, calculating corresponding weight scores, and performing iterative attention on the important modal characteristics by using the problem so as to locate the modal characteristics most relevant to the problem; thirdly, realizing cross-modal fusion of the features by utilizing a multi-modal fusion algorithm, and then paying attention to multi-modal fusion representation of the video by utilizing problems to find out important video features related to the problems; and fourthly, fusing partial effective output results of the model for answer generation. Compared with the existing video question-answering solution, the method and the device can more accurately position the video frame or video picture area related to the problem. Compared with the traditional method, the effect obtained by the invention in the video question-answering task is better.)

技术领域

本发明的实施方式涉及视频问答技术领域，更具体地，本发明的实施方式涉及一种基于多模态渐进式注意力模型解决视频问答任务的方法。

背景技术

近年来，视频问答是一个极具挑战性的新生领域，备受研究者的关注。该任务要求模型能够理解视频和问题之间的语义信息，并根据该语义信息生成答案。由于开放式问题需要模型自动地生成自然语言答案，因此开放式问题是现阶段视频问答任务中较为困难的问题类型。

在问答任务中，视频信息相比于图像信息更具复杂性。视频是一个具有强时间动态性的图像序列，并且存在大量与问题无关的冗余帧，从而影响视频表示与问题的相关性，导致模型无法精准地定位到与问题相关的视频信息，实验表明将注意力模型应用到视频问答任务中可以有效解决该问题，并显著提高了模型的准确率。

目前大多视频问答任务在实现过程中仅提取视频的帧特征及剪辑特征，完全忽略了视频的音频特征，因此并没有最大化地利用视频的所有有效信息。并且由于不同模态特征之间存在多种信息交叉且各自的表现方式不同，若仅利用点乘、级联等基础运算进行特征融合，不足以建模两个模态间的复杂关系。针对以上问题，本方法将利用多模态渐进式注意力模型以逐阶段的定位方式精准地定位到与问题相关的视频帧或与问题相关的视频画面区域。

发明内容

在本上下文中，本发明的实施方式期望提供一种基于多模态渐进式注意力模型解决视频问答任务的方法，以克服现有技术对于视频问答任务无法提供较为准确答案的问题。

在本发明实施方式的第一方面中，提供了一种基于多模态渐进式注意力模型解决视频问答任务的方法，包括：步骤S1、获得待处理的视频和问题；步骤S2、提取所述视频的帧特征、剪辑特征和音频特征，作为该视频的多个模态特征，并提取所述问题的文本特征；步骤S3、分别利用问题对所述视频的多个模态特征进行关注，得到具有问题指导的多个模态表示，再利用问题分别计算各模态的权重得分，并在所述多个模态中选择权重得分最高的模态表示作为关键模态；步骤S4、根据得到的模态表示和权重得分，基于多模态融合算法将多个模态表示融合以得到所述视频的视频融合表示；步骤S5、利用问题对视频的视频融合表示进行关注，得到具有问题指导的视频融合表示；步骤S6、利用问题对关键模态的特征进行多步关注，以多轮迭代的方式定位到与问题更相关的关键模态特征；步骤S7、至少基于所述问题特征、所述具有问题指导的视频融合表示以及所述多步关注和所述多轮迭代的结果，获得预测答案。

进一步地，步骤S2中提取所述视频的帧特征、剪辑特征和音频特征的步骤包括：步骤S21、利用预训练ResNet模型提取所述视频的帧特征 v_f＝{f₁,f₂,...,f_N1}，其中，f_i表示视频中第i个帧的帧特征， i＝1,2,3,…,N1，N1表示帧数，d表示帧特征的维度；步骤S22、利用预训练TSN网络提取所述视频的剪辑特征v_c＝{c₁,c₂,…,c_N2}，其中， c_j表示视频中第j个剪辑的剪辑特征，j＝1,2,3,…,N2，N2表示剪辑个数，剪辑特征的维度与帧特征维度相同；步骤S23、根据梅尔倒谱系数将所述视频中的音频转换为声谱图以作为预训练GoogLeNet模型的输入，再利用预训练GoogLeNet模型提取视频的音频特征v_a＝{a₁,a₂,...,a_N3}，其中，a_k表示视频中第k个音频的音频特征， k＝1,2,3,…,N3，N3表示音频个数，音频特征的维度与帧特征维度相同；

步骤S2中提取问题特征的步骤包括：步骤S24、对问题中所有的词进行独热编码表示，得到问题表示q＝{q₁,q₂,...,q_T}，其中，q_t为问题中第t 个词的独热编码表示，t＝1,2,3,…,T，T表示问题的长度；步骤S25、利用预训练词嵌入模型GloVe得到词嵌入矩阵其中，|N_vocab|表示数据集的词汇数量，数值300表示每个词向量的特征维度；步骤S26、通过词嵌入矩阵E将问题q嵌入到低维的连续向量空间，得到词嵌入向量 x_t＝E*q_t,t＝1,2,...,T；步骤S27、利用LSTM编码词嵌入向量得到问题的文本特征LSTM_q(·)表示处理词嵌入向量的长短期记忆网络。

进一步地，步骤S3中得到的多个具有问题指导的模态表示包括具有问题指导的帧表示，所述具有问题指导的帧表示通过如下步骤获得：S31、利用兼容性函数对问题特征和帧特征v_f＝(f₁,f₂,...,f_N1)进行维度缩放，即将所述问题特征和帧特征从高维特征空间映射到同一低维特征空间以进行相似度计算，得到对应的帧向量组e_f，每个帧向量的具体计算如下式所示：

其中，使用的兼容性函数是缩放点乘函数，表示所得帧向量组，表示帧向量组中的第i个帧向量，f_i表示视频中第i个帧的帧特征，i＝1,2,3,…,N1，d表示预设的缩放因子；S32、利用对齐函数将所述帧向量组e_f中每个帧向量均转化成对应的帧注意力权重得分以得到问题特征和帧特征相似度的归一化结果，每个帧向量对应的帧注意力权重得分的具体计算如下式所示：

其中，使用的归一化函数是softmax函数，exp(·)表示以自然底数e为底的质数运算函数；S33、利用生成上下文函数将每个帧特征f_i与其对应的帧注意力权重得分进行加权求和计算，以得到具有问题指导的帧表示 p_f，如下式所示：其中，W₁表示可训练的权重矩阵， b₁表示可训练的偏置向量。

进一步地，步骤S3中得到的多个具有问题指导的模态表示包括具有问题指导的剪辑表示，所述有问题指导的剪辑表示通过如下步骤获得： S34、利用兼容性函数对问题特征和剪辑特征v_c＝(c₁,c₂,...,c_N2)进行维度缩放，即将所述问题特征和剪辑特征从高维特征空间映射到同一低维特征空间以进行相似度计算，得到对应的剪辑向量组e_c，每个剪辑向量的具体计算如下式所示：

其中，使用的兼容性函数是缩放点乘函数，表示所得剪辑向量组，表示剪辑向量组中的第j个剪辑向量，c_j表示视频中第j个剪辑的剪辑特征，j＝1,2,3,…,N2，d表示预设的缩放因子；S35、利用对齐函数分别将所述剪辑向量组e_c中每个剪辑向量转化成剪辑注意力权重得分以得到问题特征和剪辑特征相似度的归一化结果，每个剪辑向量对应的剪辑注意力权重得分的具体计算如下式所示：

其中，使用的归一化函数是softmax函数，exp(·)表示以自然底数e为底的质数运算函数；S36、利用生成上下文函数将每个剪辑特征c_j与其对应的剪辑注意力权重得分进行加权求和计算，以得到具有问题指导的剪辑表示p_c，如下式所示：其中，W₂表示可训练的权重矩阵，b₂表示可训练的偏置向量。

进一步地，步骤S3中得到的多个具有问题指导的模态表示包括具有问题指导的音频表示，所述具有问题指导的音频表示通过如下步骤获得： S37、利用兼容性函数对问题特征和音频特征v_a＝(a₁,a₂,...,a_N3)进行维度缩放，即将所述问题特征和音频特征从高维特征空间映射到同一低维特征空间以进行相似度计算，得到对应的音频向量组e_a，每个音频向量的具体计算如下式所示：

其中，使用的兼容性函数是缩放点乘函数，表示所得音频向量组，表示音频向量组中的第k个音频向量，a_k表示视频中第k个音频的音频特征，k＝1,2,3,…,N3，d表示预设的缩放因子；S38、利用对齐函数分别将所述音频向量组e_a中每个音频向量转化成音频注意力权重得分以得到问题特征和音频特征相似度的归一化结果，每个音频向量对应的音频注意力权重得分的具体计算如下式所示：

其中，使用的归一化函数是softmax函数，exp(·)表示以自然底数e为底的质数运算函数；S39、利用生成上下文函数将每个音频特征a_k与其对应的音频注意力权重得分进行加权求和计算，以得到具有问题指导的音频表示p_a，如下式所示：其中，W₃表示可训练的权重矩阵，b₃表示可训练的偏置向量。

进一步地，步骤S3还包括：按照如下公式利用问题分别对具有问题指导的帧表示p_f、具有问题指导的剪辑表示p_c以及具有问题指导的音频表示p_a计算权重得分，得到权重得分结果s_f,s_c,s_a，并在s_f,s_c,s_a中选择权重得分最高的模态作为关键模态p，

其中＜·＞表示余弦相似度计算，P＝{p_f,p_c,p_a}表示多个具有问题指导的模态特征，H＝{H_f,H_c,H_a}表示问题特征和具有问题指导的不同模态特征 P＝{p_f,p_c,p_a}之间的相似程度，S＝{s_f,s_c,s_a}表示问题特征对具有问题指导的不同模态特征P＝{p_f,p_c,p_a}关注后得到的权重得分结果，p表示与问题最相关的模态，p∈{p_f,p_c,p_a}。

进一步地，步骤S4中所述视频的多模态融合表示通过如下方式获得：按照如下公式利用多模态压缩双线性模型MCB将具有问题指导的帧表示 p_f、具有问题指导的剪辑表示p_c、具有问题指导的音频表示p_a及其各自的权重得分s_f,s_c,s_a融合到一起，得到视频融合表示v_u： v_u＝MCBFusion(s_fp_f,s_cp_c,s_ap_a)。

进一步地，步骤S5包括：步骤S51、按照如下公式利用得到的视频融合表示v_u和编码问题的长短期记忆网络LSTM_q输出的第t时刻的隐藏状态进行计算，将计算结果作为t时刻双向长短期记忆网络Bi_LSTM_a的输入，其中，表示以元素方式相乘，Bi_LSTMa(·)表示双向长短期记忆网络，表示Bi_LSTM_a编码过程中第t时刻的隐藏状态；步骤 S52、按照如下公式利用Bi_LSTM_a第t时刻的隐藏状态对得到的视频融合表示v_u进行关注，得到具有问题指导的视频融合表示v_o，

其中，W₄、W₅和W₆表示可训练的权重矩阵，b₅和b₆表示可训练的偏置向量，e_t表示由视频融合特征和视频特征进行相似度计算所得到的权值，α_t表示权值归一化后的注意力权重分布。

进一步地，步骤S6包括：步骤S61、按照如下公式初始化查询条件，其中，表示问题特征；步骤S62、按照如下公式分别利用查询条件z_r对得到的关键模态p进行关注，得到具有问题指导的关键模态表示

α_r＝softmax(W₈e_r+b₈)，

其中，W₇、W₈和W₉表示可训练的权重矩阵，b₇、b₈和b₉表示可训练的偏置向量；p表示与问题最相关的模态，p∈{p_f,p_c,p_a}，z_r表示第r次迭代更新的查询条件，r＝0,1,2,…,R，e_r表示由问题特征和关键模态特征进行相似度计算所得到的权值，α_r表示权值归一化后的注意力权重分布；步骤S63、按照如下公式对查询条件进行迭代更新，其中z_r-1表示第r-1 次迭代更新的查询条件，表示第r-1次查询得到的具有问题指导的关键模态特征，r＝1,2,…,R；步骤S64、利用步骤S63中更新得到的查询条件，执行步骤S62对关键模态p进行多步迭代关注，得到与问题更相关的关键模态特征

进一步地，步骤S7中按照如下步骤获得预测答案：按照如下公式将步骤S2中LSTM_q输出的记忆细胞状态步骤S5中Bi_LSTM_a输出的记忆细胞状态步骤S5中得到的具有问题指导的视频表示v_o和步骤S6中得到的迭代关注结果四部分信息进行融合，用于答案生成，

其中，W₁₀表示可训练的权重矩阵，W_answer表示词汇表的权重矩阵，Answer 表示生成的答案，argmax表示选择最高得分作为预测结果。

在本发明实施方式的第二方面中，提供了一种存储有程序的存储介质，所述程序被处理器执行时实现如上所述的基于多模态渐进式注意力模型解决视频问答任务的方法。

在本发明实施方式的第三方面中，提供了一种计算设备，包括上述存储介质。

根据本发明实施方式的基于多模态渐进式注意力模型解决视频问答任务的方法，能够实现如下效果：

(1)与现有技术相比，本发明利用了多个不同功能的注意力模型协同工作，以更准确地定位到与问题相关的视频帧或视频画面区域。

(2)本发明利用改进的多模态融合算法实现特征的跨模态融合，提高了特征融合后的表示能力。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明实施方式的基于多模态渐进式注意力模型解决视频问答任务的方法的一个示例性处理的流程图；

图2为示出本发明的基于多模态渐进式注意力模型解决视频问答任务的方法的一种可实现的系统结构原理图；

图3为示出本发明的基于多模态渐进式注意力模型解决视频问答任务的方法的结果示例图；

图4示意性地示出了根据本发明一实施例的计算机的结构示意图；

图5示意性地示出了根据本发明一实施例的计算机可读存储介质的示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种基于多模态渐进式注意力模型解决视频问答任务的方法。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，首先分别从视频和问题中提取多种模态特征。然后将所提取到的多模态特征输入到多个注意力模型中，最后将各模块输出结果中有效信息进行融合，用于答案生成。

本发明的基于多模态渐进式注意力模型解决视频问答任务的方法，例如包含如下步骤：步骤S1、获得待处理的视频和问题；步骤S2、提取所述视频的帧特征、剪辑特征和音频特征，作为该视频的多个模态特征，并提取所述问题的文本特征；步骤S3、分别利用问题对所述视频的多个模态特征进行关注，得到具有问题指导的多个模态表示，再利用问题分别计算各模态的权重得分，并在所述多个模态中选择权重得分最高的模态表示作为关键模态；步骤S4、根据得到的模态表示和权重得分，基于多模态融合算法将多个模态表示融合以得到所述视频的视频融合表示；步骤S5、利用问题对视频的视频融合表示进行关注，得到具有问题指导的视频融合表示；步骤S6、利用问题对关键模态的特征进行多步关注，以多轮迭代的方式定位到与问题更相关的关键模态特征；步骤S7、至少基于所述问题特征、所述具有问题指导的视频融合表示以及所述多步关注和所述多轮迭代的结果，获得预测答案。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

示例性方法

图1示意性地示出了根据本公开实施例的基于多模态渐进式注意力模型解决视频问答任务的方法的一种示例性的处理流程。图2示出了上述方法可实现的一种系统结构。

如图1所示，处理流程开始后，首先执行步骤S1。

步骤S1、获得待处理的视频和问题。

例如，待处理的视频和问题可以是用户输入的，也可以是系统从外部接收的，或者从预定网址下载而得到的，等等。

作为示例，在本发明的实施例中，以英语为例来描述具体的处理流程。但应当理解，问题的语言并不限于图2中所示的英语，也可以是其他诸如中文、日文、韩文、法文等其他语言。相应地，预测答案的语言可以与问题的语言相同，或可以根据用户选择而设置为一种或多种可选语言。

步骤S2、提取视频的帧特征、剪辑特征和音频特征，作为该视频的多个模态特征，并提取问题的文本特征。

作为示例，在步骤S2中，例如可以通过如下描述的步骤S21～S23来提取视频的帧特征、剪辑特征和音频特征。

在步骤S21中，利用预先训练的ResNet模型提取视频的帧特征。

例如，用v_f表示视频的帧特征，则：

v_f＝{f₁,f₂,...,f_N1}，

其中，f_i表示视频中第i个帧的帧特征，i＝1,2,3,…,N1，N1表示帧数且N1为自然数，d表示预设的缩放因子，如这里(在对应视频的帧特征时)表示帧特征维度。

如上所述，在本发明的实施例中，ResNet模型是在ImageNet上经过预先训练的，也即利用训练好的ResNet模型来提取视频的帧特征。应当说明的是，上述ResNet模型并不用于限定该示例，在其他示例中，例如也可以采用经过预训练的其他用于提取帧特征的模型，这里不再赘述。

这样，在步骤S22中，可以利用预先训练的TSN(Temporal Segment Networks)网络提取视频的剪辑特征。

例如，用v_c表示视频的剪辑特征，则：

v_c＝{c₁,c₂,...,c_N2}，

其中，c_j表示视频中第j个剪辑的剪辑特征，j＝1,2,3,…,N2， N2表示剪辑个数且N2为自然数，d表示预设的缩放因子，如这里(在对应视频的剪辑特征时)表示剪辑特征维度。剪辑特征的维度与帧特征维度相同。

如上所述，在本发明的实施例中，上述TSN网络是经过预先训练的，也即利用训练好的TSN网络来提取视频的剪辑特征。应当说明的是，上述TSN网络并不用于限定该示例，在其他示例中，例如也可以采用经过预训练的其他用于提取剪辑特征的网络模型，这里不再赘述。

然后，在步骤S23中，根据梅尔倒谱系数将视频中的声音转换为声谱图以作为预先训练的GoogLeNet模型的输入，再利用该GoogLeNet模型提取视频的音频特征。

例如，用v_a表示视频的音频特征，则：

v_a＝{a₁,a₂,...,a_N3}，

其中，a_k表示视频中第k个音频的音频特征，k＝1,2,3,…,N3， N3表示音频个数且N3为自然数，d表示预设的缩放因子，如这里(在对应视频的音频特征时)表示音频特征维度。音频特征的维度与帧特征维度相同。

这样，可以通过如上方法来在步骤S2中提取视频的多个模态特征。

值得一提的是，在上述示例中，采用视频的帧特征、剪辑特征和音频特征这三种特征作为视频的多个模态特征，但本发明的实施例并不限于此。

例如，在本发明实施例中，可以选取视频的帧特征、剪辑特征、音频特征、剪辑音频特征、帧音频特征中的至少两种特征作为视频的多个模态特征。

例如，将剪辑特征v_c和音频特征v_a进行特征融合，得到剪辑音频特征 v_ca，具体特征融合方式包括：线性加法、线性乘法以及拼接等，以采用两个特征进行拼接为例，得到剪辑音频特征v_ca，具体融合方式如下：

v_ca＝[v_c,v_a]，

其中,[·]表示两个特征拼接的操作，相比单个剪辑、音频特征而言，剪辑音频特征信息更丰富，具有更强的语义信息。

又如，帧音频特征v_fa的提取方式与剪辑音频特征v_ca采用的特征融合的方法相似，得到的帧音频特征v_fa比单个模态的特征信息更有效。

此外，在步骤S2中，可以通过如下描述的步骤S24～S27来提取问题特征。

在步骤S24中，对问题中所有的词进行独热编码表示，得到对应的问题表示q，q＝{q₁,q₂,...,q_T}。例如，当问题的语言为英语时，在步骤S24中可以对问题中所有的单词进行独热编码表示，这里所说的词即单词。

其中，q_t为问题中第t个词的独热编码表示，t＝1,2,3,…,T，T问题的长度(即包含的词数)且T为自然数。

接着，在步骤S25中，利用预先训练的词嵌入模型(如GloVe模型) 得到词嵌入矩阵E，

其中，|N_vocab|表示预定数据集中的词汇数量，数值300表示上述词嵌入矩阵中的每个词向量的特征维度。

接着，在步骤S26中，通过得到的词嵌入矩阵将问题q嵌入到低维的连续向量空间，得到对应的词嵌入向量x_t，x_t＝E*q_t。

这样，在步骤S27中，可以利用LSTM(Long Short-Term Memory，长短期记忆网络)对步骤S26中得到的词嵌入向量进行编码，由此得到问题的文本特征其中，LSTM_q(·)表示处理词嵌入向量的长短期记忆网络。由于问题与图片不同，问题是序列数据，因此采用LSTM 编码问题特征，能够使得问题特征不丢失信息，从而更好地保留了问题中每个单词的语义信息。

如图2所示，例如可以通过如图所示的ResNet、TSN、GoogLeNet三个模型(作为视频特征提取模型)来提取相应的视频特征，而图2所示的 GloVe+LSTM模型(作为问题特征提取模型)来提取问题的文本特征。

步骤S3、分别利用问题对视频的多个模态特征进行关注，得到具有问题指导的多个模态表示，再利用问题分别计算各模态的权重得分，并在上述多个模态中选择权重得分最高的模态表示作为关键模态。

需要说明的是，多个模态是指帧特征、剪辑特征以及音频特征(可选地还可能包括其他特征)所对应的模态。

在步骤S3中，得到的具有问题指导的多个模态表示例如包括：具有问题指导的帧表示；具有问题指导的剪辑表示；具有问题指导的音频表示。

例如，可以通过如下描述的步骤S31～S33来获得上述具有问题指导的帧表示。

在步骤S31中，利用兼容性函数对问题特征和帧特征v_f＝(f₁,f₂,...,f_N1) 进行维度缩放，即将问题特征和帧特征v_f＝(f₁,f₂,...,f_N1)从高维特征空间映射到同一低维特征空间以进行相似度计算(即计算问题特征与帧特征之间的语义相似度)，得到对应的帧向量组e_f，帧向量组e_f中的每个帧向量的具体计算如下式所示：

其中，步骤S31中使用的兼容性函数是缩放点乘函数，表示所得帧向量组，表示帧向量组中的第i个帧向量，f_i表示视频中第i 个帧的帧特征，i＝1,2,3,…,N1，d表示预设的缩放因子。

需要说明的是，在本发明的实施例中，A和B从高维特征空间映射到同一低维特征空间指的是，A和B从高维特征空间均映射到同一个低维特征空间，比如，A从2048维特征空间映射到256维特征空间，B也从2048 维特征空间映射到256维特征空间；或者，A从2048维特征空间映射到 256维特征空间，B从1024维特征空间映射到256维特征空间。换句话说， A和B分别从各自的高维空间映射到相同维度的低维空间。

接着，在步骤S32中，利用对齐函数将帧向量组e_f中每个帧向量均转化成对应的帧注意力权重得分以得到问题特征和帧特征相似度的归一化结果，每个帧向量对应的帧注意力权重得分的具体计算如下式所示：

步骤S32中使用的归一化函数是softmax函数，exp(·)表示以自然底数 e为底的质数运算函数。此外，表示i＝i1时对应的i1取值范围为1～N1。

这样，在步骤S33中，利用生成上下文函数，将每个帧特征f_i与其对应的帧注意力权重得分进行加权求和计算(即基于各帧特征对应的帧注意力权重得分对各帧特征加权求和)，以得到具有问题指导的帧表示p_f，如下式所示：

其中，W₁表示可训练的权重矩阵，b₁表示可训练的偏置向量。

又如，可以通过如下描述的步骤S34～S36来获得上述具有问题指导的剪辑表示。

在步骤S34中，利用兼容性函数对问题特征和剪辑特征 v_c＝(c₁,c₂,...,c_N2)进行维度缩放，即将问题特征和剪辑特征从高维特征空间映射到同一低维特征空间以进行相似度计算(即计算问题特征与剪辑特征之间的语义相似度)，得到对应的剪辑向量组e_c，剪辑向量组e_c中的每个剪辑向量的具体计算如下式所示：

其中，步骤S34中使用的兼容性函数是缩放点乘函数，表示所得剪辑向量组，表示剪辑向量组中的第j个剪辑向量，c_j表示视频中第j个剪辑的剪辑特征，j＝1,2,3,…,N2，d表示预设的缩放因子。

接着，在步骤S35中，利用对齐函数分别将剪辑向量组e_c中每个剪辑向量转化成对应的剪辑注意力权重得分以得到问题特征和剪辑特征相似度的归一化结果，每个剪辑向量对应的剪辑注意力权重得分的具体计算如下式所示：

其中，步骤S35中使用的归一化函数是softmax函数。此外，表示剪辑向量组中的第i2个剪辑向量。此外，表示j＝i2时对应的i2取值范围为1～N2。

这样，在步骤S36中，利用生成上下文函数，将每个剪辑特征c_j与其对应的剪辑注意力权重得分进行加权求和计算(即基于各剪辑特征对应的剪辑注意力权重得分对各剪辑特征加权求和)，以得到具有问题指导的剪辑表示p_c，如下式所示：

其中，W₂表示可训练的权重矩阵，b₂表示可训练的偏置向量。

此外，还可以通过如下描述的步骤S37～S39来获得上述具有问题指导的音频表示。

在步骤S37中，利用兼容性函数对问题特征和音频特征 v_a＝(a₁,a₂,...,a_N3)进行维度缩放，即将问题特征和音频特征从高维特征空间映射到同一低维特征空间以进行相似度计算(即计算问题特征与音频特征之间的语义相似度)，得到对应的音频向量组e_a，音频向量组e_a中的每个音频向量的具体计算如下式所示：

其中，步骤S37中使用的兼容性函数是缩放点乘函数，表示所得音频向量组，表示音频向量组中的第k个音频向量，a_k表示视频中第k个音频的音频特征，k＝1,2,3,…,N3，d表示预设的缩放因子。

接着，在步骤S38中，利用对齐函数分别将音频向量组e_a中每个音频向量转化成音频注意力权重得分以得到问题特征和音频特征相似度的归一化结果，每个音频向量对应的音频注意力权重得分的具体计算如下式所示：

其中，步骤S38中使用的归一化函数例如也可以是softmax函数。此外，表示音频向量组中的第i3个音频向量。此外，表示k＝i3时对应的i3取值范围为1～N3。

这样，在步骤S39中，利用生成上下文函数将每个音频特征a_k与其对应的音频注意力权重得分进行加权求和计算，以得到具有问题指导的音频表示p_a，如下式所示：

其中，W₃表示可训练的权重矩阵，b₃表示可训练的偏置向量。

这样，在上述步骤S31～S39中，分别获得了帧注意力权重得分、剪辑注意力权重得分和音频注意力权重得分，为清楚起见，可以将上述帧注意力权重得分、剪辑注意力权重得分和音频注意力权重得分记为第一权重得分，以便与下文将要描述的第二权重得分进行区分。

此外，在步骤S3中，可以利用问题分别对具有问题指导的帧表示p_f、具有问题指导的剪辑表示p_c以及具有问题指导的音频表示p_a再次计算权重得分，得到权重得分结果s_f,s_c,s_a(例如记为各自对应的第二权重得分)，并在s_f,s_c,s_a中选择权重得分最高的模态作为关键模态p，如下式所示：

P＝{p_f,p_c,p_a}；

H＝{H_f,H_c,H_a}；

S＝{s_f,s_c,s_a}。

其中，＜·＞表示余弦相似度计算，如表示与P之间的余弦相似度的计算结果，而P＝{p_f,p_c,p_a}表示多个具有问题指导的模态特征， H＝{H_f,H_c,H_a}表示问题特征和具有问题指导的不同模态特征 P＝{p_f,p_c,p_a}之间的相似程度。

S＝{s_f,s_c,s_a}表示问题特征对具有问题指导的不同模态特征 P＝{p_f,p_c,p_a}关注后得到的权重得分结果，p表示与问题最相关的模态， p∈{p_f,p_c,p_a}。

此外，s_f则表示利用问题特征对具有问题指导的帧表示p_f再进行关注后得到的第二权重得分，s_c表示利用问题特征对具有问题指导的剪辑表示p_c再进行关注后得到的第二权重得分，s_a表示利用问题特征对具有问题指导的音频表示p_a再进行关注后得到的第二权重得分。

这样，如图2所示，可以通过如图所示的视频序列注意力模块，基于步骤S2中提取的视频特征和问题特征来完成上述步骤S3的处理，以获得关键模态。

步骤S4、根据得到的模态表示和权重得分，基于多模态融合算法将多个模态表示融合以得到视频的视频融合表示。

在步骤S4中，例如可以按照如下公式，利用多模态压缩双线性模型 MCB将具有问题指导的帧表示p_f、具有问题指导的剪辑表示p_c、具有问题指导的音频表示p_a及其各自的权重得分s_f,s_c,s_a(即各自对应的第二权重得分)融合到一起，得到视频融合表示v_u：

v_u＝MCBFusion(s_fp_f,s_cp_c,s_ap_a)。

其中，上式中的MCBFusion(·)表示上述多模态压缩双线性模型MCB对应的多模态融合算法函数。

由此，如图2所示，可以通过如图所示的多模态融合算法模块，根据步骤S3中得到的模态表示和权重得分来完成上述步骤S4的处理，以获得视频的多模态融合表示。

步骤S5、利用问题对视频的视频融合表示进行关注，得到具有问题指导的视频融合表示。

例如，步骤S5可以包括如下描述的步骤S51～S52。

在步骤S51中，按照如下公式，利用得到的视频融合表示v_u和编码问题的长短期记忆网络LSTM_q输出的第t时刻的隐藏状态进行计算，将计算结果作为t时刻双向长短期记忆网络Bi_LSTM_a的输入：

其中，表示以元素方式相乘，Bi_LSTM_a(·)表示双向长短期记忆网络，表示Bi_LSTM_a处理编码中第t时刻的隐藏状态。

接着，在步骤S52中，按照如下公式，利用Bi_LSTM_a第t时刻的隐藏状态对得到的视频融合表示v_u进行关注，得到具有问题指导的视频融合表示v_o：

其中，W₄、W₅和W₆表示可训练的权重矩阵，b₅和b₆表示可训练的偏置向量，e_t表示由视频融合特征和视频特征(视频特征即上文所述的帧特征、剪辑特征和音频特征)进行相似度计算所得到的权值，α_t表示权值归一化后的注意力权重分布。e_i4表示t＝i4时对应的e_t，i4取值范围为1～T。

由此，如图2所示，可以通过如图所示的辅助注意力模块，根据步骤 S4中得到的视频的多模态融合表示来完成上述步骤S5的处理，以找出与问题相关的重要视频特征(即具有问题指导的视频融合表示)。

步骤S6、利用问题对关键模态的特征进行多步关注，以多轮迭代的方式定位到与问题更相关的关键模态特征。

例如，可以通过如下将要描述的步骤S61～S62来实现上述步骤S6的处理。

在步骤S61中，按照下式初始化查询条件：其中，表示问题特征。

接着，在步骤S62中，按照如下公式分别利用查询条件z_r对得到的关键模态p进行关注，得到具有问题指导的关键模态表示

α_r＝softmax(W₈e_r+b₈)；

其中，W₇、W₈和W₉表示可训练的权重矩阵，b₇、b₈和b₉表示可训练的偏置向量；p表示与问题最相关的模态，p∈{p_f,p_c,p_a}，z_r表示第r次迭代更新的查询条件，r＝0,1,2,…,R，R表示迭代总次数且R为自然数。e_r表示由问题特征和关键模态特征进行相似度计算所得到的权值，α_r表示权值归一化后的注意力权重分布。

接着，在步骤S63中，按照如下公式对查询条件进行迭代更新：

其中z_r-1表示第r-1次迭代更新的查询条件，表示第r-1次查询得到的具有问题指导的关键模态特征，r＝1,2,…,R。

这样，在步骤S64中，利用步骤S63中更新得到的查询条件，执行步骤S62对关键模态p进行多步迭代关注，得到与问题更相关的关键模态特征

由此，如图2所示，可以通过如图所示的迭代定位注意力模块，根据步骤S3中得到的关键模态来完成上述步骤S6的处理，以定位到与问题更相关的关键模态特征。

步骤S7、至少基于所述问题特征、所述具有问题指导的视频融合表示以及所述多步关注和所述多轮迭代的结果，获得预测答案。

在步骤S7中，例如可以按照如下公式将步骤S2中长短期记忆网络 LSTM_q输出的记忆细胞状态步骤S5中Bi_LSTM_a输出的记忆细胞状态步骤S5中得到的具有问题指导的视频表示v_o和步骤S6中得到的迭代关注结果四部分信息进行融合，用于答案生成：

其中，W₁₀表示可训练的权重矩阵，W_answer表示词汇表的权重矩阵， Answer表示生成的答案，argmax表示选择最高得分作为预测结果。

这样，如图2所示，可以通过如图所示的答案生成模块，根据前面几步的部分有效输出结果融合后输入至该模块，来完成上述步骤S7处理，以生成预测答案。图2所示虚线框内包含的部分即为本发明实施例所述的多模态渐进式注意力模型，用于执行上文所述的各步骤。

如图3所示，在给出的视频及问题下，能够得到如图所示的预测答案。由此可以得出，利用本发明的上述方法来进行视频问答处理，能够预测得到较为准确的答案。

此外，本发明实施方式还提供了一种存储有程序的存储介质，程序被处理器执行时实现如上的基于多模态渐进式注意力模型解决视频问答任务的方法。

另外，本发明实施方式还提供了一种计算设备，包括上述存储介质。

图4示出了适于用来实现本发明实施方式的示例性计算机系统/服务器50 的框图。图4显示的计算机系统/服务器50仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，计算机系统/服务器50以通用计算设备的形式表现。计算机系统/服务器50的组件可以包括但不限于：一个或者多个处理器或者处理单元501，系统存储器502，连接不同系统组件(包括系统存储器502和处理单元501)的总线503。

计算机系统/服务器50典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器50访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器502可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)5021和/或高速缓存存储器5022。计算机系统/服务器50可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，ROM5023可以用于读写不可移动的、非易失性磁介质(图4中未显示，通常称为“硬盘驱动器”)。尽管未在图4中示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线503相连。系统存储器502中可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块5024的程序/实用工具5025，可以存储在例如系统存储器502中，且这样的程序模块5024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块5024通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器50也可以与一个或多个外部设备504(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口505进行。并且，计算机系统/服务器50还可以通过网络适配器506与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网) 通信。如图5所示，网络适配器506通过总线503与计算机系统/服务器50 的其它模块(如处理单元501等)通信。应当明白，尽管图4中未示出，可以结合计算机系统/服务器50使用其它硬件和/或软件模块。

处理单元501通过运行存储在系统存储器502中的程序，从而执行各种功能应用以及数据处理，例如，执行并实现上述方法中的各步骤。

本发明实施方式的计算机可读存储介质一个具体例子如图5所示。

图5的计算机可读存储介质为光盘600，其上存储有计算机程序(即程序产品)，该程序被处理器执行时，会实现上述方法实施方式中所记载的各步骤，各步骤的具体实现方式在此不再重复说明。

优选实施例

在该优选实施例中，在ZJL实验数据集上进行了实验，该数据集中共有 13161个短视频及197415个问答对。为了客观地评价本发明的方法的性能，本发明在所选出的测试集中使用了Accuracy评价标准来对于本发明的效果进行评价，Accuracy评价标准反映了模型预测的准确率。按照上文描述的步骤，所得的实验结果如表1所示。

表1

本发明进行了如下消融研究实验以评估各模态的有效性，其中Q代表 QuestionOnly表示仅根据问题特征预测答案，V+Q代表Video and Question 表示根据视频和问题预测答案，A+Q代表Audio and Question表示根据音频和问题预测答案，V+A+Q代表Video,Question and Audio表示根据视频、问题和音频预测答案，所得的实验结果如表2所示。

表2

应当注意，尽管在上文详细描述中提及了若干单元、模块或子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

25页详细技术资料下载

基于多模态渐进式注意力模型解决视频问答任务的方法

相关技术

网友询问留言