一种基于单向监督注意力的多模态标签推荐方法

文档序号:1889366 发布日期:2021-11-26 浏览:16次 >En<

阅读说明:本技术 一种基于单向监督注意力的多模态标签推荐方法 (Multi-mode label recommendation method based on one-way supervision attention ) 是由 凌海峰 徐旺 钱洋 姜元春 刘业政 柴一栋 孙见山 袁昆 孟祥睿 于 2021-08-26 设计创作,主要内容包括:本发明公开了一种基于单向监督注意力的多模态标签推荐方法,其步骤包括:1.构建多模态数据集合并表示,2.获取文本信息的特征表示,3.获取视觉信息的特征表示,4.深度融合文本与视觉特征,5.利用融合后的全局特征进行标签推荐。本发明在处理标签推荐任务时,能够综合利用文本与视觉信息,以得到有效的数据特征表示,从而能提高推荐精度。(The invention discloses a multi-modal label recommendation method based on one-way supervision attention, which comprises the following steps: 1. constructing and representing a multi-mode data set, 2, obtaining feature representation of text information, 3, obtaining feature representation of visual information, 4, deeply fusing text and visual features, and 5, utilizing the fused global features to recommend labels. When the label recommendation task is processed, the text and the visual information can be comprehensively utilized to obtain effective data characteristic representation, so that the recommendation precision can be improved.)

一种基于单向监督注意力的多模态标签推荐方法

技术领域

本发明涉及多模态数据的信息检索技术领域,具体涉及一种基于多模态数据的标签推荐方法。

背景技术

标签是一种对对象特征进行描述的关键词,它允许用户根据偏好自由地选择相关词语指派给目标。标签不仅能够高度概括对象的关键信息,还可以通过构建内链,实现对象间的互联,形成关系网络。通过标签系统,营销者可以更加清晰明了的展示产品的相关重要信息;消费者能够增强产品检索的有效性,提高用户体验;平台能够更加有效的追踪和管理营销者生成内容。尽管标签在对于内容组织与消费方面的重要性已经被证实,但目前仍然只有相对较少的文章包含用户标签。因此,标签推荐成为了一项必需且重要的任务。

近些年来,研究人员已使用了多种方法去完成标签推荐任务,例如协同过滤、生成模型、深度神经网络等。虽然在这个话题上已经有很多的研究,但大多数的研究都集中在使用文本特征。然而,根据统计,超过42%的推特推文含有多模态数据。图片特征同样可以提供丰富的信息来帮助我们处理标签推荐任务。此外,图片与文本所展示的信息可能是互补的,二者共同作用才能更加全面地反映对象的特征。因此,仅仅使用文本特征去解决标签推荐任务是不够的。虽然目前已经有一些研究提出了结合文本与图片特征的多模态模型,但将它们运用到标签推荐任务上都存在着一些不足。文献[Vqa:Visual questionanswering,2015]通过提取文本与图片全局特征向量进行元素乘来建模对象特征。该方式忽略了一个问题:标签并不一定与图像及文本的所有部分都存在关联。采用全局特征反而会引入噪声,导致推荐精度下降。文献[Hashtag Recommendation for MultimodalMicroblog Using Co-Attention Network,2017]将一种协同注意力机制引入标签推荐任务来融合图片与文本特征,但该机制由文献[Hierarchical co-attention for visualquestion answering,2016]提出,最初被用于视觉问答任务。由于视觉问答是对文本与图片特征进行匹配,主要关注图片与文本的共性,所以使用该机制时容易忽略文本或图片中独有的部分。文献[AMNN:Attention-Based Multimodal Neural Network Model forHashtag Recommendation,2020]采用自注意力机制,分别提取文本与图片特征,然后通过对文本与图片特征进行简单求和得到总体特征进行标签推荐,但该方式没有考虑到文本与图片特征间的信息交互。如何有效的提取并融合图片与文本特征,仍然是一个需要研究的问题。此外,先前对于多模态数据的研究中,每条数据大都只含有一张图片。但是在很多情况下,例如微博帖子中,每篇文章并不只含有一张图片,而且并不一定所有图片都对标签推荐任务有帮助。如何有效地利用这些图片的信息,也是值得研究的问题。

发明内容

本发明为了克服现有技术存在的不足之处,提出一种基于单向监督注意力的多模态标签推荐方法,以期在处理多模态数据的标签推荐任务时,能够综合利用文本与视觉信息,以快速且准确地学习出数据特征表示,从而提高标签推荐的准确性和精度。

本发明为达到上述发明目的,采用如下技术方案:

本发明一种基于单向监督注意力的多模态标签推荐方法的特点是按如下步骤进行:

步骤1、构建多模态数据集合A;

步骤1.1、构建多模态数据的文本信息集合,记为T={t1,t2,···,tk,···,tK},其中,tk表示第k条文本信息,K为文本信息的总条数;所述第k条文本信息tk包含的单词,记为tk={w1,k,w2,k,···,wn,k,···,wN,k},其中,wn,k表示所述第k条文本信息tk中第n个文本词,N表示文本信息的最大词汇长度;

步骤1.2、构建多模态数据的视觉信息集合,记为P={U1,U2,···,Uk,···,UK},其中,Uk表示第k条视觉信息,所述第k条视觉信息Uk包含的图片,记为Uk={p1,k,p2,k,···,pm,k,···,pM,k},其中,pm,k表示所述第k条视觉信息Uk中第m张图片,M表示视觉信息的最大图片数;

步骤1.3、构建多模态数据中的标签信息集合,记为Λ={Λ12,···,Λk,···,ΛK},其中,Λk表示第k条标签信息,所述第k条标签信息Λk包含的标签,记为Λk={λ1,k2,k,···,λo,k,···,λO,k},其中,λo,k表示所述第k条标签信息Λk中第o个标签,O表示标签信息的最大标签数;由所有不同的标签信息构成标签空间Φ;

步骤1.4、由所述文本信息集合T、视觉信息集合P以及标签信息集合Λ构建多模态数据集合A={T,P,Λ};

步骤2、获取文本信息的特征表示;

步骤2.1、对第k条文本信息tk进行词嵌入,得到词向量Xk={x1,k,x2,k,···,xn,k,···,xN,k},其中,xn,k表示所述第k条文本信息tk中第n个词向量,对于长度小于N的文本数据,填充零向量以达到长度N;

步骤2.2、采用双向GRU对词向量Xk进行处理,得到词级别的文本特征表示,记为其中,表示所述第k条文本信息tk中第n个词级别的文本特征;

以n为当前时间步,对于第n个词向量xn,k,GRU单元利用式(1)-式(3)分别得到更新门zn,k、重置门rn,k、候选状态从而根据第n-1个时间步的GRU单元输出hn-1,k,利用式(4)得到第n个时间步的GRU单元输出hn,k

zn,k=σ(Wz·[hn-1,k,xn,k]+bz) (1)

rn,k=σ(Wr·[hn-1,k,xn,k]+br) (2)

式(1)-式(4)中,⊙表示元素乘,σ表示sigmoid激活函数,Wz表示更新门zn,k的权重矩阵,bz表示更新门zn,k的偏置向量,Wr表示重置门rn,k的权重矩阵,br表示重置门rn,k的偏置向量,Wh表示候选状态的权重矩阵,bh表示候选状态的偏置向量,当n=1时,令hn-1,k=0;利用式(5)和式(6)分别得到前向GRU单元提取的前向隐特征表示后向GRU单元提取的后向隐特征表示从而利用式(7)得到词级别的文本特征表示

式(5)和式(6)中,分别代表前向、后向GRU单元;

步骤2.3、引入如式(8)和式(9)所示的自注意力机制,从而利用式(10)得到文本信息的特征表示

式(8)-式(10)中,为词级别的文本特征表示的隐藏表示,D为隐藏层维度,Ww为隐藏表示的权重矩阵,bw为隐藏表示的偏置向量,为文本特征表示的注意力得分,为文本注意力得分的权重矩阵,L为文本特征维度;

步骤3、获取视觉信息的特征表示;

步骤3.1、通过预训练的VGG-16网络来提取图片区域特征:

将第m张图片pm,k划分为G个区域,则得到图片区域集合其中,表示第m张图片pm,k中第g个区域;并通过VGG-16网络,获取第m张图片pm,k中第g个区域的特征表示

步骤3.2、通过基于文本的视觉注意力学习每张图片的特征表示:

利用式(11)和式(12)分别得到结合文本情境的图片区域特征表示和第g个区域的注意力得分从而利用式(13)得到第m张图片pm,k的特征表示

式(11)-式(13)中,为图片区域特征表示的权重矩阵,为文本特征的权重矩阵,为图片区域注意力得分的权重矩阵,为图片区域注意力得分的偏置向量;

步骤3.3、通过注意力机制融合多张图片,最终得到视觉信息的特征表示:

式(14)-式(16)中,为第k条视觉信息中第m张图片的隐特征表示,为图片隐特征表示的权重矩阵,为图片隐特征表示的偏置向量,为第m张图片pm,k的注意力得分,为图片注意力得分的权重矩阵,表示最终学习到的视觉特征;

步骤4、深度融合文本与视觉特征:

利用式(20)得到深度神经网络中第f层输出的中间特征从而得到深度神经网络输出的全局特征

式(20)中,ReLU表示线性整流函数,Wf表示中间特征的权重矩阵,bf表示中间特征的偏置向量,f=1,2,…,F,F表示深度神经网络的层数,当f=1时,由文本特征与视觉特征进行拼接得到初始特征

步骤5、利用融合后的全局特征进行标签推荐;

步骤5.1、将全局特征输入分类器,从而利用式(18)得到标签的概率分布

式(18)中,Wp,bp为分类器的权重矩阵与偏差向量;

步骤5.2、采用如式(19)所示的二元交叉熵作为目标函数J:

式(19)中,S表示所述多模态数据集合A中作为训练集的数据条数,表示训练集中第s条数据含有标签λ的实际概率,表示训练集中第s条数据含有标签λ的预测概率,λ∈Φ;

步骤5.3、设置最大迭代次数epoch_number,利用反向传播和梯度下降法对所述目标函数J进行训练,当迭代次数达到epoch_number时,停止训练,使得目标函数J达到最小,从而得到最优推荐模型用于对所输入的文本信息集合T、视觉信息集合P输出标签的概率分布并从中选取概率最大的前top个标签进行推荐。

与现有技术相比,本发明的有益效果在于:

1.本发明综合考虑了文本与视觉信息,认为文本与图片都是对同一目标对象的不同形式的展现,这些展现可能从不同的视角出发描述对象的不同方面,所以结合文本与视觉信息能够更好地反映对象特征。在此基础上,本发明提出了一个端到端的多模态数据标签推荐框架,有效提取并融合视觉与文本特征,从而提高了标签推荐任务的精度,因此在实际应用中更方便、更有价值。

2.本发明采用词嵌入与双向GRU模型处理文本数据,能够综合考虑文本的上下文情境。同时引入注意力机制能够有效筛选出对标签推荐任务有帮助的文本信息,加强文本特征的准确性,提高了模型的可解释性。

3.本发明提出一种层次注意力机制来提取视觉特征。首先,通过预训练的VGG-16网络获取图片区域特征;然后,采用基于文本的视觉注意力机制,对图片特征的学习提供相应的情境并进行监督,获得每张图片的特征表示;最后,采用自注意力机制,有效融合每条数据中的多张图片特征,得到数据视觉特征表示。通过层层递进的方式,最终获取视觉特征的精确表示,减少了噪声,提高了视觉特征的有效性。

4.本发明通过深度神经网络建模文本与视觉特征的交互融合,将文本与视觉信息映射到同一特征空间中,得到每条数据的全局特征表示。相比于传统的加权和与内积的融合方式,该方法能够更深层次地融合文本与视觉信息,从而得到更加全面有效的特征表示,提高了推荐的准确率。

附图说明

图1为本发明提出的基于单向监督注意力的多模态标签推荐方法的框架图。

具体实施方式

本实施例中,一种基于单向监督注意力的多模态标签推荐方法,是利用深度学习模型,并综合考虑图像与文本特征,使用多层注意力机制来降低噪声,提高模型的可解释性,最后通过深度神经网络融合文本与视觉特征,学习得到准确的数据特征表示,从而提供更加有效的推荐标签。如图1所示,模型的输入包括文本信息和图片集,将文本信息传输到文本特征提取模块,将图片集传输到视觉特征提取模块;通过文本特征提取模块得到文本特征通过视觉特征提取模块得到视觉特征此外,文本特征也作为视觉特征提取模块的输入,从而生成基于文本的视觉注意力,监督视觉特征的学习;然后,将文本特征与视觉特征输入特征融合模块,得到全局特征最后,通过预测层来计算标签的概率分布,生成候选标签,具体的说,是按如下步骤进行:

步骤1、构建多模态数据集合A;

步骤1.1、构建多模态数据的文本信息集合,通过对文本数据进行分词、去停用词、去噪声词操作后,删除词频过低的单词以及长度过短的文本,记为T={t1,t2,···,tk,···,tK},其中,tk表示第k条文本信息,K为文本信息的总条数;第k条文本信息tk包含的单词,记为tk={w1,k,w2,k,···,wn,k,···,wN,k},其中,wn,k表示第k条文本信息tk中第n个文本词,N表示文本信息的最大词汇长度;

步骤1.2、构建多模态数据的视觉信息集合,删除不包含图片的数据,记为P={U1,U2,···,Uk,···,UK},其中,Uk表示第k条视觉信息,第k条视觉信息Uk包含的图片,记为Uk={p1,k,p2,k,…,pm,k,…,pM,k},其中,pm,k表示第k条视觉信息Uk中第m张图片,M表示视觉信息的最大图片数;

步骤1.3、构建多模态数据中的标签信息集合,删除频率过低的标签以及没有标签的数据,记为Λ={Λ12,…,Λk,…,ΛK},其中,Λk表示第k条标签信息,第k条标签信息Λk包含的标签,记为Λk={λ1,k2,k,…,λo,k,…,λO,k},其中,λo,k表示第k条标签信息Λk中第o个标签,O表示标签信息的最大标签数;由所有不同的标签信息构成标签空间Φ;

步骤1.4、由文本信息集合T、视觉信息集合P以及标签信息集合Λ构建多模态数据集合A={T,P,Λ};

步骤2、获取文本信息的特征表示,相比于视觉数据,文本数据能够提供更加丰富以及更加高质量的对象信息,文本数据的重要性显然要高于视觉数据;

步骤2.1、对第k条文本信息tk进行词嵌入,得到词向量Xk={x1,k,x2,k,…,xn,k,…,xN,k},其中,xn,k表示第k条文本信息tk中第n个词向量,对于长度小于N的文本数据,填充零向量以达到长度N;

步骤2.2、采用双向GRU对词向量Xk进行处理,得到词级别的文本特征表示,记为其中,表示第k条文本信息tk中第n个词级别的文本特征;

以n为当前时间步,对于第n个词向量xn,k,GRU单元利用式(1)-式(3)分别得到更新门zn,k、重置门rn,k、候选状态从而根据第n-1个时间步的GRU单元输出hn-1,k,利用式(4)得到第n个时间步的GRU单元输出hn,k

zn,k=σ(Wz·[hn-1,k,xn,k]+bz) (1)

rn,k=σ(Wr·[hn-1,k,xn,k]+br) (2)

式(1)-式(4)中,⊙表示元素乘,σ表示sigmoid激活函数,Wz表示更新门zn,k的权重矩阵,bz表示更新门zn,k的偏置向量,Wr表示重置门rn,k的权重矩阵,br表示重置门rn,k的偏置向量,Wh表示候选状态的权重矩阵,bh表示候选状态的偏置向量,当n=1时,hn-1,k=0;

利用式(5)和式(6)分别得到前向GRU单元提取的前向隐特征表示后向GRU单元提取的后向隐特征表示从而利用式(7)得到词级别的文本特征表示

式(5)和式(6)中,分别代表前向、后向GRU单元;

步骤2.3、引入如式(8)和式(9)所示的自注意力机制,注意力机制能够聚焦于对标签推荐有帮助的文本信息,过滤噪声,更好地得到文本信息的特征表示,从而利用式(10)得到文本信息的特征表示

式(8)-式(10)中,为词级别的文本特征表示的隐藏表示,D为隐藏层维度,Ww为隐藏表示的权重矩阵,bw为隐藏表示的偏置向量,为文本特征表示的注意力得分,为文本注意力得分的权重矩阵,L为文本特征维度;

步骤3、获取视觉信息的特征表示;

步骤3.1、通过预训练的VGG-16网络来提取图片区域特征:

将第m张图片pm,k划分为G个区域,则得到图片区域集合其中,表示第m张图片pm,k中第g个区域;并通过VGG-16网络,采用网络最后一个池化层的输出作为提取的区域特征,获取第m张图片pm,k中第g个区域的特征表示在本实施例中,首先将所有图片的尺寸统一调整为(224×224),接着将每张图片划分为G=49个区域;

步骤3.2、通过基于文本的视觉注意力学习每张图片的特征表示,并不是图片的所有区域都对标签推荐任务有帮助,甚至在不同情境下,相同的图片关注区域也不同。本发明利用步骤2学习到的文本特征表示,为图片提供相应的情境,从而过滤噪声并最终得到准确的图片表示:

利用式(11)和式(12)分别得到结合文本情境的图片区域特征表示和第g个区域的注意力得分从而利用式(13)得到第m张图片pm,k的特征表示

式(11)-式(13)中,为图片区域特征表示的权重矩阵,为文本特征的权重矩阵,为图片区域注意力得分的权重矩阵,为图片区域注意力得分的偏置向量;

步骤3.3、通过注意力机制融合多张图片,最终得到视觉信息的特征表示,同样的,并不是所有的图片都对标签推荐任务有帮助,无效的图片会为模型引入噪音,从而导致推荐精度降低。采用注意力机制,能够很好地处理该问题,具体公式如下:

式(14)-式(16)中,为第k条视觉信息中第m张图片的隐特征表示,为图片隐特征表示的权重矩阵,为图片隐特征表示的偏置向量,为第m张图片pm,k的注意力得分,为图片注意力得分的权重矩阵,表示最终学习到的视觉特征。

步骤4、深度融合文本与视觉特征,文本与视觉信息可能从不同视角去描述目标信息,二者的共同作用决定了文章的标签,因而需要对文本与视觉特征进行有效的融合。本发明采用如下公式深度建模文本与视觉特征的融合过程:

利用式(20)得到深度神经网络中第f层输出的中间特征从而得到深度神经网络输出的全局特征

式(20)中,ReLU表示线性整流函数,Wf表示中间特征的权重矩阵,bf表示中间特征的偏置向量,f=1,2,…,F,F表示深度神经网络的层数,当f=1时,由文本特征与视觉特征进行拼接得到初始特征

步骤5、利用融合后的全局特征进行标签推荐;

步骤5.1、将全局特征输入分类器,在本实施例中,将标签推荐任务转化为多标签分类问题,采用逻辑回归模型作为分类器,模型中的每个节点都与实际标签一一对应,将特征向量映射成标签的概率θ∈[0,1],从而利用式(18)得到标签的概率分布

式(18)中,Wp,bp为分类器的权重矩阵与偏差向量;

步骤5.2、采用如式(19)所示的二元交叉熵作为目标函数J:

式(19)中,S表示多模态数据集合A中作为训练集的数据条数,本实施例中,将多模态数据集合按照8:1:1划分为训练集、验证集、测试集。表示训练集中第s条数据含有标签λ的实际概率,表示训练集中第s条数据含有标签λ的预测概率,λ∈Φ;

步骤5.3、设置最大迭代次数epoch_number=100,利用反向传播和梯度下降法对目标函数J进行训练,本实施例中,梯度下降法采用学习率η=1e-4,指数衰减率β1=0.9,β2=0.999的Adam优化算法,当迭代次数达到epoch_number时,停止训练,使得目标函数J达到最小,从而得到最优推荐模型用于对所输入的文本信息集合T、视觉信息集合P输出标签的概率分布并从中选取概率最大的前top个标签进行推荐。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种应用程序的检测方法、装置、电子设备和存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!