用于多媒体数据跨模态检索的离散语义关联哈希方法

文档序号:1816093 发布日期:2021-11-09 浏览:19次 >En<

阅读说明:本技术 用于多媒体数据跨模态检索的离散语义关联哈希方法 (Discrete semantic association hash method for multimedia data cross-modal retrieval ) 是由 王松 赵欢 颜志威 佘晓林 马炎南 陈良旭 于 2021-07-22 设计创作,主要内容包括:本发明公开了一种用于多媒体数据跨模态检索的离散语义关联哈希方法,包括获取历史数据并处理得到数据训练集;初始化参数并获取一组数据;更新图像线性映射矩阵;更新文本线性映射矩阵;更新中间矩阵变量;更新哈希码矩阵;更新哈希码辅助矩阵;更新哈希码矩阵与哈希码辅助矩阵的误差;从训练集中更换一组数据;重复上述步骤直至达到设定的条件,得到最终的哈希码矩阵、图像线性映射矩阵和文本线性映射矩阵。本发明犯法拥有线性的时间训练复杂度,且能够取得良好的检索准确率;而且本发明方法的时间复杂度与空间复杂度均更加优秀,可靠性高、实用性好。(The invention discloses a discrete semantic association hash method for multimedia data cross-modal retrieval, which comprises the steps of obtaining historical data and processing the historical data to obtain a data training set; initializing parameters and acquiring a group of data; updating an image linear mapping matrix; updating a text linear mapping matrix; updating the intermediate matrix variable; updating the Hash code matrix; updating the hash code auxiliary matrix; updating errors of the Hash code matrix and the Hash code auxiliary matrix; replacing a set of data from the training set; and repeating the steps until a set condition is reached to obtain a final hash code matrix, an image linear mapping matrix and a text linear mapping matrix. The method has linear time training complexity and can obtain good retrieval accuracy; the method has more excellent time complexity and space complexity, high reliability and good practicability.)

用于多媒体数据跨模态检索的离散语义关联哈希方法

技术领域

本发明属于数据挖掘领域,具体涉及一种用于多媒体数据跨模态检索的离散语义关联哈希方法。

背景技术

随着信息技术的迅猛发展、数据存储技术的快速迭代以及智能设备的不断普及,多媒体数据呈现出了急速增长的态势。多媒体数据作为计算机与智能设备描述现实事物的主要途径,具有总量规模庞大、种类多样等特点。例如,多媒体数据可以表现为生活中较常见的文本、图像、视频、音频以及3D模型等多种形式。由于事物在计算机上的表现形式不再单一,人们不再满足于在单一的一种数据类型上进行检索,而更习惯和期待使用一种模态的数据,检索得到多种模态的数据。正如日常生活中使用的搜索引擎,可以通过文本单种模态,检索出文本、图像、视频等多种模态的结果。但是面对总量庞大、种类多样的多媒体数据,如何为其生成索引,以实现大规模数据库上准确与高效率的跨模态检索,已成为有效利用多媒体大数据资源的一大基础性难题。

由于事物对应类别标签中潜在的语义信息能够指导跨模态检索哈希任务的编码过程,因此,通常情况下,监督方法取得了较无监督方法更为优异的检索精度,而且近年来持续吸引着研究人员的关注。部分监督方法通过使用类别标签构造成对的相似度矩阵,以更好地保持数据间的语义关联,但是,该种技术方式存在如下几个问题:

技术问题1:直接在训练过程中为n个数据构造相似度矩阵,则将会导致O(n2)的时间与空间复杂度,使得方法难以适用于大规模数据集场景下的相似性检索任务,与跨模态哈希检索技术高效的检索与存储效率背道而驰。

技术问题2:仅使用类别标签构造相似度矩阵并用于指导哈希码学习过程,将会导致原始标签中部分语义信息的丢失。

发明内容

本发明的目的在于提供一种时间复杂度与空间复杂度均更加优秀,而且可靠性高、实用性好的用于多媒体数据跨模态检索的离散语义关联哈希方法。

本发明提供的这种用于多媒体数据跨模态检索的离散语义关联哈希方法,包括如下步骤:

S1.获取历史图像数据与对应的文本数据并进行处理,从而得到数据训练集;

S2.初始化参数,并从训练集中获取一组数据;

S3.更新图像线性映射矩阵;

S4.更新文本线性映射矩阵;

S5.更新中间矩阵变量;

S6.更新哈希码矩阵;

S7.更新哈希码辅助矩阵;

S8.更新哈希码矩阵与哈希码辅助矩阵的误差;

S9.从训练集中更换一组数据;

S10.重复步骤S3~S9,直至达到设定的条件,从而得到最终的哈希码矩阵、图像线性映射矩阵和文本线性映射矩阵。

所述的用于多媒体数据跨模态检索的离散语义关联哈希方法,还包括如下步骤:

S11.采用步骤S10得到的哈希码矩阵、图像线性映射矩阵和文本线性映射矩阵,进行多媒体数据的跨模态检索。

步骤S1所述的获取历史图像数据与对应的文本数据并进行处理,从而得到数据训练集,具体包括如下步骤:

A.获取历史图像数据和对应的文本数据,同时获取历史图像数据的图像特征矩阵X和文本数据的文本特征矩阵Y,同时获取标签矩阵L和哈希码长度r;

B.将步骤A得到的矩阵X和Y进行去均值化处理,并嵌入非线性空间中从而得到核特征φ(X)和φ(Y);

C.将步骤A得到的标签矩阵L,采用如下算式进行单位化处理,从而得到单位化标签矩阵

式中为单位化标签矩阵中第d行第i列的元素;Ldi为标签矩阵L中第d行第i列的元素;c为标签类标数。

步骤S2所述的初始化参数,具体包括初始化图像线性映射矩阵Px,初始化文本线性映射矩阵Py,初始化中间矩阵变量W,初始化哈希码矩阵B,初始化哈希码辅助矩阵A,以及初始化哈希码矩阵与哈希码辅助矩阵的误差E。

步骤S3所述的更新图像线性映射矩阵,具体为采用如下算式更新图像线性映射矩阵Px

式中B为哈希码矩阵;X为图像特征矩阵;I为单位矩阵;λ权重参数;α为模态之间的平衡参数。

步骤S4所述的更新文本线性映射矩阵,具体为采用如下算式更新文本线性映射矩阵Py

式中B为哈希码矩阵;Y为文本特征矩阵;I为单位矩阵;λ权重参数;α为模态之间的平衡参数。

步骤S5所述的更新中间矩阵变量,具体为采用如下算式更新中间矩阵变量W:

W=(βBBT+μI)-1(βrBSLT+μBLT)(LLT)-1

式中β为权重参数;B为哈希码矩阵;μ为权重参数;I为单位矩阵;r为哈希码长度;S为语义相似度矩阵且 为单位化标签矩阵,1n为由1组成的列向量;L为标签矩阵。

步骤S6所述的更新哈希码矩阵,具体为采用如下算式更新哈希码矩阵B:B=sgn(2αPxX+2(1-α)PyY+2βrWLS+2μWL-βWLLTWTA+ρA-E)式中sgn(AA)为符号函数,且若AA>0则sgn(AA)=1,若AA=0则sgn(AA)=0,若AA<0则sgn(AA)=-1;α为模态之间的平衡参数;Px为图像线性映射矩阵;X为图像特征矩阵;Py为文本线性映射矩阵;Y为文本特征矩阵;β为权重参数;r为哈希码长度;W为中间矩阵变量;L为标签矩阵;S为语义相似度矩阵;μ为权重参数;A为哈希码辅助矩阵;ρ为非负的约束系数;E为哈希码矩阵与哈希码辅助矩阵的误差。

步骤S7所述的更新哈希码辅助矩阵,具体为采用如下算式更新哈希码辅助矩阵A:

A=sgn(-βWLLTWTB+ρB+E)

式中sgn(AA)为符号函数;β为权重参数;W为中间矩阵变量;L为标签矩阵;B为哈希码矩阵;ρ为非负的约束系数;E为哈希码矩阵与哈希码辅助矩阵的误差。

步骤S8所述的更新哈希码矩阵与哈希码辅助矩阵的误差,具体为采用如下算式更新哈希码矩阵与哈希码辅助矩阵的误差E:

E'=E+ρ(B-A)

式中E'为更新后的哈希码矩阵与哈希码辅助矩阵的误差;E为更新前的哈希码矩阵与哈希码辅助矩阵的误差;ρ为非负的约束系数;B为哈希码矩阵;A为哈希码辅助矩阵。

本发明提供的这种用于多媒体数据跨模态检索的离散语义关联哈希方法,非显式地通过类别标签构造数据间成对的相似度矩阵,能够在实现多媒体数据模态间及模态内的相似度保持,并能够取得线性的训练复杂度,能够适用于大规模数据集场景下的跨模态检索;本发明方法同时采用哈希码与类别标签的线性回归简化方法进行建模,并提升了待生成哈希码的判别性;此外,该方法基于增广拉格朗日乘子法提出离散优化策略,降低了哈希码生成过程中的量化损失;所以,本发明犯法拥有线性的时间训练复杂度,且能够取得良好的检索准确率;而且本发明方法的时间复杂度与空间复杂度均更加优秀,可靠性高、实用性好。

附图说明

图1为本发明方法的框架示意图。

图2为本发明方法的方法流程示意图。

具体实施方式

如图1所示为本发明方法的框架示意图:

本发明方法的思路如下:

假定给定用于描述成对的图像与文本数据的特征矩阵分别记为其对应的标签矩阵记为其中n代表数据的总数目,d1与d2分别代表图像与文本特征向量的维度,c表示类别的数目,Lij=1即表示第j个图像与文本数据对属于类别i,反之Lij=0则不属于。本发明方法的主要目标是为给定的训练集对象学习生成哈希码B∈{-1,+1}r×n,其中r为哈希码的长度,以及为样本外数据生成能够与已学习得到的哈希码进行比较的哈希函数,并且确保哈希码间的汉明距离能够与原始特征空间中相应度量距离相近似,即当两个对象较为相似时,对应哈希码间的汉明距离会尽可能小,反之亦然。

基于给定的类别标签,可以使用标签向量间的余弦相似度定义描述数据对象间语义关联的相似度矩阵S。显然,当两个数据对象oi与oj属于相同的类别时则有Sij=1,当两个数据对象属于不同类别时Sij=0。而在多类别场景下,当两个对象之间的共同类别越多时,Sij则尽可能趋向于1,反之Sij则会尽可能趋向于0。对于两个数据对象oi与oj,其语义相似度定义如下式:

正如上述提到的,当两个数据对象oi与oj越相似时,对应哈希码间的汉明距离会尽可能趋向于0,反之则会尽可能趋向于哈希码的长度r。用于描述数据对象间语义关联的相似度与对应哈希码间汉明距离的关系显而易见,但选取汉明距离进行问题的建模将导致优化过程变得十分复杂。因此,在本发明中,DCMH-SC将选择哈希码间的内积来进行问题的建模,哈希码内积与哈希码汉明距离之间的对应关系如下式:

其中,bi与bj分别表示数据对象oi与oj学习得到的哈希码,Hamm(bi,bj)表示哈希码bi与bj之间的汉明距离。显然,哈希码间的汉明距离与内积一一对应。如果两个对象越相似,则其对应哈希码内积则趋向于r,反之则趋向于-r。因此,只需要稍微改变上述相似度矩阵的定义,便能够使其与哈希码内积相对应。对标签矩阵中的向量进行单位化预处理如下式:

从而得到语义相似度矩阵的最终定义如下式:

其中,1n表示由1组成的列向量,且Sij∈[-1,1]。通过使用待学习哈希码的内积重构上述定义的语义相似度矩阵从而实现相似度保持,并选择Frobenius范数用于该过程的损失函数,得到下式

然而,由于哈希码的离散性,直接对上述对称矩阵分解问题进行求解将十分复杂,且存储语义相似度矩阵也将带来级的空间复杂度。为了解决这一问题,本发明方法选择通过矩阵变量的替换从而将其转换为更易求解的非对称矩阵分解问题。基于属于相同类别的数据对象将会生成相同的哈希码这一理念,训练数据的类别标签矩阵L与其对应的哈希码矩阵B必定存在某种联系。本发明方法依旧采用从L到B的线性回归来表示这一关联。通过将上式中的后一个B替换成与之对应的线性关联WL,不仅能够简化后续的优化过程,还能在保存对象成对语义关联的同时进一步确保相同类别的数据对象将学习得到相同的哈希码,使哈希码更具判别性。上述过程能够公式化如下式:

s.t.B∈{-1,1}r×n

其中,μ是权重参数。如后续优化过程所示,上式避免了难以求解的离散对称矩阵分解问题,且相似度矩阵S并不需要显式计算并存储,可以采用预处理后的标签矩阵进行替换,进而将时间与空间复杂度均由削减至能够有效缩减大规模数据集场景下的训练开销。

此外,本发明方法需要为数据的各模态学习得到模态特有的哈希函数,用于为样本外数据生成统一且易于度量的哈希码。本发明方法选择常用的线性映射矩阵作为图像与本发明方法的哈希函数,以降低算法的复杂度。为确保哈希函数所生成的哈希码与训练数据哈希码间的一致性,使训练数据的哈希码与原始数据的映射之间的误差最小化,哈希函数学习可以表示为下式:

s.t.B∈{-1,1}r×n

其中,α是两种模态之间的平衡参数,λ是权重参数,分别表示图像与文本的特有的线性映射矩阵,在检索阶段作为哈希函数的主要组成部分,而R(·)表示正则化项,用于防止过拟合的发生。

通过合并上述两部分于一个统一的框架中,本发明方法的总体目标函数可以表示为下式:

s.t.B∈{-1,1}r×n

本发明方法的目标函数的优化问题对于所有矩阵变量Px、Py、W以及B来说是一个非凸问题,难以直接进行求解。因此,本发明方法选择采用通过固定其中三个矩阵变量,求解剩余单个矩阵变量的方法,从而将优化问题转换成凸问题。因此,可以迭代地求解每一个矩阵变量,最终得到目标函数的局部最优解。具体的优化求解过程如下所示:

(1)更新矩阵变量Px:通过固定矩阵变量Py、W以及B,将总体目标函数重写如下式:

使得上式对Px的偏导数为0,从而得到Px的封闭解如下式:

(2)更新矩阵变量Py:与Px类似,可以得到Py的封闭解如下式:

(3)更新矩阵变量W:通过固定矩阵变量Px、Py以及B,总体目标函数则可重写如下式:

使得上式对W的偏导数为0,从而得到W的封闭解如下式:

W=(βBBT+μI)-1(βrBSLT+μBLT)(LLT)-1

可以注意到,在此步骤中,存在项BSLT中包含矩阵变量S。如果事先计算好S,将会导致的时间与空间复杂度。但是在优化过程中,根据式的定义,可以得到下式:

显然,上式将训练复杂度削减至将更加适用于大规模数据集场景。

(4)更新矩阵变量B:通过固定矩阵变量Px、Py以及W,总体目标函数式可重写如下式:

s.t.B∈{-1,1}r×n

然后再度将上式重写为下式:

s.t.B∈{-1,1}r×n

类似地,可以使用离散循环坐标下降方法对上式迭代地求解哈希码B的每一行,但是在大规模数据集场景下,这仍然会带来一些时间开销。因此,基于增广拉格朗日乘子法,本发明方法引入辅助矩阵变量将上式转换成一个等价但更易于求解的问题。具体来说,通过引入辅助变量A,使得B=A,从而上式可以重写如下式:

s.t.B∈{-1,1}r×n

其中ρ是非负的约束系数,表示哈希码矩阵B与辅助矩阵A之间的误差。通过固定矩阵变量A与E,上式可以重写如下式:

s.t.B∈{-1,1}r×n

显然,可以直接得到B的封闭解如下:

B=sgn(2αPxX+2(1-α)PyY+2βrWLS+2μWL-βWLLTWTA+ρA-E)

可以看到,在没有忽略哈希码离散特性的情况下,B可以单步求解得到,这将进一步提高算法的学习效率与检索准确率。与之类似地,上式中的项WLS可以替换如下式,以确保更优的时间复杂度与空间复杂度:

(5)更新矩阵变量A:通过固定矩阵变量B与E,重写得到:

然后将上式再次重写为:

类似地,可以直接得到A的封闭解如下式:

A=sgn(-βWLLTWTB+ρB+E)

(6)更新矩阵变量E:通过固定矩阵变量B与A,重写得到:

使得上式对E的偏导数为0,从而得到E的封闭解如下:

E=E+ρ(B-A)

通过迭代使用上述公式求解各个矩阵变量,不断减小总体目标函数的值并收敛于局部最优解,最终学习得到训练数据的哈希码及各模态特有的哈希函数。

因此,综上所述,本发明方法的具体实施步骤如下(如图2所示):

S1.获取历史图像数据与对应的文本数据并进行处理,从而得到数据训练集;具体包括如下步骤:

A.获取历史图像数据和对应的文本数据,同时获取历史图像数据的图像特征矩阵X和文本数据的文本特征矩阵Y,同时获取标签矩阵L和哈希码长度r;

B.将步骤A得到的矩阵X和Y进行去均值化处理,并嵌入非线性空间中从而得到核特征φ(X)和φ(Y);

C.将步骤A得到的标签矩阵L,采用如下算式进行单位化处理,从而得到单位化标签矩阵

式中为单位化标签矩阵中第d行第i列的元素;Ldi为标签矩阵L中第d行第i列的元素;c为标签类标数;

S2.初始化参数,并从训练集中获取一组数据;具体包括初始化图像线性映射矩阵Px,初始化文本线性映射矩阵Py,初始化中间矩阵变量W,初始化哈希码矩阵B,初始化哈希码辅助矩阵A,以及初始化哈希码矩阵与哈希码辅助矩阵的误差E;

S3.更新图像线性映射矩阵;具体为采用如下算式更新图像线性映射矩阵Px

式中B为哈希码矩阵;X为图像特征矩阵;I为单位矩阵;λ权重参数;α为模态之间的平衡参数;

S4.更新文本线性映射矩阵;具体为采用如下算式更新文本线性映射矩阵Py

式中B为哈希码矩阵;Y为文本特征矩阵;I为单位矩阵;λ权重参数;α为模态之间的平衡参数;

S5.更新中间矩阵变量;具体为采用如下算式更新中间矩阵变量W:

W=(βBBT+μI)-1(βrBSLT+μBLT)(LLT)-1

式中β为权重参数;B为哈希码矩阵;μ为权重参数;I为单位矩阵;r为哈希码长度;S为语义相似度矩阵且 为单位化标签矩阵,1n为由1组成的列向量;L为标签矩阵;

S6.更新哈希码矩阵;具体为采用如下算式更新哈希码矩阵B:

B=sgn(2αPxX+2(1-α)PyY+2βrWLS+2μWL-βWLLTWTA+ρA-E)

式中sgn(AA)为符号函数,且若AA>0则sgn(AA)=1,若AA=0则sgn(AA)=0,若AA<0则sgn(AA)=-1;α为模态之间的平衡参数;Px为图像线性映射矩阵;X为图像特征矩阵;Py为文本线性映射矩阵;Y为文本特征矩阵;β为权重参数;r为哈希码长度;W为中间矩阵变量;L为标签矩阵;S为语义相似度矩阵;μ为权重参数;A为哈希码辅助矩阵;ρ为非负的约束系数;E为哈希码矩阵与哈希码辅助矩阵的误差;

S7.更新哈希码辅助矩阵;具体为采用如下算式更新哈希码辅助矩阵A:

A=sgn(-βWLLTWTB+ρB+E)

式中sgn(AA)为符号函数;β为权重参数;W为中间矩阵变量;L为标签矩阵;B为哈希码矩阵;ρ为非负的约束系数;E为哈希码矩阵与哈希码辅助矩阵的误差

S8.更新哈希码矩阵与哈希码辅助矩阵的误差;具体为采用如下算式更新哈希码矩阵与哈希码辅助矩阵的误差E:

E'=E+ρ(B-A)

式中E'为更新后的哈希码矩阵与哈希码辅助矩阵的误差;E为更新前的哈希码矩阵与哈希码辅助矩阵的误差;ρ为非负的约束系数;B为哈希码矩阵;A为哈希码辅助矩阵;

S9.从训练集中更换一组数据;

S10.重复步骤S3~S9,直至达到设定的条件,从而得到最终的哈希码矩阵、图像线性映射矩阵和文本线性映射矩阵;

S11.采用步骤S10得到的哈希码矩阵、图像线性映射矩阵和文本线性映射矩阵,进行多媒体数据的跨模态检索。

最后,本发明提出的这种用于多媒体数据跨模态检索的离散语义关联哈希方法,还能够进行非线性扩展、样本外数据扩展和多模态扩展:

非线性扩展:

本发明方法使用线性映射矩阵将数据对象从其原始的特征空间嵌入至共同的汉明空间中。为了使算法更适应于实际场景,可以采用核函数捕获不同模态数据原始特征中的非线性结构,并在优化过程中采用核特征来替换原始特征以取得更准确的检索精度。在实验部分,本发明方法使用径向基函数(RBF)作为核映射以获得图像与文本的核特征。以图像数据为例,对象x待生成维度为p的核特征第i维的取值由下式计算得到:

φi(x)=exp(-||x-ai||2/(2σ2))

式中表示从训练数据中随机选择的p个锚点,σ表示核宽度;|| ||为1-范数;

样本外数据扩展:

本发明方法的主要目标之一是为样本外数据学习模态特有的哈希函数以生成统一的哈希码,从而避免多次训练所带来的时间与空间开销。以图像数据为例,对于一个新的查询对象其对应的哈希码能够直接使用训练得到的映射矩阵Px直接生成。因此,可以得到用于图像的样本外数据扩展的哈希函数如下式:

类似地,用于文本数据的哈希函数如下式:

多模态扩展:

不失一般性,在关于本发明的讨论都仅限于图像与文本两种模态场景来展开,但本发明方法对于三种及以上模态的场景来说同样适用。给定一个由M种模态数据对象组成的训练集本发明方法的总体目标函数可以表示如下式:

s.t.B∈{-1,1}r×n

式中αm用于平衡各模态之间的权重;同样的,本发明的步骤也适用于多模态扩展下目标函数的优化求解。

13页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种信息化资源管理系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!