一种时变数据的特征提取与追踪方法

文档序号:105803 发布日期:2021-10-15 浏览:31次 >En<

阅读说明:本技术 一种时变数据的特征提取与追踪方法 (Time-varying data feature extraction and tracking method ) 是由 马骥 陈金金 于 2021-06-22 设计创作,主要内容包括:一种时变数据的特征提取与追踪方法,首先让用户在时变数据某个时间步的两张切片上选择他们感兴趣的特征,基于此构造出一系列算法来获得可用于提取该特征的一组最佳化GMM准则;其次,利用最佳化GMM准则,从时变数据的每个时间步中提取出与用户选择特征相似的所有特征;再次,对于所提取出的所有时间步中的所有特征,构造一张全局追踪图来记录它们之间的所有追踪信息;最后,利用体绘制算法以动画形式可视化出追踪特征及其所处环境。本发明只需用户提供少量的特征信息(仅两个切片上的特征信息),便可在整个时变数据中追踪该特征;能够从全局角度追踪提取的特征,从而能够避免利用局部追踪方法所产生的追踪错误,提高了特征追踪的精度。(A characteristic extraction and tracking method of time-varying data, let users choose their interesting characteristic on two slices of a certain time step of time-varying data at first, construct a series of algorithms on the basis of this and obtain a series of optimization GMM criterions that can be used for extracting the characteristic; secondly, extracting all features similar to the features selected by the user from each time step of the time-varying data by utilizing an optimized GMM (Gaussian mixture model) criterion; thirdly, constructing a global tracking graph for all the extracted features in all the time steps to record all the tracking information among the features; and finally, visualizing the tracking characteristics and the environment in which the tracking characteristics are located in an animation mode by utilizing a volume rendering algorithm. The invention can track the feature in the whole time-varying data only by providing a small amount of feature information (only feature information on two slices) by the user; the extracted features can be tracked from a global angle, so that tracking errors generated by using a local tracking method can be avoided, and the accuracy of feature tracking is improved.)

一种时变数据的特征提取与追踪方法

技术领域

本专利涉及可视化和可视分析领域,涉及一种利用最佳化高斯混合模型(Gaussian Mixture Model,简称GMM)准则和全局追踪图来对时变数据进行特征提取与追踪的方法。

背景技术

科学模拟常常会产生各种各样的时变数据,这是因为这些科学模拟所研究的自然或者技术现象是与时间相关的。这类模拟的例子有很多,例如天气预报、计算流体力学、燃烧科学、计算宇宙学、气候模式研究等。这些产生的时变数据往往是复杂的、大规模的、包含许多的变量和特征、跨越巨大的空间和时间。这些数据原本对科学家来说是无用的,但只要我们能够发现和揭示它们背后所隐藏的趋势和特征,那么就可以帮助科学家理解和洞察这些复杂的时变现象。这便是时变数据可视化的研究目标。然而,对这些时变数据进行有效地特征提取、特征追踪以及特征可视化并不是一件简单的工作。在过去的二十年中,许多学者都在不断地提出各种各样的方法来尝试解决这一问题。

在最近的一项研究综述中,Bai等人系统地回顾了大量的有关时变数据的可视化技术(参考文献1Z.H.Bai,Y.B.Tao,H.Lin.Time-varying volume visualization:asurvey.Journal of Visualization,23:745-761,2020.即Z.H.Bai,Y.B.Tao,H.Lin.时变体可视化:综述.可视化期刊,23:745-761,2020.),并对各个技术进行了总结和分析。从这篇综述中可以清楚地看出,许多已提出的特征提取和追踪方法要求用户向其模型提供大量的特征数据(例如一个体数据),以便在整个模拟的时间跨度上来搜索、提取和追踪该特征。此外,在追踪特征时,这些方法通常会基于两个连续的时间步来对感兴趣的特征进行局部地追踪。然而这种局部追踪方法有时会导致错误的追踪结果(例如错误地将一个特征追踪成另一个特征),并容易受到噪声影响。

发明内容

针对上述两个问题,本发明提出了一种时变数据的特征提取与追踪方法,只需要用户从时变数据中任选两张切片(而不是一个体)、并在这两张切片上手动标记出自己感兴趣的特征,然后便可自动在所有时间步中提取该特征。此外,我们提出了一种全局追踪方法,该方法能够从全局角度追踪提取的特征,从而能够避免利用局部追踪方法所产生的追踪错误。

本发明的技术方案如下:

一种时变数据的特征提取与追踪方法,所述方法包括如下四个步骤:

1)最佳化GMM准则产生,过程如下:

1.1,对于原始时变数据,应用基于直方图的自动对比度增强方法增强它们的对比度,并利用全局最大值和最小值将它们归一化至[0,1]范围内;

1.2,用户需要观察对比度增强的时变数据,从中选择一个包含他们感兴趣的特征的时间步,并从该时间步任选两张切片且利用鼠标自由地在这些切片上标记出他们感兴趣的特征;

1.3,对于每个被用户标记为特征的体素,找到以它为中心,以11×11为窗口大小的邻域,并利用离线Expectation Maximization(EM)算法来计算出该邻域内数据的GMM,该GMM能够简洁地表示出该体素邻域内的数据分布情况;所有这些标记为特征的体素所产生的高斯混合模型构型了一个集合,称之为候选GMM准则;

1.4,将遗传算法应用于候选GMM准则,以过滤掉那些可能产生假阳的GMM准则,从而保留了一组可以产生真阳的GMM准则,称这组GMM准则为最佳化GMM准则;

进一步,所述1.4的过程如下:

1.4.1,将候选GMM准则编码成一个二进制字符串s,s的每一位对应一个特定的候选GMM准则,如果s的某位为1,则代表该位对应的候选GMM准则被选择为最佳化GMM准则,如为0则代表没有被选择为最佳化GMM准则;

1.4.2,基于该编码,可以产生父种群的一组二进制字符串s,其中s的每一位被随机分配为0或1;对于该父种群中每个二进制字符串s,它都会有一个适应度(fitness),该适应度越高,代表s所对应的GMM准则组合越能很好地预测目标特征;反之,如果适应度越低,则代表s所对应的GMM准则组合不能很好地预测目标特征;假设v代表两张选择切片上的前景体素,ns(v)表示一个体素v可以匹配的二进制字符串s中GMM准则的数量,t代表用户所选择的特征,那么定义如下集合:

其中,TPs表示真阳(true positive)集,在真阳集中,v不仅属于标记特征,还匹配s中的GMM准则;TNs表示真阴(true negtive)集,在真阴集中,v不属于标记特征,也不匹配s中的任何GMM准则;FPs表示假阳(false positive)集,在假阳集中,v不属于标记特征,但它匹配s中的GMM准则;FNs表示假阴(false negtive)集,在假阴集中,v属于标记特征,但它不匹配s中的任何GMM准则,P代表属于标记特征的体素的集合,N代表不是特征的体素的集合;有了上面这些集合,用公式(2)来计算每个字符串s的适应度:

1.4.3,使用Tournament Selection算法来随机选择父种群中拥有高适应度的二进制字符串,并对它们应用交叉和变异以获得子代的一组二进制字符串s,这里,再次使用公式(1)和(2)来计算该子代每个二进制字符串s的适应度;

1.4.4,把子代变为父代,并用它们继续产生下一代;

1.4.5,一直重复1.4.3和1.4.4直到每一代最大的适应度获得收敛,最后,通过解码最后一代中具有最大适应度分数的那个二进制字符串s,获得最佳化GMM准则。

2)全局特征提取,过程如下:

2.1,利用公式(3)和(4)计算出每个前景体素邻域的GMM与最佳化GMM准则的巴氏距离d(v):

其中,w,w′分别代表两个高斯分量权重;μ,μ′代表两个高斯分量的平均值;Σ,Σ′代表两个高斯分量的方差;

2.2,用公式(5)将巴氏距离转换成概率:

其中,exp()表示指数函数,p(v)表示体素v属于特征的概率,p(v)值越大,说明体素v属于特征的概率越大;反之,如果p(v)值越小,说明体素v属于特征的概率越低,D由公式(6)计算:

这里,MD代表匹配度参数,它由用户指定,用来控制一个前景体素v属于特征的严格程度,MD值越大,则拥有较大d(v)的前景体素也可以属于特征;反之,如果MD值越小,则拥有较大d(v)的前景体素不可能属于特征;

2.3,采用阈值法来过滤掉那些概率值p(v)较小的前景体素;至此,对于时变数据的每个时间步,从中提取出了与用户标记相似的特征;

3)全局特征追踪,过程如下:

3.1,将3D连通域分析应用于每个时间步所对应的概率数据p(v)上,从而过滤掉那些连通域较小的特征,即如果某特征连通域<阈值,则将其概率设置为0;同时,在应用3D连通域过程中,我们将每个时间步的所有特征相应地贴上标签;

3.2,对于每两个连续时间步的任意两个特征,如时间步t的某个特征ft和时间步t+1的某个特征ft+1,我们计算它们形心之间的欧氏距离dc

其中,表示特征ft的形心向量,表示特征ft+1的形心向量;

3.3,利用如公式(8)所示的Chi-Squared直方图距离来计算它们直方图之间的相似性dh

其中分别代表直方图hft和hft+1的第i个柱子;此外,使用公式(9)来归一化dh

其中,sft和sft+1表示特征ft和ft+1的体素集合;

3.4,在特征ft和ft+1之间建立一条有向边e(ft,ft+1),并令该边的权重we(ft,ft+1)=dh,该边的权重we(ft,ft+1)表示由特征ft追踪到特征ft+1的可能性,权重越高,则特征ft追踪到特征ft+1的可能性越低;反之,如果权重越低,则特征ft追踪到特征ft+1的可能性越高;至此,建立起一张有向无环图,在该图中,每个节点表示位于某个时间步的一个独立特征,特征间有向边的权重dh表示特征间追踪可能性;由于该图记录了所有时间步中所有特征间追踪的可能性,称之为全局追踪图GTG;为了让GTG更稀疏,我们设立一个条件:如果dc小于一个阈值,则建立这条边,否则不建立,该条件符合一个特征会在两个连续时间步间缓慢移动的假设;

3.5,在GTG上应用Djikstra算法来追踪用户所选择的特征;为此,用户需要在GTG上指出两个节点:一个是特征开始节点,另一个是特征结束节点,基于这两个节点,Djikstra算法便能够自动地以全局的角度来追踪该特征;

4)可视化,过程如下:

利用体绘制以动画的形式可视化追踪的特征及其所处环境。

进一步,所述步骤4)中,在体绘制过程中,为了避免引入新的颜色,使用最近邻域插值。

本发明的有益效果表现在:用户只需要提供很少的特征相关信息(仅两个切片上的特征),便可在时变数据中追踪出他们感兴趣的特征。此外,本发明提出了一种全局追踪方法,该方法能够从全局角度追踪提取的特征,从而能够避免利用局部追踪方法所产生的追踪错误,提高了特征追踪的精度。

附图说明

图1是本发明整体流程图。

图2是3D Flow数据集中根据用户所标记的特征所生成的最佳化GMM准则。

图3是利用本发明的方法对3D Flow数据集中用户标记的特征进行追踪和可视化的结果(其中黑框箭头所指的黑色物体为提取和追踪的特征)。

具体实施方式

下面结合附图对本发明做进一步说明。

参照图1,一种时变数据的特征提取与追踪方法,该方法可分为四步:最佳化GMM准则产生、全局特征提取、全局特征追踪以及可视化;下面,我们对这四步分别进行详细介绍。

1)最佳化GMM准则产生,过程如下:

1.1,对于原始时变数据,应用基于直方图的自动对比度增强方法增强它们的对比度,并利用全局最大值和最小值将它们归一化至[0,1]范围内;

1.2,用户需要观察对比度增强的时变数据,从中选择一个包含他们感兴趣的特征的时间步,并从该时间步任选两张切片且利用鼠标自由地在这些切片上标记出他们感兴趣的特征。

1.3,对于每个被用户标记为特征的体素,找到以它为中心,以11×11为窗口大小的邻域,并利用离线Expectation Maximization(EM)算法来计算出该邻域内数据的GMM,该GMM能够简洁地表示出该体素邻域内的数据分布情况。所有这些标记为特征的体素所产生的高斯混合模型构型了一个集合,称之为候选GMM准则;

1.4,将遗传算法应用于候选GMM准则,以过滤掉那些可能产生假阳的GMM准则,从而保留了一组可以产生真阳的GMM准则,称这组GMM准则为最佳化GMM准则;图2展示根据用户标记的特征所生成的最佳化GMM准则。

进一步,所述1.4的过程如下:

1.4.1,将候选GMM准则编码成一个二进制字符串s,s的每一位对应一个特定的候选GMM准则,如果s的某位为1,则代表该位对应的候选GMM准则被选择为最佳化GMM准则,如为0则代表没有被选择为最佳化GMM准则;

1.4.2,基于该编码,可以产生父种群的一组二进制字符串s,其中s的每一位被随机分配为0或1;对于该父种群中每个二进制字符串s,它都会有一个适应度(fitness),该适应度越高,代表s所对应的GMM准则组合越能很好地预测目标特征;反之,如果适应度越低,则代表s所对应的GMM准则组合不能很好地预测目标特征;假设v代表两张选择切片上的前景体素,ns(v)表示一个体素v可以匹配的二进制字符串s中GMM准则的数量,t代表用户所选择的特征,那么定义如下集合:

TPs={v:ns(v)=1&label(v)=t}

其中,TPs表示true positive(真阳)集,在真阳集中,v不仅属于标注特征,还匹配s中的GMM准则;TNs表示true negtive(真阴性)集,在真阴集中,v不属于标注特征,也不匹配s中的任何GMM准则;FPs表示false positive(假阳)集,在假阳集中,v不属于标注特征,但它匹配s中的GMM准则;FNs表示false negtive(假阴性)集,在假阴集中,v属于标注特征,但它不匹配s中的任何GMM准则,P代表属于标注特征的体素的集合,N代表不是特征的体素的集合;有了上面这些集合,用公式(2)来计算每个字符串s的适应度:

1.4.3,使用Tournament Selection算法来随机选择父种群中拥有高适应度的二进制字符串,并对它们应用交叉和变异以获得子代的一组二进制字符串s,这里,再次使用公式(1)和(2)来计算该子代每个二进制字符串s的适应度;

1.4.4,把子代变为父代,并用它们继续产生下一代;

1.4.5,一直重复1.4.3和1.4.4直到每一代最大的适应度获得收敛,最后,通过解码最后一代中具有最大适应度分数的那个二进制字符串s,获得最佳化GMM准则。

2)全局特征提取,过程如下:

2.1,利用公式(3)和(4)计算出每个前景体素邻域的GMM与最佳化GMM准则的巴氏距离d(v):

其中,w,w′分别代表两个高斯分量权重;μ,μ′代表两个高斯分量的平均值;Σ,Σ′代表两个高斯分量的方差;

2.2,用公式(5)将巴氏距离转换成概率:

其中,exp()表示指数函数,p(v)表示体素v属于特征的概率,p(v)值越大,说明体素v属于特征的概率越大;反之,如果p(v)值越小,说明体素v属于特征的概率越低,D由公式(6)计算:

这里,MD代表匹配度参数,它由用户指定,用来控制一个前景体素v属于特征的严格程度,MD值越大,则拥有较大d(v)的前景体素也可以属于特征;反之,如果MD值越小,则拥有较大d(v)的前景体素不可能属于特征;

2.3,采用阈值法来过滤掉那些概率值p(v)较小的前景体素;至此,对于时变数据的每个时间步,从中提取出了与用户标记相似的特征;

3)全局特征追踪,过程如下:

3.1,将3D连通域分析应用于每个时间步所对应的概率数据p(v)上,从而过滤掉那些连通域较小的特征,即如果某特征连通域<阈值,则将其概率设置为0;同时,在应用3D连通域过程中,我们将每个时间步的所有特征相应地贴上标签;

3.2,对于每两个连续时间步的任意两个特征,如时间步t的某个特征ft和时间步t+1的某个特征ft+1,我们计算它们形心之间的欧氏距离dc

其中,表示特征ft的形心向量,表示特征ft+1的形心向量;

3.3,利用如公式(8)所示的Chi-Squared直方图距离来计算它们直方图之间的相似性dh

其中分别代表直方图hft和hft+1的第i个柱子;此外,使用公式(9)来归一化dh

其中,sft和sft+1表示特征ft和ft+1的体素集合;

3.4,在特征ft和ft+1之间建立一条有向边e(ft,ft+1),并令该边的权重we(ft,ft+1)=dh,该边的权重we(ft,ft+1)表示由特征ft追踪到特征ft+1的可能性,权重越高,则特征ft追踪到特征ft+1的可能性越低;反之,如果权重越低,则特征ft追踪到特征ft+1的可能性越高;至此,建立起一张有向无环图,在该图中,每个节点表示位于某个时间步的一个独立特征,特征间有向边的权重dh表示特征间追踪可能性;由于该图记录了所有时间步中所有特征间追踪的可能性,称之为全局追踪图GTG;为了让GTG更稀疏,我们设立一个条件:如果dc小于一个阈值,则建立这条边,否则不建立,该条件符合一个特征会在两个连续时间步间缓慢移动的假设;

3.5,在GTG上应用Djikstra算法来追踪用户所选择的特征;为此,用户需要在GTG上指出两个节点:一个是特征开始节点,另一个是特征结束节点;基于这两个节点,Djikstra算法便能够自动地以全局的角度来追踪该特征;

4)可视化,过程如下:

利用体绘制以动画的形式可视化追踪的特征及其所处环境;图3展示利用本发明方法追踪3D Flow数据集中一个特征的追踪结果(黑框箭头所指黑色对象为该追踪特征),从该图中可以清楚地看到该特征从出现到消失的整个演变过程。

进一步,所述步骤4)中,在体绘制过程中,为了避免引入新的颜色,使用最近邻域插值。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:显著性检测方法及其模型的训练方法和装置、设备、介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!