基于图像处理的特征峰识别方法及计算设备、存储介质

文档序号:1829919 发布日期:2021-11-12 浏览:8次 >En<

阅读说明:本技术 基于图像处理的特征峰识别方法及计算设备、存储介质 (Characteristic peak identification method based on image processing, computing equipment and storage medium ) 是由 胡芸 赵杨 惠非琼 张丽 阮艺斌 于 2021-08-11 设计创作,主要内容包括:本发明公开了一种基于图像处理的特征峰识别方法,包括:在气相离子迁移谱图中选取第一图谱;将第一图谱转为二值图像;确定二值图像中所有目标区域的边缘点集,根据边缘点集在第一图谱中获取各目标区域的特征数据,特征数据包括离子强度、色谱保留时间、离子迁移时间;针对每一个目标区域,根据特征数据构建第一特征曲线和第二特征曲线,判断第一特征曲线和第二特征曲线的波峰数量,若第一特征曲线和第二特征曲线的波峰数量均为一个,则获取该目标区域内的最大离子强度及其相应的色谱保留时间和离子迁移时间作为该目标区域的特征峰信息。该方法能够准确、简便地从气相离子迁移谱图中提取出特征峰信息。本发明还公开了一种计算设备和存储介质。(The invention discloses a characteristic peak identification method based on image processing, which comprises the following steps: selecting a first map from gas phase ion mobility maps; converting the first map into a binary image; determining edge point sets of all target areas in the binary image, and acquiring characteristic data of each target area in the first map according to the edge point sets, wherein the characteristic data comprises ion intensity, chromatographic retention time and ion migration time; and aiming at each target region, constructing a first characteristic curve and a second characteristic curve according to the characteristic data, judging the number of wave crests of the first characteristic curve and the second characteristic curve, and if the number of the wave crests of the first characteristic curve and the second characteristic curve is one, acquiring the maximum ion intensity in the target region and the corresponding chromatographic retention time and ion migration time of the maximum ion intensity as the characteristic peak information of the target region. The method can accurately and simply extract the characteristic peak information from the gas phase ion mobility spectrogram. The invention also discloses a computing device and a storage medium.)

基于图像处理的特征峰识别方法及计算设备、存储介质

技术领域

本发明涉及气相色谱离子迁移谱技术应用领域,特别涉及一种基于图像处理的特征峰识别方法及计算设备、存储介质。

背景技术

气相色谱-离子迁移谱(Gas Chromatography-Ion Mobility Spectrometer,GC-IMS)技术结合了强分辨力的气相色谱技术和高灵敏度的离子迁移谱技术,因此GC-IMS技术极大增强了气相色谱的检测灵敏度,同时提高离子迁移谱的分辨率和线性响应范围,在食品、军事、化工很环境监测等方面得到了广泛的应用。GC-IMS联用仪器产生的图谱数据含有丰富的物质信息,包括物质的气相色谱保留时间、离子迁移时间以及离子强度等信息量。

目前,GC-IMS图谱的分析主要通过仪器自带的软件,并依据人眼对不同样品对应图谱的差异,采用人工方式选取特征峰,并以标记特征峰的信息(如色谱保留时间,离子迁移时间,峰强度等)作为表征变量,然后进行定性或定量分析。然而这种通过人工识别特征峰的方式一定程度上依赖于操作人员,因此难免会造成特征峰识别的效率和准确性较差。

发明内容

本发明的主要目的在于解决现有技术中人工识别特征峰准确性和效率性较差的问题。

为实现上述目的,本发明的实施例提供了一种基于图像处理的特征峰识别方法,能够在一定程度上避免主观因素的带来的误差,实现特征峰的准确、快速识别。具体地,该方法用于从气相离子迁移谱图中提取特征峰,包括:

在气相离子迁移谱图中选取表征样品挥发性物质的第一图谱;

将第一图谱转化为二值图像;

确定二值图像中的所有目标区域的边缘点集,根据边缘点集在第一图谱中获取各目标区域的特征数据,每一个目标区域的特征数据均包括该目标区域内各点的离子强度、色谱保留时间以及离子迁移时间;

针对每一个目标区域,根据该目标区域内的特征数据构建第一特征曲线和第二特征曲线,分别判断第一特征曲线的波峰数量和第二特征曲线的波峰数量,若第一特征曲线的波峰数量和第二特征曲线的波峰数量均为一个,则获取该目标区域内的最大离子强度及其相应的色谱保留时间和离子迁移时间作为该目标区域的特征峰信息;

其中,第一特征曲线为第一离子强度随色谱保留时间的变化曲线,第二特征曲线为第二离子强度随离子迁移时间的变化曲线。

采用本方案,可以在一定程度上简化数据分析的工作量,为利用GC-IMS谱图辨识物质种类以及物质稳定性提供了便利。并且该方法首先对待检测物质的气相色谱进行分离,然后再获得离子迁移谱,最大程度地表达样品的指纹特征,确保样品数据的全面性、真实性及溯源性。

作为本发明的一个

具体实施方式

,针对每一个目标区域,在分别判断第一特征曲线的波峰数量和第二特征曲线的波峰数量时,

若第一特征曲线的波峰数量为多个而第二特征曲线的波峰数量为一个或第一特征曲线的波峰数量为一个而第二特征曲线的波峰数量为多个,则进一步获取第一特征曲线和第二特征曲线中的波峰数量为多个的特征曲线的波谷;

根据波峰数量为多个的特征曲线上的波峰和波谷,将特征曲线分割成多个子曲线段,并获取各子曲线段的初始位置和终止位置;其中,子曲线段的数量与特征曲线上的波峰数量相等,且每一个子曲线段有且仅有一个波峰;

根据各子曲线段的初始位置和终止位置将目标区域分割为多个子区域;

针对每一个子区域,获取该子区域内的最大离子强度及最大离子强度相应的色谱保留时间和离子迁移时间;

各子区域对应的最大离子强度及其相应的色谱保留时间和离子迁移时间即为目标区域的各特征峰信息。

作为本发明的一个具体实施方式,根据该目标区域内的特征数据构建第一特征曲线和第二特征曲线包括:

将该目标区域内处于相同色谱保留时间的各点的离子强度进行求和,获得各色谱保留时间对应的第一离子强度,根据各第一离子强度构建第一特征曲线;

将该目标区域内处于相同离子迁移时间的各点的离子强度进行求和,获得各离子迁移时间对应的第二离子强度,根据各第二离子强度构建第二特征曲线。

作为本发明的一个具体实施方式,针对每一个目标区域,当分别判断第一特征曲线的波峰数量和第二特征曲线的波峰数量时,

若第一特征曲线的波峰数量和第二特征曲线的波峰数量均为多个,则分别获取第一特征曲线的波谷和第二特征曲线的波谷;

根据第一特征曲线的波峰和波谷,将第一特征曲线分割成多个第一子曲线段,并获取各第一子曲线段的初始位置和终止位置;其中,第一子曲线段的数量与第一特征曲线上的波峰数量相等,且每一个第一子曲线段有且仅有一个波峰;

根据第二特征曲线的波峰和波谷,将第二特征曲线分割成多个第二子曲线段,并获取各第二子曲线段的初始位置和终止位置;其中,第二子曲线段的数量与第二特征曲线上的波峰数量相等,且每一个第二子曲线段有且仅有一个波峰;

根据各第一子曲线段的初始位置和终止位置以及各第二子曲线段的初始位置和终止位置,将目标区域分割为多个子区域,并获取各子区域的特征数据;

针对每一个子区域,根据子区域的特征数据建立子区域第一特征曲线和子区域第二特征曲线;

分别判断子区域第一特征曲线和子区域第二特征曲线的波峰数量,根据子区域第一特征曲线的波峰数量和子区域第二特征曲线的波峰数量获取子区域内的特征峰信息;其中,目标区域的特征峰信息包括各子区域的特征峰信息。

作为本发明的一个具体实施方式,分别判断第一特征曲线的波峰数量和第二特征曲线的波峰数量包括:

对第一特征曲线关于色谱保留时间分别求一阶导和二阶导,获得第一一阶导数和第一二阶导数;

对第二特征曲线关于离子迁移时间分别求一阶导和二阶导,获得第二一阶导数和第二二阶导数;

根据第一一阶导数和第一二阶导数确定第一特征曲线的波峰数量;

根据第二一阶导数和第二二阶导数确定第二特征曲线的波峰数量。

作为本发明的一个具体实施方式,

根据第一一阶导数和第一二阶导数确定第一特征曲线的波峰数量包括:

计算第一一阶导数的零点;

计算并判断第一二阶导数在第一一阶导数的零点处的数值;

若第一二阶导数在第一一阶导数的零点处的数值小于0,则零点对应于第一特征曲线上的点为第一特征曲线的波峰;

根据第二一阶导数和第二二阶导数确定第二特征曲线的波峰数量包括:

计算第二一阶导数的零点;

计算并判断第二二阶导数在第二一阶导数的零点处的数值;

若第二二阶导数在第二一阶导数的零点处的数值小于0,则零点对应于第二特征曲线上的点为第二特征曲线的波峰。

作为本发明的一个具体实施方式,利用阈值变换法将第一图谱转化为二值图像。

作为本发明的一个具体实施方式,利用Canny算子提取二值图像中每一个目标区域的边缘点集。

相应地,本发明还提供了一种计算设备,包括:

处理器,适于实现各种指令;

存储器,适于存储多条指令,指令适于由处理器加载并执行上述基于图像处理的特征峰识别方法。

相应地,本发明还提供了一种存储介质,该存储介质存储有多条指令,指令适于由处理器加载并执行上述基于图像处理的特征峰识别方法。

附图说明

图1是本发明提供的特征峰识别方法的流程图;

图2是本发明提供的样品的二维灰度气相色谱-离子迁移谱图;

图3是本发明提供的样品的第一图谱的二值化图;

图4是本发明提供的基于Canny边缘检测得到的目标区域汇总图;

图5是本发明提供的色谱保留时间方向的目标区域为双峰的示意图;

图6是本发明提供的迁移谱时间方向的目标区域为双峰的示意图;

图7是本发明提供的利用特征峰识别方法最终检测得到的目标区域汇总图;

图8是本发明提供的利用特征峰识别方法最终获得的特征峰强度汇总图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其他优点及功效。虽然本发明的描述将结合较佳实施例一起介绍,但这并不代表此发明的特征仅限于该实施方式。恰恰相反,结合实施方式作发明介绍的目的是为了覆盖基于本发明的权利要求而有可能延伸出的其它选择或改造。为了提供对本发明的深度了解,以下描述中将包含许多具体的细节。本发明也可以不使用这些细节实施。此外,为了避免混乱或模糊本发明的重点,有些具体细节将在描述中被省略。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。

应注意的是,在本说明书中,相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步地详细描述。

如图1所示,本发明提供了一种特征峰识别方法,可以用于从气相离子迁移谱图中提取特征峰,具体地,该方法包括如下步骤:

步骤S1:在气相离子迁移谱图中选取表征样品挥发性物质的第一图谱。

具体地,第一图谱中的信息可以以矩阵形式出现。在具体实施时,可以利用气相色谱-离子迁移谱仪器(比如德国GAS仪器公司的型号为的顶空-气相色谱-离子迁移谱仪器)获取得到待检测物质(诸如料液、卷烟、植物油等等)的气相离子迁移谱图,然后利用软件导出气相离子迁移谱图的数据矩阵(也可称之为气相色谱-离子迁移谱数据矩阵)。需要说明的是,由气相离子迁移谱图获得的数据矩阵包括了离子迁移时间、色谱保留时间和离子强度等信息,为后续分析提供了更加丰富的化学信息。可选地,该数据矩阵可以为CSV格式。具体地,该数据矩阵的行方向表征了在某个色谱时间的迁移谱信息,该矩阵的列方向表示了在某个迁移时间点的色谱信息,或者也可以理解为该数据矩阵中的每个数据元素表征的是在某个色谱时间点和某一迁移时间点的离子强度,其中,同一行的数据表征的是在同一色谱保留时间但不同离子迁移时间的各离子强度,同一列的数据表征的是在同一离子迁移时间但不同色谱保留时间的各离子强度。具体地,数据矩阵的表现形式可以为:

其中,X代表气相离子迁移谱的数据矩阵,Rti代表第i个色谱保留时间点,Dtj代表第j个离子迁移时间点,矩阵中的第一行代表各离子迁移时间,矩阵中的第一列代表各色谱保留时间,xij代表该矩阵中位于第i行第j列的数据元素,该数据元素表征了在某一特定色谱保留时间和某一特定离子迁移时间的离子强度。其中,第一行至第m行是按照色谱保留时间排列的,第一列至第n列是按照离子迁移时间排列的。

具体地,用气相离子迁移谱方法获得的GC-IMS图谱可以提供待检测物质(例如烟用料液)的挥发性成分的化学信息,其中包含色谱保留时间、离子迁移时间和离子强度等信息,如图2所示。GC-IMS早期离子迁移时间1.0ms处的第一条竖线是水反应离子峰(即RIP峰)。当挥发性化合物存在于IMS的电离区域时,水的反应离子峰的强度就会降低或消失。其中特征峰的位置即特征峰所处的离子迁移时间和色谱保留时间。由图2可以看出,该牌号的料液的挥发性成分较多。一般来说,料液的挥发性成分较少,由于该方法首先是待检测物质的气相色谱分离,然后再获得离子迁移谱,通过GC-IMS对料液挥发性成分进行无损分析,最大程度地表达样品的指纹特征,确保样品数据的全面性、真实性及溯源性。另外,由于GC-IMS图谱还包含其他信息,为了简化特征峰的获取步骤,在此本发明只选取GC-IMS图谱中能够表征挥发性物质的第一图谱,可选地,可以选用离子迁移时间为1.06ms~2.00ms,色谱保留时间为0~200s所对应的区域的图谱作为第一图谱。

在具体实施时,可以在上述提到的气相色谱-离子迁移谱数据矩阵中选取与第一图谱相关的特征数据矩阵,特征数据矩阵中的各个数据元素为离子迁移时间为1.06ms~2.00ms,色谱保留时间为0~200s这一范围内所对应的离子强度。即从气相色谱-离子迁移谱数据矩阵中提取出离子迁移时间介于1.06ms~2.00ms且色谱保留时间介于0~200s之间的各个离子强度,构建新的特征数据矩阵。同样的,特征数据矩阵中位于同一行的数据表征在同一色谱保留时间但不同离子迁移时间的各离子强度,特征数据矩阵中位于同一列的数据表征在同一离子迁移时间但不同色谱保留时间的各离子强度。具体地,该特征数据矩阵的形式可以为

其中,Y代表特征数据矩阵,Rti代表第i个色谱保留时间点,Dtj代表第j个离子迁移时间点,矩阵中的第一行代表各离子迁移时间,矩阵中的第一列代表各色谱保留时间,yij代表处于第i行第j列的数据元素,同样的,第一行至第a行是按照色谱保留时间排列的,第一列至第b列是按照离子迁移时间排列的,且a小于或等于m,b小于或等于n。

具体地,可以利用顶空-气相色谱-离子迁移谱技术获取气相离子迁移谱图,顶空-气相色谱-离子迁移谱条件包括:

顶空进样条件设定为:孵化温度50℃、孵化时间5min、进样体积500μl、进样针温度80℃;

气相色谱-离子迁移谱仪器条件设定为:色谱柱为多毛细管分离柱,固定相OV-5、色谱柱温40℃、迁移管温度45℃、进样口温度80℃、进样器-色谱柱管路温度65℃、载气为高纯氮气;

载气流速采用程序升速模式,其中,0~1min载气速度为2ml/min,1~3min载气速度由2ml/min逐渐上升到50ml/min,3~5min载气速度由50ml/min逐渐上升到150ml/min,5~20min载气速度维持在150ml/min;迁移谱迁移气体流量150ml/min。

在该条件下,料液的挥发性物质成分分离度好,检测到的挥发性成分多,能快速采集到料液中的挥发性成分。

步骤S2:将第一图谱转化为二值图像。

因为在第一图谱中直接确定各目标区域的特征数据,会导致人工识别工作量太大,申请人通过将第一图谱转换为二值图像,基于二值图像的特点提取出目标区域的边缘,简化了后续特征峰识别的工作量。

具体地,可以使用阈值变换法将第一图谱转化为二值图像,如图3所示。具体地,阈值可以设置为0.4118,这样可以得到更清晰的二值图像,便于后续特征边缘点的提取。

步骤S3:确定二值图像中的所有目标区域的边缘点集,根据边缘点集在第一图谱中获取各目标区域的特征数据,每一个目标区域的特征数据均包括该目标区域内各点的离子强度、色谱保留时间以及离子迁移时间。

由于虽然第一图谱能够表征挥发性物质信息,但是第一图谱中仍包含其它一些无关信息,为进一步简化特征峰识别的计算量,申请人巧妙地想到将第一图谱中的包含特征峰的所有目标区域的信息提取出,以使计算量得以大幅度降低。具体地,可以利用图像阈值变换的方法将第一图谱转化为二值图像,此时目标区域和其他无关区域可以明显地在二值图像中区别开来,这就为提取二值图像中每一个目标区域的边缘点提供了便利,此时可以利用Canny算子提取二值图像中每一个目标区域的边缘点集,再根据每一个目标区域的各边缘点在第一图谱中确定该目标区域的特征数据。即通过利用Canny算子完成图像边缘点集的提取,确定图像中的前景图像的图像边界,然后通过特征边缘的边界位置,找到每个目标区域的相关信息,如图4所示。此方法极大简便了识别计算量。

如上所说,第一图谱中的信息可以以矩阵形式出现,即该矩阵中包含了与各色谱保留时间和各离子迁移时间下的离子强度,各个目标区域的特征数据的获取简单来说,可以如下理解:

针对每一个目标区域而言,提取该目标区域的各个边缘点,即是找出该目标区域所对应的色谱保留时间和离子迁移时间的区间,然后在第一图谱对应的数据矩阵中找出上述区间内的数据,即该目标区域的特征数据也是以矩阵形式出现的,其是在第一图谱所对应的数据矩阵中的一个子数据矩阵。该子数据矩阵中位于同一行的数据代表在同一色谱保留时间但不同离子迁移时间的各离子强度,其位于同一列的数据表征在同一离子迁移时间但不同色谱保留时间的各离子强度。进一步地,由于边缘点集可能并不是规则矩形,因此直接根据边缘点集中的各个点可能无法有效地从第一图谱的数据矩阵中截取出目标区域对应的特征数据,在获取特征数据的过程中,还需要进一步获取边缘点集中的色谱保留时间的起始点和终止点以及离子迁移时间的起始点和终止点,然后再从第一图谱的数据矩阵中截取位于色谱保留时间的起始点和终止点以及离子迁移时间的起始点和终止点内的子矩阵,此子矩阵中的数据即构成了目标区域的特征数据。

具体地,边缘点集中的色谱保留时间的起始点和终止点分别对于该边缘点集中色谱保留时间的最小值和最大值,边缘点集中的离子迁移时间的起始点和终止点分别对于该边缘点集中的离子迁移时间的最小值和最大值。

另外,还可以利用求矩阵中最大值方法获得各目标区域对应的子数据矩阵中的离子强度最大值及该最大离子强度所对应的色谱保留时间和离子迁移时间。

进一步地,虽然根据上述图像处理的方法,可以确定各个目标区域内的最大离子强度以及相对应的色谱保留时间和离子迁移时间,但是申请人发现,由于可能会存在特征峰重合的情况,因此不能完全确定目标区域内的最大离子强度及对应的色谱保留时间即为特征峰信息,当出现特征峰重合(即目标区域内存在不止一个特征峰)时,目标区域内的最大离子强度以及相对应的色谱保留时间和离子迁移时间与特征峰的信息会存在偏差。因此,需要判断目标区域内的特征峰是否存在重合情况,即判断目标区域内的特征峰数量是否只为一个,只有当目标区域内的特征峰数量为1个时,此时目标区域内的最大离子强度以及相对应的色谱保留时间和离子迁移时间才是该目标区域内的特征峰信息。基于上述考虑,提出如下步骤:

步骤S4:针对每一个目标区域,根据该目标区域内的特征数据构建第一特征曲线和第二特征曲线,分别判断第一特征曲线的波峰数量和第二特征曲线的波峰数量,若第一特征曲线的波峰数量和第二特征曲线的波峰数量均为一个,则获取该目标区域内的最大离子强度及其相应的色谱保留时间和离子迁移时间作为该目标区域的特征峰信息;其中,第一特征曲线为第一离子强度随色谱保留时间的变化曲线,第二特征曲线为第二离子强度随离子迁移时间的变化曲线。

即特征峰的信息包括特征峰的峰强度、色谱保留时间和离子迁移时间。当目标区域内,第一特征曲线的波峰数量和第二特征曲线的波峰数量均为一个时,该目标区域的特征峰的峰强度即是该目标区域内的最大离子强度,特征峰的色谱保留时间和离子迁移时间即是该最大离子强度所对应的色谱保留时间和离子迁移时间。

相对于直接在GC-IMS图谱中识别特征峰,本方案结合图像处理技术分析特征峰的具体情况,准确性较高,且在一定程度上简化了特征峰识别的工作量,为利用GC-IMS谱图辨识物质种类以及物质稳定性提供了便利。并且该方法首先对待检测物质的气相色谱进行分离,然后再获得离子迁移谱,通过顶空-气相色谱-离子迁移谱对料液挥发性成分进行无损分析,最大程度地表达样品的指纹特征,确保样品数据的全面性、真实性及溯源性。具体地,本方案首先基于图像处理技术确定出GC-IMS图谱的第一图谱中的各个目标区域,并获取各目标区域的特征数据,即将GC-IMS图谱简化为若干个目标区域图谱,各目标区域的特征数据相对于GC-IMS图谱的庞大数据,数据量显著减小,因此一定程度上简化了工作量,而后本方案还针对每一个目标区域,分别获取各目标区域内的特征峰信息,过程简便,进一步降低出错率;另外,本方案还进一步判断该目标区域内是否只有一个特征峰,当只有一个特征峰时,才确定目标区域内的特征峰信息,避免因特征峰重合带来的识别误差,增强了特征峰识别的准确性。

可选地,针对每一个目标区域,

在分别判断第一特征曲线的波峰数量和第二特征曲线的波峰数量时,若第一特征曲线的波峰数量为多个而第二特征曲线的波峰数量为一个或所述第一特征曲线的波峰数量为一个而或第二特征曲线的波峰数量为多个时,则进一步获取第一特征曲线和第二特征曲线中的波峰数量为多个的特征曲线的波谷;具体地,相邻波峰之间的区域内的最小值所对应位置即为波谷所在位置。

根据波峰数量为多个的特征曲线上的波峰和波谷,将特征曲线分割成多个子曲线段,并获取各子曲线段的初始位置和终止位置;其中,子曲线段的数量与特征曲线上的波峰数量相等,且每一个子曲线段有且仅有一个波峰;

根据各子曲线段的初始位置和终止位置将目标区域分割为多个子区域;

针对每一个子区域,获取该子区域内的最大离子强度及该最大离子强度相应的色谱保留时间和离子迁移时间;

各子区域对应的最大离子强度及其相应的色谱保留时间和离子迁移时间即为目标区域的各特征峰信息。

具体地,当第一特征曲线的波峰数量为多个而第二特征曲线的波峰数量为一个或所述第一特征曲线的波峰数量为一个而或第二特征曲线的波峰数量为多个时,换句话说,也就是,当第一特征曲线和第二特征曲线中仅有一个特征曲线的波峰数量为多个时,每一个目标区域内的特征峰的数量等于该目标区域的第一特征曲线的波峰数量和第二特征曲线的波峰数量中的最大值。

例如,对于任一个目标区域,若该目标区域的第一特征曲线的波峰数量为1,第二特征曲线的波峰数量为2,那么该目标区域内的特征峰数量为2;若第一特征曲线的波峰数量为3,第二特征曲线的波峰数量为1,那么该目标区域内的特征峰数量为3。

具体地,以其中一个目标区域为例,假使该目标区域内的第一特征曲线上的波峰数量为多个,而第二特征曲线上的波峰数量为1个,当第一特征曲线是双峰或三峰以上时,则需要计算得到两个或三个以上峰的波峰。具体为,在相邻的波峰区域找到最小值所对应的波谷位置。利用波谷位置,把双峰或三峰分开得到单峰,并获取各个单峰的起始位置和终止位置,因为在该例中分割的是第一特征曲线,那么此时各个单峰的初始位置和终止位置具体对应色谱保留时间的两个数值,为描述简便,将这两个色谱保留时间点定义为第一色谱保留时间值和第二色谱保留时间值,然后在该目标区域对应的数据矩阵中确定色谱保留时间位于第一色谱保留时间值和第二色谱保留时间值之间的子矩阵(即将目标区域分割为多个子区域)。然后在该子区域对应的矩阵数据中,查找离子强度最大值以及该离子强度最大值对应的色谱保留时间和离子迁移时间,即为该子区域对应的特征峰信息,其他各子区域的特征峰信息确定方法相同。各个子区域的特征峰汇总起来即是该目标区域内的特征峰信息。通过以上方法,即可获取该目标区域内的所有特征峰的信息,运算简便。

上述方案通过分析目标区域内的各个特征峰是否在色谱保留方向和离子迁移方向重合,然后将色谱保留方向和离子迁移方向的重叠峰分隔开,以更加准确的判定目标区域内的特征峰情况,获取特征峰信息,从而为定性或定量地分析待检测物质提供了准确的特征峰信息数据。

可选地,根据该目标区域内的特征数据构建第一特征曲线和第二特征曲线包括:

将该目标区域内处于相同色谱保留时间的各点的离子强度进行求和,获得各色谱保留时间对应的第一离子强度,根据各第一离子强度构建第一特征曲线;

将该目标区域内处于相同离子迁移时间的各点的离子强度进行求和,获得各离子迁移时间对应的第二离子强度,根据各第二离子强度构建第二特征曲线。

具体地,以目标区域的特征数据为矩阵数据的形式为例,其位于同一行的数据代表在同一色谱保留时间但不同离子迁移时间的各离子强度,其位于同一列的数据表征在同一离子迁移时间但不同色谱保留时间的各离子强度。具体地,在获取第一特征曲线时,可以对目标区域对应的数据矩阵中的每一行中的各个数据进行累加求和,获得各色谱保留时间相对应的第一离子强度,再根据各个色谱保留时间和其对应的第一离子强度绘制第一特征曲线;在获取第二特征曲线时,可以对特征数据矩阵的每一列中的各个数据进行累加求和,获得各离子迁移时间相对应的第二离子强度;在根据各离子迁移时间和其相对应的第二离子强度绘制第二特征曲线。

具体地,由于噪声的影响,累加求和得到的各个色谱保留时间对应的第一离子强度和累加求和得到的各个离子迁移时间对应的第二离子强度会存在误差项,可以利用均值滤波或Savitzky-Golay滤波对其进行处理,以平滑第一特征曲线和第二特征曲线。

可选地,分别判断第一特征曲线的波峰数量和第二特征曲线的波峰数量可以具体包括以下步骤:

对第一特征曲线关于色谱保留时间求一阶导,获得第一一阶导数;

对第二特征曲线关于离子迁移时间求一阶导,获得第二一阶导数;

分别计算第一一阶导数和第二一阶导数的零点;

根据第一一阶导数的零点确定第一特征曲线的波峰数量,根据第二一阶导数的零点确定第二特征曲线的波峰数量。

即求取第一特征曲线和第二特征曲线上的波峰数量的方法可以如下理解:

对于第一特征曲线而言,使第一特征曲线上的各色谱保留时间点对应的特征强度关于色谱保留时间进行一次求导,获得第一一阶导数,模拟出该第一一阶导数在该特征曲线对应的色谱保留时间范围内的函数曲线,在该函数曲线上查找波峰情况,以判断第一特征曲线的波峰数量。

对于第二特征曲线而言,使第二特征曲线上的各离子迁移时间点对应的特征强度关于离子迁移时间进行一次求导,获得第二一阶导数,模拟出该第二一阶导数在该第二特征曲线对应的离子迁移时间范围内的函数曲线,在该函数曲线上查找波峰情况,以判断第二特征曲线的波峰数量。

可选地,分别判断第一特征曲线的波峰数量和第二特征曲线的波峰数量包括:

对第一特征曲线关于色谱保留时间分别求一阶导和二阶导,获得第一一阶导数和第一二阶导数;

对第二特征曲线关于离子迁移时间分别求一阶导和二阶导,获得第二一阶导数和第二二阶导数;

根据第一一阶导数和第一二阶导数确定第一特征曲线的波峰数量;

根据第二一阶导数和第二二阶导数确定第二特征曲线的波峰数量。

具体地,根据第一一阶导数和第一二阶导数确定第一特征曲线的波峰数量包括:

计算第一一阶导数的零点;

计算并判断第一二阶导数在第一一阶导数的零点处的数值;

若第一二阶导数在第一一阶导数的零点处的数值小于0,则零点对应于第一特征曲线上的点为第一特征曲线的波峰;

根据第二一阶导数和第二二阶导数确定第二特征曲线的波峰数量包括:

计算第二一阶导数的零点;

计算并判断第二二阶导数在第二一阶导数的零点处的数值;

若第二二阶导数在第二一阶导数的零点处的数值小于0,则零点对应于第二特征曲线上的点为第二特征曲线的波峰。

以求取第一特征曲线的波峰数量为例,上述方法可以如下理解:

使第一特征曲线上的各色谱保留时间点对应的特征强度关于色谱保留时间进行一次求导和二次求导,分别获得第一一阶导数和第一二阶导数,使第一一阶导数为零,求得此时的色谱保留时间,将获取的该色谱保留时间代入第一二阶导数,计算第一二阶导数的值,若第一二阶导数小于0,则该点为波峰,统计波峰数量。

第二特征曲线的波峰确定方法与第一特征曲线的波峰确定方法类似,不再赘述。

本发明提供的特征峰识别方法,可以基于图像特征自动识别GC-IMS图谱的特征峰,并能够将在色谱保留方向或离子迁移方向重叠的混合峰分隔开,以获取单峰的色谱保留时间、离子迁移时间和峰强度,方法简便,且准确性高。

可选地,针对每一个目标区域,当分别判断第一特征曲线的波峰数量和第二特征曲线的波峰数量时,

若第一特征曲线的波峰数量和第二特征曲线的波峰数量均为多个,则分别获取第一特征曲线的波谷和第二特征曲线的波谷;

根据第一特征曲线的波峰和波谷,将第一特征曲线分割成多个第一子曲线段,并获取各第一子曲线段的初始位置和终止位置;其中,第一子曲线段的数量与第一特征曲线上的波峰数量相等,且每一个第一子曲线段有且仅有一个波峰;

根据第二特征曲线的波峰和波谷,将第二特征曲线分割成多个第二子曲线段,并获取各第二子曲线段的初始位置和终止位置;其中,第二子曲线段的数量与第二特征曲线上的波峰数量相等,且每一个第二子曲线段有且仅有一个波峰;

根据各第一子曲线段的初始位置和终止位置以及各第二子曲线段的初始位置和终止位置,将目标区域分割为多个子区域,在第一图谱中获取各子区域的特征数据;

针对每一个子区域,根据子区域的特征数据建立子区域第一特征曲线和子区域第二特征曲线;

分别判断子区域第一特征曲线和子区域第二特征曲线的波峰数量,根据子区域第一特征曲线的波峰数量和子区域第二特征曲线的波峰数量获取子区域内的特征峰信息;其中,目标区域的特征峰信息包括各子区域的特征峰信息。

即,当第一特征曲线的波峰数量和第二特征曲线的波峰数量均为多个时(比如第一特征曲线的波峰数量和第二特征曲线的波峰数量均为2或者第一特征曲线的波峰数量为2而第二特征曲线的波峰数量为3等等),首先分别获取第一特征曲线的波峰和波谷以及第二特征曲线的波峰和波谷,然后根据波峰、波谷将相应的曲线分割为若干个子曲线段,并确定每个子曲线段的初始位置和终止位置,根据上述位置将目标区域分割为若干个子区域。比如,对于第一特征曲线的某一个第一子曲线段而言,其初始位置和终止位置相对应于色谱保留时间的某一区间,而对于第二特征曲线的某一个第二子曲线段而言,其初始位置和终止位置相对应于离子迁移时间的某一区间。然后分别根据对应确定的若干个色谱保留时间区间和离子迁移时间区间,获取各子区域的特征数据。具体地,各子区域的特征数据可以在第一图谱中根据色谱保留时间区间及离子迁移时间区间获取,也可以在目标区域对应的数据矩阵中根据色谱保留时间区间及离子迁移时间区间获取。在获取子区域的特征数据后,利用上述提及的与建立第一特征曲线和第二特征曲线同样的方法,根据子区域的特征数据建立子区域第一特征曲线和子区域第二特征曲线,分别判断子区域第一特征曲线和子区域第二特征曲线的波峰数量,然后求取该子区域内的特征峰信息。

其中,子区域内特征峰的求取过程与上述目标区域内特征峰的求取过程类似,具体地,

若子区域第一特征曲线和子区域第二特征曲线的波峰数量均为1,那么获取该所述子区域内的最大离子强度及其相应的色谱保留时间和离子迁移时间作为该所述子区域的特征峰信息;

如果子区域第一特征曲线和子区域第二特征曲线中仅有一条曲线的波峰数量为多个,那么进一步根据波峰数量为多个的子区域特征曲线上的波峰和波谷,将子区域特征曲线分割成多个子区域子曲线段,并获取各子区域子曲线段的初始位置和终止位置;其中,子区域子曲线段的数量与子区域特征曲线上的波峰数量相等,且每一个子区域子曲线段有且仅有一个波峰;根据各子区域子曲线段的初始位置和终止位置将子区域分割为多个小区域;针对每一个小区域,获取该小区域内的最大离子强度及该最大离子强度相应的色谱保留时间和离子迁移时间;各小区域对应的最大离子强度及其相应的色谱保留时间和离子迁移时间即为该子区域的各特征峰信息;

如果子区域第一特征曲线和子区域第二特征曲线同时为多个,那么循环上述步骤,即继续将根据子区域第一特征曲线和子区域第二特征曲线的波峰和波谷分别将子区域第一特征曲线和子区域第二特征曲线分割多个子曲线,分别求取各子曲线上的波峰情况,重复上述步骤。

相应的,本发明还提供了一种计算设备,包括:处理器,适于实现各种指令;存储器,适于存储多条指令,指令适于由处理器加载并执行上述任一实施例中的特征峰识别方法。

采用上述技术方案的计算设备,可实现简化特征峰的识别工作量,并实现特征峰的准确识别。

相应地,本发明提供了一种存储介质,该存储介质存储有多条指令,指令适于由处理器加载并执行上述任一实施例中的特征峰识别方法。

采用上述技术方案的存储介质,可实现简化特征峰的识别工作量,并实现特征峰的准确识别。

本申请公开的各实施方式可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码,该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。可将程序代码应用于输入指令,以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。

程序代码可以用高级程序化语言或面向对象的编程语言来实现,以便与处理系统通信。在需要时,也可用汇编语言或机器语言来实现程序代码。事实上,本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下,该语言可以是编译语言或解释语言。

在一些情况下,所公开的实施方式可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如,计算机可读)存储介质承载或存储在其上的指令,其可以由一个或多个处理器读取和执行。例如,指令可以通过网络或通过其他计算机可读介质分发。因此,机器可读介质可以包括用于以机器(例如,计算机)可读的形式存储或传输信息的任何机制,包括但不限于,软盘、光盘、光碟、只读存储器(CD-ROMs)、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪存或用于利用因特网以电、光、声或其他形式的传播信号来传输信息(例如,载波、红外信号数字信号等)的有形的机器可读存储器。因此,机器可读介质包括适合于以机器(例如,计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。

在附图中,可以以特定布置和/或顺序示出一些结构或方法特征。然而,应该理解,可能不需要这样的特定布置和/或排序。而是,在一些实施例中,这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外,在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征,并且在一些实施例中,可以不包括这些特征或者可以与其他特征组合。

需要说明的是,本申请各设备实施例中提到的各模块/单元都是逻辑模块/单元,在物理上,一个逻辑模块/单元可以是一个物理模块/单元,也可以是一个物理模块/单元的一部分,还可以以多个物理模块/单元的组合实现,这些逻辑模块/单元本身的物理实现方式并不是最重要的,这些逻辑模块/单元所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外,为了突出本申请的创新部分,本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的模块/单元引入,这并不表明上述设备实施例并不存在其它的模块/单元。

实施例

(1)料液样品采集制备

收集配制后的烟用料液样品:从香糖料厨房收集料液样品,每个样品稀释100倍后,各取500ul,分别置于20mL顶空进样瓶中,压盖密封待测。

(2)获取各个料液样品的GC-IMS谱图

A、分析仪器:采用德国GAS仪器公司的顶空-气相色谱-离子迁移谱仪器(型号为);

B、实验条件:

顶空进样条件设定为:孵化温度50℃、孵化时间5min、进样体积500μl、进样针温度80℃;

气相色谱-离子迁移谱仪器条件设定为:色谱柱为多毛细管分离柱(MCC),固定相OV-5、色谱柱温40℃、迁移管温度45℃、进样口温度80℃、进样器-色谱柱管路温度65℃、载气为高纯氮气;

载气流速采用程序升速模式,其中,0~1min载气速度为2ml/min,1~3min载气速度由2ml/min逐渐上升到50ml/min,3~5min载气速度由50ml/min逐渐上升到150ml/min,5~20min载气速度维持在150ml/min;迁移谱迁移气体流量150ml/min。

(3)结果分析

(a)采用气相离子迁移谱方法获得的GC-IMS图谱(迁移时间、保留时间和离子强度)提供了烟用料液的挥发性成分的化学信息,包含色谱保留时间、离子迁移时间和离子强度等,如图2所示。GC—IMS早期离子迁移时间1.0ms处的第一条竖线是水反应离子峰。当挥发性化合物存在于IMS的电离区域时,水的反应离子峰强度就会降低或消失。由图2可以看出,该牌号的料液的挥发性成分较多。一般来说,料液的挥发性成分较少,由于该方法首先是待检测物质的气相色谱分离,然后再获得离子迁移谱,通过GC-IMS对料液挥发性成分进行无损分析,最大程度地表达样品的指纹特征,确保样品数据的全面性、真实性及溯源性。

(b)第一图谱区域的提取:第一图谱为离子迁移时间为1.06ms~2.00ms,气相色谱时间为0~200s所对应的区域的图谱。

(c)使用阈值变换法将第一图谱转化为二值图像,如图3所示。阈值的数值设置为0.4118。

(d)使用Canny算子完成图像边缘点的提取,确定图像中的前景图像的图像边界。

(e)通过特征边缘的边界位置,找到每个目标区域的相关数据,如图4;

(f)对每个目标区域的特征数据向色谱保留方向求和得到第一特征曲线,对每个特征峰的特征数据向离子迁移方向求和得到第二特征曲线,由于噪声的影响,对第一特征曲线和第二特征曲线进行平滑处理,利用一阶导数和二阶导数识别第一特征曲线和第二特征曲线上的特征峰是单峰还是混合峰;

(g)如果第一特征曲线和第二特征曲线都是单峰,即求取该目标区域内的离子强度最大值及其对应的色谱保留时间和离子迁移时间,此即为该目标区域内的特征峰信息,比如图4中的目标区域1和目标区域2表示的均是混合峰情况,其中目标区域1在色谱保留方向出现两个峰重叠(如图5所示,目标区域1的第一特征曲线在色谱保留时间84s-88s以及90s-94s内均存在波峰),即目标区域1内的第一特征曲线为双峰,第二特征曲线为单峰;而目标区域2在离子迁移方向存在两个峰重叠(如图6所示,目标区域2的第二特征曲线在离子迁移时间1.09ms-1.11ms以及1.12ms-1.16ms内均存在波峰),即目标区域2的第一特征曲线为单峰,而第二特征曲线为双峰。因此需要将目标区域1和目标区域2内的混合峰全部分割开。

(h)以目标区域1为例,如图5所示,图4中的目标区域1对应的第一特征曲线是双峰,因此需要计算得到这两个波峰位置,然后再其相邻的波峰区域找到最小值所对应的波谷位置。利用波谷位置,把双峰分开得到单峰,通过单峰的所在区域对第一图谱中的目标区域进行分割,如图7所示,目标区域1被分割为两个子区域,分别计算这两个子区域内的最大离子强度,并获取该最大离子强度相应的色谱保留时间和离子迁移时间,最终获得该目标区域内的特征峰信息。

(i)图8所示为识别出的28个特征峰情况,后续可以以特征峰的强度构建向量或矩阵,对待检测样品进行定性或定量分析。

虽然通过参照本发明的实施方式,已经对本发明进行了图示和描述,但本领域的普通技术人员应该明白,以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。本领域技术人员可以在形式上和细节上对其作各种改变,包括在不偏离本发明的精神和范围的情况下做出若干简单推演或替换。

22页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种用于检测6-氯-1,3-二氢吲哚-2-酮有关物质的方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!