一种利用荧光光谱特征信息实现快速识别比对的方法

文档序号:1693486 发布日期:2019-12-10 浏览:13次 >En<

阅读说明:本技术 一种利用荧光光谱特征信息实现快速识别比对的方法 (method for realizing rapid identification and comparison by using fluorescence spectrum characteristic information ) 是由 何鹰 魏峨尊 高贝贝 王南达 王欣 李京都 刘莎莎 于 2019-08-29 设计创作,主要内容包括:本发明公开了一种利用荧光光谱特征信息实现快速识别比对的方法,该方法包括:(1)将原始荧光光谱文件中有效的行列数据信息保存,剔除文件中的非数据部分等共计34个步骤,本发明所公开的方法无须经过上述繁琐的数学解析方法,仅对由荧光仪采集的数据进行适当处理,通过选峰程序,确立荧光峰强度和峰中心位置坐标等特征信息,建立以峰强度和峰中心位置坐标等信息为基础的相关特征参数指标,由峰强度峰中心位置坐标计算得到的这些特征相关参数指标构建便于计算机自动计算的矩阵形式,从而与参照比对数据库的样本进行相似度系数的计算与匹配,获得准确的识别与判别信息,识别与比对正确率高,检测速度快。(The invention discloses a method for realizing rapid identification and comparison by utilizing fluorescence spectrum characteristic information, which comprises the following steps: (1) the method disclosed by the invention only properly processes data collected by a fluorometer without the complicated mathematical analysis method, establishes characteristic information such as fluorescence peak intensity and peak center position coordinates and the like through a peak selection program, establishes related characteristic parameter indexes based on the information such as the peak intensity and the peak center position coordinates and the like, and establishes a matrix form which is convenient for automatic calculation of a computer by the characteristic related parameter indexes obtained by calculating the peak intensity and peak center position coordinates, so that the calculation and matching of similarity coefficients are carried out on samples in a reference comparison database to obtain accurate identification and discrimination information, the identification and comparison accuracy is high, and the detection speed is high.)

一种利用荧光光谱特征信息实现快速识别比对的方法

技术领域

本发明涉及环境科学、光谱学等领域,具体为一种利用荧光光谱图快速进行识别比对的方法。

背景技术

近年来,随着国家对环境保护要求的提高,一些具有监测预警溯源功能的环保在线监测设备逐渐受到重视,这是因为现有的常规在线监测设备功能单一,多数设备只能给出监测的具体数值,对监测得到的这些具体数值是由哪些污染物造成的、污染物的来源、行业归属、偷排漏排企业等信息无法回答,因此让“谁污染,谁治理”不能得到很好落实。荧光光谱仪在对污水进行扫描后,可以获得污水特有的三维荧光光谱,即污水的“指纹图谱”,这种指纹图谱对不同行业、不同企业排放的废水具有指纹唯一性或排他性,因此可以在污水的监测预警和溯源中获得应用。

每一种荧光物质,都有其特有的荧光光谱信息,荧光检测具有较高的灵敏度和选择性,因而获得广泛应用。然而,当溶解性有机物的荧光强度与背景水荧光强度相差不大时,或当混合溶液中多种复杂有机物荧光光谱重叠时,仅依靠一张由激发波长、发射波长和荧光强度投影组成的等高线荧光光谱,以期得到全面准确的溶解性有机物的识别与判别信息难度极高。这是因为,当背景水的荧光强度与溶入的有机物荧光强度相当时,仪器的噪声会干扰有机物荧光强度与峰中心位置坐标的确定,而对于一个混合的有机物荧光光谱重叠体系来说,扫描获得的荧光光谱是这个混合体系各个成分之间相互影响彼此消长的综合结果,荧光强度和峰中心位置坐标变化更大,所以人们需要一种方法,不仅可以对单纯组分体系、多组分混合体系溶解性有机物三维荧光光谱图进行识别,还可以根据组成谱图的数据信息与已有的标准或参比信息进行比对,完成诸如分类、鉴别、比对和溯源的任务。目前国内外常用的荧光光谱识别方法是利用平行因子分析法、偏最小二乘法、交替三线性分解法、非负矩阵因子分解法等对荧光光谱进行解析,获取多组分荧光信息,然后建立识别方法。但如何利用光谱解析方法对获得的荧光强度高低差别很大或荧光光谱混叠程度严重的溶液进行自动有效的识别和比对尚缺乏可靠的科学方法。一些识别方法仅靠荧光光谱的峰位置和峰强度的关系进行判别比对;还有一些识别方法通过多维分析算法分解出的两个二维荧光光谱的特征峰和波形特征参数,通过构造综合相似度指数进行混合三维荧光光谱的成分识别;前者对一些复杂多组分体系,特别是当荧光峰中心位置接近时,单纯地利用峰位置、荧光强度等所谓的特征参数对样品进行识别,具有很大的人为随意性,识别或比对正确率较低;后者由于识别或比对的方法是建立在特定的平行因子法(PARAFAC)基础上,其算法输出结果次序不确定,亦可造成识别或比对的误判。因此,利用三维荧光光谱谱图和数据快速进行白酒、中药材的真伪识别与判别,对环境水质监测、检测与溯源具有十分重要的意义。

发明内容

本发明所要解决的技术问题就是提供一种利用三维荧光光谱特征信息快速实现对污水识别与溯源的方法,以期解决利用多维分析算法解析三维荧光光谱时,耗时长、识别与比对误差稳定性低的问题。

本发明采用如下技术方案:

一种利用荧光光谱特征信息实现快速识别比对的方法,其改进之处在于,该方法包含如下步骤:

(1)将原始荧光光谱文件中有效的行列数据信息保存,剔除文件中的非数据部分;

(2)保存荧光光谱的激发波长、发射波长信息;

(3)扣除一级瑞利散射干扰峰,扣除水的拉曼干扰峰;

根据瑞利散射公式:瑞利散射光强度与入射光波长的四次方成反比;设激发波长(Ex) 220至450nm,发射波长(Em)250至600nm,在x-y平面坐标上,将激发发射坐标点(250,250) 与(450,450)相连,扣除该连线上发射波长±20nm的原始扫描数据,另外,如果激发波长扫描间隔为5nm,扣除激发245nm、发射波长在250-259nm处的原始扫描数据,即可完成对一级瑞利散射干扰峰的扣除;

(4)扣除二级瑞利散射干扰峰,设激发波长(Ex)220至450nm,发射波长(Em)250 至600nm,在x-y平面坐标上,将坐标点(220,440)与(300,600)相连,扣除该连线上发射波长±10nm的原始扫描数据,即可完成对二级瑞利散射干扰峰的扣除;

(5)扫描得到的谱图进行高斯低通滤波卷积,设置卷积参数

用高斯滤波器平滑处理原图像:二维高斯函数的密度公式如下,高斯模板矩阵使用的是其离散化的表示:

Fspecial函数用于创建预定义的滤波算子,其语法格式为:

h=fspecial(type)

h=fspecial(type,parameters,sigma)

对原图像f(x,y)进行高斯平滑处理,得到处理后的图像gs(x,y)如下:gs(x,y)=h(x,y,σ)*f(x,y) 其中*表示卷积。在实际计算过程中,将h(x,y,σ)转化为一个二维的模板,用于对图像进行卷积运算,如对于模板尺寸取值为5×5且σ=1的卷积模板为:

此处σ标准差的选择对函数的形状具有一定的影响,通常,标准差过小,偏离中心的像素权重也较小,相当于未考虑,起不到平滑噪声的作用;标准差过大,将退化为平均模板;通常取值范围0.5-3;模板尺寸取值范围为3×3、5×5、7×7、或9×9,优选的模板尺寸为3 ×3;

(6)根据卷积后得到的三维矩阵,进行图像输出,设置图像输出参数

用上述的卷积核对图像进行卷积运算后,得到新的图像矩阵,必要时,利用高速卷积核再次对图像进行卷积运算,获得经过多次卷积运算后的图像矩阵;

(7)对上述经过卷积运算后的矩阵进行寻峰计算;对卷积运算后的矩阵分别按矩阵转置前后,即按发射-激发矩阵寻峰和按激发-发射矩阵寻峰;同时设置峰-峰间的最小距离,分别记录矩阵转置前后满足条件的峰强度值及其峰中心位置的坐标(激发和发射波长值);

(8)作为寻峰计算的补充,对转置前后矩阵的第一列和最后一列的最大值是否为峰需要做出选择,即如果第二列最大值小于第一列最大值,把第一列最大值当作峰,同样,如果最后一列最大值大于其前一列最大值,把最后一列最大值当作峰;

(9)由于仪器噪声的影响,有时需要设定峰-峰间的最小间隔,通常首先确定最大的峰中心位置坐标,即最大峰在x-y轴上的坐标(激发-发射),然后按照距该点坐标不小于20nm 的范围出现其它有效峰的原则进行其它荧光峰的确认,直至筛选出所有符合要求的荧光峰。

(10)为了消除荧光强度低的峰对荧光强度高的峰在匹配识别时的干扰,优先将最大峰值与其余各峰峰值进行比较,如果最大峰值与被比较峰值大于1-3倍,剔出被比较的荧光强度小的峰;

(11)按峰强度值的高低顺序由大到小进行排列;

(12)将各峰强度值与之对应的发射波长、激发波长并列排列,组成m×3的矩阵,其中,m表示有效荧光峰的数目,该矩阵称为峰强度峰中心坐标矩阵,计作m×3;如m=3时,矩阵为:

(13)原矩阵转置后,重新完成寻峰、选择有效峰和按峰值高低进行排列,形成转置后的峰强度峰中心坐标矩阵,计作m’×3;如m’=4时,矩阵为:

(14)对转置前后的峰强度峰中心坐标矩阵进行如下计算,如果存在多峰:

(15)计算第一行最大峰强度值与其余峰强度值之比,记作R_peak,如与第二行、第三行、第四行峰值之比,分别记作R_peak12、R_peak13、R_peak14、…;计算第二行峰值与第三行、第四行峰值之比,分别记作R_peak23、R_peak24等;

(16)计算第一行最大峰的发射波长与其余峰的发射波长之差,计作D_em,如与第二行、第三行、第四行发射波长之差,|em1-em2|、|em1-em3|、|em1-em4|、...,取绝对值分别记作D_em12、D_em13、D_em14、…,计算第二行峰的发射波长与第三、第四行峰的发射波长之差,如|em2-em3|、|em2-em4|,取绝对值分别记作D_em23、D_em24等;

(17)计算第一行最大峰的激发波长与其余峰的激发波长之差,计作D_ex,如与第二行、第三行、第四行激发波长之差,|ex1-ex2|、|ex1-ex3|、|ex1-ex4|、...,取绝对值分别记作 D_ex12、D_ex13、D_ex14、…,计算第二行峰的激发波长与第三、第四行峰的激发波长之差,如|ex2-ex3|、|ex2-ex4|,取绝对值分别记作D_ex23、D_ex24等;

(18)计算第一行最大峰中心坐标与其余峰中心坐标之间的距离,计作D_xy,如与第二行、第三行、第四行峰中心之间的距离,分别记作D_xy12、D_xy13、D_xy14、…;计算第二峰中心坐标与第三、第四行峰中心坐标的距离,分别记作D_xy23、D_xy24等;计算公式为

(19)计算任意两个峰中心坐标的连线与x或y轴间的夹角,记作cosθ,如最强峰与第 2、3、4强峰中心坐标的连线与x轴间的夹角可以表示为cosθ12、cosθ13、cosθ14、…,第2强峰与第3强峰中心坐标的连线与x轴间的夹角可以表示为cosθ23等,计算公式为

(20)计算任意两个峰中心连线在x-y平面上的斜率,记作Slo_k,如最强峰与第2、3、4 强峰中心坐标的连线在x-y平面上的斜率可以表示为Slo_k12、Slo_k13、Slo_k14、…,第2强峰与第3强峰中心坐标的连线在x-y平面上的斜率可以表示为Slo_k23等,计算公式为

(21)将上述所有计算结果与峰强度峰中心坐标矩阵重新组成二个矩阵,一个转置前m ×n矩阵和一个转置后m’×n矩阵,计作TA和TB;如对于m=4,n=9时,矩阵可以按下表排列

转置后的矩阵TB排列类似于TA;

(22)将所有样本取得的这两个矩阵TA和TB组成一个数据库,计作T_data,用于进行相似度匹配的计算;

(23)有时根据需要也可以对该数据库再进行细分,例如,根据m和m’的数值大小,建立具有新的特征数据库,这些新的特征数据库中由m完全相等和m’完全相等的数据矩阵组成,这样的细分特征数据库在与未知样本进行识别比对时,具有识别比对速度更快,匹配准确率更高等特点;

(24)对未知样本进行相似度匹配识别时,首先保持未知样本的数据处理与数据库各样本数据处理方法一致,经处理后的数据为转置前矩阵m×n和转置后矩阵m’×n,分别计作 XA和XB;

(25)未知样本与特征数据库样本的比对识别方法建立,通常地可以将未知样本矩阵数据XA和XB与T_data库中相应的转置前后矩阵数据TA和TB进行相似度匹配计算,特殊地,为了提高匹配识别率,也可以根据未知样本矩阵数据XA和XB中m和m’的数值大小选择与特征数据库T_data中m和m’的数值一致的矩阵数据进行相似度匹配计算;

(26)相似度匹配计算方法如下:

(27)将矩阵XA与T_data中所有的TA矩阵一一进行相似度匹配计算,将矩阵XB与T_data 中所有的TB矩阵一一进行相似度匹配计算;

(28)设未知样本转置前,

转置后,

特征数据库某样本转置前,

转置后

按下式计算,转置前未知样本与特征数据库每一个样本的元素数值的偏差,取其绝对值,记作CV1

按下式计算,转置后未知样本与特征数据库每一个样本的元素数值的偏差,取其绝对值,记作CV2

(29)设定矩阵CV1和CV2中每一个元素的阈值β1,如设定β1<=0.3,即如果矩阵中某元素小于等于0.3,将该元素记为1,否则记为0,新的矩阵记作SN_CV1和SN_CV2;并计算每个矩阵中元素为1的总数目;

(30)计算未知样本矩阵XA和XB中的非零数目,记作NZ_A和NZ_B;

(31)计算未知样本矩阵转置前后的相似度匹配系数,记作X1和X2;其中

(32)计算未知样本相似度匹配总系数,记作TX,其中

(33)设置显示相似度匹配总系数阈值,记作β2,如设置β2>=0.7,显示相似度匹配总系数大于等于0.7的样本信息;

(34)按匹配文件编号顺序或按相似度匹配总系数高低顺序显示特征数据库样本T_DATA中匹配样本信息。

本发明的有益效果是:

现有三维荧光光谱的识别比对是建立在平行因子分析法、偏最小二乘法、交替三线性分解法、非负矩阵因子分解法等解析方法的基础上,通过获得多组分荧光信息,然后建立识别与比对方法。本发明所公开的方法无须经过上述繁琐的数学解析方法,仅对由荧光仪采集的数据进行适当处理,通过选峰程序,确立荧光峰强度和峰中心位置坐标等特征信息,建立以峰强度和峰中心位置坐标等信息为基础的相关特征参数指标,由峰强度峰中心位置坐标计算得到的这些特征相关参数指标构建便于计算机自动计算的矩阵形式,从而与参照比对数据库的样本进行相似度系数的计算与匹配,获得准确的识别与判别信息,识别与比对正确率高,检测速度快。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

实施例1,本实施例公开了一种通过构建溶解性有机物的三维荧光光谱特征信息库进行识别和比对的方法,构建参照比对数据库,用于储存各种溶解性有机物的三维荧光光谱信息,存储已知化学式、结构式等物理化学性质的溶解性有机化合物三维荧光光谱信息;构建三维荧光光谱数据矩阵及扣除一级、二级瑞利散射和拉曼干扰峰处理算法,获得扣除瑞利散射和拉曼干扰的标准三维荧光光谱数据;构建参照比对数据库荧光光谱的峰强度、峰中心位置坐标解析算法,获得被测样本荧光光谱特征信息解析数据;构建三维荧光光谱查询方法,用于对参考比对数据库中各光谱数据提取查询检索信息;构建相似度匹配系数算法,用于被测样本与库中各样本相似度匹配系数的计算、识别与判别;构建荧光光谱数据提取查询检索信息算法,用于被测样品的识别、比对、分类和溯源;构建文档与数据输出单元,用于输出检测、识别、匹配结果和分析报告。

具体包括如下步骤:

(1)峰强度、峰中心坐标的确定:取某生化制药企业废水样本,记作QJSH5,设置波长扫描范围为:激发波长(Ex)200至450nm,发射波长(Em)250至600nm,对其荧光原输出数据文件进行整理,扣除文件中非数据部分,扣除瑞利散射和拉曼散射干扰后,形成一组新的三维荧光数据,记作NEW_QJSH5_DATA;利用高斯模板矩阵,取其模板尺寸为5×5且σ=1的卷积模板对新的三维荧光数据NEW_QJSH5_DATA进行图像滤波,得到一组扣除仪器噪声干扰的数据矩阵,记作QJSH5_GS_DATA。对该数据矩阵分别进行转置前后的寻峰计算,得到二组峰强度峰中心坐标数据,记作QJSH5_PKS10和QJSH5_PKS20。如下表所示

对于QJSH5_PKS10,由于R_peak14=90.9599/23.5643>3,剔除该行数据;对于QJSH5_PKS20,由于R_peak均小于3,没有可以剔除的数据,最终的QJSH5_PKS1和QJSH5_PKS2为下表

(2)峰特征参数的计算:

根据QJSH5_PKS1和QJSH5_PKS2矩阵数据,分别进行计算得到QJSH5_XA和QJSH5_XB,列表如下

(3)相似度匹配系数计算:

取该生化制药企业废水样本,记作QJSH10,设置波长扫描范围为:激发波长(Ex)200 至450nm,发射波长(Em)250至600nm,对其荧光原输出数据文件进行整理,扣除文件中非数据部分,扣除瑞利散射和拉曼散射干扰后,形成一组新的三维荧光数据,记作 NEW_QJSH10_DATA;利用高斯模板矩阵,取其模板尺寸为5×5且σ=1的卷积模板对新的三维荧光数据NEW_QJSH10_DATA进行图像滤波,得到一组扣除仪器噪声影响的数据矩阵,记作QJSH10_GS_DATA。对该数据矩阵分别进行转置前后的寻峰计算,得到二组峰强度峰中心坐标数据,记作QJSH10_PKS10和QJSH10_PKS20,在此基础上,计算特征参数列表如下:

用QJSH10_TA1与QJSH5_XA进行计算得到QJSH_CV1,其矩阵计算式为

计算结果列表如下:

用QJSH10_TB1与QJSH5_XB进行计算得到QJSH_CV2,计算结果列表如下:

设定β1<=0.3

计算SN_QJSH_CV1,列表如下

SN_QJSH_CV1中所有的1相加为26,由于QJSH5_XA矩阵m=3,n=9,因此,相似度系数: X1=26/27=0.963;

计算SN_QJSH_CV2,列表如下

SN_QJSH_CV2中所有的1相加为21,由于QJSH5_XB矩阵m’=4,n=9,因此,相似度系数:X2=21/36=0.5833;

总相似度系数:β2=(0.963+0.5833)/2=0.7731

(4)用10-30种不同废水混合稀释至一定浓度,作为背景水,将该生化制药企业废水用混合背景水配制成为浓度不同的溶液,稀释后测定荧光光谱信息,相关文件信息见表:

将上表的生化制药企业废水样本与117个不同企业不同行业废水样本组成数据库,将文件编号为第37号样本与数据库所有样本进行匹配识别,设置匹配系数0.3,得到结果按匹配文件编号顺序显示如下:

序号 总相似度系数 匹配文件编号 匹配原文件名称
1 [0.9259] [28] Pks_QJSH10-10-1-0.xlsx
2 [0.7500] [29] Pks_QJSH10-10-2-0.xlsx
3 [0.7731] [30] Pks_QJSH10-5-1-0.xlsx
4 [0.7222] [31] Pks_QJSH10-5-2-0.xlsx
5 [0.7130] [34] Pks_QJSH30-5-1-0.xlsx
6 [0.7269] [35] Pks_QJSH30-5-2-0.xlsx
7 [0.9167] [36] Pks_QJSH30-10-1-0.xlsx
8 [1.0000] [37] Pks_QJSH30-10-2-0.xlsx

文件编号为第37号样本与数据库中所有QJSH样本均得到了很好的匹配识别,未有其它样本匹配信息;

(5)其它废水匹配识别

将编号为XYXW的工业废水用10-30种混合背景废水按样本与背景废水1︰100的比例稀释,将4个样本扫描数据编入117个不同企业不同行业废水样本组成数据库,将文件编号为第105号样本与数据库所有样本进行匹配识别,设置匹配系数0.3,得到结果按匹配文件编号顺序显示如下:

文件编号为第105号样本与数据库种所有XYXW样本均得到了很好的匹配识别,未有其它样本匹配信息。

18页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:分子印迹荧光光纤传感器及其构建方法、荧光检测方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!