一种基于主成分差异度挑选生物标志物的油指纹识别方法

文档序号:648477 发布日期:2021-05-14 浏览:1次 >En<

阅读说明:本技术 一种基于主成分差异度挑选生物标志物的油指纹识别方法 (Oil fingerprint identification method for selecting biomarkers based on difference degree of main components ) 是由 张鲁筠 王春艳 黄小东 王岩 于 2020-11-30 设计创作,主要内容包括:本发明提供一种基于主成分差异度挑选生物标志物的油指纹识别方法,所述方法,包括获得全套生物标志物信息、计算原始主成分矩阵、逐一去生物标志物后计算新的主成分矩阵、计算差异度、选取重要生物标志物。本发明所述油指纹识别方法,挑选的少量生物标志物,对溢油样品进行分类识别的可靠性和准确性完全可以比拟全套生物标志物的结果,甚至要更好。本发明所述油指纹识别方法,将允许开发更快的洗脱程序,简化原本繁琐甚至可能产生矛盾的化学解释,帮助得到更精准的识别结果。同时,利用该方法选择的生物标志物集可以与基于知识和经验的化学分离方法的结果进行比较,为寻找新的有用生物标志物并探索其化学和地质意义提供可能性。(The invention provides an oil fingerprint identification method for selecting biomarkers based on principal component difference, which comprises the steps of obtaining the information of a whole set of biomarkers, calculating an original principal component matrix, calculating a new principal component matrix after removing the biomarkers one by one, calculating the difference and selecting important biomarkers. The reliability and the accuracy of the oil fingerprint identification method for classifying and identifying the oil spilling sample by the selected few biomarkers can completely be compared with the results of a whole set of biomarkers, and even better. The oil fingerprint identification method provided by the invention allows a faster elution procedure to be developed, simplifies original complicated chemical explanations which may even cause contradictions, and helps to obtain a more accurate identification result. Meanwhile, the biomarker set selected by the method can be compared with the results of a chemical separation method based on knowledge and experience, and the method provides possibility for searching new useful biomarkers and exploring the chemical and geological significance of the biomarkers.)

一种基于主成分差异度挑选生物标志物的油指纹识别方法

技术领域

本发明涉及一种基于主成分差异度挑选气相色谱/质谱生物标志物的油指纹识别方法,属于油指纹识别技术领域。

背景技术

海洋溢油事故的频发和其对海洋环境安全和人类健康的严重危害,将对海洋溢油的研究提到了全球环境问题的焦点之一。由于溢油发生率高,危险性大,确定溢油的确切来源,监测原油风化运移过程中的化学变化是十分必要的。因此,建立一套快速、经济、简单、易于推广的油类指纹识别技术,对中国这样一个环境压力日趋严重的世界上最大的发展中国家具有重要的实用价值。

油指纹识别包括一系列分析和统计技术,通过将溢油中的碳氢化合物与一组潜在的候选源相匹配,客观地识别最有可能的碳氢化合物泄漏源。气相色谱-质谱技术(GC-MS)被公认为现代溢油指纹图谱的基石。气相色谱-质谱技术(GC-MS)因其对化合物的强大而有效的分离、分离和鉴定能力,被迅速应用于水、空气、土壤、海洋等环境的检测,以及农业监管、食品安全、医药产品的发现和生产。近几十年来,大量应用GC-MS在溢油鉴别方面的研究层出不穷,一方面表明GC-MS的有效性。但另一方面,GC-MS相关的溢油研究和文章仍在不断的探索和更新中,说明GC-MS还不能彻底解决溢油识别问题,这也与广泛接受的观点一致,即由于原油的复杂性质和生物标志物的低浓度,没有单一的方法能够解决这个问题。

气相色谱-质谱的一些瓶颈是造成这一问题的主要原因,其中一个主要的瓶颈是几乎所有的油指纹研究都使用色谱分析中测量到的全套生物标志物,通常包括萜烷、规则和重排的甾烷、单芳和三芳甾、双环倍半萜和金刚烷等。如此大量的化合物的检测和分析需要高技能的员工和仔细的审查,因此是相当耗时和高成本的。同时,各个变量之间可能存在模糊甚至相互矛盾的行为,导致对结果的解释复杂且难以做出决策。研究人员逐渐认识到,某些生物标志物的色谱比值或丰度可能比其他生物标记物的更具信息性,某些变量如果保存在鉴定数据集中,甚至可能导致不正确的识别结果。因此,适当的变量选择对于将不确定性降低到最小并产生可靠结果是至关重要的。

目前,大多数拣选生物标志物的研究都是基于研究者对石油分析的知识和经验,直接采用化学分离方法提取和分析特定的生物标志物集。然而,这种方法通常只对一种或几种类型的油样有效,对于新的油样很可能失效。此外,这种方法也可能会产生一些主观偏差。

发明内容

针对现有技术存在的不足,本发明提供一种基于主成分差异度挑选生物标志物的油指纹识别方法,在GC-MS全套生物标志物参数中,通过化学计量学和数据分析的方法,寻找到一组简化的生物标志物参数,用它们去表征整个数据集中的主要信息,在不丢失重要信息的情况下,产生几乎与全套生物标志物参数相同的分类识别能力。

为解决上述技术问题,本发明采取以下技术方案:

一种基于主成分差异度挑选生物标志物的油指纹识别方法,所述方法,包括获得全套生物标志物信息、计算原始主成分矩阵、逐一去生物标志物后计算新的主成分矩阵、计算差异度、选取重要生物标志物。

以下是对上述技术方案的进一步改进:

步骤1:通过GC-MS分析得到石油溢油样本的全套生物标志物(m个)的检测分布结果。

步骤2:将所有样本(n个)的全套生物标志物检测值作为观察值构成矩阵Xm×n,对其进行PCA分析,并根据主成分贡献率,选取累计贡献率达到95%以上的前p个主成分(代表其最重要的主要信息),即得到主成分矩阵PCp×n

步骤3:从第一个生物标志物开始,逐一去掉该生物标志物,得到新的矩阵(k表示去掉的生物标志物编号,范围从1到m),重新进行PCA分析,得到新的主成分矩阵

步骤4:计算新的与原始PCp×n之间的差异度Differencek

步骤5:将所有Differencek(k从1到m)进行对比,选出差异度最大的前p个生物标志物,即是要挑选出来的最重要最有信息量的生物标志物,并作为油指纹识别的依据。

主成分分析(PCA)方法可以通过对原始变量进行主成分提取,从而实现数据降维以及基于主成分的分类识别。PCA使用正交变换将可能相关变量的一组观察值(本发明中即为原始全套生物标志物参数)转换为一组称为主成分的线性不相关变量值。这种转换的定义方式是第一主成分具有最大的方差,并且每个后续主成分的方差依次递减,同时与前面的主成分正交。那么方差较大(贡献率较大)的前几个主成分即代表了原始变量的主要信息。可以用一个公式来表达:PCp×n=Loadingp×mXm×n,其中n表示样本个数,m表示每个样本的观察值个数,X即为所有样本观察值组成的矩阵;p表示主成分个数,PC为主成分矩阵,每个样本保留p个主成分;Loading即为加权系数矩阵,Loadingi,j为样本中第j个观察值对第i个主成分的加权系数,也相当于第j个观察值在第i个主成分中所占的权重。

通过公式可以知道,每一个观察值都对主成分结果做出了贡献,只是贡献有大有小。那么如果从所有观察值(全套生物标志物)中去掉其中的某一个观察值(某一生物标志物),重新再去进行主成分计算,那么所获得的新主成分结果,可以记为必然不再包含该观察值的贡献。此时,就可以通过计算与原始PCp×n之间的差异度来判断该观察值对主成分的贡献是否重要。很明显,如果差异度小,说明该观察值对主成分几乎没有作用,可以舍弃;反之,则该观察值的信息起重要作用,必须保留。这样,就可以采用交叉检验的方法,逐一去掉观察值,将所有差异度进行对比,差异度最大的前p个观察值(选择与主成分相同的个数)即是要挑选出来的最重要的生物标志物。差异度计算方法选用经典均方差的形式,具体公式如下:

与现有技术相比,本发明取得以下技术效果:

本发明所述油指纹识别方法,挑选的少量生物标志物,对溢油样品进行分类识别的可靠性和准确性高。通过对实施例的实验证明,无论PCA空间(三维和二维)聚类,还是层阶式聚类,挑选生物标志物的结果都完全可以比拟全套生物标志物的结果,甚至要更好一些。当使用挑选生物标志物作为分类依据,通过GRNN进行人工神经网络油样分类时,其正确识别率比使用原始全套生物标志物时的识别率更高。

本发明所述油指纹识别方法,使得用于识别样本的关键变量(生物标志物)数量的显著减少,将允许开发更快的洗脱程序,因为只有一些化合物必须仔细分析,预处理时间也会相应减少;精简的关键变量也必将简化原本繁琐甚至可能产生矛盾的化学解释,帮助得到更精准的识别结果。

同时,这种完全基于数据分析挑选生物标志物集的方法,是脱离于主观经验的完全客观的分析方法。

利用该方法选择的生物标志物集可以与基于知识和经验的化学分离方法的结果进行比较,为寻找新的有用生物标志物并探索其化学和地质意义提供了可能性,为石油化学和地质分析提供新的思路和前景。

附图说明

图1为油样LD1的61个生物标志物GC-MS检测值分布图;

图2为油样LD2的61个生物标志物GC-MS检测值分布图;

图3为油样LD3的61个生物标志物GC-MS检测值分布图;

图4为油样BZ1的61个生物标志物GC-MS检测值分布图;

图5为油样BZ2的61个生物标志物GC-MS检测值分布图;

图6为油样NH的61个生物标志物GC-MS检测值分布图;

图7为油样WC的61个生物标志物GC-MS检测值分布图;

图8为油样NB的61个生物标志物GC-MS检测值分布图;

图9为油样CB的61个生物标志物GC-MS检测值分布图;

图10为油样SZ的61个生物标志物GC-MS检测值分布图;

图11为61个生物标志物的主成分差异度分布图;

图12为挑选的生物标志物(5个)在油样LD1中的分布对比图;

图13为挑选的生物标志物(5个)在油样LD2中的分布对比图;

图14为挑选的生物标志物(5个)在油样LD3中的分布对比图;

图15为挑选的生物标志物(5个)在油样BZ1中的分布对比图;

图16为挑选的生物标志物(5个)在油样BZ2中的分布对比图;

图17为挑选的生物标志物(5个)在油样NH中的分布对比图;

图18为挑选的生物标志物(5个)在油样WC中的分布对比图;

图19为挑选的生物标志物(5个)在油样NB中的分布对比图;

图20为挑选的生物标志物(5个)在油样CB的分布对比图;

图21为挑选的生物标志物(5个)在油样SZ中的分布对比图;

图22为基于全套生物标志物的PC1-PC2-PC3三维PCA空间聚类分布图;

图23为基于挑选的生物标志物的PC1-PC2-PC3三维PCA空间聚类分布图;

图24为基于全套生物标志物的PC1-PC2两维PCA空间聚类分布图;

图25为基于挑选的生物标志物的PC1-PC2两维PCA空间聚类分布图;

图26为基于全套生物标志物的层阶式聚类树图;

图27为基于挑选的生物标志物的层阶式聚类树图;

图28为基于全套生物标志物的GRNN分类识别结果图;

图29为基于挑选的生物标志物的GRNN分类识别结果图。

具体实施方式

实施例:

1、石油样品及处理

样品选取了四类(A类)属于渤海油田的旅大LD-A11#(LD1),LD-A16#(LD2),LD-A12#(LD3),(B类)属于渤海油田的渤中BZ26-2(BZ1),BZ28-1(BZ2),(C类)属于南海油田的南海油(NH)、文昌油(WC),以及(D类)NB-CEP平台的A12#(NB),埕北306#(CB),绥中36-1#(SZ)一共十种原油样品进行GC-MS测试。

GC-MS的样品处理:取800mg原油样品,溶于10mL正己烷中,制备80mg/mL的原油储备液。取200μL加入装有3g活化硅胶的10mm的层析柱中(顶部放入1.0cm的无水硫酸钠),用12mL正己烷洗出饱和烃组分F1,F1洗出液在氮吹仪上浓缩至约0.9mL。加入100μL内标(包含d18-Decahydronaphthalene,d16-Adamantane,C30 17β(H),21β(H)-hopane),得到1.0mL浓缩液供GC-MS分析。

2、GC-MS实验

GC-MS检测采用Agilent公司HP 6890仪器(Agilent Technologies,Palo Alto,CAUSA),带有脉冲不分流进样器,HP 5973质谱检测器和HP-5MS熔融石英毛细管柱(J&WScientific,Folsom,CA,USA)。操作条件为:起始温度50℃,等温保持2分钟,以6℃/min升温至300℃,等温保持16分钟。载气:氦气;注入在脉冲不分流模式下进行,进样速度为1.0mL/min,进样口和检测器温度分别为290和300℃。电离电压:70eV,离子源温度230℃。MS分析的m/z范围为40-400。

3、按照本发明的具体方案进行GC-MS生物标志物挑选:

步骤1:针对10个石油溢油样本,通过GC-MS检测和分析得到全套61个生物标志物的检测值,这些生物标志物是油指纹色谱分析中测量的常用生物标志物,包括萜烷、规则和重排的甾烷、单芳和三芳甾、双环倍半萜和金刚烷等。其检测值分布图见附图1-10,61个生物标志物详细信息见表1。

表1.GC-MS检测的61个生物标志物

步骤2:将所有样本的全套生物标志物检测值作为观察值构成矩阵X61×10,对其进行PCA分析,并根据累计贡献率达到98%的要求,选取了前5个主成分,即得到主成分矩阵PC5×10

步骤3:从第一个生物标志物开始,逐一去掉该生物标志物,得到新的矩阵(k表示去掉的生物标志物编号,范围从1到61),重新进行PCA分析,得到新的主成分矩阵

步骤4:计算新的与原始PC5×10之间的差异度Differencek,见附图11。

步骤5:将所有Differencek(k从1到61)进行对比,选出差异度最大的前5个生物标志物作为要挑选出来的最重要最有信息量的生物标志物,并作为接下来油指纹识别的依据。

4、分析和验证挑选生物标志物的分类识别能力

附图11显示了主成分差异度Differencek的分布结果,通过对比可以看出C29(k=6),C30(k=7),G(k=20),SQT3(k=54),以及SQT4(k=55)带来了较大的差异度,因此被挑选出作为简化的生物标志物组合。

附图12-21显示了这五个被挑选出的生物标志物在10个样本中的分布图。从中可以看出,仅用这5个生物标志物参数,在不同分类的石油样本之间,已经显示出明显的不同,因此作为分类识别依据是完全可行的。

为了进一步验证挑选生物标志物对溢油样品进行分类识别的可靠性和准确性,分别使用PCA空间聚类(前三维主成分矩阵PC3×10的空间聚类、前两维主成分矩阵PC2×10的空间聚类)、层阶式聚类以及广义回归神经网络(GRNN)来对原始全套生物标志物和挑选生物标志物的分类识别进行对比验证,结果见附图22-29。

无论PCA空间(三维和二维)聚类,还是层阶式聚类,挑选生物标志物的结果都完全可以比拟全套生物标志物的结果,甚至要更好一些。

当使用挑选生物标志物作为分类依据,通过GRNN进行人工神经网络油样分类时,其正确识别率可以达到100%,而采用全套生物标志物仅达到90%,BZ1样本被错误的识别为LD样本。这说明全套原始生物标志物中存在模糊甚至致错的信息,反而不如挑选生物标志物信息更加明确。这些验证实验都证明使用本发明的方法挑选出的生物标志物作为分类依据,具有很好的可靠性和准确性。依据本发明提出的方法,完全可以开发更快的洗脱程序,简化繁琐甚至可能产生矛盾的化学解释,得到更高效更精准的油指纹识别结果。

26页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种箭形固相微萃取的气态污染物的测试方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!