一种基于污染物代谢扰动的非目标生物标志物高通量筛查方法

文档序号:1294921 发布日期:2020-08-07 浏览:5次 >En<

阅读说明:本技术 一种基于污染物代谢扰动的非目标生物标志物高通量筛查方法 (High-throughput screening method for non-target biomarkers based on pollutant metabolic disturbance ) 是由 韦斯 李昱茜 于红霞 于南洋 于 2020-04-26 设计创作,主要内容包括:本发明公开了一种基于污染物代谢扰动的非目标生物标志物高通量筛查方法,属于属于环境暴露与健康领域,其步骤为:(1)提取得到待测提取液;(2)色谱分析,得到含有色谱峰的谱图;(3)进行污染物特征峰的识别与标注,并将污染物特征峰之外的色谱峰作为潜在代谢物特征峰,对潜在代谢物特征峰进行非目标标注;(4)以所述潜在代谢物特征峰的峰面积为因变量,污染物特征峰峰面积为自变量,建立线性回归模型;(5)运行模型,进行生物标志物的非目标筛选,初步得到相关的生物标志物;(6)对初步得到的生物标志物的一级、二级谱图进行鉴定,识别出与污染物暴露相关的生物标志物。本发明的方法显著提升了生物标志物筛查的准确性,同时提高了生物标志物筛查的通量。(The invention discloses a high-throughput screening method for non-target biomarkers based on pollutant metabolism disturbance, belonging to the field of environmental exposure and health, and comprising the following steps of: (1) extracting to obtain an extracting solution to be detected; (2) performing chromatographic analysis to obtain a spectrogram containing chromatographic peaks; (3) identifying and labeling pollutant characteristic peaks, taking chromatographic peaks except the pollutant characteristic peaks as potential metabolite characteristic peaks, and performing non-target labeling on the potential metabolite characteristic peaks; (4) establishing a linear regression model by taking the peak area of the characteristic peak of the potential metabolite as a dependent variable and the peak area of the characteristic peak of the pollutant as an independent variable; (5) running the model, and carrying out non-target screening on the biomarkers to preliminarily obtain related biomarkers; (6) and identifying the primary and secondary spectrograms of the preliminarily obtained biomarkers to identify the biomarkers related to pollutant exposure. The method provided by the invention obviously improves the accuracy of biomarker screening and improves the flux of biomarker screening.)

一种基于污染物代谢扰动的非目标生物标志物高通量筛查 方法

技术领域

本发明属于环境暴露与健康领域,具体涉及一种基于污染物代谢扰动的非目标生物标志物高通量筛查方法。

背景技术

随着科学技术的发展,人们生活的水平不断提高,产生的污染物也在不断增加,这些物质被释放到环境中并在环境中累积。生物体暴露在各种环境介质中,环境中的污染物可能通过触摸、呼吸、饮食等多种途径进入生物体,从而造成外暴露向内暴露的转化。进入生物体的外源环境污染物会对生物体造成潜在威胁,有大量证据表明接触特定化学物质可能会导致疾病。

生物标志物是生物体在受到严重毒性作用前观测到异常变化的信号指标,目前,生物标志物的组学技术包括基因组、蛋白组、代谢组学等。其中代谢组学对小分子代谢物进行定性定量研究,被认为是和表型最接近的组学研究。近年来代谢组学的发展迅速,但相关研究仍然落后于基因组学和蛋白组学。研究环境污染物造成的代谢组扰动可以填补这部分空白,从而实现对毒性的预测,有助于对污染物进行科学管控。

目前的代谢组学研究存在的问题在于:一方面是筛查通量不足,大部分的研究为靶向研究,导致不在研究范围内的生物标志物容易被忽略,从而影响筛查的准确性;另一方面,由于环境污染物与生物体代谢物都具有复杂性,代谢组学的相关性研究是难点,统计学工具需要优化。

鉴于现有技术的缺陷,亟需发展一种通量高、准确度高的代谢组生物标志物的筛查方法。

发明内容

1.要解决的问题

针对现有技术针对代谢组学的研究存在的筛查通量不足,准确度低的问题,本发明的筛查方法,首先进行潜在代谢物的非目标筛查,再逐步缩小范围得到小范围的生物标志物数量,能够保证筛查的更全面,实现高通量、准确地筛选并识别生物标志物,为毒性的预测和污染物风险评价与管控提供科学依据。

2.技术方案

为了解决上述问题,本发明所采用的技术方案如下:

本发明提供了一种基于污染物代谢扰动的非目标生物标志物高通量筛查方法,包括以下步骤:

(1)样品的提取:样品处理、提取生物样本中的污染物与代谢物,得到待测提取液;

(2)色谱分析:通过高效液相色谱-飞行时间质谱联用仪对待测提取液进行全扫描分析检测,得到含有色谱峰的谱图;

(3)污染物标注与潜在代谢物非目标标注:针对所述谱图进行污染物特征峰的识别与标注,并将污染物特征峰之外的色谱峰作为潜在代谢物特征峰,对潜在代谢物特征峰进行非目标标注;

(4)建立模型:以所述潜在代谢物特征峰的峰面积为因变量,所述污染物特征峰的峰面积为自变量,建立线性回归模型;

(5)生物标志物的非目标筛选:运行所述模型,进行生物标志物的非目标筛选,初步筛选得到相关的生物标志物;

(6)生物标志物鉴定:对步骤(5)得到的生物标志物的一级谱图、二级谱图进行鉴定,识别出与污染物暴露相关的生物标志物。

优选的,所述方法还包括步骤(7):利用校正方法校正所述模型,运行校正后的模型,重复(5)-(6)的步骤。

优选的,所述方法还包括生物标志物的代谢通路富集步骤,该步骤中,将识别出的生物标志物富集至代谢通路,得到受污染物扰动的代谢通路。

优选的,所述校正方法包括错误发现率校正和干扰因素校正,所述错误发现率校正过程中,将阈值p<0.05校正为FDR<20%;所述干扰因素校正过程中,通过将样本中存在的干扰因素作为协变量加入到所述模型的方式进行校正。

优选的,所述待测提取液中含有多个污染物时,所述校正方法包括联合暴露校正方法:将多个污染物均作为潜在自变量进行多元步进回归,进行模型校正。

优选的,所述污染物特征峰识别过程中,将所述谱图转化为WIFF文件,导入PeakView软件中提峰并对齐进行分析,识别出污染物。

优选的,所述潜在代谢物特征峰非目标标注过程中,将所述谱图转化为ABF文件,导入MSDIAL软件中提峰并对齐,保留检出率大于80%的特征峰,将其作为潜在代谢物特征峰。

优选的,步骤(4)中,将运行后显著性p<0.05的模型作为有效模型进行步骤(5)的运行过程。

优选的,步骤(6)中,联合使用MS-DIAL软件和MetDNA平台进行生物标志物的鉴定。

优选的,所述步骤(4)后还包括代谢扰动能力预测:鉴定出结构的污染物分子在SYBYL软件中进行结构优化:施加特里波(Tripos)力场、加斯泰格-赫克尔(Gasteiger-Huckel)电荷,和鲍威尔(Powell)梯度法直至终止梯度降到0.001kcal/(mol·)以下。另外,从蛋白质数据库(http://www.rcsb.org)中下载蛋白质结构,然后在SYBYL软件中提取配体形成对接口袋,去除晶体水并质子化。将优化后的污染物配体与蛋白口袋在SYBYL软件中对接,选择最优构象作为对接结果。对接结果的total score值越大,表示对接能力越强,则游离态的污染物相对少;反之则游离态污染物多,可能产生更强的瞬时代谢紊乱,产生的生物标志物更多。本步骤为研究大量污染物时选择污染物进行优先预测的步骤。

优选的,所述方法具体步骤如下:

(1)样品的提取:固态样品(如生物组织等)先进行匀浆,液态样本(如血液、尿液等)置于离心管中,向样本中加入0.26~0.28g硫酸镁-氯化钠混合物和乙腈后立即涡旋,此时样品呈悬浊液状态,将样品超声萃取30min后离心并转移上清液。剩余残余物用95%乙腈-水溶液重复提取两次,合并提取液。氮吹至近干,转移至色谱样品瓶中用乙腈定容。若此时底部有少量白色固体,再次离心并将上清液转移至色谱样品瓶。

本发明的前处理方法减少了对样品中代谢物的提前过滤,后续可以在更加全面的范围下筛查生物标志物。

(2)上机测定:通过高效液相色谱-飞行时间质谱联用仪对提取后的样品进行全扫描分析检测。其参数为:

高效液相色谱仪:Infinity 1260;

色谱柱:C18柱(2.1mm×50mm,2.5μm);

柱温:40℃;

流速:0.4mL/min;

流动相:0.1%甲酸-水溶液(正离子模式A相),2mM乙酸铵水溶液(负离子模式A相)及甲醇(B相);表1为梯度洗脱条件。

表1梯度洗脱条件

质谱仪:Triple TOF 4600;

全扫描模式:数据依赖模式;

离子源:正负电喷雾电离源;

全扫描质量范围:一级50~1250Da,二级30~1000Da;

碰撞能:±40eV;

碰撞能扩散:20eV;

离子源温度:550℃。

(3)污染物特征峰标注与识别:仪器分析后得到的谱图转化为WIFF文件,导入PeakView软件中提峰并对齐后进行分析,有标样的污染物通过比对保留时间和质谱碎片进行识别。没有标样的污染物通过分析质谱图的碎片利用Formula Finder功能计算结构。

其参数为:

提峰质量范围:50~1250Da;

提峰质量误差:0.01Da;

对齐保留时间误差:2min;

对齐质量误差:0.01Da;

识别质量误差:一级0.01Da,二级0.005Da。

(4)代谢物特征峰非目标标注:仪器分析后得到的谱图转化为ABF文件后导入MSDIAL软件中提峰并对齐。将除污染物特征峰之外的检出率大于80%的色谱峰作为潜在代谢物特征峰,统计每个峰对应的峰面积和质谱图列为色谱峰表。其参数为:

提峰质量范围:30~1250Da;

提峰质量误差:0.01Da;

对齐保留时间误差:0.5min;

对齐质量误差:0.015Da。

(5)生物标志物的非目标筛选:在SPSS软件中建立线性回归模型,因变量为(4)中非目标标注的潜在代谢物特征峰的峰面积,自变量为(3)中的污染物特征峰的峰面积,模型运行后显著性p<0.05的模型被视为有效模型,进行生物标志物的非目标筛选,初步筛选得到相关的生物标志物;

(6)生物标志物的高通量识别:对于步骤(5)初步筛选得到相关的生物标志物特征峰的一级谱图、二级谱图进行多平台联用的程序化鉴定。

首先在MSDIAL软件中分别加载正负离子模式的MSP文件进行代谢物库比对。未比对上的代谢特征峰上传至MetDNA平台(http://metdna.zhulab.cn/)上进行进一步识别。识别结果根据代谢物标准计划(MSI)的推荐的划分置信度:MSDIAL鉴定的代谢物为2级;MetDNA鉴定的“种子”代谢物为2级,MetDNA鉴定的其他代谢物为3级。MSDIAL参数为:

质量误差:一级0.01Da,二级0.05Da;

打分值阈值:80分。

(7)模型校正:通过多项校正建立的建立线性回归模型,减少假阳性结果,所述校正方法包括:

错误发现率校正:应用R软件通过qvalue命令将阈值p<0.05校正为FDR<20%;

干扰因素校正:对样本存在的干扰因素作为协变量加入到回归模型中;

联合暴露校正:同时研究多个污染物时,将多个污染物都作为潜在自变量进行多元步进回归,具体的,在分析某个污染物的模型时,将生物标志物作为因变量,将其他污染物选为自变量运行多元回归模型,选择“步进”方法,保留具有显著性的污染物作为最终自变量,删除不具有显著性的污染物自变量。

运行模型后得到以下三者的回归模型:①因变量:生物标志物;②自变量1:分析的某个特定污染物;③自变量2:其他污染物中具有显著性的污染物。此时②项(自变量1:分析的某个污染物)的显著性为校正后显著性p值,p值仍然小于0.05的代谢物作为该特定污染物对应的最终生物标志物,重复进行步骤(6)的生物标志物高通量识别的鉴定过程。

(8)生物标志物的代谢通路富集:将生物标志物富集至代谢通路,得到受到污染物扰动的代谢通路。

3.有益效果

相比于现有技术,本发明的有益效果为:

(1)本发明的基于污染物代谢扰动的非目标生物标志物高通量筛查方法,针对于检测得到的色谱图,识别出污染物特征峰后,在此基础上将污染物特征峰以外具有高检出率的其他色谱峰作为潜在代谢物,进行非目标的标注,通过建立污染物与潜在代谢物之间的线性回归模型,得到与污染物暴露相关的生物标志物的初步筛查结果,再通过对初步筛查出的生物标志物进行结构鉴定,识别出更少数量、更为准确、与污染物暴露相关度更高的生物标志物,将其富集至代谢通路,可以得到受污染物代谢扰动的代谢通路,本发明的方法从检测得到的所有色谱峰的分析开始,经过层层筛选,逐步缩小范围,最终得到具有更高准确度的筛查结果,不仅适合于高通量的污染物筛查,而且准确度更高。

(2)本发明的基于污染物代谢扰动的非目标生物标志物高通量筛查方法,利用首先进行潜在代谢物的非目标筛查,再逐步缩小范围得到小范围的生物标志物数量,可以有效克服针对生物标志物采用目标筛查时无法保证识别完全的缺陷,本发明的方法能够保证筛查的更全面,得到更为准确的生物标志物信息,可反映污染物对代谢扰动的强弱。

(3)本发明的基于污染物代谢扰动的非目标生物标志物高通量筛查方法,联合使用MS-DIAL软件和MetDNA平台对筛查出的生物标志物进行鉴定,提高了鉴定识别效率,增加了识别的生物标志物通量。

(4)本发明对统计分析模型进行联合暴露校正的方式进行校正,可以在多种污染物联合暴露的情况下,排除其他污染物的干扰而准确筛查某一特定污染物的生物标志物,可以使模型分析结果更准确,能更合理地分析实际暴露情况。降低了假阳性,提高了结果准确性。

附图说明

图1为实施例1中生物标志物非目标筛查方法的流程图;

图2为实施例1中样品分析得到的色谱流出图;

图3为实施例1中样品分析得到的一级质谱图;

图4为实施例1中样品分析得到的二级质谱图;

图5为实施例2中全氟辛烷磺酸与人血清白蛋白对接结果。

具体实施方式

下面结合具体实施例对本发明进一步进行描述。

实施例1

本实施例为血液介质中全氟污染物造成代谢扰动的非目标生物标志物高通量筛查方法,其步骤为:

(1)取0.5mL血清样本于15mL离心管中,加入0.26~0.28g硫酸镁-氯化钠混合物和1.5mL乙腈后立即涡旋,此时样品呈悬浊液状态,将样品超声萃取30min后离心并转移上清液。剩余残余物用95%乙腈-水溶液重复提取两次,合并提取液。氮吹至近干,转移至色谱样品瓶中用乙腈定容至100μL。

(2)上机测定:通过高效液相色谱-飞行时间质谱联用仪对提取后的样品进行全扫描分析检测。其参数为:

高效液相色谱仪:Infinity 1260;

色谱柱:C18柱(2.1mm×50mm,2.5μm);

柱温:40℃;

流速:0.4mL/min;

流动相:0.1%甲酸-水溶液(正离子模式A相),2mM乙酸铵水溶液(负离子模式A相)及甲醇(B相);

表2为梯度洗脱条件。

表2梯度洗脱条件

质谱仪:Triple TOF 4600;

全扫描模式:数据依赖模式;

离子源:正负电喷雾电离源;

全扫描质量范围:一级50~1250Da,二级30~1000Da;

碰撞能:±40eV;

碰撞能扩散:20eV;

离子源温度:550℃。

(3)污染物特征峰标注与识别:仪器分析后得到的谱图转化为WIFF文件,导入PeakView软件中提峰并对齐后进行分析。得到样品的色谱流出图,如图2所示。选取某一个色谱峰,可得到该物质的一级质谱图和二级质谱图,一级质谱图如图3所示,二级质谱图如图4所示。

本实施例关注的污染物为全氟化合物,是一种在环境及生物体广泛存在的新型污染物。传统的全氟羧酸和全氟磺酸通过与标准样品比对保留时间和质谱碎片进行识别。没有标样的新型全氟物质通过分析质谱图的碎片利用Formula Finder功能计算结构。其参数为:

提峰质量范围:50~1250Da;

提峰质量误差:0.01Da;

对齐保留时间误差:2min;

对齐质量误差:0.01Da;

识别质量误差:一级0.01Da,二级0.005Da。

通过上述步骤识别出的全氟污染物如表3所示。

表3识别出的全氟污染物

(4)代谢物特征峰非目标标注:仪器分析后得到的谱图转化为ABF文件后导入MSDIAL软件中提峰并对齐。将检出率大于80%的代谢物及每个峰对应的峰面积和质谱图列为色谱峰表。其参数为:

提峰质量范围:30~1250Da;

提峰质量误差:0.01Da;

对齐保留时间误差:0.5min;

对齐质量误差:0.015Da。

在分析了84个样品的情况下,最终标注了3798个代谢物,得到了84×3798的样品代谢物矩阵。

(5)生物标志物的非目标筛选:在SPSS软件中建立线性回归模型,因变量为(4)中非目标标注的代谢物特征峰峰面积,自变量分别为(3)中全氟污染物的峰面积,模型运行后显著性p<0.05的模型被视为有效模型。可得到与每种全氟化合物暴露相关的生物标志物数量。表4为该步骤得到的9种全氟化合物对应的生物标志物数量。

表4 9种全氟化合物对应的生物标志物数量

(6)生物标志物的高通量识别:对于步骤(5)得到的生物标志物的一级、二级谱图进行多平台联用的程序化鉴定。首先在MSDIAL软件中分别加载正负离子模式的MSP文件进行代谢物库比对。未比对上的代谢特征峰上传至MetDNA平台(http://metdna.zhulab.cn/)上进行进一步识别。识别结果根据代谢物标准计划(MSI)的推荐的划分置信度:MSDIAL鉴定的代谢物为2级;MetDNA鉴定的“种子”代谢物为2级,MetDNA鉴定的其他代谢物为3级,MSDIAL参数为:

质量误差:一级0.01Da,二级0.05Da;

打分值阈值:80分。

表5为该步骤识别出的9种全氟化合物对应的生物标志物数量。

表5识别出的9种全氟化合物对应的生物标志物数量

(7)校正生物标志物非目标筛查模型:通过多项校正减少假阳性结果,分别为:

错误发现率校正:应用R软件通过qvalue命令将阈值p<0.05校正为FDR<20%;

干扰因素校正:对样本存在的干扰因素(年龄、体重、居住地)作为协变量加入到回归模型中进行校正;

联合暴露校正:在分析某个全氟化合物的模型时,将生物标志物作为因变量,将其他8个全氟都选为自变量运行多元回归模型,选择“步进”方法,保留具有显著性的全氟作为自变量,删除不具有显著性的全氟自变量。运行模型后得到以下三者的回归模型:1)因变量:生物标志物;2)自变量1:分析的某个全氟化合物;3)自变量2:其他8个全氟中具有显著性的全氟化合物。此时2)项(自变量1:分析的某个全氟化合物)的显著性为校正后显著性p值,p值仍然小于0.05的代谢物为该全氟化合物对应的最终生物标志物。再利用步骤(6)进行生物标志物的高通量识别。

表6为利用校正后的模型,识别出的9种全氟化合物对应的生物标志物数量。

表6校正后9种全氟化合物对应的生物标志物识别数量

(8)生物标志物的代谢通路富集:将生物标志物富集到代谢通路上。受到全氟化合物扰动的代谢通路包括甾类激素生物合成、花生四烯酸代谢、α-亚麻酸代谢、亚油酸代谢、及视黄醇的新陈代谢。

对比例1

本对比例的操作步骤基本与实施例1相同,不同之处在于:步骤(7)中仅采用错误发现率校正和干扰因素校正,未采用联合暴露校正的方式对模型进行校正。表7为最终识别出的9种全氟化合物对应的生物标志物数量。

表7 9种全氟化合物对应的生物标志物识别数量

与实施例1得到的结果对比可知,未采用联合暴露校正的方式进行模型校正一定程度上会增加结果的假阳性。

实施例2

本实施例的操作步骤基本与实施例1相同,不同之处在于:步骤(5)前增加了针对全氟辛酸(PFOA)和全氟辛烷磺酸(PFOS)两种最广泛研究的全氟化合物的对接步骤,以对其代谢扰动能力进行预测。

将全氟辛酸(PFOA)和全氟辛烷磺酸(PFOS)的分子在SYBYL软件中进行结构优化:施加特里波(Tripos)力场、加斯泰格-赫克尔(Gasteiger-Huckel)电荷,和鲍威尔(Powell)梯度法法直至终止梯度降到0.001kcal/(mol·)以下。

下载人血清白蛋白结构后在SYBYL软件中提取配体形成对接口袋,去除晶体水并质子化。将优化后的全氟配体与蛋白口袋在SYBYL软件中对接,选择最优构象作为对接结果。对接结果的total score值越大,表示对接能力越强,则游离态的污染物相对少;反之则游离态污染物多,可能产生更强的瞬时代谢紊乱,产生的生物标志物更多。对接得到构象如图5所示。对接的结果如表8所示。

表8二者的对接结果

实施例1后续的生物标志物的筛查结果表明,全氟辛酸(PFOA)的确比全氟辛烷磺酸(PFOS)产生的瞬时代谢扰动能力强。在筛选大量污染物时,运用实施例2可以重点关注代谢扰动能力强的污染物,可减少工作量,提高效率。

16页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种多黏菌素B的氨基酸构型分析方法和N-多肽端序列测序方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!