一种蛋白质O-GalNAc修饰快速搜库和深度覆盖新方法

文档序号:1671885 发布日期:2019-12-31 浏览:8次 >En<

阅读说明:本技术 一种蛋白质O-GalNAc修饰快速搜库和深度覆盖新方法 (Novel method for protein O-GalNAc modification rapid library search and deep coverage ) 是由 秦伟捷 张万军 赵新元 李圆圆 焦丰龙 于 2019-09-10 设计创作,主要内容包括:本发明公开了一种蛋白质O-GalNAc修饰快速搜库和深度覆盖新方法。本发明一方面,通过对O-GalNAc糖肽谱图中氧鎓离子和唾液酸碎片的谱图提取和分类的策略,针对不同类型的谱图进行相应匹配的O-糖糖型数据库检索,大幅减少数据库检索空间,缩短搜库耗时;另一方面,针对完整O-GalNAc糖肽在质谱DDA扫描模式下的多样本检测中存在大量缺失值的问题,依据多样本实验中已鉴定的完整O-GalNAc糖肽,利用校正保留时间及质谱一级质量数匹配的方式,进行不同样本间完整O-GalNAc糖肽定量缺失值的补充,大幅提高了多样本检测时O-GalNAc糖肽的鉴定覆盖度,改善了定量重现性。(The invention discloses a novel method for protein O-GalNAc modification, rapid library search and deep coverage. On one hand, by the strategy of extracting and classifying the spectrograms of oxonium ions and sialic acid fragments in the O-GalNAc glycopeptide spectrogram, the O-glyco-saccharide type database retrieval which is correspondingly matched with different spectrograms is carried out, so that the database retrieval space is greatly reduced, and the time for searching the database is shortened; on the other hand, aiming at the problem that a large number of missing values exist in the multi-sample detection of the complete O-GalNAc glycopeptide in the mass spectrum DDA scanning mode, the supplement of the quantitative missing values of the complete O-GalNAc glycopeptide among different samples is carried out by utilizing the mode of correcting retention time and mass spectrum first-class mass number matching according to the complete O-GalNAc glycopeptide identified in a multi-sample experiment, the identification coverage of the O-GalNAc glycopeptide in the multi-sample detection is greatly improved, and the quantitative reproducibility is improved.)

一种蛋白质O-GalNAc修饰快速搜库和深度覆盖新方法

技术领域

本发明涉及生物信息学领域,具体涉及一种蛋白质O-GalNAc修饰快速搜库和深度覆盖新方法。

背景技术

O-乙酰氨基葡萄糖(O-GlcNAc)修饰系发生在蛋白质丝氨酸、苏氨酸羟基末端连接的乙酰氨基葡萄糖上的单糖基修饰。O-GalNAc修饰是一种重要的蛋白质翻译后修饰,其在多种生物学过程以及疾病的发生发展中发挥重要的作用。因此,对于蛋白质O-GalNAc修饰的解析对于深入了解生命活动的本质以及疾病的诊断和预后分析具有重要意义。目前,基于生物质谱的蛋白质翻译后修饰研究是O-GalNAc修饰最常用的解析手段,然而目前对于O-GalNAc修饰的完整糖肽的分析在质谱数据解析方面存在重大的挑战。由于O-GalNAc修饰发生在肽段的任意丝氨酸或苏氨酸残基上,并且O-GalNAc组成复杂,糖型繁多(几十种),因此导致数据检索时,检索空间大,检索时间冗长等困难。目前O-GalNAc的研究通常采用减少候选糖型的方法缩短搜库时间,然而该策略下,会损失部分糖型信息,导致鉴定的结果不准确。

除了检索困难以外,基于质谱的O-GalNAc修饰鉴定由于母离子选择的随机性以及实际样本中O-GalNAc肽段丰度低,现有富集策略有限,并且完整的O-GalNAc糖肽质谱响应差等原因,众多低丰度的O-GalNAc糖肽无法有效触发二级碎裂,导致相应的二级谱图缺失,或者二级谱图中碎片离子过少,难以通过传统的数据库检索方法解析。从而在多组样本分析时,O-GalNAc糖肽鉴定存在明显的随机性和广泛的定量缺失值。

发明内容

本发明所要解决的技术问题是如何缩短蛋白质O-GalNAc修饰搜库时间和提高覆盖深度。

第一方面,本发明要求保护一种蛋白质O-GalNAc修饰搜库方法。

本发明所要求保护的蛋白质O-GalNAc修饰搜库方法,可包括如下步骤:

(A1)从O-GalNAc修饰肽段的质谱谱图中提取糖肽谱图,排除非糖肽谱图对检索的干扰;

(A2)根据是否含有唾液酸碎片,对步骤(A1)中所得的所述糖肽谱图进行分类,分为含有唾液酸碎片的谱图和不含有唾液酸碎片的谱图;

(A3)对所述含有唾液酸碎片的谱图进行含唾液酸O-GalNAc糖型的数据库检索,对所述不含唾液酸碎片的谱图进行不含唾液酸O-GalNAc糖型的数据库检索。

在步骤(A1)中,所述从O-GalNAc修饰肽段的质谱谱图中提取糖肽谱图是从所述O-GalNAc修饰肽段的质谱谱图中提取含有氧鎓离子碎片的谱图。

进一步地,所述氧鎓离子碎片大小为126Da、138Da、168Da、186Da和204Da(当谱图里同时含有这5种大小的氧鎓离子碎片则说明这个谱图对应的肽段是糖肽,该图谱为糖肽谱图;否则视为非糖肽图谱)。

在步骤(A2)中,所述唾液酸碎片大小为274Da和292Da(当谱图里同时含有这两种大小的唾液酸碎片则说明该图谱为所述含有唾液酸碎片的谱图;反之,则视为所述不含有唾液酸碎片的谱图)。

更进一步地,步骤(A1)和(A2)中,所述从O-GalNAc修饰肽段的质谱谱图中提取糖肽谱图,以及根据是否含有唾液酸碎片,对步骤(A1)中所得的所述糖肽谱图进行分类,具体可按照包括如下步骤的方法进行:首先,利用ProteinWizard软件将质谱raw文件转换成包括有O-GalNAc糖肽和非O-GalNAc糖肽的二级谱图信息的mgf文件;然后根据所述氧鎓离子碎片(126Da、138Da、168Da、186Da和204Da)提取得到相应的糖肽谱图;再根据是否含有所述唾液酸碎片(274Da和292Da)将所得糖肽图谱分为含有唾液酸碎片的谱图和不含有唾液酸碎片的谱图。

在步骤(A3)中,可使用商业化的Byonic软件并使用软件自带的O-GalNAc数据库对所述含有唾液酸碎片的谱图进行含唾液酸O-GalNAc糖型的数据库检索,对所述不含唾液酸碎片的谱图进行不含唾液酸O-GalNAc糖型的数据库检索。

所述Byonic软件自带的O-GalNAc数据库具有70种糖型,包括43种不含唾液酸糖型和27种含唾液酸糖型。

进一步地,在利用所述Byonic软件进行数据库检索时,参数设置如下:最大漏切位点设为2,固定修饰为Cysteine carbamidomethylation(半胱氨酸的脲甲基化),可变修饰为N-terminal acylation(N-末端酰化)、methionine oxidation(蛋氨酸氧化),一级质量范围设为10ppm,二级质量范围设为0.02Da。针对不同的谱图,选用相应的糖型数据库,其中,含唾液酸碎片的谱图,搜库时采用含唾液酸的糖型数据库,共27种O-GalNAc糖型,不含唾液酸碎片的谱图,搜库时采用不含唾液酸的糖型数据库,共43种糖型。搜库结果中Byonicscore设为最低300分,protein FDR设为1%。对搜库产生的excel文件中spectra列表进行鉴定结果筛选,规则为:对所有spectra信息分条目进行提取,其中对数据提取限制规则为Byonic score≥300分;去除反库结果;存在糖基化修饰。对提取到的条目进行数据整理,包括保留时间数值、肽段序列、糖型组成。

在步骤(A3)中,检索结果为含唾液酸O-GalNAc糖型的数据库检索结果和不含唾液酸O-GalNAc糖型的数据库检索合并所得。

上述方法还可包括利用步骤(A3)中得到的检索结果得到的信息进行一级峰面积提取,实现O-GalNAc完整糖肽(有MS/MS信息)定量的过程。过程如下:通过ProteinWizard软件将质谱原始数据转换成包含一级及二级所有荷质比信息及信号强度信息的mzXML格式文件,进一步利用R语言程序包readmzXML读取mzXML文件中所有一级图谱信息,将一级图谱按时间顺序排列写入文本。对由上述Byonic搜库提取的信息文件(即步骤(A3)中得到的检索结果)进行整合,去除冗余项,提取保留时间及准确质量数信息,计算此质量数下第一、第二和第三同位素峰信息,与mzXML中提取到的一级信息进行匹配,匹配误差为10个ppm,匹配限定三个同位素峰必须同时被检测并在匹配误差范围内,将峰提取结果输出到文本文件中,并对提取到的峰强度信息进行峰面积提取。提取原则为3个连续出现的谱图中,至少有2个匹配到的质量数。用两张谱图相差的保留时间乘以两张谱图中峰强的平均值计算峰面积。

进一步地,所述方法针对完整O-GalNAc糖肽在质谱DDA扫描模式下的多样本检测中存在大量缺失值的问题,还可包括在多样本检测时对不同样本中缺失的O-GalNAc糖肽信息进行填充和/或定量分析的步骤,具体如下:先利用多样本中的已鉴定到的完整O-GalNAc糖肽(有MS/MS信息)的实际保留时间计算得到待补充的对应目标缺失O-GalNAc糖肽的参考保留时间;再对所述待补充的对应目标缺失O-GalNAc糖肽的参考保留时间进行校正,得到对应的校正保留时间;最后通过所述校正保留时间和准确的质谱一级质量数进行一级质谱峰匹配和峰面积提取(在缺失样本的raw文件中提取目标O-GalNAc糖肽的定量信息)。

假定一组待进行蛋白质O-GalNAc修饰鉴定的样本,样本数共计X个。每个样本进行一次质谱分析。统计在至少N次质谱分析(将所述至少N次的实际次数记为n,对应n个样本)中均鉴定到的完整O-GalNAc糖肽的数据,共得到m条完整O-GalNAc糖肽的数据。其中,X、N和m均为正整数。n小于X,且N/X大于1/12。本发明中所述在多样本检测时对不同样本中缺失的O-GalNAc糖肽信息进行填充指的是根据在所述n次质谱分析中均鉴定到的完整O-GalNAc糖肽的数据补充在另外(X-n)个样本中缺失的对应O-GalNAc糖肽的数据。所述“在另外(X-n)个样本中缺失的对应O-GalNAc糖肽”即为所述目标缺失O-GalNAc糖肽。在所述另外(X-n)个样本中缺失的每一条所述目标缺失O-GalNAc糖肽在n次质谱分析(对应n个样本)中均对应有已鉴定到的相应完整O-GalNAc糖肽数据。

将来自于所述另外(X-n)个样本中某一样本A的某条待补充的所述目标缺失O-GalNAc糖肽记为O-GalNAc糖肽1。

所述样本A中所述O-GalNAc糖肽1的校正保留时间是“所述O-GalNAc糖肽1的参考保留时间”加上“在所述样本A的质谱鉴定数据中,在所述O-GalNAc糖肽1的参考保留时间前后5分钟范围内,所鉴定到的所有完整O-GalNAc糖肽的平均保留时间偏移”。

其中,所述O-GalNAc糖肽1的参考保留时间是在所述n次质谱分析中所述O-GalNAc糖肽1的实际保留时间的中位数。所述“在所述样本A的质谱鉴定数据中,在所述O-GalNAc糖肽1的参考保留时间前后5分钟范围内,所鉴定到的所有完整O-GalNAc糖肽的平均保留时间偏移”是在所述样本A的质谱鉴定数据中,在所述O-GalNAc糖肽1的参考保留时间前后5分钟范围内,所鉴定到的所有完整O-GalNAc糖肽的实际保留时间和参考保留时间的平均差值。

更加具体地,在所述方法中,所述样本A中所述O-GalNAc糖肽1肽的校正保留时间,具体可按照如下步骤计算:

(a1)利用公式I计算得到前文所述“m条完整O-GalNAc糖肽”中每一条在所述n次质谱分析中的实际保留时间中位数,得到所述“m条完整O-GalNAc糖肽”中每一条的参考保留时间。

mRTOG=median(RTOG,run1,RTOG,run 2,…RTOG,run n) 公式I

式中,mRTOG为某条O-GalNAc糖肽的参考保留时间,RTOG,run n为第n次实验时得到的该条O-GalNAc糖肽的实际保留时间。

通过该步骤可以获得待补充的那条所述目标缺失O-GalNAc糖肽(记为O-GalNAc糖肽1)的参考保留时间。

(a2)通过公式II计算,所述(X-n)个样本中某一样本A的质谱鉴定数据中,在所述O-GalNAc糖肽1的参考保留时间前后5分钟范围内,所鉴定到的每一条完整O-GalNAc糖肽的实际保留时间和参考保留时间的差值;即保留时间偏移。

△RTOG=RTOG-mRTOG 公式II

式中,△RTOG为在所述样本A的质谱鉴定数据中,在所述O-GalNAc糖肽1的参考保留时间前后5分钟范围内,成功鉴定的某一完整O-GalNAc糖肽A的保留时间偏移;RTOG为在所述样本A的质谱鉴定数据中,在所述O-GalNAc糖肽1的参考保留时间前后5分钟范围内,成功鉴定的所述完整O-GalNAc糖肽A的实际保留时间;mRTOG为所述完整O-GalNAc糖肽A的参考保留时间。

(a3)利用公式III计算,在所述样本A的质谱鉴定数据中,在所述O-GalNAc糖肽1的参考保留时间前后5分钟范围内,所鉴定到的所有完整O-GalNAc糖肽的实际保留时间和参考保留时间的平均差值,即平均保留时间偏移。

a△RTOG 1=average(△RTOG 2,…,△RTOG a) 公式III

式中,a△RTOG1为在所述样本A的质谱鉴定数据中,在所述O-GalNAc糖肽1的参考保留时间前后5分钟范围内,所鉴定到的所有完整O-GalNAc糖肽的平均保留时间偏移;△RTOG a为在所述样本A的质谱鉴定数据中,在所述O-GalNAc糖肽1的参考保留时间前后5分钟范围内,所鉴定到的完整O-GalNAc糖肽a的保留时间偏移。

(a4)通过公式IV计算获得所述样本A中所述O-GalNAc糖肽1的校正保留时间。

sRTOG 1=mRTOG 1+a△RTOG1 公式IV

式中,sRTOG 1为所述样本A中所述O-GalNAc糖肽1的校正保留时间;mRTOG 1为所述O-GalNAc糖肽1的参考保留时间;a△RTOG1为在所述样本A的质谱鉴定数据中,在所述O-GalNAc糖肽1的参考保留时间前后5分钟范围内,所鉴定到的所有完整O-GalNAc糖肽的平均保留时间偏移。

步骤(A1)中,所述O-GalNAc修饰肽段的质谱谱图可按照包括如下步骤的方法获得:(b1)将待研究的蛋白质(如尿蛋白)酶解(如胰蛋白酶);(b2)将酶解肽段进行亲水相互作用色谱以富集糖肽,然后去除N糖基化肽段上的糖链(如使用PNGase F酶酶切过夜),得到待上样蛋白样品;(b3)将所述待上样蛋白样品使用C18反相色谱柱分离,然后进行质谱检测,从而得到所述O-GalNAc修饰肽段的质谱谱图。

在本发明的

具体实施方式

中,将蛋白样品的胰蛋白酶酶解肽段,经HILIC富集后的糖肽产物使用C18反相色谱柱分离时的色谱条件具体为:C18预柱;C18反相分析柱;以600nL/min的流速进行梯度洗脱(流动相A为0.1%甲酸水溶液,流动相B为0.1%甲酸-99.9%乙腈,%均表示体积百分含量;流动相由所述流动相A和所述流动相B混合而成);梯度洗脱为:0min,6%B;0-8min(不含端点0),6-9%B;8-24min(不含端点8),9-14%B;24-60min(不含端点24),14-30%B;60-75min(不含端点75),30-40%B;75-78min(不含端点78),40-95%B(解释说明:“0-8min(不含端点0),6-9%B”表示从0到8分钟,所述流动相B在所述流动相中的比例从6%线性递增到9%;其后类似,所述流动相B的含量范围均表示相应时间内从低值线性递增到高值)。进行所述质谱检测为分离样品经ESI喷雾离子源进入质谱分析,ESI源喷雾电压为2.3kV,离子传输管温度为320℃,质谱数据采集在数据依赖模式下(Data-dependent acquisition,DDA)模式下进行,设置300-1400Da范围一级质谱全扫描,扫描分辨率120,000,选择一级质谱中的信号最高的20个母离子经高能碰撞诱导解离模式(Higher-Energy Collisional Dissociation,HCD)后进行二级质谱分析,分辨率为15,000,离子注入时间为35ms,碰撞能量为35%。

具体地,将所述待上样蛋白样品使用C18反相色谱柱分离,然后进行质谱检测,具体是利用Easy nLC-1000纳升级液相色谱系统串联Q Exactive HF质谱仪(Thermo FisherScientific,USA)完成的。

第二方面,本发明要求保护前文第一方面中所述方法在鉴定蛋白质O-GalNAc修饰中的应用。

在本发明中,所述蛋白质为含有O-GalNAc修饰的蛋白,包括组织中提取的蛋白如肝脏蛋白、脑组织蛋白、肾组织蛋白等,体液中提取的蛋白如尿液蛋白、血清/浆蛋白、唾液蛋白等,人工培养的细胞中提取的蛋白如肾上皮细胞(293T细胞系)蛋白,***细胞(HeLa细胞系)蛋白质等。

本发明特点:利用完整O-GalNAc糖肽谱图中氧鎓离子碎片及唾液酸碎片进行谱图提取分类,针对不同类型谱图进行对应的O-GalNAc糖型数据库检索,可大幅度缩小检索空间,提高搜库速度;利用从多组样本中的到的O-GalNAc糖肽校正色谱保留时间和质谱一级质量数,对缺失的O-GalNAc糖肽信息进行填充,大幅度的改善了定量重现性,提高了O-GalNAc糖肽的鉴定覆盖度。

实验证明,本发明的蛋白质O-GalNAc修饰快速搜库和深度覆盖新方法,可大幅减少数据库检索空间,相比传统搜库方法,耗时缩短20倍,能有效填充多样本检测中完整O-GalNAc糖肽在质谱DDA扫描模式下的存在大量缺失值,大幅改善了定量重现性。

本发明具有如下有益效果:

1、通过对O-GalNAc糖肽谱图中氧鎓离子和唾液酸碎片的谱图提取和分类的策略,针对不同类型的谱图进行相应匹配的O-糖糖型数据库检索,大幅减少了数据库检索空间,缩短了搜库耗时。

2、针对完整O-GalNAc糖肽在质谱DDA扫描模式下的多样本检测中存在大量缺失值的问题,依据多样本实验中已鉴定的完整O-GalNAc糖肽(有MS/MS鉴定),利用校正的色谱保留时间及质谱一级质量数匹配的方式,进行不同样本间完整O-GalNAc糖肽定量缺失值的补充,大幅提高了多样本检测时O-GalNAc糖肽的鉴定覆盖度,改善了定量重现性。

附图说明

图1为不同数据库检索策略下完整O-GalNAc糖肽搜库时间统计。每组中四个柱形从左到右的顺序与图例从上到下的顺序一致。

图2为36例健康人尿样中O-GalNAc糖肽定量缺失值填充前后对比图。a为填充前;b为填充后。灰色的是能鉴定到的,白色部分是空缺,经过填充,明显图b里灰色部分比例上升。

图3为同一例样品连续5次质谱鉴定正常搜库鉴定到的O-GalNAc糖肽和人为屏蔽质谱二级信息,用所述的保留时间结合一级质谱质量数匹配的方法鉴定得到的O-GalNAc糖肽。

具体实施方式

下述实施例中所使用的实验方法如无特殊说明,均为常规方法。

下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。

实施例1、尿蛋白O-GalNAc谱图分类搜索

步骤1、尿蛋白提取与酶切

取10mL健康人晨尿中段,12000g离心15分钟,去除杂质,取上清部分,转移至50mL离心管,加入3倍体积预冷丙酮,混合均匀后于-20℃静置2-4小时进行尿蛋白沉淀。沉淀结束后,12000g离心15分钟,收集沉淀部分,干燥后加入裂解液(8M尿素,0.1M Tris-HCl,pH=8.5),利用超声破碎机进行尿蛋白超声助溶(30%功率,每次超声2秒,重复10次),超声结束后,16000g离心15分钟,取上清部分,即尿蛋白提取液。酶切采用超滤管辅助法,首先向所得尿蛋白提取液中加入二硫苏糖醇使其浓度为10mM(二硫苏糖醇的作用是打开蛋白质的二硫键,让其空间结构变简单,有利于质谱鉴定),37℃孵育4小时后14000g离心15分钟,将溶剂置换为200μL 8M尿素,加入200μL 50mM碘乙酰胺,避光反应40分钟,14000g离心15分钟置换溶剂为200μL 50mM碳酸氢铵,重复3次。按蛋白:胰蛋白酶质量比(100:1)加入胰蛋白酶(PromegaTM Sequencing Grade Modified Trypsin,Lyophilized,货号PRV5111),37℃孵育12小时。酶切结束后,14000g离心15分钟,加入200μL水,14000g离心15分钟,收集肽段溶液,冻干备用。

步骤2、亲水相互作用色谱用于糖肽富集

称取亲水填料,比例为肽段:填料=(1:50)(质量比),重悬于100μL 0.1%(体积百分含量)甲酸(TFA)水溶液中,涡旋混合15分钟,离心后弃去上清,加入100μL bindingbuffer(80%乙腈,5%甲酸,15%水,%均表示体积百分含量),涡旋混合15分钟,离心后弃去上清,重复一次。将待富集的尿蛋白酶解肽段溶于100μL binding buffer后,加入到活化后的填料中,涡旋混合孵育2小时,取200μL移液枪头,在下层垫入一层C8膜,作为筛板,将肽段和填料悬浮混合液转移至枪头中,通过离心将液体与填料分离。用100μL bindingbuffer清洗填料3次,最后用100μL eluting buffer(0.5%甲酸水溶液,%表示体积百分含量)洗脱肽段,重复两次,收集洗脱液,浓缩干燥后重溶于20μL 50mM碳酸氢铵水溶液中,加入100U PNGase F酶(New England BioLabs公司,货号P0705S,1U的定义是在37℃下在10微升的总反应体积中在1小时内从10微克的RNase B(一种糖蛋白)中除去>95%的糖链所需的酶量)酶切过夜,去除N糖基化肽段上的糖链,酶切结束后,脱盐热干,重溶于0.1%(体积百分含量)甲酸水溶液中,质谱分析。

步骤3、液相色谱串联质谱分析

Nano LC-MS/MS质谱鉴定在Easy nLC-1000纳升级液相色谱系统串联Q ExactiveHF质谱仪(Thermo Fisher Scientific,USA)上完成,将酶切产物热干后重溶于0.1%(体积百分含量)甲酸(TFA)水溶液中,14,000g离心10min后取上清进样分析,色谱条件为:C18预柱;C18反相分析柱;以600nL/min的流速进行梯度洗脱(流动相A为0.1%FA水溶液,流动相B为0.1%FA-99.9%ACN,%均表示体积百分含量;流动相由所述流动相A和所述流动相B混合而成),梯度洗脱为:0min,6%B;0-8min(不含端点0),6-9%B;8-24min(不含端点8),9-14%B;24-60min(不含端点24),14-30%B;60-75min(不含端点75),30-40%B;75-78min(不含端点78),40-95%B(解释说明:“0-8min(不含端点0),6-9%B”表示从0到8分钟,所述流动相B在所述流动相中的比例从6%线性递增到9%;其后类似,所述流动相B的含量范围均表示相应时间内从低值线性递增到高值)。分离的样品经ESI喷雾离子源进入质谱分析,ESI源喷雾电压为2.3kV,离子传输管温度为320℃,质谱数据采集在数据依赖模式下(Data-dependentacquisition,DDA)模式下进行,设置300-1400Da范围一级质谱全扫描,扫描分辨率120,000,选择一级质谱中的信号最高的20个母离子经高能碰撞诱导解离模式(Higher-EnergyCollisional Dissociation,HCD)后进行二级质谱分析,分辨率为15,000,离子注入时间为35ms,碰撞能量为35%。

步骤4、完整O-GalNAc糖肽数据库检索

首先利用ProteinWizard软件将得到的质谱raw文件转换成mgf文件,此文件中包含有所有O-GalNAc糖肽及非糖肽的二级谱图信息,利用氧鎓离子碎片126Da、138Da、168Da、186Da和204Da进行O-GalNAc谱图筛选(当谱图里同时含有这5种大小的氧鎓离子碎片则说明这个谱图对应的肽段是糖肽,该图谱为糖肽谱图;否则视为非糖肽图谱)。另外,根据谱图中是否含有唾液酸碎片274Da和292Da,将谱图进一步分成含有唾液酸碎片谱图和非不含唾液酸碎片谱图(当谱图里同时含有这两种大小的唾液酸碎片则说明该图谱为所述含有唾液酸碎片的谱图;反之,则视为所述不含有唾液酸碎片的谱图),利用Byonic软件进行数据库检索,参数设置如下:最大漏切位点设为2,固定修饰为Cysteine carbamidomethylation(半胱氨酸脲甲基化),可变修饰为N-terminal acylation(N-端酰化)、methionineoxidation(蛋氨酸氧化),一级质量范围设为10ppm,二级质量范围设为0.02Da,针对不同的谱图,选用相应的糖型数据库,其中,含唾液酸碎片的谱图,搜库时采用含唾液酸的糖型数据库,共27种O-GalNAc糖型,不含唾液酸碎片的谱图,搜库时采用不含唾液酸的糖型数据库,共43种糖型。搜库结果中Byonic score设为最低300分,protein FDR设为1%。对搜库产生的excel文件中spectra列表进行鉴定结果筛选,规则为:对所有spectra信息分条目进行提取,其中对数据提取限制规则为Byonic score≥300分;去除反库结果;存在糖基化修饰。对提取到的条目进行数据整理,包括保留时间数值、肽段序列、糖型组成。将含唾液酸谱图得到的搜库提取结果与非含唾液酸谱图得到的结果进行整合。

选取3个样本评价发展的搜库方法,结果如图1所示,3个样本数据检索时间趋于一致,由最初单个样本需要大约120小时(没有进行谱图筛选,用商品化的Byonic软件直接对生成的质谱文件进行搜库)缩短至单个样本需要大约6小时。因此,通过此谱图分类检索策略,可以使数据检索时间缩短20倍,大大的增加了数据检索的时效性。

比对3个样本的搜库结果,样本1直接搜库结果鉴定到332条O糖肽,提取含有氧鎓离子的谱图搜库结果鉴定到332条O糖肽,含有唾液酸的谱图搜库结果鉴定到312条O糖肽,不含有唾液酸的谱图搜库结果鉴定到3条O糖肽;样本2直接搜库结果鉴定到409条O糖肽,提取含有氧鎓离子的谱图搜库结果鉴定到409条O糖肽,含有唾液酸的谱图搜库结果鉴定到361条O-糖肽,不含有唾液酸的谱图搜库结果鉴定到4条O糖肽;样本3直接搜库结果鉴定到462条O糖肽,提取含有氧鎓离子的谱图搜库结果鉴定到462条O糖肽,含有唾液酸的谱图搜库结果鉴定到392条O-糖肽,不含有唾液酸的谱图搜库结果鉴定到2条O糖肽。由结果可知,提取含有氧鎓离子的谱图进行搜库结果与原始文件搜库结果几乎一致,而进一步提取含有唾液酸和不含有唾液酸的谱图进行搜库的整合鉴定数比提取含有氧鎓离子的谱图进行搜库结果与原始文件搜库结果仅有略微下降,但是搜库时间大幅缩短。

实施例2、利用色谱保留时间校正和精确荷质比进行O-GalNAc糖肽匹配及定量缺失值填充

步骤1-步骤4同实施例1。

步骤5、色谱保留时间校正和定量缺失值填充

对16例健康男性样本和20例健康女性样本raw文件进行Byonic数据库检索并提取信息后,进行36例样本中鉴定结果的保留时间预测。校正方法如下:首先,对36个文件中至少鉴定到3次(36个样本中至少有3个样本中鉴定到)的O-GalNAc糖肽认定为高可信肽段,对其进行定量分析。共发现487条高可信肽段,分别求出这487个O-GalNAc糖肽的参考保留时间(具体方法参见前文)。接下来,针对这487个O-GalNAc糖肽中任意一条O-GalNAc糖肽,如果在其中某次实验中,未鉴定到,则使用此样本的质谱raw文件中,该糖肽的参考保留时间前后5分钟内鉴定到的其他完整O-GalNAc糖肽的实际保留时间与其对应的参考保留时间之间差值的平均数,对此未鉴定糖肽的参考保留时间进行校正(具体方法参见前文),利用校正后所得的校正保留时间及质量数进行一级质谱峰匹配和峰面积提取(具体方法参见前文)。

对男16例,女20例共36例尿液样本中,完整O-GalNAc糖肽的定量缺失值进行填充,结果如图2所示,图中灰色表示鉴定到的糖肽,白色表示缺失。经计算,在填充前,缺失值高达65.5%,填充之后,缺失值降低至34.1%,有效数据值提升了接近一倍,极大的避免了缺失值带来的定量问题。

实施例3、利用色谱保留时间校正和精确荷质比进行O-GalNAc糖肽匹配及定量缺失值填充准确性验证

步骤1-步骤4同实施例1。

步骤5、色谱保留时间校正和定量缺失值填充

将来源于同一例尿蛋白糖肽的样本等分5份后按实施例1步骤4的方法采集质谱数据,对5份尿蛋白糖肽样本raw文件进行Byonic数据库检索并提取信息后,进行5份样本中鉴定结果的保留时间预测。校正方法如下:首先,对5个文件中合计鉴定到有MS/MS信息的O-GalNAc糖肽认定为高可信糖肽,对其进行定量分析。共发现267条高可信糖肽,分别求出这267条O-GalNAc糖肽的参考保留时间(具体方法参见前文)。接下来,针对这267条O-GalNAc糖肽中任意一条O-GalNAc糖肽,如果在其中某次实验中,未鉴定到,则使用此样本的质谱raw文件中,该糖肽的参考保留时间前后5分钟内鉴定到的其他完整O-GalNAc糖肽的实际保留时间与其对应的参考保留时间之间差值的平均数,对此未鉴定糖肽的参考保留时间进行校正(具体方法参见前文),利用校正后所得的校正保留时间及质量数进行一级质谱峰匹配和峰面积提取(具体方法参见前文)。结果如图3所示,5次实验初始O-GalNAc糖肽鉴定规模分别为157,167,177,170和163条,而填充后增加到225、246、239、237和240条,鉴定规模提升35-47%。

步骤6、O-GalNAc糖肽填充准确性和可信度评价

选择5次平行实验中的任意1次,人为隐藏其中所有O-GalNAc糖肽的MS/MS信息,采用所述的预测保留时间结合准确一级质量数匹配的方式进行O-GalNAc糖肽填充,所述的匹配策略可以恢复91.7%隐藏的O-GalNAc糖肽,说明该填充方法的假阴性率较低。此外,将任意1次实验中通过MS/MS鉴定到的非O-GalNAc糖肽作为参照,采用上述预测保留时间结合准确一级质量数匹配的方式与对缺失的O-GalNAc糖肽进行填充,发现仅有低于1%的缺失O-GalNAc糖肽可被非O-GalNAc糖肽所填充,说明该填充方法的假阳性率较低。上述数据证明该方法填充的O-GalNAc糖肽具有高的准确性和可信度。

13页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:用于二抗检测系统的聚酰胺胺结构多聚物及其制备方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!