一种不依赖数据库搜索的蛋白质生物标志物鉴定方法

文档序号:1478003 发布日期:2020-02-25 浏览:10次 >En<

阅读说明:本技术 一种不依赖数据库搜索的蛋白质生物标志物鉴定方法 (Method for identifying protein biomarkers independent of database search ) 是由 朱云平 常乘 刘祎 贺福初 于 2019-10-31 设计创作,主要内容包括:本发明公开了一种不依赖数据库搜索的蛋白质生物标志物鉴定方法,其步骤包括:1)提取训练数据集中每一个质谱原始文件中的离子流色谱峰;2)对离子流色谱峰列表进行预处理,将共同检测到的质荷比对应的信号强度值的平均值和标准差,以点(平均值,标准差)的形式顺序排列成特征向量;3)采用深度学习技术,以用预处理后的离子流色谱峰列表为训练集,构建实验组与对照组样本分类模型;4)用训练好的分类模型对待鉴定实验数据进行类别鉴定,区分其属于实验组还是对照组;5)确认鉴定结果准确率符合要求后,输出分类模型所采用的关键特征向量;6)利用靶向蛋白质组学技术确定所述关键特征向量对应的肽段及蛋白质序列,作为生物标志物。(The invention discloses a protein biomarker identification method independent of database search, which comprises the following steps: 1) extracting ion current chromatographic peaks in each mass spectrum original file in the training data set; 2) preprocessing an ion current chromatographic peak list, and sequentially arranging the average value and the standard deviation of signal intensity values corresponding to the commonly detected mass-to-charge ratios into a characteristic vector in a point (average value and standard deviation) form; 3) establishing sample classification models of an experimental group and a control group by using the ion flow chromatographic peak list after pretreatment as a training set by adopting a deep learning technology; 4) carrying out category identification on experimental data to be identified by using a trained classification model, and distinguishing whether the experimental data belongs to an experimental group or a control group; 5) after confirming that the accuracy of the identification result meets the requirement, outputting a key feature vector adopted by the classification model; 6) and determining the peptide segment and the protein sequence corresponding to the key feature vector by utilizing a targeted proteomics technology to serve as biomarkers.)

一种不依赖数据库搜索的蛋白质生物标志物鉴定方法

技术领域

本发明涉及蛋白质组学中的蛋白质生物标志物鉴定方法,特别涉及鸟枪法蛋白质组学中的蛋白质生物标志物鉴定方法。

背景技术

生物标志物(Biomarker)是指“一种可客观检测和评价的指标,可作为正常生物学过程、病理过程或治疗干预药理学反应的指示因子”,对于筛查、诊断或监测疾病,指导分子靶向治疗以及评估治疗效果等具有重要意义(参考文献:Ludwig JA,WeinsteinJN.Biomarkers in cancer staging,prognosis and treatment selection.Naturereviews Cancer 5,845-856(2005).)。蛋白质作为中心法则末端承担生命活动的载体,由于存在可变剪切、单核苷酸多态性及翻译后修饰,其状态包含更多维度的信息,与生命活动的各个方面息息相关,更加适合作为生物标志物。然而,和DNA、RNA来源的标志物相比,由于蛋白质的表达量动态范围更大、蛋白质组数据复杂度更高等原因,蛋白生物标志物的发现更具挑战性(参考文献:Rifai N,Gillette MA,Carr SA.Protein biomarker discoveryand validation:the long and uncertain path to clinical utility.Nat Biotechnol24,971-983(2006).)。目前,作为蛋白质组学研究的主流方法,质谱技术凭借其高通量、高灵敏度等优点已经被广泛应用于蛋白生物标志物筛选的研究中(参考文献:常乘,朱云平.基于质谱的定量蛋白质组学策略和方法研究进展.中国科学:生命科学45,425-438(2015).)。目前蛋白生物标志物的筛选大多基于实验组与对照组之间的蛋白表达丰度差异,主要可以分为两种策略。一种是经典的生物标志物筛选策略,可分为蛋白生物标志物发现、确认和验证三个阶段,由于其各阶段所需的样本数目是从少到多,而候选蛋白数目是从多到少,因此也被称为“三角”策略(参考文献:Whiteaker JR,et al.A targetedproteomics-based pipeline for verification of biomarkers in plasma.NatBiotechnol 29,625-634(2011).)。另一种策略是类似于全基因组关联分析的“矩形”策略(参考文献:Geyer PE,Holdt LM,Teupser D,Mann M.Revisiting biomarker discoveryby plasma proteomics.Mol Syst Biol 13,942(2017).),在最初的发现阶段就进行大队列鸟枪法蛋白质组数据分析,发现蛋白质表达量、修饰状态的变化和疾病状态的相关性,验证阶段同样采用大规模的鸟枪法蛋白质组数据。上述两种策略中研究人员均依赖于蛋白质组数据的定性定量结果的准确性和灵敏性。然而,目前质谱数据的谱图解析率仍然不高,基于定性定量结果寻找肽段/蛋白标志物会漏掉不少信息。且传统筛选策略是以单个标志物的效果为评判标准,而不是从基于表达模式的整体层面筛选标志物。

发明内容

针对现有技术存在的技术问题,本发明的目的是利用深度学习方法,以质谱原始文件作为输入数据,在不依赖数据库搜索的情况下提取训练数据集的关键特征向量,鉴定其他未知待识别质谱文件的类别。

步骤1)提取质谱原始文件的离子流色谱峰;

步骤2)对离子流色谱峰列表进行预处理,将共同检测到的质荷比对应的信号强度值的平均值和标准差,以点(平均值,标准差)的形式顺序排列成特征向量并保存;

步骤3)采用深度学习技术,以预处理后的离子流色谱峰列表为训练集,构建实验组与对照组样本分类模型;

步骤4)用训练好的分类模型对其它待鉴定实验数据进行类别鉴定,区分其属于实验组还是对照组;

步骤5)确认鉴定结果准确率符合要求后,利用深度学习模型的可解释性方法输出步骤4)中分类模型所采用的关键特征向量;

步骤6)利用靶向蛋白质组学技术确定这些关键特征向量对应的肽段及蛋白质序列,作为生物标志物。

在上述技术方案中,在所述的步骤1)中,提取质谱原始文件离子流色谱峰的步骤包括:

步骤1-1)读取所有质谱原始文件,获得每张谱图的编号、保留时间、谱峰数目、谱峰强度、谱峰质荷比等信息;训练数据集中的质谱文件包含来源于实验组样品(比如癌组织)的文件与来源于对照组样品(比如癌旁组织)的文件;

步骤1-2)寻找每张谱图中的同位素峰簇,其特征为几个质荷比差值相等的连续谱峰,并记录每个峰簇中强度最高的峰为单同位素峰;

步骤1-3)将保留时间相差5min以内的等质荷比单同位素峰记录为离子流色谱峰组;

步骤1-4)用高斯峰拟合每个离子流色谱峰组,作为离子流色谱峰,计算每个离子流色谱峰的峰面积及平均保留时间;

步骤1-5)将所有获得的离子流色谱峰信息按列表输出,每一行保存一个离子流色谱峰的信息,这些信息主要包括质荷比、峰面积、强度及平均保留时间。

在上述技术方案中,在所述的步骤2)中,数据的质荷比保留两位小数,遍历所有样本得到样本中存在的所有质荷比,并统计每一类样本中共有的质荷比数(具体分类方法可按照具体目标进行分类,本发明具体实施中按癌和癌旁分类)。取设定比例(比如80%)以上的每一类类间样本共有的质荷比并将其保存为公共质荷比向量,合并各类样本的公共质荷比向量作为总样本的公共质荷比向量。根据得到的总样本公共质荷比向量,提取每个样本中各个质荷比对应的强度值,依次计算出每个样品中所有强度值的平均值和标准差,以点(平均值,标准差)的形式顺序排列成特征向量并保存。

在上述技术方案中,在所述的步骤3)中,构建的深度学习模型以基本的卷积神经网络为基础,由三个卷积层和两个完全连接层组成,第一卷积层包含16个不同的过滤器,而第二和第三卷积层分别包含32和64个过滤器。每个卷积层之后紧随其后的是池化层。最后是两个全连接层,大小依次分别为1024、128。其输入层根据步骤2)所得的特征向量调整大小,输出为0或1。以步骤2)所得的特征向量为训练集,构建步骤3)所需的深度学习模型。

在上述技术方案中,在所述的步骤4)中,来源于未知样品的质谱原始文件按步骤1)处理好,同时根据步骤2)中的总样本公共质荷比向量,按步骤2)的形式提取特征向量,将该特征向量输入步骤3)训练好的模型,根据输出结果判断该未知样品是来源于实验组还是对照组。

在上述技术方案中,在所述的步骤5)中,深度学习模型的可解释性方法特指一类解释深度学习模型分类依据的方法,该类方法的特征是,可以标注出输入数据(步骤2)的特征向量)在进行分类时的权重;利用该类方法,可以获得深度学习模型在分类时所依据的关键特征向量列表。

在上述技术方案中,在所述的步骤6)中,步骤5)所得的特征向量列表中的每个特征向量可根据步骤2)所述的特征向量构建方法反推得其所对应的离子流色谱峰,每个离子流色谱峰可采用靶向蛋白质组学技术确定其对应的肽段和蛋白质序列,最终得到的这些蛋白质即可作为生物标志物。

本发明具有以下优点:

1,不依赖于蛋白质定性定量过程,直接从质谱谱图中挖掘实验组和对照组样本中的差异质荷比,有望检测出不易被质谱检测或者低丰度的潜在生物标志物;

2,传统的生物标志物筛选策略是基于单个标志物在实验组和对照组的差异程度进行筛选,本发明直接从整体层面采用基于表达模式的方式筛选生物标志物,更有利于标志物组合的筛选和发现。

附图说明

图1为本发明基于深度学习的不依赖数据库搜索的蛋白质生物标志物鉴定方法流程图;

图2为实验组-对照组样本分类模型示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的说明。

具体实施所使用的训练数据来源于文献(参考文献:Jiang Y,Sun A,Zhao Y,etal.Proteomics identifies new therapeutic targets of early-stagehepatocellular carcinoma.Nature.2019,567(7747):257-261.),文献中的质谱原始文件来源于111位病人的癌组织及癌旁组织,每个组织样本由质谱仪采集了6个文件,共1332个质谱原始文件;所使用的测试数据来源于文献(参考文献:S G,X X,C D,et al.Aproteomic landscape of diffuse-type gastric cancer.Naturecommunications.2018,9(1):1012.),文献中的质谱原始文件来源于84位病人的癌组织及癌旁组织,每个组织样本由质谱仪采集了6个文件,共1008个质谱原始文件。所有质谱原始文件的格式都为raw。

使用Thermo Fisher公司提供的MSFileReader软件接口读取作为训练数据1332个raw文件。每个raw文件由若干张谱图组成,在读取每张谱图后,寻找并记录每张谱图中质荷比差值相等的若干个连续谱峰,其中强度最高的记录为单同位素峰。将质荷比相等的所有单同位素峰按时间排列,并用高斯峰拟合,得到离子流色谱峰。按保留时间顺序输出每个raw文件拟合得到的离子流色谱峰峰面积、保留时间、强度、质荷比。共得到1332个离子流色谱峰列表。

将所有离子流色谱峰的质荷比保留两位小数,遍历所有样本得到样本中存在的所有质荷比,并统计每一类样本中共有的质荷比数。取80%以上的每一类样本共有的质荷比并将其保存为公共质荷比向量,合并每一类样本的公共质荷比向量作为总样本的公共质荷比向量。由质谱实验原理可知,样本中部分质荷比强度值较小的值可能是误差结果,在统计公共质荷比时应去掉部分较小的极端值。若大部分的总样本数据中都存在并且强度值非常大,我们则认为该质荷比并不具有很好的区别度,在统计公共质荷比时应去掉这一部分较大的极端值。根据之前得到的总公共质荷比,提取相对应的强度值,并从中随机提取256个质荷比[1111.25,1141.33,……786.45]。依次计算出每个质荷比下所有强度值的平均值和标准差,以点(平均值,标准差)的形式顺序排列成特征向量并保存。合并每个组织样本的所有特征向量点作为该样本的特征向量,该向量的形式如[[22,23][17,14]……[80,43]],分别对应256个质荷比。共得到111对该形式的特征向量,其中111例对应癌症组织,111例对应癌旁组织。

深度学习模型用tensorflow构建,其结构如说明书附图2所示。该模型用于判断质谱文件来源于癌症组织还是癌旁组织。

用提取到的111对特征向量训练构建好的深度学习模型。训练好的模型作10折交叉检验,ACC为0.9500,AUC为0.9789,F1-score为0.9498。

测试数据集按照与训练数据集相同的方法提取得到84对特征向量,其中84例对应癌症组织,84例对应癌旁组织。每个样本根据质荷比[1111.25,1141.33,……786.45]提取特征向量,得到的向量与训练数据集形式相同。

用提取到的84对特征向量测试构建好的深度学习模型,ACC为0.8548,AUC为0.9201,F1-score为0.8448。

用深度学习模型的可解释性方法(如梯度权重类激活映射算法Grad-CAM,参考文献:Selvaraju RR,et al.Grad-CAM:Visual Explanations from Deep Networks viaGradient-Based Localization.in 2017IEEE International Conference on ComputerVision(ICCV).2017)处理训练好的模型,该方法可以输出每个特征向量的权重,选择其中权重最高的50个特征向量作为本模型在分类时重点关注的关键特征向量。

根据特征向量的获得方法可以得到特征向量所对应离子流色谱峰的峰面积、保留时间、强度、质荷比等信息。利用这些信息,可使用靶向蛋白质组学技术(如平行反应监测技术)确认每个离子流色谱峰对应的肽段和蛋白质序列,得到这些蛋白质即可作为生物标志物。

最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

9页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种ATAC-seq测序数据的生物信息分析方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!