一种多物种gc-ms内源性代谢物数据库及其建立方法

文档序号：1312741 发布日期：2020-07-10 浏览：36次 >En<

阅读说明：本技术 一种多物种gc-ms内源性代谢物数据库及其建立方法 (Multi-species GC-MS endogenous metabolite database and establishment method thereof ) 是由胡哲尹小羚彭章哓陆嘉伟胡绪俊舒烈波于 2020-05-13 设计创作，主要内容包括：本发明公开了一种多物种GC-MS内源性代谢物数据库的建立方法,包括：1)将多物种样本衍生化后的GCMS数据基于NIST库搜库,保留打分在700以上的物质作为筛选出的高分物质；2)提取步骤1)筛选出的高分物质的质谱信息,建立高分NIST库；3)将高分NIST库中带衍生化基团的名称翻译并替换成衍生化之前的名称,得到高分库；4)将高分库与扩增后的背景噪音库和扩增后的标准品数据库合并,得到多物种GC-MS内源性代谢物数据库。本发明提供的数据库既可以满足植物、动物及微生物等多类型生物样本的检索需求,又能更加准确的定性到更多的代谢物。(The invention discloses a method for establishing a multi-species GC-MS endogenous metabolite database, which comprises the following steps: 1) searching a database based on an NIST database by GCMS data after derivatization of a multi-species sample, and reserving substances with the score of more than 700 as screened high-molecular substances; 2) extracting mass spectrum information of the high-molecular substances screened in the step 1) and establishing a high-molecular NIST library; 3) translating and replacing the name with a derivative group in the high-resolution NIST library with the name before derivatization to obtain a high-resolution library; 4) and combining the high-resolution library with the amplified background noise library and the amplified standard substance database to obtain a multi-species GC-MS endogenous metabolite database. The database provided by the invention can meet the retrieval requirements of various biological samples such as plants, animals, microorganisms and the like, and can be used for qualitatively obtaining more metabolites more accurately.)

一种多物种GC-MS内源性代谢物数据库及其建立方法

技术领域

本发明属于生物数据库领域，尤其涉及一种多物种GC-MS内源性代谢物数据库及其建立方法。

背景技术

GCMS技术作为目前在代谢组学研究中最常用的分析手段之一，通常用来分析一些挥发性强的小分子代谢物，对于一些像氨基酸、糖醇类、有机酸、生物胺及有机磷酸盐等分子量较小、极性较大的代谢物则需要通过衍生化(硅烷化或者酯化等)的方式降低其沸点、增加其热稳定性才能通过GCMS分析。而在GCMS分析过程中，最重要的一步则是对代谢物进行定性分析，定性的准确性和数量取决于数据库。

目前，GCMS常用的数据库有NIST库、Fiehn库等。NIST标准质谱数据库是由美国国家标准技术研究院(NIST)(National Institute of Standards and Technology)出版，现在，基于EI源的NIST库已经更新到NIST v17，搜库软件(NIST MS Search)的版本也更新到2.3。其中，主库mainlab中已经包含了267376种化合物的质谱图信息，因此NIST库是一个非常大的数据库，正因为如此，它包含的物质种类也很杂，既有外源性的物质，也有内源性的物质，而且经过衍生化后的物质通常搜库结果也是包含了衍生化基团的新物质，搜库时间也非常长，这导致了通过NIST库检索效率低，得到的物质还需要经过物质重命名才能得到衍生化前的物质名称。The Fiehn library(FiehnLib)数据库则是Oliver Fiehn教授的实验室开发的一种GCMS数据库，主要覆盖了多种类型的内源性小分子化学标准品的甲基化和硅烷化的EI质谱图，共计2200张图谱，几百种内源性代谢物。与NIST库相比，Fiehn库具有小而精的特点，而且定性到的物质名称已经是衍生化之前的名称，但是仍然具有一定的局限性，Fiehn库主要是基于动物源的样本扩展的，缺少其他如植物、微生物样本的代谢物图谱，因此不太适合植物或者微生物等其他样本的搜库定性分析。

因此，目前应用最为广泛的两大数据库NIST库和Fiehn库都存在一定的局限性，NIST库很大很杂，通过NIST库检索到的物质存在定性准确度不高，定性物质名称中均带衍生化基团，物质名称回溯较难，检索时间长等缺点，而Fiehn库虽然具有较NIST库相比准确度较高，物质名称已经是回溯后的名称等优势外，也存在一定的局限性，如主要是针对动物内源性物质，涉及到的物种类型较少，涵盖的物质也只有几百种。

发明内容

针对上述问题，本发明提供了一种多物种GC-MS内源性代谢物数据库及其建立方法，通过多种编程语言结合人工校正及标准品验证的多种方式发明了一种涵盖多物种、名称已回溯、涵盖的多种重要通路物质更多、检索快、定性更加准确的自建数据库，该数据库既可以满足植物、动物及微生物等多类型样本的检索需求，又能更加准确的定性到更多的代谢物。

为了实现上述目的，本发明采用的技术方案为：

一种多物种GC-MS内源性代谢物数据库的建立方法，包括：

1)将多物种样本衍生化后的GCMS数据基于NIST库搜库，保留打分在700以上的物质作为筛选出的高分物质；

2)提取步骤1)筛选出的高分物质的质谱信息，建立高分NIST库；

3)将高分NIST库中带衍生化基团的名称翻译并替换成衍生化之前的名称，得到高分库；

4)将高分库与扩增后的背景噪音库和扩增后的标准品数据库合并，得到多物种GC-MS内源性代谢物数据库。

优选地，步骤2)中，采用基于Python编写的筛选脚本匹配筛选出的高分物质并提取质谱信息。

优选地，步骤3)中带衍生化基团的名称及翻译的形式包括：

形式①：Name，n TMS(derivative)/n(trimethylsilyl)ether，其中Name为物质衍生化前的名称，n为表征衍生化基团个数的数字或者文字，TMS derivative/(trimethylsilyl)ether为衍生化基团，翻译时去掉“，n TMS derivative/(trimethylsilyl)ether”保留Name即为翻译后名称；

形式②：Name，n trimethylsilyl ether,(O)-methyloxime()，其中Name为物质衍生化前的名称，n为衍生化基团的个数，trimethylsilyl ether为衍生化基团三甲基硅烷酯，methyloxime()为发生肟化反应后的基团“-C(R)＝N-O-”，翻译时需先将发生肟化反应的结构还原成酮基或者醛基，再去掉TMS基团，最后再根据结构命名；

形式③：含“bis(trimethylsilyl)phosphate”基团的物质，翻译时在遵循形式②的命名规则上，去掉磷酸基团前面两个衍生化基团或者根据去掉衍生化基团后的结构命名；

形式④：不能直接翻译的名称，需借助NIST软件，先在库中搜到该物质的结构，再去掉TMS基团，最后通过结构命名。

优选地，步骤3)中采用基于R语言编写的名称替换脚本将翻译后的名称替换高分NIST库中原来带衍生化基团的名称。

优选地，步骤4)中，通过对不同时间段和不同样本间的Blank样品检索NIST库来收集常见的背景干扰物，扩增背景噪音库。

优选地，步骤4)中，采取标准品进行验证，将上述标准品衍生化后经过GCMS上机采集质谱信息，扩增标准品数据库。

优选地，步骤4)中，得到的多物种GC-MS内源性代谢物数据库包括针对来自不同类型样本的代谢物进行的物种源分类，物种源分为动物源、植物源及微生物源，HMDB ID、CAS号及KEGG号信息以及物质分类信息。

本发明还提供了通过上述建立方法建立的多物种GC-MS内源性代谢物数据库。

与现有技术相比，本发明的有益效果是：

本发明建立的Untarget database of GC-MS from Lumingbio(LUG数据库)中包含2082个能够采用GC-MS检测的内源性代谢物(如图3所示)，EI图谱共计6251个(如图4所示)，并且还在不断更新中，其质核比范围在85到650之间，覆盖了包括脂类、氨基酸、脂肪酸、胺类、醇类、糖类、氨基糖类、糖醇类、糖酸类、有机磷酸盐类、羟基酸类、芳香类、嘌呤类和甾醇类等多种类型的内源性小分子代谢物。

此外LUG数据库预先输入了背景质谱信号，通过数据库比对，即便不做空白样本也能扣除这些杂质信号。背景质谱信号的加入，不仅节省了前期实验过程中人力试剂的损耗，同时还进一步缩短了单个项目对机时的占用，提高了实验效率和仪器通量，同时由于扣除了背景信号，会使数据的分析更为准确。

LUG数据库中的代谢物同时具有多种基质(动物源、植物源及微生物等)物种源信息并通过300种标准品验证，使得LUG库满足不同样本基质高准确性的定性分析。另外本库完善了HMDB，KEGG，CAS识别号、物质分类等内容，代谢物信息更全面，方便后续进行代谢物功能研究，提高了基于GCMS非靶向代谢组学分析的效率。

附图说明

图1是本发明一种多物种GC-MS内源性代谢物数据库的建立方法的技术路线图。

图2是本发明形式④一示例在NIST MS Search上搜索到的结构示意图。

图3是本发明LUG数据库中部分代谢物的示意图。

图4是本发明LUG数据库中部分代谢物质谱碎片信息的示意图。

图5是本发明LUG数据库中部分背景干扰物质谱碎片信息的示意图。

图6是本发明部分标准品色谱图的示意图。

具体实施方式

为了更好的理解本发明，下面结合附图和实施例进一步阐明本发明的内容，但本发明不仅仅局限于下面的实施例。

实施例

结合图1所示，本发明建立多物种GC-MS内源性代谢物数据库的方法主要包括以下步骤：

(一)高分物质筛选

选择有代表性的植物、动物、微生物样本(主要是一些模式生物，如拟南芥、大鼠、大肠杆菌等动植物微生物样本)衍生化后的GCMS数据基于NIST库搜库，保留打分在700以上的物质，视为鉴定可靠的物质。

(二)高分NIST库建立

用Python编写筛选脚本(脚本见已登记的名为鹿明代谢组Untarget database ofGC-MS from Lumingbio系统的计算机软件著作，登记号：2020SR0001017)，快速的匹配保留的高分物质，并提取质谱信息，建立高分NIST库。

(三)名称翻译

对于物质名称的回溯过程即将带衍生化基团的名称转换成衍生化之前的名称，易于识别，在本申请中将此回溯过程定义为物质名称翻译，翻译的前提需要对衍生化过程有所了解。本申请中涉及到的样本实验前处理均采用硅烷化的衍生化方式，具体为两步衍生化：①肟化反应，该步骤主要是通过酮基和醛基与甲氧胺盐酸盐(吡啶)，此过程可以保护酮基和醛基，特别是对于糖类物质可以有效避免一些复杂反应的产生，因此对于含酮基和醛基的物质会先与甲氧胺盐盐酸反应生成基团“-C(R)＝N-O-”；②硅烷化反应，此反应主要是物质中的活性氢(如含羟基-OH、羧基-COOH、氨基-NH₂、巯基-SH及磷酸基团-H₂PO₄等物质)被硅烷基取代的过程，本申请所用的衍生化试剂为BSTFA(含1％TMCS)，因此衍生化过程中的活性氢被三甲基硅烷(trimethylsilyl，TMS)取代，主要反应如下所示：

肟化反应：

R₁-C＝O-R₂+CH₃-O-NH₂·HCl→R₁-C(R₂)＝N-O-CH₃

常见活性氢硅烷化反应：

R-C(＝O)-OH→R-C(＝O)-O-Si(CH₃)₃

R-OH→R-O-Si(CH₃)₃

R-SH→R-S-Si(CH₃)₃

R-NH₂→R-N-[Si(CH₃)₃]₂

R₁-NH-R₂→R₁-N[Si(CH₃)₃]-R₂

其中：R、R₁及R₂均表示由C、H、O、N等元素组成的官能团，如烷基、羧基、羟基、醛基、羰基等。

根据翻译的难易程度，可将翻译过程分为以下几个类别：

形式①：Name，n TMS(derivative)/n(trimethylsilyl)ether，其中Name为物质衍生化前的名称，n为表征衍生化基团个数的数字或者文字，TMS derivative/(trimethylsilyl)ether为衍生化基团，像类型①的物质可以直接去掉“，n TMSderivative/(trimethylsilyl)ether”保留Name即为翻译后名称，如3-Indolylacetamide，TMS derivative；Sucrose，8TMS derivative；D-(+)-Trehalose，octakis(trimethylsilyl)ether等，翻译后名称分别为3-Indolylacetamide、Sucrose、D-(+)-Trehalose；

形式②：Name，n trimethylsilyl ether，(O)-methyloxime()，(含：methyloxime、methyloxyme、methoxyimino)，其中Name为物质衍生化前的名称，n为衍生化基团的个数，trimethylsilyl ether为衍生化基团三甲基硅烷酯，methyloxime()为发生肟化反应后的基团“-C(R)＝N-O-”，这类形式主要出现在含酮基或者醛基的物质中，像糖类物质、酮类物质或者醛类物质，翻译过程需先将发生肟化反应的结构还原成酮基或者醛基，再去掉TMS基团，最后再根据结构命名，如D-Galactose,6-deoxy-2,3,4,5-tetrakis-O-(trimethylsilyl)-,O-methyloxime；D-(+)-Glucuronic acidγ-lactone,tris(trimethylsilyl)ether,methyloxime(syn)等，翻译后名称分别为D-Galactose、D-(+)-Glucuronic acidγ-lactone；

形式③：含“bis(trimethylsilyl)phosphate”基团的物质，含磷酸基团的物质通常会带两个衍生化基团，像这种类型的物质，通常在遵循形式②的命名规则上，去掉磷酸基团前面两个衍生化基团或者根据去掉衍生化基团后的结构命名即可，如Gluconic acid,2,3,4,5-tetrakis-O-(trimethylsilyl)-,trimethylsilyl ester,bis(trimethylsilyl)phosphate,D-；D-Altro-2-Heptulose,1,3,4,5,6-pentakis-O-(trimethylsilyl)-,O-methyloxime,7-[bis(trimethylsilyl)phosphate]等，翻译后命名分别为6-Phosphogluconic acid、D-Altro-2-Heptulose-7-phosphate；

形式④：第四种类型的名称比较难翻译，因为不能直接翻译，需借助NIST软件，先在库中搜到该物质的结构，再去掉TMS基团，最后通过结构命名，如1-Methyl-N,N-bis(trimethylsilyl)-4-[(trimethylsilyl)oxy]-1H-imidazol-2-amine，在NIST MS Search上搜索的结构如图2所示，去掉TMS基团后，可以发现翻译后名称为Creatinine。

(四)名称替换

用Python编写名称替换脚本(脚本见已登记的名为鹿明代谢组Untargetdatabase of GC-MS from Lumingbio系统的软件著作，登记号：2020SR0001017)，将翻译后的名称快速替换高分NIST库中原来带衍生化基团的名字，那么得到的高分库和Fiehn库一样，代谢物的名称为衍生化前的名称，将该库命名为High score library，简写为HS-lib。

(五)背景噪音库扩增

背景噪音主要来自柱流失、衍生化试剂、隔垫的碎屑及洗液瓶垫的碎屑，背景干扰物主要是一些带硅氧烷(siloxane)的物质。

扩增背景噪音库的主要目的在于，可以有效的提高鉴定的准确性。因为目前的搜库打分机制都是通过相似度打分高低来决定物质鉴定的准确度，通过增加背景噪音库可以有效的避免与代谢物相似的背景干扰物被鉴定为代谢物，避免假阳性物质从而提高了鉴定的准确性，另外，之前都是通过Blank(空白)样本扣除背景噪音，通过背景噪音库的扩增，可以起到背景噪音自动扣除的作用，不需要额外增加Blank样品，因此可以节省上机时间。

我们通过对不同时间段和不同样本间的Blank样品检索NIST库来收集常见的背景干扰物，目前通过Blank样本已经扩展了1217个常见的背景干扰物图谱，在数据库中将这些背景干扰物命名为TBS Compound(1-1217)，如图5的“计数”即显示数据库中含1217个TBScompound，并将背景噪音库命名为Background noise library，简写为BN-lib。

(六)基于标准品的GCMS数据库建立

HS-lib需通过标准品验证其定性准确性，但是由于标准品贵且不易获得，本申请采取部分已有的标准品进行局部验证。本申请共有标准品300种，标准品列表如表1所示，部分标准品色谱图如图6所示，将其衍生化(BSTFA(含1％TMCS))后经过GCMS上机采集质谱信息，建立了基于标准品的自建库，此过程一方面可以验证HS-lib的准确性，另外也扩展了之前HS-lib不包含的代谢物，将此标准品库命名为Standard library，简写为STD-lib。

表1.本发明采用的300种标准品列表

(七)自建库整合及信息完善

合并High score library、Standard library及Background noise library命名为LUG(Untarget database of GC-MS from Lumingbio)数据库。LUG库是经过动物、植物及微生物等不同基质样本扩展的，因此，我们对该库也做了精细的划分，对于来自于不同样本类型的代谢物做了物种源分类，物种源分为动物源、植物源及微生物源，如表2所示为数据库示例。这样针对不同基质的样本，可以有特异性的选择，可以有效的避免假阳性物质的产生。另外，LUG库根据后续分析所需要的信息，补充完善了LUG库中HMDB ID、CAS号及KEGG号等信息，并增加物质分类信息，由于数据库集成了这些信息，使得数据在定性完成后就具有HMDB ID、KEGG号等信息，大大地提高了后续功能分析的效率。

表2.本发明LUG库中部分内容列表

(八)数据库测试

为了对比LUG库与其他库的优劣，本申请分别准备植物、动物及微生物样本的数据，对这三类数据分别进行Fiehn库及LUG检索，对比两个数据库的定性能力，以鉴定到的物质在高相似度打分区代谢物的个数来表征数据库的定性能力，通过LUG库比Fiehn库鉴定个数增加的百分比来表示定性能力的提升率，见表3。

表3.不同基质的GCMS数据在不同数据库检索的结果列表

如表3所示，通过对不同基质的GCMS数据进行不同数据库检索比较发现：以相似度40％为阈值时，LUG比Fiehn库的定性能力提升了10％-20％，若以相似度70％为阈值时，LUG的定性能力提升了13％-56％。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

21页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种预测有机污染物在聚乙烯型微塑料和水相之间分配平衡常数的方法

一种多物种gc-ms内源性代谢物数据库及其建立方法

相关技术

网友询问留言