用于确定分析物中是否存在化学元素的质谱法

文档序号:1298345 发布日期:2020-08-07 浏览:18次 >En<

阅读说明:本技术 用于确定分析物中是否存在化学元素的质谱法 (Mass spectrometry for determining the presence or absence of a chemical element in an analyte ) 是由 维布克·安德烈亚·蒂姆 塞巴斯蒂安·魏纳 尼古拉斯·谢斯勒 于 2020-01-19 设计创作,主要内容包括:本发明涉及一种用于确定(预测)分析物中是否存在化学元素的质谱法,其为降低对分析物注释化学式的复杂性而提供有价值的信息。该方法基于将分析物的测量的同位素模式表示为特征向量,并且使用机器学习算法(如,支持向量机(SVM)或人工神经网络(NN))将特征向量分配到存在/不存在的分类。(The present invention relates to a mass spectrometry method for determining (predicting) the presence of a chemical element in an analyte, which provides valuable information for reducing the complexity of annotating a chemical formula with an analyte. The method is based on representing isotope patterns of measurements of analytes as feature vectors and assigning the feature vectors to presence/absence classifications using a machine learning algorithm, such as a Support Vector Machine (SVM) or an artificial Neural Network (NN).)

用于确定分析物中是否存在化学元素的质谱法

技术领域

本发明涉及用于确定化合物中是否存在化学元素的质谱法。

背景技术

质谱法(MS)是一种广泛使用的分析方法,其用于定性和定量识别多种样品中的化合物,包括代谢组学、蛋白质组学、杀虫剂分析、天然化合物识别和制药学。MS可以结合液/气相分离技术,如,液相色谱法(LC)或气相色谱法(GC)。这些联用技术LC/MS和GC/MS对于检测、识别和定量复杂混合物中的化合物是极其有用的。在另一种联用技术中,MS或LC/MS与离子迁移谱(IMS)结合。

质谱技术包括将样品的化合物转化为气相,在离子源中电离化合物,在质量分析器中根据质荷比分离化合物的分子离子,并检测分离的分子离子。质荷比通常由符号“m/z”表示,其中“m”是离子质量,“z”是分子离子的基本电荷数。可选地,可以使分子离子成为碎片,以形成碎片离子,然后根据质荷比将碎片离子分离并检测。

存在许多不同类型的离子源,如化学电离、快原子轰击、基质辅助激光解吸/电离(MALDI)和电喷雾电离(ESI),以及存在许多不同类型的质量分析器,如四极质量过滤器、飞行时间质量分析器、具有正交离子注入的飞行时间质量分析器、RF离子阱、DC离子阱(如轨道阱或卡西尼(Cassini)阱)和离子回旋共振阱。

测量的质谱包括分子离子的峰(信号),并且在横坐标上显示每个峰的质荷比,在纵坐标上显示该峰的相应的相对强度。每个峰由m/z值和强度值(信号高度)表征。

由于化学元素的同位素,单一化合物的分子离子的质谱呈现一组具有不同m/z值的峰。这组(同位素)峰被称为“同位素模式”。具有相同化学式的化合物显示相同的同位素模式。同位素峰的测量的强度与化合物的同位素模式内的特定分子离子的丰度相关。同位素峰的相对强度与同位素的相对丰度相关联。

化合物的测量的同位素模式可用于对化合物注释化学式,并且通常用于识别化合物。虽然这对于非常小的分子是容易完成的,但是对于较大的分子,这很快变成艰巨的任务。

化合物的复杂混合物所获得的质谱包含多种同位素模式。将关于m/z和强度值的测量的同位素模式与理论上得到的同位素模式进行匹配以对相应化合物注释化学式不是容易的任务。首先,计算一组同位素模式,用于随后与测量的同位素模式进行比较。概念上,这是通过以下方式完成的:针对预先选择的化学元素的所有可能的元素组合(化学式),对这些化学元素的同位素模式进行卷积,这些化学元素在预定的质量容差内匹配单一同位素峰的m/z值。对于可能的化学式中的每一个,计算同位素模式并将其与测量的同位素模式进行比较。该计算可以用不同的方法完成,例如Pearsonsχ2统计。

然而,由于所含化学元素的组合学,可能的化学式的量变得非常大。可以针对不同组的化学元素计算在特定m/z值附近并且在预定质量容差内的可能化学式的数目。图1示出三组感兴趣的化学元素({C,H,N,O},{C,H,N,O,P,S,NA,K,Cl},{C,H,N,O,P,S,NA,K,Cl,BR,F,I}的在100和600Da之间的m/z范围中在5mDa的质量容差内可能的化学式的数目。可能的化学式的量呈指数增长。考虑用于生成化学式的化学元素越多,在质量容差内可能的化学式越多。

由于不是所有理论上得到的化学式在化学上都是有效的,因此可以通过应用启发式规则来减少可能的化学式。然而,由于可能的化学式随m/z呈指数增长,剩余候选的数量仍然可以非常大。

当前的软件工具通常依赖于如上所述的模式比较。已经对这种方法进行了适应性修改,并且提出了例如使用马尔可夫链(Markov-Chains)来计算同位素模式的新方法,其通过进行折衷来降低计算成本。然而,它们没有解决可能的化学式的指数的问题。用于计算可能的化学式的一组化学元素是组合问题的核心。预先提供或排除某些元素减少要计算和匹配的可能的化学式的量。因此,需要确定(预测)化合物中存在的化学元素,以在对化合物注释化学式期间降低复杂性。

发明内容

本发明提供一种用于确定分析物中是否存在化学元素的质谱法,其包括以下步骤:

(a)生成分析物的分子离子;

(b)通过质谱法测量所述分子离子的同位素模式,其中所述同位素模式包含多个同位素峰,且每一同位素峰由质量值和强度值表征;

(c)将所述同位素模式表示为特征向量

(d)将所述特征向量应用于监督元素分类器,所述监督元素分类器将所述特征向量分配给第一分类(存在化学元素)或第二分类(不存在化学元素),其中所述监督元素分类器是在表示具有已知元素组成的化合物的同位素模式的一组特征向量上训练的,并且其中所述化学元素存在于所述化合物的真子集中。

具有已知元素组成的一组化合物包括其中存在化学元素的化合物的真子集和其中不存在化学元素的已知化合物的真子集,即,两个子集都不是空的。优选地,化合物以至少20/80的比例被分配到两个子集。更优选地,该比例基本上为50/50。这些化合物的分子质量优选小于1000Da,更优选小于600Da,特别是在100与600Da之间。例如,可以以质量分辨率R≤100000(特别是以R≤50000,更特别是以R≤25000)执行分析物的同位素模式的质谱测量。

可以在理论上导出和/或实验上测量用于训练监督元素分类器的同位素模式。在实验上测量用于训练监督元素分类器的化合物的同位素模式的情况下,优选地在相同的质谱系统上测量这些化合物和分析物的同位素模式。然而,收集在数据库中(例如在KEGG数据库(京都基因和基因组百科全书))中的已知化合物的同位素模式可用于选择包含待确定的化学元素的化合物。可以通过将已知的化学构造规则(如“Lewis规则”和“氮规则”)应用于相应的化学式,来选择理论上导出的同位素模式。

待确定的化学元素优选是Br、Cl、S、I、F、P、K、Na和Pt中的一种。可以通过使用不同的监督元素分类器对多种化学元素执行步骤(d)中的分配,以实现多元素确定。优选地,监督元素分类器固有地对一组两个或更多个化学元素执行多标记分类。所分配的分类还可以对应于一组两个或更多个化学元素是否存在,其中,所述监督元素分类器是在表示具有已知元素组成的化合物的同位素模式的一组特征向量上训练的,并且其中所述化学元素中的两个或更多个存在于所述化合物的真子集中。

在第一实施例中,表示对应同位素模式的特征向量中的每一个包括同位素峰的质量值和归一化强度值。特征向量优选地包括单一同位素峰的质量值、所述单一同位素峰与其它同位素峰之间的质量差以及所述同位素峰的归一化强度值。更优选地,特征向量中的每一个还包括所述单一同位素峰与标称质量之间的质量差。

特征向量中的每一个例如可以被如下布置::

其中,i=1…N,其中m0是所述单一同位素峰的质量值,是所述单一同位素峰的归一化强度值,d(m0,mi)是所述单一同位素峰与第i个同位素峰之间的质量差,是所述第i个同位素峰的归一化强度值,以及d(m0,M0)是所述单一同位素峰的质量值与所述标称质量M0之间的差。该差优选地是数值减法的结果,但是可以是更一般的距离测量。N优选大于1,更优选大于4,特别是等于9。对于N=2,特征向量看起来像

通过使用p范数,根据相应同位素峰的强度值si,计算特征向量的归一化强度值

其中,||s||=(Σ|si|p)1/p,其中,1≤p,特别是p=1。

在第二实施例中,表示对应同位素模式的特征向量中的每一个包括同位素峰的质量值和变换的强度值。优选地,通过中心对数比变换(clr变换)或通过等距对数比变换(ilr变换)来变换所述对应同位素模式的同位素峰的强度值。

对于clr变换,特征向量中的每一个被如下布置:

[m0,clr0,d(m0,mi),clri,d(m0,M0)],其中,i=1…N,

其中,m0是所述单一同位素峰的质量值,clr0是所述单一同位素峰的clr变换后的强度值,d(m0,mi)是所述单一同位素峰与第i个同位素峰之间的质量差,clri是所述第i个同位素峰的clr变换后的强度值,以及d(m0,M0)是所述单一同位素峰的质量值与标称质量之间的差,以及

其中,所述clr变换通过以下被定义:

clri=log(si/(s0·s1·...sN)1/(N+1)),其中,Si=0…N是所述同位素峰的强度值。

N优选大于1,更优选大于4,特别是等于9。对于N=2,特征向量看起来像[m0,clr0,d(m0,m1),clr1,d(m0,m2),clr2,d(m0,M0)]。

对于ilr变换,特征向量中的每一个被如下布置:

[m0,ilr0,d(m0,mi),ilri,d(m0,mN),d(m0,M0)]其中,i=1…N-1,

其中,m0是所述单一同位素峰的质量值,ilri是所述同位素峰的ilr变换后的强度值,d(m0,mi)是所述单一同位素峰与第i个同位素峰之间的质量差,以及d(m0,M0)是所述单一同位素峰的质量值与所述标称质量之间的差,以及

其中,所述ilr变换通过以下被定义:

其中,降低维度的平衡矩阵B为dim(B)=(N+1)×N,以及B·B TI N

N优选大于1,更优选大于4,特别是等于9。对于N=2,特征向量看起来像[m0,ilr0,d(m0,m1),ilr1,d(m0,m2),d(m0,M0)]。

例如,监督元素分类器是支持向量机(SVM)、人工神经网络(NN)(如,卷积神经网络(CNN)或长短期记忆网络(LSTMN))或随机森林分类器(RF,随机决策森林)中的一个。优选地,在监督元素分类器的训练期间,例如通过使用群优化、进化算法、遗传算法、多起点优化、模拟退火和模式搜索中的一个来优化监督元素分类器的固有参数(超参数)。超参数通常取决于同位素模式如何被表示为特征向量,即例如取决于所选择的特征、特征向量的长度、强度值的归一化/变换、m/z值的表示以及特征在特征向量内的布置。

优选地,在所述监督元素分类器的训练期间,优化所述同位素模式作为特征向量的呈现。例如,可以关于特征向量的维度、测量的强度值的归一化或变换、特征向量的分量的布置来优化该表示。特征选择或特征重要性的估计也可以是优化的一部分,并且在监督元素分类器的训练期间例如通过LASSO算法(最小绝对收缩和选择算子)或RF算法(随机森林)来执行。

分析物的同位素模式优选通过质量分析仪测量,该质量分析仪耦接到上游离子迁移率分析仪和/或气相或液相色谱仪。优选地,质量分析仪是具有正交离子注入(OTOF)的飞行时间质量分析仪。更优选地,OTOF耦接到离子迁移率质量分析仪,特别是耦接到TIMS分析仪(捕获离子迁移谱)。

在另一方面中,根据本发明的确定化学元素是否存在的结果用于减少或增加在向分析物注释化学式期间(特别是,在计算该组同位素模式以用于随后与测量的同位素模式比较期间)考虑的化学元素的数目。优选在LC分离或GC分离期间,更优选在耦接的LC-IMS分离或GC-IMS分离期间测量分析物离子的同位素模式。

附图说明

图1示出三组感兴趣的化学元素({C,H,N,O},{C,H,N,O,P,S,NA,K,Cl},{C,H,N,O,P,S,NA,K,Cl,Br,F,I}的在100和600Da之间的m/z范围中在5mDa的质量容差内可能的化学式的数目。

图2示出根据本发明的方法的流程图。

图3示出以用于训练和验证的等量而制备的感兴趣的化学元素的实验测量的化合物(阳性和阴性)的数量。数据组被分为80%/20%,以用于对监督元素分类器进行训练和验证。

图4示出在实验数据上训练并通过粒子群优化进行优化的智能边界RBF-核SVM(smart-margin RBF-Kernel SVM)的结果。同位素模式的测量的强度值通过具有p=1的p范数(闭包(closure))归一化。结果包括正确分类的准确性、灵敏度、特异性和完全混淆矩阵。

图5示出在实验数据上训练并通过粒子群优化进行优化的智能边界RBF-核SVM的结果。同位素模式的测量的强度值通过中心对数比变换(clr)来变换。结果包括正确分类的准确性、灵敏度、特异性和完全混淆矩阵。

图6示出在实验数据上训练并通过粒子群优化进行优化的智能边界RBF-核SVM的结果。同位素模式的测量的强度值通过等距对数比变换(ilr)来变换。结果包括正确分类的准确性、灵敏度、特异性和完全混淆矩阵。

图7示出具有偏差的密集前馈神经网络的示意图。神经元中的数字描述神经元的指数,而不代表它们的值。

图8示出在实验数据上训练并通过进化算法优化的密集前馈人工神经网络的结果。同位素模式的测量的强度值通过具有p=1(闭包)的p范数归一化。结果包括正确分类的准确性、灵敏度、特异性和完全混淆矩阵。

图9示出在实验数据上训练并通过进化算法优化的密集前馈人工神经网络的结果。同位素模式的测量的强度值通过中心对数比变换(clr)来变换。结果包括正确分类的准确性、灵敏度、特异性和完全混淆矩阵。

图10示出在实验数据上训练并通过进化算法优化的密集前馈人工神经网络的结果。同位素模式的测量的强度值通过等距对数比变换(ilr)来变换。结果包括正确分类的准确性、灵敏度、特异性和完全混淆矩阵。

具体实施方式

尽管已经参照本发明的多个不同实施例示出和描述了本发明,但是本领域技术人员将认识到,在不脱离由所附权利要求限定的本发明的范围的情况下,可以在此进行形式和细节上的各种改变。

元素组成是生成给定m/z值的可能化学式的组合问题的核心。本发明的范围是从分析物的测量的同位素模式预测分析物中包含的化学元素,并因此确定用于随后生成可能的化学式的分析物的元素组成。提供或排除某些化学元素减少要计算和比较的可能化学式的量。根据本发明,通过使用监督分类器的机器学习提供了解决该问题的方式。

除了降低注释过程的复杂性之外,根据本发明的方法允许基于特定化学元素的存在,特定地选择和仅检查某些同位素模式,并因此特定地选择和仅检查感兴趣的化合物。

定义

术语“质量值”在此可互换地用于分子离子的质荷比(m/z值)以及用于相应化合物的分子质量。分子离子的质荷比可以例如通过电荷解卷积转换为相应化合物的分子质量。

化学元素的“标称质量”是其最丰富的天然存在的稳定同位素的质量数。对于分子离子或分子,标称质量是组成原子的标称质量之和。例如,碳具有两种稳定同位素,98.9%天然丰度时为12C,1.1%天然丰度时为13C,因此碳的标称质量为12。

“单一同位素峰”的质量是使用每种化学元素的主要(最丰富)同位素的质量的分子中原子的质量之和。标称质量和单一同位素质量之间的差被称为质量亏损。

“混淆矩阵”是允许分类器(通常是监督分类器)的性能可视化的表。混淆矩阵的每一行表示预测的分类中的实例,而每一列表示实际的分类中的实例:

支持向量机(SVM):

支持向量机(SVM)是一种监督机器学习方法,其可以用于分类。在训练期间,SVM在高维数据空间中构造超平面,超平面将标记的训练数据点相对于它们的分类标记分开。优化超平面的参数,使得到任何分类的最近训练数据点的距离(所谓的边界)最大化。这种几何描述的重要结果是最大边界的超平面完全由位于最接近它的那些数据点确定。这些数据点被称为支持向量。通过确定未标记数据点位于哪一侧来对训练后要分类的未标记数据点进行分配。一旦被适当地训练,就可以将未标记的数据点以快速和低计算工作量分配给一个分类。

SVM可以扩展到数据不能线性分离的情况,例如通过引入所谓的“软边界”。“软边界”允许训练数据点不被边界准确地分开。SVM的内部未训练的参数(超参数)确定增加边界和确保所有训练数据点位于边界的正确侧之间的折衷。

还可以通过应用所谓的核技巧(kernel trick)来对SVM进行一般化,通过核技巧将输入空间的数据点变换到变换特征空间中。该变换允许拟合变换特征空间中的最大边界超平面。变换可以是非线性的,并且变换特征空间比输入空间的维数高。尽管分类器基于变换特征空间中的分离的超平面,但是它在原始输入空间中可以是非线性的。非线性核函数可以进一步包括附加的超参数(未训练的预定参数)。公共核函数包括例如多项式(齐次或非齐次)、径向基函数(RBF)和双曲正切函数。

人工神经网络(ANN)

人工神经网络(ANN)是由生物神经网络启发的系统。ANN通常基于许多连接的节点(人工神经元)。人工神经元(如,生物神经网络中的突触)之间的每个连接(边缘),可以将信号从一个人工神经元发送到另一个人工神经元。接收到信号的人工神经元可以处理该信号,然后向连接到该人工神经元的另外的人工神经元发信号。每个人工神经元的输出由其输入之和的一些非线性函数(激活函数)计算。人工神经元可以具有阈值,使得仅在输入之和高于该阈值时才发送信号。

通常,人工神经元聚集成层。不同的层可以对它们的输入执行不同类型的变换。信号从第一层(输入层)可能在穿过多个隐藏层之后,行进到最后一层(输出层)。

人工神经元之间的连接通常具有在训练期间被调整的权重。该权重增加或减少连接处的信号强度。许多算法可用于训练神经网络模型。它们中的大多数可以被视为采用某种形式的梯度下降并使用反向传播来计算实际梯度的优化。

人工神经网络通常包括多个超参数,特别是比SVM多的超参数。人工神经网络的超参数可以与网络本身的结构(例如,隐藏层的数量、节点的数量、节点或层的偏差)有关,以及与节点的激活函数的参数和在过度拟合的情况下惩罚决策边界的正则化参数有关。

示例1

这里,监督元素分类器是使用“软边界”和RBF核的支持向量机(SVM)。超参数与“软边界”和RBF核相关,并且在训练期间通过粒子群优化来优化。实验测量用于训练和验证SVM的同位素模式。

实验数据是从对OTOF质谱仪的测量获得的,该质谱仪具有与LC耦接的电喷雾源。具有已知元素组成的化合物属于不同的化合物分类:咖啡代谢组学、合成分子、杀虫剂和有毒物质。

元素测定仅适用于分子质量低于600Da的化合物。训练数据组用等量的含有元素的化合物(阳性)和不含元素的化合物(阴性)平衡。感兴趣的化学元素是:Br、Cl、S、I、F、P、K和Na。元素C、H、N和O几乎总是存在的,因此不是分类的一部分。对感兴趣的元素的选择基于它们出现在实验数据和绝大多数生物分子中。图3示出用于训练和验证SVM的感兴趣化学元素的化合物(阳性和阴性)的数量。将数据组分为用于训练(80%)和验证(20%)。用于验证的化合物的数量是:

通过使用具有p=1的p归一化(称为闭包)、中心对数比变换(称为clr)和等距对数比变换(称为ilr),以三种不同的方式表示同位素模式。对于闭包和clr表示,特征向量被如下布置:[m0,Int0,mi-m0,Inti,mDef],其中,i=1…9,其中m0和mi是同位素峰质量值,mDef是质量亏损,Int0和Inti是从测量的强度值si计算的归一化或变换的强度值。对于ilr表示,特征向量不包括Int9分量。特征向量的长度是21(闭包和clr)和20(ilr)。SVM的超参数针对每个表示被单独优化。

图4至图6示出在实验数据上训练并通过粒子群优化进行优化的智能边界RBF-核SVM的结果。结果包括正确分类的准确性、灵敏度、特异性和完全混淆矩阵。在图4中,同位素模式的测量的强度值通过具有p=1的p范数(闭包)归一化。在图5中,同位素模式的测量的强度值通过中心对数比变换(clr)来变换。在图6中,同位素模式的测量的强度值通过等距对数比变换(ilr)来变换。

示例2

这里,监督元素分类器是具有偏差的密集前馈人工神经网络ANN,如图7所示。在密集网络中,每层都完全连接到下一层。ANN的激活函数是整流的线性单元:

通过经过ANN的前馈通路来进行对验证数据组的预测。

实验测量用于训练和验证ANN的同位素模式。实验数据和同位素模式的表示与示例1中的相同。

在训练期间,特征向量被分批提交给ANN。批次是用于训练ANN的所有特征向量的子集。一旦一个批次已经通过ANN,则发生反向传播。通过ANN,将当前预测的误差传播回去,以便通过以小步长将它们的值向最佳梯度调整来更新权重。针对给定的一组超参数调整权重。

ANN的超参数是正则化参数、隐藏层的数量和隐藏层中的人工神经元的数量。使用进化算法来优化ANN的超参数。

图8至图10示出ANN的结果。结果包括正确分类的准确性、灵敏度、特异性和完全混淆矩阵。在图8中,同位素模式的测量的强度值通过具有p=1的p范数(闭包)归一化。在图9中,同位素模式的测量的强度值通过中心对数比变换(clr)来变换。在图10中,同位素模式的测量的强度值通过等距对数比变换(ilr)来变换。

两个示例的结果都示出,所使用的机器学习算法对从质谱信号进行元素预测实现了良好预测结果。SVM比ANN更有效。对多同位素(polyisotopic)化学元素的预测通常比对单一同位素化学元素的预测更准确。

考虑到在对测量的分析物注释化学式期间减少化学元素的使用情况,如果这样预测,则可以根据这种考虑去除元素。然而,需要防止在注释期间根据该考虑去除存在于潜在分析物中的元素。否则不能找到正确的匹配。对于这种使用情况,分类器的阴性预测值(NPV)是重要的。它指的是在阴性条件下正确的阴性预测的百分比。

SVM分类器示出多同位素化学元素的NPV为89-100%。ANN的NPV通常较差。

对于在对测量的分析物注释化学式期间建议的元素的相反的使用情况,阳性预测值(PPV)是重要的。PPV指的是阳性条件下正确的阳性预测的百分比。然而,建议不是潜在分析物的一部分的化学元素导致假阳性化学式的添加并且增加总体复杂性。因此,用于这种使用情况的分类器需要具有高的PPV值。

SVM分类器示出多同位素化学元素的PPV≥89%。NN的PPV通常较差。

上面已经参照本发明的多个不同实施例示出和描述了本发明。然而,本领域技术人员将理解,在不脱离本发明的范围的情况下,如果可行的话,可以改变本发明的各个方面或细节,或者可以任意组合不同实施例的各个方面或细节。通常,前面的描述仅用于说明的目的,而不是用于限制本发明,本发明仅由所附权利要求限定,根据具体情况,本发明包括任何等同的实施方式。

21页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:复合激发多固废制备低成本充填胶凝材料的制备方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!