用于执行色谱对齐的方法和系统

文档序号:1294913 发布日期:2020-08-07 浏览:5次 >En<

阅读说明:本技术 用于执行色谱对齐的方法和系统 (Method and system for performing chromatographic alignment ) 是由 I·莫塔什米 M·坎普 于 2020-01-10 设计创作,主要内容包括:一种示例性色谱对齐系统访问目标文件和参考文件,所述目标文件包含代表从第一样品中检测到的多个色谱特征的数据,所述参考文件包含代表从第二样品中检测到的多个色谱特征的数据。所述系统基于所述目标文件和所述参考文件,针对从所述第一样品中检测到的所述多个色谱特征的第一子集中包含的每个色谱特征识别不同的保留时间偏移值。所述系统基于针对所述第一子集中包含的所述色谱特征所识别的不同保留时间偏移值且基于机器学习模型,针对从所述第一样品中检测到的所述多个色谱特征的第二子集中包含的每个色谱特征确定不同的预测保留时间偏移值。所述系统为所述第二子集中包含的每个色谱特征分配所述不同的预测保留时间偏移值。(An exemplary chromatography alignment system accesses a target file containing data representative of a plurality of chromatographic features detected from a first sample and a reference file containing data representative of a plurality of chromatographic features detected from a second sample. The system identifies, based on the target file and the reference file, a different retention time offset value for each chromatographic feature contained in the first subset of the plurality of chromatographic features detected from the first sample. The system determines a different predicted retention time offset value for each chromatographic feature included in a second subset of the plurality of chromatographic features detected from the first sample based on the different retention time offset values identified for the chromatographic features included in the first subset and based on a machine learning model. The system assigns the different predicted retention time offset value to each chromatographic feature contained in the second subset.)

用于执行色谱对齐的方法和系统

背景技术

色谱法(例如,例如在LC-MS或GC-MS系统中与质谱法(“MS”)耦合的液相色谱法(“LC”)或气相色谱法(“GC”))可用于检测和识别样品内的组分并确定样品内各组分的相对丰度。LC-MS和GC-MS经常用于生物学,功能基因组学和生物标志物发现的比较分析方法中,例如代谢组学,脂质组学和蛋白质组学研究。在这些比较分析方法中,LC-MS或GC-MS可以跨越多个样品对各个组分进行定量比较。

组分的保留时间(例如,在LC-MS或GC-MS系统中进样到在色谱分离后出现相对强度最大峰值之间的时间长度)在不同样品中可能会有所不同,这是因为LC-MS或GC-MS系统内条件的变化,例如温度、压力等。因此,在比较样品之间的组分丰度之前,先对两个样品执行色谱对齐。

现有的色谱对齐方法计算量大,消耗大量计算资源,并且不能扩展用于分析大量样品。因此,需要用于以提高的性能和速度、减少的处理负荷和可扩展性进行色谱对齐的方法和系统。

发明内容

在一些示例性实施例中,一种方法包含:由色谱对齐系统访问包含代表从第一样品中检测到的多个色谱特征的数据的目标文件和包含代表从第二样品中检测到的多个色谱特征的数据的参考文件。所述方法还包含由色谱对齐系统基于目标文件和参考文件,针对从第一样品中检测到的多个色谱特征的第一子集中包含的每个色谱特征识别不同的保留时间偏移值。所述方法还包含基于针对第一子集中包含的色谱特征所识别的不同保留时间偏移值以及基于机器学习模型,针对从第一样品中检测到的多个色谱特征的第二子集中包含的每个色谱特征确定不同的预测保留时间偏移值。所述方法还包含通过色谱对齐系统为第二子集中包含的每个色谱特征分配不同的预测保留时间偏移值。

在一些示例性实施例中,针对第二子集中包含的每个色谱特征确定不同的预测保留时间偏移值包括:将代表从第一样品中检测到的多个色谱特征的第二子集的数据作为受训神经网络的输入应用,所述神经网络为第二子集中包含的每个色谱特征输出不同的预测保留时间偏移值。

在一些示例性实施例中,在色谱对齐系统的训练阶段期间,所述方法还包含:通过色谱对齐系统访问针对第一子集中包含的每个色谱特征所识别的不同保留时间偏移值;以及通过色谱对齐系统基于针对第一子集中包含的每个色谱特征所识别的不同保留时间偏移值训练机器学习模型。

在一些示例性实施例中,针对从第一样品中检测到的多个色谱特征的第一子集中的每个色谱特征识别不同保留时间偏移值包含:通过色谱对齐系统,将第一子集中包含的色谱特征与从第二样品中检测到的多个色谱特征匹配;并通过色谱对齐系统基于匹配,针对从第一样品中检测到的多个色谱特征的第一子集中包含的每个色谱特征识别不同的保留时间偏移值。

在一些示例性实施例中,所述方法还包含:基于阈值,通过色谱对齐系统,将从第一样品中检测到的多个色谱特征划分为第一子集和第二子集。第一子集中包含的每个色谱特征的强度值大于或等于阈值。第二子集中包含的每个色谱特征的强度值小于阈值。

在一些示例性实施例中,所述方法还包含由色谱对齐系统基于第一子集中包含的色谱特征的强度值来选择阈值。

在一些示例性实施例中,所述方法还包含:由色谱对齐系统基于色谱特征的随机选择,将从第一样品中检测到的多个色谱特征划分为第一子集和第二子集。

在一些示例性实施例中,所述方法还包含由色谱对齐系统基于针对第一子集中包含的每个色谱特征所识别的不同保留时间偏移值和第二子集中包含的每个色谱特征的不同的预测保留时间偏移值,分配从第一样品中检测到的多个色谱特征的保留时间。

在一些示例性实施例中,一种系统包含至少一个存储器,其存储指令;和至少一个处理器,其通信地耦合到至少一个存储器并配置成执行指令以:访问目标文件和参考文件,所述目标文件包含代表从第一样品中检测到的多个色谱特征的数据,所述参考文件包含代表从第二样品中检测到的多个色谱特征的数据;基于目标文件和参考文件,针对从第一样品中检测到的多个色谱特征的第一子集中包含的每个色谱特征识别不同的保留时间偏移值;基于针对第一子集中包含的色谱特征所识别的不同保留时间偏移值并基于机器学习模型,针对从第一样品中检测到的多个色谱特征的第二子集中包含的每个色谱特征确定不同的预测保留时间偏移值;并为第二子集中包含的每个色谱特征分配不同的预测保留时间偏移值。

在一些示例性实施例中,针对第二子集中包含的每个色谱特征确定不同的预测保留时间偏移值包括:将代表从第一样品中检测到的多个色谱特征的第二子集的数据作为受训神经网络的输入应用,所述神经网络输出第二子集中包含的每个色谱特征的不同的预测保留时间偏移值。

在一些示例性实施例中,在训练阶段期间,至少一个处理器进一步配置成:访问针对第一子集中包含的每个色谱特征所识别的不同保留时间偏移值;并基于针对第一子集中包含的每个色谱特征所识别的不同保留时间偏移值来训练机器学习模型。

在一些示例性实施例中,针对从第一样品中检测到的多个色谱特征的第一子集中的每个色谱特征识别不同保留时间偏移值包含:将第一子集中包含的色谱特征与从第二样品中检测到的多个色谱特征匹配;并基于匹配针对从第一样品中检测到的多个色谱特征的第一子集中包含的每个色谱特征识别不同的保留时间偏移值。

在一些示例性实施例中,至少一个处理器进一步配置成:基于阈值,将从第一样品中检测到的多个色谱特征划分为第一子集和第二子集。第一子集中包含的每个色谱特征的强度值大于或等于阈值。第二子集中包含的每个色谱特征的强度值小于阈值。

在一些示例性实施例中,至少一个处理器进一步配置成:基于第一子集中包含的色谱特征的强度值,选择阈值。

在一些示例性实施例中,至少一个处理器进一步配置成:基于色谱特征的随机选择,将从第一样品中检测到的多个色谱特征划分为第一子集和第二子集。

在一些示例性实施例中,所述至少一个处理器进一步配置成:基于针对第一子集中包含的每个色谱特征所识别的不同保留时间偏移值和第二子集中包含的每个色谱特征的不同预测保留时间偏移值,分配从第一样品中检测到的多个色谱特征的保留时间。

在一些示例性实施例中,一种非暂时性计算机可读介质,其存储指令,所述指令在被执行时指导计算装置的至少一个处理器执行以下操作:访问目标文件和参考文件,所述目标文件包含代表从第一样品中检测到的多个色谱特征的数据,所述参考文件包含代表从第二样品中检测到的多个色谱特征的数据;基于目标文件和参考文件,针对从第一样品中检测到的多个色谱特征的第一子集中包含的每个色谱特征识别不同的保留时间偏移值;基于针对第一子集中包含的色谱特征所识别的不同保留时间偏移值并基于机器学习模型,针对从第一样品中检测到的多个色谱特征的第二子集中包含的每个色谱特征确定不同的预测保留时间偏移值;并为第二子集中包含的每个色谱特征分配不同的预测保留时间偏移值。

在一些示例性实施例中,针对第二子集中包含的每个色谱特征确定不同的预测保留时间偏移值包括:将代表从第一样品中检测到的多个色谱特征的第二子集的数据作为受训神经网络的输入应用,所述神经网络输出第二子集中包含的每个色谱特征的不同的预测保留时间偏移值。

在一些示例性实施例中,根据权利要求15所述的计算机可读介质,其中在所述系统的训练阶段期间,所述指令在被执行时指导所述计算装置的所述至少一个处理器进行以下操作:访问针对第一子集中包含的每个色谱特征所识别的不同保留时间偏移值;并基于针对第一子集中包含的每个色谱特征所识别的不同保留时间偏移值,训练机器学习模型。

在一些示例性实施例中,针对从第一样品中检测到的多个色谱特征的第一子集中的每个色谱特征识别不同保留时间偏移值包含:将第一子集中包含的色谱特征与从第二样品中检测到的多个色谱特征匹配;并基于匹配针对从第一样品中检测到的多个色谱特征的第一子集中包含的每个色谱特征识别不同的保留时间偏移值。

附图说明

附图示出了各种实施例,并且是说明书的一部分。所示实施例仅是实例,并且不限制本公开的范围。贯穿本附图,相同或类似的附图标记代表相同或类似的元件。

图1示出了根据本文所述原理的示例性液相色谱-质谱法系统。

图2示出了根据本文所述原理的示例性色谱对齐系统。

图3示出了根据本文所述原理的用于通过图2的色谱对齐系统执行文件的色谱对齐的工作流程的示例性配置。

图4示出了根据本文所述原理的用于第一样品的示例性色谱仪。

图5示出了根据本文所述原理的用于第二样品的示例性色谱仪。

图6示出了根据本文所述原理的在目标文件的色谱特征与参考文件的色谱特征之间进行匹配的示例性峰值。

图7示出了根据本文所述原理的用于训练机器学习模型以预测针对样品中检测到的色谱特征的保留时间偏移值的示例性方式。

图8示出了根据本文所述原理的用于确定和分配针对样品中检测到的色谱特征的保留时间偏移值的示例性方法。

图9示出了根据本文所述原理的示例性计算装置。

具体实施方式

本文描述了用于执行色谱对齐的方法和系统。在实例中,色谱对齐系统可以访问包含代表从第一样品中检测到的多个色谱特征的数据的目标文件,以及包含代表从第二样品中检测到的多个色谱特征的数据的参考文件。基于目标文件和参考文件,色谱对齐系统可以针对从第一样品中检测到的多个色谱特征的第一子集中包含的每个色谱特征识别不同的保留时间偏移值。在实例中,第一子集中包含的每个色谱特征的强度值大于或等于阈值。

基于针对第一子集中包含的色谱特征所识别的不同保留时间偏移值并基于机器学习模型,针对从第一样品中检测到的多个色谱特征的第二子集中包含的每个色谱特征确定不同的预测保留时间偏移值。第二子集中包含的每个色谱特征的强度值小于阈值。色谱对齐系统为第二子集中包含的每个色谱特征分配不同的预测保留时间偏移值。在某些实例中,可以利用每个色谱特征的不同的预测保留时间偏移值来提供从第一样品中检测到的色谱特征与从另一样品中检测到的色谱特征之间的色谱对齐。

本文描述的用于执行色谱对齐的方法和系统可以提供各种益处,其可以包含优于常规色谱对齐系统和方法的一个或多个优点。例如,与常规色谱对齐系统和方法相比,本文所述的色谱对齐系统和方法可以以减少的处理时间、减少的计算资源使用和提高的可扩展性来识别和预测不同的保留时间偏移值。这些和其它优点将在本文中描述。

现在将参考附图更详细地描述各个实施例。本文所述的系统和方法可以提供上述益处中的一个或多个和/或本文将使各种额外的和/或替代性的益处显而易见。

在一些实施方案中,色谱对齐系统和方法可以与LC-MS系统结合使用。因而,现在将描述示例性LC-MS系统。所描述的示例性LC-MS系统是说明性的而非限制性的。所描述的系统和方法可以作为本文所述的LC-MS系统的一部分或与之结合操作和/或与其它合适的色谱-质谱系统,包含高性能液相色谱-质谱(HPLC-MS)和气相色谱-质谱(GC-MS)系统一起操作。

图1示出了示例性液相色谱-质谱系统100(“LC-MS系统100”)。如所示,LC-MS系统100包含液相色谱仪102、质谱仪104和控制器106。LC-MS系统100可以配置成分离注入到LC-MS系统100中的样品内的组分,并确定样品内的组分的相对丰度。在某些实例中,样品可以包含多种生物组分(例如,代谢物、蛋白质、脂质等)或化学组分(例如,分子、离子等),以通过LC-MS系统100进行检测。

液相色谱仪102配置成随着时间的流逝分离样品中的某些组分并且检测分离的组分的相对丰度。液相色谱仪102可以通过可适合于特定实施方案的任何合适类型的液相色谱仪来实施。例如,在液相色谱仪102中,可以将样品注入到流动相(例如,溶剂)中,所述流动相携载样品通过包含固定相(例如,吸附剂填充材料)的柱。当流动相通过色谱柱时,样品内的组分会基于例如其大小、与固定相的亲和力、极性和/或疏水性在不同时间从色谱柱中洗脱出来。然后,检测器(例如,分光光度计)测量由来自柱的洗脱液中的每个分离的组分(流出物)调制的信号的相对强度。由检测器生成的数据可以代表为色谱仪,其在x轴上标绘保留时间,并在y轴上标绘代表相对强度的信号。组分的保留时间通常测量为将样品注入流动相与色谱分离后色谱上出现相对强度最大峰值之间的时间间隔。在一些实例中,相对强度可以与分离的组分的相对丰度相关或代表分离的组分的相对丰度。液相色谱仪102生成的数据可以输出到控制器106。

在某些情况下,尤其是在复杂混合物的分析中,多种不同的组分可能会在大约相同的时间从色谱柱中洗脱出来,且因此可能具有相同或类似的保留时间。结果,确定样品内各个组分的相对强度需要进一步分离各个组分。为此,液相色谱仪102将流出物输送到质谱仪104。

质谱仪104配置成基于每个组分的质荷比(m/z)分离各个组分,并测量各个组分的相对丰度。质谱仪104可以由可适合于特定实施方案的任何合适的质谱仪来实施。例如,质谱仪104可以使从液相色谱仪102接收的流出物离子化,并基于m/z对离子进行分类或分离。质谱仪104中的检测器然后测量由每个检测到的离子调制的信号的相对强度。检测器生成的数据可以以质谱的形式显示,其在x轴上标绘m/z且在y轴上标绘相对强度。在一些实例中,相对强度可以与检测到的离子的相对丰度相关或代表检测到的离子的相对丰度。质谱仪104生成的数据可以输出到控制器106。

控制器106可以与LC-MS系统100(例如,液相色谱仪102和质谱仪104)通信地耦合并且配置成控制所述LC-MS系统的操作。控制器106可以包含硬件(例如,处理器、电路系统等)和/或配置成控制LC-MS系统100的各个部件的操作的软件。控制器106可以配置成接收LC-MS原始数据(例如,来自液相色谱仪102的色谱数据和来自质谱仪104的质谱数据),其可以被组合并且以三维形式代表为特征图。在特征图中,可以沿x轴标绘保留时间,可以沿y轴标绘m/z,并且可以沿z轴标绘相对强度。特征图上的光谱特征(例如,相对强度的峰值)代表通过LC-MS系统100对包含在分析样品中的各种组分的检测。

由于特征图通常包含相同分子种类的许多信号代表,因此可以执行组分检测过程(例如,通过控制器106或另一计算装置)以将LC-MS原始数据中的许多光谱特征减少和/或组合为较小数量的组分特征。精简LC-MS数据也可以代表为特征图。组分特征是指减小的特征图上的相对强度峰值,且代表分析样品内的单个组分。因此,特定的组分特征具有保留时间与m/z值的唯一组合。并且如上所述,组分特征的相对强度可以指示样品内组分的相对丰度。

精简LC-MS数据的x轴和z轴代表质谱图,所述图标绘了相对强度与保留时间的函数关系。如本文所用,色谱特征是指质谱图上相对强度的明显峰值。精简LC-MS数据的y轴和z轴代表质谱,所述质谱标绘了相对强度与m/z的函数关系。如本文所使用,“文件”可以指由LC-MS系统(例如,LC-MS系统100)从唯一的样品分析(实验)生成的精简LC-MS数据。

在生物学,功能基因组学和生物标志物发现方面的差异分析方法中,研究人员可能希望比较多个不同人群的分子特征。例如,研究人员可能希望将第一样品(例如,从第一个体获取的样品)中特定组分的相对丰度与第二样品(例如,从第二个体获取的样品)中相同组分的相对丰度进行比较。但是,由于每个文件代表样品的唯一实验分析,即使对于相同的组分,实验条件(例如,色谱柱填充材料、温度、压力、柱龄等)的变化也会导致保留时间的变化。因此,在可以对两个文件进行比较之前,必须通过色谱对齐过程对两个文件的色谱特征进行对齐,以确保仅对两个文件中的相同组分(例如,分子种类)进行比较,即确保同类比较。

存在多种用于色谱对齐的算法,例如时间扭曲和直接匹配。然而,时间扭曲在信号密度低的情况下不能很好地工作,例如在代谢组学和小分子(例如,质量小于约500Da的分子)中,因此信号之间的区分可能不够。在直接匹配中,目标文件和参考文件中的色谱特征基于各种类似性算法相互匹配。但是,由于文件中的大量组分特征,直接匹配的计算量很大并且直接匹配消耗大量的处理功率,且因此不易扩展。

如将在下面更详细地解释,相对于参考文件,对于目标文件,本文中描述的色谱对齐系统和方法通过确定色谱特征的第一子集(例如,相对强度等于或超过预定阈值的色谱特征)的保留时间偏移值,克服了现有色谱对齐方法的缺陷。基于所确定的色谱特征的第一子集的保留时间偏移值,本文所述的系统和方法预测色谱特征的第二子集(例如,相对强度小于预定阈值的色谱特征)的保留时间偏移值。所述方法显着减少了计算装置上的处理负荷并提高了执行色谱对齐的速度,所有这些使得本文所述的系统和方法可扩展用于大量文件。现在将描述示例性色谱对齐系统和方法。

图2示出了示例性色谱对齐系统200(“系统200”)。如所示,系统200可以包含但不限于彼此选择性且通信地耦合的存储设施202和处理设施204。设施202和204可各自包含硬件和/或软件组件(例如,处理器、存储器、通信接口、存储在存储器中以供处理器执行的指令等)或由其实施。在一些实例中,设施202和204可以分布在多个装置和/或多个位置之间,这可以服务于特定实施方案。

存储设施202可以维护(例如,存储)由处理设施204使用以执行本文描述的任何操作的可执行数据。例如,存储设施202可以存储可以由处理设施204执行以执行本文描述的任何操作的指令206。指令206可以由任何合适的应用程序、软件、代码和/或其它可执行数据例项来实施。

存储设施202还可以维护由处理设施204接收、生成、管理、使用和/或传输的任何数据。例如,如所示,存储设施202可以维护文件数据208和色谱对齐算法数据210。

文件数据208可以包含代表一个或多个文件的数据。如上所述,每个文件都包含由LC-MS系统(例如,LC-MS系统100)从唯一的样品分析生成的精简LC-MS特征图数据。因此,每个文件都包含代表特定样品的多个色谱特征的数据。数据可以指示每个色谱特征的相对强度值和保留时间值。这里将描述代表示例性目标文件和示例性参考文件的色谱图。

色谱对齐算法数据210可以包含代表处理设施204维护的用于执行目标文件和参考文件的色谱对齐的一种或多种算法、由其使用,或与其相关联的数据。例如,色谱对齐算法数据210可以包含代表峰值匹配算法和一个或多个机器学习模型的数据。在实例中,可以利用峰值匹配算法来识别针对目标样品已经检测到的任何适合数量的色谱特征的保留时间偏移值。例如,峰值匹配算法可以指导处理设施204在目标文件的色谱特征与参考文件的色谱特征之间执行峰值匹配,以识别目标文件的色谱特征的保留时间偏移值。保留时间偏移值可用于校正目标文件的色谱特征,因此可以可靠地将所述色谱特征与参考文件的色谱特征进行比较。

机器学习模型可以包含代表机器学习模型的数据,所述数据配置成预测目标文件中任何适合数量的色谱特征的保留时间偏移值。例如,机器学习模型可以由处理设施204用来构建非线性回归模型,以拟合由峰值检测算法针对目标文件的色谱特征所识别的保留时间偏移值。然后,机器学习模型可以使用非线性回归模型来预测目标文件的其余色谱特征的保留时间偏移值。

处理设施204可以配置成执行(例如,执行存储在存储设施202中的指令206以执行)与执行色谱对齐相关联的各种处理操作。例如,处理设施204可以访问包含代表从第一样品中检测到的多个色谱特征的数据的目标文件,以及包含代表从第二样品中检测到的多个色谱特征的数据的参考文件。基于目标文件和参考文件,处理设施204可以针对从第一样品中检测到的多个色谱特征的第一子集中包含的每个色谱特征识别不同的保留时间偏移值。基于针对第一子集中包含的色谱特征所识别的不同的保留时间偏移值并且基于机器学习模型,处理设施204可以针对从第一样品中检测到的多个色谱特征的第二子集中包含的每个色谱特征确定不同的预测保留时间偏移值。处理设施204可以为第二子集中包含的每个色谱特征分配不同的预测保留时间偏移值。在某些实例中,基于针对每个色谱特征的不同的预测保留时间偏移值,处理设施204可以在从第一样品中检测到的色谱特征与从另一样品中检测到的色谱特征之间执行色谱对齐。本文描述了可由处理设施204执行的这些和其它操作。

在一些实例中,系统200可以全部或部分地由LC-MS系统100(例如,由控制器106)实施。替代地,系统200可以与LC-MS系统100分开实施。

图3示出了用于执行目标文件302的色谱特征与参考文件304的色谱特征的色谱对齐的系统200(例如,处理设施204)的示例性工作流程300。系统200可以以任何合适的方式并且从任何合适的来源访问目标文件302和参考文件304。在一些实例中,系统200可以从系统200的存储设施202或从LC-MS系统100访问目标文件302和参考文件304。目标文件302包含代表由LC-MS系统(例如,LC-MS系统100)从第一样品中检测到的多个色谱特征的数据,并且参考文件304包含代表由LC-MS系统(例如,LC-MS系统100)从第二样品中检测到的多个色谱特征的数据。

系统200可以将目标文件302和参考文件304作为特征子集单元306的输入应用。特征子集单元306可以将代表目标文件302的色谱特征的数据划分为色谱特征的第一子集308和色谱特征的第二子集310,所述子集将以不同方式进行处理。类似地,特征子集单元306可以将代表参考文件304的色谱特征的数据划分为色谱特征的第一子集312和色谱特征的第二子集313,所述子集也将以不同方式进行处理。

特征子集单元306可以执行可以由系统200执行并且可以配置成将目标文件302和参考文件304划分为第一子集和第二子集的任何合适的试探法,过程和/或操作。在一些实例中,特征子集单元306可以由硬件和/或软件组件(例如,处理器、存储器、通信接口、存储在存储器中以供处理器执行的指令等),例如系统200的存储设施202和/或处理装置204来实施。

目标文件302的第一子集308可以包含相对强度值大于或等于第一阈值的色谱特征,并且目标文件302的第二子集310可以包含相对强度值小于第一阈值的色谱特征。在一些实例中,第一阈值可以是在系统200访问目标文件302之前确定的预定阈值。替代地,可以由特征子集单元306基于目标文件302内的色谱特征的相对强度值来确定第一阈值。

现在将参考图4描述将目标文件302划分为第一子集308和第二子集310。图4示出了代表目标文件302中包含的数据的示例性色谱图402。如所示,色谱图402包含代表第一样品中检测到的组分的多个色谱特征404。色谱图402在不脱离本公开内容的范围的情况下可以包含比图4中所示的更多或更少的色谱特征404。特征子集单元306可以基于阈值406将色谱特征404划分为色谱特征的第一子集308(例如,色谱特征308-1、308-2、308-3和308-4)和色谱特征的第二子集310(例如,色谱特征310-1、310-2、310-3、310-4等)。

阈值406可以如本文所述以任何合适的方式设置。在一些实例中,阈值406可以被设置为所有色谱特征404当中的最大相对强度值的特定百分比(例如75%)。替代地,阈值406可以被预定为特定的相对强度值。如图4所示,基于阈值406将色谱特征404划分为两个子集可以导致与第二子集310相比,包含在第一子集308中的色谱特征404明显更少。

返回参考图3,特征子集单元306可以划分代表参考文件304的色谱特征的数据,以生成从第二样品中检测到的色谱特征的第一子集312和第二子集313。在一些实例中,第一子集312可以包含具有大于或等于第二阈值的强度值的色谱特征,并且第二子集313可以包含具有小于第二阈值的强度值的色谱特征。在一些实例中,第二阈值可以是在系统200访问参考文件304之前确定的预定阈值。替代地,第二阈值可以由特征子集单元306基于参考文件304内的色谱特征的相对强度值来确定。

现在将参考图5描述将参考文件304划分为第一子集312和第二子集313。图5示出了代表参考文件304中包含的数据的示例性色谱图502。如所示,色谱图502包含代表第二样品中检测到的组分的多个色谱特征504。色谱图502在不脱离本公开内容的范围的情况下可包含比图5中所示的更多或更少的色谱特征504。特征子集单元306可基于阈值506将色谱特征504划分为色谱特征的第一子集312(例如,色谱特征312-1、312-2、312-3和312-4)和色谱特征的第二子集313(例如,色谱特征313-1、313-2、313-3、313-4等)。

阈值506可以如本文所述以任何合适的方式设置。在一些实例中,阈值506可以被设置为所有色谱特征504当中的最大相对强度值的特定百分比(例如75%)。替代地,阈值506可以被预定为特定的相对强度值。替代地,可以将阈值506设置为等于阈值406(反之亦然)。如图5所示,基于阈值506将色谱特征504划分为两个子集可以导致与第二子集313相比,第一子集312中的色谱特征明显更少。

返回参考图3,系统200可以将目标文件302的第一子集308和参考文件304的第一子集312作为峰值匹配单元314的输入应用。峰值匹配单元314可以执行可以由系统200执行并且可以配置成执行目标文件302的第一子集308的色谱特征与参考文件304的第一子集312的色谱特征的峰值匹配的任何合适的试探法、过程和/或操作。在一些实例中,峰值匹配单元314可以由硬件和/或软件组件(例如,处理器、存储器、通信接口、存储在存储器中以供处理器执行的指令等),例如系统200的色谱存储设施202(例如,对齐算法数据210)和/或处理设施204)来实施。

峰值匹配单元314可以应用峰值匹配算法来执行目标文件302的第一子集308的色谱特征与参考文件304的第一子集312的色谱特征的峰值匹配。在一些实例中,峰值匹配算法可以配置成将第一子集308的色谱特征中的一个或多个与第二子集312的对应色谱特征(即,与第二子集312中与第一子集308的色谱特征代表同一组分的色谱特征)相匹配。峰值匹配单元314可以以任何合适的方式并且使用一种或多种任何合适的算法来执行峰值匹配。例如,峰值匹配单元314可以通过使用归一化的加权绝对差、余弦相似度、欧氏距离和马氏距离来计算色谱特征的相似度。另外,在已经计算出相似度之后,峰值匹配单元314可以采用例如贪婪或组合匹配方法。

在色谱特征已经匹配之后,峰值匹配单元314可以针对目标文件302的第一子集308的色谱特征识别不同的保留时间偏移值。图6示出了执行峰值匹配并针对目标文件302的第一子集308的色谱特征识别不同的保留时间偏移值的方式。图6示出了包含第一子集308中包含的色谱特征308-1、308-2、308-3和308-4的色谱图402以及包含第一子集312中包含的色谱特征312-1、312-2、312-3和312-4的色谱图502。峰值匹配单元314可确定色谱特征308-1和312-1对应于同一组分,色谱特征308-2和312-2对应于同一组分,色谱特征308-3和312-3对应于同一组分,且色谱特征308-4和特征312-4对应于同一组分。

基于第一子集308和第一子集312中包含的特征的峰值匹配,峰值匹配单元314可以针对目标文件302的子集308的每个色谱特征(例如,色谱特征308-1、308-2、308-3和308-4)识别不同的保留时间偏移值602(例如,保留时间偏移值602-1、602-2、602-3和602-4)。例如,峰值匹配单元314可执行峰值匹配以将色谱特征308-1、308-2、308-3和308-4的保留时间与参考文件304的色谱特征312-1、312-2、312-3和312-4的保留时间进行比较。基于所述比较,峰值匹配单元314可以针对子集308-1的每个色谱特征识别不同的保留时间偏移值602(例如,色谱特征308-1的保留时间偏移值602-1、色谱特征308-2的保留时间偏移值602-2、色谱特征308-3的保留时间偏移值602-3,和色谱特征308-4的保留时间偏移值602-4)。

如图6所示,目标文件302的色谱特征308-1的保留时间可以小于参考文件304的色谱特征312-1的保留时间。基于色谱特征308-1与312-1的保留时间之间的差,系统200可以识别色谱特征308-1的保留时间偏移值602-1。系统200可以以基本上相同的方式将文件302的色谱特征308-2与色谱特征312-2进行比较,以识别色谱特征308-2的保留时间偏移值602-2。类似地,系统200可以以基本上相同的方式将色谱特征308-3与色谱特征312-3进行比较,以识别色谱特征308-3的保留时间偏移值602-3,并且以基本上相同的方式将色谱特征308-4与色谱特征312-4进行比较,以识别色谱特征308-4的保留时间偏移值602-4。

所识别的保留时间偏移值602-1到602-4可用于预测目标文件302的第二子集310中包含的每个色谱特征的不同的保留时间偏移值。然而,如图6所示,保留时间偏移值602-1、602-2、602-3和602-4可以是非线性的,使得保留时间偏移的方向和/或偏移量在一个色谱特征与另一个色谱特征之间可能不具有线性关系。因此,如将更详细地解释,系统200可以使用机器学习模型来预测目标文件302的第二子集310中包含的每个色谱特征的不同的保留时间偏移值。

返回参考图3,峰值匹配单元314可以输出针对第一子集308中包含的色谱特征所识别的不同保留时间偏移值316的集合。系统200然后可以将识别出的不同的保留时间偏移值316的集合作为训练数据318应用于机器学习模型320,如将在下面所描述。系统200可以利用训练数据318来训练机器学习模型320,以预测目标文件302内色谱特征的第二子集310的保留时间偏移值。

图7示出了用于训练机器学习模型320的方法700。如所示,训练数据702(例如,训练数据318)可以被提供给模型训练设施704,其可以利用训练数据702以任何合适的方式来训练机器学习模型。模型训练设施704可以使用训练数据702来训练一个或多个机器学习模型,以预测目标文件302中每个色谱特征的保留时间偏移值。模型训练设施704可以执行可以由系统200执行并且可以配置成训练机器学习模型的任何合适的试探法、过程和/或操作。在一些实例中,模型训练设施704可以由硬件和/或软件组件(例如,处理器、存储器、通信接口、存储在存储器中以供处理器执行的指令等),例如系统200的存储设施202和/或处理设施204来实施。

训练数据702可以包含代表目标文件302的色谱特征的第一子集308中包含的多个色谱特征的不同保留时间偏移值的数据(例如,所识别的不同保留时间偏移值316的集合)。在一些实例中,训练数据702可以被分成两个数据集合,以使得第一数据集合可以用于训练机器学习模型,而第二数据集合可以用于给机器学习模型评分,如本文所述。例如,可以分割训练数据702,使得保留时间偏移值的第一百分比(例如75%)可以用作训练机器学习模型的训练集,而保留时间偏移值的第二百分比(例如25%)可以用作评分集,以生成机器学习模型的准确性评分。

在实例中,模型训练设施704可以训练机器学习模型,以基于第一数据集合来确定保留时间偏移值。例如,模型训练设施704可以使用任何合适的机器学习过程来构建机器学习模型以拟合训练数据318所代表的不同的保留时间偏移值602。

在训练阶段期间,模型训练设施704可以运行一个或多个会话以基于训练数据702促进机器学习模型的训练。在一些实例中,模型训练设施704可以访问并使用第一训练数据702的集合来训练机器学习模型,以确定并为目标文件中的每个色谱特征分配不同的保留时间偏移值。例如,在训练阶段期间,模型训练设施704可以使用任何合适的机器学习技术来执行操作以促进通过机器学习模型学习如何使机器学习模型适合于用于训练数据702的第一数据集合内的保留时间偏移值。在实例中,模型训练设施704可以构建非线性回归模型以将保留时间偏移值拟合在用于训练数据702的第一数据集合内。

通过模型训练设施704完成训练阶段可以产生受训保留时间偏移值分配模型706,所述模型配置成针对目标文件(例如,目标文件302的色谱特征的第二子集310)中的每个色谱特征确定不同的保留时间偏移值。在实例中,受训保留时间偏移值分配模型706可以存储在例如存储设施202的数据存储器中,并且可以在运行时由包含处理设施204的任何合适的计算部件执行以针对目标文件中的色谱特征确定不同的保留时间偏移值。

在某些实例中,在完成初始训练阶段(其产生受训保留时间偏移值分配模型706)之后,模型训练设施704可以以任何合适的方式对受训保留时间偏移值分配模型706进行评分。例如,模型训练设施704可以通过使用来自训练数据702的第二数据集合来促进对受训保留时间偏移值分配模型706的评分。在实例中,模型训练设施704可以将第二数据集合作为受训保留时间偏移值分配模型706的输入提供。模型训练设施704可以接收训练数据702的第二集合内色谱特征的不同的保留时间偏移值,以作为受训保留时间偏移值分配模型706的输出。模型训练设施704可以将由受训保留时间偏移值分配模型706确定的保留时间偏移值与由峰值匹配单元314执行的峰值匹配期间确定的保留时间偏移值(例如,目标文件302的保留时间偏移值602)进行比较。基于所述比较,模型训练设施704可以确定受训保留时间偏移值分配模型706的准确性评分。在实例中,准确性评分可以基于预测的保留时间偏移值与所识别的保留时间偏移值匹配的紧密程度。在某些实例中,模型训练设施704可以执行多个训练会话,以促进对不同类型的机器学习模型的训练,并为每个不同的机器学习模型生成不同的准确性评分。在一些实例中,不同类型的机器学习模型可以包含但不限于神经网络、贝叶斯线性回归模型、增强型决策树回归模型、决策森林回归模型、快速森林分位数回归模型、线性回归模型、神经网络回归模型、序数回归模型和泊松回归模型。

通过模型训练设施704完成这些额外训练阶段可能会导致将优选或最佳的受训保留时间偏移值分配模型706选择为机器学习模型320。在实例中,将受训保留时间偏移值分配模型706选择为机器学习模型320可以基于每个不同机器学习模型的不同准确性评分。例如,模型训练设施704可以选择具有最高准确性评分的受训保留时间偏移值分配模型706以作为相关联文件(例如,目标文件302)的机器学习模型320。在将多个目标文件与参考文件304进行比较的某些实例中,机器学习模型320对于不同的目标文件可能是不同的。

再次参考图3,在一个或多个训练阶段完成之后,特征子集单元306可以将目标文件302的第二子集310和参考文件304的第二子集313作为机器学习模型320的输入提供,所述机器学习模型可以包含一个或多个隐藏层。基于第二子集310和第二子集313中的数据,机器学习模型320可以预测目标文件302的第二子集310内每个色谱特征的不同的保留时间偏移值。

例如,机器学习模型320可以输出目标文件302的预测保留时间偏移数据322,所述数据可以包含第二子集310内每个色谱特征的不同的保留时间偏移值。

系统200然后可以将预测的保留时间偏移数据322以及所识别的保留时间偏移数据316作为对齐单元324的输入应用。基于预测的保留时间偏移数据322和保留时间偏移数据316,对齐单元324可以将保留偏移值分配给目标文件302的色谱特征并输出对齐的目标文件326。对齐的目标文件326可以使用户能够对对齐的目标文件326和参考文件304内的组分执行比较分析。例如,用户可以将对齐目标文件326中代表的组分的相对丰度与文件304中代表的相同组分的相对丰度进行比较。另外或替代地,系统200可以提供对齐的目标文件326和/或参考文件304,例如以特征图、质谱图、质谱等形式,以供显示装置显示。

另外或替代地,系统200可以对多个其它目标文件执行色谱对齐,每个其它目标文件代表从唯一样品中检测到的多个色谱特征。在实例中,如果研究人员想要比较多个目标文件内的成分,那么可以以与上述针对目标文件302相同的方式,针对每个不同的目标文件以类似的方式执行色谱对齐。例如,特征子集单元306可以基于阈值将目标文件划分为色谱特征的第一集合和色谱特征的第二集合。峰值匹配单元314可以在目标文件的第一子集的色谱特征与参考文件(例如,参考文件304)的色谱特征之间执行峰值匹配,以识别在目标文件的第一子集中的色谱特征的保留时间偏移值。目标文件的这些保留时间偏移值可以用作所述目标文件的不同机器学习模型320的训练数据。然后,受训机器学习模型320可以预测目标文件的第二子集的色谱特征的保留时间偏移值。然后可以使用目标文件的所有色谱特征的保留时间偏移值来分配目标文件的色谱特征的保留时间偏移值。

在不脱离本公开的范围的情况下,可以对前述色谱对齐系统和方法进行各种修改。例如,除本文所述的阈值之外或除了基于所述阈值之外,系统200可以以任何合适的方式将目标文件302和/或参考文件304划分为不同的子集。例如,系统200可以基于目标文件302和/或参考文件304内色谱特征的随机选择,将目标文件302和/或参考文件304划分为多个子集,从而通过保留时间组织色谱特征并在有序列表中选择每第N个色谱特征等。

作为另一修改,系统200可以对目标文件302的第二子集310(而不是第一子集308)的色谱特征执行峰值匹配。在所述实例中,基于第二子集310的色谱特征的峰值匹配,可以将针对第二子集310所识别的保留时间提供为训练数据以训练机器学习模型。然后,受训机器学习模型可以预测目标文件302的第一子集308的色谱特征的不同保留时间偏移值。基于第一子集308的预测的保留时间偏移数据和第二子集310的保留时间偏移数据,系统200可以基于预测的保留时间偏移数据322和所识别的保留时间偏移数据316将保留时间偏移值分配给目标文件302的色谱特征,并输出对齐的目标文件326。对齐的目标文件326可以使用户能够对对齐的目标文件326和参考文件304内的组分执行比较分析。

图8示出了用于执行色谱对齐的示例性方法800。虽然图8示出了根据一个实施例的示例性操作,但其它实施例可以省略、增加、重新排序和/或修改图8中所示的任何操作。图8中所示的一个或多个操作可以由系统200、包含在其中的任何部件和/或其任何实施方案来执行。

在操作802中,访问目标文件和参考文件。可以以本文描述的任何方式来执行操作802。目标文件可以包含代表从第一样品中检测到的多个色谱特征的数据。参考文件可以包含代表从第二样品中检测到的多个色谱特征的数据。

在操作804中,基于目标文件和参考文件,针对从第一样品中检测到的多个色谱特征的第一子集中包含的每个色谱特征识别不同的保留时间偏移值。可以以本文描述的任何方式来执行操作804。在一个实例中,多个色谱特征的第一子集中包含的每个色谱特征可以具有大于或等于阈值的相对强度值。

在操作806中,基于针对第一子集中包含的色谱特征所识别的不同保留时间偏移值并基于机器学习模型,针对从第一样品中检测到的多个色谱特征的第二子集中包含的每个色谱特征确定不同的预测保留时间偏移值。可以以本文描述的任何方式来执行操作806。在一个实例中,多个色谱特征的第二子集中包含的每个色谱特征可以具有小于阈值的相对强度值。

在操作808中,为第二子集中包含的每个色谱特征分配不同的预测保留时间偏移值。可以以本文描述的任何方式来执行操作808。

本文所述的色谱对齐系统和方法改善了系统200的功能和操作。通过仅对目标文件302的第一子集308中的色谱特征和参考文件304的第一子集312中的色谱特征执行计算密集型峰值匹配,系统200上的处理负荷显著降低。然而,通过使用机器学习模型以高可靠性来预测目标文件302的第二子集310中包含的色谱特征的保留时间偏移值。这样,峰值匹配的稳固性可用于涉及小分子和代谢物以及大分子(例如蛋白质)的差异分析中。此外,减少的处理要求使得所述方法能够被扩展用于涉及大量文件的比较。

在某些实施例中,本文所述的系统、部件和/或过程中的一个或多个可以由一个或多个适当配置的计算装置来实施和/或执行。为此,上述系统和/或部件中的一个或多个可以包含或由在至少一个配置成执行本文所述的过程中的一个或多个的非暂时性计算机可读介质上体现的任何计算机硬件和/或计算机实施指令(例如,软件)实施。具体地说,系统部件可以在一个物理计算装置上实施,或者可以在多于一个物理计算装置上实施。因此,系统部件可以包含任何数量的计算装置,并且可以采用任何数量的计算机操作系统。

在某些实施例中,本文所述的过程中的一个或多个可以至少部分地实施为体现在非暂时性计算机可读介质中并且可由一个或多个计算装置执行的指令。通常,处理器(例如,微处理器)从非暂时性计算机可读介质(例如,存储器等)接收指令,并且执行那些指令,从而执行包含本文所述的过程中的一个或多个的一个或多个过程。可以使用各种已知的计算机可读介质中的任何一种存储和/或传输这种指令。

计算机可读介质(也称为处理器可读介质)包含参与提供可以由计算机(例如,由计算机的处理器)读取的数据(例如,指令)的任何非暂时性介质。这种介质可以采取许多形式,包含但不限于非易失性介质和/或易失性介质。非易失性介质可以包含例如光盘或磁盘以及其它永久存储器。易失性介质可以包含例如通常构成主存储器的动态随机存取存储器(“DRAM”)。计算机可读介质的常见形式包含例如磁盘、硬盘、磁带、任何其它磁性介质、光盘只读存储器(“CD-ROM”)、数字视频盘(“DVD”)、任何其它光学介质、随机存取存储器(“RAM”)、可编程只读存储器(“PROM”)、带电可擦可编程只读存储器(“EPROM”)、FLASH-EEPROM、任何其它存储器芯片或磁带盒或计算机可以读取的任何其它有形介质。

图9示出了示例性计算装置900,其可以被具体配置成执行本文所述的过程中的一个或多个。如图9所示,计算装置900可以包含通信接口902、处理器904、存储装置906以及经由通信基础设施910通信地彼此连接的输入/输出(“I/O”)模块908。虽然图9中示出了示例性计算装置900,但是图9中示出的部件并不旨在是限制性的。在其它实施例中可以使用额外或替代部件。现在将更详细地描述图9中所示的计算装置900的部件。

通信接口902可以配置成与一个或多个计算装置通信。通信接口902的实例包含但不限于有线网络接口(如网络接口卡)、无线网络接口(如无线网络接口卡)、调制解调器、音频/视频连接以及任何其它合适的接口。

处理器904通常代表能够处理数据和/或解译、执行和/或指导本文所述的指令、过程和/或操作中的一个或多个的执行的任何类型或形式的处理单元。处理器904可以通过执行存储在存储装置906中的计算机可执行指令912(例如,应用程序、软件、代码和/或其它可执行数据例项)来执行操作。

存储装置906可以包含一个或多个数据存储介质、装置或配置,并且可以采用任何类型、形式和组合的数据存储介质和/或装置。例如,存储装置906可以包含但不限于本文描述的非易失性介质和/或易失性介质的任何组合。包含本文所述数据的电子数据可以临时和/或永久地存储在存储装置906中。例如,代表配置成指导处理器904执行本文所述的任何操作的计算机可执行指令912的数据可以存储在存储装置906内。在一些实例中,数据可以布置在驻留于存储装置906内的一个或多个数据库中。

I/O模块908可以包含配置成接收用户输入并且提供用户输出的一个或多个I/O模块。可以使用一个或多个I/O模块来接收针对单个虚拟体验的输入。I/O模块908可以包含支持输入和输出能力的任何硬件、固件、软件或其组合。例如,I/O模块908可以包含用于捕获用户输入的硬件和/或软件,包含但不限于键盘或小键盘、触摸屏部件(例如,触摸屏显示器)、接收器(例如,RF或红外接收器)、运动传感器和/或一个或多个输入按钮。

I/O模块908可以包含用于向用户呈现输出的一个或多个装置,包含但不限于图形引擎、显示器(例如,显示屏)、一个或多个输出驱动器(例如,显示驱动器)、一个或多个音频扬声器以及一个或多个音频驱动器。在某些实施例中,I/O模块908配置成向显示器提供图形数据以呈现给用户。图形数据可以代表一个或多个图形用户界面和/或可以用于特定实施方案的任何其它图形内容。

在一些实例中,本文描述的系统、计算装置和/或其它部件中的任何一个都可以由计算装置900来实施。例如,存储设施202可以由存储装置906实施,而处理设施204可以由处理器904实施。

本领域普通技术人员将认识到,尽管在前面的描述中,已经参考附图描述了各种示例性实施例。然而,显而易见的是,在不脱离所附权利要求中阐述的本发明的范围的情况下,可以对其进行各种修改和改变,并且可以实施额外实施例。例如,本文所述的一个实施例的某些特征可以与本文所述的另一个实施例的特征组合或由其替代。因此,描述和附图应被视为说明性的而非限制性的。

26页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种使用高效液相色谱测定粪便中褪黑素的方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!