基于加权非负矩阵分解的光谱图像解混方法及其应用

文档序号:1965076 发布日期:2021-12-14 浏览:15次 >En<

阅读说明:本技术 基于加权非负矩阵分解的光谱图像解混方法及其应用 (Spectral image unmixing method based on weighted nonnegative matrix decomposition and application thereof ) 是由 叶坚 何畅 毕心缘 于 2021-09-29 设计创作,主要内容包括:本申请涉及一种基于加权非负矩阵分解算法(NMF-CLS)的光谱图像解混方法,包括:基于标准光谱数据库,采用NMF-CLS算法对测试获得的光谱进行解混,获得待测样本中所包含的已知分子的种类及其相对浓度。本申请的NMF-CLS算法可以获得复杂样本中已知分子的种类及其相对含量,并可以排除数据库内未包含的分子对解混的影响。(The application relates to a spectral image unmixing method based on a weighted nonnegative matrix factorization algorithm (NMF-CLS), which comprises the following steps: and based on a standard spectrum database, unmixing the spectrum obtained by testing by adopting an NMF-CLS algorithm to obtain the type and relative concentration of the known molecules contained in the sample to be tested. The NMF-CLS algorithm can obtain the types and relative contents of known molecules in a complex sample, and can eliminate the influence of molecules not contained in a database on unmixing.)

基于加权非负矩阵分解的光谱图像解混方法及其应用

技术领域

本申请涉及图像处理技术领域,具体的涉及一种基于加权非负矩阵分解的光谱图像解混方法。

背景技术

红外光谱和拉曼光谱

红外光谱(Infrared spectrometry,IR)和拉曼光谱(Raman spectrometry)是研究分子结构和化学组成的有力工具,由于其快速、高灵敏度、检测用量少等优点,在材料、化工、环保、地质等领域广泛应用。从分析测试角度来看,两者配合使用往往能够更好提供分子结构方面的信息。红外光谱与拉曼光谱同属于分子振动光谱,但两者实际上存在较大区别:红外光谱是吸收光谱,拉曼光谱是散射光谱。

红外光谱:当电磁辐射与物质分子相互作用时,其能量与分子的振动或转动能量差相当时,引起分子由低能级向高能级发生跃迁,结果使某些特定波长的电磁辐射被物质分子所吸收,测量在不同波长处的辐射强度就得到了红外吸收光谱分子吸收红外辐射后发生振动能级和转动能级的跃迁,因而红外光谱又称为分子振动转动光谱。

拉曼光谱:光照射到物质,使光子与分子内的电子碰撞,若发生的是非弹性碰撞时,光子就有一部分能量传递给电子,此时散射光的频率就不等于入射光的频率,这种散射被称为拉曼散射,所产生的光谱被称为拉曼光谱。

拉曼光谱和红外光谱是最重要的分析化学方法之一,可提供待测体系的化学键等关键结构信息。然而,它们应用于材料和生物体系的表面化学分析时,常面临着灵敏度偏低的瓶颈。

表面增强红外光谱(surface-enhanced infrared absorption spectroscopy,SEIRAS)

当分子吸附在粗糙的金属颗粒表面上,红外吸收信号得到10~1000倍的显著增强,这种现象被称为表面增强红外吸收效应(Surface-enhanced infraredabsorpt1neffect,SEIRA)。基于表面增强红外吸收效应的表面增强红外光谱技术具有表面灵敏度高,能够检测到红外吸收的变化在106数量级;表面选择定则简单,便于分子吸附取向;不受传质阻力限制的优点,在分析应用方面具有很大的应用价值。

表面增强拉曼光谱(Surface-enhanced Raman spectroscopy,SERS)

表面增强拉曼光谱是通过吸附在金属纳米结构表面上的分子与金属表面发生的等离子共振相互作用而引起的拉曼散射强度增强的现象,是一种非常有效的拉曼信号检测技术。其能够将待测分子吸附在粗糙的纳米金属材料表面,可使待测物的拉曼信号增强106 -15倍的光谱现象,解决了普通拉曼光谱灵敏度低的问题,检测灵敏度可以达到单分子水平,从而推动SERS在食品安全、环境保护、医学检测等领域的应用。

表面增强拉曼光谱包括具有靶向表面增强拉曼光谱和光谱表面增强拉曼光谱。靶向表面增强拉曼光谱依赖于特异性结合,例如SERS颗粒表面修饰抗体,可以特异性捕获样本中的抗原,从而检测单一分子或少数若干个的分子的含量(浓度),但是无法实现广谱检测,获得的代谢结果极为有限。广谱表面增强拉曼光谱不依赖于特异性结合,实现生物样本中广谱的检测,分析中多采用主成分分析、机器学习等方法直接对两类样本进行分类,但是无法获得具体的代谢物信息(包括种类、含量等)。

光谱解析

拉曼光谱与红外光谱因其对于不同物质都会产生唯一性的光谱特性而被广泛应用。然而目前的大多数拉曼光谱或红外光谱图像都是由不同的物质混合合成,为了能够更加精准的对其中的每种成分进行分析,就需要对光谱图像进行解混分析。

经典最小二乘法(Classical least squares,CLS)的基本思想是将混合组分的光谱(如拉曼光谱)近似看成是一系列纯组分光谱的线性相加,算法的目的是求得每个纯组分光谱得系数,使得线性相加而重构后的光谱与原光谱的误差平方和最小。

非负矩阵分解算法(Nonnegative-Matrix-Factorization,NMF)与经典最小二乘法类似地将混合组分光谱(如拉曼光谱)看成是多个成分光谱的线性相加,但是其依靠迭代计算成分的光谱及与之对应的浓度。非负矩阵分解算法使用迭代的方式,将由多条混合光谱按列排列组成的矩阵分解为两个非负矩阵的乘积,其一在理想中为各组分的光谱按列排列组成的矩阵,另一个则为各组分在每条光谱中对应的相对浓度。设光谱矩阵是一个m*n的矩阵V,表示共有n条光谱,每条光谱由m个点组成。纯组分的光谱组成的矩阵是一个m*r的矩阵W,表示共有r种组分。表示每种组分的相对浓度的矩阵是一个r*n的矩阵H,每一列代表每条光谱对应的各组分相对浓度。各分离算法的目标是使V≈WH。

对于经典最小二乘法而言,将目标优化函数设为

其中W已知,是由各种纯组分的拉曼光谱组成的矩阵,目的是求得H,使F最小。那么可以得到F关于H的偏导数为

对于非负矩阵分解而言,其目标优化函数与经典最小二乘法相同,即方程(1),但对于该算法而言,W和H均未知,需要通过迭代计算两个矩阵的参数。目的是同时求得一组W和H,使F最小。可以得到F关于W和H的偏导数分别为

经典最小二乘法虽然可以得到相对准确的浓度系数,但是需要提供每一种纯组分的光谱,才能保证拟合效果较好,而对于含有至少几百种成分的生物样本而言,很难做到提供每一种组分的光谱。非负矩阵分解算法优势在于无需提供纯组分的拉曼光谱,但其计算出的光谱往往与实际成分的光谱不匹配,无法准确地找到目标成分的相对浓度数据。目前,现有技术当中还没有能够有效针对拉曼光谱或红外光谱进行准确解析的方法。

代谢组学

代谢组学是继基因组学和蛋白质组学之后新起的一门学科,它是系统生物学的重要组成部分,主要考察生物体系受刺激或扰动前后所有小分子代谢物及其含量的动态变化。通过对生物体内所有的小分子代谢物进行整体的定性、定量分析,可以探索并发现代谢物与生理病理变化的关系。研究表明,代谢组在疾病早期诊断、生物标志物发现、药物筛选、毒性评价、运动医学、营养学等领域有着重要应用价值。

核磁共振波谱法和质谱法两大分析技术是用于检测代谢物最主要的手段,核磁共振波谱技术(Nuclear magnetic resonance spectroscopy)在代谢物组学得到了非常广泛的应用,其显著优势是可以一次观测到多种代谢物,并且重现性好、无破坏性、测量时间短。但低灵敏度一直是核磁共振在代谢组学研究中应用的固有缺点和首要挑战。

质谱分析法具有灵敏度高,特异性强等优点,被广泛地应用于检测代谢组分,可以对经过分离、离子化处理后的代谢组分进行定性和定量。但由于质谱并不能直接对生物溶液或组织进行检测,其应用一直受限。

液相色谱-质谱联用技术(LC-MS)也应用于代谢组的研究。近年来,LC-MS技术得到了进一步的提高,大规模样本的检测应用也越来越多。随着检测样本数的增加,随之也产生了一系列问题,例如,大规模样本的检测时间较长,机器在长时间的运行过程中,会出现灵敏度下降、保留时间漂移等情况。

拉曼光谱(Raman spectroscopy)基于振动光谱学,能够检测化合物结构和其微小变化,具有不破坏样品、样品预处理简易、高空间分辨率等优点,已被应用于临床病理学研究、微生物的分类和检测、化合物的分析等领域。

发明内容

针对现有技术上所存在的上述技术问题,本申请的目的之一在于集合经典最小二乘法和非负矩阵分解两种方法建立一种新的光谱图像解混算法,即加权矩非负阵分解(NMF-CLS)算法,在获得较好拟合效果的基础上,得到特定组分所对应的相对浓度。

本申请的另一目的在于提供了加权非负矩阵算法在代谢组学中的应用。

一方面,本申请提供一种基于加权非负矩阵分解(NMF-CLS)算法的光谱图像解混方法,包括:基于标准光谱数据库,采用NMF-CLS算法对测试获得的光谱进行解混,获得待测样本中所包含的已知分子的种类及其相对浓度;所述已知分子为标准光谱数据库内所含分子,所述标准光谱数据库由不同分子的标准光谱组成;

其中所述NMF-CLS算法的目标函数设为:

其中,设光谱矩阵是一个m*n的矩阵V,表示共有n条光谱,每条光谱由m个点组成;m*r1的矩阵W(1)表示按列排列的已知分子的参考光谱,m*r2的W(2)表示按列排列的未知分子的光谱;r1*n的矩阵H(1)和r2*n的矩阵H(2)分别表示W(1)和W(2)所对应的相对浓度;其中r1和r2分别表示有r1种已知分子和r2种未知分子;α表示针对已知分子所设置的权重,α≥0;由于已知分子的参考光谱W(1)是已知的,求得W(2)、H(1)和H(2),使得方程中的F最小,即可得到已知分子所对应的相对浓度。

在某些实施方式中,其中所述H(1)、W(2)和H(2)是通过迭代过程中计算得出。

在某些实施方式中,其中所述F关于W(2)、H(1)和H(2)的偏导数为:

从偏导数得到W(1)、H(1)和H(2)的迭代公式为:

按迭代公式进行迭代更新H(1)、W(2)和H(2),当达到最大迭代次数N或F降低到设定阈值σ时停止迭代,迭代停止后,H(1)即为已知组分对应的相对浓度的最终结果。

在某些实施方式中,其中所述最大迭代次数N不小于约20次、约25次、约30次、约40次、约50次、约100次或约200次。

在某些实施方式中,其中所述阈值σ不超过约0.01,或约0.001,或约0.0001,或约0.00001,或约0.000001。

在某些实施方式中,其中所述H(1)、W(2)和H(2)的计算过程包括:

1)输入已知组分矩阵W(1)、测得的光谱矩阵V,最大迭代次数N及阈值σ;

2)随机初始化已知组分的系数矩阵H(1)、未知组分的光谱矩阵W(2)及系数矩阵H(2)

3)根据迭代公式进行迭代更新H(1)、W(2)和H(2)

4)达到最大迭代次数N或F降低到设定阈值σ时停止迭代;

5)迭代停止后,H(1)即为已知组分对应的相对浓度的最终结果。

在某些实施方式中,其中标准光谱的检测条件与待测样本的检测条件相同。

在某些实施方式中,其中所述权重α与待测样本中所包含已知分子的数量(r1)和未知分子的数量(r2)的比值呈负相关。

在某些实施方式中,其中当W(2)和H(2)均不存在时,所述权重α设为0,所述NMF-CLS算法的目标函数设为:即经典最小二乘法。

在某些实施方式中,其中当待测样本中所包含已知分子的数量(r1)和未知分子的数量(r2)的比值不小于1时,所述权重α设为0,所述NMF-CLS算法的目标函数设为:

在某些实施方式中,其中当待测样本中所包含已知分子的数量(r1)和未知分子的数量(r2)的比值小于1时,所述权重α不为0,所述NMF-CLS算法的目标函数设为:

在某些实施方式中,其中所述权重α的设定方法包括:

1)确定待测样本中已知分子和未知分子数量的比值;

2)配置多个包含少数不同浓度梯度已知分子以及一定数量的未知分子的简单样本,其中所述简单样本中已知分子与未知分子的数量比值与待测样本相等;

3)设定不同的权重α,采用NMF-CLS算法对测试获得的简单样本的光谱进行解混,并获得已知分子各自对应的系数,将系数与已知分子的实际浓度建立回归方程,计算其R方值,以获得最高R方的α为适合待测样本的最优权重值。

在某些实施方式中,其中确定待测样本中已知分子和未知分子数量的比值的方法包括主成分分析方法。

在某些实施方式中,其中所述简单样本中的分子数量与待测样本中的分子数量的比值不超过约1/2,或约1/5,或约1/10。

在某些实施方式中,其中所述简单样本中的已知分子的数量范围为1至100,或1至50,或1至20,或1至10。

在某些实施方式中,其中所述简单样本中的已知分子的数量范围为2至100,或2至50,或2至20,或2至10。

在某些实施方式中,其中所述标准光谱数据库建立包括:采集某一分子的多张光谱图像,计算获得该分子的平均光谱,同理获得其他分子的平均光谱,一并纳入标准光谱数据库中,得到标准光谱数据库。

在某些实施方式中,当采集某一分子的光谱图像时,该分子的浓度为0.1mM-10mM。

在某些实施方式中,其中采集某一分子的光谱图像的数量不少于约10张、约20张、约50张、约100张、或约200张。

在某些实施方式中,还包括将获得的分子的平均光谱的强度进行归一化。

在某些实施方式中,其中所述标准光谱数据库建立包括:采集某一分子的多张光谱图像,计算获得该分子的平均光谱的强度并进行归一化,所获得的光谱即为该分子的标准光谱,同理获得其他分子的标准光谱,一并纳入标准光谱数据库中,得到标准光谱数据库。

在某些实施方式中,其中所述标准光谱数据库建立包括:采集某一分子的多张光谱图像,将获得的多张光谱图像取平均,并将光谱的强度归一化到区间[0,1]内,所获得的光谱即为该分子的标准光谱,同理获得其他分子的标准光谱,一并纳入标准光谱数据库中,得到标准光谱数据库。

在某些实施方式中,包括采集多张待测样本的光谱,并对每一张光谱单独进行算法解析,获得不同已知组分的系数后再进行处理,最后得到该样本中不同已知分子的相对浓度的解析结果。

在某些实施方式中,其中所述处理包括:平均、求和、ANOVA分析和/或学生t检验。

在某些实施方式中,其中采集待测样本的光谱数量需要保证已基本上收集完全待测样本中的分子信息。

在某些实施方式中,其中判断为已基本上收集完全待测样本中的分子信息的光谱数量包括但不限于通过Pearson系数比较。

在某些实施方式中,其中所述Pearson系数的获取包括:使用M条待测样本的光谱的平均值作为标准光谱,每次取出N条光谱做平均,并计算其与标准光谱的Pearson系数,重复做n次上述操作,并对n个皮尔森系数取平均,作为对应于N条光谱下的相关系数。

在某些实施方式中,其中所述M为约50至500,或约100至400,或约200至300。

在某些实施方式中,其中所述n为约3至30,或约4至20,或约5至10。

在某些实施方式中,其中所述Pearson系数不小于约0.8,约0.85,约0.9或约0.95。

在某些实施方式中,其中所述待测样本包括化学样品或生物样品。

在某些实施方式中,其中所述待测样本包括液体样品。

在某些实施方式中,所述光谱图像包括红外光谱和拉曼光谱。

在某些实施方式中,所述红外光谱包括表面增强红外光谱。

在某些实施方式中,所述拉曼光谱包括表面增强拉曼光谱。

在某些实施方式中,所述表面增强拉曼光谱为广谱表面增强拉曼光谱。

另一方面,本申请提供一种基于表面增强拉曼光谱的分析方法,包括以下步骤:基于表面增强拉曼光谱(SERS)标准光谱数据库,采用加权非负矩阵分解算法(NMF-CLS)对测试获得的光谱进行解混,获得待测样本中含有已知分子的种类及其相对浓度;所述已知分子为SERS标准光谱数据库内所含分子,所述SERS标准光谱数据库由不同分子的SERS标准光谱组成;

其中所述NMF-CLS算法的目标函数设为:

其中,设光谱矩阵是一个m*n的矩阵V,表示共有n条光谱,每条光谱由m个点组成;m*r1的矩阵W(1)表示按列排列的已知分子的参考光谱,m*r2的W(2)表示按列排列的未知分子的光谱;r1*n的矩阵H(1)和r2*n的矩阵H(2)分别表示W(1)和W(2)所对应的相对浓度;其中r1和r2分别表示有r1种已知分子和r2种未知分子;α表示针对已知分子所设置的权重,α≥0;由于已知分子的参考光谱W(1)是已知的,求得W(2)、H(1)和H(2),使得方程中的F最小,即可得到已知分子所对应的相对浓度。

在某些实施方式中,其中所述H(1)、W(2)和H(2)是通过迭代过程中计算得出。

在某些实施方式中,其中所述F关于W(2)、H(1)和H(2)的偏导数为:

从偏导数得到W(1)、H(1)和H(2)的迭代公式为:

按迭代公式进行迭代更新H(1)、W(2)和H(2),当达到最大迭代次数N或F降低到设定阈值σ时停止迭代,迭代停止后,H(1)即为已知组分对应的相对浓度的最终结果。

在某些实施方式中,其中所述最大迭代次数N不小于约20次、约25次、约30次、约40次、约50次、约100次或约200次。

在某些实施方式中,其中所述阈值σ不超过约0.01,或约0.001,或约0.0001,或约0.00001,或约0.000001。

在某些实施方式中,其中所述H(1)、W(2)和H(2)的计算过程包括:

1)输入已知组分矩阵W(1)、测得的光谱矩阵V,最大迭代次数N及阈值σ;

2)随机初始化已知组分的系数矩阵H(1)、未知组分的光谱矩阵W(2)及系数矩阵H(2)

3)根据迭代公式进行迭代更新H(1)、W(2)和H(2)

4)达到最大迭代次数N或F降低到设定阈值σ时停止迭代;

5)迭代停止后,H(1)即为已知组分对应的相对浓度的最终结果。

在某些实施方式中,其中标准光谱的检测条件与待测样本的检测条件相同。

在某些实施方式中,其中SERS采用非靶向广谱检测。

在某些实施方式中,其中所述权重α与待测样本中所包含已知分子的数量(r1)和未知分子的数量(r2)的比值呈负相关。

在某些实施方式中,其中所述权重α的设定方法包括:

1)确定待测样本中已知分子和未知分子数量的比值;

2)配置多个包含少数不同浓度梯度已知分子以及一定数量的未知分子的简单样本,其中所述简单样本中已知分子与未知分子的数量比值与待测样本相等;

3)设定不同的权重α,采用NMF-CLS算法对测试获得的简单样本的光谱进行解混,并获得已知分子各自对应的系数,将系数与已知分子的浓度建立回归方程,计算其R方值,以获得最高R方的α为待测样本的最优权重值。

在某些实施方式中,其中确定待测样本中已知分子和未知分子数量的比值的方法包括主成分分析方法。

在某些实施方式中,其中所述简单样本中的分子数量与待测样本中的分子数量的比值不超过约1/2,或约1/5,或约1/10。

在某些实施方式中,其中所述简单样本中的已知分子的数量范围为1至100,或1至50,或1至20,或1至10。

在某些实施方式中,其中所述简单样本中的已知分子的数量范围为2至100,或2至50,或2至20,或2至10。

在某些实施方式中,其中所述标准光谱数据库建立包括:采集某一分子的多张SERS光谱图像,计算获得该分子的SERS平均光谱,同理获得其他分子的SERS平均光谱,一并纳入标准光谱数据库中,得到SERS标准光谱数据库。

在某些实施方式中,当采集某一分子的SERS光谱图像时,该分子的浓度为0.1mM-10mM。

在某些实施方式中,其中采集某一分子的SERS光谱图像的数量不少于约10张、约20张、约50张、约100张、或约200张。

在某些实施方式中,还包括将获得的分子的SERS平均光谱的强度进行归一化。

在某些实施方式中,其中所述标准光谱数据库建立包括:采集某一分子的多张SERS光谱图像,计算获得该分子的SERS平均光谱的强度并进行归一化,所获得的光谱即为该分子的SERS标准光谱,同理获得其他分子的SERS标准光谱,一并纳入SERS标准光谱数据库中,得SERS到标准光谱数据库。

在某些实施方式中,其中所述SERS标准光谱数据库建立包括:采集某一分子的多张SERS光谱图像,将获得的多张SERS光谱图像取平均后将平均光谱的强度归一化到区间[0,1]内,所获得的光谱即为该分子的SERS标准光谱,同理获得其他分子的SERS标准光谱,一并纳入标准光谱数据库中,得到SERS标准光谱数据库。

在某些实施方式中,其包括采集多张待测样本的SERS光谱,并对每一张SERS光谱单独进行算法解析,获得已知组分的系数H(1)后再进行处理,最后得到该样本中已知分子的相对浓度的解析结果。

在某些实施方式中,其中所述处理包括:平均、求和、ANOVA分析和/或学生t检验。

在某些实施方式中,其中所述采集待测样本的光谱数量需要保证已基本上收集完全待测样本中的分子信息。

在某些实施方式中,其中所述判断为已基本上收集完全待测样本中的分子信息的光谱数量包括但不限于通过Pearson系数比较。

在某些实施方式中,其中所述Pearson系数的获取包括:使用M条待测样本的光谱的平均值作为标准光谱,每次取出N条光谱做平均,并计算其与标准光谱的Pearson系数,重复做n次上述操作,并对n个皮尔森系数取平均,作为对应于N条光谱下的相关系数。

在某些实施方式中,其中所述M为约50至500,或约100至400,或约200至300。

在某些实施方式中,其中所述n为约3至30,或约4至20,或约5至10。

在某些实施方式中,其中所述Pearson系数不小于约0.8,约0.85,约0.9或约0.95。

在某些实施方式中,其中扫描待测样本的光谱数量不少于约20,或约30,或约40,或约50。

在某些实施方式中,其中扫描待测样本的光谱数量为约20至200,或约30至160,或约40至120,或约50至80。

在某些实施方式中,其中扫描待测样本的SERS光谱的速度为约1~5s/张。

在某些实施方式中,其中所述待测样本包括化学样品或生物样品。

在某些实施方式中,其中所述待测样本包括液体样品。

在某些实施方式中,其中所述生物样品包括细胞培养液、细胞上清液、细胞溶解产物、血液、血液源产物、淋巴、尿、眼泪、唾液、脑脊髓液、粪便、滑液、痰、细胞、器官或组织。

在某些实施方式中,其中所述SERS标准数据库中的分子包括代谢物。

在某些实施方式中,其中所述SERS标准数据库中的分子包括小分子代谢物。

另一方面,本申请提供一种代谢组学数据处理方法,包括:将同一类型的生物样品的光谱数据采用加权非负矩阵分解算法解混后,获得该类样品中已知分子的种类以及相对浓度的区间,得到该类生物样品的特征光谱数据库。

在某些实施方式中,所述代谢组学数据处理方法还包括:同理获得其他类型的生物样品中已知分子的种类以及相对浓度的区间,一并纳入特征光谱数据库中,得到包含不同类型生物样品的特征光谱数据库。

一种代谢组学分析方法,所述方法包括:基于标准光谱数据库,采用NMF-CLS算法对测试获得的待测样本的光谱进行解混,获得待测样本中含有代谢物的种类及其相对浓度,所述代谢物为标准光谱数据库内所含分子。

在某些实施方式中,其中所述待测样本的光谱为广谱SERS光谱。

在某些实施方式中,其中所述代谢物为SERS标准光谱数据库内所含分子。

在某些实施方式中,其还包括根据所获得的代谢物的种类及其相对浓度进行相关的生物医学分析。

在某些实施方式中,其中所述生物医学分析包括分析差异性代谢物数据。

在某些实施方式中,其中所述生物医学分析包括通过将待测样本的代谢物种类及相对浓度与特征光谱数据库比对。

在某些实施方式中,其中所述生物医学分析进一步包括对样本进行分类或分期。

在某些实施方式中,其中所述光谱数据包括拉曼光谱数据和红外光谱数据。

在某些实施方式中,其中所述红外光谱数据包括表面增强红外光谱数据。

在某些实施方式中,其中所述拉曼光谱数据包括表面增强拉曼光谱数据。

在某些实施方式中,其中所述标准光谱数据库包括拉曼光谱标准光谱数据库和红外光谱标准数据库。

在某些实施方式中,其中所述拉曼光谱标准光谱数据库包括SERS标准光谱数据库。

另一方面,本申请提供一种确定生物标志的方法,包括:

1)分别获得样本群样本和对照群样本的光谱数据,基于标准光谱数据库,采用加权非负矩阵分解算法对测试获得的光谱进行解混,分别获得的样本群样本和对照群样本中含有已知分子的种类及相对浓度,所述已知分子为标准光谱数据库内所含分子;

2)筛选差异性分子作为生物标志。

在某些实施方式中,所述差异性分子包括差异性代谢物。

在某些实施方式中,其中所述步骤2)包括通过ANOVA分析(Anova Test)和逻辑回归(Logistic Regression)交叉选出多种差异性代谢物。

在某些实施方式中,其中所述ANOVA分析包括对不同类别的数据进行统计分析,找出其中在不同类别间出现统计学差异的代谢物。

在某些实施方式中,其中所述逻辑回归包括使用相对浓度数据进行分类,找出对区分数据类别的具有贡献的代谢物。

在某些实施方式中,其中所述逻辑回归采用L1正则化,其分类时绝对值权重大于0,认为其对分类有贡献。

在某些实施方式中,其还包括对获得的差异性代谢物进行验证。

在某些实施方式中,其中所述验证包括将样本的实际浓度与通过加权非负矩阵分解算法解混出的系数进行回归分析。

在某些实施方式中,其中所述验证包括通过分析差异性代谢物与生理或病理吻合性进行验证。

另一方面,本申请提供一种检测疾病或病症存在,或者评估疾病或病症发生风险的方法,所述方法包括以下步骤:

1)获得个体待测样本的光谱,基于标准光谱数据库,采用加权非负矩阵分解(NMF-CLS)对测试获得的光谱进行解混,获得待测样本中含有已知代谢物的种类及其相对浓度,所述已知代谢物为标准光谱数据库内所含分子;

2)将所述已知代谢物的相对浓度与正常区间进行比较;以及

3)确定所述个体是否患有疾病或病症、或是发生疾病或病症的风险。

另一方面,本申请提供一种确定疾病或病症阶段的方法,所述方法包括以下步骤:

1)获得个体待测样本的光谱,基于标准光谱数据库,采用加权非负矩阵分解(NMF-CLS)对测试获得的光谱进行解混,获得待测样本中含有已知代谢物的种类及其相对浓度,所述已知代谢物为标准光谱数据库内所含分子;

2)将所述生物标志的相对浓度与已知的阶段水平进行比较;以及

3)确定疾病或病症的阶段或类型。

在某些实施方式中,其中所述疾病或病症选自下组:感染性疾病、增殖性疾病,神经退行性疾病、癌症、心理疾病、代谢疾病、自身免疫性疾病、性传播疾病、胃肠疾病、肺病、心血管疾病、压力和疲劳相关的病症、真菌病,病原性疾病和肥胖相关的病症。

另一方面,本申请提供一种细胞或微生物分析方法,所述方法包括以下步骤:

1)获得细胞待测样本的光谱数据,基于标准光谱数据库,采用加权非负矩阵分解(NMF-

CLS)对测试获得的光谱进行解混,获得待测样本中含有已知代谢物的种类及其相对浓度,所述已知代谢物为标准光谱数据库内所含分子;

2)将所述已知代谢物的相对浓度与正常区间进行比较;以及

3)确定所述细胞或微生物的生理或病理状态、生理或病理类型。

在某些实施方式中,所述的方法还包括进一步对鉴定后的细胞或微生物进行筛选,获得所需要的目标细胞或微生物类型。

在某些实施方式中,其中所述光谱数据包括拉曼光谱数据和红外光谱数据。

在某些实施方式中,其中所述红外光谱数据包括表面增强红外光谱数据。

在某些实施方式中,其中所述拉曼光谱数据包括表面增强拉曼光谱数据。

在某些实施方式中,其中所述标准光谱数据库包括拉曼光谱标准光谱数据库和红外光谱标准数据库。

在某些实施方式中,其中所述拉曼光谱标准光谱数据库包括SERS标准光谱数据库。

在某些实施方式中,其中所述待测样本的光谱包括广谱SERS光谱。

另一方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述的方法的步骤。

在某些实施方式中,所述的计算机可读存储介质还存储有标准光谱数据库数据。

在某些实施方式中,所述标准光谱数据库包括SERS标准光谱数据库。

另一方面,本申请提供一种装置,包括存储器和处理器,所述存储器存储有标准光谱数据库和计算机程序,所述处理器执行所述计算机程序时实现前述的方法的步骤。

另一方面,本申请提供一种基于加权非负矩阵分解算法的光谱解混系统,其包括:求解优化模块,用于采用迭代方法对加权非负矩阵分解算法进行求解,完成光谱数据解混。

在某些实施方式中,所述的系统还包括权重优化模块,用于采用线性回归方式对已知分子权重进行求解,确定最优权重值。

在某些实施方式中,所述的系统还包括评价模块,用于利用已知分子的相对浓度对解混结果进行评价。

另一方面,本申请提供前述的计算机可读存储介质,前述的装置,或前述的系统在制备装置中的用途,所述装置用于化合物的分析和/或微生物的分类和检测。

另一方面,本申请提供前述的计算机可读存储介质,前述的装置,或前述的系统在制备装置中的用途,所述装置用于代谢组学数据处理和/或分析。

另一方面,本申请提供一种代谢组学分析装置,所述装置包括:数据处理模块,用于对获取所述待检测样本的表面增强拉曼光谱数据进行解析,获得样本中代谢物的种类及其相对浓度。

在某些实施方式中,所述数据处理模块包括求解优化模块,用于采用迭代方法对加权非负矩阵分解算法进行求解,完成光谱数据解混。

在某些实施方式中,所述数据处理模块包括权重优化模块,用于采用线性回归方式对已知分子权重进行求解,确定最优权重值。

在某些实施方式中,所述数据处理模块包括评价模块,用于利用已知分子的相对浓度对解混结果进行评价。

在某些实施方式中,所述评价包括利用差异性代谢物分类检测模型对检测样本进行分类。

在某些实施方式中,所述装置还包括光谱检测模块,用于对所述待测样本进行光谱检测,获取所述待检测样本的光谱数据。

在某些实施方式中,所述装置还包括待测样本采集模块,用于基于代谢组学方法采集待测样本。

本领域技术人员能够从下文的详细描述中容易地洞察到本申请的其它方面和优势。下文的详细描述中仅显示和描述了本申请的示例性实施方式。如本领域技术人员将认识到的,本申请的内容使得本领域技术人员能够对所公开的

具体实施方式

进行改动而不脱离本申请所涉及发明的精神和范围。相应地,本申请的附图和说明书中的描述仅仅是示例性的,而非为限制性的。

附图说明

本申请所涉及的发明的具体特征如所附权利要求书所显示。通过参考下文中详细描述的示例性实施方式和附图能够更好地理解本申请所涉及发明的特点和优势。对附图简要说明如下:

图1显示的是本申请所述加权非负矩阵分解算法步骤的流程图;

图2显示的是本申请实施例1中构建的89种代谢物分子的SERS标准光谱;

图3a-3g显示的是本申请实施例2中模型验证的流程图及SERS光谱按照NMF-CLS解混后的拟合效果;

图4a显示的是本申请实施例2中样品的SERS光谱按照CLS解混后的拟合效果;

图4b显示的是本申请实施例2中样品的SERS光谱按照NMF解混后的拟合效果;

图4c显示的是本申请实施例2中通过NMF计算出的已知组分光谱;

图5a-5c显示的是本申请实施例3中模型的SERS光谱按照NMF-CLS解混后的拟合效果;

图6a-6c显示的是本申请实施例4不同细胞样本所需光谱数量计算结果;

图7a显示的是本申请实施例4中各细胞的细胞形态变化;

图7b显示的是本申请实施例4中各细胞培养液的SERS光谱按照CLS解混后的拟合效果;

图7c显示的是本申请实施例4中各细胞培养液的DAY2数据各选取200条光谱得到SERS光谱热图;

图7d显示的是本申请实施例4中各细胞培养液中8种差异性代谢物的系数变化曲线;

图8a-8c显示的是本申请实施例5不同血清样本所需光谱数量计算结果;

图9显示的是本申请实施例5中不同血清样本各选取200条光谱得到SERS光谱热图;

图10显示的是本申请实施例5中不同血清样本SERS光谱按照NMF-CLS解混后的拟合效果;

图11显示的是本申请实施例5不同血清样本中筛选得到的16种差异性代谢物;

图12a-12c显示的是本申请实施例5中代谢组学分类与psa筛选的比较结果。

具体实施方式

以下由特定的具体实施例说明本申请发明的实施方式,熟悉此技术的人士可由本说明书所公开的内容容易地了解本申请发明的其他优点及效果。

术语定义

除非另有定义,否则本文所用的全部技术和科学术语都具有如由本发明所属技术领域的普通技术人员中的一员通常理解的相同含义。同样,除非另有说明,否则除了在权利要求之内,“或”的使用包括“和”并且反之亦然。非限制的术语不被解释为限制,除非明确地说明或上下文中另有清楚地表明(例如,“包括”、“具有”、和“包含”通常表明“包括但不限于”)。在权利要求中包括的单数形式例如“一个”、“一种”和“所述”包括复数的指代,除非另有明确地说明。为了帮助理解和准备本发明,提供了以下的说明性的、非限制性的例子。

在本申请中,术语“代谢物组(Metabolome)”通常是指在一个生物细胞,组织,器官或生物体中所有的代谢产物的集合,通常所指的代谢组只涉及相对分子质量约小于1500Da(Da:道尔顿)的小分子代谢物质的总称。

术语“小分子代谢物”包括有机和无机的分子,其存在于细胞、细胞区室、或细胞器中,通常具有低于2000或1500的分子量。该术语不包括大分子,例如大蛋白(例如分子质量超过2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000或10,000的蛋白)、大核酸(例如分子质量超过2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000或10,000的核酸)、或大多糖(例如分子量超过2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000或10,000的多糖)。细胞的小分子代谢物通常被发现游离在细胞质或在其他细胞器(例如线粒体)中的溶液中,其中它们形成了可以被进一步代谢或用于生产大分子(称为高分子)的中间体的池。术语“小分子代谢物”包括在将源于食物的能量转化为可用的形式的化学反应中的信号分子和中间体。小分子代谢物的例子包括磷脂、甘油磷脂、脂质、缩醛磷脂、糖、脂肪酸、氨基酸、核苷酸、在细胞进程期间形成的中间体、异构体和在细胞内发现的其他小分子。在一个实施方式中,本发明的小分子是被分离的。优选的代谢物包括脂质和脂肪酸。

非限制性的示例,小分子代谢物可以选自:1,3-尿酸二甲酯、左旋葡聚糖、1-甲基烟酰胺、2-羟基异丁酸酯、2-氧化戊二酸酯、3-氨基异丁酸酯、3-羟基丁酸酯、3-羟基异戊酸酯、3-吲哚硫酸酯、4-羟基苯乙酸酯、4-羟基苯基乳酸、4-吡啶酸氧盐、乙酸盐、乙酰乙酸盐、丙酮、己二酸盐、丙氨酸、尿囊素、天冬酰胺、甜菜碱、肉毒碱、柠檬酸盐、肌肉素、肌酸酐、二甲胺、乙醇胺、甲酸盐、海藻糖、富马酸盐、葡萄糖、谷氨酰胺、甘氨酸、马尿酸盐、组氨酸、次黄嘌呤、异亮氨酸、乳酸盐、亮氨酸、赖氨酸、甘露醇、N,N-二甲基甘氨酸、O-乙酰肉毒碱、泛酸盐、丙二醇、焦谷氨酸盐、丙酮酸盐、喹啉酸酯、丝氨酸、琥珀酸盐、蔗糖、牛磺酸、苏氨酸、葫芦巴碱、三甲胺-N-氧化物、色氨酸、酪氨酸、胞嘧啶、尿嘧啶、尿素、缬氨酸、木糖、顺乌头酸、肌醇、反式乌头酸、1-甲基组氨酸、3-甲基组氨酸、抗坏血酸盐、苯乙酰谷氨酰胺、4-羟脯氨酸、葡糖酸盐、半乳糖、半乳糖醇、植物半乳糖、乳糖、苯基丙氨酸、脯氨酸甜菜碱、三甲胺、丁酸盐、丙酸盐、异丙醇、甘露糖、3-甲基黄嘌呤、乙醇、苯酸盐、谷氨酸盐、甘油、鸟苷、鸟嘌呤、黄嘌呤、腺嘌呤、尿酸、腺苷、肌苷、肌苷酸、CO2、H2O、N-氨基甲酰-β-丙氨酸、β-丙氨酸、氨、β-氨基异丁酸、腐胺、亚精胺、精胺、甲硫氨酸、S-腺苷甲硫氨酸、脱去羧基的S-腺苷甲硫氨酸、精氨酸、鸟氨酸、腐胺、N1-乙酰亚精胺、N1-乙酰精胺、elF5A(Lys)、elF5A(Dhp)、elF5A(Hpu)、N1N2-二乙酰精胺、3-氨基丙醛、3-乙酰氨基丙醛、丙烯醛、FDP-赖氨酸蛋白质、苏式-Ds-异柠檬酸盐、草酰-琥珀酸盐、2-氧代-戊二酸盐、草酰-乙酸盐、L-谷氨酸盐、2-羟基-戊二酸盐、乙酰基-CoA、顺乌头酸、D-异柠檬酸盐、α-酮戊二酸盐、琥珀酰基-CoA、苹果酸盐、(-)O-乙酰-肉毒碱、衣康酸盐、乙醇酸盐、乙醛酸盐、草酸盐、草酰基-CoA、甲酸基-CoA、葡萄糖6-磷酸盐(G6P)、果糖6-磷酸盐(F6P)、果糖1,6-磷酸氢盐(F1,6BP)、甘油醛3-磷酸盐(GADP)、二羟基丙酮磷酸盐(DHAP)、1,3-双磷酸甘油酸(1,3BPG)、3-磷酸甘油酸(3PG)、2-磷酸甘油酸(2PG)、磷酸烯醇丙酮酸(PEP)、D-葡萄糖、D-葡糖酸-1,5-内酯、D-葡糖酸盐、α-D-甘露糖6-P、D-甘露糖、D-果糖、D-山梨糖醇、甘油酮-P、sn-甘油-3P、D-甘油醛、1,2丙烷-二醇、2-羟基丙醛、3-P-丝氨酸、3-P-羟基丙酮酸盐、D-甘油酸盐、羟基丙酮酸盐、L-丙氨酸、L-丙氨酰基-tRNA、L-谷氨酸盐、2-氧化戊二酸酯、L-乳酸盐、D-乳酸盐、三磷酸腺苷(ATP)、二磷酸腺苷(ADP)、H+、琥珀酸盐、O2、NADH、NAD+、NADP+、NADPH、6-磷酸葡糖酸内酯、6-磷酸葡糖酸盐、核酮糖-5-磷酸盐、核糖-5-磷酸盐、木酮糖-5-磷酸盐、甘油醛3-磷酸盐、景天庚酮糖7-磷酸盐、果糖6-磷酸盐、赤藓糖4-磷酸盐、木酮糖5-磷酸盐、D-核酮糖、D-核糖醇、D-核糖、L-核酮糖、景天庚酮糖1,7P2、3-氧代-6-P-己酮糖、L-鸟氨酸、氨甲酰磷酸、L-瓜氨酸、精氨琥珀酸、L-精氨酸、L-天冬氨酸盐、单磷酸腺苷(AMP)、焦磷酸盐、反式-Δ2-烯酰基-CoA、L-β-羟烷基CoA、β-酮乙基CoA、FADH2、酰基-CoA、丙酰基-CoA、肌苷一磷酸(IMP)、黄苷一磷酸(XMP)、鸟苷一磷酸(GMP)、黄苷、腺苷酸琥珀酸、尿苷、尿苷一磷酸(UMP)、胸苷、胸腺嘧啶、脱氧核糖-1-磷酸盐、脱氧胸苷一磷酸(dTMP)、脱氧胞苷、脱氧胞苷一磷酸(dCMP)、棕榈酸视黄酯、棕榈酸盐、棕榈基-CoA、异维A酸酯、β-葡糖苷酸、视黄醛、β-胡萝卜素、视黄酸、骨化二醇、25-羟基麦角钙化醇、骨化三醇、甲基钴胺素、5’-脱氧腺苷钴胺素、α-CECH、NH4+、α-酮戊二酸盐、草酰乙酸盐、谷氨酸盐γ-半醛、Δ1-吡咯啉-5-羧酸盐、瓜氨酸、NH3、N5,N10-亚甲基THF、3-磷酸甘油酸盐、α-酮丁酸盐、α-氨基-β-酮丁酸盐、氨基丙酮、半胱亚磺酸、β-亚磺酰基丙酮酸盐、亚硫酸氢盐、亚硫酸盐、硫酸盐、谷胱甘肽、亚牛磺酸、腺苷5’-磷酰硫酸、3’-磷酸腺苷5’-磷酰硫酸、同型半胱氨酸、α-酮-β-戊酸甲酯、α-酮异己酸、α-酮异戊酸酯、α-甲基丁酰基-CoA、甲基巴豆酰基-CoA、3-甲基-3-羟基丁酸酰基-CoA、2-甲基乙酰乙酰基-CoA、异戊酰基-CoA、3-甲基巴豆酰基-CoA、3-甲基戊烯二酰-CoA、3-羟基-3-甲基戊二酰-CoA、乙酰乙酸盐、异丁酰基CoA、甲基丙烯基-CoA、3-羟基异丁酰基-CoA、甲基丙二酸单醛、p-羟基苯基丙酮酸盐、尿黑酸盐、4-马来酰乙酰乙酸盐、4-延胡索酰乙酰乙酸盐、富马酸盐、3-羟基三甲基赖氨酸、4-N-三甲氨基丁醛、γ-丁酰甜菜碱、尿刊酸酯、4-咪唑啉酮-5-丙酸盐、N-亚胺代甲基-L-谷氨酸盐、N5-亚胺甲基-四氢叶酸盐、组胺、N-甲酸基-犬尿素、犬尿素、犬尿胺酸、3-羟基犬尿素、邻氨基苯甲酸盐、3-羟基邻氨基苯甲酸盐、戊二酰基-CoA、乙酰乙酰基-CoA及其组合。

在本申请中,术语“生物样品”或者“化学样品”可以包括适于观察(例如,成像)或检查的各种生物样品或化学样品。化学样品包括任何化学混合物或化合物。生物样品包括(但不限于)细胞培养物或其萃取物;自动物(例如哺乳动物)获得的活检材料或其提取物;及血液、唾液、尿液、粪便、精液、泪液或其他体液或其提取物。举例而言,术语“生物样品”是指自任何活生物体获得、由其排泄或分泌的任何固体或流体样品,活生物体包括单细胞微生物(诸如细菌及酵母)及多细胞生物体(诸如植物及动物,例如脊椎动物或哺乳动物,且特定言之健康或明显健康的人类个体或受待诊断或研究的病状或疾病影响的人类患者)。生物样品可呈任何形式,包括固体材料,诸如组织、细胞、细胞集结粒、细胞提取物、细胞匀浆或细胞部份;或活检体,或生物流体。生物流体可自任何部位(例如血液、唾液(或含有颊内细胞的口腔洗液)、泪液、血浆、血清、尿液、胆液、脑脊髓液、羊膜液、腹膜液及胸膜液,或来自其的细胞,水状液或玻璃状液,或任何身体分泌物)、渗出液、分泌液(例如自脓肿或感染或炎症的任何其他部位获得的流体)或自关节(例如正常关节或受诸如类风湿性关节炎、骨关节炎、痛风性或败血性关节炎的疾病影响的关节)获得的流体获得。生物样品可自任何器官或组织(包括活检或尸检标本)获得或可包含细胞(无论主要细胞或培养细胞)或经任何细胞、组织或器官调节的培养基。生物样品亦可包括组织切片,诸如出于组织学目的采集的冷冻切片。生物样品亦包括通过部分或完全分馏细胞或组织匀浆而产生的包括蛋白质、脂质、碳水化合物及核酸的生物分子的混合物。虽然样品优选取自人类个体,但生物样品可来自任何动物、植物、微生物、细胞、病毒、酵母等。

在本申请中,术语“受试者”通常是指处于任何发育阶段的人类以及非人类动物,包括例如哺乳动物、鸟类、爬行动物、两栖动物、鱼、蠕虫及单细胞。细胞培养物及活组织样品被视为动物中的多数。在某些例示性实施例中,非人类动物为哺乳动物(例如,啮齿动物、小鼠、大鼠、兔、猴、狗、猫、绵羊、牛、灵长类动物或猪)。动物可为转基因动物或人类纯系。若需要,生物样品可经受初步处理,包括初步分离技术。

在本申请中,术语“微生物的”和“微生物”包括全部微生物,包括细菌、病毒和真菌。

在本申请中,术语“细胞”通常指其如本领域一般公认的意义。细胞可以是原核的(例如,细菌细胞)或真核的(例如,哺乳动物或植物细胞)。细胞可以具有体细胞或种系起源、全能或多能、分裂或非分裂。细胞还可以衍生自或可以包含配子或胚胎、干细胞、或完全分化的细胞。

在本申请中,术语“疾病”或“病症”可以互换使用,通常是指受试者与正常状态的任意偏离,例如身体或某些器官的状态的任何变化,妨碍或扰乱了功能的履行,和/或在患病或与其接触的人中引起症状例如不适、机能障碍、痛苦或甚至死亡。疾病或病症还可以称为失调(distemper)、不适(ailing)、小病(ailment)、疾病(malady)、紊乱(disorder)、疾病(sickness)、生病(illness)、身体不适(complaint)、inderdisposion或affectation。术语“分期”一般是指鉴定已经进展的疾病所处的具体阶段。

在本申请中,术语“皮尔森相关系数”或“Pearson系数”一般是指计算两组变量之间的协方差和标准差的商。不同的皮尔森系数值得意义如下:皮尔森系数值为正代表两者是正相关,即单调递增的关系;为负代表负相关,即单调递减的关系。本申请中,皮尔森系数用于判断光谱数量,200条光谱的平均值作为标准光谱,每次取出N条光谱做平均,并计算其与标准光谱的皮尔森系数,重复做5次上述操作,并对5个皮尔森系数取平均,作为对应于N条光谱下的相关系数。当皮尔森系数值大于0.8或收敛时即认为光谱数量足够。

皮尔森系数绝对值在不同区间则相关性程度不同:

Pearson系数绝对值 相关性程度
0-0.2 弱相关
0.2-0.5 中相关
0.5-0.8 强相关
0.8-1.0 极强相关

在本申请中,术语“约”通常意指大约(approximately)、在......的附近(intheregionof)、粗略地(roughly)、或左右(around)。当术语“约”当用于指涉数值范围时,截值或特定数值用于指示所载明的数值可与该列举数值有多达10%的差异。因此,术语“约”可用于涵盖自特定值±10%或更少的变异、±5%或更少的变异、±1%或更少的变异、±0.5%或更少的变异、或±0.1%或更少的变异。

发明详述

加权矩非负阵分解算法(NMF-CLS)

一方面,本申请提供一种新的光谱解混方法,即加权矩非负阵分解算法,在获得较好拟合效果的基础上,得到特定组分所对应的相对浓度。在原有的方程(1)的目标函数的基础上,加上针对已知组分光谱的权重,未知组分的参考光谱由算法计算得出,从而同时得到较好的拟合效果和已知组分对应的种类和相对浓度信息。加有权重的目标函数为:

其中,m*r1的矩阵W(1)表示按列排列的已知组分的参考光谱(标准数据库中的已知组分),m*r2的的矩阵W(2)表示按列排列的未知组分的光谱,由算法计算得出。r1*n的矩阵H(1)和r2*n的矩阵H2分别表示W(1)和W(2)所对应的相对浓度,α表示针对已知组分所设置的权重。

由于已知组分的参考光谱是准确的,因此算法的目的是求得W(2)、H(1)和H(2),使得方程(4)中的F最小。由此得到F关于W(2)、H(1)和H(2)的偏导数为:

由Lee和Seung(Lee,D.D.;Seung,H.S.Nature 1999,401,788-791.)提出的乘法更新法可以从偏导数得到W(1)、H(1)和H(2)的迭代公式为

按迭代公式进行迭代更新H^((1))、W^((2))和H^((2)),当达到最大迭代次数N或F降低到设定阈值σ时停止迭代,迭代停止后,H^((1))即为已知组分对应的相对浓度的最终结果。

在某些实施方式中,其中所述最大迭代次数N不小于约20次、约25次、约30次、约40次、约50次、约100次或约200次。

在某些实施方式中,其中所述阈值σ不超过约0.01,或约0.001,或约0.0001,或约0.00001,或约0.000001。

算法设置已知组分的光谱矩阵W(1)及与之对应的系数(相对浓度)矩阵H(1)、未知组分的光谱矩阵W(2)及与之对应的系数(相对浓度)矩阵H(2)。其中,H(1)、W(2)和H(2)是通过迭代过程中计算得出,算法实现步骤及流程图如图1:

1)输入已知组分矩阵W(1)、测得的光谱矩阵V,最大迭代次数N及阈值σ;

2).随机初始化已知组分的系数矩阵H(1)、未知组分的光谱矩阵W(2)及系数矩阵H(2)

3).根据申请中提到的乘法推导式进行迭代更新H(1)、W(2)和H(2)

4).达到最大迭代次数N(如20次)或F降低到设定阈值σ(如0.000001)时停止迭代;

5).迭代停止后,H(1)即为已知组分对应的系数(相对浓度)的最终结果。

W(1)和H(1)分别代表的是已知组分的光谱和已知组分计算出的系数,需要注意的是,W(1)的每一列数据都是一个组分的拉曼光谱,与之相对应的是,H(1)的每一行都是该组分在所有光谱下的系数,即H(1)中的第i行数据是指W(1)中第i个组分的系数。因此,对于已知组分中的任意一种,都不需要进行进一步计算,只需要取出目标组分对应H(1)的那一行数据即可。

在某些实施方式中,其中标准光谱的检测条件与待测样本的检测条件相同。例如,所述标准光谱与代谢样本均采用广谱SERS光谱检测。

在某些实施方式中,其中所述权重α与待测样本中所包含已知分子的数量(r1)和未知分子的数量(r2)的比值呈负相关。在一些实施方式中,所述权重α与待测样本中所包含已知分子的数量(r1)和未知分子的数量(r2)的比值为非线性相关。

在某些实施方式中,其中当W(2)和H(2)均不存在时,所述权重α设为0,所述NMF-CLS算法的目标函数设为:即经典最小二乘法。

在某些实施方式中,其中当待测样本中所包含已知分子的数量(r1)和未知分子的数量(r2)的比值不小于1时,所述权重α设为0,所述NMF-CLS算法的目标函数设为:

在某些实施方式中,其中当待测样本中所包含已知分子的数量(r1)和未知分子的数量(r2)的比值小于1时,所述权重α不为0,所述NMF-CLS算法的目标函数设为:

在某些实施方式中,其中所述标准光谱数据库建立包括:采集某一分子的多张光谱图像,计算获得该分子的平均光谱,同理获得其他分子的平均光谱,一并纳入标准光谱数据库中,得到标准光谱数据库。

在某些实施方式中,当采集某一分子的光谱图像时,该分子的浓度为0.1mM-10mM。

在某些实施方式中,其中采集某一分子的光谱图像的数量不少于约10张、约20张、约50张、约100张、或约200张。

在某些实施方式中,所述标准光谱数据库建立还包括采集源于其他文献中的光谱的开源数据。

在某些实施方式中,还包括将获得的分子的平均光谱的强度进行归一化。

在某些实施方式中,其中所述标准光谱数据库建立包括:采集某一分子的多张光谱图像,计算获得该分子的平均光谱的强度并进行归一化,所获得的光谱即为该分子的标准光谱,同理获得其他分子的标准光谱,一并纳入标准光谱数据库中,得到标准光谱数据库。

在某些实施方式中,其中所述标准光谱数据库建立包括:采集某一分子的多张光谱图像,将获得的多张光谱图像取平均,并将光谱的强度归一化到区间[0,1]内,所获得的光谱即为该分子的标准光谱,同理获得其他分子的标准光谱,一并纳入标准光谱数据库中,得到标准光谱数据库。

例如,所述标准光谱数据库建立可以包括:获得某一分子的平均光谱,并将光谱的强度归一化到区间[0,1]内,所获得的光谱即为该分子的标准光谱,同理获得其他分子的标准光谱,一并纳入标准光谱数据库中,得到标准光谱数据库;其中所述平均光谱可以通过开源数据获得,也可以通过采集多张标准品光谱图像取平均后获得。

在某些实施方式中,包括采集多张待测样本的光谱,并对每一张光谱单独进行算法解析,获得不同已知组分的系数后再进行处理(例如平均、求和、ANOVA分析和/或学生t检验),最后得到该样本中不同已知分子的相对浓度的解析结果。

在某些实施方式中,其中采集待测样本的光谱数量需要保证已基本上收集完全待测样本中的分子信息。

在某些实施方式中,其中判断为已基本上收集完全待测样本中的分子信息的光谱数量包括但不限于通过Pearson系数比较。

在某些实施方式中,其中所述Pearson系数的获取包括:使用M条待测样本的光谱的平均值作为标准光谱,每次取出N条光谱做平均,并计算其与标准光谱的Pearson系数,重复做n次上述操作,并对n个皮尔森系数取平均,作为对应于N条光谱下的相关系数。

在某些实施方式中,其中所述M为约50至500,或约100至400,或约200至300。

在某些实施方式中,其中所述n为约3至30,或约4至20,或约5至10。

在某些实施方式中,其中所述Pearson系数不小于约0.8,约0.85,约0.9或约0.95。

在某些实施方式中,其中采集待测样本的光谱数量为约50至200张。

例如,基于NMF-CLS算法的光谱图像解混方法可以包括:采集多张待测样本的光谱,基于标准光谱数据库,采用NMF-CLS算法对每一张光谱单独进行算法解析,获得每一张光谱的已知组分的系数后再进行处理(如平均或求和),最后得到该样本中已知分子的相对浓度的解析结果;所述已知分子为标准光谱数据库内所含分子,所述标准光谱数据库由不同分子的标准光谱组成;所述采集待测样本的光谱数量需要保证已基本上收集完全待测样本中的分子信息(例如,光谱数量为约50,约100,或约200张)。

在某些实施方式中,其中所述待测样本包括化学样品或生物样品。

例如,生物或化学样品包括生物分子、核苷、核酸、多核苷酸、寡核苷酸、蛋白质、酶、多肽、抗体、抗原、配体、受体、多糖、碳水化合物、多磷酸盐、纳米孔、细胞器、脂质层、组织、器官、生物体、体液。术语“生物或化学样品”可以包括(多种)生物活性的化合物,例如前述种类的类似物或模拟物。如本文所使用的术语,“生物样品”可包括诸如细胞裂解物、完整细胞、生物体、器官、组织和体液的样品。“体液”可以包括但不限于血液、干血、凝血、血清、血浆、唾液、脑脊髓液、胸膜液、泪液、乳管导管液、淋巴液、痰液、尿液、羊水和精液。样品可以包括“非细胞”的体液。“非细胞体液”包括小于约1%(w/w)的全细胞材料。血浆或血清是非细胞体液的实例。样品可以包括天然或合成来源的样本(即制成非细胞的细胞样品)。在一些实施例中,在一些实施例中,生物样品可以来自人类或非人类来源。在一些实施例中,生物样品可以来自人类患者。在一些实施例中,生物样品可以来自人类新生儿。

在某些实施方式中,其中所述待测样本包括液体样品。

在某些实施方式中,所述光谱图像包括红外光谱和拉曼光谱。

在某些实施方式中,所述红外光谱包括表面增强红外光谱。

在某些实施方式中,所述拉曼光谱包括表面增强拉曼光谱。

在某些实施方式中,所述表面增强拉曼光谱为广谱表面增强拉曼光谱。

权重α的设置

在某些实施方式中,其中所述权重α的设定方法包括:

1)确定待测样本中已知分子和未知分子数量的比值;

2)配置多个包含少数不同浓度梯度已知分子以及一定数量的未知分子的简单样本,其中所述简单样本中已知分子与未知分子的数量比值与待测样本相等;

3)设定不同的权重α,采用NMF-CLS算法对测试获得的简单样本的光谱进行解混,并获得已知分子各自对应的系数,将系数与已知分子的实际浓度建立回归方程,计算其R方值,以获得最高R方的α为适合待测样本的最优权重值。

在某些实施方式中,其中确定待测样本中已知分子和未知分子数量的比值的方法包括主成分分析方法。

在某些实施方式中,其中所述简单样本中的分子数量与待测样本中的分子数量的比值不超过约1/2,或约1/5,或约1/10。

在某些实施方式中,其中所述简单样本中的已知分子的数量范围为1至100,或1至50,或1至20,或1至10。

在某些实施方式中,其中所述简单样本中的已知分子的数量范围为2至100,或2至50,或2至20,或2至10。

例如,所述简单样本中已知分子的数量可以为2至10,所述简单样本中的分子数量与待测样本中的分子数量的比值不超过1/2。在一些实施方式中,所述简单样本中已知分子的数量可以为2,待测样本中分子数量可以为4,5,6,7或更多。

由于α的值与已知组分和未知组分数量的比值有关,在一些实施方案中,可以根据建立同样比值的简单模型以计算α,具体操作如下:

1、通过主成分分析等手段计算复杂样本中的总组分数量,并根据已知组分的数量计算出已知组分和未知组分数量的比值;

2、选取少量(如3个)已知分子并获得其标准光谱,另设置一定数量的未知分子,保证已知分子与未知分子的数量比值与复杂样本相等,人工配置不同浓度已知分子的溶液;

3、对溶液的拉曼光谱采用不同α值进行解混,并取出已知分子对应的系数,将系数与浓度建立回归方程,计算其R方值,以获得最高R方的α为适合复杂模型最优权重值。

基于表面增强拉曼光谱的分析方法

另一方面,本申请提供一种基于表面增强拉曼光谱的分析方法,包括以下步骤:基于表面增强拉曼光谱(SERS)标准光谱数据库,采用加权非负矩阵分解算法(NMF-CLS)对测试获得的光谱进行解混,获得待测样本中含有已知分子的种类及其相对浓度;所述已知分子为SERS标准光谱数据库内所含分子,所述SERS标准光谱数据库由不同分子的SERS标准光谱组成;

其中所述NMF-CLS算法的目标函数设为:

其中,设光谱矩阵是一个m*n的矩阵V,表示共有n条光谱,每条光谱由m个点组成;m*r1的矩阵W(1)表示按列排列的已知分子的参考光谱,m*r2的W(2)表示按列排列的未知分子的光谱;r1*n的矩阵H(1)和r2*n的矩阵H(2)分别表示W(1)和W(2)所对应的相对浓度;其中r1和r2分别表示有r1种已知分子和r2种未知分子;α表示针对已知分子所设置的权重,α≥0;由于已知分子的参考光谱W(1)是已知的,求得W(2)、H(1)和H(2),使得方程中的F最小,即可得到已知分子所对应的相对浓度。

在某些实施方式中,其中所述H(1)、W(2)和H(2)是通过迭代过程中计算得出。

在某些实施方式中,其中所述F关于W(2)、H(1)和H(2)的偏导数为:

从偏导数得到W(1)、H(1)和H(2)的迭代公式为:

按迭代公式进行迭代更新H(1)、W(2)和H(2),当达到最大迭代次数N或F降低到设定阈值σ时停止迭代,迭代停止后,H(1)即为已知组分对应的相对浓度的最终结果。

在某些实施方式中,其中所述最大迭代次数N不小于约20次、约25次、约30次、约40次、约50次、约100次或约200次。

在某些实施方式中,其中所述阈值σ不超过约0.01,或约0.001,或约0.0001,或约0.00001,或约0.000001。

在某些实施方式中,其中所述H(1)、W(2)和H(2)的计算过程包括:

1)输入已知组分矩阵W(1)、测得的光谱矩阵V,最大迭代次数N及阈值σ;

2)随机初始化已知组分的系数矩阵H(1)、未知组分的光谱矩阵W(2)及系数矩阵H(2)

3)根据迭代公式进行迭代更新H(1)、W(2)和H(2)

4)达到最大迭代次数N或F降低到设定阈值σ时停止迭代;

5)迭代停止后,H(1)即为已知组分对应的相对浓度的最终结果。

在某些实施方式中,其中标准光谱的检测条件与待测样本的检测条件相同。

在某些实施方式中,其中SERS采用非靶向广谱检测。

在某些实施方式中,其中所述权重α与待测样本中所包含已知分子的数量(r1)和未知分子的数量(r2)的比值呈负相关。

在某些实施方式中,其中所述权重α的设定方法包括:

1)确定待测样本中已知分子和未知分子数量的比值;

2)配置多个包含少数不同浓度梯度已知分子以及一定数量的未知分子的简单样本,其中所述简单样本中已知分子与未知分子的数量比值与待测样本相等;

3)设定不同的权重α,采用NMF-CLS算法对测试获得的简单样本的光谱进行解混,并获得已知分子各自对应的系数,将系数与已知分子的浓度建立回归方程,计算其R方值,以获得最高R方的α为待测样本的最优权重值。

在某些实施方式中,其中确定待测样本中已知分子和未知分子数量的比值的方法包括主成分分析方法。

在某些实施方式中,其中所述简单样本中的分子数量与待测样本中的分子数量的比值不超过约1/2,或约1/5,或约1/10。

在某些实施方式中,其中所述简单样本中的已知分子的数量范围为1至100,或1至50,或1至20,或1至10。

在某些实施方式中,其中所述简单样本中的已知分子的数量范围为2至100,或2至50,或2至20,或2至10。

在某些实施方式中,其中所述标准光谱数据库建立包括:采集某一分子的多张SERS光谱图像,计算获得该分子的SERS平均光谱,同理获得其他分子的SERS平均光谱,一并纳入标准光谱数据库中,得到SERS标准光谱数据库。

在某些实施方式中,当采集某一分子的SERS光谱图像时,该分子的浓度为0.1mM-10mM。

在某些实施方式中,其中采集某一分子的SERS光谱图像的数量不少于约10张、约20张、约50张、约100张、或约200张。

在某些实施方式中,还包括将获得的分子的SERS平均光谱的强度进行归一化。

在某些实施方式中,其中所述标准光谱数据库建立包括:采集某一分子的多张SERS光谱图像,计算获得该分子的SERS平均光谱的强度并进行归一化,所获得的光谱即为该分子的SERS标准光谱,同理获得其他分子的SERS标准光谱,一并纳入SERS标准光谱数据库中,得SERS到标准光谱数据库。

在某些实施方式中,其中所述SERS标准光谱数据库建立包括:采集某一分子的多张SERS光谱图像,将获得的多张SERS光谱图像取平均后将平均光谱的强度归一化到区间[0,1]内,所获得的光谱即为该分子的SERS标准光谱,同理获得其他分子的SERS标准光谱,一并纳入标准光谱数据库中,得到SERS标准光谱数据库。

例如,所述SERS标准光谱数据库建立可以包括:获得某一分子的SERS平均光谱,并将光谱的强度归一化到区间[0,1]内,所获得的光谱即为该分子的SERS标准光谱,同理获得其他分子的SERS标准光谱,一并纳入SERS标准光谱数据库中,得到SERS标准光谱数据库;其中所述SERS平均光谱可以通过开源数据获得,也可以通过采集多张标准品SERS光谱图像取平均后获得。

在某些实施方式中,其包括采集多张待测样本的SERS光谱,并对每一张SERS光谱单独进行算法解析,获得已知组分的系数H)1)后再进行处理(例如,平均、求和、ANOVA分析和/或学生t检验),最后得到该样本中已知分子的相对浓度的解析结果。

在某些实施方式中,其中所述采集待测样本的光谱数量需要保证已基本上收集完全待测样本中的分子信息。

在某些实施方式中,其中所述判断为已基本上收集完全待测样本中的分子信息的光谱数量包括但不限于通过Pearson系数比较。

在某些实施方式中,其中所述Pearson系数的获取包括:使用M条待测样本的光谱的平均值作为标准光谱,每次取出N条光谱做平均,并计算其与标准光谱的Pearson系数,重复做n次上述操作,并对n个皮尔森系数取平均,作为对应于N条光谱下的相关系数。

在某些实施方式中,其中所述M为约50至500,或约100至400,或约200至300。

在某些实施方式中,其中所述n为约3至30,或约4至20,或约5至10。

在某些实施方式中,其中所述Pearson系数不小于约0.8,约0.85,约0.9或约0.95。

在某些实施方式中,其中扫描待测样本的光谱数量不少于约20,或约30,或约40,或约50。

在某些实施方式中,其中扫描待测样本的光谱数量为约20至200,或约30至160,或约40至120,或约50至80。

在某些实施方式中,其中扫描待测样本的SERS光谱的速度为约1~5s/张。

例如,基于表面增强拉曼光谱的分析方法可以包括:采集多张待测样本的SERS光谱,基于SERS标准光谱数据库,采用NMF-CLS算法对每一张SERS光谱单独进行算法解析,获得每一张SERS光谱的已知组分的系数后再进行处理(如平均或求和),最后得到该样本中已知分子的相对浓度的解析结果;所述已知分子为SERS标准光谱数据库内所含分子,所述SERS标准光谱数据库由不同分子的标准光谱组成;所述采集待测样本的光谱数量需要保证已基本上收集完全待测样本中的分子信息(例如,光谱数量为约50,约100,或约200张)。

在某些实施方式中,其中所述待测样本包括化学样品或生物样品。

在某些实施方式中,其中所述待测样本包括液体样品。

在某些实施方式中,其中所述生物样品包括细胞培养液、细胞上清液、细胞溶解产物、血液、血液源产物(如血沉棕黄层、血清或血浆)、淋巴、尿、眼泪、唾液、脑脊髓液、粪便、滑液、痰、细胞、器官或组织。

例如,其中所述生物样品可以选自下组:血液、血浆、尿液、唾液、眼泪和脑脊髓液。

在某些实施方式中,其中所述SERS标准数据库中的分子包括代谢物。

在某些实施方式中,其中所述SERS标准数据库中的分子包括小分子代谢物。

代谢组学处理或分析方法

另一方面,本申请提供一种代谢组学数据处理方法,包括:将同一类型的生物样品的光谱数据采用加权非负矩阵分解算法解混后,获得该类样品中已知分子的种类以及相对浓度的区间,得到该类生物样品的特征光谱数据库。

在某些实施方式中,所述代谢组学数据处理方法还包括:同理获得其他类型的生物样品中已知分子的种类以及相对浓度的区间,一并纳入特征光谱数据库中,得到包含不同类型生物样品的特征光谱数据库。

在某些实施方式中,所述光谱为SERS光谱。

例如,所述同一类型的生物样品可以是血清或细胞培养液。

例如,所述同一类型的生物样品的来源可以不同,可以是来源于不同人群(健康人群vs患病人群)的血清样本,也可以是来源于不同细胞类型(正常细胞vs肿瘤细胞)的细胞培养液。

例如,所述特征光谱数据库可以包括健康人群或患病人群的血清样品的SERS特征光谱数据库。

一种代谢组学分析方法,所述方法包括:基于标准光谱数据库,采用NMF-CLS算法对测试获得的待测样本的光谱进行解混,获得待测样本中含有代谢物的种类及其相对浓度,所述代谢物为标准光谱数据库内所含分子。

在某些实施方式中,其中所述待测样本的光谱为广谱SERS光谱。

在某些实施方式中,其中所述代谢物为SERS标准光谱数据库内所含分子。

例如,所述代谢组学分析方法可以包括:采集多张待测样本的SERS光谱,基于SERS标准光谱数据库,采用NMF-CLS算法对每一张SERS光谱单独进行算法解析,获得每一张SERS光谱的已知组分的系数后再进行处理(如平均或求和),最后得到该样本中已知分子(代谢物分子)的相对浓度的解析结果;所述已知分子为SERS标准光谱数据库内所含分子,所述SERS标准光谱数据库由不同分子的标准光谱组成;所述采集待测样本的光谱数量需要保证已基本上收集完全待测样本中的分子信息(例如,光谱数量为约50,约100,或约200张)。

在某些实施方式中,其还包括根据所获得的代谢物的种类及其相对浓度进行相关的生物医学分析。

在某些实施方式中,其中所述生物医学分析包括分析差异性代谢物数据。

在某些实施方式中,其中所述生物医学分析包括通过将待测样本的代谢物种类及相对浓度与特征光谱数据库比对。

在某些实施方式中,其中所述生物医学分析进一步包括对样本进行分类或分期。

在某些实施方式中,其中所述光谱数据包括拉曼光谱数据和红外光谱数据。

在某些实施方式中,其中所述红外光谱数据包括表面增强红外光谱数据。

在某些实施方式中,其中所述拉曼光谱数据包括表面增强拉曼光谱数据。

在某些实施方式中,其中所述标准光谱数据库包括拉曼光谱标准光谱数据库和红外光谱标准数据库。

在某些实施方式中,其中所述拉曼光谱标准光谱数据库包括SERS标准光谱数据库。

另一方面,本申请提供一种确定生物标志的方法,包括:

1)分别获得样本群样本和对照群样本的光谱数据,基于标准光谱数据库,采用加权非负矩阵分解算法对测试获得的光谱进行解混,分别获得的样本群样本和对照群样本中含有已知分子的种类及相对浓度,所述已知分子为标准光谱数据库内所含分子;

2)筛选差异性分子作为生物标志。

在某些实施方式中,所述差异性分子包括差异性代谢物。

在某些实施方式中,其中所述步骤2)包括通过ANOVA分析(Anova Test)和逻辑回归(Logistic Regression)交叉选出多种差异性代谢物。

在某些实施方式中,其中所述ANOVA分析包括对不同类别的数据进行统计分析,找出其中在不同类别间出现统计学差异的代谢物。

在某些实施方式中,其中所述逻辑回归包括使用相对浓度数据进行分类,找出对区分数据类别的具有贡献的代谢物。

在某些实施方式中,其中所述逻辑回归采用L1正则化,其分类时绝对值权重大于0,认为其对分类有贡献。

在某些实施方式中,其还包括对获得的差异性代谢物进行验证。

在某些实施方式中,其中所述验证包括将样本的实际浓度与通过加权非负矩阵分解算法解混出的系数进行回归分析。

在某些实施方式中,其中所述验证包括通过分析差异性代谢物与生理或病理吻合性进行验证。

例如,所述确定生物标志的方法可以包括:

1)分别获得样本群样本和对照群样本的光谱数据,其中每个样本采集多张光谱数据,基于标准光谱数据库,采用NMF-CLS算法对每一张SERS光谱单独进行算法解析,获得每一张SERS光谱的已知组分的系数后再进行处理(如平均或求和),分别获得的样本群样本和对照群样本中含有已知分子的种类及相对浓度,所述已知分子为标准光谱数据库内所含分子;所述每个采集待测样本的光谱数量需要保证已基本上收集完全待测样本中的分子信息(例如,光谱数量为约50,约100,或约200张);

2)采用ANOVA分析对不同类别的数据进行统计分析,找出其中在不同类别间出现统计学差异的代谢物,所述逻辑回归包括使用相对浓度数据进行分类,找出对区分数据类别的具有贡献的代谢物,所述逻辑回归采用L1正则化,其分类时绝对值权重大于0,认为其对分类有贡献;取ANOVA和逻辑回归两种方式选出的差异性代谢物的交集作为生物标志。

ANOVA和逻辑回归筛选

ANOVA对不同类别的数据进行统计分析,找出其中在不同类别间出现统计学差异的代谢物。输入不同类别的数据,ANOVA会给出检验水平,即p值。p值越小则组间差异性越高,一般认为p值小于0.05时,组间具有显著差异。本申请针对每一种代谢物的相对浓度数据计算其在不同类别间的检验水平p值,将p值小于0.05的代谢物认为是具有显著差异的代谢物,将其保留下来。

逻辑回归使用相对系数数据进行分类,找出对区分不同类别数据的具有一定贡献的代谢物。采用L1正则化,其分类时计算权重绝对值大于0,认为其对分类有贡献。逻辑回归算法在进行分类时,针对不同代谢物的相对浓度数据会设置不同的计算权重,此地的计算权重即为该代谢物在分类时的重要性,计算权重绝对值越大则重要性越高。采用L1正则化的情况下,重要性低的代谢物权重值会被算法设为0,因此取计算权重绝对值大于0的代谢物作为可能存在差异的代谢物。

取ANOVA和逻辑回归两种方式选出的差异性代谢物的交集作为最终的代谢物筛选结果。

用途

另一方面,本申请提供一种检测疾病或病症存在,或者评估疾病或病症发生风险的方法,所述方法包括以下步骤:

1)获得个体待测样本的光谱,基于标准光谱数据库,采用加权非负矩阵分解(NMF-CLS)对测试获得的光谱进行解混,获得待测样本中含有已知代谢物的种类及其相对浓度,所述已知代谢物为标准光谱数据库内所含分子;

1)将所述已知代谢物的相对浓度与正常区间进行比较;以及

3)确定所述个体是否患有疾病或病症、或是发生疾病或病症的风险。

例如,所述检测疾病或病症存在,或者评估疾病或病症发生风险的方法可以包括以下步骤:

1)获得个体待测样本的表面增强拉曼光谱,基于SERS标准数据库,采用加权非负矩阵分解(NMF-CLS)对测试获得的光谱进行解混,获得待测样本中含有已知代谢物的种类及其相对浓度,所述已知代谢物为SERS标准数据库内所含分子;

2)将所述已知代谢物的相对浓度与正常区间进行比较;以及

3)确定所述个体是否患有疾病或病症、或是发生疾病或病症的风险。

另一方面,本申请提供一种确定疾病或病症阶段的方法,所述方法包括以下步骤:

1)获得个体待测样本的光谱,基于标准光谱数据库,采用加权非负矩阵分解(NMF-CLS)对测试获得的光谱进行解混,获得待测样本中含有已知代谢物的种类及其相对浓度,所述已知代谢物为标准光谱数据库内所含分子;

2)将所述生物标志的相对浓度与已知的阶段水平进行比较;以及

3)确定疾病或病症的阶段或类型。

在某些实施方式中,其中所述疾病或病症选自下组:感染性疾病、增殖性疾病,神经退行性疾病、癌症、心理疾病、代谢疾病、自身免疫性疾病、性传播疾病、胃肠疾病、肺病、心血管疾病、压力和疲劳相关的病症、真菌病,病原性疾病和肥胖相关的病症。

例如,所述确定疾病或病症阶段的方法可以包括以下步骤:

1)获得个体待测样本的表面增强拉曼光谱,基于SERS标准数据库,采用加权非负矩阵分解(NMF-CLS)对测试获得的光谱进行解混,获得待测样本中含有已知代谢物的种类及其相对浓度,所述已知代谢物为SERS标准数据库内所含分子;

2)将所述生物标志的相对浓度与已知的阶段水平进行比较;以及

3)确定疾病或病症的阶段或类型。

在某些实施方式中,其中所述疾病或病症选自下组:感染性疾病、增殖性疾病,神经退行性疾病、癌症、心理疾病、代谢疾病、自身免疫性疾病、性传播疾病、胃肠疾病、肺病、心血管疾病、压力和疲劳相关的病症、真菌病,病原性疾病和肥胖相关的病症。

另一方面,本申请提供一种细胞或微生物分析方法,所述方法包括以下步骤:

1)获得细胞待测样本的光谱数据(如SERS光谱),基于标准光谱数据库(如SERS标准),采用加权非负矩阵分解(NMF-CLS)对测试获得的光谱进行解混,获得待测样本中含有已知代谢物的种类及其相对浓度,所述已知代谢物为标准光谱数据库内所含分子;

2)将所述已知代谢物的相对浓度与正常区间进行比较;以及

3)确定所述细胞或微生物的生理或病理状态、生理或病理类型。

在某些实施方式中,所述的方法还包括进一步对鉴定后的细胞或微生物进行筛选,获得所需要的目标细胞或微生物类型。

在某些实施方式中,其中所述光谱数据包括拉曼光谱数据和红外光谱数据。

在某些实施方式中,其中所述红外光谱数据包括表面增强红外光谱数据。

在某些实施方式中,其中所述拉曼光谱数据包括表面增强拉曼光谱数据。

在某些实施方式中,其中所述标准光谱数据库包括拉曼光谱标准光谱数据库和红外光谱标准数据库。

在某些实施方式中,其中所述拉曼光谱标准光谱数据库包括SERS标准光谱数据库。

在某些实施方式中,其中所述待测样本的光谱包括广谱SERS光谱。

计算机可读存储介质、装置和系统

另一方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述的方法的步骤。

在某些实施方式中,所述的计算机可读存储介质还存储有标准光谱数据库数据。

在某些实施方式中,所述标准光谱数据库包括SERS标准光谱数据库。

另一方面,本申请提供一种装置,包括存储器和处理器,所述存储器存储有标准光谱数据库和计算机程序,所述处理器执行所述计算机程序时实现前述的方法的步骤。

另一方面,本申请提供一种基于加权非负矩阵分解算法的光谱解混系统,其包括:求解优化模块,用于采用迭代方法对加权非负矩阵分解算法进行求解,完成光谱数据解混。

在某些实施方式中,所述的系统还包括权重优化模块,用于采用线性回归方式对已知分子权重进行求解,确定最优权重值。

在某些实施方式中,所述的系统还包括评价模块,用于利用已知分子的相对浓度对解混结果进行评价。

另一方面,本申请提供前述的计算机可读存储介质,前述的装置,或前述的系统在制备装置中的用途,所述装置用于化合物的分析和/或微生物的分类和检测。

另一方面,本申请提供前述的计算机可读存储介质,前述的装置,或前述的系统在制备装置中的用途,所述装置用于代谢组学数据处理和/或分析。

另一方面,本申请提供一种代谢组学分析装置,所述装置包括:数据处理模块,用于对获取所述待检测样本的表面增强拉曼光谱数据进行解析,获得样本中代谢物的种类及其相对浓度。

在某些实施方式中,所述数据处理模块包括求解优化模块,用于采用迭代方法对加权非负矩阵分解算法进行求解,完成光谱数据解混。

在某些实施方式中,所述数据处理模块包括权重优化模块,用于采用线性回归方式对已知分子权重进行求解,确定最优权重值。

在某些实施方式中,所述数据处理模块包括评价模块,用于利用已知分子的相对浓度对解混结果进行评价。

在某些实施方式中,所述评价包括利用差异性代谢物分类检测模型对检测样本进行分类。

在某些实施方式中,所述装置还包括光谱检测模块,用于对所述待测样本进行光谱检测,获取所述待检测样本的光谱数据。

在某些实施方式中,所述装置还包括待测样本采集模块,用于基于代谢组学方法采集待测样本。

例如,所述代谢组学分析装置可以包括:

1)数据处理模块,用于对获取所述待检测样本的表面增强拉曼光谱数据进行解析,获得样本中代谢物的种类及其相对浓度;所述数据处理模块包括:

i)求解优化模块,用于采用迭代方法对加权非负矩阵分解算法进行求解,完成光谱数据解混;ii)权重优化模块,用于采用线性回归方式对已知分子权重进行求解,确定最优权重值;iii)评价模块,用于利用已知分子的相对浓度对解混结果进行评价;

2)光谱检测模块,用于对所述待测样本进行光谱检测,获取所述待检测样本的光谱数据;

3)待测样本采集模块,用于基于代谢组学方法采集待测样本。

本申请还公开了以下实施方式:

1.一种基于加权非负矩阵分解算法(NMF-CLS)的光谱图像解混方法,包括:基于标准光谱数据库,采用NMF-CLS算法对测试获得的光谱进行解混,获得待测样本中所包含的已知分子的种类及其相对浓度;所述已知分子为标准光谱数据库内所含分子,所述标准光谱数据库由不同分子的标准光谱组成;

其中所述NMF-CLS算法的目标函数设为:

其中,设光谱矩阵是一个m*n的矩阵V,表示共有n条光谱,每条光谱由m个点组成;m*r1的矩阵W(1)表示按列排列的已知分子的参考光谱,m*r2的W(2)表示按列排列的未知分子的光谱;r1*n的矩阵H(1)和r2*n的矩阵H(2)分别表示W(1)和W(2)所对应的相对浓度;其中r1和r2分别表示有r1种已知分子和r2种未知分子;α表示针对已知分子所设置的权重,α≥0;由于已知分子的参考光谱W(1)是已知的,求得W(2)、H(1)和H(2),使得方程中的F最小,即可得到已知分子所对应的相对浓度。

2.根据实施方式1所述的方法,其中所述H(1)、W(2)和H(2)是通过迭代过程中计算得出。

3.根据实施方式1-2中任一项所述的方法,其中所述F关于W(2)、H(1)和H(2)的偏导数为:

从偏导数得到W(1)、H(1)和H(2)的迭代公式为:

按迭代公式进行迭代更新H(1)、W(2)和H(2),当达到最大迭代次数N或F降低到设定阈值σ时停止迭代,迭代停止后,H(1)即为每一种已知组分对应的相对浓度的最终结果。

4.根据实施方式3所述的方法,其中所述最大迭代次数N不小于约20次、约25次、约30次、约40次、约50次、约100次或约200次。

5.根据实施方式3所述的方法,其中所述阈值σ不超过约0.01,或约0.001,或约0.0001,或约0.00001,或约0.000001。

6.根据实施方式1-5中任一项所述的方法,其中所述H(1)、W(2)和H(2)的计算过程包括:

1)输入已知组分矩阵W(1)、测得的光谱矩阵V,最大迭代次数N及阈值σ;

2)随机初始化已知组分的系数矩阵H(1)、未知组分的光谱矩阵W(2)及系数矩阵H(2)

3)根据迭代公式进行迭代更新H(1)、W(2)和H(2)

4)达到最大迭代次数N或F降低到设定阈值σ时停止迭代;

5)迭代停止后,H(1)即为已知组分对应的相对浓度的最终结果。

7.根据实施方式1-6中任一项所述的方法,其中标准光谱的检测条件与待测样本的检测条件相同。

8.根据实施方式1-7中任一项所述的方法,其中所述权重α与待测样本中所包含已知分子的数量(r1)和未知分子的数量(r2)的比值呈负相关。

9.根据实施方式1-8中任一项所述的方法,其中当W(2)和H(2)均不存在时,所述权重α设为0,所述NMF-CLS算法的目标函数设为:即经典最小二乘法。

10.根据实施方式1-8中任一项所述的方法,其中当待测样本中所包含已知分子的数量(r1)和未知分子的数量(r2)的比值不小于1时,所述权重α设为0,所述NMF-CLS算法的目标函数设为:

11.根据实施方式1-8中任一项所述的方法,其中当待测样本中所包含已知分子的数量(r1)和未知分子的数量(r2)的比值小于1时,所述权重α不为0,所述NMF-CLS算法的目标函数设为:

12.根据实施方式1-11中任一项所述的方法,其中所述权重α的设定方法包括:

1)确定待测样本中已知分子和未知分子数量的比值;

2)配置多个包含少数不同浓度梯度已知分子以及一定数量的未知分子的简单样本,其中所述简单样本中已知分子与未知分子的数量比值与待测样本相等;

3)设定不同的权重α,采用NMF-CLS算法对测试获得的简单样本的光谱进行解混,并获得已知分子各自对应的系数,将系数与已知分子的实际浓度建立回归方程,计算其R方值,以获得最高R方的α为适合待测样本的最优权重值。

13.根据实施方式12所述的方法,其中确定待测样本中已知分子和未知分子数量的比值的方法包括主成分分析方法。

14.根据实施方式12-13中任一项所述的方法,其中所述简单样本中的分子数量与待测样本中的分子数量的比值不超过约1/2,或约1/5,或约1/10。

15.根据实施方式12-14中任一项所述的方法,其中所述简单样本中的已知分子的数量范围为1至100,或1至50,或1至20,或1至10。

16.根据实施方式12-15中任一项所述的方法,其中所述简单样本中的已知分子的数量范围为2至100,或2至50,或2至20,或2至10。

17.根据实施方式1-16中任一项所述的方法,其中所述标准光谱数据库建立包括:采集某一分子的多张光谱图像,计算获得该分子的平均光谱,同理获得其他分子的平均光谱,一并纳入标准光谱数据库中,得到标准光谱数据库。

18.根据实施方式17所述的方法,当采集某一分子的光谱图像时,该分子的浓度为0.1mM-10mM。

19.根据实施方式17-18中任一项所述的方法,其中采集某一分子的光谱图像的数量不少于约10张、约20张、约50张、约100张、或约200张。

20.根据实施方式17-19中任一项所述的方法,还包括将获得的分子的平均光谱的强度进行归一化。

21.根据实施方式17-20中任一项所述的方法,其中所述标准光谱数据库建立包括:采集某一分子的多张光谱图像,计算获得该分子的平均光谱的强度并进行归一化,所获得的光谱即为该分子的标准光谱,同理获得其他分子的标准光谱,一并纳入标准光谱数据库中,得到标准光谱数据库。

22.根据实施方式17-21中任一项所述的方法,其中所述标准光谱数据库建立包括:采集某一分子的多张光谱图像,将获得的多张光谱图像取平均,并将光谱的强度归一化到区间[0,1]内,所获得的光谱即为该分子的标准光谱,同理获得其他分子的标准光谱,一并纳入标准光谱数据库中,得到标准光谱数据库。

23.根据实施方式17-22中任一项所述的方法,包括采集多张待测样本的光谱,并对每一张光谱单独进行算法解析,获得不同已知组分的系数后再进行处理,最后得到该样本中不同已知分子的相对浓度的解析结果。

24.根据实施方式23所述的方法,其中所述处理包括:平均、求和、ANOVA分析和/或学生t检验。

25.根据实施方式23所述的方法,其中采集待测样本的光谱数量需要保证已基本上收集完全待测样本中的分子信息。

26.根据实施方式25所述的方法,其中判断为已基本上收集完全待测样本中的分子信息的光谱数量包括但不限于通过Pearson系数比较。

27.根据实施方式26所述的方法,其中所述Pearson系数的获取包括:使用M条待测样本的光谱的平均值作为标准光谱,每次取出N条光谱做平均,并计算其与标准光谱的Pearson系数,重复做n次上述操作,并对n个皮尔森系数取平均,作为对应于N条光谱下的相关系数。

28.根据实施方式27所述的方法,其中所述M为约50至500,或约100至400,或约200至300。

29.根据实施方式27所述的方法,其中所述n为约3至30,或约4至20,或约5至10。

30.根据实施方式26-29中任一项所述的方法,其中所述Pearson系数不小于约0.8,约0.85,约0.9或约0.95。

31.根据实施方式1-30中任一项所述的方法,其中所述待测样本包括化学样品或生物样品。

32.根据实施方式1-31中任一项所述的方法,其中所述待测样本包括液体样品。

33.根据实施方式1-32中任一项所述的方法,所述光谱图像包括红外光谱和拉曼光谱。

34.根据实施方式33所述的方法,所述红外光谱包括表面增强红外光谱。

35.根据实施方式33所述的方法,所述拉曼光谱包括表面增强拉曼光谱。

36.根据实施方式35所述的方法,所述表面增强拉曼光谱为广谱表面增强拉曼光谱。

37.一种基于表面增强拉曼光谱的分析方法,包括以下步骤:基于表面增强拉曼光谱(SERS)标准光谱数据库,采用加权非负矩阵分解算法(NMF-CLS)对测试获得的光谱进行解混,获得待测样本中含有已知分子的种类及其相对浓度;所述已知分子为SERS标准光谱数据库内所含分子,所述SERS标准光谱数据库由不同分子的SERS标准光谱组成;

其中所述NMF-CLS算法的目标函数设为:

其中,设光谱矩阵是一个m*n的矩阵V,表示共有n条光谱,每条光谱由m个点组成;m*r1的矩阵W(1)表示按列排列的已知分子的参考光谱,m*r2的W(2)表示按列排列的未知分子的光谱;r1*n的矩阵H(1)和r2*n的矩阵H(2)分别表示W(1)和W(2)所对应的相对浓度;其中r1和r2分别表示有r1种已知分子和r2种未知分子;α表示针对已知分子所设置的权重,α≥0;由于已知分子的参考光谱W(1)是已知的,求得W(2)、H(1)和H(2),使得方程中的F最小,即可得到已知分子所对应的相对浓度。

38.根据实施方式37所述的方法,其中所述H(1)、W(2)和H(2)是通过迭代过程中计算得出。

39.根据实施方式37-38中任一项所述的方法,其中所述F关于W(2)、H(1)和H(2)的偏导数为:

从偏导数得到W(1)、H(1)和H(2)的迭代公式为:

按迭代公式进行迭代更新H(1)、W(2)和H(2),当达到最大迭代次数N或F降低到设定阈值σ时停止迭代,迭代停止后,H(1)即为已知组分对应的相对浓度的最终结果。

40.根据实施方式39所述的方法,其中所述最大迭代次数N不小于约20次、约25次、约30次、约40次、约50次、约100次或约200次。

41.根据实施方式39所述的方法,其中所述阈值σ不超过约0.01,或约0.001,或约0.0001,或约0.00001,或约0.000001。

42.根据实施方式37-41中任一项所述的方法,其中所述H(1)、W(2)和H(2)的计算过程包括:

1)输入已知组分矩阵W(1)、测得的光谱矩阵V,最大迭代次数N及阈值σ;

2)随机初始化已知组分的系数矩阵H(1)、未知组分的光谱矩阵W(2)及系数矩阵H(2)

3)根据迭代公式进行迭代更新H(1)、W(2)和H(2)

4)达到最大迭代次数N或F降低到设定阈值σ时停止迭代;

5)迭代停止后,H(1)即为已知组分对应的相对浓度的最终结果。

43.根据实施方式37-42中任一项所述的方法,其中标准光谱的检测条件与待测样本的检测条件相同。

44.根据实施方式37-43中任一项所述的方法,其中SERS采用非靶向广谱检测。

45.根据实施方式37-44中任一项所述的方法,其中所述权重α与待测样本中所包含已知分子的数量(r1)和未知分子的数量(r2)的比值呈负相关。

46.根据实施方式37-45中任一项所述的方法,其中所述权重α的设定方法包括:

2)确定待测样本中已知分子和未知分子数量的比值;

3)配置多个包含少数不同浓度梯度已知分子以及一定数量的未知分子的简单样本,其中所述简单样本中已知分子与未知分子的数量比值与待测样本相等;

4)设定不同的权重α,采用NMF-CLS算法对测试获得的简单样本的光谱进行解混,并获得已知分子各自对应的系数,将系数与已知分子的浓度建立回归方程,计算其R方值,以获得最高R方的α为待测样本的最优权重值。

47.根据实施方式46所述的方法,其中确定待测样本中已知分子和未知分子数量的比值的方法包括主成分分析方法。

48.根据实施方式46-47中任一项所述的方法,其中所述简单样本中的分子数量与待测样本中的分子数量的比值不超过约1/2,或约1/5,或约1/10。

49.根据实施方式46-48中任一项所述的方法,其中所述简单样本中的已知分子的数量范围为1至100,或1至50,或1至20,或1至10。

50.根据实施方式46-49中任一项所述的方法,其中所述简单样本中的已知分子的数量范围为2至100,或2至50,或2至20,或2至10。

51.根据实施方式37-50中任一项所述的方法,其中所述标准光谱数据库建立包括:采集某一分子的多张SERS光谱图像,计算获得该分子的SERS平均光谱,同理获得其他分子的SERS平均光谱,一并纳入标准光谱数据库中,得到SERS标准光谱数据库。

52.根据实施方式51所述的方法,当采集某一分子的SERS光谱图像时,该分子的浓度为0.1mM-10mM。

53.根据实施方式51-52中任一项所述的方法,其中采集某一分子的SERS光谱图像的数量不少于约10张、约20张、约50张、约100张、或约200张。

54.根据实施方式51-53中任一项所述的方法,还包括将获得的分子的SERS平均光谱的强度进行归一化。

55.根据实施方式51-54中任一项所述的方法,其中所述标准光谱数据库建立包括:采集某一分子的多张SERS光谱图像,计算获得该分子的SERS平均光谱的强度并进行归一化,所获得的光谱即为该分子的SERS标准光谱,同理获得其他分子的SERS标准光谱,一并纳入SERS标准光谱数据库中,得SERS到标准光谱数据库。

56.根据实施方式51-55中任一项所述的方法,其中所述SERS标准光谱数据库建立包括:采集某一分子的多张SERS光谱图像,将获得的多张SERS光谱图像取平均后将平均光谱的强度归一化到区间[0,1]内,所获得的光谱即为该分子的SERS标准光谱,同理获得其他分子的SERS标准光谱,一并纳入标准光谱数据库中,得到SERS标准光谱数据库。

57.根据实施方式37-56中任一项所述的方法,其包括采集多张待测样本的SERS光谱,并对每一张SERS光谱单独进行算法解析,获得已知组分的系数H(1)后再进行处理,最后得到该样本中已知分子的相对浓度的解析结果。

58.根据实施方式57所述的方法,其中所述处理包括:平均、求和、ANOVA分析和/或学生t检验。

59.根据实施方式37-58所述的方法,其中所述采集待测样本的光谱数量需要保证已基本上收集完全待测样本中的分子信息。

60.根据实施方式59所述的方法,其中所述判断为已基本上收集完全待测样本中的分子信息的光谱数量包括但不限于通过Pearson系数比较。

61.根据实施方式60所述的方法,其中所述Pearson系数的获取包括:使用M条待测样本的光谱的平均值作为标准光谱,每次取出N条光谱做平均,并计算其与标准光谱的Pearson系数,重复做n次上述操作,并对n个皮尔森系数取平均,作为对应于N条光谱下的相关系数。

62.根据实施方式61所述的方法,其中所述M为约50至500,或约100至400,或约200至300。

63.根据实施方式61所述的方法,其中所述n为约3至30,或约4至20,或约5至10。

64.根据实施方式60-63中任一项所述的方法,其中所述Pearson系数不小于约0.8,约0.85,约0.9或约0.95。

65.根据实施方式59-64中任一项所述的方法,其中扫描待测样本的光谱数量不少于约20,或约30,或约40,或约50。

66.根据实施方式59-65中任一项所述的方法,其中扫描待测样本的光谱数量为约20至200,或约30至160,或约40至120,或约50至80。

67.根据实施方式37-66中任一项所述的方法,其中扫描待测样本的SERS光谱的速度为约1~5s/张。

68.根据实施方式37-67中任一项所述的方法,其中所述待测样本包括化学样品或生物样品。

69.根据实施方式37-68中任一项所述的方法,其中所述待测样本包括液体样品。

70.根据实施方式68所述的方法,其中所述生物样品包括细胞培养液、细胞上清液、细胞溶解产物、血液、血液源产物、淋巴、尿、眼泪、唾液、脑脊髓液、粪便、滑液、痰、细胞、器官或组织。

71.根据实施方式37-70中任一项所述的方法,其中所述SERS标准数据库中的分子包括代谢物。

72.根据实施方式71所述的方法,其中所述SERS标准数据库中的分子包括小分子代谢物。

73.一种代谢组学数据处理方法,所述代谢组学数据处理方法包括:将同一类型的生物样品的光谱数据采用加权非负矩阵分解算法解混后,获得该类样品中已知分子的种类以及相对浓度的区间,得到该类生物样品的特征光谱数据库。

74.根据实施方式73所述的方法,其还包括:同理获得其他类型的生物样品中已知分子的种类以及相对浓度的区间,一并纳入特征光谱数据库中,得到包含不同类型生物样品的特征光谱数据库。

75.一种代谢组学分析方法,所述方法包括:基于标准光谱数据库,采用NMF-CLS算法对测试获得的待测样本的光谱进行解混,获得待测样本中含有代谢物的种类及其相对浓度,所述代谢物为标准光谱数据库内所含分子。

76.根据实施方式75所述的方法,其还包括根据所获得的代谢物的种类及其相对浓度进行相关的生物医学分析。

77.根据实施方式76所述的方法,其中所述生物医学分析包括分析差异性代谢物数据。

78.根据实施方式76所述的方法,其中所述生物医学分析包括通过将待测样本的代谢物种类及相对浓度与特征光谱数据库比对。

79.根据实施方式76所述的方法,其中所述生物医学分析进一步包括对样本进行分类或分期。

80.一种确定生物标志的方法,包括:

3)分别获得样本群样本和对照群样本的光谱数据,基于标准光谱数据库,采用加权非负矩阵分解算法对测试获得的光谱进行解混,分别获得的样本群样本和对照群样本中含有已知分子的种类及相对浓度,所述已知分子为标准光谱数据库内所含分子;

4)筛选差异性分子作为生物标志。

81.根据实施方式80所述的方法,其中所述差异性分子包括差异性代谢物。

82.根据实施方式80所述的方法,其中所述步骤2)包括通过ANOVA分析(AnovaTest)和逻辑回归(Logistic Regression)交叉选出多种差异性代谢物。

83.根据实施方式82所述的方法,其中所述ANOVA分析包括对不同类别的数据进行统计分析,找出其中在不同类别间出现统计学差异的代谢物。

84.根据实施方式82所述的方法,其中所述逻辑回归包括使用相对浓度数据进行分类,找出对区分数据类别的具有贡献的代谢物。

85.根据实施方式84所述的方法,其中所述逻辑回归采用L1正则化,其分类时绝对值权重大于0,认为其对分类有贡献。

86.根据实施方式80所述的方法,其还包括对获得的差异性代谢物进行验证。

87.根据实施方式86所述的方法,其中所述验证包括将样本的实际浓度与通过加权非负矩阵分解算法解混出的系数进行回归分析。

88.根据实施方式86所述的方法,其中所述验证包括通过分析差异性代谢物与生理或病理吻合性进行验证。

89.一种检测疾病或病症存在,或者评估疾病或病症发生风险的方法,所述方法包括以下步骤:

1)获得个体待测样本的光谱,基于标准光谱数据库,采用加权非负矩阵分解(NMF-CLS)对测试获得的光谱进行解混,获得待测样本中含有已知代谢物的种类及其相对浓度,所述已知代谢物为标准光谱数据库内所含分子;

2)将所述已知代谢物的相对浓度与正常区间进行比较;以及

3)确定所述个体是否患有疾病或病症、或是发生疾病或病症的风险。

90.一种确定疾病或病症阶段的方法,所述方法包括以下步骤:

1)获得个体待测样本的光谱,基于标准光谱数据库,采用加权非负矩阵分解(NMF-CLS)对测试获得的光谱进行解混,获得待测样本中含有已知代谢物的种类及其相对浓度,所述已知代谢物为标准光谱数据库内所含分子;

2)将所述生物标志的相对浓度与已知的阶段水平进行比较;以及

3)确定疾病或病症的阶段或类型。

91.根据实施方式89-90中任一项所述的方法,其中所述疾病或病症选自下组:感染性疾病、增殖性疾病,神经退行性疾病、癌症、心理疾病、代谢疾病、自身免疫性疾病、性传播疾病、胃肠疾病、肺病、心血管疾病、压力和疲劳相关的病症、真菌病,病原性疾病和肥胖相关的病症。

92.细胞或微生物分析方法,所述方法包括以下步骤:

1)获得细胞待测样本的光谱数据,基于标准光谱数据库,采用加权非负矩阵分解(NMF-CLS)对测试获得的光谱进行解混,获得待测样本中含有已知代谢物的种类及其相对浓度,所述已知代谢物为标准光谱数据库内所含分子;

2)将所述已知代谢物的相对浓度与正常区间进行比较;以及

3)确定所述细胞或微生物的生理或病理状态、生理或病理类型。

93.根据实施方式92所述的方法,还包括进一步对鉴定后的细胞或微生物进行筛选,获得所需要的目标细胞或微生物类型。

94.根据实施方式73-93中任一项所述的方法,其中所述光谱数据包括拉曼光谱数据和红外光谱数据。

95.根据实施方式94所述的方法,其中所述红外光谱数据包括表面增强红外光谱数据。

96.根据实施方式94所述的方法,其中所述拉曼光谱数据包括表面增强拉曼光谱数据。

97.根据实施方式73-93中任一项所述的方法,其中所述标准光谱数据库包括拉曼光谱标准光谱数据库和红外光谱标准数据库。

98.根据实施方式97所述的方法,其中所述拉曼光谱标准光谱数据库包括SERS标准光谱数据库。

99.根据实施方式93-98中任一项所述的方法,其中所述待测样本的光谱包括广谱SERS光谱。

100.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施方式1至99中任一项所述的方法的步骤。

101.根据实施方式100所述的计算机可读存储介质,其上还存储有标准光谱数据库数据。

102.根据实施方式101所述的计算机可读存储介质,所述标准光谱数据库包括SERS标准光谱数据库。

103.一种装置,包括存储器和处理器,所述存储器存储有标准光谱数据库和计算机程序,所述处理器执行所述计算机程序时实现实施方式1至99中任一项所述的方法的步骤。

104.一种基于加权非负矩阵分解算法的光谱解混系统,其包括:求解优化模块,用于采用迭代方法对加权非负矩阵分解算法进行求解,完成光谱数据解混。

105.根据实施方式104所述的系统,其还包括权重优化模块,用于采用线性回归方式对已知分子权重进行求解,确定最优权重值。

106.根据实施方式104所述的系统,其还包括评价模块,用于利用已知分子的相对浓度对解混结果进行评价。

107.实施方式100-102中任一项所述的计算机可读存储介质,实施方式103所述的装置,或实施方式104-106中任一项所述的系统在制备装置中的用途,所述装置用于化合物的分析和/或微生物的分类和检测。

108.实施方式100-102中任一项所述的计算机可读存储介质,实施方式103所述的装置,或实施方式104-106所述的系统在制备装置中的用途,所述装置用于代谢组学数据处理和/或分析。

109.一种代谢组学分析装置,所述装置包括:数据处理模块,用于对获取所述待检测样本的光谱数据进行解析,获得样本中代谢物的种类及其相对浓度。

110.根据实施方式109所述的装置,其中所述数据处理模块包括求解优化模块,用于采用迭代方法对加权非负矩阵分解算法进行求解,完成光谱数据解混。

111.根据实施方式109所述的装置,其中所述数据处理模块包括权重优化模块,用于采用线性回归方式对已知分子权重进行求解,确定最优权重值。

112.根据实施方式109所述的装置,其中所述数据处理模块包括评价模块,用于利用已知分子的相对浓度对解混结果进行评价。

113.根据实施方式112所述的装置,其中所述评价包括利用差异性代谢物分类检测模型对检测样本进行分类。

114.根据实施方式109所述的装置,其还包括光谱检测模块,用于对所述待测样本进行光谱检测,获取所述待检测样本的光谱数据。

115.根据实施方式109所述的装置,其还包括待测样本采集模块,用于基于代谢组学方法采集待测样本。

不欲被任何理论所限,下文中的实施例仅仅是为了阐释本申请的方法和用途等,而不用于限制本申请发明的范围。

实施例

实施例1SERS标准数据库建立

SERS标准数据库内共包含89种代谢物分子的SERS光谱(图2),其中57种分子的SERS光谱来源于其他文献中的开源数据,其余32种为本实验室自行购买代谢物分子标准品(纯度均在98%及以上)并进行SERS测试测得的SERS光谱。

(1)将代谢物分子按一定浓度(0.1mM-10mM)溶于水后,按比例与银纳米颗粒混合;

(2)测试该混合样品的SERS光谱,测试参数可以为:638nm激光,积分时间1秒,总共采集201条拉曼光谱;

(3)为了防止由于标准光谱的强度差别导致的解混出的系数前后不一致的情况,对于改样本所获得的201张光谱取平均,并将光谱的强度归一化到区间[0,1]内,所获得的光谱即为该代谢物分子的标准SERS光谱,并纳入SERS标准数据库;

(4)对于其他购买的代谢物分子标准品进行同上过程;

(5)SERS标准数据库可以不断进行扩充。

实施例2模型验证一

2.1模型验证

2.1.1模型验证所用的SERS数据库的建立:

对于模型验证,设计数据库内仅包含半胱氨酸和精氨酸两种已知分子。

2.1.2待测样品配制:

如图3a所示,配制4种样本,编号为①到④,其中精氨酸的浓度随编号依次下降,半胱氨酸的浓度随样本编号依次上升,每个样品中还包含五种其他物质(不包含在该模型验证所用的SERS标准数据库内),且浓度未知;

2.1.3SERS光谱测试:

将上述配制的样品与银颗粒混合后进行拉曼光谱测试,测试参数如下:(激光波长638nm,激光功率100%,积分时间1s,10倍物镜,测试拉曼光谱总数201张/样品);并将测试得到的201张光谱进行平均,得到检测SERS光谱的平均光谱。

图3b中i表示的是半胱氨酸的SERS标准光谱,iii表示的是精氨酸的SERS标准光谱,ii表示的是背景内随机取出的一部分SERS光谱。

2.1.4权重优化:

调整α值计算出不同样本下的半胱氨酸和精氨酸的系数,并获得的系数与已知的标准浓度进行对比并建立回归曲线,以回归曲线的拟合效果R方值作为判断标准,选取回归效果最好的α值作为之后分析的权重值,此处α值设置为0.5,加有权重的目标函数为:

2.1.5算法解析:

将扫描获得的201张光谱分别采用2.1.4的基于SERS数据库的算法解混,获得每一张SERS光谱中所包含半胱氨酸和精氨酸的系数,再进行平均,得到上述模型验证所用SERS数据库内所包含的已知分子(半胱氨酸和精氨酸)的平均系数(即相对含量),结果如表1和图3c-3e所示。

图3c内黑色细线代表的是四种不同浓度混合的样本的检测SERS光谱的平均光谱,彩色线表示的是采用算法拟合出的参考光谱和相应系数的乘积的和,即还原出的拟合SERS光谱的平均光谱,两者几乎重合表示拟合效果很好,表明算法对光谱进行了有效的解离。

图3d是随机选出的四种样品中具有代表性的光谱,同样显示拟合效果也很好。

表1模型验证中半胱氨酸和精氨酸的系数

如表1和图3e所示,基于SERS数据库的算法计算出四个样品中半胱氨酸和精氨酸系数和实际浓度进行线性拟合,该算法解析所获得相对含量与上述待测样品配制过程中所设计的代谢物分子浓度具有良好的线性相关性。

2.2权重设置对比

若在有未知组分且未知组分占比较多的情况下,不设置权重α(即α设置为0),那么尽管其仍旧拥有很好的拟合效果,但是解混出的系数可能无法与真实浓度建立良好的线性关系。以模型验证部分的精氨酸的解混结果对比来验证不同权重α值对于解混效果的影响,图3f为加了权重(α=0.5)的结果,图3g为不加权重(α=0)的结果,可以看出不加权重解析出的系数并不能有效表征相对浓度,而加了权重后解析出的系数可以有效表征相对浓度。

2.3解混方法对比

图4a显示的是实施例2.1中含有不同浓度半胱氨酸和精氨酸的四个样品按照最小二乘法(CLS)解混后的拟合效果,黑色线是检测SERS光谱的平均光谱,红色线是CLS算法拟合光谱的平均光谱,蓝色线是两者差值,可以看到拟合效果并不好。

图4b显示的是实施例2.1中含有不同浓度半胱氨酸和精氨酸的四个样品按照非负矩阵分解算法(NMF)解混后的拟合效果,可以看到拟合效果很好,但通过图4c中非负矩阵分解计算出的已知组分光谱,可以看出没有明显的拉曼峰,而实际分子(如半胱氨酸)的标准拉曼光谱具有明显的拉曼峰,表明采用非负矩阵算法解析得到的已知组分光谱与实际分子的拉曼光谱(该分子的标准光谱)无法匹配。

实施例3模型验证二

3.1模型验证所用的SERS数据库的建立:

对于模型验证,设计数据库内仅包含酪氨酸(Tyrosine)、鸟嘌呤(Guanine)、胞嘧啶(Cytosine)、天冬酰胺(Asparagine),腺嘌呤(Adenine)五种已知分子。

3.2待测样品配制:

在3个样本里加入不同浓度的酪氨酸(Tyrosine)、鸟嘌呤(Guanine)、胞嘧啶(Cytosine)、天冬酰胺(Asparagine)、腺嘌呤(Adenine),同时混入另外15种未知浓度的分子溶液。

3.3SERS光谱测试:

将上述配制的样品与银颗粒混合后进行拉曼光谱测试,测试参数如下:(激光波长638nm,激光功率100%,积分时间1s,10倍物镜,测试拉曼光谱总数201张/样品);并将测试得到的201张光谱进行平均,得到检测SERS光谱的平均光谱。

图5a中i表示的是5种已知分子的SERS标准光谱,ii表示的是随机选出的包含5种目标分子和15种未知分子组成的混合溶液的拉曼光谱,可以看出其背景复杂。

3.4权重优化:

调整α值计算出不同样本下的目标分子的系数,并与已知的标准浓度进行对比并建立回归曲线,以回归曲线的拟合效果R方值作为判断标准,选取回归效果最好的α值作为之后分析的权重值,此处α值设置为0.5,加有权重的目标函数为:

3.5算法解析:

将扫描获得的201张光谱分别采用3.4的基于SERS数据库的算法解混,获得每一张SERS光谱中所包含已知分子(酪氨酸、鸟嘌呤、胞嘧啶、天冬酰胺、腺嘌呤)的系数,再进行平均,得到上述模型验证所用SERS数据库内所包含的已知分子的平均系数(即相对含量)。对同样的样本通过质谱测定其浓度,与通过本算法解混出的系数进行回归分析。

图5b显示的是三种不同混合液的SERS光谱的拟合效果,黑色细线代表的是三种不同混合液的检测SERS光谱的平均光谱,彩色线表示的是采用算法拟合出的参考光谱和相应系数的乘积的和,即还原出的拟合SERS光谱的平均光谱,两者几乎重合表示拟合效果很好,表明算法对光谱进行了有效的解离。

图5c显示的是计算出的平均系数和质谱检测出的浓度的匹配效果,可以看出本算法计算得到的平均系数(相对含量)和质谱检测的样品浓度可以做到比较好的吻合,而SERS光谱的灵敏度更高,可以做到更高灵敏度的探测。

实施例4细胞实验

4.1同实施例1所述,建立细胞验证所用的SERS数据库;

4.2待测样品准备:共设置比较三组细胞随天数变化的、在细胞培养液内表现的细胞外代谢行为,设置的细胞组别为LO2(人正常干细胞)组,HepG2(人肝癌细胞)组和HepG2+MTX(人肝癌细胞给予抗癌药物甲氨蝶呤)组。

每种组别分别进行为期5天的持续性代谢行为检测,即每天从细胞培养皿的细胞培养液中取出400微升的细胞培养液。细胞培养液样品依次经过梯度离心去除死细胞和细胞碎片和超滤(3KD-cutoff)去除蛋白分子,从而获得该细胞培养液样本中的代谢分子成分,作为后续的待测样品;

4.3SERS光谱测试:

将上述待测样品与银纳米颗粒混合后,进行SERS光谱测试,测试参数如下:(激光波长638nm,激光功率100%,积分时间5s,10倍物镜,测试拉曼光谱总数201张/样品);

各培养液的DAY2数据各选取200条光谱得到SERS光谱热图(图7c),其中横坐标为Raman shift,纵坐标表示光谱数,每一行像素代表一条光谱,像素的颜色代表其拉曼强度的高低。可以看到同一次测量中光谱之间存在峰位置和峰强度的波动,因此可以认为,在不同时间下,出现在拉曼增强热点区域的分子种类和数量均有差别,这取决于分子的浓度和类型,因此需要多次测量拉曼光谱才能反映出血清中分子构成。

4.3.1光谱数量计算

本部分用于计算每次测量采集多少条光谱可以保证获取到样本的整体信息。

我们使用200条光谱的平均值作为标准光谱,每次取出N条光谱做平均,并计算其与标准光谱的皮尔森系数,重复做5次上述操作,并对5个皮尔森系数取平均,作为对应于N条光谱下的相关系数。

认为在曲线收敛时(皮尔森系数大于0.8时),即代表基本已获取到所需的信息。结果如图6所示,在50条左右,对于不同类型的数据,光谱基本已收敛(皮尔森系数大于0.8)。

4.4权重优化:

调整α值计算出不同样本下的目标分子的系数,并与已知的标准浓度进行对比并建立回归曲线,以回归曲线的拟合效果R方值作为判断标准,选取回归效果最好的α值作为之后分析的权重值,此处α值设置为0.5,加有权重的目标函数为:

4.5算法解析:

将扫描获得的201张光谱分别采用4.4的基于SERS数据库的算法解混,获得每一张SERS光谱中所包含已知分子的系数,再进行平均,得到上述模型验证所用SERS数据库内所包含的已知分子的平均系数(即相对含量)。所获得相对含量可以用来进行进一步的相关生物医学分析,如正常细胞与肿瘤细胞的代谢差异,肿瘤细胞进行抗肿瘤药物治疗后的代谢行为变化监控等。

图7b显示的是三种细胞每天细胞培养液的SERS光谱的拟合效果,黑色细线代表的是检测SERS光谱的平均光谱,彩色线表示的是采用算法拟合出的参考光谱和相应系数的乘积的和,即还原出的拟合SERS光谱的平均光谱,两者几乎重合表示拟合效果很好,表明算法对光谱进行了有效的解离。

4.6差异性代谢物筛选

ANOVA对不同类别的数据进行统计分析,找出其中在不同类别间出现统计学差异的代谢物。输入不同类别的数据,ANOVA会给出检验水平,即p值。p值越小则组间差异性越高,一般认为p值小于0.05时,组间具有显著差异。本申请针对每一种代谢物的相对浓度数据计算其在不同类别间的检验水平p值,将p值小于0.05的代谢物认为是具有显著差异的代谢物,将其保留下来。

逻辑回归使用相对系数数据进行分类,找出对区分不同类别数据的具有一定贡献的代谢物。采用L1正则化,其分类时计算权重绝对值大于0,认为其对分类有贡献。逻辑回归算法在进行分类时,针对不同代谢物的相对浓度数据会设置不同的计算权重,此地的计算权重即为该代谢物在分类时的重要性,计算权重绝对值越大则重要性越高。采用L1正则化的情况下,重要性低的代谢物权重值会被算法设为0,因此取计算权重绝对值大于0的代谢物作为可能存在差异的代谢物。

取ANOVA和逻辑回归两种方式选出的差异性代谢物的交集作为最终的代谢物筛选结果。如图7d所示,筛选得到8种示例性的差异性代谢物,并分析了其计算出的系数(即相对浓度)变化曲线。

实施例5血清实验

5.1同实施例1所述,建立细胞验证所用的SERS数据库;

5.2待测样品准备:

血清测试中采用-80℃保存的血清样本(其中样本来源为BPH患者85名、PCa患者85名、健康受试者75名),在4℃环境中融化,随后将血清进行超滤(3KD cutoff),从而去除血清中的蛋白,获得血清中代谢物分子的成分,将该血清代谢物分子的成分作为待测样品;

5.3SERS光谱测试:

将上述待测样品与银纳米颗粒混合后,进行SERS光谱测试,测试参数如下:(激光波长638nm,激光功率100%,积分时间5s,10倍物镜,测试拉曼光谱总数201张/样品);

各培养液的DAY2数据各选取200条光谱得到SERS光谱热图(图9)。横坐标为Ramanshift,纵坐标表示光谱数。可以看到同一次测量中光谱之间存在峰位置和峰强度的波动,因此可以认为,在不同时间下,出现在拉曼增强热点区域的分子种类和数量均有差别,这取决于分子的浓度和类型,因此需要多次测量拉曼光谱才能反映出血清中分子构成。

5.3.1光谱数量计算

本部分用于计算每次测量采集多少条光谱可以保证获取到样本的整体信息。

我们使用200条光谱的平均值作为标准光谱,每次取出N条光谱做平均,并计算其与标准光谱的皮尔森系数,重复做5次上述操作,并对5个皮尔森系数取平均,作为对应于N条光谱下的相关系数。

认为在曲线收敛时(皮尔森系数大于0.8时),即代表基本已获取到所需的信息。结果如图8所示,在50条左右,对于不同类型的数据,光谱基本已收敛(皮尔森系数大于0.99)。

5.4权重优化:

调整α值计算出不同样本下的目标分子的系数,并与已知的标准浓度进行对比并建立回归曲线,以回归曲线的拟合效果R方值作为判断标准,选取回归效果最好的α值作为之后分析的权重值,此处α值设置为0.5,加有权重的目标函数为:

5.5算法解析:

将扫描获得的201张光谱分别采用5.4的基于SERS数据库的算法解混,获得每一张SERS光谱中所包含已知分子的系数,再进行平均,得到上述模型验证所用SERS数据库内所包含的已知分子的平均系数(即相对含量)。所获得相对含量可以用来进行进一步的相关生物医学分析,如疾病早筛、疾病分型、疾病分期等。

图10显示的是三种人群的血清的SERS光谱的拟合效果,黑色细线代表的是检测SERS光谱的平均光谱,彩色线表示的是采用算法拟合出的参考光谱和相应系数的乘积的和,即还原出的拟合SERS光谱的平均光谱,两者几乎重合表示拟合效果很好,表明算法对光谱进行了有效的解离。

5.6差异性代谢物筛选

ANOVA对不同类别的数据进行统计分析,找出其中在不同类别间出现统计学差异的代谢物。输入不同类别的数据,ANOVA会给出检验水平,即p值。p值越小则组间差异性越高,一般认为p值小于0.05时,组间具有显著差异。本申请针对每一种代谢物的相对浓度数据计算其在不同类别间的检验水平p值,将p值小于0.05的代谢物认为是具有显著差异的代谢物,将其保留下来。

逻辑回归使用相对系数数据进行分类,找出对区分不同类别数据的具有一定贡献的代谢物。采用L1正则化,其分类时计算权重绝对值大于0,认为其对分类有贡献。逻辑回归算法在进行分类时,针对不同代谢物的相对浓度数据会设置不同的计算权重,此地的计算权重即为该代谢物在分类时的重要性,计算权重绝对值越大则重要性越高。采用L1正则化的情况下,重要性低的代谢物权重值会被算法设为0,因此取计算权重绝对值大于0的代谢物作为可能存在差异的代谢物。

取ANOVA和逻辑回归两种方式选出的差异性代谢物的交集作为最终的代谢物筛选结果。本申请对血清的表面增强拉曼光谱进行解混后,采用Anova和逻辑回归交叉分析,筛选出以下16种差异性代谢物(图11)。为进一步分析结果,我们取出所有样本的这16个差异性代谢物的系数(图12a)。如图12b、12c所示,用这16种差异物组成的数据对前列腺癌、前列腺良性增生和健康人的样本进行分类,并与临床中液体活检的psa筛选的结果进行比较。结果显示筛选出的代谢物的分析结果优于psa筛选的结果。

54页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于二代测序宏基因组数据分析装置及方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!