用于由单个核酸分子测量中鉴定序列信息的系统和方法

文档序号:1189045 发布日期:2020-09-22 浏览:27次 >En<

阅读说明:本技术 用于由单个核酸分子测量中鉴定序列信息的系统和方法 (System and method for identifying sequence information from single nucleic acid molecule measurements ) 是由 D·C·施瓦茨 S·南迪 M·A·牛顿 于 2018-12-04 设计创作,主要内容包括:公开了用于由对单核酸分子进行的测量中鉴定序列信息的系统和方法。该系统和方法可以包括将核酸分子的部分与标志物分子如荧光分子和/或嵌入分子进行结合。标志物分子提供了可检测的信号,其包括有关结合了给定标志物物分子的核酸分子上位置的潜在基因组信息的信息。获得沿着核酸位置多个不同核酸分子的可检测信号的概况。PRIMR算法处理数据以提供一个共识概况,从中可以确定共识潜在基因组信息。(Systems and methods for identifying sequence information from measurements made on single nucleic acid molecules are disclosed. The systems and methods may include combining portions of the nucleic acid molecule with marker molecules, such as fluorescent molecules and/or intercalating molecules. The marker molecules provide a detectable signal comprising information about the underlying genomic information of the location on the nucleic acid molecule to which a given marker molecule is bound. A profile of detectable signals is obtained for a plurality of different nucleic acid molecules along a nucleic acid position. The PRIMR algorithm processes the data to provide a consensus profile from which consensus underlying genomic information can be determined.)

用于由单个核酸分子测量中鉴定序列信息的系统和方法

相关申请的交叉引用

本申请涉及2017年12月4日提交的美国临时专利申请号62/594,385,要求其优先权,并通过引用将其全部内容纳入本文。

关于联邦资助研究的声明

本发明得到国家卫生研究院(National Institutes of Health)第CA182360和HG000225政府资助。政府对本发明拥有一定的权利。

背景技术

核酸分子分析对生物学非常重要。需要新方法快速且有效地分析核酸分子中的潜在基因组信息。提供可以分析单核酸分子或单核酸分子组并提供有关潜在基因组信息的相关信息的方法将是有益的。

发明内容

在一个方面中,本公开提供了一种获取与核酸分子相关的数据的方法。该方法包括以下步骤:a)将多个标志物分子与核酸分子的至少部分结合,所述多个标志物分子各自提供可检测信号,所述可检测信号包括关于核酸分子的潜在基因组信息;b)由沿着所述核酸分子的至少部分的多个位置获取可检测信号;和c)生成包括可检测信号的报告或输出信号。

在另一方面中,本公开提供了一种分析获自多个核酸分子的可检测信号的方法。该方法包括以下步骤:a)接收包含可检测信号强度相对位置的概况的数据集,所述可检测信号强度获自与多个核酸分子基本相同部分结合的多个标志物分子;b)由数据集提取潜在基因组信息;和c)产生包括可检测信号的报告或输出信号。

在另一方面中,本公开提供了包括以下步骤的方法:a)将多个核酸分子各自的至少部分与多个荧光分子结合,所述多个荧光分子提供可检测荧光信号,所述可检测荧光信号包括关于与给定荧光分子结合的核酸分子给定部分的潜在基因组信息,所述多个核酸分子各自的至少部分具有重叠区域,所述重叠区域具有基本相同的特征;b)获取多个核酸分子各自的至少部分的可检测荧光信号与位置,从而得到包含可检测荧光信号相对位置的概况的数据集;c)鉴定可检测信号相对位置的概况的异常值,从而产生异常值概况;d)由步骤c)中未被鉴定为异常值概况的可检测信号相对位置的概况计算中值概况(medianprofile);e)通过估算步骤c)中未被鉴定为异常值概况的可检测信号相对位置的概况和步骤d)的中值概况之间的相似性指数,计算加权平均数概况(mean profile),然后通过根据相似性指数的加权,对步骤c)中未被鉴定为异常值概况的可检测信号相对位置的概况取加权平均(weighted average),从而产生模板;f)将可检测信号相对位置的概况与模板排齐(register),从而产生可检测信号相对位置的排齐概况(registered profile);g)鉴定可检测信号相对位置的排齐概况的异常值,从而产生异常值排齐概况;h)由步骤g)中未被鉴定为异常值排齐概况的可检测信号相对位置的排齐概况计算中值排齐概况;i)通过估算步骤g)中未被鉴定为异常值排齐概况的可检测信号相对位置的排齐概况和中值排齐概况之间的排齐相似性指数,计算更新的加权平均数概况,然后通过根据排齐相似性指数的加权,对步骤g)中未被鉴定为异常值排齐概况的可检测信号相对位置的排齐概况取加权平均,从而产生排齐模板;i)将可检测信号相对位置的排齐概况与排齐模板排齐,从而产生可检测信号相对位置的第二排齐概况,步骤i)的排齐具有比步骤f)的排齐低的罚分参数;j)计算可检测信号相对位置的排齐概况和排齐模板之间的平均相似性;k)使用比所述低罚分参数低的第二罚分参数重复步骤g)、h)和j),直到重复的连续迭代的平均相似性之间的差异小于阈值为止,从而产生可检测信号相对位置的最终排齐概况;l)由步骤k)的最终迭代鉴定可检测信号相对位置的最终排齐概况的异常值,从而产生异常值最终排齐概况;m)由步骤l)中未被鉴定为异常值最终排齐概况的可检测信号相对位置的最终排齐概况计算中值最终排齐概况;和n)通过估算步骤l)中未被鉴定为可检测信号相对位置的最终排齐概况和中值最终排齐概况之间的最终排齐相似性指数,计算最终加权平均数概况,然后通过根据最终排齐相似性指数的加权,对步骤l)中未被鉴定为异常值最终排齐概况的可检测信号相对位置的最终排齐概况取最终加权平均,从而产生可检测信号相对位置的共识概况(consensus profile)。

在另一方面中,本公开提供了其上储存有指令的非临时计算机可读介质,当所述指令通过处理器执行时,导致处理器执行本文所述的方法之一。

在另一方面中,本公开提供了一种系统,其包括处理器和本文其他地方描述的非临时计算机可读介质。

在另一方面中,本公开提供了一种系统,其包括荧光显微镜、处理器和存储器。

附图说明

图1是显示根据本公开一方面的方法的步骤的流程图。

图2是显示根据本公开一方面的方法的步骤的流程图。

图3是显示根据本公开一方面的方法的步骤的流程图。

图4是代表根据本公开一方面的系统的示意图。

具体实施方式

在进一步详细描述本发明之前,应理解本发明不限于所描述的具体实施方式。也应该理解的是,此处使用的术语只是为描述具体实施方式,而不是起限制作用。本发明的范围仅受权利要求的限制。除非文中另有明确说明,否则如本文所用,单数形式的“一个”、“一种”和“该/所述”包括复数实施方式。

公开了与修饰生物分子有关的具体结构,装置和方法。对本领域技术人员显而易见的是,除了已描述的那些外,在不背离所述发明理念的前提下可以进行更多的改良。在解释本公开时,应以与上下文一致的尽可能广泛的方式解释所有术语。术语“包含”的变体应该被解释为以非排他的方式引用元件,组件或步骤,因此引用的元件,组件或步骤可以与不明确引用的其他元件,组件或步骤组合。称之为“包含”某些元件的实施方式也被认为是“基本上由(这些元件)组成”和“由(这些元件)组成”。述及特定值的两个或更多个范围时,本公开考虑了未明确述及的那些范围的上限和下限的所有组合。例如,述及1-10或2-9的值也考虑1-9或2-10之间的值。

本文可以就各种功能组件和处理步骤的各个方面进行描述。应当理解的是,这类组件和步骤可以通过配置为进行指定功能的任何数量的硬件组件来实现。

方法

本公开提供了多种方法。应该理解,各种方法适合与其他方法一起使用。类似地,应该理解,各种方法适合与本文他处所述系统一起使用。当相对于给定方法描述本公开的特征时,除非上下文另外明示,否则也明确考虑该特征能够用于本文所述其他方法和系统。

参照图1,本公开提供了一种获取与核酸分子相关的数据的方法100。在过程框102处,方法100包括将核酸分子的至少部分与多个标志物分子结合。多个标志物分子各自提供可检测信号,所述可检测信号包含关于核酸分子的潜在基因组信息。在过程框104处,方法100包括由沿着核酸分子的至少部分的多个位置获取可检测信号。在过程框106处,方法100可以包括生成包括可检测信号的报告或输出信号。

在任选过程框108处,方法100可以包括将核酸分子的至少第二部分与第二组多个标志物分子结合。第二组多个标志物分子各自提供可检测信号。在任选过程框110处,方法100包括沿着核酸分子的至少第二部分的第二组多个位置处接收可检测信号。

在一些情况中,方法100可以包括再次重复过程框102和104,用第二核酸分子替换核酸分子。核酸分子和第二核酸分子可以具有基本相同的序列。核酸分子和第二核酸分子可以具有不同的序列。如本文所用,“基本相同的序列”指无法使用本公开的方法区分的核酸序列。具有基本相同序列的核酸分子可具有下述差异:(a)单核苷酸多态性(SNP)或单核苷酸变异(SNV)——序列中的单个碱基对差异;(2)小***和缺失(***缺失(INDEL))——短1-100bp的***或缺失;(3)甲基化,如C-me和A-me。如本文所用,“不同序列”指使用本公开的方法可区分的核酸序列。

在一些情况下,方法100可以包括另外多次重复过程框102和104,另外多次中的每次分别用多个其他核酸分子中的不同核酸分子来代替该核酸分子。核酸分子和多个其他核酸分子可以具有基本相同的序列。核酸分子的至少部分和多个其他核酸分子中不同核酸分子的至少部分可以至少部分重叠。

参照图2,本公开提供了分析获自多个核酸分子的可检测信号的方法200。在过程框202处,方法200包括收集数据集。数据集包括可检测信号强度相对位置的概况。可检测信号强度获自与多个核酸分子基本相同部分结合的多个标志物分子。在过程框204处,方法200包括由数据集提取潜在基因组信息。在过程框206处,方法200包括生成包括潜在基因组信息的报告或输出信号。

在任何方法中,可检测信号可以包含相比结合另一序列优先结合某一序列而得出的潜在基因组信息。例如,相对于富含AT的片段优先结合富含GC的片段的标志物分子或荧光分子可以提供有关潜在基因组信息中GC相对AT的量的信息。

多个标志物分子可以包含多个荧光分子。在涉及荧光分子的情况下,荧光分子可以是能够结合核酸分子的荧光分子,包括但不限于,{1,1'-(4,4,8,8-四甲基-4,8-二氮杂十一碳亚甲基)二[4-[(3-甲基苯并-1,3-恶唑-2-基)亚甲基]-l,4-二氢喹啉鎓]四碘化物}(YOYO-1)溴化乙锭,恶唑黄(YOYO氟单体),SYTOX橙,SYTOX绿,SYBR金,YO-Pro-1,POPO-3,DAPI等。

多个标志物分子可以包括多个第一荧光分子和多个第二荧光分子。多个标志物分子还可以包括多个第三荧光分子,多个第四荧光分子,多个第五荧光分子,依此类推,直到多个第n荧光分子。这些不同的荧光分子各自可以彼此相互作用以提供可检测信号。这些不同的荧光分子各自可以具有不同的发射特性,如发射波长,发射波形等。这些不同的荧光分子各自可以具有不同的吸收特性,如吸收波长,吸收系数等。这些不同的荧光分子各自可以具有不同的结合特性。

本文所述方法还可以包括将任何核酸分子或任何核酸分子的至少部分与多个淬灭剂分子结合。淬灭剂分子可以调节来自多个标志物分子的发射以提供可检测信号。

多个标志物分子可以包括多个供体分子和多个受体分子。多个标志物分子可以包括多个蛋白质标记物,包括嵌入荧光蛋白,如Lee,S.,Oh,Y.,Lee,J.,Choe,S.,Lim,S.,Lee,H.S.,…Schwartz,D.C.(2016).用于直接显示大DNA分子的DNA结合荧光蛋白(DNA bindingfluorescent proteins for the direct visualization of large DNA molecules).Nucleic Acids Research,44(1),e6.doi:10.1093/nar/gkv834中所述,其全部内容通过引用纳入本文。

参见图3,本公开提供了方法300。方法300是方法100和200的组合的一种具体实现。方法300的描述不应解释为限制方法100和200的解释。方法300的各方面可以利用方法100和200的各方面,反之亦然。在过程框302处,方法300包括将多个核酸分子中每个核酸分子的至少部分与多个荧光分子结合。应当理解,示例性荧光分子仅仅是上述标志物分子的一个实例,并且可以考虑其他标志物分子。多个荧光分子提供可检测荧光信号,其包括关于与给定荧光分子结合的核酸分子的给定部分的潜在基因组信息。多个核酸分子各自的至少部分具有重叠区域,所述重叠区域具有基本相同的特征。

在过程框304处,方法300包括获取多个核酸分子各自的至少部分的可检测信号与位置。过程框304的获取产生这样的数据集,所述数据集包括可检测荧光信号相对位置的概况。

在过程框306处,方法300包括鉴定可检测信号相对位置的概况的异常值,从而产生异常值概况。成像领域的普通技术人员将理解的是,存在用于消除质量差的图像的多种方法。在一个非限制性实例中,开发了一种复杂图像质量评估方法,以鉴定高质量图像用于后续分析。该图像质量评估方法包括下述步骤:1.对于图像框中的各个分子,我们分析了围绕该分子的最多三个像素的整合荧光强度(integrated fluorescence intensity,IFI)测量值。2.贝叶斯信息标准(BIC)和高斯混合模型(GMM)对IFI进行聚类。在高质量的分子图像中有IFI的一个聚类。3.在多个聚类的情况中,将聚类最远的质心(centroid)的中心之间的距离用作建立质量评分的因素之一。其他因素是聚类质量度量,如Dunn指数和连通性指数(参见,Brock,Guy,Vasyl Pihur,Susmita Datta,Somnath Datta,等2011.clvalid,一种用于聚类验证的r程序包(clvalid,an r package for cluster validation).Journal ofStatistical Software(Brock等,2008年3月),其全部内容通过引用纳入本文)。4.将300张图像的训练集手动标记为“高”和“低”质量。使用步骤(3)中所述因素拟合逻辑回归模型。5.使用交叉验证,获得了最佳概率截止值(cutoff),从而通过最小化II型误差将图像检测为“高质量”。

可以进行其他数据处理。例如,可以将概况标准化。又例如,可以选择概况以确保DNA分子的数据落入给定范围的拉伸值(如中值拉伸的+/-10%)。又例如,可以使用本领域普通技术人员已知的方法对扫描进行平滑处理,如B-spline De Boor(De Boor,Carl.1978.spline实用指南(A practical guide to splines),第27卷.施普林格出版社(Springer-Verlag)纽约,其全部内容通过引用纳入)平滑处理方法。下文在实施例1中更详细地描述了一些预处理步骤。

在过程框308处,方法300包括由在过程框306中未被鉴定为异常值概况的可检测信号相对位置的概况计算中值概况。可以使用为本领域普通技术人员所理解的函数数据深度(functional data depth)量度来计算中值概况,包括但不限于,Fraiman和Muniz深度,h模态深度,随机投影深度(random projection depth),随机Tukey深度等。

在过程框310处,方法300包括计算加权平均数概况,从而产生包括加权平均数概况的模板。通过估算在过程框306中未被鉴定为异常值概况的可检测信号相对位置的概况和过程框308的中值概况之间的相似性指数,计算加权平均数概况,然后通过根据相似性指数的加权,取在过程框306中未被鉴定为异常值概况的可检测信号相对位置的概况的加权平均。

在过程框312处,方法300包括将可检测信号相对位置的概况排齐(register)于模板,从而产生可检测信号相对位置的排齐概况。在一些情况中,过程框312的排齐可以包括曲线排齐(curve registration),如下所述。设n函数(或曲线)f1,……,fn限定在封闭实区间[0,S]中。将hi(x)设为曲线i的横坐标x转换。在没有振幅噪声的情况下,将观测到的函数fi(x)设为翘曲真实曲线fc(x)的结果,fi(x)=fc[hi(x)]。翘曲函数(warping function)通常称之为“时间翘曲(time warping)”,因为时间是相位噪声问题中常见的横坐标。在本公开的上下文中,横坐标是DNA分子主链。翘曲函数应当满足下述条件:

·hi(0)=0和hi(S)=S,i=1,...,n,

·无论时间尺度如何,事件的计时保持相同的量级,这意味着时间翘曲函数hi应当严格递增,即对于x1>x2,有hi(x1)>hi(x2),其中x1,x2∈[0,S].。

·

Figure BDA0002617085320000071

曲线排齐的目的是,排齐的函数f1(h1 -1(x)),...,fn(hn -1(x))将没有相位噪声。

在过程框314处,方法300包括鉴定可检测信号相对位置的排齐概况的异常值,从而产生异常值排齐概况。鉴定排齐概况的异常值可以包括函数数据深度度量。合适的函数数据深度量度包括但不限于,Fraiman和Muniz深度,h模态深度,随机投影深度,随机Tukey深度等。

深度和离群是相反的概念,因此,如果数据集中存在异常值,那么对应的曲线的深度将非常低。用于在曲线f1,...,fn的数据集中进行函数异常值检测的一种示例性过程如下:

1.获得函数深度Dn(f1),...,Dn(fn),(这可以是上文定义的任何深度:FMD,MD,RPD或RTD)

2.对于给定的截止值C,使fi1,...,fik为k曲线,以使Dn(fik)≤C。然后假设fi1,...,fik是异常值并将其从样品中删除。

3.然后,回到步骤1并使用删除步骤2中发现的异常值的新数据集。重复该步骤直到不再发现更多的异常值。

为了确保检测异常值的I型误差在某个较小阈值α以下,选择C以使

然而,因为函数深度统计的分布通常是未知的,所以使用Febrero等(Febrero,Manuel,Pedro Galeano,和Wenceslao González-Manteiga.2008.通过深度度量检测函数数据中的异常值并用于鉴定异常nox水平(Outlier detection in functional data bydepth measures,with application to identify abnormal nox levels).Environmetrics 19(4):331–345,其全部内容通过引用纳入本文)中介绍的共益程序(bootstrap procedure)来对其进行估算,并在R-程序包fda.usc(Febrero-Bande,M,和MOviedo de la Fuente.2012a.fda.usc:函数数据分子和统计计算实用程序(fda.usc:Functional data analysis and utilities for statistical computing)(fda.usc).R程序包版本0.9 7,和Febrero-Bande,Manuel,和Manuel Oviedo de la Fuente.2012b.函数数据分析中的统计计算:r程序包fda.usc(Statistical computing in functionaldata analysis:the r package fda.usc).Journal of Statistical Software 51(4):1–28,其全部内容通过引用纳入本文)中实现。基于修整(trimming)的平滑共益程序运行如下:

1.对于任意函数深度,获得函数深度Dn(f1),...,Dn(fn)。

2.由曲线的数据集获得大小为n的B标准共益样品(bootstrap sample),所述曲线在删除α%最不深的曲线后获得。对于i=1,...,n和1...,B,引导样品表示为

Figure BDA0002617085320000091

3.对于各引导集合b=1,...,B,获得Cb作为经验性1%百分比的深度分布

4.取C作为Cb值的中值,b=1,...,B。

可以选择使用的水平α作为样本中可疑异常值的比例。在Fscan数据集中,α=0.15,因为基于质量评分测量,预计约有15%的图像具有不可用的强度概况。

可以通过模拟嘈杂曲线和异常值并选择最好地鉴定异常值的度量来选择函数数据深度度量。在某些情况中,函数数据深度量度可以是FM深度和RP深度的组合,如下所述。

在过程框316处,方法300包括由在过程框314中未被鉴定为异常值排齐概况的可检测信号相对位置的排齐概况计算中值排齐概况。过程框316的计算可以通过与上述关于过程框308的计算相同或相似的方法实现。

在过程框318处,方法300包括计算更新的加权平均数概况,从而产生包括加权平均数概况的排齐模板。通过估算在过程框314中未被鉴定为异常值排齐概况的可检测信号相对位置的排齐概况和中值排齐概况之间的排齐相似性指数,计算更新的加权平均数概况,然后通过根据排齐相似性指数的加权,取在过程框314中未被鉴定为异常值排齐概况的可检测信号相对位置的排齐概况的加权平均。过程框318的计算可以通过与上述关于过程框310的计算相同或相似的方法实现。

在过程框320处,方法300包括将可检测信号相对位置的排齐概况排齐于排齐模板,从而产生可检测信号相对位置的第二排齐概况。过程框320的排齐可以通过与上述关于过程框312的排齐相同或相似的方法实现。过程框320的排齐具有比过程框312的排齐低的罚分参数。

在过程框322处,方法300包括计算可检测信号相对位置的排齐概况和排齐模板之间的平均相似性。过程框322的计算可以使用与下述关于PRIMR算法相同或相似的方法实现。

在过程框324处,方法300包括使用第二罚分参数来重复过程框316、318、320和322,所述第二罚分参数小于较低的罚分参数。继续过程框300的重复,直到重复的连续迭代的平均相似性之间的差异小于阈值。过程框300的重复的产物是最终排齐概况。

在过程框326处,方法300包括由过程框324的最终迭代鉴定可检测信号相对位置的最终排齐概况的异常值,从而产生异常值最终排齐概况。过程框326的鉴定可以使用与上述关于过程框314的计算相同或相似的方法实现。

在过程框328处,方法300包括由在过程框326中未被鉴定为异常值最终排齐概况的可检测信号相对位置的最终排齐概况计算中值最终排齐概况。

在过程框330处,方法300包括计算最终加权平均数概况,从而产生可检测信号相对时间的共识概况。通过估算在过程框326中未被鉴定为最终异常值排齐概况的可检测信号相对位置的最终排齐概况和中值最终排齐概况之间的最终排齐相似性指数,计算最终排齐加权平均数概况,然后通过根据最终排齐相似性指数的加权,取在过程框326中未被鉴定为最终异常值排齐概况的可检测信号相对位置的最终排齐概况的最终加权平均。个别概况在本文中有时称为Fscan。共识概况在本文中有时称为cFscan。

过程框306至330的步骤的一个示例是PRIMR算法。本文所述PRIMR算法反复使用最小第二特征值方法(minimum second eigenvalue method,MSEV)以排齐嘈杂Fscan。PRIMR在三个方面与MSEV不同。首先,PRIMR使用异常值检测,其使用Fraiman和Muniz(FM)深度和随机投影(RP)深度,如下所述。其次,PRIMR这样估算Fscan的共识(或平均值):首先估算L1中值,然后估算Fscan的加权平均。L1中值通过Vardi和Zhang在Vardi和Zhang(2000),"多元L1中值与数据深度相关(The multifvariate L1-median ans associated data depth),"Proceedings of the national Academy of Sciences 97(4):1423-1426(其全部内容通过引用纳入本文)中提出的算法估算,实现于R-程序包robustX(Stahel,Werner,MartinMaechler,Maintainer Martin Maechler,和MASS Suggests.2009,其全部内容通过引用纳入本文),其中

Figure BDA0002617085320000101

其中

Figure BDA0002617085320000111

Figure BDA0002617085320000112

最终,在PRIMR中,我们使用罚分参数λ的三个值。我们从0.001开始,在第一次迭代后将其降至0.0005,然后在所有后续迭代中将其降低到0.0001。λ在排齐Fscan的附近特征中起着重要作用。对于较高的λ值,将排齐远端特征,对于较低的λ值,将排齐靠近的特征。降低PRIMR中的λ保证我们逐渐增加共识估计(consensus estimation)的置信度。

收敛后(迭代T),通过步骤1和2运行出排齐曲线以最后一次更新模板至其作为该组Fscan的共识Fscan(或cFscan)。平均相似度

Figure BDA0002617085320000115

是排齐的质量的度量。较高的值表示排齐的Fscan中噪声较小。

Figure BDA0002617085320000117

Fraiman和Muniz率先引入了函数数据深度。将Fn,x(fi(x))设为曲线f1(x),...,fn(x)在任意x∈[a,b]处的值的经验累积分布函数,其为

Figure BDA0002617085320000122

并且,点fi(x)的单变量深度为

然后,Fraiman和Muniz函数深度(FMD),或相对于集f1(x),...,fn(x)的曲线fi

较高的FMD值表示越深的曲线;较低的FMD值表示离最深曲线更远。

随机投影深度基于测量投影下函数数据及其导数的深度。基本思想是沿随机方向投影各条曲线及其一阶导数,并定义

Figure BDA0002617085320000132

中的点。现在,

Figure BDA0002617085320000133

中数据深度提供了投影点的顺序。使用大量随机投影,投影点深度的平均值定义了函数数据的深度。给定曲线f1,...,fn的集合,以及属于独立方向过程的方向相似地,T′i,v=<v,f′i>是方向v上一阶导数fi'(x)的投影。因此,(Ti,v,T′i,v)对是中的一个点。现在,如果v1,...,vp是p个独立随机方向,那么曲线fi的随机投影深度定义为:

例如,Dn(·)可以是中的模态深度(modal depth)。

该方法300还可以包含生成预测共识概况。可以通过下文所述SUBAGGING算法来生成预测共识概况。可以通过改变潜在预测基因组信息来生成预测共识概况。可以改变预测基因组信息以使预测共识概况和共识概况之间的差异最小化。生成预测共识概况可以使用随机森林(RF),梯度提升(boosting)(GF)或同时两者。

在下文实施例1中讨论的MM Fscan数据集中,存在满足PRIMR选择标准的30,560个间隔(各自长度为50像素)。所有间隔的cFscan使用PRIMR估算。对于各间隔,其cFscan是跨50个数据点的平滑曲线,各数据点对应基因组序列206bp的预期荧光强度测量。将这206bp子序列中的基因组元件的计数用作特征,而将cFscan用作预测模型的响应。特征是206bp子序列中核苷酸G、C、A、T的计数,所有可能的2聚体GG、GC、GA、...、TT,所有可能的3聚体、4聚体和5聚体的计数。存在16(42)个2聚体,64(43)个3聚体,256(44)个4聚体和1,024(45)个5聚体。包括G,C,A和T的计数,这总计达到1,364个特征。此外,沿着DNA分子的主链使用高斯核,以说明发射体(***碱基的荧光染料)的点扩散函数。因此,纳入像素各侧的两个其他206bp子序列的贡献,其占总数约1kb的基因组子序列,有助于一个像素的整合荧光强度测量。高斯核作为附加特征纳入。特征的总数为6,820(1,364x 5)。响应向量的长度为1,528,000像素(30,560个间隔×50)。对应于cFscan上的像素点j,将窗口j中的k聚体的计数以及窗口j+和j++中的k聚体的计数用作特征。各窗口为206bp。例如,特征at是相应窗口中2聚体“at”的计数,特征at+是在窗口j+中“at”的计数,特征at++是窗口j++中“at”的计数。

RF是一种相对较新的基于树的机器学***方误差损失,并建立序列组成和cFscan之间的预测模型。

使用R程序包“randomForest”拟合RF模型(Liaw,Andy和Matthew Wiener.2002.通过随机森林的分类和回归(Classification and regression by randomforest).R news2(3):18–22),其全部内容通过引用纳入本文。GB模型使用R程序包“gbm”拟合(Ridgeway,Greg,等2006.gbm:一般推进回归模型(Generalized boosted regression models).Rpackage version 1(3):55),其全部内容通过引用纳入本文。

在一非限制性示例中,将下述等式中的模型根据数据(X,Y)拟合:

Figure BDA0002617085320000151

其中,d=6,820 (6)

,其中X是d维预测变量(基因组序列组成计数),Y是长度的单变量响应(N=1,528,000)。为了避免过拟合,并有效拟合模型(计算效率),使用运行HTCondor 2的CHTC并行框架,实现Subagging算法(3)以拟合预测函数h。Subagging是子样品聚合(subsampleaggregating)的别名,其中使用数据的子样品,而非聚合的共益(在Bagging中)。Büchlmann和Yu(2002)支持subagging,因为它在计算上是经济的,同时仍然与bagging一样精确。下文叙述了针对预测pFscan开发的subagging算法。

拟合预测模型后,可以使用本领域普通技术人员已知的方法来分析特征的相对重要性。例如,对于RF模型,对特征进行分割而导致的节点杂质(node impurity)的总体减少(对所有树进行平均)给出了特征重要性的概念。节点杂质可以通过残差平方和来测量。特征的节点杂质减少得越多,对于预测而言就越重要。又例如,为了由GB模型估算特征重要性,使用了来自Breiman,等(Breiman,Leo,Jerome Friedman,Charles J Stone和RichardA Olshen.1984.分类和回归树(Classification and regression trees).CRC出版社,通过引用其全部内容纳入本文)的决策树中相对影响的定义近似测量。

Figure BDA0002617085320000161

在任何方法中,可以线性拉伸任何核酸分子。在任何方法中,可以将一个或多个核酸分子中任一个的至少部分可以限制在纳米缝隙(nanoslit)内。

过程框102或过程框302的结合可以通过各种类型的键进行,包括但不限于共价键、离子键、极性键、氢键或其组合。过程框102或过程框302的结合可以涉及在核酸分子碱基之间***标志物分子。例如,YOYO-1将其自身***DNA碱基之间。如本领域普通技术人员所理解的,过程框102或过程框302的结合可以利用YOYO-1或其他类似的染料。

YOYO-1(恶唑黄)在与核酸结合时表现出很大程度的荧光增强。先前的研究已经观察到,从富含AT的区域转换为富含GC的区域时,量子产率提高了2倍。其他研究观察到荧光强度取决于碱基序列。这表明与富含GC的DNA序列复合的YOYO的量子产率和荧光寿命大约是与富含AT的序列复合的YOYO的两倍。结果,染料分子***DNA碱基之间并发出荧光的机率是不均匀的。

本文所述的可检测信号可以是光信号。光学信号可以是光学荧光信号。可检测的信号可以由外部刺激如电磁辐射启动。可检测信号可以是:(1)语音模式或其他声波;(2)随时间变化的任何动态过程;(3)2D图像;或与所列内容具有相关特征的其他信号。可检测信号可以包括电信号,如局部电极化度的变化、磁场(即,与染料或其他结合部分偶联的铁磁纳米颗粒)等。

接收过程框104的可检测信号和/或获取过程框304的可检测荧光信号相对位置可以包括获取已被标志物分子和/或荧光分子结合的核酸分子的图像,如荧光图像。接收过程框104的可检测信号和/或获取过程框304的可检测荧光信号相对位置述于Nandi,Subrangshu的第1-10页(2007年提交,禁止公开),“荧光扫描的统计学习方法(StatisticalLearning Methods for Fluoroscanning)”,博士学位论文,威斯康星大学麦迪逊分校(University of Wisconsin-Madison),通过引用将其全部内容纳入本文。

提取过程框204的潜在基因组信息的一个示例述于Nandi,Subrangshu的第11-114页(2007年提交,禁止公开),“荧光扫描的统计学习方法(Statistical Learning Methodsfor Fluoroscanning)”,博士学位论文,威斯康星大学麦迪逊分校(University ofWisconsin-Madison),通过引用将其全部内容纳入本文。在一些情况中,过程框204的提取可以包括与过程框306至330中所述步骤相同或相似的步骤。

在一些情况中,过程框204的提取可以包括从数据集中消除异常值。过程框204以及本文所述其他地方中消除异常值可以使用Fraiman和Muniz(FM)深度和随机投影(RP)深度。

在一些情况中,过程框204的提取可以包括使可检测信号强度相对位置的概况标准化。过程框204的提取可以包括排除与具有超出可接受拉伸值预定范围的拉伸值的核酸分子相对应的可检测信号强度相对位置的概况。过程框204的提取可以包括使可检测信号强度相对位置的概况平滑化。平滑化后的概况可以在平滑化后再次标准化。

过程框204的提取可以包括生成可检测信号强度相对位置的共识概况。共识概况在本文中有时称为cFscan。生成共识概况可以包括校正可检测信号强度相对位置的概况之间的幅度变化。生成共识概况可以包括校正可检测信号强度相对位置的概况之间的相位变化。

生成共识概况可以包括迭代的排齐过程。生成共识可以包括具有以下步骤的迭代过程:(i)检测异常值;(ii)在第一迭代中计算模板并在后续迭代中更新模板;(iii)将可检测信号强度相对位置的概况与模板排齐;和(iv)计算可检测信号强度相对位置的概况和模板之间的平均相似度,其中重复进行迭代过程,直到平均相似度最大化,使来自迭代过程的最终迭代的步骤(iii)的排齐概况经历步骤(i)和(ii),并且步骤(ii)更新的模板是共识概况。

本文所述的方法可以包括使共识概况与潜在基因组信息的一个或多个特征相关联。如本文所使用,潜在基因组信息的特征可以包括潜在基因组信息的任何最小可检测单元。在某些情况下,该最小可检测单元可以是2聚体、3聚体、4聚体或5聚体。

在一些情况中,过程框204的提取可以包括:使用预测的潜在基因组信息生成预测数据集;和通过改变预测的潜在基因组信息来使数据集和预测的数据集之间的差异最小化,其中,潜在基因组信息是使差异最小化的预测的潜在基因组信息。

系统

本公开还提供了系统。该系统可以适合与本文描述的方法联用。当相对于给定系统描述本公开的特征时,除非上下文另外明示,否则也明确考虑该特征能够用于本文所述其他系统和方法。

参照图4,系统400可以包括具有处理器404和/或CPU和存储器406的计算机402。该系统400还可包括光谱系统408。光谱系统408可以包括荧光显微镜410。计算机402可以设置成控制光谱系统408和/或荧光显微镜410。

处理器404和/或CPU可以设置成读取并执行存储在存储器406中的计算机可执行指令。计算机可执行指令可以包括本文所述方法的全部或部分。

存储器406可以包括一种或多种计算机可读和/或可写介质,并且可以包括例如,磁盘(例如,硬盘),光盘(例如DVD,蓝光,CD),磁光盘,半导体存储器(例如,非易失性存储卡,闪存,固态驱动器,SRAM,DRAM),EPROM,EEPROM等。存储器可以存储用于本文所述方法全部或部分的计算机可执行指令。

实施例1.

花中间原体(M.florum)是柔膜细菌(Mollicutes)的成员,它们是缺乏细胞壁并且具有特征性低GC含量的一大组细菌。这些多样的生物体是广泛宿主中的寄生虫,包括人,动物,昆虫,植物和组织培养物中生长的细胞。除了它们作为潜在病原体的作用之外,花中间原体因其极小的基因组大小而受到关注。花中间原体基因组为793kb。

DNA样品制备自:纯化的CD138浆细胞(MM-S和MM-R样品)和患国际分期系统(ISS)IIIb期疾病的58岁男性多发性骨髓瘤(MM)患者的配对培养的基质细胞(正常)。MM是B淋巴细胞的恶性肿瘤,其最终分化为长寿命的产生抗体的浆细胞。尽管它是癌症基因组,但其大部分仍与参照人基因组相同。通过整合光学映射的结果和基于DNA测序的基因组分析的结果,对该基因组进行了全面分析,以表征其结构和变异(残基Gupta等.(2015))。

通过包埋于20μl琼脂糖凝胶***物中,由洗涤的细胞中提取高分子量DNA(500ng);然后在冰上于包含10X NEB3缓冲液的混合物(4.0μl)(各自,100μm最终浓度:dATP,dCTP,dGTP和dTTP)中透析1小时。然后通过添加1μl的10U/μl大肠杆菌连接酶(10U/μlNEB大肠杆菌连接酶)2小时(16℃)修复内源性切口。然后添加1μl的Pol I(5U/μl Roche大肠杆菌DNA Pol I无核酸酶)4小时(16℃);总体积=40μl。通过慢慢倒出溶液并添加930μl1xTE和70μl 0.5M EDTA(pH 8)并在4℃下过夜孵育来终止反应。慢慢倒出溶液,然后***透析步骤(2X):1小时,针对1XTE(1.0ml)和0.5M EDTA(70μl;pH=8.0)。然后转移***物用于进一步的预处理:10.7μl H2O,4μl NEB3缓冲液,0.8μl(1mM)Alexafluor 647-dUTP(20μm最终浓度;分子探针公司(Molecular Probes))0.8μl(各1mM:dATP、dCTP、dGTP;各最终浓度20μM)和2.7μl dTTP(1.5μM;0.1μm最终浓度)-在冰上放置1小时。然后通过加入1μl Pol I(5U/μl)标记经处理的***DNA;在16℃孵育1小时;用930μl 1XTE和70μl EDTA(0.5M;pH=8.0)停止。纳代码(Nanocode)标记的DNA被电解并稀释用于成像。

同源切口位点处的荧光染料标记的核苷酸将荧光标签置于基因组DNA上,然后使用内部图像处理软件INCA对其进行成像和分析。这样跟踪DNA骨架:通过在预定义大小的一个像素宽的垂直窗口中检测具有最大强度的像素,并通过标准最短路径算法将这些像素链接起来。使用局部2×2Hessian矩阵特征值的比值检测点状体“斑点(blobs)”。利用骨架和点状体图像之间的排齐信息将点状体定位在主链上。提取Nmap作为邻近点状体之间距离(沿着主链)的有序序列。除了获得Nmap,INCA还提供了沿着DNA骨架的图像像素的整合荧光强度,或Fscan。

为了获得花中间原体数据集,将单分子Nmap与衍生自花中间原体参照序列3的计算机内限制性图谱进行比对,并获得MM数据集,将单分子Nmap与衍生自人参照序列(NCBIBuild 37)的计算机内限制性图谱比对,使用称为光学映射分析软件(SOMA)的内部比对软件。SOMA将相似的Nmap分组到它们比对到的基因组区域。单个Nmap通常具有实验误差,包括错误的额外剪切,错误的缺失剪切和尺寸问题,使用不同的概率误差模型对其进行建模。

使用上述图像质量评估方法处理获取的图像以消除异常值。交叉验证的平均II型误差为3.52%。

由(1)花中间原体和(2)人基因组的样品制备两个大数据集。各数据集清楚地鉴定了与相同参照间隔比对到的Fscan组。虽然花中间原体Fscan数据集提供了深度(大量的Fscans比对到相同的参照间隔),人Fscan数据集提供了宽度(大量的间隔),但不像花中间原体那样深。

花中间原体基因组代表39个间隔,其大小的范围为2.111kb至81.621KB。使用先前所述方案和图像分析创建花中间原体Nmap数据集(参见Jo,Kyubong,Dalia M Dhingra,Theo Odijk,Juan J de Pablo,Michael D Graham,Rod Runnheim,Dan Forrest和David CSchwartz.2007.使用纳米狭缝的单分子形码化系统用于dna分析(A single-moleculebarcoding system using nanoslits for dna analysis).Proceedings of theNational Academy of Sciences 104(8):2673–2678和Kounovsky-Shafer,Kristy L,JuanP Hernández-Ortiz,Kyubong Jo,Theo Odijk,Juan J de Pablo和David CSchwartz.2013.呈递大型dna分子用于纳米限制哑铃分析(Presentation of large dnamolecules for analysis as nanoconfined dumbbells).Macromolecules 46(20):8356–8368,通过引用将其全部内容纳入本文)。以图像像素计算参照间隔长度:1像素=209bp的YOYO-1染色的,B-DNA为0.34nm/bp。间隔大小(kb)由基因组序列的计算机文摘中的Nt.BspQI计算得出。

将12个DNA分子间隔的荧光强度概况(或Fscan)与花中间原体基因组的间隔15对齐。参照间隔的长度为11.119kb,并且捕获图像的各像素对应于基因组上的209个碱基对。因此,我们希望每个Fscan的长度均为53像素。但是,由于本文其他地方所述的原因,Fscan长度不能完全与参照的长度对应。表1显示了与比对上相同参照间隔的Fscan的长度的可变性。例如,在间隔19中,如果是花中间原体数据集,相比比对上该间隔对齐的所有Fscan的平均长度,最长的Fscan长13.6%且最短的Fscan短21.6%。表1还显示了花中间原体数据集的深度。例如,对于花中间原体的间隔7,存在1,200个Fscan。平均而言,每个花中间原体间隔存在626个Fscan。花中间原体数据集的绝对规模对于任何统计学分析而言都是令人鼓舞的。同时,它还对不同类型的可变性提出了独特的挑战。

表1:花中间原体基因组的Nmap覆盖

虽然花中间原体基因组只有39个Nmap间隔,但是人MM基因组有成千上万个Nmap间隔。表2.2列出了各染色体中作为MM数据集的部分的间隔的数量。这些间隔各自的最小深度为15Fscan,即,与这些间隔比对上的基因组DNA分子的数量。并且,各参照间隔至少50个像素长(≈10.3kb)。染色体1的间隔数量最多(1,880),而染色体13的间隔数量最少(148)。总之,MM数据集中总共有21,972个间隔。间隔的平均长度为22.15kb(标准差7.911kb),最长的为110.60kb(3号染色体中碱基对183,309,223和183,419,842之间),最短的为14.32kb(5号染色体中碱基对43,855,328和43,869,645之间)。经过分析的MM数据集覆盖了人基因组的486.66Mb(或15.04%)。

表2:MM数据集中间隔的数量

扫描经过下述预处理步骤:1.标准化;2.限制拉伸(limit stretch);和3.平滑化。

标准化:扫描的强度值在6,000到20,000之间。其中一些不是最佳图像质量。通过质量评分阈值将其删除。然后,我们在截短Fscan间隔各末端的10个像素以排除标记的切口位点周围的分子区域后,用间隔的中值除以各Fscan强度。通过设计,这些区域支持标记的切口位点的FRET(荧光共振能量转移)激发,并因此存在衰减的像素灰度级。

限制拉伸:比对上基因组上相同位置的分子的图像的长度(或拉伸)不同。通过将Nmap对齐的长度限制在中值拉伸的+/-10%内,我们确保了最终Fscan数据集的均匀拉伸。

平滑化:我们使用了B-spline De Boor(1978)分别对各强度概况进行平滑化。对于具有p个观察点xi,...,xp的Fscan f(x),我们使用p/3断点(breakpoint)和4阶基函数。我们使用广义交叉验证(GCV)度量来估算各Fscan f的粗糙罚分(roughness penalty,λ*)。对于e-5≤e5,λ*=arg minλGCV(λ*)。以此方式,我们保留了最大的信噪比信息。平滑化具有双重目的。首先,它减少了像素处的测量噪声,其次,它允许以规则的间隔***Fscan,确保了它们在像素方面都与参照间隔具有相同的长度。平滑化后,将所有曲线标准化,因此它们对于后续分析的平均值为零。

预处理后,对花中间原体Fscan进行分析,以确认Fscan反映了潜在基因组序列组成。为此,我们首先从花中间原体中鉴定出一组等长(50像素)的子Nmap间隔。花中间原体基因组中有19个Nmap区间的长度至少为50个像素。两种独立的统计学方法:一种采用非参数,一种采用参数。在这19个子间隔中有42到516个Fscan,平均值为258。当比较具有不同Fscan计数的两个子间隔比较时,为了减少偏差以支持具有更多Fscan的子间隔,添加随机匹配步骤。在该步骤中,由具有较大计数的子间隔抽取随机Fscan集合,以匹配具有较小计数的子间隔的计数。然后,在这两组相同的Fscan计数之间进行成对测试。对于不匹配的间隔对,随机匹配重复50次,然后将p值平均。

成对进行非参数排列t型检验,以检验零假设,即来自两个不同基因组子间隔的Fscan来自同一分布。

在相同的子间隔上成对进行函数Anderson-Darling检验(FAD-检验)。

这两个检测的p值都接近于零。由于FAD-检验具有更大的功效,因此p值较小,并且检测到Fscan之间明显的差异。由FT-检验和FAD-检验的结果我们可以得出这样的结论:属于相同子间隔的经预处理的Fscan彼此之间具有更高的相似度,而属于其他子间隔的Fscan具有较小的相似度。这证明Fscan代表基因组区域的特征概况。

在获得的Fscan上进行包括PRIMR算法的上述方法以产生cFscan。PRIMR成功地降低了Fscan数据集中的噪声,并更准确地估计了基因组间隔的cFscan。cFscan与GC概况显示出惊人的相似性。使用两种不同的统计方法,可以确认的是cFscan与GC概况密切相关,在某种意义上,具有不同GC概况的间隔具有不同的cFscan,具有相似GC概况的间隔具有相似的cFscan。这使我们能够验证这样的荧光扫描假说,即荧光强度信号与基因组序列组成密切相关。

对花中间原体数据集不同拉伸的Fscan的分析揭示了cFscan具有相当强的拉伸能力。

虽然上文的详细说明已经显示、描述并指出了应用于各种实施方式的新型特征,但是应当理解的是,在不脱离本公开精神的前提下,可以对所示装置或算法的形式和细节进行各种省略,替换和改变。应当意识到是,因为一些特征可以与其他特征分开使用或实践,所以本文所述的公开内容的某些实施方式可以不提供本文所示所有特征和优点的形式来体现。本文所公开的某些公开内容的范围由所附权利要求而非前述说明来限定。落入权利要求等同含义和范围内的所有改变均应包含在该范围之内。

29页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:用于生物或化学因子样本阻抗测量的传感器及使用传感器检测样本中生物或化学因子的方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!