基于人工智能的质量评分

文档序号:639459 发布日期:2021-05-11 浏览:24次 >En<

阅读说明:本技术 基于人工智能的质量评分 (Artificial intelligence based quality scoring ) 是由 K·贾加纳坦 J·R·高贝尔 A·起亚 于 2020-03-21 设计创作,主要内容包括:所公开的技术通过以下方式向由基于神经网络的碱基检出器检出的碱基分配质量得分:(i)响应于在训练期间处理训练数据,对由所述基于神经网络的碱基检出器产生的预测的碱基检出的分类得分进行量化,(ii)选择量化的分类得分集,(iii)对于所述集中的每个经量化的分类得分,通过将其预测的碱基检出与对应的基准真值碱基检出进行比较来确定碱基检出误差率,(iv)确定所述经量化的分类得分与其碱基检出误差率之间的拟合,以及(v)基于所述拟合将所述质量得分与所述经量化的分类得分相关联。(The disclosed technology assigns a quality score to a base detected by a neural network-based base detector by: (i) in response to processing training data during training, quantifying a classification score of predicted base detections produced by the neural network-based base detector, (ii) selecting a set of quantified classification scores, (iii) for each quantified classification score in the set, determining a base detection error rate by comparing its predicted base detection to a corresponding ground-truth base detection, (iv) determining a fit between the quantified classification score and its base detection error rate, and (v) associating the quality score with the quantified classification score based on the fit.)

具体实施方式

呈现以下讨论以使得本领域的任何技术人员能够实现和使用所公开的技术,并且在特定应用及其要求的上下文中提供以下讨论。对所公开的具体实施的各种修改对于本领域的技术人员而言将是显而易见的,并且在不脱离所公开的技术的实质和范围的情况下,本文所定义的一般原理可应用于其他具体实施和应用。因此,所公开的技术并非旨在限于所示的具体实施,而是要符合与本文所公开的原理和特征一致的最广范围。

简介

当在数字图像序列中对碱基进行分类时,神经网络一起处理当前循环中的多个图像通道以及过去和将来循环中的图像通道。在簇中,链中的一些链可在合成的主要过程之前或之后延伸,其中失相标记被称为预定相或定相。考虑到凭经验观察到的低速率的预定相和后定相,由预定相和后定相产生的信号中的几乎所有噪声都可由神经网络处理,该神经网络处理当前、过去和将来的循环中(仅三个循环中)的数字图像。

在当前循环中的数字图像通道中,仔细配准以对准循环内的图像对准确的碱基分类有重大贡献。波长和不重合照明源的组合以及其他误差源在测量的簇中心位置中产生小的、可校正的差异。具有平移、旋转和缩放功能的一般仿射变换可用于使整个图像图区块上的簇中心精确对准。仿射变换可用于重构图像数据并解决簇中心的偏移。

重构图像数据意指通常通过应用仿射变换对图像数据进行插值。重构可将感兴趣的簇中心放置在像素补片的中心像素的中间。或者,该重构可将图像与模板对准,以克服抖动和图像收集期间的其他差异。重构涉及调整像素补片中的所有像素的强度值。双线性和双立方插值法和加权面积调整是另选策略。

在一些具体实施中,簇中心坐标可被馈送至神经网络作为附加图像通道。

距离信号也可对碱基分类有贡献。若干类型的距离信号反映了区域与簇中心的分离。最强光信号被认为与簇中心重合。沿簇周边的光信号有时包括来自附近簇的杂散信号。已观察到,当信号分量的贡献根据其与簇中心的分离而衰减时,分类更准确。起作用的距离信号包括单个簇距离通道、多个簇距离通道和多个簇基于形状的距离通道。单个簇距离通道应用于在中心像素中具有簇中心的补片。因此,该补片中所有区域的距离为距中心像素中的簇中心的距离。不属于与中心像素相同的簇的像素可被标记为背景,而不是给定所计算的距离。多个簇距离通道预先计算每个区域到最近簇中心的距离。这具有将区域连接到错误的簇中心的可能性,但这种可能性较低。多个簇基于形状的距离通道通过相邻区域将区域(子像素或像素)关联到产生相同碱基分类的像素中心。通过计算,避免了测量的距离是到错误像素的距离的可能性。多个簇和多个簇基于形状的距离信号方法具有受制于预计算并与图像中的多个簇一起使用的优点。

神经网络可使用形状信息来分离信号与噪声,以改善信噪比。在上面的讨论中,识别了用于区域分类和提供距离通道信息的若干方法。在这些方法中的任一方法中,可将区域标记为背景而不作为簇的一部分,以限定簇边缘。可训练神经网络来利用所得的关于不规则簇形状的信息。距离信息和背景分类可组合或单独使用。随着簇密度的增加,分离来自邻接簇的信号将变得越来越重要。

增加并行处理规模的一个方向是增加成像介质上的簇密度。当读取具有相邻邻域的簇时,增大密度具有增大背景噪声的缺点。例如,使用形状数据而不是任意补片(例如,3×3像素的补片)有助于在簇密度增加时保持信号分离。

应用所公开的技术的一个方面,还可利用碱基分类得分来预测质量。所公开的技术包括将分类得分直接或通过预测模型与传统的Sanger或Phred质量Q得分相关联。得分诸如Q20、Q30或Q40通过Q=-10log10 P与碱基分类误差概率对数地相关。类得分与Q得分的相关性可使用多输出神经网络或多变量回归分析来执行。在碱基分类期间,对质量得分的实时计算的优点是可早期终止缺陷型测序运行。申请人已发现,可偶尔(罕见)地决定在整个分析序列的途中的八分之一至四分之一处终止运行。可在50个循环之后或在25个至75个循环之后作出终止的决定。在原本将运行300个至1000个循环的测序过程中,早期终止导致显著的资源节省。

专门化卷积神经网络(CNN)架构可用于在多个循环内对碱基进行分类。一种专门化涉及在初始层的处理期间数字图像通道之间的隔离。卷积滤波器堆叠可被构造成隔离循环之间的处理,从而防止来自不同循环的数字图像集之间的串扰。在循环之间隔离处理的动机是,在不同循环处获取的图像具有残差配准误差,并且因此相对于彼此未对准并具有随机平移偏移。这发生的原因是传感器的运动阶段的运动准确度有限,并且该原因也是在不同频率通道中获取的图像具有不同的光学路径和波长。

使用来自后续循环的图像集的动机是,在特定循环中对信号进行预定相和后定相的贡献是二阶贡献。因此,可有助于卷积神经网络在结构上隔离在图像收集循环之间的数字图像集的较低层卷积。

该卷积神经网络结构也可专用于处理关于成簇的信息。簇中心和/或形状的模板提供了卷积神经网络与数字图像数据组合的附加信息。簇中心分类和距离数据可跨循环重复应用。

该卷积神经网络可被构造成对图像场中的多个簇进行分类。当对多个簇进行分类时,像素或子像素的距离通道可更紧凑地包含相对于像素或子像素所属的最近簇中心或相邻簇中心的距离信息。另选地,可为每个像素或子像素或者至少为包含簇中心的每个像素或子像素提供大距离向量,这给出了从簇中心到为给定像素的上下文的所有其他像素的完整距离信息。

模板生成与碱基检出的一些组合能够使用面积加权的变化来代替距离通道。现在讨论如何直接使用模板生成器的输出来代替距离通道。

我们讨论影响模板图像直接应用于像素值修改的三个考虑因素:图像集是在像素域中处理的还是在子像素域中处理的;在任一个域中,如何计算面积权重;以及在子像素域中,应用模板图像作为掩膜来修改插值强度值。

在像素域中执行碱基分类具有不需要因上采样而增加计算(诸如,16倍)的优点。在像素域中,即使是顶层的卷积也可具有足够的簇密度以证明执行将无法获取的计算是合理的,而不是添加逻辑以取消不需要的计算。我们以在没有距离通道的情况下在像素域中直接使用模板图像数据的示例开始。

在一些具体实施中,分类聚焦于特定簇。在这些情况下,簇周边上的像素可具有不同的经修改的强度值,这取决于哪个相邻簇是分类的焦点。子像素域中的模板图像可指示重叠像素对两个不同簇的强度值有贡献。当两个或更多个相邻或邻接簇均与像素重叠时,我们将光学像素称为“重叠像素”;这两个或更多个相邻或邻接簇均对来自光学像素的强度读数有贡献。分水岭分析(因在脊线处将雨水流分成不同水域而得名)可应用于分离甚至邻接的簇。当接收到用于逐簇地进行分类的数据时,模板图像可用于修改沿簇周边的重叠像素的强度数据。该重叠像素可具有不同的经修改的强度,这取决于哪个簇是分类的焦点。

可基于重叠像素中对主簇(即,像素所属的簇或其强度发射由像素主要描绘的簇)而不是远处簇(即,其强度发射由像素描绘的非主簇)的子像素贡献来减小像素的经修改的强度。假设5个子像素是主簇的一部分,并且2个子像素是远处簇的一部分。然后,7个子像素对主簇或远处簇的强度有贡献。在聚焦于主簇期间,在一个具体实施中,重叠像素的强度减小了7/16,因为16个子像素中的7个子像素对主簇或远处簇的强度有贡献。在另一个具体实施中,基于对主簇有贡献的子像素的面积除以子像素的总数,强度减小了5/16。在第三具体实施中,基于对主簇有贡献的子像素的面积除以有贡献的子像素的总面积,强度减小了5/7。当焦点转向远处簇时,后两个计算改变,产生分子为“2”的分数。

当然,如果一起考虑距离通道以及簇形状的子像素映射图,则可应用强度的进一步减小。

一旦已使用模板图像修改了作为分类焦点的簇的像素强度,就通过基于神经网络的分类器的层对经修改的像素值进行卷积以产生经修改的图像。这些经修改的图像在后续测序循环中用于对碱基进行分类。

另选地,对于图像块中的所有像素或所有簇,可同步进行像素域中的分类。在这种情况下,仅可应用像素值的一个修改以确保中间计算的可重复使用性。上文所给出的得分中的任一个得分可用于修改像素强度,这取决于是需要更小的强度衰减还是更大的强度衰减。

一旦已使用模板图像修改了图像块的像素强度,就可通过基于神经网络的分类器的层来对像素和周围上下文进行卷积以产生经修改的图像。对图像块执行卷积允许在已共享上下文的像素之间重复使用中间计算。这些经修改的图像在后续测序循环中用于对碱基进行分类。

该描述可并行用于在子像素域中应用面积权重。并行是指可针对单个子像素计算权重。对于光学像素的不同子像素部分,权重可以但并非必须相同。重复分别具有重叠像素中的5个子像素和2个子像素的主簇和远处簇的上述场景,属于主簇的子像素的强度分配可为像素强度的7/16、5/16或5/7。同样,如果一起考虑距离通道以及簇形状的子像素映射图,则可应用强度的进一步减小。

一旦已使用模板图像修改了图像块的像素强度,就可通过基于神经网络的分类器的层来对子像素和周围上下文进行卷积以产生经修改的图像。对图像块执行卷积允许在已共享上下文的子像素之间重复使用中间计算。这些经修改的图像在后续测序循环中用于对碱基进行分类。

另一种另选方案是在子像素域中将模板图像作为二元掩膜应用于插值到子像素域中的图像数据。模板图像可被布置成需要簇之间的背景像素或允许来自不同簇的子像素邻接。模板图像可用作掩膜。如果插值像素被分类为在模板图像中作为背景,则该掩膜确定该插值像素是保持通过插值法分配的值还是接收背景值(例如,零)。

同样,一旦已使用模板图像对图像块的像素强度进行了掩膜,就可通过基于神经网络的分类器的层来对子像素和周围上下文进行卷积以产生经修改的图像。对图像块执行卷积允许在已共享上下文的子像素之间重复使用中间计算。这些经修改的图像在后续测序循环中用于对碱基进行分类。

所公开的技术的特征能够组合以对共享上下文内任意数量的簇进行分类,从而重复使用中间计算。在一个具体实施中,在光学像素分辨率下,约百分之十的像素持有待分类的簇中心。在传统系统中,考虑到观察到不规则形状的簇,将3×3光学像素分组作为簇中心的潜在信号贡献因素以用于分析。即使一个3×3滤波器远离顶部卷积层,簇密度也可能根据来自基本上多于一半光学像素的光信号在簇中心处卷起成像素。仅在超采样的分辨率下,顶部卷积层的簇中心密度才降至小于百分之一。

在一些具体实施中,共享上下文是大量的。例如,15×15光学像素上下文可对准确的碱基分类有贡献。等效的4倍上采样的上下文将为60×60子像素。这种上下文程度有助于神经网络识别在成像期间不均匀照明和背景的影响。

所公开的技术使用较低卷积层处的小滤波器来将模板输入中的簇边界与数字图像输入中检测到的边界组合。簇边界有助于神经网络将信号与背景条件分离,并且相对于背景将图像处理归一化。

所公开的技术基本上重复使用中间计算。假设20个至25个簇中心出现在15×15光学像素的上下文区域内。然后,第一层卷积在逐块卷积卷起中被重复使用20次至25次。逐层减小重复使用因子,直到倒数第二层为止,在该倒数第二层处光学分辨率下的重复使用因子首次降至小于1倍。

来自多个卷积层的逐块卷起(roll-up)训练和推断将后续卷起应用于像素块或子像素块。在块周边周围存在重叠区,其中在第一数据块的卷起期间使用的数据与第二卷起块重叠并且可重复用于第二卷起块。在块内,在由该重叠区围绕的中心区域中是可卷起并且可重复使用的像素值和中间计算。利用重叠区,可将逐渐减小上下文字段的大小(例如,通过应用3×3滤波器从15×15减小到13×13)的卷积结果写入到持有经卷积的值的相同存储块中,从而节省存储器而不损害块内基础计算的重复使用。对于较大的块,在重叠区中共享中间计算使得需要的资源更少。对于较小的块,可能可以同步计算多个块,以共享重叠区中的中间计算。

在较低卷积层对模板和/或数字图像数据中的簇边界作出反应之后,较大滤波器和膨胀将减少卷积层的数量,这可加速计算而不损害分类。

可选择用于模板数据的输入通道,以使模板结构与对数字图像字段中的多个簇中心的分类一致。上述两个另选方案不满足该一致性标准:在整个上下文中重构和距离映射。重构将仅一个簇的中心放置在光学像素的中心。对于对多个簇进行分类来讲,更好的是为被分类为持有簇中心的像素提供中心偏移。

除非每个像素在整个上下文中具有自己的距离映射图,否则难以跨整个上下文区域执行距离映射(如果提供了的话)。更简单的距离映射图为对来自数字图像输入块的多个簇进行分类提供了有用的一致性。

神经网络可从簇边界处的像素或子像素的模板中的分类中学习,因此距离通道可被提供二元分类或三元分类的模板代替并且伴随着簇中心偏移通道。当使用时,距离映射图可给出像素距像素(或子像素)所属的簇中心的距离。或者该距离映射图可给出距最近的簇中心的距离。该距离映射图可用分配给背景像素的标记值对二元分类进行编码,或者其可为用于像素分类的单独通道。与簇中心偏移组合,该距离映射图可对三元分类进行编码。在一些具体实施中,特别是在用一个位或两个位(bit)对像素分类进行编码的具体实施中,可能期望至少在开发期间将单独的通道用于像素分类和距离。

所公开的技术可包括减少计算以节省上层中的一些计算资源。簇中心偏移通道或三元分类映射图可用于识别对像素中心的最终分类没有贡献的像素卷积的中心。在许多硬件/软件具体实施中,在推断期间执行查找以及跳跃卷积卷起可比执行甚至九次乘法和八次加法以应用3×3滤波器更有效。在输送计算以并行执行的定制硬件中,可在管道内对每个像素进行分类。然后,可在最终卷积之后使用簇中心映射图来获取仅与簇中心重合的像素的结果,因为仅这些像素需要最终分类。同样,在光学像素域中,在当前观察到的簇密度下,将获取约百分之十的像素的卷起计算。在4倍上采样的域中,在一些硬件上,更多层可受益于跳跃的卷积,因为在顶层中将获取少于百分之一的子像素分类。

基于神经网络的碱基检出

图1示出了根据一个具体实施的由RTA碱基检出器用于碱基检出的处理阶段。图1还示出了根据两个具体实施的由所公开的基于神经网络的碱基检出器用于碱基检出的处理阶段。如图1所示,基于神经网络的碱基检出器218可通过免除RTA碱基检出器所使用的许多处理阶段来简化碱基检出过程。该简单化改善了碱基检出的准确度和规模。在基于神经网络的碱基检出器218的第一具体实施中,该基于神经网络的碱基检出器使用从基于神经网络的模板生成器1512的输出识别的簇中心的位置/定位信息来执行碱基检出。在第二具体实施中,基于神经网络的碱基检出器218不使用簇中心的位置/定位信息来进行碱基检出。当将图案化流通池设计用于簇生成时,使用第二具体实施。该图案化流通池包含相对于已知基准位置精确定位并且在该图案化流通池上提供预先布置的簇分布的纳米孔(nanowell)。在其他具体实施中,基于神经网络的碱基检出器218对在随机流通池上生成的簇进行碱基检出。

现在讨论基于神经网络的碱基检出,其中训练神经网络以将测序图像映射到碱基检出。该讨论将按以下步骤来进行。首先,描述对神经网络的输入。然后,描述神经网络的结构和形式。最后,描述神经网络的输出。

输入

图2例示了使用神经网络206的碱基检出的一个具体实施。

主要输入:图像通道

神经网络206的主要输入是图像数据202。图像数据202来源于由测序仪222在测序运行期间产生的测序图像108。在一个具体实施中,图像数据202包括从测序图像222中提取的n×n的图像补片,其中n为在1至10,000范围内的任何数。测序运行针对对应的m个图像通道每个测序循环产生m个图像,并且从m个图像中的每个图像中提取图像补片以准备用于特定测序循环的图像数据。在诸如四通道化学、双通道化学和单通道化学的不同具体实施中,m为4或2。在其他具体实施中,m为1、3或大于4。在一些具体实施中,图像数据202在光学像素域中,并且在其他具体实施中,在上采样的子像素域中。

图像数据202包括多个测序循环(例如,当前测序循环、一个或多个先前测序循环以及一个或多个后续测序循环)的数据。在一个具体实施中,图像数据202包括用于三个测序循环的数据,使得用于当前(时间t)测序循环的待进行碱基检出的数据伴随有(i)用于左侧翼/上下文/前一个/先前/之前(时间t-1)测序循环的数据和(ii)用于右侧翼/上下文/后一个/后续/之后(时间t+1)测序循环的数据。在其他具体实施中,图像数据202包括用于单个测序循环的数据。

图像数据202描绘了一个或多个簇及其周围背景的强度发射。在一个具体实施中,当要对单个目标簇进行碱基检出时,以每个图像补片在其中心像素中包含目标簇的中心的方式从测序图像108中提取图像补片,这一概念在本文中称为“以目标簇为中心的补片提取”。

使用强度通道(也被称为图像通道)将图像数据202编码在输入数据204中。对于从用于特定测序循环的测序仪222获得的m个图像中的每个图像,使用单独的图像通道对其强度数据进行编码。例如,考虑测序运行使用双通道化学,该双通道化学在每个测序循环中产生红色图像和绿色图像,然后,输入数据204包括(i)具有n×n的像素的第一红色图像通道,该第一红色图像通道描绘了该一个或多个簇及其周围背景的在红色图像中捕获的强度发射;以及(ii)具有n×n的像素的第二绿色成像通道,该第二绿色图像通道描绘了该一个或多个簇及其周围背景的在绿色图像中捕获的强度发射。

在一个具体实施中,生物传感器包括光传感器阵列。光传感器被配置为感测来自生物传感器的检测表面上的对应像素区域(例如,反应位点/孔(well)/纳米孔)的信息。设置在像素区域中的分析物据说与像素区域相关联,即为相关联分析物。在测序循环中,对应于像素区域的光传感器被配置为检测/捕获/感测来自相关联分析物的发射/光子,并且作为响应,针对每个成像通道生成像素信号。在一个具体实施中,每个成像通道对应于多个滤波器波长带中的一个滤波器波长带。在另一个具体实施中,每个成像通道对应于测序循环中的多个成像事件中的一个成像事件。在又一个具体实施中,每个成像通道对应于利用特定激光器照明和通过特定光学滤波器成像的组合。

来自光传感器的像素信号被传送到(例如,经由通信端口)耦接到生物传感器的信号处理器。对于每个测序循环和每个成像通道,信号处理器产生图像,该图像的像素分别描绘/包含/指示/表示/表征从对应的光传感器获得的像素信号。这样,图像中的像素对应于:(i)生物传感器的光传感器,该光传感器生成由像素描绘的像素信号,(ii)相关联分析物,该相关联分析物的发射由对应的光传感器检测并被转换成像素信号,以及(iii)生物传感器的检测表面上保持相关联的分析物的像素区域。

例如,考虑测序运行使用两个不同的成像通道(即红色通道和绿色通道)的情况。然后,在每个测序循环中,信号处理器产生红色图像和绿色图像。这样,针对测序运行的一系列k测序循环,产生具有k对红色和绿色图像的序列作为输出。

红色和绿色图像(即,不同的成像通道)中的像素在测序循环内一一对应。这意味着,尽管是在不同的成像通道中,但一对红色和绿色图像中的对应像素也描绘了同一相关联分析物的强度数据。类似地,成对的红色和绿色图像上的像素在测序循环之间一一对应。这意味着,尽管是针对测序运行的不同采集事件/时间步长(测序循环)进行的,但不同对的红色和绿色图像中的对应像素也描绘了同一相关联分析物的强度数据。

红色和绿色图像(即,不同的成像通道)中的对应像素可被视为在第一红色通道和第二绿色通道中表达强度数据的“针对每个循环的图像”的像素。其像素描绘了像素区域(即,生物传感器的检测表面的区域(区块))的子集的像素信号的针对每个循环的图像被称为“针对每个循环的区块图像”。从针对每个循环的区块图像中提取的补片被称为“针对每个循环的图像补片”。在一个具体实施中,补片提取由输入准备器执行。

图像数据包括针对测序运行的一系列k测序循环生成的针对每个循环的图像补片的序列。针对每个循环的图像补片中的像素包含相关联分析物的强度数据,并且由对应的光传感器获得一个或多个成像通道(例如,红色通道和绿色通道)的强度数据,该光传感器被配置为检测来自相关联分析物的发射。在一个具体实施中,当要对单个目标簇进行碱基检出时,针对每个循环的图像补片以包含目标相关联分析物的强度数据的中心像素为中心,并且针对每个循环的图像补片中的非中心像素包含与目标相关分析物相邻的相关联分析物的强度数据。在一个具体实施中,图像数据由输入准备器准备。

非图像数据

在另一个具体实施中,基于神经网络的碱基检出器218和基于神经网络的质量评分器6102的输入数据基于在分子延伸期间由于氢离子的释放引起的pH变化。检测pH变化并将其转换成与掺入的碱基的数量成比例的电压变化(例如,在Ion Torrent的情况下)。

在又一个具体实施中,基于神经网络的碱基检出器218和基于神经网络的质量评分器6102的输入数据是根据纳米孔感测来创建的,该纳米孔感测使用生物传感器来测量当分析物穿过纳米孔或靠近其孔口时电流的中断,同时确定碱基的种类。例如,牛津纳米孔技术(ONT)测序基于以下概念:使单链DNA(或RNA)经由纳米孔穿过膜,并且跨膜施加电压差。孔中存在的核苷酸将影响孔的电阻,因此随时间推移的电流测量结果可指示DNA碱基穿过孔的序列。该电流信号(由于其在绘制时的外观而被称为“波形曲线(squiggle)”)是由ONT测序器收集的原始数据。这些测量结果被存储为在(例如)4kHz频率下获取的16位整数数据采集(DAC)值。在DNA链速度为约450碱基对/秒的情况下,这给出了平均每种碱基大约九个原始观察结果。然后处理该信号以识别对应于各个读数的开孔信号的中断。对原始信号的这些最大限度的利用是进行碱基检出,即将DAC值转换成DNA碱基序列的过程。在一些具体实施中,输入数据包括归一化或缩放的DAC值。

补充输入:距离通道

图像数据202伴随有补充距离数据(也被称为距离通道)。距离通道提供加性偏置,该加性偏置结合在从图像通道生成的特征映射图中。该加性偏置对碱基检出的准确度有贡献,因为该加性偏置基于在距离通道中逐像素进行编码的像素中心到簇中心的距离。

在“单个目标簇”碱基检出具体实施中,对于输入数据204中的每个图像通道(图像补片),补充距离通道识别其像素的中心距包含其中心像素并且待进行碱基检出的目标簇的中心的距离。该距离通道由此指示图像补片的像素距该图像补片的中心像素的相应距离。

在“多簇”碱基检出具体实施中,对于输入数据204中的每个图像通道(图像补片),补充距离通道识别每个像素距这些簇中的最近簇的中心到中心的距离,该最近簇基于像素与这些簇中的每个簇之间的中心到中心的距离来选择。

在“多个簇基于形状的”碱基检出具体实施中,对于输入数据204中的每个图像通道(图像补片),补充距离通道识别每个簇像素距受分配簇的中心到中心的距离,该受分配簇基于将每个簇像素分类到仅一个簇来选择。

补充输入:缩放通道

图像数据202伴随有补充缩放数据(也被称为缩放通道),该补充缩放数据考虑了不同的簇尺寸和不均匀照明条件。缩放通道还提供加性偏置,该添加性偏置结合在从图像通道生成的特征映射图中。该加性偏置对碱基检出的准确度有贡献,因为该加性偏置基于在缩放通道中逐像素进行编码的中心簇像素的平均强度。

补充输入:簇中心坐标

在一些具体实施中,将从基于神经网络的模板生成器1512的输出识别的簇中心的位置/定位信息216(例如,x-y坐标)作为补充输入馈送到神经网络206。

补充输入:簇归属信息

在一些具体实施中,神经网络206接收簇归属信息作为补充输入,该簇属性信息将像素或子像素分类为:背景像素或子像素、簇中心像素或子像素以及描绘/有助于/属于同一簇的簇/簇内部像素或子像素。在其他具体实施中,将衰减映射图、二元映射图和/或三元映射图或它们的变型作为补充输入馈送到神经网络206。

预处理:强度修改

在一些具体实施中,输入数据204不包含距离通道,相反地,神经网络206接收根据基于神经网络的模板生成器1512的输出(即,衰减映射图、二元映射图和/或三元映射图)修改的经修改的图像数据作为输入。在此类具体实施中,修改图像数据202的强度以考虑不存在距离通道的情况。

在其他具体实施中,使图像数据202经受一个或多个无损变换操作(例如,卷积、去卷积、傅里叶变换),并且将所得的经修改的图像数据作为输入馈送到神经网络206。

网络结构和形式

神经网络206在本文中也被称为“基于神经网络的碱基检出器”218。在一个具体实施中,基于神经网络的碱基检出器218是多层感知器。在另一个具体实施中,基于神经网络的碱基检出器218是前馈神经网络。在又一个具体实施中,基于神经网络的碱基检出器218是全连接神经网络。在另一个具体实施中,基于神经网络的碱基检出器218是全卷积神经网络。在又一个具体实施中,基于神经网络的碱基检出器218是语义分割神经网络。

在一个具体实施中,基于神经网络的碱基检出器218是具有多个卷积层的卷积神经网络(CNN)。在另一个具体实施中,该基于神经网络的碱基检出器是递归神经网络(RNN),诸如长短期记忆网络(LSTM)、双向LSTM(Bi-LSTM)或门控递归单元(GRU)。在又一个具体实施中,该基于神经网络的碱基检出器包括CNN和RNN两者。

在其他具体实施中,基于神经网络的碱基检出器218可使用1D卷积、2D卷积、3D卷积、4D卷积、5D卷积、扩张或空洞卷积、转置卷积、深度可分离卷积、逐点卷积、1×1卷积、分组卷积、扁平卷积、空间和跨通道卷积、混洗分组卷积、空间可分离卷积和去卷积。其可使用一种或多种损失函数,诸如逻辑回归/对数损失函数、多类交叉熵/softmax损失函数、二元交叉熵损失函数、均方误差损失函数、L1损失函数、L2损失函数、平滑L1损失函数和Huber损失函数。其可以使用任何并行性、效率性和压缩方案,诸如TFRecords、压缩编码(例如,PNG)、锐化、映射图转换的并行检出、批处理、预取、模型并行性、数据并行性和同步/异步SGD。其可包括上采样层、下采样层、递归连接、栅极和栅极存储器单元(如LSTM或GRU)、残差块、残差连接、高速连接、跳跃连接、窥视孔连接、激活函数(例如,非线性变换函数如修正线性单元(ReLU)、泄露ReLU、指数衬里单元(ELU)、sigmoid和双曲线正切(tanh))、批量归一化层、正则化层、丢弃层、池化层(例如,最大或平均池化)、全局平均池化层和注意力机制。

基于神经网络的碱基检出器218处理输入数据204并产生输入数据204的另选表示208。该另选表示208在一些具体实施中是卷积表示,并且在其他具体实施中是隐藏表示。然后由输出层210处理该另选表示208以产生输出212。该输出212用于产生碱基检出,如下所述。

输出

在一个具体实施中,基于神经网络的碱基检出器218输出针对特定测序循环的单个目标簇的碱基检出。在另一个具体实施中,该基于神经网络的碱基检出器输出针对特定测序循环的多个目标簇中的每个目标簇的碱基检出。在又一个具体实施中,该基于神经网络的碱基检出器输出针对多个测序循环中的每个测序循环的多个目标簇中的每个目标簇的碱基检出,从而产生每个目标簇的碱基检出序列。

距离通道计算

现在讨论如何获得簇中心的适当位置/定位信息(例如,x-y坐标)以用于计算距离通道的距离值。

缩小坐标

图3是将从基于神经网络的模板生成器1512的输出中识别的簇中心的位置/定位信息从子像素域变换到像素域的一个具体实施。

将簇中心位置/定位信息用于基于神经网络的碱基检出以至少:(i)通过从测序图像108中提取图像补片来构建输入数据,该测序图像在其中心像素中包含待进行碱基检出的目标簇的中心,(ii)构建距离通道,该距离通道识别图像补片的像素的中心距包含其中心像素的目标簇的中心的距离,并且/或者(iii)作为基于神经网络的碱基检出器218的补充输入216。

在一些具体实施中,在上采样的子像素分辨率下,从基于神经网络的模板生成器1512的输出中识别簇中心位置/定位信息。然而,在一些具体实施中,基于神经网络的碱基检出器218对处于光学像素分辨率的图像数据进行操作。因此,在一个具体实施中,通过以用于对作为输入馈送到基于神经网络的模板生成器1512的图像数据进行上采样的相同上采样因子来缩小簇中心的坐标,将簇中心位置/定位信息变换到像素域中。

例如,考虑作为输入而馈送到基于神经网络的模板生成器1512的图像补片数据是通过以上采样因子f在一些初始测序循环中对图像108进行上采样得到的。然后,在一个具体实施中,由基于神经网络的模板生成器1512和后处理器1814产生并存储在模板/模板图像304中的簇中心302的坐标除以f(除法器)。这些所缩小的簇中心坐标在本文中被称为“参考簇中心”308并且存储在模板/模板图像304中。在一个具体实施中,该缩小由缩减器306执行。

坐标的变换

图4是使用特定于循环的变换和特定于图像通道的变换来从参考簇中心308导出所谓的“经变换的簇中心”404的一个具体实施。首先讨论这样做的动机。

在不同测序循环处获取的测序图像相对于彼此未对准并且具有随机平移偏移。这发生的原因是传感器的运动阶段的运动准确度有限,并且该原因也是在不同图像/频率通道中获取的图像具有不同的光学路径和波长。因此,参考簇中心与测序图像中簇中心的位置/定位之间存在偏移。该偏移在不同测序循环处捕获的图像之间以及在不同图像通道中在相同测序循环处捕获的图像内变化。

考虑到这种偏移,将特定于循环和特定于图像通道的变换应用于参考簇中心,以针对每个测序循环的图像补片产生相应的经变换的簇中心。特定于循环和特定于图像通道的变换是通过图像配准过程得到的,该图像配准过程使用图像相关性来确定完整的六参数仿射变换(例如,平移、旋转、缩放、错切、右反射、左反射)或普鲁克(Procrustes)变换(例如,平移、旋转、缩放、任选地延伸至纵横比),其其他详细信息可见于附录1、2、3和4中。

例如,考虑针对四个簇中心的参考簇中心是(x1,y1);(x2,y2);(x3,y3);(x4,y4),并且测序运行使用双通道化学,其中在每个测序循环处产生红色图像和绿色图像。然后,对于示例性测序循环3,针对红色图像的特定于循环和特定于图像通道的变换是针对绿色图像的特定于循环和特定于图像通道的变换是

类似地,对于示例性测序循环9,针对红色图像的特定于循环和特定于图像通道的变换是针对绿色图像的特定于循环和特定于图像通道的变换是

然后,测序循环3的红色图像的经变换的簇中心是通过将变换应用于参考簇中心(x1,y1);(x2,y2);(x3,y3);(x4,y4)得到的,并且测序循环3的绿色图像的经变换的簇中心是通过将变换应用于参考簇中心(x1,y1);(x2,y2);(x3,y3);(x4,y4)得到的。

类似地,测序循环9的红色图像的经变换的簇中心是通过将变换应用于参考簇中心(x1,y1);(x2,y2);(x3,y3);(x4,y4)得到的,并且测序循环9的绿色图像的经变换的簇中心是通过将变换应用于参考簇中心(x1,y1);(x2,y2);(x3,y3);(x4,y4)得到的。

在一个具体实施中,这些变换由变换器402执行。

经变换的簇中心404存储在模板/模板图像304中,并且分别:(i)用于(例如,通过补片提取器406)从对应的测序图像108中进行补片提取,(ii)在距离公式中用于计算对应图像补片的距离通道,并且(iii)作为针对被碱基检出的对应测序循环的基于神经网络的碱基检出器218的补充输入。在其他具体实施中,可使用不同的距离公式,诸如距离的平方、e^-距离和e^-距离平方。

图像补片

图5示出了图像补片502,该图像补片是馈送到基于神经网络的碱基检出器218的输入数据的一部分。该输入数据包括针对测序运行的一系列测序循环生成的针对每个循环的图像补片集的序列。该序列中的每个针对每个循环的图像补片集具有用于一个或多个图像通道中的相应图像通道的图像补片。

例如,考虑该测序运行使用双通道化学,该双通道化学在每个测序循环处产生红色图像和绿色图像,并且该输入数据包括跨越测序运行的一系列三个测序循环的数据:待进行碱基检出的当前(时间t)测序循环、先前(时间t-1)测序循环和后续(时间t+1)测序循环。

然后,该输入数据包括以下针对每个循环的图像补片集的序列:当前循环图像补片集,其具有分别从在当前测序循环处捕获的红色测序图像和绿色测序图像中提取的当前红色图像补片和当前绿色图像补片;先前循环图像补片集,其具有分别从在先前测序循环处捕获的红色测序图像和绿色测序图像中提取的先前红色图像补片后续测序循环处捕获的红色测序图像和绿色测序图像中提取的后续红色图像补片和后续绿色图像补片。

每个图像补片的尺寸可为n×n,其中n可为1至10,000范围内的任何数。每个图像补片可在光学像素域中或在上采样的子像素域中。在图5所示的具体实施中,所提取的图像补片502具有覆盖/描绘多个簇1-m及其周围背景的像素的像素强度数据。另外,在例示的具体实施中,以在图像补片的中心像素中包含被碱基检出的目标簇的中心的方式提取该图像补片502。

在图5中,像素中心由黑色矩形示描绘且具有整数位置/定位坐标,并且簇中心由紫色圆描绘并且具有浮点位置/定位坐标。

单个目标簇的距离计算

图6描绘了在单个目标簇正由基于神经网络的碱基检出器218进行碱基检出时确定距离通道的距离值602的一个具体实施。目标簇的中心包含在作为输入馈送到基于神经网络的碱基检出器218的图像补片的中心像素中。逐像素地计算距离值,使得针对每个像素确定其中心与目标簇的中心之间的距离。因此,针对作为输入数据的一部分的图像补片中的每个图像补片中的每个像素来计算距离值。

图6示出了针对特定图像补片的三个距离值d1、dc和dn。在一个具体实施中,使用以下距离公式来计算距离值602:该距离公式基于经变换的簇中心404来进行操作。在其他具体实施中,可使用不同的距离公式,诸如距离的平方、e^-距离和e^-距离平方。

在其他具体实施中,当图像补片处于上采样的子像素分辨率时,在子像素域中计算距离值602。

因此,在单个目标簇碱基检出具体实施中,仅相对于被碱基检出的目标簇计算距离通道。

图7示出了对所计算的像素与目标簇之间的距离值602进行逐像素编码702的一个具体实施。在一个具体实施中,在输入数据中,作为距离通道的一部分的距离值602作为“像素距离数据”对每个对应的图像通道(图像补片)进行补充。返回按测序循环生成的红色图像和绿色图像示例,该输入数据包括红色距离通道和绿色距离通道,并且作为像素距离数据对该红色图像通道和该绿色图像通道进行补充。

在其他具体实施中,当图像补片处于上采样的子像素分辨率时,逐子像素地对距离通道进行编码。

多个目标簇的距离计算

图8a描绘了在多个目标簇1-m由基于神经网络的碱基检出器218同时进行碱基检出时确定距离通道的距离值802的一个具体实施。逐像素地计算距离值,使得针对每个像素确定其中心与多个簇1-m中每个簇的相应中心之间的距离,并且将(红色的)最小距离值分配给像素。

因此,该距离通道识别每个像素距这些簇中的最近簇的中心到中心的距离,该最近簇是基于像素与这些簇中的每个簇之间的中心到中心的距离来选择的。在例示的具体实施中,图8a示出了两个像素和四个簇中心的像素中心到簇中心的距离。像素1最靠近簇1,并且像素n最靠近簇3。

在一个具体实施中,使用以下距离公式来计算距离值802:该距离公式基于经变换的簇中心404来进行操作。在其他具体实施中,可使用不同的距离公式,诸如距离的平方、e^-距离和e^-距离平方。

在其他具体实施中,当图像补片处于上采样的子像素分辨率时,在子像素域中计算距离值802。

因此,在多个簇碱基检出具体实施中,相对于来自多个簇中的最近簇计算距离通道。

图8b示出了针对目标簇1-m中的每个目标簇,基于像素中心到最近簇中心的距离804(d1、d2、d23、d29、d24、d32、dn、d13、d14等)来确定一些最近像素。

图9示出了对所计算的像素与簇中的最近簇之间的最小距离值进行逐像素编码902的一个具体实施。在其他具体实施中,当图像补片处于上采样的子像素分辨率时,逐子像素地对距离通道进行编码。

多个目标簇的基于簇形状的距离计算

图10例示了在多个目标簇1-m由基于神经网络的碱基检出器218同时进行碱基检出时,使用像素到簇分类/归属/归类1002(在本文中被称为“簇形状数据”或“簇形状信息”)来确定距离通道的簇距离值1102的一个具体实施。首先,下文是如何生成簇形状数据的简要综述。

如上所述,基于神经网络的模板生成器1512的输出用于将像素分类为:背景像素、中心像素以及描绘/有助于/属于同一簇的簇/簇内部像素。无论像素中心与簇中心之间的距离如何,该像素到簇分类信息用于将每个像素归属于仅一个簇,并且被存储为簇形状数据。

在图10所示的具体实施中,背景像素用灰色着色,属于簇1的像素用黄色着色(簇1像素),属于簇2的像素用绿色着色(簇2像素),属于簇3的像素用红色着色(簇3像素),并且属于簇m的像素用蓝色着色(簇m像素)。

图11示出了使用簇形状数据计算距离值1102的一个具体实施。首先,本发明解释为什么在不考虑簇形状的情况下计算的距离信息容易出错。然后本发明解释簇形状数据如何克服该限制。

在不使用簇形状数据的“多个簇”碱基检出具体实施中(图8a至图8b和图9),像素的中心至中心的距离值是相对于来自多个簇中的最近簇计算的。现在,考虑属于簇A的像素更远离簇A的中心但更靠近簇B的中心的情形。在这种情况下,没有簇形状数据,该像素被分配相对于簇B(该像素不属于簇B)计算的距离值,而不是被分配相对于簇A(该像素真正属于簇A)计算的距离值。

“多个簇基于形状的”碱基检出具体实施通过使用(如原始图像数据中所定义的并且由基于神经网络的模板生成器1512产生的)真实像素到簇映射来避免这种情况。

就像素34和35而言,可看到这两个具体实施之间的明显差异。在图8b中,相对于簇3的最近中心计算像素34和35的距离值,而不考虑簇形状数据。然而,在图11中,基于簇形状数据,像素34和35的距离值1102是相对于(它们实际所属的)簇2计算的。

在图11中,簇像素描绘簇强度,并且背景像素描绘背景强度。簇距离值识别每个簇像素距簇中的受分配簇的中心到中心的距离,该受分配簇基于将每个簇像素分类到这些簇中的仅一个簇来选择。在一些具体实施中,背景像素被分配预先确定的背景距离值,诸如0或0.1或一些其他最小值。

在一个具体实施中,如上所述,使用以下距离公式来计算簇距离值1102:该距离公式基于经变换的簇中心404来进行操作。在其他具体实施中,可使用不同的距离公式,诸如距离的平方、e^-距离和e^-距离平方。

在其他具体实施中,当图像补片处于上采样的子像素分辨率时,在子像素域中计算簇距离值1102,并且簇和背景归属1002逐子像素地发生。

因此,在多个簇基于形状的碱基检出具体实施中,相对于来自多个簇中的受分配簇计算距离通道。该受分配簇基于根据原始图像数据中定义的真实像素到簇映射将每个簇像素分类到这些簇中的仅一个簇来选择。

图12示出了对所计算的像素与受分配簇之间的距离值1002进行逐像素编码的一个具体实施。在其他具体实施中,当图像补片处于上采样的子像素分辨率时,逐子像素地对距离通道进行编码。

深度学习是一种使用多层神经网络的强大的机器学习技术。计算机视觉域和图像处理域中的一个特别成功的网络结构是卷积神经网络(CNN),其中每个层执行从输入张量(类似图像的多维密集阵列)到不同形状的输出张量的前馈卷积变换。由于图像的空间相干和通用图形处理单元(GPU)的出现,CNN特别适用于类似图像的输入,该通用GPU对高达3D或4D的阵列进行快速训练。与其他学习方法诸如支持向量机(SVM)或多层感知机(MLP)相比,利用这些类似图像的属性导致优异的经验性能。

我们介绍了一种专门化架构,其增强了标准CNN以处理图像数据以及补充距离和缩放数据两者。更多详细信息如下。

专门化架构

图13示出了基于神经网络的碱基检出器218的专门化架构的一个具体实施,该基于神经网络的碱基检出器用于隔离对不同测序循环的数据的处理。首先描述使用专门化架构的动机。

如上所述,基于神经网络的碱基检出器218处理用于当前测序循环、一个或多个先前测序循环以及一个或多个后续测序循环的数据。附加测序循环的数据提供序列特异性上下文。基于神经网络的碱基检出器218在训练期间学习序列特异性上下文,并对该序列特异性上下文进行碱基检出。此外,前测序循环和后测序循环的数据为当前测序循环提供了预定相和定相信号的二阶贡献。

空间卷积层

然而,如上所述,在不同测序循环处和不同图像通道中捕获的图像相对于彼此未对准并且具有残差配准误差。考虑到这种未对准,专门化架构包括空间卷积层,该空间卷积层不混合测序循环之间的信息并且仅混合测序循环内的信息。

空间卷积层使用所谓的“隔离卷积”,该隔离卷积通过经由“专用非共享”卷积序列独立处理多个测序循环中的每个测序循环的数据来实现隔离。该隔离卷积对仅给定测序循环(即,循环内)的数据和所得特征映射图进行卷积,而不对任何其他测序循环的数据和所得特征映射图进行卷积。

例如,考虑输入数据包括(i)待进行碱基检出的当前(时间t)测序循环的当前数据,(ii)先前(时间t-1)测序循环的先前数据,以及(iii)先前(时间t+1)测序循环的后续数据。然后,专门化架构发起三个单独的数据处理管道(或卷积管道),即当前数据处理管道、先前数据处理管道和后续数据处理管道。当前数据处理管道接收当前(时间t)测序循环的当前数据作为输入,并且通过多个空间卷积层独立地处理该当前数据,以产生所谓的“当前空间卷积表示”作为最终空间卷积层的输出。先前数据处理管道接收先前(时间t-1)测序循环的先前数据作为输入,并且通过多个空间卷积层独立地处理该先前数据,以产生所谓的“先前空间卷积表示”作为最终空间卷积层的输出。后续数据处理管道接收后续(时间t+1)测序循环的后续数据作为输入,并且通过多个空间卷积层独立地处理该后续数据以产生所谓的“后续空间卷积表示”作为最终空间卷积层的输出。

在一些具体实施中,同步地执行当前处理管道、先前处理管道和后续处理管道。

在一些具体实施中,空间卷积层是专门化架构内的空间卷积网络(或子网络)的一部分。

时间卷积层

基于神经网络的碱基检出器218还包括混合测序循环之间(即,循环间)的信息的时间卷积层。时间卷积层从空间卷积网络接收其输入,并且对由相应数据处理管道的最终空间卷积层产生的空间卷积表示进行操作。

时间卷积层的循环间可操作性自由源于以下事实:未对准属性通过由空间卷积层序列执行的隔离卷积的级联而从空间卷积表示清除,该未对准属性存在于作为输入馈送到空间卷积网络的图像数据中。

时间卷积层使用所谓的“组合卷积”,该组合卷积在滑动窗口的基础上逐组地对后续输入中的输入通道进行卷积。在一个具体实施中,这些后续输入是由先前的空间卷积层或先前时间卷积层产生的后续输出。

在一些具体实施中,时间卷积层是专门化架构内的时间卷积网络(或子网络)的一部分。时间卷积网络从空间卷积网络接收其输入。在一个具体实施中,时间卷积网络的第一时间卷积层逐组地组合测序循环之间的空间卷积表示。在另一个具体实施中,时间卷积网络的后续时间卷积层组合先前时间卷积层的后续输出。

最终时间卷积层的输出被馈送到产生输出的输出层。输出用于在一个或多个测序循环处对一个或多个簇进行碱基检出。

下文是隔离卷积和组合卷积的更详细讨论。

隔离卷积

在前向传播期间,专门化架构以两个阶段处理来自多个输入的信息。在第一阶段中,使用隔离卷积来防止输入之间的信息混合。在第二阶段中,使用组合卷积来混合输入之间的信息。将来自第二阶段的结果用于对该多个输入进行单个推断。

这不同于其中卷积层同时处理批量中的多个输入并且对该批量中的每个输入进行对应推断的批处理模式技术。相比之下,专门化架构将该多个输入映射到该单个推断。该单个推断可包括多于一个预测,诸如四种碱基(A、C、T和G)中的每种碱基的分类得分。

在一个具体实施中,这些输入具有时间顺序,使得每个输入在不同的时间步长处生成并且具有多个输入通道。例如,该多个输入可包括以下三个输入:在时间步长(t)处由当前测序循环生成的当前输入、在时间步长(t-1)处由先前测序循环生成的先前输入以及在时间步长(t+1)处由后续测序循环生成的后续输入。在另一个具体实施中,每个输入分别来源于由一个或多个先前卷积层产生的当前输出、先前输出和后续输出,并且包括k个特征映射图。

在一个具体实施中,每个输入可包括以下五个输入通道:红色图像通道(红色)、红色距离通道(黄色)、绿色图像通道(绿色)、绿色距离通道(紫色)和缩放通道(蓝色)。在另一个具体实施中,每个输入可包括由先前卷积层产生的k特征映射图,并且每个特征映射图被视为输入通道。

图14描绘了隔离卷积一个具体实施。隔离卷积通过将卷积滤波器同步地应用于每个输入一次来处理该多个输入。利用隔离卷积,卷积滤波器组合相同输入中的输入通道,并且不组合不同输入中的输入通道。在一个具体实施中,将相同的卷积滤波器同步地应用于每个输入。在另一个具体实施中,将不同的卷积滤波器同步地应用于每个输入。在一些具体实施中,每个空间卷积层包括一组k个卷积滤波器,其中每个卷积滤波器同步地应用于每个输入。

组合卷积

组合卷积通过对不同输入的对应输入通道进行分组并将卷积滤波器应用于每个分组来混合不同输入之间的信息。对这些对应输入通道的分组和卷积滤波器的应用是在滑动窗口的基础上发生的。在该上下文中,窗口跨越两个或更多个后续输入通道,其表示例如两个后续测序循环的输出。由于该窗口是滑动窗口,因此大多数输入通道用于两个或更多个窗口中。

在一些具体实施中,不同输入源于由先前空间卷积层或先前时间卷积层产生的输出序列。在该输出序列中,这些不同输入被布置为后续输出并且因此被后续时间卷积层视为后续输入。然后,在该后续时间卷积层中,这些组合卷积将卷积滤波器应用于这些后续输入中的对应输入通道组。

在一个具体实施中,这些后续输入具有时间顺序,使得当前输入在时间步长(t)处由当前测序循环生成,先前输入在时间步长(t-1)处由先测序循环生成,并且后续输入在时间步长(t+1)处由后续测序循环生成。在另一个具体实施中,每个后续输入分别来源于由一个或多个先前卷积层产生的当前输出、先前输出和后续输出,并且包括k个特征映射图。

在一个具体实施中,每个输入可包括以下五个输入通道:红色图像通道(红色)、红色距离通道(黄色)、绿色图像通道(绿色)、绿色距离通道(紫色)和缩放通道(蓝色)。在另一个具体实施中,每个输入可包括由先前卷积层产生的k特征映射图,并且每个特征映射图被视为输入通道。

卷积滤波器的深度B取决于后续输入的数量,这些后续输入的对应输入通道由卷积滤波器在滑动窗口的基础上逐组地进行卷积。换句话讲,深度B等于每个滑动窗口中的后续输入的数量和组大小。

在图15a中,来自两个后续输入的对应输入通道在每个滑动窗口中组合,并且因此B=2。在图15b中,来自三个后续输入的对应输入通道在每个滑动窗口中组合,并且因此B=3。

在一个具体实施中,滑动窗口共享相同的卷积滤波器。在另一个具体实施中,针对每个滑动窗口使用不同的卷积滤波器。在一些具体实施中,每个时间卷积层包括一组k个卷积滤波器,其中每个卷积滤波器在滑动窗口的基础上应用于后续输入。

滤波器组

图16示出了其中每个卷积层具有一组卷积滤波器的基于神经网络的碱基检出器218的卷积层的一个具体实施。在图16中,示出了五个卷积层,其中每个卷积层具有一组64个卷积滤波器。在一些具体实施中,每个空间卷积层具有一组k个卷积滤波器,其中k可以是任何数量,诸如1、2、8、64、128、256等。在一些具体实施中,每个时间卷积层具有一组k个卷积滤波器,其中k可以是任何数量,诸如1、2、8、64、128、256等。

现在讨论补充缩放通道以及如何对其进行计算。

缩放通道

图17描绘了补充图像通道的缩放通道的两种配置。该缩放通道在被馈送到基于神经网络的碱基检出器218的输入数据中被逐像素地编码。不同的簇尺寸和不均匀照明条件导致宽范围的簇强度被提取。由该缩放通道提供的加性偏置使得簇强度在簇之间类似。在其他具体实施中,当图像补片处于上采样的子像素分辨率时,逐子像素地对该缩放通道进行编码。

当正对单个目标簇进行碱基检出时,该缩放通道将相同的缩放值分配给所有像素。当对多个目标簇同时进行碱基检出时,这些缩放通道基于簇形状数据将不同的缩放值分配给像素组。

缩放通道1710对于所有像素具有相同的缩放值(s1)。缩放值(s1)基于包含目标簇的中心的中心像素的平均强度。在一个具体实施中,通过对在两个或更多个先前测序循环期间观察到的中心像素的强度值进行平均来计算平均强度,这两个或更多个先前测序循环产生对目标簇的A和T碱基检出。

基于簇形状数据,缩放通道1708对于归属于对应簇的相应像素组具有不同缩放值(s1、s2、s3、sm)。每个像素组包括中心簇像素,该中心簇像素包含对应簇的中心。用于特定像素组的缩放值基于其中心簇像素的平均强度。在一个具体实施中,通过对在两个或更多个先前测序循环期间观察到的中心簇像素的强度值进行平均来计算平均强度,这两个或更多个先前测序循环产生对对应簇的A和T碱基检出。

在一些具体实施中,背景像素被分配背景缩放值(sb),其可以是0或0.1或一些其他最小值。

在一个具体实施中,缩放通道1706及其缩放值由强度缩放器1704确定。强度缩放器1704使用来自先前测序循环的簇强度数据1702来计算平均强度。

在其他具体实施中,补充缩放通道可以不同方式(诸如,在基于神经网络的碱基检出器218的最后一层之前或在该最后一层处,在基于神经网络的碱基检出器218的一个或多个中间层之前或在该一个或多个中间层处)作为输入提供,并且作为单个值提供,而不是逐像素地对该补充缩放通道进行编码以匹配图像尺寸。

现在讨论被馈送到基于神经网络的碱基检出器218的输入数据

输入数据:图像通道、距离通道和缩放通道

图18a示出了产生红色图像和绿色图像的单个测序循环的输入数据1800的一个具体实施。输入数据1800包括以下内容:

·从红色图像中提取的图像补片中的像素的红色强度数据1802(红色)。红色强度数据1802在红色图像通道中进行编码。

·逐像素地补充红色强度数据1802的红色距离数据1804(黄色)。红色距离数据1804在红色距离通道中进行编码。

·从绿色图像中提取的图像补片中的像素的绿色强度数据1806(绿色)。绿色强度数据1806在绿色图像通道中进行编码。

·逐像素地补充绿色强度数据1806的绿色距离数据1808(紫色)。绿色距离数据1808在绿色距离通道中进行编码。

·逐像素地补充红色强度数据1802和绿色强度数据1806的缩放数据1810(蓝色)。该缩放数据1810在缩放通道中进行编码。

在其他具体实施中,该输入数据可包括更少或更多数量的图像通道和补充距离通道。在一个示例中,对于使用四通道化学的测序运行,该输入数据包括针对每个测序循环的四个图像通道和四个补充距离通道。

现在讨论距离通道和缩放通道如何对碱基检出准确度做出贡献。

加性偏置

图18b示出了提供加性偏置的距离通道的一个具体实施,该加性偏置结合在从图像通道生成的特征映射图中。该加性偏置对碱基检出的准确度有贡献,因为该加性偏置基于在距离通道中逐像素进行编码的像素中心到簇中心的距离。

平均来讲,约3×3像素包括一个簇。预期簇的中心处的密度高于边缘处的密度,因为簇从基本上中心的位置向外生长。周边簇像素可包含来自附近簇的冲突信号。因此,中心簇像素被认为是最大强度区域,并且用作可靠地识别簇的信标。

图像补片的像素描绘多个簇(例如,10个至200个簇)及其周围背景的强度发射。另外的簇包含来自较宽半径的信息,并且通过辨别其强度发射在图像补片中描绘的基础碱基而对碱基检出预测做出贡献。换句话讲,来自一组簇的强度发射累积地创建可分配给离散碱基(A、C、T或G)的强度图案。

我们观察到,将补充距离通道中每个像素距簇中心的距离明确地传送给卷积滤波器导致更高的碱基检出准确度。这些距离通道向这些卷积滤波器传达哪些像素包含簇中心以及哪些像素更远离簇中心。这些卷积滤波器使用该信息,通过关注(a)中心簇像素、它们的相邻像素以及从它们导出的特征映射图而不是(b)周边簇像素、背景像素以及从它们导出的特征映射图,来将测序信号分配给其适当源簇。在该关注的一个示例中,这些距离通道提供结合在由(a)产生的特征映射图中的正加性偏置,但提供结合在由(b)产生的特征映射图中的负加性偏置。

这些距离通道具有与图像通道相同的维度。这允许卷积滤波器单独地评估局部感受野内的图像通道和距离通道,并且相干地组合这些评估。

当正对单个目标簇进行碱基检出时,这些距离通道识别图像补片中心处的仅一个中心簇像素。当对多个目标簇同时进行碱基检出时,这些距离通道识别分布在图像补片上的多个中心簇像素。

“单个簇”距离通道适用于在其中心像素中包含待进行碱基检出的单个目标簇的中心的图像补片。该单个簇距离通道包括该图像补片中的每个像素到该单个目标簇的中心到中心的距离。在该具体实施中,该图像补片还包括与该单个目标簇相邻的另外的簇,但不对这些另外的簇进行碱基检出。

“多个簇”距离通道适用于在其相应中心簇像素中包含待进行碱基检出的多个目标簇的中心的图像补片。该多个簇距离通道包括该图像补片中的每个像素到该多个目标簇中的最近簇的中心到中心的距离。这具有测量到错误簇的中心到中心的距离的可能性,但这种可能性较低。

“多个簇基于形状的”距离通道适用于在其相应中心簇像素中包含待进行碱基检出的多个目标簇的中心的图像补片,并且对于该图像补片,像素到簇的归属信息是已知的。该多个簇距离通道包括该图像补片中的每个簇像素到该多个目标簇中其所属或归属于的簇的中心到中心的距离。背景像素可被标记为背景,而不是给定所计算的距离。

图18b还示出了提供加性偏置的缩放通道的一个具体实施,该加性偏置结合在从图像通道生成的特征映射图中。该加性偏置对碱基检出的准确度有贡献,因为该加性偏置基于在缩放通道中逐像素进行编码的中心簇像素的平均强度。关于距离通道的上下文中的加性偏置的讨论类似地适用于缩放通道。

加性偏置的示例

图18b还示出了加性偏置如何从距离通道和缩放通道导出并结合到从图像通道生成的特征映射图中的示例。

在图18b中,卷积滤波器i 1814评估跨两个图像通道1802和1806、两个距离通道1804和1808以及缩放通道1810的局部感受野1812(洋红色)。因为这些距离通道和缩放通道是单独编码的,所以当特定于通道的卷积内核(或特征检测器)1816a-1816e中每一者的中间输出1816a-1816e(加上偏置1816f)作为局部感受野1812的最终输出/特征映射图元素1820逐通道地累积1818时,发生加性偏置。在该示例中,由两个距离通道1804和1808提供的加性偏置分别是中间输出1816b和1816d。由缩放通道1810提供的加性偏置是中间输出1816e。

该加性偏置通过更强调图像通道中被认为对于碱基检出(即,中心簇像素及其相邻像素的像素强度)更重要且可靠的那些特征来引导特征映射图编译过程。在训练期间,根据与基准真值碱基检出的比较计算的梯度的反向传播更新卷积内核的权重,以针对中心簇像素及其相邻像素产生更强的激活。

例如,考虑由局部感受野1812覆盖的一组相邻像素中的像素包含簇中心,则距离通道1804和1808反映像素与簇中心的接近度。因此,当强度中间输出1816a和1816c与逐通道累积1818处的距离通道加性偏置1816b和1816d合并时,结果是像素的正偏置卷积表示1820。

相比之下,如果由局部感受野1812覆盖的像素不靠近簇中心,则距离通道1804和1808反映它们与簇中心的分离。因此,当强度中间输出1816a和1816c与逐通道累积1818处的距离通道加性偏置1816b和1816d合并时,结果是像素的负偏置卷积表示1820。

类似地,从缩放通道1810导出的缩放通道加性偏置1816e可使像素的卷积表示1820正偏置或负偏置。

为了清楚起见,图18b示出了将单个卷积滤波器i 1814应用于单个测序循环的输入数据1800。本领域的技术人员将会知道,该讨论可扩展到多个卷积滤波器(例如,具有k个滤波器的滤波器组,其中k可以是8、16、32、64、128、256等)、多个卷积层(例如,多个空间卷积层和时间卷积层)以及多个测序循环(例如,t、t+1、t-1)。

在其他具体实施中,这些距离通道和缩放通道不是单独编码的,而是直接应用于图像通道以生成调制的像素乘法,这是因为距离通道和缩放通道以及图像通道具有相同的维度。在另一个具体实施中,基于距离通道和图像通道来确定卷积内核的权重,以便在逐元素乘法期间检测图像通道中最重要的特征。在其他具体实施中,这些距离通道和缩放通道不是被馈送到第一层,而是作为到下游层和/或网络(例如,到全连接网络或分类层)的辅助输入被提供。在又一个具体实施中,这些距离和缩放通道被馈送到第一层并且(例如,经由残差连接)重新馈送到下游层和/或网络。

以上讨论针对具有k个输入通道的2D输入数据。本领域的技术人员将会知道对3D输入的扩展。简而言之,体积输入为4D张量,其具有维度k×l×w×h,其中l为附加维度—长度。每个单独的内核是4D张量,通过在4D张量中扫频,得到3D张量(通道维度坍缩,这因为该维度未被扫频过)。

在其他具体实施中,当输入数据1800处于上采样的子像素分辨率时,这些距离通道和缩放通道逐子像素地单独编码,并且在子像素级处发生加性偏置。

使用专门化架构和输入数据进行碱基检出

现在讨论如何将专门化架构和输入数据用于基于神经网络的碱基检出。

单个簇碱基检出

图19a、图19b和图19c描绘了对单个目标簇进行碱基检出的一个具体实施。专门化架构处理三个测序循环(即,待进行碱基检出的当前(时间t)测序循环、先前(时间t-1)测序循环和后续(时间t+1)测序循环)的输入数据,并且在当前(时间t)测序循环处产生对单个目标簇的碱基检出。

图19a和图19b示出了空间卷积层。图19c示出了时间卷积层以及一些其他非卷积层。在图19a和图19b中,垂直虚线根据特征映射图界定空间卷积层,并且水平虚线界定对应于三个测序循环的三个卷积管道。

对于每个测序循环,输入数据包括维度为n×n×m的张量(例如,图18a中的输入张量1800),其中n表示正方形张量的宽度和高度,并且m表示输入通道的数量,使得三个循环的输入数据的维度为n×n×m×t。

此处,针对每个循环的每个张量在其图像通道的中心像素中包含单个目标簇的中心。该每个张量还示出了在特定测序循环处在图像通道中的每个图像通道中捕获的单个目标簇、一些相邻簇及其周围背景的强度发射。在图19a中,描绘了两个示例性图像通道,即红色图像通道和绿色图像通道。

针对每个循环的每个张量还包括补充对应图像通道(例如,红色距离通道和绿色距离通道)的距离通道。这些距离通道识别对应图像通道中的每个像素到单个目标簇的中心到中心的距离。针对每个循环的每个张量还包括缩放通道,该缩放通道对图像通道中每个图像通道中的强度值进行逐像素地缩放。

该专门化架构具有五个空间卷积层和两个时间卷积层。每个空间卷积层使用维度为的一组k个卷积滤波器来应用隔离卷积,其中j表示正方形滤波器的宽度和高度,并且表示其深度。每个时间卷积层使用维度为j×j×α的一组k个卷积滤波器来应用组合卷积,其中j表示正方形滤波器的宽度和高度,并且α表示其深度。

专门化架构具有预分类层(例如,展平层和密集层)和输出层(例如,softmax分类层)。该预分类层为输出层准备输入。该输出层在当前(时间t)测序循环处产生对单个目标簇的碱基检出。

不断减小的空间维度

图19a、图19b和图19c还示出了由卷积滤波器产生的所得特征映射图(卷积表示或中间卷积表示或卷积特征或激活映射图)。从针对每个循环的张量开始,这些所得特征映射图的空间维度从一个卷积层到下一个卷积层减小恒定步长,这一概念在本文中被称为“不断减小的空间维度”。在图19a、图19b和图19c中,将为2的示例性恒定步长用于该不断减小的空间维度。

不断减小的空间维度由以下公式表示:“当前特征映射图空间维度=先前特征映射图空间维度-卷积滤波器空间维度+1”。该不断减小的空间维度使得卷积滤波器逐渐缩小对中心簇像素及其相邻像素的关注焦点,并生成具有捕获中心簇像素及其相邻像素之间的局部依赖性的特征的特征映射图。这继而有助于准确地对其中心包含在中心簇像素中的簇进行碱基检出。

这五个空间卷积层的隔离卷积防止三个测序循环之间的信息混合并保持三个单独的卷积管道。

这两个时间卷积层的组合卷积混合三个测序循环之间的信息。第一时间卷积层对由最终空间卷积层针对后续和当前测序循环分别产生的后续和当前空间卷积表示进行卷积。这产生第一时间输出。该第一时间卷积层还对由最终空间卷积层针对当前和先前测序循环分别产生的当前和先前空间卷积表示进行卷积。这产生第二时间输出。第二时间卷积层对该第一时间输出和第二时间输出进行卷积并产生最终时间输出。

在一些具体实施中,该最终时间输出被馈送到展平层以产生展平输出。然后该展平输出被馈送到密集层以产生密集输出。该密集输出由输出层处理以在当前(时间t)测序循环处产生对单个目标簇的碱基检出。

在一些具体实施中,该输出层产生在当前测序循环处掺入单个目标簇中为A、C、T和G的碱基的可能性(分类得分),并且基于这些可能性将碱基分类为A、C、T或G(例如,选择具有最大可能性的碱基,诸如图19a中的碱基A)。在此类具体实施中,这些可能性是由softmax分类层产生的指数归一化得分,并且总和为1。

在一些具体实施中,该输出层导出针对单个目标簇的输出对。该输出对识别在当前测序循环处掺入单个目标簇中的为A、C、T或G的碱基的类标记,并且基于这些类标记对该单个目标簇进行碱基检出。在一个具体实施中,类标记1,0标识A碱基;类标记0,1标识C碱基;类标记1,1标识T碱基;并且类标记0,0标识G碱基。在另一个具体实施中,类标记1,1标识A碱基;类标记0,1标识C碱基;类标记0.5,0.5标识T碱基;并且类标记0,0标识G碱基。在又一个具体实施中,类标记1,0标识A碱基;类标记0,1标识C碱基;类标记0.5,0.5标识T碱基;并且类标记0,0标识G碱基。在又一个具体实施中,类标记1,2标识A碱基;类标记0,1标识C碱基;类标记1,1标识T碱基;并且类标记0,0标识G碱基。

在一些具体实施中,该输出层导出用于单个目标簇的类标记,该类标记标识在当前测序循环处掺入单个目标簇中的为A、C、T或G的碱基,并且基于该类标记对该单个目标簇进行碱基检出。在一个具体实施中,类标记0.33标识A碱基;类标记0.66标识C碱基;类标记1标识T碱基;并且类标记0标识G碱基。在另一个具体实施中,类标记0.50标识A碱基;类标记0.75标识C碱基;类标记1标识T碱基;并且类标记0.25标识G碱基。

在一些具体实施中,该输出层导出单个输出值,将该单个输出值与对应于碱基A、C、T和G的类值范围进行比较,基于该比较将该单个输出值分配到特定类值范围,并且基于该分配对单个目标簇进行碱基检出。在一个具体实施中,使用sigmoid函数导出单个输出值,并且单个输出值在0至1的范围内。在另一个具体实施中,0至0.25的类值范围表示A碱基,0.25至0.50的类值范围表示C碱基,0.50至0.75的类值范围表示T碱基,并且0.75至1的类值范围表示G碱基。

本领域的技术人员将会知道,在其他具体实施中,该专门化架构可处理输入数据以用于更少或更多数量的测序循环,并且可包括更少或更多数量的空间卷积层和时间卷积层。另外,输入数据的维度、输入数据中针对每个循环的张量、卷积滤波器、所得特征映射图和输出可不同。另外,卷积层中卷积滤波器的数量可不同。其可使用各种填充和步幅配置。其可使用不同的分类函数(例如,sigmoid或回归),并且可包括或者可不包括全连接层。其可使用1D卷积、2D卷积、3D卷积、4D卷积、5D卷积、扩张或空洞卷积、转置卷积、深度可分离卷积、逐点卷积、1×1卷积、分组卷积、扁平卷积、空间和跨通道卷积、混洗分组卷积、空间可分离卷积和去卷积。其可使用一种或多种损失函数,诸如逻辑回归/对数损失函数、多类交叉熵/softmax损失函数、二元交叉熵损失函数、均方误差损失函数、L1损失函数、L2损失函数、平滑L1损失函数和Huber损失函数。其可以使用任何并行性、效率性和压缩方案,诸如TFRecords、压缩编码(例如,PNG)、锐化、映射图转换的并行检出、批处理、预取、模型并行性、数据并行性和同步/异步SGD。其可包括上采样层、下采样层、递归连接、栅极和栅极存储器单元(如LSTM或GRU)、残差块、残差连接、高速连接、跳跃连接、窥视孔连接、激活函数(例如,非线性变换函数如修正线性单元(ReLU)、泄露ReLU、指数衬里单元(ELU)、sigmoid和双曲线正切(tanh))、批量归一化层、正则化层、丢弃层、池化层(例如,最大或平均池化)、全局平均池化层和注意力机制。

在描述了单个簇碱基检出之后,现在讨论多个簇碱基检出。

多个簇碱基检出

根据输入数据的大小和流通池上的簇密度,基于每个输入由基于神经网络的碱基检出器218对十万到三十万个簇之间的任何簇同时进行碱基检出。将此扩展到在并行处理器上实施的数据并行性和/或模型并行性策略,使用批量或大小为十的微型批量导致在每个批量的基础上或在每个微型批量的基础上对一百个至三百万个簇进行碱基检出。

根据测序配置(例如,簇密度、流通池上的区块数量),区块包括二万个至三十万个簇。在另一个具体实施中,Illumina的NovaSeq测序仪每个区块具有至多四百万个簇。因此,区块的测序图像(区块图像)可描绘从二万至三十万个簇及其周围背景的强度发射。因此,在一个具体实施中,使用包括整个区块图像的输入数据导致基于每个输入对三十万个簇同时进行碱基检出。在另一个具体实施中,使用输入数据中尺寸为15×15像素的图像补片导致基于每个输入对少于一百个簇同时进行碱基检出。本领域的技术人员将会知道,这些数字可根据测序配置、并行策略、架构(例如,基于最佳架构超参数)的细节和可用计算而变化。

图20示出了对多个目标簇同时进行碱基检出的一个具体实施。该输入数据具有用于上述三个测序循环的三个张量。针对每个循环的每个张量(例如,图18a中的输入张量1800)描绘了待进行碱基检出的多个目标簇及其周围背景的在特定测序循环处在图像通道中的每个图像通道中捕获的强度发射。在其他具体实施中,也包括不进行碱基检出的一些另外相邻簇以用于上下文。

在多个簇碱基检出具体实施中,针对每个循环的每个张量包括补充对应图像通道(例如,红色距离通道和绿色距离通道)的距离通道。这些距离通道识别对应图像通道中的每个像素到多个目标簇中的最近簇的中心到中心的距离。

在多个簇基于形状的碱基检出具体实施中,针对每个循环的每个张量包括补充对应图像通道(例如,红色距离通道和绿色距离通道)的距离通道。这些距离通道识别对应图像通道中的每个簇像素到该多个目标簇中其所属或归属于的簇的中心到中心的距离。

针对每个循环的每个张量还包括缩放通道,该缩放通道对图像通道中每个图像通道中的强度值进行逐像素地缩放。

在图20中,针对每个循环的每个张量的空间维度大于图19a所示的空间维度。也就是说,在图19a中的单个目标簇碱基检出具体实施中,针对每个循环的每个张量的空间维度为15×15,而在图20中的多个簇碱基检出具体实施中,针对每个循环的每个张量的空间维度为114×114。根据一些具体实施,具有描绘另外簇的强度发射的更大量的像素化数据提高了同时预测多个簇的碱基检出的准确度。

避免冗余卷积

此外,针对每个循环的每个张量中的图像通道是从图像补片获得的,其中这些测序图像是从图像补片中提取的。在一些具体实施中,所提取的在空间上邻接(例如,左、右、顶部和底部邻接)的图像补片之间存在重叠像素。因此,在一个具体实施中,这些重叠像素不经受冗余卷积,并且来自先前卷积的结果在重叠像素是后续输入的一部分的稍后情况下重复使用。

例如,考虑从测序图像中提取尺寸为n×n像素的第一图像补片,并且还从同一测序图像中提取尺寸为m×m像素的第二图像补片,使得第一图像补片和第二图像补片在空间上邻接并共享o×o像素的重叠区域。进一步考虑o×o像素作为第一图像补片的一部分进行卷积以产生存储在存储器中的第一卷积表示。然后,当第二图像补片被卷积时,不再对o×o像素进行卷积,而是从存储器中检索该第一卷积表示并重新使用该第一卷积表示。在一些具体实施中,n=m。在其他具体实施中,它们不相等。

然后通过专门化架构的空间卷积层和时间卷积层处理输入数据,以产生维度为w×w×k的最终时间输出。此处同样地,在不断减小的空间维度现象下,空间维度在每个卷积层处减小为2的恒定步长。也就是说,从输入数据的n×n空间维度开始,导出最终时间输出的w×w空间维度。

然后,基于最终时间输出的空间维度w×w,输出层针对w×w单元集中的每个单元产生碱基检出。在一个具体实施中,该输出层是逐单元地产生针对四种碱基(A、C、T和G)的四向分类得分的softmax层。也就是说,基于对应softmax四元组中的最大分类得分,给w×w单元集中的每个单元分配碱基检出,如图20所示。在一些具体实施中,由于通过展平层和密集层处理最终时间输出以分别产生展平输出和密集输出,而导出w×w单元集。在此类具体实施中,展平输出具有w×w×k个元素,并且密集输出具有形成w×w单元集的w×w元素。

通过识别w×w单元集中已碱基检出的单元中的哪些单元与中心簇像素(即,输入数据中包含多个目标簇的相应中心的像素)重合或对应来获得对该多个目标簇的碱基检出。为给定目标簇分配与包含该给定目标簇的中心的像素重合或对应的单元的碱基检出。换句话讲,不与中心簇像素重合或对应的单元的碱基检出被滤除。该功能由碱基检出过滤层操作,该碱基检出过滤层在一些具体实施中是专门化架构的一部分,或者在其他具体实施中被实现为后处理模块。

在其他具体实施中,通过识别w×w单元集中哪些已碱基检出单元组覆盖同一簇(即,识别输入数据中描绘同一簇的像素组)来获得对该多个目标簇的碱基检出。然后,对于每个簇及其对应像素组,跨像素组中的像素计算相应四种碱基类(A、C、T和G)的分类得分的平均值(softmax概率),并且选择具有最高平均分类得分的碱基类用于对簇进行碱基检出。

在训练期间,在一些具体实施中,仅针对与中心簇像素重合或对应的那些单元进行基准真值比较和误差计算,使得根据被识别为基准真值标记的正确碱基检出来评估其预测的碱基检出。

在描述了多个簇碱基检出之后,现在讨论多个簇和多个循环碱基检出。

多个簇和多个循环碱基检出

图21示出了在多个后续测序循环处对多个目标簇同时进行碱基检出,从而同时产生该多个目标簇中的每个目标簇的碱基检出序列的一个具体实施。

在上文讨论的单个和多个碱基检出具体实施中,使用用于三个测序循环(当前(时间t)、先前/左侧翼(时间t-1)和后续/右侧翼(时间t+1)测序循环)的数据来预测在一个测序循环(当前(时间t)测序循环)处的碱基检出,其中该右侧翼和左侧翼测序循环提供碱基三联体基序的序列特异性上下文以及预定相和定相信号的二阶贡献。该关系由以下公式表示:“数据包括在输入数据中的测序循环的数量(t)=进行碱基检出的测序循环的数量(y)+右侧翼和左侧翼测序循环的数量(x)”。

在图21中,输入数据包括用于t个测序循环的t个针对每个循环的张量,使得该输入数据的维度为n×n×m×t,其中n=114,m=5,并且t=15。在其他具体实施中,这些维度是不同的。在t个测序循环中,将第t个测序循环和第一个测序循环用作右侧翼和左侧翼上下文x,并且对它们之间的y个测序循环进行碱基检出。因此,y=13,x=2,并且t=y+x。针对每个循环的每个张量包括图像通道、对应的距离通道和缩放通道,诸如图18a中的输入张量1800。

然后通过专门化架构的空间卷积层和时间卷积层处理具有t个针对每个循环的张量的输入数据,以产生y个最终时间输出,其中每个最终时间输出对应于被碱基检出的y个测序循环中的相应测序循环。y个最终时间输出中的每个最终时间输出的维度为w×w×k。此处同样地,在不断减小的空间维度现象下,空间维度在每个卷积层处减小为2的恒定步长。也就是说,从输入数据的n×n空间维度开始,导出y个最终时间输出中的每个最终时间输出的w×w空间维度。

然后,y个最终时间输出中的每个最终时间输出由输出层同步处理。对于y个最终时间输出中的每个最终时间输出,该输出层针对w×w单元集中的每个单元产生碱基检出。在一个具体实施中,该输出层是逐单元地产生针对四种碱基(A、C、T和G)的四向分类得分的softmax层。也就是说,基于对应softmax四元组中的最大分类得分,给w×w单元集中的每个单元分配碱基检出,如图20所示。在一些具体实施中,由于分别通过展平层和密集层处理y个最终时间输出以产生对应的展平输出和密集输出,针对这些最终时间输出中的每个最终时间输出导出wxw单元集。在此类具体实施中,每个展平输出具有w×w×k个元素,并且每个密集输出具有形成w×w单元集的w×w元素。

对于y个测序循环中的每个测序循环,通过识别对应的w×w单元集中已碱基检出的单元中的哪些单元与中心簇像素(即,输入数据中包含多个目标簇的相应中心的像素)重合或对应来获得对该多个目标簇的碱基检出。为给定目标簇分配与包含该给定目标簇的中心的像素重合或对应的单元的碱基检出。换句话讲,不与中心簇像素重合或对应的单元的碱基检出被滤除。该功能由碱基检出过滤层操作,该碱基检出过滤层在一些具体实施中是专门化架构的一部分,或者在其他具体实施中被实现为后处理模块。

在训练期间,在一些具体实施中,仅针对与中心簇像素重合或对应的那些单元进行基准真值比较和误差计算,使得根据被识别为基准真值标记的正确碱基检出来评估其预测的碱基检出。

基于每个输入,结果是在y个测序循环中的每个测序循环处对多个目标簇中的每个目标簇的碱基检出,即多个目标簇中的每个目标簇的长度为y的碱基检出序列。在其他具体实施中,y为20、30、50、150、300等。本领域的技术人员将会知道,这些数字可根据测序配置、并行策略、架构(例如,基于最佳架构超参数)的细节和可用计算而变化。

端对端维度图

以下讨论使用维度图来示出根据图像数据产生碱基检出所涉及的基础数据维度变化,以及实现所述数据维度变化的数据运算符的维度的不同具体实施。

在图22、图23和图24中,矩形表示数据运算符,如空间卷积层和时间卷积层和softmax分类层,并且圆角矩形表示由数据运算符产生的数据(例如,特征映射图)。

图22示出了用于单个簇碱基检出具体实施的维度图2200。需注意,输入的“循环维度”为三,并且继续为所得特征映射图的“循环维度”,直到第一时间卷积层为止。循环维度为三表示三个测序循环,并且其连续性表示三个测序循环的特征映射图是单独生成并进行卷积的,并且在三个测序循环之间无特征被混合。隔离卷积管道是由空间卷积层的深度隔离卷积滤波器实现的。需注意,这些空间卷积层的深度隔离卷积滤波器的“深度维度”为一。这使得这些深度隔离卷积滤波器能够仅对给定测序循环(即,循环内)的数据和所得特征映射图进行卷积,并且防止它们对任何其他测序循环的数据和所得特征映射图进行卷积。

相比之下,需注意,时间卷积层的深度组合卷积滤波器的深度维度为二。这使得这些深度组合卷积滤波器能够逐组地对多个测序循环的所得特征映射图进行卷积并混合测序循环之间的特征。

还注意到,“空间维度”不断减小为2的恒定步长。

此外,具有四个元素的向量由softmax层指数归一化,以产生四种碱基(A、C、T和G)的分类得分(即,置信度得分、概率、可能性、softmax函数得分)。将具有最高(最大)softmax函数得分的碱基分配给在当前测序循环处被碱基检出的单个目标簇。

本领域的技术人员将会知道,在其他具体实施中,所示维度可根据测序配置、并行策略、架构(例如,基于最佳架构超参数)的细节和可用计算而变化。

图23示出了用于多个簇、单个测序循环碱基检出具体实施的维度图2300。以上关于相对于单个簇碱基检出的循环、深度和空间维度的讨论适用于该具体实施。

此处,softmax层独立于10,000个单元中的每个单元进行运算,并且为10,000个单元中的每个单元产生相应的softmax函数得分的四元组。该四元组对应于四种碱基(A、C、T和G)。在一些具体实施中,这10,000个单元来源于64,0000个展平单元至10,000个密集单元的转换。

然后,根据这10,000个单元中的每个单元的softmax函数得分四元组,将每个四元组中具有最高softmax函数得分的碱基分配给这10,000个单元中的相应单元。

然后,选择这10,000个单元中对应于2,500个中心簇像素的那些2500个单元,这些中心簇像素包含2,500个目标簇的相应中心,这些目标簇在当前测序循环处被同时进行碱基检出。分配给所选择的2,500个单元的碱基继而被分配给这2,500个目标簇中的对应目标簇。

本领域的技术人员将会知道,在其他具体实施中,所示维度可根据测序配置、并行策略、架构(例如,基于最佳架构超参数)的细节和可用计算而变化。

图24示出了用于多个簇、多个测序循环碱基检出具体实施的维度图2400。以上关于相对于单个簇碱基检出的循环、深度和空间维度的讨论适用于该具体实施。

此外,以上关于相对于多个簇碱基检出的基于softmax的碱基检出分类的讨论此处也适用。然而,此处,对于已碱基检出的十三个测序循环碱基中的每个测序循环,这2,500个目标簇的基于softmax的碱基检出分类同步发生,从而同时针对这2,500个目标簇中的每个目标簇产生十三个碱基检出。

本领域的技术人员将会知道,在其他具体实施中,所示维度可根据测序配置、并行策略、架构(例如,基于最佳架构超参数)的细节和可用计算而变化。

阵列输入与堆叠输入

现在讨论其中可布置到基于神经网络的碱基检出器的多循环输入数据的两种配置。第一种配置被称为“阵列输入”,并且第二种配置被称为“堆叠输入”。该阵列输入在图25a中示出,并且在上文中相对于图19a至图24进行讨论。该阵列输入对单独的列/块中的每个测序循环的输入进行编码,因为针对每个循环的输入中的图像补片由于残差配准误差而相对于彼此未对准。专门化架构与该阵列输入一起使用,以隔离对单独的列/块中的每个单独的列/块的处理。另外,使用经变换的簇中心来计算距离通道,以考虑循环中的图像补片之间以及跨循环的图像补片之间的未对准。

相比之下,图25b所示的堆叠输入对来自单个列/块中的不同测序循环的输入进行编码。在一个具体实施中,这消除了使用该专门化架构的需要,因为该堆叠输入中的图像补片通过仿射变换和强度插值彼此对准,这消除了循环间和循环内残差配准误差。在一些具体实施中,该堆叠输入具有用于所有输入的公共缩放通道。

在另一个具体实施中,使用强度插值来重构或移位图像补片,使得每个图像补片的中心像素的中心与被碱基检出的单个目标簇的中心重合。这消除了使用补充距离通道的需要,因为所有非中心像素与单个目标簇的中心等距。不具有距离通道的堆叠输入在本文中被称为“重构的输入”,并且在图27中示出。

然而,对于涉及多个簇的碱基检出具体实施,因为存在包含已碱基检出的多个中心簇像素的图像补片,所以该重构可能是不可行的。不具有距离通道并且没有进行重构的堆叠输入在本文中被称为“对准的输入”,并且在图28和图29中示出。当不期望计算距离通道(例如,由于计算限制)并且重构是不可行的时,可使用对准的输入。

以下部分讨论了不使用该专门化架构和这些补充距离通道,而是使用标准卷积层和滤波器的各种碱基检出具体实施。

重构的输入:不具有距离通道的对准的图像补片

图26a描绘了重构2600a图像补片2602的像素以使被碱基检出的目标簇的中心居中于中心像素中的一个具体实施。目标簇的中心(紫色)落在图像补片2602的中心像素内,但与中心像素的中心(红色)偏移,如图26a所示。

为了消除偏移,重构器2604通过对像素的强度进行插值移位图像补片2602来补偿重构,并且产生重构的/移位的图像补片2606。在移位的图像补片2606中,该中心像素的中心与该目标簇的中心重合。另外,非中心像素与该目标簇的中心等距。插值可通过以下方式来执行:最近邻强度提取、基于高斯的强度提取、基于2×2子像素区域的平均值的强度提取、基于2×2子像素区域中最亮处的强度提取、基于3×3子像素区域的平均值的强度提取、双线性强度提取、双立方强度提取和/或基于加权区域覆盖的强度提取。这些技术在标题为“强度提取方法”的附录中有详细描述。

图26b描绘了另一个示例性重构的/移位的图像补片2600b,其中(i)中心像素的中心与目标簇的中心重合,并且(ii)非中心像素与目标簇的中心等距。这两个因素消除了提供补充距离通道的需要,因为所有非中心像素与该目标簇的中心具有相同的接近度。

图27示出了使用标准卷积神经网络和重构的输入在当前测序循环处对单个目标簇进行碱基检出的一个具体实施。在例示的具体实施中,该重构的输入包括:用于被碱基检出的当前(t)测序循环的当前图像补片集、用于先前(t-1)测序循环的先前图像补片集和用于后续(t+1)测序循环的后续图像补片集。每个图像补片集具有用于一个或多个图像通道中的相应图像通道的图像补片。图27描绘了两个图像通道,即红色通道和绿色通道。每个图像补片具有覆盖被碱基检出的目标簇、一些相邻簇及其周围背景的像素的像素强度数据。重构的输入还包括公共缩放通道。

因为图像补片被重构或移位成以目标簇的中心为中心,所以该重构的输入不包括任何距离通道,如上文相对于图26a至图26b所述。另外,这些图像补片彼此对准以移除循环间和循环内残差配准误差。在一个具体实施中,这使用仿射变换和强度插值来完成,其其他详细信息可见于附录1、2、3和4中。这些因素消除了使用专门化架构的需要,而是将标准卷积神经网络与重构的输入一起使用。

在例示的具体实施中,标准卷积神经网络2700包括使用标准卷积滤波器的七个标准卷积层。这意味着不存在用于防止测序循环之间的数据混合的隔离卷积管道(因为数据是对准的并且可被混合)。在一些具体实施中,不断减小的空间维度现象用于教导标准卷积滤波器更关注中心簇中心及其相邻像素,而不是其他像素。

然后通过这些标准卷积层处理重构的输入以产生最终卷积表示。基于该最终卷积表示,使用展平层、密集层和分类层以类似的方式获得在当前测序循环处对目标簇的碱基检出,如上文相对于图19c所述。

在一些具体实施中,在多个测序循环内迭代该过程,以产生目标簇的碱基检出序列。

在其他具体实施中,针对多个目标簇,在多个测序循环内迭代该过程,以产生该多个目标簇中的每个目标簇的碱基检出序列。

对准的输入:不具有距离通道并且没有进行重构的对准的图像补片

图28示出了使用标准卷积神经网络和对准的输入在当前测序循环处对多个目标簇进行碱基检出的一个具体实施。此处,因为图像补片包含被碱基检出的多个中心簇像素,所以重构是不可行的。因此,对准的输入中的图像补片没有进行重构。此外,根据一个具体实施,由于考虑到计算,因此不包括补充距离通道。

然后通过标准卷积层处理对准的输入以产生最终卷积表示。基于该最终卷积表示,使用展平层(任选的)、密集层(任选的)、分类层和碱基检出过滤层以类似的方式在当前测序循环处获得对目标簇中的每个目标簇的碱基检出,如上文相对于图20所述。

图29示出了使用标准卷积神经网络和对准的输入在多个测序循环处对多个目标簇进行碱基检出的一个具体实施。通过标准卷积层处理对准的输入,以针对被碱基检出的y个测序循环中的每个测序循环产生最终卷积表示。基于这y个最终卷积表示,使用展平层(任选的)、密集层(任选的)、分类层和碱基检出过滤层以类似的方式针对被碱基检出的y个测序循环中的每个测序循环获得对目标簇中的每个目标簇的碱基检出,如上文相对于图21所述。

本领域的技术人员将会知道,在其他具体实施中,标准卷积神经网络可处理重构的输入以用于更少或更多数量的测序循环,并且可包括更少或更多数量的标准卷积层。另外,重构的输入的维度、重构的输入中针对每个循环的张量、卷积滤波器、所得特征映射图和输出可不同。另外,卷积层中卷积滤波器的数量可不同。其可使用1D卷积、2D卷积、3D卷积、4D卷积、5D卷积、扩张或空洞卷积、转置卷积、深度可分离卷积、逐点卷积、1×1卷积、分组卷积、扁平卷积、空间和跨通道卷积、混洗分组卷积、空间可分离卷积和去卷积。其可使用一种或多种损失函数,诸如逻辑回归/对数损失函数、多类交叉熵/softmax损失函数、二元交叉熵损失函数、均方误差损失函数、L1损失函数、L2损失函数、平滑L1损失函数和Huber损失函数。其可以使用任何并行性、效率性和压缩方案,诸如TFRecords、压缩编码(例如,PNG)、锐化、映射图转换的并行检出、批处理、预取、模型并行性、数据并行性和同步/异步SGD。其可包括上采样层、下采样层、递归连接、栅极和栅极存储器单元(如LSTM或GRU)、残差块、残差连接、高速连接、跳跃连接、窥视孔连接、激活函数(例如,非线性变换函数如修正线性单元(ReLU)、泄露ReLU、指数衬里单元(ELU)、sigmoid和双曲线正切(tanh))、批量归一化层、正则化层、丢弃层、池化层(例如,最大或平均池化)、全局平均池化层和注意力机制。

训练

图30示出了训练3000基于神经网络的碱基检出器218的一个具体实施。利用专门化架构和标准架构两者,使用基于反向传播的梯度更新技术训练基于神经网络的碱基检出器218,该基于反向传播的梯度更新技术将预测的碱基检出3004与正确的碱基检出3008进行比较并基于该比较计算误差3006。然后使用误差3006来计算梯度,该梯度在后向传播3010期间应用于基于神经网络的碱基检出器218的权重和参数。训练3000由训练器1510使用随机梯度更新算法诸如ADAM来操作。

训练器1510使用训练数据3002(来源于测序图像108)训练基于神经网络的碱基检出器218,进行了生成预测的碱基检出3004的前向传播3012和基于误差3006更新权重和参数的后向传播3010的数千次和数百万次迭代。关于训练3000的其他详细信息可见于标题为“深度学习工具”的附录。

CNN—基于RNN的碱基检出器

混合神经网络

图31a描绘了用作基于神经网络的碱基检出器218的混合神经网络3100a的一个具体实施。混合神经网络3100a包括至少一个卷积模块3104(或卷积神经网络(CNN))和至少一个递归模块3108(或递归神经网络(RNN))。递归模块3108使用和/或接收来自卷积模块3104的输入。

卷积模块3104通过一个或多个卷积层处理输入数据3102并产生卷积输出3106。在一个具体实施中,输入数据3102仅包括图像通道或图像数据作为主要输入,如上文在标题为“输入”的部分中所述。馈送到混合神经网络3100a的图像数据可与上述图像数据202相同。

在另一个具体实施中,除了图像通道或图像数据之外,输入数据3102还包括补充通道,诸如距离通道、缩放通道、簇中心坐标和/或簇归属信息,如上文在标题为“输入”的部分中所述。

图像数据(即,输入数据3102)描绘了一个或多个簇及其周围背景的强度发射。卷积模块3104通过卷积层处理测序运行的一系列测序循环的图像数据,并且产生该图像数据的一个或多个卷积表示(即,卷积输出3106)。

该一系列测序循环可包括将待进行碱基检出的t个测序循环的图像数据,其中t为在1和1000之间的任何数。当t在15和21之间时,我们观察到准确的碱基检出结果。

递归模块3110对卷积输出3106进行卷积并产生递归输出3110。具体地讲,递归模块3110基于对卷积表示和先前隐藏状态表示进行卷积产生当前隐藏状态表示(即,递归输出3110)。

在一个具体实施中,递归模块3110将三维(3D)卷积应用于卷积表示和先前隐藏状态表示,并产生当前隐藏状态表示,在数学上被表达为:

ht=W13DCONVVt+W23DCONVht-1,其中

ht表示在当前时间步长t处产生的当前隐藏状态表示,

Vt表示在当前时间步长t处在当前滑动窗口处形成输入体积的一组卷积表示,

W13DCONV表示应用于Vt的第一3D卷积滤波器的权重,

ht-1表示在先前时间步长t-1处产生的先前隐藏状态表示,并且

W23DCONV表示应用于ht-1的第二3D卷积滤波器的权重。

在一些具体实施中,因为权重被共享,所以W13DCONV和W23DCONV是相同的。

然后输出模块3112基于递归输出3110产生碱基检出3114。在一些具体实施中,输出模块3112包括一个或多个全连接层和分类层(例如,softmax)。在此类具体实施中,通过这些全连接层处理当前隐藏状态表示,并且通过该分类层处理这些全连接层的输出,以产生碱基检出3114。

碱基检出3114包括对簇中的至少一个簇和对测序循环中的至少一个测序循环的碱基检出。在一些具体实施中,碱基检出3114包括对簇中的每个簇和对测序循环中的每个测序循环的碱基检出。因此,例如,当输入数据3102包括二十五个簇和十五个测序循环的图像数据时,碱基检出3102包括二十五个簇中的每个簇的十五个碱基检出的碱基检出序列。

3D卷积

图31b示出了由混合神经网络3100b的递归模块3110用来产生当前隐藏状态表示的3D卷积3100b的一个具体实施。

3D卷积是数学运算,其中存在于输入体积中的每个体素乘以卷积内核等效位置中的体素。最后,将结果的总和加到输出体积中。在图31b中,可以观察3D卷积运算的表示,其中将输入3116中突出显示的体素3116a乘以它们在内核3118中的相应体素。在这些计算之后,将它们的总和3120a添加到输出3120。

由于输入体积的坐标由(x,y,z)给出并且卷积内核具有尺寸(P,Q,R),因此3D卷积运算可在数学上定义为:

其中

O是卷积的结果,

I是输入体积,

K是卷积内核,并且

(p,q,r)是K的坐标。

为了更加简明,上述公式中省略了偏置项。

3D卷积除了从矩阵如2D卷积提取空间信息之外,还提取连续矩阵之间存在的信息。这允许它们映射3D对象的空间信息和一组顺序图像的时间信息两者。

卷积模块

图32示出了通过卷积模块3104的卷积层的级联3200来处理针对待进行碱基检出的该系列的t个测序循环中的单个测序循环的针对每个循环的输入数据3202的一个具体实施。

卷积模块3104通过卷积层的级联3200单独处理针对每个循环的输入数据的序列中的针对每个循环的每个输入数据。针对测序运行的待进行碱基检出的一系列t个测序循环生成针对每个循环的输入数据的序列,其中t为介于1和1000之间的任何数。因此,例如,当该系列包括十五个测序循环时,针对每个循环的输入数据的序列包括十五个不同的针对每个循环的输入数据。

在一个具体实施中,针对每个循环的每个输入数据仅包括图像通道(例如,红色通道和绿色通道)或图像数据(例如,上述图像数据202)。图像通道或图像数据描绘了在该系列中的相应测序循环处捕获的一个或多个簇及其周围背景的强度发射。在另一个具体实施中,除了图像通道或图像数据之外,针对每个循环的每个输入数据还包括补充通道,诸如距离通道和缩放通道(例如,上述输入数据1800)。

在例示的具体实施中,针对每个循环的输入数据3202包括两个图像通道,即红色通道和绿色通道,用于待进行碱基检出的该系列的t个测序循环中的单个测序循环。每个图像通道在尺寸为15×15的图像补片中编码。卷积模块3104包括五个卷积层。每个卷积层具有一组二十五个尺寸为3×3的卷积滤波器。此外,卷积滤波器使用所谓的SAME填充,其保留输入图像或张量的高度和宽度。利用SAME填充,将填充添加到输入特征,使得输出特征映射图具有与输入特征相同的尺寸。相反,所谓的VALID填充意味着没有填充。

第一卷积层3204处理针对每个循环的输入数据3202并产生尺寸为15×15×25的第一卷积表示3206。第二卷积层3208处理第一卷积表示3206并产生尺寸为15×15×25的第二卷积表示3210。第三卷积层3212处理第二卷积表示3210并产生尺寸为15×15×25的第三卷积表示3214。第四卷积层3216处理第三卷积表示3214并产生尺寸为15×15×25的第四卷积表示3218。第五卷积层3220处理第四卷积表示3218并产生尺寸为15×15×25的第五卷积表示3222。需注意,SAME填充保留了所得卷积表示的空间维度(例如,15×15)。在一些具体实施中,卷积层中卷积滤波器的数量为2的幂,诸如2、4、16、32、64、128、256、512和1024。

随着卷积变得更深,信息可能丢失。考虑到这一点,在一些具体实施中,我们使用跳跃连接(1)重新引入原始的针对每个循环的输入数据以及(2)将由较早卷积层提取的低级空间特征与由较晚卷积层提取的高级空间特征组合。我们观察到,这提高了碱基检出的准确度。

图33描绘了将单个测序循环的针对每个循环的输入数据3202与其由卷积模块3104的卷积层的级联3200产生的对应卷积表示3206、3210、3214、3218和3222混合3300的一个具体实施。卷积表示3206、3210、3214、3218和3222被级联以形成卷积表示的序列3304,其继而与针对每个循环的输入数据3202级联以产生混合表示3306。在其他具体实施中,使用求和代替级联。另外,混合3300由混合器3302操作。

然后,展平器3308展平混合表示3306,并且产生针对每个循环的所展平的混合表示3310。在一些具体实施中,所展平的混合表示3310是高维向量或二维(2D)阵列,其与针对每个循环的输入数据3202和卷积表示3206、3210、3214、3218和3222共享至少一个维度尺寸(例如,15×1905,即,相同的逐行维度)。这引起数据中的对称,从而有利于下游3D卷积中的特征提取。

图32和图33示出了待进行碱基检出的该系列的t个测序循环中单个测序循环的针对每个循环的图像数据3202的处理。卷积模块3104单独处理t个测序循环中每个测序循环的相应的针对每个循环的图像数据,并且为t个测序循环中每个测序循环产生相应的针对每个循环的所展平的混合表示。

堆叠

图34示出了将后续测序循环的所展平的混合表示布置为堆叠3400的一个具体实施。在例示的具体实施中,十五个测序循环的十五个所展平的混合表示3204a至3204o堆叠在堆叠3400中。堆叠3400是3D输入体积,其在3D卷积滤波器的相同感受野中使来自空间维度和时间维度(即,多个测序循环)的特征可用。堆叠由堆叠器3402操作。在其他具体实施中,堆叠3400可为任何维度(例如,1D、2D、4D、5D等)的张量。

递归模块

我们使用递归处理来捕获测序数据中的长期依赖性,并且具体地讲,考虑来自预定相和定相的跨循环测序图像中的二阶贡献。由于使用了时间步长,因此递归处理用于分析顺序数据。当前时间步长的当前隐藏状态表示是(i)来自先前时间步长的先前隐藏状态表示和(ii)当前时间步长的当前输入的函数。

递归模块3108使堆叠3400沿前向方向和后向方向经历3D卷积的递归应用(即,递归处理3500),并且在该系列中的t个测序循环中的每个测序循环处产生对簇中的每个簇的碱基检出。3D卷积用于在滑动窗口的基础上从堆叠3400中的所展平的混合表示的子集提取时空特征。每个滑动窗口(w)对应于相应的测序循环,并且在图35a中以橙色突出显示。在一些具体实施中,w被参数化为1、2、3、5、7、9、15、21等,具体取决于同时被碱基检出的测序循环总数。在一个具体实施中,w是同时被碱基检出的测序循环总数的一部分。

因此,例如,考虑到每个滑动窗口包含来自堆叠3400的三个后续的所展平的混合表示,该堆叠包括十五个所展平的混合表示3204a至3204o。然后,第一滑动窗口中的前三个所展平的混合表示3204a至3204c对应于第一测序循环,第二滑动窗口中的后三个所展平的混合表示3204b至3204d对应于第二测序循环,依此类推。在一些具体实施中,填充用于在对应于最终测序循环的最终滑动窗口中编码足够数量的所展平的混合表示,从最终所展平的混合表示3204o开始。

在每个时间步长,递归模块3108接受(1)当前输入x(t)和(2)先前隐藏状态表示h(t-1),并计算当前隐藏状态表示h(t)。当前输入x(t)仅包括来自堆叠3400的落在当前滑动窗口((w),橙色)内的所展平的混合表示的子集。因此,每个时间步长处的每个当前输入x(t)是多个所展平的混合表示(例如,1、2、3、5、7、9、15或21个所展平的混合表示,具体取决于w)的3D体积。例如,当(i)单个所展平的混合表示是维度为15×1905的二维(2D)表示并且(ii)w为7时,则每个时间步长处的每个当前输入x(t)是维度为15×1905×7的3D体积。

递归模块3108将第一3D卷积(W13DCONV)应用于当前输入x(t),并且将第二3D卷积(W23DCONV)应用于先前隐藏状态表示h(t-1),以产生当前隐藏状态表示h(t)。在一些具体实施中,因为权重被共享,所以W13DCONV和W23DCONV是相同的。

门控处理

在一个具体实施中,递归模块3108通过门控网络(诸如长短期记忆存储器(LSTM)网络或门控递归单元(GRU)网络)处理当前输入x(t)和先前隐藏状态表示h(t-1)。例如,在LSTM具体实施中,当前输入x(t)连同先前隐藏状态表示h(t-1)通过LSTM单元的四个门中的每个门来处理:输入门、激活门、遗忘门和输出门。这在图35b中示出,该图通过LSTM单元示出处理3500b当前输入x(t)和先前隐藏状态表示h(t-1)的一个具体实施,该LSTM单元将3D卷积应用于当前输入x(t)和先前隐藏状态表示h(t-1)并产生当前隐藏状态表示h(t)作为输出。在此类具体实施中,输入门、激活门、遗忘门和输出门的权重应用3D卷积。

在一些具体实施中,门控单元(LSTM或GRU)不使用非线性/挤压函数,如双曲正切函数和sigmoid函数。

在一个具体实施中,当前输入x(t)、先前隐藏状态表示h(t-1)和当前隐藏状态表示h(t)均为具有相同维度的3D体积,并且通过输入门、激活门、遗忘门和输出门被处理或产生为3D体积。

在一个具体实施中,递归模块3108的3D卷积使用一组尺寸为3×3的二十五个卷积滤波器以及SAME填充。在一些具体实施中,卷积滤波器的尺寸为5×5。在一些具体实施中,由递归模块3108使用的卷积滤波器的数量以2的幂(诸如2、4、16、32、64、128、256、512和1024)分解。

双向处理

递归模块3108首先在滑动窗口的基础上从开始到结束(自上而下)处理堆叠3400,并且产生用于前向遍历的当前隐藏状态表示的序列(向量)

然后,递归模块3108在滑动窗口的基础上从结束到开始(自下而上)处理堆叠3400,并且产生用于后向/反向遍历的当前隐藏状态表示的序列(向量)

在一些具体实施中,对于两个方向,在每个时间步长,该处理使用LSTM或GRU的门。例如,在每个时间步长,通过LSTM单元的输入门、激活门、遗忘门和输出门处理前向当前输入x(t)以产生前向当前隐藏状态表示并且通过另一LSTM单元的输入门、激活门、遗忘门和输出门处理后向当前输入x(t)以产生后向当前隐藏状态表示

然后,对于每个时间步长/滑动窗口/测序循环,递归模块3108将对应的前向和后向当前隐藏状态表示组合(级联或求和或求平均值),并且产生组合的隐藏状态表示

然后通过一个或多个全连接网络处理组合的隐藏表示以产生密集表示。然后通过softmax层处理密集表示以产生在给定测序循环处掺入簇中的每个簇为A、C、T和G的碱基的可能性。基于该可能性将该碱基分类为A、C、T或G。这是针对该系列中的t个测序循环中的每个测序循环(或者每个时间步长/滑动窗口)同步或顺序地进行的。

本领域的技术人员将会知道,在其他具体实施中,该混合架构可处理输入数据以用于更少或更多数量的测序循环,并且可包括更少或更多数量的卷积层和递归层。另外,输入数据、当前和先前隐藏表示、卷积滤波器、所得特征映射图和输出的维度可不同。另外,卷积层中卷积滤波器的数量可不同。其可使用各种填充和步幅配置。其可使用不同的分类函数(例如,sigmoid或回归),并且可包括或者可不包括全连接层。其可使用1D卷积、2D卷积、3D卷积、4D卷积、5D卷积、扩张或空洞卷积、转置卷积、深度可分离卷积、逐点卷积、1×1卷积、分组卷积、扁平卷积、空间和跨通道卷积、混洗分组卷积、空间可分离卷积和去卷积。其可使用一种或多种损失函数,诸如逻辑回归/对数损失函数、多类交叉熵/softmax损失函数、二元交叉熵损失函数、均方误差损失函数、L1损失函数、L2损失函数、平滑L1损失函数和Huber损失函数。其可以使用任何并行性、效率性和压缩方案,诸如TFRecords、压缩编码(例如,PNG)、锐化、映射图转换的并行检出、批处理、预取、模型并行性、数据并行性和同步/异步SGD。其可包括上采样层、下采样层、递归连接、栅极和栅极存储器单元(如LSTM或GRU)、残差块、残差连接、高速连接、跳跃连接、窥视孔连接、激活函数(例如,非线性变换函数如修正线性单元(ReLU)、泄露ReLU、指数衬里单元(ELU)、sigmoid和双曲线正切(tanh))、批量归一化层、正则化层、丢弃层、池化层(例如,最大或平均池化)、全局平均池化层和注意力机制。

实验结果和观察

图36示出了平衡用于训练基于神经网络的碱基检出器218的训练数据中的三核苷酸(3-mer)的一个具体实施。平衡导致在训练数据中对关于基因组的统计的学习非常少,继而提高了泛化。热映射图3602示出了训练数据中称为“鲍曼不动杆菌”的第一生物体的平衡的3-mer。热映射图3604示出了训练数据中称为“大肠杆菌”的第二生物体的平衡的3-mer。

图37将RTA碱基检出器的碱基检出准确度与基于神经网络的碱基检出器218的碱基检出准确度进行比较。如图37所示,RTA碱基检出器在两次测序运行(Read:1和Read:2)中具有更高的误差百分比。也就是说,基于神经网络的碱基检出器218在两次测序运行中均优于RTA碱基检出器。

图38将RTA碱基检出器的区块到区块泛化与同一区块上的基于神经网络的碱基检出器218的区块到区块泛化进行比较。也就是说,利用基于神经网络的碱基检出器218,对数据用于训练的同一区块的数据执行推断(测试)。

图39将RTA碱基检出器的区块到区块泛化与同一区块上和不同区块上的基于神经网络的碱基检出器218的区块到区块泛化进行比较。也就是说,基于神经网络的碱基检出器218基于第一区块上的簇的数据训练,但对来自第二区块上的簇的数据执行推断。在同一区块的具体实施中,基于神经网络的碱基检出器218基于来自区块五上的簇的数据训练,并且基于来自区块五上的簇的数据测试。在不同区块的具体实施中,基于神经网络的碱基检出器218基于来自区块十上的簇的数据训练,并且基于来自区块五上的簇的数据测试。

图40还将RTA碱基检出器的区块到区块泛化与不同区块上的基于神经网络的碱基检出器218的区块到区块泛化进行比较。在不同区块的具体实施中,基于神经网络的碱基检出器218基于来自区块十上的簇的数据训练并基于来自区块五上的簇的数据测试一次,然后基于来自区块二十上的簇的数据训练并基于来自区块五上的簇的数据测试。

图41示出了作为输入馈送到基于神经网络的碱基检出器218的图像补片的不同尺寸如何影响碱基检出准确度。在两个测序运行(Read:1和Read:2)中,误差百分比随着补片尺寸从3×3增加至11×11而减小。也就是说,基于神经网络的碱基检出器218利用较大的图像补片产生更准确的碱基检出。在一些具体实施中,通过使用不大于100×100像素的图像补片来平衡碱基检出准确度与计算效率。在其他具体实施中,使用大至3000×3000像素(以及更大)的图像补片。

图42、图43、图44和图45示出了基于神经网络的碱基检出器218对来自鲍曼不动杆菌和大肠杆菌的训练数据进行槽道到槽道泛化。

转到图43,在一个具体实施中,基于神经网络的碱基检出器218基于来自流通池的第一槽道上的簇的大肠杆菌数据训练,并基于来自流通池的第一槽道和第二槽道两者上的簇的鲍曼不动杆菌数据测试。在另一个具体实施中,基于神经网络的碱基检出器218基于来自第一槽道上的簇的鲍曼不动杆菌数据训练,并基于来自第一槽道和第二槽道两者上的簇的鲍曼不动杆菌数据测试。在又一个具体实施中,基于神经网络的碱基检出器218基于来自第二槽道上的簇的大肠杆菌数据训练,并基于来自第一槽道和第二槽道两者上的簇的鲍曼不动杆菌数据测试。在又一个具体实施中,基于神经网络的碱基检出器218基于来自第二槽道上的簇的鲍曼不动杆菌数据训练,并基于来自第一槽道和第二槽道两者上的簇的鲍曼不动杆菌数据测试。

在一个具体实施中,基于神经网络的碱基检出器218基于来自流通池的第一槽道上的簇的大肠杆菌数据训练,并基于来自流通池的第一槽道和第二槽道两者上的簇的大肠杆菌数据测试。在另一个具体实施中,基于神经网络的碱基检出器218基于来自第一槽道上的簇的鲍曼不动杆菌数据训练,并基于来自第一槽道和第二槽道两者上的簇的大肠杆菌数据测试。在又一个具体实施中,基于神经网络的碱基检出器218基于来自第二槽道上的簇的大肠杆菌数据训练,并基于来自第一槽道上的簇的大肠杆菌数据测试。在又一个具体实施中,基于神经网络的碱基检出器218基于来自第二槽道上的簇的鲍曼不动杆菌数据训练,并基于来自第一槽道和第二槽道两者上的簇的大肠杆菌数据测试。

在图43中,针对两个测序运行(例如,Read:1和Read:2)的这些具体实施中的每个具体实施示出了碱基检出准确度(通过误差百分比测量)。

转到图44,在一个具体实施中,基于神经网络的碱基检出器218基于来自流通池的第一槽道上的簇的大肠杆菌数据训练,并基于来自第一槽道上的簇的鲍曼不动杆菌数据测试。在另一个具体实施中,基于神经网络的碱基检出器218基于来自第一槽道上的簇的鲍曼不动杆菌数据训练,并基于来自第一槽道上的簇的鲍曼不动杆菌数据测试。在又一个具体实施中,基于神经网络的碱基检出器218基于来自第二槽道上的簇的大肠杆菌数据训练,并基于来自第一槽道上的簇的鲍曼不动杆菌数据测试。在又一个具体实施中,基于神经网络的碱基检出器218基于来自第二槽道上的簇的鲍曼不动杆菌数据训练,并基于来自第一槽道上的簇的鲍曼不动杆菌数据测试。

在一个具体实施中,基于神经网络的碱基检出器218基于来自流通池的第一槽道上的簇的大肠杆菌数据训练,并基于来自第一槽道上的簇的大肠杆菌数据测试。在另一个具体实施中,基于神经网络的碱基检出器218基于来自第一槽道上的簇的鲍曼不动杆菌数据训练,并基于来自第一槽道上的簇的大肠杆菌数据测试。在又一个具体实施中,基于神经网络的碱基检出器218基于来自第二槽道上的簇的大肠杆菌数据训练,并基于来自第一槽道上的簇的大肠杆菌数据测试。在又一个具体实施中,基于神经网络的碱基检出器218基于来自第二槽道上的簇的鲍曼不动杆菌数据训练,并基于来自第一槽道上的簇的大肠杆菌数据测试。

在图44中,针对两个测序运行(例如,Read:1和Read:2)的这些具体实施中的每个具体实施示出了碱基检出准确度(通过误差百分比测量)。将图43与图44进行比较,可以看出,后者所涵盖的具体实施导致误差降低50%至80%。

转到图45,在一个具体实施中,基于神经网络的碱基检出器218基于来自流通池的第一槽道上的簇的大肠杆菌数据训练,并基于来自第二槽道上的簇的鲍曼不动杆菌数据测试。在另一个具体实施中,基于神经网络的碱基检出器218基于来自第一槽道上的簇的鲍曼不动杆菌数据训练,并基于来自第二槽道上的簇的鲍曼不动杆菌数据测试。在又一个具体实施中,基于神经网络的碱基检出器218基于来自第二槽道上的簇的大肠杆菌数据训练,并基于来自第一槽道上的簇的鲍曼不动杆菌数据测试。在第二第一槽道中。在又一个具体实施中,基于神经网络的碱基检出器218基于来自第二槽道上的簇的鲍曼不动杆菌数据训练,并基于来自第二槽道上的簇的鲍曼不动杆菌数据测试。

在一个具体实施中,基于神经网络的碱基检出器218基于来自流通池的第一槽道上的簇的大肠杆菌数据训练,并基于来自第二槽道上的簇的大肠杆菌数据测试。在另一个具体实施中,基于神经网络的碱基检出器218基于来自第一槽道上的簇的鲍曼不动杆菌数据训练,并基于来自第二槽道上的簇的大肠杆菌数据测试。在又一个具体实施中,基于神经网络的碱基检出器218基于来自第二槽道上的簇的大肠杆菌数据训练,并基于来自第二槽道上的簇的大肠杆菌数据测试。在又一个具体实施中,基于神经网络的碱基检出器218基于来自第二槽道上的簇的鲍曼不动杆菌数据训练,并基于来自第二槽道上的簇的大肠杆菌数据测试。

在图45中,针对两个测序运行(例如,Read:1和Read:2)的这些具体实施中的每个具体实施示出了碱基检出准确度(通过误差百分比测量)。将图43与图45进行比较,可以看出,后者所涵盖的具体实施导致误差降低50%至80%。

图46示出了上文相对于图42、图43、图44和图45所述的槽道到槽道泛化的误差分布。在一个具体实施中,误差分布检测在绿色通道中碱基检出A和T碱基的误差。

图47将由图46的误差分布检测到的误差源归属于绿色通道中的低簇强度。

图48比较了用于两次测序运行(Read1和Read2)的RTA碱基检出器和基于神经网络的碱基检出器218的误差分布。该比较确认了基于神经网络的碱基检出器218的优异的碱基检出准确度。

图49a示出了四种不同仪器上的基于神经网络的碱基检出器218的运行到运行泛化。

图49b示出了在同一仪器上执行的4个不同运行中基于神经网络的碱基检出器218的运行到运行泛化。

图50示出了用于训练基于神经网络的碱基检出器218的训练数据的基因组统计。

图51示出了用于训练基于神经网络的碱基检出器218的训练数据的基因组上下文。

图52示出了基于神经网络的碱基检出器218在碱基检出长读段(例如,2×250)中的碱基检出准确度。

图53示出了基于神经网络的碱基检出器218如何关注图像补片上的中心簇像素及其相邻像素的一个具体实施。

图54示出了根据一个具体实施的用于训练和运行基于神经网络的碱基检出器218的各种硬件部件和配置。在其他具体实施中,使用不同的硬件部件和配置。

图55示出了可使用基于神经网络的碱基检出器218执行的各种测序任务。一些示例包括质量评分(QScoring)和变异分类。图55还列出了基于神经网络的碱基检出器218针对其执行碱基检出的一些示例性测序仪器。

图56是由t-分布随机邻域嵌入(t-SNE)可视化的散点图5600,并且描绘了基于神经网络的碱基检出器218的碱基检出结果。散点图5600示出碱基检出结果成簇为64(43)个组,其中每个组主要对应于特定输入3-mer(三核苷酸重复图案)。情况就是这样,因为基于神经网络的碱基检出器218处理至少三个测序循环的输入数据并且学习序列特异性基序,以基于先前的碱基检出和后续的碱基检出来产生当前的碱基检出。

质量评分

质量评分是指为每个碱基检出分配质量得分的过程。根据Phred框架来定义质量得分,该框架将测序轨迹的预测特征的值变换为基于质量表的概率。质量表通过对校准数据集的训练获得,并且在测序平台的特性改变时更新。质量得分的概率解释允许在下游分析诸如变异检出和序列组装中公平整合不同的测序读段。因此,用于定义质量得分的有效模型对于任何碱基检出器而言都是必不可少的。

我们首先描述什么是质量得分。质量得分是碱基检出中测序误差的概率的量度。高质量得分表明碱基检出更为可靠,错误的可能性更低。例如,如果碱基的质量得分为Q30,则不正确地检出该碱基的概率为0.001。这还表明碱基检出准确度为99.9%。

下表示出了碱基检出质量得分与其对应的误差概率、碱基检出准确率和碱基检出误差率之间的关系:

我们现在描述如何生成质量得分。在测序运行期间,针对每个测序循环,为每个区块上的每个簇的每个碱基检出分配质量得分。在两步过程中计算每个碱基检出的Illumina质量得分。对于每个碱基检出,计算多个质量预测器值。质量预测器值是从中提取碱基检出的簇的可观察属性。这些属性包括诸如强度分布和信噪比的属性,并且测量碱基检出可靠性的各个方面。已根据经验确定它们与碱基检出的质量相关。

质量模型(也称为质量表或Q表)列出质量预测器值的组合并将它们与对应的质量得分相关联;该关系通过使用经验数据的校准过程来确定。为了估计新的质量得分,计算新的碱基检出的质量预测器值,并与预校准的质量表中的值进行比较。

我们现在描述如何校准质量表。校准是这样的过程,其中统计质量表来源于经验数据,该经验数据包括在多种仪器上测序的各种充分表征的人类和非人类样本。使用Phred算法的修改版本,使用原始信号的特性和通过将读段与适当的参考序列比对而确定的误差率来开发和完善质量表。

我们现在描述为什么质量表会不时改变。质量表为根据特定仪器配置和化学版本生成的运行提供质量得分。当测序平台的重要特性改变时,诸如新的硬件、软件或化学版本,质量模型需要重新校准。例如,测序化学的改进需要对质量表进行重新校准,以准确地对新数据进行评分,这将消耗大量的处理时间和计算资源。

基于神经网络的质量评分

我们公开了用于质量评分的基于神经网络的技术,该技术不使用质量预测器值或质量表,而是根据对充分校准的神经网络的预测器的置信度来推断质量得分。在神经网络的上下文中,“校准”是指主观预报和经验长期频率之间的一致性或相关性。这是确定性的常态性概念:如果神经网络声称90%的时间内特定标记是正确标记,则在评估期间,符合正确概率为90%的所有标记中的90%应该是正确标记。需注意,校准是与准确度正交的问题:神经网络的预测可能是准确的但被错误校准的。

所公开的神经网络被充分校准,因为它们是基于具有各种测序特性的大规模训练集来训练的,该大规模训练集充分地模拟了真实世界测序运行的碱基检出域。具体地讲,将从多种测序平台、测序仪器、测序方案、测序化学、测序试剂、簇密度和流通池获得的测序图像用作训练示例以训练神经网络。在其他具体实施中,不同的碱基检出和质量评分模型分别用于不同的测序平台、测序仪器、测序方案、测序化学、测序试剂、簇密度和/或流通池。

对于四个碱基检出类(A、C、T和G)中的每个碱基检出类,大量的测序图像用作训练示例,这些训练示例在宽范围测序条件下识别表示相应碱基检出类的强度模式。这继而消除了将神经网络的分类能力扩展到训练中不存在的新类的需要。此外,基于将读段与适当的参考序列比对,每个训练示例用对应的基准真值来准确地标记。结果是充分校准的神经网络,其对预测的置信度可被解释为质量评分的确定性度量,在下文中以数学方式表示。

让Y={A,C,T,G}表示碱基检出类A、C、T和G的类标签集并让X表示输入空间。让Nθ(y|x)表示所公开的神经网络中的一个神经网络针对输入x∈X预测的概率分布并让θ表示神经网络的参数。对于具有正确标记yi的训练实例xi,神经网络预测标记预测得到正确性得分(如果则ci=1,否则为0),以及置信度得分

神经网络Nθ(y|x)在数据分布D上被充分校准,因为在所有(xi,yi)∈D和α上,ri=α的概率均为ci=1。例如,在来自D的样本中,若给定100个预测,且每个预测的置信度为0.8,则80个预测由神经网络Nθ(y|x)正确地分类。更正式地,Pθ,D(r,c)表示神经网络Nθ(y|x)对D的预测的r和c值上的分布,并且表示为其中Iα表示α周围的小的非零间隔。

由于充分校准的神经网络是基于各种训练集来训练的,因此与质量预测器值或质量表不同,它们不特定于仪器配置和化学版本。这具有两个优点。首先,对于不同类型的测序仪器,充分校准的神经网络消除了从单独的校准过程得出不同质量表的需要。其次,对于同一测序仪器,它们消除了当测序仪器的特性改变时重新校准的需要。更多详细信息如下。

根据Softmax置信概率推断质量得分

第一充分校准的神经网络是基于神经网络的碱基检出器218,该碱基检出器处理来源于测序图像108的输入数据并产生碱基为A、C、T和G的碱基检出置信概率。碱基检出置信概率也可被认为是可能性或分类得分。在一个具体实施中,基于神经网络的碱基检出器218使用softmax函数来生成碱基检出置信概率作为softmax函数得分。

根据由基于神经网络的碱基检出器218的softmax函数生成的碱基检出置信概率推断质量得分,因为softmax函数得分被校准(即,它们表示基准真值正确的可能性)并且因此自然地对应于质量得分。

我们通过在训练期间选择由基于神经网络的碱基检出器218产生的一组碱基检出置信概率并确定它们的碱基检出误差率(或碱基检出准确率)来证实碱基检出置信概率和质量得分之间的对应关系。

因此,例如,我们选择由基于神经网络的碱基检出器218产生的碱基检出置信概率“0.90”。当基于神经网络的碱基检出器218以0.90的softmax函数得分进行碱基检出预测时,我们采用了许多(例如,在10000至1000000的范围内)实例。该许多实例可从验证集或测试集获得。然后,基于与和该许多实例中的相应实例相关联的对应基准真值碱基检出的比较,我们确定该许多实例中有多少实例碱基检出预测正确。

我们观察到,在该许多实例中的百分之九十中正确预测了碱基检出,具有百分之十的错误检出。这意味着对于0.90的softmax函数得分,碱基检出误差率为10%并且碱基检出准确率为90%,这继而对应于质量得分Q10(参见上表)。类似地,对于其他softmax函数得分如0.99、0.999、0.9999、0.99999和0.999999,我们观察到分别与质量得分Q20、Q30、Q40、Q50和Q60之间的对应关系。这在图59a中示出。在其他具体实施中,我们观察到softmax函数得分与质量得分(诸如Q9、Q11、Q12、Q23、Q25、Q29、Q37和Q39)之间的对应关系。

我们还观察到与分组的质量得分的对应关系。例如,0.80的softmax函数得分对应于分组的质量得分Q06,0.95的softmax函数得分对应于分组的质量得分Q15,0.993的softmax函数得分对应于分组的质量得分Q22,0.997的softmax函数得分对应于分组的质量得分Q27,0.9991的softmax函数得分对应于分组的质量得分Q33,0.9995的softmax函数得分对应于分组的质量得分Q37,并且0.9999的softmax函数得分对应于分组的质量得分Q40。这在图59b中示出。

本文所用的样本大小较大以避免小的样本问题,并且可例如在10000至1000000的范围内。在一些具体实施中,用于确定碱基检出误差率(或碱基检出准确率)的实例的样本大小基于被评估的softmax函数得分来选择。例如,对于0.99的softmax函数得分,样本包括100个实例,对于0.999的softmax函数得分,样本包括1000个实例,对于0.9999的softmax函数得分,样本包括10000个实例,对于0.99999的softmax函数得分,样本包括100000个实例,并且对于0.999999的softmax函数得分,样本包括1000000个实例。

关于softmax,softmax是用于多类分类的输出激活函数。正式地,训练所谓的softmax分类器是回归到类概率,而不是回归到真实分类器,因为它不返回类,而是返回每个类的可能性的置信度预测。softmax函数取一类值并将它们转换为总和为1的概率。softmax函数将任意实数值的k维向量压缩到0到1范围内的实数值的k维向量。因此,使用softmax函数确保输出是有效的、指数归一化的概率质量函数(非负且总和为1)。

考虑到是向量的第i个元素

其中

是长度为n的向量,其中n为分类中类的数量。这些元素的值在0和1之间,并且总和为1,使得它们表示有效概率分布。

示例性softmax激活函数5706在图57中示出。Softmax 5706如下应用于三个类:需注意,三个输出总是总和为1。因此,它们定义了离散的概率质量函数。

当用于分类时,给出属于类i的概率。

名称“softmax”可能有些令人困惑。该函数与argmax函数的关系比与max函数的关系更密切。术语“soft”来源于这样的事实:softmax函数是连续且可微的。argmax函数的结果表示为独热(one-hot)向量,它不是连续的或可微的。因此,softmax函数提供argmax的“软化”版本。将softmax函数称为“softargmax”可能更好,但当前的名称是根深蒂固的约定。

图57示出了选择5700基于神经网络的碱基检出器218的碱基检出置信概率3004以进行质量评分的一个具体实施。基于神经网络的碱基检出器218的碱基检出置信概率3004可以是分类得分(例如,softmax函数得分或sigmoid函数得分)或回归得分。在一个具体实施中,在训练3000期间产生碱基检出置信概率3004。

在一些具体实施中,选择5700是基于量化来完成的,该量化由访问碱基检出置信概率3004并产生量化分类得分5704的量化器5702执行。量化分类得分5704可以是任何实数。在一个具体实施中,基于定义为的选择公式来选择量化分类得分5704。在另一个具体实施中,基于定义为的选择公式来选择量化分类得分5704。

图58示出了基于神经网络的质量评分5800的一个具体实施。对于量化分类得分5704中的每个量化分类得分,通过将其碱基检出预测3004与对应的基准真值碱基检出3008进行比较(例如,在具有不同样本大小的批次上)来确定碱基检出误差率5808和/或碱基检出准确率5810。该比较由比较器5802执行,该比较器继而包括碱基检出误差率确定器5804和碱基检出准确率确定器5806。

然后,为了建立量化分类得分5704与质量得分之间的对应关系,由拟合确定器5812确定量化分类得分5704与其碱基检出误差率5808(和/或其碱基检出准确率5810)之间的拟合。在一个具体实施中,拟合确定器5812为回归模型。

基于该拟合,质量得分通过相关器5814与量化分类得分5704相关联。

图59a至图59b描绘了质量得分和由基于神经网络的碱基检出器218作出的碱基检出置信度预测之间的对应关系5900的一个具体实施。基于神经网络的碱基检出器218的碱基检出置信概率可以是分类得分(例如,softmax函数得分或sigmoid函数得分)或回归得分。图59a是用于质量得分的质量得分对应方案5900a。图59b是用于分组的质量得分的质量得分对应方案5900a。

推断

图60示出了根据在推断6000期间由基于神经网络的碱基检出器218作出的碱基检出置信度预测来推断质量得分的一个具体实施。基于神经网络的碱基检出器218的碱基检出置信概率可以是分类得分(例如,softmax函数得分或sigmoid函数得分)或回归得分。

在推断6000期间,预测的碱基检出6006被分配其碱基检出置信概率(即,最高softmax函数得分(红色))最对应的质量得分6008。在一些具体实施中,质量得分对应关系5900是通过查找质量得分对应方案5900a-5900b作出的,并且由质量得分推断器6012操作。

在一些具体实施中,当分配给其检出的碱基的质量得分6008或后续碱基检出循环内的平均质量得分降至低于预设阈值时,纯度过滤器6010终止给定簇的碱基检出。

推断6000包括前向传播6014的数百次、数千次和/或数百万次迭代,迭代包括并行化技术诸如批处理。对包括输入数据的推断数据6002执行推断6000(其中图像通道来源于测序图像108和/或补充通道(例如,距离通道、缩放通道))。推断6000由测试器6004操作。

直接预测碱基检出质量

第二充分校准的神经网络是基于神经网络的质量评分器6102,其处理来源于测序图像108的输入数据并直接产生质量指示。

在一个具体实施中,基于神经网络的质量评分器6102是多层感知器(MLP)。在另一个具体实施中,基于神经网络的质量评分器6102是前馈神经网络。在又一个具体实施中,基于神经网络的质量评分器6102是全连接神经网络。在另一个具体实施中,基于神经网络的质量评分器6102是全卷积神经网络。在又一个具体实施中,基于神经网络的质量评分器6102是语义分割神经网络。

在一个具体实施中,基于神经网络的质量评分器6102是具有多个卷积层的卷积神经网络(CNN)。在另一个具体实施中,该基于神经网络的碱基检出器是递归神经网络(RNN),诸如长短期记忆网络(LSTM)、双向LSTM(Bi-LSTM)或门控递归单元(GRU)。在又一个具体实施中,该基于神经网络的碱基检出器包括CNN和RNN两者。

在其他具体实施中,基于神经网络的质量评分器6102可使用1D卷积、2D卷积、3D卷积、4D卷积、5D卷积、扩张或空洞卷积、转置卷积、深度可分离卷积、逐点卷积、1×1卷积、分组卷积、扁平卷积、空间和跨通道卷积、混洗分组卷积、空间可分离卷积和去卷积。其可使用一种或多种损失函数,诸如逻辑回归/对数损失函数、多类交叉熵/softmax损失函数、二元交叉熵损失函数、均方误差损失函数、L1损失函数、L2损失函数、平滑L1损失函数和Huber损失函数。其可以使用任何并行性、效率性和压缩方案,诸如TFRecords、压缩编码(例如,PNG)、锐化、映射图转换的并行检出、批处理、预取、模型并行性、数据并行性和同步/异步SGD。其可包括上采样层、下采样层、递归连接、栅极和栅极存储器单元(如LSTM或GRU)、残差块、残差连接、高速连接、跳跃连接、窥视孔连接、激活函数(例如,非线性变换函数如修正线性单元(ReLU)、泄露ReLU、指数衬里单元(ELU)、sigmoid和双曲线正切(tanh))、批量归一化层、正则化层、丢弃层、池化层(例如,最大或平均池化)、全局平均池化层和注意力机制。

在一些具体实施中,基于神经网络的质量评分器6102具有与基于神经网络的碱基检出器218相同的架构。

输入数据可包括来源于测序图像108的图像通道和/或补充通道(例如,距离通道、缩放通道)。基于神经网络的质量评分器6102处理输入数据并且产生输入数据的另选表示。另选表示在一些具体实施中是卷积表示,并且在其他具体实施中是隐藏表示。然后由输出层处理另选表示以产生输出。该输出用于产生质量指示。

在一个具体实施中,将相同的输入数据馈送到基于神经网络的碱基检出器218和基于神经网络的质量评分器6102以产生(i)来自基于神经网络的碱基检出器218的碱基检出和(ii)来自基于神经网络的质量评分器6102的对应质量指示。在一些具体实施中,利用端到端反向传播联合训练基于神经网络的碱基检出器218和基于神经网络的质量评分器6102。

在一个具体实施中,基于神经网络的质量评分器6102输出针对特定测序循环的单个目标簇的质量指示。在另一个具体实施中,该基于神经网络的质量评分器输出针对特定测序循环的多个目标簇中的每个目标簇的质量指示。在又一个具体实施中,该基于神经网络的质量评分器输出针对多个测序循环中的每个测序循环的多个目标簇中的每个目标簇的质量指示,从而产生每个目标簇的质量指示序列。

在一个具体实施中,基于神经网络的质量评分器6102是基于训练示例训练的卷积神经网络,该训练示例包括来自测序图像108并且标记有碱基检出质量基准真值的数据。使用基于反向传播的梯度更新技术训练基于神经网络的质量评分器6102,该基于反向传播的梯度更新技术将卷积神经网络6102的碱基检出质量预测6104与碱基检出质量基准真值6108逐步匹配。在一些具体实施中,如果碱基是错误的碱基检出,则我们将该碱基标记为0;否则将该碱基标记为1。因此,输出对应于误差的概率。在一个具体实施中,这消除了使用序列上下文作为输入特征的需要。

卷积神经网络6102的输入模块将来自在一个或多个测序循环处捕获的测序图像108的数据馈送到卷积神经网络6102,以确定针对一个或多个簇检出的一种或多种碱基的质量。

卷积神经网络6102的输出模块将卷积神经网络6102进行的分析转换为识别针对所述一个或多个簇检出的所述一种或多种碱基的质量的输出6202。

在一个具体实施中,输出模块还包括softmax分类层,该softmax分类层产生质量状态为高质量、中等质量(任选的,如虚线所示)和低质量的可能性。在另一个具体实施中,输出模块还包括softmax分类层,该softmax分类层产生质量状态为高质量和低质量的可能性。本领域的技术人员将会知道,可使用不同地且可辨别地区分(bucket)质量得分的其他类。softmax分类层产生质量被分配多个质量得分的可能性。基于该可能性,为质量分配来自所述多个质量得分中的一个质量得分的质量得分。质量得分对数地基于碱基检出误差概率。所述多个质量得分包括Q6、Q10、Q15、Q20、Q22、Q27、Q30、Q33、Q37、Q40和Q50。在另一个具体实施中,输出模块还包括回归层,该回归层产生识别质量的连续值。

在一些具体实施中,基于神经网络的质量评分器6102还包括补充输入模块,该补充输入模块用所检出碱基的质量预测器值补充来自测序图像108的数据,以及将该质量预测器值连同来自该测序图像的数据馈送到卷积神经网络6102。

在一些具体实施中,质量预测器值包括在线重叠、纯度、定相、start5、六聚体得分、基序累积、端值(endiness)、近似均聚物、强度衰减、倒数第二纯化度(chastity)、与背景的信号重叠(SOWB)和/或偏移的纯度G调整(shifted purity G adjustment)。在其他具体实施中,质量预测器值包括峰高、峰宽、峰位置、相对峰位置、峰高比、峰间距比和/或峰对应关系。关于质量预测器值的其他详细信息可见于美国专利公布2018/0274023和2012/0020537,这些专利公布以引用方式并入,如同在本文完整示出一样。

训练

图61示出了训练6100基于神经网络的质量评分器6102以处理来源于测序图像108的输入数据并直接产生质量指示的一个具体实施。使用基于反向传播的梯度更新技术训练基于神经网络的质量评分器6102,该基于反向传播的梯度更新技术将预测质量指示6104与正确的质量指示6108进行比较并基于该比较计算误差6106。然后使用误差6106来计算梯度,该梯度在后向传播6110期间应用于基于神经网络的质量评分器6102的权重和参数。训练6100由训练器1510使用随机梯度更新算法诸如ADAM来操作。

训练器1510使用训练数据6112(来源于测序图像108)训练基于神经网络的质量评分器6102,进行了生成预测质量指示的前向传播6116和基于误差6106更新权重和参数的后向传播6110的数千次和数百万次迭代。在一些具体实施中,训练数据6112补充有质量预测器值6114。关于训练6100的其他详细信息可见于标题为“深度学习工具”的附录。

推断

图62示出了在推断6200期间直接产生质量指示作为基于神经网络的质量评分器6102的输出的一个具体实施。推断6200包括前向传播6208的数百次、数千次和/或数百万次迭代,迭代包括并行化技术诸如批处理。对包括输入数据的推断数据6204执行推断6200(其中图像通道来源于测序图像108和/或补充通道(例如,距离通道、缩放通道))。在一些具体实施中,推断数据6204补充有质量预测器值6206。推断6200由测试器6210操作。

数据预处理

在一些具体实施中,所公开的技术使用应用于图像数据202中的像素并产生预处理图像数据202p的预处理技术。在此类具体实施中,代替图像数据202,预处理图像数据202p作为对基于神经网络的碱基检出器218的输入提供。数据预处理由数据预处理器6602操作,该数据预处理器继而可包含数据归一化器6632和数据增强器6634。

图66示出了可包括数据归一化和数据增强的数据预处理的不同具体实施。

数据归一化

在一个具体实施中,逐图像补片地对图像数据202中的像素应用数据归一化。这包括将图像补片中的像素的强度值归一化,使得所得归一化图像补片的像素强度直方图的第五百分位数为零,第九十五百分位数为一。也就是说,在归一化图像补片中,(i)5%的像素具有小于零的强度值,并且(ii)另外5%的像素具有大于一的强度值。图像数据202的相应图像补片可被单独归一化,或者图像数据202可一次全部被归一化。结果是归一化图像补片6616,其是预处理图像数据202p的一个示例。数据归一化由数据归一化器6632操作。

数据增强

在一个具体实施中,将数据增强应用于图像数据202中的像素的强度值。这包括(i)将图像数据202中所有像素的强度值乘以相同的缩放因子,以及(ii)将相同的偏移值添加到图像数据202中所有像素的缩放强度值。对于单个像素,这可由以下公式表示:

增强像素强度(API)=aX+b

其中A是缩放因子,X是原始像素强度,b是偏移值,aX是缩放像素强度

结果是增强的图像补片6626,其也是预处理图像数据202p的一个示例。数据增强由数据增强器6634操作。

图67示出了当基于神经网络的碱基检出器218基于细菌数据训练并且基于人类数据测试时,图66的数据归一化技术(DeepRTA(归一化))和数据增强技术(DeepRTA(增强))降低了碱基检出误差百分比,其中细菌数据和人类数据共享相同的测定(例如,两者均包含内含子数据)。

图68示出了当基于神经网络的碱基检出器218基于非外显子数据(例如,内含子数据)训练并基于外显子数据测试时,图66的数据归一化技术(DeepRTA(归一化))和数据增强技术(DeepRTA(增强))降低了碱基检出误差百分比。

换句话讲,图66的数据归一化技术和数据增强技术允许基于神经网络的碱基检出器218更好地概括训练中未看到的数据,从而减少过度拟合。

在一个具体实施中,在训练和推断期间均应用数据增强。在另一个具体实施中,仅在训练期间应用数据增强。在又一个具体实施中,仅在推断期间应用数据增强。

测序系统

图63A和图63B描绘了测序系统6300A的一个具体实施。测序系统6300A包括可配置处理器6346。可配置处理器6346实现本文所公开的碱基检出技术。测序系统也称为“测序仪”。

测序系统6300A可操作以获得与生物物质或化学物质中的至少一者相关的任何信息或数据。在一些具体实施中,测序系统6300A是可类似于台式设备或台式计算机的工作站。例如,用于进行所需反应的大部分(或全部)系统和部件可位于共同的外壳6302内。

在特定具体实施中,测序系统6300A是被配置用于各种应用的核酸测序系统,各种应用包括但不限于从头测序、全基因组或靶基因组区域的重测序以及宏基因组学。测序仪也可用于DNA或RNA分析。在一些具体实施中,测序系统6300A还可被配置为在生物传感器中产生反应位点。例如,测序系统6300A可被配置为接收样品并生成来源于样品的克隆扩增核酸的表面附着簇。每个簇可构成生物传感器中的反应位点或作为其一部分。

示例性测序系统6300A可包括被配置为与生物传感器6312相互作用以在生物传感器6312内进行所需反应的系统插座或接口6310。在以下关于图63A的描述中,将生物传感器6312装载到系统插座6310中。然而,应当理解,可将包括生物传感器6312的卡盒插入到系统插座6310中,并且在一些状态下,可暂时或永久地移除卡盒。如上所述,除了别的以外,卡盒还可包括流体控制部件和流体储存部件。

在特定具体实施中,测序系统6300A被配置为在生物传感器6312内进行大量平行反应。生物传感器6312包括可发生所需反应的一个或多个反应位点。反应位点可例如固定至生物传感器的固体表面或固定至位于生物传感器的对应反应室内的小珠(或其他可移动基板)。反应位点可包括,例如,克隆扩增核酸的簇。生物传感器6312可包括固态成像设备(例如,CCD或CMOS成像器)和安装到其上的流通池。流通池可包括一个或多个流动通道,所述一个或多个流动通道从测序系统6300A接收溶液并将溶液引向反应位点。任选地,生物传感器6312可被配置为接合热元件,以用于将热能传递到流动通道中或从流动通道传递出去。

测序系统6300A可包括彼此相互作用以执行用于生物或化学分析的预定方法或测定方案的各种部件、组件和系统(或子系统)。例如,测序系统6300A包括系统控制器6306,该系统控制器可与测序系统6300A的各种部件、组件和子系统以及生物传感器6312通信。例如,除了系统插座6310之外,测序系统6300A还可包括流体控制系统6308以控制流体在测序系统6300A和生物传感器6312的整个流体网络中的流动;流体储存系统6314,该流体储存系统被配置为保存生物测定系统可使用的所有流体(例如,气体或液体);温度控制系统6304,该温度控制系统可调节流体网络、流体储存系统6314和/或生物传感器6312中流体的温度;以及照明系统6316,该照明系统被配置为照亮生物传感器6312。如上所述,如果将具有生物传感器6312的卡盒装载到系统插座6310中,则该卡盒还可包括流体控制部件和流体储存部件。

还如图所示,测序系统6300A可包括与用户交互的用户界面6318。例如,用户界面6318可包括用于显示或请求来自用户的信息的显示器6320和用于接收用户输入的用户输入设备6322。在一些具体实施中,显示器6320和用户输入设备6322是相同的设备。例如,用户界面6318可包括触敏显示器,该触敏显示器被配置为检测个体触摸的存在并且还识别触摸在显示器上的位置。然而,可使用其他用户输入设备6322,诸如鼠标、触摸板、键盘、小键盘、手持扫描仪、语音识别系统、运动识别系统等。如将在下文更详细地讨论,测序系统6300A可与包括生物传感器6312(例如,呈卡盒的形式)的各种部件通信,以进行所需反应。测序系统6300A还可被配置为分析从生物传感器获得的数据以向用户提供所需信息。

系统控制器6306可包括任何基于处理器或基于微处理器的系统,包括使用微控制器、精简指令集计算机(RISC)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、粗粒度可重构架构(CGRA)、逻辑电路以及能够执行本文所述功能的任何其他电路或处理器。上述示例仅是示例性的,因此不旨在以任何方式限制术语系统控制器的定义和/或含义。在示例性具体实施中,系统控制器6306执行存储在一个或多个存储元件、存储器或模块中的指令集,以便进行获得检测数据和分析检测数据中的至少一者。检测数据可包括多个像素信号序列,使得可在许多碱基检出循环内检测来自数百万个传感器(或像素)中的每个传感器(或像素)的像素信号序列。存储元件可为测序系统6300A内的信息源或物理存储器元件的形式。

指令集可包括指示测序系统6300A或生物传感器6312执行特定操作(诸如本文所述的各种具体实施的方法和过程)的各种命令。指令集可为软件程序的形式,该软件程序可形成有形的一个或多个非暂态计算机可读介质的一部分。如本文所用,术语“软件”和“固件”是可互换的,并且包括存储在存储器中以供计算机执行的任何计算机程序,包括RAM存储器、ROM存储器、EPROM存储器、EEPROM存储器和非易失性RAM(NVRAM)存储器。上述存储器类型仅是示例性的,因此不限制可用于存储计算机程序的存储器类型。

软件可为各种形式,诸如系统软件或应用软件。此外,软件可以是独立程序的集合的形式,或者是较大程序内的程序模块或程序模块的一部分的形式。软件还可包括面向对象编程形式的模块化编程。在获得检测数据之后,检测数据可由测序系统6300A自动处理,响应于用户输入而处理,或者响应于另一处理机提出的请求(例如,通过通信链路的远程请求)而处理。在例示的具体实施中,系统控制器6306包括分析模块6344。在其他具体实施中,系统控制器6306不包括分析模块6344,而是可访问分析模块6344(例如,分析模块6344可单独地托管在云上)。

系统控制器6306可经由通信链路连接到生物传感器6312和测序系统6300A的其他部件。系统控制器6306还可通信地连接到非现场系统或服务器。通信链路可以是硬连线的、有线的或无线的。系统控制器6306可从用户界面6318和用户输入设备6322接收用户输入或命令。

流体控制系统6308包括流体网络,并且被配置为引导和调节一种或多种流体通过流体网络的流动。流体网络可与生物传感器6312和流体储存系统6314流体连通。例如,选定的流体可从流体储存系统6314抽吸并以受控方式引导至生物传感器6312,或者流体可从生物传感器6312抽吸并朝向例如流体储存系统6314中的废物储存器引导。虽然未示出,但流体控制系统6308可包括检测流体网络内的流体的流速或压力的流量传感器。传感器可与系统控制器6306通信。

温度控制系统6304被配置为调节流体网络、流体储存系统6314和/或生物传感器6312的不同区域处流体的温度。例如,温度控制系统6304可包括热循环仪,该热循环仪与生物传感器6312对接并且控制沿着生物传感器6312中的反应位点流动的流体的温度。温度控制系统6304还可调节测序系统6300A或生物传感器6312的固体元件或部件的温度。尽管未示出,但温度控制系统6304可包括用于检测流体或其他部件的温度的传感器。传感器可与系统控制器6306通信。

流体储存系统6314与生物传感器6312流体连通,并且可储存用于在其中进行所需反应的各种反应组分或反应物。流体储存系统6314还可储存用于洗涤或清洁流体网络和生物传感器6312以及用于稀释反应物的流体。例如,流体储存系统6314可包括各种储存器,以储存样品、试剂、酶、其他生物分子、缓冲溶液、水性溶液和非极性溶液等。此外,流体储存系统6314还可包括废物储存器,用于接收来自生物传感器6312的废物。在包括卡盒的具体实施中,卡盒可包括流体储存系统、流体控制系统或温度控制系统中的一者或多者。因此,本文所述的与那些系统有关的一个或多个部件可容纳在卡盒外壳内。例如,卡盒可具有各种储存器,以储存样品、试剂、酶、其他生物分子、缓冲溶液、水性溶液和非极性溶液、废物等。因此,流体储存系统、流体控制系统或温度控制系统中的一者或多者可经由卡盒或其他生物传感器与生物测定系统可移除地接合。

照明系统6316可包括光源(例如,一个或多个LED)和用于照亮生物传感器的多个光学部件。光源的示例可包括激光器、弧光灯、LED或激光二极管。光学部件可以是例如反射器、二向色镜、分束器、准直器、透镜、滤光器、楔镜、棱镜、反射镜、检测器等。在使用照明系统的具体实施中,照明系统6316可被配置为将激发光引导至反应位点。作为一个示例,荧光团可由绿色波长的光激发,因此激发光的波长可为大约532nm。在一个具体实施中,照明系统6316被配置为产生平行于生物传感器6312的表面的表面法线的照明。在另一个具体实施中,照明系统6316被配置为产生相对于生物传感器6312的表面的表面法线成偏角的照明。在又一个具体实施中,照明系统6316被配置为产生具有多个角度的照明,包括一些平行照明和一些偏角照明。

系统插座或接口6310被配置为以机械、电气和流体方式中的至少一种方式接合生物传感器6312。系统插座6310可将生物传感器6312保持在所需取向,以有利于流体流过生物传感器6312。系统插座6310还可包括电触点,该电触点被配置为接合生物传感器6312,使得测序系统6300A可与生物传感器6312通信和/或向生物传感器6312提供功率。此外,系统插座6310可包括被配置为接合生物传感器6312的流体端口(例如,喷嘴)。在一些具体实施中,生物传感器6312以机械方式、电方式以及流体方式可移除地耦接到系统插座6310。

此外,测序系统6300A可与其他系统或网络或与其他生物测定系统6300A远程通信。由生物测定系统6300A获得的检测数据可存储在远程数据库中。

图63B是可在图63A的系统中使用的系统控制器6306的框图。在一个具体实施中,系统控制器6306包括可彼此通信的一个或多个处理器或模块。处理器或模块中的每一者可包括用于执行特定过程的算法(例如,存储在有形和/或非暂态计算机可读存储介质上的指令)或子算法。系统控制器6306在概念上被示出为模块的集合,但可利用专用硬件板、DSP、处理器等的任何组合来实现。另选地,系统控制器6306可利用具有单个处理器或多个处理器的现成PC来实现,其中功能操作分布在处理器之间。作为进一步的选择,下文所述的模块可利用混合配置来实现,其中某些模块化功能利用专用硬件来执行,而其余模块化功能利用现成PC等来执行。模块还可被实现为处理单元内的软件模块。

在操作期间,通信端口6350可向生物传感器6312(图63A)和/或子系统6308、6314、6304(图63A)传输信息(例如,命令)或从其接收信息(例如,数据)。在具体实施中,通信端口6350可输出多个像素信号序列。通信链路6334可从用户界面6318(图63A)接收用户输入并将数据或信息传输到用户界面6318。来自生物传感器6312或子系统6308、6314、6304的数据可在生物测定会话期间由系统控制器6306实时处理。除此之外或另选地,数据可在生物测定会话期间临时存储在系统存储器中,并且以比实时或脱机操作更慢的速度进行处理。

如图63B所示,系统控制器6306可包括与主控制模块6324以及中央处理单元(CPU)6352通信的多个模块6326-6348。主控制模块6324可与用户界面6318(图63A)通信。尽管模块6326-6348被示出为与主控制模块6324直接通信,但模块6326-6348也可彼此直接通信,与用户界面6318和生物传感器6312直接通信。另外,模块6326-6348可通过其他模块与主控制模块6324通信。

多个模块6326-6348包括分别与子系统6308、6314、6304和6316通信的系统模块6328-6332、6326。流体控制模块6328可与流体控制系统6308通信,以控制流体网络的阀和流量传感器,从而控制一种或多种流体通过流体网络的流动。流体储存模块6330可在流体量低时或在废物储存器处于或接近容量时通知用户。流体储存模块6330还可与温度控制模块6332通信,使得流体可储存在所需温度下。照明模块6326可与照明系统6316通信,以在方案期间的指定时间照亮反应位点,诸如在已发生所需反应(例如,结合事件)之后。在一些具体实施中,照明模块6326可与照明系统6316通信,从而以指定角度照亮反应位点。

多个模块6326-6348还可包括与生物传感器6312通信的设备模块6336和确定与生物传感器6312相关的识别信息的识别模块6338。设备模块6336可例如与系统插座6310通信以确认生物传感器已与测序系统6300A建立电连接和流体连接。识别模块6338可接收识别生物传感器6312的信号。识别模块6338可使用生物传感器6312的身份来向用户提供其他信息。例如,识别模块6338可确定并随后显示批号、制造日期或建议与生物传感器6312一起运行的方案。

多个模块6326-6348还包括接收和分析来自生物传感器6312的信号数据(例如,图像数据)的分析模块6344(也称为信号处理模块或信号处理器)。分析模块6344包括用于存储检测/图像数据的存储器(例如,RAM或闪存)。检测数据可包括多个像素信号序列,使得可在许多碱基检出循环内检测来自数百万个传感器(或像素)中的每个传感器(或像素)的像素信号序列。信号数据可被存储用于后续分析,或者可被传输到用户界面6318以向用户显示所需信息。在一些具体实施中,信号数据可在分析模块6344接收到信号数据之前由固态成像器(例如,CMOS图像传感器)处理。

分析模块6344被配置为在多个测序循环的每个测序循环处从光检测器获得图像数据。图像数据来源于由光检测器检测到的发射信号,并且通过基于神经网络的质量评分器6102和/或基于神经网络的碱基检出器218处理所述多个测序循环的每个测序循环的图像数据,并且在所述多个测序循环的每个测序循环处针对分析物中的至少一些分析物产生碱基检出。光检测器可以是一个或多个俯视相机的一部分(例如,Illumina的GAIIx的CCD相机从顶部拍摄生物传感器6312上的簇的图像),或者可以是生物传感器6312本身的一部分(例如,Illumina的iSeq的CMOS图像传感器位于生物传感器6312上的簇下面并且从底部拍摄簇的图像)。

光检测器的输出是测序图像,每个测序图像描绘了簇及其周围背景的强度发射。测序图像描绘了由于在测序期间核苷酸掺入序列中而产生的强度发射。强度发射来自相关联的分析物及其周围背景。测序图像存储在存储器6348中。

协议模块6340和6342与主控制模块6324通信,以在进行预先确定的测定方案时控制子系统6308、6314和6304的操作。协议模块6340和6342可包括用于指示测序系统6300A根据预先确定的方案执行特定操作的指令集。如图所示,方案模块可以是边合成边测序(SBS)模块6340,其被配置为发出用于执行边合成边测序过程的各种命令。在SBS中,监测核酸引物沿核酸模板的延伸,以确定模板中核苷酸的序列。基础化学过程可以是聚合(例如,由聚合酶催化)或连接(例如,由连接酶催化)。在特定的基于聚合酶的SBS具体实施中,以依赖于模板的方式将荧光标记的核苷酸添加至引物(从而使引物延伸),使得对添加至引物的核苷酸的顺序和类型的检测可用于确定模板的序列。例如,为了启动第一SBS循环,可发出命令以将一个或多个标记的核苷酸、DNA聚合酶等递送至/通过容纳有核酸模板阵列的流通池。核酸模板可位于对应的反应位点。其中引物延伸导致标记的核苷酸掺入的那些反应位点可通过成像事件来检测。在成像事件期间,照明系统6316可向反应位点提供激发光。任选地,核苷酸可进一步包括可逆终止属性,一旦将核苷酸添加至引物,该可逆终止属性终止进一步的引物延伸。例如,可将具有可逆终止子部分的核苷酸类似物添加至引物,使得随后的延伸直到递送解封闭剂以除去该部分才发生。因此,对于使用可逆终止的具体实施,可发出命令以将解封闭剂递送到流通池(在检测发生之前或之后)。可发出一个或多个命令以实现各个递送步骤之间的洗涤。然后可重复该循环n次,以将引物延伸n个核苷酸,从而检测长度为n的序列。示例性测序技术描述于:例如Bentley等人,Nature 456:53-59(20063);WO 04/0163497、US 7,057,026、WO 91/066763、WO 07/123744、US 7,329,492、US 7,211,414、US7,315,019、US 7,405,2631和US 20063/01470630632,这些文献中的每一篇均以引用方式并入本文。

对于SBS循环的核苷酸递送步骤,可一次递送单一类型的核苷酸,或者可递送多种不同的核苷酸类型(例如,A、C、T和G一起)。对于一次仅存在单一类型的核苷酸的核苷酸递送构型,不同的核苷酸不需要具有不同的标记,因为它们可基于个体化递送中固有的时间间隔来区分。因此,测序方法或装置可使用单色检测。例如,激发源仅需要提供单个波长或单个波长范围内的激发。对于其中递送导致多种不同核苷酸同时存在于流通池中的核苷酸递送构型,可基于附着到混合物中相应核苷酸类型的不同荧光标记来区分掺入不同核苷酸类型的位点。例如,可使用四种不同的核苷酸,每种核苷酸具有四种不同荧光团中的一种。在一个具体实施中,可使用在光谱的四个不同区域中的激发来区分四种不同的荧光团。例如,可使用四种不同的激发辐射源。另选地,可使用少于四种不同的激发源,但来自单个源的激发辐射的光学过滤可用于在流通池处产生不同范围的激发辐射。

在一些具体实施中,可在具有四种不同核苷酸的混合物中检测到少于四种不同颜色。例如,核苷酸对可在相同波长下检测,但基于对中的一个成员相对于另一个成员的强度差异,或基于对中的一个成员的导致与检测到的该对的另一个成员的信号相比明显的信号出现或消失的变化(例如,通过化学改性、光化学改性或物理改性)来区分。使用少于四种颜色的检测来区分四种不同核苷酸的示例性装置和方法在例如以下专利中有所描述:美国专利申请序列号61/5363,294和61/619,63763,这些专利申请全文以引用方式并入本文中。2012年9月21日提交的美国申请13/624,200也全文以引用方式并入。

多个方案模块还可包括样品制备(或生成)模块6342,该模块被配置为向流体控制系统6308和温度控制系统6304发出命令,以用于扩增生物传感器6312内的产物。例如,生物传感器6312可接合至测序系统6300A。扩增模块6342可向流体控制系统6308发出指令,以将必要的扩增组分递送到生物传感器6312内的反应室。在其他具体实施中,反应位点可能已包含一些用于扩增的组分,诸如模板DNA和/或引物。在将扩增组分递送至反应室之后,扩增模块6342可指示温度控制系统6304根据已知的扩增方案循环通过不同的温度阶段。在一些具体实施中,扩增和/或核苷酸掺入等温进行。

SBS模块6340可发出命令以执行桥式PCR,其中克隆扩增子的簇形成于流通池的通道内的局部区域上。通过桥式PCR产生扩增子后,可将扩增子“线性化”以制备单链模板DNA或sstDNA,并且可将测序引物杂交至侧接感兴趣的区域的通用序列。例如,可如上所述或如下使用基于可逆终止子的边合成边测序方法。

每个碱基检出或测序循环可通过单个碱基延伸sstDNA,这可例如通过使用经修饰的DNA聚合酶和四种类型的核苷酸的混合物来完成。不同类型的核苷酸可具有独特的荧光标记,并且每个核苷酸还可具有可逆终止子,该可逆终止子仅允许在每个循环中发生单碱基掺入。在将单个碱基添加到sstDNA之后,激发光可入射到反应位点上并且可检测荧光发射。在检测后,可从sstDNA化学切割荧光标记和终止子。接下来可为另一个类似的碱基检出或测序循环。在这种测序方案中,SBS模块6340可指示流体控制系统6308引导试剂和酶溶液流过生物传感器6312。可与本文所述的设备和方法一起使用的基于可逆终止子的示例性SBS方法描述于美国专利申请公布2007/0166705 A1、美国专利申请公布2006/016363901A1、美国专利7,057,026、美国专利申请公布2006/0240439 A1、美国专利申请公布2006/026314714709 A1、PCT公布WO 05/0656314、美国专利申请公布2005/014700900 A1、PCT公布WO 06/063B199和PCT公布WO 07/01470251,这些专利中的每一篇均全文以引用方式并入本文。用于基于可逆终止子的SBS的示例性试剂描述于:US 7,541,444、US 7,057,026、US7,414,14716、US 7,427,673、US 7,566,537、US 7,592,435和WO 07/1463353663,这些专利中的每一篇均全文以引用方式并入本文。

在一些具体实施中,扩增模块和SBS模块可在单个测定方案中操作,其中例如扩增模板核酸并随后将其在同一盒内测序。

测序系统6300A还可允许用户重新配置测定方案。例如,测序系统6300A可通过用户界面6318向用户提供用于修改所确定的方案的选项。例如,如果确定生物传感器6312将用于扩增,则测序系统6300A可请求退火循环的温度。此外,如果用户已提供对于所选测定方案通常不可接受的用户输入,则测序系统6300A可向用户发出警告。

在具体实施中,生物传感器6312包括数百万个传感器(或像素),每个传感器(或像素)在后续的碱基检出循环内生成多个像素信号序列。分析模块6344根据传感器阵列上传感器的逐行和/或逐列位置来检测多个像素信号序列并将它们归属于对应的传感器(或像素)。

图63C是用于分析来自测序系统6300A的传感器数据(诸如,碱基检出传感器输出)的系统的简化框图。在图63C的示例中,系统包括可配置处理器6346。可配置处理器6346可与由中央处理单元(CPU)6352(即,主机处理器)执行的运行时程序协调地执行碱基检出器(例如,基于神经网络的质量评分器6102和/或基于神经网络的碱基检出器218)。测序系统6300A包括生物传感器6312和流通池。流通池可包括一个或多个区块,其中遗传物质的簇暴露于分析物流的序列,该分析物流的序列用于引起簇中的反应以识别遗传物质中的碱基。传感器感测流通池的每个区块中该序列的每个循环的反应以提供区块数据。遗传测序是数据密集型操作,其将碱基检出传感器数据转换为在碱基检出操作期间感测到的遗传物质的每个簇的碱基检出序列。

该示例中的系统包括执行运行时程序以协调碱基检出操作的CPU6352、用于存储区块数据阵列的序列的存储器6348B、由碱基检出操作产生的碱基检出读段,以及碱基检出操作中使用的其他信息。另外,在该图示中,系统包括存储器6348A,以存储配置文件(或多个文件)诸如FPGA位文件和用于配置和重新配置可配置处理器6346的神经网络的模型参数,并且执行神经网络。测序系统6300A可包括用于配置可配置处理器以及在一些实施方案中的可重构处理器的程序,以执行神经网络。

测序系统6300A通过总线6389耦接至可配置处理器6346。总线6389可使用高通量技术来实现,诸如在一个示例中,总线技术与当前由PCI-SIG(PCI特别兴趣小组)维护和开发的PCIe标准(快速外围组件互连)兼容。同样在该示例中,存储器6348A通过总线6393耦接到可配置处理器6346。存储器6348A可以是设置在具有可配置处理器6346的电路板上的板上存储器。存储器6348A用于由可配置处理器6346高速访问在碱基检出操作中使用的工作数据。总线6393还可使用高通量技术诸如与PCIe标准兼容的总线技术来实现。

可配置处理器,包括现场可编程门阵列FPGA、粗粒度可重构阵列CGRA以及其他可配置和可重构的设备,可被配置为比使用执行计算机程序的通用处理器可能实现的更有效或更快地实现各种功能。可配置处理器的配置涉及编译功能描述以产生有时称为位流或位文件的配置文件,以及将配置文件分发到处理器上的可配置元件。该配置文件通过将电路配置为设置数据流模式、分布式存储器和其他片上存储器资源的使用、查找表内容、可配置逻辑块和可配置执行单元(如乘法累加单元、可配置互连和可配置阵列的其他元件)的操作,来定义要由可配置处理器执行的逻辑功能。如果配置文件可在现场通过改变加载的配置文件而改变,则可配置处理器是可重构的。例如,配置文件可存储在易失性SRAM元件中、非易失性读写存储器元件中以及它们的组合中,分布在可配置或可重构处理器上的可配置元件阵列中。多种可商购获得的可配置处理器适用于如本文所述的碱基检出操作。示例包括Google的Tensor Processing Unit(TPU)TM、机架解决方案(如GX4 Rackmount SeriesTM、GX9 Rackmount SeriesTM)、NVIDIA DGX-1TM、Microsoft的Stratix V FPGATM、Graphcore的Intelligent Processor Unit(IPU)TM、Qualcomm的具有Snapdragon processorsTM的Zeroth PlatformTM、NVIDIA的VoltaTM、NVIDIA的DRIVE PXTM、NVIDIA的JETSON TX1/TX2MODULETM、Intel的NirvanaTM、Movidius VPUTM、Fujitsu DPITM、ARM的DynamicIQTM、IBMTrueNorthTM、具有Testa V100sTM的Lambda GPU服务器、Xilinx AlveoTM U200、XilinxAlveoTM U250、Xilinx AlveoTM U280、Intel/Altera StratixTM GX2800、Intel/AlteraStratixTM GX2800和Intel StratixT MGX10M。在一些示例中,主机CPU可在与可配置处理器相同的集成电路上实现。

本文所述的实施方案使用可配置处理器6346来实现基于神经网络的质量评分器6102和/或基于神经网络的碱基检出器218。可配置处理器6346的配置文件可通过使用高级描述语言HDL或寄存器传输级RTL语言规范指定要执行的逻辑功能来实现。可使用被设计用于所选择的可配置处理器的资源来编译规范以生成配置文件。为了生成可能不是可配置处理器的专用集成电路的设计,可编译相同或相似的规范。

因此,在本文所述的所有实施方案中,可配置处理器6346的另选方案包括配置的处理器,该配置的处理器包括专用ASIC或专用集成电路或集成电路组,或片上系统(SOC)器件,或图形处理单元(GPU)处理器或粗粒度可重构架构(CGRA)处理器,该配置的处理器被配置为执行如本文所述的基于神经网络的碱基检出操作。

一般来讲,如被配置为执行神经网络的运行的本文所述的可配置处理器和配置的处理器在本文中称为神经网络处理器。

在该示例中,可配置处理器6346由使用CPU 6352执行的程序所加载的配置文件配置,或由在可配置处理器上配置可配置元件6391(例如,配置逻辑块(CLB),诸如查找表(LUT)、触发器、计算处理单元(PMU)和计算存储器单元(CMU)、可配置I/O块、可编程互连)的阵列的其他源配置,以执行碱基检出功能。在该示例中,该配置包括数据流逻辑6397,该数据流逻辑耦接到总线6389和6393并且执行用于在碱基检出操作中使用的元件之间分发数据和控制参数的功能。

另外,可配置处理器6346被配置为具有碱基检出执行逻辑6397,以执行基于神经网络的质量评分器6102和/或基于神经网络的碱基检出器218。逻辑6397包括多循环执行簇(例如,6379),在该示例中,该多循环执行簇包括执行簇1至执行簇X。可根据涉及操作的所需通量和可配置处理器6346上的可用资源的权衡来选择多循环执行簇的数量。

多循环执行簇通过使用可配置处理器6346上的可配置互连和存储器资源实现的数据流路径6399耦接到数据流逻辑6397。另外,多循环执行簇通过使用例如可配置处理器6346上的可配置互连和存储器资源实现的控制路径6395耦接到数据流逻辑6397,该控制路径提供指示可用执行簇、准备好为基于神经网络的质量评分器6102和/或基于神经网络的碱基检出器218的运行的执行提供输入单元、准备好为基于神经网络的质量评分器6102和/或基于神经网络的碱基检出器218提供经训练参数、准备好提供碱基检出分类数据的输出补片的控制信号,以及用于执行基于神经网络的质量评分器6102和/或基于神经网络的碱基检出器218的其他控制数据。

可配置处理器6346被配置为使用经训练参数来执行基于神经网络的质量评分器6102和/或基于神经网络的碱基检出器218的运行,以产生用于碱基检出操作的感测循环的分类数据。执行基于神经网络的质量评分器6102和/或基于神经网络的碱基检出器218的运行,以产生用于碱基检出操作的受试者感测循环(subject sensing cycle)的分类数据。基于神经网络的质量评分器6102和/或基于神经网络的碱基检出器218的运行对序列(包括来自N个感测循环的相应感测循环的区块数据的数字N个阵列)进行操作,其中N个感测循环在本文所述示例中针对时间序列中每个操作的一个碱基位置提供用于不同碱基检出操作的传感器数据。任选地,如果需要,根据正在执行的特定神经网络模型,N个感测循环中的一些可能会失序。数字N可以是大于1的任何数字。在本文所述的一些示例中,N个感测循环中的感测循环表示时间序列中受试者感测循环之前的至少一个感测循环和受试者循环(subject cycle)之后的至少一个感测循环的一组感测循环。本文描述了其中数字N为等于或大于五的整数的示例。

数据流逻辑6397被配置为使用用于给定运行的输入单元将区块数据和模型参数的至少一些经训练参数从存储器6348A移动到用于基于神经网络的质量评分器6102和/或基于神经网络的碱基检出器218的运行的可配置处理器6346,该输入单元包括用于N个阵列的空间对准的补片的区块数据。输入单元可通过一个DMA操作中的直接存储器存取操作来移动,或者在可用时隙期间与所部署的神经网络的执行相协调地移动的较小单元中移动。

如本文所述的用于感测循环的区块数据可包括具有一个或多个特征的传感器数据阵列。例如,传感器数据可包括两个图像,对这两个图像进行分析以识别在DNA、RNA或其他遗传物质的遗传序列中的碱基位置处的四种碱基中的一种。区块数据还可包括关于图像和传感器的元数据。例如,在碱基检出操作的实施方案中,区块数据可包括关于图像与簇的对准的信息,诸如距中心距离的信息,该距离指示传感器数据阵列中的每个像素距区块上遗传物质的簇的中心的距离。

在如下所述执行基于神经网络的质量评分器6102和/或基于神经网络的碱基检出器218期间,区块数据还可包括在执行基于神经网络的质量评分器6102和/或基于神经网络的碱基检出器218期间产生的数据,被称为中间数据,其可在基于神经网络的质量评分器6102和/或基于神经网络的碱基检出器218的运行期间重复使用而不是重新计算。例如,在执行基于神经网络的质量评分器6102和/或基于神经网络的碱基检出器218期间,数据流逻辑6397可将中间数据代替用于区块数据阵列的给定补片的传感器数据写入到存储器6348A。下文更详细地描述了类似于此的实施方案。

如图所示,描述了用于分析碱基检出传感器输出的系统,该系统包括可由运行时程序访问的存储器(例如,6348A),该存储器存储区块数据,该区块数据包括来自碱基检出操作的感测循环的区块的传感器数据。另外,该系统包括神经网络处理器,诸如可访问存储器的可配置处理器6346。神经网络处理器被配置为使用经训练参数来执行神经网络的运行,以产生用于感测循环的分类数据。如本文所述,神经网络的运行对来自N个感测循环的相应感测循环(包括受试者循环)的区块数据的N个阵列的序列进行操作,以产生受试者循环的分类数据。提供数据流逻辑908以使用输入单元(包括来自N个感测循环的相应感测循环的N个阵列的空间对准补片的数据)将区块数据和经训练参数从存储器移动到神经网络处理器以用于神经网络的运行。

另外,描述了一种系统,其中神经网络处理器可访问存储器,并且包括多个执行簇,所述多个执行簇中的执行簇被配置为执行神经网络。数据流逻辑6397可访问存储器和多个执行簇中的执行簇,以将区块数据的输入单元提供至所述多个执行簇中的可用执行簇,该输入单元包括来自相应感测循环(包括受试者感测循环)的区块数据阵列的数字N个空间对准补片,并且使执行簇将N个空间对准补片应用于神经网络以产生用于受试者感测循环的空间对准补片的分类数据的输出补片,其中N大于1。

图64A是示出碱基检出操作的各方面的简化图,该操作包括由主机处理器执行的运行时程序的功能。在该图中,来自流通池的图像传感器的输出在线6400上提供给图像处理线程6401,该图像处理线程可对图像执行处理,诸如各个区块的传感器数据阵列中的对准和布置以及图像的重采样,并且可由为流通池中的每个区块计算区块簇掩膜的过程使用,该过程识别与流通池的对应区块上的遗传物质的簇对应的传感器数据阵列中的像素。根据碱基检出操作的状态,图像处理线程6401的输出在线6402上提供给CPU中的调度逻辑6410,该调度逻辑将区块数据阵列在高速总线6403上路由到数据高速缓存6404(例如,SSD存储装置),或者在高速总线6405上路由到神经网络处理器硬件6420,诸如图63C的可配置处理器6346。经处理和变换的图像可存储在数据高速缓存6404上,以用于先前使用的感测循环。硬件6420将由神经网络输出的分类数据返回到调度逻辑6464,该调度逻辑将信息传递到数据高速缓存6404,或者在线6411上传递到使用分类数据执行碱基检出和质量得分计算的线程6402,并且可以标准格式布置用于碱基检出读段的数据。在线6412上将执行碱基检出和质量得分计算的线程6402的输出提供给线程6403,该线程聚合碱基检出读段,执行其他操作诸如数据压缩,并且将所得的碱基检出输出写入指定目的地以供客户利用。

在一些实施方案中,主机可包括执行硬件6420的输出的最终处理以支持神经网络的线程(未示出)。例如,硬件6420可提供来自多簇神经网络的最终层的分类数据的输出。主机处理器可对分类数据执行输出激活功能诸如softmax功能,以配置供碱基检出和质量评分线程6402使用的数据。另外,主机处理器可执行输入操作(未示出),诸如在输入到硬件6420之前对区块数据进行批量归一化。

图64B是可配置处理器6346诸如图63C的可配置处理器的配置的简化图。在图64B中,可配置处理器6346包括具有多个高速PCIe接口的FPGA。FPGA配置有封装器(wrapper)6490,该封装器包括参考图63C描述的数据流逻辑6397。封装器6490通过CPU通信链路6477来管理与CPU中的运行时程序的接口和协调,并且经由DRAM通信链路6497来管理与板载DRAM 6499(例如,存储器6348A)的通信。封装器6490中的数据流逻辑6397将通过遍历板载DRAM 6499上的数字N个循环的区块数据阵列而检索到的补片数据提供到簇6485,并且从簇6485检索过程数据6487以递送回板载DRAM 6499。封装器6490还管理板载DRAM 6499和主机存储器之间的数据传输,以用于区块数据的输入阵列和分类数据的输出补片两者。封装器将线6483上的补片数据传输到分配的簇6485。封装器在线6481上将经训练参数诸如权重和偏置提供到从板载DRAM 6499检索的簇6485。封装器在线6479上将配置和控制数据提供到簇6485,该簇经由CPU通信链路6477从主机上的运行时程序提供或响应于该运行时程序而生成。簇还可在线6489上向封装器6490提供状态信号,该状态信号与来自主机的控制信号协作使用,以管理区块数据阵列的遍历,从而提供空间对准的补片数据,并且使用簇6485的资源对补片数据执行多循环神经网络。

如上所述,在由封装器6490管理的单个可配置处理器上可存在多个簇,所述多个簇被配置用于在区块数据的多个补片的对应补片上执行。每个簇可被配置为使用本文所述的多个感测循环的区块数据来提供受试者感测循环中的碱基检出的分类数据。

在系统的示例中,可将模型数据(包括内核数据,如过滤器权重和偏置)从主机CPU发送到可配置处理器,使得模型可根据循环数进行更新。举一个代表性示例,碱基检出操作可包括大约数百个感测循环。在一些实施方案中,碱基检出操作可包括双端读段。例如,模型训练参数可以每20个循环(或其他数量的循环)更新一次,或者根据针对特定系统和神经网络模型实现的更新模式来更新。在包括双端读段的一些实施方案中,其中区块上的遗传簇中的给定字符串的序列包括从第一末端沿字符串向下(或向上)延伸的第一部分和从第二末端沿字符串向上(或向下)延伸的第二部分,可在从第一部分到第二部分的过渡中更新经训练参数。

在一些示例中,可将区块的感测数据的多个循环的图像数据从CPU发送到封装器6490。封装器6490可任选地对感测数据进行一些预处理和转换,并且将信息写入板载DRAM6499。每个感测循环的输入区块数据可包括传感器数据阵列,包括每个感测循环每个区块大约4000×3000个像素或更多,其中两个特征表示区块的两个图像的颜色,并且每个特征每个像素一个或两个字节。对于其中数字N为要在多循环神经网络的每个运行中使用的三个感测循环的实施方案,用于多循环神经网络的每个运行的区块数据阵列可消耗每个区块大约数百兆字节。在系统的一些实施方案中,区块数据还包括每个区块存储一次的DFC数据的阵列,或关于传感器数据和区块的其他类型的元数据。

在操作中,当多循环簇可用时,封装器将补片分配给簇。封装器在区块的遍历中获取区块数据的下一个补片,并将其连同适当的控制和配置信息一起发送到所分配的簇。簇可被配置为在可配置处理器上具有足够的存储器,以保存包括来自一些系统中的多个循环的补片且正被就地处理的数据补片,以及当在各种实施方案中使用乒乓缓冲技术或光栅扫描技术完成对当前补片的处理时将被处理的数据补片。

当分配的簇完成其对当前补片的神经网络的运行并产生输出补片时,其将发信号通知封装器。封装器将从分配的簇读取输出补片,或者另选地,分配的簇将数据推送到封装器。然后,封装器将为DRAM 6499中的经处理区块组装输出补片。当整个区块的处理已完成并且数据的输出补片已传输到DRAM时,封装器将区块的经处理输出阵列以指定格式发送回主机/CPU。在一些实施方案中,板载DRAM 6499由封装器6490中的存储器管理逻辑管理。运行时程序可控制测序操作,以连续流的方式完成运行中所有循环的区块数据的所有阵列的分析,从而提供实时分析。

技术改进和术语

碱基检出包括将荧光标记的标签与分析物结合或连接。分析物可为核苷酸或寡核苷酸,并且标签可用于特定核苷酸类型(A、C、T或G)。激发光被导向具有标签的分析物,并且标签发射可检测的荧光信号或强度发射。强度发射指示由化学附着到分析物的激发标签发射的光子。

在包括权利要求书的整个本申请中,当使用诸如或类似于“描绘分析物及其周围背景的强度发射的图像、图像数据或图像区域”的短语时,它们是指附着到分析物的标签的强度发射。本领域的技术人员将会知道,附着的标签的强度发射代表或等同于标签所附着到的分析物的强度发射,因此可互换使用。类似地,分析物的属性是指附着到分析物的标签的属性或来自所连接标签的强度发射的属性。例如,分析物的中心是指由附着到分析物的标签发射的强度发射的中心。在另一个示例中,分析物的周围背景是指由附着到分析物的标签发射的强度发射的周围背景。

本申请中引用的所有文献和类似材料,包括但不限于专利、专利申请、文章、书籍、论文和网页,无论这些文献和类似材料的格式如何,都明确地全文以引用方式并入。如果所并入文献和类似材料中的一者或多者与本申请不同或矛盾,包括但不限于所定义的术语、术语用法、所描述的技术等,则以本申请为准。

所公开的技术使用神经网络来改善可从核酸样品(诸如核酸模板或其互补序列,例如DNA或RNA多核苷酸或其他核酸样品)获得的核酸序列信息的质量和数量。因此,相对于先前可用的方法,所公开的技术的某些具体实施提供更高通量的多核苷酸测序,例如更高的DNA或RNA序列数据收集速率、更高的序列数据收集效率和/或获得这种序列数据的更低成本。

所公开的技术使用神经网络来识别固相核酸簇的中心并且分析在此类簇的测序期间生成的光信号,以明确地区分相邻、邻接或重叠的簇,以便将测序信号分配给单个离散源簇。因此,这些和相关具体实施允许从高密度簇阵列的区域检索有意义的信息诸如序列数据,其中由于重叠或非常紧密间隔的相邻簇的混杂效应,包括从其发出的重叠信号(例如,如在核酸测序中所用)的效应,先前无法从此类区域获得可用信息。

如下文更详细地描述,在某些具体实施中,提供了包含固体载体的组合物,该固体载体具有固定到其上的一个或多个如本文提供的核酸簇。每个簇包含多个相同序列的固定化核酸并且具有可识别中心,该可识别中心具有如本文所提供的可检测中心标记,通过该可检测中心标记可将可识别中心与簇中周围区域中的固定化核酸区分开。本文还描述了用于制造和使用具有可识别中心的此类簇的方法。

本发明所公开的具体实施将在许多情况下使用,其中从识别、确定、注释、记录或以其他方式分配簇内基本上中心位置的位置的能力中获得优势,诸如高通量核酸测序、用于将光学或其他信号分配给离散源簇的图像分析算法的开发,以及其中识别固定化核酸簇中心是期望的且有益的其他应用。

在某些具体实施中,本发明设想了涉及高通量核酸分析诸如核酸序列测定(例如,“测序”)的方法。示例性的高通量核酸分析包括但不限于从头测序、重新测序、全基因组测序、基因表达分析、基因表达监测、表观遗传分析、基因组甲基化分析、等位基因特异性引物延伸(APSE)、遗传多样性分析、全基因组多态性发现和分析、单核苷酸多态性分析、基于杂交的序列测定方法等。本领域的技术人员将会知道,可使用本发明的方法和组合物分析多种不同的核酸。

虽然关于核酸测序描述了本发明的具体实施,但它们适用于分析在不同时间点、空间位置或其他时间或物理视角采集的图像数据的任何领域。例如,本文所述的方法和系统可用于分子和细胞生物学领域,其中在不同的时间点或视角采集来自微阵列、生物标本、细胞、生物体等的图像数据并进行分析。图像可使用本领域已知的任何数量的技术获得,包括但不限于荧光显微镜法、光学显微镜法、共聚焦显微镜法、光学成像、磁共振成像、断层扫描等。又如,可应用本文所述的方法和系统,其中在不同的时间点或视角采集通过监测、空中或卫星成像技术等获得的图像数据并进行分析。该方法和系统尤其可用于分析针对视野获得的图像,其中被观察的分析物在视野中相对于彼此保持在相同位置。然而,该分析物可能具有在单独图像中不同的特征,例如,该分析物可能在视野的单独图像中看起来不同。例如,就在不同图像中检测到的给定分析物的颜色、在不同图像中检测到的给定分析物的信号强度的变化、或者甚至在一个图像中检测到的给定分析物的信号出现以及在另一个图像中检测到的该分析物的信号消失而言,分析物可能看起来不同。

本文所述的示例可用于学术或商业分析的各种生物或化学过程和系统。更具体地,本文所述的示例可用于期望检测指示指定反应的事件、属性、质量或特征的各种过程和系统中。例如,本文所述的示例包括光检测设备、生物传感器及其部件,以及与生物传感器一起操作的生物测定系统。在一些示例中,设备、生物传感器和系统可包括流通池和一个或多个光传感器,它们以基本上一体的结构(可移除地或固定地)耦接在一起。

这些设备、生物传感器和生物测定系统可被配置为执行可单独或共同检测的多个指定反应。这些设备、生物传感器和生物测定系统可被配置为执行多个循环,其中所述多个指定反应同步发生。例如,这些设备、生物传感器和生物测定系统可用于通过酶操纵和光或图像检测/采集的迭代循环对DNA特征的密集阵列进行测序。因此,这些设备、生物传感器和生物测定系统(例如,经由一个或多个盒)可包括一个或多个微流体通道,所述一个或多个微流体通道将反应溶液中的试剂或其他反应组分递送到这些设备、生物传感器和生物测定系统的反应位点。在一些示例中,反应溶液可为基本上酸性的,诸如具有小于或等于约5,或小于或等于约4,或小于或等于约3的pH。在一些其他示例中,反应溶液可为基本上碱的/碱性的,诸如具有大于或等于约8,或大于或等于约9,或大于或等于约10的pH。如本文所用,术语“酸度”及其语法变型是指小于约7的pH值,并且术语“碱度”、“碱性”及其语法变型是指大于约7的pH值。

在一些示例中,反应位点以预定方式提供或间隔开,诸如以均匀或重复的模式提供或间隔开。在一些其他示例中,反应位点是随机分布的。每个反应位点可与一个或多个光导以及检测来自相关联反应位点的光的一个或多个光传感器相关联。在一些示例中,反应位点位于反应凹槽或反应室中,这可至少部分地分隔其中的指定反应。

如本文所用,“指定反应”包括感兴趣的化学或生物物质(例如,感兴趣的分析物)的化学、电、物理或光学性质(或质量)中的至少一者的变化。在特定示例中,指定反应为阳性结合事件,例如,将荧光标记的生物分子与感兴趣的分析物结合。更一般地,指定反应可以是化学转化、化学变化或化学相互作用。指定反应也可为电属性的变化。在特定示例中,指定反应包括将荧光标记的分子与分析物结合。分析物可为寡核苷酸,并且荧光标记的分子可为核苷酸。当激发光被导向具有标记核苷酸的寡核苷酸,并且荧光团发出可检测的荧光信号时,可检测到指定反应。在另选的示例中,检测到的荧光是化学发光或生物发光的结果。指定反应还可例如通过使供体荧光团接近受体荧光团来增加荧光(或)共振能量转移(FRET),通过分离供体荧光团和受体荧光团来降低FRET,通过分离淬灭基团与荧光团来增加荧光,或通过共定位淬灭基团和荧光团来减少荧光。

如本文所用,“反应溶液”、“反应组分”或“反应物”包括可用于获得至少一种指定反应的任何物质。例如,可能的反应组分包括例如试剂、酶、样品、其他生物分子和缓冲液。可将反应组分递送至溶液中的反应位点和/或固定在反应位点处。反应组分可直接或间接地与另一种物质相互作用,诸如固定在反应位点的感兴趣的分析物。如上所述,反应溶液可以是基本上酸性的(即,包括相对高的酸度)(例如,具有小于或等于约5的pH,小于或等于约4的pH,或小于或等于约3的pH)或基本上碱的/碱性的(即,包括相对高的碱性/碱度)(例如,具有大于或等于约8的pH,大于或等于约9的pH,或大于或等于约10的pH)。

如本文所用,术语“反应位点”是可发生至少一个指定反应的局部区域。反应位点可包括其上可固定物质的反应结构或基板的支撑表面。例如,反应位点可包括其上具有反应组分(诸如其上的核酸群体)的反应结构的表面(可位于流通池的通道中)。在一些此类示例中,群体中的核酸具有相同的序列,例如为单链或双链模板的克隆拷贝。然而,在一些示例中,反应位点可仅包含单个核酸分子,例如单链或双链形式。

多个反应位点可沿着反应结构随机分布或以预定方式布置(例如,在矩阵中并排布置,诸如在微阵列中)。反应位点还可包括反应室或反应凹槽,其至少部分地限定了被配置为分隔指定反应的空间区域或体积。如本文所用,术语“反应室”或“反应凹槽”包括支撑结构的限定空间区域(其通常与流动通道流体连通)。反应凹槽可至少部分地与其他或空间区域的周围环境隔开。例如,多个反应凹槽可通过共用壁诸如检测表面彼此隔开。作为更具体的示例,反应凹槽可以是包括由检测表面的内表面限定的凹痕、凹坑、孔、槽、腔或凹陷的纳米孔,并且具有开口或孔隙(即,为敞开的),使得纳米孔可与流动通道流体连通。

在一些示例中,反应结构的反应凹槽的尺寸和形状相对于固体(包括半固体)被设定成使得固体可完全或部分地插入其中。例如,反应凹槽的尺寸和形状可被设定成容纳捕获小珠。该捕获小珠可在其上具有克隆扩增的DNA或其他物质。或者,反应凹槽的尺寸和形状可被设定成接纳大约数量的小珠或固体基板。又如,反应凹槽可填充有多孔凝胶或物质,该多孔凝胶或物质被配置为控制扩散或过滤可流入反应凹槽的流体或溶液。

在一些示例中,光传感器(例如,光电二极管)与对应的反应位点相关联。与反应位点相关联的光传感器被配置为当在相关联的反应位点处已发生指定反应时,经由至少一个光导检测来自相关联的反应位点的光发射。在一些情况下,多个光传感器(例如,光检测或相机设备的若干像素)可与单个反应位点相关联。在其他情况下,单个光传感器(例如,单个像素)可与单个反应位点或与一组反应位点相关联。光传感器、反应位点和生物传感器的其他特征可被配置为使得光中的至少一些被光传感器直接检测到而不被反射。

如本文所用,“生物或化学物质”包括生物分子、感兴趣的样品、感兴趣的分析物和其他化合物。生物或化学物质可用于检测、识别或分析其他化合物,或者用作研究或分析其他化合物的中间物。在特定示例中,生物或化学物质包括生物分子。如本文所用,“生物分子”包括生物聚合物、核苷、核酸、多核苷酸、寡核苷酸、蛋白质、酶、多肽、抗体、抗原、配体、受体、多糖、碳水化合物、多磷酸盐、细胞、组织、生物体或它们的片段中的至少一种,或任何其他生物活性化合物诸如前述物质的类似物或模拟物。在另一个示例中,生物或化学物质或生物分子包括在偶联反应中用于检测另一反应的产物的酶或试剂,诸如酶或试剂,诸如用于在焦磷酸测序反应中检测焦磷酸盐的酶或试剂。可用于焦磷酸盐检测的酶和试剂描述于例如美国专利公布2005/0244870A1中,其全文以引用方式并入。

生物分子、样品以及生物或化学物质可为天然存在的或合成的,并且可悬浮在反应凹槽或区域内的溶液或混合物中。生物分子、样品以及生物或化学物质也可结合至固相或凝胶材料。生物分子、样品以及生物或化学物质也可包括药物组合物。在一些情况下,感兴趣的生物分子、样品以及生物或化学物质可称为靶标、探针或分析物。

如本文所用,“生物传感器”包括具有多个反应位点的反应结构的设备,该设备被配置为检测在反应位点处或附近发生的指定反应。生物传感器可包括固态光检测或“成像”设备(例如,CCD或CMOS光检测设备)以及任选地安装到其上的流通池。流通池可包括与反应位点流体连通的至少一个流动通道。作为一个具体示例,生物传感器被配置为流体耦接和电耦接到生物测定系统。生物测定系统可根据预定方案(例如,边合成边测序)将反应溶液递送到反应位点,并且执行多个成像事件。例如,生物测定系统可引导反应溶液沿反应位点流动。反应溶液中的至少一种可包含四种类型的具有相同或不同荧光标记的核苷酸。核苷酸可结合至反应位点,诸如结合至反应位点处的对应寡核苷酸。然后,生物测定系统可使用激发光源(例如固态光源,诸如发光二极管(LED))照亮反应位点。激发光可具有预定的一个或多个波长,包括一个波长范围。由入射激发光激发的荧光标记可提供可由光传感器检测的发射信号(例如,与激发光不同并且可能彼此不同的一个或多个波长的光)。

如本文所用,当关于生物分子或生物或化学物质使用时,术语“固定的”包括在分子水平上基本上将生物分子或生物或化学物质连接到表面,诸如连接到光检测设备或反应结构的检测表面。例如,可使用吸附技术将生物分子或生物或化学物质固定到反应结构的表面,所述吸附技术包括非共价相互作用(例如,静电力、范德华力以及疏水界面的脱水)和共价结合技术,其中官能团或接头有利于将生物分子连接到表面。将生物分子或生物或化学物质固定到表面可基于表面的属性、携带生物分子或生物或化学物质的液体介质以及生物分子或生物或化学物质本身的属性。在一些情况下,表面可被官能化(例如,化学或物理改性),以有利于将生物分子(或生物或化学物质)固定到表面。

在一些示例中,核酸可固定到反应结构,诸如固定到其反应凹槽的表面。在特定示例中,本文所述的设备、生物传感器、生物测定系统和方法可包括使用天然核苷酸以及被配置为与天然核苷酸相互作用的酶。天然核苷酸包括例如核糖核苷酸或脱氧核糖核苷酸。天然核苷酸可为单磷酸盐、二磷酸盐或三磷酸盐形式,并且可具有选自腺嘌呤(A)、胸腺嘧啶(T)、尿嘧啶(U)、鸟嘌呤(G)或胞嘧啶(C)的碱基。然而,应当理解,可使用非天然核苷酸、经修饰的核苷酸或前述核苷酸的类似物。

如上所述,生物分子或生物或化学物质可固定在反应结构的反应凹槽中的反应位点处。此类生物分子或生物物质可通过过盈配合、粘附、共价键或截留物理地保持或固定在反应凹槽内。可设置在反应凹槽内的物品或固体的示例包括聚合物小珠、微丸、琼脂糖凝胶、粉末、量子点或可被压缩和/或保持在反应室内的其他固体。在某些具体实施中,反应凹槽可涂覆或填充有能够共价结合DNA寡核苷酸的水凝胶层。在特定示例中,核酸超结构(诸如DNA球)可例如通过附接至反应凹槽的内表面或通过停留在反应凹槽内的液体中而设置在反应凹槽中或反应凹槽处。可进行DNA球或其他核酸超结构,然后将其设置在反应凹槽中或反应凹槽处。另选地,DNA球可在反应凹槽处原位合成。固定在反应凹槽中的物质可为固态、液态或气态。

如本文所用,术语“分析物”旨在表示图案中的点或区域,其可根据相对位置区别于其他点或区域。单个分析物可包括一种或多种特定类型的分子。例如,分析物可包括具有特定序列的单个靶核酸分子,或者分析物可包括具有相同序列(和/或其互补序列)的若干核酸分子。位于图案的不同分析物处的不同分子可根据分析物在图案中的位置而彼此区分。示例性分析物包括但不限于基板中的孔、基板中或基板上的小珠(或其他颗粒)、基板的突出部、基板上的脊、基板上的凝胶材料垫或基板中的通道。

待检测、表征或鉴定的多种靶分析物中的任一种可用于本文所述的设备、系统或方法中。示例性分析物包括但不限于核酸(例如,DNA、RNA或它们的类似物)、蛋白质、多糖、细胞、抗体、表位、受体、配体、酶(例如,激酶、磷酸酶或聚合酶)、小分子候选药物、细胞、病毒、生物体等。

术语“分析物”、“核酸”、“核酸分子”和“多核苷酸”在本文中可互换使用。在各种具体实施中,核酸可用作如本文所提供的模板(例如,核酸模板,或与核酸模板互补的核酸互补序列)以用于特定类型的核酸分析,包括但不限于核酸扩增、核酸表达分析和/或核酸序列测定或它们的合适组合。在某些具体实施中,核酸包括例如3'-5'磷酸二酯或其他键中的脱氧核糖核苷酸的线性聚合物,诸如脱氧核糖核酸(DNA),例如单链和双链DNA、基因组DNA、拷贝DNA或互补DNA(cDNA)、重组DNA或任何形式的合成或修饰DNA。在其他具体实施中,核酸包括例如3'-5'磷酸二酯或其他键中的核糖核苷酸的线性聚合物,诸如核糖核酸(RNA),例如单链和双链RNA、信使(mRNA)、拷贝RNA或互补RNA(cRNA)、选择性剪接的mRNA、核糖体RNA、核仁小RNA(snoRNA)、微小RNA(miRNA)、小干扰RNA(sRNA)、piwi RNA(piRNA)或任何形式的合成或修饰的RNA。用于本发明的组合物和方法中的核酸的长度可变化,并且可以是完整的或全长的分子或片段或较大核酸分子的较小部分。在特定具体实施中,核酸可具有一种或多种可检测标记,如本文别处所述。

术语“分析物”、“簇”、“核酸簇”、“核酸群体”和“DNA簇”可互换使用,指附着到固体载体的核酸模板和/或其互补序列的多个拷贝。通常并且在某些优选的具体实施中,核酸簇包含模板核酸和/或其互补序列的多个拷贝,所述多个拷贝通过它们的5'末端连接至固体载体。构成核酸簇的核酸链的拷贝可为单链或双链形式。簇中存在的核酸模板的拷贝可在例如由于标记部分的存在而彼此不同的对应位置处具有核苷酸。对应的位置还可包含具有不同化学结构但具有相似Watson-Crick碱基配对属性的类似结构,诸如尿嘧啶和胸腺嘧啶的情况。

核酸群体也可称为“核酸簇”。核酸群体可任选地通过簇扩增或桥式扩增技术产生,如本文其他地方进一步详细阐述的。靶序列的多个重复可存在于单个核酸分子中,诸如使用滚环扩增程序产生的多联体。

根据所用的条件,本发明的核酸簇可具有不同的形状、大小和密度。例如,簇可具有基本上圆形、多边形、圆环形或环形的形状。核酸簇的直径可被设计成约0.2μm至约6μm、约0.3μm至约4μm、约0.4μm至约3μm、约0.5μm至约2μm、约0.75μm至约1.5μm或任何介于其间的直径。在特定具体实施中,核酸簇的直径为约0.5μm、约1μm、约1.5μm、约2μm、约2.5μm、约3μm、约4μm、约5μm或约6μm。核酸簇的直径可受到多个参数的影响,包括但不限于产生簇时进行的扩增循环数、核酸模板的长度或附着到其上形成有簇的表面的引物的密度。核酸簇的密度可被设计成通常在0.1/mm2、1/mm2、10/mm2、100/mm2、1,000/mm2、10,000/mm2至100,000/mm2的范围内。本发明还部分地设想了较高密度的核酸簇,例如100,000/mm2至1,000,000/mm2和1,000,000/mm2至10,000,000/mm2

如本文所用,“分析物”是标本或视野内的感兴趣区域。当与微阵列设备或其他分子分析设备结合使用时,分析物是指由类似或相同分子占据的区域。例如,分析物可以是扩增的寡核苷酸或具有相同或相似序列的任何其他组的多核苷酸或多肽。在其他具体实施中,分析物可为占据标本上的物理区域的任何元素或元素组。例如,分析物可以是一片土地、一片水域等。当对分析物成像时,每种分析物都会有一定的面积。因此,在许多具体实施中,分析物不仅仅是一个像素。

分析物之间的距离可用任意多种方式描述。在一些具体实施中,分析物之间的距离可被描述为从一种分析物的中心到另一种分析物的中心。在其他具体实施中,距离可被描述为从一种分析物的边缘到另一种分析物的边缘,或者在每种分析物的最外侧可识别点之间。分析物的边缘可被描述为芯片上的理论或实际物理边界,或分析物边界内的某个点。在其他具体实施中,距离可相对于标本上的固定点或标本的图像中的固定点来描述。

一般来讲,本文将关于分析方法来描述若干具体实施。应当理解,还提供了用于以自动化或半自动化的方式执行方法的系统。因此,本公开提供了基于神经网络的模板生成和碱基检出系统,其中该系统可包括处理器;存储设备;以及用于图像分析的程序,该程序包括用于执行本文所述方法中的一种或多种方法的指令。因此,本文所述的方法可在例如具有本文所述或本领域已知的组件的计算机上进行。

本文示出的方法和系统可用于分析多种对象中的任一种。特别有用的对象是具有连接的分析物的固体载体或固相表面。当用于在xy平面中具有分析物的重复图案的对象时,本文示出的方法和系统提供优点。一个示例是具有细胞、病毒、核酸、蛋白质、抗体、碳水化合物、小分子(诸如候选药物)、生物活性分子或其他感兴趣的分析物的连接集合的微阵列。

已经开发出越来越多的应用,用于具有生物分子(诸如核酸和多肽)的分析物的阵列。此类微阵列通常包括脱氧核糖核酸(DNA)或核糖核酸(RNA)探针。这些探针对人类和其他生物体中存在的核苷酸序列为特异性的。在某些应用中,例如,可将单个DNA或RNA探针连接到阵列的单个分析物上。可将诸如来自已知的人或生物体的试样暴露于阵列,使得靶核酸(例如,基因片段、mRNA或其扩增子)与阵列中相应分析物处的互补探针杂交。探针可在靶标特异性过程中进行标记(例如,由于存在于靶核酸上的标记或由于在分析物中以杂交形式存在的探针或靶标的酶标记)。然后可通过扫描分析物上特定频率的光来检查阵列,以识别样品中存在哪些靶核酸。

生物微阵列可用于基因测序和类似应用。一般来讲,基因测序包括确定靶核酸(诸如DNA或RNA的片段)的长度中的核苷酸顺序。相对短的序列通常在每种分析物处进行测序,并且所得的序列信息可用于各种生物信息学方法中以将序列片段逻辑地拟合在一起,从而可靠地确定从其衍生出片段的遗传物质的长度范围更广的序列。已开发出用于特征性片段的自动化的、基于计算机的算法,并且最近已将其用于基因组作图、基因及其功能的鉴定等。微阵列尤其可用于表征基因组含量,因为存在大量变体,并且这取代了对单个探针和靶标进行许多实验的选择方案。微阵列是用于以实际方式进行此类研究的理想形式。

本领域已知的多种分析物阵列(也称为“微阵列”)中的任一种均可用于本文所述的方法或系统中。典型的阵列包含分析物,每种分析物具有单独的探针或探针群。在后一种情况下,每种分析物处的探针群通常是同质的,具有单一种类的探针。例如,就核酸阵列而言,每种分析物可具有多个核酸分子,每个核酸分子具有共同的序列。然而,在一些具体实施中,阵列的每种分析物处的探针群可以是异质的。类似地,蛋白质阵列可具有含单个蛋白质或蛋白质群的分析物,单个蛋白质或蛋白质群通常但不总是具有相同的氨基酸序列。探针可例如通过探针与表面的共价键合或通过探针与表面的非共价相互作用附着到阵列的表面。在一些具体实施中,探针诸如核酸分子可经由凝胶层附着到表面,如例如在以下专利申请中所述:美国专利申请序列号13/784,368和美国专利申请公布2011/0059865 A1中,这些专利申请中的每一篇均以引用方式并入本文。

示例性阵列包括但不限于得自Illumina公司(San Diego,Calif.)的BeadChip阵列或其他阵列,诸如其中探针附着到存在于表面上的小珠(例如,表面上的孔中的小珠)的那些阵列,例如美国专利6,266,459、6,355,431、6,770,441、6,859,570或7,622,294,或PCT公布WO 00/63437,这些专利申请中的每一篇均以引用方式并入本文。可使用的可商购获得的微阵列的其他示例包括,例如,微阵列或根据有时称为VLSIPSTM(超大规模固定化聚合物合成)技术合成的其他微阵列。点状微阵列也可用于根据本发明的一些具体实施的方法或系统中。示例性点状微阵列是得自Amersham Biosciences的CodeLinkTM阵列。可用的另一个微阵列是使用喷墨印刷方法(诸如得自AgilentTechnologies的SurePrintTM技术)制造的微阵列。

其他可用的阵列包括用于核酸测序应用的阵列。例如,具有基因组片段扩增子的阵列(通常称为簇)是特别有用的,诸如在Bentley等人,Nature 456:53-59(2008);WO 04/018497;WO 91/06678;WO 07/123744;美国专利7,329,492;7,211,414;7,315,019;7,405,281或7,057,026;或美国专利申请公布2008/0108082 A1中所述的那些,这些文献中的每一篇均以引用方式并入本文。可用于核酸测序的另一种类型的阵列是由乳液PCR技术产生的颗粒的阵列。示例描述于:Dressman等人,Proc.Natl.Acad.Sci.USA 100:8817-8822(2003);WO 05/010145;美国专利申请公布2005/0130173或美国专利申请公布2005/0064460,这些文献中的每一篇均全文以引用方式并入本文。

用于核酸测序的阵列通常具有核酸分析物的随机空间模式。例如,得自Illumina公司(San Diego,Calif.)的HiSeq或MiSeq测序平台利用流通池,在该流通池上通过随机接种然后桥式扩增形成核酸阵列。然而,图案化阵列也可用于核酸测序或其他分析应用。示例性图案化阵列、其制造方法及其使用方法阐述于以下美国专利中:美国序列号13/787,396、美国序列号13/783,043、美国序列号13/784,368、美国专利申请公布2013/0116153 A1和美国专利申请公布2012/0316086 A1,这些专利申请中的每一篇均以引用方式并入本文。此类图案化阵列的分析物可用于捕获单个核酸模板分子以进行接种,随后例如经由桥式扩增形成同质群体。此类图案化阵列尤其可用于核酸测序应用。

可选择阵列(或本文的方法或系统中使用的其他对象)上的分析物的尺寸以适合特定应用。例如,在一些具体实施中,阵列的分析物可具有仅容纳单个核酸分子的尺寸。具有多个在该尺寸范围内的分析物的表面可用于构造分子阵列,从而以单分子分辨率进行检测。该尺寸范围内的分析物也可用于具有分析物的阵列中,这些分析物各自包含核酸分子的群体。因此,阵列的分析物可各自具有不大于约1mm2、不大于约500μm2、不大于约100μm2、不大于约10μm2、不大于约1μm2、不大于约500nm2、或不大于约100nm2、不大于约10nm2、不大于约5nm2或不大于约1nm2的面积。另选地或除此之外,阵列的分析物将不小于约1mm2、不小于约500μm2、不小于约100μm2、不小于约10μm2、不小于约1μm2、不小于约500nm2、不小于约100nm2、不小于约10nm2、不小于约5nm2或不小于约1nm2。实际上,分析物可具有在选自上文所例示的那些上限和下限之间的范围内的尺寸。尽管已关于核酸和核酸的尺度举例说明了表面的分析物的若干尺寸范围,但应当理解,这些尺寸范围内的分析物可用于不包括核酸的应用。还应当理解,分析物的尺寸不必局限于核酸应用中使用的尺度。

对于包括具有多种分析物的对象(诸如,分析物的阵列)的具体实施而言,分析物可以是离散的,彼此之间有间隔。可用于本发明的阵列可具有由至多100μm、50μm、10μm、5μm、1μm、0.5μm或更小的边缘到边缘距离隔开的分析物。另选地或除此之外,阵列可具有由至少0.5μm、1μm、5μm、10μm、50μm、100μm或更大的边缘到边缘距离隔开的分析物。这些范围可适用于分析物的平均边缘到边缘间距以及最小或最大间距。

在一些具体实施中,阵列的分析物不必是离散的,相反相邻的分析物可彼此邻接。无论分析物是否为离散的,分析物的尺寸和/或分析物的间距都可变化,使得阵列可具有期望的密度。例如,规则图案中的平均分析物间距可为至多100μm、50μm、10μm、5μm、1μm、0.5μm或更小。另选地或除此之外,规则图案中的平均分析物间距可为至少0.5μm、1μm、5μm、10μm、50μm、100μm或更大。这些范围也可适用于规则图案的最大或最小间距。例如,规则图案的最大分析物间距可为至多100μm、50μm、10μm、5μm、1μm、0.5μm或更小;并且/或者规则图案中的最小分析物间距可为至少0.5μm、1μm、5μm、10μm、50μm、100μm或更大。

阵列中分析物的密度也可根据每单位面积存在的分析物数量来理解。例如,阵列的平均分析物密度可为至少约1×103个分析物/mm2、1×104个分析物/mm2、1×105个分析物/mm2、1×106个分析物/mm2、1×107个分析物/mm2、1×108个分析物/mm2或1×109个分析物/mm2或更高。另选地或除此之外,阵列的平均分析物密度可为至多约1×109个分析物/mm2、1×108个分析物/mm2、1×107个分析物/mm2、1×106个分析物/mm2、1×105个分析物/mm2、1×104个分析物/mm2或1×103个分析物/mm2或更低。

上述范围可适用于规则图案的全部或部分,包括例如分析物阵列的全部或部分。

图案中的分析物可具有多种形状中的任一种。例如,当在二维平面内(诸如在阵列的表面上)观察时,分析物可看起来为圆形、环形、椭圆形、矩形、正方形、对称的、不对称的、三角形、多边形等。分析物可以规则的重复图案布置,包括例如六边形或直线形图案。可选择图案以实现所需的填充水平。例如,圆形分析物以六边形布置进行最佳填充。当然,其他填充布置也可用于圆形分析物,并且反之亦然。

图案可根据在形成该图案的最小几何单元的子集中存在的分析物的数量来表征。该子集可包括例如至少约2、3、4、5、6、10种或更多种分析物。根据分析物的尺寸和密度,几何单元可占据小于1mm2、500μm2、100μm2、50μm2、10μm2、1μm2、500nm2、100nm2、50nm2、10nm2或更小的面积。另选地或除此之外,几何单元可占据大于10nm2、50nm2、100nm2、500nm2、1μm2、10μm2、50μm2、100μm2、500μm2、1mm2或更大的面积。几何单元中的分析物的特征(诸如形状、尺寸、间距等)可选自本文针对阵列或图案中的分析物更一般地阐述的那些。

具有分析物的规则图案的阵列关于分析物的相对位置可为有序的,但关于每种分析物的一个或多个其他特征为随机的。例如,就核酸阵列而言,核酸分析物关于其相对位置可为有序的,但关于人们对存在于任何特定分析物处的核酸物质的序列的了解为随机的。作为更具体的示例,通过用模板核酸接种分析物的重复图案,并在每种分析物处扩增模板以在分析物处形成模板的拷贝(例如,通过簇扩增或桥式扩增)形成的核酸阵列将具有核酸分析物的规则图案,但关于核酸序列在整个阵列中的分布将是随机的。因此,通常在阵列上检测核酸材料的存在可产生分析物的重复图案,而序列特异性检测可产生信号在整个阵列上的非重复分布。

应当理解,本文对图案、顺序、随机性等的描述不仅涉及对象上的分析物,诸如阵列上的分析物,而且还涉及图像中的分析物。因此,图案、顺序、随机性等可以用于存储、操纵或传送图像数据的多种格式中的任一种存在,包括但不限于计算机可读介质或计算机部件,诸如图形用户界面或其他输出设备。

如本文所用,术语“图像”旨在表示对象的全部或部分的表示。该表示可以是光学检测的再现。例如,可从荧光、发光、散射或吸收信号获得图像。存在于图像中的对象的部分可以是对象的表面或其他xy平面。通常,图像为二维表示,但在一些情况下,图像中的信息可来源于3个或更多个维度。图像不需要包括光学检测的信号。相反,可存在非光信号。图像可以计算机可读格式或介质提供,诸如在本文其他地方阐述的那些中的一者或多者。

如本文所用,“图像”是指标本或其他对象的至少一部分的再现或表示。在一些具体实施中,再现是例如由相机或其他光学检测器产生的光学再现。该再现可以是非光学再现,例如,从纳米孔分析物阵列获得的电信号的表示或从离子敏感型CMOS检测器获得的电信号的表示。在特定具体实施中,非光学再现可从本文阐述的方法或设备中排除。图像可具有能够区分以多种间距中的任一种存在的标本的分析物的分辨率,所述间距包括例如间隔小于100μm、50μm、10μm、5μm、1μm或0.5μm的那些间距。

如本文所用,“获取”、“采集”等术语是指获得图像文件的过程的任何部分。在一些具体实施中,数据采集可包括生成标本的图像,查找标本中的信号,指示检测设备查找或生成信号的图像,给出用于进一步分析或转换图像文件的指令,以及图像文件的任何数量的转换或操纵。

如本文所用,术语“模板”是指信号或分析物之间的位置或关系的表示。因此,在一些具体实施中,模板是具有对应于标本中的分析物的信号的表示的物理网格。在一些具体实施中,模板可以是指示与分析物对应的位置的图表、表格、文本文件或其他计算机文件。在本文呈现的具体实施中,生成模板以便跟踪在不同参考点处捕获的标本的图像集上标本的分析物的位置。例如,模板可以是一组x,y坐标或描述一种分析物相对于另一种分析物的方向和/或距离的一组值。

如本文所用,术语“标本”可指捕获图像的对象或对象的区域。例如,在拍摄地球表面的图像的具体实施中,一片土地可为标本。在流通池中进行生物分子的分析的其他具体实施中,流通池可被分成任何数量的子部分,每个子部分可为标本。例如,流通池可被分成各种流动通道或槽道,并且每个槽道可被进一步分成2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、110、120、140、160、180、200、400、600、800、1000或更多个单独的成像区域。流通池的一个示例具有8个槽道,其中每个槽道被分成120个标本或区块。在另一个具体实施中,标本可由多个区块或甚至整个流通池组成。因此,每个标本的图像可表示较大表面的成像区域。

应当理解,本文所述的对范围和序数列表的引用不仅包括所枚举的数字,而且还包括所枚举的数字之间的所有实数。

如本文所用,“参考点”是指图像之间的任何时间或物理区别。在优选的具体实施中,参考点为时间点。在更优选的具体实施中,参考点是测序反应期间的时间点或循环。然而,术语“参考点”可包括区分或分离图像的其他方面,诸如角度方面、旋转方面、时间方面或可区分或分离图像的其他方面。

如本文所用,“图像子集”是指集合内的图像集。例如,子集可包含1个、2个、3个、4个、6个、8个、10个、12个、14个、16个、18个、20个、30个、40个、50个、60个图像或选自图像集的任意数量个图像。在特定具体实施中,子集可包含不超过1个、2个、3个、4个、6个、8个、10个、12个、14个、16个、18个、20个、30个、40个、50个、60个图像或选自图像集的任意数量个图像。在优选的具体实施中,从一个或多个测序循环获得图像,其中四个图像与每个循环相关。因此,例如,子集可以是通过四个循环获得的一组16个图像。

碱基是指如下核苷酸碱基或核苷酸,A(腺嘌呤)、C(胞嘧啶)、T(胸腺嘧啶)或G(鸟嘌呤)。本专利申请可互换使用“碱基”和“核苷酸”。

术语“染色体”是指活细胞的携带遗传性的基因载体,其来源于包含DNA和蛋白质组分(尤其是组蛋白)的染色质链。本文采用了常规的国际公认的个体人类基因组染色体编号系统。

术语“位点”是指参考基因组上的独特位置(例如,染色体ID、染色体位置和取向)。在一些具体实施中,位点可为残基、序列标签或片段在序列上的位置。术语“基因位点”可用于指核酸序列或多态性在参考染色体上的特定位置。

本文的术语“样本”是指通常来源于生物流体、细胞、组织、器官或生物体且包含核酸或核酸混合物的样本,该核酸或核酸混合物包含待测序和/或定相的至少一种核酸序列。此类样本包括但不限于痰/口腔液、羊水、血液、血液级分、细针活检样本(例如,外科活检、细针活检等)、尿液、腹膜液、胸膜液、组织外植体、器官培养物和任何其他组织或细胞制剂,或其级分或衍生物,或从其分离的级分或衍生物。虽然样本通常取自人类受试者(例如,患者),但样本可取自具有染色体的任何生物体,包括但不限于狗、猫、马、山羊、绵羊、牛、猪等。样本可按从生物来源获得的原样直接使用,或者经过预处理以改变样本的性质后使用。例如,此类预处理可包括由血液制备血浆、稀释粘性流体等。预处理的方法还可涉及但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰组分的灭活、添加试剂、裂解等。

术语“序列”包括或代表彼此偶联的核苷酸链。核苷酸可基于DNA或RNA。应当理解,一个序列可包括多个子序列。例如,单个序列(例如,PCR扩增子的序列)可具有350个核苷酸。样本读段可包括这350个核苷酸内的多个子序列。例如,样本读段可包括具有例如20-50个核苷酸的第一侧翼子序列和第二侧翼子序列。第一侧翼子序列和第二侧翼子序列可位于具有对应子序列(例如,40-100个核苷酸)的重复片段的任一侧上。每个侧翼子序列可包括引物子序列(例如,10-30个核苷酸)(或包括其部分)。为了便于阅读,术语“子序列”将被称为“序列”,但应当理解,两个序列不一定在共同链上彼此分开。为了区分本文所述的各种序列,可给序列赋予不同的标记(例如,靶序列、引物序列、侧翼序列、参考序列等)。其他术语诸如“等位基因”可被赋予不同的标记,以区分相似的对象。本申请可互换使用“读段”和“序列读段”。

术语“双端测序”是指对靶片段的两端进行测序的测序方法。双端测序可有助于检测基因组重排和重复片段,以及基因融合和新转录本。用于双端测序的方法描述于PCT公布WO07010252、PCT申请序列号PCTGB2007/003798和美国专利申请公布US 2009/0088327中,这些专利中的每一篇均以引用方式并入本文。在一个示例中,可如下执行一系列操作;(a)生成核酸簇;(b)使核酸线性化;(c)使第一测序引物杂交,并如上所述进行延伸、扫描和解封闭的重复循环;(d)通过合成互补拷贝“反转”流通池表面上的靶核酸;(e)使重新合成的链线性化;以及(f)使第二测序引物杂交,并如上所述进行延伸、扫描和解封闭的重复循环。反转操作可通过将如上所述的试剂递送用于桥式扩增的单个循环来进行。

术语“参考基因组”或“参考序列”是指可用于参考来自受试者的已鉴定序列的任何生物体的任何特定已知基因组序列,无论是部分的还是完整的。例如,可在ncbi.nlm.nih.gov的美国国家生物技术信息中心(National Center for BiotechnologyInformation)找到用于人类受试者以及许多其他生物体的参考基因组。“基因组”是指以核酸序列表达的生物体或病毒的完整遗传信息。基因组既包括基因又包括DNA的非编码序列。参考序列可大于与其比对的读段。例如,参考序列可为比对读段的至少约100倍大、或至少约1000倍大、或至少约10,000倍大、或至少约105倍大、或至少约106倍大、或至少约107倍大。在一个示例中,参考基因组序列是全长人类基因组的序列。在另一个示例中,参考基因组序列限于特定的人类染色体,诸如13号染色体。在一些具体实施中,参考染色体是来自人类基因组版本hg19的染色体序列。此类序列可称为染色体参考序列,但术语参考基因组旨在涵盖此类序列。参考序列的其他示例包括其他物种的基因组,以及任何物种的染色体、亚染色体区域(诸如链)等。在各种具体实施中,参考基因组是来源于多个个体的共有序列或其他组合。然而,在某些应用中,参考序列可取自特定个体。在其他具体实施中,“基因组”还涵盖所谓的“图形基因组”,其使用基因组序列的特定存储格式和表示。在一个具体实施中,图形基因组将数据存储在线性文件中。在另一个具体实施中,图形基因组是指其中另选序列(例如,具有小差异的染色体的不同拷贝)作为不同路径存储在图中的表示。关于图形基因组具体实施的其他详细信息可见于https://www.biorxiv.org/content/biorxiv/early/2018/03/20/194530.full.pdf,其内容据此全文以引用方式并入本文。

术语“读段”是指描述核苷酸样本或参考的片段的序列数据的集合。术语“读段”可指样本读段和/或参考读段。通常,尽管不是必须的,读段表示样本或参考中邻接碱基对的短序列。读段可由样本或参考片段的碱基对序列(ATCG形式)象征性地表示。读段可存储在存储器设备中并视情况进行处理,以确定该读段是匹配参考序列还是满足其他标准。读段可直接从测序装置获得或间接从所存储的关于样本的序列信息获得。在一些情况下,读段为足够长度(例如,至少约25bp)的DNA序列,其可用于鉴定更大的序列或区域,例如,其可被比对并特异性地分配给染色体或基因组区域或基因。

下一代测序方法包括例如边合成边测序技术(Illumina)、焦磷酸测序(454)、离子半导体技术(Ion Torrent测序)、单分子实时测序(Pacific Biosciences)和边连接边测序(SOLiD测序)。根据测序方法,每个读段的长度可在约30bp至超过10,000bp之间变化。例如,使用SOLiD测序仪的DNA测序方法产生约50bp的核酸读段。又如,Ion Torrent测序产生最多400bp的核酸读段并且454焦磷酸测序产生约700bp的核酸读段。又如,单分子实时测序方法可产生10,000bp至15,000bp的读段。因此,在某些具体实施中,核酸序列读段的长度为30bp-100bp、50bp-200bp或50bp-400bp。

术语“样本读段”、“样本序列”或“样本片段”是指来自样本的感兴趣的基因组序列的序列数据。例如,样本读段包含来自具有正向和反向引物序列的PCR扩增子的序列数据。序列数据可从任何选择的序列方法中获得。样本读段可例如来自边合成边测序(SBS)反应、边连接边测序反应或需要确定重复元件的长度和/或同一性的任何其他合适的测序方法。样本读段可以是来源于多个样本读段的共有(例如,平均或加权)序列。在某些具体实施中,提供参考序列包括基于PCR扩增子的引物序列鉴定感兴趣的基因位点。

术语“原始片段”是指感兴趣的基因组序列的一部分的序列数据,该序列数据与样本读段或样本片段中感兴趣的指定位置或次要位置至少部分地重叠。原始片段的非限制性示例包括双重拼接片段、单重拼接片段、双重未拼接片段和单重未拼接片段。术语“原始”用于表示原始片段包括与样本读段中的序列数据具有一些关系的序列数据,而不管原始片段是否表现出对应于并验证或确认样本读段中的潜在变异的支持变异。术语“原始片段”不表示该片段必然包括在样本读段中验证变异检出的支持变异。例如,当变异检出应用程序确定样本读段表现出第一变异时,变异检出应用程序可确定一个或多个原始片段缺少对应类型的“支持”变异,原本在给定样本读段中的变异的情况下可能预计会出现该“支持”变异。

术语“映射”、“比对(aligned、alignment或aligning)”是指将读段或标签与参考序列进行比较,从而确定参考序列是否包含该读段序列的过程。如果参考序列包含该读段,则该读段可映射到参考序列,或者在某些具体实施中,映射到参考序列中的特定位置。在一些情况下,比对简单地告知读段是否为特定参考序列的成员(即,该读段是否存在于该参考序列中)。例如,读段与人类13号染色体的参考序列的比对将告知该读段是否存在于13号染色体的参考序列中。提供该信息的工具可被称为集合成员资格测试仪(set membershiptester)。在一些情况下,比对另外指示读段或标签映射到的参考序列中的位置。例如,如果参考序列是人类全基因组序列,则比对可指示读段存在于13号染色体上,并且还可指示该读段存在于13号染色体的特定链和/或位点上。

术语“插入缺失”指生物体DNA中碱基的插入和/或缺失。微插入缺失表示导致1至50个核苷酸的净变化的插入缺失。在基因组的编码区中,除非插入缺失的长度是3的倍数,否则会产生移码突变。插入缺失可与点突变形成对比。插入缺失插入片段从序列中插入和缺失核苷酸,而点突变是置换其中一个核苷酸而不改变DNA中的核苷酸总数的置换形式。插入缺失也可与串联碱基突变(TBM)形成对比,该串联碱基突变可被定义为相邻核苷酸处的置换(主要是两个相邻核苷酸处的置换,但已观察到三个相邻核苷酸处的置换)。

术语“变异”是指与核酸参照物不同的核酸序列。典型的核酸序列变异包括但不限于单核苷酸多态性(SNP)、短缺失和插入多态性(Indel)、拷贝数变异(CNV)、微卫星标记或短串联重复序列和结构变异。体细胞变异检出是识别以低频率存在于DNA样本中的变异的工作。体细胞变异检出在癌症治疗的背景下是令人感兴趣的。癌症是由DNA中突变的积聚引起的。来自肿瘤的DNA样本通常是异质的,包括一些正常细胞、癌症进展早期的一些细胞(具有较少突变)和一些晚期细胞(具有较多突变)。由于这种异质性,当对肿瘤(例如,来自FFPE样本)测序时,体细胞突变将通常以低频率出现。例如,可在覆盖给定碱基的读段的仅10%中看到SNV。待由变异分类器分类为体细胞或种系的变异在本文中也被称为“待测变异”。

术语“噪声”是指由测序过程和/或变异检出应用程序中的一个或多个错误引起的错误变异检出。

术语“变异频率”表示等位基因(基因变异)在群体中特定基因位点处的相对频率,以分数或百分比表示。例如,分数或百分比可以是群体中所有携带该等位基因的染色体的分数。以举例的方式,样本变异频率表示等位基因/变异在沿感兴趣的基因组序列的特定基因位点/位置处相对于“群体”的相对频率,群体对应于从个体获得的感兴趣的基因组序列的读段和/或样本的数量。又如,基线变异频率表示等位基因/变异在沿一个或多个基线基因组序列的特定基因位点/位置处的相对频率,其中“群体”对应于从正常个体的群体获得的一个或多个基线基因组序列的读段和/或样本的数量。

术语“变异等位基因频率(VAF)”是指观察到的匹配变异的测序读段的百分比除以靶位置处的总体覆盖率。VAF是携带变异的测序读段的比例的量度。

术语“位置”、“指定位置”和“基因位点”是指核苷酸序列内的一个或多个核苷酸的位置或坐标。术语“位置”、“指定位置”和“基因位点”也指核苷酸序列中的一个或多个碱基对的位置或坐标。

术语“单倍型”指染色体上相邻位点处一起遗传的等位基因的组合。单倍型可为一个基因位点、多个基因位点或整个染色体,具体取决于在给定的一组基因位点之间发生的重组事件的数目(如果有的话)。

术语“阈值”在本文中是指用作表征样本、核酸或其部分(例如,读段)的截止值的数字或非数字值。阈值可基于经验分析而改变。可将阈值与测量值或计算值进行比较,以确定是否应以特定方式对产生此类值的源进行分类。阈值可根据经验或分析来识别。阈值的选择取决于用户希望必须进行分类的置信水平。阈值可被选择用于特定目的(例如,以平衡灵敏度和选择性)。如本文所用,术语“阈值”指示可改变分析过程的点和/或可触发动作的点。阈值不需要是预定数量。相反,阈值可以是例如基于多个因素的函数。阈值可根据情况进行调整。此外,阈值可指示上限、下限或限值之间的范围。

在一些具体实施中,可将基于测序数据的度量或分数与阈值进行比较。如本文所用,术语“度量”或“分数”可包括由测序数据确定的值或结果,或者可包括基于由测序数据确定的值或结果的函数。与阈值一样,度量或分数可根据情况进行调整。例如,度量或分数可以是归一化值。作为分数或度量的示例,一个或多个具体实施可在分析数据时使用计数分数。计数分数可基于样本读段的数量。样本读段可能已经历一个或多个过滤阶段,使得样本读段具有至少一个共同的特征或质量。例如,用于确定计数分数的每个样本读段可能已经与参考序列比对,或者可能被分配为潜在等位基因。可对具有共同特征的样本读段的数量进行计数以确定读段计数。计数分数可基于读段计数。在一些具体实施中,计数分数可以是等于读段计数的值。在其他具体实施中,计数分数可基于读段计数和其他信息。例如,计数分数可基于基因位点的特定等位基因的读段计数和基因位点的读段总数。在一些具体实施中,计数分数可基于基因位点的读段计数和先前获得的数据。在一些具体实施中,计数分数可以是预定值之间的归一化分数。计数分数还可以是来自样本的其他基因位点的读段计数的函数或来自与感兴趣的样本并行运行的其他样本的读段计数的函数。例如,计数分数可以是特定等位基因的读段计数和样本中其他基因位点的读段计数和/或来自其他样本的读段计数的函数。例如,来自其他基因位点的读段计数和/或来自其他样本的读段计数可用于归一化特定等位基因的计数分数。

术语“覆盖率”或“片段覆盖率”是指序列的相同片段的多个样本读段的计数或其他量度。读段计数可表示覆盖对应片段的读段数量的计数。另选地,可通过将读段计数乘以基于历史知识、样本知识、基因位点知识等的指定因子来确定覆盖率。

术语“读段深度”(通常为数字后跟“×”)是指在靶位置处具有重叠比对的序列读段的数量。这通常表示为一组区间(诸如外显子、基因或组)内的平均值或超过截止值的百分比。例如,临床报告可能说组平均覆盖率为1,105×,其中98%的靶碱基覆盖率>100×。

术语“碱基检出质量分数”或“Q分数”是指与单个测序碱基正确的概率成反比的0-50范围内的PHRED标度概率。例如,Q为20的T碱基检出被认为可能是正确的,概率为99.99%。Q<20的任何碱基检出应被认为是低质量的,并且在支持变异的相当大比例的测序读段具有低质量的情况下识别的任何变异应被认为是潜在假阳性的。

术语“变异读段”或“变异读段数量”是指支持变异存在的测序读段的数量。

关于“链型”(或DNA链型),DNA中的遗传信息可表示为字母A、G、C和T的字符串。例如,5’–AGGACA–3’。通常,序列沿此处所示的方向书写,即,5’端向左而3’端向右。DNA有时可以单链分子的形式出现(如在某些病毒中),但通常我们发现DNA为双链单元。它具有双螺旋结构,该结构具有两条逆平行链。在这种情况下,词语“逆平行”是指两条链平行延伸,但具有相反的极性。双链DNA通过碱基之间的配对保持在一起,并且配对总是使得腺嘌呤(A)与胸腺嘧啶(T)配对并且胞嘧啶(C)与鸟嘌呤(G)配对。这种配对被称为互补性,并且DNA的一条链被称为另一条链的互补序列。因此,双链DNA可表示为两个字符串,像这样:5’–AGGACA–3’和3’–TCCTGT–5’。注意,两条链具有相反的极性。因此,两条DNA链的链型可称为参考链及其互补链、正向链和反向链、顶部链和底部链、有义链和反义链或沃森链和克里克链。

读段比对(也称为读段映射)是找出序列在基因组中的位置的过程。一旦进行了比对,给定读段的“映射质量”或“映射质量分数(MAPQ)”对其在基因组上的位置正确的概率进行定量。映射质量以phred标度进行编码,其中P是比对不正确的概率。概率计算为:P=10(-MAQ/10),其中MAPQ是映射质量。例如,40的映射质量=10的-4次方,这意味着读段有0.01%的机会被错误地比对。因此,映射质量与若干比对因素相关联,诸如读段的碱基质量、参考基因组的复杂性以及双端信息。关于第一个因素,如果读段的碱基质量低,则意味着观察到的序列可能是错误的,因此其比对是错误的。关于第二个因素,可映射性是指基因组的复杂性。重复区域更难以映射,并且落入这些区域中的读段通常获得低映射质量。在这种情况下,MAPQ反映了这样一个事实,即读段不是唯一比对的,它们的真正来源无法确定。关于第三个因素,在双端测序数据的情况下,一致的对更可能是良好比对的。映射质量越高,比对越好。以良好映射质量比对的读段通常意味着读段序列良好,并且在高可映射性区域中几乎没有错配地进行比对。MAPQ值可用作比对结果的质量控制。MAPQ高于20的所比对读段的比例通常用于下游分析。

如本文所用,“信号”是指可检测的事件,诸如图像中的发射,优选地为光发射。因此,在优选的具体实施中,信号可表示在图像中捕获的任何可检测的光发射(即,“光点”)。因此,如本文所用,“信号”可指来自标本的分析物的实际发射,并且可指与实际分析物不相关的杂散发射。因此,信号可能由噪声产生,并且由于不代表标本的实际分析物而可能随后被丢弃。

如本文所用,术语“丛”是指一组信号。在特定具体实施中,信号来源于不同的分析物。在优选的具体实施中,信号丛是聚集在一起的一组信号。在更优选的具体实施中,信号丛表示由一个扩增的寡核苷酸覆盖的物理区域。每个信号丛在理想情况下应被观察为若干信号(每个模板循环一个,并且可能由于串扰而更多)。因此,在来自同一信号丛的模板中包括两个(或更多个)信号的情况下,检测到重复信号。

如本文所用,术语诸如“最小”、“最大”、“最小化”、“最大化”及其语法变型可包括不是绝对最大值或最小值的值。在一些具体实施中,这些值包括接近最大值和接近最小值。在其他具体实施中,这些值可包括局部最大值和/或局部最小值。在一些具体实施中,这些值仅包括绝对最大值或最小值。

如本文所用,“串扰”是指在一个图像中检测到的信号也在单独的图像中检测到。在优选的具体实施中,当在两个单独的检测通道中检测到发射的信号时,可发生串扰。例如,在发射信号以一种颜色出现的情况下,该信号的发射光谱可与另一种颜色的另一个发射信号重叠。在优选的具体实施中,在单独的通道中检测用于指示核苷酸碱基A、C、G和T的存在的荧光分子。然而,因为A和C的发射光谱重叠,所以可在使用A颜色通道的检测期间检测C颜色信号中的一些。因此,A信号和C信号之间的串扰允许来自一个彩色图像的信号出现在另一个彩色图像中。在一些具体实施中,G和T串扰。在一些具体实施中,通道之间的串扰量为不对称的。应当理解,通道之间的串扰量可通过(除了别的以外)选择具有适当发射光谱的信号分子以及选择检测通道的尺寸和波长范围来控制。

如本文所用,“配准(register、registering、registration)”和类似术语是指将来自第一时间点或视角的图像或数据集中的信号与来自另一时间点或视角的图像或数据集中的信号相关联的任何过程。例如,配准可用于对准来自图像集的信号以形成模板。又如,配准可用于将来自其他图像的信号与模板对准。一个信号可直接或间接配准到另一个信号。例如,来自图像“S”的信号可直接配准到图像“G”。又如,来自图像“N”的信号可直接配准到图像“G”,或者另选地,来自图像“N”的信号可配准到先前已配准到图像“G”的图像“S”。因此,来自图像“N”的信号间接配准到图像“G”。

如本文所用,术语“基准”旨在表示对象中或对象上的可区分的参考点。参考点可为例如标记、第二对象、形状、边缘、区域、不规则性、通道、凹坑、柱等。参考点可存在于对象的图像中或存在于从检测对象导出的另一数据集中。参考点可由对象平面中的x和/或y坐标来指定。另选地或除此之外,参考点可由正交于xy平面的z坐标指定,例如由对象和检测器的相对位置限定。可相对于对象或图像或从对象导出的其他数据集的一个或多个其他分析物来指定参考点的一个或多个坐标。

如本文所用,术语“光信号”旨在包括例如荧光信号、发光信号、散射信号或吸收信号。可在电磁光谱的紫外(UV)范围(约200纳米至390纳米)、可见(VIS)范围(约391纳米至770纳米)、红外(IR)范围(约0.771微米至25微米)或其他范围内检测光信号。可以排除这些范围中的一个或多个的全部或部分的方式检测光信号。

如本文所用,术语“信号电平”旨在表示具有期望或预定义特征的检测到的能量或编码信息的量或数量。例如,光信号可通过强度、波长、能量、频率、功率、亮度等中的一者或多者来量化。其他信号可根据特征诸如电压、电流、电场强度、磁场强度、频率、功率、温度等进行量化。信号缺失被理解为信号电平为零或信号电平与噪声没有明显区别。

如本文所用,术语“模拟”旨在表示创建物理事物或动作的表示或模型,其预测该事物或动作的特征。在许多情况下,表示或模型可与事物或动作区分开来。例如,就一个或多个特征诸如颜色、从事物的全部或部分检测到的信号强度、尺寸或形状而言,表示或模型可与事物区分开来。在特定具体实施中,当与事物或动作相比时,表示或模型可以是理想化的、放大的、变暗的或不完整的。因此,在一些具体实施中,例如,就上述特征中的至少一个特征而言,模型的表示可与其所表示的事物或动作区分开来。该表示或模型可以计算机可读格式或介质提供,诸如在本文其他地方阐述的那些中的一者或多者。

如本文所用,术语“特定信号”旨在表示相对于其他能量或信息(诸如背景能量或信息)选择性地观察到的检测到的能量或编码信息。例如,特定信号可以是在特定强度、波长或颜色下检测到的光信号;在特定频率、功率或场强下检测到的电信号;或本领域已知的与光谱和分析检测有关的其他信号。

如本文所用,术语“长条”旨在表示对象的矩形部分。长条可为细长的条带,其通过在平行于该条带的最长维度的方向上对象与检测器之间的相对运动来扫描。一般来讲,矩形部分或条带的宽度沿其全长将是恒定的。对象的多个长条可彼此平行。对象的多个长条可彼此相邻、彼此重叠、彼此邻接或通过间隙区域彼此隔开。

如本文所用,术语“方差”旨在表示预期值与观察值之间的差值或两个或更多个观察值之间的差值。例如,方差可以是期望值与测量值之间的差异。方差可使用统计函数来表示,诸如标准偏差、标准偏差的平方、变异系数等。

如本文所用,术语“xy坐标”旨在表示指定xy平面中的位置、尺寸、形状和/或取向的信息。该信息可以是例如笛卡尔系统中的数字坐标。坐标可相对于x轴和y轴中的一者或两者提供,或者可相对于xy平面中的另一个位置提供。例如,对象的分析物的坐标可指定分析物相对于对象的基准或其他分析物的位置的位置。

如本文所用,术语“xy平面”旨在表示由直线轴x和y限定的二维区域。当参考检测器和检测器所观察的对象使用时,该区域可被进一步指定为与检测器和所检测的对象之间的观察方向正交。

如本文所用,术语“z坐标”旨在表示指定沿着正交于xy平面的轴的点、线或区域的位置的信息。在特定具体实施中,z轴正交于检测器所观察的对象的区域。例如,光学系统的焦点方向可沿z轴指定。

在一些具体实施中,使用仿射变换来变换所采集的信号数据。在一些此类具体实施中,模板生成利用颜色通道之间的仿射变换在运行之间是一致的这一事实。由于这种一致性,当确定标本中分析物的坐标时,可使用一组默认偏移量。例如,默认偏移文件可包含不同通道相对于一个通道(诸如A通道)的相对变换(移动、缩放、偏斜)。然而,在其他具体实施中,颜色通道之间的偏移在运行期间和/或运行之间漂移,使得偏移驱动的模板生成变得困难。在此类具体实施中,本文所提供的方法和系统可利用无偏移模板生成,这将在下文进一步描述。

在上述具体实施的一些方面,该系统可包括流通池。在一些方面,流通池包括区块的槽道或其他配置,其中至少一些区块包括一个或多个分析物阵列。在一些方面,分析物包含多个分子诸如核酸。在某些方面,流通池被配置为将标记的核苷酸碱基递送至核酸阵列,从而延伸与分析物内的核酸杂交的引物,以便产生对应于包含核酸的分析物的信号。在优选的具体实施中,分析物内的核酸彼此相同或基本上相同。

在本文所述的一些图像分析系统中,图像集中的每个图像包括颜色信号,其中不同的颜色对应于不同的核苷酸碱基。在一些方面,该图像集中的每个图像包括具有选自至少四种不同颜色的单一颜色的信号。在一些方面,该图像集中的每个图像包括具有选自四种不同颜色的单一颜色的信号。在本文所述的一些系统中,可通过向分子阵列提供四种不同的标记核苷酸碱基来对核酸进行测序,从而产生四种不同的图像,每种图像包含具有单一颜色的信号,其中信号颜色对于四种不同图像中的每一种都是不同的,从而产生对应于核酸中特定位置存在的四种可能核苷酸的四种颜色图像的循环。在某些方面,该系统包括流通池,该流通池被配置为将另外的标记核苷酸碱基递送到分子阵列,从而产生彩色图像的多个循环。

在优选的具体实施中,本文提供的方法可包括确定处理器是否正在主动采集数据或处理器是否处于低活动状态。采集和存储大量高质量图像通常需要大量存储容量。另外,一旦采集和存储,对图像数据的分析可能变为资源密集型,并且可能干扰其他功能的处理能力,诸如正在进行的额外图像数据的采集和存储。因此,如本文所用,术语低活动状态是指处理器在给定时间的处理能力。在一些具体实施中,当处理器未采集和/或存储数据时,低活动状态发生。在一些具体实施中,当进行一些数据采集和/或存储时,低活动状态发生,但是额外的处理能力保持不变,使得图像分析可在不干扰其他功能的情况下同时发生。

如本文所用,“识别冲突”是指识别多个进程竞争资源的情况。在一些此类具体实施中,一个进程被赋予比另一个进程更高的优先级。在一些具体实施中,冲突可能涉及为时间分配、处理能力、存储容量或被赋予优先级的任何其他资源赋予优先级的需要。因此,在一些具体实施中,当处理时间或能力要分布在两个进程(诸如分析数据集和采集和/或存储数据集)之间时,两个进程之间存在冲突,并且可通过赋予其中一个进程优先级来解决冲突。

本文还提供了用于执行图像分析的系统。该系统可包括处理器;存储容量;以及用于图像分析的程序,该程序包括用于处理用于存储的第一数据集和用于分析的第二数据集的指令,其中该处理包括在存储设备上采集和/或存储第一数据集,并且当处理器未采集第一数据集时分析第二数据集。在某些方面,该程序包括用于以下操作的指令:识别采集和/或存储第一数据集与分析第二数据集之间的冲突的至少一个实例;以及解决冲突以有利于采集和/或存储图像数据,使得采集和/或存储第一数据集被赋予优先级。在某些方面,第一数据集包括从光学成像设备获得的图像文件。在某些方面,系统还包括光学成像设备。在一些方面,光学成像设备包括光源和检测设备。

如本文所用,术语“程序”是指执行任务或进程的指令或命令。术语“程序”可与术语模块互换使用。在某些具体实施中,程序可以是在同一命令集下执行的各种指令的编译。在其他具体实施中,程序可指离散的批或文件。

下文阐述了利用本文所述的用于执行图像分析的方法和系统的一些令人惊讶的效果。在一些测序具体实施中,测序系统效用的重要量度是其总体效率。例如,每天产生的可映射数据量以及安装和运行仪器的总成本是经济测序解决方案的重要方面。为了减少生成可映射数据的时间并提高系统的效率,可在仪器计算机上启用实时碱基检出,并且可与测序化学过程和成像同步运行。这允许许多数据处理和分析在测序化学过程结束之前完成。另外,它可减少中间数据所需的存储,并限制需要通过网络传输的数据量。

虽然序列输出增加了,但从本文提供的系统传输到网络和辅助分析处理硬件的每次运行的数据已显著减少。通过在仪器计算机(采集计算机)上转换数据,显著降低了网络负载。如果没有这些机载的、离线的数据简化技术,一组DNA测序仪器的图像输出将使大多数网络瘫痪。

高通量DNA测序仪器的广泛采用部分是由于易于使用、对各种应用的支持以及对几乎任何实验室环境的适用性。本文介绍的高效算法允许将重要的分析功能添加到可控制测序仪器的简单工作站中。对计算硬件要求的这种降低具有若干实际益处,这些益处将随着对测序输出水平的不断提高而变得甚至更重要。例如,通过在简单塔上执行图像分析和碱基检出,将热量产生、实验室占地面积和功耗保持在最低水平。相比之下,其他商业测序技术最近已将其计算基础结构扩展到用于主要分析,处理能力高达五倍以上,从而导致热量输出和功耗的相应增加。因此,在一些具体实施中,本文提供的方法和系统的计算效率使得客户能够增加其测序通量,同时将服务器硬件费用保持在最小。

因此,在一些具体实施中,本文提出的方法和/或系统充当状态机,跟踪每个标本的单独状态,并且当其检测到标本准备前进到下一状态时,其进行适当的处理并使标本前进到该状态。根据优选的具体实施,状态机如何监控文件系统以确定标本何时准备好前进到下一状态的更详细示例在下面的实施例1中示出。

在优选的具体实施中,本文提供的方法和系统是多线程的,并且可与可配置数量的线程一起工作。因此,例如在核酸测序的情况下,本文提供的方法和系统能够在实时分析的实时测序运行期间在后台工作,或者其可使用预先存在的图像数据集运行以用于离线分析。在某些优选的具体实施中,方法和系统通过为每个线程赋予其自身所负责的标本的子集来处理多线程。这将线程争用的可能性降至最低。

本公开的方法可包括使用检测装置获得对象的目标图像的步骤,其中图像包括对象上分析物的重复图案。能够对表面进行高分辨率成像的检测装置尤其有用。在特定具体实施中,检测装置将具有足够的分辨率,从而以本文所述的密度、间距和/或分析物尺寸来区分分析物。能够从表面获得图像或图像数据的检测装置特别有用。示例性检测器是被配置为在获得区域图像时使对象和检测器保持静态关系的那些检测器。也可使用扫描装置。例如,可使用获得顺序区域图像的装置(例如,所谓的“步进拍摄”检测器)。在对象的表面上连续扫描点或线以积累数据来构建表面图像的设备也是有用的。点扫描检测器可被配置为经由表面的x-y平面中的光栅运动来扫对象表面上的点(即,小的检测区域)。线扫描检测器可被配置为沿着对象表面的y维度扫描线,该线的最长维度沿着x维度出现。应当理解,可移动检测设备、对象或两者以实现扫描检测。特别适用于例如核酸测序应用的检测装置在以下专利中有所描述:美国专利申请公布2012/0270305A12013/0023422 A1和2013/0260372A1;和美国专利5,528,050、5,719,391、8,158,926和8,241,573中,这些专利中的每一篇均以引用方式并入本文。

本文所公开的具体实施可被实现为使用编程或工程技术来产生软件、固件、硬件或它们的任何组合的方法、装置、系统或制品。如本文所用,术语“制品”是指在硬件或计算机可读介质诸如光学存储设备和易失性或非易失性存储器设备中实现的代码或逻辑。此类硬件可包括但不限于现场可编程门阵列(FPGA)、粗粒度可重构架构(CGRA)、专用集成电路(ASIC)、复杂可编程逻辑器件(CPLD)、可编程逻辑阵列(PLA)、微处理器或其他类似的处理设备。在特定具体实施中,本文阐述的信息或算法存在于非暂态存储介质中。

在特定具体实施中,本文阐述的计算机实现的方法可在获得对象的多个图像时实时发生。此类实时分析尤其可用于核酸测序应用,其中核酸阵列经受流体和检测步骤的重复循环。测序数据的分析通常可能是计算密集型的,使得在进行其他数据采集或分析算法时实时或在后台执行本文所述的方法可能是有益的。可与本发明方法一起使用的示例性实时分析方法是用于得自Illumina公司(San Diego,Calif.)和/或描述于美国专利申请公布2012/0020537 A1中的MiSeq和HiSeq测序设备的那些方法,该专利申请公布以引用方式并入本文。

由一个或多个编程的计算机形成的示例性数据分析系统,其中编程存储在一个或多个机器可读介质上,其中执行代码以进行本文所述方法的一个或多个步骤。在一个具体实施中,例如,该系统包括被设计成允许系统联网到被配置为从目标对象采集数据的一个或多个检测系统(例如,光学成像系统)的接口。接口可在适当的地方接收和调节数据。在特定具体实施中,检测系统将输出数字图像数据,例如,代表单独的图片元素或像素的图像数据,它们共同形成阵列或其他对象的图像。处理器根据由处理代码定义的一个或多个例程来处理接收到的检测数据。处理代码可存储在各种类型的存储器电路中。

根据当前设想的具体实施,对检测数据执行的处理代码包括数据分析例程,该例程被设计成分析检测数据以确定在数据中可见或编码的单独分析物的位置和元数据,以及没有检测到分析物的位置(即,没有分析物的位置,或没有从现有分析物检测到有意义信号的位置)。在特定具体实施中,由于存在附着到成像分析物的荧光染料,阵列中的分析物位置通常将看起来比非分析物位置更亮。应当理解,例如,当探针在分析物处的靶标不存在于被检测的阵列中时,分析物不需要看起来比其周围区域更亮。单独分析物出现的颜色可取决于所采用的染料以及成像系统用于成像目的所用的光的波长。靶标不与之结合或以其他方式缺乏特定标记的分析物可根据其他特征(诸如它们在微阵列中的预期位置)进行鉴定。

一旦数据分析例程已在数据中定位单独分析物,就可进行值分配。一般来讲,值分配将基于由对应位置处的检测器组件(例如,像素)表示的数据的特征,将数字值分配给每个分析物。也就是说,例如当处理成像数据时,值分配例程可被设计成识别在特定位置处检测到特定颜色或波长的光,如由该位置处的像素组或簇所指示的。例如,在典型的DNA成像应用中,四种常见核苷酸将由四种独立且可区分的颜色表示。然后,可为每种颜色分配对应于该核苷酸的值。

如本文所用,术语“模块”、“系统”或“系统控制器”可包括操作以执行一个或多个功能的硬件和/或软件系统和电路。例如,模块、系统或系统控制器可包括基于存储在有形和非暂态计算机可读存储介质诸如计算机存储器上的指令来执行操作的计算机处理器、控制器或其他基于逻辑的设备。另选地,模块、系统或系统控制器可包括基于硬接线逻辑和电路来执行操作的硬接线设备。附图中所示的模块、系统或系统控制器可表示基于软件或硬接线指令来操作的硬件和电路、指导硬件执行操作的软件或它们的组合。模块、系统或系统控制器可包括或表示硬件电路或电路,该硬件电路或电路包括一个或多个处理器并且/或者与该一个或多个处理器连接,诸如一个或多个计算机微处理器。

如本文所用,术语“软件”和“固件”是可互换的,并且包括存储在存储器中以供计算机执行的任何计算机程序,包括RAM存储器、ROM存储器、EPROM存储器、EEPROM存储器和非易失性RAM(NVRAM)存储器。上述存储器类型仅为示例,因此不限制可用于存储计算机程序的存储器类型。

在分子生物学领域中,所使用的核酸测序方法中的一种方法是边合成边测序。该技术可应用于大规模并行测序项目。例如,通过使用自动化平台,可以同时进行成千上万的测序反应。因此,本发明的具体实施中的一个具体实施涉及用于采集、存储和分析在核酸测序期间生成的图像数据的仪器和方法。

可采集和存储的数据量的巨大增益使得简化的图像分析方法甚至更加有益。例如,本文所述的图像分析方法允许设计者和最终用户有效地利用现有计算机硬件。因此,面对快速增加的数据输出,本文呈现了减少处理数据的计算负担的方法和系统。例如,在DNA测序领域中,在最近一年中产出已按比例缩放了15倍,并且现在可在DNA测序设备的单次运行中达到数百个十亿碱基。如果计算基础设施要求成比例增长,则大多数研究者将仍然无法实现大型基因组级实验。因此,生成更原始的序列数据将增加对二次分析和数据存储的需要,使得对数据传输和存储的优化极其有价值。本文呈现的方法和系统的一些具体实施可减少产生可用序列数据所需的时间、硬件、网络和实验室基础设施要求。

本公开描述了用于执行这些方法的各种方法和系统。方法中一些的示例被描述为一系列步骤。然而,应当理解,具体实施不限于本文所述的特定步骤和/或步骤顺序。可省略步骤,可修改步骤,并且/或者可添加其他步骤。此外,可组合本文所述的步骤,可同时执行步骤,可并行执行步骤,可将步骤分成多个子步骤,可以不同顺序执行步骤,或者可以迭代方式重新执行步骤(或一系列步骤)。此外,尽管本文阐述了不同方法,但应当理解,在其他具体实施中可组合这些不同方法(或这些不同方法的步骤)。

在一些具体实施中,“被配置为”执行任务或操作的处理单元、处理器、模块或计算系统可被理解为被特别地构造成执行任务或操作(例如,使存储在其上或与其结合使用的一个或多个程序或指令被定制成或旨在执行任务或操作,并且/或者使处理电路的布置被定制成或旨在执行任务或操作)。出于清楚和免生疑问的目的,除非或直到被特别编程或在结构上经修改以执行任务或操作,通用计算机(如果适当编程,则其可被“配置为”执行任务或操作)不被“配置为”执行任务或操作。

此外,本文所述的方法的操作可足够复杂,使得在商业上合理的时间段内这些操作无法由普通技术人员或本领域的普通技术人员实际执行。例如,这些方法可依赖于相对复杂的计算,使得人员无法在商业上合理的时间内完成这些方法。

在整个本申请中,已引用了各种公布、专利或专利申请。这些公布的公开内容据此全文以引用方式并入本申请中,以便更全面地描述与本发明有关的现有技术。

术语“包括”在本文中旨在为开放式的,不仅包括所列举的元素,而且还涵盖任何附加的元素。

如本文所用,当参考项目的集合使用时,术语“每个”旨在识别集合中的单个项目,但不一定是指集合中的每个项目。如果明确公开或上下文另有明确规定,则可能会出现例外情况。

尽管已参考上文提供的示例描述了本发明,但应当理解,在不脱离本发明的前提下,可进行各种修改。

本申请中的模块可在硬件或软件中实现,并且不需要按如图所示那样精确地划分成相同的框。这些模块中的一些还可在不同的处理器或计算机上实现,或者在多个不同的处理器或计算机之间扩展。此外,应当理解,在不影响所实现的功能的情况下,可组合、同步操作或以与图中所示不同的序列操作模块中的一些。同样如本文所用,术语“模块”可包括“子模块”,“子模块”本身在本文中可被认为构成模块。图中被分配为模块的框也可被认为是方法中的流程图步骤。

如本文所用,信息项的“识别”不一定需要直接指定该信息项。通过简单地利用一个或多个间接层参考实际信息,或者通过识别一起足以确定实际信息项的一个或多个不同信息项,可以在字段中“识别”信息。此外,术语“指定”在本文中用来指与“识别”相同的含义。

如本文所用,给定信号、事件或值“依赖于”先导信号、该先导信号的事件或值、受给定信号、事件或值影响的事件或值。如果存在居间处理元件、步骤或时间段,则给定信号、事件或值仍然可以“依赖于”先导信号、事件或值。如果居间处理元件或步骤组合多于一个信号、事件或值,则处理元件或步骤的信号输出被认为“依赖于”信号、事件或值输入中的每一者。如果给定信号、事件或值与先导信号、事件或值相同,则这仅仅是其中给定信号、事件或值仍然被认为“依赖于”或“取决于”或“基于”先导信号、事件或值的简并情况。给定信号、事件或值对另一信号、事件或值的“响应性”以类似方式定义。

如本文所用,“并行”或“同步”不需要精确的同时性。如果这些个体中的一个的评估在这些个体中的另一个的评估完成之前开始,则就足够了。

计算机系统

图65是可由测序系统800A用来实现本文所公开的技术的计算机系统6500。计算机系统6500包括经由总线子系统6555与多个外围设备通信的至少一个中央处理单元(CPU)6572。这些外围设备可包括存储子系统6510,该存储子系统包括例如存储器设备和文件存储子系统6536、用户界面输入设备6538、用户界面输出设备6576和网络接口子系统6574。输入和输出设备允许用户与计算机系统6500进行交互。网络接口子系统6574提供到外部网络的接口,包括提供到其他计算机系统中的对应接口设备的接口。

在一个具体实施中,系统控制器7806可通信地链接到存储子系统6510和用户界面输入设备6538。

用户界面输入设备6538可包括:键盘;指向设备,诸如鼠标、轨迹球、触摸板或图形输入板;扫描仪;结合到显示器中的触摸屏;音频输入设备,诸如语音识别系统和麦克风;以及其他类型的输入设备。一般来讲,使用术语“输入设备”旨在包括将信息输入到计算机系统6500中的所有可能类型的设备和方式。

用户界面输出设备6576可包括显示子系统、打印机、传真机或非视觉显示器诸如音频输出设备。显示子系统可包括LED显示器、阴极射线管(CRT)、平板设备诸如液晶显示器(LCD)、投影设备或用于产生可见图像的一些其他机构。显示子系统还可提供非视觉显示器,诸如音频输出设备。一般来讲,使用术语“输出设备”旨在包括将信息从计算机系统6500输出到用户或输出到另一个机器或计算机系统的所有可能类型的设备和方式。

存储子系统6510存储提供本文所述的模块的一些或全部功能和方法的编程和数据构造。这些软件模块通常由深度学习处理器6578执行。

深度学习处理器6578可以是图形处理单元(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)和/或粗粒度可重构架构(CGRA)。深度学习处理器6578可以由深度学习云平台诸如Google Cloud PlatformTM、XilinxTM和CirrascaleTM托管。深度学习处理器6578的示例包括Google的Tensor Processing Unit(TPU)TM、机架解决方案(如GX4 RackmountSeriesTM、GX65 Rackmount SeriesTM)、NVIDIA DGX-1TM、Microsoft的Stratix V FPGATM、Graphcore的Intelligent Processor Unit(IPU)TM、Qualcomm的具有SnapdragonprocessorsTM的Zeroth PlatformTM、NVIDIA的VoltaTM、NVIDIA的DRIVE PXTM、NVIDIA的JETSON TX1/TX2 MODULETM、Intel的NirvanaTM、Movidius VPUTM、Fujitsu DPITM、ARM的DynamicIQTM、IBM TrueNorthTM、具有Testa V100sTM的Lambda GPU服务器等。

在存储子系统6510中使用的存储器子系统6522可包括多个存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)6532和其中存储固定指令的只读存储器(ROM)6534。文件存储子系统6536可为程序文件和数据文件提供持久性存储,并且可包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质磁带盘。实现某些具体实施的功能的模块可由文件存储子系统6536存储在存储子系统6510中,或存储在处理器可访问的其他机器中。

总线子系统6555提供用于使计算机系统6500的各种部件和子系统按照预期彼此通信的机构。尽管总线子系统6555被示意性地示出为单个总线,但总线子系统的另选具体实施可使用多条总线。

计算机系统6500本身可具有不同类型,包括个人计算机、便携式计算机、工作站、计算机终端、网络计算机、电视机、主机、服务器群、一组广泛分布的松散联网的计算机或任何其他数据处理系统或用户设备。由于计算机和网络的不断变化的性质,对图65中描绘的计算机系统6500的描述仅旨在作为用于示出本发明的优选具体实施的具体示例。计算机系统6500的许多其他配置是可能的,其具有比图65中描绘的计算机系统更多或更少的部件。

特定具体实施

本发明描述了基于神经网络的模板生成和基于神经网络的碱基检出的各种具体实施。具体实施的一个或多个特征可与基本具体实施组合。不互相排斥的具体实施被教导为可组合的。具体实施的一个或多个特征可与其他具体实施组合。本公开周期性地提醒用户这些选项。从一些具体实施中省略重复这些选项的表述不应被视为限制前述部分中教导的组合,这些表述将据此以引用方式并入以下具体实施中的每个具体实施中。

碱基检出—单个分析物距离通道

我们公开了在测序运行期间对在流通池的区块上合成的分析物进行碱基检出的神经网络实现的方法,该测序运行具有多个测序循环,多个测序循环中的每个测序循环生成具有一个或多个图像的图像集,并且这些图像中的每个图像描绘了一个或多个图像通道中的相应图像通道中的分析物及其周围背景的强度发射。该方法包括通过模板生成器处理在多个测序循环中的初始测序循环处分别生成的初始图像集,以识别模板图像中分析物的参考中心。该方法包括访问在多个测序循环中的当前测序循环处生成的当前图像集中的每个当前图像集中的一个或多个图像,在多个测序循环中的当前测序循环之前的多个测序循环中的一个或多个测序循环处分别生成的一个或多个先前图像集中的每个先前图像集中的一个或多个图像,以及在多个测序循环中的当前测序循环之后的多个测序循环中的一个或多个测序循环处分别生成的一个或多个后续图像集中的每个后续图像集中的一个或多个图像。该方法包括将当前图像集、先前图像集和后续图像集中的图像中的每个图像与模板图像配准,以确定特定于循环和特定于图像通道的变换。该方法包括将变换应用于分析物的参考中心以识别图像中的每个图像中的分析物的变换中心。该方法包括对于被碱基检出的分析物中的特定分析物,从当前图像集、先前图像集和后续图像集中的图像中的每个图像提取图像补片,使得每个图像补片在其中心像素中包含在图像中的相应图像中识别的分析物中的特定分析物的变换中心,并且描绘了图像通道中的对应图像通道中的分析物中的特定分析物、分析物中的一些相邻分析物及其周围背景的强度发射。该方法包括,对于每个图像补片,生成距离信息,该距离信息识别其像素的中心距包含其中心像素的分析物中的特定分析物的变换中心的距离。该方法包括通过将距离信息逐像素编码到每个图像补片中来构建输入数据。该方法包括通过卷积神经网络卷积输入数据以生成输入数据的卷积表示。该方法包括通过输出层处理卷积表示,以在多个测序循环中的当前测序循环处产生掺入分析物中的特定分析物中为A、C、T和G的碱基的可能性。该方法包括基于该可能性将该碱基分类为A、C、T或G。

在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。

在一个具体实施中,该方法包括,对于每个图像补片,生成识别其像素中的哪些像素覆盖分析物中的特定分析物以及其像素中的哪些像素不覆盖分析物中的特定分析物的分析物归属信息,以及通过将分析物归属信息逐像素编码到每个图像补片中来构建输入数据。在一个具体实施中,覆盖分析物中的特定分析物的像素在分析物归属信息中被分配非零值。在一个具体实施中,不覆盖分析物中的特定分析物的像素在分析物归属信息中被分配零值。在一个具体实施中,该方法包括将分析物的变换中心的卷积神经网络位置坐标作为输入提供。在一个此类具体实施中,将输入馈送到卷积神经网络的第一层。在另一个此类具体实施中,将输入馈送到卷积神经网络的一个或多个中间层。在又一个此类具体实施中,将输入馈送到卷积神经网络的最终层。在一个具体实施中,该方法包括向卷积神经网络提供强度缩放通道作为输入,该强度缩放通道具有对应于图像补片的像素的缩放值。在此类具体实施中,该缩放值基于包含分析物中的特定分析物的中心的图像补片的中心像素的平均强度。在一个具体实施中,该强度缩放通道逐像素地包括用于图像补片的所有像素的相同缩放值。在一个具体实施中,针对图像通道中的对应图像通道中的每个图像通道确定中心像素的平均强度。

在一个具体实施中,通过对在两个或更多个先前测序循环期间观察到的中心像素的强度值求平均值来确定第一图像通道的中心像素的平均强度,所述两个或更多个先前测序循环产生对分析物中的特定分析物的A和T碱基检出。在一个具体实施中,通过对在两个或更多个先前测序循环期间观察到的中心像素的强度值求平均值来确定第二图像通道的中心像素的平均强度,所述两个或更多个先前测序循环产生对分析物中的特定分析物的A和C碱基检出。在一个具体实施中,通过对在两个或更多个先前测序循环期间观察到的中心像素的强度值求平均值来确定第一图像通道的中心像素的平均强度,所述两个或更多个先前测序循环产生对分析物中的特定分析物的A碱基检出。在一个具体实施中,通过对在两个或更多个先前测序循环期间观察到的中心像素的强度值求平均值来确定第二图像通道的中心像素的平均强度,所述两个或更多个先前测序循环产生对分析物中的特定分析物的G碱基检出。在一个具体实施中,通过对在两个或更多个先前测序循环期间观察到的中心像素的强度值求平均值来确定第三图像通道的中心像素的平均强度,所述两个或更多个先前测序循环产生对分析物中的特定分析物的T碱基检出。在一个具体实施中,通过对在两个或更多个先前测序循环期间观察到的中心像素的强度值求平均值来确定第三图像通道的中心像素的平均强度,所述两个或更多个先前测序循环产生对分析物中的特定分析物的C碱基检出。

在一个具体实施中,测序运行实施双端测序,该双端测序使用第一端引物和第二端引物沿正向和反向对分析物中的片段的两端进行测序,从而为每个片段产生读段对,该读段对具有正向读段和反向读段。在一个具体实施中,对片段的两端连续测序,以相继产生正向读段和反向读段。在一个具体实施中,对片段的两端同时测序,以同时产生正向读段和反向读段。在一个具体实施中,正向读段和反向读段各自包含片段中的一个或多个片段。在一个具体实施中,对一个或多个片段连续测序。在一个具体实施中,对一个或多个片段同时测序。在一个具体实施中,测序运行实施单端测序,该单端测序使用单端引物沿一个方向对片段进行测序。在一个具体实施中,测序运行实施环状测序,该环状测序在环中对片段的双链拷贝进行测序,并且该环在给定片段的双链拷贝上迭代多次。在一个具体实施中,测序运行实施堆叠测序,该堆叠测序对片段的堆叠拷贝进行测序,并且给定片段的堆叠拷贝垂直或水平堆叠。在一个具体实施中,图像补片的尺寸在3×3像素至10000×10000像素的范围内。

在一个具体实施中,变换中心是浮点坐标值。在此类具体实施中,该方法包括使用四舍五入操作对浮点坐标值进行四舍五入以产生用于变换中心的整数坐标值,以及基于其整数坐标与为变换中心产生的整数坐标值之间的重叠来识别中心像素。在一个具体实施中,四舍五入操作是地板函数、天花板函数和/或四舍五入函数中的至少一者。在一个具体实施中,四舍五入操作是整数函数和/或整数加符号函数中的至少一者。在一个具体实施中,模板生成器是基于神经网络的模板生成器。在一个具体实施中,输出层是softmax层,并且可能性是在多个测序循环中的当前测序循环处掺入分析物中的特定分析物中为A、C、T和G的碱基的指数归一化得分分布。

在一个具体实施中,图像通道中的每个图像通道是多个滤波器波长带中的一个滤波器波长带。在另一个具体实施中,图像通道中的每个图像通道是多个图像事件中的一个图像事件。在一个具体实施中,流通池具有至少一个图案化表面,该图案化表面具有占用分析物的孔的阵列。在另一个具体实施中,流通池具有至少一个非图案化表面,并且分析物不均匀地分散在非图案化表面上。在一个具体实施中,图像集具有四个图像。在另一个具体实施中,图像集具有两个图像。在又一个具体实施中,图像集具有一个图像。在一个具体实施中,测序运行利用四通道化学。在另一个具体实施中,测序运行利用双通道化学。在又一个具体实施中,测序运行利用单通道化学。

在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。

我们公开了对在测序运行期间合成的分析物进行碱基检出的神经网络实现的方法。该方法包括通过卷积神经网络卷积输入数据以生成输入数据的卷积表示。该输入数据包括从在测序运行的当前测序循环处生成的当前图像集中的每个当前图像集中的一个或多个图像、在测序运行的在当前测序循环之前的一个或多个测序循环处分别生成的一个或多个先前图像集中的每个先前图像集中的一个或多个图像以及在测序运行的在当前测序循环之后的一个或多个测序循环处分别生成的一个或多个后续图像集中的每个后续图像集中的一个或多个图像提取的图像补片。图像补片中的每个图像补片描绘了对应图像通道中被碱基检出的目标分析物、一些相邻分析物及其周围背景的强度发射。输入数据还包括距离信息,该距离信息在图像补片中的每个图像补片中逐像素进行编码,以识别图像补片的像素的中心距位于图像补片的中心像素中的目标分析物的中心的距离。该方法包括通过输出层处理卷积表示以产生输出。该方法包括在当前测序循环处基于输出对目标分析物进行碱基检出。

在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。

在一个具体实施中,该方法包括通过输出层处理卷积表示,以在当前测序循环处产生掺入目标分析物中为A、C、T和G的碱基的可能性,并基于该可能性将该碱基分类为A、C、T或G。在一个具体实施中,可能性是由softmax层产生的指数归一化得分。

在一个具体实施中,该方法包括从输出中导出目标分析物的输出对,该输出对识别在当前测序循环处掺入目标分析物中为A、C、T或G的碱基的类标记,并基于该类标记对目标分析物进行碱基检出。在一个具体实施中,类标记1,0标识A碱基;类标记0,1标识C碱基;类标记1,1标识T碱基;并且类标记0,0标识G碱基。在另一个具体实施中,类标记1,1标识A碱基;类标记0,1标识C碱基;类标记0.5,0.5标识T碱基;并且类标记0,0标识G碱基。在又一个具体实施中,类标记1,0标识A碱基;类标记0,1标识C碱基;类标记0.5,0.5标识T碱基;并且类标记0,0标识G碱基。在又一个具体实施中,类标记1,2标识A碱基;类标记0,1标识C碱基;类标记1,1标识T碱基;并且类标记0,0标识G碱基。在一个具体实施中,该方法包括从输出中导出目标分析物的类标记,该类标记标识在当前测序循环处掺入目标分析物中为A、C、T或G的碱基,并基于该类标记对目标分析物进行碱基检出。在一个具体实施中,类标记0.33标识A碱基;类标记0.66标识C碱基;类标记1标识T碱基;并且类标记0标识G碱基。在另一个具体实施中,类标记0.50标识A碱基;类标记0.75标识C碱基;类标记1标识T碱基;并且类标记0.25标识G碱基。在一个具体实施中,该方法包括:从输出中导出单个输出值;基于该比较将该单个输出值与对应于碱基A、C、T和G的类值范围进行比较;将该单个输出值分配给特定类值范围;以及基于该分配对目标分析物进行碱基检出。在一个具体实施中,使用sigmoid函数导出单个输出值,并且单个输出值在0至1的范围内。在另一个具体实施中,0至0.25的类值范围表示A碱基,0.25至0.50的类值范围表示C碱基,0.50至0.75的类值范围表示T碱基,并且0.75至1的类值范围表示G碱基。

在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。

我们公开了在测序运行期间对在流通池的区块上合成的分析物进行碱基检出的神经网络实现的方法,该测序运行具有多个测序循环,多个测序循环中的每个测序循环生成具有一个或多个图像的图像集,并且这些图像中的每个图像描绘了一个或多个图像通道中的相应图像通道中的分析物及其周围背景的强度发射。该方法包括通过模板生成器处理在多个测序循环中的初始测序循环处分别生成的初始图像集,以识别模板图像中分析物的参考中心。该方法包括访问在多个测序循环中的当前测序循环处生成的当前图像集中的每个当前图像集中的一个或多个图像,在多个测序循环中的当前测序循环之前的多个测序循环中的一个或多个测序循环处分别生成的一个或多个先前图像集中的每个先前图像集中的一个或多个图像,以及在多个测序循环中的当前测序循环之后的多个测序循环中的一个或多个测序循环处分别生成的一个或多个后续图像集中的每个后续图像集中的一个或多个图像。该方法包括将当前图像集、先前图像集和后续图像集中的图像中的每个图像与模板图像配准,以确定特定于循环和特定于图像通道的变换。该方法包括将变换应用于分析物的参考中心以识别图像中的每个图像中的分析物的变换中心。该方法包括对于被碱基检出的分析物中的特定分析物,从当前图像集、先前图像集和后续图像集中的图像中的每个图像提取图像补片,使得每个图像补片在其中心像素中包含在图像中的相应图像中识别的分析物中的特定分析物的变换中心,并且描绘了图像通道中的对应图像通道中的分析物中的特定分析物、分析物中的一些相邻分析物及其周围背景的强度发射。该方法包括,对于每个图像补片,生成距离信息,该距离信息识别其像素的中心距包含其中心像素的分析物中的特定分析物的变换中心的距离。该方法包括通过将距离信息逐像素编码到每个图像补片中来构建输入数据。该方法包括通过卷积神经网络卷积输入数据以生成输入数据的卷积表示。该方法包括通过输出层处理卷积表示以产生输出。该方法包括在多个测序循环中的当前测序循环处基于输出对分析物中的特定分析物进行碱基检出。

在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。

在一个具体实施中,该方法包括通过输出层处理卷积表示,以在多个测序循环中的当前测序循环处产生掺入分析物中的特定分析物中为A、C、T和G的碱基的可能性,并基于该可能性将该碱基分类为A、C、T或G。

在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。

在一个具体实施中,计算机实现的方法包括通过神经网络处理输入数据以及生成输入数据的另选表示。该输入数据包括用于测序运行的一个或多个测序循环中的每个测序循环的针对每个循环的图像数据。针对每个循环的图像数据描绘了在相应的测序循环处捕获的一个或多个分析物及其周围背景的强度发射。该方法包括通过输出层处理另选表示并产生输出。该方法包括在测序循环中的一个或多个测序循环处基于输出对分析物中的一个或多个分析物进行碱基检出。

在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。

在一个具体实施中,该方法包括随针对每个循环的图像数据一起提供补充距离信息,该补充距离信息识别针对每个循环的图像数据的像素与分析物中的一个或多个分析物之间的距离。在此类具体实施中,该距离包含在神经网络和输出层的处理中关于分析物中的一个或多个分析物的中心、形状和/或边界的上下文。在一个具体实施中,该方法包括随针对每个循环的图像数据一起提供补充缩放信息,该补充缩放信息将缩放值分配给针对每个循环的图像数据的像素。在此类具体实施中,缩放值考虑了分析物中的一个或多个分析物的强度变化。

在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。

碱基检出—多个分析物距离通道

我们公开了对在测序运行期间合成的分析物进行碱基检出的神经网络实现的方法。该方法包括访问输入数据,该输入数据包括针对测序运行的一系列测序循环生成的针对每个循环的图像补片集的序列。该序列中的每个针对每个循环的图像补片集具有用于一个或多个图像通道中的相应图像通道的图像补片。每个图像补片具有覆盖多个分析物及其周围背景的像素的像素强度数据,以及识别每个像素的距分析物中的最近分析物的中心至中心距离的像素距离数据,该最近分析物基于像素与分析物中的每个分析物之间的中心至中心距离来选择。该方法包括通过卷积神经网络卷积输入数据以生成输入数据的卷积表示。该方法包括通过输出层处理卷积表示以产生分析物中的每个分析物的得分分布,该得分分布识别在当前测序循环处掺入分析物中的相应分析物中为A、C、T和G的碱基的可能性。该方法包括基于该可能性对分析物中的每个分析物进行碱基检出。

在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。

在一个具体实施中,像素距离数据逐像素编码到每个图像补片中。在一个具体实施中,从距离公式导出中心至中心距离,该距离公式使用分析物的变换中心的位置坐标和像素中心的位置坐标。在一个具体实施中,该方法包括向卷积神经网络提供强度缩放通道作为输入,该强度缩放通道具有对应于每个图像补片的像素的缩放值,并且缩放值基于每个图像补片中包含分析物变换中心的中心像素的平均强度的组合。在一个具体实施中,强度缩放通道逐像素地将相同的缩放值应用于图像补片的所有像素的像素强度数据。在一个具体实施中,强度缩放通道基于像素邻域对图像补片的像素的像素强度数据逐像素应用不同缩放值,使得将从第一中心像素的平均强度导出的第一缩放值应用于与第一中心像素相继邻接的相邻像素的第一像素邻域,并且将从另一个中心像素的平均强度导出的另一个缩放值应用于与另一个中心像素相继邻接的相邻像素的另一个像素邻域。在一个具体实施中,像素邻域是以中心像素为中心的m×n像素补片,并且像素补片是3×3的像素。在一个具体实施中,像素邻域是以中心像素为中心的n连接的像素邻域。在一个具体实施中,针对图像通道中的对应图像通道中的每个图像通道确定中心像素的平均强度。在一个具体实施中,通过对在两个或更多个先前测序循环期间观察到的中心像素的强度值求平均值来确定第一图像通道的中心像素的平均强度,所述两个或更多个先前测序循环产生对分析物中的相应分析物的A和T碱基检出。在一个具体实施中,通过对在两个或更多个先前测序循环期间观察到的中心像素的强度值求平均值来确定第二图像通道的中心像素的平均强度,所述两个或更多个先前测序循环产生对分析物中的相应分析物的A和C碱基检出。在一个具体实施中,通过对在两个或更多个先前测序循环期间观察到的中心像素的强度值求平均值来确定第一图像通道的中心像素的平均强度,所述两个或更多个先前测序循环产生对分析物中的相应分析物的A碱基检出。在一个具体实施中,通过对在两个或更多个先前测序循环期间观察到的中心像素的强度值求平均值来确定第二图像通道的中心像素的平均强度,所述两个或更多个先前测序循环产生对分析物中的相应分析物的G碱基检出。在一个具体实施中,通过对在两个或更多个先前测序循环期间观察到的中心像素的强度值求平均值来确定第三图像通道的中心像素的平均强度,所述两个或更多个先前测序循环产生对分析物中的相应分析物的T碱基检出。在一个具体实施中,通过对在两个或更多个先前测序循环期间观察到的中心像素的强度值求平均值来确定第三图像通道的中心像素的平均强度,所述两个或更多个先前测序循环产生对分析物中的相应分析物的C碱基检出。在一个具体实施中,该方法包括,对于每个图像补片,生成识别其像素中的哪些像素覆盖分析物以及其像素中的哪些像素不覆盖分析物的分析物归属信息,以及通过将分析物归属信息逐像素编码到每个图像补片中来构建输入数据。在一个具体实施中,覆盖分析物的像素在分析物归属信息中被分配非零值。在一个具体实施中,不覆盖分析物的像素在分析物归属信息中被分配零值。在一个具体实施中,每个图像补片的尺寸在3×3像素至10000×10000像素的范围内。在一个具体实施中,输出层为softmax层,并且得分分布为指数归一化得分分布。

在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。

我们公开了对在测序运行期间合成的分析物进行碱基检出的神经网络实现的方法。该方法包括访问输入数据,该输入数据包括针对测序运行的一系列测序循环生成的针对每个循环的图像补片集的序列。该序列中的每个针对每个循环的图像补片集具有用于一个或多个图像通道中的相应图像通道的图像补片。每个图像补片具有覆盖多个分析物及其周围背景的像素的像素强度数据,以及识别每个像素的距分析物中的最近分析物的中心至中心距离的像素距离数据,该最近分析物基于像素与分析物中的每个分析物之间的中心至中心距离来选择。该方法包括通过卷积神经网络卷积输入数据以生成输入数据的卷积表示。该方法包括通过输出层处理卷积表示以产生输出。该方法包括在当前测序循环处基于输出对分析物中的每个分析物进行碱基检出。

在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。

在一个具体实施中,该方法包括从输出中导出分析物中的每个分析物的得分分布,该得分分布识别在当前测序循环处掺入分析物中的相应分析物中为A、C、T和G的碱基的可能性,并基于该可能性对分析物中的每个分析物进行碱基检出。在一个具体实施中,输出层为softmax层,并且得分分布为指数归一化得分分布。在一个具体实施中,该方法包括从输出中导出分析物中的每个分析物的输出对,该输出对识别在当前测序循环处掺入分析物中的相应分析物中为A、C、T和G的碱基的类标记,并基于该类标记对分析物中的每个分析物进行碱基检出。在一个具体实施中,该方法包括:从输出中导出单个输出值;基于该比较将该单个输出值与对应于碱基A、C、T和G的类值范围进行比较;将该单个输出值分配给特定类值范围;以及基于该分配对分析物中的每个分析物进行碱基检出。在一个具体实施中,使用sigmoid函数导出单个输出值,并且单个输出值在0至1的范围内。

在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。

碱基检出—多个分析物、基于形状的距离通道

我们公开了对在测序运行期间合成的分析物进行碱基检出的神经网络实现的方法。该方法包括访问输入数据,该输入数据包括针对测序运行的一系列测序循环生成的针对每个循环的图像补片集的序列。该序列中的每个针对每个循环的图像补片集具有用于一个或多个图像通道中的相应图像通道的图像补片。每个图像补片使用描绘分析物强度的分析物像素和描绘背景强度的背景像素来描绘多个分析物及其周围背景的强度发射。每个图像补片使用分析物距离数据进行编码,该分析物距离数据识别每个分析物像素距分析物中的受分配分析物的中心至中心距离,该受分配分析物基于将每个分析物像素分类到这些分析物中的仅一个分析物来选择。该方法包括通过卷积神经网络卷积输入数据以生成输入数据的卷积表示。该方法包括通过输出层处理卷积表示以产生分析物中的每个分析物的得分分布,该得分分布识别在当前测序循环处掺入分析物中的相应分析物中为A、C、T和G的碱基的可能性。该方法包括基于该可能性对分析物中的每个分析物进行碱基检出。

在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。

在一个具体实施中,分析物具有跨越多个分析物像素的不规则形状,并且像素到分析物的分类基于不规则形状。在一个具体实施中,所有背景像素在分析物距离数据中被分配相同的最小中心至中心距离。在一个具体实施中,为所有背景像素分配相同的最小强度。在一个具体实施中,基于由基于神经网络的模板生成器产生的衰减映射图,将每个分析物像素分类到分析物中的仅一个分析物。在此类具体实施中,衰减映射图将分析物识别为相邻像素的不相交区域,将分析物的中心识别为不相交区域中的相应不相交区域的质心处的中心像素,并且将其周围背景识别为不属于不相交区域中的任一个不相交区域的背景像素。在一个具体实施中,不相交区域中的相应不相交区域中的相邻像素具有根据相邻像素距该相邻像素所属的不相交区域中的中心像素的距离而加权的强度值。在一个具体实施中,不相交区域中的相应不相交区域中的相邻像素被归类为属于相同分析物并共同描绘相同分析物的分析物内部像素,并且逐分析物地存储在存储器中。在一个具体实施中,中心像素在不相交区域中的相应不相交区域内具有最高强度值。在一个具体实施中,背景像素在衰减映射图中均具有相同的最低强度值。在一个具体实施中,分析物距离数据逐像素编码到每个图像补片中。在一个具体实施中,从距离公式导出中心至中心距离,该距离公式使用分析物的变换中心的位置坐标和像素中心的位置坐标。在一个具体实施中,通过将特定于循环和特定于图像通道的变换应用于由衰减映射图识别的分析物的中心来导出分析物的变换中心。

在一个具体实施中,该方法包括向卷积神经网络提供强度缩放通道作为输入,该强度缩放通道具有对应于每个图像补片的像素的缩放值。在此类具体实施中,缩放值基于包含分析物的变换中心的每个图像补片中的中心像素的平均强度的组合。在一个具体实施中,强度缩放通道基于像素组对图像补片的像素的像素强度数据逐像素应用不同缩放值,使得将从包含第一分析物的中心的第一中心像素的平均强度导出的第一缩放值应用于属于第一分析物并共同描绘第一分析物的相邻像素的第一像素组,并且将从包含另一分析物的中心的另一中心像素的平均强度导出的另一缩放值应用于属于另一分析物并共同描绘另一分析物的相邻像素的另一像素组。在一个具体实施中,针对图像通道中的对应图像通道中的每个图像通道确定中心像素的平均强度。在一个具体实施中,该方法包括,对于每个图像补片,生成识别其像素中的哪些像素覆盖分析物以及其像素中的哪些像素不覆盖分析物的分析物归属信息,以及通过将分析物归属信息逐像素编码到每个图像补片中来构建输入数据。在一个具体实施中,覆盖分析物的像素在分析物归属信息中被分配非零值。在另一个具体实施中,不覆盖分析物的像素在分析物归属信息中被分配零值。

在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。

我们公开了对在测序运行期间合成的分析物进行碱基检出的神经网络实现的方法。该方法包括访问输入数据,该输入数据包括针对测序运行的一系列测序循环生成的针对每个循环的图像补片集的序列。该序列中的每个针对每个循环的图像补片集具有用于一个或多个图像通道中的相应图像通道的图像补片。每个图像补片使用描绘分析物强度的分析物像素和描绘背景强度的背景像素来描绘多个分析物及其周围背景的强度发射。每个图像补片使用分析物距离数据进行编码,该分析物距离数据识别每个分析物像素距分析物中的受分配分析物的中心至中心距离,该受分配分析物基于将每个分析物像素分类到这些分析物中的仅一个分析物来选择。该方法包括通过卷积神经网络卷积输入数据以生成输入数据的卷积表示。该方法包括通过输出层处理卷积表示以产生输出。该方法包括在当前测序循环处基于输出对分析物中的每个分析物进行碱基检出。

在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。

专门化架构

我们公开了使用相对于彼此具有配准误差的测序图像对分析物进行碱基检出的网络实现的方法。该方法包括访问针对测序运行的一系列测序循环生成的针对每个循环的图像补片集的序列。该序列在针对每个循环的图像补片集间和针对每个循环的图像补片集内的图像补片之间具有配准误差。该序列中的每个图像补片描绘了在该系列中的对应测序循环处在对应图像通道中被碱基检出的目标分析物、一些相邻分析物及其周围背景的强度信息。该序列中的每个图像补片使用距离信息逐像素进行编码,该距离信息识别其像素的中心距位于其中心像素中的目标分析物的中心的距离。该方法通过第一卷积子网络单独处理针对每个循环的每个图像补片集,以针对每个测序循环产生中间卷积表示,包括应用将强度信息和距离信息组合并且仅在测序循环内而不是在测序循环之间组合所得的卷积表示的卷积。该方法包括通过第二卷积子网络逐组处理系列中的后续测序循环的中间卷积表示,以产生该系列的最终卷积表示,包括应用将中间卷积表示组合并将测序循环之间的所得卷积表示组合的卷积。该方法包括通过输出层处理最终卷积表示以产生输出。该方法包括在当前测序循环处基于输出对目标分析物进行碱基检出。

在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。

在一个具体实施中,序列中的每个图像补片具有覆盖多个分析物及其周围背景的像素的像素强度数据,以及识别每个像素的距分析物中的最近分析物的中心至中心距离的像素距离数据,该最近分析物基于像素与分析物中的每个分析物之间的中心至中心距离来选择。在此类具体实施中,该方法包括在当前测序循环处基于输出对分析物中的每个分析物进行碱基检出。在一个具体实施中,序列中的每个图像补片使用描绘分析物强度的分析物像素和描绘背景强度的背景像素来描绘多个分析物及其周围背景的强度发射,并且使用分析物距离数据进行编码,该分析物距离数据识别每个分析物像素距分析物中的受分配分析物的中心至中心距离,该受分配分析物基于将每个分析物像素分类到这些分析物中的仅一个分析物来选择。在此类具体实施中,该方法包括在当前测序循环处基于输出对分析物中的每个分析物进行碱基检出。在一个具体实施中,该方法包括将目标分析物和/或相邻分析物的第一卷积子网络位置坐标作为输入提供。在一个具体实施中,该方法包括向第二卷积子网络提供目标分析物和/或相邻分析物的位置坐标作为输入。在一个具体实施中,该方法包括向输出层提供目标分析物和/或相邻分析物的位置坐标作为输入。

在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。

我们公开了使用具有配准误差的图像数据对分析物进行碱基检出的网络实现的方法。该方法包括访问测序运行的一系列测序循环的输入数据。每个测序循环的输入数据都具有图像张量。每个图像张量具有一个或多个图像通道的数据,包括,对于每个图像通道,覆盖被碱基检出的目标分析物、一些相邻分析物和周围背景的像素的像素强度数据,以及从目标分析物的中心到像素的中心的距离的像素距离数据。输入数据在跨图像张量的像素之间具有跨循环配准误差,并且在图像张量内的像素之间具有跨图像通道配准误差。该方法包括通过具有空间卷积层序列的空间卷积网络单独处理每个输入张量,以针对每个测序循环产生空间卷积表示,包括以仅在测序循环内而不是在测序循环之间组合像素强度和距离的第一空间卷积层开始,并且继续后续空间卷积层,该后续空间卷积层仅在该系列测序循环中的每个测序循环内而不是在这些测序循环之间组合先前空间卷积层的输出。该方法包括通过具有时间卷积层序列的时间卷积网络逐组处理后续测序循环的空间卷积表示,以针对该系列产生时间卷积表示,包括以组合该系列测序循环中的测序循环之间的空间卷积表示的第一时间卷积层开始,并继续后续时间卷积层,该后续时间卷积层组合先前时间卷积层的后续输出。该方法包括通过输出层处理时间卷积表示以产生输出。该方法包括在当前测序循环处基于输出对目标分析物进行碱基检出。

在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。

在一个具体实施中,逐组处理还包括在重叠的滑动窗口内对后续的中间卷积表示进行卷积。在一个具体实施中,后续时间卷积层在重叠的滑动窗口内组合后续的输出。在一个具体实施中,像素距离数据逐像素编码到每个图像张量中。在一个具体实施中,序列中的每个图像张量具有覆盖多个分析物及其周围背景的像素的像素强度数据,以及识别每个像素的距分析物中的最近分析物的中心至中心距离的像素距离数据,该最近分析物基于像素与分析物中的每个分析物之间的中心至中心距离来选择。在一个具体实施中,该方法包括在当前测序循环处基于输出对分析物中的每个分析物进行碱基检出。在一个具体实施中,序列中的每个图像张量使用描绘分析物强度的分析物像素和描绘背景强度的背景像素来描绘多个分析物及其周围背景的强度发射,并且使用分析物距离数据进行编码,该分析物距离数据识别每个分析物像素距分析物中的受分配分析物的中心至中心距离,该受分配分析物基于将每个分析物像素分类到这些分析物中的仅一个分析物来选择。在一个具体实施中,该方法包括在当前测序循环处基于输出对分析物中的每个分析物进行碱基检出。在一个具体实施中,该方法包括将目标分析物和/或相邻分析物的第一卷积子网络位置坐标作为输入提供。在一个具体实施中,该方法包括向第二卷积子网络提供目标分析物和/或相邻分析物的位置坐标作为输入。在一个具体实施中,该方法包括向输出层提供目标分析物和/或相邻分析物的位置坐标作为输入。

在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。

重构

我们公开了对在测序运行期间合成的分析物进行碱基检出的神经网络实现的方法。该方法包括访问针对测序运行的一系列测序循环生成的针对每个循环的图像补片集的序列。该序列中的每个针对每个循环的图像补片集具有用于一个或多个图像通道中的相应图像通道的图像补片。每个图像补片具有覆盖被碱基检出的目标分析物、一些相邻分析物和周围背景的像素的像素强度数据。该方法包括重构每个图像补片的像素,以使目标分析物的中心在中心像素中居中。该方法包括通过卷积神经网络卷积重构图像补片以生成重构图像补片的卷积表示。该方法包括通过输出层处理卷积表示以产生输出。该方法包括在当前测序循环处基于输出对目标分析物进行碱基检出。

在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。

在一个具体实施中,重构还包括每个图像补片的像素的强度插值以补偿重构。在一个具体实施中,强度插值还包括以下的至少一者:最近邻强度提取、基于高斯的强度提取、基于2×2子像素区域的平均值的强度提取、基于2×2子像素区域中最亮处的强度提取、基于3×3子像素区域的平均值的强度提取、双线性强度提取、双立方强度提取和/或基于加权区域覆盖的强度提取。在一个具体实施中,在重构之前,目标分析物的中心位于每个图像补片的中心像素中,与中心像素的中心偏移。在一个具体实施中,重构还包括需要每个图像补片的非中心像素与目标分析物的相应中心等距。在一个具体实施中,序列中的每个图像补片具有描绘多个分析物及其周围背景的像素的像素强度数据,以及识别每个像素的距分析物中的最近分析物的中心至中心距离的像素距离数据,该最近分析物基于像素与分析物中的每个分析物之间的中心至中心距离来选择。在一个具体实施中,该方法包括在当前测序循环处基于输出对分析物中的每个分析物进行碱基检出。在一个具体实施中,序列中的每个图像补片使用描绘分析物强度的分析物像素和描绘背景强度的背景像素来描绘多个分析物及其周围背景的强度发射,并且使用分析物距离数据进行编码,该分析物距离数据识别每个分析物像素距分析物中的受分配分析物的中心至中心距离,该受分配分析物基于将每个分析物像素分类到这些分析物中的仅一个分析物来选择。在一个具体实施中,该方法包括在当前测序循环处基于输出对分析物中的每个分析物进行碱基检出。在一个具体实施中,该方法包括将目标分析物和/或相邻分析物的第一卷积子网络位置坐标作为输入提供。在一个具体实施中,该方法包括向第二卷积子网络提供目标分析物和/或相邻分析物的位置坐标作为输入。在一个具体实施中,该方法包括向输出层提供目标分析物和/或相邻分析物的位置坐标作为输入。

我们公开了对流通池上的分析物进行碱基检出的神经网络实现的方法。该方法包括访问在对流通池上的分析物进行合成的测序运行的多个测序循环内生成的图像集序列。图像集序列中的每个图像覆盖流通池的非重叠区域,并且描绘在多个测序循环中的相应测序循环处的对应成像通道中捕获的非重叠区域上的分析物的子集及其周围背景的强度发射。该方法包括通过从图像集序列中选择在多个测序循环中的特定测序循环处生成的当前图像集,在多个测序循环中的特定测序循环之前的多个测序循环中的一个或多个测序循环处分别生成的一个或多个先前图像集,以及在多个测序循环中的特定测序循环之后的多个测序循环中的一个或多个测序循环处分别生成的一个或多个后续图像集,来确定在多个测序循环中的特定测序循环处掺入分析物子集中的特定分析物的核苷酸碱基(A、C、T或G)。该方法包括从所选择图像集中的每个图像集的图像提取图像补片。图像补片以分析物子集中的特定分析物为中心,并且包括来自分析物子集的附加相邻分析物。该方法包括通过卷积神经网络的一个或多个层卷积图像补片以生成图像补片的卷积表示。该方法包括通过输出层处理卷积表示以产生核苷酸碱基为A、C、T和G的可能性。该方法包括基于该可能性将核苷酸碱基分类为A、C、T或G。

在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。

在一个具体实施中,该方法包括通过针对多个测序循环中的每个测序循环迭代选择、提取、卷积、处理和分类,在多个测序循环内产生对分析物子集中的特定分析物的碱基检出的序列。在一个具体实施中,该方法包括通过针对多个测序循环中的每个测序循环对子集中的多个分析物中的每个分析物迭代选择、提取、卷积、处理和分类,从而在多个测序循环内产生对子集中的多个分析物的碱基检出的序列。在一个具体实施中,流通池的非重叠区域是区块。在一个具体实施中,对应图像通道是多个滤波器波长带中的一个滤波器波长带。在一个具体实施中,对应图像通道是多个图像事件中的一个图像事件。

在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。

同时在多个循环处对多个簇进行碱基检出

我们公开了对流通池上的分析物进行碱基检出的神经网络实现的方法。该方法包括从图像集序列获得输入图像数据。在对流通池上的分析物进行合成的测序运行的多个测序循环内生成图像集序列。图像集序列中的每个图像覆盖流通池的非重叠区域,并且描绘在多个测序循环中的相应测序循环处的对应成像通道中捕获的非重叠区域上的分析物的子集及其周围背景的强度发射。该方法包括通过神经网络的一个或多个层处理输入图像数据以生成输入图像数据的另选表示。该方法包括通过输出层处理另选表示以产生输出,该输出识别在多个测序循环中的每个测序循环处掺入子集中的至少一些分析物的核苷酸碱基(A、C、T或G),从而在多个测序循环内产生对子集中的至少一些分析物中的每个分析物的碱基检出的序列。

在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。

在一个具体实施中,输出层为softmax层,并且输出为在多个测序循环的每个测序循环处掺入子集中的至少一些分析物的每个分析物中的核苷酸碱基为A、C、T和G的指数归一化得分分布。在一个具体实施中,输入图像数据包括图像集序列中的图像。在一个具体实施中,输入图像数据包括来自图像集的序列中的图像中的每个图像的至少一个图像补片。在一个具体实施中,神经网络是卷积神经网络。在另一个具体实施中,神经网络是残差神经网络。在又一个具体实施中,神经网络是递归神经网络。

在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。

基于递归卷积的碱基检出

我们公开了用于碱基检出的基于神经网络的系统。该系统包括具有递归模块和卷积模块的混合神经网络。该递归模块使用来自该卷积模块的输入。该卷积模块通过一个或多个卷积层处理测序运行的一系列测序循环的图像数据,以及产生该图像数据的一个或多个卷积表示。该图像数据描绘了一个或多个分析物及其周围背景的强度发射。该递归模块基于将卷积表示和先前隐藏状态表示卷积来产生当前隐藏状态表示。该输出模块基于当前隐藏状态表示来产生对分析物中的至少一个分析物和对测序循环中的至少一个测序循环的碱基检出。

在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。

我们公开了碱基检出的神经网络实现的方法。该方法包括通过卷积神经网络的卷积层的级联单独处理针对每个循环的输入数据的序列中的针对每个循环的每个输入数据。针对测序运行的一系列测序循环生成针对每个循环的输入数据的序列,并且针对每个循环的每个输入数据包括图像通道,该图像通道描绘了在相应的测序循环处捕获的一个或多个分析物及其周围背景的强度发射。该方法包括,对于每个测序循环,基于单独处理,在卷积层中的每个卷积层处产生卷积表示,从而产生卷积表示的序列,将该每个测序循环的针对每个循环的输入数据与该每个测序循环的对应的卷积表示的序列混合并产生混合表示,以及展平其混合表示并产生所展平的混合表示。该方法包括将后续测序循环的所展平的混合表示布置为堆叠。该方法包括通过递归神经网络沿前向方向和后向方向处理堆叠,该递归神经网络在滑动窗口的基础上对堆叠中的所展平的混合表示的子集进行卷积,其中每个滑动窗口对应于相应的测序循环,以及基于(i)堆叠上方的当前滑动窗口中的所展平的混合表示的子集和(ii)先前隐藏状态表示,在每个测序循环的每个时间步长处相继产生当前隐藏状态表示。该方法包括基于沿前向方向和后向方向处理堆叠的结果,在测序循环的每个测序循环处对分析物中的每个分析物进行碱基检出。递归神经网络可以是门控递归神经网络,诸如LSTM和GRU。

在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。

该方法包括在给定测序循环处通过以下步骤对分析物中的每个分析物进行碱基检出:在时间步长的基础上组合给定测序循环的前向和后向当前隐藏状态表示,并产生组合的隐藏状态表示;通过一个或多个全连接网络处理该组合的隐藏状态表示并产生密集表示;通过softmax层处理该密集表示,以产生在该给定测序循环处掺入分析物中的每个分析物中为A、C、T和G的碱基的可能性,并基于该可能性将该碱基分类为A、C、T或G。在一个具体实施中,该组合包括级联。在另一个具体实施中,该组合包括求和。在又一个具体实施中,该组合包括求平均值。

在一个具体实施中,针对每个循环的每个输入数据包括距离通道,该距离通道补充图像通道并且包含对应图像通道中的像素与一个或多个分析物中心之间的中心至中心距离。在一个具体实施中,针对每个循环的每个输入数据包括缩放通道,该缩放通道补充图像通道并且包含基于图像通道中的一个或多个像素的平均强度的缩放值。在一个具体实施中,混合还包括将卷积表示和针对每个循环的输入数据级联。在一个具体实施中,混合还包括对卷积表示和针对每个循环的输入数据求和。在一个具体实施中,所展平的混合表示是二维阵列。在一个具体实施中,所展平的混合表示的子集是三维体积。在一个具体实施中,递归神经网络将三维卷积应用于三维体积。在一个具体实施中,三维卷积使用SAME填充。在一个具体实施中,卷积层使用SAME填充。在一个具体实施中,递归神经网络是包括输入门、激活门、遗忘门和输出门的长短期记忆(LSTM)网络。在此类具体实施中,该方法包括处理(i)堆叠上方的当前滑动窗口中的所展平的混合表示的子集和(ii)通过输入门、激活门、遗忘门和输出门的先前隐藏状态表示,以及针对每个测序循环在每个时间步长处产生当前隐藏状态表示。输入门、激活门、遗忘门和输出门对(i)堆叠上方的当前滑动窗口中的所展平的混合表示的子集和(ii)先前隐藏状态表示应用卷积。

在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。

在一个具体实施中,碱基检出的神经网络实现的方法包括通过卷积模块的一个或多个卷积层卷积测序运行的一系列测序循环的图像数据,以及产生该图像数据的一个或多个卷积表示。该图像数据描绘了一个或多个分析物及其周围背景的强度发射。该方法包括通过递归模块卷积该卷积表示和先前隐藏状态表示,以及产生当前隐藏状态表示。该方法包括通过输出模块处理当前隐藏状态表示,以及产生对分析物中的至少一个分析物和对测序循环中的至少一个测序循环的碱基检出。

在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。

推断质量得分

我们公开了将质量得分分配给由基于神经网络的碱基检出器检出的碱基的计算机实现的方法。该方法包括响应于在训练期间处理训练数据,量化由基于神经网络的碱基检出器产生的预测碱基检出的分类得分。该方法包括选择量化分类得分的集。该方法包括对于集中的每个量化分类得分,通过将其预测的碱基检出与对应的基准真值碱基检出进行比较来确定碱基检出误差率。该方法包括确定量化分类得分与其碱基检出误差率之间的拟合。也就是说,对于每个量化分类得分,确定训练数据中的被分配量化分类得分的训练示例集。对于所确定的训练示例集中的每个训练示例,将该训练示例的预测碱基检出与该训练示例的基准真值碱基检出进行比较,以及根据所确定的训练示例集中的比较来确定误差率,以提供特定的量化分类得分的误差率。该方法包括基于该拟合将该质量得分与量化分类得分相关联。

在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。

在一个具体实施中,量化分类得分的集包括由基于神经网络的碱基检出器响应于在训练期间处理训练数据而产生的预测的碱基检出的分类得分的子集,并且该分类得分是实数。在一个具体实施中,量化分类得分的集包括由基于神经网络的碱基检出器响应于在训练期间处理训练数据而产生的预测的碱基检出的分类得分的全部,并且该分类得分是实数。在一个具体实施中,该分类得分是指数归一化的softmax函数得分,其总和为1并且由基于神经网络的碱基检出器的softmax输出层产生。在一个具体实施中,量化分类得分的集是基于被定义为并应用于softmax函数得分的选择公式来选择的。在一个具体实施中,量化分类得分的集是基于被定义为并应用于softmax函数得分的选择公式来选择的。在一个具体实施中,该方法包括基于相关性,在推断期间将质量得分分配给由基于神经网络的碱基检出器检出的碱基。在一个具体实施中,该方法包括基于在推断期间将质量得分对应方案应用于由基于神经网络的碱基检出器检出的碱基来分配质量得分。在此类具体实施中,该方案将由基于神经网络的碱基检出器响应于在推断期间处理推断数据而产生的分类得分的范围映射到集中的对应量化分类得分。在一个具体实施中,该方法包括:在推断期间,对于当前碱基检出循环,停止对质量得分低于设定阈值的分析物进行碱基检出。在一个具体实施中,该方法包括:在推断期间,在后续的碱基检出循环之后,停止对平均质量得分低于设定阈值的分析物进行碱基检出。在一个具体实施中,用于将预测的碱基检出与对应的基准真值碱基检出进行比较的样本大小特定于每个量化分类得分。在一个具体实施中,用于将预测的碱基检出与对应的基准真值碱基检出进行比较的样本大小特定于每个量化分类得分。在一个具体实施中,使用回归模型来确定该拟合。在一个具体实施中,该方法包括对于每个量化分类得分,通过将其预测的碱基检出与对应的基准真值碱基检出进行比较来确定碱基检出准确率,以及确定量化分类得分与其碱基检出准确率之间的拟合。在一个具体实施中,对应的基准真值碱基检出来源于在多种测序仪器、测序化学和测序方案上测序的充分表征的人类和非人类样本。

在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。

预测质量得分

我们公开了基于神经网络的质量评分器,该基于神经网络的质量评分器在同步操作的多个处理器上运行并耦接到存储器。该系统包括在多个处理器上运行的卷积神经网络。该卷积神经网络基于训练示例训练,该训练示例包括来自测序图像并且使用基于反向传播的梯度更新技术而标记有碱基检出质量基准真值的数据,该基于反向传播的梯度更新技术将该卷积神经网络的碱基检出质量预测与碱基检出质量基准真值逐步匹配。该系统包括该卷积神经网络的输入模块,该输入模块在所述多个处理器中的至少一个处理器上运行并将来自在一个或多个测序循环处捕获的测序图像的数据馈送到该卷积神经网络以确定针对一个或多个分析物检出的一种或多种碱基的质量状态。该系统包括该卷积神经网络的输出模块,该输出模块在所述多个处理器中的至少一个处理器上运行并将由该卷积神经网络进行的分析转换为识别针对所述一个或多个分析物检出的所述一种或多种碱基的质量状态的输出。

在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。

在一个具体实施中,输出模块还包括softmax分类层,该softmax分类层产生质量状态为高质量、中等质量和低质量的可能性。在此类具体实施中,基于该可能性,质量状态被分类为高质量、中等质量或低质量。在一个具体实施中,softmax分类层产生质量状态被分配多个质量得分的可能性。在此类具体实施中,基于该可能性,为质量状态分配来自所述多个质量得分中的一个质量得分的质量得分。在一个具体实施中,质量得分对数地基于碱基检出误差概率,并且所述多个质量得分包括Q6、Q10、Q43、Q20、Q22、Q27、Q30、Q33、Q37、Q40和Q50。在一个具体实施中,输出模块还包括回归层,该回归层产生识别质量状态的连续值。在一个具体实施中,该系统包括补充输入模块,该补充输入模块用所检出碱基的质量预测器值补充来自测序图像的数据,以及将该质量预测器值连同来自该测序图像的数据馈送到卷积神经网络。在一个具体实施中,质量预测器值包括在线重叠、纯度、定相、start5、六聚体得分、基序累积、端值、近似均聚物、强度衰减、倒数第二纯化度、与背景的信号重叠(SOWB)和/或偏移的纯度G调整。在一个具体实施中,质量预测器值包括峰高、峰宽、峰位置、相对峰位置、峰高比、峰间距比和/或峰对应关系。

在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。

我们还公开了质量评分的神经网络实现的方法。该方法包括将来自在一个或多个测序循环处捕获的测序图像的数据馈送到卷积神经网络,以确定针对一个或多个分析物检出的一种或多种碱基的质量状态。该卷积神经网络基于训练示例训练,该训练示例包括来自测序图像并且标记有碱基检出质量基准真值的数据。该训练包括使用基于反向传播的梯度更新技术,该基于反向传播的梯度更新技术将该卷积神经网络的碱基检出质量预测与碱基检出质量基准真值逐步匹配。该方法包括将该卷积神经网络进行的分析转换为识别针对所述一个或多个分析物检出的所述一种或多种碱基的质量状态的输出。

在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。

在一个具体实施中,计算机实现的方法包括:通过神经网络处理一个或多个分析物的输入数据并产生该输入数据的另选表示,通过输出层处理该另选表示以产生输出,该输出识别掺入分析物中的特定分析物中为A、C、T和G的碱基的可能性,基于该输出对分析物中的一个或多个分析物进行碱基检出,并基于由该输出识别的可能性来确定所检出碱基的质量。

在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。

我们公开了基于神经网络的质量评分器,该基于神经网络的质量评分器在同步操作的所述多个处理器上运行并耦接到存储器。该系统包括神经网络,该神经网络在所述多个处理器上运行、基于训练示例训练,该训练示例包括来自测序图像并且使用基于反向传播的梯度更新技术而标记有碱基检出质量基准真值的数据,该基于反向传播的梯度更新技术将该神经网络的碱基检出质量预测与该碱基检出质量基准真值逐步匹配。该系统包括该神经网络的输入模块,该输入模块在所述多个处理器中的至少一个处理器上运行并将来自在一个或多个测序循环处捕获的测序图像的数据馈送到该神经网络以确定针对一个或多个分析物检出的一种或多种碱基的质量状态。该系统包括该神经网络的输出模块,该输出模块在所述多个处理器中的至少一个处理器上运行并将由该神经网络进行的分析转换为识别针对所述一个或多个分析物检出的所述一种或多种碱基的质量状态的输出。

在其他具体实施的特定具体实施部分中所讨论的特征中的每个特征同样适用于本具体实施。如上所示,所有其他特征在此处不再重复,并且应被视为以引用方式重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。

条款

本公开还包括以下条款:

条款组1

1.一种计算机实现的方法,所述方法包括:

通过神经网络处理输入数据并产生所述输入数据的另选表示,其中所述输入数据包括测序运行的一个或多个测序循环中的每个测序循环的针对每个循环的数据,并且其中所述针对每个循环的数据指示相应测序循环处的一个或多个分析物;

通过输出层处理所述另选表示并产生输出;以及

基于所述输出,在所述测序循环中的一个或多个测序循环处对所述分析物中的一个或多个分析物进行碱基检出。

2.根据条款1所述的神经网络实现的方法,其中所述针对每个循环的数据指示在所述相应测序循环处的周围背景。

3.根据条款1至2中任一项所述的神经网络实现的方法,其中所述输入数据是图像数据,并且所述针对每个循环的数据包括指示在所述相应测序循环处捕获的所述一个或多个分析物和所述周围背景的强度发射。

4.根据条款3所述的计算机实现的方法,还包括随所述针对每个循环的数据一起提供补充距离信息,所述补充距离信息识别所述针对每个循环的数据的像素与描绘指示所述分析物中的所述一个或多个分析物的强度发射的那些像素之间的距离。

5.根据条款3所述的计算机实现的方法,还包括随所述针对每个循环的数据一起提供补充缩放信息,所述补充缩放信息将缩放值分配给所述针对每个循环的数据的所述像素。

6.根据条款1所述的神经网络实现的方法,其中所述针对每个循环的数据指示在所述相应测序循环处检测到的电压变化。

7.根据条款1所述的神经网络实现的方法,其中所述针对每个循环的数据指示在所述相应测序循环处测量的电流信号。

8.一种对在包括多个测序循环的测序运行期间合成的分析物进行碱基检出的神经网络实现的方法,所述方法包括:

通过卷积神经网络卷积输入数据以生成所述输入数据的卷积表示,

其中所述输入数据包括从在所述测序运行的当前测序循环处生成的当前图像集中的每个当前图像集中的一个或多个图像、在所述测序运行的在所述当前测序循环之前的一个或多个测序循环处分别生成的一个或多个先前图像集中的每个先前图像集中的一个或多个图像、以及在所述测序运行的在所述当前测序循环之后的一个或多个测序循环处分别生成的一个或多个后续图像集中的每个后续图像集中的一个或多个图像提取的图像补片,

其中所述图像补片中的每个图像补片描绘了被碱基检出的目标分析物的强度发射,并且

其中所述输入数据还包括指示所述图像补片的像素距所述图像补片的中心像素的相应距离的距离信息;

通过输出层处理所述卷积表示以产生输出;以及

在所述当前测序循环处基于所述输出对所述目标分析物进行碱基检出。

9.根据条款8所述的神经网络实现的方法,所述方法还包括:

向所述卷积神经网络提供表示相应分析物的图像区域的中心的位置坐标作为输入,

其中向所述卷积神经网络的第一层提供所述输入,

其中向所述卷积神经网络的一个或多个中间层提供所述输入,并且

其中向所述卷积神经网络的最终层提供所述输入。

10.根据条款8至9中任一项所述的神经网络实现的方法,所述方法还包括:

向所述卷积神经网络提供强度缩放通道作为输入,所述强度缩放通道具有对应于所述图像补片的像素的缩放值,并且

其中所述缩放值基于所述图像补片的中心像素的平均强度,每个图像补片包含特定的目标分析物。

11.根据条款8至10中任一项所述的神经网络实现的方法,其中所述强度缩放通道逐像素地包括用于所述图像补片的所有所述像素的相同缩放值。

12.根据条款8所述的神经网络实现的方法,其中每个图像补片还包括像素距离数据,所述像素距离数据指示相应像素与所述多个分析物中的最近分析物之间的距离,所述多个分析物中的所述最近分析物是基于所述像素与所述分析物中的每个分析物之间的中心至中心距离来选择的。

13.根据条款8所述的神经网络实现的方法,其中每个图像补片还包括分析物距离数据,所述分析物距离数据识别每个分析物像素与所述多个分析物中的受分配分析物的距离,所述多个分析物中的受分配分析物是基于将每个分析物像素分类到所述分析物中的仅一个分析物来选择的。

14.根据条款8至13中任一项所述的神经网络实现的方法,其中通过所述卷积神经网络卷积所述输入数据以生成所述输入数据的所述卷积表示包括:

通过所述卷积神经网络的第一卷积子网络单独处理针对每个循环的每个图像补片集,以针对每个测序循环产生中间卷积表示,包括应用将所述强度信息和所述距离信息组合并且仅在测序循环内而不是在测序循环之间组合所得的卷积表示的卷积;

通过所述卷积神经网络的第二卷积子网络逐组处理系列中的后续测序循环的中间卷积表示,以产生所述系列的最终卷积表示,包括应用将所述中间卷积表示组合并将所述测序循环之间的所得卷积表示组合的卷积;

并且其中通过所述输出层处理所述卷积表示以产生所述输出包括通过所述输出层处理所述最终卷积表示。

15.根据条款8至14中任一项所述的神经网络实现的方法,还包括:重构每个图像补片的所述像素,以使所述目标分析物的中心在中心像素中居中,以生成重构的图像补片;并且

其中通过所述卷积神经网络卷积所述输入数据以生成所述输入数据的所述卷积表示包括:通过所述卷积神经网络卷积所述重构的图像补片以生成所述卷积表示。

16.根据条款15所述的神经网络实现的方法,其中所述重构还包括每个图像补片的所述像素的强度插值以补偿所述重构。

17.一种碱基检出的神经网络实现的方法,所述方法包括:

通过所述卷积神经网络的卷积层的级联单独处理针对每个循环的输入数据的序列中的针对每个循环的每个输入数据,其中

针对测序运行的一系列测序循环生成针对每个循环的输入数据的所述序列,并且

针对每个循环的每个输入数据包括图像通道,所述图像通道描绘了在相应的测序循环处捕获的一个或多个分析物及其周围背景的强度发射;

对于每个测序循环,

基于所述单独处理,在所述卷积层中的每个卷积层处产生卷积表示,从而产生卷积表示的序列,

将所述每个测序循环的针对每个循环的输入数据与所述每个测序循环的对应的卷积表示的序列混合并产生混合表示,以及

展平所述每个测序循环的混合表示并产生所展平的混合表示;

将后续测序循环的所展平的混合表示布置为堆叠;

通过递归神经网络沿前向方向和后向方向处理所述堆叠,所述递归神经网络

在滑动窗口的基础上对所述堆叠中的所展平的混合表示的子集进行卷积,其中每个滑动窗口对应于相应的测序循环,以及

基于(i)所述堆叠上方的当前滑动窗口中的所展平的混合表示的所述子集和(ii)先前隐藏状态表示,在每个测序循环的每个时间步长处相继产生当前隐藏状态表示;以及

基于沿前向方向和后向方向处理所述堆叠的结果,在所述测序循环中的每个测序循环处对所述分析物中的每个分析物进行碱基检出。

18.根据条款17所述的神经网络实现的方法,所述方法还包括:

在给定测序循环处通过以下步骤对所述分析物中的每个分析物进行碱基检出:

在时间步长的基础上组合所述给定测序循环的前向和后向当前隐藏状态表示,并产生组合的隐藏状态表示,其中所述组合包括级联或求和或平均;

通过一个或多个全连接网络处理所述组合的隐藏状态表示并产生密集表示;

通过softmax层处理所述密集表示,以产生在所述给定测序循环处掺入所述分析物中的每个分析物中为A、C、T和G的碱基的可能性;以及

基于所述可能性将所述碱基分类为A、C、T或G。

19.一种用于碱基检出的基于神经网络的系统,所述系统包括:

具有递归模块和卷积模块的混合神经网络,其中所述递归模块使用来自所述卷积模块的输入;

所述卷积模块通过一个或多个卷积层处理用于测序运行的一系列测序循环的图像数据,并产生所述图像数据的一个或多个卷积表示,其中所述图像数据描绘了一个或多个分析物及其周围背景的强度发射;

所述递归模块基于将所述卷积表示和先前隐藏状态表示卷积来产生当前隐藏状态表示;和

输出模块,所述输出模块基于所述当前隐藏状态表示来产生对所述分析物中的至少一个分析物和对所述测序循环中的至少一个测序循环的碱基检出。

20.一种对簇进行碱基检出的计算机实现的方法,所述方法包括:

通过神经网络处理输入数据并产生所述输入数据的另选表示,

其中所述输入数据包括(i)用于测序运行的一个或多个测序循环中的每个测序循环的针对每个循环的数据和(ii)补充距离信息,

其中所述针对每个循环的数据包括像素,所述像素描绘指示在所述测序循环中的相应测序循环处捕获的所述一个或多个簇和周围背景的强度发射,

其中随所述针对每个循环的数据一起提供所述补充距离信息,所述补充距离信息识别所述针对每个循环的数据的所述像素之间的距离;

其中,在所述神经网络对所述针对每个循环的数据的所述像素的所述处理期间,所述补充距离信息提供加性偏置,所述加性偏置向所述神经网络传达所述针对每个循环的数据的所述像素中的哪些像素包含所述簇的中心并且所述针对每个循环的数据的所述像素中的哪些像素远离所述簇的所述中心;

通过输出层处理所述另选表示并产生输出;以及

基于所述输出,在所述测序循环中的一个或多个测序循环处对所述簇中的一个或多个簇进行碱基检出。

21.根据条款20所述的计算机实现的方法,其中所述加性偏置提高所述碱基检出的准确度。

22.根据条款21所述的计算机实现的方法,其中所述神经网络使用所述补充距离信息,通过关注中心簇像素、它们的相邻像素以及从它们导出的另选表示而不是周边簇像素、背景像素以及从它们导出的另选表示,来将测序信号分配给其适当源簇。

条款组2

1.一种计算机实现的方法,所述方法包括:

通过基于神经网络的碱基检出器处理一个或多个分析物的输入数据并产生所述输入数据的另选表示;

通过输出层处理所述另选表示以产生输出,其中所述输出识别掺入所述分析物中的特定分析物中为A、C、T和G的碱基的可能性;

基于所述输出对所述分析物中的一个或多个分析物进行碱基检出;以及

基于由所述输出识别的所述可能性来确定所检出的碱基的质量得分。

2.根据条款1所述的计算机实现的方法,其中基于所述可能性确定所检出的碱基的所述质量得分包括:

响应于在训练期间处理训练数据,量化由所述基于神经网络的碱基检出器产生的碱基检出的分类得分;

选择经量化的分类得分的集;

对于所述集中的每个经量化的分类得分,通过将其预测的碱基检出与对应的基准真值碱基检出进行比较来确定碱基检出误差率;

确定所述经量化的分类得分与其碱基检出误差率之间的拟合;以及

基于所述拟合将所述质量得分与所述经量化的分类得分相关联。

3.根据条款1至2中任一项所述的计算机实现的方法,其中经量化的分类得分的所述集包括由所述基于神经网络的碱基检出器响应于在所述训练期间处理所述训练数据而产生的预测的碱基检出的所述分类得分的子集,并且

其中所述分类得分是实数。

4.根据条款1至3中任一项所述的计算机实现的方法,其中经量化的分类得分的所述集包括由所述基于神经网络的碱基检出器响应于在所述训练期间处理所述训练数据而产生的预测的碱基检出的所有所述分类得分,并且

其中所述分类得分是实数。

5.根据条款1至4中任一项所述的计算机实现的方法,其中所述分类得分是指数归一化的softmax得分,其总和为1并且由所述基于神经网络的碱基检出器的softmax输出层产生。

6.根据条款1至5中任一项所述的计算机实现的方法,其中经量化的分类得分的所述集是基于被定义为并应用于所述softmax得分的选择公式来选择的。

7.根据条款1至6中任一项所述的计算机实现的方法,其中经量化的分类得分的所述集是基于被定义为并应用于所述softmax得分的选择公式来选择的。

8.根据条款1至7中任一项所述的计算机实现的方法,还包括:

基于所述相关性,在推断期间将所述质量得分分配给由所述基于神经网络的碱基检出器检出的碱基。

9.根据条款8所述的计算机实现的方法,还包括:

基于在所述推断期间将质量得分对应方案应用于由所述基于神经网络的碱基检出器检出的所述碱基来分配所述质量得分;并且

其中所述方案将由所述基于神经网络的碱基检出器响应于在所述推断期间处理推断数据而产生的分类得分的范围映射到所述集中的对应经量化的分类得分。

10.根据条款8至9中任一项所述的计算机实现的方法,还包括:

在所述推断期间,对于当前碱基检出循环,停止对质量得分低于设定阈值的分析物进行碱基检出。

11.根据条款8至10中任一项所述的计算机实现的方法,还包括:

在所述推断期间,在后续的碱基检出循环之后,停止对平均质量得分低于设定阈值的分析物进行碱基检出。

12.根据条款8至11中任一项所述的计算机实现的方法,其中用于将所述预测的碱基检出与所述对应的基准真值碱基检出进行比较的样本大小特定于每个经量化的分类得分。

13.根据条款8至12中任一项所述的计算机实现的方法,其中使用回归模型来确定所述拟合。

14.根据条款8至13中任一项所述的计算机实现的方法,所述方法还包括:

对于每个量化分类得分,通过将其预测的碱基检出与对应的基准真值碱基检出进行比较来确定碱基检出准确率;以及

确定所述经量化的分类得分与其碱基检出准确率之间的拟合。

15.根据条款8至14中任一项所述的计算机实现的方法,其中所述对应的基准真值碱基检出来源于在多种测序仪器、测序化学和测序方案上测序的充分表征的人类和非人类样本。

16.一种基于神经网络的质量评分器,包括:

多个处理器,所述多个处理器同步操作并耦接到存储器;

神经网络,所述神经网络在所述多个处理器上运行、基于训练示例训练,所述训练示例包括来自测序图像并且使用基于反向传播的梯度更新技术而标记有碱基检出质量基准真值的数据,所述基于反向传播的梯度更新技术将所述神经网络的碱基检出质量预测与识别已知正确碱基检出的所述碱基检出质量基准真值逐步匹配;

所述神经网络的输入模块,所述输入模块在所述多个处理器中的至少一个处理器上运行并将来自在一个或多个测序循环处捕获的测序图像的数据馈送到所述神经网络以确定针对一个或多个分析物检出的一种或多种碱基的质量;和

所述神经网络的输出模块,所述输出模块在所述多个处理器中的至少一个处理器上运行并将由所述神经网络进行的分析转换为输出,所述输出识别针对所述一个或多个分析物检出的所述一种或多种碱基的所述质量。

17.根据条款16所述的基于神经网络的质量评分器,其中所述神经网络是卷积神经网络。

18.根据条款16所述的基于神经网络的质量评分器,其中所述输出模块还包括softmax分类层,所述softmax分类层产生所述质量为高质量、中等质量和低质量的可能性,所述质量评分器还包括:

基于所述可能性,将所述质量分类为高质量、中等质量或低质量。

19.根据条款16所述的基于神经网络的质量评分器,其中所述softmax分类层产生所述质量被分配多个质量得分的可能性,所述质量评分器还包括:

基于所述可能性,为所述质量分配来自所述多个质量得分中的一个质量得分的质量得分。

20.根据条款16至19中任一项所述的基于神经网络的质量评分器,其中所述质量得分对数地基于碱基检出误差概率,并且

其中所述多个质量得分包括Q6、Q10、Q15、Q20、Q22、Q27、Q30、Q33、Q37、Q40和Q50。

21.根据条款16至20中任一项所述的基于神经网络的质量评分器,其中所述输出模块还包括回归层,所述回归层产生识别所述质量的连续值。

22.根据条款16至21中任一项所述的基于神经网络的质量评分器,还包括:

补充输入模块,所述补充输入模块

用所检出的碱基的质量预测器值补充来自所述测序图像的所述数据,以及

将所述质量预测器值连同来自所述测序图像的所述数据馈送到所述卷积神经网络。

23.根据条款22所述的基于神经网络的质量评分器,其中所述质量预测器值包括在线重叠、纯度、定相、start5、六聚体得分、基序累积、端值、近似均聚物、强度衰减、倒数第二纯化度、与背景的信号重叠(SOWB)和/或偏移的纯度G调整。

24.根据条款22所述的基于神经网络的质量评分器,其中所述质量预测器值包括峰高、峰宽、峰位置、相对峰位置、峰高比、峰间距比和/或峰对应关系。

25.一种确定碱基检出的质量得分的计算机实现的方法,所述方法包括:

通过基于神经网络的碱基检出器处理一个或多个分析物的输入数据并产生所述输入数据的另选表示;

通过输出层处理所述另选表示以产生输出,其中所述输出识别掺入所述分析物中的特定分析物中为A、C、T和G的碱基的可能性;

基于所述输出对所述分析物中的一个或多个分析物进行碱基检出;以及

通过以下步骤并基于由所述输出识别的所述可能性来确定所检出的碱基的质量得分:

响应于在训练期间处理训练数据,量化由所述基于神经网络的碱基检出器产生的碱基检出的分类得分;

选择经量化的分类得分的集;

对于所述集中的每个经量化的分类得分,通过将其预测的碱基检出与对应的基准真值碱基检出进行比较来确定碱基检出误差率;

确定所述经量化的分类得分与其碱基检出误差率之间的拟合;以及

基于所述拟合将所述质量得分与所述经量化的分类得分相关联。

26.根据条款1所述的计算机实现的方法,其中所述拟合展示所述经量化的分类得分与所述质量得分之间的对应关系。

27.一种确定碱基检出的质量得分的计算机实现的方法,所述方法包括:

通过基于神经网络的碱基检出器处理一个或多个簇的输入数据并产生所述输入数据的另选表示;

通过输出层处理所述另选表示以产生输出,其中所述输出识别掺入所述簇中的特定簇中为A、C、T和G的碱基的可能性;

基于所述输出对所述簇中的一个或多个簇进行碱基检出;以及

基于由所述输出识别的所述可能性并且基于针对基于所述神经网络的碱基检出器的训练校准的量化方案,确定所检出的碱基的质量得分,其中所述量化方案包括在所述训练期间响应于处理训练数据,量化由所述基于神经网络的碱基检出器产生的所检出的碱基的分类得分;

选择经量化的分类得分的集;

对于所述集中的每个经量化的分类得分,通过将其预测的碱基检出与对应的基准真值碱基检出进行比较来确定碱基检出误差率;

确定所述经量化的分类得分与其碱基检出误差率之间的拟合;以及

基于所述拟合将所述质量得分与所述经量化的分类得分相关联。

194页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:用于远程获得捐献者信息的系统和方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!