设计用于消耗丰富转录物的探针

文档序号:1821194 发布日期:2021-11-09 浏览:8次 >En<

阅读说明:本技术 设计用于消耗丰富转录物的探针 (Designing probes for depletion of abundant transcripts ) 是由 A·谭 R·库尔斯滕 A·肯尼迪 J·科布尔 于 2020-12-17 设计创作,主要内容包括:本文公开了用来设计用于消耗来自样品的丰富转录物的探针的系统和方法。可以以物种不可知的方式确定丰富序列读段,并且可以基于最丰富序列的序列设计用于消耗丰富转录物的探针。本文还公开了用于消耗丰富转录物的组合物和试剂盒以及用于消耗丰富转录物的方法。(Disclosed herein are systems and methods for designing probes for consuming abundant transcripts from a sample. The abundant sequence reads can be determined in a species-agnostic manner, and probes for consuming abundant transcripts can be designed based on the sequence of the most abundant sequence. Also disclosed herein are compositions and kits for depleting abundant transcripts and methods for depleting abundant transcripts.)

设计用于消耗丰富转录物的探针

相关申请的交叉引用

本申请要求2019年12月19日提交的美国临时专利申请62/950,891的优先权权益,该临时专利申请的内容全文以引用方式并入本文。

背景技术

技术领域

本公开整体涉及消耗丰富物质的领域,并且更具体地涉及设计用于消耗丰富物质的探针。

背景技术

用于基因表达分析的RNA测序的一项挑战是,在RNA提取之后,大部分提取的材料由少量高度丰富转录物诸如非编码核糖体核糖核酸(rRNA)主导。在来自人血液的总RNA样品中,珠蛋白信使RNA(mRNA)可以以主导水平存在。需要在RNA测序之前消耗样品中的丰富转录物,诸如rRNA和mRNA。

发明内容

本文公开了用来设计用于消耗核糖核酸转录物的丰富序列的探针的系统或方法的实施方案。在一些实施方案中,该方法受硬件处理器(或处理器,诸如虚拟处理器)的控制,并且包括:接收样品中的核糖核酸(RNA)转录物或其产物的多个序列读段。该方法可以包括:将多个序列读段中的每一个与多个参考核苷酸序列中的参考核苷酸序列或其子序列进行比对。该方法可以包括:确定多个参考核苷酸序列中的参考核苷酸序列或其子序列的丰富序列。丰富序列中的每一个可以具有高于覆盖度阈值的覆盖度。覆盖度可以与和丰富序列比对的多个序列读段相关。该方法可以包括:确定参考核苷酸序列的具有高于覆盖度阈值的覆盖度的丰富序列中具有最高数量的覆盖度的最丰富序列。该方法可以包括:基于最丰富序列的序列、探针长度和拼接间隙,设计用于消耗参考核苷酸序列的具有最高数量的覆盖度的最丰富序列中的每一个的一个或多个核酸探针。

在一些实施方案中,多个参考核苷酸序列中的参考核苷酸序列是基因的参考RNA序列。在一些实施方案中,多个参考核苷酸序列中的参考核苷酸序列是基因的参考脱氧核糖核酸(DNA)序列。

在一些实施方案中,覆盖度阈值为约10至约10000。在一些实施方案中,丰富序列中的丰富序列的覆盖度为与该丰富序列比对的序列读段的数量。在一些实施方案中,丰富序列中的丰富序列的覆盖度为与该丰富序列的多个子序列中的每一个比对的序列读段的最小数量。

在一些实施方案中,丰富序列中的一个、至少一个或每一个丰富序列包含多个参考核苷酸序列中的参考核苷酸序列的多个连续子序列。与多个连续子序列中的每一个比对的序列读段的数量可以高于覆盖度阈值。

在一些实施方案中,确定参考核苷酸序列的丰富序列包括:确定与多个参考核苷酸序列中的参考核苷酸序列的多个子序列中的子序列比对的序列读段的数量。确定参考核苷酸序列的丰富序列可以包括:确定丰富序列中的丰富序列包含参考核苷酸序列的子序列中的多个连续子序列。与多个连续子序列中的每一个比对的序列读段的数量可以高于覆盖度阈值。

在一些实施方案中,丰富序列中的一个、至少一个或每一个丰富序列包含(i)多个参考核苷酸序列中的参考核苷酸序列的多个子序列以及(ii)参考核苷酸序列在多个子序列中不连续的且在彼此的阈值距离内的任何两个相邻子序列之间的散布子序列。与多个子序列中的每一个比对的序列读段的数量可以高于覆盖度阈值。在一些实施方案中,阈值距离的长度为约1个核苷酸至约50个核苷酸。

在一些实施方案中,多个连续子序列或多个子序列中的一个、至少一个或每一个的长度为一个核苷酸。在一些实施方案中,多个连续子序列或多个子序列中的一个、至少一个或每一个的长度为至少10个核苷酸。

在一些实施方案中,确定参考核苷酸序列的丰富序列包括:确定多个参考核苷酸序列中的参考核苷酸序列的各自具有高于覆盖度阈值的覆盖度的推定丰富序列。确定参考核苷酸序列的丰富序列可以包括:确定参考核苷酸序列中的参考核苷酸序列的任何两个相邻推定丰富序列在参考核苷酸序列上在阈值距离内。确定参考核苷酸序列的丰富序列可以包括:合并两个推定丰富序列以生成合并的推定丰富序列,该合并的推定丰富序列包含两个推定丰富序列和参考核苷酸序列在两个推定丰富序列之间的散布子序列。丰富序列可以包含合并的推定丰富序列和除合并的两个推定丰富序列之外的推定丰富序列。在一些实施方案中,该方法包括:确定参考核苷酸序列中的参考核苷酸序列的任何两个相邻丰富序列在参考核苷酸序列上在阈值距离内;以及合并两个丰富序列以生成合并的丰富序列,该合并的丰富序列包含两个丰富序列和参考核苷酸序列在两个丰富序列之间的散布子序列。合并后的丰富序列可以包含合并的丰富序列和除合并的两个丰富序列之外的合并之前的丰富序列。在一些实施方案中,阈值距离的长度为约1个核苷酸至约50个核苷酸。

在一些实施方案中,最高数量的覆盖度包括约10至约500个最高数量的覆盖度。在一些实施方案中,最高数量的覆盖度为参考核苷酸序列的具有高于覆盖度阈值的覆盖度的序列的约1%至约10%。在一些实施方案中,具有高于覆盖度阈值的覆盖度的序列的平均长度或中值长度为约50至约1000个核苷酸长。在一些实施方案中,具有高于覆盖度阈值的覆盖度的序列中至少50%至90%的长度各自为至多200至1000个核苷酸。

在一些实施方案中,确定多个参考核苷酸序列的具有高于覆盖度阈值的覆盖度的最丰富序列包括:将多个参考核苷酸序列的具有高于覆盖度阈值的覆盖度的丰富序列按丰富序列的覆盖度的降序排序。确定多个参考核苷酸序列的具有高于覆盖度阈值的覆盖度的最丰富序列可以包括:按丰富序列的覆盖度的降序选择第一丰富序列作为最丰富序列。按丰富序列的覆盖度的降序的第一丰富序列的数量可以为约10至约500。

在一些实施方案中,参考核苷酸序列的丰富序列中没有两个最丰富序列在彼此的相似性阈值内。在一些实施方案中,该方法包括:确定每对最丰富序列之间的相似性分数。该方法可以包括:相对于多个最丰富序列中剩余的任何其他最丰富序列,迭代地去除具有比剩余的最丰富序列的相似性阈值高的相似性分数的每个最丰富序列。在一些实施方案中,该方法包括:迭代地确定剩余的一对最丰富序列之间的相似性分数高于相似性阈值;以及从剩余的最丰富序列中去除最丰富序列对中的一对。在一些实施方案中,相似性阈值为约70%至约90%。

在一些实施方案中,一种或多种核酸中的一种、至少一种或每一种包括RNA、脱氧核糖核酸(DNA)、异种核酸(XNA)或它们的组合。XNA可以包括1,5-脱水己糖醇核酸(HNA)、环己烯核酸(CeNA)、苏糖核酸(TNA)、乙二醇核酸(GNA)、锁核酸(LNA)、肽核酸(PNA)、氟阿拉伯糖核酸(FANA)或它们的组合。

在一些实施方案中,用于消耗参考核苷酸序列的具有最高数量的覆盖度的最丰富序列中的每一个的一个或多个核酸探针包括拼接最丰富序列的一个或多个核酸探针。一个或多个核酸探针中的两个相邻探针可以通过拼接间隙在最丰富序列中彼此分离。在一些实施方案中,用于消耗参考核苷酸序列的具有最高数量的覆盖度的最丰富序列中的每一个的一个或多个核酸探针中的一个、至少一个或每一个的序列和最丰富序列、其子序列或前述任一种的反向互补序列具有至少80%的序列相似性。在一些实施方案中,探针长度可以为约25至约100个核苷酸长。在一些实施方案中,拼接间隙为约1至约50个核苷酸长。在一些实施方案中,用于消耗最丰富序列中的每一个的一个或多个核酸探针的平均数量或中位数量为约1至约100。在一些实施方案中,被设计用于消耗最丰富序列的探针的总数量少于10000。

在一些实施方案中,样品包括微生物样品、微生物组样品、细菌样品、酵母样品、植物样品、动物样品、患者样品、流行病学样品、环境样品、土壤样品、水样品、元转录组学样品或它们的组合。在一些实施方案中,样品包括未预先确定的物种、未知的物种或它们的组合的生物体。在一些实施方案中,样品包括至少两个物种的生物体。一种或多种丰富RNA转录物可以包括来自至少两个物种的生物体的RNA转录物。样品可以包括至少10ng的RNA转录物。

在一些实施方案中,在将RNA转录物逆转录以生成互补DNA(cDNA)并且对cDNA或其产物进行测序以生成多个序列读段之前,使用多个消耗探针从样品中消耗一种或多种丰富RNA转录物、其序列或其子序列。一种或多种丰富RNA转录物可以是核糖体RNA转录物和/或球蛋白mRNA转录物。在一些实施方案中,没有从样品中消耗丰富RNA转录物或其任何序列。

本文公开了用来设计用于消耗核糖核酸转录物的丰富序列的探针的系统或方法的实施方案。在一些实施方案中,该系统包括:被配置为存储可执行指令的非暂态存储器;以及与非暂态存储器通信的硬件处理器,该硬件处理器由可执行指令编程以:接收样品中的核糖核酸(RNA)转录物或其产物的多个序列读段。硬件处理器可以由可执行指令编程以:接收覆盖度阈值、探针长度、拼接间隙和/或用于消耗的丰富序列的最大数量。硬件处理器可以由可执行指令编程以:将多个序列读段中的每一个与多个参考核苷酸序列中的参考核苷酸序列或其子序列进行比对。硬件处理器可以由可执行指令编程以:确定多个参考核苷酸序列中的参考核苷酸序列或其子序列的丰富序列。丰富序列中的每一个可以具有高于覆盖度阈值的覆盖度。覆盖度可以与和丰富序列比对的多个序列读段相关。硬件处理器可以由可执行指令编程以:选择参考核苷酸序列的具有高于覆盖度阈值的覆盖度的丰富序列中具有最高数量的覆盖度的最丰富序列。选择的最丰富序列的数量可以为至多用于消耗的序列的最大数量。硬件处理器可以由可执行指令编程以:基于丰富序列的序列、探针长度和拼接间隙,设计用于消耗参考核苷酸序列的具有最高数量的覆盖度的最丰富序列中的每一个的一个或多个核酸探针。硬件处理器可以由可执行指令编程以:输出所设计的用于消耗最丰富序列的核酸探针的序列。

在一些实施方案中,覆盖度阈值、探针长度、拼接间隙和/或用于消耗的丰富序列的最大数量中的一者或多者是默认值。在一些实施方案中,覆盖度阈值、探针长度、拼接间隙和/或用于消耗的丰富序列的最大数量中的一者或多者是非默认值。

在一些实施方案中,硬件处理器由可执行指令编程以:生成和/或使得显示第一用户界面(UI),该第一用户界面包括(i)用于接收RNA转录物的多个序列读段的链接的输入元件,以及/或者(ii)用于接收覆盖度阈值、探针长度、拼接间隙和/或用于消耗的丰富序列的最大数量的输入元件。第一UI可以包括覆盖度阈值、探针长度、拼接间隙和/或用于消耗的丰富序列的最大数量的默认值中的一者或多者。(i)RNA转录物的多个序列读段和/或(ii)覆盖度阈值、探针长度、拼接间隙和/或用于消耗的丰富序列的最大数量可以经由第一UI从系统的用户接收。

在一些实施方案中,为了输出所设计的用于消耗最丰富序列的核酸探针的序列,硬件处理器由可执行指令编程以:生成和/或使得显示第二UI,该第二UI包括(a)所设计的核酸探针的序列,(b)所设计的核酸探针的序列的链接,以及/或者(c)用于接收用户输入或选择以导出所设计的核酸探针的序列的输入元件。

在一些实施方案中,多个参考核苷酸序列中的参考核苷酸序列是基因的参考RNA序列。在一些实施方案中,多个参考核苷酸序列中的参考核苷酸序列是基因的参考脱氧核糖核酸(DNA)序列。

在一些实施方案中,覆盖度阈值为约10至约10000。在一些实施方案中,丰富序列中的丰富序列的覆盖度为与该丰富序列比对的序列读段的数量。在一些实施方案中,丰富序列中的丰富序列的覆盖度为与该丰富序列的多个子序列中的每一个比对的序列读段的最小数量。

在一些实施方案中,丰富序列中的一个、至少一个或每一个丰富序列包含多个参考核苷酸序列中的参考核苷酸序列的多个连续子序列。与多个连续子序列中的每一个比对的序列读段的数量可以高于覆盖度阈值。

在一些实施方案中,为了确定参考核苷酸序列的丰富序列,硬件处理器由可执行指令编程以:确定与多个参考核苷酸序列中的参考核苷酸序列的多个子序列中的子序列比对的序列读段的数量;并且确定丰富序列中的丰富序列包含参考核苷酸序列的子序列中的多个连续子序列。与多个连续子序列中的每一个比对的序列读段的数量可以高于覆盖度阈值。

在一些实施方案中,丰富序列中的一个、至少一个或每一个丰富序列包含(i)多个参考核苷酸序列中的参考核苷酸序列的多个子序列以及(ii)参考核苷酸序列在多个子序列中不连续的且在彼此的阈值距离内的任何两个相邻子序列之间的散布子序列。与多个子序列中的每一个比对的序列读段的数量可以高于覆盖度阈值。在一些实施方案中,阈值距离的长度为约1个核苷酸至约50个核苷酸。

在一些实施方案中,多个连续子序列或多个子序列中的一个、至少一个或每一个的长度为一个核苷酸。在一些实施方案中,多个连续子序列或多个子序列中的一个、至少一个或每一个的长度为至少10个核苷酸。

在一些实施方案中,为了确定参考核苷酸序列的丰富序列,硬件处理器由可执行指令编程以:确定多个参考核苷酸序列中的参考核苷酸序列的各自具有高于覆盖度阈值的覆盖度的推定丰富序列;确定参考核苷酸序列中的参考核苷酸序列的任何两个相邻推定丰富序列在参考核苷酸序列上在阈值距离内;并且合并两个推定丰富序列以生成合并的推定丰富序列,该合并的推定丰富序列包含两个推定丰富序列和参考核苷酸序列在两个推定丰富序列之间的散布子序列。丰富序列可以包含合并的推定丰富序列和除合并的两个推定丰富序列之外的推定丰富序列。在一些实施方案中,硬件处理器由可执行指令编程以:确定参考核苷酸序列中的参考核苷酸序列的任何两个相邻丰富序列在参考核苷酸序列上在阈值距离内;并且合并两个丰富序列以生成合并的丰富序列,该合并的丰富序列包含两个丰富序列和参考核苷酸序列在两个丰富序列之间的散布子序列。合并后的丰富序列可以包含合并的丰富序列和除合并的两个丰富序列之外的合并之前的丰富序列。在一些实施方案中,阈值距离的长度为约1个核苷酸至约50个核苷酸。

在一些实施方案中,最高数量的覆盖度包括约10至约500个最高数量的覆盖度。在一些实施方案中,最高数量的覆盖度为参考核苷酸序列的具有高于覆盖度阈值的覆盖度的序列的约1%至约10%。在一些实施方案中,具有高于覆盖度阈值的覆盖度的序列的平均长度或中值长度为约50至约1000个核苷酸长。在一些实施方案中,具有高于覆盖度阈值的覆盖度的序列中至少50%至90%的长度各自为至多200至1000个核苷酸。

在一些实施方案中,为了确定多个参考核苷酸序列的具有高于覆盖度阈值的覆盖度的最丰富序列,硬件处理器由可执行指令编程以:将多个参考核苷酸序列的具有高于覆盖度阈值的覆盖度的丰富序列按丰富序列的覆盖度的降序排序;并且按丰富序列的覆盖度的降序选择第一丰富序列作为最丰富序列。按丰富序列的覆盖度的降序的第一丰富序列的数量可以为约10至约500。

在一些实施方案中,参考核苷酸序列的丰富序列中没有两个最丰富序列在彼此的相似性阈值内。在一些实施方案中,硬件处理器由可执行指令编程以:确定每对最丰富序列之间的相似性分数;以及相对于多个最丰富序列中剩余的任何其他最丰富序列,迭代地去除具有比剩余的最丰富序列的相似性阈值高的相似性分数的每个最丰富序列。在一些实施方案中,硬件处理器由可执行指令编程以:迭代地确定剩余的一对最丰富序列之间的相似性分数高于相似性阈值;以及从剩余的最丰富序列中去除最丰富序列对中的一对。在一些实施方案中,相似性阈值为约70%至约90%。

在一些实施方案中,一种或多种核酸中的一种、至少一种或每一种包括RNA、脱氧核糖核酸(DNA)、异种核酸(XNA)或它们的组合,任选地其中XNA包括1,5-脱水己糖醇核酸(HNA)、环己烯核酸(CeNA)、苏糖核酸(TNA)、乙二醇核酸(GNA)、锁核酸(LNA)、肽核酸(PNA)、氟阿拉伯糖核酸(FANA)或它们的组合。

在一些实施方案中,用于消耗参考核苷酸序列的具有最高数量的覆盖度的最丰富序列中的每一个的一个或多个核酸探针包括拼接最丰富序列的一个或多个核酸探针。一个或多个核酸探针中的两个相邻探针通过拼接间隙在最丰富序列中彼此分离。在一些实施方案中,用于消耗参考核苷酸序列的具有最高数量的覆盖度的最丰富序列中的每一个的一个或多个核酸探针中的一个、至少一个或每一个的序列和最丰富序列、其子序列或前述任一种的反向互补序列具有至少80%的序列相似性。在一些实施方案中,探针长度为约25至约100个核苷酸长。在一些实施方案中,拼接间隙为约1至约50个核苷酸长。在一些实施方案中,用于消耗最丰富序列中的每一个的一个或多个核酸探针的平均数量或中位数量为约1至约100。在一些实施方案中,被设计用于消耗最丰富序列的探针的总数量少于10000。

在一些实施方案中,样品包括微生物样品、微生物组样品、细菌样品、酵母样品、植物样品、动物样品、患者样品、流行病学样品、环境样品、土壤样品、水样品、元转录组学样品或它们的组合。在一些实施方案中,样品包括未预先确定的物种、未知的物种或它们的组合的生物体。在一些实施方案中,样品包括至少两个物种的生物体。一种或多种丰富RNA转录物可以包括来自至少两个物种的生物体的RNA转录物。样品可以包括至少10ng的RNA转录物。

在一些实施方案中,在将RNA转录物逆转录以生成互补DNA(cDNA)并且对cDNA或其产物进行测序以生成多个序列读段之前,使用多个消耗探针从样品中消耗一种或多种丰富RNA转录物、其序列或其子序列。一种或多种丰富RNA转录物可以是核糖体RNA转录物和/或球蛋白mRNA转录物。在一些实施方案中,没有从样品中消耗丰富RNA转录物或其任何序列。

本文公开了计算机可读介质的实施方案,该计算机可读介质包括可执行指令,这些可执行指令当由计算系统或设备的硬件处理器执行时使得硬件处理器和/或计算系统或设备执行本文所公开的任何方法。本文公开了计算机可读介质的实施方案,该计算机可读介质包括可执行指令,非暂态存储器被配置为存储这些可执行指令和/或这些可执行指令由本文所公开的任何系统的硬件处理器执行。

本文公开了用于消耗丰富转录物的组合物的实施方案。在一些实施方案中,该组合物包含:多个消耗探针;以及/或者多个补充消耗探针,这些补充消耗探针包含使用本文所公开的任何方法或系统设计的核酸探针。本文公开了用于消耗丰富转录物的组合物的实施方案。在一些实施方案中,该组合物包含:多个消耗探针,这些消耗探针包含使用本文所公开的任何方法或系统设计的核酸探针。本文公开了用于消耗丰富转录物的试剂盒。在一些实施方案中,该试剂盒包含本文所公开的组合物;以及使用该组合物来消耗丰富转录物的说明书。

本文公开了用于消耗丰富转录物的方法的实施方案。在一些实施方案中,该方法包括:接收包含多种核糖核酸(RNA)转录物的样品。该方法可以包括:使用本文所公开的组合物和一种或多种核酸酶消耗样品中的丰富转录物,以在样品中生成多个剩余的RNA转录物。该方法可以包括:对样品中的多个剩余的RNA转录物进行RNA测序以生成多个测序读段。在一些实施方案中,一种或多种核酸酶包括RNA酶和/或DNA酶,任选地其中RNA酶是RNA酶H,并且任选地其中DNA酶是DNA酶1。

本说明书中描述的主题的一个或多个具体实施的细节在附图和以下描述中进行阐述。根据说明书、附图和权利要求,其他特征、方面和优点将变得显而易见。本发明内容和以下

具体实施方式

均不旨在限定或限制本发明主题的范围。

附图说明

图1A-1B是示出可以如何确定样品中RNA转录物的丰富区域的非限制性示例性示意图。

图2是示出设计用于消耗核糖核酸转录物的丰富序列的探针的示例性方法的流程图。

图3是被配置为设计用于消耗核糖核酸转录物的丰富序列的探针的例示性计算系统的框图。

图4A-4B是示出一组377个寡核苷酸探针在消耗不同样品中的rRNA和珠蛋白mRNA中的可变性能的非限制性示例性曲线图。

图5是示出在一组377个寡核苷酸探针用于消耗rRNA和珠蛋白mRNA之后样品中丰富区域的大小分布的非限制性示例性曲线图。

图6是示出在一组377个寡核苷酸探针用于消耗rRNA和珠蛋白mRNA之后样品中丰富区域的相似性的非限制性示例性热图。

图7是示出一组377个寡核苷酸探针以及被设计成消耗不同样品中的rRNA和珠蛋白mRNA的附加探针的计算机内性能的非限制性示例性示意图。

具体实施方式

在以下具体实施方式中,参考了附图,附图形成具体实施方式的一部分。在附图中,除非上下文另有规定,否则类似的符号通常标识类似的组分。具体实施方式、附图和权利要求书中所述的示例性实施方案并非旨在为限制性的。在不脱离本文所提出的主题的精神或范围的情况下,可利用其他实施方案,并且可作出其他改变。将容易理解的是,如本文大体所述并且如附图所示,本公开的各方面可被布置、替代、组合、分离和设计成多种不同的构型,所有这些构型均明确涵盖于本文中并成为本公开的一部分。

本文公开了用来设计用于消耗核糖核酸转录物的丰富序列的探针的方法的实施方案。在一些实施方案中,该方法受硬件处理器(或处理器,诸如虚拟处理器)的控制,并且包括:接收样品中的核糖核酸(RNA)转录物或其产物的多个序列读段。该方法可以包括:将多个序列读段中的每一个与多个参考核苷酸序列中的参考核苷酸序列或其子序列进行比对。该方法可以包括:确定多个参考核苷酸序列中的参考核苷酸序列或其子序列的丰富序列。丰富序列中的每一个可以具有高于覆盖度阈值的覆盖度。覆盖度可以与和丰富序列比对的多个序列读段相关。该方法可以包括:确定参考核苷酸序列的具有高于覆盖度阈值的覆盖度的丰富序列中具有最高数量的覆盖度的最丰富序列。该方法可以包括:基于最丰富序列的序列、探针长度和拼接间隙,设计用于消耗参考核苷酸序列的具有最高数量的覆盖度的最丰富序列中的每一个的一个或多个核酸探针。

本文公开了用来设计用于消耗核糖核酸转录物的丰富序列的探针的系统的实施方案。在一些实施方案中,该系统包括:被配置为存储可执行指令的非暂态存储器;以及与非暂态存储器通信的硬件处理器,该硬件处理器由可执行指令编程以:接收样品中的核糖核酸(RNA)转录物或其产物的多个序列读段。硬件处理器可以由可执行指令编程以:接收覆盖度阈值、探针长度、拼接间隙和/或用于消耗的丰富序列的最大数量。硬件处理器可以由可执行指令编程以:将多个序列读段中的每一个与多个参考核苷酸序列中的参考核苷酸序列或其子序列进行比对。硬件处理器可以由可执行指令编程以:确定多个参考核苷酸序列中的参考核苷酸序列或其子序列的丰富序列。丰富序列中的每一个可以具有高于覆盖度阈值的覆盖度。覆盖度可以与和丰富序列比对的多个序列读段相关。硬件处理器可以由可执行指令编程以:选择参考核苷酸序列的具有高于覆盖度阈值的覆盖度的丰富序列中具有最高数量的覆盖度的最丰富序列。选择的最丰富序列的数量可以为至多用于消耗的序列的最大数量。硬件处理器可以由可执行指令编程以:基于丰富序列的序列、探针长度和拼接间隙,设计用于消耗参考核苷酸序列的具有最高数量的覆盖度的最丰富序列中的每一个的一个或多个核酸探针。硬件处理器可以由可执行指令编程以:输出所设计的用于消耗最丰富序列的核酸探针的序列。

本文公开了计算机可读介质的实施方案,该计算机可读介质包括可执行指令,这些可执行指令当由计算系统或设备的硬件处理器执行时使得硬件处理器和/或计算系统或设备执行本文所公开的任何方法。本文公开了计算机可读介质的实施方案,该计算机可读介质包括可执行指令,非暂态存储器被配置为存储这些可执行指令和/或这些可执行指令由本文所公开的任何系统的硬件处理器执行。

本文公开了用于消耗丰富转录物的组合物的实施方案。在一些实施方案中,该组合物包含:多个消耗探针;以及/或者多个补充消耗探针,这些补充消耗探针包含使用本文所公开的任何方法或系统设计的核酸探针。本文公开了用于消耗丰富转录物的组合物的实施方案。在一些实施方案中,该组合物包含:多个消耗探针,这些消耗探针包含使用本文所公开的任何方法或系统设计的核酸探针。本文公开了用于消耗丰富转录物的试剂盒。在一些实施方案中,该试剂盒包含本文所公开的组合物;以及使用该组合物来消耗丰富转录物的说明书。

本文公开了用于消耗丰富转录物的方法的实施方案。在一些实施方案中,该方法包括:接收包含多种核糖核酸(RNA)转录物的样品。该方法可以包括:使用本文所公开的组合物和一种或多种核酸酶消耗样品中的丰富转录物,以在样品中生成多个剩余的RNA转录物。该方法可以包括:对样品中的多个剩余的RNA转录物进行RNA测序以生成多个测序读段。在一些实施方案中,一种或多种核酸酶包括RNA酶和/或DNA酶,任选地其中RNA酶是RNA酶H,并且任选地其中DNA酶是DNA酶1。

在整个附图中,参考标号可重复用于指示参考元件之间的对应关系。提供附图以示出本文所述的示例性实施方案,并非旨在限制本公开的范围。

消耗来自样品的丰富序列

用于基因表达分析的RNA测序的一项挑战是,在RNA提取之后,大部分提取的材料由少量高度丰富转录物诸如非编码核糖体核糖核酸(rRNA)主导。在来自人血液的总RNA样品中,珠蛋白信使RNA(mRNA)可以以主导水平存在。

浪费对这些少数可以主导仪器读取深度的转录物进行测序的成本通常是不可取的。例如,在人总RNA样品中,rRNA可以占测序读数的高达约80%-85%。试剂盒(诸如称为RiboZero(Illumina,San Diego,CA))可以包括用于从总RNA样品中消耗rRNA的探针。该试剂盒可以用于消耗一种物种(诸如人、酵母、植物、细菌)的rRNA和珠蛋白mRNA。可能需要用于不同物种的多个试剂盒,因为来自不同物种的rRNA不具有相同的序列。物种之间的进化距离越远,rRNA序列就越多样化。因此,用于杂交和去除丰富序列的探针需要针对物种或至少密切相关的物种,以便试剂盒发挥良好作用。用于制造各种试剂盒的成本和物流可能很高。

试剂盒(诸如RiboZero Plus(Illumina,San Diego,CA))可以包括被设计成消耗多个物种的珠蛋白mRNA和rRNA的探针。该试剂盒既可以简化制造,又允许探针设计具有更大的灵活性。例如,该试剂盒可以被设计成从两种代表性细菌物种(大肠杆菌(E.coli)(革兰氏阴性)和枯草芽孢杆菌(B.subtilis)(革兰氏阳性))中消耗人、小鼠和大鼠rRNA、人珠蛋白mRNA和rRNA。该试剂盒可以很好地用于消耗该试剂盒被设计用于的这些物种的珠蛋白mRNA和rRNA。

然而,细菌是非常多样的,并且被设计成消耗某些物种的珠蛋白mRNA和rRNA的试剂盒可能不能令人满意地用于涵盖微生物组研究、环境微生物学和流行病学的元转录组学中的微生物测序。存在于来自例如土壤或肠道微生物组的样品中的菌种谱可能未预先确定。此外,存在于样品中的菌种可以涉及数百种或可能数千种不同的物种。因此,仅针对两种代表性菌种设计的探针可能不足以满足元转录组领域的需要。此外,可以用于消耗样品中的丰富转录物的探针总数有上限。本文公开了用来设计用于消耗来自样品(诸如包括元转录组学生物样品的复杂样品)的丰富序列(例如,丰富转录物,诸如rRNA和转蛋白mRNA)的探针的系统和方法的实施方案。

设计用于消耗来自样品的丰富序列的探针

本文公开了一种用于有效探针设计的方法,以使得能够消耗样品中存在的广谱物种的尽可能多类型的丰富序列,而不管样品中存在什么物种。该方法可以用于鉴定和设计消耗不佳的区域或序列的探针。该方法可以用于以无偏见的方式收集、分析和设计丰富序列的探针。该方法可以实现样品类型(诸如元转录组学样品类型)的不可知探针设计。该方法可以用于创建定制探针设计工具,以为用户提供一种简单的方法来从他们的样品中去除任何不需要的RNA序列。

残余rRNA的生物信息学分析可以通过附加或补充探针通知修补消耗间隙的可行性。在一些实施方案中,使用探针库池或探针组处理来自一些球蛋白mRNA和rRNA消耗的样品的丰富序列读段,并且可以基于这些丰富序列读段来设计补充探针。该方法可以用于探针库来鉴定和设计消耗不佳的区域或序列的探针。该方法可以用于以无偏见的方式收集、分析和设计丰富序列的探针。可以使用例如SortMeRNA(bioinfo.lifl.fr/RNA/sortmerna/)准备每个样品的Fastq(或另一种格式)文件。样品可以是元转录组学样品(例如,土壤、水或微生物组样品),它们可以含有广谱生物体,其中许多可能尚未被鉴定。

可以使用例如一种或多种核酸酶(诸如RNA酶H和DNA酶1)通过酶促消耗来消耗样品中的珠蛋白mRNA和rRNA。探针可以是反义脱氧核糖核酸(DNA)寡核苷酸。每个探针的长度可以为50个碱基。探针可以拼接在靶标上,探针之间的间隙为15个碱基。该库可以包括例如377个被设计成靶向以下项的探针:人、小鼠和大鼠的28S、18S、16S、12S、5.8S和5S rRNA;五种人珠蛋白mRNA;枯草芽孢杆菌(革兰氏阴性细菌)的23S和16S rRNA;以及大肠杆菌(革兰氏阳性细菌)的23S和16S rRNA。377个探针在本文中称为RiboZero+探针(Illumina,SanDiego,CA)。使用377个探针的基于核酸酶的RNA消耗在本文中称为RiboZero+。RiboZero+探针和使用RiboZero+探针的基于核酸酶的丰富转录物消耗已经在2019年12月19日提交的标题为“NUCLEASE-BASED RNA DEPLETION”的PCT申请PCT/US2019/067582中描述,该申请的内容全文以引用方式并入。简而言之,DNA探针可以与RNA转录物杂交以形成DNA:RNA杂交体。可以去除不与RNA转录物杂交的DNA探针。RNA酶H可以用于降解杂交体中与DNA探针杂交的RNA转录物的区域以及杂交体中邻近与DNA探针杂交的RNA转录物的区域的RNA区域。DNA酶I可以用于降解DNA:RNA杂交体中之前与RNA转录物杂交的剩余DNA探针。

可以使用例如SortMeRNA将来自样品的序列读段与RNA序列(例如,在公开可用的Silva rRNA数据库中)进行比对。可以使用例如Samtools(samtools.sourceforge.net/)处理含有比对序列的文件。可以使用例如Bedtools2(bedtools.readthedocs.io/en/latest/)鉴定覆盖度、丰度或读段计数高(例如,500倍或更多)的区域或序列。图1A-1B是示出可以如何确定样品中RNA转录物的覆盖度以及如何鉴定样品中RNA转录物的丰富区域的非限制性示例性示意图。可以合并(或配对)附近区域或序列。在合并之后,可以基于区域或序列的覆盖度来对这些区域或序列进行排序或排名。可以基于或靶向每个样品的前n个(例如,50个)最丰富的区域或序列来设计附加或补充探针。可以使用例如Blast(https://blast.ncbi.nlm.nih.gov)进行前n个(例如,50个)最丰富的区域或序列的逐对比对,以去除彼此相似的区域。靶向一个区域的一个探针可能靶向具有相似序列的另一个区域。如果两个丰富区域具有80%或更高的比对或相似性分数,则可以去除两个区域中的一个。补充探针可以被设计用于剩余区域。每个探针的长度可以为50个碱基。探针可以拼接在靶标上,探针之间的间隙为15个碱基。探针可以是DNA寡核苷酸。设计的探针可以化学合成。可以将所设计的探针添加到探针池中和/或与池中的一些探针互换,而无需对消耗丰富探针序列的方法进行重大改变。

所设计的探针可以用于从总RNA样品中去除丰富转录物,以允许灵敏度更大且总RNA测序应用的性价比更高。该方法可以是无偏见的,因为无论丰富读段来自什么物种,都可以收集丰富读段并将其用于设计补充探针。可以合并并用于获得足够的RNA测序性能度量的探针的绝对数量是有限制的。该方法可以用于设计用于有效消耗的探针,同时将探针的数量保持为最小。

在一些实施方案中,该方法可以是完全不可知的。该方法可能不需要预先鉴定生物体的具体物种。在一些实施方案中,该方法可以收集并处理从探针库的现有探针逃脱消耗的丰富序列,并允许设计可以用于补充原始探针库以改善消耗性能的附加探针。在一些实施方案中,该方法允许设计广谱物种的探针,但依赖于测序读段而不是完整的rRNA序列。在一些实施方案中,该方法可以利用公开可用的工具进行比对和数据处理,并且可能不需要复杂的编程。在一些实施方案中,该方法可以有效地设计一组有限的探针,以将探针库的成本和复杂性保持为最小。在一些实施方案中,该方法可以用于设计用于消耗各种样品类型中的丰富转录物的探针。这些样品类型可以是不同物种类型(诸如真核和原核微生物)的高度复杂的混合物,诸如海洋沉积物、土壤和淤渣。其他类型的样品包括人和小鼠肠道微生物组。

设计用于消耗来自样品的丰富序列的探针的示例性方法

图2是示出设计用于消耗来自样品的核酸(诸如核糖核酸转录物)的丰富序列的探针的示例性方法200的流程图。方法200可体现在存储在计算系统的计算机可读介质(诸如一个或多个磁盘驱动器)上的一组可执行程序指令中。例如,图3所示且在下文更详细地描述的计算系统300可以执行一组可执行程序指令以实施方法200。当发起方法200时,可以将可执行程序指令加载到存储器诸如RAM中,并由计算系统300的一个或多个处理器执行这些可执行程序指令。尽管相对于图3所示的计算系300描述了方法200,但该描述仅仅是例示性的,并非旨在进行限制。在一些实施方案中,方法200或其部分可由多个计算系统串行地或并行地执行。

在方法200在框204处开始之后,方法200进行到框208,在该框处计算系统(例如,图3所示的计算系统300)接收样品中核酸(诸如核糖核酸(RNA)转录物或其产物(例如,来自第一链合成的互补脱氧核糖核酸(cDNA)产物))的多个序列读段。

样品。样品可以包括微生物样品、微生物组样品、细菌样品、酵母样品、植物样品、动物样品、患者样品、流行病学样品、环境样品、土壤样品、水样品、元转录组学样品或它们的组合。在一些实施方案中,样品包括未预先确定的物种、未知或未鉴定的物种或它们的组合的生物体。在一些实施方案中,样品包括约、至少或至多1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100个物种或介于这些值中的任何两个之间的数值或范围的物种的生物体。一种或多种丰富RNA转录物可以包括来自约、至少或至多1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100个物种或介于这些值中的任何两个之间的数值或范围的物种的生物体的RNA转录物。样品可以包含、包含约、包含至少或包含至多1ng、2ng、3ng、4ng、5ng、6ng、7ng、8ng、9ng、10ng、20ng、30ng、40ng、50ng、60ng、70ng、80ng、90ng、100ng、200ng、300ng、400ng、500ng、600ng、700ng、800ng、900ng、1000ng的RNA转录物。

用户输入。在一些实施方案中,计算系统从例如系统的用户接收用于消耗的覆盖度阈值、探针长度、拼接间隙和/或丰富序列的最大数量。计算系统可以从例如系统的数据库、系统的存储器或与系统连接(例如,直接连接或者通过一个或多个有线或无线网络间接连接)的另一系统检索覆盖度阈值、探针长度、拼接间隙和/或用于消耗的丰富序列的最大数量。覆盖度阈值、探针长度、拼接间隙和/或所接收和/或所检索的用于消耗的丰富序列的最大数量中的一者或多者可以是默认或非默认值。

计算系统可以生成和/或使得显示第一用户界面(UI)。第一UI可以包括(i)用于接收RNA转录物的多个序列读段的链接的输入元件(例如,文本框),和/或(ii)用于接收覆盖度阈值、探针长度、拼接间隙和/或用于消耗的丰富序列的最大数量的输入元件(例如,文本框和/或下拉列表)。第一UI可以包括覆盖度阈值、探针长度、拼接间隙和/或用于消耗的丰富序列的最大数量的默认值中的一者或多者。(i)RNA转录物的多个序列读段和/或(ii)覆盖度阈值、探针长度、拼接间隙和/或用于消耗的丰富序列的最大数量可以经由第一UI从系统的用户接收。

消耗。在将RNA转录物逆转录以生成互补DNA(cDNA)并且对cDNA或其产物进行测序以生成多个序列读段之前,可以使用多个消耗探针从样品中消耗一种或多种丰富RNA转录物、其序列或其子序列。例如,可能已使用消耗探针消耗样品中的一些丰富转录物或样品中的细胞。可以使用本文所公开的方法设计消耗探针。一种或多种丰富RNA转录物可以是核糖体RNA转录物和/或球蛋白mRNA转录物。在一些实施方案中,没有从样品中消耗丰富RNA转录物或其任何序列。

方法200从框208进行到框212,在该框处计算系统将多个序列读段中的每一个与多个参考核苷酸序列中的参考核苷酸序列或其子序列进行比对。多个参考核苷酸序列中的参考核苷酸序列可以是基因的参考RNA序列或其子序列。参考RNA序列可以来自Silva rRNA数据库(www.arb-silva.de)。计算系统可以使用SortMeRNA(bioinfo.lifl.fr/RNA/sortmerna/)将多个序列读段中的每一个与多个参考RNA序列中的参考RNA序列或其子序列进行比对。多个参考核苷酸序列中的参考核苷酸序列可以是基因的参考脱氧核糖核酸(DNA)序列或其子序列。

方法200从框212进行到框216,在该框处计算系统确定多个参考核苷酸序列中的参考核苷酸序列或其子序列的丰富序列。丰富序列中的每一个可以具有高于覆盖度阈值的覆盖度。覆盖度可以与和丰富序列比对的多个序列读段相关。丰富序列中的丰富序列的覆盖度可以为与该丰富序列比对的序列读段的数量。丰富序列中的丰富序列的覆盖度可以为与该丰富序列的多个子序列中的每一个比对的序列读段的最小数量。与多个子序列中的每一个比对的序列读段的数量可以高于覆盖度阈值。在一些实施方案中,覆盖度阈值为、为约、为至少或为至多10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000或介于这些值中的任何两个之间的数值或范围。

参考核苷酸序列的子序列。丰富序列中的一个、至少一个或每一个丰富序列可以包含多个参考核苷酸序列中的参考核苷酸序列的多个连续子序列。与多个连续子序列中的每一个比对的序列读段的数量可以高于覆盖度阈值。

为了确定参考核苷酸序列的丰富序列,计算系统可以确定与多个参考核苷酸序列中的参考核苷酸序列的多个子序列中的子序列比对的序列读段的数量(例如,覆盖度)。计算系统可以确定丰富序列中的丰富序列包含参考核苷酸序列的子序列中的多个连续子序列。与多个连续子序列中的每一个比对的序列读段的数量可以高于覆盖度阈值。

丰富序列中的一个、至少一个或每一个丰富序列可以包含(i)多个参考核苷酸序列中的参考核苷酸序列的多个子序列以及(ii)参考核苷酸序列在多个子序列中不连续的且在彼此的阈值距离内的任何两个相邻子序列之间的散布子序列。例如,如果两个相邻丰富序列已被合并,则这两个相邻丰富序列之间的序列不具有高覆盖度。例如,如果三个相邻丰富序列已被合并,则所得丰富子序列包括这三个相邻丰富序列之间的两个散布子序列。在一些实施方案中,阈值距离为、为约、为至少或为至多1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100个核苷酸长或介于这些值中的任何两个之间的数量或范围的核苷酸长。

多个连续子序列或多个子序列中的一个、至少一个或每一个的长度可以为一个核苷酸。例如,可以根据参考序列位置计算覆盖度。多个连续子序列或多个子序列中的一个、至少一个或每一个的长度可以为、为约、为至少或为至多1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100个核苷酸。例如,可以计算至少10个核苷酸的片段的覆盖度。

合并。可以合并附近序列。为了确定参考核苷酸序列的丰富序列,计算系统可以:确定多个参考核苷酸序列中的参考核苷酸序列的各自具有高于覆盖度阈值的覆盖度的推定丰富序列。计算系统可以确定参考核苷酸序列中的参考核苷酸序列的任何两个相邻推定丰富序列在参考核苷酸序列上在阈值距离内。计算系统可以合并两个推定丰富序列以生成合并的推定丰富序列,该合并的推定丰富序列包含两个推定丰富序列和参考核苷酸序列在两个推定丰富序列之间的散布子序列。丰富序列可以包含合并的推定丰富序列和除合并的两个推定丰富序列之外的推定丰富序列。在一些实施方案中,计算系统可以确定参考核苷酸序列中的参考核苷酸序列的任何两个相邻丰富序列在参考核苷酸序列上在阈值距离内。计算系统可以合并两个丰富序列以生成合并的丰富序列,该合并的丰富序列包含两个丰富序列和参考核苷酸序列在两个丰富序列之间的散布子序列。合并后的丰富序列可以包含合并的丰富序列和除合并的两个丰富序列之外的合并之前的丰富序列。在一些实施方案中,阈值距离为、为约、为至少或为至多1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100个核苷酸长或介于这些值中的任何两个之间的数量或范围的核苷酸长。

方法200从框216进行到框220,在该框处计算系统确定或选择参考核苷酸序列的具有高于覆盖度阈值的覆盖度的丰富序列中具有最高数量的覆盖度的最丰富序列。确定或选择的最丰富序列的数量可以为至多用于消耗的序列的最大数量。

在一些实施方案中,最高数量的覆盖度包括、包括约、包括至少或包括至多10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000个最高数量的覆盖度或介于这些值中的任何两个之间的数量或范围的最高数量的覆盖度。在一些实施方案中,最高数量的覆盖度为、为约、为至少或为至多参考核苷酸序列的具有高于覆盖度阈值的覆盖度的序列的1%、2%、3%、4%、5%、6%、7%、8%、9%、10%或介于这些值中的任何两个之间的数量或范围。在一些实施方案中,具有高于覆盖度阈值的覆盖度的序列的平均长度或中值长度为、为约、为至少或为至多50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000个核苷酸长或介于这些值中的任何两个之间的数量或范围的核苷酸长。在一些实施方案中,覆盖度各自高于覆盖度阈值的序列的百分比或百分比范围(例如,50%-90%)为、为约、为至少或为至多100、200、300、400、500、600、700、800、900、1000个核苷酸长或介于这些值中的任何两个之间的数量或范围的核苷酸长。在一些实施方案中,百分比或百分比范围为、为约、为至少或为至多50%、60%、70%、80%、90%、100%或介于这些值中的任何两个之间的数量或范围。

排序。可以按覆盖度对丰富序列进行排序。在一些实施方案中,为了确定多个参考核苷酸序列的具有高于覆盖度阈值的覆盖度的最丰富序列,计算系统可以将多个参考核苷酸序列的具有高于覆盖度阈值的覆盖度的丰富序列按丰富序列的覆盖度的降序排序。计算系统可以按丰富序列的覆盖度的降序选择第一丰富序列作为最丰富序列。按丰富序列的覆盖度的降序的第一丰富序列的数量可以为、为约、为至少或为至多10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000或介于这些值中的任何两个之间的数量或范围。

相似序列。可以进行最丰富序列的逐对比对,并且可以去除丰富序列,使得剩余的丰富序列是相异的。在一些实施方案中,参考核苷酸序列的丰富序列中没有两个最丰富序列在彼此的相似性阈值内。在一些实施方案中,计算系统可以:确定每对最丰富序列之间的相似性分数(例如,比对百分比);以及相对于多个最丰富序列中剩余的任何其他最丰富序列,迭代地去除具有比剩余的最丰富序列的相似性阈值高的相似性分数的每个最丰富序列。在一些实施方案中,计算系统可以:迭代地确定剩余的一对最丰富序列之间的相似性分数高于相似性阈值;以及从剩余的最丰富序列中去除最丰富序列对中的一对。在一些实施方案中,相似性阈值为、为约、为至少或为至多70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%或介于这些值中的任何两个之间的数值或范围。

方法200从框220进行到框224,在该框处计算系统基于最丰富序列的序列、探针长度和拼接间隙,设计用于消耗参考核苷酸序列的具有最高数量的覆盖度的最丰富序列中的每一个的一个或多个核酸探针。

探针。在一些实施方案中,用于消耗参考核苷酸序列的具有最高数量的覆盖度的最丰富序列中的每一个的一个或多个核酸探针包括拼接最丰富序列的一个或多个核酸探针。一个或多个核酸探针中的两个相邻探针可以通过拼接间隙在最丰富序列中彼此分离。在一些实施方案中,用于消耗参考核苷酸序列的具有最高数量的覆盖度的最丰富序列中的每一个的一个或多个核酸探针中的一个、至少一个或每一个的序列和最丰富序列、其子序列或前述任一种的反向互补序列具有至少80%的序列相似性。在一些实施方案中,序列相似性为、为约、为至少或为至多70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%或介于这些值中的任何两个之间的数值或范围。在一些实施方案中,探针长度为、为约、为至少或为至多25、30、35、40、45、50、60、70、80、90、100个核苷酸长或介于这些值中的任何两个之间的数量或范围的核苷酸长。在一些实施方案中,拼接间隙为、为约、为至少或为至多1、2、3、4、5、6、7、8、9、10、20、30、40、50个核苷酸长或介于这些值中的任何两个之间的数量或范围的核苷酸长。在一些实施方案中,用于消耗最丰富序列中的每一个的一个或多个核酸探针的平均数量或中位数量为、为约、为至少或为至多1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100或介于这些值中的任何两个之间的数量或范围。在一些实施方案中,被设计用于消耗最丰富序列的探针的总数量为、为约、为至少或为至多10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000或介于这些值中的任何两个之间的数量或范围。

输出。在一些实施方案中,计算系统输出与所设计的用于消耗最丰富序列的核酸探针相关的信息。与核酸探针相关的信息可以包括核酸探针的序列、覆盖度阈值、探针长度、拼接间隙和/或用于消耗的丰富序列的最大数量。在一些实施方案中,为了输出所设计的用于消耗最丰富序列的核酸探针,计算系统可以生成和/或使得显示第二UI,该第二UI包括(a)所设计的核酸探针的序列,(b)所设计的核酸探针的序列的链接(例如,网址),以及/或者(c)用于接收用户输入或选择以导出所设计的核酸探针的序列的输入元件(例如,按钮)。

方法200在框228处结束。

组合物和试剂盒

本文公开了用于消耗丰富转录物的组合物的实施方案。在一些实施方案中,该组合物包含:多个消耗探针;以及/或者使用本文所公开的任何方法或系统设计的多个补充消耗探针(例如,核酸探针,诸如DNA探针)。本文公开了用于消耗丰富转录物的组合物的实施方案。在一些实施方案中,该组合物包含:多个消耗探针,这些消耗探针包含使用本文所公开的任何方法或系统设计的核酸探针。消耗探针和/或补充消耗探针可以是单链核酸探针。本文公开了用于消耗丰富转录物的试剂盒。在一些实施方案中,该试剂盒包含本文所公开的组合物;以及使用该组合物来消耗丰富转录物的说明书。

在一些实施方案中,一种或多种核酸中的一种、至少一种或每一种包括RNA、脱氧核糖核酸(DNA)、异种核酸(XNA)或它们的组合,任选地其中XNA包括1,5-脱水己糖醇核酸(HNA)、环己烯核酸(CeNA)、苏糖核酸(TNA)、乙二醇核酸(GNA)、锁核酸(LNA)、肽核酸(PNA)、氟阿拉伯糖核酸(FANA)或它们的组合。

使用被设计成消耗丰富转录物的探针

本文公开了用于消耗丰富转录物的方法的实施方案。在一些实施方案中,该方法包括:接收包含多种核糖核酸(RNA)转录物的样品。该方法可以包括:使用本文所公开的组合物和一种或多种核酸酶消耗样品中的丰富转录物,以在样品中生成多个剩余的RNA转录物。该方法可以包括:对样品中的多个剩余的RNA转录物进行RNA测序以生成多个测序读段。在一些实施方案中,一种或多种核酸酶包括RNA酶和/或DNA酶。RNA酶可以是RNA酶H。DNA酶可以是DNA酶1。在一些实施方案中,组合物的DNA探针与RNA转录物杂交以形成DNA:RNA杂交体。可以去除过量的DNA探针。RNA酶H可以用于降解杂交体中与DNA探针杂交的RNA转录物的区域以及杂交体中邻近与DNA探针杂交的RNA转录物的区域的RNA区域。DNA酶I可以用于降解DNA:RNA杂交体中之前与RNA转录物杂交的剩余DNA探针。

执行环境

图3描绘了被配置为实现本文所公开的任何探针设计方法的示例性计算设备300的一般架构。图3所描绘的计算设备300的一般架构包括计算机硬件和软件部件的布置。计算设备300可包括比图3所示的那些更多(或更少)的元件。然而,为了提供能够实现的公开内容,没有必要示出所有这些一般常规的元件。如图所示,计算设备300包括处理单元310、网络接口320、计算机可读介质驱动器330、输入/输出设备接口340、显示器350和输入设备360,所有这些元件都可通过通信总线彼此通信。网络接口320可提供与一个或多个网络或计算系统的连接。因此,处理单元310可经由网络从其他计算系统或服务接收信息和指令。处理单元310还可与存储器370进行通信,并且进一步经由输入/输出设备接口340为任选的显示器350提供输出信息。输入/输出设备接口340还可接受来自任选的输入设备360(诸如键盘、鼠标、数字笔、麦克风、触摸屏、手势识别系统、语音识别系统、游戏板、加速度计、陀螺仪或其他输入设备)的输入。

存储器370可包含处理单元310执行以便实施一个或多个实施方案的计算机程序指令(在一些实施方案中被分组为模块或部件)。存储器370通常包括RAM、ROM和/或其他持久性、辅助性或非暂态计算机可读介质。存储器370可存储操作系统372,该操作系统提供计算机程序指令以供处理单元310在计算设备300的一般管理和操作中使用。存储器370还可包括用于实现本公开的各方面的计算机程序指令和其他信息。

例如,在一个实施方案中,存储器370包括用于设计探针的探针设计模块374,诸如参考图2所述的用来设计用于消耗丰富序列的探针的方法200。另外,存储器370可包括数据存储库390和/或存储用于设计探针的测序读段和/或所设计的探针的一个或多个其他数据存储库或者与这些数据存储库通信。

实施例

上文讨论的实施方案的一些方面在以下实施例中进一步详细公开,这些实施例并非旨在以任何方式限制本公开的范围。

实施例1

探针设计

本实施例展示了设计用于消耗来自样品的丰富序列的探针。

图4A-4B是示出RiboZero以及RiboZero+的一组377个消耗探针在消耗不同样品中的rRNA和珠蛋白mRNA中的可变性能的非限制性示例性曲线图。使用一组377个消耗探针来消耗来自美国典型培养物保藏中心(American Type Culture Collection)的模拟群落样品(图4A)和来自若干环境(图4B)(包括海洋淤渣、海岸、沉积物和盐沼)的元转录组学RNA样品中的珠蛋白mRNA和rRNA。使用TruSeq(Illumina,San Diego,CA)链RNA试剂盒对样品进行测序。rRNA消耗效果对于一些样品较好,而对于其他样品则不然。不受理论的限制,观察到不同水平的消耗是由于探针不能有效地与之杂交因此不能有效地消耗的细菌rRNA区域。图4A-4B示出了RiboZero+在所测试的所有样品中具有更高的精度,并且在样品类型中具有可变的核消耗性能。RiboZero在人皮肤样品和20个菌株的模拟群落以及环境(细菌)淤渣样品中表现出色。RiboZero+(RNA酶H)对人肠道模拟群落和环境(细菌)海岸样品和沉积物样品具有优异性能。RiboZero+方法具有独特的能力,可以轻松实现性能升级或样品扩展。

补充探针被设计用于来自美国典型培养物保藏中心的模拟样品(20个菌株混合物(MSA2002)—8个平行测定;皮肤混合物(MSA2005)—6个平行测定;以及肠道混合物(MSA2006)—6个平行测定)和环境样品(海岸、沉积物、淤渣和盐沼—每个2个平行测定)。使用RiboZero+探针来消耗样品中的丰富转录物。使用TruSeq(Illumina,San Diego,CA)链RNA试剂盒对剩余rRNA序列进行测序。使用SortMeRNA(bioinfo.lifl.fr/RNA/sortmerna/)准备每个样品的Fastq(或另一种格式)文件。使用SortMeRNA将来自样品的序列读段与公开可用的Silva rRNA数据库中的RNA序列进行比对。使用Samtools(samtools.sourceforge.net/)处理含有比对序列的文件。使用Bedtools2(bedtools.readthedocs.io/en/latest/)鉴定覆盖度、丰度或读段计数高(500倍或更多)的区域或序列。图5是示出在RiboZero+探针用于消耗rRNA和珠蛋白mRNA之后样品中覆盖度为至少500的丰富区域的大小分布的非限制性示例性曲线图。覆盖度高的大部分区域或序列的长度小于200个核苷酸,如图5所示。合并(或配对)附近区域或序列。在合并之后,基于区域或序列的覆盖度来对这些区域或序列进行排序或排名。附加或补充探针被设计成靶向每个样品的前50个最丰富区域或序列。使用Blast(https://blast.ncbi.nlm.nih.gov)进行前50个最丰富区域或序列的逐对比对,以去除彼此相似的区域。如果两个丰富区域具有80%或更高的比对百分比,则去除两个区域中的一个。图6是示出使用RiboZero+消耗之后样品中丰富区域的相似性的非限制性示例性热图。该热图示出了其中可以设计最少和集中的探针组的相似序列的块。补充探针被设计用于剩余区域。探针被设计成长度为50个核苷酸,并且拼接在靶标上,探针之间的间隙为15个碱基。对于肠道样品类型,设计50个补充探针。对于皮肤样品类型,设计56个补充探针。对于20个菌株的混合样品类型,在配对约50个所设计的探针之后剩余274个补充探针。对于肠道样品类型、皮肤样品类型和20个菌株的混合样品类型,设计总共380个补充探针。对于环境样品类型,设计179个探针。

在针对每个样品类型生成探针序列之后,在计算机内分析探针序列以评估探针的工作情况。图7是确定RiboZero+探针以及被设计成消耗不同样品中的rRNA和珠蛋白mRNA的补充探针的计算机内性能的非限制性示例性示意图。相对于Silva数据库对补充探针或新探针序列进行Blast。过滤Blast结果(比对百分比为至少80),并在每一端添加50个碱基对的填充部分。在Blast命中区域的每一端添加填充部分,因为预计探针将在该区域周围工作,而不仅仅是在探针结合的地方。“新探针可以消耗的区域”包括每个探针结合的区域以及探针两端上的两个填充部分。对于每个测序的样品,运行SortMeRNA(仅保持最佳命中)以相对于Silva数据库获得rRNA比对。使用Bedtools2对与“新探针可以消耗的区域”重叠的读段进行计数。估计最初映射到rRNA然后可能会被新探针组消耗的读段数量。表1-4示出了所设计的补充探针的性能。

表1.肠道样品(50个补充探针)

样品 原始rRNA含量 利用新探针的%rRNA估计值
1 15.46% 4.13%
2 14.58% 3.22%
3 14.9% 3.7%
4 10.87% 3.06%
5 11.04% 2.96%
6 9.15% 1.38%

表2.皮肤样品(56个补充探针)

样品 原始rRNA含量 利用新探针的%rRNA估计值
1 49.68% 6.58%
2 52.94% 7.31%
3 48.66% 6.65%
4* 56.15% 32.38%
5 57.19% 5%
6 55.83% 3.27%

*样品4具有非常低的收率(与其他样品的超过1M的读段相比,总共16k的读段)

表3. 20个菌株的混合样品(274个补充探针)

样品 原始rRNA含量 利用新探针的%rRNA估计值
1 18.25% 5.51%
2 19.08% 5.31%
3 8.00% 1.70%
4 10.11% 4.61%
5 7.24% 3.48%
6 5.84% 1.72%
7 4.09% 1.62%

表4.环境样品(179个补充探针)

样品 环境 原始rRNA含量 利用新探针的%rRNA估计值
1 海岸 60.23% 40.74%
2 海岸 61.89% 44.03%
3 沉积物 53.15% 45.3%
4 沉积物 55.30% 48.16%
5 淤渣 63.96% 51.27%
6 淤渣 63.06% 49.94%
7 盐沼 52.02% 45.81%
8 盐沼 42.76% 35.36%

总之,这些数据表明,使用本文所公开的方法设计的补充探针可以在消耗不同样品中的丰富转录物方面具有良好的性能。

附加考虑因素

在前述实施方案中的至少一些实施方案中,在一个实施方案中使用的一个或多个元件可在另一个实施方案中互换使用,除非这种替换在技术上不可行。本领域的技术人员应当理解,在不脱离要求保护的主题的范围的情况下,可对上述方法和结构进行各种其他省略、添加和修改。所有此类修改和更改旨在落入由所附权利要求所限定的主题的范围内。

本领域技术人员将理解,对于本文所公开的这种过程和方法和其他过程和方法,在这些过程和方法中执行的功能可以不同的顺序实现。此外,所概述的步骤和操作仅作为示例提供,并且这些步骤和操作中的一些步骤和操作可以是任选的,组合成更少的步骤和操作,或者扩展成附加的步骤和操作,而不减损所公开的实施方案的实质。

关于本文中基本上任何复数和/或单数术语的使用,本领域的技术人员可根据上下文和/或应用适当地从复数转换成单数和/或从单数转换成复数。为清楚起见,本文可明确示出各种单数/复数排列。如在本说明书和所附权利要求书中所用的,单数形式“一个”、“一种”和“所述”包括复数指代物,除非上下文另有明确规定。因此,短语诸如“一个设备被配置为”旨在包括一个或多个所述设备。此类一个或多个所述设备还可以被共同配置为执行所述表述。例如,“被配置为执行表述A、B和C的处理器”可包括被配置为执行表述A并与被配置为执行表述B和C的第二处理器协同工作的第一处理器。除非另外指明,否则本文中对“或”的任何提及旨在包括“和/或”。

本领域的技术人员应当理解,一般来讲,本文所用的术语,尤其是所附权利要求(例如,所附权利要求的主体)中的术语一般旨在作为“开放的”术语(例如,术语“包括”应解释为“包括但不限于”,术语“具有”应解释为“至少具有”,术语“包含”应解释为“包含但不限于”等)。本领域的技术人员还应当理解,如果引入的权利要求表述的具体数量是有意的,则这种意图将在权利要求中明确表述,并且在不存在这种表述的情况下,不存在这种意图。例如,为了有助于理解,以下所附权利要求可包含使用引导短语“至少一个”和“一个或多个”来引入权利要求表述。然而,此类短语的使用不应理解为暗示通过不定冠词“一个”或“一种”引入权利要求表述将包含这样引入的权利要求表述的任何特定权利要求限制为仅包含一个这种表述的实施方案,即使当同一权利要求包括引导短语“一个或多个”或“至少一个”和不定冠词诸如“一个”或“一种”(例如,“一个”和/或“一种”应解释为意指“至少一个”或“一个或多个”)时;这同样适用于使用定冠词来引入权利要求表述。另外,即使明确表述所引入的权利要求表述的具体数量,本领域技术人员也将认识到,这种表述应解释为意指至少所表述的数量(例如,在没有其他修饰语的情况下,对“两个表述”的直接表述意指至少两个表述或者两个或更多个表述)。此外,在使用类似于“A、B和C等中的至少一者”的惯例的那些情况下,一般来讲,这种惯例意图在本领域的技术人员将理解该惯例的意义上使用(例如,“具有A、B和C中的至少一者的系统”将包括但不限于具有单独的A、单独的B、单独的C、A和B一起、A和C一起、B和C一起和/或A、B和C一起等的系统)。在使用类似于“A、B或C等中的至少一者”的惯例的那些情况下,一般来讲,这种惯例意图在本领域的技术人员将理解该惯例的意义上使用(例如,“具有A、B或C中的至少一者的系统”将包括但不限于具有单独的A、单独的B、单独的C、A和B一起、A和C一起、B和C一起和/或A、B和C一起等的系统)。本领域的技术人员还应当理解,事实上,无论在说明书、权利要求书还是附图中,呈现两个或更多个另选术语的任何转折的词语和/或短语都应当理解为考虑包括术语中的一者、术语中的任一者或这两个术语的可能性。例如,短语“A或B”将被理解为包括“A”或“B”或“A和B”的可能性。

此外,在以马库什群组描述本公开的特征或方面的情况下,本领域的技术人员将认识到,也由此以马库什群组的任何单个成员或成员子组来描述本公开。

如本领域技术人员将理解的,出于任何和所有目的,诸如就提供书面描述而言,本文所公开的所有范围还涵盖任何和所有可能的子范围以及它们的子范围的组合。任何列出的范围可以容易地被识别为充分地描述和实现同一范围被分解成至少相等的二分之一、三分之一、四分之一、五分之一、十分之一等。作为非限制性实例,本文所讨论的每个范围可以容易地被分解成下三分之一、中三分之一和上三分之一等。如本领域的技术人员还将理解的,所有语言诸如“高达”、“至少”、“大于”、“小于”等包括所表述的数值,并且是指可以随后被分解成如上所述的子范围的范围。最后,如本领域技术人员将理解的,范围包括每个单独的成员。因此,例如,具有1-3个条目的组是指具有1、2或3个条目的组。类似地,具有1-5个条目的组是指具有1、2、3、4或5个条目的组,如此等等。

应当理解,出于说明的目的,本文已描述了本公开的各种实施方案,并且可在不脱离本公开的范围和实质的情况下作出各种修改。因此,本文所公开的各种实施方案并非旨在进行限制,其中真实范围和实质由以下权利要求书指示。

应当理解,并非所有目标或优点都可根据本文所述的任何具体实施方案来实现。因此,例如,本领域的技术人员将认识到,某些实施方案可被配置为以实现或优化如本文所提出的一个优点或一组优点而不一定实现如本文可能提出或建议的其他目的或优点的方式操作。

本文所述的过程中的所有过程可包括在由包括一个或多个计算机或处理器的计算系统执行的软件代码模块中,并且通过这些软件代码模块实现完全自动化。代码模块可存储在任何类型的非暂态计算机可读介质或其他计算机存储设备中。一些或所有方法可包括在专用计算机硬件中。

从本公开可以看出除本文所述的那些变型之外的许多其他变型。例如,根据实施方案,本文所述的算法中的任一算法的某些动作、事件或功能可以不同的顺序执行,可以添加、合并或完全省略(例如,并非所有所述动作或事件对于算法的实践都是必要的)。此外,在某些实施方案中,动作或事件可例如通过多线程处理、中断处理、或多个处理器或处理器内核或者在其他并行架构上同时执行而非顺序地执行。此外,不同的任务或过程可由可一起运行的不同机器和/或计算系统执行。

结合本文所公开的实施方案描述的各种示例性逻辑框和模块可由被设计成执行本文所述功能的机器实现或执行,该机器诸如处理单元或处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、离散栅极或晶体管逻辑部件、分立硬件部件或它们的任何组合。处理器可以是微处理器,但在替代方案中,处理器可以是控制器、微控制器或状态机、它们的组合等。处理器可包括被配置为处理计算机可执行指令的电路。在另一个实施方案中,处理器包括在不处理计算机可执行指令的情况下执行逻辑操作的FPGA或其他可编程器件。处理器也可被实现为计算设备的组合,例如DSP和微处理器的组合、多个微处理器、与DSP内核结合的一个或多个微处理器或任何其他此类配置。尽管本文主要相对于数字技术进行描述,但处理器也可主要包括模拟部件。例如,本文所述的信号处理算法中的一些或全部算法可在模拟电路或混合模拟和数字电路中实现。举例来说,计算环境可包括任何类型的计算机系统,包括但不限于基于微处理器的计算机系统、大型计算机、数字信号处理器、便携式计算设备、设备控制器或设备内的计算引擎。

本文所述和/或附图中所示的流程图中的任何过程描述、元件或框应被理解为潜在地表示包括用于在该过程中实现特定逻辑功能或元件的一个或多个可执行指令的代码的模块、区段或部分。如本领域的技术人员将理解的,另选的具体实施包括在本文所述的实施方案的范围内,其中元件或功能可被删除,按所示或所讨论的顺序(包括基本上同时或以相反顺序)执行,这取决于所涉及的功能。

应当强调的是,可对上述实施方案进行许多变型和修改,其中的元件应被理解为在其他可接受的示例中。所有此类修改和变型旨在包括在本公开的范围内并且受以下权利要求保护。

38页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:用于检测血浆中DNA病原体的DNA测序文库的制备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!