针对含有indel区域的dna样本的捕获探针、试剂盒及文库构建方法

文档序号:1704291 发布日期:2019-12-13 浏览:35次 >En<

阅读说明:本技术 针对含有indel区域的dna样本的捕获探针、试剂盒及文库构建方法 (Capture probe, kit and library construction method for DNA sample containing INDEL region ) 是由 方楠 王燕 刘运超 伍启熹 王建伟 刘倩 唐宇 于 2019-08-29 设计创作,主要内容包括:本发明提供了一种针对含有INDEL区域的DNA样本的捕获探针、试剂盒及文库构建方法。其中,捕获探针包括:与INDEL区域左侧互补配对的第一段探针序列;与INDEL区域右侧互补配对的第二段探针序列;以及与INDEL区域完全互补配对的第三段探针序列。根据目标区域的Indel(插入缺失片段),以突变后的基因序列为参考序列,针对该Indel区域设计三部分探针,分别为Indel左侧探针序列、Indel右侧探针序列和涵盖Indel突变位点的探针序列。这三部分探针对于目标Indel序列的捕获特异性和灵敏性都有大幅度提高,有效解决了目前重要基因的Indel区域捕获效率低、富集水平低的问题。(The invention provides a capture probe, a kit and a library construction method for a DNA sample containing an INDEL region. Wherein the capture probe comprises: a first probe sequence that complementarily pairs to the left side of the INDEL region; a second probe sequence that complementarily pairs with the right side of the INDEL region; and a third probe sequence that is perfectly complementary paired to the INDEL region. And designing three parts of probes aiming at the Indel region by taking the mutated gene sequence as a reference sequence according to the Indel (insertion deletion fragment) of the target region, wherein the three parts of probes are respectively a probe sequence on the left side of the Indel, a probe sequence on the right side of the Indel and a probe sequence covering the Indel mutation site. The three probes greatly improve the capture specificity and sensitivity of the target Indel sequence, and effectively solve the problems of low capture efficiency and low enrichment level of the Indel region of the current important gene.)

针对含有INDEL区域的DNA样本的捕获探针、试剂盒及文库构 建方法

技术领域

本发明涉及高通量测序技术领域,具体而言,涉及一种针对含有INDEL区域的DNA样本的捕获探针、试剂盒及文库构建方法。

背景技术

随着人类基因组计划的完成,人类对自身遗传信息的了解和掌握有了前所未有的进步。与此同时,分子水平的基因检测技术平台不断发展和完善,使得基因检测技术得到了迅猛发展,基因检测效率不断提高。二代测序(NGS)技术具有通量大、耗时短、精确度高和信息量丰富等优点,可以在短时间内对基因进行精确定位,主要包括全基因组测序(wholegenome sequencing,WGS)、全外显子组测序(whole exome sequencing,WES)和靶向测序(targeted region sequencing,TRS)。不同测序技术在测序范围、数据分析量以及测序费用和时间等方面有很大差别,选择合适的方法对于科学研究起到事半功倍的作用。

全基因组测序和全外显子测序成本相对昂贵,并且常会得到较多的检测者并不关注的序列信息,因此为了降低成本并聚焦检测者重点感兴趣的序列信息,可采用较全外显子组更进一步聚焦的“靶向富集测序”策略,目前靶向测序的应用越来越广泛。靶向测序即对关键基因或区域进行高度测序(500×~1000×或更高),从而识别罕见变异或为针对疾病相关基因的研究提供准确且易于解读的结果。该策略有效的降低了测序成本,提高了测序深度,能够更经济、高效、准确地发现特定区域的遗传变异信息。通过研究大量样本的靶向目标区域,有助于发现和验证疾病相关候选基因或相关位点,在临床诊断及药物开发等方面有这巨大的应用潜力。

目前进行靶向富集的策略有多种,包括基于PCR扩增的方法、基于分子倒置探针(molecular inversion probe,MIP)的方法以及基于杂交捕获的方法。完整的探针包括目标区段的序列,作为后续文库构建的引物的通用序列(可添加index和测序引物),扩增产物可以直接作为二代测序文库,构建文库可直接上机测序。但由于其构建得到的文库有均一性差且探针成本高,该方法目前已鲜有使用。基于PCR扩增目前应用比较广泛的,比较适合大规模样本。但多重PCR引物池需要丰富的引物设计经验,该方法对于扩增效率不稳定区域(如高GC含量区及高重复序列区)的测序、大片段DNA测序及未知融合测序存在显著缺陷。杂交捕获探针携带生物素,当探针与目标区段杂交之后,通过链亲和素修饰的磁珠将探针吸附,未被捕获的片段扔掉。之后通过变性可以将探针和目标区段分开,然后利用磁珠将所有空探针吸附丢弃,目标区段捕获完成。杂交捕获文库与扩增子文库相比,其捕获效率更高、特异性好且重复性佳,由于杂交捕获探针通常在结合目标区域的同时也捕获到目标区域两侧的序列,故杂交捕获法靶向测序可检测一般难以捕获的目标区域。

杂交捕获根据核酸分子碱基互补杂交原理,设计分子探针。探针可以和目标区域通过碱基互补配对结合,从而将目标区段捕获。未设计探针的区段会被洗脱丢弃,之后通过变性(一般是调节PH值到碱性)将探针和捕获区段分开,被捕获的片段即可进行上机测序。传统捕获探针分为RNA探针和DNA单链探针,基本设计原则为叠瓦式的设计方式,这种设计方法捕获均一性好,但探针捕获特异性差,导致部分目的区段片段的捕获效率较低。

与全基因组测序相比,捕获测序可以针对感兴趣的区域进行分离与富集,不仅检测灵敏度更高,而且大大降低后续的数据分析工作。但杂交捕获方法也存在缺点,捕获探针对样本碱基构成十分敏感,对于样本DNA完整度较低或目标区域含有小片段***缺失(INDEL,***缺失片段大小≤50bp)区域的样本,往往捕获效率比较低,且无法检出INDEL。因此,仍需要对现有的捕获探针进行改进,以提高此类样本的捕获效率。

发明内容

本发明的主要目的在于提供一种针对含有INDEL区域的DNA样本的捕获探针、试剂盒及文库构建方法,以解决现有技术中含有INDEL区域的DNA样本对目标片段的捕获效率低的问题。

为了实现上述目的,根据本发明的一个方面,提供了一种针对含有INDEL区域的DNA样本的捕获探针,捕获探针包括:与INDEL区域左侧互补配对的第一段探针序列;与INDEL区域右侧互补配对的第二段探针序列;以及与INDEL区域完全互补配对的第三段探针序列。

进一步地,第三段探针序列与第一段探针序列和第二段探针序列部分重叠。

进一步地,第三段探针序列与第一段探针序列重叠的长度为40~80nt,第三段探针序列与第二段探针序列重叠的长度为40~80nt。

进一步地,第一段探针序列、第二段探针序列及第三段探针序列的长度各自独立地为100~120nt。

进一步地,捕获探针中,第一段探针序列、第二段探针序列及第三段探针序列以相同的摩尔比混合。

进一步地,捕获探针的工作浓度为0.1pM~0.75pM。

进一步地,第一段探针序列、第二段探针序列及第三段探针序列为单链DNA探针;优选地,单链DNA探针的5’端带有生物素标记。

进一步地,第一段探针序列为SEQ ID NO:4所示序列,第二段探针序列为SEQ IDNO:5所示序列及第三段探针序列为SEQ ID NO:6所示序列。

根据本申请第二个方面,提供了一种针对含有INDEL区域的DNA样本的文库构建试剂盒,试剂盒包括捕获探针,捕获探针为上述任一种捕获探针。

根据本申请的第三个方面,提供了一种针对含有INDEL区域的DNA样本的文库构建方法,构建方法采用上述文库构建试剂盒构建而成。

应用本发明的技术方案,上述改进的捕获探针,根据目标区域的Indel(***缺失片段),以突变后的基因序列为参考序列,针对该Indel区域设计三部分探针,分别为Indel左侧探针序列、Indel右侧探针序列和涵盖Indel突变位点的探针序列。这三部分探针对于目标Indel序列的捕获特异性和灵敏性都有大幅度提高,有效解决了目前重要基因的Indel区域捕获效率低、富集水平低的问题。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1示出了现有技术中捕获文库中所使用的捕获探针的设计原理;以及

图2示出了本申请改进的针对含INDEL区域的DNA样本的捕获探针的设计原理。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

如背景技术所提到的,现有的捕获探针也存在捕获效率低,尤其是对含有INDEL区域的DNA样本来说,难以检测到INDEL突变的缺陷,为了进一步提高对此类样本的捕获效率,在本申请一种典型的实施例中,提供了一种针对含有INDEL区域的DNA样本的捕获探针,该捕获探针包括:与INDEL区域左侧互补配对的第一段探针序列;与INDEL区域右侧互补配对的第二段探针序列;以及与INDEL区域完全互补配对的第三段探针序列。

如图1所示,传统探针设计均是以目标基因的CDS区域(外显子捕获文库)或全基因组水平上的基因上下游各100bp左右作为靶点区域进行全覆盖叠瓦式的探针设计,这样的探针设计组合在探针杂交过程中出现探针与目标序列不能完全互补配对,从而导致杂交后形成双链结构中间出现凸起,使得杂交捕获效率降低,某些低频的或者***缺失片段较大的目的片段无法捕获到,漏检了部分重要突变位点。

与传统探针设计相比,本申请改进的捕获探针,如图2所示,根据目标区域的Indel(***缺失片段),以突变后的基因序列为参考序列,针对该Indel区域设计三部分探针,分别为Indel左侧探针序列、Indel右侧探针序列和涵盖Indel突变位点的探针序列。这三部分探针对于目标Indel序列的捕获特异性和灵敏性都有大幅度提高,有效解决了目前重要基因的Indel区域富集水平低的问题。

为了进一步提高三段探针序列对目标INDEL区域的捕获效率,在一种优选的实施例中,第三段探针序列与第一段探针序列和第二段探针序列部分重叠。相互部分重叠有助于充分发挥三段探针序列之间的相互作用,从而提高捕获效率。

在一种优选的实施例中,第三段探针序列与第一段探针序列重叠的长度为40~80nt,第三段探针序列与第二段探针序列重叠的长度为40~80nt。将两两之间重叠的探针的长度分别控制在上述长度范围内,具有提高靶向探针特定位点捕获效率的有益效果。

从捕获效率高的角度考虑,三段探针序列的具体长度可以根据现有的捕获效率高的探针长度进行合理调整得到。在本申请一种优选的实施例中,第一段探针序列、第二段探针序列及第三段探针序列的长度各自独立地为100~120nt。

为了尽可能均匀地、等比例地实现目的区域片段的捕获,在一种优选的实施例中,捕获探针中,第一段探针序列、第二段探针序列及第三段探针序列以相同的摩尔比混合。

上述三段序列形成的捕获探针的具体使用时的工作浓度可以根据实际需要进行合理选择,在一种优选的实施例中,捕获探针的工作浓度为0.1pM~0.75pM,在该浓度下进行捕获效率比较高。

在一种优选的实施例中,第一段探针序列、第二段探针序列及第三段探针序列为单链DNA探针。为进一步便于后续操作,优选地,单链DNA探针的5’端带有生物素标记。

利用本申请的上述捕获探针的设计思路和原则,可以根据实际需要捕获的目的基因的不同,合理设计相应的捕获探针序列。在一种优选的实施例中,第一段探针序列为SEQID NO:4所示序列,第二段探针序列为SEQ ID NO:5所示序列及第三段探针序列为SEQ IDNO:6所示序列。上述三段探针序列是针对EGFR基因第19号外显子indel检测的捕获探针。采用本申请改进的捕获探针与传统的叠瓦式单链DNA探针相比,所构建的文库的原始数据量及测序有效深度都有显著提高,尤其是对INDEL位点的检测频率接近于真实值,而传统捕获探针检出INDEL位点的频率仅为理论值的50%。

在本申请第二种典型的实施方式中,提供了一种针对含有INDEL区域的DNA样本的文库构建试剂盒,试剂盒包括捕获探针,捕获探针为上述任一种捕获探针。采用本申请的捕获探针所构建的文库的原始数据量及测序有效深度都较传统捕获文库高,尤其对INDEL位点的检测频率接近真实值。

在本申请第三种典型的实施方式中,提供了一种针对含有INDEL区域的DNA样本的文库构建方法,构建方法采用上述任一种文库构建试剂盒构建而成。采用本申请的捕获探针所构建的文库的原始数据量及测序有效深度都较传统捕获文库高,尤其对INDEL位点的检测频率接近真实值。

下面将结合具体的实施例来进一步说明本申请的有益效果。

表皮生长因子EGFR基因del19突变位点超过65%是delE746-A750,以EGFR第19号外显子Indel检测为例,验证本发明提供的捕获探针的设计方法。选用HD753标准品,其中包含ΔE746-A750片段缺失,突变频率为5.3%。针对del19突变位点设计两种捕获探针:传统的叠瓦式单链DNA探针(对照组)以及本发明设计的包含三部分探针组合的单链DNA探针(实验组)。对HD753标准品进行文库构建后的目标序列杂交捕获,并完成上机测序分析。对比传统探针与新型设计探针捕获效率、文库测序数据的有效深度、突变频率等,选择特异性更好的捕获探针。

一、设计探针

通过IDT在线探针设计软件(Target Capture Probe Design&Ordering Tool),采用人参考基因组Human(Feb.2009GRCh37/hg19)作为参考基因组,设计出覆盖完整EGFR基因全外显子区域探针,不包含UTR区间。每条探针长度为120bp,乘数为2×(表示该基因有2条探针覆盖,下同)。EGFR基因共有28个不同长度的外显子,设计的叠瓦式单链DNA探针序列保证完全覆盖其每个区域。针对EGFR基因del19突变位点单独设计探针,del19缺失的碱基序列如下表1中下划线所示。通过传统IDT软件设计探针和本发明设计探针方案分别设计形成两种类型(panel),具体设计方案如下。

传统杂交捕获单链DNA探针设计。利用IDT在线探针设计软件针对EGFR基因del19突变位点、设计叠瓦式单链DNA探针序列,如下表1中SEQ ID NO:1~SEQ ID NO:3所示。探针中包含有del19缺失的碱基序列(下划线标注),探针的5’端均采用生物素标记,探针长度为120nt,每条探针与其它EGFR基因全外显子区域探针等比例混合,捕获探针的工作浓度为0.75pM,混合后的探针作为传统靶区域捕获探针,命名为panelⅠ。

本发明的杂交捕获单链DNA探针设计。针对EGFR基因del19突变位点,分别设计突变位点左端单链探针序列,如下表1中SEQ ID NO:4所示;突变位点右端单链探针序列,如下表1中SEQ ID NO:5所示;以及突变位点位于中间的单链探针序列,如下表1中SEQ ID NO:6所示。探针的5’端均采用生物素标记,探针长度为120nt,每条探针与其它EGFR基因全外显子区域探针等比例混合,捕获探针的工作浓度为0.75pM,混合后的探针作为新型靶区域捕获探针,命名为panelⅡ。

表1 EGFR_Exon 19_del探针序列

二、文库制备

HD753标准品DNA用Covaris S2仪器进行片段化处理,最终打断成200bp的双链DNA片段混合物。取打断后的DNA混合物6份,每份1ug,分别进行常规的illumina文库制备(采用KAPA公司的建库试剂)。操作方法如下:

(1)末端修复&加A:将融化后的试剂放置于冰上,按表2所示在PCR管中配置末端修复&加A反应体系,用枪轻柔地上下吹吸混合均匀。将上述反应体系放入PCR仪,按表3所示的条件参数设置程序,进行反应。

表2末端修复&加A反应体系

表3末端修复&加A反应程序

(2)接头连接:连接酶室温下震荡混匀5-10s,按表4所示在PCR管里的反接头连接应体系配置,用枪轻柔地上下吹吸混合均匀。将配置完成的反应体系均分成2管,放于PCR仪上,22℃反应15min。

表4接头连接反应体系

(3)AMPure XP磁珠纯化DNA样本。准备AMPure XP磁珠室温下平衡30min,每个样本加入100μL AMPure XP磁珠震荡混匀。室温下孵育5min,将PCR管置于磁力架上吸附5min,移除上清。加每个样本入200μL 80%新配置的乙醇溶液,室温孵育30s,小心移除上清。重复乙醇洗涤过程,共洗2遍。室温下晾干磁珠,加入22μL无核酸酶的水,震荡混匀,室温下孵育5min,将PCR管置于磁力架上吸附5min,吸取20μL上清液置于新PCR管中,得到纯化后的DNA样本。

(4)PCR扩增:按表5所示在PCR管里的反接头连接应体系配置,用枪轻柔地上下吹吸混合均匀。将上述反应体系放入PCR仪,按表6所示的条件参数设置程序,进行反应。

表5 PCR扩增反应体系

表6 PCR扩增反应程序

(5)AMPure XP磁珠纯化DNA样本。准备AMPure XP磁珠室温下平衡30min,每个样本加入50μL AMPure XP磁珠震荡混匀。室温下孵育5min,将PCR管置于磁力架上吸附5min,移除上清。加每个样本入200μL 80%新配置的乙醇溶液,室温孵育30s,小心移除上清。重复乙醇洗涤过程,共洗2遍。室温下晾干磁珠,加入22μL无核酸酶的水,震荡混匀,室温下孵育5min,将PCR管置于磁力架上吸附5min,吸取20μL上清液置于新PCR管中,得到纯化后的DNA样本。将得到的6个文库分别编号为S1-S6。

三、文库杂交捕获

分别取500ng上述构建的S1-S6文库于一个新的离心管中,用真空抽干机进行浓缩直至文库蒸干。使用IDT杂交捕获试剂盒,按照说明书的方法进行杂交捕获和洗脱。杂交过程中务必保证管盖盖紧,最小化减少杂交混合液体积的蒸发,否则将会影响杂交效果。其中,S1、S2、S3文库使用传统方法合成的单链探针(SEQ ID NO:1~SEQ ID NO:3)进行杂交捕获,S4、S5、S6文库使用本发明合成的探针(SEQ ID NO:4~SEQ ID NO:6)进行杂交捕获。杂交捕获的反应程序如表7所示。

表7杂交捕获反应程序

PCR扩增捕获文库。在冰上按照表8所示的反应体系配制PCR反应液,确认将含有磁珠的反应液混匀后,将管子放入PCR仪中进行扩增,反应程序如表9所示:

表8捕获文库PCR扩增反应体系

表9捕获文库PCR扩增反应程序

AMPure XP磁珠纯化PCR扩增得到的文库。准备AMPure XP磁珠室温下平衡30min,每个样本加入90μL AMPure XP磁珠震荡混匀。室温下孵育5min,将PCR管置于磁力架上吸附5min,移除上清。加每个样本入200μL 80%新配置的乙醇溶液,室温孵育30s,小心移除上清。重复乙醇洗涤过程,共洗2遍。室温下晾干磁珠,加入22μL无核酸酶的水,震荡混匀,室温下孵育5min,将PCR管置于磁力架上吸附5min,吸取20μL上清液置于新PCR管中,终文库分别命名为Z1-Z6(分别对应于S1-S6文库).

Z1-Z6文库采用Illumina平台的nextseq 500测序仪进行文库测序,生物信息分析测序结果如表10所示。

表10文库测序数据分析结果

由表10的数据可知,采用本发明试剂探针的Z3-Z6文库原始数据量、有效深度维持稳定;探针捕获特异性较高;两种探针捕获文库的重复率没有显著差异;检测EGFR基因del19位点的突变频率相差显著。采用传统方法设计的靶向捕获探针其检出Indel位点频率只有理论值的2/5左右,该位点的突变频率标准真值为5.3%,原有探针捕获后频率仅为2%左右,仅能检测到原来Indel突变的40%左右,而改进后的探针捕获频率为5.1%左右,接近于实际值,可达到91%。相比原有探针捕获效率提高了50%左右。

实施例二

通过IDT在线探针设计软件(Target Capture Probe Design&Ordering Tool),采用人参考基因组Human(Feb.2009GRCh37/hg19)作为参考基因组,设计出覆盖完整EGFR基因全外显子区域探针,不包含UTR区间。每条探针长度为120nt,乘数为2×。EGFR基因共有28个不同长度的外显子,设计的叠瓦式单链DNA探针序列保证完全覆盖其每个区域。针对EGFR基因20号染色体***,***序列如下划线所示。通过传统IDT软件设计探针和本发明设计探针方案分别设计形成两种类型(panel),具体设计方案如下。

传统杂交捕获单链DNA探针设计。利用IDT在线探针设计软件针对EGFR基因20号染色体突变位点、设计叠瓦式单链DNA探针序列,如下表11中SEQ ID NO:7~SEQ ID NO:9所示。探针的5’端均采用生物素标记,探针长度为120nt,每条探针与其它EGFR基因全外显子区域探针等比例混合,捕获探针的工作浓度为0.75pM,混合后的探针作为传统靶区域捕获探针,命名为panelⅢ。

本发明的杂交捕获单链DNA探针设计。针对EGFR基因***位点V769_D770insASV,分别设计突变位点左端单链探针序列,如下表11中SEQ ID NO:10所示;突变位点右端单链探针序列,如下表11中SEQ ID NO:11所示;以及突变位点位于中间的单链探针序列,如下表11中SEQ ID NO:12所示。探针的5’端均采用生物素标记,探针长度为120nt,每条探针与其它EGFR基因全外显子区域探针等比例混合,捕获探针的工作浓度为0.75pM,混合后的探针作为新型靶区域捕获探针,命名为panelⅣ。

表11 EGFR_Exon 20_ins探针序列

文库制备步骤与实施例一相同,分别取500ng构建的6个文库(S7-S12)于一个新的离心管中,用真空抽干机进行浓缩直至文库蒸干。使用IDT杂交捕获试剂盒,按照说明书的方法进行杂交捕获和洗脱。杂交过程中务必保证管盖盖紧,最小化减少杂交混合液体积的蒸发,否则将会影响杂交效果。其中,S7、S8、S9文库使用传统方法合成的单链探针(SEQ IDNO:7~SEQ ID NO:9)进行杂交捕获,S10、S11、S12文库使用本发明合成的探针(SEQ ID NO:10~SEQ ID NO:12)进行杂交捕获。与杂交捕获终文库分别命名为Z7-Z12(分别对应于S7-S12文库)。采用Illumina平台的nextseq 500测序仪进行文库测序,生物信息分析测序结果如表12所示。

表12文库测序数据分析结果

结果表明检测EGFR基因20号染色***点的突变频率相差显著,采用传统方法设计的靶向捕获探针其检出Indel位点频率只有理论值的1/2左右,而本发明采用的探针捕获方法检测Indel位点频率接近于真值5.6%,等位基因突变频率提高了50%左右。

实施例三

通过IDT在线探针设计软件(Target Capture Probe Design&Ordering Tool),采用人参考基因组Human(Feb.2009GRCh37/hg19)作为参考基因组,设计出覆盖完整EGFR基因全外显子区域探针,不包含UTR区间。针对BRCA2基因短片段缺失A1689缺失,缺失的碱基序列为GCA。通过传统IDT软件设计探针和本发明设计探针方案分别设计形成两种类型(panel),具体设计方案如下。

传统杂交捕获单链DNA探针设计。利用IDT在线探针设计软件针对BRCA2基因突变位点、设计叠瓦式单链DNA探针序列,如下表13,其中SEQ ID NO13~SEQ ID NO15所示,每条探针长度为120bp,重叠区间为60nt,探针的5’端均采用生物素标记,每条探针与其它EGFR基因全外显子区域探针等比例混合,捕获探针的工作浓度为0.75pM,混合后的探针作为传统靶区域捕获探针,命名为panelⅤ。其中SEQ ID NO13~SEQ ID NO15所示,每条探针长度为100bp,重叠区间为50nt,探针的5’端均采用生物素标记,每条探针与其它EGFR基因全外显子区域探针等比例混合,捕获探针的工作浓度为0.1pM,混合后的探针作为传统靶区域捕获探针,命名为panelⅥ。

本发明的杂交捕获单链DNA探针设计。针对BRCA2基因缺失位点A1689fs,分别设计突变位点左端单链探针序列,如下表13中SEQ ID NO:16所示;突变位点右端单链探针序列,如下表13中SEQ ID NO:17所示;以及突变位点位于中间的单链探针序列,如下表13中SEQID NO:18所示。探针的5’端均采用生物素标记,探针长度为120nt,重叠区间为60nt,每条探针与其它EGFR基因全外显子区域探针等比例混合,捕获探针的工作浓度为0.75pM,混合后的探针作为新型靶区域捕获探针,命名为panelⅦ。其中SEQ ID NO13~SEQ ID NO15所示,每条探针长度为100bp,重叠区间为50nt,探针的5’端均采用生物素标记,每条探针与其它EGFR基因全外显子区域探针等比例混合,捕获探针的工作浓度为0.1pM,混合后的探针作为传统靶区域捕获探针,命名为panelⅧ。

表13 BRCA2_del探针序列

文库制备步骤与实施例一相同,分别取500ng构建的12个文库(S13-S24)于一个新的离心管中,用真空抽干机进行浓缩直至文库蒸干。使用IDT杂交捕获试剂盒,按照说明书的方法进行杂交捕获和洗脱。其中,S13、S14、S15长探针文库和S16、S17、S18短探针文库使用传统方法合成的单链探针(SEQ ID NO:13~SEQ ID NO:18)分别进行杂交捕获,S19、S20、S21长探针文库和S22、S23、S24短探针文库使用本发明合成的探针(SEQ ID NO:19~SEQ IDNO:24)分别进行杂交捕获。与杂交捕获终文库分别命名为Z13-Z24(分别对应于S13-S24文库)。采用Illumina平台的nextseq 500测序仪进行文库测序,生物信息分析测序结果如表14所示。

表14文库测序数据分析结果

结果表明检测BRCA2突变频率相差显著,本发明采用的探针捕获方法检测Indel位点频率接近于真值5.6%,等位基因突变频率提高了40%左右。以上结果说明设计为探针长度为120nt,重叠区间为60nt,捕获探针的工作浓度为0.75pM条件时,捕获效果较好。

从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:

相比现有技术中的叠瓦式探针设计的捕获探针,对于捕获探针覆盖有小片段***缺失(Indel)区域,探针将发生错配或不结合,从而导致等位基因丢失,目标序列总体覆盖度降低;且Indel大幅度影响了捕获探针长度匹配,捕获效率大幅度降低导致无法检出Indel缺陷。

本发明依据待检样本基因突变的特点,改进杂交捕获探针的设计原则,改进捕获探针的验证结果表现为构建文库的库容量明显增大。且测序分析结果展现出改进探针的捕获优势,特别是在捕获目标区域的深度、捕获特异性以及捕获位点的突变频率方面都有显著提高,为目前检测基因片段***缺失位点突变频率低提供有效的捕获方案,能够避免重要基因的Indel漏检,且提高杂交捕获文库丰富度。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

序列表

<110> 北京优迅医学检验实验室有限公司

<120> 针对含有INDEL区域的DNA样本的捕获探针、试剂盒及文库构建方法

<130> PN115043YXYX

<160> 24

<170> SIPOSequenceListing 1.0

<210> 1

<211> 120

<212> DNA

<213> Homo sapiens

<220>

<221> misc_feature

<222> (1)..(120)

<223> EGFR_exon 19_del_1

<220>

<221> misc_feature

<222> (82)..(96)

<223> delete sequence

<400> 1

taacgtcttc cttctctctc tgtcataggg actctggatc ccagaaggtg agaaagttaa 60

aattcccgtc gctatcaagg aattaagaga agcaacatct ccgaaagcca acaaggaaat 120

<210> 2

<211> 120

<212> DNA

<213> Homo sapiens

<220>

<221> misc_feature

<222> (1)..(120)

<223> EGFR_exon 19_del_2

<220>

<221> misc_feature

<222> (22)..(36)

<223> 缺失序列

<400> 2

taacgtcttc cttctctctc tgtcataggg actctggatc ccagaaggtg agaaagttaa 60

aattcccgtc gctatcaagg aattaagaga agcaacatct ccgaaagcca acaaggaaat 120

<210> 3

<211> 120

<212> DNA

<213> Homo sapiens

<220>

<221> misc_feature

<222> (1)..(120)

<223> EGFR_exon 19_del_3

<400> 3

cctcgatgtg agtttctgct ttgctgtgtg ggggtccatg gctctgaacc tcaggcccac 60

cttttctcat gtctggcagc tgctctgctc tagaccctgc tcatctccac atcctaaatg 120

<210> 4

<211> 120

<212> DNA

<213> Homo sapiens

<220>

<221> misc_feature

<222> (1)..(120)

<223> EGFR_exon 19_del_4

<400> 4

tcactgggca gcatgtggca ccatctcaca attgccagtt aacgtcttcc ttctctctct 60

gtcataggga ctctggatcc cagaaggtga gaaagttaaa attcccgtcg ctatcaagga 120

<210> 5

<211> 120

<212> DNA

<213> Homo sapiens

<220>

<221> misc_feature

<222> (1)..(120)

<223> EGFR_exon 19_del_5

<400> 5

atctccgaaa gccaacaagg aaatcctcga tgtgagtttc tgctttgctg tgtgggggtc 60

catggctctg aacctcaggc ccaccttttc tcatgtctgg cagctgctct gctctagacc 120

<210> 6

<211> 120

<212> DNA

<213> Homo sapiens

<220>

<221> misc_feature

<222> (1)..(120)

<223> EGFR_exon 19_del_6

<400> 6

gtcataggga ctctggatcc cagaaggtga gaaagttaaa attcccgtcg ctatcaagga 60

atctccgaaa gccaacaagg aaatcctcga tgtgagtttc tgctttgctg tgtgggggtc 120

<210> 7

<211> 120

<212> DNA

<213> Homo sapiens

<220>

<221> misc_feature

<222> (1)..(120)

<223> EGFR_exon 20_ins_1

<400> 7

tgaaactcaa gatcgcattc atgcgtcttc acctggaagg ggtccatgtg cccctccttc 60

tggccaccat gcgaagccac actgacgtgc ctctccctcc ctccaggaag cctacgtgat 120

<210> 8

<211> 120

<212> DNA

<213> Homo sapiens

<220>

<221> misc_feature

<222> (1)..(120)

<223> EGFR_exon 20_ins_2

<400> 8

tggccaccat gcgaagccac actgacgtgc ctctccctcc ctccaggaag cctacgtgat 60

ggccagcgtg gacaaccccc acgtgtgccg cctgctgggc atctgcctca cctccaccgt 120

<210> 9

<211> 120

<212> DNA

<213> Homo sapiens

<220>

<221> misc_feature

<222> (1)..(120)

<223> egfr_exon 20_ins_3

<400> 9

ggccagcgtg gacaaccccc acgtgtgccg cctgctgggc atctgcctca cctccaccgt 60

gcagctcatc acgcagctca tgcccttcgg ctgcctcctg gactatgtcc gggaacacaa 120

<210> 10

<211> 120

<212> DNA

<213> Homo sapiens

<220>

<221> misc_feature

<222> (1)..(120)

<223> egfr_exon 20_ins_4

<400> 10

gatcgcattc atgcgtcttc acctggaagg ggtccatgtg cccctccttc tggccaccat 60

gcgaagccac actgacgtgc ctctccctcc ctccaggaag cctacgtgat ggccagcgtg 120

<210> 11

<211> 120

<212> DNA

<213> Homo sapiens

<220>

<221> misc_feature

<222> (1)..(120)

<223> egfr_exon 20_ins_5

<400> 11

gacaaccccc acgtgtgccg cctgctgggc atctgcctca cctccaccgt gcagctcatc 60

acgcagctca tgcccttcgg ctgcctcctg gactatgtcc gggaacacaa agacaatatt 120

<210> 12

<211> 120

<212> DNA

<213> Homo sapiens

<220>

<221> misc_feature

<222> (1)..(120)

<223> egfr_exon 20_ins_6

<220>

<221> misc_feature

<222> (56)..(64)

<223> ***序列

<400> 12

gccacactga cgtgcctctc cctccctcca ggaagcctac gtgatggcca gcgtggccag 60

cgtggacaac ccccacgtgt gccgcctgct gggcatctgc ctcacctcca ccgtgcagct 120

<210> 13

<211> 120

<212> DNA

<213> Homo sapiens

<220>

<221> misc_feature

<222> (1)..(120)

<223> brca2_del_1

<220>

<221> misc_feature

<222> (101)..(103)

<223> 缺失序列

<400> 13

cacaaatcag tccccttatt cagtcattga aaattcagcc ttagcttttt acacaagttg 60

tagtagaaaa acttctgtga gtcagacttc attacttgaa gcaaaaaaat ggcttagaga 120

<210> 14

<211> 120

<212> DNA

<213> Homo sapiens

<220>

<221> misc_feature

<222> (1)..(120)

<223> brca2_del_2

<220>

<221> misc_feature

<222> (41)..(43)

<223> 缺失序列

<400> 14

tagtagaaaa acttctgtga gtcagacttc attacttgaa gcaaaaaaat ggcttagaga 60

aggaatattt gatggtcaac cagaaagaat aaatactgca gattatgtag gaaattattt 120

<210> 15

<211> 120

<212> DNA

<213> Homo sapiens

<220>

<221> misc_feature

<222> (1)..(120)

<223> brca2_del_3

<400> 15

aggaatattt gatggtcaac cagaaagaat aaatactgca gattatgtag gaaattattt 60

gtatgaaaat aattcaaaca gtactatagc tgaaaatgac aaaaatcatc tctccgaaaa 120

<210> 16

<211> 120

<212> DNA

<213> Homo sapiens

<220>

<221> misc_feature

<222> (1)..(120)

<223> brca2_del_4

<400> 16

aaaagtcctg caacttgtta cacaaatcag tccccttatt cagtcattga aaattcagcc 60

ttagcttttt acacaagttg tagtagaaaa acttctgtga gtcagacttc attacttgaa 120

<210> 17

<211> 120

<212> DNA

<213> Homo sapiens

<220>

<221> misc_feature

<222> (1)..(120)

<223> brca2_del_5

<400> 17

aaaaaatggc ttagagaagg aatatttgat ggtcaaccag aaagaataaa tactgcagat 60

tatgtaggaa attatttgta tgaaaataat tcaaacagta ctatagctga aaatgacaaa 120

<210> 18

<211> 120

<212> DNA

<213> Homo sapiens

<220>

<221> misc_feature

<222> (1)..(120)

<223> brca2_del_7

<400> 18

cttagctttt tacacaagtt gtagtagaaa aacttctgtg agtcagactt cattacttga 60

aaaaaaatgg cttagagaag gaatatttga tggtcaacca gaaagaataa atactgcaga 120

<210> 19

<211> 100

<212> DNA

<213> Homo sapiens

<220>

<221> misc_feature

<222> (1)..(100)

<223> brca2_del_8

<220>

<221> misc_feature

<222> (88)..(90)

<223> 缺失序列

<400> 19

ccttattcag tcattgaaaa ttcagcctta gctttttaca caagttgtag tagaaaaact 60

tctgtgagtc agacttcatt acttgaagca aaaaaatggc 100

<210> 20

<211> 100

<212> DNA

<213> Homo sapiens

<220>

<221> misc_feature

<222> (1)..(100)

<223> brca2_del_9

<220>

<221> misc_feature

<222> (38)..(40)

<223> 缺失序列

<400> 20

tagaaaaact tctgtgagtc agacttcatt acttgaagca aaaaaatggc ttagagaagg 60

aatatttgat ggtcaaccag aaagaataaa tactgcagat 100

<210> 21

<211> 100

<212> DNA

<213> Homo sapiens

<220>

<221> misc_feature

<222> (1)..(100)

<223> brca2_del_10

<400> 21

ttagagaagg aatatttgat ggtcaaccag aaagaataaa tactgcagat tatgtaggaa 60

attatttgta tgaaaataat tcaaacagta ctatagctga 100

<210> 22

<211> 100

<212> DNA

<213> Homo sapiens

<220>

<221> misc_feature

<222> (1)..(100)

<223> brca2_del_11

<400> 22

cacaaatcag tccccttatt cagtcattga aaattcagcc ttagcttttt acacaagttg 60

tagtagaaaa acttctgtga gtcagacttc attacttgaa 100

<210> 23

<211> 100

<212> DNA

<213> Homo sapiens

<220>

<221> misc_feature

<222> (1)..(100)

<223> brca2_del_12

<400> 23

aaaaaatggc ttagagaagg aatatttgat ggtcaaccag aaagaataaa tactgcagat 60

tatgtaggaa attatttgta tgaaaataat tcaaacagta 100

<210> 24

<211> 100

<212> DNA

<213> Homo sapiens

<220>

<221> misc_feature

<222> (1)..(100)

<223> brca2_del_13

<400> 24

acacaagttg tagtagaaaa acttctgtga gtcagacttc attacttgaa aaaaaatggc 60

ttagagaagg aatatttgat ggtcaaccag aaagaataaa 100

24页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:用于多重核酸鉴定的产品和方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!