基于二代测序的捕获探针设计方法及应用

文档序号:1100140 发布日期:2020-09-25 浏览:24次 >En<

阅读说明:本技术 基于二代测序的捕获探针设计方法及应用 (Design method and application of capture probe based on next generation sequencing ) 是由 韩志军 曹鑫恺 周红霞 秦放 王杰 于 2020-08-20 设计创作,主要内容包括:本发明提供了一种基于二代测序的捕获探针的设计方法及应用。为使得所有目标区域的捕获性能不受该区域的GC含量的影响,本发明在不同的GC含量区域采取了不同的探针设计方案,依据探针捕获效率与探针覆盖区域GC含量的关系动态调节不同区域的探针层数,在GC含量低的区域增加探针层数,和/或在GC含量高的区域减少探针层数;并可进一步的调节相邻探针之间的重叠部分长度,从而提高全部目标区域的探针捕获均一性。(The invention provides a design method and application of a capture probe based on next generation sequencing. In order to ensure that the capture performance of all target areas is not influenced by the GC content of the areas, different probe design schemes are adopted in different GC content areas, the number of probe layers in different areas is dynamically adjusted according to the relation between the probe capture efficiency and the GC content of a probe coverage area, the number of probe layers is increased in an area with low GC content, and/or the number of probe layers is reduced in an area with high GC content; and the length of the overlapping part between the adjacent probes can be further adjusted, so that the probe capture uniformity of the whole target area is improved.)

基于二代测序的捕获探针设计方法及应用

技术领域

本发明涉及二代测序领域,具体的涉及一种基于二代测序的捕获探针设计方法及应用。

背景技术

二代测序(next generation sequence, NGS)是检测肿瘤样本中未知变异的常用技术,全基因组测序存在成本高、周期长、有效数据率低等缺点,因而临床分子诊断上常用探针捕获法检测目标基因的临床变异进而指导用药。DNA探针一般以目标区域DNA序列为模板设计,具有几十到几百碱基长度,通过与目标区域DNA完全或部分匹配进而捕获目标基因序列测序。当前核酸检测产品的探针设计方法基本思路为:首先在基因组上选定目标区域,如已知的与肿瘤发生或治疗相关的基因区域,进而针对这些目标区域的DNA序列依次平铺设计探针,如单层设计则相邻探针间头尾相接,如双层设计则相邻探针间存在一定长度的重叠,以此实现所有目标区域上相同的探针覆盖层数。

基因组不同区域由于其序列特异性如GC含量分布不均匀等,探针的捕获效率存在明显差异。一般而言,GC含量越低的区域探针捕获效率越低。现有技术采用固定层数的探针平铺设计方案虽然保证了不同区域的探针覆盖层数一致,但无法保证不同区域的探针捕获性能均衡,从而可能影响产品的检测性能。基因检测产品往往需要在所有目标区域有较好的捕获均一性从而保证检测性能稳定,如何通过特殊的探针设计方案提升GC含量异常区域的捕获效率,从而提高整体目标区域的捕获均一性,是本领域需要解决的技术难题。

发明内容

本发明通过评估目标区域GC含量与探针捕获效率的关系并获得拟合曲线后,根据拟合曲线针对性的优化捕获探针的设计,动态调节不同GC含量区域的探针层数,在GC含量低的区域增加探针层数,和/或在GC含量高的区域减少探针层数;并可进一步的调节相邻探针之间的重叠部分长度,从而提高全部目标区域的探针捕获均一性。

为实现以上目的,本发明所采用的技术方案包括:

本发明提供一种捕获探针的设计方法,包括:

S1、评估探针捕获效率与探针覆盖区域GC含量的相关关系获得拟合曲线;

S2、根据所述拟合曲线调节靶向不同GC含量区域的探针层数,以及可选的调节相邻探针的重叠区域长度,以提高不同GC含量区域的探针捕获效率的均一性。

进一步的,获得上述步骤S1中的拟合曲线的步骤包括:

S11、统计每条探针覆盖区域的GC含量,并获得每条探针的测序深度;

S12、用LOWESS回归模型拟合所有探针测序深度与探针覆盖区域的GC含量的非线性关系,得到所述拟合曲线。

进一步的,所述步骤S2中调节靶向不同GC含量区域的探针层数包括:在GC含量低的区域增加探针层数,和/或在GC含量高的区域减少探针层数。

进一步的,所述步骤S2中调节相邻探针的重叠区域长度包括:在GC含量低的区域增加相邻探针的重叠区域长度,和/或在GC含量高的区域减少相邻探针的重叠区域长度。

进一步的,所述步骤S2中提高不同GC含量区域的探针捕获效率的均一性达到使不同GC含量区域的探针捕获效率基本一致的程度。所述捕获效率基本一致的程度是指不同GC含量区域的探针捕获效率相同或相互接近,彼此之间不存在明显的差别,或者虽然存在较小差别,但根据常规认知可判断达到基本一致的程度。

本发明还提供一种基于二代测序的检测试剂,所述检测试剂包括使用上述的设计方法设计的捕获探针组。

本发明还提供一种上述检测试剂在制备按照如下方法提高肿瘤样本临床变异的稳定检出的试剂盒中的应用,所述方法包括:

(1)利用所述肿瘤样本构建DNA文库;

(2)利用所述检测试剂对DNA文库进行捕获,获得捕获后的文库;

(3)对捕获后的文库测序并进行生物信息学分析。

相对于传统的固定探针层数的方法,本发明提供了一种更为精准的探针设计方法,可以针对不同GC含量的区域,动态调节探针设计,比如探针层数、相邻探针的重叠长度,以及其他影响探针捕获效率的因素等,从而提高不同GC含量区域的探针捕获效率的均一性,有利于临床变异的稳定检出。

附图说明

图1. 目标区域探针捕获效率与目标区域GC含量拟合曲线图;

图2. 不同GC含量的目标区域探针设计方案示意图;

图3. 肿瘤样本中不同探针设计方案在不同GC含量目标区域捕获效率比较。

具体实施方式

现详细说明本发明的多种示例性实施方式,该详细说明不应认为是对本发明的限制,而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。

除非另有说明,否则本文使用的所有技术和科学术语具有本发明所述领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料,但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法和材料。

捕获探针的设计

探针、捕获探针均指的是长度通常在几十到几百个碱基长度(例如20至300个碱基长度)的DNA、RNA及其他核酸衍生物(包括但不限于LNA等)的核酸小分子。这类通常会与一些功能基团(包括但不限于生物素biotin等其他基团)连接。探针会与目标DNA片段以碱基互补的形式结合,而探针上的功能基团会和与之有强亲和性的其他功能基团(包括但不限于链霉亲和素Streptavidin、卵白素avidin等)或特异性抗体相结合。通常与探针上功能基团相结合的其他功能基团或抗体被连接到磁珠、有吸附性的材料等耗材上,并通过物理的手段将目标片段和探针的结合体从反应溶液中提取出来,达到捕获目标片段的目的。

探针的均匀平铺设计是指针对不同目标区域内设计的探针层数相同,可以都是一层、二层或更多层。探针层数为一层时,探针采用首尾相连的方式逐条覆盖目标区域;探针层数为多层时,同一层间的探针可选的采用首尾相连的方式,而相邻层的探针间存在一定长度的重叠部分。本发明的采用非均匀平铺探针设计方法,即针对GC含量不同的区域覆盖不同的探针层数,进一步的,可以调节相邻探针间的重叠部分长度。本发明的技术方案中,所述“相邻探针”是指相邻层中互相重叠的探针,在GC含量相同或不同的区域之间,相邻探针的重叠部分长度可以相同,也可以不同。

探针捕获效率

本发明中探针捕获效率用探针测序深度来评估。探针测序深度是指该探针所针对的靶向区域的单碱基平均测序深度。目标区域平均测序深度是指目标区域内所有探针的测序深度的均值。样本整体平均测序深度是指样本所涉及的所有探针或者目标区域的测序深度的均值。

本发明中,“探针覆盖区域”、“探针靶向区域”、“探针针对的区域”、“探针所针对的靶向区域”等含义相同,均指与探针序列互补结合的目标核酸区域。“探针捕获效率”、“探针捕获性能”等含义相同,一般用设计探针的目标区域内的测序深度相对于样本整体平均测序深度的比值来衡量,比值越高,探针捕获效率越高。“捕获均一性”或者“捕获效率均一性”是指不同目标区域的探针捕获效率接近程度,也即不同目标区域的测序深度接近程度,“捕获均一性”或者“捕获效率均一性”越高,说明不同目标区域的探针捕获效率或测序深度越接近。

本发明通过评估现有探针双层均匀平铺设计方案中目标区域探针捕获效率与GC含量的相关关系获得二者的拟合曲线(如图1),具体的,统计每条探针覆盖区域的GC含量,以及该条探针测序深度(可以用来表示探针捕获效率),并用LOWESS回归模型拟合所有探针的测序深度与GC含量的非线性关系,即为探针捕获效率与GC含量的拟合曲线,进而利用该拟合曲线调节不同GC含量区域的探针设计,比如探针层数、相邻探针之间的重叠长度等,以达到调节相应的目标区域的探针捕获效率的目的。本发明中,所述探针捕获效率一般采用探针的测序深度作为指标。

为使得所有目标区域的捕获性能不受该区域的GC含量的影响,依据GC含量与捕获性能的拟合曲线,本发明针对不同的GC含量区域采取了不同的探针设计方案,在GC含量低的区域增加探针层数,和/或在GC含量高的区域减少探针层数;进一步的,还可以在增加探针层数的同时增加相邻探针的重叠部分长度,和/或在减少探针层数的同时减少相邻探针的重叠部分长度。具体的,依据GC含量与捕获性能的拟合曲线(图1所示),目标区域GC含量低于一定阈值时(如55%),探针捕获性能随着GC含量降低逐步下降,但在不同的GC含量区域探针捕获性能下降幅度并不一致,因而可以依据GC含量与捕获性能曲线将目标区域划分为不同的GC含量类别(如GC含量低于35%、GC含量在35%与45%之间、GC含量在45%与55%之间、GC含量高于55%),进而在不同类别中设计不同层数的探针,并可进一步动态调节相邻探针间重叠区域长度,以达到所有目标区域的捕获均一性。利用本发明的探针设计方法(如图2所示),可以保持所有目标区域的探针的捕获效率趋于一致。

样本选择

本发明的样本类型包括但不限于以下样本类型:血液白细胞、血浆游离DNA、新鲜组织、石蜡切片等。

捕获测序步骤

在取得组织或者血液样本后,首先利用QIAamp DNA FFPE Tissur Kit(50)(产品号:56404)试剂盒对DNA进行抽提,进而利用超声技术(例如:M220超声打断仪)、DNA酶切技术(例如:KAPA:KK8602试剂盒)或者转座酶技术(例如:HieffNGS:12206ES08试剂盒)进行打断,并筛选长度在200碱基左右的双链DNA片段用于后续建库捕获。建库使用IDT prism试剂盒(xGEN Prism DNA Library Prep Kit),具体操作流程参考试剂盒使用说明,建库完成后将一个至四个样本的文库进行混合,然后用本发明设计的捕获探针进行片段捕获。本发明设计的探针由IDT合成,捕获时采用IDT的捕获试剂盒(XGen Hybridization and washkit)。捕获好的文库利用illumina NextSeq 550Dx进行双端测序。

应理解,本发明的捕获探针设计方法可普遍适应于不同的目标区域,例如可以是基因、基因片段或者基因、基因片段的组合等,而不仅限于某种特定的基因。本发明提到的GC含量阈值与探针层数等仅用于详细阐述本发明的设计方案,并不限定本发明的使用范围。下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。

实施例1 探针设计

利用本发明的探针设计方案,选取了110个肿瘤相关基因(表1)的全部外显子区域作为目标区域,在评估肿瘤FFPE样本中目标区域GC含量与探针捕获效率的关系并获得拟合曲线后(图1),根据拟合曲线设计两套探针,一套是在每个目标外显子区域内按相同层数(两层)平铺探针(图3中原方案),另一套是在每个外显子区域内依据GC含量动态设计探针层数(图3中新方案),具体设计方案为目标外显子区域GC含量低于40%则平铺4层探针,目标外显子区域GC含量大于40%则平铺2层探针。探针长度均为120bp,并利用该两套探针捕获相同的肿瘤样本(图3中样本1-5,共5例)以评估探针捕获效率。

表1. 选取的110个肿瘤相关基因列表

实施例2 组织样本的建库和测序

在获得组织样本的FFPE卷片后,利用QIAamp DNA FFPE Tissur Kit(50)(产品号:56404)试剂盒对FFPE样本中DNA进行抽提,进而利用M220超声打断仪进行打断,并筛选长度在200碱基左右的双链DNA片段用于后续建库捕获。建库使用IDT prism试剂盒(xGEN PrismDNA Library Prep Kit),具体操作流程参考试剂盒使用说明。建库完成后将一个至四个样本的文库进行混合,分别利用本发明设计的两套探针进行捕获,捕获时采用IDT(Integrated DNA Technologies)的捕获试剂盒(XGen Hybridization and wash kit)。捕获好的文库利用illumina NextSeq 550Dx进行测序。

实施例3 生物信息学分析

1 测序数据预处理与质控

获得测序数据BCL文件后,使用bcl2fastq v2.19.0软件将测序下机文件(BCL格式)转换为序列文件(FASTQ格式),然后使用fastp v0.20.0软件对序列文件进行质控(QC)和过滤(filter),去除低质量序列,再使用bwa v0.7.12软件将高质量的干净序列比对到人类参考基因组(GRCh37)上,生成比对文件(BAM格式),使用sambamba v0.6.5软件进行排序(sort)和索引(index)并统计目标区域(即每个外显子区域)内平均测序深度信息(depth),使用本地Python脚本计算目标区域的GC含量。

2 评估探针设计新方案的探针捕获效率

依据目标外显子区域的GC含量,将目标区域分为低GC(如目标区域GC含量低于40%)与高GC区域(如目标区域GC含量高于40%),进而统计每个肿瘤样本中新方案和原方案在每个目标区域的平均测序深度,并利用样本所有目标区域的整体平均测序深度进行标准化,随后比较两套探针设计方案间探针捕获效率的差别。

分析5例肿瘤样本中两套探针设计方案(原方案和新方案)在低GC含量、高GC含量目标区域的捕获效率(如图3所示,图中纵坐标为每个目标区域的测序深度与样本整体平均测序深度的比值,即经标准化之后的倍数值,用于表征探针捕获效率)可以看出,两套探针设计方案在所有肿瘤样本中的高GC区域的捕获效率具有可比性,整体的测序深度与样本整体平均测序深度接近(箱体图中位数接近于1.0);但在低GC区域,新方案的目标区域测序深度明显优于原方案的测序深度,且新方案在低GC区域的测序深度与高GC区域的测序深度接近,即实现了不同GC含量的目标区域的探针捕获效率的均一性,有利于临床变异的稳定检出。原方案在低GC区域的平均测序深度低于高GC区域,即整体目标区域的捕获效率存在偏差,将影响临床变异的稳定检出。

以上所述仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换等都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

9页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:确定代谢物配对关系的方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!