针对外显子捕获技术检测拷贝数变异的方法及装置

文档序号:1688208 发布日期:2020-01-03 浏览:29次 >En<

阅读说明:本技术 针对外显子捕获技术检测拷贝数变异的方法及装置 (Method and device for detecting copy number variation by aiming at exon capture technology ) 是由 李巍 倪鑫 郝婵娟 于 2019-09-19 设计创作,主要内容包括:本发明公开了一种针对外显子捕获技术检测拷贝数变异的方法及装置。其中,该方法包括以下步骤:S1,对照样本集测序数据处理;S2,待测样本测序数据处理;S3,比较对照样本的每个捕获区域的平均测序深度与对应的待测样本的每个捕获区域的平均测序深度,判断待测样本中拷贝数变异。与现有技术相比,应用本发明的技术方案,针对外显子二代测序数据,同时增设了根据性别及染色体特点,进行区分计算的算法,在性染色体相关的拷贝数变异检测中更加准确;此外针对相邻捕获区域进行合并处理,在两个捕获区域连续变异的拷贝数变异检出率较现有技术有更高的准确性。(The invention discloses a method and a device for detecting copy number variation by aiming at an exon capture technology. Wherein, the method comprises the following steps: s1, processing the sequencing data of the control sample set; s2, processing sequencing data of the sample to be detected; and S3, comparing the average sequencing depth of each capture area of the control sample with the average sequencing depth of each capture area of the corresponding sample to be detected, and judging copy number variation in the sample to be detected. Compared with the prior art, the technical scheme of the invention is applied, aiming at the exon second-generation sequencing data, and simultaneously, an algorithm for carrying out distinguishing calculation according to the sex and the chromosome characteristics is added, so that the method is more accurate in the copy number variation detection related to sex chromosomes; in addition, the combination processing is carried out aiming at the adjacent capture areas, and the detection rate of the continuous variation copy number variation of the two capture areas has higher accuracy compared with the prior art.)

针对外显子捕获技术检测拷贝数变异的方法及装置

技术领域

本发明涉及生物医学技术领域,具体而言,涉及一种针对外显子捕获技术检测拷贝数变异的方法及装置。

背景技术

CNV(拷贝数变异检测)是基因组结构变异的一种普遍存在的现象,一般CNV是指在染色体上,DNA发生的拷贝数的变化,如重复、缺失。外显子捕获技术结合二代测序技术是当前在研究疾病基因组变异的常用的高性价比的方法。但现阶段,基于二代测序数据,进行CNV检测的方法有很多,比如AGE、Pindel是基于split-read的方法,BreakDancer等是基于pair-end的方法,CNVnator、CNV-seq是基于read-depth的方法,这些方法都具有很高的精确度和灵敏度。

但是,以上大部分方法的设计是针对全基因组数据进行,同时没有针对性染色体进行区分,且一般获得结果展示,是基于基因的水平进行展示,没有更直观的结果。基于外显子获得的数据,由于其捕获的是DNA的部分片段,在进行CNV检测过程中,现有的方法不能很好的满足在疾病诊断、科学研究上的需求。

发明内容

本发明旨在提供一种针对外显子捕获技术检测拷贝数变异的方法及装置,以提高针对外显子捕获技术检测拷贝数变异的准确性。

为了实现上述目的,根据本发明的一个方面,提供了一种针对外显子捕获技术检测拷贝数变异的方法。该方法包括以下步骤:S1,对照样本集测序数据处理,包括:S11,基于外显子捕获芯片的捕获区域文件及参考基因组,计算对照样本集中每个样本基因组内对应每个外显子捕获片段的正常GC含量;S12,对对照样本集中每个样本进行测序深度的计算,形成对照样本集的行为每个外显子捕获片段、列为对照样本集中每个样本的数据矩阵;S13,去除对照样本集的数据矩阵中测序深度异常的样本;S14,对对照样本集中的每个样本的每个捕获区域文件进行GC矫正、测序深度标准化,并对对照样本集中的每个样本的性别数据进行矫正和标准化,最终获得对照样本数据集;S15,基于对照样本数据集计算对照样本集的每个捕获区域的平均测序深度及标准差;S2,待测样本测序数据处理,包括:S21,基于外显子捕获芯片的捕获区域文件及参考基因组,计算待测样本基因组内对应每个外显子捕获片段的GC含量;S22,对待测样本进行测序深度的计算,形成待测样本的数据阵;S23,对待测样本中的每个捕获区域文件进行GC矫正、测序深度标准化,并对待测样本的性别数据进行矫正和标准化,获得待测样本数据集;S24,基于待测样本数据集计算待测样本的每个捕获区域的平均测序深度及标准差;S3,比较对照样本的每个捕获区域的平均测序深度与对应的待测样本的每个捕获区域的平均测序深度,判断待测样本中拷贝数变异。

进一步地,S3具体包括:计算对照样本的每个捕获区域的平均测序深度与对应的待测样本的每个捕获区域的平均测序深度的比值,根据阈值判断待测样本中拷贝数变异。

进一步地,如果相邻的两个捕获区域之间的碱基间隔不大于1kbp,且S3中的比值均高于或者低于阈值,则对相邻的两个捕获区域进行合并,然后再重复S3。

进一步地,S13包括:基于测序深度计算各对照样本之间的皮尔逊相关系数,如果某对照样本与其它对照样本的相关性低于0.8,则在对照群体样本数据矩阵中去掉该对照样本。

进一步地,S14和S24中的GC矫正包括:首先基于外显子捕获芯片的捕获区域文件,计算每个外显子捕获片段的GC含量,然后以相同GC含量来对捕获区域进行分类,以此来计算每个GC含量下的平均捕获区域测序深度,矫正的GC含量=(样本所有捕获区域的平均测序深度/某个GC含量下的捕获区域的平均测序深度)*GC含量。

进一步地,S14和S24中的测序深度标准化包括:矫正后的捕获区域的测序深度=捕获区域的测序深度*标准化深度/样本数据中捕获测序区域深度的中位数。

进一步地,标准化深度为待测样本的平均测序深度。

根据本发明的另一方面,提供了一种针对外显子捕获技术检测拷贝数变异的装置。该装置包括:装置用于存储或者运行的模块,或者模块为装置的组成部分;其中,模块为软件模块,软件模块为一个或多个,软件模块用于执行上述任一种方法。

与现有技术相比,应用本发明的技术方案,针对外显子二代测序数据,同时增设了根据性别及染色体特点,进行区分计算的算法,在性染色体相关的拷贝数变异检测中更加准确;此外针对相邻捕获区域进行合并处理,在两个捕获区域连续变异的拷贝数变异检出率较现有技术有更高的准确性。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1示出了根据本发明实施例1的针对外显子捕获技术检测拷贝数变异的方法的流程示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

针对背景技术中存在的技术问题,本发明的发明人通过统计方法的改进,增加性别区分,对性染色体进行区别分析,创造性的合并相邻捕获区域等,使结果展示详细,更利于检测结果的进一步分析和理解。

根据本发明一种典型的实施方式,提供一种针对外显子捕获技术检测拷贝数变异的方法。该方法包括以下步骤:S1,对照样本集测序数据处理,包括:S11,基于外显子捕获芯片的捕获区域文件及参考基因组,计算对照样本集中每个样本基因组内对应每个外显子捕获片段的正常GC含量;S12,对对照样本集中每个样本进行测序深度的计算,形成对照样本集的行为每个外显子捕获片段、列为对照样本集中每个样本的数据矩阵;S13,去除对照样本集的数据矩阵中测序深度异常的样本;S14,对对照样本集中的每个样本的每个捕获区域文件进行GC矫正、测序深度标准化,并对对照样本集中的每个样本的性别数据进行矫正和标准化,最终获得对照样本数据集;S15,基于对照样本数据集计算对照样本集的每个捕获区域的平均测序深度及标准差;S2,待测样本测序数据处理,包括:S21,基于外显子捕获芯片的捕获区域文件及参考基因组,计算待测样本基因组内对应每个外显子捕获片段的GC含量;S22,对待测样本进行测序深度的计算,形成待测样本的数据阵;S23,对待测样本中的每个捕获区域文件进行GC矫正、测序深度标准化,并对待测样本的性别数据进行矫正和标准化,获得待测样本数据集;S24,基于待测样本数据集计算待测样本的每个捕获区域的平均测序深度及标准差;S3,比较对照样本的每个捕获区域的平均测序深度与对应的待测样本的每个捕获区域的平均测序深度,判断待测样本中拷贝数变异。

与现有技术相比,应用本发明的技术方案,针对外显子二代测序数据,同时增设了根据性别及染色体特点,进行区分计算的算法,在性染色体相关的拷贝数变异检测中更加准确;此外针对相邻捕获区域进行合并处理,在两个捕获区域连续变异的拷贝数变异检出率较现有技术有更高的准确性。

优选的,S3具体包括:计算对照样本的每个捕获区域的平均测序深度与对应的待测样本的每个捕获区域的平均测序深度的比值,根据阈值判断待测样本中拷贝数变异。

根据本发明一种典型的实施方式,如果相邻的两个捕获区域之间的碱基间隔不大于1kbp,且S3中的比值均高于或者低于阈值,则对相邻的两个捕获区域进行合并,然后再重复S3。

根据本发明一种典型的实施方式,S13包括:基于测序深度计算各对照样本之间的皮尔逊相关系数,如果某对照样本与其它对照样本的相关性低于0.8,则在对照群体样本数据矩阵中去掉该对照样本。

根据本发明一种典型的实施方式,S14和S24中的GC矫正包括:首先基于外显子捕获芯片的捕获区域文件,计算每个外显子捕获片段的GC含量,然后以相同GC含量来对捕获区域进行分类,以此来计算每个GC含量下的平均捕获区域测序深度,矫正的GC含量=(样本所有捕获区域的平均测序深度/某个GC含量下的捕获区域的平均测序深度)*GC含量。优选的,S14和S24中的测序深度标准化包括:矫正后的捕获区域的测序深度=捕获区域的测序深度*标准化深度/样本数据中捕获测序区域深度的中位数。根据本发明一种典型的实施方式,标准化深度为待测样本的平均测序深度。

根据本发明一种典型的实施方式,提供一种针对外显子捕获技术检测拷贝数变异的装置。该装置包括:装置用于存储或者运行的模块,或者模块为装置的组成部分;其中,模块为软件模块,软件模块为一个或多个,软件模块用于执行上述任一种方法。

下面将结合实施例进一步说明本发明的有益效果。

实施例1

在本实施例中,针对外显子捕获技术检测拷贝数变异的流程参照图1所示,具体如下:

1.基于外显子捕获芯片的捕获区域文件(下文称bed文件),以及相应的参考基因组(Panel涉及参考的基因组),计算每个bed的GC含量,统计参考基因组内,每个外显子捕获片段的正常GC含量,用于后续的统计计算;

2.计算reads深度:针对每个样本(control样本和case样本)的比对文件,使用GATK统计去重复后,每个bed区域的reads深度(reads depth);并将多个对照样本计算结果合并,形成样本数据矩阵;

3.去除异常样本:基于深度计算各样本之间的皮尔逊相关系数,如果某样本与其它样本的相关性低于0.8,则在对照集中,将该样本去掉,不用于后续的计算。

4.GC矫正:基于bed文件统计的正常GC含量,对bed区域进行分类。计算某一GC含量下的平均bed深度,矫正的GC含量等于(样本所有bed的平均深度/某一GC含量下的bed平均深度)*GC含量。

5.bed区域深度矫正:矫正后的bed区的reads深度=bed的reads depth*标准化深度/样本数据中bed深度的中位数;

6.针对常染色体、X染色体、Y染色体分别执行步骤2,3,4,5,获得矫正后的数据集;

7.基于6,计算正常样本,每个bed的平均深度、标准差;

8.基于步骤2,4,5,6,计算病人样本,每个bed的平均深度和标准差;

9.计算病人每个bed的矫正深度与正常样本对照集的比值,根据制定的阈值,获得每个bed增加或者缺失的信息;

10.基于9获得的增加或缺失的判定,如果相邻的bed之间物理距离小于1k,且均为拷贝数增加,或者缺失,则将相临bed进行合并,作为一个CNV变异区域。

将本实施例的方法在新生儿地中海贫血症的检测出中,表现出色。在实际应用中,针对1201例新生儿样本,使用新生儿疾病检测panel进行DNA捕获,illumina nova PE150测序上机,每个样本平均深度达到100X。使用本方法,进行地中海贫血症α4.2、α3.7、SEA型缺失的检测,最终发现SEA型检出准确性达到96%;α4.2和α3.7的检出准确率均100%。

值得注意的是,本发明可以适用于外显子捕获技术获得的二代测序技术,不限制panel的类型,不限制测序的方法。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

8页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:新生儿遗传病患病风险评估的装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!