拷贝数变异的检测方法和装置

文档序号:1289187 发布日期:2020-08-28 浏览:8次 >En<

阅读说明:本技术 拷贝数变异的检测方法和装置 (Method and device for detecting copy number variation ) 是由 曹善柏 王文平 张萌萌 郭璟 楼峰 于 2020-05-13 设计创作,主要内容包括:本发明提供了一种拷贝数变异的检测方法和装置。该检测方法包括:获取待测样本的测序比对数据;计算测序比对数据中每个碱基位点的测序深度;将参考基因组划分为多个bin的方式,利用每个碱基位点的测序深度,计算待测样本的每个bin的拷贝数;合并拷贝数与指定contig的倍性不同的bin,得到发生胚系拷贝数变异的区域。该方面能够检测出长度超过1000bp的基因外显子的缺失或重复,与现有技术中的芯片方法相比,该方法检测CNV具有更高的覆盖度、分辨率及更准确的拷贝数评估,不仅能够检测某些已知位点的拷贝数变异情况,而且可以检测未知的拷贝数变异情况,提高检测的灵敏度。(The invention provides a method and a device for detecting copy number variation. The detection method comprises the following steps: obtaining sequencing comparison data of a sample to be detected; calculating the sequencing depth of each base site in sequencing comparison data; dividing the reference genome into a plurality of bins, and calculating the copy number of each bin of the sample to be detected by using the sequencing depth of each base locus; bins with copy numbers different from the ploidy of the designated contigs were pooled to obtain the region where germline copy number variation occurred. Compared with the chip method in the prior art, the method for detecting the CNV has higher coverage, higher resolution and more accurate copy number evaluation, can detect the copy number variation condition of certain known sites, can detect the unknown copy number variation condition and improve the detection sensitivity.)

拷贝数变异的检测方法和装置

技术领域

本发明涉及生物信息分析领域,具体而言,涉及一种拷贝数变异的检测方法和装置。

背景技术

CNV是指长度大于1kb的拷贝数多态,是基因组结构变异(SV)的一种,包括拷贝数的缺失(deletion)、插入(insertion)、重复(duplication)和复杂多位点变异(complexmuti-site variants)。CNV的产生机制之一是DNA重组,包括非等位同源重组(Nonallelichomologous recombination,NAHR)和非同源末端连接(Nohomologous end-joining,NHEJ)等。DNA重组引起的CNV可以从以下几个方面影响基因的表达:(1)基因剂量;(2)基因断裂;(3)基因融合;(4)位置效应;(5)隐型等位基因显性化等。

CNV的检测有目前常用的有以下几种方法:

多重连接扩增技术(multiplex ligation dependent probe amplification,MLPA),针对每个待测靶基因设计相邻的两个探针,探针通过通用引物与靶序列配对杂交后,两个相邻的探针通过连接反应相连,连接产物的量与靶基因的拷贝数成正比。连接产物经PCR扩增后可以根据电泳结果分析基因的拷贝数。

芯片技术,这种技术是将感兴趣的靶点做成微阵列芯片,对基因组中关键区域进行系统性的扫描。目前应用较为广泛的芯片主要有比较基因组杂交芯片(comparativegenomic hybridization,CGH)和SNP芯片。这种技术只能检测已知的CNV。

发明内容

本发明的主要目的在于提供一种拷贝数变异的检测方法和装置,以解决现有技术中对突变检测的灵敏度低的问题。

为了实现上述目的,根据本发明的一个方面,提供了一种拷贝数变异的检测方法,该检测方法包括:获取待测样本的测序比对数据;计算测序比对数据中每个碱基位点的测序深度;将参考基因组划分为多个bin的方式,利用每个碱基位点的测序深度,计算待测样本的每个bin的拷贝数;合并拷贝数与指定contig的倍性不同的bin,得到发生胚系拷贝数变异的区域。

进一步地,获取待测样本的测序比对数据包括:获取待测样本的测序原始数据;对测序原始数据进行质控,得到测序比对数据;优选地,对测序原始数据进行质控,得到测序比对数据包括:对测序原始数据进行预处理,去除如下至少一种reads:(1)含有接头的reads;(2)质量低于阈值的reads,得到预处理数据;将预处理数据与参考基因组序列比对,得到比对结果数据;对比对结果数据进行过滤处理,过滤去除具有重复比对结果的reads,得到测序比对数据;更优选地,对比对结果数据进行过滤处理,进一步包括过滤去除目标捕获区域外的reads。

进一步地,在将参考基因组划分为多个bin的方式,计算待测样本的每个bin的拷贝数之前,检测方法还包括,将参考基因组划分为多个bin,并对待测样本的每个bin的测序深度进行归一化处理;然后利用归一化之后的测序深度计算每个bin的拷贝数;优选地,归一化处理包括:根据用于构建基线的样本在每个bin的测序深度,利用主成分分析法建立归一化模型;利用归一化模型对待测样本中的每个bin的测序深度进行归一化;优选地,利用归一化之后的测序深度,采用Viterbi算法计算待测样本的每个bin的拷贝数。

进一步地,合并拷贝数与指定contig的倍性不同的bin,得到发生拷贝数变异的区域包括:根据每个bin的拷贝数,筛选拷贝数与指定contig的倍性不同的bin,得到差异bin集;将差异bin集中属于同一基因同一外显子的多个不同的bin进行合并,得到发生拷贝数变异的区域。

根据本申请的第二个方面,提供了一种拷贝数变异的检测装置,该检测装置包括:获取模块,用于获取待测样本的测序比对数据;深度计算模块,用于计算测序比对数据中每个碱基位点的测序深度;拷贝数计算模块,用于将参考基因组划分为多个bin的方式,利用每个碱基位点的测序深度,计算待测样本的每个bin的拷贝数;合并模块,用于合并拷贝数与指定contig的倍性不同的bin,得到发生胚系拷贝数变异的区域。

进一步地,获取模块包括:获取子模块,用于获取待测样本的测序原始数据;质控模块,用于对测序原始数据进行质控,得到测序比对数据;优选地,质控模块包括:去除模块,用于对测序原始数据进行预处理,去除如下至少一种reads:(1)含有接头的reads;(2)质量低于阈值的reads,得到预处理数据;比对模块,用于将预处理数据与参考基因组序列比对,得到比对结果数据;第一过滤模块,用于对比对结果数据进行过滤处理,过滤去除具有重复比对结果的reads,得到测序比对数据;更优选地,质控装置还包括第二过滤模块,用于对比对结果数据进行过滤处理,以过滤去除目标捕获区域外的reads。

进一步地,拷贝数计算模块包括:归一化模块,用于将参考基因组划分为多个bin,并对待测样本的每个bin的测序深度进行归一化处理;拷贝数计算子模块,用于利用归一化之后的测序深度计算每个bin的拷贝数;优选地,归一化模块包括:模型建立模块,用于根据用于构建基线的样本在每个bin的测序深度,利用主成分分析法建立归一化模型;归一化子模块,用于利用归一化模型对待测样本中的每个bin的测序深度进行归一化;更优选地,拷贝数计算子模块为Viterbi模块。

进一步地,合并模块包括:筛选模块,用于根据每个bin的拷贝数,筛选拷贝数与指定contig的倍性不同的bin,得到差异bin集;合并子模块,用于将差异bin集中属于同一基因同一外显子的多个不同的bin进行合并,得到发生拷贝数变异的区域。

根据本申请的第三个方面,提供了一种存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种拷贝数变异的检测方法。

根据本申请的第四个方面,提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述任一种拷贝数变异的检测方法。

应用本发明的技术方案,通过采用基于以bin的方式获得每个bin的倍性(即拷贝数),然后通过与指定的contig的倍性进行比较,对被划分为多个不同的bin,但属于同一基因相同染色体的差异bin合并,从而检测出长度超过1000bp的基因外显子的缺失或重复。与现有技术中的芯片方法相比,该方法检测CNV具有更高的覆盖度、分辨率及更准确的拷贝数评估,不仅能够检测某些已知位点的拷贝数变异情况,而且可以检测未知的拷贝数变异情况,提高检测的灵敏度。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1示出了根据本发明的一种优选的实施例的拷贝数变异的检测方法的流程示意图;

图2示出了根据本发明的实施例2的拷贝数变异的检测方法的详细流程示意图;

图3示出了根据本发明的实施例3对已知样本的拷贝数变异的检测结果验证图;

图4示出了根据本发明的一种优选的实施例的拷贝数变异的检测装置的结构示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

术语解释:

体细胞CNV:Somatic CNV,Copy number alterations/aberrations(CNAs)源于体细胞组织(比如,仅在肿瘤组织)的拷贝数的改变,在检测时通常需要正常组织做对照。

胚系CNV:Germline CNV,Copy number alterations/aberrations(CNAs)源于胚系细胞(因此,所有组织细胞)的拷贝数的改变。

Reads:高通量测序平台产生的序列就称为reads。

Contig:拼接软件基于reads之间的重叠区(overlap),拼接获得的序列称为contig(重叠群)。

指定contig:指待测物种的参考基因组的contig。人的指定contig即为24条染色体。指定contig的倍性,常染色体的倍性是2,X和Y染色的倍性是1。

测序深度:指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为10×,那么获得的总数据量为20M。

如背景技术所提到的,现有的CNV的检测方法仅能对已知的CNV进行检测,而无法检测其他可能的未知的CNV,因此,为了改善现有技术检测灵敏度低这一缺陷,本申请提出了新的改进方案。

实施例1

在本实施例中,提供了一种拷贝数变异的检测方法,如图1所示,该检测方法包括:

步骤S101,获取待测样本的测序比对数据;

步骤S103,计算测序比对数据中每个碱基位点的测序深度;

步骤S104,将参考基因组划分为多个bin的方式,利用每个碱基位点的测序深度,计算待测样本的每个bin的拷贝数;

步骤S107,合并拷贝数与指定contig的倍性不同的bin,得到发生胚系拷贝数变异的区域。

上述拷贝数变异的检测方法,通过采用基于以bin的方式获得每个bin的倍性(即拷贝数),然后通过与指定的contig的倍性进行比较,对被划分为多个不同的bin,但属于同一基因相同染色体的差异bin合并,从而检测出长度超过1000bp的基因外显子的缺失或重复。与现有技术中的芯片方法相比,该方法检测CNV具有更高的覆盖度、分辨率及更准确的拷贝数评估,不仅能够检测某些已知位点的拷贝数变异情况,而且可以检测未知的拷贝数变异情况,提高检测的灵敏度。

需要说明的是,从测序下机的原始数据(Raw Data)到能够用于进行数据处理之前,通常都需要经过预处理,得到有效数据(Clean Data)的过程。本申请中同样包括此类数据预处理的步骤。但根据具体待检测的是全基因组测序数据还是靶向目标区域的捕获文库的测序数据,在预处理步骤略有不同。当所处理的数据是来源于捕获文库的测序数据时,预处理步骤中还包括了去除目标区域之外的reads的质控步骤。

在一种优选的实施例中,获取待测样本的测序比对数据包括:获取待测样本的测序原始数据;对测序原始数据进行质控,得到测序比对数据。

在一些优选的实施例中,对测序原始数据进行质控,得到测序比对数据包括:对测序原始数据进行预处理,去除如下至少一种reads:(1)含有接头的reads;(2)质量低于阈值的reads,得到预处理数据;将预处理数据与参考基因组序列比对,得到比对结果数据;对比对结果数据进行过滤处理,过滤去除具有重复比对结果的reads,得到测序比对数据。当测序数据是全基因组测序数据时,该实施例是通过质控获得全基因组数据预处理后的有效数据。当测序数据是捕获文库的测序数据时,该实施例也是进行了常规质控的有效数据,虽包含了极少部分非目标区域的序列,但对检测结果的影响不大。

上述质量低于阈值的reads(即低质量reads)包括:包含一个以上碱基N的reads、连续5个核苷酸的平均测序质量低于阈值,比如20或30的reads。此处的低质量与常规高通量测序领域的低质量的涵义相同,广义上指无法进行有效的数据处理或者明显对处理结果有不利影响的数据。碱基N表示测序的原始数据中会有无法测出来的碱基。现有多种软件可以检测测序中碱基的测序质量,因而能够很方便地将连续5个核苷酸的平均测序质量低于20或30的reads筛选出来。

在另一些优选的实施例中,上述对比对结果数据进行过滤处理的步骤中,还进一步包括过滤去除目标捕获区域外的reads的步骤,进一步提高了目标捕获区域的比对数据的有效性,避免了非目标区域的比对数据的干扰,提高后续分析的准确性。

在一种优选的实施例中,在将参考基因组划分为多个bin的方式,计算待测样本的每个bin的拷贝数之前,检测方法还包括,将参考基因组划分为多个bin,并对待测样本的每个bin的测序深度进行归一化处理;然后利用归一化之后的测序深度计算每个bin的拷贝数。

在另一些优选的实施例中,归一化处理包括:根据用于构建基线的样本在每个bin的测序深度,利用主成分分析法建立归一化模型;利用归一化模型对待测样本中的每个bin的测序深度进行归一化;优选地,利用归一化之后的测序深度,采用Viterbi算法计算待测样本的每个bin的拷贝数。

上述实施例通过采用基于检测之前的对照样本(比如,健康样本)建立的测序深度基线(baseline)对待检测样本的测序深度进行归一化,之后用Viterbi算法获得每个bin的倍性。Viterbi算法是用动态规划算法得出HMM(隐马尔可夫规则)的最大似然值,确定待测样本在某个bin的状态是中性、缺失或重复。HMM矩阵是根据PCA模型转换的。

主成分分析(Principal Component Analysis,PCA)是一种数据降维的统计方法。PCA的原理是通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。利用该方法能够把多维数据中影响较大的因素提取出来进行分析,既方便数据处理,又使分析结果偏差较小。PCA归一化的过程如下:将待检测样本和构建基线的样本(比如,共S个),根据划分的bins(比如,共T个)建立测序深度矩阵,取每个bin的样本测序深度的平均值,建立长度为T的PCA公式,每个PCA公式包含M个向量。

在一种优选的实施例中,上述合并拷贝数与指定contig的倍性不同的bin,得到发生拷贝数变异的区域包括:根据每个bin的拷贝数,筛选拷贝数与指定contig的倍性不同的bin,得到差异bin集;将差异bin集中属于同一基因同一外显子的多个不同的bin进行合并,得到发生拷贝数变异的区域。

CNV检测时,会将参考基因组根据设定的值(比如50bp,100bp等)分割为不同的bin。指定contig的倍性是根据参考基因组预设的每个contig的倍性,比如人基因组是22对常染色体+XY,常染色体contig倍性为2,X和Y染色体倍性分别为1。指定contig的倍性用来与检出的bins的拷贝数相比较,从而筛选出差异的bins。

上述合并指同一基因同一外显子分割为不同区域的合并。因为在CNV检测时,会将参考基因组根据设定的值(50bp,100bp等)分割为不同的bin,并分bins检测,检测后得到拷贝数(或倍性)与参考基因组倍性不同的bins,这些bins根据基因的外显子合并。上述实施例对同一基因相同染色体的存在差异倍性的bin进行合并,最后仅报出长度超过1000bp的基因外显子的缺失或重复。

实施例2

本实施例提供了一种具体的拷贝数变异的检测方法,如图2所示,包括如下步骤:

1.数据预处理

输入NGS数据fastq格式的结果文件,产生bam格式的序列比对结果。

1)原始下机数据预处理,去除包含接头、低质量的reads。

2)处理后的原始数据与参考基因组比对,得到bam格式的比对结果文件;

3)去除捕获芯片范围以外的序列比对结果;

4)去除比对结果文件中重复的reads,得到不包含重复比对结果的bam文件;

2.计算每个碱基位点的测序深度

计算bam文件中指定区域上每个碱基位点的测序深度,得到tsv格式的文件。

3.根据测序深度、指定contig的倍性确定发生CNV的区域。

1)测序深度归一化

根据构建基线的样本在每个位点的测序深度,PCA算法建立模型,对待分析样本的深度进行归一化。

2)按bin对基因组进行划分,采用Viterbi算法确定每个bin的拷贝数。

3)合并拷贝数与设定contig倍性不同的bin,得到发生CNV的区域。

4.CNV的注释及过滤

将发生CNV的区域注释到基因,根据基因的外显子/内含子合并被分割到不同bin的相邻的区域。

实施例3

利用实施例2的方法,对拷贝数变异已知的阳性样本进行检测,结果如图3所示,其中,横轴为样本,纵轴为拷贝数,深灰色表示阳性样本结果,浅灰色表示检测结果。从检测结果可以看出,检测结果与已知结果一致,可见本申请的检测方法不仅能全部检测所有变异位点,而且检测准确性高。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得计算设备执行本发明各个实施例所述的方法,或者是使得处理器来执行本发明各个实施例所述的方法。

实施例4

本实施例提供了一种拷贝数变异的检测装置,如图4所示,该检测装置包括:获取模块20、深度计算模块40、拷贝数计算模块60及合并模块80,获取模块20用于获取待测样本的测序比对数据;深度计算模块40用于计算测序比对数据中每个碱基位点的测序深度;拷贝数计算模块60用于将参考基因组划分为多个bin的方式,利用每个碱基位点的测序深度,计算待测样本的每个bin的拷贝数;合并模块80用于合并拷贝数与指定contig的倍性不同的bin,得到发生拷贝数变异的区域。

上述拷贝数变异的检测装置,通过获取模块和深度计算模块获得各碱基位点的测序深度,然后采用拷贝数计算模块,基于以bin的方式获得每个bin的倍性(即拷贝数),然后通过合并模块将各bin的拷贝数与指定的contig的倍性进行比较,并将划分为多个不同的bin,但属于同一基因相同染色体的差异bin合并,从而检测出长度超过一定比例的基因外显子的缺失或重复。与现有技术中的芯片方法相比,该装置检测CNV具有更高的覆盖度、分辨率及更准确的拷贝数评估,不仅能够检测某些已知位点的拷贝数变异情况,而且可以检测未知的拷贝数变异情况,提高检测的灵敏度。

在一种优选的实施例中,上述获取模块包括:获取子模块,用于获取待测样本的测序原始数据;质控模块,用于对测序原始数据进行质控,得到测序比对数据。

在一种优选的实施例中,质控模块包括:去除模块,用于对测序原始数据进行预处理,去除如下至少一种reads:(1)含有接头的reads;(2)质量低于阈值的reads,得到预处理数据;比对模块,用于将预处理数据与参考基因组序列比对,得到比对结果数据;第一过滤模块,用于对比对结果数据进行过滤处理,过滤去除具有重复比对结果的reads,得到测序比对数据。

在一种优选的实施例中,质控装置还包括第二过滤模块,用于对比对结果数据进行过滤处理,以过滤去除目标捕获区域外的reads。

在一种优选的实施例中,拷贝数计算模块包括:归一化模块,用于将参考基因组划分为多个bin,并对待测样本的每个bin的测序深度进行归一化处理;拷贝数计算子模块,用于利用归一化之后的测序深度计算每个bin的拷贝数。

在一种优选的实施例中,归一化模块包括:模型建立模块,用于根据用于构建基线的样本在每个bin的测序深度,利用主成分分析法建立归一化模型;归一化子模块,用于利用归一化模型对待测样本中的每个bin的测序深度进行归一化;

在一种优选的实施例中,拷贝数计算子模块为Viterbi模块。

在一种优选的实施例中,合并模块包括:筛选模块,用于根据每个bin的拷贝数,筛选拷贝数与指定contig的倍性不同的bin,得到差异bin集;合并子模块,用于将差异bin集中属于同一基因同一外显子的多个不同的bin进行合并,得到发生拷贝数变异的区域。

实施例5

本实施例还提供了一种存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种拷贝数变异的检测方法。

本实施例还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任一种拷贝数变异的检测方法。

从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:本申请的方法和装置,通过采用基于以bin的方式获得每个bin的倍性(即拷贝数),尤其是基于基线对待检测样本的测序深度进行归一化,之后(用Viterbi算法)获得的每个bin的倍性,然后通过与指定的contig的倍性进行比较,找到倍性存在差异的bin,最后将被划分为多个不同的bin,但属于同一基因相同染色体的差异bin进行合并,从而检测出长度超过一定比例的基因外显子的缺失或重复。与现有技术中的芯片方法相比,该方法检测CNV具有更高的覆盖度、分辨率及更准确的拷贝数评估,不仅能够检测某些已知位点的拷贝数变异情况,而且可以检测未知的拷贝数变异情况,提高检测的灵敏度。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基因变异顺反位置关系检测方法、装置、设备和存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!