检测tmb的方法及装置

文档序号:1629550 发布日期:2020-01-14 浏览:32次 >En<

阅读说明:本技术 检测tmb的方法及装置 (Method and device for detecting TMB ) 是由 董永芳 郭璟 楼峰 曹善柏 于 2019-10-18 设计创作,主要内容包括:本发明提供了一种检测TMB的方法及装置。该方法包括:利用配对白细胞的测序数据去除待测样本的测序数据中的胚系突变位点得到候选体细胞突变位点集;过滤候选体细胞突变位点集中的假阳性体细胞突变位点得到待测体细胞突变位点集,假阳性体细胞突变位点包括如下至少之一:氧化损伤导致的突变位点,背景噪音导致的突变位点;将待测体细胞突变位点集中的负荷突变个数除以测序数据在外显子区域的所有长度,得到TMB。通过充分利用配对白细胞、背景噪音突变频率分布数据库及氧化损伤来去除假阳性体细胞突变,从而提高了TMB的准确性及稳定性。(The invention provides a method and a device for detecting TMB. The method comprises the following steps: removing the germ line mutation sites in the sequencing data of the sample to be detected by using the sequencing data of the paired white blood cells to obtain a candidate somatic mutation site set; filtering false positive somatic mutation sites in the candidate somatic mutation site set to obtain a somatic mutation site set to be detected, wherein the false positive somatic mutation sites comprise at least one of the following sites: sites of mutations due to oxidative damage, sites of mutations due to background noise; and dividing the number of load mutations in the somatic mutation site set to be detected by all the lengths of the sequencing data in the exon region to obtain the TMB. False positive somatic mutation is removed by fully utilizing paired white blood cells, a background noise mutation frequency distribution database and oxidative damage, so that the accuracy and stability of TMB are improved.)

检测TMB的方法及装置

技术领域

本发明涉及基因测序数据分析领域,具体而言,涉及一种检测TMB的方法及装置。

背景技术

肿瘤突变负荷(Tumor Mutation Burden,TMB)是反应肿瘤细胞中总的一个指标,通常以每百万碱基(Mb)的肿瘤基因组区域中包含的肿瘤体细胞突变总数来表示。TMB水平高的肿瘤,代表其肿瘤细胞中的突变数量越多,进一步表示肿瘤细胞中能被免疫系统识别的肿瘤新生抗原(Neoantigen)数量可能越多,从而帮助免疫细胞产生对肿瘤细胞越有效的杀伤作用。

目前常用的肿瘤突变负荷检测方法是Lawrence团队2015年在Nature上提出的策略,通过计算全外显子组(平均深度<200X)的体细胞突变数目来判断肿瘤突变负荷状态。然而,这种方法时常有假阳性和假阴性情况发生。

因此,急需开发一种新的方法用来检测TMB。

发明内容

本发明的主要目的在于提供一种检测TMB的方法及装置,以解决现有技术中对TMB检测不准确的问题。

为了实现上述目的,根据本发明的一个方面,提供了一种检测TMB的方法,该方法包括:利用配对白细胞的测序数据去除待测样本的测序数据中的胚系突变位点,得到候选体细胞突变位点集;过滤候选体细胞突变位点集中的假阳性体细胞突变位点,得到待测体细胞突变位点集,假阳性体细胞突变位点包括如下至少之一:氧化损伤导致的突变位点,背景噪音导致的突变位点;将待测体细胞突变位点集中的负荷突变个数除以测序数据在外显子区域的所有长度,得到TMB。

进一步地,假阳性体细胞突变位点包括氧化损伤导致的突变位点,过滤候选体细胞突变位点集中的假阳性体细胞突变位点之前,方法还包括判断候选体细胞突变位点集中的体细胞突变位点是否为氧化损伤导致的突变位点。

进一步地,判断候选体细胞突变位点集中的体细胞突变位点是否为氧化损伤导致的突变位点包括:查找支持候选体细胞突变位点的reads,并判断reads位于正链还是负链;统计支持候选体细胞突变位点的正链的reads的数目与负链的reads的数目的比值,判断比值是否大于第一阈值或者小于第二阈值,若是,则候选体细胞突变位点为氧化损伤导致的突变位点;优选地,第一阈值大于等于2,第二阈值小于等于0.5。

进一步地,假阳性体细胞突变位点集包括背景噪音导致的突变位点,过滤候选体细胞突变位点集中的假阳性体细胞突变位点之前,方法还包括判断候选体细胞突变位点集中的体细胞突变位点是否为背景噪音导致的突变位点。

进一步地,判断候选体细胞突变位点集中的体细胞突变位点是否为背景噪音导致的突变位点包括:利用白细胞的测序数据去除健康人群的测序数据中的胚系突变位点,获得健康人群的体细胞突变位点集;利用健康人群的体细胞突变位点集,建立各检测位点不同突变型的背景噪音突变频率的威布尔分布模型;计算待测样本的候选体细胞突变位点集中每个候选体细胞突变位点的突变频率,并计算各候选体细胞突变位点的突变频率在威布尔分布模型的P值;判断P值是否大于等于第三阈值,若是,则候选体细胞突变位点为背景噪音导致的突变位点;优选地,第三阈值大于等于0.05。

进一步地,将体细胞突变位点集中的负荷突变个数除以测序数据在外显子区域的所有长度之前,方法还包括:统计体细胞突变位点集中的负荷突变个数。

进一步地,统计体细胞突变位点集中的负荷突变个数包括:统计体细胞突变位点集中如下所有突变类型的总个数:同义突变、非同义突变、移码突变及非移码突变;从总个数中去除如下至少之一的位点,得到负荷突变个数:千人突变频率大于0.01的突变位点及标记为COSMIC的突变位点。

进一步地,将体细胞突变位点集除以测序数据在外显子区域的所有长度之前,该方法还包括:计算测序数据在外显子区域的所有长度。

为了实现上述目的,根据本发明的一个方面,提供了一种检测TMB的装置,该装置包括:检测模块、过滤模块及TMB计算模块,检测模块用于利用配对的白细胞的测序数据去除待测样本的测序数据中的胚系突变位点,得到候选体细胞突变位点集;过滤模块用于过滤候选体细胞突变位点集中的假阳性体细胞突变位点,得到待测体细胞突变位点集,假阳性体细胞突变位点包括如下至少之一:氧化损伤导致的突变位点,背景噪音导致的突变位点;TMB计算模块用于将待测体细胞突变位点集中的负荷突变个数除以测序数据在外显子区域的所有长度,得到TMB。

进一步地,装置还包括氧化损伤判断模块,用于判断候选体细胞突变位点集中的体细胞突变位点是否为氧化损伤导致的突变位点。

进一步地,氧化损伤判断模块包括:查找模块、第一统计模块及比值判断模块,查找模块用于查找支持候选体细胞突变位点的reads,并判断reads位于正链还是负链;第一统计模块用于统计支持候选体细胞突变位点的正链的reads的数目与负链的reads的数目的比值,比值判断模块用于判断比值是否大于第一阈值或者小于第二阈值,若是,则候选体细胞突变位点为氧化损伤导致的突变位点;优选地,第一阈值大于等于2,第二阈值小于等于0.5。

进一步地,装置还包括背景噪音判断模块,用于判断候选体细胞突变位点集中的体细胞突变位点是否为背景噪音导致的突变位点。

进一步地,背景噪音判断模块包括:健康位点集获取模块、模型建立模块、P值计算模块及噪音判断模块,健康位点集获取模块用于利用白细胞的测序数据去除健康人群的测序数据中的胚系突变位点,获得健康人群的体细胞突变位点集;模型建立模块用于利用健康人群的体细胞突变位点集,建立各检测位点不同突变型的背景噪音突变频率的威布尔分布模型;P值计算模块用于计算待测样本的候选体细胞突变位点集中每个候选体细胞突变位点的突变频率,并计算各候选体细胞突变位点的突变频率在威布尔分布模型的P值;噪音判断模块用于判断P值是否大于等于第三阈值,若是,则候选体细胞突变位点为背景噪音导致的突变位点;优选地,第三阈值大于等于0.05。

进一步地,该装置还包括:负荷突变个数统计模块,用于统计体细胞突变位点集中的负荷突变个数。

进一步地,负荷突变个数统计模块包括:统计单元和去除单元,统计单元用于统计体细胞突变位点集中如下所有突变类型的总个数:同义突变、非同义突变、移码突变及非移码突变;去除单元用于从总个数中去除如下至少之一的位点,得到负荷突变个数:千人频率大于0.01的突变位点及标记为COSMIC的突变位点;

进一步地,该装置还包括:长度计算模块,用于计算测序数据在外显子区域的所有长度。

根据本发明的第三个方面,提供了一种存储介质,该存储介质上存储有计算机可执行的程序,程序被设置为运行时,执行上述任一种检测TMB的方法。

根据本发明的第四个方面,提供了一种电子装置,包括存储其和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行权执行上述任一种检测TMB的方法。

应用本发明的技术方案,首先通过配对白细胞去除样本自身携带的胚系突变,大大减少了胚系突变对TMB数值的影响;其次去除由于建库,打断NDA片段等步骤造成的DNA氧化损伤导致的假阳性位点;和/或通过健康人的背景噪音频率分布数据库,去除低频背景噪音所引起的假阳性体细胞突变对TMB数值的影响,即通过充分利用配对白细胞、背景噪音突变频率分布数据库及氧化损伤来去除假阳性体细胞突变,提高TMB值的准确性及稳定性。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1示出了根据本发明的一种优选的实施例中的检测TMB的方法的流程示意图;

图2示出了根据本发明的一种优选的实施例中的检测TMB的方法的详细流程示意图;以及

图3示出了根据本发明的一种优选的实施例中的检测TMB的装置的结构示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

参考序列(Refseq):物种参考标准基因组序列。

融合基因(Fusion gene):是指两个基因的全部或一部分的序列相互融合为一个新的基因的过程。其有可能是染色体易位、中间缺失或染色体导致所致的结果。

肿瘤突变负荷(TMB,Tumor mutation burden):每百万碱基中被检测出的,体细胞基因编码错误、碱基替换、基因***或缺失错误的总数。

胚系突变(germine mutation):生殖细胞突变,源于***或卵子这些生殖细胞的突变。

Reads:基因组或转录组序列片段

同义突变:不改变肽链产物的氨基酸序列的替换突变

非同义突变:可导致多肽产物的氨基酸序列改变或功能性RNA碱基序列改变的基因突变

移码突变:DNA片段中某一位点***或丢失一个或几个(非3或3的倍数)碱基对时,造成***或丢失位点以后的一系列编码顺序发生错位的一种突变

非移码突变:DNA片段中某一位点***或丢失一个或几个(3或3的倍数)碱基对时,但不造成***或丢失位点以后的一系列编码顺序发生错位的一种突变

PE测序:双端测序,一种测序方法

read1/2:PE测序下机数据中,read1是第一轮测试得到的碱基序列,read2是第二轮测试得到的碱基序列。

bwa:一种比对方法软件,用于查找reads所在Refseq中的位置,最终可得到bam格式文件。

adapter序列:测序中DNA片段两侧的接头序列。

flag:bam格式文件中,用于描述序列比对模式、方向等信息的一个值。

cigar:简要比对信息表达式,其以参考序列为基础,使用数据加字母表示比对结果。

duplication:重复序列,指由PCR扩增的序列。

qname:比对片段的(template)的编号。

DNA氧化损伤:在A、T、G和C四种碱基中,G中的C8位置容易与氧结合,G碱基变成8-oxo-G,然后形成的8-oxo-G融合与碱基A结合,从而导致检测G到T的假阳性突变。

COSMIC:COSMIC是“癌症体细胞突变目录”的缩写,囊括了科学文献和Sanger研究所癌症基因组计划的大规模实验筛选的文献资料。该数据库旨在收集和显示癌症体细胞突变的信息。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如背景技术所提到的,现有技术中的TMB的检测方法存在检测不准确的缺陷,为了改善这一现状,发明人对现有的TMB检测方法进行了分析和研究,发现现有方法由于存在无法完全过滤白细胞突变、系统背景错误,通过突变频率阈值筛选导致过滤真实的低于阈值的突变,导致TMB计算值存在一定的偏差。在此基础上,发明人提出了本申请的改进方案。

实施例1

本申请提供了一种检测TMB的方法的实施例。

图1是根据本发明实施例的一种可选的检测TMB的方法的流程图,如图1所示,该方法包括:

步骤S101,利用配对白细胞的测序数据去除待测样本的测序数据中的胚系突变位点,得到候选体细胞突变位点集;

步骤S102,过滤候选体细胞突变位点集中的假阳性体细胞突变位点,得到待测体细胞突变位点集,假阳性体细胞突变位点包括如下至少之一:氧化损伤导致的突变位点,背景噪音导致的突变位点;

步骤S103,将待测体细胞突变位点集中的负荷突变个数除以测序数据在外显子区域的所有长度,得到TMB。

上述检测TMB的方法,首先通过配对白细胞去除样本自身携带的胚系突变,大大减少了胚系突变对TMB数值的影响;其次去除由于建库,打断NDA片段等步骤造成的DNA氧化损伤导致的假阳性位点;和/或通过健康人的背景噪音频率分布数据库,去除低频背景噪音所引起的假阳性体细胞突变对TMB数值的影响,即通过充分利用配对白细胞、背景噪音突变频率分布数据库及氧化损伤来去除假阳性体细胞突变,提高TMB值的准确性及稳定性。

上述步骤S101具体地,采用待测对象(如患者)的组织及白细胞样本,根据PE测序方法下机后的测序数据与获取的人类基因组参考序列,利用bwa软件,查找各测序序列(reads)所对应在基因中的位置,形成bam格式文件,在标记重复序列(duplication)及碱基质量值校正后,通过软件(如mutect2等)的配对检测模式进行检测,获取该待测对象的体细胞突变结果,作为后续进一步筛选用于统计突变负荷个数的候选体细胞突变位点集。

图2示出了根据本发明的一种优选的实施例中的检测TMB的方法的详细流程示意图。下面详细介绍:

步骤S110,利用配对白细胞的测序数据去除待测样本的测序数据中的胚系突变位点,得到候选体细胞突变位点集。

假阳性体细胞突变位点包括氧化损伤导致的突变位点,过滤候选体细胞突变位点集中的假阳性体细胞突变位点之前,该方法还包括:

步骤S210,判断候选体细胞突变位点集中的体细胞突变位点是否为氧化损伤导致的突变位点。任何能够判断某位点是否属于氧化损伤导致的突变位点的方法均适用于本申请。

如图2所示,在一种可选的实施例中,判断候选体细胞突变位点集中的体细胞突变位点是否为氧化损伤导致的突变位点包括:

步骤S211,查找支持候选体细胞突变位点的reads,并判断reads位于正链还是负链;

步骤S212,统计支持候选体细胞突变位点的正链的reads的数目与负链的reads的数目的比值;

步骤S213,判断比值是否大于第一阈值或者小于第二阈值,若是,则候选体细胞突变位点为氧化损伤导致的突变位点;优选地,第一阈值大于等于2,第二阈值小于等于0.5。

具体地,根据上述候选体细胞突变位点集中各突变位点的突变信息,包括染色体、位置、突变型,查找bam文件中支持该突变的reads,通过该reads的flag判断该reads为正链还是负链,最后获取支持突变的reads中的位于正链的reads数和位于负链的reads数的比值,若该比值大于2或者小于0.5,则判断该体细胞突变为DNA氧化损伤导致的假阳性体系突变,属于假阳性突变;若该比值大于等于0.5且小于等于2,则该体细胞突变为阳性体细胞突变。其中,0.5和2分别根据现有参考文献总结得出。

为了进一步提高检测的准确,在一种可选的实施例中,如图2所示,假阳性体细胞突变位点集包括背景噪音导致的突变位点,过滤候选体细胞突变位点集中的假阳性体细胞突变位点之前,上述方法还包括:

步骤S220,判断候选体细胞突变位点集中的体细胞突变位点是否为背景噪音导致的突变位点。任何能够判断某突变位点是否为背景噪音导致的突变的方法均适用于本申请。

为了更准确的检测和判断某突变位点实是否为背景噪音导致的突变,如图2所示,在一种可选的实施例中,判断候选体细胞突变位点集中的体细胞突变位点是否为背景噪音导致的突变位点包括:

步骤S221,利用白细胞的测序数据去除健康人群的测序数据中的胚系突变位点,获得健康人群的体细胞突变位点集;

步骤S222,利用健康人群的体细胞突变位点集,建立各检测位点不同突变型的背景噪音突变频率的威布尔分布模型;

步骤S223,计算待测样本的候选体细胞突变位点集中每个候选体细胞突变位点的突变频率,并计算各候选体细胞突变位点的突变频率在威布尔分布模型的P值;

步骤S224,判断P值是否大于等于第三阈值,若是,则候选体细胞突变位点为背景噪音导致的突变位点;优选地,第三阈值大于等于0.05。

上述优选实施例中,通过利用健康人群数据构建背景噪音突变频率分布模型,即威布尔分布模型,利用该模型只需将待测对象的候选体细胞突变位点集导中的变异信息导入该模型,即可计算得到每一突变位点的突变频率在该位点的威布尔分布模型的概率,若概率越小,越不符合该模型,即不属于背景噪音,属于阳性的体细胞突变;相反,如果概率超过阈值,则表明符合该模型,即属于背景噪音,为假阳性体细胞突变,应该被去除。

然后执行步骤S310,过滤候选体细胞突变位点集中的假阳性体细胞突变位点,得到待测体细胞突变位点集,假阳性体细胞突变位点包括如下至少之一:氧化损伤导致的突变位点,背景噪音导致的突变位点。

在经过上述去除假阳性的突变位点后,执行步骤S410,将待测体细胞突变位点集中的负荷突变个数除以测序数据在外显子区域的所有长度,得到TMB。

在一种可选的实施例中,将体细胞突变位点集中的负荷突变个数除以测序数据在外显子区域的所有长度之前,方法还包括:统计体细胞突变位点集中的负荷突变个数。

在一种可选的实施例中,统计体细胞突变位点集中的负荷突变个数包括:统计体细胞突变位点集中如下所有突变类型的总个数:同义突变、非同义突变、移码突变及非移码突变;从总个数中去除如下至少之一的位点,得到负荷突变个数:千人突变频率大于0.01的突变位点及标记为COSMIC的突变位点。

上述可选实施例中,在计算负荷突变个数时,排除了千人突变频率大于0.01的突变位点,即人群多态性位点,同时还排除了COSMIC中记载的突变位点,去除了标注为cosmic的突变位点,减小了样本类型引起的TMB值的波动,提高了TMB值的稳定性。其中,COSMIC目前收录的突变位点有22651741个。

在一种可选的实施例中,将体细胞突变位点集除以测序数据在外显子区域的所有长度之前,方法还包括:计算测序数据在外显子区域的所有长度。

具体地,编码区域大小的计算方法,以捕获芯片的测序数据为例,首先获取芯片捕获区域在参考基因组中所在基因、位置、转录本编号、外显子或内含子区域编号以及长度,然后统计芯片捕获区域在外显子区域的所有的长度,长度单位为Mb。

实施例2

以一临床样本为例,获取该患者组织样本及其对应的血浆样本,提取DNA建库后,利用illumina测序平台,分别得到其组织的下机数据sampA.R1.fastq.gz,sampA.R2.fastq.gz;和其白细胞数据为sampB.R1.fastq.gz,sampB.R2.fastq.gz;分别通过bwa比对,标记duplication和碱基质量值校正后,得到sampA.final.bam和sampB.final.bam。利用sampA.final.bam和sampB.final.bam,根据mutect2的配对模式对样本进行检测,得到sampA.result.vcf。利用sampA.final.bam,根据mutect2的非配对模式进行检测,得到sampA.resultWithoutSampB.vcf。按照该专利所述的过滤模块和计算模块,对sampA.resultvcf进行后续的过滤及计算,最后得到的TMB值为14.7;若按照现有方式,在检测模块时,不采用配对模式检测,且省略过滤模块的过滤操作,在计算模块中不过滤掉标记为cosic的突变,最终得到的检测结果为25.8。由此可见,现有方法检测的TMB结果偏低,且计入TMB计算值的突变存在胚系突变和常见背景系统噪音的情况,因此,相比现有方法,本申请的方法度TMB检测的准确性更高。

因此,与现有方法相比,本实施例的方法具有如下优势:

首先,充分利用了白细胞的优势,完整的去除了胚系突变结果;

其次,通过健康人背景数据集去除了背景噪音错误以及利用氧化损伤错误过滤模块去除氧化损伤错误,提高了TMB值的准确性;

再次,本发明算法去除了标注为cosmic的突变位点,减小了样本类型引起的TMB值的波动,提高了TMB值的稳定性。

实施例3

本申请还提供了一种检测TMB的装置的实施例。

图3是根据本发明实施例的一种可选的检测TMB的装置的示意图,如图3所示,该装置包括检测模块10、过滤模块20及TMB计算模块30,检测模块10用于利用配对的白细胞的测序数据去除待测样本的测序数据中的胚系突变位点,得到候选体细胞突变位点集;过滤模块20,用于过滤候选体细胞突变位点集中的假阳性体细胞突变位点,得到待测体细胞突变位点集,假阳性体细胞突变位点包括如下至少之一:氧化损伤导致的突变位点,背景噪音导致的突变位点;TMB计算模块30,用于将待测体细胞突变位点集中的负荷突变个数除以测序数据在外显子区域的所有长度,得到TMB。

上述检测TMB的装置,通过检测模块10和过滤模块20充分利用配对白细胞、背景噪音突变频率分布数据库及氧化损伤来去除假阳性体细胞突变,首先通过检测模块10配对白细胞去除样本自身携带的胚系突变,大大减少了胚系突变对TMB数值的影响;其次利用过滤模块20去除由于建库,打断NDA片段等步骤造成的DNA氧化损伤导致的假阳性位点;和/或通过健康人的背景噪音频率分布数据库,去除低频背景噪音所引起的假阳性体细胞突变对TMB数值的影响,最后通过TMB计算模块30利用去除假阳性体细胞突变后的复合突变个数进行TMB计算,提高TMB值的准确性及稳定性。

在一种可选的实施例中,上述装置还包括氧化损伤判断模块,用于判断候选体细胞突变位点集中的体细胞突变位点是否为氧化损伤导致的突变位点。任何能够判断某位点是否属于氧化损伤导致的突变位点的氧化损伤判断模块均适用于本申请。

在一种可选的实施例中,氧化损伤判断模块包括:查找模块、第一统计模块和比值判断模块,其中,查找模块,用于查找支持候选体细胞突变位点的reads,并判断reads位于正链还是负链;第一统计模块,用于统计支持候选体细胞突变位点的正链的reads的数目与负链的reads的数目的比值;比值判断模块,用于判断比值是否大于第一阈值或者小于第二阈值,若是,则候选体细胞突变位点为氧化损伤导致的突变位点。优选地,第一阈值大于等于2,第二阈值小于等于0.5。

在一种可选的实施例中,上述装置还包括背景噪音判断模块,用于判断候选体细胞突变位点集中的体细胞突变位点是否为背景噪音导致的突变位点。

为了更准确的检测和判断某突变位点实是否为背景噪音导致的突变,在一种可选的实施例中,背景噪音判断模块包括:健康位点集获取模块、模型建立模块、P值计算模块以及噪音判断模块,其中,健康位点集获取模块,用于利用白细胞的测序数据去除健康人群的测序数据中的胚系突变位点,获得健康人群的体细胞突变位点集;模型建立模块,用于利用健康人群的体细胞突变位点集,建立各检测位点不同突变型的背景噪音突变频率的威布尔分布模型;P值计算模块,用于计算待测样本的候选体细胞突变位点集中每个候选体细胞突变位点的突变频率,并计算各候选体细胞突变位点的突变频率在威布尔分布模型的P值;噪音判断模块,用于判断P值是否大于等于第三阈值,若是,则候选体细胞突变位点为背景噪音导致的突变位点。优选地,第三阈值大于等于0.05。

上述优选实施例中,通过利用健康人群数据构建背景噪音突变频率分布模型,即威布尔分布模型,利用该模型只需将待测对象的候选体细胞突变位点集导中的变异信息导入该模型,即可计算得到每一突变位点的突变频率在该位点的威布尔分布模型的概率,若概率越小,越不符合该模型,即不属于背景噪音,属于阳性的体细胞突变;相反,如果概率超过阈值,则表明符合该模型,即属于背景噪音,为假阳性体细胞突变,应该被去除。

在一种可选的实施例中,上述装置还包括:负荷突变个数统计模块,用于统计体细胞突变位点集中的负荷突变个数。

在一种可选的实施例中,负荷突变个数统计模块包括:统计单元和去除单元,其中,统计单元,用于统计体细胞突变位点集中如下所有突变类型的总个数:同义突变、非同义突变、移码突变及非移码突变;去除单元,从总个数中去除如下至少之一的位点,得到负荷突变个数:千人频率大于0.01的突变位点及标记为COSMIC的突变位点;

在一种可选的实施例中,上述装置还包括:长度计算模块,用于计算测序数据在外显子区域的所有长度。

上述的装置可以包括处理器和存储器,上述单元均可以作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。

上述本申请实施例的顺序不代表实施例的优劣。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。

其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

15页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于Python的水文地球化学舒卡列夫分类方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!