Pacbio三代测序数据的处理方法

文档序号:1339747 发布日期:2020-07-17 浏览:29次 >En<

阅读说明:本技术 Pacbio三代测序数据的处理方法 (Processing method of Pacbio third-generation sequencing data ) 是由 田仕林 王雪涵 曹丽蓉 于 2020-04-23 设计创作,主要内容包括:本发明公开了一种Pacbio三代测序数据的处理方法。该处理方法包括:通过程序对来自Pacbio三代测序系统的测序数据进行处理,其中,程序的输入包括测序数据,程序调用至少一个工具对测序数据进行处理,其中,程序在调用至少一个工具之前,将需要输入到至少一个工具的数据配置为该工具相匹配的格式;程序将格式匹配之后的数据作为输入数据输入到至少一个工具。应用本发明的技术方案,建成一整套自动化Pacbio三代测序数据分析流程,从而方便快捷的完成对Pacbio基因组重测序数据的分析,解决了现有技术中对三代测序的结果文件进行人工整理耗时长,效率低的技术问题。(The invention discloses a processing method of Pacbio third-generation sequencing data. The processing method comprises the following steps: processing sequencing data from a Pacbio three-generation sequencing system by a program, wherein the input of the program comprises the sequencing data, the program calls at least one tool to process the sequencing data, and the program configures the data required to be input into the at least one tool into a format matched with the tool before calling the at least one tool; the program inputs the data after format matching as input data to at least one tool. By applying the technical scheme of the invention, a whole set of automatic Pacbio third-generation sequencing data analysis process is built, so that the analysis of the Pacbio genome re-sequencing data is conveniently and quickly completed, and the technical problems of long time consumption and low efficiency in manual arrangement of third-generation sequencing result files in the prior art are solved.)

Pacbio三代测序数据的处理方法

技术领域

本发明涉及生物信息技术领域,具体而言,涉及一种Pacbio三代测序数据的处理方法。

背景技术

基因组是生物体细胞内所有遗传信息,以核苷酸形式储存。对基因组的高通量测序,能够更加深入的研究生物的各种遗传信息,对解密基因与性状的关系具有重要作用。现阶段高通量测序技术很多类型,其中,以单分子实时(SMRT)测序技术为原理的Pacbio测序读长长,通量高,能够保证均匀的覆盖度。测序数据的增多也增加了数据需要高效分析的需求。

目前,已有关于对二代测序数据进行自动化分析的方法,但对三代数据的分析还需要人工对每一步进行整理及操作。其中,对于Pacbio基因组重测序数据分析步骤比较固定,但需要人工对每一步的结果文件进行整理再衔接下一步工作,耗时长,效率低。

发明内容

本发明旨在提供一种Pacbio三代测序数据的处理方法,以解决现有技术中对三代测序的结果文件进行人工整理耗时长,效率低的技术问题。

为了实现上述目的,根据本发明的一个方面,提供了一种Pacbio三代测序数据的处理方法。该处理方法包括:通过程序对来自Pacbio三代测序系统的测序数据进行处理,其中,程序的输入包括测序数据,程序调用至少一个工具对测序数据进行处理,其中,程序在调用至少一个工具之前,将需要输入到至少一个工具的数据配置为该工具相匹配的格式;程序将格式匹配之后的数据作为输入数据输入到至少一个工具。

进一步地,程序调用的至少一个工具包括以下至少之一:读取reads长度的工具、与参考基因组进行比对的工具、对比对后的结果进行处理的工具、检测结构变异的工具、检测拷贝数变异的工具、检测样本单核苷酸多态性位点与插入缺失位点的工具、对变异类型数目进行统计的工具。

进一步地,程序获取调用至少一个工具进行处理之后输出的结果,并根据结果生成报告。

进一步地,程序的输入至少包括:待处理的数据以及待调用的工具,其中,程序调用待调用的工具对待处理的数据进行处理。

进一步地,程序依次调用与参考基因组进行比对的工具、对比对后的结果进行处理的工具、检测结构变异的工具、检测拷贝数变异的工具、检测样本单核苷酸多态性位点与插入缺失位点的工具、以及对变异类型数目进行统计的工具,程序在调用下一个工具之前,将上一个工具的输出配置为与下一个工具相匹配的格式,并输入到下一个工具。

进一步地,程序将调用的每个工具生成的结果文件保存至一个目录。

进一步地,程序被运行之后可生成一个投递任务的脚本,投递至SGE任务系统。

进一步地,读取reads长度的工具为samtools;和/或,与参考基因组进行比对的工具为ngmlr和pbsmrtpipe;和/或,对比对后的结果进行处理的工具为samtools和pbsmrtpipe;和/或,检测结构变异的工具为sniffles;和/或,检测拷贝数变异的工具为control-freec;和/或,检测样本单核苷酸多态性位点与插入缺失位点的工具pbsmrtpipe;和/或,对变异类型数目进行统计的工具annovar。

进一步地,程序为perl语言及shell语言。

应用本发明的技术方案,建成一整套自动化Pacbio三代测序数据分析流程,从而方便快捷的完成对Pacbio基因组重测序数据的分析,解决了现有技术中对三代测序的结果文件进行人工整理耗时长,效率低的技术问题。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

针对现有技术中对三代测序的结果文件进行人工整理耗时长,效率低的技术问题,本发明提出了下列技术方案,旨在基于整合三代Pacbio基因组重测序数据分析过程,实现下机数据在通过配置好相应参数后自动分析每一个步骤,优选的,进一步并生成分析报告,节省分析过程的人力与时间,提高分析效率。

根据本发明一种典型的实施方式,提供一种Pacbio三代测序数据的处理方法。该处理方法包括:通过程序对来自Pacbio三代测序系统的测序数据进行处理,其中,程序的输入包括测序数据,程序调用至少一个工具对测序数据进行处理,其中,程序在调用至少一个工具之前,将需要输入到至少一个工具的数据配置为该工具相匹配的格式;程序将格式匹配之后的数据作为输入数据输入到至少一个工具。

应用本发明的技术方案,建成一整套自动化Pacbio三代测序数据分析流程,从而方便快捷的完成对Pacbio基因组重测序数据的分析,解决了现有技术中对三代测序的结果文件进行人工整理耗时长,效率低的技术问题。

在本发明一种典型的实施方式中,程序调用的至少一个工具包括以下至少之一:读取reads长度的工具、与参考基因组进行比对的工具、对比对后的结果进行处理的工具、检测结构变异的工具、检测拷贝数变异的工具、检测样本单核苷酸多态性位点与插入缺失位点的工具、对变异类型数目进行统计的工具。采用上述工具对Pacbio三代测序数据中的基因变异进行分析,提供分析效率。

优选的,程序获取调用至少一个工具进行处理之后输出的结果,并根据结果生成报告,节省分析过程的人力与时间,提高分析效率。

在本发明一典型的实施方式中,程序的输入至少包括:待处理的数据以及待调用的工具,其中,程序调用待调用的工具对待处理的数据进行处理。优选的,程序依次调用与参考基因组进行比对的工具、对比对后的结果进行处理的工具、检测结构变异的工具、检测拷贝数变异的工具、检测样本单核苷酸多态性位点与插入缺失位点的工具、以及对变异类型数目进行统计的工具,程序在调用下一个工具之前,将上一个工具的输出配置为与下一个工具相匹配的格式,并输入到下一个工具。

根据本发明一种典型的实施方式,程序将调用的每个工具生成的结果文件保存至一个目录。优选的,程序被运行之后可生成一个投递任务的脚本,投递至SGE任务系统。

在本发明一典型的实施方式中,读取reads长度的工具为samtools;和/或,与参考基因组进行比对的工具为ngmlr和pbsmrtpipe;和/或,对比对后的结果进行处理的工具为samtools和pbsmrtpipe;和/或,检测结构变异的工具为sniffles;和/或,检测拷贝数变异的工具为control-freec;和/或,检测样本单核苷酸多态性位点与插入缺失位点的工具pbsmrtpipe;和/或,对变异类型数目进行统计的工具annovar;典型的,程序为perl语言及shell语言。

在本发明一实施例中,基于Pacbio三代测序的变异检测分析方法包括以下步骤:1)原始下机数据质控;2)下机数据与参考基因组做比对,统计比对效果;3)检测样本的拷贝数变异(CNV)与结构变异(SV),对变异位点进行注释;4)检测样本的单核苷酸多态性(SNP)与插入缺失位点(InDel),对变异位点进行注释;5)根据上述Pacbio三代测序数据的处理方法自动得出分析报告;6)自行整理分析得到的主要结果文件。优选的,在本实施例中,具体包括:(1)利用软件samtools读取下机数据中每条reads的长度,使用shell(stat.sh)脚本统计测序得到的reads数目、碱基数、reads长度平均值、N50值;(2)脚本Pacbio_Mapping.sh整合整个比对过程,利用软件ngmlr将下机数据与参考基因组做比对得到比对后的bam文件,利用软件samtools对比对后的bam文件进行排序并建立索引文件,整理比对过程得到的比对率结果;(3)利用sniffles检测结构变异(SV),利用Control-Freec软检测拷贝数变异(CNV);(4)利用pbsmrtpipe软件检测样本单核苷酸多态性位点(SNP)与插入缺失位点(InDel);(5)将以上(3)、(4)检测得到变异位点文件(vcf)分别使用annovar软件进行注释,并统计各个变异类型数目;(6)使用本发明的perl脚本(Pacbio_report.pl)自动生成报告。(7)自动整理每一步生成的结果文件至一个目录,方便查看与后期分析的使用。

其中,本发明的perl脚本为主程序pipline,pipline中还会调用一些包含格式转换、结果提取、数据整理、生成报告等perl及shell脚本。运行该pipline会根据样本信息生成适用于SGE任务系统的脚本,该脚本按照相应分析顺序集成了整套流程的子脚本(也为pipline所自动生成,包含使用软件处理数据、使用脚本处理格式、使用脚本收集信息等)。

本发明实施例中pipline使用说明:

上述脚本即为本发明一实施例中的pipline使用说明,解释如下:

--infile:输入文件,包含样本名称、性别,及样本原始数据的路径。如一个样本有多个路径,pipline也可自动处理。

--analy_array:分析模块的选择。

1为对原始数据进行QC统计,并生成QC报告、将原始数据及转换后的数据(fasta)放入当前路径的Result/qc路径下。2为使用NGMLR软件进行Mapping操作,并生成Mapping报告、整理结果文件(Aligned bam)。3为使用Smrtlink pipe进行Variation Calling,并生成Variation报告、整理变异注释结果文件(vcf、annovar.hg19_multianno.xls)至Result/primary。4、5分别为CNV、SV Calling,并生成SV报告、整理变异注释结果文件(gff、hg19_multianno.xls)至Result/primary。

--newjob:为生成SGE任务投递系统脚本的名称。

--startpoint:起始位点。可以根据需求,改变SGE任务投递系统脚本中起始分析的位点。可从流程中间进行运行。

按照上述实例运行后,可以得到名字为work_ANA.job的文件,运行命令:sjmwork_ANA.job即可启动整套流程,待流程跑完后,可以在当前目录的Report目录下找到结果报告,在当前路径的Result目录下可找到有用的分析结果。

上述脚本运行生成的报告(集成在总脚本pipline中的,根据--reporttype指定生成报告的类型(qc,sv,variation),其他参数同主脚本参数):

本发明集成了包含数据分析、数据处理等各项软件、脚本,是按照一定顺序组合到一起,只要输入样本数据并运行该pipline即可得出包含SV、CNV、SNP、INDEL变异信息的报告及结果。本发明集成的各项数据分析的软件都需要一定的输入文件及对应的格式,不同软件的输入格式均不同,常规去操作需要处理每个软件的对应输入格式,本发明解决了手动处理各项软件输入格式问题。而对于Pacbio数据处理不了解的人员,还省去了查找各项软件的使用方法、使用参数的时间,减少数据分析的弯路。

本发明针对集群SGE任务管理系统进行编写,运行本发明的pipline,即可生成一个投递任务的job脚本,投递至SGE任务系统即可按照一定的顺序自动运行流程处理数据,跑断重新投递还可根据当前流程位置继续运行;本发明选择了一些权威、使用广的软件进行数据的处理,使本发明使用者无需寻找何种软件去进行数据分析,可自动设置最佳的参数;本发明还可以集成自动生成结果报告的脚本及结果数据的脚本,两个脚本排列在整套流程的末尾,根据在此之前的各种软件的分析结果进行整理,将得到的整理好的数据放入结果报告中,作为对整套数据分析结果的展示。而分析结果会用整理结果数据的脚本进行整理,选择对于科研等研究有用的结果文件存放至指定的目录下,方便查阅。

从以上的描述中,可以看出,本发明上述的实施例至少实现了如下技术效果:

(1)可以基于三代Pacbio基因组重测数据进行分析,解决现有技术中对三代测序的结果文件进行人工整理耗时长,效率低的技术问题;

(2)可以根据分析内容自行选择模块,可指定从哪个步骤分析,灵活性强;

(3)可自动生成报告,方便生信人员快速浏览分析结果。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

7页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:用于预测肿瘤类型的方法、电子设备和计算机存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!