一种泛基因组的构建方法及其相应的结构变异挖掘方法

文档序号:170920 发布日期:2021-10-29 浏览:45次 >En<

阅读说明:本技术 一种泛基因组的构建方法及其相应的结构变异挖掘方法 (Pangenome construction method and corresponding structural variation mining method ) 是由 赵均良 李方平 王健 杨武 刘斌 杨梯丰 陈洛 于 2021-08-06 设计创作,主要内容包括:本发明属于基因组数据分析技术领域,具体涉及一种泛基因组的构建方法及其相应的结构变异挖掘方法,通过把基因组比较得到的结构变异放回线性基因组上,同时增加结构变异位点信息文件,构建一种形式上线性化,兼顾多种结构变异形式的高效分析的泛基因组;所述泛基因组不但可以捕获更多全新的,参考基因组未发现的结构变异,而且通过线性化方法结合变异位点信息文件,更好的展示了捕获到的结构变异,使构建的泛基因组更容易理解和分析,更有利于后续应用;本发明构建的泛基因组和二代测序数据进行基因组结构变异分析的方法和流程,并编写了完整的程序代码,实现了基于相对低成本的二代测序数据对结构变异的高效、精准挖掘。(The invention belongs to the technical field of genome data analysis, and particularly relates to a construction method of a pan-genome and a corresponding structural variation mining method thereof, wherein the structural variation obtained by genome comparison is put back to a linear genome, and meanwhile, a structural variation site information file is added to construct a pan-genome which is linearized in form and gives consideration to efficient analysis of various structural variation forms; the pan-genome can capture more and new structural variations which are not found in a reference genome, and the captured structural variations are better displayed by combining a variation site information file through a linearization method, so that the constructed pan-genome is easier to understand and analyze and is more favorable for subsequent application; the method and the process for analyzing the genome structural variation of the pan-genome and the second-generation sequencing data constructed by the invention write complete program codes, and realize the efficient and accurate mining of the structural variation based on the second-generation sequencing data with relatively low cost.)

一种泛基因组的构建方法及其相应的结构变异挖掘方法

技术领域

本发明属于基因组数据分析技术领域,具体涉及一种泛基因组的构建方法及其相应的结构变异挖掘方法。

背景技术

泛基因组是指群体中全部的基因组变异的总和。通过捕获和呈现群体中全部的基因组变异,泛基因组为功能基因组学研究提供完整的、包含群体全部基因组变异的参考基因组。泛基因组在基因组的变异分析,尤其是基因组结构变异分析中具有重要应用。

目前泛基因组构建的策略和技术有很大的局限性,常见的技术如运用二代测序数据进行迭代组装的策略,以参考基因组与测序数据比对的map-to-pan策略等。但这些技术构建的泛基因组质量低,完整性较差,在后续分析中应用受到很大限制。通过对多个完整的基因组进行比较的策略构建的泛基因组,其完整性和质量都非常高,是目前较好的泛基因组构建策略。

基于全基因组比较进行的泛基因组构建,目前有多种不同的技术方案,其中基于图论的方法构建图形化泛基因组的技术方案是目前应用较多的泛基因组构建策略。这种方案可以更多保存群体内基因组变异,但是在这些变异的呈现以及后续利用方面,图形化泛基因组具有很大的缺陷。首先是图形化泛基因组以极其复杂的方式组织所有的基因组变异,形成复杂的多维变异信息结构,研究人员难以直观理解,更难以进行直接处理和分析,导致这类泛基因组极难在研究中广泛应用。另外,图形化泛基因组在应用过程中对计算资源要求巨大,限制了其在大规模广泛分析中的应用。因此,如何合理、高效呈现复杂的基因组结构变异,为研究人员提供简单、容易操作的泛基因组,是目前泛基因组构建和应用领域的亟需解决根本性技术问题。

泛基因组最重要的应用是进行基因组结构变异分析。因此,与泛基因组构建方法密切关联的是基于泛基因组的基因组结构变异分析方法。不同方法构建的泛基因组具有不同形式的变异数据组织方式,必须创建一套与泛基因组构建方案相对应的结构变异分析方法。只有泛基因组构建方法及与之配套的基因组结构变异分析方法共同使用,才能最大程度发挥泛基因组的优势,实现基因组结构变异高效精准分析。

发明内容

针对上述问题,本发明提供了一种泛基因组的构建方法及其相应的结构变异挖掘方法,通过增加变异信息文件,实现对多维变异信息进行简化,构建一种形式上线性化,兼顾多种结构变异形式的高效分析的泛基因组,以及基于本发明构建的泛基因组为参考基因组,利于Illumina二代测序数据进行基因组结构变异鉴定分析方法,实现了高效、精准的基因组结构变异分析和鉴定。

本发明的技术内容如下:

本发明提供了一种泛基因组的构建方法,包括如下步骤:

1)设定参考基因组和比对基因组,如果有多个比较基因组,则根据用户设定的顺序,排序第一的为第一轮比对基因组,排序第二的基因组为第二轮比对基因组,如此类推;

2)将参考基因组与比对基因组序列中的每单个染色体序列进行拆分,设置参考基因组和比对基因组同一染色体对应的名称;

3)将步骤2)设置的同一染色体通过比对软件进行序列比对,获取参考基因组和比对基因组在该染色体上的序列共线性特征;

4)将步骤3)获取的序列共线性特征通过结构变异提取软件,进行结构变异位点鉴定;

5)对步骤4)产生的结构变异位点进行筛选,选择与参考基因组比对为“插入变异”的结构变异,将插入结构变异的序列插入至参考基因组相应位置中,生成包含所有新插入片段和原始参考基因组序列的全新基因组序列,形成泛基因组,生成记录插入位点信息的文件;

6)若用户输入的基因组数目大于2,排序第二或及以后的比对基因组依次作为应比对基因组文件,则以上一轮生成的泛基因组为参考基因组,重复步骤2)~步骤5),最终生成泛基因组文件及包含插入位点变异信息的文件;

步骤3)所述比对软件包括MUMMER与Lastz;

步骤4)所述结构变异提取软件包括SVMU;

步骤5)所述插入位点信息包括插入位点以及插入长度等。

本发明还提供了一种基于泛基因组相应的结构变异挖掘方法,包括如下步骤:

a)将权利要求1构建的泛基因组作为参考基因组,通过比对软件,将Illumina二代测序数据比对到参考基因组上,生成比对文件;

b)根据权利要求1所述步骤6)中生成的变异位点信息文件位点,提取变异插入位点的测序数据覆盖度数据,生成变异位点测序数据覆盖度文件;

c)根据步骤b)的变异位点测序数据覆盖度文件,通过设定覆盖度阈值的方式,判断插入位点结构变异的存在或不存在,从而获得基于Illumina二代测序数据的样品基因组结构变异情况;

所采用的Illumina二代测序技术是目前最主流、成本较低的测序解决方案,但由于其测序数据读长短,对基因组结构变异分析效果极差,本发明通过构建泛基因组实现了高效、精准的基因组结构变异分析和鉴定,突破了目前二代测序进行结构变异分析的技术瓶颈;

步骤a)所述使用比对软件包括Bowtie2;

步骤b)所述序列提取软件包括Samtools;

步骤c)所述覆盖度阈值为用户设定,若变异位点illumina的短片段测序数据覆盖度大于比对覆盖度大于阈值,则说明该样本基因组序列比对覆盖此存在该变异片段,该样品存在此处变异位点,反之,则不存在。

本发明的有益效果如下:

本发明的线性泛基因组构建,是一种全新的泛基因组构建策略和方法。通过对完整组装的基因组进行比较从而构建得到,实现高质量的泛基因组构建。本发明把基因组比较得到的结构变异放回线性基因组上,同时增加结构变异位点信息文件,实现对多维变异信息进行简化,构建一种形式上线性化,兼顾多种结构变异形式的高效分析的泛基因组;本发明涉及的泛基因组构建方案不但可以完整捕获基因组之间的变异,同时实现复杂变异结构线性化组织,使构建的更容易理解、解读,更重要的是更易于后续的应用,且由于采用线性化基因组组织方法,极大减低了后续应用过程中的计算资源需求,可以实现大规模应用;

基于本发明构建的泛基因组为参考基因组,利用Illumina二代测序平台得到的测序数据进行泛基因组相应的结构变异挖掘和分析,可以实现大规模精准结构变异分析。本发明构建了高质量泛基因组,进一步以该泛基因组为参考基因组,把二代测序数据与泛基因组比对,结合本发明构建的泛基因组的变异信息文件,实现了高效、精准的基因组结构变异分析和鉴定,突破了目前二代测序进行结构变异分析的技术瓶颈。

附图说明

图1为本发明的泛基因组构建策略和流程示意图;

图2为利用本发明构建的泛基因组和Illumina测序数据鉴定基因组结构变异的原理和流程示意图。

具体实施方式

以下通过具体的实施案例以及附图说明对本发明作进一步详细的描述,应理解这些实施例仅用于说明本发明而不用于限制本发明的保护范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定。

若无特殊说明,本发明的所有原料和试剂均为常规市场的原料、试剂。

实施例1

水稻泛基因组的构建:

以水稻日本晴(Nipponbare)基因组(IRGSP1.0,从https://rapdb.dna.affrc.go.jp/网站下载,基因组序列文件为Nipponbare.fasta),L32和P106是两个水稻品种的完整组装基因组,基因组序列文件分别为L32.fasta和P106.fasta。

泛基因组按如下步骤构建:

1)生成一个名字为location.lg的文件,文件信息如下:

Mummer=/home/lfp/soft/mummer-4.0.0beta2/

Lastz=/home/lfp/soft/lastz/src/

svmu=/home/lfp/soft/svmu/

bowtie2=/home/lfp/miniconda3/bin/

Samtools=/home/lfp/miniconda3/bin/

ref=Nipponbare.fasta

query=L32.fasta, P106.fasta

该文件用于设定Mummer,Lastz,svmu,bowtie2和Samtools软件可执行文件的位置,用于运行过程中调用。设定ref(参考基因组)为Nipponbare.fasta,query(比对基因组)为L32.fasta和P106.fasta,构建泛基因组顺序是先用L32构建,再用P106构建。

2)生成pair.cfg文件,把参考基因组和比对基因组相同染色体在基因组文件中的名称进行配对,文件信息如下:

chr01——chr01_RaGOO;

chr02——chr02_RaGOO;

······以此类推

chr12——chr12_RaGOO。

根据pair.cfg文件信息,将参考基因组与比对基因组按染色体进行拆分,并按用户相对的相同染色体成对投入之后的运算中;

3)将步骤2)设置的同一染色体通过比对软件MUMMER和Lastz进行序列比对,获取参考基因组和比对基因组在该染色体上的序列共线性特征;

4)将步骤3)获取的序列共线性特征通过结构变异提取软件,进行结构变异位点鉴定;该程序调用比对,把参考基因组和比对基因组相同的染色体进行比对,获取两个基因组每个染色体的序列共线性特征;

4)将步骤3)获取的序列共线性特征通过结构变异提取软件,进行结构变异位点鉴定挖掘。筛选获得的结构变异,选择相对于参考基因组为“插入变异”的结构变异,提取这些插入变异的信息,生成信息文件如下:

chr01 319631 chr01_RaGOO 399526 401720 2194;

其中第1列数据是参考基因组染色体名称,第2列是参考基因组被插入的物理位置,第3列是比对基因组染色体名称,第4列是比对基因组相对与参考基因组的插入序列在比对基因组上的起始物理位置,第5列是插入序列在比对基因组上的终止位置,第6列是插入序列的长度。

5)根据步骤4)提取的插入结构变异来源与于比对基因组上序列的物理位置,从比对基因组序列文件中提取这段序列,按步骤4)中得到的插入片段插入至参考基因组上的位置,把序列插入参考基因组,生成线性泛基因组序列文件,同时生成记录插入位点信息的文件,文件信息如下:

1-11-chr01 chr01 325910 325911 328104 2194;

第1列是结构变异名称(按染色体和变异数目顺序排列),第2列是参考基因组染色体名称,第3列是参考基因组原始被插入前物理位置,第4列是插入序列插入参考基因组后起始位置,第5列是插入序列插入参考基因组后终止位置,第6列是插入序列长度。

最终生成泛基因组大小为381Mb,比参考基因组(Nipponbare)的373Mb增加了8Mb序列。

6)根据输入的第2个比对基因组,即P106基因组,利用步骤5)生成的泛基因组作为参考基因组,以P106.fasta为比对基因组,重复步骤2)~步骤5),最终生成泛基因组文件及相应插入位点变异信息文件。泛基因组大小为391Mb,比参考基因组多了18Mb,比第一轮泛基因组多了10Mb。

如图1所示,为泛基因组构建策略和流程示意图,图中,第1步是第一轮泛基因组构建示意图,第2步是第二轮泛基因组构建示意图,把基因组比较得到的结构变异放回线性基因组上,同时增加结构变异位点信息文件,实现对多维变异信息进行简化,构建线性化形式的高质量泛基因组。

实施例2

一种基于Illumina二代测序数据与泛基因组进行基因组结构变异的挖掘方法:

a)以实施例1构建的泛基因组序列作为参考基因组,利用水稻材料R91的Illumina测序数据,对R91进行基因组结构变异分析鉴定。使用比对软件Bowtie2将R91测序数据比对到泛基因组上,生成比对文件;结果发现,R91比对上原来参考基因组(Nipponbare)的数据比例只有82.52%,而比对上泛基因组的数据比例达到93.25%。证明实施例1构建的泛基因组比较原来参考基因组(Nipponbare)具有更完整的代表性,可以明显提升测序数据比对效率,为捕获更多结构变异提供重要的数据基础;

b)根据实施例1步骤6)中生成的变异信息位点文件,通过序列提取软件Samtools对上述比对文件进行短序列覆盖度提取,生成变异位点测序数据覆盖度文件,文件信息如下:

1-11-chr01 chr01 325911 328104 2194 14;

第1列是变异名称,第2列是参考基因组(泛基因组)染色体名称,第3列是结构变异在参考基因组(泛基因组)起始位置,第4列是结构变异在参考基因组(泛基因组)的终止位置,第5列是插入序列长度,第6列为测序数据在该结构变异片段的平均覆盖度。

c)根据步骤b)的变异位点覆盖度文件,通过设定覆盖度阈值的方式,判断测序样品(R91)的结构变异情况;

本实施例所使用的是平均15倍深度的Illumina测序数据,设定覆盖度低于5的片段为缺失,大于5的片段为存在。

d)根据步骤c)的覆盖度数据,基于实施例1的泛基因组进行结构变异片段存在或不存在分析,得到R91的结构变异结果。

所述Illumina短片段测序数据为来自Illumina公司,是一家美国的测序仪公司,他们的测序仪产生的数据;

所述覆盖度阈值为用户设定,若变异位点Illumina短片段测序数据比对覆盖度大于阈值,则说明变异片段在样品基因组中存在,反之,则不存在。

图2所示,为利用本发明构建的泛基因组和Illumina测序数据鉴定基因组结构变异的原理和流程示意图,其具体操作如实施例2所示,利用Illumina二代测序平台得到的测序数据与构建的泛基因组比对,通过测序数据的覆盖度分析,鉴定特定结构变异存在或不存在,可以实现低成本、精准的基因组结构变异分析。

8页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于CNV结果判定样本降解的方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!