一种衣藻染色体水平的基因组组装方法

文档序号:193429 发布日期:2021-11-02 浏览:61次 >En<

阅读说明:本技术 一种衣藻染色体水平的基因组组装方法 (Genome assembly method for chlamydomonas chromosome level ) 是由 王宝祺 马飞学 于 2021-07-01 设计创作,主要内容包括:本发明涉及基因组组装技术领域,公开了一种衣藻染色体水平的基因组组装方法。该方法通过依次采用FGAP、原始三代测序数据序列比对、初步组装后的DNA片段比对,关闭原始基因组中的200bp以下、200-1000bp、1000bp以上的gap区域,能够在较大程度上提高基因组的完整性,同时兼顾了测序成本;并且,在根据比对结果关闭gap区域过程所使用的python脚本中,从序列比对结果中可能存在的3种情况考虑,分别采用不同的gap关闭方式,能够关闭大部分gap区域,使基因组具有更高的完整性。(The invention relates to the technical field of genome assembly, and discloses a genome assembly method for chlamydomonas chromosome level. The method closes the gap regions below 200bp, above 1000bp and below 200-plus-one in the original genome by sequentially adopting FGAP, original third-generation sequencing data sequence comparison and DNA fragment comparison after preliminary assembly, can improve the integrity of the genome to a greater extent and simultaneously considers the sequencing cost; in addition, in the python script used in the process of closing the gap region according to the alignment result, considering 3 possible situations in the sequence alignment result, different gap closing modes are respectively adopted, so that most of the gap region can be closed, and the genome has higher integrity.)

一种衣藻染色体水平的基因组组装方法

技术领域

本发明涉及基因组组装技术领域,尤其涉及一种衣藻染色体水平的基因组组装方法。

背景技术

在传统的基因组构建(二代测序)中,通常将样本DNA经超声波打断成100-200个碱基长度的小片段,然后通过NGS高通量测序仪进行测序,得到下机数据,在使用组装软件将短序列两两比对,通过短序列之间的重叠区域构建叠连群,形成较长的初步组装的基因组片段(contigs),再通过染色体定位技术将长片段进一步组装结合,并且标记染色体编号,实现染色体水平上的基因组构建,即获得定位到染色体上的DNA序列(scaffold)。但是由于测序片段长度的限制以及组装水平影响,DNA上有些难以测到的片段,通常称为基因组中的gap。gap区域的存在给基因组学的分析带来了极大阻碍。

随着三代单分子测序技术的出现,为这个问题的解决带来了曙光,由于三代测序技术无需DNA扩增以及打断过程,且测序片段超长,最长可达1M(100万)个碱基,初步组装较为简单,可以轻松覆盖到传统基因组中的长片段gap区域。因此,采用三代测序数据,可以对二代测序获得的传统基因组进行gap关闭。

文献“FGAP:an automated gap closing tool”(Piro,Vitor C.,et al.BMCresearch notes 7.1(2014):371.)中公开了一种gap关闭工具FGAP,它利用BLAST将contigs序列比对到基因组草图序列上,寻找重叠到gap区域的最优序列,从而进行关闭gap区域。采用该工具能够较准确地关闭小gap区域,但难以关闭大gap区域,因而获得的全基因组完整性较低。

发明内容

为了解决上述技术问题,本发明提供了一种衣藻染色体水平的基因组组装方法。该方法依次采用FGAP、原始三代测序数据序列比对、初步组装后的DNA片段比对,关闭原始基因组中的200bp以下、200-1000bp、1000bp以上的gap区域,能够在较大程度上提高基因组的完整性,同时兼顾了测序成本。

本发明的具体技术方案为:

一种衣藻染色体水平的基因组组装方法,包括以下步骤:

(1)利用衣藻的原始三代测序数据序列,通过FGAP工具对衣藻二代测序获得的原始基因组进行修饰,以关闭长度为200bp以下的gap区域,获得初步修饰后的基因组;

(2)将原始三代测序数据序列与初步修饰后的基因组进行比对,使用python脚本关闭长度为200-1000bp的gap区域,获得第二次修饰后的基因组;

(3)根据reads之间的重叠区域,对原始三代测序数据序列进行初步组装,获得初步组装后的DNA片段;

(4)将初步组装后的DNA片段与第二次修饰后的基因组进行比对,根据比对结果,使用python脚本提取所需序列,关闭长度为1000bp以上的gap区域,实现基因组组装。

第三代测序读长超长,初步组装较为简单,可以轻松覆盖到传统基因组中的长片段gap区域。基于此,本发明在传统二代测序获得的原始基因组基础上,利用对应物种的三代测序数据,关闭原始基因组中的gap区域,由于二代测序已经将DNA片段定位到染色体上,因此无需再次进行染色体定位,最大程度地兼顾了基因组的完整性和测序成本。

本发明在使用FGAP关闭200bp以下的小gap区域的基础上,利用衣藻的原始三代测序数据序列及其初步组装后的DNA片段进行比对,并采用本发明的python脚本,实现了200-1000bp和1000bp以上的gap区域的关闭,较大程度地提高了基因组的完整性。

作为优选,步骤(2)和(4)中,使用所述python脚本关闭gap区域的具体方法如下:情况1:材料序列A与待修饰序列之间存在匹配区域1和匹配区域2,所述匹配区域1和匹配区域2位于待修饰序列中的gap区域两端,且所述匹配区域1和匹配区域2在待修饰序列中的上下游位置关系与在材料序列A中的上下游位置关系相同,材料序列B与所述gap区域一端存在匹配区域,选择材料序列A中与gap区域相同位置处的序列填补所述gap区域;在步骤(2)中,所述原始三代测序数据序列作为材料序列,所述初步修饰后的基因组作为待修饰序列;在步骤(4)中,所述初步组装后的DNA片段作为材料序列,所述第二次修饰后的基因组作为待修饰序列。

在python脚本中,根据材料序列与待修饰序列之间的匹配情况,选择用于填补gap区域的材料序列。

在情况1中,由于材料序列A与待修饰序列之间在gap区域的两端均存在匹配序列,而材料序列B与待修饰序列之间只在gap区域的一端存在匹配区域,因此,采用材料序列A填补gap区域,能获得更高的准确性。

作为优选,步骤(2)和(4)中,使用所述python脚本关闭gap区域的具体方法如下:情况2:材料序列A与待修饰序列之间存在匹配区域1和匹配区域2,所述匹配区域1和匹配区域2位于待修饰序列中的gap区域两端,且所述匹配区域1和匹配区域2在待修饰序列中的上下游位置关系与在材料序列A中的上下游位置关系相反,材料序列B与所述gap区域一端存在匹配区域3,选择材料序列B中与gap区域相同位置处的序列填补所述gap区域。

在情况2中,由于匹配区域1和匹配区域2在待修饰序列中的上下游位置关系与在材料序列A中的上下游位置关系相反(例如,在待修饰序列中,匹配区域1位于匹配区域2的上游,而在材料序列A中,匹配区域1位于匹配区域2的下游),表明材料序列A与待修饰序列之间的匹配区域可能是由于错配造成的,因此选取材料序列B作为填补gap区域所用材料。

作为优选,步骤(2)和(4)中,使用所述python脚本关闭gap区域的具体方法如下:情况3:材料序列A与待修饰序列之间存在匹配区域1和匹配区域2,所述匹配区域1和匹配区域2位于待修饰序列中的gap区域两端,且所述匹配区域1和匹配区域2在材料序列A中存在重叠,材料序列B与所述gap区域一端存在匹配区域3,选择材料序列B中与gap区域相同位置处的序列填补所述gap区域。

在情况3中,由于匹配区域1和匹配区域2之间存在重叠,材料序列A中不存在能用于填补gap区域的序列,其与带修饰序列之间的匹配区域可能是由于错配造成的,因而选取材料序列B作为填补gap区域所用材料。

当python脚本中同时包含上述3种情况时,能够关闭大部分gap区域,使基因组具有更高的完整性。

进一步地,在情况1中,待修饰序列中gap区域到匹配区域1和/或匹配区域2的序列与材料序列A中相应位置的序列存在不匹配区域,在填补gap区域时不更改待修饰序列中的所述不匹配区域。

进一步地,在情况2或情况3中,带修饰序列中gap区域到匹配区域3的序列与材料序列B中相应位置的序列存在不匹配区域,在填补gap区域时不更改待修饰序列中的所述不匹配区域。

作为优选,步骤(1)中,所述原始三代测序数据序列通过Nanopore测序技术获得。

作为优选,步骤(2)中,使用Minimap工具将原始三代测序数据序列与初步修饰后的基因组进行比对。

作为优选,步骤(3)中,使用Necat或Smartdenovo或Canu工具对原始测序数据序列进行初步组装。

作为优选,步骤(4)中,使用MUMmer工具将初步组装后的DNA片段与第二次修饰后的基因组进行比对。

与现有技术相比,本发明具有以下优点:

(1)依次采用FGAP、原始三代测序数据序列比对、初步组装后的DNA片段比对,关闭原始基因组中的200bp以下、200-1000bp、1000bp以上的gap区域,能够在较大程度上提高基因组的完整性,同时兼顾了测序成本;

(2)在根据比对结果关闭gap区域过程所使用的python脚本中,从序列比对结果中可能存在的3种情况考虑,分别采用不同的gap关闭方式,能够关闭大部分gap区域,使基因组具有更高的完整性。

附图说明

图1为本发明进行染色体水平的基因组组装的流程图;

图2为本发明中使用所述python脚本关闭gap区域的示意图;图(A)为情况1,图(B)为情况2,图(C)为情况3;图(A)~(C)中,成对线条表示比对结果中的匹配区域;

图3为衣藻基因组gap关闭前后比对示意图;深灰色的点表示正向匹配(原图中为红色),浅灰色的点表示反向匹配(原图中为蓝色)。

具体实施方式

下面结合实施例对本发明作进一步的描述。

实施例1

一种衣藻染色体水平的基因组组装方法,如图1所示,包括以下步骤:

(1)利用通过Nanopore测序技术获得衣藻的原始三代测序数据序列,通过FGAP工具对衣藻二代测序获得的原始基因组进行修饰,以关闭长度为200bp以下的gap区域,获得初步修饰后的基因组;

(2)使用Minimap工具将原始三代测序数据序列与初步修饰后的基因组进行比对,使用python脚本关闭长度为200-1000bp的gap区域,获得第二次修饰后的基因组;

(3)根据reads之间的重叠区域,使用Necat工具对原始三代测序数据序列进行初步组装,获得初步组装后的DNA片段;

(4)使用MUMmer工具将初步组装后的DNA片段与第二次修饰后的基因组进行比对,根据比对结果,使用python脚本提取所需序列,关闭长度为1000bp以上的gap区域,获得最终的基因组,实现基因组组装。

步骤(2)和(4)中,使用所述python脚本关闭gap区域的具体方法如图2所示,根据序列比对结果中存在的以下3种情况,采取不同的gap关闭策略:

情况1:如图2(A)所示,若材料序列A与待修饰序列之间存在匹配区域1和匹配区域2,所述匹配区域1和匹配区域2位于待修饰序列中的gap区域两端,且所述匹配区域1和匹配区域2在待修饰序列中的上下游位置关系与在材料序列A中的上下游位置关系相同,材料序列B与所述gap区域一端存在匹配区域,则选择材料序列A中与gap区域相同位置处的序列(图2(A)中的“选择区域”)填补所述gap区域;若待修饰序列中gap区域到匹配区域1和/或匹配区域2的序列与材料序列A中相应位置的序列存在不匹配区域(图2(A)中的“不匹配区域1”和“不匹配区域2”),则在填补gap区域时不更改待修饰序列中的所述不匹配区域;

情况2:如图2(B)所示,若材料序列A与待修饰序列之间存在匹配区域1和匹配区域2,所述匹配区域1和匹配区域2位于待修饰序列中的gap区域两端,且所述匹配区域1和匹配区域2在待修饰序列中的上下游位置关系与在材料序列A中的上下游位置关系相反,材料序列B与所述gap区域一端存在匹配区域3,则选择材料序列B中与gap区域相同位置处的序列(图2(B)中的“选择区域”)填补所述gap区域;若带修饰序列中gap区域到匹配区域3的序列与材料序列B中相应位置的序列存在不匹配区域(图2(B)中的“不匹配区域”),则在填补gap区域时不更改待修饰序列中的所述不匹配区域;

情况3:如图2(C)所示,若材料序列A与待修饰序列之间存在匹配区域1和匹配区域2,所述匹配区域1和匹配区域2位于待修饰序列中的gap区域两端,且所述匹配区域1和匹配区域2在材料序列A中存在重叠,材料序列B与所述gap区域一端存在匹配区域3,则选择材料序列B中与gap区域相同位置处的序列(图2(C)中的“选择区域”)填补所述gap区域;若带修饰序列中gap区域到匹配区域3的序列与材料序列B中相应位置的序列存在不匹配区域(图2(C)中的“不匹配区域”),则在填补gap区域时不更改待修饰序列中的所述不匹配区域;

在步骤(2)中,所述原始三代测序数据序列作为材料序列,所述初步修饰后的基因组作为待修饰序列;在步骤(4)中,所述初步组装后的DNA片段作为材料序列,所述第二次修饰后的基因组作为待修饰序列。

实现上述目的的所述python脚本代码如下:

应用例

将NCBI中衣藻的基因组(Chlamydomonas_reinhardtii_v5.5)作为原始基因组,搜集对应的Nanopore数据作为关闭gap所需的三代序列数据,采用实施例1中的方法,对原始基因组进行基因组组装(gap关闭),结果见表1。

表1

表中N50表示将基因组所有序列按照长度从大到小排列,并且开始累加,如累计长度达到全部序列总长度的50%时,刚刚计入的该条序列长度。N50一定程度上反映了基因组组装的质量,N50越大,表示基因组组装效果越好。经过比较可得,衣藻基因组关闭gap后N50从7783580提升至8171174,所有序列长度有所增加,且在正常范围内;序列长度最长长度由9730733提升至10652672,且4050214长度的N片段被完全关闭,形成全基因组。

通过MUMmer软件将gap区域关闭前后进行比对且进行可视化分析评估,结果如图3所示,从中可以看出,gap区域关闭前后序列整体性基本一致,采用本发明的方法不仅关闭了gap区域,而且在此过程中并没有改变染色体原有的完整性。

本发明中所用原料、设备,若无特别说明,均为本领域的常用原料、设备;本发明中所用方法,若无特别说明,均为本领域的常规方法。

以上所述,仅是本发明的较佳实施例,并非对本发明作任何限制,凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效变换,均仍属于本发明技术方案的保护范围。

24页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:固相识别雌激素受体的雌二醇衍生物筛选方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!