一种植物成对nlr抗性基因数据库的构建方法及其多物种成对nlr基因数据库

文档序号:1818161 发布日期:2021-11-09 浏览:18次 >En<

阅读说明:本技术 一种植物成对nlr抗性基因数据库的构建方法及其多物种成对nlr基因数据库 (Construction method of plant paired NLR resistance gene database and multi-species paired NLR gene database thereof ) 是由 田大成 秦超 杨四海 张小辉 于 2021-08-13 设计创作,主要内容包括:本发明公开了一种植物成对NLR抗性基因数据库的构建方法及其多物种成对NLR基因数据库。所述方法包括从JGI或Ensembl收集目的物种的基因组数据;通过Hmmscan和NLR-parser工具鉴定NLR基因;结合基因注释信息筛选成簇NLR基因;通过Hmmscan和Blast工具分析NLR基因的特殊结构域;基于成对NLR基因的演化特征,通过Blast、Clustalw2、MEGA7.0等工具多轮检索目的物种的成对NLR基因;以成对NLR基因对应的特征值作为数据项标识建立成对NLR基因数据库。利用本发明提供的方法,可以对不同植物物种中的成对NLR抗性基因进行全基因组范围的检索和分析,为研究和改进作物的抗性育种提供了分子证据。(The invention discloses a construction method of a plant paired NLR resistance gene database and a multi-species paired NLR gene database thereof. The method comprises collecting genomic data of a species of interest from JGI or Ensembl; identifying NLR gene by Hmmscan and NLR-parser tool; screening clustered NLR genes by combining gene annotation information; analyzing the special structural domain of the NLR gene by Hmmscan and Blast tools; based on the evolution characteristics of paired NLR genes, paired NLR genes of target species are searched for in multiple rounds by means of Blast, Clustalw2, MEGA7.0 and the like; and establishing a paired NLR gene database by taking characteristic values corresponding to the paired NLR genes as data item identifications. By utilizing the method provided by the invention, the paired NLR resistance genes in different plant species can be searched and analyzed in a whole genome range, and molecular evidence is provided for researching and improving resistance breeding of crops.)

一种植物成对NLR抗性基因数据库的构建方法及其多物种成 对NLR基因数据库

技术领域

本发明涉及一种基因序列数据处理方法,具体涉及植物成对NLR基因数据库的构建方法和多物种成对NLR基因数据库。

背景技术

植物是地球生态的重要成员,也是人类生活中不可或缺的重要组成部分。人类的衣、食、住、行往往都离不开植物直接或间接的参与,但植物的生长发育过程并不是一帆风顺的,往往伴随着各种生物胁迫的发生,其中绝大部分的生物胁迫源自于微生物的侵染,它们往往会损害植物生长繁殖,严重时更有可能造成植物的大量减产。

目前应对病菌侵害的防治措施仍然是以施用农药为主,但农药的使用会对生态造成很大的伤害,一些农药含有持久性有机污染物,这些污染物难以降解,会在土壤中保留数十年,对土壤的质量和生物多样性产生不利影响(Jacobsen and2014)。而农药的残留以及其通过食物链的进一步浓缩则会危害到我们人体的生命健康,尤其是儿童、孕妇和老人等高危人群(Kim et al.,2017)。一些关于农药对人体健康的影响研究表明,农药可能与多种疾病有关,包括癌症、白血病和哮喘等等。因此,为了能够有效的、可持续发展的进行病菌防治,我们必须综合使用多种防治手段,而利用植物自身的抗性控制病害是已知最经济有效且安全的途径之一,植物抗病的分子机制研究、抗病基因的鉴定、克隆和转基因因此成为植物学领域的研究重点。

植物利用自身抗性抵御病原菌的方式有两种(Jones and Dangl,2006),首先在病原菌侵染时启动病原菌相关分子模式介导免疫(PAMP-triggered immunity,PTI),这一过程涉及对微生物共有的保守特征(Pathogen-associated molecular pattern,PAMPs)的识别。一旦病原菌无法得到PTI的有效抑制,效应因子介导的免疫反应(Effector-triggeredimmunity,ETI)就会被激发。ETI过程需要植物抗病基因(Resistance gene)参与,R基因与病原菌AVR效应因子结合后会诱发感染部位产生超敏性细胞死亡(Hypersensitive celldeath),造成组织坏死以避免病原菌进一步侵染。

NBS-LRR基因(又称NLR基因)是植物抗病基因中数量最多分布最广的抗病基因群,一直是植物抗病研究中的关键基因。大部分NLR蛋白都是典型的模块化多结构域蛋白,其核心元件为中央的核苷酸结合位点(Nucleotide binding site,NBS)以及C端的富亮氨酸重复区(Leucine-rich repeat,LRR),NBS结构域是NLR蛋白受体活性的开关,通过构象变化控制信号传导(Moffett et al.,n.d.),而LRR结构域则通常在直接识别病原体效应因子的过程中参与特异性识别(Jia et al.,2000)。除此之外NLR蛋白还包含一个N端的可变结构域,根据该可变结构域的不同又可以将NB-LRR基因分为两大类:TNL(TIR-NBS-LRR),在N端具有TIR(Tolland inter leukin-1receptor)结构域;CNL(CC-NBS-LRR),在N端具有一个卷曲螺旋结构(Coiled-Coil,CC)。然而这些NLR基因却具有如下这些演化特征:其在全基因组分布并不均匀,以集中分布为主,大多成簇分布,同一簇中以串联重复为主;同一NBS-LRR基因在不同物种间甚至是同一物种的不同品系之间都存在着很大的核苷酸差异;植物的不同品系间,NLR基因的复制和丢失十分频繁。以上这些特征为植物抗病基因的克隆、分析以及应用均制造了较大的阻碍。

目前针对植物抗病基因的研究主要集中于重要农作物上的抗性基因单体,对于非被子植物和多基因协作的研究相较之下要少得多。“基因对基因”是关于NLR基因抗性机制最早的假说,即一个基因负责一种病原菌的识别免疫,但越来越多的研究发现这一假说并不完备(Lee et al.,2009;Narusaka et al.,2009;Peart et al.,2005)。许多研究结果表明植物对某些病原菌的免疫需要两个遗传连锁的基因协作才能完成,例如拟南芥中的RRS1和RPS4(Narusaka et al.,2009),水稻中的Pi5-1和Pi5-2(Lee et al.,2009),烟草中的N和NRG1(Peart et al.,2005)等等。它们被统称为成对NLR基因,在基因组上往往头对头排列。一些研究发现成对NLR基因在转基因育种后不仅具有更广谱持久的抗性,同时能降低抗性提高所造成的抗性成本增加(Deng et al.,2017),是重要的转基因育种资源。Joshua等人在扫描了十三种水稻亚种的NLR基因后发现有近50%的相邻NLR基因呈头对头排列,显著区别于基因簇内duplication串联重复造成的头对尾排列偏好(Stein et al.,2018),以上的这些结果暗示NLR基因的成对抗性特征可能是植物抗性机制中的一种重要且普遍的模式,因此对成对NLR基因的深入研究是突破植物抗病研究瓶颈至关重要的一步。

目前已报道的成对NLR大多数具有以下几点特征:1.基因结构上同时具有NBS和LRR结构域,Sensor常常包含一个特殊结构域如WRKY、NOI等(Nishimura et al.,2015);2.染色体位置上Helper与Sensor头对头紧邻分布;3.演化上Helper比Sensor更加保守;4.系统发育特征上Helper与Sensor分属进化树的不同枝,具有镜像分布的拓扑关系。本发明基于以上这些成对NLR基因的演化特征,通过生物信息学方法,实现了植物中成对NLR基因数据库的构建。

发明内容

针对国内外迄今尚缺乏有效鉴定成对NLR基因数据的现状,本发明的目的是提供一种植物成对NLR基因数据库的构建方法。

为了解决现有技术的问题,本发明提供了如下技术方案:本发明的一种植物成对NLR抗性基因数据库的构建方法,包括如下步骤:

(1)基础数据的收集:从JGI或Ensembl收集目的物种的基因组序列、蛋白序列以及基因注释信息;

(2)NLR基因和基因簇的鉴定:首先通过Hmmscan和NLR-parser工具鉴定NLR基因,然后结合NLR基因的基因组注释位置,筛选其中的成簇NLR基因;

(3)特殊结构域的鉴定:通过Hmmscan和Blast工具,分析NLR基因的特殊结构域情况;

(4)成对NLR基因的鉴定:首先基于已报道的成对NLR基因,通过Blast工具在目的物种的成簇NLR基因中搜索Helper同源基因,然后将包含Helper同源基因的NLR基因簇筛选出来通过Clustalw2工具构建系统发育树并通过MEGA7.0工具进行人工检视,最终基于成对NLR基因的演化特征筛得目的物种的成对NLR基因;

(5)成对NLR基因的再鉴定:基于(4)搜索到的候选成对NLR基因,重复步骤(4)中的分析检索流程,直至没有新得成对NLR基因被检索出来。

进一步地,在步骤(3)中,在通过Hmmscan和NLR-parser检测完NB-ARC结构域以及LRR结构域之后,将同时拥有NB-ARC结构域以及LRR结构域的基因归为主要NLR基因,而只有NB-ARC结构域的基因则归为候选NLR基因。

进一步地,在步骤(4)中,在检索NLR基因簇的过程中,将同一染色体上物理距离200kb以内或基因编号距离两个及以内的NLR基因视为同一基因簇内的基因。

更进一步地,在步骤(4)中,通过多种途径挖掘NLR基因的特殊结构域痕迹,包括对目的蛋白进行Hmmscan搜索,对目的基因前后蛋白进行Hmmscan搜索以及对目的基因前后5k以内核苷酸序列使用tblastn搜索,并以此作为Sensor的判定依据之一。

进一步地,在步骤(4)中,将包含Helper同源基因的NLR基因簇筛选出来后,使用NB-ARC结构域蛋白序列进行系统发育树的绘制,基于NLR基因的系统发育关系和特殊结构域痕迹确定系统发育树中的Helper与Sensor枝,候选Helper和Sensor在进化树上需要与已鉴定序列的Helper和Sensor聚集于同一枝中,与已鉴定Helper聚集于一枝即为Helper,其对应的基因即为Sensor。

进一步地,在步骤(5)中,所述的成对NLR基因的特征值数据包括染色体上的基因位置、基因编号、链向、特殊结构域、基因类型、Pair-ID、TIR类型、NBS位置。

本发明所述的植物成对NLR抗性基因数据库的构建方法构建的多物种成对NLR基因数据库,其特征在于:以成对NLR基因对应的特征值作为数据项标识建立成对NLR基因数据库:https://figshare.com/articles/dataset/Database_of_paired_NLR_genes/15096966。

进一步地,多物种为二穗短柄草、大麦、高粱、狗尾草或拟南芥。

有益效果:利用本发明提供的方法,可以对植物物种进行成对NLR基因的高效检索和分析,一方面为该物种的抗病功能研究提供了大量可靠的候选基因对,从而加速植物的抗病育种;另一方面基于多物种成对NLR基因数据库的构建,我们可以组合研究不同物种的NLR基因对,从而找到同时具备广谱性和高效性的NLR基因对组合并应用于不同的经济作物,减少病菌侵害对人民的生产生活的影响。

与现有技术相比,本发明具有如下优点:本发明提供的成对NLR基因数据库构建方法具有重要的科学价值和应用价值。近年来,成对NLR基因方面的研究进展并不理想:(1)尚没有能够高效鉴定全基因组成对NLR基因的生物信息学方法,因此后续的功能鉴定无法顺利开展;(2)成对NLR基因的抗病功能验证,存在周期长、病菌特异、功能冗余等问题。而本发明的出现,很好的弥补了这一方面研究方法的缺失,为不同物种中成对NLR基因的快速鉴定提供了非常好的途径。使用本发明提供的方法,可以对测序物种的成对NLR基因进行全基因组范围的检测和分析,既推动了作物的抗病研究,又为研究和探索作物的抗病演化提供了分子证据。

附图说明

图1为本发明流程示意图。

图2为二穗短柄草成对NLR系统发育特征示意图,特殊结构域已在图中标注。图A为二穗短柄草跨物种鉴定代表枝,红色正方形表示二穗短柄草成对NLR,蓝色圆形代表水稻成对NLR种子序列,左列为Helper,右列为Sensor,Clade标注与跨物种大树中一致。B:二穗短柄草成对NLR重建进化树,深色表示在跨物种中鉴定得到的基因对,浅色表示在自循环中鉴定得到的结果。

图3为大麦成对NLR系统发育特征示意图,特殊结构域已在图中标注。图A为大麦跨物种鉴定代表枝,黑色三角形表示大麦成对NLR,蓝色圆形代表水稻成对NLR种子序列,左列为Helper,右列为Sensor,Clade标注与跨物种大树中一致;图B为大麦成对NLR重建进化树。

图4为高粱成对NLR系统发育特征示意图,特殊结构域已在图中标注。图A为高粱跨物种鉴定代表枝,深蓝色倒三角形表示高粱成对NLR,蓝色圆形代表水稻成对NLR种子序列,左列为Helper,右列为Sensor,Clade标注与跨物种大树中一致;图B为高粱成对NLR重建进化树。

图5为狗尾草成对NLR系统发育特征示意图,特殊结构域已在图中标注。图A为狗尾草跨物种鉴定代表枝,棕色菱形表示狗尾草成对NLR,蓝色圆形代表水稻成对NLR种子序列,左列为Helper,右列为Sensor,Clade标注与跨物种大树中一致;图B为狗尾草成对NLR重建进化树。

图6为拟南芥成对NLR基因的系统发育树。其中Clade I为拟南芥通过已报道基因的拓扑关系检索到的成对NLR基因,Clade II为拟南芥通过自循环绘树检测到的成对NLR基因,Helper枝和Sensor枝标注在右侧。

具体实施方式

以下通过实例进一步对本发明进行描述,但不用来限制本发明的应用范围。

本发明的一种植物成对NLR抗性基因数据库的构建方法,包括如下步骤:

(1)基础数据的收集:从JGI或Ensembl收集目的物种的基因组序列、蛋白序列以及基因注释信息;

(2)NLR基因和基因簇的鉴定:首先通过Hmmscan和NLR-parser工具鉴定NLR基因,然后结合NLR基因的基因组注释位置,筛选其中的成簇NLR基因;

(3)特殊结构域的鉴定:通过Hmmscan和Blast工具,分析NLR基因的特殊结构域情况;在通过Hmmscan和NLR-parser检测完NB-ARC结构域以及LRR结构域之后,将同时拥有NB-ARC结构域以及LRR结构域的基因归为主要NLR基因,而只有NB-ARC结构域的基因则归为候选NLR基因。

(4)成对NLR基因的鉴定:首先基于已报道的成对NLR基因,通过Blast工具在目的物种的成簇NLR基因中搜索Helper同源基因,然后将包含Helper同源基因的NLR基因簇筛选出来通过Clustalw2工具构建系统发育树并通过MEGA7.0工具进行人工检视,最终基于成对NLR基因的演化特征筛得目的物种的成对NLR基因;

通过多种途径挖掘NLR基因的特殊结构域痕迹,包括对目的蛋白进行Hmmscan搜索,对目的基因前后蛋白进行Hmmscan搜索以及对目的基因前后5k以内核苷酸序列使用tblastn搜索,并以此作为Sensor的判定依据之一。

将包含Helper同源基因的NLR基因簇筛选出来后,使用NB-ARC结构域蛋白序列进行系统发育树的绘制,基于NLR基因的系统发育关系和特殊结构域痕迹确定系统发育树中的Helper与Sensor枝,候选Helper和Sensor在进化树上需要与已鉴定序列的Helper和Sensor聚集于同一枝中,与已鉴定Helper聚集于一枝即为Helper,其对应的基因即为Sensor。

在检索NLR基因簇的过程中,将同一染色体上物理距离200kb以内或基因编号距离两个及以内的NLR基因视为同一基因簇内的基因。

(5)成对NLR基因的再鉴定:基于(4)搜索到的候选成对NLR基因,重复步骤(4)中的分析检索流程,直至没有新得成对NLR基因被检索出来。

所述的成对NLR基因的特征值数据包括染色体上的基因位置、基因编号、链向、特殊结构域、基因类型、Pair-ID、TIR类型、NBS位置。

本发明所述的植物成对NLR抗性基因数据库的构建方法构建的多物种成对NLR基因数据库,其特征在于:以成对NLR基因对应的特征值作为数据项标识建立成对NLR基因数据库:https://figshare.com/articles/dataset/Database_of_paired_NLR_genes/15096966。

多物种为二穗短柄草、大麦、高粱、狗尾草或拟南芥。

实施例1

二穗短柄草(Brachypodium distachyon)中成对NLR基因的鉴定

1、基础数据的收集:从JGI公共数据库中收集二穗短柄草的基因组序列、蛋白序列以及基因注释信息(https://phytozome.jgi.doe.gov);

2、NLR基因和基因簇的鉴定:(1)首先基于全基因组的蛋白序列信息,通过Hmmscan工具获取所有蛋白序列的结构域信息,并从中筛选包含NB-ARC结构域(PF00931)的蛋白,参数设置为E-value≤1e-4;(2)然后再通过NLR-parser工具,对LRR结构域进行检测,筛选具有motif 9,11或19的蛋白,同时拥有NB-ARC结构域以及LRR结构域的基因即主要NLR基因,而只有NB-ARC结构域的基因为候选NLR基因;(3)接着基于基因注释中NLR基因在染色体上的物理距离和基因编号,我们将同一染色体上物理距离200kb以内(Holub,2001)或基因编号距离两个及以内的NLR基因视为同一基因簇内的基因,鉴定得到所有的NLR基因簇;(4)最终我们在短柄草中鉴定得到了336个NBS基因,272个NLR基因,并最终筛得了69个基因簇;

3、特殊结构域的鉴定:(1)基于Pfam数据库在本地使用Hmmscan对所有NLR蛋白序列进行结构域搜索,对WRKY、NOI、RATX1、SRP54等已报道的特殊结构域进行标注;(2)对NLR基因的前后基因同样进行特殊结构域的搜索,如果前后基因存在特殊结构域,则该NLR基因的祖先基因也可能具有特殊结构域;(3)从Pfam官网上搜索已报道的Sensor基因的特殊结构域,并从Alignments界面中下载该结构域蛋白序列的fasta文件,然后通过formatdb工具构建蛋白序列数据库,随后使用tblastn工具搜索成簇NLR基因前后5k以内核苷酸序列中的特殊结构域痕迹,E-value<1e-10;(4)最后整合以上三种方法获得的特殊结构域信息,以作为Sensor的判定依据之一。

4、成对NLR基因的鉴定:(1)基于水稻已报道的成对NLR基因(Wang et al.,2019),通过Blast(2.3.0+)工具在成簇NLR基因中搜索Helper同源基因,E-value<10;(2)将包含Helper同源基因的NLR基因簇筛选出来,使用NB-ARC结构域蛋白序列通过Clustalw2工具绘制系统发育树(bootstrap值设置为1000,其余采用默认值);(3)通过MEGA7.0工具进行人工检视,去除duplication和不具有保守系统发育特征的NLR;(4)通过系统发育关系和特殊结构域(如WRKY、NOI等)确定Helper与Sensor枝,候选Helper和Sensor在进化树上需要与已鉴定序列的Helper和Sensor聚集于同一枝中,与已鉴定Helper聚集于一枝即为Helper,其对应的基因即为Sensor,反之亦然,最终筛得成对NLR基因16对(图2A);

5、成对NLR基因的再鉴定:基于步骤4搜索到的16对成对NLR基因,重复步骤4中的分析检索流程,直至没有新得成对NLR基因被检索出来,最终得到22对成对NLR基因(图2B)。

6、以成对NLR基因对应的特征值作为数据项标识通过MySQL建立二穗短柄草成对NLR基因数据库。

实施例2

大麦(Hordeum vulgare)中成对NLR基因的鉴定

1、基础数据的收集:从Ensembl公共数据库中收集大麦的基因组序列、蛋白序列以及基因注释信息(http://plants.ensembl.org);

2、NLR基因和基因簇的鉴定:(1)首先基于全基因组的蛋白序列信息,通过Hmmscan工具获取所有蛋白序列的结构域信息,并从中筛选包含NB-ARC结构域(PF00931)的蛋白,参数设置为E-value≤1e-4;(2)然后再通过NLR-parser工具,对LRR结构域进行检测,筛选具有motif 9,11或19的蛋白,同时拥有NB-ARC结构域以及LRR结构域的基因即主要NLR基因,而只有NB-ARC结构域的基因为候选NLR基因;(3)接着基于基因注释中NLR基因在染色体上的物理距离和基因编号,我们将同一染色体上物理距离200kb以内(Holub,2001)或基因编号距离两个及以内的NLR基因视为同一基因簇内的基因,鉴定得到所有的NLR基因簇;(4)最终我们在大麦中鉴定得到了405个NBS基因,318个NLR基因,并最终筛得了74个基因簇;

3、特殊结构域的鉴定:(1)基于Pfam数据库在本地使用Hmmscan对所有NLR蛋白序列进行结构域搜索,对WRKY、NOI、RATX1、SRP54等已报道的特殊结构域进行标注;(2)对NLR基因的前后基因同样进行特殊结构域的搜索,如果前后基因存在特殊结构域,则该NLR基因的祖先基因也可能具有特殊结构域;(3)从Pfam官网上搜索已报道的Sensor基因的特殊结构域,并从Alignments界面中下载该结构域蛋白序列的fasta文件,然后通过formatdb工具构建蛋白序列数据库,随后使用tblastn工具搜索成簇NLR基因前后5k以内核苷酸序列中的特殊结构域痕迹,E-value<1e-10;(4)最后整合以上三种方法获得的特殊结构域信息,以作为Sensor的判定依据之一。

4、成对NLR基因的鉴定:(1)基于水稻已报道的成对NLR基因(Wang et al.,2019),通过Blast(2.3.0+)工具在成簇NLR基因中搜索Helper同源基因,E-value<10;(2)将包含Helper同源基因的NLR基因簇筛选出来,使用NB-ARC结构域蛋白序列通过Clustalw2工具绘制系统发育树(bootstrap值设置为1000,其余采用默认值);(3)通过MEGA7.0工具进行人工检视,去除duplication和不具有保守系统发育特征的NLR;(4)通过系统发育关系和特殊结构域(如WRKY、NOI等)确定Helper与Sensor枝,候选Helper和Sensor在进化树上需要与已鉴定序列的Helper和Sensor聚集于同一枝中,与已鉴定Helper聚集于一枝即为Helper,其对应的基因即为Sensor,反之亦然,最终筛得成对NLR基因16对(图3A);

5、成对NLR基因的再鉴定:基于步骤4搜索到的成对NLR基因,重复步骤4中的分析检索流程,直至没有新得成对NLR基因被检索出来,最终得到16对成对NLR基因(图3B)。

6、以这些成对NLR基因对应的特征值作为数据项标识建立大麦成对NLR基因数据库。

实施例3

高粱(Sorghum bicolor)中成对NLR基因的鉴定

1、基础数据的收集:从JGI公共数据库中收集高粱的基因组序列、蛋白序列以及基因注释信息(https://phytozome.jgi.doe.gov);

2、NLR基因和基因簇的鉴定:(1)首先基于全基因组的蛋白序列信息,通过Hmmscan工具获取所有蛋白序列的结构域信息,并从中筛选包含NB-ARC结构域(PF00931)的蛋白,参数设置为E-value≤1e-4;(2)然后再通过NLR-parser工具,对LRR结构域进行检测,筛选具有motif 9,11或19的蛋白,同时拥有NB-ARC结构域以及LRR结构域的基因即主要NLR基因,而只有NB-ARC结构域的基因为候选NLR基因;(3)接着基于基因注释中NLR基因在染色体上的物理距离和基因编号,我们将同一染色体上物理距离200kb以内(Holub,2001)或基因编号距离两个及以内的NLR基因视为同一基因簇内的基因,鉴定得到所有的NLR基因簇;(4)最终我们在高粱中鉴定得到了326个NBS基因,275个NLR基因,并最终筛得了55个基因簇;

3、特殊结构域的鉴定:(1)基于Pfam数据库在本地使用Hmmscan对所有NLR蛋白序列进行结构域搜索,对WRKY、NOI、RATX1、SRP54等已报道的特殊结构域进行标注;(2)对NLR基因的前后基因同样进行特殊结构域的搜索,如果前后基因存在特殊结构域,则该NLR基因的祖先基因也可能具有特殊结构域;(3)从Pfam官网上搜索已报道的Sensor基因的特殊结构域,并从Alignments界面中下载该结构域蛋白序列的fasta文件,然后通过formatdb工具构建蛋白序列数据库,随后使用tblastn工具搜索成簇NLR基因前后5k以内核苷酸序列中的特殊结构域痕迹,E-value<1e-10;(4)最后整合以上三种方法获得的特殊结构域信息,以作为Sensor的判定依据之一。

4、成对NLR基因的鉴定:(1)基于水稻已报道的成对NLR基因(Wang et al.,2019),通过Blast(2.3.0+)工具在成簇NLR基因中搜索Helper同源基因,E-value<10;(2)将包含Helper同源基因的NLR基因簇筛选出来,使用NB-ARC结构域蛋白序列通过Clustalw2工具绘制系统发育树(bootstrap值设置为1000,其余采用默认值);(3)通过MEGA7.0工具进行人工检视,去除duplication和不具有保守系统发育特征的NLR;(4)通过系统发育关系和特殊结构域(如WRKY、NOI等)确定Helper与Sensor枝,候选Helper和Sensor在进化树上需要与已鉴定序列的Helper和Sensor聚集于同一枝中,与已鉴定Helper聚集于一枝即为Helper,其对应的基因即为Sensor,反之亦然,最终筛得成对NLR基因19对(图4A);

5、成对NLR基因的再鉴定:基于步骤4搜索到的成对NLR基因,重复步骤4中的分析检索流程,直至没有新得成对NLR基因被检索出来,最终得到19对成对NLR基因(图4B)。

6、以成对NLR基因对应的特征值作为数据项标识建立成对NLR基因数据库。

实施例4

狗尾草(Setaria viridis)中成对NLR基因的鉴定

1、基础数据的收集:从JGI公共数据库中收集狗尾草的基因组序列、蛋白序列以及基因注释信息(https://phytozome.jgi.doe.gov);

2、NLR基因和基因簇的鉴定:(1)首先基于全基因组的蛋白序列信息,通过Hmmscan工具获取所有蛋白序列的结构域信息,并从中筛选包含NB-ARC结构域(PF00931)的蛋白,参数设置为E-value≤1e-4;(2)然后再通过NLR-parser工具,对LRR结构域进行检测,筛选具有motif 9,11或19的蛋白,同时拥有NB-ARC结构域以及LRR结构域的基因即主要NLR基因,而只有NB-ARC结构域的基因为候选NLR基因;(3)接着基于基因注释中NLR基因在染色体上的物理距离和基因编号,我们将同一染色体上物理距离200kb以内(Holub,2001)或基因编号距离两个及以内的NLR基因视为同一基因簇内的基因,鉴定得到所有的NLR基因簇;(4)最终我们在狗尾草中鉴定得到了388个NBS基因,291个NLR基因,并最终筛得了74个基因簇;

3、特殊结构域的鉴定:(1)基于Pfam数据库在本地使用Hmmscan对所有NLR蛋白序列进行结构域搜索,对WRKY、NOI、RATX1、SRP54等已报道的特殊结构域进行标注;(2)对NLR基因的前后基因同样进行特殊结构域的搜索,如果前后基因存在特殊结构域,则该NLR基因的祖先基因也可能具有特殊结构域;(3)从Pfam官网上搜索已报道的Sensor基因的特殊结构域,并从Alignments界面中下载该结构域蛋白序列的fasta文件,然后通过formatdb工具构建蛋白序列数据库,随后使用tblastn工具搜索成簇NLR基因前后5k以内核苷酸序列中的特殊结构域痕迹,E-value<1e-10;(4)最后整合以上三种方法获得的特殊结构域信息,以作为Sensor的判定依据之一。

4、成对NLR基因的鉴定:(1)基于水稻已报道的成对NLR基因(Wang et al.,2019),通过Blast(2.3.0+)工具在成簇NLR基因中搜索Helper同源基因,E-value<10;(2)将包含Helper同源基因的NLR基因簇筛选出来,使用NB-ARC结构域蛋白序列通过Clustalw2工具绘制系统发育树(bootstrap值设置为1000,其余采用默认值);(3)通过MEGA7.0工具进行人工检视,去除duplication和不具有保守系统发育特征的NLR;(4)通过系统发育关系和特殊结构域(如WRKY、NOI等)确定Helper与Sensor枝,候选Helper和Sensor在进化树上需要与已鉴定序列的Helper和Sensor聚集于同一枝中,与已鉴定Helper聚集于一枝即为Helper,其对应的基因即为Sensor,反之亦然,最终筛得成对NLR基因20对(图5A);

5、成对NLR基因的再鉴定:基于步骤4搜索到的成对NLR基因,重复步骤4中的分析检索流程,直至没有新得成对NLR基因被检索出来,最终得到20对成对NLR基因(图5B)。

6、以成对NLR基因对应的特征值作为数据项标识建立成对NLR基因数据库。

实施例5

拟南芥(Arabidopsis thaliana)中成对NLR基因的鉴定

1、基础数据的收集:从JGI公共数据库中收集拟南芥的基因组序列、蛋白序列以及基因注释信息(https://phytozome.jgi.doe.gov);

2、NLR基因和基因簇的鉴定:(1)首先基于全基因组的蛋白序列信息,通过Hmmscan工具获取所有蛋白序列的结构域信息,并从中筛选包含NB-ARC结构域(PF00931)的蛋白,参数设置为E-value≤1e-4;(2)然后再通过NLR-parser工具,对LRR结构域进行检测,筛选具有motif 9,11或19的蛋白,同时拥有NB-ARC结构域以及LRR结构域的基因即主要NLR基因,而只有NB-ARC结构域的基因为候选NLR基因;(3)接着基于基因注释中NLR基因在染色体上的物理距离和基因编号,我们将同一染色体上物理距离200kb以内(Holub,2001)或基因编号距离两个及以内的NLR基因视为同一基因簇内的基因,鉴定得到所有的NLR基因簇;(4)最终我们在短柄草中鉴定得到了165个NBS基因,其中142个NLR基因,并最终筛得了23个基因簇;

3、特殊结构域的鉴定:(1)基于Pfam数据库在本地使用Hmmscan对所有NLR蛋白序列进行结构域搜索,对WRKY、NOI、RATX1、SRP54等已报道的特殊结构域进行标注;(2)对NLR基因的前后基因同样进行特殊结构域的搜索,如果前后基因存在特殊结构域,则该NLR基因的祖先基因也可能具有特殊结构域;(3)从Pfam官网上搜索已报道的Sensor基因的特殊结构域,并从Alignments界面中下载该结构域蛋白序列的fasta文件,然后通过formatdb工具构建蛋白序列数据库,随后使用tblastn工具搜索成簇NLR基因前后5k以内核苷酸序列中的特殊结构域痕迹,E-value<1e-10;(4)最后整合以上三种方法获得的特殊结构域信息,以作为Sensor的判定依据之一。

4、成对NLR基因的鉴定:(1)基于拟南芥已报道的成对NLR基因RPS1/RPS4(Narusaka et al.,2009)以及RPP2A/RPP2B(Sinapidou et al.,2004),通过Blast(2.3.0+)工具在成簇NLR基因中搜索Helper同源基因,E-value<10;(2)将包含Helper同源基因的NLR基因簇筛选出来,使用NB-ARC结构域蛋白序列通过Clustalw2工具绘制系统发育树(bootstrap值设置为1000,其余采用默认值);(3)通过MEGA7.0工具进行人工检视,去除duplication和不具有保守系统发育特征的NLR;(4)通过系统发育关系和特殊结构域(如WRKY、NOI等)确定Helper与Sensor枝,候选Helper和Sensor在进化树上需要与已鉴定序列的Helper和Sensor聚集于同一枝中,与已鉴定Helper聚集于一枝即为Helper,其对应的基因即为Sensor,反之亦然,最终筛得成对NLR基因12对(图6Clade I);

5、成对NLR基因的再鉴定:基于步骤4搜索到的成对NLR基因,重复步骤4中的分析检索流程,直至没有新得成对NLR基因被检索出来,最终得到18对成对NLR基因(图6CladeII)。

6、以成对NLR基因对应的特征值作为数据项标识建立成对NLR基因数据库。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,本发明要求保护范围由所附的权利要求书、说明书及其等效物界定。

17页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:物质和材料的跨时间尺度计算机仿真模拟方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!