一种鉴定关键酶基因的植物物种特异性序列片段的方法

文档序号:1447843 发布日期:2020-02-18 浏览:24次 >En<

阅读说明:本技术 一种鉴定关键酶基因的植物物种特异性序列片段的方法 (Method for identifying plant species specific sequence fragment of key enzyme gene ) 是由 黄远 李楚源 李淑如 于 2019-09-30 设计创作,主要内容包括:本发明提供了一种鉴定关键酶基因在特定植物物种中的特异性序列片段的方法,该方法运用分子系统学和生物信息学的分析方法,重建关键酶基因在不同植物类群中的系统发生关系,比较分析不同类群间的序列、结构和分化,鉴定了该酶在特定植物物种中的特异性序列片段及其关键变异位点。本发明还提供了获得的特异性序列片段在植物或特定药材基源鉴定、品种改良或选育中的应用。(The invention provides a method for identifying a specific sequence fragment of a key enzyme gene in a specific plant species, which reconstructs the phylogenetic relationship of the key enzyme gene in different plant groups by using an analysis method of molecular systematics and bioinformatics, compares and analyzes the sequence, the structure and the differentiation among different groups, and identifies the specific sequence fragment and a key variation site of the specific sequence fragment of the key enzyme gene in the specific plant species. The invention also provides the application of the obtained specific sequence fragment in the identification, variety improvement or breeding of the plant or the specific medicinal material.)

一种鉴定关键酶基因的植物物种特异性序列片段的方法

技术领域

本发明属于生物信息学分析技术领域。具体而言,本发明涉及利用生物信息学和分子系统学的分析方法,对来源于不同物种的关键酶基因家族的特异性序列片段与功能分化位点的研究方法,特别涉及对关键酶基因在特定植物物种中的特异性序列片段与功能分化位点的捕捉与挖掘方法及其应用。

背景技术

生物信息学是一种以核酸、蛋白质等生物大分子数据库为主要对象的研究方法,其以数学、信息学、计算机科学为主要手段,以计算机硬件、软件和网络为主要工具,对大量原始数据进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。

生物信息学在植物或药材的抗性基因研究、鉴定和应用等方面已经发挥了重要的作用。随着越来越多的植物全基因组得到克隆,还可以采用生物信息学手段,对特定基因,例如某种植物有效成分的合成基因或其合成通路中的重要基因,在模式植物基因组与其它植物基因组之间进行同源性分析,建立该基因在不同植物类群中的系统***,比较序列、结构和分化,从而捕捉特定植物物种中的特异性序列片段或其中的功能分化位点,从而为植物或药材的鉴别、品质改良、育种等提供技术基础。

以菘蓝(Isatis indigotica Fort.)为例,菘蓝为十字花科草本双子叶植物,其干燥根即板蓝根(Radix isatidis),功能和主治为清热解毒,凉血利咽。近年来,国内外学者对菘蓝化学成分进行了研究,分离出近200种化合物,但是大部分化合物在植物体内的含量均非常低。例如,菘蓝所含的木脂素(Lignan),这是一类由2分子苯丙素衍生物氧化聚合而成的植物次级代谢产物,大量的药理学研究表明其具有抗病毒、抗炎、抗氧化、抗肿瘤和保肝等多种药理活性和重要的应用价值;但是,木脂素在板蓝根中的含量仅为每克几十微克计。目前木脂素主要通过植物提取制备,操作繁琐、耗时长、成本高;而且这种方式还受限于菘蓝的生长时间和种植地域,已经造成板蓝根资源的不合理利用和浪费。如何提升有效成分例如木脂素的含量,已成为菘蓝育种的主要问题。

常规育种实践中,对于富含有效成分的药材居群的选择是十分困难的:一方面选育周期可能很长,需要经历杂交和回交复杂的选择程序;另一方面有效成分的形成受到很多因素的综合影响,例如温度、湿度和土壤等。

已知挖掘有效成分的合成基因可以加快植物品种选育进程。木脂素合成通路中最重要的酶是落叶松脂醇还原酶(Pinoresinol-lariciresinol reductase,PLR),这是一种依赖NAD(P)H的氧化还原酶,最早从连翘(Forsythia intermedia)中被鉴定并克隆。大量研究表明,PLR参与并直接影响了木脂素的生物合成。由此可知,挖掘植物中的PLR基因对菘蓝富含木脂素类化合物品种的育种将具有重要的作用。

目前,挖掘基因例如抗病基因的常用方法有图位克隆、转座子标签等。但是,由于大部分药材的基础研究不够深入,利用这些方法不仅时间长而且很难准确地克隆基因。

因此,对于来源于不同物种的关键酶基因家族,挖掘该基因在特定植物物种中的特异性序列片段与功能分化位点,本领域仍然需要提供新型研究方法。

发明内容

为了解决上述技术问题,本发明采用了如下研究思路:可利用已有的植物基因组数据,从中搜寻、鉴别和筛选关键酶基因的所有成员,然后充分运用分子系统学和生物信息学的分析方法,重建该酶基因在不同植物类群中的系统***,比较分析不同类群间的序列、结构和分化,快速“捕捉”基因的特异功能分化位点。即,以已测序植物全基因组序列为前提,结合比较基因组学、生物信息学和候选基因策略等知识,快速挖掘关键酶基因的特异序列片段和功能位点。

因此,本发明的一个目的是提供一种鉴定关键酶基因在特定植物物种中的特异性序列片段的方法。本发明的另一个目的是提供所述关键酶基因在特定植物物种中的特异性序列片段。本发明的还一个目的是提供该特异性序列片段在该植物物种的鉴定、品种改良或选育中的应用。

本发明所述的“关键酶”是指,植物或药材中某种活性成分合成酶或合成通路中相关酶。

本发明的技术方案如下。

一方面,本发明提供一种鉴定关键酶基因在特定植物物种中的特异性序列片段的方法,所述方法包括以下步骤:

(1)获取同源序列;

(2)比对获取的同源序列;

(3)构建系统发生树;

(4)分析基因结构;

(5)获取特定植物物种的特异性序列片段。

优选地,本发明的方法的步骤(1)包括:

以模式植物的关键酶基因序列为查询序列在数据库中搜索同源序列,然后根据下述标准对搜索到的同源序列进行初步鉴定:

E值小于10-10;与查询序列的相似度≥40%;具有基因家族的序列特征;

优选地,以模式植物的关键酶基因序列为查询序列通过BLAST在数据库中搜索同源序列;更优选地,所述BLAST的参数设置包括:期望阈值=10(Expect threshold=10);比较矩阵(Comparison matrix):BLOSUM矩阵(Blocks amino acid substitutionmatrices),优选BLOSUM62。

所述数据库的链接为选自下述的一个或多个:

http://www.phytozome.net;

http://congenie.org;

http://www.Arabidopsis.org/;

http://rice.plantbi-ology.msu.edu/;

http://www.amborella.org/。

进一步地,优选地,所述步骤(1)进一步包括:将鉴定得到的同源序列进行下述筛选:

验证具有关键酶的功能注释;剔除缺失基因家族的序列特征的序列;合并得到的序列并剔除重复序列;

优选地,在SMART(http://smart.embl-heidelberg.de)和Pfam(http://pfam.sanger.ac.uk)数据库中验证同源序列是否具有所述关键酶的功能注释;

优选地,通过BioEdit(v7.0.5)软件剔除缺失基因家族的序列特征的序列;

优选地,通过DAMBE软件合并得到的序列并剔除重复序列,其中当有多个等位基因存在时,选择最长的作为代表基因。

优选地,本发明的方法的步骤(2)包括:

比对步骤(1)获取的同源序列,并通过删除模糊的比对区域或空位对比对结果进行调整;

优选地,采用软件PRANK比对步骤(1)获取的同源序列;

优选地,在软件BioEdit(v7.0.5)中进行所述调整。

优选地,本发明的方法的步骤(3)包括:

模型检测,然后采用模型检测的最优算法对步骤(2)的比对结果进行系统发生树的构建;

优选地,所述模型检测包括计算出每一种模型的似然值,用卡方检验检测得到最优算法;更优选地,用ProtTest2.4计算出每一种模型的似然值,然后用卡方检验检测最合适的氨基酸替代模型,其中检验时采用赤池信息标准(Akaike information criterion,AIC);

更优选地,采用最大似然树软件RAxML-VI-HPC(randomized axelerated maximumlikelihood for high performance computing)进行系统发生树的构建,其中将氨基酸替代模型设置为模型检测的最优算法,并且对最大似然树进行了≥500次自展检验。

优选地,本发明的方法的步骤(4)包括:

基于步骤(3)构建的系统发生树,在全部同源序列中检索保守序列,并验证获取的保守序列的功能注释;

优选地,采用软件MEME(Multiple Em for Motif Elicitation)检索保守序列;

更优选地,参数设置包括:保守序列的数量30个;每个目标保守序列的长度范围为6到30个氨基酸;进一步采用功能注释数据库例如NCBI-CDD(Conserved Domain Database(http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml)和SMART(Simple ModularArchitecture Research Tool,http://smart.emblheidelberg.de/)验证获取的保守序列的功能注释。

优选地,本发明的方法的步骤(5)包括:

采用步骤(4)获取的特定植物物种所在系统发生树类群中的保守序列,查找所述特定植物物种中关键酶的对应的特异性序列片段;

优选地,结合步骤(2)的比对结果进行所述查找。

根据本发明的

具体实施方式

,所述关键酶为落叶松脂醇还原酶(Pinoresinol-lariciresinol reductase,PLR),所述特定植物物种为菘蓝(Isatis indigotica Fort.);并且

所述步骤(1)中,所述查询序列为亚麻PLR基因序列,选自Lus10012143、Lus10010403、Lus10012145和Lus10012147的一个或多个,基因家族的序列特征包括:具有SDR(Short-chain dehydrogenase/reductase)基因家族活性中心的氨基酸序列,即“GG(GA)XGXXG”和“YXXXN”;具有底物结合位点“Phe”和“Lys”;含有2OGD羧基端的保守序列。

或者,根据本发明的具体实施方式,所述关键酶为牻牛儿基牻牛儿基焦磷酸合酶(geranylgeranyl pyrophosphate synthase,GGPPS),所述特定植物物种为三七(Panaxnotoginseng);并且,

所述步骤(1)中,所述查询序列为拟南芥GGPPS基因序列,选自AT4G36810.1和AT4G38460.1的一个或多个,基因家族的序列特征包括:具有GGPPS基因家族特征性的富含亮氨酸的序列,即“DDXXD/E”或“DXXXD/E”。

根据本发明的具体实施方式,本发明的方法获得了三条菘蓝中PLR的对应的特异性序列片段,分别为SEQ ID NO:1、SEQ ID NO:2和SEQ ID NO:3所示氨基酸序列。

SEQ ID NO:1:MRENNSGEKTRV;

SEQ ID NO:2:LQQPETRVDIEKVQLLYSYKRLGARLIEAS;

SEQ ID NO:3:DHEVGDDE。

或者,根据本发明的具体实施方式,本发明的方法获得了三条三七中GGPPS的对应的特异性序列片段,分别为SEQ ID NO:4、SEQ ID NO:5和SEQ ID NO:6所示氨基酸序列。

SEQ ID NO:4:VSTTQFDLKTYWTTLIGEINQKLDEAI

SEQ ID NO:5:IDMAILAGDALFPLGFRHIVSNTPS

SEQ ID NO:6:LLHVIAEIARAVGSTGMAAGQFLD。

本发明的方法涉及的操作见图1。

另一方面,本发明提供落叶松脂醇还原酶(Pinoresinol-lariciresinolreductase,PLR)在菘蓝中的上述特异性序列片段。本发明还提供牻牛儿基牻牛儿基焦磷酸合酶(geranylgeranyl pyrophosphate synthase,GGPPS)在三七中的上述特异性序列片段。

还一方面,本发明提供上述特异性序列片段在菘蓝或三七物种鉴定或者相关药材鉴定中的应用。

例如,所述鉴定可包括检验被测药材样品的落叶松脂醇还原酶或牻牛儿基牻牛儿基焦磷酸合酶是否包含上述特异性序列片段中的一个或多个。

本发明提供上述特异性序列片段还可用于菘蓝或三七或者其相关药材的品种改良或选育中。

以菘蓝为例,所述品种改良或选育用于提高所述菘蓝或其相关药材的木脂素类化合物含量。

优选地,所述品种改良或育种包括对所述特异性序列片段的定点诱变;

更优选地,所述定点诱变在选自下述的一个或多个位点处进行:SEQ ID NO:1所示氨基酸序列的第3位和第10位;SEQ ID NO:2所示氨基酸序列的第2位;以及SEQ ID NO:3所示氨基酸序列的第1位和第2位。

SEQ ID NO:1:MRENNSGEKTRV;

SEQ ID NO:2:LQQPETRVDIEKVQLLYSYKRLGARLIEAS;

SEQ ID NO:3:DHEVGDDE。

以三七为例,所述品种改良或选育用于提高所述三七或其相关药材的牻牛儿基牻牛儿基焦磷酸化合物含量。

优选地,所述品种改良或育种包括对所述特异性序列片段的定点诱变;

更优选地,所述定点诱变在选自下述的一个或多个位点处进行:SEQ ID NO:4所示氨基酸序列的第1位;SEQ ID NO:5所示氨基酸序列的第1位;以及SEQ ID NO:6所示氨基酸序列的第1位。

SEQ ID NO:4:VSTTQFDLKTYWTTLIGEINQKLDEAI

SEQ ID NO:5:IDMAILAGDALFPLGFRHIVSNTPS

SEQ ID NO:6:LLHVIAEIARAVGSTGMAAGQFLD

相对于现有技术,本发明的方法首次以已知不同功能的同源序列(而非单一功能或单一序列)作为种子序列,在所有已知全基因组序列的植物基因组中(包括藻类、苔藓类、蕨类、裸子植物和被子植物等进行检索),全面系统地获得特定关键酶的同源序列;在该同源序列基础上,本发明的方法将二级结构、三级结构和系统发生树相结合,最终预测出了特定的基因片段和特异的功能位点。

就本发明方法的具体操作步骤而言,基于对大量生物信息学分析程序和软件的比较、分析和筛选,方法中采用了确定的最优基因鉴定工具,具体包括:

(1)打分矩阵:结合PLR同源序列的分化特征,比较分析PAM1、PAM120、PAM250、BLOSUM80、BLOSUM62、BLOSUM45等6种矩阵的原理,选择了BLOSUM矩阵(Blocks amino acidsubstitution matrices)进行分析而非选择适合用来比较亲缘较近的序列的PAM矩阵;同时,采用BLOSUM62打分同源性适中的序列(而非采用适合同源性较高的序列的BLOSUM90矩阵或适合同源性较低的序列的BLOSUM30矩阵);

(2)序列比对:比较分析ClustalW、Muscle、Prank、T-Coffee、MAFFT等5种比对软件的输出结果,根据序列特征选择了更合适更精确更快速的Prank比对步骤(1)获取的同源序列,而非Clustalx/ClustalW、MAFTT、MUSCLE等比对软件;并进一步通过Bioedit软件检查比对结果的可靠性,以获得最优比对结果;

(3)同源序列的检索:选择了进阶BLAST方法,即PSI-BLAST法搜索同源序列;

(4)特异保守结构域的鉴定:以MEME为主检索较保守序列,根据NCBI-CDD和SMART数据库的验证获取结构域可能的功能注释;

(5)蛋白质三维结构预测流程:根据比较同源模型化方法、线索化方法/折叠识别方法和从头预测方法的特点,选择了同源模型化方法,选择SWISS-MODEL程序进行模拟,同时采用全局模型质量估测分值和定性模型能量分析分值分析模拟的精确性;

(6)构建系统发生树:

模型选择与检验:本发明中用ProtTest2.4计算了56种模型的似然值,最终选择LG+G模型。本发明的同源序列较多,数据集较大,因此采用快速bootstrap以及多线程运行策略,大大缩短最大似然法的计算时间。选择构建最大似然树的软件为RAxML-VI-HPC,而非MEGA、PhyML、PHYLIP、PAUP软件。

本发明方法的检测结果准确、可靠,可广泛应用于基因挖掘研究。采用本发明的方法所检测到的特异序列和位点包括了通过克隆测序、转基因、过表达等已经验证过功能的片段和位点。比如,本发明方法在菘蓝基因组中检测出的两个片段属于SDR(Short-chaindehydrogenases/reductases)基因家族活性中心氨基酸的序列以及关键氨基酸,分别位于motif 6中的“GGTGTMG”以及motif 8中的“YGDGN”片段;此外,该家族的关键底物结合位点“Phe”“Lys”位于本发明检测出的motif 2中。

并且,本发明的方法针对功能基因保守性以及蛋白质相互作用的特点,建立了可靠快速鉴定特异基因的方法,实现了对重要化合物合成通路中的关键基因和功能位点的预测,操作简便快捷、准确可靠、实用性强。此外,该方法有效地缩短了合成通路中关键基因的挖掘周期,大幅度降低了检测成本和时间,提高了工作效率,能够更有效、更全面、更准确的鉴定基因,为阐述合成基因的分子机制奠定了基础。

特别是,本发明还首次鉴定了特异性保守序列并首次预测了序列中的关键变异位点。本发明鉴定的特定氨基酸片段以及特异氨基酸位点,可用于化合物合成的生物代谢工程研究,如定点诱变等试验,用于提高活性化合物的含量;可用于药材的品种改良或育种材料的创制,缩短育种年限,提高育种效率;可用于开发相应的功能性分子标记,用于植物或者药材的基源鉴定等,准确性高。

本发明的方法及其特异序列片段可应用于植物或特定中药材有效成分合成基因的鉴定研究。此外,本发明的方法还具有普遍的适用性和重现性,适用于其他基因的鉴定和功能预测。并且,本发明的意义还在于应用于物种鉴定以及药材基源的分子鉴定,为中药的质量标准发展奠定了分子基础,对种质资源的研究等具有重要意义。

附图说明

以下,结合附图来详细说明本发明的实施方案,其中:

图1显示了本发明的方法涉及的操作。

图2显示了62个PLR同源序列的比对结果。

图3显示了62个PLR同源序列构建的系统树,枝上的数值是支持率。

图4显示了15个PLR同源序列的保守片段以及特征性氨基酸位点。

图5显示了PLR同源序列的特异保守片段及其分化位点在蛋白质三维结构中的表征结果。

图6显示了菘蓝、杨树、百脉根、强刺球和仙人球的PLR序列比对分析结果。

图7显示了55个GGPPS同源序列的比对结果。

图8显示了55个GGPPS同源序列构建的系统树。

图9显示了3个GGPPS同源序列的保守片段以及特征性氨基酸位点。

具体实施方式

以下参照具体的实施例来说明本发明。本领域技术人员能够理解,这些实施例仅用于说明本发明,其不以任何方式限制本发明的范围。

下述实施例中的实验方法,如无特殊说明,均为常规方法。下述实施例中所用的药材原料、试剂材料等,如无特殊说明,均为市售购买产品。

实施例1落叶松脂醇还原酶(Pinoresinol-lariciresinol reductase,PLR)在菘蓝中的特异性序列片段的鉴定

1.同源序列的获取

为了系统地探明落叶松脂醇还原酶基因在植物类群中的分布式样、对其进行系统分类以及探讨PLR基因在不同植物类群中的系统***,所以尽可能在更多类群中检索以获得全面的分子数据。

选择功能明确且具有PLR基因家族结构特征的亚麻PLR蛋白序列为查询序列(Transcript Name:Lus10012143;Transcript Name:Lus10010403;Transcript Name:Lus10012145;和Transcript Name:Lus10012147)在数据库中搜索同源序列,在64种具有全基因组序列信息的植物中通过BLAST(Basic Local Alignment Search Tool)获取PLR基因的同源序列。BLAST的主要参数设置为:期望阈值=10(Expect threshold=10);比较矩阵(Comparison matrix):BLOSUM62(Blocks amino acid substitution matrices)。

相关的数据库链接:

http://www.phytozome.net;

http://congenie.org;

http://www.Arabidopsis.org/;

http://rice.plantbi-ology.msu.edu/;

http://www.amborella.org/。

检索出来的序列中E值小于10–10为序列最终的选取标准。目标序列与查询序列的相似度≥40%,具有SDR(Short-chain dehydrogenase/reductase)基因家族活性中心氨基酸的序列,即“GG(GA)XGXXG”以及“YXXXN”片段的序列以及底物结合位点“Phe”“Lys”被初步鉴定为PLR基因的同源序列。对每一条符合条件的序列,又在SMART(http://smart.embl-heidelberg.de)和Pfam(http://pfam.sanger.ac.uk)数据库中进一步验证其是否含有2OGD羧基端的保守序列以及PLR的功能注释。接着,通过BioEdit(v7.0.5)软件,将比对的全部序列进行筛选,如剔除缺失SDR活性中心氨基酸的序列;利用DAMBE软件合并同源搜索过程中得到的大量同源序列,以及剔除重复序列。如果有多个等位基因,选择最长的作为代表基因。

最后,获取了来自于65种绿色植物的共62个PLR同源序列,涵盖了单细胞的绿藻类、藓类、蕨类、裸子植物以及被子植物(表1)。

表1本发明中使用的PLR基因和物种

Figure BDA0002222432300000101

Figure BDA0002222432300000121

Figure BDA0002222432300000131

2.序列比对

在进行序列比对时,由于不同的比对方法获得不同的比对结果,适合不同的系统发生分析,所以比较分析了CLUSTAL,MAFFT,MUSCLE,T-COFFEE以及PRANK等5种软件的比对策略,然后通过GUIDANCE软件将各比对结果进行打分,最后选择分值最高的;同时结合软件自身算法特征,最终采用PRANK比对结果进行进一步的系统发生研究。为获取更能真实反映序列之间的差异,根据已知功能的PLR基因,在BioEdit(v7.0.5)中对最初的比对结果进行手工调整,如删除模糊的比对区域或者空位等问题。

整体上,不同植物谱系所具有的PLR基因的结构和长度差异不大,长度为300-354氨基酸之间,但是水生植物藻类和早期陆生植物与大部分单子叶和双子叶植物间的差异较为明显。藻类植物中共发现有五条SDR超家族的基因同源序列,该五条氨基酸序列都含有SDR的NAD(P)-结合位点以及发挥相互作用的活性中心。比藻类晚出现的苔藓植物小立碗藓中的PLR同源序列与藻类的结构相似,而与其他陆生植物的序列差异较大。菘蓝的PLR基因与其他十字花科植物的相似。结果见图2。

3.系统发生分析

为了研究PLR基因间的系统***和不同植物类群尤其是菘蓝所在的十字花科类群的PLR基因间的界定,构建了包括62种绿色植物的PLR同源序列的系统发生树。

由于PLR同源序列间的分化程度较高,比较适合最大似然法(MaximumLikelihood,ML)构建系统发生树,而该法是基于演化模型的系统发生重建方法。因此本研究基于完整比对的PLR同源序列,用ProtTest2.4计算出每一种模型的似然值,然后用卡方检验检测最合适的氨基酸替代模型。检验时采用赤池信息标准(Akaike informationcriterion,AIC),即既考虑模型对数据的拟合度,又尽量减少模型的冗余参数。以上估计所得的氨基酸模型将用于下一步最大似然法建树分析。模型检测结果见表2。

表2 PLR同源序列的替代模型检测

Figure BDA0002222432300000132

Figure BDA0002222432300000141

根据表2所示结果,本发明选择的模型为:LG+G,参数为:BIC=13378.44,AICc=12505.41;InVariantGamma=1.126462。

由于本研究的PLR同源序列较多,数据集较大,所以采用一种快速构建最大似然树软件:RAxML-VI-HPC(randomized axelerated maximum likelihood for highperformance computing)。该方法通过采用快速bootstrap以及多线程运行策略,大大缩短了最大似然法的计算时间。在本研究中,氨基酸替代模型设置为GAMMALG;RAxML-VI-HPC中对最大似然树进行了500次自展检验。

构建的系统发生树见图3。结果表明,来自绿藻类和小立碗藓中的PLR同源序列位于整个类群的基部并聚成独立的一支,而来自其它植物类群的GAox同源序列聚成了另一大支,并进一步分化成四个独立的分支,每一个分支均有较高的支持率。这五支形成了五个PLR基因类群,即:藻类-藓类类群I,早期陆生植物类群II,单子叶类群III,双子叶类群VI,以及菘蓝所在的十字花科植物类群V。

4.基因结构分析

比较62个PLR同源序列的外显子和内含子结构发现,PLR基因的结构非常保守,大部分PLR同源序列具有相似的内含子和外显子结构,且只有一段外显子。为了研究PLR不同类群尤其是十字花科植物类群的保守序列的特异性与分化,能够更好地为区分与鉴定不同类群成员提供依据,也为菘蓝等植物的转基因工程研究提供有效信息,采取了以下步骤:

用MEME(Multiple Em for Motif Elicitation)软件在全部PLR同源序列中检索较保守的序列,主要参数设置如下:保守序列的数量:30个;每个目标保守序列的长度范围:6到30个氨基酸。

然后,通过NCBI-CDD(Conserved Domain Database;http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml)和SMART(Simple ModularArchitecture Research Tool;http://smart.emblheidelberg.de/)数据库,验证获取的结构域可能的功能注释。

筛选出的PLR基因家族的15个保守氨基酸片段,见下表3,其中,所有PLR同源序列均含有保守序列2、3、6、8、12、14;保守序列1、7位于类群II-V;而保守序列9、10和15在类群V中与其他类群有明显位点变异。

表3落叶松脂醇还原酶同源序列的保守片段

Figure BDA0002222432300000161

Figure BDA0002222432300000171

保守片段及其中的特征性氨基酸位点见图4,其中图4-1至图4-15分别示出了motif 1至motif 15。

图4显示,这些保守序列中的大部分氨基酸较为保守。结合表1可知,motif 7、10和14可用于鉴定区分单子叶与双子叶植物类群PLR基因的分化,尤其是77、120、124、125,128和467位点的氨基酸(即图4-7、图4-10和图4-14中尖头箭头所示)。此外,motif 9、10和15中的氨基酸位点(即图4-9、图4-10和图4-15中菱形箭头所示)是菘蓝等十字花科所特有,可用于区别于其他绿色植物。图4-2和图4-6中所示的氨基酸位点是SDR家族两个特征性片段,图4-14中圆头箭头所示的是单子叶植物、十字花科植物以及其他双子叶植物发生变异的氨基酸位点。

5.菘蓝中的对应的特异性序列片段获取

结合上文PRANK软件的比对结果,查找每一个类群的特异保守序列以及在氨基酸全长中的位置。

参照菘蓝的PLR氨基酸序列,以motif 9、10和15得到菘蓝中PLR的对应的特异性序列片段,分别为如下的SEQ ID NO:1、SEQ ID NO:2和SEQ ID NO:3所示氨基酸序列,其中的关键变异位点以粗体加下划线示出。

SEQ ID NO:1:MRENNSGEKTRV,对应motif 15;

SEQ ID NO:2:LQQPETRVDIEKVQLLYSYKRLGARLIEAS,对应motif 10;

SEQ ID NO:3:DHEVGDDE,对应motif 9。

实施例2特异性序列片段在蛋白质三维结构中的位置表征

为了推测特异性保守序列在蛋白质结构中的分布位置以及可能的功能位点的分布式样,选择菘蓝中的PLR同源序列,通过Swiss-Model(http://swissmodel.expasy.org/)进行蛋白质的三维结构模拟。

为了保证模拟的精确性,在基于最优比对结果的同时,根据全局模型质量估测(Global Model Quality Estimation,GMQE)分值和定性模型能量分析(QualitativeModel Energy Analysis,QMEAN)分值(分值越大,可靠性越高),选取最可靠的同源模板,即落叶松脂醇还原酶B链(Chain B,Pinoresinol-lariciresinol reductase,1qyd.1.B),进行同源建模,见下表4。

表4用于同源建模的蛋白质模板

基因名称/Gene name 模板/Template
PLR 1qyd.1.B

通过分子三维结构显示软件PyMOL(http://pymol.sourceforge.net/),将特异保守序列和检测出的功能分化位点标记在蛋白质三维结构图上,更直观地观察相关因素的空间位置。所有15个PLR基因的特异性保守序列均由在线平台Weblogo(http://weblogo.berkeley.edu/)生成。

结果表明,菘蓝PLR序列的三维结构模拟(图5)显示,15个片段中的5个具有鉴别特征的保守序列(motif 7、9、10、14、15)均位于PLR蛋白的表面或缝隙;每一个特异结构域都由一个环(loop)和β折叠片(βsheet)组成;大部分特异位点的氨基酸均为极性氨基酸或分子量较小。这些结果表明,这五个PLR基因的保守序列可能具有重要的功能并在木脂素的生物合成过程中发挥重要的作用。

实施例3本发明获得的3段序列及其关键位点作为鉴别依据的应用

本发明发现了菘蓝中的3个片段及其关键位点,即:

SEQ ID NO:1:MRENNSGEKTRV,对应motif 15;

SEQ ID NO:2:LQQPETRVDIEKVQLLYSYKRLGARLIEAS,对应motif 10;

SEQ ID NO:3:DHEVGDDE,对应motif 9。

在NCBI(https://www.ncbi.nlm.nih.gov/)数据库中检索获得4个不同物种的落叶松脂醇还原酶蛋白质序列,并与菘蓝的序列进行比较分析。该不同的落叶松脂醇还原酶蛋白质序列分别为杨树:Populus alba,TKS01263.1;百脉根:Lotus japonicus,BAF34846.1;强刺球:Ferocactus pilosus,AYU58880.1;仙人球:Echinocactusplatyacanthus,AYU58879.1)。经比较,可以发现本发明获得的motif 15、motif 10以及motif 9及其特定位点仅出现在菘蓝的落叶松脂醇还原酶蛋白质序列中,因此能够很好地鉴定菘蓝,即将菘蓝与其他物种相区分。结果参见图6,图中,框内是实施应用的3个片段,五角星指示的是序列中的关键位点。

实施例4牻牛儿基牻牛儿基焦磷酸合酶(geranylgeranyl pyrophosphatesynthase,GGPPS)在三七(Panax notoginseng)中的特异性序列片段的鉴定

参照实施例1,进行GGPPS在三七中的特异性序列片段的鉴定,本实施例中未写明的软件、数据库、操作、参数设置等均与实施例1相同。

1.同源序列的获取

以两条模式植物拟南芥(Arabidopsis thaliana)GGPPS基因序列为查询序列(Transcript Name:AT4G36810.1;Transcript Name:AT4G38460.1)通过BLAST在数据库中搜索GGPPS基因的同源序列,在具有全基因组序列信息的植物中进行。

然后根据下述标准对搜索到的同源序列进行筛选:

检索出来的序列中E值小于10-10为序列最终的选取标准;目标序列与查询序列的相似度≥40%;具有GGPPS基因家族特征性的富含亮氨酸的序列,即“DDXXD/E”或“DXXXD/E”;

进一步地,对每一条符合条件的序列,进行下述筛选:

验证具有GGPPS的功能注释;剔除缺失富含亮氨酸序列的序列;合并得到的序列并剔除重复序列,其中当有多个等位基因存在时,选择最长的作为代表基因。

最后,获取了来自于不同等级分类群的绿色植物的共55个GGPPS同源序列。

2.序列比对

比对获取的同源序列,并通过删除模糊的比对区域或空位对比对结果进行调整。结果见图7。

3.系统发生研究

模型检测结果见表5。

表5GGPPS同源序列的替代模型检测

Figure BDA0002222432300000201

Figure BDA0002222432300000211

选择模型LG+G作为氨基酸替代模型,采用最大似然法对步骤(2)的比对结果进行系统发生树的构建。

构建的系统发生树见图8,确定三七(Panax notoginseng)位于箭头所示的一枝。

4.基因结构分析

基于构建的系统发生树,在全部GGPPS同源序列中检索保守序列,并验证获取的保守序列的功能注释。

找到最保守的10段序列,见表6。

表6牻牛儿基牻牛儿基焦磷酸合酶同源序列的保守片段

保守序列 长度(Aa) 在氨基酸序列比对结果中的位点
motif1 25 220-244
motif2 25 192-216
motif3 25 346-370
motif4 25 245-269
motif5 25 278-302
motif6 25 320-344
motif7 25 146-184
motif8 25 314-337
motif9 25 119-145
motif10 25 423-448

其中三七所在系统发生树类群中的片段及其中的特征性氨基酸位点见图9,其中图9-1至图9-3分别示出了motif 4、5和9,这些保守片段有明显的位点变异。

5.三七中的对应的特异性序列片段获取

参照三七的GGPPS氨基酸序列,采用获取的三七所在系统发生树类群中的保守序列motif 4、5和9,查找三七中GGPPS的对应的特异性序列片段,分别为如下的SEQ ID NO:4、SEQ ID NO:5和SEQ ID NO:6所示氨基酸序列,其中的关键变异位点以粗体加下划线示出。

SEQ ID NO:4:VSTTQFDLKTYWTTLIGEINQKLDEAI

SEQ ID NO:5:IDMAILAGDALFPLGFRHIVSNTPS

SEQ ID NO:6:LLHVIAEIARAVGSTGMAAGQFLD

以上对本发明具体实施方式的描述并不限制本发明,本领域技术人员可以根据本发明作出各种改变或变形,只要不脱离本发明的精神,均应属于本发明所附权利要求的范围。

序列表

<110> 广州白云山和记黄埔中药有限公司

<120> 一种鉴定关键酶基因的植物物种特异性序列片段的方法

<130> LC19110025

<160> 6

<170> SIPOSequenceListing 1.0

<210> 1

<211> 12

<212> PRT

<213> Isatis indigotica Fort.

<400> 1

Met Arg Glu Asn Asn Ser Gly Glu Lys Thr Arg Val

1 5 10

<210> 2

<211> 30

<212> PRT

<213> Isatis indigotica Fort.

<400> 2

Leu Gln Gln Pro Glu Thr Arg Val Asp Ile Glu Lys Val Gln Leu Leu

1 5 10 15

Tyr Ser Tyr Lys Arg Leu Gly Ala Arg Leu Ile Glu Ala Ser

20 25 30

<210> 3

<211> 8

<212> PRT

<213> Isatis indigotica Fort.

<400> 3

Asp His Glu Val Gly Asp Asp Glu

1 5

<210> 4

<211> 27

<212> PRT

<213> Panax notoginseng

<400> 4

Val Ser Thr Thr Gln Phe Asp Leu Lys Thr Tyr Trp Thr Thr Leu Ile

1 5 10 15

Gly Glu Ile Asn Gln Lys Leu Asp Glu Ala Ile

20 25

<210> 5

<211> 25

<212> PRT

<213> Panax notoginseng

<400> 5

Ile Asp Met Ala Ile Leu Ala Gly Asp Ala Leu Phe Pro Leu Gly Phe

1 5 10 15

Arg His Ile Val Ser Asn Thr Pro Ser

20 25

<210> 6

<211> 24

<212> PRT

<213> Panax notoginseng

<400> 6

Leu Leu His Val Ile Ala Glu Ile Ala Arg Ala Val Gly Ser Thr Gly

1 5 10 15

Met Ala Ala Gly Gln Phe Leu Asp

20

41页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:检查项目确定方法、装置、计算机设备和存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!