一种多倍体生物基因组二倍化程度量化评估的方法

文档序号:1273775 发布日期:2020-08-25 浏览:16次 >En<

阅读说明:本技术 一种多倍体生物基因组二倍化程度量化评估的方法 (Method for quantitatively evaluating polyploid biological genome diploidy degree ) 是由 刘海平 牟振波 肖世俊 于 2020-05-12 设计创作,主要内容包括:发明涉及一种多倍体生物基因组二倍化程度量化评估的方法,包括以下步骤:1)根据基因组的Kmer分析结果,评估基因组的杂合度;2)根据基因组的杂合度特征,构建多倍体基因组特征模型;3)在该多倍体基因组特征模型基础上,模拟不同二倍化程度的多倍体基因组;4)评估多倍体二倍化率估计的准确性,并计算获得该多倍体基因组的二倍化程度。本方法首次利用重测序数据进行多倍体基因组二倍化分析,成本低,适用于动植物的多倍体基因组研究。(The invention relates to a method for quantitatively evaluating the doubling degree of a polyploid organism genome, which comprises the following steps: 1) evaluating the heterozygosity of the genome according to the Kmer analysis result of the genome; 2) constructing a polyploid genome feature model according to the heterozygosity feature of the genome; 3) on the basis of the polyploid genome feature model, polyploid genomes with different degrees of diploidy are simulated; 4) evaluating the accuracy of polyploid diploidy estimation and calculating the diploidy degree of the polyploid genome. The method performs diploid analysis on the polyploid genome by utilizing the resequencing data for the first time, has low cost and is suitable for polyploid genome research of animals and plants.)

一种多倍体生物基因组二倍化程度量化评估的方法

【技术领域】

本发明涉及生物基因组分析技术,具体涉及一种多倍体生物基因组二倍化程度量化评估的方法。

【背景技术】

多倍化是一种基因组进化的一种方法,是动物和植物基因组染色体数据加倍的状态。基因组多倍化主要发现在植物上,在一些动物,特别是蛔虫和两栖动物基因组上。在二倍体植物和动物基因组上,每个染色体是有二份(2N),其中一个来自父本,一个来自母本。二倍体物种的配子的核心是单倍体,也即是二倍体体细胞核型的一半。在众多多倍体类型中,根据染色体加倍的状态,多倍体有分为三倍体(3N)、四倍体(4N)等。但在自然情况下,四倍体的多倍体更加常见。

多倍化是生物基因组染色体加倍后的结果,通常是由于细胞在极端情况,比如低温、粒子辐射、化学试剂或者细胞的物理状态改变等。这些因素可能导致细胞在减数或者有丝分裂过程中发生异常,从而导致染色体数目增加。然而,基因组研究表明基因组多倍化会给生物带来明显的选择优势。比如植物和动物多倍体通常具有更强的生长优势,并且也具有更强的环境适应性。因此,很多科学家认为基因组多倍化是生物在极端环境下进化并适应性形成的一个分子机制。

多倍体在形成一瞬间,复制的染色体序列具有非常高的相似度。这种相似度会导致染色体联合和配对异常紊乱,因此多倍体个体的后代的生育率往往比较低。因此,生物多倍化之后,基因组就开始进入到二倍化的过程中,即复制的二套基因组会相对积累突变,从而由多套基因组逐渐过渡到二倍化的状态。因此,通过量化多倍体基因组二倍化程度,可以估计该多倍体基因组发生的时间,并且分析该多倍体基因组的进化特征。然而,目前尚没有一种可以利用多倍体基因组序列进行多倍体基因组二倍化程度定量评估的方法。

发明内容

为了能对多倍体基因组的二倍化状态进行评估,本发明提供一种基因组测序数据分析的方法,分析多倍体基因组二倍化状态,定量评估二倍化程度。本方法是首个对多倍体基因组的二倍化状态进行定量分析的技术。

本发明解决其技术问题所采用的技术方案是:

一种多倍体生物基因组二倍化程度量化评估的方法,包括以下步骤:

1.根据基因组的Kmer分析结果,评估基因组的杂合度;

2.根据基因组的杂合度特征,构建多倍体基因组特征模型;

3.在该多倍体基因组特征模型基础上,模拟不同二倍化程度的多倍体基因组;

4.评估多倍体二倍化率估计的准确性,并计算获得该多倍体基因组的二倍化程度。

进一步地,所述步骤1根据基因组的Kmer分析结果,评估基因组的杂合度。通过多倍体基因组二代高通量重测序数据,统计基因组重测序数据的Kmer的类型,以及每一种类型的个数,从而构建全基因组Kmer峰图。根据峰图特征判断基因组大小、杂合度等基因组重要特征指标。

进一步地,所述步骤1统计基因组重测序数据的Kmer读长优选17bp。

进一步地,所述步骤2利用上述所述步骤1获得的基因组大小、杂合度和重复序列比例信息,构建基因组Kmer总数、重复区域Kmer总数、同源区域所占比例、二倍体重复序列所占比例和基因组杂合度之间的模型关系。具体来说,定义M为基因组K-mer总数,N为重复区K-mer总数,α为二倍化率,β为二倍体重复序列所占比率,K为基因组杂合率。

进一步地,所述步骤2中提出上述基因组特征满足以下关系:αM–kαM+β(1-α)M=N。则可推导出基因组的二倍化率估计为:

进一步地,所述步骤3中,在基因组上随机引入单核苷酸突变(SNV)和小片段插入缺失突变(InDel),使得模拟的多倍体基因组的二倍化程度为0.1到0.9,模拟间隔为0.1,从而获得不同二倍化程度的多倍体基因组标准数据。

进一步地,所述步骤4中评估方法具体为:根据步骤3中的模拟的多倍体基因组计算获得二倍化率标准数据,以评估步骤2)中模型的准确性。在二倍化率量化评估准确性的基础上,利用真实的基因组序列,利用步骤2中的模型,计算获得多倍体基因组的二倍化率。

进一步地,所述步骤4中准确性的评估方法,优选将步骤2所得二倍化率与步骤3模拟标准进行线性回归评估,所得回归系数即作为准确性判断的依据。

本发明与现有技术相比的有益效果:

本发明的一种多倍体生物基因组二倍化程度量化评估的方法,可以利用全基因组重测序的数据,定量评估多倍体基因组二倍化的程度,为多倍化基因组进化的研究提供基本的参数信息。

本方法是目前提出的第一个利用重测序数据进行多倍体基因组二倍化分析的方法,因此本方法的成本也比较低,适用于动植物的多倍体基因组研究。

【附图说明】

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1是本发明构建多倍体特征模型示意图。

图2是本发明具体实施例6中验证二倍化评估准确性的线性回归示意图。

具体实施方式

下面结合实施例对本发明作进一步的说明,但本发明并不局限于此实施例。本实施例利用该发明提供的多倍体生物基因组二倍化程度量化评估的方法。

实施例1:材料准备

本实验采用一种西藏高原特有鱼类,异齿裂腹鱼作为研究对象。从西藏雅江野外捕获的雌性异齿裂腹鱼成鱼。基于前人的研究,异齿裂腹鱼为多倍体鱼类,核型为四倍体。记录基本的性状指标后,取鱼鳍用液氮速冻一小时,并放于-80度冰箱保存。

实施例2:异齿裂腹鱼DNA提取与高通测序

将冷冻的异齿裂腹鱼预期置于也单重进行研磨,直到研磨成粉末状。之后,加入1mL消化缓冲液,是的缓冲液充分接触研磨样品,并浸没。将整个样品置于1.5mL的离心管中,在37摄氏度下静置5小时。之后,将消化液冷却到室温,取0.5mL平衡苯酚轻轻混合并3000-5000×g离心10min,吸出水相。加入苯酚:氯仿:异戊醇(体积比为25:24:1)的混合液0.5mL再次提取两次,提取水相并加入NaCl至浓度0.3M。加入3倍体积的乙醇,使得溶剂相互混合后,进行3000×g离心10min后,用70%乙醇漂洗二次,吸出上清液,晾干。获得的样本在TE中在悬浮,加入NaCl至100mM,加入RNA酶A至浓度100ug/mL,并于37℃下保持3小时后,加入SDS至最终浓度0.2%(10%SDS加10ul)。然后使用相同体积的苯酚:氯仿:异戊醇(体积比为25:24:1)提取两次,并将水相转移到洁净的管中,加入NaCl至浓度0.3M。最后沿管壁注入2.5倍体积的乙醇至完全混合。最后将DNA放在0.5mL10mM TE中再悬浮。获得的DNA样品在260nm下测定OD值已确定浓度,并置于-20℃环境下保存。

将上述操作获得的DNA样品使用Illumina测序平台进行高通量测序,DNA检测和测序方法同Illumina官方用户手册。最终,使用Illumina XTen测序平台,获得约100Gb异齿裂腹鱼测序数据,测序模式为双端150bp。

实施例3:基于根据基因组重测序结果,评估基因组的杂合度

根据基因组重测序结果,经过Fastqc和HTQC软件的质量控制和过滤之后,按照17bp读长的Kmer,计算每种类型的Kmer的个数,并构建不同Kmer的分布。利用Kmer分布的方法,获得异齿裂腹鱼基因组大小、杂合度等基因组特征信息。本项目中,计算获得异齿裂腹鱼基因组大小为2.2Gb,杂合度为0.71%。

实施例4:根据基因组的杂合度特征,构建多倍体基因组特征模型

根据上述详细步骤的说明,定义M为异齿裂腹鱼基因组重测序获得的17-mer总数,N为重复区17mer总数,α为同源区所占比率,β为二倍体重复序列所占比率,K为基因组杂合率。本方法提出上述基因组特征满足以下关系:αM–kαM+β(1-α)M=N。则可推导出基因组的二倍化程度估计为:

实施例5:在该多倍体基因组特征模型基础上,模拟不同二倍化程度的多倍体基因组

在上述基因组特征关系模型基础上,我们利用已经获得的异齿裂腹鱼参考基因组信息,通过同源比对信息将其四倍体基因组分成二套。任意取其中一套基因组进行模式实验。具体实验方法为,在基因组上随机引入单核苷酸突变(SNV)和小片段插入缺失突变(InDel),使得模拟的多倍体基因组的二倍化程度为0.1到0.9,模拟间隔为0.1,从而获得不同二倍化程度的多倍体基因组标准数据。

实施例6:评估多倍体二倍化率估计的准确性,并计算获得该多倍体基因组的二倍化程度:

利用异齿裂腹鱼的基因组序列,模拟获得的不同二倍化程度的多倍体基因组标准数据,使用实施例4中的模型,计算各个模拟数据的二倍化程度,并与模拟标准进行线性回归评估模型准确性,如附图2。结果发现,回归方程为V=1.0533X,其中决定系数R2为0.9192,定量结果与模拟结果呈现较好的一致性。

本实例按照上述流程制定了基因组各个特征之间的关系模型,并以此模型对基因组二倍化程度进行评估。上述流程结果发现异齿裂腹鱼基因组大小为2.2Gb,杂合度为1.8%,重复序列比例为48%。模拟和模型分析结果线性相关系数为0.88,线性结果良好。据此推断出异齿裂腹鱼的二倍化程度约为16%。

本发明并不仅仅限于说明书和实施方式中所描述,因此对于熟悉领域的人员而言可容易地实现另外的优点和修改,故在不背离权利要求及等同范围所限定的一般概念的精神和范围的情况下,本发明并不限于特定的细节、代表性的设备和这里示出与描述的图示示例。

7页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种模型非依赖的基因组结构变异检测系统及方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!