一种定位偏分离性状的方法、装置及存储介质

文档序号：685298 发布日期：2021-04-30 浏览：10次 >En<

阅读说明：本技术 一种定位偏分离性状的方法、装置及存储介质 (Method, device and storage medium for positioning segregation character ) 是由邓秀新王楠宋谢天周银胡健兵谢源源叶俊丽于 2021-01-11 设计创作，主要内容包括：本发明提供一种定位偏分离性状的方法、装置及存储介质,方法包括：导入遗传群体待定位表型数据、遗传群体父母本及子代的基因型变异信息和基因组参考信息,对参考信息进行数据窗口划分,在多个数据窗口内对变异信息进行偏分离程度分析处理,得到待比较偏分离程度信息,从变异信息中提取相对性状的偏分离效应去除变异文件和偏分离效应增加变异文件,对其进行偏分离程度分析处理,得到第一和第二偏分离程度信息,将第一和第二偏分离程度信息与待比较偏分离程度信息进行比较,根据比较结果得到偏分离性状定位区段。本发明能够快速且准确地得到偏分离性状定位区段,解决了偏分离的性状不能定位的问题。(The invention provides a method, a device and a storage medium for positioning segregation traits, wherein the method comprises the following steps: introducing phenotype data to be positioned of a genetic group, genotype variation information and genome reference information of parents and filial generations of the genetic group, dividing data windows of the reference information, carrying out partial segregation degree analysis processing on the variation information in a plurality of data windows to obtain partial segregation degree information to be compared, extracting partial segregation effect removing variation files and partial segregation effect increasing variation files of relative characters from the variation information, carrying out partial segregation degree analysis processing on the partial segregation effect removing variation files and the partial segregation effect increasing variation files to obtain first partial segregation degree information and second partial segregation degree information, comparing the first partial segregation degree information and the second partial segregation degree information with the partial segregation degree information to be compared, and obtaining partial segregation character positioning sections according to comparison results. The method can quickly and accurately obtain the partial segregation character positioning section, and solves the problem that the partial segregation character cannot be positioned.)

技术领域

本发明主要涉及基因数据处理技术领域，具体涉及一种定位偏分离性状的方法、装置及存储介质。

背景技术

正向遗传学其中一个主要的方法是基于杂交群体，对控制性状的相关区段进行定位。针对单基因控制的质量性状，常常构建BC1测交分离群体以及F2自交分离群体，如果显性性状和隐性性状的分离比经过卡方检验在BC1群体子代中呈现1：1的分离，而在F2群体子代中呈现1：2：1的分离，通常对简单质量性状的定位方法有QTL定位，BSA定位，这一些方法能表现出良好的效果。但是定位一些可能影响子代存活率的性状则可能效果不显著，因为这些性状会影响子代表型的分离，即产生分离群体表型偏分离的现象，目前对于偏分离的性状不能定位的问题还没有相应的解决办法。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种定位偏分离性状的方法、装置及存储介质。

本发明解决上述技术问题的技术方案如下：一种定位偏分离性状的数据处理方法，包括如下步骤：

导入遗传群体待定位表型数据、遗传群体父母本及子代的基因型变异信息和基因组参考信息；

基于数据窗口划分法对所述基因组参考信息进行划分，得到多个数据窗口；

在多个数据窗口内对所述基因型变异信息进行偏分离程度分析处理，得到待比较偏分离程度信息；

将所述遗传群体待定位表型数据中的遗传群体子代划分为不同性状的亚群，以划分得到的亚群为标准从所述基因型变异信息中提取相对性状的偏分离效应去除变异文件和偏分离效应增加变异文件；

通过多个所述数据窗口对所述偏分离效应去除变异文件进行偏分离程度分析处理，得到第一偏分离程度信息，并通过多个所述数据窗口对所述偏分离效应增加变异文件进行偏分离程度分析处理，得到第二偏分离程度信息；

将所述第一偏分离程度信息和所述第二偏分离程度信息与所述待比较偏分离程度信息进行比较，根据比较结果得到偏分离性状定位区段。

本发明解决上述技术问题的另一技术方案如下：一种定位偏分离性状的装置，包括：

导入模块，用于导入遗传群体待定位表型数据、遗传群体父母本及子代的基因型变异信息和基因组参考信息；

窗口划分模块，用于基于数据窗口划分法对所述基因组参考信息进行划分，得到多个数据窗口；

处理模块，用于在多个数据窗口内对所述基因型变异信息B进行偏分离程度分析处理，得到偏分离程度信息；

将所述遗传群体待定位表型数据中的遗传群体子代划分为至少两个不同性状的亚群，以划分得到的亚群为标准从所述基因型变异信息B中提取相对性状的偏分离效应去除变异文件和偏分离效应增加变异文件；

通过多个所述数据窗口对所述偏分离效应去除变异文件进行偏分离程度分析处理，得到第一待比较偏分离程度信息，并通过多个所述数据窗口对所述偏分离效应增加变异文件进行偏分离程度分析处理，得到第二待比较偏分离程度信息；

比较模块，用于分别将所述第一待比较偏分离程度信息和所述第二待比较偏分离程度信息与所述偏分离程度信息进行比较，得到第一比较结果和第二比较结果，将第一比较结果和第二比较结果进行交集处理，得到偏分离性状定位区段。

本发明解决上述技术问题的另一技术方案如下：一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的定位偏分离性状的方法。

本发明的有益效果是：将基因组参考信息进行窗口划分，得到多个用于对初始的基因型变异信息及性状划分后的基因型变异信息进行偏分离程度分析处理的数据窗口，得到对应的待比较偏分离程度信息和第一偏分离程度信息以及第二偏分离程度信息，将其进行比较分析，从而确定偏分离性状定位区段。

附图说明

图1为本发明实施例提供的定位偏分离性状的数据处理方法的流程示意图；

图2为本发明实施例提供的定位偏分离性状的装置的功能模块示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明实施例提供的定位偏分离性状的数据处理方法的流程示意图。

实施例1：如图1所示，一种定位偏分离性状的数据处理方法，包括如下步骤：

导入遗传群体待定位表型数据、遗传群体父母本及子代的基因型变异信息和基因组参考信息；

基于数据窗口划分法对所述基因组参考信息进行划分，得到多个数据窗口；

在多个所述数据窗口内对所述基因型变异信息进行偏分离程度分析处理，得到待比较偏分离程度信息；

将所述第一偏分离程度信息和所述第二偏分离程度信息与所述待比较偏分离程度信息进行比较，根据比较结果得到偏分离性状定位区段。

应理解地，“遗传群体父母本及子代的基因型变异信息”中“基因型变异信息”涉及的是遗传群体父母本及子代的共同信息。

上述实施例中，将基因组参考信息进行窗口划分，得到多个用于对初始的基因型变异信息及性状划分后的基因型变异信息进行偏分离程度分析处理的数据窗口，得到对应的待比较偏分离程度信息和第一偏分离程度信息以及第二偏分离程度信息，将其进行比较分析，从而确定偏分离性状定位区段。

在实施例1的基础上，实施例2：所述对所述基因组参考信息进行窗口划分，得到多个数据窗口的过程包括：

根据预设步长值对所述基因组参考信息进行窗口划分，得到多个数据窗口，其中，所述预设步长值为100kb的长度。

上述实施例中，由于基因组参考信息的长度较长，需要将其进行等长度划分，便于对初始的基因型变异信息及性状划分后的基因型变异信息进行信息索引及偏分离程度分析处理。

在实施例1的基础上，实施例3：在多个数据窗口内对所述基因型变异信息进行偏分离程度分析处理前，还包括对所述基因型变异信息进行优化处理步骤，其过程包括：

过滤掉所述基因型变异信息中子代基因型的假阳性位点；

根据预设孟德尔遗传理论模型对过滤后的基因型变异信息B进行变异类型筛选，得到孟德尔分离比。

具体地，根据父母本标记类型推测子代可能的标记类型，当不符合子代理论基因型的个体数占总群体的比例超过5％的位点可认为假阳性位点，可以进行剔除。

具体地，根据定位性状的推测模型进行变异类型筛选，例如建立BC1分离模型则选取父母本只有其中一个为杂合的位点，建立F2分离模型则选取父母本中两个均为杂合的位点。根据分离模型确定孟德尔分离比，依据此分离比进行卡方检验，将卡方检验结果中的p值小于0.001的进行保留。

在实施例3的基础上，实施例4：所述在每个数据窗口内对所述基因型变异信息B进行偏分离程度分析处理，得到偏分离程度信息的过程包括：

在各个数据窗口中统计所述基因型变异信息在偏分离位点上的频数,根据所述频数得到偏分离位点个数；

对所述孟德尔分离比进行卡方检验，根据卡方检验结果的p值为标准得到偏分离位点变异信息，其中，所述p值小于0.001；

将所述偏分离位点个数和所述偏分离位点变异信息作为偏分离程度信息。

具体地，在各个数据窗口中统计所述基因型变异信息在偏分离位点上的频数，绘图得到杂交群体的全基因组偏分离位点分布图，并在每一个窗口中计算偏分离的程度，得到偏分离程度。

应理解地，偏分离位点变异信息包含偏分离位点在染色体上的位置信息，根据基因组已经划分好的100kb窗口进行数量统计，记为该窗口的偏分离频数，这反映了该位点偏分离的可信度。每个窗口内所有的偏分离位点均有偏分离的特征，可以根据p值反应偏分离的程度，本实施例对p取log10，来反应偏分离的程度。

上述实施例中，通过对孟德尔分离比进行卡方检验，从而得到偏分离位点变异信息。

在实施例1的基础上，实施例5：所述将所述遗传群体待定位表型数据中的遗传群体子代划分为至少两个不同性状的亚群，以划分得到的亚群为标准从所述基因型变异信息中提取相对性状的偏分离效应去除变异文件和偏分离效应增加变异文件的过程包括：

通过所述遗传群体待定位表型数据构建偏分离效应去除类群和构建偏分离效应增加类群；

以所述偏分离效应去除类群和所述偏分离效应增加类群为标准从所述基因型变异信息中提取相对性状的偏分离效应去除变异文件和偏分离效应增加变异文件。

上述实施例中，通过偏分离程度下降信息和偏分离程度上升信息来得到定位候选区段，即遗传待定位表型数据的表型偏分离信息。

在实施例5的基础上，实施例6：所述通过所述遗传群体待定位表型数据构建偏分离效应去除类群和构建偏分离效应增加类群的过程包括：

在所述遗传群体待定位表型数据中获取多个A表型群体子代信息和多个B表型群体子代信息；

选取所有的B表型群体子代信息以及随机选取A表型群体子代信息来构建偏分离效应去除类群；

选取所有的A表型群体子代信息来构建偏分离效应增加类群。

具体地，随机选取A表型群体子代信息和所有的B表型群体子代信息对应的个数为m和n，且m>n，其中，m：n的比例需符合孟德尔遗传模型的卡方检验。

上述实施例中，通过遗传群体待定位表型数据得到多个A表型群体子代信息和多个B表型群体子代信息，从而构建得到偏分离效应去除类群和偏分离效应增加类群，通过偏分离效应去除类群和偏分离效应增加类群便于进一步处理得到偏分离性状定位区段。

在实施例1的基础上，实施例7：所述将所述第一偏分离程度信息和所述第二偏分离程度信息与所述待比较偏分离程度信息进行比较，根据比较结果得到偏分离性状定位区段的过程包括：

将所述第一偏分离程度信息和所述第二偏分离程度信息与所述待比较偏分离程度信息进行比较，得到偏分离程度下降信息和偏分离程度增加信息；

将偏分离程度下降信息和偏分离程度增加信息得到数据重叠的数据窗口，根据所述数据重叠的数据窗口得到偏分离性状定位区段。

具体地，在数据窗口中通过t检验方法，并设置99％的置信区间，经过t检验方法表明偏分离程度显著下降则为偏分离程度显著下降的窗口；同理，在数据窗口中通过t检验方法，并设置99％的置信区间，经过t检验方法表明偏分离程度显著增加则为偏分离程度显著上升的窗口。

应理解地，统计多个分离效应去除类群与杂交群体相比偏分离程度显著下降的窗口，统计偏分离效应增加类群与杂交群体相比偏分离程度显著增加的窗口，重叠窗口即为定位候选区段，影响表型的偏分离。

图2为本发明实施例提供的定位偏分离性状的装置的功能模块示意图。

实施例8：一种定位偏分离性状的装置，包括：

导入模块，用于导入遗传群体待定位表型数据、遗传群体父母本及子代的基因型变异信息和基因组参考信息；

窗口划分模块，用于基于数据窗口划分法对所述基因组参考信息进行划分，得到多个数据窗口；

处理模块，用于在多个数据窗口内对所述基因型变异信息进行偏分离程度分析处理，得到偏分离程度信息；

将所述遗传群体待定位表型数据中的遗传群体子代划分为至少两个不同性状的亚群，以划分得到的亚群为标准从所述基因型变异信息中提取相对性状的偏分离效应去除变异文件和偏分离效应增加变异文件；

实施例9：一种定位偏分离性状的装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，实现如上所述的定位偏分离性状的方法。

实施例10：一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的定位偏分离性状的方法。

应理解地，上述实施例1至8中，是以两个性状为例进行数据处理方法说明的，若出现两个以上的性状，其数据处理方法与“两个性状”的数据处理方法相同，不再赘述。

下面以具体实例来验证本方法的有效性：

以柑橘基因组和柑橘杂交群体进行定位，针对柑橘自交不亲和性状进行定位，柑橘自交不亲和性状位于柑橘一号染色体上1-1.3mb的区间，利用本群体重测序数据构建杂交群体父母本和子代的基因型变异文件，因为根据亲和：不亲和的分离比1.7:1假定偏离1:1模型，建立孟德尔遗传理论模型，即父母本BC1模型，已知柑橘群体中不亲和性状来源于母本，亲和来源于父本，偏分离偏向父本，其中亲和与不亲和相对性状的偏分离被成功检测，本实例基于已知定位区间的相对性状进行验证，表明偏分离检测有效，能够准确定位偏分离性状。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

10页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：肿瘤个体化免疫治疗基因检测结果的解读方法、系统和存储介质

一种定位偏分离性状的方法、装置及存储介质

相关技术

网友询问留言