致病基因位点数据库及其建立方法

文档序号：1088703 发布日期：2020-10-20 浏览：16次 >En<

阅读说明：本技术 致病基因位点数据库及其建立方法 (Pathogenic gene locus database and establishment method thereof ) 是由刘晶星于世辉喻长顺于 2020-06-30 设计创作，主要内容包括：本发明涉及一种致病基因位点数据库及其建立方法,属于疾病基因检测技术领域。该致病基因位点数据库的建立方法包括以下步骤：获取经临床验证的致病基因位点数据信息,作为参考数据；获取所述参考数据中由于氨基酸改变致病的基因位点,并对此位点氨基酸的密码子进行扩展；获取所述参考数据中由于剪切位点改变致病的基因位点,并对此位点的其它突变形式进行扩展；对上述数据进行筛选,剔除人群突变发生频率高于预定阈值的位点,剩余高风险致病突变位点和高风险致病剪切位点,与所述参考数据组合,即组成所述致病基因位点数据库。该数据库收录了大量致病风险很高的位点记录,可以减少遗漏的可能性,大大提高了临床解读工作的准确性和效率。(The invention relates to a pathogenic gene locus database and an establishment method thereof, belonging to the technical field of disease gene detection. The method for establishing the pathogenic gene locus database comprises the following steps: acquiring clinically verified pathogenic gene locus data information as reference data; acquiring a gene site causing diseases due to amino acid change in the reference data, and expanding codons of amino acids at the site; acquiring a gene site causing diseases due to the change of the shearing site in the reference data, and expanding other mutation forms of the site; and screening the data, removing the sites with the occurrence frequency of the crowd mutation higher than a preset threshold value, and combining the residual high-risk pathogenic mutation sites and high-risk pathogenic shearing sites with the reference data to form the pathogenic gene site database. The database collects a large number of site records with high risk of disease, so that the possibility of omission can be reduced, and the accuracy and efficiency of clinical interpretation work are greatly improved.)

致病基因位点数据库及其建立方法

技术领域

本发明涉及疾病基因检测技术领域，特别是涉及一种致病基因位点数据库及其建立方法。

背景技术

基因突变分多态性和致病性，每个人的基因组上有大约400万个突变，其中绝大多数都是正常的非致病位点，即多态性位点，而致病性位点需经过复杂的流程验证，是一个长期积累的过程。

目前有很多收录致病性位点的数据库，如HGMD，ClinVar等，但这些数据库收录的都是实际发生过的突变，即有真实样本案例支持的突变，经与临床症状对照并验证后获得，即数据库中收录的多是较常见的位点。

在实践中，由于不常见的位点很难收集到足够多的样本量进行致病性的研究，因此并未收录到数据库中，但由于基因突变和疾病症状关系的多样性(同一个基因的不同突变可能导致不同的症状)和异质性(一种症状可能由多种不同的基因突变所引起)，目前已经发现的致病位点占比非常低，即很多突变的意义是未知的，虽然这些单个罕见位点比较少见，但其总量较多。

而这些意义未经验证的数据对致病性基因突变检测起到了非常重要的提示作用，如果仅依赖于数据库收录的常见位点去做基因检测，会造成很多有意义的位点被忽略，这对于复合杂合致病的基因影响非常大，导致极大的加大了检测工作的难度，并降低了诊断效率。

发明内容

基于此，有必要针对上述问题，提供一种致病基因位点数据库，该数据库可将未经验证的高风险位点挖掘出来以备后用，并可通过在对检测到的突变位点分析时增加这些位点的风险权重，让分析人员更容易发现这种位点的存在，从而降低检测难度并提高诊断效率。

一种致病基因位点数据库的建立方法，包括以下步骤：

获取参考数据：获取经临床验证的致病基因位点数据信息，作为参考数据；

扩展得到突变位点数据：获取所述参考数据中由于氨基酸改变致病的基因位点，并对此位点氨基酸的密码子进行扩展，分析预设的突变产生情况，得到高风险致病突变位点数据，统计备用；

扩展得到剪切位点数据：获取所述参考数据中由于剪切位点改变致病的基因位点，并对此位点的其它突变形式进行扩展，得到高风险致病剪切位点数据，统计备用；

扩展位点筛选：对上述得到的高风险致病突变位点数据和高风险致病剪切位点数据进行筛选，剔除人群突变发生频率高于预定阈值的位点，剩余高风险致病突变位点和高风险致病剪切位点，与所述参考数据组合，即组成所述致病基因位点数据库。

本发明人在实践中发现，由于各种致病位点数据库中收录的都是真实样本中发生过且经验证过的位点，实际上有大量与此类位点有关联的位点其致病风险很高，虽这些高风险位点未经验证，但我们可以通过上述方法把这些位点挖掘出来以备后用，从而降低检测难度并提高诊断效率。

可以理解的，在扩展得到突变位点数据步骤中，考虑氨基酸改变致病的基因位点，核心是考虑单碱基置换突变位点，从而改变了氨基酸的密码子，最终改变了氨基酸，从而致病。因此，所述预设突变产生情况，即是根据氨基酸所对应的密码子，按照单碱基置换后可能存在的情况进行分类分析。如一个氨基酸对应于3个密码子，则按照排列组合的方式，最多可能有9种密码子形态，再对应至相应的氨基酸(或终止密码子)，从而分析评估位点的致病风险。

在其中一个实施例中，所述参考数据来源于HGMD数据库和/或ClinVar数据库。可以理解的，参照数据来源不限，仅需是尽可能权威全面的数据库即可。

在其中一个实施例中，所述扩展得到突变位点数据步骤中，所述预设的突变产生情况包括以下三类：

I类突变为突变后密码子对应的氨基酸与参考数据一致；

II类突变为突变后密码子为终止密码子；

III类突变为突变后密码子对应的氨基酸与参考数据不一致，且非终止密码子。

可以理解的，上述III类也即是除I类和II类之外的错义突变。

在其中一个实施例中，当同时满足I类突变和II类突变时，判定为I类突变。可以理解的，如同时满足I类II类的情况，即是指原数据库中的突变就是终止突变的情况。所以当一个扩展的新突变也是终止突变时，优先判定为I类。也可以理解为，II类是特指原数据库中突变不是终止突变的情况下，扩展出了终止突变时定义的分类，此时II类的致病风险比I类要低。

在其中一个实施例中，所述扩展得到剪切位点数据步骤中，所述剪切位点扩展具体为，将参考数据中突变位点突变为与参考数据不同的核苷酸，即为Is类突变。

在其中一个实施例中，所述扩展位点筛选步骤中，所述预定阈值为5％。本发明人通过本单位大样本数据进行筛选和调整，最终发现，以5％为阈值，具有较好的效果，既能够尽量将可能存在的高风险位点示出，又能避免过多纳入无意义突变导致降低风险提示意义。

在其中一个实施例中，所述扩展位点筛选步骤中，对于无明确人群突变发生频率的位点，以及经筛选得到人群突变发生频率低于预定阈值的位点，进行如下过滤：

1)于本地样本库中检索具有该位点的样本，如样本数小于预定样本数，则保留该位点，作为高风险致病位点；如样本数大于等于预定样本数，则判断为待确认样本，进行下一步；

2)获取上述待确认样本对应的临床信息，如其中超过预定比例的样本的临床信息与该位点所处基因功能相关，则保留该位点作为高风险致病位点，如小于等于预定比例的样本的临床信息与该位点所处基因功能相关，则剔除该位点。

可以理解的，由于生物多态性的存在，如将所有与验证突变相关的突变均认为是高风险致病位点纳入数据库中，可能导致降低风险提示的意义，因此，对初步筛选出来的位点数据应进行过滤，仅保留高风险位点，从而增加本发明建立致病基因位点数据库的应用价值。

在其中一个实施例中，所述预定样本数为10，所述预定比例为1/3。本发明人通过本单位大样本数据进行筛选和调整，最终发现以上述参数建立数据库，具有较好的效果。

本发明还公开了上述的致病基因位点数据库的建立方法得到的致病基因位点数据库。

本发明还公开了一种致病基因自动分析系统，包括：

数据获取模块，用于获取待测样本的基因检测数据；

数据分析模块，用于将上述基因检测数据经生物信息学分析后，代入上述的致病基因位点数据库中进行比对，得到待测样本中I类突变、II类突变、III类突变和/或Is类突变的信息；

判定输出模块，用于将上述位点突变信息按照风险等级进行输出，所述风险等级由高至低依次为：I类突变、Is类突变、II类突变、III类突变。

与现有技术相比，本发明具有以下有益效果：

本发明的一种致病基因位点数据库的建立方法，通过对氨基酸改变的突变扩展，以及剪切位点的突变扩展，丰富致病基因位点数据，再对扩展后的位点进行剔除和筛选，最终得到既能丰富高风险致病位点，又具有较好实用价值的致病基因位点数据库。从而让分析人员更容易发现这些与与验证致病位点关联的其它致病风险的存在，从而降低检测难度并提高诊断效率。

本发明的致病基因位点数据库，收录了大量致病风险很高的位点记录，通过对基因检测位点与这些位点记录进行匹配分析，可以快速定位高风险致病位点，减少遗漏的可能性，大大提高了临床解读工作的准确性和效率。

本发明的致病基因位点数据库可用于致病基因自动分析系统中，利用自动化分析过程，将可能存在致病风险的突变位点均分析得到，降低了在生信过程中对于分析人员经验的要求，降低了检测分析难度，并提高了诊断效率。

附图说明

图1为氨基酸密码子表。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

以下实施例所用数据来源于本公司在日常送检样本中收集整理得到。

实施例1

一种致病基因位点数据库，通过以下方法建立：

一、获取参考数据。

获取经临床验证的致病基因位点数据信息，作为参考数据。

例如，可以从收录致病性位点的数据库，如HGMD，ClinVar等数据库中获取经临床验证的致病基因位点数据信息，本实施例中，以HGMD数据库为基础进行扩展。

二、扩展得到突变位点数据。

碱基突变导致的氨基酸的改变是致病位点数据库中收录的最多的一类突变类型，导致某个氨基酸改变的碱基突变往往有很多种，有些需要突变为特定氨基酸才致病，有些需要突变为终止密码子才致病，有些则只需要氨基酸发生改变就致病，但数据库中只收录了已发表过研究结果的位点。因此，本实施例中进行如下扩展：

获取所述参考数据中由于氨基酸改变致病的基因位点，并对此位点氨基酸的密码子进行扩展，分析预设的突变产生情况，根据氨基酸的改变，参见图1所示氨基酸密码子表，将一个密码子中所有碱基突变分为三类突变：

Ⅰ、突变后氨基酸改变与数据库中一致；

Ⅱ、突变后为终止密码子；

Ⅲ、突变后氨基酸改变与数据库中不一致且非终止密码子(即除前两种外的错义突变)。

当Ⅰ和Ⅱ同时满足时，优先判断为Ⅰ类突变。

通过上述过程，扩展得到高风险致病突变位点数据，统计备用。

以下以HGMD数据库中DMD基因为例进行具体的说明：

例一：

如DMD基因第268位氨基酸为Leu，密码子为TTA，数据库中仅有一条记录，即[c.804A>C；p.Leu268Phe]。经查密码子表，该密码子处可能产生9种单碱基突变，分别以下几种:

1)2种为终止突变：[c.803T>A；p.Leu268Term]，[c.803T>G；p.Leu268Term]；

2)5种为错义突变：[c.804A>C；p.Leu268Phe]，[c.804A>T；p.Leu268Phe]，[c.803T>C；p.Leu268Ser]，[c.802T>A；p.Leu268Ile]，[c.802T>G；p.Leu268Val]；

3)有2种为同义突变：[c.804A>G；p.Leu268Leu]，[c.802T>C；p.Leu268Leu]；

在与HGMD数据库中致病突变位点参考数据[c.804A>C；p.Leu268Phe]进行比较后得出，[c.804A>T；p.Leu268Phe]可扩展为Ⅰ类；[c.803T>A；p.Leu268Term]，[c.803T>G；p.Leu268Term]可扩展为Ⅱ类；[c.803T>C；p.Leu268Ser]，[c.802T>A；p.Leu268Ile]，[c.802T>G；p.Leu268Val]可扩展为Ⅲ类。

例二：

DMD基因第333位氨基酸为Ser，密码子为TCA，数据库中仅有一条记录，即[c.998C>A；p.Ser333Term]。经查氨基酸密码子表，该密码子处9种单碱基突变，分别以下几种：

1)有2种为终止突变：[c.998C>A,p.Ser333Term]，[c.998C>G,p.Ser333Term]；

2)有4种为错义突变：[c.998C>T,p.Ser333Leu]，[c.997T>C,p.Ser333Pro]，[c.997T>A,p.Ser333Thr]，[c.997T>G,p.Ser333Ala]；

3)有3种为同义突变：[c.999A>T,p.Ser333Ser]，[c.999A>C,p.Ser333Ser]，[c.999A>G,p.Ser333Ser]；

在与HGMD数据库中致病突变位点参考数据[c.998C>A；p.Ser333Term]进行比较后得出，[c.998C>G,p.Ser333Term]可扩展为I类，也可扩展为II类，因Ⅰ类与Ⅱ类重叠，也就是说原数据库中的突变就是终止突变的情况，所以当一个扩展的新突变也是终止突变时，优先判定为I类。因此，[c.998C>G,p.Ser333Term]扩展为Ⅰ类；4种错义突变扩展为Ⅲ类。

三、扩展得到剪切位点数据。

内含子及外显子边缘处的一些碱基位点对内含子的剪切作用至关重要，除了通用的内含子±1和±2处的4个碱基外，某些内含子还有其他的关键剪切位点。同样，由于目前常规数据库中只收录了已发表过研究结果的位点，本实施例根据这些关键剪切位点的坐标，将数据库中未收录的其他突变形式扩展为Ⅰs类，具体如下。

获取所述参考数据中由于剪切位点改变致病的基因位点，并对此位点的其它突变形式进行扩展，得到高风险致病剪切位点数据，统计备用。

以HGMD数据库中DMD基因为例进行说明：[c.265-463A>G]是数据库中收录的一个DMD基因的剪切致病位点，把同坐标处的其他突变形式[c.265-463A>C]，[c.265-463A>T]，[c.265-463delA]扩展为Ⅰs类突变。

通过上述过程，扩展得到高风险致病剪切位点数据，统计备用。

四、扩展位点筛选。

对上述得到的高风险致病突变位点数据和高风险致病剪切位点数据进行筛选，剔除人群突变发生频率高于预定阈值的位点，剩余高风险致病突变位点和高风险致病剪切位点，与所述参考数据组合，即组成所述致病基因位点数据库。

具体的，对扩展位点进行人群频率的注释后，以5％为阈值可以排除掉多态性位点(以Ⅰs类和Ⅲ类为主)。

例如，CYP21A2基因内含子里有一个点突变c.293-13C>G(人群频率0.2％)影响剪切，会造成非常严重的21-羟化酶缺乏症。而c.293-13C>A是一个人群中常见的多态性位点，人群频率高达63％，c.293-13C>T则还没有人群频率的官方统计数据。

即该位置处碱基C为人类基因组参考序列碱基，G为HGMD数据库收录的致病碱基，A和T为扩展的碱基，由于A是一个人群中较常见的多态性位点，可以排除其致病性，因此可以剔除，只保留T为扩展的风险致病位点。

对于没有人群频率官方统计数据的位点，以及人群频率低于5％的位点，使用发明人汇总的本地样本库的临床信息进行筛选，方案如下：

1)在本地样本库中检索有该位点的样本，若样本数<10则保留该位点，否则进行下一步；

2)获取这些样本的临床信息，若有超过1/3样本的临床信息与该位点所处基因有关联，则保留该位点。

通过上述处理进行剔除和筛选后，剩余高风险致病突变位点和高风险致病剪切位点，与步骤一中由HGMD数据库获取的参考数据组合，即组成本实施例的一种致病基因位点数据库。

五、扩展位点的风险性分析。

终止突变的致病性需要视情况而定，不同基因以及不同外显子位置上的终止突变可以有不同的致病风险(有些基因的某些外显子上的终止突变是良性的)，而错义突变致病风险的不确定性则更大。

Ⅰ类位点由于氨基酸改变与数据库中一致，其致病性是较为明确的，Ⅰs类位点为数据库中收录的剪切位点相同坐标处的碱基改变，其致病性也较为明确。Ⅱ类与Ⅲ类位点的致病性风险则依次递减。在实际应用中，可根据几类位点的风险等级来做判断。如可按照风险等级由高至低依次为：I类突变、Is类突变、II类突变、III类突变进行报告。

六、数据库收录位点对比。

将上述扩展建立的致病基因位点数据库与HGMD数据库收录突变位点数进行对比，具体如下表所示。

表1.位点数据对比

HGMD收录突变位点数	257,152
		Ⅰ类位点数	25,717
Ⅰs类位点数	72,426
		Ⅱ类位点数	35,262
Ⅲ类位点数	823,915

从上表可以看出，扩展的较高风险的Ⅰ、Ⅰs、Ⅱ类位点占HGMD总收录位点数的比例超过50％，较低风险的Ⅲ类位点数超过HGMD总收录位点数的3倍，极大的丰富了数据库中高风险位点。

实施例2

一种致病基因自动分析系统，包括：

数据获取模块，用于获取待测样本的基因检测数据；

数据分析模块，用于将上述基因检测数据经生物信息学分析后，代入实施例1建立得到的致病基因位点数据库中进行比对，得到待测样本中I类突变、II类突变、III类突变和/或Is类突变的信息；

判定输出模块，用于将上述位点突变信息按照风险等级进行输出，所述风险等级由高至低依次为：I类突变、Is类突变、II类突变、III类突变。

实施例3

利用实施例2的致病基因自动分析系统，对检测遗传性耳聋相关基因的样本数据进行分析。

按常规方案检测到chr7:107350577A>G的突变，该突变在HGMD原始数据库中检索到是SLC26A4基因一个风险位点[c.2168A>G,p.His723Arg]。文献报道此突变为东亚耳聋伴前庭水管扩大患者中最为常见的突变，但SLC26A4基因是隐性遗传，需要两个致病位点才能致病。

在使用实施例1中扩展HGMD数据库后得到的检索后，发现该患者还有一个chr7:107323982G>A的突变，也是高风险致病的致病基因位点，具体分析如下。

如表2所示，在HGMD原始数据库中，chr7:107323982位置处G>C和G>T均被标记为致病位点(DM标记)，且G>T在不同的观点中，认为的致病方式有冲突，一种观点认为是引起氨基酸改变(后面的M标记)而致病，另一种观点则认为是引起剪切改变(后面的S标记)而致病；同时与chr7:107323982在同一密码子范围内的chr7:107323981位置处G>T也被标记为致病位点。

虽然HGMD原始数据库中并没有本案例患者的chr7:107323982G>A突变收录，但经实施例1建立得到的致病基因位点数据库分析，其中有四处扩展出了chr7:107323982G>A，其中一处为Ⅰs类，三处为Ⅲ类。

表2.致病基因位点分析情况

注：分类级别中raw为原始数据库收录的致病位点，raw_db列为对应原始数据库(HGMD)收录位点的信息。1,8,9,10号位点为HGMD原始数据库收录位点，其他为扩展位点，11,14,15,16号为本案例患者携带的位点，分别扩展自上述10,1,8,9号的位点。该基因Gly334处密码子为GGG，可根据密码子表对应出上述扩展位点的氨基酸突变类型。

上述案例说明，若只使用HGMD原始数据库，从该患者的检测结果中很容易遗漏chr7:107323982G>A突变，因为该位置G>A并不是一个常见突变，各种数据库(包括千人基因组，dbSNP，HGMD，clinvar等)都没有收录，而使用实施例1建立得到的致病基因位点数据库分析后则非常容易发现该位点，并明确其较高的致病风险，从而降低检测难度并提高诊断效率。

实施例4

利用实施例2的致病基因自动分析系统，参照实施例3的方法，对其它案例进行分析，对实施例1得到的致病基因位点数据库进行评估。结果如下

其他漏报案例举例：

1、实验号为NP15D3999样本。

将此样本参照实施例3的方法进行分析，结果如下表3和表4所示。

表3.致病基因位点扩展情况