Cyp21a2基因ngs数据分析的方法、装置及应用

文档序号:1906619 发布日期:2021-11-30 浏览:18次 >En<

阅读说明:本技术 Cyp21a2基因ngs数据分析的方法、装置及应用 (CYP21A2 gene NGS data analysis method, device and application ) 是由 刘风侠 孙隽 周梅珍 许莹硕 樊春娜 王垚燊 彭智宇 于 2021-09-09 设计创作,主要内容包括:本申请公开了一种CYP21A2基因NGS数据分析的方法、装置及应用。本申请方法包括,对芯片捕获区域设定窗口和滑动窗口,根据每个窗口深度及GC含量进行深度修正,对修正后的深度,根据隐马模型计算各窗口拷贝数;统计CYP21A2基因区域序列,挑选成对序列,根据成对序列区间内目标位点和辅助位点位置,判定目标位点和辅助位点的碱基,对照参考序列目标位点真假基因处碱基,判定该成对序列支持真基因突变或未突变;利用待测样本拷贝数校正的值,对照每个位点设定阈值,确定小于阈值的样本为突变候选样本;综合以上结果,添加各样本突变位点数提示CNV,获得CYP21A2基因的CNV和点突变结果。本申请方法,利用高通量测序数据能准确有效的获得CYP21A2基因的拷贝数变异和点突变信息。(The application discloses a method, a device and application for analyzing CYP21A2 gene NGS data. Setting a window and a sliding window for a chip capture area, performing depth correction according to the depth and GC content of each window, and calculating the copy number of each window according to a hidden horse model for the corrected depth; counting CYP21A2 gene region sequences, selecting paired sequences, judging the bases of a target site and an auxiliary site according to the positions of the target site and the auxiliary site in a paired sequence interval, contrasting the bases of a true gene and a false gene of the target site of a reference sequence, and judging whether the paired sequences support true gene mutation or non-mutation; setting a threshold value by using the copy number correction value of the sample to be detected and contrasting each site, and determining the sample smaller than the threshold value as a mutation candidate sample; the results were combined, and the number of mutation sites of each sample was added to indicate CNV, thereby obtaining CNV and point mutation results of CYP21A2 gene. According to the method, the copy number variation and point mutation information of the CYP21A2 gene can be accurately and effectively obtained by using high-throughput sequencing data.)

CYP21A2基因NGS数据分析的方法、装置及应用

技术领域

本申请涉及高通量测序数据分析技术领域,特别是涉及一种CYP21A2基因NGS数据分析的方法、装置及应用。

背景技术

先天性肾上腺皮质增生(CAH)是一种常染色体隐性遗传疾病,全球发病率为1/15000,相关致病基因包括CYP21A2(21-羟化酶)、CYP11B1、HSD3B2、CYP17A1,其中CYP21A2基因导致的先天性肾上腺皮质增生占CAH患者90%-95%,发病率1/10000-1/20000。21-羟化酶缺乏症类型包括经典型和非经典型,经典型包括严重失盐型和单纯男性化型,其中前者约占患者数的75%,后者占25%。在携带者筛查项目中,扩充携带者筛查的代谢病种类,将代谢病的预防关口前移至孕前/产前,可以满足不同人群的需求,有利于对代谢病的早发现早预防、指导科学备孕。

CYP21A2基因及其假基因CYP21A1P全长约3.3kb,均含有10个外显子,存在高度同源的序列,其中外显子区域同源性98%,内含子区域同源性96%,差异位点大多集中在intron2。致病性变异包括点突变、拷贝数缺失,以及基因融合导致的基因功能缺失。其中不等交换导致的30K缺失约占25%,75%是基因转换导致的点突变,以及小于5%的真基因自发突变。

同源序列的存在,以及真假基因之间的微转换,使得CYP21A2传统检测方式均为补充实验,包括一代测序sanger、MLPA、多重PCR,这些检测方式不仅会增加成本,而且交付困难,严重制约CYP21A2基因的检测和应用。

第二代测序(缩写NGS),即高通量测序,能一次并行对几十万到几百万条DNA进行序列测定,是基因检测和研究的重要技术手段。NGS数据,即高通量测序获得的数据。然而,NGS数据不能准确有效的检测高同源基因突变,这极大的限制了NGS在CYP21A2基因检测中的应用。

因此,如何通过NGS更准确有效的区分高同源的CYP21A2基因及其假基因CYP21A1P的突变是本领域亟待解决的问题。

发明内容

本申请的目的是提供一种新的CYP21A2基因NGS数据分析的方法、装置及应用。

为了实现上述目的,本申请采用了以下技术方案:

本申请的第一方面公开了一种CYP21A2基因NGS数据分析的方法,包括以下步骤:

拷贝数变异分析步骤,包括获取待测样本的高通量测序数据(即NGS数据),对芯片捕获区域设定窗口长度并设置滑动窗口,记录每个芯片捕获区域设定窗口的起始终止坐标,计算平均深度和GC含量,对每个样本每个染色体的窗口深度-GC含量进行路易斯回归,得到GC校正深度,在修正后的样本深度上,重新按参数设置芯片捕获区域设定窗口长度和滑动长度,本申请的一种实现方式中,具体按参数重新将窗口长度和滑动长度对应设置成30和25,取窗口深度,对GC校正后的窗口深度进行批次修正,计算相关系数,同时进行质控去除低质量样本,本申请的一种实现方式中,染色体和其他样本染色体之间相关系数平均数小于0.8,一个样本符合条件的染色体数目小于4条则为低质量样本,根据修正后的窗口深度用隐马模型对每个窗口的拷贝数进行估计,对异常拷贝数的异常窗口,本申请的一种实现方式中,拷贝数异常的窗口是指隐马模型推测为非2的拷贝,连续异常窗口的数目达到设定的阈值数,则将连续异常窗口连成一个拷贝数变异片段,用于计算平均后验概率,本申请的一种实现方式中,具体是将几个片段的隐马模型计算出的概率计算平均数,长度大于设定的阈值则输出,否则过滤掉,对获取的拷贝数变异片段进行注释输出,获得拷贝数变异分析结果;本申请的一种实现方式中,长度大于设定的阈值具体是指片段长度至少为130bp;

点突变分析步骤,包括通过人类参考基因组上CYP21A2基因和CYP21A1P基因的序列比对,找出CYP21A2基因和CYP21A1P基因的全部真假基因差异位点,输出真假基因差异位点的位置以及对应位置处的碱基,获得真假基因差异位点表,将待测样本比对到真假基因的序列全部比对回真基因,查找在绝大多数样本都存在的变异,核对确认属于真假基因的待测样本的差异位点,添加到真假基因差异位点表中;以待测样本的差异位点信息为基础,标记热点突变,在比对文件里查找热点位置处序列ID,同时记录成对序列的比对位置,在循环热点附近一定区域,例如循环位点左右扩展2K的区域,的比对文件中查找出标记的热点位置序列的配对序列,解析每一对的序列,定位突变的点突变或者插入缺失的位置,对照真假基因差异位点表,确认在目标位点以及其他辅助的真假基因差异位点的碱基,确认这些除目标位点之外的碱基属于真基因还是假基因,以此来确认这些序列属于真基因还是假基因,对于属于真基因的序列,再判定目标位点属于突变还是真基因原始碱基,从而确认真基因目标位点为突变或者没有突变,同时统计支持突变和支持参考序列的序列数目,其中,参考序列是指人类参考基因组,以此来确定突变的支持数目和比例,作为后续质量过滤的判定依据;本申请的一种实现方式中,后续质量过滤的具体条件为,支持reads数目大于或等于2,比例大于或等于10%,位点序列支持reads数目大于20条;

真基因碱基比例提示信号分析步骤,包括对真假基因每个差异位点的真基因碱基比例进行统计;对于单碱基差异位点,直接统计真假基因位置处各种碱基的数目,即支持各种碱基的序列(read)的数目,然后合并一起计算真基因碱基的比例,以及总的深度;对于插入缺失,如果假基因对于真基因来说是插入,在真基因位置处统计插入和非插入的参考序列(即人类参考基因组)的数目,在假基因处则统计没有突变和缺失突变的序列数目,此时由于序列的倒换,没有突变的是插入的数目而缺失的序列数目相当于没有突变的真基因参考序列,和单碱基计算方式一样,将两部分的统计结果合并在一起,计算真基因碱基序列的数目和比例;统计同一种panel的若干样本,本申请的一种实现方式中,具体是统计了545例样本,计算样本均值以及标准差,根据正态分布的概率计算小概率阈值,对于待测样本利用拷贝数变异分析步骤的结果作为校正因子,换算正常拷贝的真基因碱基比例,与设定的阈值作比较,如果小于阈值预示存在突变;本申请的一种实现方式中,具体的设定阈值是平均值减去两倍标准差,可以理解,每个位点的设定阈值都不一样,一般范围在0.21-0.36;

检测信息整合统计步骤,包括整合统计不同方式检测的点突变在每个样本里的数目,作为片段突变拷贝数变异的辅助;最终获得待测样本基于NGS数据的CYP21A2基因的拷贝数变异和点突变信息。其中,作为片段突变CNV的辅助,例如,如果一个样本突变位点数>=3则提示cnv存在。

本申请中,真假基因即真基因“CYP21A2基因”和假基因“CYP21A1P基因”。本申请利用NGS数据实现高同源序列基因突变方法的开发,实现了对代谢病CAH进行相关基因突变在NGS中的检测,更充分的利用NGS数据,扩展了NGS可检测的遗传病范围,相对于高同源基因传统检测方式,简化了检测流程,提高了检测通量,降低了检测成本,提高了产品竞争力。将本申请的分析方法利用计算机程序实现时,能够自动化判断和输出已知致病变异,节约了变异的人工解读成本,适合于健康人筛查或者CAH患者的遗传病因诊断。

需要说明的是,本申请的高通量测序数据分析方法,能够对21-羟化酶缺乏症进行基因突变检测,从而确定检测对象的基因突变类型,对代谢病的早发现早预防、指导科学备孕提供中间参考数据。可以理解,本申请的分析方法仅仅是对基因突变进行检测,至于是否患病仍然需要根据具体的临床病征进行判断;因此,本申请的分析方法仅仅是针对CYP21A2基因的高通量测序数据的分析方法,直接输出结果仅仅是CYP21A2基因的突变情况,并非21-羟化酶缺乏症的诊断方法。

本申请的一种实现方式中,CYP21A2基因NGS数据分析的方法还包括高通量测序数据过滤步骤;高通量测序数据过滤步骤,包括将高通量测序获得的原始数据进行过滤,过滤原则包括:过滤去除碱基质量值≤10的碱基个数占序列中总碱基比例>50%的序列、平均质量<20的序列,以及N碱基个数>10%的序列,过滤后获得高质量的高通量测序数据。其中,获得的高质量的高通量测序数据用于后续的拷贝数变异分析步骤、点突变分析步骤和真基因碱基比例提示信号分析步骤。

本申请的一种实现方式中,高通量测序数据的目标区域平均测序深度不低于100×,全基因组测序深度不低于40×。

本申请的一种实现方式中,拷贝数变异分析步骤中,连续异常窗口的数目达到设定的阈值数,则将连续异常窗口连成一个拷贝数变异片段,其中,阈值数为5。

本申请的一种实现方式中,点突变分析步骤还包括,统计支持突变和支持参考序列的reads数目,以此确定突变的支持reads数目和比例,将支持reads数目大于或等于2,比例大于或等于10%,位点序列支持reads数目大于20条,的突变位点作为阳性突变位点。

本申请的第二方面公开了一种CYP21A2基因NGS数据分析的装置,包括拷贝数变异分析模块、点突变分析模块、真基因碱基比例提示信号分析模块和检测信息整合统计模块;

拷贝数变异分析模块,用于获取待测样本的高通量测序数据,对芯片捕获区域设定窗口长度并设置滑动窗口,记录每个芯片捕获区域设定窗口的起始终止坐标,计算平均深度和GC含量,对每个样本每个染色体的窗口深度-GC含量进行路易斯回归,得到GC校正深度,在修正后的样本深度上,重新按参数设置芯片捕获区域设定窗口长度和滑动长度,取窗口深度,对GC校正后的窗口深度进行批次修正,计算相关系数,同时进行质控去除低质量样本,根据修正后的窗口深度用隐马模型对每个窗口的拷贝数进行估计,对异常拷贝数的异常窗口,连续异常窗口的数目达到设定的阈值数,则将连续异常窗口连成一个拷贝数变异片段,用于计算平均后验概率,大于设定的阈值则输出,否则过滤掉,对获取的拷贝数变异片段进行注释输出,获得拷贝数变异分析结果;

点突变分析模块,用于通过人类参考基因组上CYP21A2基因和CYP21A1P基因的序列比对,找出全部真假基因差异位点,输出真假基因差异位点的位置以及对应位置处的碱基,获得真假基因差异位点表,将待测样本比对到真假基因的序列全部比对回真基因,查找在绝大多数样本都存在的变异,核对确认属于真假基因的待测样本的差异位点,添加到真假基因差异位点表中;以待测样本的差异位点信息为基础,标记热点突变,在比对文件里查找热点位置处序列ID,同时记录成对序列的比对位置,在循环热点附近一定区域的比对文件中查找出标记的热点位置序列的配对序列,解析每一对的序列,定位突变的点突变或者插入缺失的位置,对照真假基因差异位点表,确认在目标位点以及其他辅助的真假基因差异位点的碱基,确认这些除目标位点之外的碱基属于真基因还是假基因,以此来确认这些序列属于真基因还是假基因,对于属于真基因的序列,再判定目标位点属于突变还是真基因原始碱基,从而确认真基因目标位点为突变或者没有突变;

真基因碱基比例提示信号分析模块,用于对真假基因每个差异位点的真基因碱基比例进行统计;对于单碱基差异位点,直接统计真假基因位置处各种碱基的数目,然后合并一起计算真基因碱基的比例,以及总的深度;对于插入缺失,如果假基因对于真基因来说是插入,在真基因位置处统计插入和非插入的参考序列的数目,在假基因处则统计没有突变和缺失突变的序列数目,将两部分的统计结果合并在一起,计算真基因碱基序列的数目和比例;统计同一种panel的若干样本,计算正常样本均值以及标准差,根据正态分布的概率计算小概率阈值,对于待测样本利用拷贝数变异分析模块的结果作为校正因子,换算正常拷贝的真基因碱基比例,与设定的阈值作比较,如果小于阈值预示存在突变;

检测信息整合统计模块,用于整合统计不同方式检测的点突变在每个样本里的数目,作为片段突变拷贝数变异的辅助;最终获得待测样本基于NGS数据的CYP21A2基因的拷贝数变异和点突变信息。

本申请的一种实现方式中,CYP21A2基因NGS数据分析的装置还包括高通量测序数据过滤模块;高通量测序数据过滤模块,用于对高通量测序获得的原始数据进行过滤,过滤原则包括:过滤去除碱基质量值≤10的碱基个数占序列中总碱基比例>50%的序列、平均质量<20的序列,以及N碱基个数>10%的序列,过滤后获得高质量的高通量测序数据。其中,获得的高质量的高通量测序数据用于后续的拷贝数变异分析模块、点突变分析模块和真基因碱基比例提示信号分析模块。

需要说明的是,本申请CYP21A2基因NGS数据分析的装置,实际上就是通过各模块分别实现本申请CYP21A2基因NGS数据分析的方法中的各步骤;因此,各模块的具体限定可以参考本申请CYP21A2基因NGS数据分析的方法,在此不累述。

本申请的第三方面公开了一种CYP21A2基因NGS数据分析的装置,该装置包括存储器和处理器;存储器,包括用于存储程序;处理器,包括用于通过执行存储器存储的程序以实现本申请的CYP21A2基因NGS数据分析的方法。

可以理解,本申请的CYP21A2基因NGS数据分析的方法可以通过程序实现;而计算机程序可以存储于存储器或者一个计算机可读存储介质中。当能够实现本申请的CYP21A2基因NGS数据分析的方法的程序存储于计算机可读存储介质时,该计算机可读存储介质可以独立的作为一个产品使用或售卖。因此,本申请的还公开了一种计算机可读存储介质,该存储介质中存储有程序,该程序能够被处理器执行以实现本申请的CYP21A2基因NGS数据分析的方法。

本申请的第四方面公开了本申请的CYP21A2基因NGS数据分析的方法或者本申请的CYP21A2基因NGS数据分析的装置在制备21-羟化酶缺乏症突变检测的试剂盒、基因芯片或装置中的应用。

可以理解,利用本申请的CYP21A2基因NGS数据分析的方法或装置制备21-羟化酶缺乏症突变检测的试剂盒,主要是指,在本申请分析方法的基础上,将进行相关实验的试剂组装成专用于21-羟化酶缺乏症突变检测的试剂盒。同样的,在制备21-羟化酶缺乏症突变检测的基因芯片中的应用,也是将高通量测序涉及的捕获芯片或者测序芯片制成专用于21-羟化酶缺乏症突变检测的基因芯片。

由于采用以上技术方案,本申请的有益效果在于:

本申请的CYP21A2基因NGS数据分析的方法和装置,利用高通量测序数据实现了CYP21A2基因及其高同源性的假基因CYP21A1P的突变分析和检测,能够准确有效的获得CYP21A2基因的拷贝数变异和点突变信息,为高通量测序在CYP21A2基因突变检测中的推广应用奠定了基础。

附图说明

图1是本申请实施例中CYP21A2基因NGS数据分析方法的流程框图;

图2是本申请实施例中CYP21A2基因NGS数据分析装置的结构框图。

具体实施方式

下面通过具体实施方式结合附图对本申请作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

本申请的CYP21A2基因NGS数据分析的方法,如图1所示,包括拷贝数变异分析步骤12、点突变分析步骤13、真基因碱基比例提示信号分析步骤14和检测信息整合统计步骤15。

其中,拷贝数变异分析步骤12,包括获取待测样本的高通量测序数据,对芯片捕获区域设定窗口长度并设置滑动窗口,记录每个芯片捕获区域设定窗口的起始终止坐标,计算平均深度和GC含量,对每个样本每个染色体的窗口深度-GC含量进行路易斯回归,得到GC校正深度,在修正后的样本深度上,重新按参数设置芯片捕获区域设定窗口长度和滑动长度,取窗口深度,对GC校正后的窗口深度进行批次修正,计算相关系数,同时进行质控去除低质量样本,根据修正后的窗口深度用隐马模型对每个窗口的拷贝数进行估计,对异常拷贝数的异常窗口,连续异常窗口的数目达到设定的阈值数,则将连续异常窗口连成一个拷贝数变异片段,用于计算平均后验概率,大于设定的阈值则输出,否则过滤掉,对获取的拷贝数变异片段进行注释输出,获得拷贝数变异分析结果。

本申请中,拷贝数变异分析,即CNV分析,是对芯片捕获区域设定窗口长度并设置滑动窗口,然后根据每个窗口的深度及GC含量进行深度修正,在修正后的样本深度上,再次设置窗口大小以及滑动窗口大小,批次样品进行修正,对修正后的深度等,根据隐马模型计算每个窗口的拷贝数,对连续几个窗口的cnv信号达到阈值输出CNV片段。根据输出结果筛选出CYP21A2基因区域存在CNV突变的样本。

本申请的一种实现方式中,对于CNV分析使用的参数,通过调节流程检测深度计算窗口的大小和滑动大小以及CNV最小窗口以及滑动窗口大小,还有最小CNV片段数目,不同参数设置下分别计算阳性检出率和阴性检出率,画出ROC曲线,最终确定深度计算窗口大小200bp滑动20bp,CNV检测窗口长度为30bp滑动25bp,最小5个连续窗口cnv信号才输出。

点突变分析步骤13,包括通过人类参考基因组上CYP21A2基因和CYP21A1P基因的序列比对,找出全部真假基因差异位点,输出真假基因差异位点的位置以及对应位置处的碱基,获得真假基因差异位点表,将待测样本比对到真假基因的序列全部比对回真基因,查找在绝大多数样本都存在的变异,核对确认属于真假基因的待测样本的差异位点,添加到所述真假基因差异位点表中;以待测样本的差异位点信息为基础,标记热点突变,在比对文件里查找热点位置处序列ID,同时记录成对序列的比对位置,在循环热点附近一定区域的比对文件中查找出标记的热点位置序列的配对序列,解析每一对的序列,定位突变的点突变或者插入缺失的位置,对照所述真假基因差异位点表,确认在目标位点以及其他辅助的真假基因差异位点的碱基,确认这些除目标位点之外的碱基属于真基因还是假基因,以此来确认这些序列属于真基因还是假基因,对于属于真基因的序列,再判定目标位点属于突变还是真基因原始碱基,从而确认真基因目标位点为突变或者没有突变。

本申请中,点突变分析步骤采用的是辅助位点法分析点突变,即对CYP21A2基因区域的序列进行统计,筛选出位于目标位点的序列,然后根据序列ID和成对序列比对位置的记录,挑选出成对的序列,再根据成对序列起始终止位置确定该区间包含的辅助位点的数目,判定出目标位点的碱基和辅助位点的碱基,对照参考序列目标位点真假基因处碱基,判定出该成对序列支持真基因突变或者未突变,依次循环统计符合条件的序列数。

本申请的一种实现方式中,点突变分析步骤还包括,统计支持突变和支持参考序列的reads数目,以此确定突变的支持reads数目和比例,将支持reads数目大于或等于2,比例大于或等于10%,位点序列支持reads数目大于20条,的突变位点作为阳性突变位点,其余不满足以上条件的突变位点为假阳性突变位点。其中,辅助位点法设置的最小reads数和比例质控阈值是根据历史样本在不同阈值下阳性检出率和假阳性率最终得出支持reads数目>=2,比例>=10%,位点序列支持数大于20条。

真基因碱基比例提示信号分析步骤14,包括对真假基因每个差异位点的真基因碱基比例进行统计;对于单碱基差异位点,直接统计真假基因位置处各种碱基的数目,然后合并一起计算真基因碱基的比例和总的深度;对于插入缺失,如果假基因对于真基因来说是插入,在真基因位置处统计插入和非插入的参考序列的数目,在假基因处则统计没有突变和缺失突变的序列数目,将两部分的统计结果合并在一起,计算真基因碱基序列的数目和比例;统计同一种panel的若干样本,计算正常样本均值以及标准差,根据正态分布的概率计算小概率阈值,对于待测样本利用拷贝数变异分析步骤的结果作为校正因子,换算正常拷贝的真基因碱基比例,与设定的阈值作比较,如果小于阈值预示存在突变。

本申请中,真基因碱基比例提示信号分析步骤,即真基因碱基比例提示信号,是每个实际样本计算每个差异位点真基因碱基比例,然后利用实际样本的拷贝数校正检测的实际样本的值,然后对照每个位点设定的阈值,确定小于阈值的样本为突变候选样本。

本申请的一种实现方式中,真基因碱基比例阈值的确认,是根据历史大量样本推断大部分样本为正常样本,在统计时去掉极值,均值和标准差统计接近正常样本的均值和标准差,由于每个位点比例存在差异,所以每个位点有自己单独的阈值,假定批量正常样本的分布为近似正态分布,在此假设下计算单端小概率事件边界均值减去2倍方差(概率约<=2%),范围从0.21到0.36,另外由于c.1360C>T的真假基因均为C,突变检测碱基为T,所以计算的C的比例接近1,阈值为0.99。对于单个样本整体突变数预测CNV,阈值设为3,基于遗传学2个位点共突变概率可能性更高,而>=3个位点共突变概率比较低。

检测信息整合统计步骤15,包括整合统计不同方式检测的点突变在每个样本里的数目,作为片段突变拷贝数变异的辅助;最终获得待测样本基于NGS数据的CYP21A2基因的拷贝数变异和点突变信息。

本申请的一种实现方式中,具体的,添加每个样本两种方法突变位点总数,提示存在CNV的可能性。

本申请的一种实现方式中,CYP21A2基因NGS数据分析的方法,如图1所示,还包括高通量测序数据过滤步骤11。高通量测序数据过滤步骤11,包括对高通量测序获得的原始数据进行过滤,过滤原则包括:过滤去除碱基质量值≤10的碱基个数占序列中总碱基比例>50%的序列、平均质量<20的序列,以及N碱基个数>10%的序列,过滤后获得高质量的高通量测序数据。获得的高质量的高通量测序数据用于后续的拷贝数变异分析步骤、点突变分析步骤和真基因碱基比例提示信号分析步骤。

本申请中,高通量测序数据是常规建库的NGS数据,插入片段长度250bp左右,panel或者WES目标区域平均深度不低于100×,WGS深度不低于40×。将处理后的测序数据比对到人类参考基因组(GRCh37)。

本领域技术人员可以理解,上述方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述方法中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述方法中全部或部分功能。

因此,基于本申请的CYP21A2基因NGS数据分析的方法,本申请提出了一种CYP21A2基因NGS数据分析的装置,如图2所示,包括拷贝数变异分析模块22、点突变分析模块23、真基因碱基比例提示信号分析模块24和检测信息整合统计模块25。

其中,拷贝数变异分析模块22,用于获取待测样本的高通量测序数据,对芯片捕获区域设定窗口长度并设置滑动窗口,记录每个芯片捕获区域设定窗口的起始终止坐标,计算平均深度和GC含量,对每个样本每个染色体的窗口深度-GC含量进行路易斯回归,得到GC校正深度,在修正后的样本深度上,重新按参数设置芯片捕获区域设定窗口长度和滑动长度,取窗口深度,对GC校正后的窗口深度进行批次修正,计算相关系数,同时进行质控去除低质量样本,根据修正后的窗口深度用隐马模型对每个窗口的拷贝数进行估计,对异常拷贝数的异常窗口,连续异常窗口的数目达到设定的阈值数,则将连续异常窗口连成一个拷贝数变异片段,用于计算平均后验概率,大于设定的阈值则输出,否则过滤掉,对获取的拷贝数变异片段进行注释输出,获得拷贝数变异分析结果。

点突变分析模块23,用于通过人类参考基因组上CYP21A2基因和CYP21A1P基因的序列比对,找出全部真假基因差异位点,输出真假基因差异位点的位置以及对应位置处的碱基,获得真假基因差异位点表,将待测样本比对到真假基因的序列全部比对回真基因,查找在绝大多数样本都存在的变异,核对确认属于真假基因的待测样本的差异位点,添加到真假基因差异位点表中;以待测样本的差异位点信息为基础,标记热点突变,在比对文件里查找热点位置处序列ID,同时记录成对序列的比对位置,在循环热点附近一定区域的比对文件中查找出标记的热点位置序列的配对序列,解析每一对的序列,定位突变的点突变或者插入缺失的位置,对照真假基因差异位点表,确认在目标位点以及其他辅助的真假基因差异位点的碱基,确认这些除目标位点之外的碱基属于真基因还是假基因,以此来确认这些序列属于真基因还是假基因,对于属于真基因的序列,再判定目标位点属于突变还是真基因原始碱基,从而确认真基因目标位点为突变或者没有突变。

真基因碱基比例提示信号分析模块24,用于对真假基因每个差异位点的真基因碱基比例进行统计;对于单碱基差异位点,直接统计真假基因位置处各种碱基的数目,然后合并一起计算真基因碱基的比例和总的深度;对于插入缺失,如果假基因对于真基因来说是插入,在真基因位置处统计插入和非插入的参考序列的数目,在假基因处则统计没有突变和缺失突变的序列数目,将两部分的统计结果合并在一起,计算真基因碱基序列的数目和比例;统计同一种panel的若干样本,计算正常样本均值以及标准差,根据正态分布的概率计算小概率阈值,对于待测样本利用拷贝数变异分析模块的结果作为校正因子,换算正常拷贝的真基因碱基比例,与设定的阈值作比较,如果小于阈值预示存在突变。

检测信息整合统计模块25,用于整合统计不同方式检测的点突变在每个样本里的数目,作为片段突变拷贝数变异的辅助;最终获得待测样本基于NGS数据的CYP21A2基因的拷贝数变异和点突变信息。

进一步的,CYP21A2基因NGS数据分析的装置还包括高通量测序数据过滤模块21;高通量测序数据过滤模块21,用于对高通量测序获得的原始数据进行过滤,过滤原则包括:过滤去除碱基质量值≤10的碱基个数占序列中总碱基比例>50%的序列、平均质量<20的序列,以及N碱基个数>10%的序列,过滤后获得高质量的高通量测序数据。其中,获得的高质量的高通量测序数据用于后续的拷贝数变异分析模块、点突变分析模块和真基因碱基比例提示信号分析模块。

本申请的装置,利用各模块相互协调作用,能够实现本申请的CYP21A2基因NGS数据分析的方法,特别是通过本申请装置的各模块能够实现本申请方法中的相应的各个步骤,从而实现自动化的CYP21A2基因突变检测。

本申请的另一实现方式中还提供了一种CYP21A2基因NGS数据分析的装置,该装置包括存储器和处理器;存储器,包括用于存储程序;处理器,包括用于通过执行存储器存储的程序以实现以下方法:拷贝数变异分析步骤,包括获取待测样本的高通量测序数据,对芯片捕获区域设定窗口长度并设置滑动窗口,记录每个芯片捕获区域设定窗口的起始终止坐标,计算平均深度和GC含量,对每个样本每个染色体的窗口深度-GC含量进行路易斯回归,得到GC校正深度,在修正后的样本深度上,重新按参数设置芯片捕获区域设定窗口长度和滑动长度,取窗口深度,对GC校正后的窗口深度进行批次修正,计算相关系数,同时进行质控去除低质量样本,根据修正后的窗口深度用隐马模型对每个窗口的拷贝数进行估计,对异常拷贝数的异常窗口,连续异常窗口的数目达到设定的阈值数,则将连续异常窗口连成一个拷贝数变异片段,用于计算平均后验概率,大于设定的阈值则输出,否则过滤掉,对获取的拷贝数变异片段进行注释输出,获得拷贝数变异分析结果;点突变分析步骤,包括通过人类参考基因组上CYP21A2基因和CYP21A1P基因的序列比对,找出全部真假基因差异位点,输出真假基因差异位点的位置以及对应位置处的碱基,获得真假基因差异位点表,将待测样本比对到真假基因的序列全部比对回真基因,查找在绝大多数样本都存在的变异,核对确认属于真假基因的待测样本的差异位点,添加到所述真假基因差异位点表中;以待测样本的差异位点信息为基础,标记热点突变,在比对文件里查找热点位置处序列ID,同时记录成对序列的比对位置,在循环热点附近一定区域的比对文件中查找出标记的热点位置序列的配对序列,解析每一对的序列,定位突变的点突变或者插入缺失的位置,对照所述真假基因差异位点表,确认在目标位点以及其他辅助的真假基因差异位点的碱基,确认这些除目标位点之外的碱基属于真基因还是假基因,以此来确认这些序列属于真基因还是假基因,对于属于真基因的序列,再判定目标位点属于突变还是真基因原始碱基,从而确认真基因目标位点为突变或者没有突变;真基因碱基比例提示信号分析步骤,包括对真假基因每个差异位点的真基因碱基比例进行统计;对于单碱基差异位点,直接统计真假基因位置处各种碱基的数目,然后合并一起计算真基因碱基的比例,以及总的深度;对于插入缺失,如果假基因对于真基因来说是插入,在真基因位置处统计插入和非插入的参考序列的数目,在假基因处则统计没有突变和缺失突变的序列数目,将两部分的统计结果合并在一起,计算真基因碱基序列的数目和比例;统计同一种panel的若干样本,计算正常样本均值以及标准差,根据正态分布的概率计算小概率阈值,对于待测样本利用拷贝数变异分析步骤的结果作为校正因子,换算正常拷贝的真基因碱基比例,与设定的阈值作比较,如果小于阈值预示存在突变;检测信息整合统计步骤,包括整合统计不同方式检测的点突变在每个样本里的数目,作为片段突变拷贝数变异的辅助;最终获得待测样本基于NGS数据的CYP21A2基因的拷贝数变异和点突变信息。

针对本申请CYP21A2基因NGS数据分析的方法和装置,进一步的可以制备21-羟化酶缺乏症突变检测的试剂盒、基因芯片或装置。例如,在本申请分析方法的基础上,将进行相关实验的试剂组装成专用于21-羟化酶缺乏症突变检测的试剂盒;将高通量测序涉及的捕获芯片或者测序芯片制成专用于21-羟化酶缺乏症突变检测的基因芯片;按照本申请分析方法的流程或本申请分析装置的结构,组装专用于21-羟化酶缺乏症突变自动化检测的装置。

以下实施例仅对本申请进行进一步说明,不应理解为对本申请的限制。

实施例

一、基于高通量测序数据的CYP21A2基因突变分析

本试验获取179例临床样本的DNA进行高通量测序,然后对高通量测序数据进行分析。对所有DNA样本,使用特定panel探针,即#xGen Lockdown Probe-pp150V1,按照BGISEQ|MGISEQ测序平台的操作说明进行捕获建库,并在基因测序仪(BGISEQ|MGISEQ)上进行测序,获得高通量测序的原始数据。

本例的CYP21A2基因NGS数据分析的方法具体如下:

高通量测序数据过滤步骤,将测序获得的原始数据进行过滤,过滤原则包括:碱基质量值≤10的碱基个数占序列中总碱基比例>50%的序列、平均质量<20的序列、N碱基个数>10%的序列,过滤后得到高质量测序数据;将处理后的测序数据比对到人类参考基因组(GRCh37)。

拷贝数变异分析步骤,获取过滤后得到的高质量的高通量测序数据,对芯片捕获区域设定窗口长度并设置滑动窗口,记录每个芯片捕获区域设定窗口的起始终止坐标,计算平均深度和GC含量,对每个样本每个染色体的窗口深度-GC含量进行路易斯回归,得到GC校正深度,在修正后的样本深度上,重新按参数设置芯片捕获区域设定窗口长度和滑动长度,取窗口深度,对GC校正后的窗口深度进行批次修正,计算相关系数,同时进行质控去除低质量样本,根据修正后的窗口深度用隐马模型对每个窗口的拷贝数进行估计,对异常拷贝数的异常窗口,连续异常窗口的数目达到设定的阈值数,则将连续异常窗口连成一个拷贝数变异片段,用于计算平均后验概率,大于设定的阈值则输出,否则过滤掉,对获取的拷贝数变异片段进行注释输出,获得拷贝数变异分析结果。

本例的CNV分析,对芯片捕获区域设定窗口长度并设置滑动窗口,然后根据每个窗口的深度及GC含量进行深度修正,在修正后的样本深度上,再次设置窗口大小以及滑动窗口大小,批次样品进行修正,对修正后的深度等,根据隐马模型计算每个窗口的拷贝数,对连续几个窗口的cnv信号达到阈值输出CNV片段。根据输出结果筛选出CYP21A2基因区域存在CNV突变的样本。

点突变分析步骤,包括通过人类参考基因组上CYP21A2基因和CYP21A1P基因的序列比对,找出全部真假基因差异位点,输出真假基因差异位点的位置以及对应位置处的碱基,获得真假基因差异位点表,将待测样本比对到真假基因的序列全部比对回真基因,查找在绝大多数样本都存在的变异,核对确认属于真假基因的待测样本的差异位点,添加到所述真假基因差异位点表中;以待测样本的差异位点信息为基础,标记热点突变,在比对文件里查找热点位置处序列ID,同时记录成对序列的比对位置,在循环热点附近一定区域的比对文件中查找出标记的热点位置序列的配对序列,解析每一对的序列,定位突变的点突变或者插入缺失的位置,对照所述真假基因差异位点表,确认在目标位点以及其他辅助的真假基因差异位点的碱基,确认这些除目标位点之外的碱基属于真基因还是假基因,以此来确认这些序列属于真基因还是假基因,对于属于真基因的序列,再判定目标位点属于突变还是真基因原始碱基,从而确认真基因目标位点为突变或者没有突变。

进一步的,点突变分析步骤,还包括,统计支持突变和支持参考序列的reads数目,以此确定突变的支持reads数目和比例,将支持reads数目大于或等于2,比例大于或等于10%,位点序列支持reads数目大于20条,的突变位点作为阳性突变位点,其余不满足以上条件的突变位点为假阳性突变位点。

本例的点突变分析采用的是辅助位点法分析点突变,对CYP21A2基因区域的序列进行统计,筛选出位于目标位点的序列,然后根据序列ID和成对序列比对位置的记录,挑选出成对的序列,再根据成对序列起始终止位置确定该区间包含的辅助位点的数目,判定出目标位点的碱基和辅助位点的碱基,对照参考序列目标位点真假基因处碱基,判定出该成对序列支持真基因突变或者未突变,依次循环统计符合条件的序列数。

真基因碱基比例提示信号分析步骤,包括对真假基因每个差异位点的真基因碱基比例进行统计;对于单碱基差异位点,直接统计真假基因位置处各种碱基的数目,然后合并一起计算真基因碱基的比例,以及总的深度;对于插入缺失,如果假基因对于真基因来说是插入,在真基因位置处统计插入和非插入的参考序列的数目,在假基因处则统计没有突变和缺失突变的序列数目,将两部分的统计结果合并在一起,计算真基因碱基序列的数目和比例;统计同一种panel的若干样本,计算正常样本均值以及标准差,根据正态分布的概率计算小概率阈值,对于待测样本利用拷贝数变异分析步骤的结果作为校正因子,换算正常拷贝的真基因碱基比例,与设定的阈值作比较,如果小于阈值预示存在突变。

本例的真基因碱基比例提示信号分析,每个实际样本计算每个差异位点真基因碱基比例,然后利用实际样本的拷贝数校正检测的实际样本的值,然后对照每个位点设定的阈值,确定小于阈值的样本为突变候选样本。

检测信息整合统计步骤,包括整合统计不同方式检测的点突变在每个样本里的数目,作为片段突变拷贝数变异的辅助;最终获得待测样本基于NGS数据的CYP21A2基因的拷贝数变异和点突变信息。

本例具体的,检测信息汇总是添加每个样本两种方法突变位点总数,提示存在CNV。其中,两种方法具体的,一种是直接的cnv分析方式获得的cnv区间,一种就是snpratio小于阈值的位点数;位点数>=3提示可能存在CNV。

本例CYP21A2基因NGS数据分析方法中,各阈值的设置如下:

对于CNV分析使用的参数,通过调节流程检测深度计算窗口的大小和滑动大小以及CNV最小窗口以及滑动窗口大小,还有最小CNV片段数目,不同参数设置下分别计算阳性检出率和阴性检出率,画出ROC曲线,最终确定深度计算窗口大小200bp滑动20bp,CNV检测窗口长度为30bp滑动25bp,最小5个连续窗口cnv信号才输出。

辅助位点法设置的最小reads数和比例质控阈值是根据历史样本分析的164例点突变样本划定阈值支持reads数目>=2,比例>=10%,位点序列支持数大于20条。

真基因碱基比例阈值的确认,是根据545例样本推断大部分样本为正常样本,在统计时去掉极值,均值和标准差统计接近正常样本的均值和标准差,由于每个位点比例存在差异,所以每个位点有自己单独的阈值,假定批量正常样本的分布为近似正态分布,在此假设下计算单端小概率事件边界均值减去2倍方差(概率约<=2%),范围从0.21到0.36,另外由于c.1360C>T的真假基因均为C,突变检测碱基为T,所以计算的C的比例接近1,阈值设为0.99。

对于单个样本整体突变数预测CNV,阈值设为3,基于遗传学2个位点共突变概率可能性更高,而>=3个位点共突变概率比较低。

二、分析结果

本例对179例临床样本提取DNA后,捕获建库测序。

下机测序数据进行质控过滤,过滤原则包括:碱基质量值≤10的碱基个数占序列中总碱基比例>50%的序列、平均质量<20的序列、N碱基个数>10%的序列,过滤后得到高质量测序数据;将处理后的测序数据比对到人类参考基因组(GRCh37);

CNV分析,利用已经编写好的程序在bam基础上,根据已经设定的参数进行CNV的检测判定,输出结果。部分结果如表1所示。

表1 CNV检测结果

表1中,sample为样品名称,QC表示质控是否合格,exons-CYP21A2为cnv涉及的外显子,CN表示拷贝数,“-”代表没有检测到突变。

辅助位点法分析点突变,在bam基础上统计热点的突变与非突变支持数,根据阈值判定输出结果,部分结果如表2所示。

表2辅助位点法分析点突变结果

sample QC GENE cHGVS CYP21A2-ref-all CYP21A2-mut CYP21A2-total_reads ratio
L2_DX_L120-100 合格 CYP21A2 c.955C>T 7 7 14 0.5
L2_DX_L121-101 合格 CYP21A2 c.955C>T 10 9 19 0.474
L2_XSE_091-65 合格 CYP21A2 c.518T>A 8 12 20 0.6
L2_YW_L127-109 合格 CYP21A2 c.955C>T 14 7 21 0.333
L1_XSE_028-61 合格 CYP21A2 c.955C>T 20 4 24 0.167
L2_XSE_081-17 合格 CYP21A2 c.719T>A 18 6 24 0.25
L2_XSE_079-61 合格 CYP21A2 c.518T>A 17 7 24 0.292

表2中,sample为样品名称;QC表示质控是否合格;GENE为检测基因名称;cHGVS为变异标准命名;CYP21A2-ref-all为支持非突变的reads数;CYP21A2-mut为支持突变的reads数;CYP21A2-total_reads为突变和非突变reads之和;ratio表示突变比例。

真基因碱基比例提示信号,统计真假基因差异位点真基因比例,输出结果,部分结果如表3所示。

表3真假基因差异位点真基因比例统计结果

表3中,sample为样品名称;order表示突变编号顺序;ref ratio表示CYP21A2基因对应位置碱基占比,其分母是真假基因对应位置的碱基之和;total_reads表示真假基因对应位置的碱基之和;pos表示CYP21A2染色体位置;cHGVS表示对应位置突变变异标准命名。

将以上三者结果整合输出,输出结果,部分结果如表4所示。

表4整合输出结果

表4中,sample为样品名称;QC表示质控是否合格;GENE为检测基因名称;cHGVS为变异标准命名;exon为基因功能区;CYP21A2-mut表示支持突变的reads数;CYP21A2-total_reads表示突变和非突变reads之和;ratio表示突变比例;cnv-del表示真基因是否检测到缺失突变,检测到标记del,即cnv突变阳性样本,否则为空;snp_ratio_tag表示根据阈值计算的位点碱基属于突变范围标记为mut-down,mut-up和ref;mut_pos_n表示利用snp_ratio方式检测到的该样本突变位点数。

本方法共检测179例样本,全部达到质控要求,其中164例进行点突变样本检测,共检出159个真阳突变位点,41个假阳位点,3个假阴位点,经计算阳性预测值PPV=TP/(TP+FP)=0.795,召回率recall=TP/(TP+FN)=0.98,F1score=2*PPV*recall/(PPV+recall)=0.88。56例进行CNV检测,检测结果假阳6例,假阴性1例,真阴性32例,真阳性17例,阳性预测值PPV=TP/(TP+FP)=0.74,召回率recall=TP/(TP+FN)=0.94,F1 score=2*PPV*recall/(PPV+recall)=0.83。

以上结果显示,本例的CYP21A2基因NGS数据分析的方法,利用高通量测序数据能够准确有效的区分和检测CYP21A2基因及其高同源性的假基因CYP21A1P的突变,从而准确有效的获得CYP21A2基因的拷贝数变异和点突变信息。

以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换。

20页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于相关性分析的病毒扩散与气候因素关系分析方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!