基于染色体微阵列的roh数据分析系统

文档序号:685297 发布日期:2021-04-30 浏览:2次 >En<

阅读说明:本技术 基于染色体微阵列的roh数据分析系统 (ROH data analysis system based on chromosome microarray ) 是由 杨伟红 郝玮 李小青 于 2020-12-30 设计创作,主要内容包括:本发明提供一种基于染色体微阵列的ROH数据分析系统,包括依次连接的ROH数据采集及筛选模块、计算模块和检索及分析模块1~4;ROH数据采集及筛选模块,用于采集下机数据并筛选出≥5Mb的ROH;计算模块,用于计算≥5Mb的ROH的总长占所有常染色体长度总和的比值;检索及分析模块1,用于对来自计算模块的ROH进行检索及分析;检索及分析模块2,用于对来自模块1的ROH进行检索及分析;检索及分析模块3,用于对来自模块2的ROH进行检索及分析;检索及分析模块4,用于对来自模块3的ROH进行检索及分析。本发明不仅适用于染色体微阵列ROH数据分析,也适用于其他检测技术,如STR和WGS检出的ROH数据分析。(The invention provides a ROH data analysis system based on a chromosome microarray, which comprises an ROH data acquisition and screening module, a calculation module and retrieval and analysis modules 1-4 which are sequentially connected; the ROH data acquisition and screening module is used for acquiring off-line data and screening ROH more than or equal to 5 Mb; the calculation module is used for calculating the ratio of the total length of the ROH with the length being more than or equal to 5Mb to the sum of the lengths of all the normal chromosomes; the retrieval and analysis module 1 is used for retrieving and analyzing the ROH from the calculation module; the retrieval and analysis module 2 is used for retrieving and analyzing the ROH from the module 1; a retrieval and analysis module 3, which is used for retrieving and analyzing the ROH from the module 2; and the searching and analyzing module 4 is used for searching and analyzing the ROH from the module 3. The invention is not only suitable for ROH data analysis of the chromosome microarray, but also suitable for other detection technologies, such as ROH data analysis detected by STR and WGS.)

基于染色体微阵列的ROH数据分析系统

技术领域

本发明涉及生物信息学,具体地说,涉及一种基于染色体微阵列的ROH数据分析系统。

背景技术

染色体是细胞核中载有遗传信息的物质,正常人体细胞具有23对染色体,包括22对常染色体和1对性染色体。染色体三倍体、非整倍体、微缺失、微重复、纯合区域等染色体或基因组异常,是流产、先天畸形、智力障碍、生长发育迟缓、肿瘤发生等的重要病因之一。染色体微阵列是比传统的细胞遗传学手段(如核型分析、FISH等)具有更高分辨率,更高通量的检测染色体异常的筛查技术,除了能发现染色体显微水平改变外,还能发现染色体亚显微水平改变—微缺失、微重复(CNV改变),最关键的是能发现纯合子状态区段ROH(regions of homozygosity)异常,ROH是基因组区域中一定范围内连续呈现的杂合性丢失的现象。对于大部分的二倍体细胞如人类体细胞,拥有两份基因组,一份来自于父亲,另一份来自于母亲,在某一个等位基因位点上,如果来自父本和母本的碱基不同时,则该位点为杂合(heterozygous)。如果因为某种机制(如远亲关系或近亲关系婚姻或基因转换)导致在一定范围内连续的等位基因序列都是纯合子而无杂合子(拷贝数仍为2个),则该区域为基因组纯合区域ROH。ROH产生涉及血缘同一(identity by descent,IBD)或单亲二体(Uniparental disomy,UPD)原因。而IBD指两个或两个以上的个体从一个共同的祖先继承了相似的核苷酸序列。UPD指同源染色体或染色体上的部分片段均来源于双亲中的一方,不符合孟德尔遗传学规律,可继发隐性基因纯合突变或基因印迹障碍,从而导致各种各样的临床表型。IBD或UPD导致的ROH在人群中普遍存在,0.5-1Mb以上的ROH常用于人群遗传特征的研究,3-5Mb以上常用于临床分析,多条染色体3-5Mb以上ROH常提示父母存在亲缘关系,而单条10Mb以上ROH则提示可能存在UPD。UPD造成的隐性遗传性疾病(继发性单基因纯合突变)常见如自闭症、眼底黄斑变性、2型软骨发育不良、CD45缺乏性严重联合免疫缺陷病、杜氏肌营养不良症以及脊髓型肌营养不良等。UPD导致的基因印迹障碍性疾病常见如Prader-Willi综合征、Angelman综合征、新生儿短暂性糖尿病、Silver Russell综合征、Beckwith-Wiedemann综合征等,同时,获得性UPD(aUPD)在肿瘤细胞中的发生是一种很常见的分子事件,大片段aUPD等于基因累积效应的纯合子,会致使抑癌基因的沉默或原癌基因的表达,引起肿瘤细胞的克隆演变。

目前ROH的检测方法包括短串联重复序列(STR)、甲基化检测(MS PCR/MS MLPA)、全外显子组(WES)/全基因组(WGS)测序及染色体微阵列(CMA)。其中STR检测需要根据检测目的和基因组位置来选择高度多态性STR标记,使检测方法受到一定的限制。MS PCR/MSMLPA不能检测ROH中的IBD,只能检测UPD,而且无法区分UPD和印记缺陷。WES/WGS检测会将半合子缺失误判为ROH片段,需要后续检测验证来进行区分,成本高。目前最理想的检测ROH的技术为染色体微阵列(CMA),但是CMA作为高通量高分辨率的筛查技术,保证数据准确的前提下,得到的ROH信息非常大,需要根据不同的目的设置不同的阈值来筛选,同时需要针对筛选的信息,查阅大量的文献或数据库对数据进行注释,才能最终获得合理的结果报告,费时费力。并且目前对染色体阵列ROH数据的分析还停留在传统的个人经验,缺少科学系统的分析方法,这给染色体阵列ROH数据的分析带来很大挑战。因此,建立一套科学系统的基于染色体微阵列的ROH数据分析方法成为当务之急。

发明内容

本发明的目的是提供一种基于染色体微阵列的ROH数据分析系统。

本发明的目的是提供一种基于染色体微阵列的ROH数据分析方法。

为了实现本发明目的,第一方面,本发明提供一种基于染色体微阵列的ROH数据分析系统,包括依次连接的ROH数据采集及筛选模块、计算模块、检索及分析模块1、检索及分析模块2、检索及分析模块3和检索及分析模块4:

1)ROH数据采集及筛选模块,用于采集染色体微阵列的下机数据,并筛选出ROH片段大小≥5Mb的数据;

2)计算模块,用于计算≥5Mb的ROH片段的总长占所有常染色体长度总和的比值,若比值≥6.25%,提示常染色体隐性遗传病的发病风险高,则报告为可能致病性ROH;若比值<6.25%,将ROH片段输入检索及分析模块1中;

3)检索及分析模块1,用于对来自计算模块的ROH片段进行检索及分析;其中,模块1包含正常人群ROH数据库;

如果ROH片段在正常人群ROH数据库中存在>1%的人群比例,且与目的ROH片段基因组坐标重叠≥80%,则报告为良性ROH;

如果不满足上述条件,则将ROH片段输入检索及分析模块2中;

4)检索及分析模块2,用于对来自模块1的ROH片段做进一步检索及分析;其中,模块2包含UPD相关的已知遗传综合征数据库;

如果ROH片段与UPD相关的已知遗传综合征数据库中的目的UPD片段基因组坐标重叠≥80%,提示UPD风险,报告为可能致病性ROH;

如果不满足上述条件,则将ROH片段输入检索及分析模块3中;

5)检索及分析模块3,用于对来自模块2的ROH片段做进一步检索及分析;其中,模块3包含UPD相关的肿瘤病例数据库;

如果ROH片段与UPD相关的肿瘤病例数据库中的目的UPD片段基因组坐标重叠≥80%,且该ROH片段位于染色体末端,则报告为致病性ROH;

如果ROH片段与UPD相关的肿瘤病例数据库中的目的UPD片段基因组坐标重叠≥80%,且该ROH并不位于染色体末端,则提示肿瘤发生风险,报告为可能致病性ROH;

如果不满足上述条件,则将ROH片段输入检索及分析模块4中;

6)检索及分析模块4,用于对来自模块3的ROH片段做进一步检索及分析;其中,模块4包含UCSC数据库;

如果ROH片段中包含UCSC数据库中收录的孟德尔隐性遗传病相关基因或肿瘤相关基因,提示测序检验以排除潜在的致病基因纯合变异事件,同时报告为临床意义暂不明确ROH;

如果ROH片段中不包含UCSC数据库中收录的孟德尔隐性遗传病相关基因或肿瘤相关基因,报告为临床意义暂不明确ROH。

优选地,所述正常人群ROH数据库见表1:

表1

优选地,所述UPD相关的已知遗传综合征数据库见表2:

表2

优选地,所述UPD相关的肿瘤病例数据库见表3:

表3

第二方面,本发明提供一种基于染色体微阵列的ROH数据分析方法,包括:

1、染色体微阵列的下机数据,在同时满足数据质控MAPD≤0.25、SNPQC≤15.0和Waviness Sd≤0.12的前提下,设定5Mb作为ROH的结果报告阈值,5Mb的阈值是ROH临床分析的理想阈值,是经过前期大样本验证得到的。选择ROH片段大小≥5Mb的数据。

2、计算ROH片段占所有常染色体长度总和(2881Mb)的比例:

如果不小于6.25%,则考虑为近亲婚配,提示常染色体隐性遗传病的发病风险增高,则直接报告为可能致病性ROH;

如果小于6.25%,则将ROH片段输入正常人群ROH数据库中检索。

3、如果正常人群ROH数据库中存在大于1%的人群比例,与目的ROH存在不小于80%的片段重叠,则报告为良性ROH;

如果不满足上述条件,则将ROH片段输入UPD相关的已知遗传综合征数据库中检索。

4、如果UPD相关的已知遗传综合征数据库中存在与目的ROH片段80%以上重叠的UPD,则提示UPD风险,建议送检双亲样本以验证该ROH是否为UPD,且报告为可能致病性ROH;

如果不满足上述条件,则将ROH片段输入UPD相关的肿瘤病例数据库中检索。

5、如果UPD相关的肿瘤病例数据库中存在与目的ROH片段80%以上重叠的UPD,且ROH为染色体末端异常,则报告为致病性ROH;

如果UPD相关的肿瘤数据库中存在与目的ROH片段80%以上重叠的UPD,但ROH为染色体非末端异常,则需提示肿瘤发生风险,建议送检对照验证是否为获得性ROH/UPD,报告为可能致病性ROH;

如果不满足上述条件,则将ROH片段输入UCSC数据库中,根据ROH区段是否包含可能导致严重后果的孟德尔隐性遗传病相关基因或者肿瘤密切相关基因。

如果目的ROH片段包含可能导致严重后果的孟德尔隐性遗传病相关基因或者肿瘤密切相关基因,提示测序检验以排除潜在的致病基因纯合变异事件,同时报告为临床意义暂不明确ROH;

如果不满足上述条件,同样报告为临床意义暂不明确ROH。

与现有技术相比,本发明至少具有以下优点:

(一)本发明建立了科学严谨的ROH筛选阈值,该阈值是基于大样本数据获得的,是根据大样本的ROH大小与样本临床表型关系统计得到的。

(二)得到的ROH数据先计算片段占比,而不是直接进行分析,由于6.25%的纯合代表三级近亲关系,如果筛选得到的ROH分布在多条染色体上,且片段大小总和占所有常染色体比例的6.25%以上,提示近亲婚配,可不必进行后续分析,直接报告为可能致病性ROH。

(三)本发明提供3个检索数据库,分别为正常人群ROH数据库、UPD相关的已知遗传综合征数据库和UPD相关的肿瘤病例数据库,其中正常人群ROH数据库是基于381个正常人的染色体微阵列数据建立的,正常人群ROH在1-22及XY染色体上均有分布,但是分布频率有高低。同时根据文献报道及公开数据库的数据,分别整理成UPD相关的已知遗传综合数据库及肿瘤病例数据库。

(四)目前ROH/UPD相关的已知遗传综合征屈指可数,致病原因明确的仅10余种,将其收录在数据库中。而UPD相关的肿瘤数据库中主要收录了与血液肿瘤相关的UPD,一共收录了538个血液肿瘤病例的ROH/UPD。利用这3个数据库可以大大简化ROH数据分析时间,分析时间可由原来的0.5-1天缩减到0.5-1小时。

(五)本发明不仅适用于染色体微阵列ROH数据分析,也适用于其他检测技术,如短串联重复序列(STR)和全外显子组(WES)/全基因组(WGS)测序检出的ROH数据分析。

(六)本发明ROH分析方法同时兼顾了体质性改变的病因和获得性改变的病因。

附图说明

图1为本发明较佳实施例中基于染色体微阵列的ROH数据分析流程图。

图2为本发明较佳实施例中基于染色体微阵列的ROH数据分析路线图。

具体实施方式

以下实施例用于说明本发明,但不用来限制本发明的范围。若未特别指明,实施例中所用的技术手段为本领域技术人员所熟知的常规手段,所用原料均为市售商品。

实施例1基于染色体微阵列的ROH数据分析方法的建立

本实施例提供基于染色体微阵列的ROH数据分析方法,分析流程见图1,分析路线见图2。具体方法如下:

1、染色体微阵列的下机数据,在同时满足数据质控MAPD≤0.25、SNPQC≤15.0和Waviness Sd≤0.12的前提下,设定5Mb作为ROH的结果报告阈值,5Mb的阈值是ROH临床分析的理想阈值,是经过前期大样本验证得到的。选择ROH片段大小≥5Mb的数据。

2、计算ROH片段占所有常染色体长度总和(2881Mb)的比例:

如果不小于6.25%,则考虑为近亲婚配,提示常染色体隐性遗传病的发病风险增高,则直接报告为可能致病性ROH;

如果小于6.25%,则将ROH片段输入正常人群ROH数据库中检索。

3、如果正常人群ROH数据库中存在大于1%的人群比例,与目的ROH存在不小于80%的片段重叠,则报告为良性ROH;

如果不满足上述条件,则将ROH片段输入UPD相关的已知遗传综合征数据库中检索。

4、如果UPD相关的已知遗传综合征数据库中存在与目的ROH片段80%以上重叠的UPD,则提示UPD风险,建议送检双亲样本以验证该ROH是否为UPD,且报告为可能致病性ROH;

如果不满足上述条件,则将ROH片段输入UPD相关的肿瘤数据库中检索。

5、如果UPD相关的肿瘤数据库中存在与目的ROH片段80%以上重叠的UPD,且ROH为染色体末端异常,则报告为致病性ROH;

如果UPD相关的肿瘤数据库中存在与目的ROH片段80%以上重叠的UPD,但ROH为染色体非末端异常,则需提示肿瘤发生风险,建议送检对照验证是否为获得性ROH/UPD,报告为可能致病性ROH;

如果不满足上述条件,则将ROH片段输入UCSC数据库中,根据ROH区段是否包含可能导致严重后果的孟德尔隐性遗传病相关基因或者肿瘤密切相关基因。

如果目的ROH片段包含可能导致严重后果的孟德尔隐性遗传病相关基因或者肿瘤密切相关基因,提示测序检验以排除潜在的致病基因纯合变异事件,同时报告为临床意义暂不明确ROH;

如果不满足上述条件,同样报告为临床意义暂不明确ROH。

本发明利用多个数据库能更客观全面地了解目的ROH异常及其临床意义。但ROH结果解读依赖于现有数据库检索和文献报道,对其临床意义解释与相关病例的科学研究现状发展相关。且由于遗传的多效性、延迟显性、不完全外显和表现度的差异等复杂原因,受检者临床表现可能存在与解读结果不同的个体差异。

虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之做一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

31页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种定位偏分离性状的方法、装置及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!