预测精神分裂症发生风险的dna甲基化标记物及筛选方法和应用

文档序号:527198 发布日期:2021-06-01 浏览:1次 >En<

阅读说明:本技术 预测精神分裂症发生风险的dna甲基化标记物及筛选方法和应用 (DNA methylation marker for predicting schizophrenia occurrence risk, screening method and application ) 是由 宗小芬 邹秀芬 徐顺生 刘忠纯 胡茂林 张钦然 于 2021-01-20 设计创作,主要内容包括:本发明提供了一种用于预测精神分裂症发生风险的DNA甲基化标记物,其特征在于,DNA甲基化标记物选自人第1~22号染色体上的至少一个甲基化CpG位点。本发明还提供上述甲基化标记物在制备用于预测精神分裂症发生风险的诊断试剂和/或辅助诊断试剂和/或诊断试剂盒中的用途。本发明进一步提供上述甲基化标记物的筛选方法。用于预测精神分裂症发生风险的DNA甲基化标记物预测精神分裂症发生风险,可以提高精神分裂症发生风险的预测准确率,节约成本,适于推广应用,具有较好的应用前景;本发明甲基化标记物的筛选方法,简单、科学、可靠。(The invention provides a DNA methylation marker for predicting schizophrenia occurrence risk, which is characterized in that the DNA methylation marker is selected from at least one methylated CpG locus on human chromosomes 1-22. The invention also provides the application of the methylation marker in preparing a diagnostic reagent and/or an auxiliary diagnostic reagent and/or a diagnostic kit for predicting the occurrence risk of schizophrenia. The present invention further provides a method for screening the methylation marker. The DNA methylation marker for predicting the occurrence risk of schizophrenia predicts the occurrence risk of schizophrenia, can improve the prediction accuracy of the occurrence risk of schizophrenia, saves cost, is suitable for popularization and application, and has good application prospect; the method for screening the methylation marker is simple, scientific and reliable.)

预测精神分裂症发生风险的DNA甲基化标记物及筛选方法和 应用

技术领域

本发明专利涉及生物技术领域,具体是指一种用于预测精神分裂症发生风险的DNA甲基 化标记物及其筛选方法和应用。

背景技术

精神分裂症是一种异质性疾病,其病因及起病方式复杂,该病的病因、发病机理、诊断一 直是神经科学领域的重要研究课题。目前认为精神分裂症是一种有遗传倾向的疾病。经典的遗 传学研究,即全基因组关联分析研究筛选出了100多个候选基因,但可重复性较小,提示除外 经典的遗传学改变(基因多态性),可能有表观遗传的改变参与到了精神分裂症的发病机制中。 表观遗传是指DNA序列及蛋白编码不发生变化但基因表达却发生了可遗传的改变,从而影响 基因功能并最终导致了表型的变化,包括DNA甲基化,组蛋白乙酰化,RNA干扰等多种机制。 DNA甲基化是表观遗传学上研究最深入的一种机制,是重要的调节基因表达的表观遗传方式 之一。DNA甲基化修饰在细胞正常发育、基因表达模式以及神经可塑性中起着至关重要的作 用。更为重要的是DNA甲基化记录了机体与环境相互作用的信息,反映了两者相互作用在个 体身上产生的病理痕迹,这对于研究精神分裂症等基因-环境共同作用致病的复杂疾病而言是 一个非常有力的工具。

2001年,Petronis博士在总结了精神分裂症等复杂疾病的研究情况后,提出表观遗传修饰 可能参与了精神分裂症等人类复杂疾病的病理过程,用表观遗传的观念可以较好的解释许多经 典遗传学所无法解释的内容,如单卵双生子不同病的情况。单卵双生子的遗传基因编码完全一 致,但是精神分裂症单卵双生子的同病率只有50%左右,这一现象用经典遗传学不好解释, 但是如果考虑到单卵双生子的两个同胞存在不同的表观遗传修饰(如甲基化模式不同),则可 以很好的理解为什么单卵双生子的表型会有如此大的差异。目前已有多个研究发现了精神分裂 症患者中存在有DNA甲基化的异常。Costa E等发现在精神分裂症和情感性疾病中,reelin的 表达降低约50%,而reelin蛋白是神经迁移、轴突形成中不可缺少的物质。Chen Y等研究发 现,精神分裂症病人脑组织中Reelin基因的表达降低与其启动子区CpG岛的高甲基化状态有 关。Mill等人采用芯片的方法对8000余个甲基化探针进行了系统分析,结果发现谷氨酸能系 统、GABA能系统和神经发育系统一些基因的甲基化探针与精神分裂症和双相障碍相关,其中 包括一些目前非常受重视的精神分裂症候选基因,如Dysbindin基因等。还有一些小样本的分 析结果显示sox10、COMT、Synaptotagmingenes、DRD2和reelin等基因启动子区CpG岛的甲 基化与精神分裂症有关。目前学者多从单个基因甲基化水平上研究精神分裂症发病机制,全基 因组甲基化研究目前数量较少,且多数并未得到独立验证,检测到的甲基化标记物不足以早期 检测精神分裂症,但是标记物或标记物组合可能对精神分裂症风险分层有用。利用甲基化定量 的高通量方法,即全基因组甲基化方法,结合详尽的分析算法来深入挖掘数据信息,以进一步 挖掘信息性甲基化标记物为侧重点,有望探寻到精神分裂症发病风险的特征性生物标志物。

综上,找到准确的生物标记物是精神分裂症风险预测中至关重要的一步。

发明内容

本发明旨在至少在一定程度上解决现有技术中存在的技术问题之一,为此,提供一种用于 预测精神分裂症发生风险的DNA甲基化标记物,本发明还提供上述甲基化标记物在制备用于 预测精神分裂症发生风险的诊断试剂和/或辅助诊断试剂和/或诊断试剂盒中的用途。本发明进 一步提供上述甲基化标记物的筛选方法。用于预测精神分裂症发生风险的DNA甲基化标记物 预测精神分裂症发生风险,可以提高精神分裂症发生风险的预测准确率,节约成本,适于推广 应用,具有较好的应用前景;本发明甲基化标记物的筛选方法,简单、科学、可靠。通过对 DNA甲基化数据分析,发现与精神分裂症发生风险预测相关的新的生物标记物。

在本发明的第一方面,本发明提供一种用于预测精神分裂症发生风险的DNA甲基化标记 物,用于预测精神分裂症发生风险的DNA甲基化标记物选自人第1~22号染色体上的至少一 个甲基化CpG位点。

优选地,所述用于预测精神分裂症发生风险的DNA甲基化标记物选自人第1号染色体的 甲基化CpG位点cg02497700、第1号染色体的甲基化CpG位点cg04437762、第1号染色体的甲基化CpG位点cg05697909、第1号染色体的甲基化CpG位点cg09277376、第1号染色 体的甲基化CpG位点cg10540110、第1号染色体的甲基化CpG位点cg16399365、第1号染色 体的甲基化CpG位点cg17176894、第1号染色体的甲基化CpG位点cg17985912、第1号染 色体的甲基化CpG位点cg18881723、第1号染色体的甲基化CpG位点cg19698993、第1号 染色体的甲基化CpG位点cg21686694、第1号染色体的甲基化CpG位点cg24155129、第1 号染色体的甲基化CpG位点cg26348226、第2号染色体的甲基化CpG位点cg03589296、第2 号染色体的甲基化CpG位点cg05874176、第2号染色体的甲基化CpG位点cg06117093、第2 号染色体的甲基化CpG位点cg07065759、第2号染色体的甲基化CpG位点cg12287813、第2 号染色体的甲基化CpG位点cg13424923、第2号染色体的甲基化CpG位点cg13651986、第2 号染色体的甲基化CpG位点cg15890754、第2号染色体的甲基化CpG位点cg21319458、第2 号染色体的甲基化CpG位点cg24749947、第2号染色体的甲基化CpG位点cg26823762、第3 号染色体的甲基化CpG位点cg05551922、第3号染色体的甲基化CpG位点cg12198140、第4 号染色体的甲基化CpG位点cg14011327、第4号染色体的甲基化CpG位点cg21254939、第4 号染色体的甲基化CpG位点cg27305383、第5号染色体的甲基化CpG位点cg11958644、第6 号染色体的甲基化CpG位点cg01955533、第6号染色体的甲基化CpG位点cg04353171、第6 号染色体的甲基化CpG位点cg05217983、第6号染色体的甲基化CpG位点cg13265740、第6 号染色体的甲基化CpG位点cg16254746、第7号染色体的甲基化CpG位点cg00653387、第7 号染色体的甲基化CpG位点cg02627991、第7号染色体的甲基化CpG位点cg03993154、第7 号染色体的甲基化CpG位点cg08313420、第7号染色体的甲基化CpG位点cg08634133、第7 号染色体的甲基化CpG位点cg16555537、第7号染色体的甲基化CpG位点cg27496339、第8 号染色体的甲基化CpG位点cg06688396、第8号染色体的甲基化CpG位点cg08872550、第8 号染色体的甲基化CpG位点cg24023258、第9号染色体的甲基化CpG位点cg24475171、第 10号染色体的甲基化CpG位点cg04179740、第10号染色体的甲基化CpG位点cg07616394、 第10号染色体的甲基化CpG位点cg25104397、第11号染色体的甲基化CpG位点cg03365311、 第11号染色体的甲基化CpG位点cg13912027、第11号染色体的甲基化CpG位点cg15374924、 第11号染色体的甲基化CpG位点cg20411756、第11号染色体的甲基化CpG位点cg27470087、 第12号染色体的甲基化CpG位点cg09045655、第12号染色体的甲基化CpG位点cg09183316、 第12号染色体的甲基化CpG位点、第12号染色体的甲基化CpG位点cg15975802、第12号 染色体的甲基化CpG位点cg22277972、第13号染色体的甲基化CpG位点、第13号染色体的 甲基化CpG位点cg03268893、第13号染色体的甲基化CpG位点cg14012112、第14号染色体 的甲基化CpG位点cg01557792、第14号染色体的甲基化CpG位点cg11121623、第14号染色 体的甲基化CpG位点cg15691199、第14号染色体的甲基化CpG位点cg27295118、第15号染 色体的甲基化CpG位点cg03790899、第15号染色体的甲基化CpG位点cg13163919、第15 号染色体的甲基化CpG位点cg17716765、第15号染色体的甲基化CpG位点cg26971042、第 16号染色体的甲基化CpG位点cg00762678、第16号染色体的甲基化CpG位点cg02187822、 第16号染色体的甲基化CpG位点cg03989617、第16号染色体的甲基化CpG位点cg04528038、 第16号染色体的甲基化CpG位点cg04699663、第16号染色体的甲基化CpG位点cg06907405、 第16号染色体的甲基化CpG位点cg07013955、第16号染色体的甲基化CpG位点cg08113187、 第16号染色体的甲基化CpG位点cg26706803、第17号染色体的甲基化CpG位点cg02225720、 第17号染色体的甲基化CpG位点cg07850987、第17号染色体的甲基化CpG位点cg09648933、 第17号染色体的甲基化CpG位点cg09915396、第17号染色体的甲基化CpG位点cg11393185、 第17号染色体的甲基化CpG位点cg16807061、第17号染色体的甲基化CpG位点cg21603891、 第17号染色体的甲基化CpG位点cg22635673、第17号染色体的甲基化CpG位点cg26604214、 第18号染色体的甲基化CpG位点cg20786131、第19号染色体的甲基化CpG位点cg07381806、 第19号染色体的甲基化CpG位点cg11811510、第19号染色体的甲基化CpG位点cg16893868、 第19号染色体的甲基化CpG位点cg26796095、第20号染色体的甲基化CpG位点cg00682367、 第20号染色体的甲基化CpG位点cg01329151、第20号染色体的甲基化CpG位点cg25948982、 第21号染色体的甲基化CpG位点cg03307717、第22号染色体的甲基化CpG位点cg05602642、 第22号染色体的甲基化CpG位点cg05877528、第22号染色体的甲基化CpG位点cg11205006、 第22号染色体的甲基化CpG位点cg21431832、第22号染色体的甲基化CpG位点cg27087377。

优选地,所述用于预测精神分裂症发生风险的DNA甲基化标记物选自人第1号染色体的 甲基化CpG位点cg02497700、第1号染色体的甲基化CpG位点cg04437762、第1号染色体的甲基化CpG位点cg05697909、第1号染色体的甲基化CpG位点cg09277376、第1号染色 体的甲基化CpG位点cg10540110、第1号染色体的甲基化CpG位点cg16399365、第1号染色 体的甲基化CpG位点cg17176894、第1号染色体的甲基化CpG位点cg17985912、第1号染 色体的甲基化CpG位点cg18881723、第1号染色体的甲基化CpG位点cg19698993、第1号 染色体的甲基化CpG位点cg21686694、第1号染色体的甲基化CpG位点cg26348226、第2 号染色体的甲基化CpG位点cg03589296、第2号染色体的甲基化CpG位点cg05874176、第2 号染色体的甲基化CpG位点cg06117093、第2号染色体的甲基化CpG位点cg07065759、第2 号染色体的甲基化CpG位点cg12287813、第2号染色体的甲基化CpG位点cg13651986、第2 号染色体的甲基化CpG位点cg15890754、第2号染色体的甲基化CpG位点cg21319458、第2 号染色体的甲基化CpG位点cg24749947、第3号染色体的甲基化CpG位点cg05551922、第4 号染色体的甲基化CpG位点cg21254939、第4号染色体的甲基化CpG位点cg27305383、第5 号染色体的甲基化CpG位点cg11958644、第6号染色体的甲基化CpG位点cg01955533、第6 号染色体的甲基化CpG位点cg04353171、第6号染色体的甲基化CpG位点cg05217983、第6 号染色体的甲基化CpG位点cg13265740、第6号染色体的甲基化CpG位点cg16254746、第7 号染色体的甲基化CpG位点cg00653387、第7号染色体的甲基化CpG位点cg03993154、第7 号染色体的甲基化CpG位点cg08313420、第7号染色体的甲基化CpG位点cg08634133、第7 号染色体的甲基化CpG位点cg16555537、第7号染色体的甲基化CpG位点cg27496339、第8 号染色体的甲基化CpG位点cg06688396、第8号染色体的甲基化CpG位点cg08872550、第8 号染色体的甲基化CpG位点cg24023258、第9号染色体的甲基化CpG位点cg24475171、第 10号染色体的甲基化CpG位点cg04179740、第10号染色体的甲基化CpG位点cg07616394、 第10号染色体的甲基化CpG位点cg25104397、第11号染色体的甲基化CpG位点cg03365311、 第11号染色体的甲基化CpG位点cg13912027、第11号染色体的甲基化CpG位点cg20411756、 第11号染色体的甲基化CpG位点cg27470087、第12号染色体的甲基化CpG位点cg09045655、 第12号染色体的甲基化CpG位点cg09183316、第12号染色体的甲基化CpG位点cg15975802、 第12号染色体的甲基化CpG位点cg22277972、第13号染色体的甲基化CpG位点cg14012112、 第14号染色体的甲基化CpG位点cg01557792、第14号染色体的甲基化CpG位点cg11121623、 第14号染色体的甲基化CpG位点cg15691199、第15号染色体的甲基化CpG位点cg13163919、 第15号染色体的甲基化CpG位点cg17716765、第15号染色体的甲基化CpG位点cg26971042、 第16号染色体的甲基化CpG位点cg00762678、第16号染色体的甲基化CpG位点cg02187822、 第16号染色体的甲基化CpG位点cg03989617、第16号染色体的甲基化CpG位点cg04528038、 第16号染色体的甲基化CpG位点cg04699663、第16号染色体的甲基化CpG位点cg06907405、 第16号染色体的甲基化CpG位点cg07013955、第16号染色体的甲基化CpG位点cg08113187、 第17号染色体的甲基化CpG位点cg02225720、第17号染色体的甲基化CpG位点cg07850987、 第17号染色体的甲基化CpG位点cg09648933、第17号染色体的甲基化CpG位点cg09915396、 第17号染色体的甲基化CpG位点cg11393185、第17号染色体的甲基化CpG位点cg16807061、 第17号染色体的甲基化CpG位点cg21603891、第17号染色体的甲基化CpG位点cg26604214、 第18号染色体的甲基化CpG位点cg20786131、第19号染色体的甲基化CpG位点cg07381806、 第19号染色体的甲基化CpG位点cg11811510、第19号染色体的甲基化CpG位点cg16893868、 第19号染色体的甲基化CpG位点cg26796095、第20号染色体的甲基化CpG位点cg01329151、 第20号染色体的甲基化CpG位点cg25948982、第21号染色体的甲基化CpG位点cg03307717、 第22号染色体的甲基化CpG位点cg05602642、第22号染色体的甲基化CpG位点cg05877528、 第22号染色体的甲基化CpG位点cg11205006、第22号染色体的甲基化CpG位点cg21431832、 第22号染色体的甲基化CpG位点cg27087377。

更优选地,所述甲基化CpG位点cg02497700位于ZNF238基因上;甲基化CpG位点cg04437762位于IL6R基因上;所述甲基化CpG位点cg05697909位于HES5基因上;所述甲 基化CpG位点cg09277376位于MGC12982基因上;所述甲基化CpG位点cg10540110位于 KDM5B基因上;所述甲基化CpG位点cg16399365位于ZNF238基因上;所述甲基化CpG位 点cg17176894位于LRRC8C基因上;所述甲基化CpG位点cg17985912位于LIN9基因上; 所述甲基化CpG位点cg18881723位于SLAMF1基因上;所述甲基化CpG位点cg19698993位 于ZNF238基因上;所述甲基化CpG位点cg21686694位于RNF220基因上;所述甲基化CpG 位点cg26348226位于ECE1基因上;所述甲基化CpG位点cg03589296位于MEIS1基因上; 所述甲基化CpG位点cg05874176位于TLK1基因上;所述甲基化CpG位点cg06117093位于 HDAC4基因上;所述甲基化CpG位点cg07065759位于ANKRD44基因上;所述甲基化CpG 位点cg12287813位于GCC2基因上;所述甲基化CpG位点cg13651986位于WIPF1基因上; 所述甲基化CpG位点cg15890754位于ITGA6基因上;所述甲基化CpG位点cg21319458位于 BAZ2B基因上;所述甲基化CpG位点cg24749947位于ACVR1基因上;所述甲基化CpG位 点cg05551922位于GPX1基因上;所述甲基化CpG位点cg21254939位于SORCS2基因上; 所述甲基化CpG位点cg27305383位于HOPX基因上;所述甲基化CpG位点cg11958644位于 RAPGEF6基因上;所述甲基化CpG位点cg01955533位于CDKN1A基因上;所述甲基化CpG 位点cg04353171位于FLOT1基因上;所述甲基化CpG位点cg05217983位于RUNX2基因上; 所述甲基化CpG位点cg13265740位于C6orf115基因上;所述甲基化CpG位点cg16254746位 于FLOT1基因上;所述甲基化CpG位点cg00653387位于PTN基因上;所述甲基化CpG位点 cg03993154位于SLC13A1基因上;所述甲基化CpG位点cg08313420位于DAGLB基因上; 所述甲基化CpG位点cg08634133位于ATP6V0E2基因上;所述甲基化CpG位点cg16555537 位于TRIP6基因上;所述甲基化CpG位点cg27496339位于BLVRA基因上;所述甲基化CpG 位点cg06688396位于TMEM55A基因上;所述甲基化CpG位点cg08872550位于CA2基因上; 所述甲基化CpG位点cg24023258位于LY6K基因上;所述甲基化CpG位点cg24475171位于 C9orf78基因上;所述甲基化CpG位点cg04179740位于CDH23基因上;所述甲基化CpG位 点cg07616394位于HHEX基因上;所述甲基化CpG位点cg25104397位于C10orf26基因上; 所述甲基化CpG位点cg03365311位于MIR129-2基因上;所述甲基化CpG位点cg13912027 位于FCHSD2基因上;所述甲基化CpG位点cg20411756位于DRD4基因上;所述甲基化CpG 位点cg27470087位于RPS6KA4基因上;所述甲基化CpG位点cg09045655位于HOXC9基因 上;所述甲基化CpG位点cg09183316位于CTDSP2基因上;所述甲基化CpG位点cg15975802 位于PTPN6基因上;所述甲基化CpG位点cg22277972位于ISCU基因上;所述甲基化CpG 位点cg14012112位于PCDH9基因上;所述甲基化CpG位点cg01557792位于KIAA0247基因 上;所述甲基化CpG位点cg11121623位于PELI2基因上;所述甲基化CpG位点cg15691199位于CEBPE基因上;所述甲基化CpG位点cg13163919位于TLE3基因上;所述甲基化CpG 位点cg17716765位于APBA2基因上;所述甲基化CpG位点cg26971042位于TLE3基因上; 所述甲基化CpG位点cg00762678位于CBFA2T3基因上;所述甲基化CpG位点cg02187822 位于CBFA2T3基因上;所述甲基化CpG位点cg03989617位于GPR56基因上;所述甲基化 CpG位点cg04528038位于TMEM159基因上;所述甲基化CpG位点cg04699663位于CBFA2T3 基因上;所述甲基化CpG位点cg06907405位于SIAH1基因上;所述甲基化CpG位点cg07013955 位于IFT140基因上;所述甲基化CpG位点cg08113187位于ZCCHC14基因上;所述甲基化 CpG位点cg02225720位于ITGAE基因上;所述甲基化CpG位点cg07850987位于HOXB3基 因上;所述甲基化CpG位点cg09648933位于CD79B基因上;所述甲基化CpG位点cg09915396 位于RAP1GAP2基因上;所述甲基化CpG位点cg11393185位于TUSC5基因上;所述甲基化 CpG位点cg16807061位于RAP1GAP2基因上;所述甲基化CpG位点cg21603891位于KCNJ2 基因上;所述甲基化CpG位点cg26604214位于RAP1GAP2基因上;所述甲基化CpG位点 cg20786131位于CABLES1基因上;所述甲基化CpG位点cg07381806位于MOBKL2A基因 上;所述甲基化CpG位点cg11811510位于CEACAM1基因上;所述甲基化CpG位点cg16893868 位于LILRA2基因上;所述甲基化CpG位点cg26796095位于SAFB基因上;所述甲基化CpG 位点cg01329151位于DIDO1基因上;所述甲基化CpG位点cg25948982位于C20orf123基因 上;所述甲基化CpG位点cg03307717位于U2AF1基因上;所述甲基化CpG位点cg05602642 位于CERK基因上;所述甲基化CpG位点cg05877528位于HPS4基因上;所述甲基化CpG 位点cg11205006位于HPS4基因上;所述甲基化CpG位点cg21431832位于HPS4基因上;所 述甲基化CpG位点cg27087377位于HPS4基因上。

在本发明的第二方面,本发明提供上述DNA甲基化标记物在制备用于预测精神分裂症发 生风险的诊断试剂和/或辅助诊断试剂和/或诊断试剂盒中的用途。

在本发明的第三方面,本发明提供一种试剂盒,其将上述的DNA甲基化标记物作为预测 精神分裂症发生风险的标记物。

在本发明的第四方面,本发明提供一种上述用于预测精神分裂症发生风险的DNA甲基化 标记物的筛选方法,包括如下步骤:

步骤1)、基于甲基化Beta值筛选:采用Illumina 450K甲基化芯片检测首次未治疗的精神 分裂症患者及正常对照者的全基因组的甲基化水平,去掉所检测到的甲基化CpG位点中存多 态性的CpG位点,并获得剩余甲基化CpG位点及甲基化水平即Beta值;

步骤2)、基于Fold-change(FC)的阈值筛选:根据步骤1)计算得到的剩余甲基化CpG 位点的甲基化Beta值进一步计算各甲基化CpG位点Beta值的FC值,进一步筛选出FC值大 于1.15的甲基化CpG位点;

步骤3)、基于统计检验筛选:根据步骤2)筛选出的甲基化CpG位点的甲基化Beta值选 择不同的检验方法进行两总体的差异检验,筛选出差异甲基化CpG位点;

步骤4)、构建精神分裂症预测模型:对步骤3)筛选出的差异甲基化CpG位点的甲基化 Beta值,构建精神分裂症预测模型,通过采用机器学习支持向量机模型和十折交叉验证所述甲 基化CpG位点,计算样本的预测准确率,验证所述精神分裂症预测模型的甲基化CpG位点预 测精神分裂症的可行性;

步骤5)、获得用于预测精神分裂症发生风险的DNA甲基化标记物:所述步骤4)的精神 分裂症预测模型中甲基化CpG位点中的一个或多个即为可预测精神分裂症发生风险的DNA甲 基化标记物。

在本发明的技术方案中,所述步骤3)中,若步骤2)筛选出的甲基化CpG位点的甲基化 Beta值数据服从正态分布且满足方差齐性条件,采用t检验;若步骤2)筛选出的甲基化CpG 位点的甲基化Beta值数据服从正态分布但不满足方差齐性条件,采用近似t检验;若步骤2) 筛选出的甲基化CpG位点的甲基化Beta值数据不服从正态分布,采用Wilcoxon秩和检验,并 且P值经FDR校正后小于0.05的CpG位点被认为存在显著差异。

在本发明的技术方案中,所述步骤4)中,所述机器学习支持向量机模型,使用R语言平 台(v3.6.3)进行数据分析,所使用的工具包为e1071(v 1.7.4),并结合十折交叉验证,以上述步 骤3)中的差异CpG位点的甲基化Beta值构建预测模型进行相互验证。

在本发明的技术方案中,所述步骤4)中,预测准确率的计算公式为:

其中,a为预测为精神分裂症患者且实际也为精神分裂症患者的样本个数,b为预测为精 神分裂症患者但实际为正常人的个数,c为预测为正常人但实际为精神分裂症患者的样本个数, d为预测为正常人且实际也为正常人的样本个数。

本发明的有益效果在于:

1、本发明提供了一种用于预测精神分裂症发生风险的DNA甲基化标记物;用于预测精 神分裂症发生风险的DNA甲基化标记物包括上述100个甲基化CpG位点中的至少一个,也可 将该100个甲基化CpG位点联合起来预测精神分裂症发生风险,由此,可提高精神分裂症发 生风险的预测准确率,节约成本,适于推广应用,具有较好的应用前景;

2、本发明提供一种上述甲基化标记物在制备用于预测精神分裂症发生风险的诊断试剂和/ 或辅助诊断试剂和/或诊断试剂盒中的用途;可通过DNA甲基化标记物的甲基化水平来预测精 神分裂症发生风险;

3、本发明提供一种上述甲基化标记物的筛选方法,通过该方法可筛选出用于预测精神分 裂症发生风险的DNA甲基化标记物,其简单、科学、可靠。

附图说明

图1为可预测精神分裂症发生风险的甲基化CpG位点筛选方法流程图;

图2为十次十折交叉验证在测试集上的平均准确率结果图。

具体实施方式

下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解,下面的实施例仅 用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件的,按照本 领域内的文献所描述的技术或条件或者按照产品说明书进行。

实施例1:用于预测精神分裂症发生风险的DNA甲基化标记物的筛选

可预测精神分裂症发生风险的甲基化CpG位点筛选方法流程图如图1所示。用于预测精 神分裂症发生风险的DNA甲基化标记物的筛选方法,包括如下步骤,

步骤1)、基于甲基化Beta值筛选:采用Illumina 450K甲基化芯片检测首次未治疗的精神 分裂症患者及正常对照者的全基因组的甲基化水平,去掉所检测到的甲基化CpG位点中存多 态性的CpG位点,并获得剩余27万甲基化CpG位点的甲基化水平即Beta值;

本实施例通过招募首次未治疗的精神分裂症患者38例,及正常对照者38例,在入组时于 固定时间如早上6:30采集所有患者及对照者的全血DNA,基于Illumina 450K全基因组甲基化 芯片检测所有受试者全基因组共计45万个甲基化CpG位点,去掉存多态性的CpG位点后剩 余约27万甲基化CpG位点,获得针对上述甲基化CpG位点的甲基化Beta值。

步骤2):基于Fold-change(FC)的阈值筛选:根据步骤1)计算得到的剩余甲基化CpG位 点的甲基化Beta值进一步计算各甲基化CpG位点Beta值的FC值,FC值的计算具体如下:

所述步骤2)中,对于来自精神分裂症患者组(以下公式中的A)、正常对照组(以下公式 中的B)两组样本数据,FC值的定义如下:

对于FC值大于1.15的甲基化CpG位点(共计3494个CpG位点)进行接下来的差异分析, 即统计检验筛选。

步骤3):基于统计检验筛选:根据步骤2)筛选出的3494个甲基化CpG位点的甲基化Beta 值选择不同的检验方法进行两总体(精神分裂症患者组与正常对照组)的差异检验,筛选出差 异甲基化CpG位点;

所述步骤3)中,若步骤2)筛选出的甲基化CpG位点的甲基化Beta值数据服从正态分布且 满足方差齐性条件,采用t检验;若步骤2)筛选出的甲基化CpG位点的甲基化Beta值数据服 从正态分布但不满足方差齐性条件,采用近似t检验;若步骤2)筛选出的甲基化CpG位点的 甲基化Beta值数据不服从正态分布,采用Wilcoxon秩和检验,并且P值经FDR校正后小于 0.05的CpG位点被认为存在显著差异。

本步骤经统计检验共筛选出100个存在组间差异的甲基化CpG位点。

步骤4)、构建精神分裂症预测模型:对步骤3)筛选出的100个差异甲基化CpG位点的甲 基化Beta值,构建精神分裂症预测模型,通过采用机器学习支持向量机模型和十折交叉验证 所述甲基化CpG位点,计算样本的预测准确率,验证所述精神分裂症预测模型的甲基化CpG 位点预测精神分裂症的可行性;

十折交叉验证,即10-fold cross-validation,是常用的测试方法,用来测试算法预测的准确 性。将数据集分成十分,轮流将其中9份作为训练数据,1份作为测试数据进行预测。每次试 验都会得出相应的正确率。10次的结果的正确率的平均值作为对算法准确性的估计。所述步 骤4)中,所述机器学习支持向量机模型,使用R语言平台(v3.6.3)进行数据分析,所使用的工 具包为e1071(v 1.7.4),并结合十折交叉验证,以上述步骤3)中的100个差异甲基化CpG 位点的甲基化Beta值构建预测模型进行相互验证。

所述步骤4)中,预测准确率的计算公式为:

其中,a为预测为精神分裂症患者且实际也为精神分裂症患者的样本个数,b为预测为精 神分裂症患者但实际为正常人的个数,c为预测为正常人但实际为精神分裂症患者的样本个数, d为预测为正常人且实际也为正常人的样本个数。

所述步骤(4)详细如下:本实施例使用支持向量机方法,使用R语言平台(v3.6.3)进行数 据分析,所用工具包为e1071(v 1.7.4),并结合交叉验证,以上述步骤(3)中的100个差异 甲基化CpG位点的甲基化Beta值构建精神分裂症发生风险预测模型进行相互验证。

本实施例使用R语言平台(v3.6.3)进行数据分析,所用工具包为e1071(v 1.7.4);通过 对样本数据进行甲基化分析,获得100个显著(校正后P-value<0.05)、可能与精神分裂症发 生风险相关的甲基化CpG位点(见表1),并计算出所述甲基化CpG位点的甲基化Beta值来确 定DNA甲基化水平,Beta值=来自甲基化珠粒类型的强度值/(来自甲基化的强度值+来自未甲 基化珠粒类型的强度值+100)。上述甲基化CpG位点即为用于预测精神分裂症发生风险的DNA 甲基化标记物。表1为可预测精神分裂症发生风险的100个甲基化CpG位点。

表1预测精神分裂症发生风险的DNA甲基化标记物

以上述甲基化CpG位点的甲基化Beta值构建精神分裂症发生风险预测模型,通过计算样 本预测准确率验证该模型的可行性,样本预测准确率计算公式为:

其中,a为预测为精神分裂症患者且实际也为精神分裂症患者的样本个数,b为预测为精 神分裂症患者但实际为正常人的个数,c为预测为正常人但实际为精神分裂症患者的样本个数, d为预测为正常人且实际也为正常人的样本个数。

使用机器学习方法(支持向量机、交叉验证)对上述预测模型进行相互验证:

在机器学习方法中,支持向量机(SVM)是一种有监督的机器学习方法,通常用于数据的 二进制分类。给定分类问题中的输入数据和学习目标X={X1,...,XN},y={y1,...,yN},输入数据的 每个样本都包含多个特征,从而构成一个特征空间:Xi=[X1,...,Xn]∈X。学习目标y∈{-1,1}是 一个二进制变量,表示负例和正例。

若输入数据所在的特征空间存在作为决策边界的超平面将学习目标按正类和负类分开,并 使任意样本的点到平面距离大于等于1:

决策边界:wTX+b=0

点到平面距离:yi(wTXi+b)≥1

则称该分类问题具有线性可分离性。参数w和b是分别是超平面的法向向量和截距。

满足此条件的决策边界实际上构造了两个平行的超平面作为区间边界,以区分样本的分 类。

在间隔边界以上的样本被判为正例样本,而在间隔边界以下的样本被判为负例样本。将两 个间隔边界之间的距离定义为位于间隔边界上的正例样本和负例样本作为支持向量。

本发明申请人通过机器学习支持向量机(support vector machine,SVM)方法,利用上述 100个有组间差异的甲基化CpG位点的甲基化水平即Beta值对患者发生风险进行预测,十次 十折交叉验证在测试集的平均准确率为85.05%,每次十折交叉验证在测试集上的平均准确率 如图2所示。图中,横坐标为次数,纵坐标为准确率。

本发明公开的预测精神分裂症发生风险的DNA甲基化标记物包括上述100个甲基化CpG 位点中的至少一个,可将该100个甲基化CpG位点中的一个或多个或联合起来预测精神分裂 症发生风险,可以明显提高精神分裂症发生风险的预测准确率,节约成本,适于推广应用,具 有较好的应用前景。

步骤5)、获得用于预测精神分裂症发生风险的DNA甲基化标记物:所述步骤(4)的精 神分裂症预测模型中甲基化CpG位点中的一个或多个即为可预测精神分裂症发生风险的DNA 甲基化标记物。

由本实施例预测精神分裂症发生风险的DNA甲基化标记物的筛选方法得到的两组间差异 甲基化CpG位点100个。可预测患者疗效的CpG位点如下(见表1):人第1号染色体的甲 基化CpG位点cg02497700、第1号染色体的甲基化CpG位点cg04437762、第1号染色体的甲基化CpG位点cg05697909、第1号染色体的甲基化CpG位点cg09277376、第1号染色体 的甲基化CpG位点cg10540110、第1号染色体的甲基化CpG位点cg16399365、第1号染色 体的甲基化CpG位点cg17176894、第1号染色体的甲基化CpG位点cg17985912、第1号染 色体的甲基化CpG位点cg18881723、第1号染色体的甲基化CpG位点cg19698993、第1号 染色体的甲基化CpG位点cg21686694、第1号染色体的甲基化CpG位点cg24155129、第1 号染色体的甲基化CpG位点cg26348226、第2号染色体的甲基化CpG位点cg03589296、第2 号染色体的甲基化CpG位点cg05874176、第2号染色体的甲基化CpG位点cg06117093、第2 号染色体的甲基化CpG位点cg07065759、第2号染色体的甲基化CpG位点cg12287813、第2 号染色体的甲基化CpG位点cg13424923、第2号染色体的甲基化CpG位点cg13651986、第2 号染色体的甲基化CpG位点cg15890754、第2号染色体的甲基化CpG位点cg21319458、第2 号染色体的甲基化CpG位点cg24749947、第2号染色体的甲基化CpG位点cg26823762、第3 号染色体的甲基化CpG位点cg05551922、第3号染色体的甲基化CpG位点cg12198140、第4 号染色体的甲基化CpG位点cg14011327、第4号染色体的甲基化CpG位点cg21254939、第4 号染色体的甲基化CpG位点cg27305383、第5号染色体的甲基化CpG位点cg11958644、第6 号染色体的甲基化CpG位点cg01955533、第6号染色体的甲基化CpG位点cg04353171、第6 号染色体的甲基化CpG位点cg05217983、第6号染色体的甲基化CpG位点cg13265740、第6 号染色体的甲基化CpG位点cg16254746、第7号染色体的甲基化CpG位点cg00653387、第7 号染色体的甲基化CpG位点cg02627991、第7号染色体的甲基化CpG位点cg03993154、第7 号染色体的甲基化CpG位点cg08313420、第7号染色体的甲基化CpG位点cg08634133、第7 号染色体的甲基化CpG位点cg16555537、第7号染色体的甲基化CpG位点cg27496339、第8 号染色体的甲基化CpG位点cg06688396、第8号染色体的甲基化CpG位点cg08872550、第8 号染色体的甲基化CpG位点cg24023258、第9号染色体的甲基化CpG位点cg24475171、第 10号染色体的甲基化CpG位点cg04179740、第10号染色体的甲基化CpG位点cg07616394、 第10号染色体的甲基化CpG位点cg25104397、第11号染色体的甲基化CpG位点cg03365311、 第11号染色体的甲基化CpG位点cg13912027、第11号染色体的甲基化CpG位点cg15374924、 第11号染色体的甲基化CpG位点cg20411756、第11号染色体的甲基化CpG位点cg27470087、 第12号染色体的甲基化CpG位点cg09045655、第12号染色体的甲基化CpG位点cg09183316、 第12号染色体的甲基化CpG位点、第12号染色体的甲基化CpG位点cg15975802、第12号 染色体的甲基化CpG位点cg22277972、第13号染色体的甲基化CpG位点、第13号染色体的 甲基化CpG位点cg03268893、第13号染色体的甲基化CpG位点cg14012112、第14号染色 体的甲基化CpG位点cg01557792、第14号染色体的甲基化CpG位点cg11121623、第14号 染色体的甲基化CpG位点cg15691199、第14号染色体的甲基化CpG位点cg27295118、第15 号染色体的甲基化CpG位点cg03790899、第15号染色体的甲基化CpG位点cg13163919、第 15号染色体的甲基化CpG位点cg17716765、第15号染色体的甲基化CpG位点cg26971042、 第16号染色体的甲基化CpG位点cg00762678、第16号染色体的甲基化CpG位点cg02187822、 第16号染色体的甲基化CpG位点cg03989617、第16号染色体的甲基化CpG位点cg04528038、 第16号染色体的甲基化CpG位点cg04699663、第16号染色体的甲基化CpG位点cg06907405、 第16号染色体的甲基化CpG位点cg07013955、第16号染色体的甲基化CpG位点cg08113187、 第16号染色体的甲基化CpG位点cg26706803、第17号染色体的甲基化CpG位点cg02225720、 第17号染色体的甲基化CpG位点cg07850987、第17号染色体的甲基化CpG位点cg09648933、 第17号染色体的甲基化CpG位点cg09915396、第17号染色体的甲基化CpG位点cg11393185、 第17号染色体的甲基化CpG位点cg16807061、第17号染色体的甲基化CpG位点cg21603891、 第17号染色体的甲基化CpG位点cg22635673、第17号染色体的甲基化CpG位点cg26604214、 第18号染色体的甲基化CpG位点cg20786131、第19号染色体的甲基化CpG位点cg07381806、 第19号染色体的甲基化CpG位点cg11811510、第19号染色体的甲基化CpG位点cg16893868、 第19号染色体的甲基化CpG位点cg26796095、第20号染色体的甲基化CpG位点cg00682367、 第20号染色体的甲基化CpG位点cg01329151、第20号染色体的甲基化CpG位点cg25948982、 第21号染色体的甲基化CpG位点cg03307717、第22号染色体的甲基化CpG位点cg05602642、 第22号染色体的甲基化CpG位点cg05877528、第22号染色体的甲基化CpG位点cg11205006、 第22号染色体的甲基化CpG位点cg21431832、第22号染色体的甲基化CpG位点cg27087377。

利用这100个甲基化CpG位点中的一个或多个的甲基化Beta值联合起来预测精神分裂症 发生风险,适于大规模推广应用。

实施例2

本实施例提供了一种用于预测精神分裂症发生风险的诊断试剂盒,所述诊断试剂盒将上述 甲基化标记物作为抗精神病药物疗效的标记物。

进一步地,本实施例提供了一种预测精神分裂症发生风险的方法,包括:

1、提取待测样本的基因组DNA;

2、以步骤1中的基因组DNA为模板,利用上述试剂盒进行PCR扩增;

3、重亚硫酸测序;

4、得到DNA甲基化检测结果;

5、根据上述表1中100个甲基化CpG位点的甲基化水平,实现对待测样本精神分裂症发 生风险的预测。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不 能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变 化、修改、替换和变型。

22页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:与视网膜病变相关的生物标志物及其应用

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!