一种局灶性癫痫遗传风险评估模型的建立方法

文档序号：117074 发布日期：2021-10-19 浏览：22次 >En<

阅读说明：本技术 一种局灶性癫痫遗传风险评估模型的建立方法 (Method for establishing genetic risk assessment model of focal epilepsy ) 是由张晓芳王佳王小冬梁萌萌于 2021-07-13 设计创作，主要内容包括：本发明公开了一种局灶性癫痫遗传风险评估模型的建立方法,包括以下步骤：(1)选择局灶性癫痫患者入组,采集癫痫患者样本并且对样本进行基因分型并且对分型结果进行质控,确定入组样本,建立研究队列,分为训练集和测试集；(2)构建局灶性癫痫遗传风险位点数据库；(3)基于步骤(2)中的局灶性癫痫遗传风险位点数据库,基于基因分型,选择模型的特征和统计所述特征的数量,生成所述训练集和所述测试集这两个队列数据集的特征矩阵；假设参数多基因遗传风险评分,构建局灶性癫痫遗传风险评估模型并且进行模型训练。提供适用于中国人群的局灶性癫痫患病遗传风险评分模型。(The invention discloses a method for establishing a genetic risk assessment model of focal epilepsy, which comprises the following steps: (1) selecting focal epileptics to group, collecting epileptic samples, carrying out genotyping on the samples, carrying out quality control on typing results, determining grouped samples, establishing a research queue, and dividing the research queue into a training set and a test set; (2) constructing a focal epilepsy genetic risk locus database; (3) based on the focal epilepsy genetic risk locus database in the step (2), based on genotyping, selecting the characteristics of a model and counting the number of the characteristics, and generating a characteristic matrix of two queue data sets of the training set and the test set; and (3) assuming parameter polygene genetic risk scores, constructing a focal epilepsy genetic risk assessment model and carrying out model training. Provides a genetic risk score model for the occurrence of the focal epilepsy, which is suitable for Chinese population.)

技术领域

本发明遗传风险评估领域，具体涉及一种局灶性癫痫遗传风险评估模型的建立方法。

背景技术

目前，在精准医学领域，癫痫的遗传分子学诊断主要依赖于二代测序(基因包、全外显子测序等)结合遗传变异解读，识别患病基因和变异。而该手段在局灶性癫痫患者中的诊断率有限。既往多项研究显示，仅极个别类型的局灶性癫痫可用单个基因/变异解释(参见文献PMID:30568546)。另一方面，多项GWAS研究显示，常见类型局灶性癫痫与多态性位点的低效应量风险等位基因相关(参见文献PMID:24014518)。

多基因风险评分(polygenic risk scores,PRS)是对受检者的低效应量风险等位基因进行加权累加获得，该加权累计值可用于个体的疾病遗传风险评估。其中，等位基因的权重依据既往相关疾病全基因组关联分析研究(GWAS)结果获取。目前PRS已被广泛应用于精神类疾病遗传风险评估。在癫痫领域，Marie等学者(参见PMID:33090489)试图应用PRS的思想评估局灶性癫痫的遗传异质性，以对局灶性癫痫的临床异质性进行解释。但目前并未有学者应用PRS进行局灶性癫痫的风险分层和辅助诊断。

基于多基因风险评分，仅对患病的遗传因素进行评估，因此该方法的评估效力受疾病的遗传力限制。另一方面，计算PRS时，风险位点的权重以既往GWAS研究结果为前提，因此评估效力亦受现有GWAS研究效力影响，如“赢者诅咒”和人群偏倚等。

有鉴于此，特提出本发明。

发明内容

本发明的目的是提供一种局灶性癫痫遗传风险评估模型的建立方法，解决了目前没有应用PRS进行局灶性癫痫的风险分层和辅助诊断的缺陷。

为了实现上述目的，本发明提供的一种局灶性癫痫遗传风险评估模型的建立方法，包括以下步骤：

(1)选择局灶性癫痫患者及未患病对照人群入组，采集入组人群样本并且对样本进行基因分型，然后基于全部样本分型结果进行质控，确定最终入组样本，建立研究队列，分为训练集和测试集；

(2)构建局灶性癫痫遗传风险位点数据库；

(3)基于步骤(2)中的局灶性癫痫遗传风险位点数据库，构建包含多变量的局灶性癫痫遗传风险评估模型。

优选地，步骤(1)中，所述入组人群样本包括病例组和对照组，所述病例组的入组标准为：依据国际癫痫联盟(ILAE)制定的癫痫临床诊疗指南，经两名或以上神经内科医生诊断为局灶性癫痫；年龄大于2岁且小于90岁；无合并精神类并发症；无假性癫痫发作史；无烟酒滥用史；不存在精神性或全身性退行性病变；不与其他入组个体存在亲缘关系；

所述对照组的入组标准为：健康无精神类疾病；年龄大于2岁且小于90岁；种族与病例队列保持一致；无合并精神类并发症；无假性癫痫发作史；无烟酒滥用史；不存在精神性或全身性退行性病变；不与其他入组个体存在亲缘关系。

进一步地，步骤(1)中，对样本进行基因分型并且对分型结果进行质控，包括以下步骤：

A、对所述病例组和所述对照组全部的采集样本进行全基因测序，对原始测序数据质控，进行BWA软件序列比对、比对数据处理、GATK软件进行SNP/Indel变异检测分析，获取突变vcf文件，其中比对数据处理包括对基因进行排序和去除重复序列；

B、应用软件plink对步骤A vcf文件的结果进行数据质控，移除所述病例组和所述对照组中基因分型缺失率高于0.05的个体、高杂合度个体和存在亲缘关系的个体；

C、确定所述病例组和所述对照组中的入组样本，建立研究队列，将所有入组样本随机分为训练集和测试集，所述训练集和所述测试集中样本比例为7:3，将训练集和测试集样本基因分型分别合并为存储文件。

进一步地，步骤(2)中，使用国际抗癫痫联盟主导的癫痫大型GWAS meta分析的summary文件，构建包含多个遗传相关位点信息及效应值的局灶性癫痫遗传风险位点数据库。

进一步地，步骤(3)中，构建局灶性癫痫遗传风险评估模型，包括以下步骤：

a、基于基因分型，选择模型的特征和统计所述特征的数量，生成所述训练集和所述测试集这两个队列数据集的特征矩阵；

b、假设参数多基因遗传风险评分，构建局灶性癫痫遗传风险评估模型并且进行模型训练。

本发明提供的一种局灶性癫痫遗传风险评估模型的建立方法，具有如下有益效果：

适用于中国人群的局灶性癫痫患病遗传风险评分模型，癫痫是临床表型及病因异质性均较强的疾病，本专利聚焦在遗传诊断率较低且具有较高遗传度的局灶性癫痫，进行遗传风险评估，提供遗传诊断。

附图说明

图1为本

具体实施方式

中局灶性癫痫遗传风险评估模型的建立方法的步骤流程图。

图2为本具体实施方式中局灶性癫痫遗传风险评估模型的建立方法的步骤1(3)A中对病例组和对照组全部的采集样本进行全基因测序的分析流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合具体实施方式对本发明作进一步的详细说明。

如图1所示，一种局灶性癫痫遗传风险评估模型的建立方法，包括以下步骤：

1、选择局灶性癫痫患者入组，采集患者样本并且对样本进行基因分型。

(1)选择局灶性癫痫患者入组，建立研究队列。

病例组，入组标准为a、依据国际癫痫联盟(ILAE)制定的癫痫临床诊疗指南，经两名或以上神经内科医生诊断为局灶性癫痫；b、年龄大于2岁且小于90岁。排除标准为a、合并精神类并发症；b、假性癫痫发作史；c、烟酒滥用史；d、存在精神性或全身性退行性病变；e、与其他入组个体存在亲缘关系。

对照组，入组标准为a、健康无精神类疾病；b、年龄大于2岁且小于90岁；c、种族与病例队列保持一致。排除标准与病例组相同。

(2)整理入组对象的信息资料。

依据入组人员知情同意原则，对入组对象进行外周血样本采集和基本信息资料整理，选择入组病例组1300例，对照组1400例。

(3)基因分型并且对分型结果进行质控，确定最终的入组样本。

A、对病例组和对照组全部的采集样本进行全基因测序，对原始测序数据质控，进行BWA(Burrow-Wheeler Aligner)软件序列比对、比对数据处理(排序和去除重复序列clean data等)、GATK软件进行SNP/Indel变异检测等分析，获取突变vcf文件。分析流程如图2所示。

B、应用软件plink 1.9对步骤A的vcf结果进行数据质控，移除基因分型缺失率高于0.05的个体、高杂合度个体和存在亲缘关系的个体。具体步骤如下：

基因分型缺失率质控：

plink--vcf all.vcf.gz--make-bed--out genotypes

plink--bfile genotypes--geno 0.05--make-bed--out genotypes

移除高杂合度个体：

plink--bfile genotypes--exclude inversion.txt--range--indep-pairwise50

5 0.2--out indepSNP

Plink--bfile genotypes--extract indepSNP.prune.in--het--out R_check

Rscript--no-save check_heterozygosity_rate.R

Rscript--no-save heterozygosity_outliers_list.R

sed's/"//g'fail-het-qc.txt|awk'{print$1,$2}'>het_fail_ind.txt

plink--bfile genotypes--remove het_fail_ind.txt--make-bed--out

genotypes

移除存在亲缘关系个体：

plink--bfile genotypes--extract indepSNP.prune.in--genome--min 0.2

--out pihat_min0.2

plink--bfile genotypes--extract indepSNP.prune.in--genome--min 0.2

--out pihat_min0.2_in_founders

plink--bfile genotypes--missing

C、将全部数据集(2247)随机分为训练集(1573)，测试集(674)，比例为7:3，将训练集和测试集样本基因分型分别合并为vcf存储格式文件。

plink--bfile genotype--export vcf--out dataset_vcf

2、局灶性癫痫遗传风险位点加权数据库及风险评估模型构建

(1)下载国际抗癫痫联盟(The International League Against EpilepsyConsortium on Complex Epilepsies，ILAE consortium on complex Epilepsies)主导的癫痫大型GWAS meta分析的summary文件，构建包含4,833,539个遗传相关位点信息及效应值的风险位点数据库。构建过程如下：

wget http://www.epigad.org/gwas_ilae2018_16loci/focal_epilepsy_METAL.gz

wget http://www.epigad.org/gwas_ilae2018_16loci/focal_lesion_negative_BOLT-LMM_final.gz

awk'{if($15<1e-1)print$0}'focal_epilepsy_METAL>FE.effect.snp

for i in`cat effect.snp`；do grep$i focal_lesion_negative_BOLT-LMM_final>>FE.snp.effect.db；done

(2)基于上步中风险位点数据库-FE.snp.effect.db构建一个包含多变量的模型，模型的特征为(x1,x2,x3,...,xn)

n＝4,833,539，代表特征的数量，即共计4,833,539个多态性位点；

模型如下：

xⁱ代表第i个个体，是特征矩阵的第i行，是由4,862,783个特征效应量构成的向量；

代表第i个个体第j个特征(即SNP基因分型)的效应量；当第i个体j位点分型包含0个拷贝的风险等位基因型时，当第i个体j位点分型包含1个拷贝的风险等位基因型时，当第i个体j位点分型包含2拷贝的风险等位基因型时，

因此基于基因分型，生成训练集和测试集这两个数据集的特征矩阵(dataset.risk.matrix)，用于之后分析，矩阵格式如下：

x0	x1	x2	...	xn	y
						0.9996477	1.0007279	1.0007296	...	1	1
0.9992955	1	1.00146	...	1	1
						1	1.0007279	1	...	0.9587425	0
...	...	...	...	...	...

y为预测值，y＝1，代表患病遗传高风险；y＝0，代表患病遗传低风险。

(3)模型构建，假设参数PRS(Polygenic risk score，多基因遗传风险评分)。

PRS(i)＝θ₀+θ₁x₁+θ₂x₂+...θ_nx_n

在模型训练过程中，y＝1时，h(i)≈1，PRS(i)>>0；y＝0时，h(i)≈0，PRS(i)<<0。模型训练引入逻辑回归代价函数：

实现过程如下：

对全部2247例样本入组样本进行随机抽样，其中70％样本用于训练，30％样本用于测试。

model＝svmtrain(trainlabel,traindata,'-s 0-t 0-c 1.2')；

q＝svmPredict(model,trainlabel)

P＝sv,Predict(model,testlabel)

Training accuracy＝mean(double(q＝＝traindata))*100

Test accuracy＝mean(double(P＝＝testdata))*100。

因现有大规模GWAS研究人群大多为高加索人群，基于此构建的多基因风险评估体系在中国人群中的评估效能普遍较低，本申请建立的局灶性癫痫遗传风险评估模型，适用于中国人群的局灶性癫痫患病遗传风险评分模型，癫痫是临床表型及病因异质性均较强的疾病，本专利聚焦在遗传诊断率较低且具有较高遗传度的局灶性癫痫，进行遗传风险评估，旨在为遗传诊断提供另一种方法。

本文中应用了具体个例对发明构思进行了详细阐述，以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离该发明构思的前提下，所做的任何显而易见的修改、等同替换或其他改进，均应包含在本发明的保护范围之内。

8页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：人员健康档案管理系统

一种局灶性癫痫遗传风险评估模型的建立方法

相关技术

网友询问留言