肠道微生态的标志物组合、辅助诊断模型及其应用

文档序号:502695 发布日期:2021-05-28 浏览:10次 >En<

阅读说明:本技术 肠道微生态的标志物组合、辅助诊断模型及其应用 (Marker combination for intestinal microecology, auxiliary diagnosis model and application of marker combination ) 是由 王普清 毛良伟 于 2021-02-19 设计创作,主要内容包括:本发明公开了一种肠道微生态的标志物组合、辅助诊断模型及其应用。所述标志物组合包括以下微生物:斯卡多维亚菌属(Scardovia)、瘤胃菌属(未命名)(Ruminococcaceae noname)、嗜胆菌属(Bilophila)、拟杆菌属(Bacteroides)、孪生球菌属(Gemella)、另枝菌属(Alistipes)、草酸杆菌属(Oxalobacter)、索拉杆菌属(Solobacterium)、双歧杆菌属(Bifidobacterium)和梭菌属(未命名)(Clostridiales noname)。本发明的模型可以提供高准确率、无创的帕金森病辅助诊断,准确率可达80.3%。(The invention discloses a marker combination of intestinal microecology, an auxiliary diagnosis model and application thereof. The marker combinations include the following microorganisms: scatavia (Scardovia), ruminococcus (unnamed) (ruminococcus noname), cholephilus (Bilophila), Bacteroides (Bacteroides), gemfibrococcus (gemellal), Alistipes (Alistipes), Oxalobacter (Oxalobacter), sorafella (Solobacterium), Bifidobacterium (bifidum) and clostridium (unnamed) (clostridium noname). The model of the invention can provide high-accuracy noninvasive auxiliary diagnosis of the Parkinson&#39;s disease, and the accuracy can reach 80.3 percent.)

肠道微生态的标志物组合、辅助诊断模型及其应用

技术领域

本发明涉及医学、生物学及生物信息学领域,具体涉及一种肠道微生态的标志物组合、辅助诊断模型及其应用。

背景技术

帕金森病(Parkinson's disease,PD)是一种多灶性和进行性的神经退行性疾病。该病是仅次于阿尔兹海默病的第二大神经退行性疾病。截至2015年,全球患病人数为620万,其中11.7万人死于帕金森病。从病理上来讲,PD的主要特征是黑质多巴胺能神经元的退化、纹状体多巴胺减少和神经元内异常蛋白聚集体路易小体的形成。临床上,PD的主要特征是静止性震颤、强直、运动迟缓和步态异常,这也被认为是PD的“四主征”。其他的特点还包括冻结步态、姿势不稳、言语困难、自主神经功能紊乱、感觉异常、心境障碍、睡眠障碍、认知功能减退和痴呆。不少PD患者在出现运动障碍之前,常常还有胃肠道功能障碍的表现。临床上已鉴定出一系列与PD相关的胃肠道功能障碍,包括体重减轻、胃轻瘫、便秘和排便障碍。近年宏基因组学研究更进一步探讨了帕金森病与肠道菌群异常的相关性,可以说是“胃肠道假说”在肠道菌群方面的延伸。

肠道菌群由胃肠道中与人类宿主共生的细菌群落组成。肠道菌群的形成受许多因素影响,例如饮食、抗生素治疗、分娩类型和母乳喂养。一个健康稳定的肠道菌群群落在维持肠屏障完整性、功能、新陈代谢和免疫力的稳态平衡以及调节肠-脑轴方面起着至关重要的作用。最近的研究中强调了肠道菌群对肠-脑轴的影响,及其在中枢神经系统相关疾病和神经精神疾病(如多发性硬化症、自闭症、抑郁症和精神分裂症)中的潜在作用。已知肠道菌群和微生物代谢产物会显著干扰宿主的代谢、认知、行为和免疫,因此肠道菌群和微生物代谢产物在PD发病机理中的作用受到越来越多的关注,并且最近已经显示出一些表型相关性。例如,在PD患者中发现肠道微生物群和微生物代谢物的数量和组成发生改变。因此,了解肠道菌群与PD发生之间的早期相互作用将为干预,尤其是PD的早期诊断和早期治疗开辟新的途径。

目前,已有基于肠道菌群的疾病诊断模型,例如用于结直肠癌、溃疡性肠炎的诊断模型、冠状动脉疾病的预测模型见诸报道,但除了阿尔茨海默病的肠道菌群诊断模型已有,且已有药物针对肠道菌群治疗退行性神经疾病,例如,GV-971治疗阿尔茨海默病,针对中枢神经系统疾病的肠道菌群诊断模型大部分尚在开发阶段。由于帕金森病缺乏早期诊断标志物,大部分帕金森病患者诊断时已是晚期,预后很差。考虑到帕金森症的诊断需要繁杂的量表及医生的经验判断,因此,亟需找到帕金森病的新型诊断标志物和高效的诊断模型,以期改善预后。

由Rehman A et al.,Geographical patterns of the standing and activehuman gut microbiome in health and IBD.Gut 65,238-248(2016)、Kushugulova A etal.,Metagenomic analysis of gut microbial communities from a Central Asianpopulation.BMJ Open 8,e021682(2018)和Deschasaux M et al.,Depicting thecomposition of gut microbiota in a population with varied ethnic origins butshared geography.Nat Med 24,1526-1531(2018)可知,肠道菌群与饮食和人种有非常大的相关性,西方饮食与我国的饮食结构差异巨大,所以非常有必要针对中国人群,利用精度更高的鸟枪法(shotgun方法)而不是16S的方法对差异菌群进行鉴定并构建诊断模型。

虽然在中国大陆,已有北京、上海、广州、长春和锦州五个城市的机构使用16SrRNA扩增子测序技术分析了肠道微生物组多样性。但是大规模人群研究显示,肠道菌群疾病诊断模型存在着非常显著的地域依赖性,不同疾病受到地域因素的影响也不同。因此,有必要找到帕金森病的肠道菌群诊断标志物,构建辅助诊断模型,以应用于所选地域人群的帕金森病辅助诊断。

发明内容

为解决现有技术中缺少高准确率、无创的帕金森病的肠道菌群诊断标志物和辅助诊断模型的技术问题,本发明提供一种肠道微生态的标志物组合、辅助诊断模型及其应用,基于肠道菌群选择诊断标志物检测帕金森病,靶向肠道微生态的标志物可作为某一地区潜在的帕金森病无创诊断工具,对帕金森病的诊断准确率可达80.3%。

发明人在对收集的样本进行宏基因组分析中发现,帕金森病患者和健康人的肠道微生物相对丰度信息绝大部分映射到细菌界;进一步多样性分析表明,在属水平和种水平上帕金森病患者的α多样性高于健康人,并且疾病状态与肠道微生物的变化有关;结合β多样性评估,得知在不同的分类水平上,高分类水平的差异比低分类水平的差异显著。因此,发明人选择在组间具有显著差异的属水平的微生物,选择随机森林模型,对具有显著差异的属水平的微生物在预测待测样本的类型中的作用进行验证,并构建基于随机森林模型的帕金森病辅助诊断模型。

本发明的第一方面提供一种肠道微生态的标志物组合,所述标志物组合包括以下微生物:斯卡多维亚菌属(Scardovia)、瘤胃菌属(未命名)(Ruminococcaceae noname)、嗜胆菌属(Bilophila)、拟杆菌属(Bacteroides)、孪生球菌属(Gemella)、另枝菌属(Alistipes)、草酸杆菌属(Oxalobacter)、索拉杆菌属(Solobacterium)、双歧杆菌属(Bifidobacterium)和梭菌属(未命名)(Clostridiales noname)。

在本发明一较佳实施方案中,所述标志物组合还包括:罗斯氏菌属(Roseburia)、厌氧棒状菌属(Anaerostipes)、副沙门氏菌属(Parasutterella)、巨单胞菌属(Megamonas)、克雷伯氏菌属(Klebsiella)、丁酸单胞菌属(Butyricimonas)、柯林斯菌属(Collinsella)、志贺氏菌属(Shigella)、罕见小球菌属(Subdoligranulum)和黄杆菌属(Flavonifractor)。

所述标志物组合适用于湖北襄阳地区。

本发明的第二方面提供一种试剂组合,所述试剂组合包括能够检测如第一方面所述的标志物组合的试剂。

在本发明一较佳实施方案中,所述试剂组合包括PCR用试剂或测序用试剂。

较佳地,所述试剂组合包括如第一方面所述的标志物组合。

本发明的第三方面提供如第一方面所述的标志物组合或如第二方面所述的试剂组合在制备诊断帕金森病的诊断剂中的用途。

本发明的第四方面提供一种辅助诊断模型,包括:

(1)输入模块,所述输入模块用于输入待测样本的微生物分类学表征和相对丰度的信息,得到基于平均准确度下降方法得到的排名前10或前20的属的菌群;

(2)处理模块,所述处理模块采用随机森林分类器,调用预测函数,基于(1)中排名前10或前20的属的菌群对待测样本的来源进行预测;

其中,所述随机森林分类器基于已知样本的微生物分类学表征和相对丰度的信息得到已知样本的特征菌群;

所述随机森林分类器的定义如下:randomForest(class~.,data=train_df,ntree=1000,nPerm=50,mtry=floor(sqrt(ncol(train_df)-1)),proximity=T,importance=T);其中,class为所述已知样本的微生物分类学表征和相对丰度的信息的数据集;

所述预测函数的定义如下:predict(rf,newdata=test_df,type="response");其中,test_df为(1)中的所述信息。

在本发明一较佳实施方案中,所述特征菌群为由基于平均准确度下降方法得到的排名前10的属组成的菌群;和/或,所述已知样本和待测样本的微生物分类学表征和相对丰度的信息通过微生组宏基因组分析例如MetaPhlAn2获得。

在本发明一更佳实施方案中,所述特征菌群为由基于平均准确度下降方法得到的排名前20的属组成的菌群。

所述待测样本可为本领域常规的肠道分泌物,优选地为粪便,例如来自湖北襄阳地区受试者的粪便。

在本发明一较佳实施方案中,所述辅助诊断模型还包括(0)预处理模块,和/或(3)输出模块,所述预处理模块对样本的DNA进行提取、文库构建和测序,得到样本的DNA的宏基因组原始读数并除噪,并将除噪后的信息传递至所述输入模块;所述输出模块用于输出所述处理模块的预测结果;

其中,所述除噪是指:对所述宏基因组原始读数进行质检,并修剪低质量序列,得到待测样本的微生物DNA的宏基因组读数。

较佳地,所述质检通过二代测序质控软件例如FastQC、SolexaQA或PRINSEQ实现;和/或,所述修剪低质量序列通过宏基因组测序质控软件例如KneadData实现;

更佳地,所述kneadData的参数设置为:“SLIDINGWINDOW:4:20MINLEN:50”;和/或,所述的除噪还包括:在修剪低质量序列后删除不需要的人类DNA读数,所述删除不需要的人类DNA读数的参数为“--very-sensitive--dovetail”。

本发明的第五方面提供一种获得已知样本的特征菌群的方法,包括:基于已知样本的微生物分类学表征和相对丰度的信息,采用随机森林分类器得到特征菌群;

其中,所述随机森林分类器的定义如下:randomForest(class~.,data=train_df,ntree=1000,nPerm=50,mtry=floor(sqrt(ncol(train_df)-1)),proximity=T,importance=T);其中,class为所述已知样本的微生物分类学表征和相对丰度的信息的数据集。

在本发明一较佳实施方案中,所述特征菌群为由基于平均准确度下降方法得到的排名前10的属组成的菌群。

在本发明一更佳实施方案中,所述特征菌群为由基于平均准确度下降方法得到的排名前20的属组成的菌群。

和/或,所述已知样本的微生物分类学表征和相对丰度的信息通过微生组宏基因组分析例如MetaPhlAn2获得。

在本发明一实施方案中,所述方法还包括对所述随机森林分类器的准确性进行评估。

在本发明一实施方案中,所述随机森林分类器的准确性通过交叉验证评估;所述交叉验证优选自简单交叉验证、k折交叉验证或留一交叉验证,例如为留一交叉验证。

留一交叉验证的优点是每次迭代中都使用了最大可能数目的样本来训练,所以该方法具有确定性。利用这种最大可能的交叉验证次数,可能会得到更精确的分类器。

在本发明一较佳实施方案中,所述的随机森林分类器的决策树数目为1000(ntree=1000),每棵树每个节点预选的特征变量数量是矩阵列数的二次开根值减一,种子设定为2019613。

所述的随机森林分类器和交叉验证通过R语言完成。

在本发明一较佳实施方案中,所述相对丰度的信息是基于α多样性和β多样性评估的细菌类群在不同分类水平上的丰度差异。

较佳地,所述α多样性的评估方法为t检验,优选为Student's t检验;所述β多样性评估方法包括:基于Bray-Curtis距离的属丰度非参数置换多变量方差分析(PERMANOVA)以及主坐标分析(PCoA)。

所述的非参数置换多变量方差分析优选评估疾病情况、性别、年龄等预测因子下的样品聚类情况;例如使用vegan 2.5-4package进行。

所述的主坐标分析(PCoA)使样品聚类情况可视化。

所述的α多样性的计算方法包括:香农(Shannon)指数和/或物种丰富度。

在本发明一更佳实施方案中,所述方法还包括预处理步骤:对已知样本的DNA进行提取、文库构建和测序,得到已知样本的DNA的宏基因组原始读数并除噪;

其中,所述除噪是指:对所述宏基因组原始读数进行质检,并修剪低质量序列,得到已知样本的DNA的微生物DNA的宏基因组读数。

所述质检通过二代测序质控软件实现;优选为FastQC、SolexaQA或PRINSEQ;例如为FastQC。

所述修剪低质量序列通过宏基因组测序质控软件实现;优选为KneadData。

所述KneadData的参数设置为:“SLIDINGWINDOW:4:20MINLEN:50”;所述删除不需要的人类DNA读数的参数为“--very-sensitive--dovetail”。

所述除噪还包括:在修剪低质量序列后删除不需要的人类DNA读数;所述删除不需要的人类DNA读数的参数为“--very-sensitive--dovetail”。

本发明的第六方面提供一种计算机可读存储介质,所述的计算机可读介质存储有计算机程序,所述计算机程序被处理器执行时实现如第四方面所述的辅助诊断模型的功能。

在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。

本发明的积极进步效果在于:

本发明的模型可以基于选取的肠道菌群诊断标志物提供高准确率、无创的帕金森病辅助诊断,准确率可达80.3%。如果患者能够在确诊的同时大致知道自身的肠道构成,可对后期的治疗起到较大的作用。

附图说明

图1为实施例1的α多样性和β多样性分析;

其中:(a)为属水平上PD组和SP组的物种丰富度,(b)为属水平上PD组和SP组的香农指数,(c)为物种水平上PD组和SP组的物种丰富度,(d)为物种水平上PD组和SP组的香农指数,(e)为样本间Bray-Curtis距离的PCoA分析;

图2为PD组和SP组的丰度差异属。

图3为PD组和SP组的丰度差异种。

图4为PD组和SP组的肠道微生物组差异菌群进化分支图。

图5为通过随机森林分类器MDA确定的用于诊断模型的特征菌的最重要的前10个属。

图6为通过随机森林分类器MDA确定的用于诊断模型的特征菌的最重要的前20个属。

图7为预测患者队列中PD发生的ROC曲线。

具体实施方式

下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。下列实施例中未注明具体条件的实验方法,按照常规方法和条件,或按照商品说明书选择。

实施例1

本实施例包括以下步骤:

一、选择患者队列

本实施例为横截面研究,78名受试者全部从湖北省襄阳市招募。为减少饮食作息等因素的潜在影响,受试者均为夫妻,即其中一方为帕金森病患者(PD组),另一方则为对照(SP组)。

PD的诊断标准参照2015年MDS(国际运动障碍学会)中PD诊断标准。诊断的首要核心标准是明确患者是否为帕金森综合征,若患者出现运动迟缓,并且合并静止性震颤和/或肌肉僵直,则认为该患者患有帕金森综合征。一旦明确诊断患者为帕金森综合征,需按照支持标准、排除标准及警示征象进行诊断,确定为临床很可能PD患者。

PD组的排除标准是:

(1)排除近三个月服用或输注抗生素或益生菌;

(2)排除严重的胃肠道疾病;

(3)排除明显的精神疾病;

(4)排除血小板偏低80*109/L;

(5)排除凝血酶原时间(PT)>15s;

(6)排除任何脏器的出血病史。

在粪便收集之前没有要求详细的饮食计划,并且样品为当天的第一次排便。

二、粪便DNA的提取、DNA文库构建及测序

根据MetaHIT提供的方案提取粪便DNA,通过Qubit(Invitrogen)检测DNA浓度,依据制造商(MGI,China)的说明书构建DNA文库。即,使用500ng DNA构建样品插入大小为350bp的配对末端文库,使用BGISEQ-500测序仪采用PE100模式进行测序。78个粪便样本获得了总共1761.8GB原始测序数据。

三、宏基因组读数除噪及分类分析

依据Microbiome Helper的SOP(https://github.com/LangilleLab/microbiome_helper/wiki/Metagenomics-Tutorial-Humann2)来处理鸟枪宏基因组数据。FastQC工具用于检查宏基因组原始读数的质量,kneadData用于修剪低质量序列(参数:“SLIDINGWINDOW:4:20MINLEN:50”)并且删除不需要的人类基因组(HG19)读数(参数:--very-sensitive--dovetail)。

经过KneadData软件修剪和过滤后,总共获得了超过4.05×109的100bp高质量末端配对(paired-end)数据量,其中人类reads总数为4.52×107,占比1.12%。去掉宿主污染后PD组每个样本的平均reads数为5.31×107±1.58×107,SP组为4.95×107±2.26×107(Student's t-test,P=0.41)。PD组的宿主平均reads数为6.07×105±1.01×106,SP组为5.53×105±1.71×106(Student's t-test,P=0.87)。

软件MetaPhlAn2使用独特的进化枝特异性标记来检测微生物组样本中存在的分类学进化枝并估计它们的相对丰度。处理后的读数使用MetaPhlAn2软件的默认参数进行分类学表征和丰度估计。

受检样本大部分读数映射到细菌界,PD组和SP组分别为98.61±5.45%和99.87±0.41%(Mann-Whitney U test,P=0.67),较小的比例与病毒界相对应,PD组中为1.36±5.42%,SP组中为0.13±0.41%(Mann-Whitney U test,P=0.89)。

通过香农指数和物种丰富度估算α多样性。Student's t检验用于评估α多样性。

本实施例分别在属和物种水平上分析了微生物组的物种丰富度和香农指数。PD组的属丰富度显著高于SP组(53.15±7.69vs.48.56±7.29,Student's t-test,P=0.004)(图1a)。PD组的Shannon指数显著高于SP组(2.08±0.38vs.1.76±0.42,Student's t-test,P=0.0002)(图1b)。在较低的分类单元水平上也观察到了类似的趋势。PD组的物种丰富度(115.69±21.07vs.106.26±17.43,Student's t-test,P=0.017)(图1c)和香农指数(2.77±0.53vs.2.54±0.51,Student's t-test,P=0.028)(图1d)显著高于SP组。结果显示,PD患者的肠道微生物组多样性显著高于健康人。因此,在本实施例中更高的肠道微生物组丰富度和香农指数可能并不是健康的肠道微生物组的标志。

β多样性评估基于Bray-Curtis距离矩阵,对所有样品的属丰度进行非参数置换多变量方差分析(PERMANOVA),评估疾病情况、性别、年龄等预测因子下的样品聚类情况,及其与肠道微生物组成的关系,最后使用主坐标分析(PCoA)图进一步可视化,以评估两组之间微生物群落的总体差异。

PERMANOVA使用vegan 2.5-4 package。

本实施例中疾病状态与组间肠道微生物的变化有关,年龄和性别的影响则相对独立。PCoA图揭示了健康对照与PD群体一定程度上的分离。前两个主要坐标的解释度分别是41.63%和13.81%(图1e)。

通过线性判别分析(LDA)效应大小方法(Lefse)鉴定PD组和SP组组间类群的丰度差异。

只有P<0.05(Kruksal-Wallis检验)并且LDA评分>2的细菌分类群才被认为是显著富集。

根据分析,样本中肠道微生物组主要由3个门组成,包括Bacteroidetes(PD为54.79±16.42%,SP为61.49±12.88%,Mann-Whitney U-test,P=0.09),Firmicutes(PD为28.90±14.76%,SP为30.34±13.17%,Mann-Whitney U-test,P=0.47)和Proteobacteria(PD为12.34±17.36%,SP为7.04±6.82%,Mann-Whitney U-test,P=0.43)。值得注意的是Actinobacteria(PD为1.54±2.11%,SP为0.56±0.77%,Mann-Whitney U-test,P=0.01)和Synergistetes(PD为2.52±7.26%,SP为0.33±1.12%,Mann-Whitney U-test,P=0.01)存在显著差异,PD组的丰度显著增加。这些结果表明,在高分类水平下,PD和SP组的肠道微生物组存在显著差异。当然这也意味着在较低的分类水平上可能发生相应变化。

如图2-图4所示,本实施例总共鉴定出71个细菌分类群在两组之间存在丰度差异。Lefse算法揭示了1个门、2个纲、3个目、7个科、14个属和44个物种间存在差异。在属和种水平上的富集分别在图2和图3中得到证明。如图4所示,在PD组中,观察到p_Actinobacteria、c_Actinobacteria、o_Bifidobacteriales、f_Bifidobacteriaceae和g_Scardovia在同一进化枝的不同的分类级别富集。另外,c_Deltaproteobacteria、o_Desulfovibrionales、f_Desulfovibrionaceae、g_Desulfovibrio和g_Bilophila这些分类群在不同的分类水平上也表现出一致地富集。在SP组中,f_Bacteroidaceae和g_Bacteroides共享同一进化枝并且表现富集趋势,并显示出相似的富集趋势。

四、疾病辅助诊断模型构建

为了确定粪便细菌特征用于宏基因组样本的疾病分类,本研究使用随机森林(RF)分类器和留一交叉验证法(leave-one-out cross-validation)评估准确性,即选择一部分样本作为验证集,另外一部分样本作为训练集以确定随机森林的参数并对验证样本的正确预测概率进行计算。

基于78名受试者的肠道微生物菌群属的相对丰度构建预测模型。设置RF中决策树数目为1000(ntree=1000),每棵树每个节点预选的特征变量数量是矩阵列数的二次开根值减一,种子设定为2019613。通过分析Mean Decrease Accuracy(MDA,平均准确度下降)确定最具有分类能力的变量,最终建立随机森林分类器。

建立ROC曲线并计算ROC曲线下面积(area under curve,AUC)用于评估新标准对疾病预测的准确性。

本实施例利用随机森林算法对样本根据疾病状况进行分类并建立诊断模型。随机森林算法模型的优点之一是它可以估计每个特征的重要性以及在分类过程中识别最重要的特征。如图5和图6所示,基于MDA,随机森林分类器中最重要的10个属包括Scardovia、Ruminococcaceae noname、Bilophila、Bacteroides、Gemella、Alistipes、Oxalobacter、Solobacterium、Bifidobacterium和Clostridiales noname;最重要的前20个属还包括Roseburia、Anaerostipes、Parasutterella、Megamonas、Klebsiella、Butyricimonas、Collinsella、Shigella、Subdoligranulum和Flavonifractor。将其分别作为特征菌群进行验证。为了改善随机森林分类器的结果,使用了前10个MDA特征和前20个MDA特征构建模型。

本实施例使用ROC曲线和曲线下面积AUC来评估RF二元分类器的性能。如图7所示,纵坐标为灵敏度,横坐标为特异性;使用所有属,能够将PD与SP区分,其中AUC为0.663,而使用LefSe方法得到的变量的AUC仅有76.0%,使用前10个MDA特征的AUC为0.795,使用前20个MDA特征的AUC为0.803,诊断准确性进一步提高。

上述工作流程在R中完成(4.6-14,randomForest package)。

18页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种降纤酶的效价测定设备及其测定方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!