一种基于人肠道菌群的自动化分型方法

文档序号:1364335 发布日期:2020-08-11 浏览:23次 >En<

阅读说明:本技术 一种基于人肠道菌群的自动化分型方法 (Automatic typing method based on human intestinal flora ) 是由 王树伟 肖云平 史贤俊 林博 张建明 于 2020-04-20 设计创作,主要内容包括:本发明公开了一种基于人肠道菌群的自动化分型方法,采用LEfSe方式对聚类结果分组进行Biomarker筛选,然后确定具体肠型,结果全面,包含涉及到的聚类图、Biomarker筛选、肠型boxplot图展示,可自动整理所有分析结果,每一步分析完成之后自动对结果进行汇总统计,可视化,而且,所有操作步骤可以溯源,方便错误查询,如果分析报错,会有对应的报错日志信息。(The invention discloses an automatic typing method based on human intestinal flora, which is characterized in that a LefSe mode is adopted to group clustering results for Biomarker screening, then a specific intestinal type is determined, the results are comprehensive, the clustering chart, the Biomarker screening and the intestinal type boxplot display are included, all analysis results can be automatically sorted, the results are automatically gathered and counted and visualized after each step of analysis is completed, all operation steps can be traced, error inquiry is facilitated, and if the analysis is carried out in an error report, corresponding error report log information exists.)

一种基于人肠道菌群的自动化分型方法

技术领域

本发明涉及高通量微生物测序领域,具体涉及一种基于人肠道菌群的自动化分型方法。

背景技术

2011年一家欧洲的科研机构利用一个细菌基因的差异性对22名欧洲人肠道微生物的组成情况进行了分析,鉴别出了每个人之间以及同一个人体内微生物生态组不同的组成情况。并且,他们还将这些欧洲人的微生物生态组组成模式和早前发现的日本人和美国人的微生物生态组组成模式进行了比对。结果却发现这些微生物生态组并不是随机组合而成的,微生物生态组在所有这些受检人群中大致可以分为三种类型,又称作肠道型(Enterotype),科学家们将它们具体分为拟杆菌型(Bacteroides)、普氏菌型(Prevotella)和瘤胃球菌型(Ruminococcus),意指它们分别含有较多的拟杆菌、普氏菌或瘤胃球菌。对更大规模的人群(154名美国人和85名丹麦人)进行调查也得到了同样的结论,他们同样可以分为这三种类型,这说明其实在我们人体的肠道内真正存活得非常好的微生物生态组可能数量并不太多。

2011年4月,MetaHIT联盟发表了在人体肠道微生物群中发现肠型(Arumugam,Raes等,2011)。相关研究的数据是公开的,在文章的补充信息中解释了计算过程背后的理论。然而,附录中并没有报道(在R环境中)能够让任何人复制文章中所有数据的确切命令集和具体的肠型鉴定方法及完整的可视化展示。

现有肠型鉴定存在如下缺陷:

(1)肠型鉴定不明确:每个聚类结果的肠型鉴定方法不明确;

(2)结果展示不完整:分析结果过于简单,数据挖掘得不够深入,缺少数据对应的可视化展示内容。

发明内容

为了克服现有技术所存在的缺陷,本发明的目的在于提供一种基于人肠道菌群的自动化分型方法。

为了实现上述目的,本发明所采用的方案是:

一种基于人肠道菌群的自动化分型方法,包括如下步骤:

1)准备所有样品的属水平物种相对丰度表;

2)通过环绕中心点分割算法(PAM)进行分区,对丰度分布进行聚类,并使用Calinski-Harabasz(CH/卡林斯基-哈拉巴斯)指数筛选最佳聚类个数;

3)通过轮廓验证技术对聚类效果进行验证;

4)根据最佳聚类个数进行BCA类间分析;

5)通过LEfSe分析筛选出每组中对差异贡献最大的物种作为每个组的肠型,

并绘制boxplot图。

优选地,步骤2)中,Calinski-Harabasz指数定义为:

其中Bk是聚类间平方和,Wk是聚类内平方和,选择使CKk值最大的k簇的数目。

优选地,步骤3)中,各数据点i的轮廓宽度S(i)由下式计算:

其中a(i)是样本i与同一簇中所有其他样本的平均差值(或距离),b(i)是样品i与最近簇中所有对象的平均差值(或距离),

公式表示-1=<S(i)=<1,一个离自己聚类簇更近的样本比具有较高的S(i)值,而S(i)接近0意味着给定的样本位于两个集群之间,大的负S(i)值表明样本被分配到错误的聚类簇。

优选地,步骤4)中,使用R和ade4包装进行BCA类间分析。

优选地,步骤5)中,通过秩和检验的方法检测不同分组间的差异功能并通过LDA(线性判别分析)实现降维并评估差异物种的影响大小,得到LDA score。

优选地,步骤5)中,肠型命名为G加数字形式。

优选地,步骤5)中,采用LEfSe分析流程,找出不同聚类间显著性的Biomarker。

优选地,步骤5)中,采用R语言的ggplot2软件包绘制boxplot图。

本发明的有益效果在于:

(一)采用LEfSe方式对聚类结果进行Biomarker筛选,然后确定具体肠型。

(二)结果全面,包含涉及到的聚类图、Biomarker筛选、肠型boxplot图展示。

(三)自动整理所有分析结果,每一步分析完成之后自动对结果进行汇总统计,可视化。

附图说明

图1为本发明的流程示意图。

图2为本发明的最佳聚类个数选取图。

图3为本发明的类间分析聚类图。

图4为本发明的带样品名的类间分析聚类图。

图5为本发明的Biomarker柱状图。

图6本发明的肠型boxplot图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清晰,下面将结合附图,对本发明实施例中的技术方案进行清晰、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护范围。另外,本发明提供的各个实施例或单个实施例中的技术特征可以相互任意结合,以形成可行的技术方案,但必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

本发明提供了一种基于人肠道菌群的自动化分型方法,参见图1所示,该方法包括如下步骤:

1、文件准备步骤:

根据高通量测序获取不同人群样品的属水平物种相对丰度表。

2、最佳聚类数选取步骤:

本发明使用环绕中心点分割算法(PAM)进行分区,对丰度分布进行聚类。PAM来源于基本的k-means算法,但是它的优点是支持任意的距离测量,并且比k-means更直接。它是一个有监督的过程,其中预先确定的聚类数量作为该过程的输入,然后该过程将数据划分为多个聚类。

为了评估最优的聚类数量,本发明使用了Calinski-Harabasz(CH/卡林斯基-哈拉巴斯)指数,该指数揭示了恢复聚类数量的良好性能。定义为:

其中Bk是聚类间平方和(即所有点之间的距离平方i和j并不在同一个聚类),Wk是聚类内平方和(即所有点之间的距离平方i和j同一个聚类)。这个度量实现了这样一种思想:当聚类之间的距离远远大于聚类内部的距离时,聚类效果越好。因此,我们选择了使CKk值最大的k簇的数目。

3、聚类效果验证步骤:

聚类验证方法对于评估与底层数据点相关的聚类质量非常有用。这里本发明使用轮廓验证技术。各数据点i的轮廓宽度S(i)由下式计算:

其中a(i)是样本i与同一簇中所有其他样本的平均差值(或距离),b(i)是样品i与最近簇中所有对象的平均差值(或距离)。

公式表示-1=<S(i)=<1。一个离自己聚类簇更近的样本比具有较高的S(i)值,而S(i)接近0意味着给定的样本位于两个集群之间。大的负S(i)值表明样本被分配到错误的聚类簇。

4、类间分析(BCA)步骤:

进行类间分析(BCA)以支持聚类,并确定肠道类型的驱动因素。使用R和ade4包装进行分析。在此分析之前,在Illumina数据集中,如果所有样本的平均丰度都低于0.01%,则去除极低丰度的属以降低噪声。类间分析是主成分分析的一个特例,其中有一个工具变量,这个变量是一个定性因素(即肠型簇)。类间分析使我们能够首先找到主成分。

5、聚类间LEfSe分析步骤:

为了筛选聚类间具有显著差异的功能Biomarker,首先通过秩和检验的方法检测不同分组间的差异功能并通过LDA(线性判别分析)实现降维并评估差异物种的影响大小,即得到LDA score。

6、肠型boxplot图展示步骤:

通过LEfSe分析,选取每组中对差异贡献最大的物种作为每个组的肠型,并绘制boxplot图。

实施例

为了展示本发明请求保护的技术方案的实用性,下面以不同国家人体肠道细菌宏基因组数据上的应用为例,对本发明的实际应用进行进一步地说明,需要注意的是,该实施例仅仅为了更加清晰的体现本发明技术方案的精神实质,并不代表本发明技术方案的限制,所有符合本发明精神实质的技术方案,均在本专利的保护范围之内。

以不同国家人体肠道细菌宏基因组数据上的应用为例:

下载得到包含33个样本初始数据集,下载地址:https://enterotype.embl.de/MetaHIT_SangerSamples.genus.txt。该数据集包含不同国家及地域人体肠道微生物属水平丰度表。

使用环绕中心点分割算法(PAM)进行分区,对丰度分布进行聚类并使用Calinski-Harabasz(CH/卡林斯基-哈拉巴斯)指数来筛选最佳聚类个数,参见图2。

根据轮廓验证技术对最佳聚类进行验证,根据最佳聚类个数进行类间分析(BCA分析),参见图3、4。

通过LEfSe分析筛选出聚类间的Biomarker作为其肠型,参见图5;最后绘制肠型boxplot图,参见图6。

本发明的一个优选实施例中,聚类间差异LEfSe分析步骤及肠型boxplot图分析步骤中肠型命名为G加数字形式。

本发明的一个优选实施例中,所述聚类间差异LEfSe分析步骤中,采用的是LEfSe分析流程,找出不同聚类间显著性的Biomarker。

本发明的一个优选实施例中,类间分析(BCA)步骤和肠型boxplot图分析步骤中,采用R语言的ggplot2软件包绘制图像。

另外,需要说明的是,本发明各个实施例的步骤可以进行整合,可在linux系统中只通过一条命令实现。脚本使用shell语言串联,算法及画图主要用到R包ade4及ggplot2。

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于数值模拟的UV-PAA耦合反应器设计优化方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!