一种鉴定拟南芥子叶细胞类型的系统和检测方法
阅读说明:本技术 一种鉴定拟南芥子叶细胞类型的系统和检测方法 (System and detection method for identifying arabidopsis thaliana cotyledon cell type ) 是由 孙旭武 肖云平 刘祉辛 殷昊 陆瑶 巴永兵 于 2020-12-01 设计创作,主要内容包括:本发明涉及一种基于单细胞测序鉴定拟南芥子叶细胞类型的系统和检测方法,与手工鉴定相比,仅需输入待鉴定的数据,即可快速得到拟南芥子叶中代表气孔发育不同阶段的细胞类型。1万个细胞左右可以在约10分钟内鉴定完成,极大地降低了人工成本,确保了注释精度。(The invention relates to a system and a detection method for identifying the cell type of an arabidopsis cotyledon based on single cell sequencing. About 1 ten thousand cells can be identified in about 10 minutes, so that the labor cost is greatly reduced, and the annotation precision is ensured.)
技术领域
本发明属于转录组测序技术领域,具体涉及基于单细胞转录组测序数据,鉴定拟南芥子叶细胞类型的系统和检测方法。
背景技术
在高通量单细胞转录组测序分析领域,细胞类型鉴定是至关重要的一个环节,通过细胞类型鉴定分析,能够有效揭示复杂细胞群体的异质性,构建细胞图谱。目前细胞类型鉴定有两种方法,一是基于特定Marker基因人为鉴定(marker-based),二是基于单细胞参考数据集鉴定。使用前者marker基因(marker-based)人工鉴定的方法意味着研究人员必须查阅大量文献资料去收集marker,耗时耗力,并且很多细胞类型无法通过少数几个marker很好地区分细胞类型或者亚型。例如《Reference-based analysis of lung single-cellsequencing reveals a transitional profibrotic macrophage》一文中,使用CD27基因无法精确判断naive B cell和memory B cell,以及在T细胞亚型中,很多情况下marker基因只有表达量高低差异,无法通过少量marker的表达与否判断细胞类型。但是,基于singleR数据集鉴定的方法则可以很好地区分出细胞亚型。
对于拟南芥子叶样本,目前没有直接可用的参考数据集来自动化快速匹配鉴定细胞类型,仅靠marker基因手工鉴定耗时耗力,自动化程度低,且对于相近细胞类型鉴定的精确度不高。因此,亟需构建一种适用于拟南芥子叶细胞类型鉴定的单细胞参考数据集,并建立一套自动化鉴定其细胞类型的计算机程序。
发明内容
基于上述问题,本发明的目的在于克服上述现有技术的不足,提供一种基于单细胞转录组测序数据对拟南芥子叶进行快速、客观鉴定细胞类型的分析方法。
本发明提供了一种基于单细胞测序鉴定拟南芥子叶细胞类型的系统,其特征在于该系统包括:细胞测序平台、细胞类型的数据库平台、数据分析和处理平台。
如上所述细胞测序平台为单细胞转录组测序平台,通过单细胞转录组测序技术(scRNA-seq),获得细胞的基因数据。
如上所述细胞类型的数据库平台是以叶肉细胞(MPC)、拟分生母细胞(MMC)、早期分生组织细胞(EM)、晚期分生组织细胞(LM)、保卫母细胞(GMC)、年轻保卫细胞(YGC)、保卫细胞(GC)、扁平细胞(PC)的Marker基因为基础,构建拟南芥参考数据平台,其中各细胞的Marker基因如下:
叶肉细胞(MPC):RBCS、LHCB
拟分生母细胞(MMC):HDG2、POLAR、SPCH、TMM、MUTE、EPF2
早期分生组织细胞(EM):MUTE、BASL、SPCH、EPF2
晚期分生组织细胞(LM):BASL、MUTE、EPF1
保卫母细胞(GMC):EPF1、HIC、FAMA、SCRM
年轻保卫细胞(YGC):RBCS、FAMA、EPF1
保卫细胞(GC):RBCS、FAMA、SCRM、以及TMM基因的低表达
扁平细胞(PC):IQD5、RBCS。
如上所述细胞类型的数据库平台的建立方法如下:
通过单细胞转录组测序技术(scRNA-seq),收集多个Marker基因来鉴定代表气孔发育不同阶段的细胞类型,具体细胞和Marker基因如下所示:
叶肉细胞(MPC):RBCS、LHCB
拟分生母细胞(MMC):HDG2、POLAR、SPCH、TMM、MUTE、EPF2
早期分生组织细胞(EM):MUTE、BASL、SPCH、EPF2
早期分生组织细胞(LM):BASL、MUTE、EPF1
保卫母细胞(GMC):EPF1、HIC、FAMA、SCRM
年轻保卫细胞(YGC):RBCS、FAMA、EPF1
保卫细胞(GC):RBCS、FAMA、SCRM、以及TMM基因的低表达
扁平细胞(PC):IQD5、RBCS;
构建适用于拟南芥子叶细胞类型鉴定的数据库平台(单细胞参考数据集)。
如上所述构建适用于拟南芥子叶细胞类型鉴定的数据库平台(单细胞参考数据集)的步骤为:
使用FeaturePlot()和VlnPlot()函数对相关marker绘制在单个细胞中的表达量图;
使用pheatmap()函数对相关marker绘制在单个细胞中的基因表达聚类热图;
基于上述表达量图以及基因表达聚类热图,判断出拟南芥子叶的细胞类型组成,获得拟南芥子叶各细胞类型对应的单细胞表达谱,构建细胞类型鉴定参考数据集。
如上所述数据分析和处理平台是以SingleR()函数鉴定细胞类型,绘制细胞类型鉴定相关性热图,统计占比最多的细胞类型,输出结果及绘图。
优选的,数据分析和处理的步骤为:
基于构建得到细胞类型鉴定参考数据集,使用SingleR包通过比较每组待测数据中显著上调表达的基因在参考数据集中的排名,从而匹配出相应的细胞类型,用于后续高通量单细胞转录组测序中拟南芥子叶细胞类型的快速判断,具体操作步骤如下:
导入待测数据;
加载已构建好的适用于拟南芥子叶细胞类型鉴定的数据库平台(单细胞参考数据集);
使用SingleR()函数鉴定细胞类型;
绘制细胞类型鉴定相关性热图;
统计占比最多的细胞类型;
输出结果及绘图。
本发明还提供了一种基于单细胞测序鉴定拟南芥子叶细胞类型的检测方法,其特征在于:
以基于单细胞测序鉴定拟南芥子叶细胞类型的系统为基础,该系统包括:细胞测序平台、细胞类型的数据库平台、数据分析和处理平台;
所述细胞测序平台为单细胞转录组测序平台,通过单细胞转录组测序技术(scRNA-seq),获得细胞的基因数据;
所述细胞类型的数据库平台是以叶肉细胞(MPC)、拟分生母细胞(MMC)、早期分生组织细胞(EM)、晚期分生组织细胞(LM)、保卫母细胞(GMC)、年轻保卫细胞(YGC)、保卫细胞(GC)、扁平细胞(PC)的Marker基因为基础,构建拟南芥参考数据平台,其中各细胞的Marker基因如下:
叶肉细胞(MPC):RBCS、LHCB
拟分生母细胞(MMC):HDG2、POLAR、SPCH、TMM、MUTE、EPF2
早期分生组织细胞(EM):MUTE、BASL、SPCH、EPF2
晚期分生组织细胞(LM):BASL、MUTE、EPF1
保卫母细胞(GMC):EPF1、HIC、FAMA、SCRM
年轻保卫细胞(YGC):RBCS、FAMA、EPF1
保卫细胞(GC):RBCS、FAMA、SCRM、以及TMM基因的低表达
扁平细胞(PC):IQD5、RBCS;
所述数据分析和处理平台是以SingleR()函数鉴定细胞类型,绘制细胞类型鉴定相关性热图,统计占比最多的细胞类型,输出结果及绘图。
如上所述细胞类型的数据库平台的建立方法如下:
通过单细胞转录组测序技术(scRNA-seq),收集多个Marker基因来鉴定代表气孔发育不同阶段的细胞类型,构建适用于拟南芥子叶细胞类型鉴定的数据库平台(单细胞参考数据集)。
如上所述构建适用于拟南芥子叶细胞类型鉴定的数据库平台(单细胞参考数据集)的步骤为:
使用FeaturePlot()和VlnPlot()函数对相关marker绘制在单个细胞中的表达量图;
使用pheatmap()函数对相关marker绘制在单个细胞中的基因表达聚类热图;
基于上述表达量图以及基因表达聚类热图,判断出拟南芥子叶的细胞类型组成,获得拟南芥子叶各细胞类型对应的单细胞表达谱,构建细胞类型鉴定参考数据集。
更进一步的详细说明本发明的技术方案:
本发明提供的方法通过单细胞转录组测序技术(scRNA-seq),收集已有相关文献中的多个Marker基因来鉴定代表气孔发育不同阶段的细胞类型,构建了适用于拟南芥子叶细胞类型鉴定的单细胞参考数据集,并建立一套自动化鉴定的计算机程序。具体包括如下步骤:
1、使用Seurat包(v3.0.0)中的FeaturePlot()和VlnPlot()函数对相关marker绘制在单个细胞中的表达量图。
叶肉细胞(MPC):RBCS、LHCB
拟分生母细胞(MMC):HDG2、POLAR、SPCH、TMM、MUTE、EPF2
早期分生组织细胞(EM):MUTE、BASL、SPCH、EPF2
早期分生组织细胞(LM):BASL、MUTE、EPF1
保卫母细胞(GMC):EPF1、HIC、FAMA、SCRM
年轻保卫细胞(YGC):RBCS、FAMA、EPF1
保卫细胞(GC):RBCS、FAMA、SCRM、以及TMM基因的低表达
扁平细胞(PC):IQD5、RBCS
2、使用pheatmap包中的pheatmap()函数对相关marker绘制在单个细胞中的基因表达聚类热图。
library(pheatmap)
pdf("heatmap.pdf")
pheatmap(topn_markers2vis,cluster_rows=T,cluster_cols=T,show_rownames=T)
dev.off()
3、基于上述表达量图以及基因表达聚类热图等,判断出拟南芥子叶的细胞类型组成,获得拟南芥子叶各细胞类型对应的单细胞表达谱,构建细胞类型鉴定参考数据集。
library(SingleR)
library(Seurat)
library(scater)
library(dplyr)
ref_ob=readRDS("celltype.rds")
ref.m=GetAssayData(ref_ob,assay="RNA",slot="counts")
cell_metadata=[email protected]%>%select("celltype")
ref.sce=SingleCellExperiment(assays=list(counts=ref.m),colData=cell_metadata)
ref.sce=logNormCounts(ref.sce)
saveRDS(ref.sce,"reference.rds")
4、基于构建得到细胞类型鉴定参考数据集,使用SingleR包通过比较每组待测数据中显著上调表达的基因在参考数据集中的排名,从而匹配出相应的细胞类型,用于后续高通量单细胞转录组测序中拟南芥子叶细胞类型的快速判断。
综上所述,本发明的有益效果为:基于单细胞转录组测序数据,采用本发明的参考数据集和自动化鉴定流程,可以快速完成针对拟南芥子叶细胞类型的注释,1万个细胞左右可以在约10分钟内鉴定完成。本发明的优势不在于创新性地使用了singleR,而是利用singleR第一次构建了拟南芥子叶细胞类型的参考数据集,可以供后续的研究者快速鉴定单细胞测序结果中的拟南芥子叶细胞类型。
附图说明
图1为Maker基因的表达量小提琴图,横坐标为细胞群编号,纵坐标为标准化后的基因表达值;
图2为Maker基因的表达量featureplot;
图3为单细胞测序中拟南芥子叶细胞类型自动化鉴定流程示意图;
图4为使用本自动化程序鉴定得到的细胞类型结果。
具体实施方式
结合以下具体实施例和附图,对发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
实施例1,手工鉴定
首先通过查阅大量文献资料收集Marker基因,绘制基因的表达聚类热图以及在单个细胞中的表达量图(FeaturePlot),从而手动鉴定出拟南芥子叶中代表气孔发育不同阶段的细胞类型,具体使用的Marker基因如下:
叶肉细胞(MPC):RBCS、LHCB
拟分生母细胞(MMC):HDG2、POLAR、SPCH、TMM、MUTE、EPF2
早期分生组织细胞(EM):MUTE、BASL、SPCH、EPF2
晚期分生组织细胞(LM):BASL、MUTE、EPF1
保卫母细胞(GMC):EPF1、HIC、FAMA、SCRM
年轻保卫细胞(YGC):RBCS、FAMA、EPF1
保卫细胞(GC):RBCS、FAMA、SCRM、以及TMM基因的低表达
扁平细胞(PC):IQD5、RBCS
绘制基因在单个细胞中的表达量图,使用代码如下:
实施例2,基于singleR参考数据集的鉴定方法
基于上述鉴定到的拟南芥子叶细胞类型,根据其表达谱构建得到每种细胞类型的参考数据集,用于高通量单细胞转录组测序中拟南芥子叶细胞类型的快速判断,具体操作步骤如下:
步骤1、导入待测数据;
seurat_ob=readRDS("seurat_ob.rds")
query.m=GetAssayData(seurat_ob,assay="RNA",slot="counts")
query.sce=SingleCellExperiment(assays=list(counts=query.m))
query.sce=logNormCounts(query.sce)
步骤2、加载已构建好的拟南芥参考数据集;
ref.sce=readRDS("reference.rds")
步骤3、使用SingleR()函数鉴定细胞类型;
pred=SingleR(query.sce,ref.sce,labels=factor(ref.sce$celltype),BPPARAM=
MulticoreParam(workers=10))
saveRDS(pred,"singleR.rds")
步骤4、绘制细胞类型鉴定相关性热图;
步骤5、统计各cluster中占比最多的细胞类型;
seurat_ob=SetIdent(seurat_ob,value="clusters")
top_celltype=main_celltyping_stat%>%group_by(clusters)%>%top_n(1,cell_num)
write.table(top_celltype,quote=F,"top_celltyping_statistics.xls",sep="\t",row.names=F)
步骤6、输出各cluster注释结果及绘图。
from.id=as.vector(top_celltype$clusters)
to.id=as.vector(top_celltype$raw_celltype)
seurat_ob=SetIdent(seurat_ob,value=
plyr::mapvalues(x=Idents(seurat_ob),from=from.id,to=to.id))
seurat_ob=StashIdent(seurat_ob,save.name="celltype")
ggtsne2=DimPlot(object=seurat_ob,reduction="tsne",pt.size=1)+theme(plot.title=
element_text(hjust=0.5))
ggsave("celltyping.pdf",plot=ggtsne2)
结果及分析:
SCRM基因是保卫母细胞(GMC)的Marker基因之一,通过绘制基因在单个细胞中的表达量小提琴图和FeaturePlot(图1、图2),可以看到该基因在第6群和第11群均有表达,只是表达量的高低有所差异,因此,仅靠少量Marker的表达与否,对于判断相似细胞群体类型的精确度不高,需要查阅大量文献资料寻找更多的Marker基因来手工鉴定,耗时耗力。
使用本发明构建的参考数据集和自动化程序,仅需输入待鉴定的数据(流程示意图见图3),即可快速得到拟南芥子叶中代表气孔发育不同阶段的细胞类型(图4)。1万个细胞左右可以在约10分钟内鉴定完成,极大地降低了人工成本,且很好地区分出了两种相似细胞类型:保卫母细胞(GMC)和年轻保卫细胞(YGC)(即第6群和第11群细胞),确保了注释精度。
以上描述是本发明的一般性描述。根据情况或实际需要,可进行形式的变化和等值的替代,虽然本文采用特定的术语,但这些术语意在描述,而不是为了限制的目的。本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围之内。