基于2d嵌入的半监督单细胞聚类方法、装置、计算机设备
阅读说明:本技术 基于2d嵌入的半监督单细胞聚类方法、装置、计算机设备 (Semi-supervised single cell clustering method and device based on 2D embedding and computer equipment ) 是由 李君一 石乃乐 杜林林 刘博� 王亚东 于 2021-07-26 设计创作,主要内容包括:本发明公开了一种基于2D嵌入的半监督单细胞聚类方法、装置、计算机设备。其中,所述方法包括:对每个细胞进行数据预处理,和将该经对数据预处理后的每个细胞的基因表达数据都使用2D嵌入的方式,生成一张张合成图像形成图像集,和将该图像集输入到自编码器模型中进行预训练和聚类,和基于该将该图像集输入到自编码器模型中进行预训练和聚类后的聚类结果,构建网络,并运用社区发现算法对该构建网络中的图像集数据进行分类,以及采用将基于卷积神经网络模型来配置的半监督神经网络,对该经分类后的图像集中的所有细胞图像数据进行特征提取,并对该提取的特征进行聚类。通过上述方式,能够实现提高在单细胞数据上进行聚类时的聚类效果。(The invention discloses a semi-supervised single cell clustering method based on 2D embedding, a device and computer equipment. Wherein the method comprises the following steps: the method comprises the steps of preprocessing data of each cell, generating a composite image by using a 2D embedding mode for gene expression data of each cell after data preprocessing, inputting the image set into a self-encoder model for pre-training and clustering, constructing a network based on a clustering result obtained by inputting the image set into the self-encoder model for pre-training and clustering, classifying image set data in the constructed network by using a community discovery algorithm, extracting features of all cell image data in the classified image set by using a semi-supervised neural network configured based on a convolutional neural network model, and clustering the extracted features. By the method, the clustering effect during clustering on the single cell data can be improved.)
技术领域
本发明涉及细胞聚类技术领域,尤其涉及一种基于2D嵌入的半监督单细胞聚类方法、装置、计算机设备。
背景技术
相关技术中,单细胞RNA(Ribonucleic Acid,核糖核酸)测序(scRNA-seq)的分析有助于了解生物组织的多样性和异质性。有效的分析方法可以区分单细胞数据中的不同细胞,对相似细胞进行分类,并找到它们之间的潜在关系。scRNA-seq RNA数据通常用于查找与疾病相关的基因。特别是对于复杂疾病,单细胞数据更有助于发现这些疾病的潜在原因。聚类分析是单细胞数据分析方法中最重要的一种。常用和经典的聚类算法是k均值聚类和频谱聚类。但是,由于正常物种有超过一万个基因,因此scRNA-seq数据的维数非常高。同时,scRNA-seq数据中存在许多零计数。因此,当前的scRNA-seq数据的高维,高差异性给数据分析带来了巨大挑战。
随着scRNA-seq测序技术的不断发展,提出了相应的分析方法。针对scRNA-seq数据的高维问题,提出了一种共享最近邻的概念,即SNN-Clip(Spiking Neural NetworkClip,脉冲神经网络聚类)聚类方法。当传统的距离测量方法例如向量相似度不适用时,也提出了一种基于多核的光谱聚类方法(SIMLR),该方法结合了多个核心来学习并且适合于scRNA数据。随着现代测序技术的进步,测序细胞的数量和基因的数量不断增加,这使得难以将基于拉普拉斯矩阵的方法应用于大规模数据。鉴于scRNA-seq数据中存在许多零值问题,许多研究人员还开发了一些方法,例如CIDR(Classless Inter-Domain Routing,无类别域间路由)、Deeplmpute(神经网络深入学习模式)、ZINB(Zero-inflated models,零膨胀模型)、scScope(基于智能计算成像的三维定量相位显微镜)、ScGSLC(图卷积神经网络模式)等。CIDR专注于降维,其聚类方法基于更具代表性的坐标。Deeplmpute使用神经网络来预测基因的缺失值,并估计基因和簇的比率作为改进的输入数据。ScScope使用多个自动编码器的嵌套,并将上一个自动编码器的输出用作下一个自动编码器的输入。 ScGSLC将scRNA-seq数据与蛋白质数据结合在一起,并使用图卷积网络将细胞之间的相似性转换为子图的相似性。并基于相似度矩阵对数据进行聚类。
随着测序数据量的逐步提高,拉普拉斯矩阵的存储和计算面临着计算机的巨大挑战。因此基于拉普拉斯矩阵的算法如SIMLR就很难在大规模数据中应用。然而,一些经典的聚类方法如PCA(PCA Principal Component Analysis,主成分分析)、谱聚类并没有针对单细胞数据的高维性与稀疏性进行一些合适的调整,因此当直接将这些方法用在单细胞数据上进行聚类时会导致聚类效果一般。
发明内容
有鉴于此,本发明的目的在于提出一种基于2D嵌入的半监督单细胞聚类方法、装置、计算机设备,能够实现提高在单细胞数据上进行聚类时的聚类效果。
根据本发明的一个方面,提供一种基于2D嵌入的半监督单细胞聚类方法,包括:对每个细胞进行数据预处理;将所述经对数据预处理后的每个细胞的基因表达数据都使用2D嵌入的方式,生成一张张合成图像形成图像集;将所述图像集输入到自编码器模型中进行预训练和聚类;基于所述将所述图像集输入到自编码器模型中进行预训练和聚类后的聚类结果,构建网络,并运用社区发现算法对所述构建网络中的图像集数据进行分类;采用将基于卷积神经网络模型来配置的半监督神经网络,对所述经分类后的图像集中的所有细胞图像数据进行特征提取,并对所述提取的特征进行聚类。
其中,所述对每个细胞进行数据预处理,包括:通过将每个细胞中表达值为0的基因去除和对所述经表达值为0的基因去除后的所有细胞的整个数据进行归一化处理并从所述经数据归一化处理后的所有细胞中选取方差最大的预设数量的基因作为特征基因的方式,对每个细胞进行数据预处理。
其中,所述将所述经对数据预处理后的每个细胞的基因表达数据都使用2D嵌入的方式,生成一张张合成图像形成图像集,包括:通过计算特征基因的皮尔森相关系数矩阵并利用谱聚类将特征基因分组,和根据结果调整基因的排列顺序的方式,将所述数据预处理后的每个细胞的基因表达数据排列成预设大小的二维矩阵,和将所述经排列成预设大小的二维矩阵后的每个细胞的基因表达数据都使用2D嵌入的方式,将所述经排列成预设大小的二维矩阵后的每个细胞的数据映射成2D图像,和通过对所述映射成的2D图像中的每个像素对应的基因表达量确定所述像素的灰度值的方式,将所述映射成的2D图像生成一张张合成图像形成图像集。
其中,所述将所述图像集输入到自编码器模型中进行预训练和聚类,包括:将所述图像集输入到自编码器模型中进行预训练,通过所述自编码器模型将所述图像集给定的输入空间通过第一映射变换到特征空间,和通过将所述变换到的特征空间通过第二映射变换到所述给定的输入空间的方式,对所述图像集进行预训练,以及采用均方误差损失函数的方式,对所述经预训练后的图像集进行聚类。
其中,所述基于所述将所述图像集输入到自编码器模型中进行预训练和聚类后的聚类结果,构建网络,并运用社区发现算法对所述构建网络中的图像集数据进行分类,包括:基于所述将所述图像集输入到自编码器模型中进行预训练和聚类后的聚类结果,对所述聚类结果进行统计得到细胞被聚类到同一类别的聚类矩阵,和根据所述聚类矩阵,构建网络,并运用社区发现算法对所述构建的网络进行社区划分和记录划分结果以及对所述划分结果打上标签的方式,对所述构建网络中的图像集数据进行分类。
根据本发明的另一个方面,提供一种基于2D嵌入的半监督单细胞聚类装置,包括:预处理模块、生成模块、预训练和聚类模块、分类模块和特征聚类模块;所述预处理模块,用于对每个细胞进行数据预处理;所述生成模块,用于将所述经对数据预处理后的每个细胞的基因表达数据都使用D嵌入的方式,生成一张张合成图像形成图像集;所述预训练和聚类模块,用于将所述图像集输入到自编码器模型中进行预训练和聚类;所述分类模块,用于基于所述将所述图像集输入到自编码器模型中进行预训练和聚类后的聚类结果,构建网络,并运用社区发现算法对所述构建网络中的图像集数据进行分类;所述特征聚类模块,用于采用将基于卷积神经网络模型来配置的半监督神经网络,对所述经分类后的图像集中的所有细胞图像数据进行特征提取,并对所述提取的特征进行聚类。
其中,所述预处理模块,具体用于:通过将每个细胞中表达值为0的基因去除和对所述经表达值为0的基因去除后的所有细胞的整个数据进行归一化处理并从所述经数据归一化处理后的所有细胞中选取方差最大的预设数量的基因作为特征基因的方式,对每个细胞进行数据预处理。
其中,所述生成模块,具体用于:通过计算特征基因的皮尔森相关系数矩阵并利用谱聚类将特征基因分组,和根据结果调整基因的排列顺序的方式,将所述数据预处理后的每个细胞的基因表达数据排列成预设大小的二维矩阵,和将所述经排列成预设大小的二维矩阵后的每个细胞的基因表达数据都使用D嵌入的方式,将所述经排列成预设大小的二维矩阵后的每个细胞的数据映射成D图像,和通过对所述映射成的D图像中的每个像素对应的基因表达量确定所述像素的灰度值的方式,将所述映射成的D图像生成一张张合成图像形成图像集。
其中,所述预训练和聚类模块,具体用于:将所述图像集输入到自编码器模型中进行预训练,通过所述自编码器模型将所述图像集给定的输入空间通过第一映射变换到特征空间,和通过将所述变换到的特征空间通过第二映射变换到所述给定的输入空间的方式,对所述图像集进行预训练,以及采用均方误差损失函数的方式,对所述经预训练后的图像集进行聚类。
其中,所述分类模块,具体用于:基于所述将所述图像集输入到自编码器模型中进行预训练和聚类后的聚类结果,对所述聚类结果进行统计得到细胞被聚类到同一类别的聚类矩阵,和根据所述聚类矩阵,构建网络,并运用社区发现算法对所述构建的网络进行社区划分和记录划分结果以及对所述划分结果打上标签的方式,对所述构建网络中的图像集数据进行分类。
根据本发明的又一个方面,提供一种计算机设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一项所述的基于2D嵌入的半监督单细胞聚类方法。
根据本发明的再一个方面,提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的基于2D嵌入的半监督单细胞聚类方法。
可以发现,以上方案,可以对每个细胞进行数据预处理,和可以将该经对数据预处理后的每个细胞的基因表达数据都使用2D嵌入的方式,生成一张张合成图像形成图像集,和可以将该图像集输入到自编码器模型中进行预训练和聚类,和可以基于该将该图像集输入到自编码器模型中进行预训练和聚类后的聚类结果,构建网络,并运用社区发现算法对该构建网络中的图像集数据进行分类,以及可以采用将基于卷积神经网络模型来配置的半监督神经网络,对该经分类后的图像集中的所有细胞图像数据进行特征提取,并对该提取的特征进行聚类,能够实现通过2D嵌入的半监督单细胞聚类来将图像集数据中的高维数据映射到低维空间,能够提高在单细胞数据上进行聚类时的聚类效果。
进一步的,以上方案,可以通过将每个细胞中表达值为0的基因去除和对该经表达值为0的基因去除后的所有细胞的整个数据进行归一化处理并从该经数据归一化处理后的所有细胞中选取方差最大的预设数量的基因作为特征基因的方式,对每个细胞进行数据预处理,这样的好处是能够实现使每个细胞最终表达的基因总量相同,同时又能降低计算机对细胞进行存储与计算的负荷。
进一步的,以上方案,可以通过计算特征基因的皮尔森相关系数矩阵并利用谱聚类将特征基因分组,和根据结果调整基因的排列顺序的方式,将该数据预处理后的每个细胞的基因表达数据排列成预设大小的二维矩阵,和将该经排列成预设大小的二维矩阵后的每个细胞的基因表达数据都使用2D嵌入的方式,将该经排列成预设大小的二维矩阵后的每个细胞的数据映射成2D图像,和通过对该映射成的2D图像中的每个像素对应的基因表达量确定该像素的灰度值的方式,将该映射成的2D图像生成一张张合成图像形成图像集,这样的好处是能够实现使该形成的图像集为同细胞排列在一起的图像集,能够将每对细胞间的相似度转化为每对图像的相似度。
进一步的,以上方案,可以将该图像集输入到自编码器模型中进行预训练,通过该自编码器模型将该图像集给定的输入空间通过第一映射变换到特征空间,和通过将该变换到的特征空间通过第二映射变换到该给定的输入空间的方式,对该图像集进行预训练,以及采用均方误差损失函数的方式,对该经预训练后的图像集进行聚类,这样的好处是能够实现通过该图像集输入到自编码器模型中进行预训练能够将重建误差降低到最小,同时又能够通过均方误差损失函数对该经预训练后的图像集进行聚类以达到降维的目的。
进一步的,以上方案,可以基于该将该图像集输入到自编码器模型中进行预训练和聚类后的聚类结果,对该聚类结果进行统计得到细胞被聚类到同一类别的聚类矩阵,和根据该聚类矩阵,构建网络,并运用社区发现算法对该构建的网络进行社区划分和记录划分结果以及对该划分结果打上标签的方式,对该构建网络中的图像集数据进行分类,这样的好处是能够将图像集数据中的高维数据映射到低维空间,便于提高在单细胞数据上进行聚类时的聚类效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明基于2D嵌入的半监督单细胞聚类方法一实施例的流程示意图;
图2是本发明基于2D嵌入的半监督单细胞聚类方法一实施例的一举例示意图;
图3是本发明基于2D嵌入的半监督单细胞聚类方法一实施例的另一举例示意图;
图4是本发明基于2D嵌入的半监督单细胞聚类装置一实施例的结构示意图;
图5是本发明计算机设备一实施例的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明作进一步的详细描述。特别指出的是,以下实施例仅用于说明本发明,但不对本发明的范围进行限定。同样的,以下实施例仅为本发明的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供一种基于2D嵌入的半监督单细胞聚类方法,能够实现提高在单细胞数据上进行聚类时的聚类效果。
请参见图1,图1是本发明基于2D嵌入的半监督单细胞聚类方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括如下步骤:
S101:对每个细胞进行数据预处理。
其中,该对每个细胞进行数据预处理,可以包括:
通过将每个细胞中表达值为0的基因去除和对该经表达值为0的基因去除后的所有细胞的整个数据进行归一化处理并从该经数据归一化处理后的所有细胞中选取方差最大的预设数量的基因作为特征基因的方式,对每个细胞进行数据预处理,这样的好处是能够实现使每个细胞最终表达的基因总量相同,同时又能降低计算机对细胞进行存储与计算的负荷。
在本实施例中,可以首先,在细胞中存在一些表达值均为0的基因,可以将这些基因去除;其次,单细胞数据中每个细胞的基因表达差距可能较大,可以将整个数据进行归一化使得每个细胞最终表达的基因总量相同;最后由于单细胞数据中一般会包括数万种基因,但是很多基因对聚类分析的作用较小却会很大程度增加计算机在存储与计算的负荷,因此可以选取方差最大的预设数量例如10000个基因作为特征基因的方式,对每个细胞进行数据预处理。
102:将该经对数据预处理后的每个细胞的基因表达数据都使用2D嵌入的方式,生成一张张合成图像形成图像集。
其中,该将该经对数据预处理后的每个细胞的基因表达数据都使用2D嵌入的方式,生成一张张合成图像形成图像集,可以包括:
通过计算特征基因的皮尔森相关系数矩阵并利用谱聚类将特征基因分组,和根据结果调整基因的排列顺序的方式,将该数据预处理后的每个细胞的基因表达数据排列成预设大小的二维矩阵,和将该经排列成预设大小的二维矩阵后的每个细胞的基因表达数据都使用2D嵌入的方式,将该经排列成预设大小的二维矩阵后的每个细胞的数据映射成2D图像,和通过对该映射成的2D图像中的每个像素对应的基因表达量确定该像素的灰度值的方式,将该映射成的2D图像生成一张张合成图像形成图像集,这样的好处是能够实现使该形成的图像集为同细胞排列在一起的图像集,能够将每对细胞间的相似度转化为每对图像的相似度。
S103:将该图像集输入到自编码器模型中进行预训练和聚类。
其中,该将该图像集输入到自编码器模型中进行预训练和聚类,可以包括:
将该图像集输入到自编码器模型中进行预训练,通过该自编码器模型将该图像集给定的输入空间通过第一映射变换到特征空间,和通过将该变换到的特征空间通过第二映射变换到该给定的输入空间的方式,对该图像集进行预训练,以及采用MSE(Mean SquareError,均方误差)损失函数的方式,对该经预训练后的图像集进行聚类,这样的好处是能够实现通过该图像集输入到自编码器模型中进行预训练能够将重建误差降低到最小,同时又能够通过均方误差损失函数对该经预训练后的图像集进行聚类以达到降维的目的。
在本实施例中,自编码器模型是无监督深度神经网络中的一个利器,它可以有效解决降维的问题。相比于传统的降维方法PCA而言,自编码器模型在非线性数据上的最终丢失的特征较少。自编码器模型是一个输入和输出相同的深度神经网络,它的学习目标就是尽可能的使得重建后的输出于输入的差距更小。自编码器模型的结构主要包括两个部分,编码器与解码器,编码器的作用是将给定的输入空间通过映射f变换到特征空间,解码器的作用则是将特征空间通过映射g变换到给定的输入空间,最终求得映射f与映射g使得重建误差最小:
(1)
(2)
(3);
还可以采用均方误差损失函数的方式,对该经预训练后的图像集进行聚类,该均方误差损失函数可以表示为 (4);
在训练较为稳定后,可以将连续预设次数例如20次取出仅仅将输入通过编码部分达到降维的目的,之后对其用谱聚类方法进行聚类并记录聚类结果。
S104:基于该将该图像集输入到自编码器模型中进行预训练和聚类后的聚类结果,构建网络,并运用社区发现算法对该构建网络中的图像集数据进行分类。
其中,该基于该将该图像集输入到自编码器模型中进行预训练和聚类后的聚类结果,构建网络,并运用社区发现算法对该构建网络中的图像集数据进行分类,可以包括:
基于该将该图像集输入到自编码器模型中进行预训练和聚类后的聚类结果,对该聚类结果进行统计得到细胞被聚类到同一类别的聚类矩阵,和根据该聚类矩阵,构建网络,并运用Louvain(社区发现算法)算法对该构建的网络进行社区划分和记录划分结果以及对该划分结果打上标签的方式,对该构建网络中的图像集数据进行分类,这样的好处是能够将图像集数据中的高维数据映射到低维空间,便于提高在单细胞数据上进行聚类时的聚类效果。
在本实施例中,可以利用预训练的聚类结果经过统计得到细胞被聚类到同一类别的聚类矩阵,n代表此数据集所包含的细胞个数,表示细胞i与细胞i被聚类到为同一类别的次数(如可以统计20次的聚类结果,细胞i与细胞j有18次被分到同一类别,则, ,之后可以将利用矩阵S来构建网络G。该网络共包含n个节点,设置一个最低阈值k,如果,则在节点i与节点j之间添加一条权值为的无向边。在遍历完矩阵S后,则网络G建立完成。此后可以将使用Louvain算法对网络G进行社区划分并记录划分结果。可以定义细胞i的划分可信度为,定义与细胞i被划分到同一类别的数量为,
(5);
当细胞i的划分可信度较低时,可以将细胞i的类别改为-1。最终得到所有细胞的标签,如果细胞i的划分可信度较高,则它的标签为Louvain算法的划分结果,否则它的标签为-1。
S105:采用将基于卷积神经网络模型来配置的半监督神经网络,对该经分类后的图像集中的所有细胞图像数据进行特征提取,并对该提取的特征进行聚类。
在本实施例中,可以将基于卷积神经网络模型来配置半监督神经网络,将对图像数据进行训练并用训练好的模型对所有细胞图像数据进行特征提取,最终利用提取的特征进行聚类。其中,该卷积神经网络可以包括3个卷积层、3个池化层以及3个全连接层,训练时使用3个全连接层,而需要进行聚类时则只使用2个全连接层使得每个细胞图像数据转换成一个特征向量。
在本实施例中,对于带标签的数据可以使用交叉熵函数作为损失函数得到损失,首先需要将输出结果用Sigmoid函数使数据大小调整到0与1之间,再传入交叉熵函数中:
(6)
(7);
其中,x表示细胞图像数据经过卷积神经网络后所提取的特征,class表示x的类别;而对于无标签的数据,可以将在通过卷积层后只通过两个全连接层,并使用MSE最为损失函数得到损失,最终整个网络的loss可以为loss=。
可以发现,在本实施例中,可以对每个细胞进行数据预处理,和可以将该经对数据预处理后的每个细胞的基因表达数据都使用2D嵌入的方式,生成一张张合成图像形成图像集,和可以将该图像集输入到自编码器模型中进行预训练和聚类,和可以基于该将该图像集输入到自编码器模型中进行预训练和聚类后的聚类结果,构建网络,并运用社区发现算法对该构建网络中的图像集数据进行分类,以及可以采用将基于卷积神经网络模型来配置的半监督神经网络,对该经分类后的图像集中的所有细胞图像数据进行特征提取,并对该提取的特征进行聚类,能够实现通过2D嵌入的半监督单细胞聚类来将图像集数据中的高维数据映射到低维空间,能够提高在单细胞数据上进行聚类时的聚类效果。
进一步的,在本实施例中,可以通过将每个细胞中表达值为0的基因去除和对该经表达值为0的基因去除后的所有细胞的整个数据进行归一化处理并从该经数据归一化处理后的所有细胞中选取方差最大的预设数量的基因作为特征基因的方式,对每个细胞进行数据预处理,这样的好处是能够实现使每个细胞最终表达的基因总量相同,同时又能降低计算机对细胞进行存储与计算的负荷。
进一步的,在本实施例中,可以通过计算特征基因的皮尔森相关系数矩阵并利用谱聚类将特征基因分组,和根据结果调整基因的排列顺序的方式,将该数据预处理后的每个细胞的基因表达数据排列成预设大小的二维矩阵,和将该经排列成预设大小的二维矩阵后的每个细胞的基因表达数据都使用2D嵌入的方式,将该经排列成预设大小的二维矩阵后的每个细胞的数据映射成2D图像,和通过对该映射成的2D图像中的每个像素对应的基因表达量确定该像素的灰度值的方式,将该映射成的2D图像生成一张张合成图像形成图像集,这样的好处是能够实现使该形成的图像集为同细胞排列在一起的图像集,能够将每对细胞间的相似度转化为每对图像的相似度。
进一步的,在本实施例中,可以将该图像集输入到自编码器模型中进行预训练,通过该自编码器模型将该图像集给定的输入空间通过第一映射变换到特征空间,和通过将该变换到的特征空间通过第二映射变换到该给定的输入空间的方式,对该图像集进行预训练,以及采用均方误差损失函数的方式,对该经预训练后的图像集进行聚类,这样的好处是能够实现通过该图像集输入到自编码器模型中进行预训练能够将重建误差降低到最小,同时又能够通过均方误差损失函数对该经预训练后的图像集进行聚类以达到降维的目的。
进一步的,在本实施例中,可以基于该将该图像集输入到自编码器模型中进行预训练和聚类后的聚类结果,对该聚类结果进行统计得到细胞被聚类到同一类别的聚类矩阵,和根据该聚类矩阵,构建网络,并运用社区发现算法对该构建的网络进行社区划分和记录划分结果以及对该划分结果打上标签的方式,对该构建网络中的图像集数据进行分类,这样的好处是能够将图像集数据中的高维数据映射到低维空间,便于提高在单细胞数据上进行聚类时的聚类效果。
下面进行举例说明本实施例:
请参见图2,图2是本发明基于2D嵌入的半监督单细胞聚类方法一实施例的一举例示意图。如图2所示,为根据细胞相似度矩阵绘制的热图和以单细胞数据集Goolam、Polle、Kolod示意,其中,可以对得到的特征向量进行聚类时需要利用细胞之间相似性,为了更直观的展示细胞特征向量的相似性,可以根据了细胞相似度矩阵绘制了热图。如图2所示,细胞之间相似度程度越高,它们对应地方的颜色越接近白色,在图2中可以很容易的发现白色矩形,说明这些细胞之间的相似度很高,最终基本上会被聚到同一类别。
请参见图3,图3是本发明基于2D嵌入的半监督单细胞聚类方法一实施例的另一举例示意图。如图3所示,为单细胞聚类结果可视化和以单细胞数据集Goolam、Polle、Kolod示意,其中,单细胞聚类分析中二维结果可视化可以说是一种必不可少的聚类结果展示方法,大部分情况下采用TSNE(T-Stochastic neighbour Embedding,数据可视化工具)工具进行二维或者三维可视化;TSNE是一种基于流形学习的非线性降维方法,它有着很强的多维空间转换的能力,可以找到最合适的从高维到低维的映射,使得高维数据的可视化效果更直观,从而使得研究人员更容易对数据分布进行观察分析并寻找隐藏在数据中的潜在规律。
如图3所示,为了使得聚类效果能有更直观的体现,对于高维特征向量进行可视化,可以采用TSNE将特征向量降到二维,其结果如图3所示,在图中每一个散点均表示一个细胞,细胞所属的类按对应特征向量进行聚类的结果进行标注;如图3所示,可细胞的划分较为明显,即同类细胞聚集较为紧凑,不同类以看到在此三个数据集上,别细胞较为分散。
本发明还提供一种基于2D嵌入的半监督单细胞聚类装置,能够实现提高在单细胞数据上进行聚类时的聚类效果。
请参见图4,图4是本发明基于2D嵌入的半监督单细胞聚类装置一实施例的结构示意图。本实施例中,该基于2D嵌入的半监督单细胞聚类装置40包括预处理模块41、生成模块42、预训练和聚类模块43、分类模块44和特征聚类模块45。
该预处理模块41,用于对每个细胞进行数据预处理。
该生成模块42,用于将该经对数据预处理后的每个细胞的基因表达数据都使用2D嵌入的方式,生成一张张合成图像形成图像集。
该预训练和聚类模块43,用于将该图像集输入到自编码器模型中进行预训练和聚类。
该分类模块44,用于基于该将该图像集输入到自编码器模型中进行预训练和聚类后的聚类结果,构建网络,并运用社区发现算法对该构建网络中的图像集数据进行分类。
该特征聚类模块45,用于采用将基于卷积神经网络模型来配置的半监督神经网络,对该经分类后的图像集中的所有细胞图像数据进行特征提取,并对该提取的特征进行聚类。
可选地,该预处理模块41,可以具体用于:
通过将每个细胞中表达值为0的基因去除和对该经表达值为0的基因去除后的所有细胞的整个数据进行归一化处理并从该经数据归一化处理后的所有细胞中选取方差最大的预设数量的基因作为特征基因的方式,对每个细胞进行数据预处理。
可选地,该生成模块42,可以具体用于:
通过计算特征基因的皮尔森相关系数矩阵并利用谱聚类将特征基因分组,和根据结果调整基因的排列顺序的方式,将该数据预处理后的每个细胞的基因表达数据排列成预设大小的二维矩阵,和将该经排列成预设大小的二维矩阵后的每个细胞的基因表达数据都使用2D嵌入的方式,将该经排列成预设大小的二维矩阵后的每个细胞的数据映射成2D图像,和通过对该映射成的2D图像中的每个像素对应的基因表达量确定该像素的灰度值的方式,将该映射成的2D图像生成一张张合成图像形成图像集。
可选地,该预训练和聚类模块43,可以具体用于:
将该图像集输入到自编码器模型中进行预训练,通过该自编码器模型将该图像集给定的输入空间通过第一映射变换到特征空间,和通过将该变换到的特征空间通过第二映射变换到该给定的输入空间的方式,对该图像集进行预训练,以及采用均方误差损失函数的方式,对该经预训练后的图像集进行聚类。
可选地,该分类模块44,可以具体用于:
基于该将该图像集输入到自编码器模型中进行预训练和聚类后的聚类结果,对该聚类结果进行统计得到细胞被聚类到同一类别的聚类矩阵,和根据该聚类矩阵,构建网络,并运用社区发现算法对该构建的网络进行社区划分和记录划分结果以及对该划分结果打上标签的方式,对该构建网络中的图像集数据进行分类。
该基于2D嵌入的半监督单细胞聚类装置40的各个单元模块可分别执行上述方法实施例中对应步骤,故在此不对各单元模块进行赘述,详细请参见以上对应步骤的说明。
本发明又提供一种计算机设备,如图5所示,包括:至少一个处理器51;以及,与至少一个处理器51通信连接的存储器52;其中,存储器52存储有可被至少一个处理器51执行的指令,指令被至少一个处理器51执行,以使至少一个处理器51能够执行上述的基于2D嵌入的半监督单细胞聚类方法。
其中,存储器52和处理器51采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器51和存储器52的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器51处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器51。
处理器51负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器52可以被用于存储处理器51在执行操作时所使用的数据。
本发明再提供一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
可以发现,以上方案,可以对每个细胞进行数据预处理,和可以将该经对数据预处理后的每个细胞的基因表达数据都使用2D嵌入的方式,生成一张张合成图像形成图像集,和可以将该图像集输入到自编码器模型中进行预训练和聚类,和可以基于该将该图像集输入到自编码器模型中进行预训练和聚类后的聚类结果,构建网络,并运用社区发现算法对该构建网络中的图像集数据进行分类,以及可以采用将基于卷积神经网络模型来配置的半监督神经网络,对该经分类后的图像集中的所有细胞图像数据进行特征提取,并对该提取的特征进行聚类,能够实现通过2D嵌入的半监督单细胞聚类来将图像集数据中的高维数据映射到低维空间,能够提高在单细胞数据上进行聚类时的聚类效果。
进一步的,以上方案,可以通过将每个细胞中表达值为0的基因去除和对该经表达值为0的基因去除后的所有细胞的整个数据进行归一化处理并从该经数据归一化处理后的所有细胞中选取方差最大的预设数量的基因作为特征基因的方式,对每个细胞进行数据预处理,这样的好处是能够实现使每个细胞最终表达的基因总量相同,同时又能降低计算机对细胞进行存储与计算的负荷。
进一步的,以上方案,可以通过计算特征基因的皮尔森相关系数矩阵并利用谱聚类将特征基因分组,和根据结果调整基因的排列顺序的方式,将该数据预处理后的每个细胞的基因表达数据排列成预设大小的二维矩阵,和将该经排列成预设大小的二维矩阵后的每个细胞的基因表达数据都使用2D嵌入的方式,将该经排列成预设大小的二维矩阵后的每个细胞的数据映射成2D图像,和通过对该映射成的2D图像中的每个像素对应的基因表达量确定该像素的灰度值的方式,将该映射成的2D图像生成一张张合成图像形成图像集,这样的好处是能够实现使该形成的图像集为同细胞排列在一起的图像集,能够将每对细胞间的相似度转化为每对图像的相似度。
进一步的,以上方案,可以将该图像集输入到自编码器模型中进行预训练,通过该自编码器模型将该图像集给定的输入空间通过第一映射变换到特征空间,和通过将该变换到的特征空间通过第二映射变换到该给定的输入空间的方式,对该图像集进行预训练,以及采用均方误差损失函数的方式,对该经预训练后的图像集进行聚类,这样的好处是能够实现通过该图像集输入到自编码器模型中进行预训练能够将重建误差降低到最小,同时又能够通过均方误差损失函数对该经预训练后的图像集进行聚类以达到降维的目的。
进一步的,以上方案,可以基于该将该图像集输入到自编码器模型中进行预训练和聚类后的聚类结果,对该聚类结果进行统计得到细胞被聚类到同一类别的聚类矩阵,和根据该聚类矩阵,构建网络,并运用社区发现算法对该构建的网络进行社区划分和记录划分结果以及对该划分结果打上标签的方式,对该构建网络中的图像集数据进行分类,这样的好处是能够将图像集数据中的高维数据映射到低维空间,便于提高在单细胞数据上进行聚类时的聚类效果。
在本发明所提供的几个实施方式中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的部分实施例,并非因此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
- 上一篇:一种医用注射器针头装配设备
- 下一篇:一种水稻育种信息数据管理系统