基于深度卷积神经网络的小卷积核细胞计数方法及系统

文档序号:1599338 发布日期:2020-01-07 浏览:36次 >En<

阅读说明:本技术 基于深度卷积神经网络的小卷积核细胞计数方法及系统 (Small convolution nuclear cell counting method and system based on deep convolution neural network ) 是由 谭冠政 赵健 戴宇思 鲁凡磊 于 2019-09-12 设计创作,主要内容包括:本发明公开了一种基于深度卷积神经网络的小卷积核细胞计数方法及系统,适用于对细胞图像进行计数。包括以下步骤:获取细胞图像数据集,对数据集进行预处理,将数据集分为训练集和测试集,并得到细胞真实密度图;构建用于细胞计数的基于小卷积核的深度卷积神经网络模型;利用训练集训练构建好的神经网络模型,得到最优参数模型;利用测试集测试得到的最优模型,得到预测的细胞密度图及估计细胞数,并评价结果。本发明改进了细胞计数模型,加快了网络训练速度,提高了预测效果和计数准确率。(The invention discloses a method and a system for counting small convolution nuclear cells based on a deep convolution neural network, which are suitable for counting cell images. The method comprises the following steps: acquiring a cell image data set, preprocessing the data set, dividing the data set into a training set and a testing set, and obtaining a cell true density map; constructing a deep convolution neural network model based on a small convolution kernel for cell counting; training the constructed neural network model by using the training set to obtain an optimal parameter model; and obtaining a predicted cell density map and an estimated cell number by using the optimal model obtained by testing the test set, and evaluating the result. The invention improves the cell counting model, accelerates the network training speed and improves the prediction effect and the counting accuracy.)

基于深度卷积神经网络的小卷积核细胞计数方法及系统

技术领域

本发明涉及一种计算机视觉和深度学习领域,特别是一种基于深度卷积神经网络的小卷积核细胞计数方法及系统。

背景技术

在目前医学和生物学的研究中,细胞计数是一项关键技术。通过计算机技术对细胞进行计数可以极大的节省人力资源,提高效率。

当前应用比较广泛的细胞计数方法是细胞仪计数,如流式细胞仪计数。流式细胞仪既可以测量数量较多的细胞,又能测定特定类型的细胞而广泛应用于临床领域。但是在进入细胞仪前的样本准备需要很大的人工参与量。采用专业的图像分析仪定量检测可以避免观察者主观因素的干扰,在病理图像定量研究中具有重要的应用价值,但这类仪器不仅价格昂贵,且对操作者的要求较高,影响了在常规临床工作中的应用。

随着计算机技术的发展,计算机图像处理与分析技术在临床诊断和治疗中起着越来越重要的作用。早期研究主要采用的是传统的图像处理的方法,通过对图像预处理和分割,然后再对处理后的图像计数。

由于卷积神经网络和高性能GPU的快速发展,使用神经网络技术体现了其优越性。此类方法分为检测和回归两类,基于检测的计数方法是通过对图像上每个细胞进行定位与识别,再根据结果统计细胞数,可以得到准确的细胞位置,但缺点在于对高密度的细胞图像来说,其检测效果差。基于回归的计数方法没有精确定位细胞位置,而是对大概的细胞数目给出个估计值,基于回归的计数方法分为直接回归和密度图回归两类,直接回归即输入细胞图像,输出细胞数量估计值,密度图回归为输入细胞图像,输出预测密度图,积分得到细胞数量。基于密度图回归的细胞计数方法有很大研究前景,在其他计数领域得到了不错的结果,但在细胞计数领域还较少应用,且细胞计数与其他物体计数相比也有其自身特点。

综上,基于密度图回归的神经网络细胞计数方法还有很大的研究意义和提升空间。

本发明用到的名词解释如下:

卷积神经网络:卷积神经网络(Convolutional Neural Networks,CNN)是一种深度学习算法,受生物自然视觉认知机制启发而来,在图像领域有很大的优越性。主要包含卷积层、池化层和全连接层,逐步提取图像特征。

卷积层:卷积神经网络的核心结构,卷积操作是输入矩阵与卷积核进行对应元素相乘并求和,用卷积核遍历整个输入矩阵得到一个结果矩阵即为卷积层的操作过程,作用是提取图像特征。

池化层:池化操作与卷积操作类似,在卷积层进行特征提取后,输出的特征图会被传递至池化层进行特征选择和信息过滤。根据需要有最大池化和平均池化等。池化操作缩小了特征图的大小,降低过拟合。

发明内容

本发明所要解决的技术问题是,针对现有技术不足,提供一种基于深度卷积神经网络的小卷积核细胞计数方法及系统,提高计数准确率。

为解决上述技术问题,本发明所采用的技术方案是:一种基于深度卷积神经网络的小卷积核细胞计数方法,包括以下步骤:

1)获取细胞图像数据集,对数据集进行预处理,将数据集分为训练集和测试集;

2)构建用于细胞计数的基于小卷积核的深度卷积神经网络模型;

3)利用所述训练集训练构建好的神经网络模型,得到最优参数模型;

4)利用所述测试集测试得到的最优参数模型,得到预测的细胞密度图及估计细胞数,并评价结果。

步骤1)中,对所述数据集进行预处理的具体实现过程包括:根据所述数据集给定的细胞图像中每个细胞的坐标位置,得到细胞图像对应的真实密度图。

步骤3)的具体实现过程包括:首先网络进行权重初始化,然后将训练集的图片作为输入,经过卷积层、池化层向前传播得到网络预测的密度图,与真实密度图比较,求出真实密度图和预测密度图的误差,将误差反向传播回网络,更新权重,反复此过程得到最优参数模型。

利用平均绝对误差和均方误差评价结果;所述平均绝对误差MAE和均方误差MSE的计算公式如下:

Figure BDA0002200362780000021

Figure BDA0002200362780000031

其中为fi为预测值,yi为真实值,N为总的细胞数。

本发明还提供了一种基于深度卷积神经网络的小卷积核细胞计数系统,包括:

采集单元,用于获取细胞图像数据集,对数据集进行预处理,将数据集分为训练集和测试集;

构建单元,用于构建用于细胞计数的基于小卷积核的深度卷积神经网络模型;

参数优化单元,用于利用所述训练集训练构建好的神经网络模型,得到最优参数模型;

评估单元,用于利用所述测试集测试得到的最优参数模型,得到预测的细胞密度图及估计细胞数,并评价结果。

与现有技术相比,本发明所具有的有益效果为:本发明网络为端到端网络,从细胞图像整体考虑,计算得到细胞图像密度图,对密度图积分得到总细胞数,而不是检测图像中的每个细胞。网络结构上,由于主流计数使用的三列卷积网络提升效果不明显且参数明显增加,提出了加深网络层次,提取更深层的特征,且都使用3×3的小卷积核,3×3的卷积核是最小的能够捕获像素八邻域信息的尺寸,且两个3×3的卷积核堆叠与一个5×5的卷积核得到的感受野大小不变,但参数更少,且由于增加了隐藏层引入了更多的非线性,通过此网络,计数效果明显改善,准确率提高明显。

附图说明

图1为本发明所提出的一种基于深度卷积神经网络的小卷积核密集细胞计数方法的实施流程图;

图2为本发明所提出的一种基于深度卷积神经网络的小卷积核细胞计数方法的整体网络结构框图;

图3为本发明所提出的方法生成的细胞密度图以及细胞计数的结果;其中,(a)细胞原图数量:408;(b)细胞密度图预测数量:404;(c)细胞原图数量:84;(d)细胞密度图预测数量:84。

具体实施方式

本发明主要思路是针对主流计数方法使用的三列卷积网络提升效果不明显且参数明显增加问题,提出了加深网络层次,提取更深层的特征,且都使用3×3的小卷积核,3×3的卷积核是最小的能够捕获像素八邻域信息的尺寸,且两个3×3的卷积核堆叠与一个5×5的卷积核得到的感受野大小不变,但参数更少,由于增加了隐藏层引入了更多的非线性,通过此网络,计数效果明显改善,准确率显著提升。

本发明包括以下步骤:

步骤1、获取细胞图像数据集,对数据集进行预处理,将数据集分为训练集和测试集;

步骤2、构建用于细胞计数的基于小卷积核的深度卷积神经网络模型;

步骤3、利用训练集训练构建好的神经网络模型,得到最优参数模型;

步骤4、利用测试集测试得到的最优模型,得到预测的细胞密度图及估计细胞数,并评价结果。

上述步骤1中,首先获取细胞图像数据集,本实例采用结肠直肠腺癌的H&E染色组织学图像,训练集和测试集的比例为8:2,训练集中随机一部分为验证集,并将训练图片裁剪为9块,用于增强数据集。

数据集中包含细胞图像,以及每个细胞所在的位置信息,根据位置信息得到细胞分布真实密度图,具体操作是生成一张和原图一样大小的单通道图片,其中像素点全部取0,再将每个细胞所在的像素点标记为1,由于细胞所占像素并不只是标记的那点,故通过高斯滤波处理这张图,形成的图就是细胞密度图。对训练集和测试集都采用此操作获取密度图。至此,前期数据准备工作结束。

上述步骤2中,构建的卷积神经网络模型是一个端到端的网络,输入细胞图像,输出预测密度图。构建的卷积神经网络相较于主流多列卷积计数网络有两个不同点,一是没有采用多列结构,而是加深了网络层次,提取到了更深层次的特征,二是采用了3×3的小卷积核,3×3的卷积核是最小的能够捕获像素八邻域信息的尺寸,且两个3×3的卷积核堆叠与一个5×5的卷积核得到的感受野大小不变,但参数更少,且由于增加了隐藏层引入了更多的非线性。

具体的,网络第一、第二层为两个卷积层,提取图像浅层特征,第一个卷积层采用16个大小为3×3×1的卷积核与输入图像卷积,步长为1,padding值为1,保持输出特征图与输入特征图大小相等,第二个卷积层采用32个大小为3×3×16的卷积核与输入特征图卷积,步长为1,padding值为1,每个卷积层后使用的激活函数都为线性整流函数(RectifiedLinear Unit,ReLU)。两个卷积层后为一个最大池化层,提取目标块中的最大值,池化层的作用是使特征图变小,简化网络计算复杂度,并进行特征压缩,提取主要特征。

网络中间层结构与上述基本相同,由两个卷积层和一个池化层组成,提取深层特征。第一个卷积层采用64个大小为3×3×32的卷积核与输入特征图卷积,步长为1,padding值为1,第二个卷积层采用128个大小为3×3×64的卷积核与输入特征图卷积,步长为1,padding值为1,每个卷积层后使用的激活函数都为线性整流函数(Rectified LinearUnit,ReLU)。两个卷积层后为一个最大池化层。

网络的最后为三个卷积层,前两个卷积层用于提取更深层的特征,最后一个卷积层用于回归得到密度图。第一个卷积层采用64个大小为3×3×128的卷积核与输入特征图卷积,步长为1,padding值为1,第二个卷积层采用16个大小为3×3×64的卷积核与输入特征图卷积,步长为1,padding值为1,第三个卷积层采用1个大小为1×1×16的卷积核与输入特征图卷积,步长为1,padding值为0,使通道数减少为1,到得预测的密度图。

每个卷积层包含一层Batchnorm层,由于每一次参数迭代更新后,上一层网络的输出数据经过这一层网络计算后,数据的分布会发生变化,为下一层网络的学习带来困难,Batchnorm层加入可训练的参数作归一化,解决了神经网络训练困难的问题,加速了训练过程。

上述步骤3中,首先网络进行权重初始化,网络中的模型参数遵循高斯分布,再依据经验和实验设置超参数。

然后将训练集的图片作为输入,经过卷积层、池化层向前传播得到网络预测的密度图,与真实密度图比较计算得到损失,网络使用的损失函数为均方误差(Mean SquaredError,MSE)损失函数,将误差反向传播回网络,更新权重,采用的优化算法为Adam优化算法,不同于传统的随机梯度下降优化算法学习率固定,Adam优化算法通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率。

上述步骤4中,利用测试集对训练好的最优模型进行测试,将测试图片输入网络,向前传播得到预测密度图,对其积分得到预测的细胞数,计算其与真实细胞数的误差,主要评价指标为平均绝对误差(Mean Absolute Error,MAE)和均方误差(Mean Squared Error,MSE),定义如公式1、2所示:

Figure BDA0002200362780000061

Figure BDA0002200362780000062

其中为fi预测值,yi为真实值,N为总的细胞数。

如图1所示,本发明提供了一种基于深度卷积神经网络的小卷积核细胞计数方法,其包括以下四个步骤:

步骤S1:获取细胞图像数据集,对数据集进行预处理;

具体地,首先获取细胞图像数据集,本实例采用华威大学收集的Nuclei数据集,包含100张结肠直肠腺癌的H&E染色组织学图像,将其分为训练集和测试集,训练集和测试集的比例为8:2,训练集中随机一部分为验证集,并将训练图片裁剪为9块,用于增强数据集。表1是该数据集的具体情况:

表1 Nuclei数据集

图片尺寸 细胞平均数量 细胞最小数量 细胞最大数量
500×500 310.22 1 1189

数据集中包含细胞图像,以及每个细胞所在的位置信息,根据位置信息使用MATLAB处理得到细胞分布真实密度图,具体操作是生成一张和原图一样大小的单通道图片,其中像素点全部取0,将每个细胞所在的像素点标记为1,此操作可表示为公式3:

Figure BDA0002200362780000063

由于细胞所占像素并不只是标记的那点,故通过高斯滤波处理这张图,形成的图就是细胞密度图。对训练集和测试集都采用此操作获取密度图,如公式4所示:

F(x)=H(x)*Gσ (4)

其中Gσ为大小为15×15,标准差为4的2D高斯核函数。

步骤S2:构建用于细胞计数的基于小卷积核的深度卷积神经网络模型;

图2为我们构建的网络模型的具体结构,模型是一个端到端的网络,输入细胞原图,输出预测密度图,主要分为三步,逐步提取特征,前两步每个卷积层的特征图数量逐渐增加,提取更丰富的特征,第三步每个卷积层的特征图数量逐渐减少,用于回归密度图。模型除最后一层卷积层使用1×1大小的卷积核回归得到密度图外,其他卷积层都使用3×3的小卷积核,3×3的卷积核是最小的能够捕获像素八邻域信息的尺寸,且两个3×3的卷积核堆叠与一个5×5的卷积核得到的感受野大小不变,但参数更少,且由于增加了隐藏层引入了更多的非线性。

网络输入层为可变尺寸的细胞原图,网络第一、第二层为两个卷积层,提取图像浅层特征,第一个卷积层采用16个大小为3×3×1的卷积核与输入图像卷积,步长为1,padding值为1,保持输出特征图与输入特征图大小相等,第二个卷积层采用32个大小为3×3×16的卷积核与输入特征图卷积,步长为1,padding值为1,每个卷积层后使用的激活函数都为线性整流函数(Rectified Linear Unit,ReLU)。两个卷积层后为一个最大池化层,提取目标块中的最大值,池化层的作用是使特征图变小,简化网络计算复杂度,并进行特征压缩,提取主要特征,经过第一次池化操作后,特征图大小变为原图的1/2。

网络中间层结构与上述基本相同,由两个卷积层和一个池化层组成,提取深层特征。第一个卷积层采用64个大小为3×3×32的卷积核与输入特征图卷积,步长为1,padding值为1,第二个卷积层采用128个大小为3×3×64的卷积核与输入特征图卷积,步长为1,padding值为1,每个卷积层后使用的激活函数都为线性整流函数(Rectified LinearUnit,ReLU)。两个卷积层后为一个最大池化层,经过第二次池化操作后,特征图大小变为原图的1/4。

网络的最后为三个卷积层,前两个卷积层用于提取更深层的特征,最后一个卷积层用于回归得到密度图。第一个卷积层采用64个大小为3×3×128的卷积核与输入特征图卷积,步长为1,padding值为1,第二个卷积层采用16个大小为3×3×64的卷积核与输入特征图卷积,步长为1,padding值为1,第三个卷积层采用1个大小为1×1×16的卷积核与输入特征图卷积,步长为1,padding值为0,使通道数减少为1,到得预测的密度图,大小为原图的1/4。

每个卷积层包含层Batchnorm层,Batchnorm是归一化的一种手段,能够加快训练速度。由于每一次参数迭代更新后,上一层网络的输出数据经过这一层网络计算后,数据的分布会发生变化,为下一层网络的学***移。Batchnorm层解决了神经网络训练困难的问题,加速了训练过程。

步骤S3:训练构建好的神经网络模型,得到最优参数模型;

具体地,首先网络进行权重初始化,网络中的模型参数遵循均值为0,方差为0.01的高斯分布,超参数依据经验和实验设置为如下数值,其中学习率lr为0.00001,动量momentum为0.9,epoch为1000。

然后将训练集的图片作为输入,经过卷积层、池化层向前传播得到网络预测的密度图,与真实密度图比较计算得到损失,网络使用的损失函数为均方误差(Mean SquaredError,MSE)损失函数,定义如公式5所示:

Figure BDA0002200362780000081

其中pred为预测密度图,gt为真实密度图。

将计算得到的误差反向传播回网络,更新网络权重,采用的优化算法为Adam优化算法,不同于传统的随机梯度下降优化算法使用固定的学习率,Adam优化算法通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率。

注意,在本实例中这些取值不对本发明构成限制。

步骤S4:测试并评估最优参数模型。

具体地,利用测试集对训练好的最优模型进行测试,将测试图片输入网络,向前传播得到预测密度图,图3显示了细胞图像原图与预测密度图,对其积分得到预测的细胞数,计算其与真实细胞数的误差,主要评价指标为平均绝对误差和均方误差,平均绝对误差和均方误差越小表明实验效果越好,该网络模型最终测试结果误差中平均绝对误差为25.52,均方误差为37.29。表2展示了本发明方法和专利CN105528589A提供的多列卷积网络计数方法,以及专利CN109166100A提供的基于卷积神经网络的多任务学习细胞计数方法在同一细胞数据集上的细胞计数比较结果:

表2本发明方法与其他发明方法结果对比

方法 平均绝对误差MAE 均方误差MSE
多列卷积网络计数方法 40.30 51.74
多任务学习细胞计数方法 30.90 40.86
本发明方法 25.52 37.29

可以看出本发明方法显著降低了平均绝对误差和均方误差。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种铝型材瑕疵检测方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!