组织样本的分类方法、装置、设备和存储介质

文档序号：1923591 发布日期：2021-12-03 浏览：11次 >En<

阅读说明：本技术 组织样本的分类方法、装置、设备和存储介质 (Tissue sample classification method, device, equipment and storage medium ) 是由蔡德叶虎马兆轩肖凯文韩骁于 2021-09-01 设计创作，主要内容包括：本申请公开了一种组织样本的分类方法、装置、设备和存储介质,属于计算机技术领域。所述方法包括：获取目标组织样本的图像数据；基于所述目标组织样本的图像数据和可疑阳性细胞检测模型,确定多个可疑阳性细胞的特征向量和每个可疑阳性细胞的特征向量对应的分数值；在所述多个可疑阳性细胞的特征向量中,获取满足预设的分数值条件的多个参考特征向量；基于所述多个参考特征向量和样本分类模型,确定所述目标组织样本的目标样本类型。采用本申请,提供了一种可以通过计算机设备自动进行分类处理的样本分类方法,为医生提供了一种确定样本分类的参考依据,提高了确定目标样本类型的准确性。(The application discloses a method, a device, equipment and a storage medium for classifying tissue samples, and belongs to the technical field of computers. The method comprises the following steps: acquiring image data of a target tissue sample; determining feature vectors of a plurality of suspicious positive cells and score values corresponding to the feature vectors of each suspicious positive cell based on the image data of the target tissue sample and a suspicious positive cell detection model; obtaining a plurality of reference feature vectors meeting a preset score value condition from the feature vectors of the plurality of suspicious positive cells; determining a target sample type for the target tissue sample based on the plurality of reference feature vectors and a sample classification model. By the adoption of the sample classification method, the sample classification method capable of automatically performing classification processing through computer equipment is provided, a reference basis for determining sample classification is provided for doctors, and accuracy of determining the type of the target sample is improved.)

技术领域

本申请涉及计算机技术领域，特别涉及一种组织样本的分类方法、装置、设备和存储介质。

背景技术

当前，人们可以通过早期筛查和及时治疗，来有效的预防癌症、肿瘤类疾病，例如，宫颈癌是女性常见恶性肿瘤之一，早期筛查和及时治疗能够有效地预防宫颈癌。脱落细胞学检查作为一种成熟的筛查手段，在早期筛查中发挥着重要的作用，它可以对患者的脱落细胞学玻片上的组织样本进行检查，从而得出该患者的组织样本属于哪一样本类型，是属于阴性还是阳性，若是阳性，则属于阳性中的哪一种样本类型或者属于哪一个阶段。

当前的脱落细胞学检查通常是对脱落细胞学玻片进行涂片，然后医生在显微镜下观察玻片上各个细胞的形态等，从而判断该组织样本属于哪一种样本类型。

然而，医生在工作的过程中是存在各种不稳定可能性的，可能会对最终得到的样本类型的准确性造成影响，降低了分类结果的准确性。

发明内容

本申请实施例提供了一种组织样本的分类方法，能够解决现有技术中得到的样本类型的准确性相对较低的问题。

第一方面，提供了一种组织样本的分类方法，所述方法包括：

获取目标组织样本的图像数据；

基于所述目标组织样本的图像数据和可疑阳性细胞检测模型，确定多个可疑阳性细胞的特征向量和每个可疑阳性细胞的特征向量对应的分数值，其中，所述分数值用于指示所述分数值对应的可疑阳性细胞的特征向量的分类结果的分类置信度；

在所述多个可疑阳性细胞的特征向量中，获取满足预设的分数值条件的多个参考特征向量；

基于所述多个参考特征向量和样本分类模型，确定所述目标组织样本的目标样本类型。

在一种可能的实现方式中，所述在所述多个可疑阳性细胞的特征向量中，获取满足预设的分数值条件的多个参考特征向量，包括：

将所述多个可疑阳性细胞的特征向量中，按照对应的分数值从大到小的顺序排列，将前第一预设数目个特征向量，确定为所述多个参考特征向量；或者，

在所述多个可疑阳性细胞的特征向量中，获取对应的分数值大于预设分数阈值的特征向量，确定为所述多个参考特征向量。

在一种可能的实现方式中，所述基于所述多个参考特征向量和样本分类模型，确定所述目标组织样本的目标样本类型，包括：

基于所述多个参考特征向量，确定多个参考特征向量集合；

对于每个参考特征向量集合，将所述参考特征向量集合中的每个参考特征向量，输入所述样本分类模型，得到所述参考特征向量集合对应的每个样本类型的概率值；

对于每个样本类型，计算所述多个参考特征向量集合对应的所述样本类型的概率值的平均值，得到所述每个样本类型对应的平均概率值；

将最大的平均概率值对应的样本类型，确定为所述目标组织样本的目标样本类型。

在一种可能的实现方式中，所述基于所述多个参考特征向量，确定多个参考特征向量集合，包括：

在所述多个参考特征向量中，进行多次Monte-Carlo(蒙特卡洛)采样，得到多个参考特征向量集合，其中，每个参考特征向量集合中包含第二预设数目个参考特征向量。

在一种可能的实现方式中，所述方法还包括：

基于所述每个参考特征向量集合对应的每个样本类型的概率值和所述每个样本类型对应的平均概率值，确定所述目标样本类型的不确定度。

在一种可能的实现方式中，所述基于所述每个参考特征向量集合对应的目标样本类型的概率值和所述目标样本类型对应的平均概率值，确定所述目标样本类型的不确定度，包括：

分别计算所述每个参考特征向量集合对应的多个样本类型的概率值与所述多个样本类型对应的平均概率值之间的相对熵，得到每个参考特征向量集合对应的相对熵；

将所有的参考特征向量集合对应的相对熵的平均值，确定为所述目标样本类型的不确定度。

在一种可能的实现方式中，所述基于所述多个参考特征向量和样本分类模型，确定所述目标组织样本的目标样本类型，包括：

将所述多个参考特征向量，输入所述样本分类模型，得到每个样本类型的概率值；

将最大的概率值对应的样本类型，确定为所述目标组织样本的目标样本类型。

在一种可能的实现方式中，所述方法还包括：

获取训练组织样本的图像数据和所述训练组织样本的样本类型；

基于所述训练组织样本的样本类型，确定概率序列数据，作为基准输出数据，其中，所述概率序列数据是由按照预设顺序排列的多个样本类型的概率值组成的序列数据，在所述概率序列数据中，所述训练组织样本的样本类型的概率值为1，除所述训练组织样本的样本类型以外的其他样本类型的概率值为0；

基于所述训练组织样本的图像数据和所述可疑阳性细胞检测模型，确定所述训练组织样本对应的多个可疑阳性细胞中每个可疑阳性细胞的特征向量和每个可疑阳性细胞的特征向量对应的分数值；

将所述多个可疑阳性细胞的特征向量，按照对应的分数值从大到小的顺序排列，获取前第一预设数目个特征向量，确定为多个样本特征向量；

在多个样本特征向量中，进行多次Monte-Carlo采样，得到样本特征向量集合，其中，所述样本特征向量集合中包含第二预设数目个样本特征向量；

将所述样本特征向量集合中的每个样本特征向量，输入待训练的样本分类模型，得到实际输出数据；

基于所述实际输出数据和所述基准输出数据，对所述待训练的样本分类模型进行训练，得到经过训练的所述样本分类模型。

第二方面，提供一种组织样本的分类装置，所述装置包括：

第一获取模块，用于获取目标组织样本的图像数据；

第一确定模块，用于基于所述目标组织样本的图像数据和可疑阳性细胞检测模型，确定多个可疑阳性细胞的特征向量和每个可疑阳性细胞的特征向量对应的分数值，其中，所述分数值用于指示所述分数值对应的可疑阳性细胞的特征向量的分类结果的分类置信度；

第二获取模块，用于在所述多个可疑阳性细胞的特征向量中，获取满足预设的分数值条件的多个参考特征向量；

第二确定模块，用于基于所述多个参考特征向量和样本分类模型，确定所述目标组织样本的目标样本类型。

在一种可能的实现方式中，所述第二获取模块，用于：

在所述多个可疑阳性细胞的特征向量中，获取对应的分数值最大的第一预设数目个特征向量，确定为所述多个参考特征向量；或者，

在所述多个可疑阳性细胞的特征向量中，获取对应的分数值大于预设分数阈值的特征向量，确定为所述多个参考特征向量。

在一种可能的实现方式中，所述第二确定模块，用于：

基于所述多个参考特征向量，确定多个参考特征向量集合；

对于每个样本类型，计算所述多个参考特征向量集合对应的所述样本类型的概率值的平均值，得到所述每个样本类型对应的平均概率值；

将最大的平均概率值对应的样本类型，确定为所述目标组织样本的目标样本类型。

在一种可能的实现方式中，所述第二确定模块，用于：

在所述多个参考特征向量中，进行多次Monte-Carlo采样，得到多个参考特征向量集合，其中，每个参考特征向量集合中包含第二预设数目个参考特征向量。

在一种可能的实现方式中，所述装置还包括第三确定模块，用于：

基于所述每个参考特征向量集合对应的每个样本类型的概率值和所述每个样本类型对应的平均概率值，确定所述目标样本类型的不确定度。

在一种可能的实现方式中，所述第三确定模块，用于：

将所有的参考特征向量集合对应的相对熵的平均值，确定为所述目标样本类型的不确定度。

在一种可能的实现方式中，所述第二确定模块，用于：

将所述多个参考特征向量，输入所述样本分类模型，得到每个样本类型的概率值；

将最大的概率值对应的样本类型，确定为所述目标组织样本的目标样本类型。

在一种可能的实现方式中，所述装置还包括训练模块，用于：

获取训练组织样本的图像数据和所述训练组织样本的样本类型；

将所述多个可疑阳性细胞的特征向量，按照对应的分数值从大到小的顺序排列，获取前第一预设数目个特征向量，确定为多个样本特征向量；

在多个样本特征向量中，进行多次Monte-Carlo采样，得到样本特征向量集合，其中，所述样本特征向量集合中包含第二预设数目个样本特征向量；

将所述样本特征向量集合中的每个样本特征向量，输入待训练的样本分类模型，得到实际输出数据；

基于所述实际输出数据和所述基准输出数据，对所述待训练的样本分类模型进行训练，得到经过训练的所述样本分类模型。

第三方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，存储器中存储有至少一条指令，指令由处理器加载并执行以实现组织样本的分类方法所执行的操作。

第四方面，提供了一种计算机可读存储介质，存储介质中存储有至少一条指令，指令由处理器加载并执行以实现组织样本的分类方法所执行的操作。

本申请实施例提供的技术方案带来的有益效果是：本申请实施例中提到的方案，可以先基于目标组织样本的图像数据和可疑阳性细胞检测模型，确定出目标组织样本中存在的多个可疑阳性细胞的特征向量和每个可疑阳性细胞的特征向量对应的分数值，然后，在这多个可疑阳性细胞的特征向量中选取出满足预设的分数值条件的多个参考特征向量，再基于这多个参考特征向量和样本分类模型，确定出目标组织样本的目标样本类型。本申请提供了一种可以通过计算机设备自动进行分类处理的样本分类方法，为医生提供了一种确定样本分类的参考依据，提高了确定目标样本类型的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种组织样本的分类方法的流程图；

图2是本申请实施例提供的一种组织样本的示意图；

图3是本申请实施例提供的一种可疑阳性细胞的示意图；

图4是本申请实施例提供的一种组织样本的分类方法的流程图；

图5是本申请实施例提供的一种样本分类模型的处理流程图；

图6是本申请实施例提供的一种样本分类模型的处理流程图；

图7是本申请实施例提供的一种样本分类模型的训练方法的流程图；

图8是本申请实施例提供的一种样本类型和不确定度的显示示意图；

图9是本申请实施例提供的一种组织样本的分类装置的结构示意图；

图10是本申请实施例提供的一种服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种组织样本的分类方法，该方法可以由服务器实现。服务器可以是单个服务器或者也可以是多个服务器组成的服务器集群。

服务器可以包括处理器、存储器、通信部件等，处理器分别与存储器、通信部件连接。

处理器可以是CPU(Central Processing Unit，中央处理器)。处理器可以用于读取指令和对数据进行处理，例如，获取目标组织样本的图像数据、确定多个可疑阳性细胞的特征向量和每个可疑阳性细胞的特征向量对应的分数值、获取多个参考特征向量、确定目标组织样本的目标样本类型，等等。

存储器可以包括ROM(Read-Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，光盘只读存储器)、磁盘、光数据存储设备等。存储器可以用于数据存储，例如，对获取到的目标组织样本的图像数据的数据存储、在确定多个可疑阳性细胞的特征向量和每个可疑阳性细胞的特征向量对应的分数的过程中产生的中间数据的数据存储、对获取到的多个参考特征向量的数据存储、在确定目标组织样本的目标样本类型的过程中的中间数据的数据存储，等等。

通信部件可以是有线网络连接器、WiFi(Wireless Fidelity，无线保真)模块、蓝牙模块、蜂巢网通信模块等。通信部件可以用于接收和发送信号，例如，在获取目标组织样本的图像数据时的信息的传输、在得到目标组织样本的目标样本类型后将其发送至需要的终端时的信息的传输，等等。

本申请实施例中的可疑阳性细胞检测模型和样本分类模型均属于机器学习(Machine Learning，ML)领域，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不但改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学系等技术。

在本申请实施例中，目标组织样本可以是任意一种脱落细胞组织样本，例如，可以是宫颈脱落细胞学组织样本，等等。

图1是本申请实施例提供的一种组织样本的分类方法的流程图。参见图1，该实施例包括：

101、获取目标组织样本的图像数据。

在实施中，可以先获取到患者的目标组织样本，该目标组织样本可以是一个细胞玻片上的组织样本，如图2所示。然后获取该目标组织样本的图像数据。

102、基于目标组织样本的图像数据和可疑阳性细胞检测模型，确定多个可疑阳性细胞的特征向量和每个可疑阳性细胞的特征向量对应的分数值。

其中，分数值用于指示分数值对应的可疑阳性细胞的特征向量的分类结果的分类置信度。

在实施中，可以将目标组织样本的图像数据输入到可疑阳性细胞检测模型(也可以成为可疑阳性细胞检测器)中，可疑阳性细胞检测模型中包括特征提取模块，将目标组织样本的图像数据输入到可疑阳性细胞检测模型中时，目标组织样本的图像数据会输入到特征提取模块中，对目标组织样本中每个细胞的图像数据进行特征提取，从而得到每个细胞的图像数据的特征向量，然后这些特征向量输入到可疑阳性细胞检测模型中的其他模块中进行数据处理，从而得到可疑阳性细胞检测模型输出的每个可疑阳性细胞的分类结果(即可疑阳性细胞的类型)和每个可疑阳性细胞的分类结果对应的分数值(“分数值”也可以被称为“score值”)，该可疑阳性细胞为可疑阳性检测模型中的其他模型根据每个细胞的特征向量进行预测从而检测出的这些细胞中可能是阳性的细胞。可疑阳性细胞的分类结果对应的分数值用于表征预测出的该可疑阳性细胞的分类结果的分类置信度，例如，一个可疑阳性细胞的分类结果为A类型，对应的分数值为0.8，则表明该可疑阳性细胞有80％的可能性属于A类型。

可选的，可以基于可疑阳性细胞检测模型输出的每个可疑阳性细胞的类型，计算出每个类型的可疑阳性细胞的数量，获取目标组织样本的所有细胞的数量，可以计算出每个类型的可疑阳性细胞的数量在目标组织样本的所有细胞的数量中的第一占比，以及可以计算出所有的可疑阳性细胞的数量在目标组织样本的所有细胞的数量中的第二占比，第一占比可以用于表征每个类型的严重程度值，第二占比可以用于表征阳性的严重程度值，后续可以将每个类型的第一占比和第二占比以直方图的形式显示给医生或者患者作为参考数据。

可疑阳性细胞的类型包含多种，例如，若目标组织样本为宫颈脱落细胞组织样本，则可疑阳性细胞的类型可以包括ASC-US(Atypical Squamous Cells of UndeterminedSignificance，无明确意义的非典型鳞状细胞)、LSIL(Low-grade squamousintraepithelial lesion，低度鳞状上皮内病变)、ASC-H(atypical squamous cells,cannot exclude High-grade squamous intraepithelial lesion，不除外高度鳞状上皮内病变的非典型鳞状细胞)和HSIL(High-grade squamous intraepithelial lesion，高度鳞状上皮内病变)这四个类型，作为参考，图3为宫颈脱落细胞组织样本中的多个可疑阳性细胞的示意图。同样的，目标组织样本也包括上述这四个类型以及阴性这一样本类型，阴性这一样本类型也可以称作为NILM(Negative for intraepithelial Lesion orMalignancy，未见皮内病变恶性细胞)。

每个可疑阳性细胞对应的分数值表示可疑阳性细胞检测模型判定该细胞是该类型的可能性值，即用于指示在可疑阳性细胞检测模型中基于特征向量对可疑阳性细胞进行分类的分类置信度。

当然，在本申请实施例中，后续的处理只需获取可疑阳性细胞检测模型的中间输出(即可疑阳性细胞的特征向量)和每个可疑阳性细胞的特征向量对应的分数值。

103、在多个可疑阳性细胞的特征向量中，获取满足预设的分数值条件的多个参考特征向量。

在实施中，可以在获得了多个可疑阳性细胞的特征向量后，选取出分类特征较为明确的可疑阳性细胞的特征向量，作为参考特征向量，用于后续的对目标组织样本的分类进行判断。

可选的，确定参考特征向量的方法可以有多种，以下为其中的两种：

第一种

将多个可疑阳性细胞的特征向量，按照对应的分数值从大到小的顺序排列，将前第一预设数目个特征向量，确定为多个参考特征向量。

在实施中，可以将每个可疑阳性细胞的特征向量，按照其对应的分数值由大到小的顺序排列，然后获取前第一预设数目个分数值对应的特征向量，从而得到第一预设数目个特征向量，将其确定为参考特征向量。

可选的，第一预设数目可以是任意合理性的数值，例如，可以是15，或者20等等，本申请实施例对此不作限定。

第二种

在多个可疑阳性细胞的特征向量中，获取对应的分数值大于预设分数值阈值的特征向量，确定为参考特征向量。

在实施中，可以预先设定预设分数阈值，将大于预设分数阈值的分数值对应的特征向量，确定为参考特征向量。

可选的，预设分数阈值可以是任意合理性的数值，若是分数值是范围为[0，1]的数值，则预设分数阈值可以是0.5等等，或者也可以是其他数值，本申请实施例对此不作限定。

104、基于多个参考特征向量和样本分类模型，确定目标组织样本的目标样本类型。

在实施中，在确定出多个参考特征向量后，由于这些参考特征向量均是分类特征较为明确的(即分数值较高的)特征向量，因此，可以根据这多个参考特征向量和经过训练的样本分类模型，来对目标组织样本的类型进行预测，从而确定出的目标组织样本的目标样本类型。

若目标组织样本是宫颈脱落细胞组织样本，则目标组织样本的样本类型可以是阴性、NILM、ASC-US、LSIL、ASC-H和HSIL这几种类型中的一种。

可选的，根据多个参考特征向量和样本分类模型确定目标组织样本的目标样本类型的方法有很多。以下为其中的两种：

第一种方法可以是：

将多个参考特征向量，输入样本分类模型，得到每个样本类型的概率值。将最大的概率值对应的样本类型，确定为目标组织样本的目标样本类型。

在实施中，直接将确定出的多个参考特征向量，输入到经过训练的样本分类模型中，得到每个样本类型的概率值，一个样本类型的概率值用于指示这多个参考特征向量对应的可疑阳性细胞是该样本类型的可能性，即用于指示目标组织样本是该样本类型的可能性。可以理解的是，输出的所有的样本类型的概率值之和为1。

第二种方法的处理流程可以如图4所示，对应如下：

1041、基于多个参考特征向量，确定多个参考特征向量集合。

在本申请实施例中，确定多个参考特征向量集合的处理过程可以是：

在多个参考特征向量中，进行多次Monte-Carlo采样，得到多个参考特征向量集合，其中，每个参考特征向量集合中包含第二预设数目个参考特征向量。

可选的，第二预设数目可以是任意合理性的数值。在本申请实施例中，若在确定多个参考特征向量时使用第一种方法，则第二预设数目和第一预设数目之间可以成比例关系，例如，第二预设数目与第一预设数目之间的比值可以是1:1.5。

在本申请实施例中，确定多个参考特征向量和多个参考特征向量集合的过程是融合了医生阅片经验的一种确定方法。通常，医生在获得了目标组织样本的图像数据后，会重点观察分类特征明确的可能是阳性的细胞的图像数据，因此，本申请实施例选取了分数值较高的可疑阳性细胞的特征向量作为参考特征向量。随后，医生会在这些分类特征明确的可疑阳性细胞中随机观察，从而判断出该目标组织样本的样本类型，对应的，本申请实施例在多个参考特征向量中使用Monte-Carlo采样，从而获得多个参考特征向量集合。

1042、对于每个参考特征向量集合，将参考特征向量集合中的每个参考特征向量，输入样本分类模型，得到参考特征向量集合对应的每个样本类型的概率值。

在实施中，对于每个参考特征向量集合，均可以进行如下处理：将参考特征向量集合中的每个参考特征向量，输入到经过训练的样本分类模型中，样本分类模型可以输出每种样本类型的概率值，概率值越高说明样本分类模型判定该目标组织样本有越大的可能是该样本类型。

如图5所示，在将一个参考特征向量集合中的所有的参考特征向量输入到样本分类模型中后，每个参考特征向量均输入feature网络中进行非线性映射，对于每个参考特征向量，均对其进行多次不同的非线性映射，得到每个参考特征向量对应的向量k、向量q和向量v。分别将每个参考特征向量对应的向量k与向量q相乘，得到每个参考特征向量对应的第一向量，再分别将每个参考特征向量对应的第一向量输入到Attention网络中计算权重值，将权重值与对应的参考特征向量的向量v相乘，得到每个参考特征向量对应的第二向量。再将每个参考特征向量的第二向量分别输入至CNN网络中，从而得到每个参考特征向量对应的多个样本类型的概率值，将其再输入到全连接网络中，从而得到该参考特征向量集合对应的多个样本类型的概率值。

根据上述方法，对所有的参考特征向量集合进行处理，可以得到每个参考特征向量集合对应的每个样本类型的概率值。例如，参考特征向量集合的数量为5，样本类型的数量为6，则对于每个参考特征向量集合来说，将其输入到样本分类模型中，可以得到每个参考特征向量得到6个样本类型对应的概率值，即总共得到5×6个概率值。

1043、对于每个样本类型，计算多个参考特征向量集合对应的样本类型的概率值的平均值，得到每个样本类型对应的平均概率值。

在实施中，对于每种样本类型，计算这多个参考特征向量集合对应的样本类型的概率值的平均值，得到该样本类型对应的平均概率值。例如，参考特征向量集合的数量为3，样本类型的数量为2，第一个参考特征向量集合对应的所有的样本类型的概率值为(0.2，0.8)，第二个参考特征向量集合对应的所有的样本类型的概率值为(0.1，0.9)，第三个参考特征向量集合对应的所有的样本类型的概率值为(0.3，0.7)，则第一种样本类型的平均概率值为(0.2+0.1+0.3)/3＝0.2，第二种样本类型的平均概率值为(0.8+0.9+0.7)/3＝0.8。

1044、将最大的平均概率值对应的样本类型，确定为目标组织样本的目标样本类型。

在实施中，将所有的样本类型中平均概率值最大的样本类型，确定为目标组织样本的目标样本类型。例如，样本类型的数量为2，第一种样本类型的平均概率值为0.2，第二种样本类型的平均概率值为0.8，则可以将第二种样本类型确定为目标组织样本的目标样本类型。

可选的，样本分类模型还可以是集成模型，如图6所示，可以将所有的参考特征向量输入到样本分类模型中，进入到样本分类模型中的feature(特征)层时会对所有的参考特征向量分别进行多次Monte Carlo dropout(蒙特卡洛采样)，输出多组向量数据(由于每次Monte Carlo dropout的结果不一定相同，因此每组向量数据也极大的可能会不相同)，每组向量数据包括第二预设数目个参考特征向量，将这多组向量数据分别输入到集成模型中不同的子模型中进行后续处理，从而得到每组向量数据对应的每个样本类型的概率值，在将这多组向量数据对应的每个样本类型的概率值输入到后续的全连接层中，从而得到所有的参考特征向量对应的每个样本类型的概率值，可以将其中概率值最大的样本类型确定为目标组织样本的目标样本类型。

上述所述的样本分类模型是经过训练的样本分类模型，本申请实施例还提供了一种样本分类模型的训练方法，如图7所示，对应如下：

701、获取训练组织样本的图像数据和训练组织样本的样本类型。

在实施中，可以获取已确定样本类型的训练组织样本，然后获取该训练组织样本的图像数据和对应的样本类型。

702、基于训练组织样本的样本类型，确定概率序列数据，作为基准输出数据。

其中，概率序列数据是由按照预设顺序排列的多个样本类型的概率值组成的序列数据，在概率序列数据中，训练组织样本的样本类型的概率值为1，除训练组织样本的样本类型以外的其他样本类型的概率值为0。

在实施中，将训练组织样本的样本类型的概率值确定为1，将除了该训练组织样本的样本类型的其他样本类型的概率值确定为0，然后将这些样本类型的概率值按照预设顺序进行排列，得到多个样本类型的概率值组成的序列数据，即概率序列数据，将概率序列数据确定为基准输出数据。其中，预设顺序为根据样本类型预先设定的顺序。

例如，训练组织样本为宫颈脱落细胞组织样本，且已知该宫颈脱落细胞组织样本的样本类型为ASC-US，则将ASC-US的样本类型的概率值确定为1，将LSIL、ASC-H、HSIL和NILM这四个样本类型的概率值确定为0，若预设顺序为HSIL、LSIL、ASC-H、ASC-US、NILM，则得到的基准输出数据为00010。

703、基于训练组织样本的图像数据和可疑阳性细胞检测模型，确定训练组织样本对应的多个可疑阳性细胞中每个可疑阳性细胞的特征向量和每个可疑阳性细胞的特征向量对应的分数值。

在实施中，将该训练组织样本的图像数据输入到经过训练的可疑阳性细胞检测模型中，从而得到该可疑阳性细胞检测模型的中间输出(即预测出的该训练组织样本中存在的可疑阳性细胞的特征向量)和最终输出(即每个可疑阳性细胞的分类结果和分类结果对应的分数值)，获取每个可疑阳性细胞的特征向量和每个可疑阳性细胞的特征向量对应的分数值。

704、将多个可疑阳性细胞的特征向量，按照对应的分数值从大到小的顺序排列，获取前第一预设数目个特征向量，确定为多个样本特征向量。

在实施中，将获取到的多个可疑阳性细胞的特征向量，按照其对应的分数值从大到小的顺序进行排列，然后获取前第一预设数目个特征向量，将这些特征向量确定为样本特征向量。

705、在多个样本特征向量中，进行多次Monte-Carlo采样，得到样本特征向量集合。

其中，样本特征向量集合中包含第二预设数目个样本特征向量；

在实施中，在这多个样本特征向量中，分别进行第二预设数目次Monte-Carlo采样，得到第二预设数目个特征向量，组成样本特征向量集合。

706、将样本特征向量集合中的每个样本特征向量，输入待训练的样本分类模型，得到实际输出数据。

在实施中，将样本特征向量集合中的每个样本特征向量，均输入到待训练的样本分类模型中，该样本分类模型会输出实际输出数据。

707、基于实际输出数据和所述基准输出数据，对待训练的样本分类模型进行训练，得到经过训练的所述样本分类模型。

在实施中，可以根据实际输出数据和基准输出数据，对待训练的样本分类模型进行训练。

获取多个不同的训练组织样本的图像数据和训练组织样本的样本类型，分别使用上述701-707步骤对待训练的样本分类模型进行训练，直到得到的损失值小于预设损失值阈值时，才停止训练，得到的样本分类模型即为经过训练的(或称为训练完成的)样本分类模型。

可选的，本申请实施例提供的组织样本的分类方法，不仅可以对目标组织样本的目标样本类型进行预测，还可以基于贝叶斯推理方式，计算出该预测结果的不确定度，来为医生或者患者提供一种参考依据，对应的处理过程可以如下：

基于每个参考特征向量集合对应的每个样本类型的概率值和每个样本类型对应的平均概率值，确定目标样本类型的不确定度。

在实施中，可以基于每个参考特征向量集合对应的每个样本类型的概率值和每个样本类型对应的平均概率值，计算出样本分类模型进行样本分类处理的不确定度，将其确定为目标样本类型的不确定度。

计算不确定度的方法也有很多，本申请实施例提供以下的一种，引入贝叶斯推理方式计算相对熵，将相对熵作为不确定度，对应的处理过程可以是：

分别计算每个参考特征向量集合对应的多个样本类型的概率值与多个样本类型对应的平均概率值之间的相对熵，得到每个参考特征向量集合对应的相对熵。将所有的参考特征向量集合对应的相对熵的平均值，确定为目标样本类型的不确定度。

在实施中，可以使用相对熵来表征样本分类模型进行样本分类处理的不确定度。

首先，可以对于每个参考特征向量集合，先计算该参考特征向量集合对应的多个样本类型的概率值的概率分布与多个样本类型对应的平均概率值的概率分布之间的相对熵，对应的公式可以如下：

其中，j是参考特征向量集合的序号，i是样本类型的序号，P_j是第j个参考特征向量集合对应的多个样本类型的概率值的概率分布，是多个样本类型的平均概率值的概率分布，是第j个参考特征向量集合对应的多个样本类型的概率值的概率分布与多个样本类型的平均概率值的概率分布之间的相对熵(即第j个参考特征向量集合对应的相对熵)，P_ji是第j个参考特征向量集合对应的第i个样本类型的概率值，是第i个样本类型对应的平均概率值。

在根据上述公式计算出每个参考特征向量集合对应的相对熵之后，可以计算这多个相对熵的平均值，得到的平均值即为样本分类模型进行样本分类处理的不确定度，可以将其确定为目标样本类型的不确定度。

可选的，本申请实施例提供的组织样本的分类方法可以用于通过各种制片方法(沉降式或者膜式等等)所得到的细胞玻片的细胞组织样本，实现组织样本的分类方法的装置可以部署在医院的本地服务器中。或者，也可以部署在云端服务器中，让医院的本地服务器可以远程调用，其需要提供相关的网络设备，使得本地服务器可以将目标组织样本的图像数据传输至云端服务器，云端服务器可以将确定出的结果传送回本地服务器，本地服务器将结果显示给医生。

在医院的本地服务器获取到目标组织样本的图像数据之后，可以通过组织样本的分类方法来确定该目标组织样本的目标样本类型和对应的不确定度，然后，将其显示给医生或者患者以便查看。

或者，也可以将每个样本类型的平均概率值和样本分类模型进行样本分类处理的不确定度，显示给医生或者患者，用于医生综合其他材料来判断目标组织样本的目标样本类型。采用本申请，将样本分类模型预测出的每个样本类型的概率值和计算出的不确定度结合起来，可以更好的用于辅助医生进行细胞学检查中的组织样本的判读分析。

对于在医院中同一时段获取到的组织样本的图像数据，则可以分别将每个组织样本确定为目标组织样本，使用组织样本的分类方法对其进行预测，得到每个组织样本的样本类型和对应的不确定度，并将其全部显示给医生用于进行比对和观察。例如，如图8所示，图8为将这五个组织样本对应的不确定度按照第一个组织样本(即样本类型为NILM的组织样本)进行归一化处理，得到的归一化处理后的五个组织样本对应的不确定度的显示示意图，可以很明显的看出，ASC-UC和ASC-H这两个样本类型的不确定度相对较大，在实际中，由于ASC-UC和ASC-H都是非典型的样本类型，按照TBS(The Bethesda System，描述性诊断报告)的定义，非典型就是处于一种判读不确定的状态。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

本申请实施例提供了一种组织样本的分类装置，该装置可以是上述实施例中的计算机设备，如图9所示，所述装置包括：

第一获取模块910，用于获取目标组织样本的图像数据；

第一确定模块920，用于基于所述目标组织样本的图像数据和可疑阳性细胞检测模型，确定多个可疑阳性细胞的特征向量和每个可疑阳性细胞的特征向量对应的分数值，其中，所述分数值用于指示分数值对应的可疑阳性细胞的特征向量的分类结果的分类置信度；

第二获取模块930，用于在所述多个可疑阳性细胞的特征向量中，获取满足预设的分数值条件的多个参考特征向量；

第二确定模块940，用于基于所述多个参考特征向量和样本分类模型，确定所述目标组织样本的目标样本类型。

在一种可能的实现方式中，所述第二获取模块930，用于：

将所述多个可疑阳性细胞的特征向量，按照对应的分数值从大到小的顺序排列，将前第一预设数目个特征向量，确定为所述多个参考特征向量；或者，

在所述多个可疑阳性细胞的特征向量中，获取对应的分数值大于预设分数阈值的特征向量，确定为所述多个参考特征向量。

在一种可能的实现方式中，所述第二确定模块940，用于：

基于所述多个参考特征向量，确定多个参考特征向量集合；

对于每个样本类型，计算所述多个参考特征向量集合对应的所述样本类型的概率值的平均值，得到所述每个样本类型对应的平均概率值；

将最大的平均概率值对应的样本类型，确定为所述目标组织样本的目标样本类型。

在一种可能的实现方式中，所述第二确定模块940，用于：

在所述多个参考特征向量中，进行多次蒙特卡洛Monte-Carlo采样，得到多个参考特征向量集合，其中，每个参考特征向量集合中包含第二预设数目个参考特征向量。

在一种可能的实现方式中，所述装置还包括第三确定模块，用于：

基于所述每个参考特征向量集合对应的每个样本类型的概率值和所述每个样本类型对应的平均概率值，确定所述目标样本类型的不确定度。

在一种可能的实现方式中，所述第三确定模块，用于：

将所有的参考特征向量集合对应的相对熵的平均值，确定为所述目标样本类型的不确定度。

在一种可能的实现方式中，所述第二确定模块940，用于：

将所述多个参考特征向量，输入所述样本分类模型，得到每个样本类型的概率值；

将最大的概率值对应的样本类型，确定为所述目标组织样本的目标样本类型。

在一种可能的实现方式中，所述装置还包括训练模块，用于：

获取训练组织样本的图像数据和所述训练组织样本的样本类型；

基于所述训练组织样本的样本类型，确定概率序列数据，作为基准输出数据，其中，所述概率序列数据是由按照预设顺序排列的多个样本类型的概率值组成的序列数据，在所述概率序列数据中，所述训练组织样本的样本类型的概率值为1，除所述训练组织样本的样本类型以外的样本类型的概率值为0；

将所述多个可疑阳性细胞的特征向量，按照对应的分数值从大到小的顺序排列，获取前第一预设数目个特征向量，确定为多个样本特征向量；

在多个样本特征向量中，进行多次Monte-Carlo采样，得到样本特征向量集合，其中，所述样本特征向量集合中包含第二预设数目个样本特征向量；

将所述样本特征向量集合中的每个样本特征向量，输入待训练的样本分类模型，得到实际输出数据；

基于所述实际输出数据和所述基准输出数据，对所述待训练的样本分类模型进行训练，得到经过训练的所述样本分类模型。

需要说明的是：上述实施例提供的组织样本的分类装置在进行组织样本的分类时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的组织样本的分类装置与组织样本的分类方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图10是本申请实施例提供的一种服务器的结构示意图，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)1001和一个或一个以上的存储器1002，其中，所述存储器1002中存储有至少一条指令，所述至少一条指令由所述处理器1001加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中组织样本的分类方法。该计算机可读存储介质可以是非暂态的。例如，所述计算机可读存储介质可以是ROM(read-onlymemory，只读存储器)、RAM(random access memory，随机存取存储器)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行实施例中组织样本的分类方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

23页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法

组织样本的分类方法、装置、设备和存储介质

相关技术

网友询问留言