使用基于距离的相似性标签的机器学习

文档序号：174317 发布日期：2021-10-29 浏览：24次 >En<

阅读说明：本技术 使用基于距离的相似性标签的机器学习 (Machine learning using distance-based similarity labels ) 是由 E·克莱曼 J·吉尔登布拉特于 2020-03-26 设计创作，主要内容包括：本发明涉及一种用于数字病理学的计算机实现的自监督学习方法。所述方法包括：接收(102)多个数字图像,每个数字图像描绘组织样品；将每个所接收的图像分割(104)成多个图块；自动生成(106)图块对(312、313、314、315、422),每个图块对分配有标签(403),所述标签指示在所述对的两个图块中描绘的两个组织图案的相似度,其中根据所述对中所述两个图块的空间接近度(d1、d2、d3、d4)来计算所述相似度,其中距离与相异性正相关；以及使用带标签的图块对作为训练数据来训练机器学习模块—MLM—(400、402、403、600)以生成经过训练的MLM,所述经过训练的MLM适于执行数字组织病理学图像的图像分析。(The present invention relates to a computer-implemented method of self-supervised learning for digital pathology. The method comprises the following steps: receiving (102) a plurality of digital images, each digital image depicting a tissue sample; segmenting (104) each received image into a plurality of tiles; automatically generating (106) pairs of tiles (312, 313, 314, 315, 422), each pair of tiles being assigned a label (403) indicating a similarity of two tissue patterns depicted in the two tiles of the pair, wherein the similarity is calculated from a spatial proximity (d1, d2, d3, d4) of the two tiles of the pair, wherein distance is positively correlated with dissimilarity; and training a machine learning module, MLM, (400, 402, 403, 600) using the labeled pairs of patches as training data to generate a trained MLM adapted to perform image analysis of digital histopathology images.)

使用基于距离的相似性标签的机器学习

技术领域

本发明涉及数字病理学领域，尤其涉及图像分析领域。

背景技术

在数字病理学领域中对数字组织图像的计算分析具有广泛的重要生物医学应用，例如组织检测、分割、形态测量、识别和分类疾病(例如，癌症)以及可能的治疗选择。目前，使用机器学习方法来解决图像分析问题的复杂性和多样性。

通常，使用监督机器学习方法来解决图像分析问题。因此，将机器学习模块(MLM)在一组由领域专家(特别是病理学家和临床医生)标记为基本事实的训练图像上进行训练。在训练阶段，MLM的统计模型学习将图像分析算法所计算的相关图像特征映射到训练数据集中所含的标签。

这些标签(也称为“注释”)可以包括所描绘的组织和/或提供组织的患者的元数据。例如，标签可以指示图像中描绘的组织样品是表示肿瘤组织还是健康组织，或者提供所描绘的样品的患者是否对特定药物有反应。标签可以指示特定的组织类型或亚型，例如，肿瘤组织是来自原发肿瘤还是来自微转移或大转移、来自基质组织、肌肉组织、脂肪组织、载玻片的背景切片等。带注释的训练数据集可用于训练机器学习模块(MLM)，使得MLM学会基于在新的未知数字组织图像中描绘的组织图案自动标识/预测标签。

在数字病理学中，适合作为监督学习基础的带注释的训练数据很少，因为收集和注释价格高昂且很困难。通常，训练数据由检查和注释大量的数字组织图像的一个或多个领域专家手动创建。这需要花费很多时间。该问题在数字病理学领域中尤为重要，因为组织的形态可能在很大程度上取决于许多因素。例如，肺癌组织、乳腺癌组织和肝癌组织的形态可能彼此不同。因此，为了生成能够预测特定标签的MLM，可能需要为每种不同的癌症类型创建训练数据集。事实上，上述每种癌症类型都存在许多不同的亚型。为了正确处理各种不同的癌症亚型和其他类型的疾病，希望为每个所述疾病和疾病亚型提供带标签的训练数据集。然而，由于此类训练数据集的注释既耗时又昂贵，因此由于缺乏带注释的训练数据，目前可用的数字病理学方法无法解决许多生物医学问题。

在训练MLM来解决数字病理学问题的背景下，对预测特征的标识是一项重要但困难的任务，这一事实进一步加剧了上述问题。传统的手工制作的特征在很大程度上依赖于领域专家的知识。通常，即使是领域专家也很难或不可能明确定义可以被清楚标识的特征，该特征可用于注释图像数据集，此外还可以预测感兴趣的标签。

另一个问题与标签诸如特定组织类型的分配有时是主观的这一事实相关。当训练数据集被许多不同的病理学家添加注释时，标签可能会有一定程度的不一致。因此，在这种不一致的训练数据集上训练的MLM的预测准确性可能会因为很大一部分“注释不一致/注释噪声”而降低。

由于上述原因，缺乏足够大小和质量的带注释的训练数据集是目前许多开放的生物医学问题无法通过当今已经可用的机器学习算法处理和解决的主要原因。

35页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：训练神经网络,以通过确定难观察到的界限辅助驾驶车辆

使用基于距离的相似性标签的机器学习

相关技术

网友询问留言