一种基于决策树模型的孤立肺结节恶性风险预测系统

文档序号:139298 发布日期:2021-10-22 浏览:30次 >En<

阅读说明:本技术 一种基于决策树模型的孤立肺结节恶性风险预测系统 (Decision tree model-based system for predicting malignant risk of isolated pulmonary nodules ) 是由 邬祚虹 陈勃江 程德云 李为民 于 2021-07-21 设计创作,主要内容包括:本发明属于医学诊断技术领域,具体涉及一种基于决策树模型的孤立肺结节恶性风险预测系统。本发明提供孤立肺结节恶性风险预测系统,包括:数据采集模块,用于采集和/或输入孤立性肺结节患者的变量数据;数据运算模块,用于将变量数据代入决策树模型进行计算,得到结节恶性概率和/或结节是否恶性的判断结论;数据输出模块,用于输出结节恶性概率和/或结节是否恶性的判断结论。本发明提供的模型适用于中国人群中的SPN患者的结节是否为恶性的诊断。(The invention belongs to the technical field of medical diagnosis, and particularly relates to a system for predicting malignant risk of isolated lung nodules based on a decision tree model. The present invention provides a system for predicting malignancy risk of an isolated lung nodule, comprising: the data acquisition module is used for acquiring and/or inputting variable data of the patient with the solitary pulmonary nodule; the data operation module is used for substituting the variable data into the decision tree model for calculation to obtain the malignant probability of the nodule and/or a judgment conclusion whether the nodule is malignant; and the data output module is used for outputting the malignant probability of the nodule and/or the judgment conclusion whether the nodule is malignant. The model provided by the invention is suitable for diagnosing whether the nodules of SPN patients in Chinese population are malignant.)

一种基于决策树模型的孤立肺结节恶性风险预测系统

技术领域

本发明属于医学诊断技术领域,具体涉及一种基于决策树模型的孤立肺结节恶性风险预测系统。

背景技术

在世界范围内,肺癌目前仍是造成癌症相关死亡的头号杀手(Al-Ameri etal.2015)。低剂量CT在癌症筛查中的广泛应用使得很多病人能够在早期发现肺癌,继而改善筛查人群的死亡率(Bach et al.2012;Criss et al.2018;Henschke et al.2006)。与此同时,作为肺癌影像学表现之一的肺结节能够得以被发现。孤立性肺结节的定义为直径小于30mm且被肺实质包围的一个类圆形病变,在病理结果上,约有1-12%的孤立性肺结节为恶性肺结节(Khan et al.2019)。目前孤立性肺结节的整体管理对临床医生而言是一个挑战,因为一个最佳的管理决策往往需要临床医师能够在早期识别具有恶性潜能的肺结节并给予恰当的干预(Chan et al.2017;Ost et al.2003)。

预测模型的出现能够帮助医生在临床上更好的识别恶性肺结节。目前现有技术中主要有Mayo Clinic模型、VA模型、PEH模型和Brock模型四种模型。为了验证上述四种模型对中国人群的有效性,申请人采用四川大学华西医院2008年1月-2016年12月手术切除并有明确病理诊断的孤立性肺结节(SPN)患者的病例数据对上述四种模型进行验证,发现上述模型不能够有效预测中国人群的SPN是否为恶性。

其中,Mayo Clinic模型是得到最广泛验证的模型,但是,在他们的患者中有12%的病人没有最终的病理诊断(Swensen et al.1997)。此外,先前的研究表明,梅奥模型并不能准确预测接受手术评估的患者发生肺部病变的恶性可能性(Isbell et al.2011)。在本申请所针对的人群中,梅奥模型(Mayo Clinic模型)的区分度最好,AUC为0.705,但是它仍然低估了恶性概率(Schultz et al.2008)。

Gould等人通过利用退伍军人事务部(VA)管理数据库中的数据,开发了另一种肺癌预测模型,VA模型。该模型具有与Mayo模型相似的准确性,但仅仅纳入了直径在7-30mm之间的肺结节,且模型中未包括结节的形态(Gould et al.2007)。对于VA模型而言(Gould etal.2007),由于缺乏形态学信息,老年白人人群基础、恶性肿瘤患病率较低(54%),因此其预测效能在本发明所针对的中国人人群中的表现较差。

McWilliams等人开发了第三个模型,Brock模型。这个模型源于布鲁克大学的一项前瞻性研究,随访时间为2年,但他们的模型并不适用于低危人群以及存在肺门或纵隔淋巴结肿大的人群(McWilliams et al.2013)。且该模型严格的纳入及排除标准限制了适用该模型的患者的数量,因此在本申请针对的人群中具有较差的区分度与校准度。

此外,北京大学人民医院构建了一个针对中国人的恶性肺结节预测模型,PEH模型。但是该模型从未在其他中国人群中进行过验证(Li and Wang 2012)。且其与本申请针对的人群(具有孤立肺结节且需要手术评估或活检的中国人人群)的匹配性仍然很差,它高估了本申请针对的人群患肺癌的风险。

总之,由于模型类型的选择及其对特定人群的预测准确性(或者说适用性)具有一定的关联性,而现有技术所提出的模型对具有孤立肺结节且需要手术评估或活检的中国人人群的恶性风险预测的准确度较差。

发明内容

针对上述现有模型的缺陷,本发明提供一种基于决策树模型的孤立肺结节恶性风险预测系统,成功构建了准确度更高的SPN恶性风险预测模型。

一种孤立肺结节恶性风险预测系统,其特征在于,包括:

数据采集模块,用于采集和/或输入孤立性肺结节患者的变量数据;

数据运算模块,用于将变量数据代入决策树模型,得到结节是否恶性的判断结论;

数据输出模块,用于输出结节是否恶性的判断结论。

优选的,所述变量数据包括患者的年龄、是否有吸烟史、CT结节边缘是否光滑、CT结节边界是否清楚、白细胞计数、淋巴细胞百分比、纤维蛋白原含量、血小板计数、球蛋白含量、单核细胞百分比、白蛋白含量、RBC分布宽度SD、血小板计数、是否饮酒、现欸嗜碱性粒细胞百分比、浅表淋巴结有无肿大、CT结节部位、CT有无胸腔积液、CT结节是否钙化。

优选的,所述变量数据包括患者的年龄、是否有吸烟史、CT结节边缘是否光滑、CT结节边界是否清楚、白细胞计数、淋巴细胞百分比、纤维蛋白原含量、血小板计数、球蛋白含量、单核细胞百分比和白蛋白含量。

优选的,所述决策树为二叉树;

所述决策树的根节点为年龄;

所述决策树的第二层节点包括CT结节边缘是否光滑和白细胞计数;当通过根节点年龄进行分类后,小于分割点的样本通过第二层节点CT结节边缘是否光滑进行下一步分类,大于等于分割点的样本通过第二层节点白细胞计数进行下一步分类;

所述决策树的第三层节点包括年龄、淋巴细胞百分比和CT结节边缘是否光滑;当通过第二层节点CT结节边缘进行分类后,分类为是的样本通过第三层节点年龄进行下一步分类,分类为否的样本通过第三层节点淋巴细胞百分比进行下一步分类;当通过第二层节点白细胞计数进行分类后,小于分割点的样本判断为良性结节,大于等于分割点的样本通过第三层节点CT结节边缘是否光滑进行下一步分类;

所述决策树的第四层节点包括纤维蛋白原含量、血小板计数和是否有吸烟史;当通过第三层节点年龄进行分类后,小于分割点的样本判断为良性结节,大于等于分割点的样本通过第四层节点纤维蛋白原含量进行下一步分类;当通过第三层节点淋巴细胞百分比进行分类后,小于分割点的样本判断为恶性结节,大于等于分割点的样本通过第四层节点血小板计数进行下一步分类;当通过第三层节点CT结节边缘是否光滑进行分类后,分类为是的样本通过第四层节点是否有吸烟史进行下一步分类,分类为否的样本判断为恶性结节;

所述决策树的第五层节点包括球蛋白含量和淋巴细胞百分比;当通过第四层节点纤维蛋白原含量进行分类后,小于分割点的样本通过第五层节点球蛋白含量进行下一步分类,大于等于分割点的样本判断为恶性结节;当通过第四层节点血小板计数进行分类后,小于分割点的样本判断为良性结节,大于等于分割点的样本判断为恶性结节;当通过第四层节点是否有吸烟史进行分类后,分类为是的样本通过第五层节点淋巴细胞百分比进行下一步分类,分类为否的样本判断为恶性结节;

所述第六层节点包括单细胞百分比、CT结节边界是否清楚和白蛋白含量;当通过第五层节点球蛋白含量进行分类后,小于分割点的样本判断为良性结节,大于等于分割点的样本通过第六层节点单细胞百分比进行下一步分类;当通过第五层节点球蛋白含量进行分类后,大于分割点的样本通过第六层节点CT结节边界是否清楚进行下一步分类,小于等于分割点的样本通过第六层节点白蛋白含量进行下一步分类;

当通过第六层节点单细胞百分比进行分类后,小于分割点的样本判断为良性结节,大于等于分割点的样本判断为恶性结节;当通过第六层节点CT结节边界是否清楚进行分类后,分类为是的样本判断为良性结节,分类为否的样本判断为恶性结节;当通过第六层节点白蛋白含量进行分类后,大于等于分割点的样本判断为良性结节,小于分割点的样本判断为恶性结节。

优选的,所述根节点年龄的分割点为58岁;

和/或,所述第二层节点白细胞计数的分割点为4.2x109/L;

和/或,所述第三层节点年龄的分割点为50岁;

和/或,所述第三层节点淋巴细胞百分比的分割点为29%;

和/或,所述第四层节点纤维蛋白原含量的分割点为4.3g/L;

和/或,所述第四层节点血小板计数的分割点为208x109/L;

和/或,所述第五层节点球蛋白含量的分割点为25g/L;

和/或,所述第五层节点淋巴细胞百分比的分割点为29%;

和/或,所述第六层节点单细胞百分比的分割点为5%;

和/或,所述第六层节点白蛋白含量的分割点为36g/L。

优选的,所述决策树模型通过CART算法进行构建,所述CART算法中,将孤立性肺结节患者的变量数据作为分析的自变量,是否恶性的判断结论为目标变量。

优选的,所述孤立性肺结节患者为通过CT扫描检测后,医生认为有必要进一步进行手术或活检的患者。

优选的,所述孤立性肺结节患者的结节数量为一个。

本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时使上述系统实现以下步骤,包括:

(1)采集和/或输入孤立性肺结节患者的变量数据;

(2)将变量数据代入决策树模型进行计算,得到结节恶性概率和/或结节是否恶性的判断结论;

(3)输出结节恶性概率和/或结节是否恶性的判断结论。

本发明还提供一种计算机可读存储介质,其上存储有上述计算机程序。

采用了本发明的技术方案具有如下优点:

(1)由于构建模型时采用的训练样本为四川大学华西医院2008年1月-2016年12月手术切除并有明确病理诊断的孤立性肺结节(SPN)患者的病例数据,这是一个大型的中国人群,因而本发明选择的模型种类更加适应于中国人人群,对于中国人人群的判断更加准确。

(2)当面对CT扫描中的结节时,尤其是那些高度怀疑为恶性肿瘤的结节,必须要平衡选择。因为无论是肺活检还是外科手术,都有很多风险。由于转诊到四川大学华西医院的患者通常是在CT扫描中显示的结节被当地医生高度怀疑为恶性的情况,往往建议他们进一步进行手术或活检。因此,以这些病例数据作为训练集,本发明选择的模型种类相比于现有技术的模型更适用于需要手术评估或活检的患者。能够为临床医生在做出手术或活检选择之前,提供了有价值的信息,能够有效降低风险。

(3)本发明提供的方案从区分度和校准度两个角度均具有较好的性能,而现有技术中很少对模型的区分度进行考察(Alba et al.2017)。本发明模型的AUC达到0.734,具有优于现有技术中四种模型的区分度。且本发明的模型在灵敏度、特异度和似然比的方面也具有提升,因而表现出了很好的校准度。

(5)优选方案中,将饮酒史作为一个独立的危险因素,在其他模型中未见报道。且饮酒与肺癌发生风险之间的关系也还存在争议。而本发明的技术方案中,将饮酒史作为一个独立的危险因素,能够提高预测结果的准确性。

(6)现有模型中常常将结节的最大直径作为一个因素进行分析,这是由于在本领域现有的认知中,随着肺结节体积增大,其恶性概率也随之增加。而在本发明优选方案中,提供的模型并没有纳入结节的最大直径。在本发明采用的训练集数据中最大直径没有显着差异,良恶性组的平均直径分别为17.00±8.82mm,17.56±7.00mm。

显然,根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。

以下通过实施例形式的

具体实施方式

,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。

附图说明

图1为本发明提供的决策树的示意图。

具体实施方式

本发明实施例及对比例所用的数据及其处理过程如下:

1、研究人群

回顾性地纳入了2008年1月至2016年12月于四川大学华西医院就诊的2061例影像学诊断为SPN的患者,且所有SPN的诊断均通过手术或活检在病理上得到确认。患者的纳入标准如下:I.CT扫描显示SPN,且结节最大直径小于30mm;II.每个结节都有对应的组织病理学结果。胸部CT呈现多个结节、有肺癌或肺外恶性肿瘤病史的患者将被排除在外。

2、数据收集

通过对患者病历进行筛查,收集了SPN患者的人口统计学数据,病史以及结节的影像学特征。此外,通过查看CT以获取以下信息:结节数量,结节位置,结节最大直径,结节形状,结节边缘,结节边界,结节是否为壁厚,是否存在胸膜积液,结节是否有钙化,结节是否分叶,胸膜牵拉征等。此外,还收集了患者的实验室检查结果。

3、数据清洗

根据纳入和排除标准,最初纳入了995个患者的111个变量进行分析。首先,我们选择缺失率小于20%的变量,剩下了73个变量用于单因素分析。单因素分析后剩下23个p值<0.05变量。接下来,通过排除缺失数据、离散值分布不均及记录不准确的变量及患者,最终有721例患者的19个变量进行模型构建和验证。

对比例

共筛选2061例SPN患者,满足梅奥模型的纳入和排除标准者726例,其中肺癌556例,良性170例,代入梅奥模型计算AUC 0.705(95%CI:0.658-0.752),以≥17.06%作为判断为恶性结节的阈值,灵敏度81.47%(95%CI:77.99%-84.62%),特异度52.35%(95%CI:44.57%-60.06%),似然比1.71。

满足VA模型的纳入和排除标准者800例,其中肺癌606例,良性194例,计算AUC为0.646(95%CI:0.598-0.695),以≥13.81%作为判断为恶性结节的阈值,灵敏度79.21%(95%CI:75.76%-82.37%),特异度48.45%(95%CI:41.23%-55.72%),似然比1.537。

满足Brock模型的纳入和排除标准者550例,其中肺癌478例,良性71例,计算AUC为0.575(95%CI:0.502-0.648),以≥25.55%作为判断为恶性结节的阈值,灵敏度60.88%(95%CI:56.34%-65.28%),特异度57.75%(95%CI:45.44%-69.39%),似然比1.441。

满足PEH模型的纳入和排除标准者726例,其中肺癌556例,良性170例,计算AUC为0.675(95%CI:0.627-0.723),以≥100.00%作为判断为恶性结节的阈值,灵敏度80.36%(95%CI:76.79%-83.60%),特异度47.73%(95%CI:40.16%-55.37%),似然比1.537。

从验证结果可见,四种模型的AUC范围在0.575-0.705,因而对样本仅具有中等区分度。VA模型和Brock模型的灵敏度和特异度均较低,似然比较高,说明其容易出现假阳性(良性结节误判为恶性结节)和假阴性(恶性结节误判为良性结节)的判断;而梅奥模型及PEH模型特异度较低,似然比较高,说明其容易出现假阴性的判断。这说明四种现有的模型都不能够对本申请采用的患者数据所代表的人群的SPN恶性概率进行准确的判断。

实施例1:决策树模型

利用其中721例受试者数据建模,其中恶性与良性病例分别为522例、199例。按3:1分配建模组和验证组,建模组541例(恶性392例,良性149例);验证组180例(恶性130例,良性50例)。

本实施例通过使用CART算法来生成二分类树,并且使用了Gini系数(Menze etal.2009)。

在该模型中,将19个变量作为输入变量,进行剪枝后剩下11个变量构建的决策树,包括:患者的年龄、是否有吸烟史、CT结节边缘是否光滑、CT结节边界是否清楚、白细胞计数、淋巴细胞百分比、纤维蛋白原含量、血小板计数、球蛋白含量、单核细胞百分比和白蛋白含量。该树的大小为29,有7层和15个叶子,其中第一个分割变量年龄(根节点)是最重要的因素,此后生成15条if-then规则。最终生成的决策数及其Gini系数如图1所示(其中“0”代表良性结节,“1”代表恶性结节)。

采用验证组对模型进行验证,得到决策树模型的AUC 0.734(95%CI:0.647-0.821),灵敏度78.20%,特异度56.25%,似然比1.392。

通过上述实施例与对比例进行比较,可以看到,相比于现有技术中的四种模型,本发明提供的模型AUC相对于现有技术中的四种模型均有提升,表现出良好的区分度。且本发明的模型灵敏度和特异度均有较大提升,似然比下降。可见本发明的模型在较准度方面有所提升,能够更加准确地判断具有孤立肺结节且需要手术评估或活检的中国人人群的SPN是否为恶性结节。

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:多通道智能健康数据测控系统及方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!