肺癌手术后生存率预测方法和系统

文档序号:117078 发布日期:2021-10-19 浏览:29次 >En<

阅读说明:本技术 肺癌手术后生存率预测方法和系统 (Method and system for predicting survival rate after lung cancer surgery ) 是由 何建行 梁文华 李坚福 于 2021-09-13 设计创作,主要内容包括:本公开实施例公开了一种肺癌手术后生存率预测方法和系统。其中,通过测量包括基因突变分型在内的临床数据来预测肺癌手术后生存率的方法包括:数据获取步骤,获取肺癌手术后临床数据;预处理步骤,对肺癌手术后临床数据进行分类分组,得到建模组临床数据和验证组临床数据;危险因素筛选步骤,对建模组临床数据进行危险因素筛选,得到危险因素数据和总生存期数据;回归分析步骤,对危险因素数据和总生存期数据进行回归分析,得到回归分析后数据,肺癌手术后临床数据包括基因突变分型,年龄,肿瘤大小,淋巴结转移,手术方式。(The embodiment of the disclosure discloses a method and a system for predicting survival rate after lung cancer surgery. Wherein, the method for predicting the survival rate of the lung cancer after the operation by measuring the clinical data including the gene mutation typing comprises the following steps: a data acquisition step, in which clinical data after lung cancer surgery are acquired; a preprocessing step, namely classifying and grouping clinical data after lung cancer surgery to obtain modeling group clinical data and verification group clinical data; a risk factor screening step, namely screening risk factors of the clinical data of the modeling group to obtain risk factor data and total life cycle data; and a regression analysis step, wherein the risk factor data and the overall survival period data are subjected to regression analysis to obtain data after the regression analysis, and clinical data after lung cancer surgery comprise gene mutation typing, age, tumor size, lymph node metastasis and a surgery mode.)

肺癌手术后生存率预测方法和系统

技术领域

本公开涉及外科手术领域,具体涉及通过测量包括基因突变分型在内的临床数据来预测肺癌手术后生存率的方法和系统。

背景技术

早期肺癌包括I、II期以及III期疾病的一个亚组。非小细胞肺癌的标准治疗是根治性切除术。在肺癌手术后,需要对患者的手术后生存率进行预测。

现有技术中,采用TNM分期对肺癌手术后无病生存率进行预测。TNM分期的第七版是最广泛使用的分期系统,根据肿瘤的大小和浸润以及淋巴结受累的程度对非转移性NSCLC患者进行分层。然而,用TNM分期预测肺癌手术后无病生存率欠缺精准,同一分期的不同患者无病生存率差异很大,对手术后无病生存率的预测非常不准确。

已公开专利文献CN111640518A中,记载了使用宫颈癌术后生存预测模型,对宫颈癌患者的术后无病生存率进行预测的方法。其中的参数选择、列线图等适合于宫颈癌的术后无病生存率,而孕产史、HPV分型、FIGO分期是宫颈癌的相关指标,不是肺癌相关指标,而宫颈癌和肺癌为完全不同的两类疾病,因此由这些指标得到的CN111640518A中的列线图不适合于早期肺癌患者的术后无病生存率预测。

因此,需要采用其它更为有效的方式,对早期肺癌患者的术后无病生存率进行更为准确的预测。而在预测过程中,预测参数等的选择,对于预测结果的准确性非常重要。

发明内容

为了解决相关技术中的问题,本公开实施例提供通过测量包括基因突变分型在内的临床数据来预测肺癌手术后生存率的方法和系统。

第一方面,本公开实施例中提供了一种通过测量包括基因突变分型在内的临床数据来预测肺癌手术后生存率的方法,包括:

数据获取步骤,获取肺癌手术后临床数据;

预处理步骤,对所述肺癌手术后临床数据进行分类分组,得到建模组临床数据和验证组临床数据;

危险因素筛选步骤,对所述建模组临床数据进行危险因素筛选,得到危险因素数据和总生存期数据;

回归分析步骤,对所述危险因素数据和所述总生存期数据进行回归分析,得到回归分析后数据,

所述肺癌手术后临床数据包括基因突变分型,年龄,肿瘤大小,淋巴结转移,手术方式,

所述回归分析通过以下公式计算

ln[h(t,X)/h0(t)]=β1*年龄+β2*肿瘤大小+β3*淋巴结转移+β4*手术方式+β5*基因突变分型,

h(t,X)是回归分析后数据,h0(t)是基准风险率,β1、β2、β3、β4、β5是系数,取值为

结合第一方面,本公开在第一方面的第一种实现方式中,

所述危险因素筛选步骤包括:使用套索分析方法对所述建模组临床数据进行危险因素筛选,得到危险因素数据和总生存期数据。

结合第一方面,本公开在第一方面的第二种实现方式中,

所述回归分析步骤包括:使用多因素Cox分析方法,对所述危险因素数据和所述总生存期数据进行回归分析,得到回归分析后数据。

结合第一方面,本公开在第一方面的第三种实现方式中,

所述肺癌手术后临床数据还包括以下的至少一项:病理类型;和/或

所述回归分析后数据包括:术后无病生存率;和/或

所述危险因素数据包括基因突变分型,还包括以下的至少一项:年龄,肿瘤大小,淋巴结转移,手术方式。

结合第一方面,本公开在第一方面的第四种实现方式中,

所述肺癌包括:肺癌I-IIIA期;和/或

所述基因突变分型包括:EGFR突变,HER2突变,MET扩增,ALK融合,ROIS1融合,Kras突变,RET融合,Braf突变。

结合第一方面,本公开在第一方面的第五种实现方式中,

所述预处理步骤包括:对所述肺癌手术后临床数据中的连续型数据,采取接受者操作特性曲线最佳约登值方法获取最佳临界点,采用所述最佳临界点对多个分类的肺癌手术后临床数据进行分组,得到所述建模组临床数据和所述验证组临床数据。

结合第一方面,本公开在第一方面的第六种实现方式中,

验证步骤,对所述危险因素筛选步骤和所述回归分析步骤进行验证。

结合第一方面的第六种实现方式,本公开在第一方面的第七种实现方式中,所述验证步骤包括:

采用机器学习方法,基于所述危险因素筛选步骤,所述回归分析步骤和所述验证组临床数据,计算接受者操作特性曲线的线下面积,敏感度,特异度;

根据所述接受者操作特性曲线的线下面积,敏感度,特异度,判断所述危险因素筛选步骤和所述回归分析步骤的处理准确性。

结合第一方面的第七种实现方式,本公开在第一方面的第八种实现方式中,所述机器学习方法包括以下的至少一种:

逻辑回归方法、支持向量机方法、随机森林方法、决策树方法、k近邻方法、朴素贝叶斯方法、AdaboDFSt方法。

结合第一方面的第八种实现方式,本公开在第一方面的第九种实现方式中,

在所述接受者操作特性曲线下的面积大于0.65,所述敏感度大于0.5,所述特异度大于0.5的条件下,判断所述危险因素筛选步骤和所述回归分析步骤的处理准确。

结合第一方面,本公开在第一方面的第十种实现方式中,还包括:

展示步骤,以图形化方式展示所述危险因素数据和所述回归分析后数据间的关系。

结合第一方面的第十种实现方式,本公开在第一方面的第十一种实现方式中,

所述展示步骤包括:使用列线图展示所述危险因素数据和所述回归分析后数据间的关系。

第二方面,本公开实施例中提供了一种通过测量包括基因突变分型在内的临床数据来预测肺癌手术后生存率的系统,包括:

数据获取模块,用于获取肺癌手术后临床数据;

预处理模块,用于对所述肺癌手术后临床数据进行分类分组,得到建模组临床数据和验证组临床数据;

危险因素筛选模块,用于对所述建模组临床数据进行危险因素筛选,得到危险因素数据和总生存期数据;

回归分析模块,用于对所述危险因素数据和所述总生存期数据进行回归分析,得到回归分析后数据,

所述肺癌手术后临床数据包括基因突变分型,年龄,肿瘤大小,淋巴结转移,手术方式,

所述回归分析通过以下公式计算

ln[h(t,X)/h0(t)]=β1*年龄+β2*肿瘤大小+β3*淋巴结转移+β4*手术方式+β5*基因突变分型,

h(t,X)是回归分析后数据,h0(t)是基准风险率,β1、β2、β3、β4、β5是系数,取值为

结合第二方面,本公开在第二方面的第一种实现方式中,

所述危险因素筛选模块用于:使用套索分析方法对所述建模组临床数据进行危险因素筛选,得到危险因素数据和总生存期数据。

结合第二方面,本公开在第二方面的第二种实现方式中,

所述回归分析模块用于:使用多因素Cox分析方法,对所述危险因素数据和所述总生存期数据进行回归分析,得到回归分析后数据。

结合第二方面,本公开在第二方面的第三种实现方式中,

所述肺癌手术后临床数据还包括以下的至少一项:病理类型;和/或

所述回归分析后数据包括:术后无病生存率;和/或

所述危险因素数据包括基因突变分型,还包括以下的至少一项:年龄,肿瘤大小,淋巴结转移,手术方式。

结合第二方面,本公开在第二方面的第四种实现方式中,

所述肺癌包括:肺癌I-IIIA期;和/或

所述基因突变分型包括:EGFR突变,HER2突变,MET扩增,ALK融合,ROIS1融合,Kras突变,RET融合,Braf突变。

结合第二方面,本公开在第二方面的第五种实现方式中,

所述预处理模块用于:对所述肺癌手术后临床数据中的连续型数据,采取接受者操作特性曲线最佳约登值方法获取最佳临界点,采用所述最佳临界点对多个分类的肺癌手术后临床数据进行分组,得到所述建模组临床数据和所述验证组临床数据。

结合第二方面,本公开在第二方面的第六种实现方式中,还包括:

验证模块,用于对所述危险因素筛选模块和所述回归分析模块进行验证。

结合第二方面的第六种实现方式,本公开在第二方面的第七种实现方式中,所述验证模块用于:

采用机器学习方法,基于所述危险因素筛选模块,所述回归分析模块和所述验证组临床数据,计算接受者操作特性曲线的线下面积,敏感度,特异度;

根据所述接受者操作特性曲线的线下面积,敏感度,特异度,判断所述危险因素筛选模块和所述回归分析模块的处理准确性。

结合第二方面的第七种实现方式,本公开在第二方面的第八种实现方式中,所述机器学习方法包括以下的至少一种:

逻辑回归方法、支持向量机方法、随机森林方法、决策树方法、k近邻方法、朴素贝叶斯方法、AdaboDFSt方法。

结合第二方面的第八种实现方式,本公开在第二方面的第九种实现方式中,

在所述接受者操作特性曲线下的面积大于0.65,所述敏感度大于0.5,所述特异度大于0.5的条件下,判断所述危险因素筛选模块和所述回归分析模块的处理准确。

结合第二方面,本公开在第二方面的第十种实现方式中,还包括:

展示模块,用于以图形化方式展示所述危险因素数据和所述回归分析后数据间的关系。

结合第二方面的第十种实现方式,本公开在第二方面的第十一种实现方式中,

所述展示模块用于:使用列线图展示所述危险因素数据和所述回归分析后数据间的关系。

本公开实施例提供的技术方案可以包括以下有益效果:

根据本公开实施例提供的技术方案,通过肺癌手术后生存率预测方法包括:数据获取步骤,获取肺癌手术后临床数据;预处理步骤,对肺癌手术后临床数据进行分类分组,得到建模组临床数据和验证组临床数据;危险因素筛选步骤,对建模组临床数据进行危险因素筛选,得到危险因素数据和总生存期数据;回归分析步骤,对危险因素数据和总生存期数据进行回归分析,得到回归分析后数据,肺癌手术后临床数据包括基因突变分型,年龄,肿瘤大小,淋巴结转移,手术方式,所述回归分析通过以下公式计算ln[h(t,X)/h0(t)]=β1*年龄+β2*肿瘤大小+β3*淋巴结转移+β4*手术方式+β5*基因突变分型,h(t,X)是回归分析后数据,h0(t)是基准风险率,β1、β2、β3、β4、β5是系数,取值为

从而提高患者生存预测模型的准确性,对术后无病生存率进行准确的估计。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

结合附图,通过以下非限制性实施方式的详细描述,本公开的其他特征、目的和优点将变得更加明显。以下是对附图的说明。

图1a示出根据本公开一实施方式的对肺癌患者数据进行分组的实施场景的示例性示意图。

图1b示出根据本公开一实施方式的患者生存预测模型的实施场景的示例性示意图。

图1c示出根据本公开一实施方式的验证患者生存预测模型的实施场景的示例性示意图。

图1d示出根据本公开一实施方式的用于预测患者无病生存率的列线图的示例性示意图。

图1e示出根据本公开一实施方式的受试者工作特性曲线的示例性示意图。

图2示出根据本公开一实施方式的通过测量包括基因突变分型在内的临床数据来预测肺癌手术后生存率的方法的流程图。

图3示出根据本公开又一实施方式的通过测量包括基因突变分型在内的临床数据来预测肺癌手术后生存率的方法的流程图。

图4示出根据本公开再一实施方式的通过测量包括基因突变分型在内的临床数据来预测肺癌手术后生存率的方法的流程图。

图5示出根据本公开另一实施方式的通过测量包括基因突变分型在内的临床数据来预测肺癌手术后生存率的系统的结构框图。

具体实施方式

下文中,将参考附图详细描述本公开的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。

在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的标签、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他标签、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的标签可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

对早期肺癌,包括I、II期以及III期疾病的一个亚组,标准的治疗是根治性切除术。TNM分期的第七版是最广泛使用的肿瘤分期系统,根据肿瘤的大小和浸润以及淋巴结受累的程度对非转移性NSCLC患者进行分层。然而,TNM分期欠缺精准,同一分期的患者其术后无病生存率差异很大。因此,需要采用其它更为有效的方式,对早期肺癌患者的术后无病生存率进行更为准确的预测。而在预测过程中,预测参数和系数等的选择,对于结果的准确性非常重要。

为了解决上述问题,本公开提出一种肺癌手术后生存率预测方法和系统。

图1a示出根据本公开一实施方式的对肺癌患者数据进行分组的实施场景的示例性示意图。

图1a具体示出了通过测量包括基因突变分型在内的临床数据来预测肺癌手术后生存率的方法对患者数据进行分组的过程。

本领域普通技术人员可以理解,图1a示例性示出了对肺癌患者数据进行分组的实施场景,而不构成对本公开的限制。

如图1a所示,针对获取的肺癌患者数据101,步骤S101进行3:1随机分组,得到建模组数据102和验证组数据103。其中,建模组数据102和验证组数据103的数据量比值为3:1。建模组数据102用于训练患者生存预测模型,验证组数据103用于验证患者生存预测模型的结果准确性。

在本公开的实施例中,肺癌患者数据101包括基因突变分型,年龄,肿瘤大小,淋巴结转移,手术方式。基因突变分型包括以下的全部8个种类:EGFR突变,HER2突变,MET扩增,ALK融合,ROS1融合,Kras突变,RET融合,Braf突变。

在本公开的实施例中,采用上述8种基因突变分型,可以对无病生存率进行较为准确的预测。例如:EGFR对肿瘤细胞的繁殖、生长、修复和存活等起重要作用。EGFR突变可以在例如非小细胞肺癌的上皮来源的肿瘤中过表达。另外,EGFR突变还与新生血管生成、肿瘤的侵袭和转移、肿瘤的化疗抗性和预后密切相关。HER2突变高表达的肿瘤表现出较强的转移能力和浸润能力,对化疗的敏感性也较差,且易复发。MET基因编码的c-Met蛋白是肝细胞生长因子(HGF)的酪氨酸激酶受体,HGF与c-Met结合激活下游信号通路,促进细胞增殖、生长、迁移、血管生成。当MET基因出现扩增,就会持续激活相关信号通路,使肺癌细胞不断增殖和转移。

在本公开的实施例中,肺癌患者数据101还包括病理类型。

在本公开的实施例中,肺癌患者数据101可以通过多种方式测量来获取,例如CT检查、胸穿刺活检、基因检测试剂盒等方式。

在本公开的实施例中,肺癌患者数据101可以存储于数据库中,以利于随时提取肺癌患者数据101,并进行综合分析。

在本公开的实施例中,可以对临床的肺癌患者数据101中的例如年龄的连续型数据采取接受者操作特性(Receiver Operating Characteristic,ROC)曲线最佳约登值的方法寻找最佳临界点,基于最佳临界点进行临床肺癌患者数据的多分类的分组。对于分类数据,例如患者的肿瘤大小、淋巴结转移、手术方式、病理类型和辅助治疗方案等,均可以作为分组数据处理。

在本公开的实施例中,肺癌患者进入统计分析的入组标准是:

1 .TNM分期为TNM I-IIIA期的早期肺癌患者;

2 .手术治疗为首选治疗方案,并且术前未行新辅助化疗或放疗;

3 .手术方式为:肺癌根治切除术+淋巴结清扫术;

4 .术后随访时间至少3年以上。

排除肺癌患者的标准是:

1 .任意临床信息缺失;

2 .不同时合并其他原发恶性肿瘤。

在本公开的实施例中,肺癌患者的入组人数可以在500例以上。

本领域普通技术人员可以理解,肺癌患者的入组人数也可以是其它数值,例如大于500的1000等数值,本公开对此不作限定。

图1b示出根据本公开一实施方式的患者生存预测模型的实施场景的示例性示意图。

图1b具体示出了通过测量包括基因突变分型在内的临床数据来预测肺癌手术后生存率的方法中的患者生存预测模型的工作流程。

本领域普通技术人员可以理解,图1b示例性示出了患者生存预测模型的实施场景,而不构成对本公开的限制。

如图1b所示,对建模组数据102,步骤S102进行例如套索分析(LASSO分析)的危险因素筛选,得到危险因素数据和总无病生存期(Disease-free Survival,DFS)数据104。

LASSO分析是在最小二乘基础上增加了一个惩罚项来对估计参数进行压缩,当参数缩小到小于一个阈值的时候,就令它变为0,从而选择出对因变量影响较大的自变量并计算出相应的回归系数。LASSO分析在处理存在多重共线性的样本数据时有明显的优势。LASSO分析的公式是

FLASSO=‖y-Xw‖2+λ‖w‖

其中,y为因变量,X为自变量,w为损失函数,λ为惩罚系数。

在本公开的实施例中,危险因素数据包括基因突变分型。基因突变分型包括:EGFR突变,HER2突变,MET扩增,ALK融合,ROIS1融合,Kras突变,RET融合,Braf突变。危险因素数据还包括以下的至少一种:年龄,肿瘤大小,淋巴结转移,手术方式,。对同一肺癌患者,其危险因素数据和总生存期数据相对应。

总生存期数据是从随机化分组开始,至因任何原因引起死亡的时间。对于死亡之前就已经失访的受试者,可以将最后一次随访时间计算为死亡时间。

在本公开的实施例中,例如S103多因素Cox分析的回归分析步骤对危险因素数据和总生存期数据104进行回归分析,得到例如术后无病生存率的回归分析后数据。多因素Cox分析采用以下方式计算术后无病生存率:

ln[h(t,X)/h0(t)]=β1*年龄+β2*肿瘤大小+β3*淋巴结转移+β4*手术方式+β5*基因突变分型(β值见下表),其中ln代表取对数,h0(t)代表基准风险率,β1、β2、β3、β4、β5是系数。

在本公开的实施例中,在上述公式中,肿瘤大小、淋巴结转移、手术方式、年龄、基因突变分型的取值均可以为1。

根据危险因素数据和术后无病生存率,在步骤S104中,建立列线图预测患者生存得分和相应的概率。列线图如图1d所示。

在本公开的实施例中,LASSO分析S102和多因素Cox分析S103共同组成了患者生存预测模型105。

图1c示出根据本公开一实施方式的验证患者生存预测模型的实施场景的示例性示意图。

图1c具体示出了通过测量包括基因突变分型在内的临床数据来预测肺癌手术后生存率的方法中的验证流程。

本领域普通技术人员可以理解,图1c示例性示出了验证患者生存预测模型的实施场景,而不构成对本公开的限制。

在本公开的实施例中,基于患者生存预测模型105和验证组数据103,由人工智能模型S105计算出ROC曲线下面积,灵敏度,特异度106,并在步骤S106中进行患者生存预测模型准确性预测。

在本公开的实施例中,人工智能模型可以使用逻辑回归(LR)方法、支持向量机(Support Vector Machine,SVM)方法、随机森林(Random Forest,RF)方法、决策树(Decision Tree,DT)方法、k近邻(K-NearestNeighbor,KNN)方法、朴素贝叶斯(NaiveBayesian,NB)方法和AdaboDFSt(Ada)方法中的至少一种,采用10折交叉验证的方法,得到ROC曲线,并计算出灵敏度、特异度。当ROC曲线下面积大于0 .65,可以预测患者生存预测模型具有良好的模型区分度;敏感度及特异度均大于0.5时,可以预测患者生存预测模型具有良好的预测效果。通过综合ROC曲线下面积和敏感度、特异度,当ROC曲线下面积大于0 .65,且敏感度及特异度均大于0.5时,可以预测患者生存预测模型具有较高的准确性。

图1d示出根据本公开一实施方式的用于预测患者无病生存率的列线图的示例性示意图。

图1d具体示出了通过测量包括基因突变分型在内的临床数据来预测肺癌手术后生存率的方法中的用于预测患者无病生存率的列线图。

本领域普通技术人员可以理解,图1d示例性示出了用于预测患者无病生存率的列线图,而不构成对本公开的限制。

列线图是通过构建多因素Cox回归模型,根据模型中各个影响因素对结局变量的影响程度的高低 (回归系数的大小),给每个影响因素的每个取值水平进行赋分,然后再将各个评分相加得到总评分,最后通过总评分与结局事件发生概率之间的函数转换关系,从而计算出该个体结局事件的预测概率。基于图1d所示的列线图,可以使用肿瘤大小、淋巴结转移、年龄、手术类型和基因突变分型的各危险因素的取值,得到各危险因素对应的点数。各危险因素对应的点数相加和,得到总点数。由总点数可以得到相应的1年无病生存率、3年无病生存率、5年无病生存率。

在本公开的实施例中,如图1d的列线图所示,通过Cox回归模型得到优化的各危险因素的取值和点数间的对应关系。例如:当肿瘤大小为1时,对应的点数为0;当肿瘤大小为2时,对应的点数为33;当肿瘤大小为3时,对应的点数为66;当肿瘤大小为4时,对应的点数为100。当基因突变分型为Pure EGFR mutation/AE Function时,对应的点数为0;当基因突变分型为Others时,对应的点数为24。通过上述各危险因素的取值和点数间的对应关系,使得图1e中的工作特性曲线107的线下面积大于0.65。而对应的敏感度、特异度均大于0.5,具体是受试者工作特性曲线的线下面积为0.71,对应的敏感度为0.67,特异度为0.68,从而得到1年无病生存率、3年无病生存率、5年无病生存率的准确结果。

图1e示出根据本公开一实施方式的受试者工作特性曲线的示例性示意图。

图1e具体示出了通过测量包括基因突变分型在内的临床数据来预测肺癌手术后生存率的方法的受试者工作特性曲线。

本领域普通技术人员可以理解,图1e示例性示出了受试者工作特性曲线,而不构成对本公开的限制。

如图1e所示,受试者工作特性曲线107的线下面积为0.71,大于0.65。而对应的敏感度为0.67,特异度为0.68,均大于0.5。因此,患者生存预测模型具有良好的模型区分效果和预测效果,具有较高的准确性。

图2示出根据本公开一实施方式的通过测量包括基因突变分型在内的临床数据来预测肺癌手术后生存率的方法的流程图。

如图2所示,通过测量包括基因突变分型在内的临床数据来预测肺癌手术后生存率的方法包括:步骤S201、S202、S203、S204。

在步骤S201中,获取肺癌手术后临床数据。

在步骤S202中,对肺癌手术后临床数据进行分类分组,得到建模组临床数据和验证组临床数据。

在步骤S203中,对建模组临床数据进行危险因素筛选,得到危险因素数据和总生存期数据。

在步骤S204中,对危险因素数据和总生存期数据进行回归分析,得到回归分析后数据。

步骤S201是数据获取步骤,步骤S202是预处理步骤,步骤S203是危险因素筛选步骤,步骤S204是回归分析步骤。

肺癌手术后临床数据包括基因突变分型,年龄,肿瘤大小,淋巴结转移,手术方式,

所述回归分析通过以下公式计算

ln[h(t,X)/h0(t)]=β1*年龄+β2*肿瘤大小+β3*淋巴结转移+β4*手术方式+β5*基因突变分型,

h(t,X)是回归分析后数据,h0(t)是基准风险率,β1、β2、β3、β4、β5是系数,取值为

根据本公开的实施方式,通过数据获取步骤,获取肺癌手术后临床数据;预处理步骤,对肺癌手术后临床数据进行分类分组,得到建模组临床数据和验证组临床数据;危险因素筛选步骤,对建模组临床数据进行危险因素筛选,得到危险因素数据和总生存期数据;回归分析步骤,对危险因素数据和总生存期数据进行回归分析,得到回归分析后数据,肺癌手术后临床数据包括基因突变分型,年龄,肿瘤大小,淋巴结转移,手术方式,回归分析通过以下公式计算ln[h(t,X)/h0(t)]=β1*年龄+β2*肿瘤大小+β3*淋巴结转移+β4*手术方式+β5*基因突变分型,h(t,X)是回归分析后数据,h0(t)是基准风险率,β1、β2、β3、β4、β5是系数,取值为

从而筛选出对术后无病生存率更为相关的危险因素,提高患者生存预测模型的准确性,对术后无病生存率进行了准确的估计。

根据本公开的实施方式,通过危险因素筛选步骤包括:使用套索分析方法对所述建模组临床数据进行危险因素筛选,得到危险因素数据和总生存期数据,从而获得与术后无病生存率更为相关的危险因素,提高术后无病生存率的估计准确性。

根据本公开的实施方式,通过回归分析步骤包括:使用多因素Cox分析方法,对危险因素数据和总生存期数据进行回归分析,得到回归分析后数据,从而获得准确的回归后分析数据,提高患者生存预测模型的准确性,提高术后无病生存率的估计准确性。

根据本公开的实施方式,通过肺癌手术后临床数据还包括病理类型;和/或回归分析后数据包括:术后无病生存率;和/或危险因素数据包括基因突变分型,还包括以下的至少一项:年龄,肿瘤大小,淋巴结转移,手术方式,从而选取合适的肺癌手术后临床数据,危险因素数据,提高患者生存预测模型的准确性,提高术后无病生存率的估计准确性。

根据本公开的实施方式,通过肺癌包括:肺癌I-IIIA期;和/或基因突变分型包括:EGFR突变,HER2突变,MET扩增,ALK融合,ROIS1融合,Kras突变,RET融合,Braf突变,从而选择合理的肺癌适用类型,提高患者生存预测模型的准确性,提高术后无病生存率的估计准确性。

根据本公开的实施方式,通过预处理步骤包括:对肺癌手术后临床数据中的连续型数据,采取接受者操作特性曲线最佳约登值方法获取最佳临界点,采用最佳临界点对多个分类的肺癌手术后临床数据进行分组,得到建模组临床数据和所述验证组临床数据,从而进行合理数据分组,提高患者生存预测模型的准确性,提高术后无病生存率的估计准确性。

图3示出根据本公开又一实施方式的通过测量包括基因突变分型在内的临床数据来预测肺癌手术后生存率的方法的流程图。

如图3所示,通过测量包括基因突变分型在内的临床数据来预测肺癌手术后生存率的方法除了包括和图2相同的步骤S201、S202、S203、S204,还包括:步骤S301。

在步骤S301中,对危险因素筛选步骤和回归分析步骤进行验证。

步骤S301是验证步骤。

根据本公开的实施方式,通过还包括:验证步骤,对危险因素筛选步骤和所述回归分析步骤进行验证,从而验证患者生存预测模型的准确性。

根据本公开的实施方式,通过验证步骤包括:采用机器学习方法,基于危险因素筛选步骤,回归分析步骤和验证组临床数据,计算接受者操作特性曲线的线下面积,敏感度,特异度;根据接受者操作特性曲线的线下面积,敏感度,特异度,判断危险因素筛选步骤和回归分析步骤的处理准确性,从而验证患者生存预测模型的准确性。

根据本公开的实施方式,通过机器学习方法包括以下的至少一种:逻辑回归方法、支持向量机方法、随机森林方法、决策树方法、k近邻方法、朴素贝叶斯方法、AdaboDFSt方法,从而准确计算接受者操作特性曲线的线下面积,敏感度,特异度,对患者生存预测模型进行准确验证。

根据本公开的实施方式,通过在接受者操作特性曲线下的面积大于0.65,所述敏感度大于0.5,所述特异度大于0.5的条件下,判断危险因素筛选步骤和回归分析步骤的处理准确,从而得到患者生存预测模型的准确性的定量化预测标准。

图4示出根据本公开再一实施方式的通过测量包括基因突变分型在内的临床数据来预测肺癌手术后生存率的方法的流程图。

如图4所示,通过测量包括基因突变分型在内的临床数据来预测肺癌手术后生存率的方法除了包括和图3相同的步骤S201、S202、S203、S204、S301,还包括步骤S401。

在步骤S401中,以图形化方式展示危险因素数据和回归分析后数据间的关系。

根据本公开的实施方式,通过展示步骤,以图形化方式展示危险因素数据和回归分析后数据间的关系,从而直观、形象地体现出危险因素数据和例如术后无病生存率的回归分析后数据间的关系,提高使用便利性。

根据本公开的实施方式,通过展示步骤包括:使用列线图展示危险因素数据和回归分析后数据间的关系,从而可以由危险因素数据直观、方便地计算出例如术后无病生存率的回归分析后数据。

图5示出根据本公开一实施方式的通过测量包括基因突变分型在内的临床数据来预测肺癌手术后生存率的系统的结构框图。

如图5所示,通过测量包括基因突变分型在内的临床数据来预测肺癌手术后生存率的系统500包括:数据获取模块501、预处理模块502、危险因素筛选模块503、回归分析模块504。

在本公开的实施例中,数据获取模块501用于获取肺癌手术后临床数据;预处理模块502用于对肺癌手术后临床数据进行分类分组,得到建模组临床数据和验证组临床数据;危险因素筛选模块503用于对建模组临床数据进行危险因素筛选,得到危险因素数据和总生存期数据;回归分析模块504用于对危险因素数据和总生存期数据进行回归分析,得到回归分析后数据,肺癌手术后临床数据包括基因突变分型,年龄,肿瘤大小,淋巴结转移,手术方式,所述回归分析通过以下公式计算ln[h(t,X)/h0(t)]=β1*年龄+β2*肿瘤大小+β3*淋巴结转移+β4*手术方式+β5*基因突变分型,h(t,X)是回归分析后数据,h0(t)是基准风险率,β1、β2、β3、β4、β5是系数,取值为

根据本公开的实施方式,通过数据获取模块,用于获取肺癌手术后临床数据;预处理模块,用于对肺癌手术后临床数据进行分类分组,得到建模组临床数据和验证组临床数据;危险因素筛选模块,用于对建模组临床数据进行危险因素筛选,得到危险因素数据和总生存期数据;回归分析模块,用于对危险因素数据和总生存期数据进行回归分析,得到回归分析后数据,肺癌手术后临床数据包括基因突变分型,年龄,肿瘤大小,淋巴结转移,手术方式,所述回归分析通过以下公式计算ln[h(t,X)/h0(t)]=β1*年龄+β2*肿瘤大小+β3*淋巴结转移+β4*手术方式+β5*基因突变分型,h(t,X)是回归分析后数据,h0(t)是基准风险率,β1、β2、β3、β4、β5是系数,取值为

从而筛选出对术后无病生存率更为相关的危险因素,提高患者生存预测模型的准确性,对术后无病生存率进行了准确的估计。

根据本公开的实施方式,通过危险因素筛选模块用于:使用套索分析方法对建模组临床数据进行危险因素筛选,得到危险因素数据和总生存期数据,从而获得与术后无病生存率更为相关的危险因素,提高术后无病生存率的估计准确性。

根据本公开的实施方式,通过回归分析模块用于:使用多因素Cox分析方法,对危险因素数据和总生存期数据进行回归分析,得到回归分析后数据,从而获得准确的回归后分析数据,提高患者生存预测模型的准确性,提高术后无病生存率的估计准确性。

根据本公开的实施方式,通过肺癌手术后临床数据还包括:病理类型;和/或回归分析后数据包括:术后无病生存率;和/或危险因素数据包括基因突变分型,还包括以下的至少一项:年龄,肿瘤大小,淋巴结转移,手术方式,从而选取合适的肺癌手术后临床数据,危险因素数据,提高患者生存预测模型的准确性,提高术后无病生存率的估计准确性。

根据本公开的实施方式,通过肺癌包括:肺癌I-IIIA期;和/或基因突变分型包括以下的至少一种:EGFR突变,HER2突变,MET扩增,ALK融合,ROS1融合,Kras突变,RET融合,Braf突变,从而选择合理的肺癌适用类型,提高患者生存预测模型的准确性,提高术后无病生存率的估计准确性。

根据本公开的实施方式,通过预处理模块用于:对肺癌手术后临床数据中的连续型数据,采取接受者操作特性曲线最佳约登值方法获取最佳临界点,采用最佳临界点对多个分类的肺癌手术后临床数据进行分组,得到建模组临床数据和所述验证组临床数据,从而进行合理数据分组,提高患者生存预测模型的准确性,提高术后无病生存率的估计准确性。

根据本公开的实施方式,通过测量包括基因突变分型在内的临床数据来预测肺癌手术后生存率的系统除了包括图5中的数据获取模块501、预处理模块502、危险因素筛选模块503、回归分析模块504,还可以包括:验证模块。

验证模块用于对危险因素筛选模块和回归分析模块进行验证。

根据本公开的实施方式,通过还包括:验证模块,用于对危险因素筛选模块和回归分析模块进行验证,从而验证患者生存预测模型的准确性。

根据本公开的实施方式,通过验证模块用于:采用机器学习方法,基于危险因素筛选模块,回归分析模块和验证组临床数据,计算接受者操作特性曲线的线下面积,敏感度,特异度;根据接受者操作特性曲线的线下面积,敏感度,特异度,判断危险因素筛选模块和回归分析模块的处理准确性,从而验证患者生存预测模型的准确性。

根据本公开的实施方式,通过机器学习方法包括以下的至少一种:逻辑回归方法、支持向量机方法、随机森林方法、决策树方法、k近邻方法、朴素贝叶斯方法、AdaboDFSt方法,从而准确计算接受者操作特性曲线的线下面积,敏感度,特异度,对患者生存预测模型进行准确验证。

根据本公开的实施方式,通过在接受者操作特性曲线下的面积大于0.65,敏感度大于0.5,特异度大于0.5的条件下,判断危险因素筛选模块和回归分析模块的处理准确,从而得到患者生存预测模型的准确性的定量化预测标准。

在本公开的实施例中,通过测量包括基因突变分型在内的临床数据来预测肺癌手术后生存率的系统除了包括数据获取模块501、预处理模块502、危险因素筛选模块503、回归分析模块504、验证模块,还可以包括:展示模块。

展示模块用于以图形化方式展示危险因素数据和回归分析后数据间的关系。

根据本公开的实施方式,通过还包括:展示模块,用于以图形化方式展示危险因素数据和回归分析后数据间的关系,从而直观、形象地体现出危险因素数据和例如术后无病生存率的回归分析后数据间的关系,提高使用便利性。

根据本公开的实施方式,通过展示模块用于:使用列线图展示危险因素数据和回归分析后数据间的关系,从而可以由危险因素数据直观、方便地计算出例如术后无病生存率的回归分析后数据。

附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其他技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

26页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种流行病患者信息三维空间可视化方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!