一种预测药物性肝损伤的方法、系统及存储介质

文档序号:1955340 发布日期:2021-12-10 浏览:21次 >En<

阅读说明:本技术 一种预测药物性肝损伤的方法、系统及存储介质 (Method, system and storage medium for predicting drug-induced liver injury ) 是由 钟涛 刘盛元 何岱海 王健 庄子安 朱利清 刘守江 魏巍 张帆 范玉铮 黄垚 于 2021-09-14 设计创作,主要内容包括:本发明公开了一种预测药物性肝损伤的方法、系统及存储介质,涉及机器学习技术领域,具体步骤为:获取数据样本;构建XGBoost预测模型;将所述数据样本输入到所述XGBoost预测模型中,获取预测结果;根据所述预测结果进行预警提示。将药物性肝损伤预测与机器学习技术相结合,基于XGBoost预测模型进行预测,在病人药物性肝损伤发生之前提供预警信号,以帮助临床医生及时调整药物计划,并降低药物性肝损伤的可能性,除此之外,通过混淆矩阵评估预测结果,提升了模型的预测精度。(The invention discloses a method, a system and a storage medium for predicting drug-induced liver injury, which relate to the technical field of machine learning and specifically comprise the following steps: acquiring a data sample; constructing an XGboost prediction model; inputting the data sample into the XGboost prediction model to obtain a prediction result; and carrying out early warning prompt according to the prediction result. The method combines the drug-induced liver injury prediction with a machine learning technology, carries out prediction based on an XGboost prediction model, provides an early warning signal before the drug-induced liver injury of a patient occurs, helps a clinician to adjust a drug plan in time, reduces the possibility of the drug-induced liver injury, and in addition, estimates the prediction result through a confusion matrix, and improves the prediction precision of the model.)

一种预测药物性肝损伤的方法、系统及存储介质

技术领域

本发明涉及机器学习技术领域,更具体的说是涉及一种预测药物性肝损伤的方法、系统及存储介质。

背景技术

肺结核是一种严重危害人类健康的慢性传染病,治愈肺结核是控制肺结核疫情的重要措施。目前常规使用的治疗肺结核药物为抗结核固定剂量复合制剂(Fixed-DoseCombinations,FDC),是将化疗方案中各种不同抗结核药物按一定剂量制成的一种复方混合制剂。但是抗结核药物会导致药物性肝损伤(Antituberculosis Drug-Induced LiverInjury,AT DILI)。研究数据显示,南山区2013年10月至2014年9月登记治疗的肺结核患者有27%因药物性肝损伤停药。

药物性肝损伤(Drug-induced liver injury,DILI)是指由药物本身或其代谢产物所导致的肝损伤,以往有或无肝脏基础疾病的患者在使用药物后均有可能发生DILI。抗结核药物导致的药物性肝损伤,可大大影响抗结核治疗,有可能导致治疗不成功、治疗效果不佳或疗程延长。在过去的临床诊疗中,医生即使了解引起DILI的原因,也只对已知基础性肝病、免疫缺陷的患者进行规避,在发生DILI后才凭借临床经验结合检验数据来综合判断DILI的程度,采取事后干预和治疗,从而增加肺结核患者身体及经济负担,影响其最终治疗效果。

机器学习(Machine Learning,ML)是一门多领域交叉学科,注重算法的设计,其可以让计算机自动地从数据中“学习”规律,并利用规律对未知数据进行预测。通过机器学习,可以对已有疾病数据进行分析,发现其中规律,进而帮助寻找与疾病有关的特征,从而有效辅助疾病的临床诊断。在现有技术中,将药物性肝损伤预测与机器学习技术相结合还未有尝试,对本领域技术人员来说,如何利用预警模型来预测抗结核药物治疗肺结核患者引发药物性肝损伤的机率是亟待解决的问题。

发明内容

有鉴于此,本发明提供了一种预测药物性肝损伤的方法、系统及存储介质,将药物性肝损伤预测与机器学习技术相结合,利用预警模型来预测抗结核药物治疗肺结核患者引发药物性肝损伤的机率,预警及时且准确,能够最大程度的提高患者治疗依从性及成功率。

为了实现上述目的,本发明采用如下技术方案:一方面,提供一种预测药物性肝损伤的方法,具体步骤包括如下:

获取数据样本;

构建XGBoost预测模型;

将所述数据样本输入到所述XGBoost预测模型中,获取预测结果;

根据所述预测结果进行预警提示。

可选的,所述数据样本分为训练集和测试集。

可选的,构建所述XGBoost预测模型的步骤为:

进行分层k折交叉验证,利用所述训练集训练单树XGBoost模型;

根据所述单树XGBoost模型中每棵树的每个特征的贡献,得到每个特征对所述单树XGBoost模型的相对重要性分数;

将预测变量按相对重要性的降序逐个添加到所述单树XGBoost模型中,形成候选模型;

进行分层k折交叉验证,获得受试者工作特征曲线下面积的平均值,基于向后选择法,选择最终模型;

利用所述训练集训练所述最终模型。

通过采用上述技术方案,具有以下有益的技术效果:XGBoost算法作为预测模型可以很好地处理缺失值,决策树中对缺失数据的高度容忍度使得该模型在处理临床数据时具有鲁棒性,更加方便地应用于临床领域。

可选的,还包括将所述预测结果与真实结果进行对比,将预测不准确的数据放入所述XGBoost预测模型中继续进行训练。

可选的,通过混淆矩阵来评估所述预测结果。

通过采用上述技术方案,具有以下有益的技术效果:利用混淆矩阵评估预测结果,将患者的预测结果与真实结果做对比,将预测不准确的数据和结果放入模型中继续进行训练,提升了模型的预测精度。

另一方面,还提供一种预测药物性肝损伤的系统,包括依次连接的数据获取模块、模型构建模块、预测模块、预警模块;其中,

所述数据获取模块,用于获取数据样本;

所述模型构建模块,用于构建XGBoost预测模型;

所述预测模块,用于将所述数据样本输入到所述XGBoost预测模型中,获取预测结果;

所述预警模块,用于根据所述预测结果进行预警提示。

可选的,还包括结果评估模块,用于通过混淆矩阵对所述预测结果进行评估。

最后,提供一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现一种预测药物性肝损伤的方法的步骤。

经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种预测药物性肝损伤的方法、系统及存储介质,基于XGBoost预测模型进行预测,在病人药物性肝损伤发生之前提供预警信号,以帮助临床医生及时调整药物计划,并降低药物性肝损伤的可能性,除此之外,通过混淆矩阵评估预测结果,提升了模型的预测精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明的方法流程示意图;

图2为本发明的系统结果示意图;

图3为本发明的单树XGBoost模型选择的前10个重要变量图;

图4为本发明的模型单个决策树运行图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例1公开了一种预测药物性肝损伤的方法,如图1所示,具体步骤包括如下:

获取数据样本;

构建XGBoost预测模型;

将数据样本输入到XGBoost预测模型中,获取预测结果;

根据预测结果进行预警提示。

进一步的,数据样本分为训练集和测试集。

具体的,在本实施例中数据样本包括:

a)收集患者的人口统计学和临床数据,包括性别,年龄,体重,文化程度,收入,身高,乙型肝炎状况,糖尿病状况,

b)收集患者累积服用的每种抗结核药物的总剂量,需收集服用剂量的抗结核药品有:异烟肼(INH)、利福平(RFP)、乙胺丁醇(EMB)、吡嗪酰胺(PZA)和链霉素(SM)。对于未发生肝损伤的患者,收集截至数据统计日期,患者已服用的抗结核药物总量。对于发生肝损伤的患者,收集截至检测到肝损伤时的药物总量。谷丙转胺酶(ALT)的正常数值范围为0-35U/L,将谷丙转胺酶(ALT)>35U/L的情况判定为发生肝损。

c)收集肝功能检查中谷丙转胺酶(ALT)检测结果。包括患者首次发生肝损时谷丙转胺酶(ALT)的数值和患者最后一次肝功能检测时谷丙转胺酶(ALT)的数值。此外,还需要计算患者最后一次肝功能检测时谷丙转胺酶(ALT)的数值与患者首次发生肝损时谷丙转胺酶(ALT)的数值之间的比值。

进一步的,构建XGBoost预测模型的步骤为:

a)重复100次分层10折交叉验证,通过训练集训练单树XGBoost模型,根据模型中每棵树的每个特征的贡献,获得它们对树模型的相对重要性分数,从而获得每个输入特征的相对重要性;

b)选择重要性前15位的预测因子,将预测变量按相对重要性的降序逐个添加到模型中,以形成15个候选模型;

c)重复100次分层10折交叉验证,以获得受试者工作特征曲线(AUC)下面积的平均值,采用向后选择法,根据AUC值来选择最终模型;

d)利用训练集训练所选模型以获得最终结果。

XGBoost是一种基于树提升系统的机器学习算法,使用稀疏感知算法来处理稀疏数据和加权分位数草图以近似树学习,由于决策树是由分层组织的二分法确定组成的简单分类器,其结构也表现出良好的可解释性,此外,该模型可以很好地处理缺失值。决策树中可解释的标准和对缺失数据的高度容忍度使得该模型在处理临床数据时具有鲁棒性,更加方便地应用于临床领域。

进一步的,还包括通过混淆矩阵将预测结果与真实结果进行对比,将预测不准确的数据放入XGBoost预测模型中继续进行训练。混淆矩阵是显示预测结果与实际结果之间关系的列联表,进行结果评估提升了模型的预测精度。

更进一步的,在真实数据集上验证本发明方法的有效性。

在本实施例中提取了2014年至2019年在南山区慢性病防治医院HIS系统登记的757例肺结核病例。部分患者没有连续治疗,或先转院后返回医院,导致记录的治疗时间超过正常范围,累积抗结核药物剂量不明确。此类异常病例无法为接受常规治疗的病例做出预测。因此,根据典型的结核病治疗过程选择300天作为时间窗口,消除了在抗结核治疗开始后300天发现的TB-DILI病例,总共有743名患者的数据最终纳入模型,根据美国胸科学会标准将患者定义为阳性DILI病例:在肝炎症状的情况下,ALT的增加比正常上限(ULN)高3倍,并且在没有症状的情况下,ALT的增加比正常上限(ULN)高5倍。

输入数据:对于未发生肝损伤的患者:数据包括性别,年龄,体重,文化程度,收入,身高,乙型肝炎状况,糖尿病状况,累积抗结核药物剂量和ALT检测结果。对于未发生肝损伤的患者,收集截至最新肝脏检查的处方抗结核药物总量。对于发生TB-DILI的患者,收集截至检测到肝损伤时的药物总量。此外,计算最后一次肝检查前患者的最新ALT测试值,以及最终肝功能测试前最后两次ALT测试值的平均变化率,并分别计算了组合药物的每种成分的累积量(“PZA”,“RFP”,“EMB”,“INH”)。

根据治疗开始的时间,将患者分成训练和验证数据集,将2019年4月之前(607例患者和186例阳性病例)入院的患者用作训练数据集,2019年4月之后(136例患者和95例阳性病例)入院的患者用作验证数据集。

如图3所示,显示了单树XGBoost模型选择的前10个重要变量,显而易见,ALT被证明是预测过程中最重要的因素。

将10个变量逐一放入模型中,形成10个候选模型,经过100次10折交叉验证训练和测试后,发现具有四个变量的模型显示最大AUC值,如表1所示,因此,选择具有四个变量的模型(最近的ALT测试值,最后两个ALT测试值的平均变化率,PZA的累积剂量,EMB的累积剂量)作为最终模型。

表1

基于整个训练集训练所选最终模型,如图4所示显示了模型的单个决策树的内容,决策过程从最近的ALT测试值开始,然后在决策树中的每个节点进行二分确定,最后该过程以输出预测(药物性肝损伤的高风险/低风险)结束。

通过验证数据集(136个案例)对所选XGBoost预测模型进行验证,如表2所示,模型正确预测了70例药物性肝损伤病例,成功预测了33例阴性病例。

通过精确度、召回率、分类准确度、平衡错误率进行模型表现评估,精确度:

召回率:分类准确度:平衡错误率:其中,TP:预测中的真阳性病例数,TN:预测中的真阴性病例数,FP:预测中的假阳性病例数,FN:预测中的假阴性病例数。通过计算,该模型的精度为90%,召回率为74%,分类精度为76%,平衡错误率为77%,F1值为81%。

表2

本发明实施例2公开了一种预测药物性肝损伤的系统,如图2所示,包括依次连接的数据获取模块、模型构建模块、预测模块、预警模块;其中,

数据获取模块,用于获取数据样本;

模型构建模块,用于构建XGBoost预测模型;

预测模块,用于将数据样本输入到XGBoost预测模型中,获取预测结果;

预警模块,用于根据预测结果进行预警提示。

进一步的,还包括结果评估模块,用于通过混淆矩阵对预测结果进行评估。

最后,提供一种计算机存储介质,计算机存储介质上存储有计算机程序,计算机程序被处理器执行时实现一种预测药物性肝损伤的方法的步骤。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种老人夜间风险防控方法、系统、装置及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!