基于机器学习的药物疗效影响因子挖掘方法

文档序号:635883 发布日期:2021-05-11 浏览:17次 >En<

阅读说明:本技术 基于机器学习的药物疗效影响因子挖掘方法 (Medicine curative effect influence factor mining method based on machine learning ) 是由 曲颖 任涛 王逸群 石阳 于 2021-02-03 设计创作,主要内容包括:本发明提供一种基于机器学习的药物疗效影响因子挖掘方法,涉及机器学习技术领域。该方法首先获取多种药物数据,针对某种疾病构造影响因子空间,其中包括可治疗该疾病的药物以及不可治疗该疾病的药物,并对影响因子空间内的数据进行预处理;然后基于统计学指标计算影响因子空间的每个影响因子与药效之间的相关系数;并建立机器学习的树模型计算各个影响因子与药效之间的相关系数;最后针对不同相关系数所对应的影响因子分别从大到小排序,并按照百分占比进行权重标识,再将对应影响因子的权重相加,最终选择排行前n的影响因子。该方法能够考虑到影响药效的多种影响因素,范围较广,得到的结果有较高的可信度。(The invention provides a medicine curative effect influence factor mining method based on machine learning, and relates to the technical field of machine learning. The method comprises the steps of firstly, acquiring data of a plurality of medicines, constructing an influence factor space aiming at a certain disease, wherein the influence factor space comprises medicines capable of treating the disease and medicines incapable of treating the disease, and preprocessing the data in the influence factor space; then calculating a correlation coefficient between each influence factor of the influence factor space and the drug effect based on the statistical index; establishing a machine learning tree model to calculate the correlation coefficient between each influence factor and the drug effect; and finally, sorting the influence factors corresponding to different correlation coefficients from large to small, performing weight identification according to percentage proportion, adding the weights of the corresponding influence factors, and finally selecting the influence factor n before the ranking. The method can consider various influence factors influencing the drug effect, has wide range, and has high reliability of the obtained result.)

基于机器学习的药物疗效影响因子挖掘方法

技术领域

本发明涉及机器学习技术领域,尤其涉及一种基于机器学习的药物疗效影响因子挖掘方法。

背景技术

随着对防治重大疾病有效药物需求的不断增加,以及系统生物学、计算生物学、网络药理学等相关学科的快速发展,面对新药研发难度越来越大的严峻形势。药物疗效影响因子的发掘对于新药的研发十分关键。药物研发人员可以依据重要的影响因子进行药物的研制和测试,缩短药物研发时间,减少成本。但是药物分子理化性质众多,药物和蛋白靶点作用复杂,但是这些都是药物疗效的影响因素。所以如何利用这些海量数据准确发掘出药物疗效的重要影响因子是亟需解决的问题。

现如今,机器学习进入研究热流,可以对大数据进行分析与挖掘。作为一门人工智能的科学,机器学习通过计算机语言对数据进行深度挖掘,通过构建机器学习模型来实现对药物适应症的影响因子进行挖掘,并结合统计学中各种的相关系数,使得挖掘得到的影响因子更准确,可为医药研发人员提供有效帮助。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于机器学习的药物疗效影响因子挖掘方法,基于机器学习实现对药物疗效影响因子进行挖掘。

为解决上述技术问题,本发明所采取的技术方案是:基于机器学习的药物疗效影响因子挖掘方法,包括以下步骤:

步骤1:获取多种药物数据,针对某种疾病构造影响因子空间,其中包括可治疗该疾病的药物以及不可治疗该疾病的药物,并对影响因子空间内的数据进行预处理;所述影响因子空间由药物的多种靶点蛋白质数据以及多种药物的理化性质构成,其中,靶点蛋白数据来自Drugbank数据库,药物的理化性质是利用Rdkit工具根据药物的Smile计算得到;一种药物对应多种靶点蛋白质和多种理化性质,这两类因子构成了一种药物的相关影响因子;对影响因子空间内的靶点蛋白数据进行编码处理、降维处理,对影响因子空间的药物理化性质数据进行编码处理、异常值和空白值的处理;

步骤2:针对某种疾病的影响因子空间,基于统计学指标计算影响因子空间的每个影响因子与药效之间的相关系数;所述药效指的是这种药物是否能够治愈这种疾病,用0、1表示;基于统计学指标计算影响因子空间的每个影响因子与药效之间的相关系数具体包括Pearson系数,Spearman系数,Kendall系数和Mutual Information系数;

步骤3:针对某种疾病的影响因子空间的数据,基于机器学习的树模型进行影响因子的选择;首先建立LightGB决策树模型并进行训练,根据模型计算各个影响因子与药效之间的相关系数,具体包括Permutation系数,Tree Importance系数和SHAP系数;

步骤4:根据步骤2和步骤3计算的各相关系数,得到对药效有重要影响的n个影响因子;针对不同相关系数所对应的影响因子分别从大到小排序,并按照百分占比进行权重标识,再将对应影响因子的权重相加,最终选择排行前n的影响因子。

采用上述技术方案所产生的有益效果在于:本发明提供的基于机器学习的药物疗效影响因子挖掘方法,从统计学指标和机器学习两个角度分别计算影响因子和药效的相关系数,然后结合两种系数,得到排行前n的重要影响因子。该方法能够考虑到影响药效的多种影响因素,范围较广,得到的结果有较高的可信度。使得挖掘得到的影响因子更准确,降低了实验验证的金钱和时间的消耗,可为医药研发人员提供有效帮助。

附图说明

图1为本发明实施例提供的基于机器学习的药物疗效影响因子挖掘方法的流程图;

图2为本发明实施例提供的对影响因子空间内的数据进行异常值检测的结果图;

图3为本发明实施例提供的各个影响因子的相关系数结果图。

具体实施方式

下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

本实施例以治疗帕金森的药物为例,采用本发明的基于机器学习的药物疗效影响因子挖掘方法,对影响该药物疗效的影响因子进行挖掘。

本实施例中,基于机器学习的药物疗效影响因子挖掘方法,如图1所示,包括以下步骤:

步骤1:从Drugbank数据库获取多种药物数据,针对某种疾病构造影响因子空间,其中包括可治疗该疾病的药物以及不可治疗该疾病的药物,并对影响因子空间内的数据进行预处理;所述影响因子空间由药物的多种靶点蛋白质数据以及多种药物的理化性质构成,其中,靶点蛋白数据来自Drugbank数据库,药物的理化性质是利用Rdkit工具根据药物的Smile(Simplified Molecular Input Line Entry System,一种用于输入和表示分子反应的线性符号)计算得到;一种药物对应多种靶点蛋白质和多种理化性质,这两类因子构成了一种药物的相关影响因子;对影响因子空间内的靶点蛋白数据进行编码处理、降维处理,对影响因子空间的药物理化性质数据进行编码处理、异常值和空白值的处理;

本实施例中,对药物的多种靶点蛋白数据进行One-hot独热编码处理,得到多种靶点蛋白数据向量作为药物样本特征;利用基于机器学习的数据降维算法将多种靶点蛋白数据向量进行数据降维;利用Rdkit(化学信息python软件包)针对药物的Smile计算得到药物的化学描述符特征,然后对描述符特征值进行方差分析以及异常值和空白值处理。

具体操作为:

调用pandas库中的get_dummies()方法对多种靶点蛋白数据进行One-hot独热编码处理,得到多种靶点蛋白数据作为药物样本特征。利用基于机器学习的数据降维算法PCA(Principal ComponentAnalysis,主成分分析)对其进行数据降维。本实施例中,调用python的sklearn库中的decomposition.PCA方法,通过设置其参数n_components为0.9实现降维,n_components设置在0-1之间表示降维后所保留的特征值信息的占比,最终得到降维后的数据降至30维。利用Rdkit工具针对药物的Smile计算得到药物的化学描述符特征,并对描述符特征值进行异常值和空白值处理以及方差分析,绘制每个描述符特征的数值曲线图以查看是否有异常值。本实施例中,绘制的描述符特征数值曲线图如图2所示,从图中可以看到IPC这个描述符特征有异常值且基数很大,其中75%的值低于820000,而均值则为1.7*10^124。将IPC同正常的特征MaxAbsEStateIndex相比,MaxAbsEStateIndex的特征数值曲线图较为连贯且平均值和方差均正常,而IPC的曲线图有很明显的断层且平均值和方差均达到,明显的异常。所以再之后的影响因子发掘中不应将IPC这个描述符特征考虑在内。

步骤2:针对某种疾病的影响因子空间,基于统计学指标计算影响因子空间的每个影响因子与药效之间的相关系数;所述药效指的是这种药物是否能够治愈这种疾病,用0、1表示;基于统计学指标计算影响因子空间的每个影响因子与药效之间的相关系数具体包括Pearson系数,Spearman系数,Kendall系数和Mutual Information系数;

(1)计算各个影响因子与帕金森药效作用之间的Person系数;

Pearson相关系数定义为两个变量之间的协方差和标准差的商,相关系数的绝对值越大,相关性越强,相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。假设有两个变量X,Y,X就表示为某个特征向量,Y是药效向量,则变量X,Y的Pearson相关系数ρX,Y如下公式所示:

其中,σX、σY分别表示X、Y的标准差,μ为样本总体均值,cov(X,Y)、E[(X-μX)(Y-μY)]均表示X和Y的协方差;

(2)计算各个影响因子与帕金森药效作用之间的Spearman系数;

Spearman系数是衡量两个变量依赖性的非参数指标。Spearman相关系数用来评估当用单调函数来描述时两个变量之间的关系有多好。首先对两个变量(X,Y)的数据进行排序,然后记下排序以后的位置(X’,Y’),(X’,Y’)的值就称为秩次,秩次的差值为di,变量中数据的个数为n,则变量X,Y之间的Spearman系数ρ如下公式所示:

(3)计算各个影响因子与帕金森药效作用之间的Kendall系数;

Kendall系数称为肯德尔秩相关系数,n个同类的统计对象按特定属性排序,其他属性通常是乱序的,计算方法为同序元素对数和异序元素对数之差与总对数的比值。假设两个随机变量分别为X、Y,它们的元素个数均为N,设C为顺序一致的元素对数,D为顺序不一致的元素对数,则X、Y之间的Kendall系数Tau如下公式所示:

如果两个属性排名是相同的,Kendall系数为1,两个属性正相关;如果两个属性排名完全相反,Kendall系数为-1,两个属性负相关;如果排名是完全独立的,Kendall系数为0。

(4)计算各个影响因子与帕金森药效作用之间的Mutual Information系数;

Mutual Information系数称为互信息,是两个随机变量之间相互依赖性的度量。互信息并不局限于实值随机变量,具有更加一般的特性。互信息是度量两个事件集合之间的相关性。常用单位是bit,如下公式所示:

其中,假设两个变量分别为X、Y,p(X,Y)当前是X和Y的联合概率密度函数,而p(X)和p(X)分别是X和Y的边缘概率密度函数。该系数度量的是一个随机变量中包含另一个随机变量的信息量或者说是已知一个随机变量,从而对另一随机变量减少的不肯定性。互信息量最少为0,代表从一个随机变量无法获取另一随机变量的信息。

本实施例中,各影响因子与药效之间的相关系数计算结果如图3所示,将每个相关系数最高的影响因子个数topN设为20。调用pandas库中的corr方法,设置参数为pearson,kendall等。调用unstack函数对数据结构进行调整,调用sort_values函数排序,调用reset_index函数调整索引,最终得到每个系数排行前二十位相关系数最高的影响因子。

步骤3:针对某种疾病的影响因子空间的数据,基于机器学习的树模型进行影响因子的选择;首先建立LightGB决策树模型并进行训练,根据模型计算各个影响因子与药效之间的相关系数,具体包括Permutation系数,Ttree Importance系数,和SHAP系数,这些系数都可以反映该影响因子空间内各影响因子和该疾病之间的关系;

首先构建决策树LightGB模型,通过反复调试决策树的参数,包括early_stopping_round,learning_rate,max_depth等,使决策树在影响因子空间数据集上的训练结果最佳。每个内部节点表示一个特征上的测试,每个分支代表一个测试输出,每个叶子结点就是药效的分类结果,即有效1或者无效0。然后根据所训练好的树模型,提取树模型的每一个节点的特征权重。

计算Permutation系数:LightGB决策树的构建方式的通过boosting,每删除一个特征(即影响因子)都会对树模型有影响。所以采用遍历的方式,依次删除每一个特征(即影响因子),并记录每个特征(影响因子)删除之后对模型准确率的影响。

计算Tree Importance系数:每一个树节点的特征权重也可以反映每一特征对模型的影响;权重越大说明对模型的影响越大,通过权重的大小也可以得到影响因子的排序序列。

计算SHAP系数;SHAP系数可以解释机器学习模型的输出,Tree Importance计算结果倾向于接近树根部的特征的权值更大,同Tree Importance系数相比,SHAP系数平滑改进叶子节点的权重。用此系数也可得到影响因子的排序序列。

步骤4:根据步骤2和步骤3计算的各相关系数,给出对药效有重要影响的n个影响因子;针对不同相关系数所对应的影响因子分别从大到小排序,并按照百分占比进行权重标识,再将对应影响因子的权重相加,最终选择排行前n的影响因子。

本实施例中,综合Pearson系数序列,Kendall系数序列,Spearman系数序列,Mutual Information系数序列,Permutation系数序列,Tree Importance系数序列,和SHAP系数序列,给出最终的影响因子排序序列。针对不同系数得到的影响因子根据排序按照百分占比进行权重标识,对应影响因子的权重相加,权重总和越小的影响因子排行越高,重要性越高,本实施例最终选择排行前10的影响因子作为影响治疗帕金森药物疗效的影响因子。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

9页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种宏蛋白质组挖掘方法及其在获取肠道微生物蛋白水解特征中的应用

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!