一种指导个性化治疗研究的适应性评估标志物筛选算法

文档序号:1244130 发布日期:2020-08-18 浏览:35次 >En<

阅读说明:本技术 一种指导个性化治疗研究的适应性评估标志物筛选算法 (Adaptive evaluation marker screening algorithm for guiding personalized treatment research ) 是由 黄鑫 周洋 苏本哲 于 2020-04-12 设计创作,主要内容包括:本发明提供一种指导个性化治疗研究的适应性评估标志物筛选算法,包括络构建和网络分析,基于相对差异性表达衡量代谢比值特征在治疗有效组样本和治疗无效组样本中的变化构建差异代谢网络,消除了个体差异对于数据分析的影响。同时,基于所构建的差异代谢网络,采用拓扑结构分析方法发现处于通路反应枢纽位置的重要代谢物。提取以所选代谢物为中心的网络子图作为适应性评估标志物,用于在治疗前预测患者是否适合接受某一临床治疗方案,指导精准用药和个性化治疗方案的实施。(The invention provides an adaptive evaluation marker screening algorithm for guiding personalized treatment research, which comprises network construction and network analysis, wherein a differential metabolic network is constructed on the basis of the change of metabolic ratio characteristics measured in a treatment effective group sample and a treatment ineffective group sample in relative differential expression, and the influence of individual difference on data analysis is eliminated. Meanwhile, based on the constructed differential metabolic network, a topological structure analysis method is adopted to discover important metabolites at the position of a pathway reaction junction. Extracting a network subgraph centered on the selected metabolites as an adaptability evaluation marker for predicting whether a patient is suitable for receiving a certain clinical treatment scheme before treatment, and guiding the implementation of precise medication and a personalized treatment scheme.)

一种指导个性化治疗研究的适应性评估标志物筛选算法

技术领域

本发明涉及生物数据分析技术领域,特别涉及一种指导个性化治疗研究的适应性评估标志物筛选算法。

背景技术

随着系统生物学的快速发展,研究者们逐渐注重从生物系统的整体性角度分析机体的生命活动过程,寻找复杂疾病有效的治疗方法。代谢组学,作为系统生物学的一个重要分支,旨在定量且定性地探究生命机体对于内在基因突变、生理病理变化以及外在环境等因素影响下代谢物的动态多元响应。代谢物是基因的下游产物,也是其最终产物,基因表达的微小变化在代谢物上会得到放大,体现得更为明显,并且代谢物浓度的变化可以反映机体不同的生理病理状态,对代谢组学的研究可以发现疾病症状变化前的早期代谢扰动。因此,代谢组学被广泛应用于临床疾病标志物筛选和个性化治疗等领域的研究,并且取得了许多重要的进展。

糖尿病是由于体内胰岛素分泌绝对或相对不足而导致机体中糖、脂肪、蛋白质代谢紊乱的一种常见疾病,其临床表型为患者长期处于高血糖状态。据国际糖尿病联盟数据统计结果显示,2019年我国糖尿病患者约为1.164亿人,是糖尿病患者人数最多的国家。糖尿病分为I型糖尿病和II型糖尿病,其中约95%的患者为II型糖尿病。II型糖尿病患者常常伴有胰岛素抵抗症状、大动脉血管和微动脉血管的并发症,其患心血管疾病的概率是普通人的三倍。II型糖尿病所引发的各种并发症是患者致死、致残的主要原因,严重威胁着人类健康。磺酰脲类降糖药(如格列齐特、格列苯脲等)是现阶段II型糖尿病常用的临床治疗方法。然而,机体代谢受内在遗传和外在环境因素等影响导致其代谢表型各不相同,而这种个体差异会影响机体对于某种药物治疗的临床效果。尽管格列齐特缓释剂被广泛应用于II型糖尿病的临床治疗中,但由于个体差异的存在,对于部分患者仍然达不到理想的治疗效果。深入探究格列齐特缓释剂所适用的患者人群,发现可以用于指导格列齐特缓释剂精准用药的适应性评估标志物,从而为II型糖尿病患者提供正确的个性化治疗方案,具有重要的现实意义。

生命机体十分复杂,分子间以通路或网络的形式实现各项生理功能,维持生命机体的正常活动,因此分子间存在着密切的关联关系。代谢组学通过探究整个代谢网络或通路反应中内源性小分子的动态变化,发现可以用于表征机体不同生理、病理状态的代谢信号。在代谢组学中,两个代谢物间的比值可以解释为一个代谢物通过一条或多条通路转化成另一个代谢物的化学反应。因此,分析代谢物比值在治疗有效患者和治疗无效患者中的差异,基于代谢物比值的变化构建生物网络,发现具有判别能力的重要代谢比值特征,可以更为全面地阐明药物作用机理并筛选有效的适应性评估标志物,从而促进II型糖尿病患者个性化用药治疗的临床研究。

在代谢组学研究中,个体差异性的存在会影响数据分析的效果。此外,一些数据分析算法如支持向量机和神经网络等需要构建复杂的决策边界,而这些复杂的决策边界难以用生物学观点进行解释,往往限制其在临床上的进一步应用。因此,数据分析方法应该具有直观、有效、生物学可解释性强的特点。本发明考虑到代谢通路反应在机体生命活动中的重要性,基于代谢比值特征表达值的变化构建生物网络,利用网络拓扑结构描述代谢通路反应在机体不同生理、病理状态下的差异,可以直观且有效地发现反映问题本质的重要代谢信号。本发明利用相对差异性表达衡量代谢比值特征在治疗有效组样本和治疗无效组样本中的变化构建差异代谢网络,消除了个体差异对于数据分析的影响。同时,基于所构建的差异代谢网络,采用拓扑结构分析方法发现处于通路反应枢纽位置的重要代谢物。提取以所选代谢物为中心的网络子图作为适应性评估标志物,用于预评估某种治疗方案对于某位患者的临床治疗效果,指导精准用药和个性化治疗方案的实施。

发明内容

为了解决背景技术提出的技术问题,本发明提供一种指导个性化治疗研究的适应性评估标志物筛选算法,以在某种治疗方案下有效和无效临床样本数据为研究对象,以寻找适应性评估标志物为研究目标,以代谢网络的构建和分析为研究手段,探究不同患者对于某种治疗方案的真实响应,从而有助于促进临床个性化治疗的研究与应用。

为了达到上述目的,本发明采用以下技术方案实现:

一种指导个性化治疗研究的适应性评估标志物筛选算法,包括网络构建和网络分析;

(一)所述的网络构建包括如下步骤:

1)输入治疗有效组和治疗无效组的代谢数据;

2)对数据中的任意两个代谢特征fi,fj在每类样本上构建代谢比值特征rij

3)根据公式(1)计算每个比值变量rij的均值Sij

定义rij表示代谢物fi和代谢物fj的比值特征,Sij为rij在所有样本上的均值,其计算方式如公式(1):

其中rijt表示代谢比值特征rij在样本t上的表达值;

4)根据每个代谢比值特征rij的均值Sij,使用公式(2)和(3)计算该代谢比值特征在治疗有效组和治疗无效组中的△ij值;

pij(cl)=prob(rijt<Sij|yt=cl) (2)

ij=|pij(c1)-pij(c2)| (3)

其中pij(cl)为在cl类样本中事件rijt<Sij发生的先验概率。△ij>0表明代谢比值特征rij在大部分c1类样本中的含量要小于在c2类样本中的含量,反之亦然。△ij绝对值越大,说明代谢比值特征rij在两类样本中差异性越大,即相对应的代谢通路反应活动越剧烈;

5)如果△ij值大于等于ε,则网络图中两个节点fi,fj的连边以一种颜色表示,反之,如果△ij值小于等于-ε,则网络图中两个节点fi,fj的连边以另一种颜色表示。

本发明所构建的代谢网络可以表示为:定义G=(V(G),E(G),W(G))为带权无向网络,V(G)=F表示节点集合,E(G)={(fi,fj)|fi,fj∈F,△ij≥ε}U{(fi,fj)|fi,fj∈F,△ij≤-ε}表示边集合。W(G)表示边的权重集合,定义为W(G)={w(fi,fj)=△ij|(fi,fj)∈E(G)}。如果w(fi,fj)≥ε,则节点fi和节点fj之间的连边以一种颜色表示;如果w(fi,fj)≤-ε,则节点fi和节点fj之间的连边以另一种颜色表示。

(二)所述的网络分析包括单幅网络图的拓扑结构分析方法和多幅网络图的拓扑结构分析方法;

1)单幅网络图的拓扑结构分析方法如下:

在网络图中,度最大的节点表明该代谢物参与多条通路反应活动,处于中心枢纽位置,在机体的生理病理变化中起着重要的生物学作用;提取度最大的节点及与其直接相连的节点所构成的星型子图作为重要的网络信号;基于星型子图中节点间的比值关系构造适应性评估标志物,在治疗前预测患者是否适合接受某一临床治疗方案;

2)多幅网络图的拓扑结构分析方法如下:

当所研究问题较为复杂时,则构建多幅网络图反映问题的本质;不同的网络图表明机体在不同状态下的代谢变化,代谢信号分成两部分,其中一部分代谢信号用于表征不同代谢机制的共性,另一部分代谢信号则可以用于描述不同代谢机制的差异,提取不同网络图中颜色相同或不同的边构成重要的网络子图,该网络子图包含与所研究问题密切相关的重要信息;然后,对所提取的网络子图采用单幅网络图的拓扑结构分析方式,筛选关键的网络信号。

与现有技术相比,本发明的有益效果是:

1)本发明利用相对差异性表达衡量代谢比值特征在治疗有效组样本和治疗无效组样本中的变化构建差异代谢网络,消除了个体差异对于数据分析的影响。同时,基于所构建的差异代谢网络,采用拓扑结构分析方法发现处于通路反应枢纽位置的重要代谢物。提取以所选代谢物为中心的网络子图作为适应性评估标志物,用于预评估某种治疗方案对于某位患者的临床治疗效果,指导精准用药和个性化治疗方案的实施。

2)由于个体差异的存在,精准医疗可以使患者及早地接收正确的治疗方案、提高临床治疗效果。因此,在采取某种治疗方案前,需要对患者进行疗效预评估测试。本项目基于相对差异性表达方法衡量代谢比值特征在某种方案下治疗有效组和治疗无效组样本中的变化,构建差异代谢网络,以网络的方式系统描述代谢通路反应活动在不同生理、病理状态下的异同。基于所构建的差异代谢网络,采用拓扑结构分析方法,发现处于通路反应活动枢纽位置的重要代谢物,并提取以该代谢物为中心的星型子图。利用所提取的星型子图中代谢物间的关联关系构建适应性评估标志物集合,从而预测某种治疗方案对于某一患者的康复是否有效。

具体实施方式

以下对本发明提供的具体实施方式进行详细说明。

代谢物之间相互关联、相互作用,当机体出现生理、病理变化时,发生扰动的不仅仅是一个代谢分子,而是整个模块或代谢网络。本发明提出一种新的差异代谢网络构建算法DMNC,从网络的角度深入探究通路反应活动在治疗有效患者和治疗无效患者中的差异,发现可以用于指导个性化治疗的适应性评估标志物。将F={f1,f2,…,fm}定义为特征集合,m表示特征的个数;X={x1,x2,...,xn}定义为样本集合,n表示样本的个数;C={c1,c2}定义为类标集合,c1表示治疗有效组,c2表示治疗无效组;Y={y1,y2,…,yn}定义为n个样本类标向量,yi∈C表示样本xi的类标。

定义rij表示代谢物fi和代谢物fj的比值特征,Sij为rij在所有样本上的均值,其计算方式如公式(1):

其中rijt表示代谢比值特征rij在样本t上的表达值。相对差异性表达利用如下公式衡量代谢比值特征rij在治疗有效组和治疗无效组样本中表达值的变化:

pij(cl)=prob(rijt<Sij|yt=cl) (2)

ij=|pij(c1)-pij(c2)| (3)

其中pij(cl)为在cl类样本中事件rijt<Sij发生的先验概率。△ij>0表明代谢比值特征rij在大部分c1类样本中的含量要小于在c2类样本中的含量,反之亦然。△ij绝对值越大,说明代谢比值特征rij在两类样本中差异性越大,即相对应的代谢通路反应活动越剧烈。

本发明所构建的代谢网络可以表示为:定义G=(V(G),E(G),W(G))为带权无向网络,V(G)=F表示节点集合,E(G)={(fi,fj)|fi,fj∈F,△ij≥ε}U{(fi,fj)|fi,fj∈F,△ij≤-ε}表示边集合。W(G)表示边的权重集合,定义为W(G)={w(fi,fj)=△ij|(fi,fj)∈E(G)}。如果w(fi,fj)≥ε,则节点fi和节点fj之间的连边以一种颜色表示;如果w(fi,fj)≤-ε,则节点fi和节点fj之间的连边以另一种颜色表示。基于本发明所构建的差异代谢网络可以用于筛选适应性评估标志物,为患者个性化治疗提供帮助,本发明适应于疾病组学数据分析、转化医学等领域。

本发明采用的技术方案如下:

(一)网络构建

步骤1:输入治疗有效组和治疗无效组的代谢数据;

步骤2:对数据中的任意两个代谢特征fi,fj在每类样本上构建代谢比值特征rij

步骤3:根据公式(1)计算每个比值特征rij的均值Sij

步骤4:根据代谢比值特征rij的均值Sij,使用公式(2)和(3)计算该代谢比值特征在治疗有效组和治疗无效组中的差异值△ij

步骤5:如果△ij值大于等于ε,则网络图中两个节点fi,fj的连边以红边表示。反之,如果△ij值小于等于-ε,则网络图中两个节点fi,fj的连边以绿边表示。

(二)网络分析

本发明所构建的网络可以表征机体在不同状态下代谢通路反应活动的差异。对差异代谢网络采用拓扑结构分析方法发现与所研究问题密切相关的重要网络代谢信号。

1)单幅网络图的拓扑结构分析方法

在网络图中,度最大的节点表明其所对应的代谢物参与多条通路反应活动,处于中心枢纽位置,在机体的生理病理变化中起着重要的生物学作用。因此,本发明提取度最大的节点及与其直接相连的节点所构成的星型子图作为重要的网络信号。基于星型子图中节点间的比值关系构造适应性评估标志物,在治疗前预测患者是否适合接受某一临床治疗方案。

2)多幅网络图的拓扑结构分析方法

当所研究问题较为复杂时,往往需要构建多幅网络图反映问题的本质。不同的网络图表明机体在不同状态下的代谢变化,一些代谢信号可以用于表征不同代谢机制的共性,而一些代谢信号则可以用于描述不同代谢机制的差异。针对特定的研究问题,本发明提取不同网络图中颜色相同(或不同)的边构成重要的网络子图,该网络子图包含与所研究问题密切相关的重要信息。然后,对所提取的网络子图采用单幅网络图的拓扑结构分析方式,筛选关键的网络信号。

实施案例:基于血清代谢轮廓的格列齐特缓释剂适应性评估标志物的筛选。

(1)II型糖尿病患者血清样本的收集

本实验训练集通过对90名接受格列齐特缓释剂治疗的II型糖尿病患者进行跟踪研究获得。首先,采集这90名患者在接受格列齐特缓释剂治疗前的血清样本,作为基线组样本数据。然后,对这90名患者采用为期16周的格列齐特缓释剂治疗方案,并采集这90名患者在接受格列齐特缓释剂治疗后的血清样本,作为治疗组样本数据。此外,为验证由训练集所筛选的格列齐特缓释剂适应性评估标志物的预测效果,本实验还包括由额外26名II型糖尿病患者的血清样本所构成的独立测试集。

(2)患者血清样本的分类

糖化血红蛋白HbA1c是糖尿病诊断的临床指标,根据HbA1c在治疗组样本数据中的含量将样本数据划分为:治疗有效组1,治疗有效组2和治疗无效组。根据临床标准,治疗后HbA1c含量小于6.5%的样本为治疗有效组1,记作SR1;治疗后HbA1c含量不小于6.5%,但其含量比治疗前下降20%以上的样本为治疗有效组2,记作SR2,治疗有效组1和治疗有效组2统称为治疗有效组,记作SR;其余情况的样本为治疗无效组,记作NSR。

(3)数据的分离分析和预处理

本实验对上述训练集和测试集中基线组样本数据和治疗组样本数据采用气象色谱-质谱联用系统进行血清代谢谱采集,并对血清样本进行定量检测。同时,利用质量控制样本对数据的分析过程进行监控。

(4)为筛选格列齐特缓释剂的适应性评估标志物,将训练集中基线组样本数据划分为2个两类子问题:NSR vs.SR1和NSR vs.SR。

(5)对于基线组样本数据中任意两个代谢物fi,fj构建代谢比值特征,并利用公式(1)、(2)、(3)计算每个代谢比值特征在NSR vs.SR1和NSR vs.SR中的△值。如果△值大于0,则相应的两个代谢物以红边相连;如果△值小于0,则相应的两个代谢物以绿边相连,输出基于NSR vs.SR1和NSR vs.SR所构建的2幅差异代谢网络图G1和G2。

(6)差异代谢网络图中,边权重的绝对值表示代谢比值特征在两类样本中差异性的大小。本发明提取G1和G2中权重绝对值最大的前100条边构成网络子图SG1和SG2。

(7)采用多幅网络图的拓扑结构分析方法,提取在SG1和SG2中具有颜色相同的边构成重要网络代谢信号NS。然后,对NS采用单幅网络图的拓扑结构分析方法,筛选出NS中度最大的节点及其与之相连的节点所构成的比值特征,作为格列齐特缓释剂的适应性评估标志物。

(8)使用曲线下面积验证本发明所筛选的适应性评估标志物对于患者是否适合采用格列齐特治疗方案的预测能力。表1给出了本发明与其他方法的比较结果。对比实验表明本发明所筛选的适应性评估标志物在训练集和测试集上均具有最强的预测能力。

表1不同方法间的比较结果

以上实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于上述的实施例。上述实施例中所用方法如无特别说明均为常规方法。

8页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:病毒识别的方法、终端及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!