基于转录组的pd-1疗法治疗效果预测系统

文档序号:1044852 发布日期:2020-10-09 浏览:35次 >En<

阅读说明:本技术 基于转录组的pd-1疗法治疗效果预测系统 (Transcriptome-based PD-1 therapy treatment effect prediction system ) 是由 吴飞珍 邓超 蔡加彬 柴小强 于 2020-05-31 设计创作,主要内容包括:本发明涉及一种基于转录组的PD-1疗法治疗效果预测系统,包括:预测模型构建装置,用于对样本数据进行转录组特征提取,获取最优基因组合,构建并训练神经网络模型,以每个样本对应的最优基因组合作为模型输入,治疗效果为模型输出;预测应用装置,基于所述神经网络模型对经所述转录组特征提取后的待测样本进行处理,输出并显示治疗效果预测结果。与现有技术相比,本发明具有预测准确率高等优点。(The invention relates to a transcriptome-based prediction system for the treatment effect of PD-1 therapy, which comprises the following components: the prediction model construction device is used for carrying out transcriptome feature extraction on sample data, acquiring an optimal gene combination, constructing and training a neural network model, taking the optimal gene combination corresponding to each sample as model input, and taking a treatment effect as model output; and the prediction application device is used for processing the sample to be tested after the transcriptome characteristics are extracted based on the neural network model, and outputting and displaying a treatment effect prediction result. Compared with the prior art, the method has the advantages of high prediction accuracy rate and the like.)

基于转录组的PD-1疗法治疗效果预测系统

技术领域

本发明涉及一种医疗设备,属于基因筛选技术领域,尤其是涉及一种基于转录组的PD-1疗法治疗效果预测系统。

背景技术

免疫治疗作为一种新兴肿瘤治疗措施,特别是其中针对PD-1/PD-L1免疫抑制通路的肿瘤免疫治疗是当前全世界备受瞩目、广为研究的新一代抗癌疗法。目前美国食品药品监督管理局(FDA)批准了多个免疫检查点抑制剂药物,其中较为有代表性的就是PD-1/PD-L1抑制剂,开启了***抗肿瘤疗法时代。PD-l与配体结合后,抑制具有抗肿瘤能力的细胞毒性T细胞的活性,并下调T细胞应答,从而诱导和维持外周免疫耐受,保护组织避免免疫攻击。抗PD-1/PD-L1抗体通过竞争性地与PD-1或PD-L1结合,从而解除T细胞的免疫抑制状态,发挥免疫杀伤作用。抗PD-1/PD-L1抗体通过阻断肿瘤免疫抑制,激活人体的自身免疫反应而特异、持续的识别肿瘤细胞,对于存在免疫逃逸且逃逸机制明确的恶性肿瘤患者,免疫治疗可以阻断免疫逃逸或激活肿瘤免疫反应。理论上即可做到全面、彻底地清除肿瘤细胞,治愈恶性肿瘤,而且很少出现严重不良反应。但是恶性肿瘤的特征之一是异质性,患同一种肿瘤的不同患者,其肿瘤在组织学、抗原性、免疫性、激素受体表达水平、肿瘤细胞的代谢性、生长速度、对化学药物治疗的敏感性等均存在差异,因此,其对免疫治疗的敏感性亦存在差异。备受瞩目的肿瘤免疫疗法anti-PD-1抗体疗法,针对晚期黑色素瘤的治愈率只有20-30%。虽然免疫疗法的疗效好,毒性低,但目前仅部分病人受益,部分病人表现为无响应。但是anti-PD-1还存在治疗费用高、疗程长、药物制备困难的不足,无法得到全面应用。

前期临床研究常将PD-L1作为筛选标志物,然而在CheckMate 026Ⅲ期临床试验中发现,即使PD-L1表达水平大于50%的患者也并不能从Nivolumab(一种PD-1抗体)中获益。肿瘤突变负荷(TMB)是指在一个特定的肿瘤组织当中相对的基因突变数量,即一份肿瘤样本中,所评估基因的外显子编码区每兆碱基序列中发生突变的总数。计算公式:TMB(mut/Mb)=总突变数量(包括同义、非同义点突变、置换、***及缺失突变)/目标区域编码区大小。虽然表明TMB对免疫疗效具有强烈的提示作用,因此TMB可能是比PD-L1作为筛选anti-PD-1疗法获益人群更好的标志物。但事实上,肿瘤是基因突变积累到一定程度引起的疾病,基因突变产生的肿瘤新抗原会被免疫系统识别,进而被杀死和清除。TMB负荷越高,肿瘤表达的新抗原越多,被免疫系统识别的可能性也就越大。除了新抗原数量外,其质量也至关重要。单纯的TMB高也不能说一定是治疗有效的指标,这可能与脱靶效应、肿瘤微环境、免疫抑制的存在及细胞因子风暴的产生相关。

因此,现有技术较难精确地实现免疫治疗效果预测。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种预测准确可靠的基于转录组的PD-1疗法治疗效果预测系统。

本发明的目的可以通过以下技术方案来实现:

一种基于转录组的PD-1疗法治疗效果预测系统,包括:

预测模型构建装置,用于对样本数据进行转录组特征提取,获取最优基因组合,构建并训练神经网络模型,以每个样本对应的最优基因组合作为模型输入,治疗效果为模型输出;

预测应用装置,基于所述神经网络模型对经所述转录组特征提取后的待测样本进行处理,输出并显示治疗效果预测结果。

进一步地,所述转录组特征提取具体为:基于设定的最优基因组合从样本数据中提取对应的基因集合数据。

进一步地,所述最优基因组合通过以下方式获取:

获取多个采集对象在经抗PD-1疗法前的癌组织基因表达数据及经抗PD-1疗法后的治疗效果数据;

基于所述治疗效果数据将所述癌组织基因表达数据划分为有响应组和无响应组;

对所述有响应组和无响应组的癌组织基因表达数据进行差异性分析,获得差异性基因组合;

基于SVM-RFE算法从所述差异性基因组合中获取最优基因组合。

进一步地,所述癌组织基因表达数据通过以下步骤获得:

对采集的癌组织样本进行illumina二代测序,得到测序数据;

对所述测序数据进行过滤处理,将过滤后测序数据比对至参考基因组上,经定量注释,获得基因表达值,形成所述癌组织基因表达数据。

进一步地,所述过滤处理包括测序接头去除和掉低质量碱基过滤。

进一步地,使用DEseq2筛选获得所述差异性基因组合。

进一步地,所述DEseq2筛选中,将P值小于0.01和差异倍数大于4的基因视为差异基因,形成所述差异性基因组合。

进一步地,所述最优基因组合中基因个数为35个。

进一步地,所述神经网络模型为使用ReLU激活函数的BP神经网络模型,通过网格搜索确定该神经网络模型的最佳超参数。

进一步地,所述预测模型构建装置中,采用Adam优化算法训练所述神经网络模型。

进一步地,该预测系统还包括:

预测模型更新装置,用于存储历史样本数据,并定期基于所述历史样本数据对神经网络模型进行更新。

与现有技术相比,本发明具有如下有益效果:

1)本发明利用神经网络模型进行治疗效果的预测,速度快,可靠性高。

2)转录组可以很好的反映肿瘤的状态和特性,本发明以经转录组特征提取信息作为神经网络模型的输入,能够更加准确地获得预测结果。

3)本发明设计了转录组特征提取的过程,基于差异基因信息获得最终的最优基因组合,在具有较高预测准确性的同时有效减小了数据量,提高预测速度。

附图说明

图1为本发明预测系统的框架示意图;

图2为本发明使用SVM-RFE算法进行特征筛选的得分示意图;

图3为本发明利用网格搜索来确定BP神经网络的最佳超参数的示意图;

图4为本发明的预测模型在测试组上的ROC曲线。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。

如图1所示,本发明提供一种基于转录组的PD-1疗法治疗效果预测系统,包括预测模型构建装置1和预测应用装置2,其中,预测模型构建装置1用于对样本数据进行转录组特征提取,获取最优基因组合,构建并训练神经网络模型,以每个样本对应的最优基因组合作为模型输入,治疗效果为模型输出;预测应用装置2基于所述神经网络模型对经所述转录组特征提取后的待测样本进行处理,输出并显示治疗效果预测结果。

转录组特征提取具体为:基于设定的最优基因组合从样本数据中提取对应的基因集合数据。

最优基因组合基于大数据分析获得,包括以下步骤:

步骤一、数据收集

(1)收集多个采集对象在经抗PD-1疗法前的癌组织样本及经抗PD-1疗法后的治疗效果数据,治疗效果数据包括有效和无效,对癌组织样本进行illumina二代测序,得到测序数据fastq文件。

(2)将得到的测序数据使用trammic去除测序接头,过滤掉低质量碱基,然后进行质量控制,剔除质量差的数据。

(3)使用tophat工具将fastq数据比对到hg19参考基因组上,比对后使用cufflinks进行定量和注释,得到基因表达的FPKM值,再进一步标准化为TPM值,形成所述癌组织基因表达数据。

步骤二、分析差异表达基因

根据RECIST v1.1临床试验标准将样本分为有响应组和无响应组,使用DEseq2筛选差异表达基因,将P值小于0.01和差异倍数大于4(P<0.01&FoldChange>4)的基因视为差异基因。这一步可视为初步的特征选择,缩小最优特征集合的搜索范围。

步骤三、特征选择

(1)为进一步筛选出具有预测价值的基因集合,在差异基因集合的基础上进行特征选择。该步骤采用SVM-RFE算法(嵌入式),从集合中计算出最优特征子集。在生物信息学中,SVM-RFE是一个强大的特征选择算法,SVM-RFE是一个基于SVM的最大间隔原理的序列后向选择算法,它通过模型训练样本,然后对每个特征进行得分进行排序,去掉最小特征得分的特征,然后用剩余的特征再次训练模型,进行下一次迭代,直到特征集合为零。算法描述:

输入:训练数据集D(N样本*P特征)

输出:最优特征子集Best_D

过程:开始

1.初始时,当前特征子集Current_D包含所有特征,最优特征子集Best_D为空;

2.设定每步删除的特征数量E;

3.重复以下过程,直到当前特征子集Current_D为空:

根据当前特征子集Current_D建立SVM模型,得到其评估准确率;

依据|w|的值降序排列当前特征子集Current中的特征;

移除当前特征子集Current_D中排序在末尾的E个特征;

4.若当前特征子集Current_D准确率大于最优特征子集准确率

设最优特征子第gest D为当前特征子集Current_D;

5.返回

最终获得最优特征子集,即最优基因组合。

预测模型构建装置1中,神经网络模型为使用ReLU激活函数的BP神经网络模型,通过网格搜索确定该神经网络模型的最佳超参数,并采用Adam优化算法训练所述神经网络模型。

在预测应用装置2中,首先对待预测的样本数据进行转录组特征提取,然后将提取的特征输入训练好的神经网络模型中,即可输出结果1或0,其中1表示有效,0表示无效,可以准确获得治疗效果预测结果。

在某个实施方式中,该预测系统还包括预测模型更新装置3,用于存储历史样本数据,并定期基于所述历史样本数据对神经网络模型进行更新,进一步提高预测准确性。

在某个实施方式中,上述预测系统由计算机实现,可存储计算机程序,该计算机程序执行的操作可包括样本数据处理、特征提取、预测模型构建、预测模型应用和预测模型更新等。

实施例

本实施例选择105个黑色素瘤样本数据对神经网络模型进行训练,并获得对应的进行anti-PD-1治疗的治疗效果,以1表示有效,0表示无效。

本实施例基于上述105个样本数据筛选得到225个差异表达基因,并进一步采用SVM-RFE算法确定的最优基因组合包括35个基因,如图2所示,该35个基因参与重要的免疫活动,如T细胞毒性作用,抗原呈递过程等,通过对这35个基因的联合分析可以达到更好的预测效果。最优特征集合如表1所示。

表1最优特征表

Figure BDA0002517425910000061

如图3所示,本实施例通过网格搜索建立的神经网络(NN)模型的网格结构为:输入层35个神经节点,隐藏层5个神经节点共5层,输出层2个神经节点,组成全连接神经网络。

将35个特征基因的表达作为一组向量输入;输出为是或否(1或0)。采用十折交叉验证的方法对模型进行迭代训练和测试。根据十次训练和测试的结果,绘制ROC曲线,如图3所示,计算准确率。

基于对105例患者进行十折交叉验证的结果,测试的平均准确率为91.6%,ROC曲线下面积为0.93±0.09。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种酿酒酵母菌中DNA复制起点的预测方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!