一种分析靶向测序Panel估算肿瘤突变负荷可行性的方法和装置

文档序号:635882 发布日期:2021-05-11 浏览:29次 >En<

阅读说明:本技术 一种分析靶向测序Panel估算肿瘤突变负荷可行性的方法和装置 (Method and device for analyzing feasibility of target sequencing Panel for estimating tumor mutation load ) 是由 张仕坚 季序我 于 2020-12-31 设计创作,主要内容包括:本发明提供了一种分析靶向测序Panel估算肿瘤突变负荷(TMB)可行性的方法和装置,根据全外显子组(WES)和Panel的基因长度及突变数量,计算WES和Panel TMB;按相同的分组规则,分别根据WES及Panel TMB,将样本分为全外显子组及Panel中的不同高低等级组,并据此计算严重错误分组百分比,分析靶向测序Panel估算TMB的可行性。本发明采用多种方法定量评估WES TMB和Panel估算的TMB的一致性,包括相关性系数和严重错误分组百分比,两者的评估结论一致。本发明的特色之处在于:在按照癌种分类的基础上,进一步按性别或年龄分类,并分析性别或年龄因素对TMB一致性的影响,将临床决策进一步细化,提高决策准确率;对现有Panel进行优化及为构建新Panel提供了方法。(The invention provides a method and a device for analyzing feasibility of target sequencing Panel for estimating tumor mutation load (TMB), wherein WES and Panel TMB are calculated according to gene length and mutation quantity of a Whole Exome (WES) and Panel; according to the same grouping rule, samples are divided into different high-level and low-level groups in the whole exome and Panel according to WES and Panel TMB respectively, the percentage of serious error grouping is calculated according to the groups, and the feasibility of target sequencing Panel for estimating TMB is analyzed. The invention adopts a plurality of methods to quantitatively evaluate the consistency of WES TMB and the TMB estimated by Panel, including the correlation coefficient and the serious error grouping percentage, and the evaluation conclusion of the WES TMB and the TMB estimated by Panel is consistent. The invention is characterized in that: based on classification according to cancer species, further classifying according to gender or age, analyzing the influence of gender or age factors on TMB consistency, further refining clinical decision and improving decision accuracy; the method optimizes the existing Panel and provides a method for constructing a new Panel.)

一种分析靶向测序Panel估算肿瘤突变负荷可行性的方法和 装置

技术领域

本发明属于生物信息学技术领域,涉及一种分析靶向测序Panel估算肿瘤突变负荷可行性的方法和装置。

背景技术

肿瘤突变负荷(Tumor Mutation Burden,TMB)已经成为基于免疫检查点抑制剂开展肿瘤免疫治疗的重要生物标志物,已有多个药物获批基于TMB进行伴随诊断的应用。目前,计算TMB主要采用全外显子组测序数据(Whole Exome Sequencing,WES),因其包含了人类所有蛋白编码基因(两万多个)的突变检测信息,能在整体上对TMB进行精确计算,是行业金标准,但是存在成本高的问题。为降低成本,市面上出现了一些使用部分基因(一般是几百个)进行TMB估算的产品,期望用抽样的方式来代表整体的情况,这种由部分基因组成的集合被称为Panel。基于抽样产生的Panel估算的TMB是否与WES计算的TMB具有一致性,已有相关研究成果发表。现有技术普遍认为,Panel在不区分癌种的情况下,其估算的TMB可以从整体上代表WES计算的TMB,在个别癌种中也有较好的代表性。

虽然Panel在整体及个别癌种中能较好地代表WES,但是在其他癌种中的代表性一般,有的甚至很差(即相关系数低)。而在实际应用中,Panel恰恰是在特定癌种中使用的。另一方面,针对不同癌种,市面上有不同的Panel,对WES的代表性也不一样,即使特定Panel可能表现出较好的代表性,但是Panel中有可能包含了指导靶向用药等不适用于精确计算TMB的基因,使得代表程度不能达到最优。

因此,须针对具体Panel对WES的代表性进行评估,从而筛选出最优的Panel,并考虑在特定癌种和不同临床因素影响(例如性别和年龄)下的适用性。

发明内容

针对现有技术的不足和实际需求,第一方面,本发明提供了一种分析靶向测序Panel估算肿瘤突变负荷可行性的方法,所述方法包括:

分别根据全外显子组和Panel的基因长度和突变数量,计算基于全外显子组的肿瘤突变负荷和基于Panel的肿瘤突变负荷;

计算基于全外显子组的肿瘤突变负荷和基于Panel的肿瘤突变负荷的Spearman相关系数;

按照相同的分组规则,根据全外显子组的肿瘤突变负荷值,将样本分为基于全外显子组的多个组,并根据Panel的肿瘤突变负荷值,将样本分为基于Panel的多个组,根据样本在基于全外显子组的组和在基于Panel的组的等级差异,计算严重错误分组百分比;

根据Spearman相关系数和/或严重错误分组百分比,分析靶向测序Panel估算肿瘤突变负荷的可行性。

本发明中,采用严重错误分组百分比定量评估WES计算的TMB和Panel估算的TMB的一致性,得到了与基于相关性系数一致的结果,说明以严重错误分组百分比为指标同样可以评估Panel的代表性,且该指标相比于相关系数更直观地反应出病人被误诊或漏诊的几率。

优选地,所述肿瘤突变负荷的计算公式为:

优选地,所述分组规则包括根据肿瘤突变负荷值排序将样本均匀分为不少于3个等级,优选为根据肿瘤突变负荷值排序将样本均匀分为高、中、低3个等级。

优选地,所述严重错误分组百分比Fs的计算公式为:

Fs=S/(C+M+S)

其中,S为严重错误分组的样本数量,所述严重错误分组为样本在基于全外显子组的组和在基于Panel的组中相差至少两个等级;

C为正确分组的样本数量,所述正确分组为样本在基于全外显子组的组和在基于Panel的组中的等级相同;

M为轻微错误分组的样本数量,所述轻微错误分组为样本在基于全外显子组的组和在基于Panel的组中相差一个等级。

优选地,在对样本进行肿瘤突变负荷分组前,还包括根据癌种、癌种和性别或癌种和年龄三种方式对样本进行分类的步骤。

本发明中,鉴于商业化Panel在特定癌种中的代表性较差,将样本进一步按照性别或年龄分类,有利于提高Panel在特定癌种特定人群中的代表性。

第二方面,本发明提供了一种分析靶向测序Panel估算肿瘤突变负荷可行性的装置,所述装置包括:

肿瘤突变负荷计算模块,用于分别根据全外显子组和Panel的基因长度和突变数量,计算基于全外显子组的肿瘤突变负荷和基于Panel的肿瘤突变负荷;

Spearman相关系数计算模块,用于计算基于全外显子组的肿瘤突变负荷和基于Panel的肿瘤突变负荷的Spearman相关系数;

严重错误分组百分比计算模块,用于按照相同的分组规则,根据全外显子组的肿瘤突变负荷值,将样本分为基于全外显子组的多个组,并根据Panel的肿瘤突变负荷值,将样本分为基于Panel的多个组,根据样本在基于全外显子组的组和在基于Panel的组的等级差异,计算严重错误分组百分比;

样本分组与偏差统计检验模块,用于将样本按照癌种、癌种与性别或癌种与年龄三种方式进行分类后,调用Spearman相关系数计算模块或严重错误分组百分比计算模块,计算分类后的Spearman相关系数或严重错误分组百分比,继而对性别或年龄对一致性的影响进行统计显著性检验;

分析模块,用于根据Spearman相关系数、严重错误分组百分比和统计显著性检验结果,分析靶向测序Panel估算肿瘤突变负荷的可行性。

优选地,所述肿瘤突变负荷的计算公式为:

优选地,所述分组规则包括根据肿瘤突变负荷值排序将样本均匀分为不少于3个等级。

优选地,所述严重错误分组百分比Fs的计算公式为:

Fs=S/(C+M+S)

其中,S为严重错误分组的样本数量,所述严重错误分组为样本在基于全外显子组的组和在基于Panel的组中相差至少两个等级;

C为正确分组的样本数量,所述正确分组为样本在基于全外显子组的组和在基于Panel的组中的等级相同;

M为轻微错误分组的样本数量,所述轻微错误分组为样本在基于全外显子组的组和在基于Panel的组中相差一个等级。

第三方面,本发明提供了一种筛选Panel基因以优化一致性的方法,所述方法包括:

计算基于单一基因的肿瘤突变负荷和基于全外显子组的肿瘤突变负荷的Spearman相关系数;

根据Spearman相关系数从现有Panel中筛选基因以形成子Panel,并分析所述子Panel估算肿瘤突变负荷的可行性进一步提高的程度;

根据Spearman相关系数从全外子组中筛选基因以形成新Panel,并分析所述新Panel估算肿瘤突变负荷的可行性进一步提高的程度。

第四方面,本发明提供了一种筛选Panel基因以优化一致性的装置,所述装置包括:

Spearman相关系数计算模块,用于计算基于单一基因的肿瘤突变负荷和基于全外显子组的肿瘤突变负荷的Spearman相关系数;

子Panel建立模块,用于根据Spearman相关系数从现有Panel中筛选基因以形成子Panel,并分析所述子Panel估算肿瘤突变负荷的可行性提高的程度;

新Panel建立模块,用于根据Spearman相关系数从全外子组中筛选基因以形成新Panel,并分析所述新Panel估算肿瘤突变负荷的可行性提高的程度。

与现有技术相比,本发明具有如下有益效果:

(1)本发明采用错误分组百分比定量评估WES计算的TMB和Panel估算的TMB的一致性,得到了与基于相关性系数一致的结果,说明以严重错误分组百分比为指标同样可以评估Panel的代表性;

(2)本发明考虑到商业化Panel在特定癌种中的代表性较差,将样本进一步按照性别和/或年龄分类,有利于提高Panel在特定癌种特定人群中的代表性;

(3)本发明通过计算并比较不同Panel的Spearman相关系数或严重错误分组百分比,有利于针对不同的目的得到代表性最好的Panel;

(4)本发明通过计算单一基因的Spearman相关系数或严重错误分组百分比,挑选前N个基因(N≤Panel基因总数)得到代表性更好的子Panel,在TMB评估方面具有重要参考价值;进一步地,本发明提供了一种从所有基因(而不仅是从现有Panel)中挑选基因以组成全新Panel的实现思路。

附图说明

图1为分析靶向测序Panel估算肿瘤突变负荷可行性的流程示意图;

图2为样本总数及在33个癌种中的分布;

图3为仅用癌种对患者进行分组时,Panel TMB与WES TMB的相关系数;

图4为严重错误分组判定原则;

图5为仅用癌种对患者进行分组时,Panel TMB与WES TMB的严重错误分组百分比;

图6为性别对TMB一致性的影响评估;

图7为用癌种和性别对患者进行分类后,Panel TMB与WES TMB的严重错误分组百分比;

图8为年龄对TMB一致性的影响评估;

图9为用癌种和年龄对患者进行分类后,Panel TMB与WES TMB的严重错误分组百分比;

图10为Panel优化前和优化后相关系数的比较。

具体实施方式

为进一步阐述本发明所采取的技术手段及其效果,以下结合实施例和附图对本发明作进一步地说明。可以理解的是,此处所描述的具体实施方式仅仅用于解释本发明,而非对本发明的限定。

实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件,或者按照产品说明书进行。

实施例1

分析靶向测序Panel估算肿瘤突变负荷可行性的流程如图1所示:

分别根据全外显子组和Panel的基因长度和突变数量,计算基于全外显子组的肿瘤突变负荷和基于Panel的肿瘤突变负荷;

所述肿瘤突变负荷的计算公式为:

计算基于全外显子组的肿瘤突变负荷和基于Panel的肿瘤突变负荷的Spearman相关系数;

按照相同的分组规则,根据全外显子组的肿瘤突变负荷值,将样本均匀分为基于全外显子组的至少三个等级,并根据Panel的肿瘤突变负荷值,类似地将样本均匀分为基于Panel的、与全外显子组等级数目相同的多个等级,根据样本在基于全外显子组的组和在基于Panel的组的等级差异,计算严重错误分组百分比;

根据Spearman相关系数和/或严重错误分组百分比,分析靶向测序Panel估算肿瘤突变负荷的可行性;

所述严重错误分组百分比的计算公式为:

Fs=S/(C+M+S)

其中,S为严重错误分组的样本数量,所述严重错误分组为样本在基于全外显子组的组和在基于Panel的组中相差至少两个等级;

C为正确分组的样本数量,所述正确分组为样本在基于全外显子组的组和在基于Panel的组中的等级相同;

M为轻微错误分组的样本数量,所述轻微错误分组为样本在基于全外显子组的组和在基于Panel的组中相差一个等级。

实施例2

本实施例采用临床数据分析靶向测序Panel估算TMB的可行性,步骤如下:

(1)获取数据

从TCGA(The Cancer Genome Atlas)数据库下载全外显子组测序(WES)鉴定的突变数据,共涉及33个癌种8706例病人,信息如图2所示;

从UCSC数据库下载基于RefSeq的全外显子组所有基因结构信息,用于转录本合并和基因长度的计算;

从GDC(https://gdc.cancer.gov/about-data/publications/pancanatlas)下载样本的临床信息(包含性别和年龄);

从公开信息中获取11个商业化主流Panel的基因名称列表。Panel的代号为FF、GP、MI、PSOC、TO、BROP、BOT、ITO、ITT、TT和G。

(2)计算肿瘤突变负荷

对全外显子组中有多个转录本的基因,根据转录本的外显子-内含子坐标进行外显子合并(合并原则:位点在任一转录本中为外显子,则在基因层次就认为是外显子),得到并集坐标,将基因的所有并集外显子长度加和得到基因长度,将所有基因长度加和得到全外显子组基因长度;

根据Panel的基因名称从全外显子组中查询Panel中各个基因的长度,加和得到Panel所有基因总长度;

根据突变数据中标记的突变类型和基因名字段,筛选出蛋白编码基因的突变(包含同义突变和非同义突变),分别计算全外显子组和Panel中蛋白编码基因突变的数量;

结合基因长度和突变数量,计算全外显子组TMB(WES TMB)和Panel TMB,计算公式如下:

(3)计算相关系数

从临床信息获取每位患者的癌种信息,并根据癌种类型对患者进行分类;

计算33个癌种中WES TMB和Panel TMB的斯皮尔曼(Spearman)相关系数(Rs)。

结果如图3所示,可以看出,当仅用癌种对患者进行分组时,UVM、LGG、TGCT、PCPG、GBM等癌种中Panel TMB与WES TMB的相关系数低,说明Panel的代表性较差,这些癌种不应使用Panel进行免疫用药决策。

(4)计算严重错误分组百分比

根据WES TMB大小,将患者均匀分为WES高(Top)、中(Middle)和低(Bottom)三组;类似地,根据Panel TMB大小,将患者均匀分为Panel高(Top)、中(Middle)和低(Bottom)三组;

针对某一癌种患者,根据其在WES和Panel中所处的组别,判断是否存在严重错误(Seriously False)分组,如图4所示,如果某一癌种患者在WES中所处的组别为Top而在Panel中所处的组别为Bottom,或者在WES中所处的组别为Bottom而在Panel中所处的组别为Top,则判定为严重错误分组;

分别在33个癌种和11个Panel中,统计被严重错误分组的病人数(S)和病人总数(C+M+S),根据公式计算严重错误分组百分比(Fs);

Fs=S/(C+M+S)

结果如图5所示,可以看出,当仅用癌种对患者进行分组时,UVM、LGG、TGCT、PCPG、GBM等癌种中Panel TMB与WES TMB的严重错误分组百分比高,说明Panel的代表性较差,整体上与图3结果一致,说明以严重错误分组百分比为指标同样可以评估Panel的代表性。

实施例3

本实施例评估性别对TMB一致性的影响,步骤如下:

分别将33个癌种的患者进一步按性别分类,计算33个癌种11个Panel中,男性Fs和女性Fs,并计算两者的差值,此差值越大,表明男女性的严重错误分组百分比差别越大,性别对TMB一致性的影响越大。采用Fisher’s Exact Test对男性分组正确、男性分组错误、女性分组正确、女性分组错误四类患者的数量进行检验,分析性别对TMB一致性的显著性影响。如图6所示,结果表明性别对LGG、LIHC和LAML三个癌种的TMB一致性有显著影响,而对SKCM、LUSC、LUAD等癌种基本没有影响。

计算特定癌种中特定性别人群的Fs,结果如图7所示,当同时用癌种和性别对患者进行分组时,UVM女性、PCPG男性、GBM女性等的严重错误分组百分比高,说明Panel的代表性较差,此类人群不应使用Panel进行免疫用药决策。

实施例4

本实施例评估年龄对TMB一致性的影响,步骤如下:

分别将33个癌种的患者按是否分组错误分为严重错误(Seriously False)组和其他组,计算33个癌种和11个Panel中严重错误组和其他组的年龄差,此差值越大,表明不同分组间年龄差异越大,年龄对TMB一致性的影响越大。采用T-Test对两组间的年龄进行检验,分析年龄对TMB一致性的显著性影响。如图8所示,结果表明年龄对大部分癌种(例如THCA、LGG)的TMB一致性有显著影响,而对SKCM、UCEC等癌种基本没有影响。

计算特定癌种中特定年龄层(60岁以上定义为年老Old,60及60岁以下定义为年轻Young)人群的Fs,结果如图9所示,当同时用癌种和年龄对患者进行分组时,UVM年老、PCPG年老、TGCT年轻等的严重错误分组百分比高,说明Panel的代表性较差,此类人群不应使用Panel进行免疫用药决策。

实施例5

在33个癌种中针对两万多个蛋白编码基因,计算每个基因的TMB值,与WES TMB进行基因的Spearman相关系数计算,评估每个基因的TMB代表程度;

分别对11个Panel的基因根据基因的Spearman相关系数进行排序,挑选相关系数最高的前N个基因(N为50、100、200、……递增取值,且N≤Panel基因总数)组成子Panel,计算子Panel TMB和WES TMB的Spearman相关系数;以Spearman相关系数最大时的子Panel作为优化后Panel,此最大值称为最优相关系数(Optimal Rs)。

结果如图10所示,可发现在11个Panel中优化后的Panel相关系数都得到提升。

类似地,对于全外显子组两万多个蛋白编码基因,挑选相关系数最高的前N个基因(N≤全外显子组基因总数)组成全新Panel。N越大,一致性越高,但因所需检测基因越多而成本也越高,所以在实践中,N的取值取决于对相关程度的追求和成本的折中平衡。

综上所述,本发明采用相关系数及严重错误分组百分比定量评估WES计算的TMB和Panel估算的TMB的一致性,实现了分析Panel估算TMB可行性的效果;将样本按照癌种以及性别或年龄分类,提高了Panel在特定癌种特定人群中的代表性;所述方法有利于对现有Panel进行优化及构建全新Panel,在TMB评估方面具有重要参考价值。

申请人声明,本发明通过上述实施例来说明本发明的详细方法,但本发明并不局限于上述详细方法,即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了,对本发明的任何改进,对本发明产品各要素(突变数据、基因结构、癌种、性别、年龄及Panel)的等效替换、具体方式的选择等,均落在本发明的保护范围和公开范围之内。

15页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于机器学习的药物疗效影响因子挖掘方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!