一种ngs测序中样本质量预测方法及系统

文档序号:128498 发布日期:2021-10-22 浏览:45次 >En<

阅读说明:本技术 一种ngs测序中样本质量预测方法及系统 (Method and system for predicting sample quality in NGS sequencing ) 是由 何俊俊 邵阳 刘凯华 朱伟 高宇 杨岚 汪笑男 王晓丹 焦乐晨 赵瑾 于 2021-07-05 设计创作,主要内容包括:本发明涉及一种通过肿瘤组织样本NGS前期实验指标预测质控是否合格的模型和软件,属于临床检验学和生物技术领域。通过提取和预文库构建过程第一天的实验指标,筛选出与质控相关的因素,通过岭回归的方法,以NGS实验流程前期的指标建立NGS质控预测模型。对于预测为质控不合格的样本及时告知患者,有效的解决患者测序生信分析后才知道自己样本不合格再重新准备的问题。将模型通过PYTHON编译并打包成小软件,实验员通过界面输入相关实验指标来预测该样本质控是否合格,适用于预测样本测序后的质控风险评估。(The invention relates to a model and software for predicting whether quality control is qualified or not through NGS early-stage experimental indexes of a tumor tissue sample, and belongs to the field of clinical laboratory and biotechnology. And (3) screening out factors related to quality control by extracting and pre-constructing the experimental indexes of the first day in the library construction process, and establishing an NGS quality control prediction model by using indexes at the early stage of the NGS experimental process through a ridge regression method. The sample predicted to be unqualified in quality control is timely informed to the patient, and the problem that the patient knows that the sample is unqualified and prepares again after sequencing and signal generation analysis is effectively solved. The model is compiled and packaged into small software through PYTHON, and an experimenter inputs relevant experiment indexes through an interface to predict whether the quality control of the sample is qualified or not, so that the method is suitable for predicting the quality control risk assessment after sample sequencing.)

一种NGS测序中样本质量预测方法及系统

技术领域

本发明一种通过实验前期数据预测NGS检测质控的模型和软件,属于临床检验学和生物技术领域。

背景技术

下一代测序(next generation sequencing,NGS),又称为大规模平行测序(massively parallel sequencing,MPS),相较于传统测序技术,高通量、单碱基检测成本较低、速度较快、一次可检测大量靶基因的优势,因而广泛应用于肿瘤靶向治疗基因突变检测、遗传性肿瘤检测、遗传病及罕见病检测、染色体非整倍体无创产前筛查、病原微生物及宏基因组检测等领域。

高通量测序操作步骤多、程序复杂,分为“湿实验(wet bench)”和“干实验(drybench)”两个阶段。“湿实验”包括样本预处理、核酸提取、基因组的片段化、预文库构建、富集、终文库构建、测序前准备及测序等;“干实验”包括测序后的数据质量分析、比对、变异识别、注释和结果报告与解释等环节。一个患者的样本经过湿实验和干实验流程大约需要7天,而当7天后才拿到最终质控,对于质控不合格的患者不仅会容易引起对技术的误解,也会影响其治疗时间。而样本的质控不合格的主要原因在于样本的质量,比如组织样本经过石蜡包埋等众多的不可控因素,存在DNA降解和碎片化的风险,从而影响该样本最后有效测序数据的产出。

发明内容

本发明解决现有技术中对组织样品提取后,不能有效快速地对样品质量进行预测,进而导致进入至后续的建库、测序的过程时,样品质量不可控,造成了整个测序流程过长、成本提高:本发明提供了一种预测NGS检测质控的模型和软件,通过对NGS前期实验环节的数据进行数据分析、构建模型,实现了对组织样本质控是否合格精准预测的目的。本方法能够在实验的第一天就能实现准确评估样本质量,进行质控预测,做到及时反馈临床医生和患者。

技术方案是:

一种NGS测序中样本质量预测方法,包括如下步骤:

步骤1,对组织样本依次进行DNA提取、DNA片段化、末端修复和加接头处理;

步骤2,对步骤1中得到的DNA溶液进行PCR反应;

步骤3,获取步骤1和步骤2中操作过程中DNA进入量、加接头清洁后浓度、加接头清洁后总量、扩增循环数、PCR后浓度、PCR后总量、扩增比例的数据,作为预测模型的输入变量,并以测序质控合格情况作为模型的输出变量,构建预测模型;

步骤4,对待测序的样本采用构建出的预测模型进行质控结果的预测。

优选地,所述的步骤1中,组织样本是采用苯酚氯仿抽提法、离心柱法或者磁珠法提取得到DNA。

优选地,所述的步骤1中,组织样本经过了快速冷冻处理、石蜡固定处理或者福尔马林固定处理。

优选地,所述的步骤3中,预测模型为分类器。

优选地,所述的步骤3中,所述的分类器包括:支持向量机、决策树、随机森林、逻辑回归、贝叶斯、K近邻、K均值、马尔可夫、回归岭算法中的一种。

一种NGS测序中样本质量预测系统,包括:

数据获取模块,用于获取样本提取、PCR反应过程中的DNA进入量、加接头清洁后浓度、加接头清洁后总量、扩增循环数、PCR后浓度、PCR后总量、扩增比例、质控结果的数据;

预测模块,以DNA进入量、加接头清洁后浓度、加接头清洁后总量、扩增循环数、PCR后浓度、PCR后总量、扩增比例作为预测模型的输入变量,以测序质控合格情况作为模型的输出变量,对样品处理过程进行结果预测。

优选地,所述的预测模块基于分类器构建。

优选地,所述的分类器包括:支持向量机、决策树、随机森林、逻辑回归、贝叶斯、K近邻、K均值、马尔可夫、回归岭算法中的一种。

一种计算机可读取介质,其记载有可运行上述NGS测序中样本质量预测方法的程序。

有益效果

本发明首次基于组织样本提取和预文库的实验参数,构建了质控预测模型,该模型能够从前期实验指标预测样本生信质控是否合格的可能性,具有通量高、检测特异性和敏感性高的优点。

附图说明

图1:质控预测模型的研究设计流程图

图2:岭回归建模,训练组ROC曲线图

图3:岭回归建模独立验证组1ROC曲线图

图4:岭回归建模前瞻性独立验证组2ROC曲线图

图5:基于PYTHON包装成软件的界面图

具体实施方式

本发明首次基于组织样本提取和预文库构建的实验指标,建立了预测样本质控是否合格的预测模型,提高了组织样本质控预测的特异性和敏感性。

本发明的预测方法是针对组织样本进行DNA提取后得到的DNA片段以及PCR过程的参数进行建模,并用于对后续进行建库、测序的质控结果进行预测。

具体的流程如下:

样本提取:从本发明中对组织样本提取DNA,并进行DNA浓度测定,根据加样体积计算DNA进入量。适用于本发明中的组织样本DNA提取方法包括:苯酚氯仿抽提法、离心柱法、磁珠法等,组织样本的处理也可以包括快速冷冻处理、石蜡固定处理、福尔马林固定处理等。在以下的实施例中,所采用的DNA提取方法是离心柱法,样本都经过了石蜡包埋处理。

DNA片段化、末端修复和加接头:将进入的DNA进行打断,获取的DNA片段进行末端修复,加接头并纯化,然后测浓度,为加接头清洁后浓度,根据取样的体积计算加接头清洁后总量。

PCR扩增:根据的DNA浓度和进入量设置PCR循环数,PCR结束后测定PCR后浓度,并根据体积计算PCR后总量。

至此,上述的步骤中获得了本预测方法所需的输入数据量。接下来,后续可以采用常规的建库、测序过程,简述如下:通过设计的探针对上述步骤中获得的PCR扩增反应产物进行杂交捕获,通过带有链霉亲和素的磁珠进行吸附分离,再将捕获到的核酸从磁珠上洗脱,洗脱产物由于存在着损失,需要再进行PCR扩增,将扩增产物进行上机测序和下机数据分析,获得测序结果。

本发明中的主要术语定义是:

DNA进入量:将组织样本进行DNA提取后进入后续处理过程的总DNA量。其数据范围一般在50到250ng。

加接头清洁后浓度:将提取得到的DNA经过片段化、末端修复、加接头和清洁处理后得到的溶液中的DNA浓度。其数据与进入量和样本质量相关,一般可以在1-50ng/μL。

加接头清洁后总量:将提取得到的DNA经过片段化、末端修复、加接头和清洁处理后得到的溶液中的DNA总量。其数据与进入量和样本质量相关,一般可以在20-700ng。

扩增循环数:PCR反应循环次数。其数据范围一般在5-30个循环数,也可以控制在7-15个循环数左右。

PCR后浓度:PCR反应后溶液中的DNA浓度。其数据与进入量和样本质量/扩增倍数相关,一般可以在5-150ng/μL。

PCR后总量:PCR反应后溶液中的DNA总量。其数据与进入量和样本质量相关,一般可以在100-3000ng。

扩增比例:PCR后总量与加接头清洁后总量的比值。其数据范围一般大于1.5,低于1.5为警戒。

质控合格/不合格:本专利中,是以平均测序深度大于500乘、有效测序深度大于200乘\Q30(%)>75%且与人基因组比对率大于90%为指标作为评价NGS测序过程的质控是否合格。

本发明的实验方法步骤如图1所示。

本发明中的涉及到的样本的情况

从2019.7-2021.2回顾性分析了714例组织样本,将其分为训练集和验证集。训练集用于构建最佳敏感性特异性模型,验证集用于验证模型预测的准确性。然后在2021.3-2021.5前瞻性收集了272例样本同时将入组样本分为训练组和验证组,信息如下:

表1样本信息

模型构建

将DNA进入量、加接头清洁后浓度、加接头清洁后总量、扩增循环数、PCR后浓度、PCR后总量、扩增比例,这7个变量通过训练集481例样本进行参数筛选和建模,通过岭回归算法发现7个变量同时放入模型中所得的模型效果最优。

所筛选最优模型模型性能在训练组质控合格和质控不合格的表现如图2所示。通过岭回归建模训练组AUC为0.955。敏感性和特异性分别为88.9%和95.9%,如表2所示。

表2模型在训练集中敏感性与特异性

为了进行对照,同时构建了对比模型,分别将扩增循环数和扩增比例这两个变量省略,作为对照模型。

对照模型1的输入变量:DNA进入量、加接头清洁后浓度、加接头清洁后总量、PCR后浓度、PCR后总量、扩增比例,去除了扩增循环数。

对照模型2的输入变量:DNA进入量、加接头清洁后浓度、加接头清洁后总量、扩增循环数、PCR后浓度、PCR后总量,去除了扩增比例。

将上述的模型依同法采用相同的数据集进行建模,得到的预测结果如下:

表3:对照模型1(去除扩增比例因素后)建模表现

表4:对照模型2(去除扩增比例因素)后建模表现

可以看到,在去除了扩增循环数和扩增比例进行建模后,模型在训练集和验证集的测试效果,无论是敏感性还是特异性都显著低于使用7个变量建模的测试效果,使用7个变量建立的模型无论在训练集还是在后续的两个验证集模型表现显著优于其他模型,并且在计算各个变量对模型预测效果的影响程度时,可以看到扩增循环数和扩增比例对于结果预测的影响程度更大,分别是0.08675629和0.1342217,各个变量对模型结果的影响程度如下:

表5:各个因素对于预测结果的影响程度

在本发明的方法中,扩增循环数以及扩增比例是两个重要的变量,在实验过程中,当样本质量较差时,模版DNA损伤严重,DNA扩增能力弱。同时扩增比例也取决于扩增循环数,且当样本质量较差时,样本加完接头后的量偏低,因此需要增加PCR的扩增,因此扩增循环数和扩增比例能够一定程度的反映样本的质量,可以作为预测样本下机质控的主要指标,并且能够实现在样本处理的前期更好地对后续的测序结果进行预测,具有提高模型准确性的作用。

模型验证

将独立验证集1的233个样本的7个实验参数输入已构建的模型中进行验证,验证所得AUC值达到0.991,如图3所示。模型的敏感性和特异性分别为100%和97.8%,如表3所示。

表5模型在验证集1中敏感性与特异性

为进一步验证模型的准确性,前瞻性收集了272个样本为独立验证集2,将272个样本的实验参数输入已构建的模型中进行模型性能进一步验证,验证所得AUC值达到1,如图4所示。模型的敏感性和特异性分别为:100%和100%,如表4所示。

表6模型在验证集2中敏感性与特异性

可以看出本方案中的模型可以较好预测质控是否合格。

模型包装

考虑到实际使用的方便性,将模型的算法通过PYTHON编译并打包成小软件,可以直接安装到第三方电脑上,直接在软件的界面上输入DNA进入量、加接头清洁后浓度、加接头清洁后总量、扩增循环数、PCR后浓度、PCR后总量、扩增比例7个实验参数,点击“预测”即会在界面上显示预测结果。如图5所示。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:用于多核苷酸测序的组合物和方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!