一种拷贝数变异的检测方法及其应用

文档序号：1863202 发布日期：2021-11-19 浏览：26次 >En<

阅读说明：本技术 一种拷贝数变异的检测方法及其应用 (Detection method of copy number variation and application thereof ) 是由旷婷刘成林张光亮张之宏张周揣少坤汉雨生于 2021-08-30 设计创作，主要内容包括：本申请涉及一种拷贝数变异的检测方法及其应用,具体涉及一种拷贝数状态分析方法,包含将参考样本分为两个或以上参考样本组,从参考样本组中确定与待测样本相似度高的所述参考样本组作为与待测样本最接近的参考样本组,以及基于所述与待测样本最接近的参考样本组的测序数据确定所述待测样本的目标基因的拷贝数状态。(The application relates to a method for detecting copy number variation and application thereof, in particular to a method for analyzing copy number state, which comprises the steps of dividing a reference sample into two or more reference sample groups, determining the reference sample group with high similarity to a sample to be detected from the reference sample groups as the reference sample group closest to the sample to be detected, and determining the copy number state of a target gene of the sample to be detected based on sequencing data of the reference sample group closest to the sample to be detected.)

一种拷贝数变异的检测方法及其应用

技术领域

本申请涉及生物信息领域，具体的涉及一种拷贝数变异的检测方法及其应用。

背景技术

拷贝数变异(CNV)是人类基因组中常见的变异类型之一。拷贝数变异包括基因拷贝数的扩增和缺失两种变异类型。对于基因拷贝数变异的检测可以用于监测受试者的基因组状态的，也可以用于发现特定疾病与某些基因组变异的关联性关系。例如，基因发生拷贝数变异可能导致多种常见遗传病，如BRCA1/2基因缺失可能导致遗传性乳腺癌的风险；基因发生拷贝数变异可能影响肿瘤的发生和发展，如HER2基因扩增不仅与肿瘤的发生发展相关，还是一个重要的临床治疗监测及预后指标，并且是肿瘤靶向治疗的一个重要靶点。因此，拷贝数变异的检测可以在受试者的基因组状态监测、全基因组关联研究、遗传病的预防以及肿瘤的精准治疗起着至关重要的作用。例如，携带某些特定的拷贝数变异的受试者与普通人群相比，可以具有更高的患有疾病(例如肿瘤)的终生风险。因此，拷贝数变异检测方法可以用于筛选出具有较高风险的受试者，该受试者可以接受疾病的个体化监测，从而可以达到早诊早治的目的。

传统的拷贝数变异检测方法如ddPCR(微滴式数字PCR)、MLPA(多重连接探针扩增技术)、FISH(荧光原位杂交技术)等，一次只能检测一个或少数几个基因的拷贝数状态，或者只能检测特定基因的拷贝数状态，不能对基因组进行全局分析，具有通量低、成本高的特点。目前，基于高通量技术检测拷贝数变异的方法有很多，但是不同的检测方法结果存在着很大的差异，检测的敏感性和特异性具有一定的局限。一方面，高通量测序技术在建库及测序过程中存在着一定的批次效应和技术误差，另一方面，由于肿瘤样本的复杂性，导致拷贝数检测结果的稳定性存在很大的挑战，使得基于高通量测序技术检测拷贝数变异检测在精准医疗领域有很大的难度。本领域急需一种可以降低批次效应、误差和/或提高拷贝数检测结果稳定性的分析方法。

发明内容

本申请的目的就是针对上述现有技术不足，提供一种针对基因拷贝数异常检测的方法。该方法至少可以降低批次效应、误差和/或提高拷贝数检测结果稳定性，对检测拷贝数异常相关的驱动事件以及解读肿瘤基因组演化信息有着重要的意义。本申请提供了一种拷贝数变异的检测方法及其应用。

一方面，本申请提供了一种拷贝数状态分析方法，包含以下步骤：

(S1)获取待测样本的测序数据和/或多个参考样本的测序数据；

(S2)将所述参考样本分为两个或以上参考样本组；

(S3)确定与所述待测样本最接近的参考样本组；

(S4)基于所述与待测样本最接近的参考样本组的测序数据，确定所述待测样本的目标基因的拷贝数状态。

另一方面，本申请提供了一种拷贝数状态分析装置，包含以下模块：(M1)接收模块，用于获取待测样本的测序数据和/或多个参考样本的测序数据；(M2)处理模块，用于将所述参考样本分为两个或以上参考样本组；(M3)计算模块，用于确定与所述待测样本最接近的参考样本组；(M4)判断模块，用于基于所述与待测样本最接近的参考样本组的测序数据，确定所述待测样本的目标基因的拷贝数状态。

另一方面，本申请提供了一种数据库建立方法，包含：获取多个参考样本的测序数据，以及将所述参考样本分为两个或以上参考样本组。在一种实施方式中，数据库建立方法包含本申请所述拷贝数状态分析方法的步骤(S1)和步骤(S2)。

另一方面，本申请提供了一种数据库建立装置，包含以下模块：接收模块，用于获取待测样本的测序数据和/或多个参考样本的测序数据；处理模块，用于将所述参考样本分为两个或以上参考样本组。

另一方面，本申请提供了一种拷贝数状态分析方法，包含：从两个或以上参考样本组确定与待测样本最接近的参考样本组，以及基于所述与待测样本最接近的参考样本组的测序数据，确定所述待测样本的目标基因的拷贝数状态。在一种实施方式中，拷贝数状态分析方法包含本申请所述拷贝数状态分析方法的步骤(S3)和步骤(S4)。

另一方面，本申请提供了一种拷贝数状态分析装置，包含以下模块：计算模块，用于从两个或以上参考样本组确定与所述待测样本最接近的参考样本组；判断模块，用于基于所述与待测样本最接近的参考样本组的测序数据，确定所述待测样本的目标基因的拷贝数状态。

另一方面，本申请提供了一种数据库，其根据本申请所述的方法建立。

另一方面，本申请提供了一种储存介质，其记载可以运行本申请的方法的程序。

另一方面，本申请提供了一种设备，其包含本申请的储存介质。在一种实施方式中，设备还包含耦接至所述储存介质的处理器，所述处理器被配置为基于存储在所述储存介质中的程序执行以实现本申请的方法。

另一方面，本申请提供了本申请的方法，在疾病诊断、预防和/或治疗中的应用。

另一方面，本申请提供了本申请的方法，在目标基因的拷贝数状态监测中的应用。

另一方面，本申请提供了本申请的方法，在全基因组关联研究中的应用。

本领域技术人员能够从下文的详细描述中容易地洞察到本申请的其它方面和优势。下文的详细描述中仅显示和描述了本申请的示例性实施方式。如本领域技术人员将认识到的，本申请的内容使得本领域技术人员能够对所公开的

具体实施方式

进行改动而不脱离本申请所涉及发明的精神和范围。相应地，本申请的附图和说明书中的描述仅仅是示例性的，而非为限制性的。

附图说明

本申请所涉及的发明的具体特征如所附权利要求书所显示。通过参考下文中详细描述的示例性实施方式和附图能够更好地理解本申请所涉及发明的特点和优势。对附图简要说明如下：

图1A-1F显示的是，本申请对于模拟样本的检测结果部分数据的拷贝数分布图示例。

图2A-2C显示的是，本申请对于标准样本的检测结果部分数据的拷贝数分布图示例。

图3A-3C显示的是，本申请对于真实样本的检测结果部分数据的拷贝数分布图示例。

图4A-4F显示的是，本申请对于标准样本1使用不同的基线检测结果的拷贝数分布图示例。

具体实施方式

以下由特定的具体实施例说明本申请发明的实施方式，熟悉此技术的人士可由本说明书所公开的内容容易地了解本申请发明的其他优点及效果。

术语定义

在本申请中，术语“二代基因测序”、高通量测序”或“下一代测序”通常是指第二代高通量测序技术及之后发展的更高通量的测序方法。下一代测序平台包括但不限于已有的Illumina等测序平台。随着测序技术的不断发展，本领域技术人员能够理解的是还可以采用其他方法的测序方法和装置用于本方法。例如，二代基因测序可以具有高灵敏度、通量大、测序深度高、或低成本的优势。根据发展历史、影响力、测序原理和技术不同等，主要有以下几种：大规模平行签名测序(Massively Parallel Signature Sequencing，MPSS)、聚合酶克隆(Polony Sequencing)、454焦磷酸测序(454pyro sequencing)、Illumina(Solexa)sequencing、离子半导体测序(Ion semi conductor sequencing)、DNA纳米球测序(DNA nano-ball sequencing)、Complete Genomics的DNA纳米阵列与组合探针锚定连接测序法等。所述二代基因测序可以使对一个物种的转录组和基因组进行细致全貌的分析成为可能，所以又被称为深度测序(deep sequencing)。例如，本申请的方法同样可以应用于一代基因测序、二代基因测序、三代基因测序或单分子测序(SMS)。

在本申请中，术语“数据库”通常是指相关数据的有组织实体，而不管数据或有组织实体的表示方式。例如，所述相关数据的有组织实体可以采取表、映射、网格、分组、数据报、文件、文档、列表的形式或任何其他形式。在本申请中，所述数据库可以包括以计算机可存取的方式来收集并保存的任何数据。

在本申请中，术语“计算模块”通常是指用于计算的功能模块。所述计算模块可以根据输入值计算输出值或得到结论或结果，例如计算模块可以主要是用于计算输出值。计算模块可以是有形的，例如电子计算机的处理器、带有处理器的计算机或电子设备或计算机网络，也可以是存储在电子介质上的一段程序、命令行或软件包。

在本申请中，术语“处理模块”通常是指用于数据处理的功能模块。所述处理模块可以根据将输入值处理为有统计学意义的数据，例如可以是用于输入值的数据的分类。处理模块可以是有形的，例如用于存储数据的电子或磁介质，以及电子计算机的处理器、带有处理器的计算机或电子设备或计算机网络，也可以是存储在电子介质上的一段程序、命令行或软件包。

在本申请中，术语“判断模块”通常是指用于获得相关判断结果的功能模块。在本申请中，所述判断模块可以根据输入值计算输出值或得到结论或结果，例如判断模块可以主要是用于得到结论或结果。判断模块可以是有形的，例如电子计算机的处理器、带有处理器的计算机或电子设备或计算机网络，也可以是存储在电子介质上的一段程序、命令行或软件包。

在本申请中，术语“样品获得模块”通常是指用于获得受试者的所述样本的功能模块。例如，所述样品获得模块可以包括用以获得所述样本(例如组织样本、血液样本、唾液、胸腔积液、腹腔积液、脑脊液等)所需的试剂和/或仪器。例如，可以包括采血针、采血管和/或血液样本运输箱。例如，本申请的装置可以不含或包含1个或以上的所述样品获得模块，并可以可选地具有输出本申请所述的样本的测量值的功能。

在本申请中，术语“接收模块”通常是指用于获得所述样本中所述测量值的功能模块。在本申请中，所述接收模块可以输入本申请所述样本(例如组织样本、血液样本、唾液、胸腔积液、腹腔积液、脑脊液等)。在本申请中，所述接收模块可以输入本申请所述样本(例如组织样本、血液样本、唾液、胸腔积液、腹腔积液、脑脊液等)的测量值。所述接收模块可以对所述样本的状态进行检测。例如，所述数据接收模块可以可选地对所述样本进行本申请所述的基因测序(例如二代基因测序)。例如，所述数据接收模块可以可选地包括用以进行所述基因测序所需的试剂和/或仪器。所述数据接收模块可以可选地检测出测序深度、测序读长计数或拷贝数。

在本申请中，术语“拷贝数变异”通常是指目标区间、目标基因或目标基因中的目标区间的拷贝数的扩增或缺失。例如，本申请提供的拷贝数变异分析方法可以是用于治疗或诊断目的。例如，本申请提供的拷贝数变异分析方法可以是用于非治疗或诊断目的，例如通过测序结果判定是否存在着拷贝数变异现象。

在本申请中，术语“不合格目标区间”通常是指测序质量低的区间。例如，不合格的区间可以不适合用作拷贝数变异的分析。例如，不合格的区间可以不适合用作参考或基线的构建。在一些情况下，筛除不合格区间可以提高检测结果的准确性；在另一些情况下，不筛除不合格区间也可以得到具有一定准确性的检测结果。例如，不合格的区间可以是指测序深度低的区间；例如，不合格的区间可以是指该区间在不同的样本中变化大的区间。

在本申请中，术语“捕获效率低区间”通常是指不容易被用到的探针捕获的区间。例如，某区间的序列存在特定的序列组合时，可能难以被核酸探针捕获。例如，捕获效率低区间可以是指测序深度低的区间。例如，捕获效率低区间可以是指测序读长计数为约5或更低的区间。

在本申请中，术语“不稳定区间”通常是指不同样本中测序结果差异大的区间。例如，可以是在同一样本中多次测序结果差异大的区间。例如，可以是在不同样本的同一批次中测序结果差异大的区间。例如，可以是在不同样本的不同批次中测序结果差异大的区间。例如，可以是在不同参考样本中测序结果差异大的区间。例如，确定不稳定区间的方法可以是计算某个区间在不同样本的测序深度的标准差与均值的比值，并确定该比值是否大于某阈值的方法，如阈值可以是0.8，或本领域技术人员根据实际测序情况进行调整。

在本申请中，术语“待测样本”通常是指需要进行检测，并判定该样本上的一个或者多个基因区域是否存在有拷贝数变异的样本。例如，待测样本可以在进行检测之前预先储存在储存器中。

在本申请中，术语“参考样本”、“基线样本”或者“对照样本”通常是指用于与待测样本进行测序深度的比对，并分析待测样本拷贝数情况的样本。例如，参考样本可以选择与待测样本同批次检测的样本，例如，参考样本可以选择与待测样本不同批次检测的样本。例如，也可以将多批次检测的样本作为参考样本。例如不同的参考样本测序深度分布差异大，本申请的方法可以通过将参考样本分类，得到具有测序深度分布一致性高的参考样本组，消除批次效应的同时，提高检测的特异性和敏感性。例如，参考样本可以预先储存在数据库中。

在本申请中，术语“人类参考基因组”通常是指可以在基因测序中发挥参照功能的人类基因组。所述人类参考基因组的信息可以参考UCSC。所述人类参考基因组可以有不同的版本，例如，可以为hg19、GRCH37或ensembl 75。例如，人类参考基因组可以与本申请所述的参考样本不是相同的术语。

在本申请中，术语“靶向测序面板”或“panel”通常是指一组/一套检测对象。例如，在测序的过程中，对一个或多个目标区间通过设计一个或多个探针进行捕获并检测，这样的一个或多个探针可以组成靶向测序面板。例如，靶向测序面板可以针对目标基因、目标区间或感兴趣的区域进行任意设计，例如也可以针对若干个外显子区域。例如，探针可以是指在研究中与目标区间的寡聚核苷酸或靶核酸互补的寡聚核苷酸。例如，目标区间是设计探针时所针对的区间。

在本申请中，术语“GC含量”通常是指在基因序列(碱基序列)中鸟嘌呤G和胞嘧啶C所占该序列汇总所有核苷酸的比率。

在本申请中，术语“测序读长计数”、“read计数”或“read count”通常是指特定区域(例如特定基因、特定区间、特定碱基)被检测的次数。测序读长(read)可以是指通过测序检测的一段碱基序列。例如，通过将测序读长(read)比对到人类参考基因组，并可选地去重，可以确定和统计特定基因、特定区间或特定碱基位置上测序读长的数量，作为测序读长计数。在一些情况下，测序读长计数可以与测序深度相关。例如，测序读长计数可以受到拷贝数状态的影响。

在本申请中，术语“测序数据”通常是指测序后获得的短序列的数据。例如，测序数据包含测序短序列(测序读长)的碱基序列、测序读长的数目等。

在本申请中，术语“测序偏差量”通常是指不同区间产生测序数据偏差量。例如，区间的序列的特殊排列方式或者碱基比例可以对该区间的测序读长计数产生影响。例如，当区间含有较高或较低GC含量时，该区间的测序读长计数相对于GC含量接近50％的区间可以有偏差。

在本申请中，术语“分布相似程度”可以是指两组数据的分布相似程度。例如，本申请中分布相似程度可以是指在一个或多个区间上参考样本组与待测样本的测序读长计数的相似程度。

在本申请中，术语“统计距离”可以是指两组数据的数据值的距离。例如，本申请中统计距离可以是指在一个或多个区间上参考样本组与待测样本的测序读长计数的差值的统计量。例如，可以通过欧式距离，切比雪夫距离，马氏距离等计算统计距离。

在本申请中，术语“统计值”可以是指根据样本的数据值计算的分析数值。例如，本申请的统计值可以是指平均值、方差、标准差、中位数值、众数值等。本领域技术人员根据实际情况选择一个或多个统计值用于分析数据。

在本申请中，术语“概率分布”通常是指随机变量取值的分布规律。例如，根据随机变量所属类型的不同，概率分布可以取不同的表现形式。例如，正态分布可以作为一种随机变量的概率分布。

在本申请中，术语“平滑化”通常是指使一个以上的本申请所述的差值之间的偏差减小的数据处理的方法。例如，可以是指将散点数据拟合到平滑的线的方法。例如，可以通过局部加权回归的方法分析和进行平滑化处理。例如，平滑化处理后，可以通过消除某一变量(例如GC含量)对于样本测序数据的固有影响，而消除或减弱该变量(例如GC含量))对于样本测序数据造成的偏差。例如，所述平滑化处理可以包括获得一定数量的本申请所述差值的平均值。例如，所述平滑化处理可以包括根据一定的间隔长度，选择不同长度所对应的数据值，计算不同数据值的差值。例如，所述平滑化处理可以包括将一定长度范围内，所述差值的累加值再除以间隔长度以获得比值。例如，所述比值可以被认为是该长度范围的所述差值的平均差值。

在本申请中，术语“回归”通常是指变量之间关系的统计分析方法。例如，本申请通过回归分析，可以得出样本测序数据与某一变量(例如GC含量)的线性或非线性关系。例如，可以通过局部加权回归得到样本的测序数据与某一变量(例如GC含量)的关系，并通过这一关系调整/矫正该样本的测序数据。例如，本申请的矫正可以是指根据样本的测序数据与某一变量的关系，对该样本的测序数据进行处理以消除或减弱该变量对该样本的测序数据造成的偏差。

在本申请中，术语“局部加权回归”通常是指在输入变量和目标变量的回归分析中，在局部引入权重的回归分析方法。例如，局部加权回归可以通过(loess(X～Y))的算法根据Y对X进行局部加权回归分析和处理。

在本申请中，术语“降噪化”通常是指对于数据中噪声数据的去除或减少。例如，根据噪声数据一般表现为高频信号，可以通过变换分析、主成分分析算法、奇异值分解和/或高斯滤波等方法对含噪音的数据提取有用信号进行降噪化处理。

在本申请中，术语“聚类分析”通常是指把相似的对象通过分类的方法分成不同的组别，使得在同一个组别中的成员对象都有相似的一些属性。

在本申请中，术语“K均值聚类”通常是指一种聚类分析的方法。例如，通过K均值聚类可以根据K个聚类中心将一组数据分类为若干个(K个)类别的聚类分析的方法，每个数据距离其最近聚类中心的距离和最小。

在本申请中，术语“变换分析”通常是指一种分析数据的方法。例如，变换分析可以通过将数据的原始分布变换为容易求解或处理的变换域的分布，对数据进行分析和用于进一步的处理。例如，变换分析可以包含离散小波变换。

在本申请中，术语“离散小波变换”通常是指对基本小波的尺度和平移进行离散化。例如，离散小波变换可以作为一种降噪化的方法。

在本申请中，术语“标准化”或“归一化”通常是指一种对数据变换的方式。例如，标准化可以是指将不同组的数据变换到某一固定范围的处理。例如，标准化可以是指将不同组的数据变换到同一中位值的处理。例如，本申请的标准化可以是指将不同样本的测序数据变换为的中位值相近水平的数据的处理方式。

在本申请中，术语“显著性检验”通常是指判断样本与假设分布之间的差异是否显著的方式。例如，通过显著性检验可以判断待测样本的拷贝数变异是否相对于参考样本组属于显著的差异。

在本申请中，术语“正态性概率分布”通常是指随机变量的概率分布。例如，通过正态性概率分布以及正态性概率分布密度函数可以确定一个随机变量发生的概率。例如，可以基于参考样本组的测序数据，通过正态性概率分布，确认待测样本的目标区间拷贝数变异的存在的概率。

在本申请中，术语“T检验”通常是指一种有学生t分布的统计假设检验的方式。例如，通过T检验可以确认待测样本的某一目标基因的拷贝数变异相对于参考样本组是否具有显著性。

在本申请中，术语“包含”通常是指包括明确指定的特征，但不排除其他要素。

在本申请中，术语“约”通常是指在指定数值以上或以下0.5％-10％的范围内变动，例如在指定数值以上或以下0.5％、1％、1.5％、2％、2.5％、3％、3.5％、4％、4.5％、5％、5.5％、6％、6.5％、7％、7.5％、8％、8.5％、9％、9.5％、或10％的范围内变动。

发明详述

拷贝数状态分析方法

一方面，本申请提供一种拷贝数状态分析方法，可以包含以下步骤：(S1)获取待测样本的测序数据和/或多个参考样本的测序数据；(S2)将所述参考样本分为两个或以上参考样本组；(S3)确定与所述待测样本最接近的参考样本组；(S4)基于所述与待测样本最接近的参考样本组的测序数据，确定所述待测样本的目标基因的拷贝数状态。

一方面，本申请提供一种拷贝数状态分析装置，可以包含以下模块：(M1)接收模块，用于获取待测样本的测序数据和/或多个参考样本的测序数据；(M2)处理模块，用于将所述参考样本分为两个或以上参考样本组；(M3)计算模块，用于确定与所述待测样本最接近的参考样本组；(M4)判断模块，用于基于所述与待测样本最接近的参考样本组的测序数据，确定所述待测样本的目标基因的拷贝数状态。

一方面，本申请提供一种拷贝数状态分析方法，可以包含以下步骤：

(S1)获取待测样本的测序数据和/或多个参考样本的测序数据；步骤(S1-1)：通过基因测序获取所述待测样本和/或所述参考样本的所述测序数据；步骤(S1-2)：矫正所述待测样本和/或参考样本的所述测序数据；

(S2)将所述参考样本分为两个或以上参考样本组；步骤(S2-1)：使所述参考样本分组；步骤(S2-2)：确认所述参考样本组的所述测序数据的统计值；

(S3)确定与所述待测样本最接近的参考样本组；

(S4)基于所述与待测样本最接近的参考样本组的测序数据，确定所述待测样本的目标基因的拷贝数状态步骤(S4-1)：确定所述待测样本的目标基因在所述目标区间i上的拷贝数CN_i；步骤(S4-3)：确定所述待测样本在目标基因上的拷贝数CN_g；步骤(S4-4)：确定在所述目标区间上待测样本的拷贝数变异的存在的概率；步骤(S4-5)：确定在所述目标基因上所述待测样本的显著性拷贝数扩增或缺失的存在的比例sigRatio；步骤(S4-6)：确定在所述目标基因上所述待测样本的拷贝数变异的存在的统计检验参数；通过以下内容确定所述待测样本的目标基因的拷贝数状态：当CN_g≥CN_thA，sigRatio≥sigRatio_th，且p_ttest≤p_th时，确认所述待测样本的目标基因发生拷贝数扩增；当CN_g≤CN_thD，sigRatio≥sigRatio_th，且p_ttest≤p_th时，确认所述待测样本的目标基因发生拷贝数缺失；当CN_thA＜CN_g＜CN_thD，或sigRatio＜sigRatio_th，或p_ttest＞p_th时，确认所述待测样本的目标基因拷贝数正常，其中CN_thA，CN_thD，sigRatio_th，和p_th各自独立地为阈值。

一方面，本申请提供一种拷贝数状态分析装置，可以包含实现本申请拷贝数状态分析方法的模块。

一方面，本申请提供一种拷贝数状态分析方法，可以包含以下步骤：

(S2)将所述参考样本分为两个或以上参考样本组；步骤(S2-1)：使所述参考样本分组；步骤(S2-2)：确认所述参考样本组的所述测序数据的统计值；

(S3)确定与所述待测样本最接近的参考样本组；

(S4)基于所述与待测样本最接近的参考样本组的测序数据，确定所述待测样本的目标基因的拷贝数状态步骤(S4-1)：确定所述待测样本的目标基因在所述目标区间i上的拷贝数CN_i；步骤(S4-2)：使所述待测样本的所述目标区间上的拷贝数降噪化；步骤(S4-3)：确定所述待测样本在目标基因上的拷贝数CN_g；步骤(S4-4)：确定在所述目标区间上待测样本的拷贝数变异的存在的概率；步骤(S4-5)：确定在所述目标基因上所述待测样本的显著性拷贝数扩增或缺失的存在的比例sigRatio；步骤(S4-6)：确定在所述目标基因上所述待测样本的拷贝数变异的存在的统计检验参数；通过以下内容确定所述待测样本的目标基因的拷贝数状态：当CN_g≥CN_thA，sigRatio≥sigRatio_th，且p_ttest≤p_th时，确认所述待测样本的目标基因发生拷贝数扩增；当CN_g≤CN_thD，sigRatio≥sigRatio_th，且p_ttest≤p_th时，确认所述待测样本的目标基因发生拷贝数缺失；当CN_thA＜CN_g＜CN_thD，或sigRatio＜sigRatio_th，或p_ttest＞p_th时，确认所述待测样本的目标基因拷贝数正常，其中CN_thA，CN_thD，sigRatio_th，和p_th各自独立地为阈值。

一方面，本申请提供一种拷贝数状态分析装置，可以包含实现本申请拷贝数状态分析方法的模块。

例如，本申请的测序数据可以包含测序读长计数。例如，本申请的测序数据可以包含目标基因或目标区间上测序读长(read)的数量。

例如，本申请的所述步骤(S1)或模块(M1)可以包含步骤(S1-1)或模块(M1-1)：通过基因测序获取所述待测样本和/或所述参考样本的所述测序数据。例如，所述基因测序可以包含二代基因测序(NGS)。例如，本申请的基因测序可以包含任选的高通量测序方法或模块、装置。例如，测序可以选自下组：Solexa测序技术、454测序技术、SOLiD测序技术、Complete Genomics测序方法和半导体(Ion Torrent)测序技术及其对应的装置。

例如，所述待测样本和/或所述参考样本可以包含含有核酸的样本。例如，本申请的样本来源可以是任意的含有核酸的样本，例如组织、血液、唾液、胸腔积液、腹腔积液、脑脊液等。

例如，所述步骤(S1-1)或模块(M1-1)可以包含获取所述待测样本和/或参考样本在目标区间中每个碱基的所述测序数据。

例如，所述目标区间可以包含靶向测序面板序列对应的区间。例如，所述目标区间的长度可以为约20至约500个碱基量。例如，所述目标区间的长度可以为约20至约500个碱基量、约50至约500个碱基量、约100至约500个碱基量、约200至约500个碱基量、约20至约200个碱基量、约50至约200个碱基量、约100至约200个碱基量、约20至约100个碱基量、约50至约100个碱基量、或约20至约50个碱基量。

例如，所述目标区间的数量可以至少为约100个。例如，所述目标区间的数量可以至少为约100个、至少为约200个、至少为约500个、至少为约1000个、或至少为约10000个。

例如，所述步骤(S1)或模块(M1)可以包含步骤(S1-2)或模块(M1-2)：矫正所述待测样本和/或参考样本的所述测序数据。例如，本申请的方法也可以不包含步骤(S1-2)或仅包含步骤(S1-2)的部分步骤。例如，本申请的装置也可以不包含模块(M1-2)或仅包含模块(M1-2)的部分模块。例如，本申请的方法步骤(S1-2)的以下步骤顺序可以是任意的：使所述待测样本和/或参考样本的所述测序数据标准化、使所述待测样本和/或参考样本的所述测序数据平滑化和筛除GC含量异常的所述目标区间。例如，本申请的装置的模块(M1-2)的以下模块顺序可以是任意的：使所述待测样本和/或参考样本的所述测序数据标准化、使所述待测样本和/或参考样本的所述测序数据平滑化和筛除GC含量异常的所述目标区间。

例如，所述步骤(S1-2)或模块(M1-2)可以包含：使所述待测样本和/或参考样本的所述测序数据标准化或均一化。例如，所述标准化或均一化可以包含使所述目标区间上所述测序数据除以所述目标区间对应的样本的所有目标区间上所述测序数据的总和，再乘以因子。例如，所述因子可以根据所有区间的大小进行设置。例如，所述因子可以任选为1E+07。例如，所述因子可以任选为1E+100、1E+20、1E+10、1E+09、1E+08、1E+07、1E+06、1E+05、1E+04、1E+03、或1E+02。

例如，所述步骤(S1-2)或模块(M1-2)可以包含：使所述待测样本和/或参考样本的所述测序数据平滑化。例如，所述平滑化可以包含基于测序偏差量，通过回归的方法或记载该程序的装置使所述待测样本和/或参考样本的所述测序数据平滑化。例如，所述回归可以包含局部加权回归。

例如，所述测序偏差量可以包含所述目标区间上覆盖的探针数。

例如，所述测序偏差量可以包含所述目标区间的GC含量。

例如，所述步骤(S1-2)或模块(M1-2)可以任选地包含：筛除GC含量异常的所述目标区间。

例如，所述GC含量异常的所述目标区间可以包含GC含量为约25％或更低的所述目标区间和/或GC含量为约75％或更高的所述目标区间。

例如，所述步骤(S2)或模块(M2)可以包含步骤(S2-1)或模块(M2-1)：使所述参考样本分组。例如，所述参考样本可以源自所述待测样本，也可以源自所述待测样本以外的样本。例如，可以将待测样本中的一部分划分出去作为参考样本。例如，所述参考样本可以进行更新，例如每次分析新样品的测序数据后，可以将该新样品的数据添加到已有的数据库中，并进行数据库再次建立处理。

例如，所述分组可以包含基于所述目标区间的所述测序数据使所述参考样本分组。

例如，所述分组可以包含通过聚类分析的方法或记载该程序的装置使所述参考样本分组。

例如，所述聚类分析的方法可以包含K均值聚类、层次聚类、密度聚类、网格聚类、概率模型聚类、或神经网络模型聚类等。例如，所述聚类分析的方法或记载该程序的装置可以包含任意的聚类、分类和分组的方法或记载该程序的装置。

例如，所述参考样本的数量可以为约30个或更多。例如，所述参考样本的数量可以为约50个或更多。例如所述参考样本的数量可以为约30个或更多、约40个或更多、约50个或更多、约60个或更多、约70个或更多、约80个或更多、约90个或更多、约100个或更多、约200个或更多、约300个或更多、约400个或更多、约500个或更多、或约1000个或更多。

例如，所述分组可以包含分为约2个组或更多。例如，当全部参考样本的测序数据较为近似时，可以仅分为1组。例如，所述分组包含分为约2个或更多、约3个或更多、约4个或更多、约5个或更多、约6或更多、约7个或更多、约8个或更多、约9个或更多、约10个或更多、约20个或更多、约30个或更多、约40个或更多、约50个或更多、约60个或更多、约70个或更多、约80个或更多、约90个或更多、或约100个或更多。

例如，每组中所述参考样本的数量可以为约30个或更多。例如，每组中的参考样本的数量可以为约30个或更多、约40个或更多、约50个或更多、约60个或更多、约70个或更多、约80个或更多、约90个或更多、约100个或更多、约200个或更多、约300个或更多、约400个或更多、约500个或更多、或约1000个或更多。

例如，所述步骤(S2)或模块(M2)可以包含步骤(S2-2)或模块(M2-2)：确认所述参考样本组的所述测序数据的统计值。例如，所述参考样本组的测序数据的统计值可以作为各个候选基线。例如，所述确认统计值可以包含计算在所述目标区间上每组中所述参考样本的均值和/或标准差。

例如，所述步骤(S2)或模块(M2)可以包含步骤(S2-3)或模块(M2-3)：筛除所述参考样本中不合格目标区间。例如，所述不合格目标区间可以包含捕获效率低区间和/或不稳定区间。

例如，所述不合格目标区间可以包含测序读长计数为约5或更低的目标区间。例如，所述不合格目标区间可以包含测序读长计数为约30或更低、约20或更低、约10或更低、约5或更低、约4或更低、约3或更低、约2或更低、约1或更低、或约0或更低的目标区间。

例如，所述不合格目标区间可以包含变异系数为约0.8或更高的目标区间，所述变异系数为所述目标区间上每组中所述参考样本的所述测序数据的标准差与均值的比值。例如，所述不合格目标区间可以包含变异系数为约0.8或更高、约0.9或更高或约1.0或更高。例如，捕获效率低区间和/或不稳定区间的各个阈值可以根据测序情况进行调整。

例如，所述步骤(S3)或模块(M3)可以包含确认所述待测样本与所述参考样本组的相似度。

例如，所述确认相似度可以包含基于在所述目标区间上所述参考样本组与所述待测样本的所述测序数据，确认所述参考样本组与所述待测样本的分布相似程度。

例如，所述相似度可以包含在所述目标区间上所述参考样本组与所述待测样本的所述测序数据的近似程度。

例如，所述确认相似度可以包含通过计算统计距离、相似度算法的方法或记载该程序的装置，确认所述参考样本组与所述待测样本的分布相似程度。例如，所述统计距离可以包含所述目标区间上所述参考样本组与所述待测样本的所述测序数据的差值的统计值。例如，所述统计距离可以包含所述目标区间上所述参考样本组与所述待测样本的所述测序数据的差值的绝对值的统计值。例如，所述统计距离可以包含所述目标区间上所述参考样本组与所述待测样本的所述测序数据的差值的绝对值的p次方的统计值，所述p为1或更大。例如，所述统计值可以包含求和值。

例如，所述相似度高可以包含在所述目标区间上所述参考样本组与所述待测样本的所述统计距离短。

例如，所述统计距离可以包含闵可夫斯基距离。例如，所述统计距离可以包含欧式距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离(当p＝1时，为曼哈顿距离；当p＝2时，为欧式距离；当p接近于无穷大是，为切比雪夫距离)等。例如，所述相似度算法可以包含余弦相似度、皮尔森相关系数、斯皮尔曼相关系数、对数似然相似度、交叉熵等。

例如，所述待测样本的目标基因的拷贝数状态可以包含述待测样本的目标基因的拷贝数变异的存在和/或数量。

例如，所述拷贝数变异可以包含拷贝数的扩增和/或缺失。

例如，所述步骤(S4)或模块(M4)可以包含步骤(S4-1)或模块(M4-1)：确定所述待测样本的目标基因在所述目标区间i上的拷贝数CN_i。

例如，所述确定所述CN_i可以包含，使所述待测样本的目标基因所述目标区间上的测序数据的均值除以所述与待测样本最接近的参考样本组在相应目标区间上的测序数据的均值，再乘以倍性，得到所述CN_i。

例如，所述倍性可以为2。例如，对于男性X染色体来说，所述倍性可以为1。当受试者为多倍体是，所述倍性可以根据具体情况进行调整。

例如，所述步骤(S4)或模块(M4)可以包含步骤(S4-2)或模块(M4-2)：使所述待测样本的所述目标区间上的拷贝数降噪化。

例如，所述降噪化可以包含通过变换分析、主成分分析算法、奇异值分解和/或高斯滤波的方法或记载该程序的装置使所述待测样本的所述目标区间上的拷贝数降噪化。

例如，所述降噪化可以包含通过离散小波变换的方法或记载该程序的装置使所述待测样本的所述目标区间上的拷贝数降噪化。例如，所述降噪化可以包含通过变换分析、主成分分析算法、奇异值分解和/或高斯滤波等方法或记载该程序的装置使所述待测样本的所述目标区间上的拷贝数降噪化。

例如，所述步骤(S4)或模块(M4)可以包含步骤(S4-3)或模块(M4-3)：确定所述待测样本在目标基因上的拷贝数CN_g。

例如，所述目标基因可以包含待确定的拷贝数变异发生的基因。

例如，所述目标基因可以包含选自以下组基因：ABL1、ABL2、ABRAXAS1、ACVR1、ACVR1B、AKT1、AKT2、AKT3、ALK、ALOX12B、AMER1、APC、AR、ARAF、ARFRP1、ARID1A、ARID1B、ARID2、ARID5B、ASXL1、ASXL2、ASXL3、ATG5、ATM、ATR、ATRX、AURKA、AURKB、AXIN1、AXIN2、AXL、B2M、BAP1、BARD1、BBC3、BCL10、BCL2、BCL2L1、BCL2L11、BCL2L2、BCL6、BCOR、BCORL1、BIRC3、BLM、BMPR1A、BRAF、BRCA1、BRCA2、BRD4、BRD7、BRINP3、BRIP1、BTG1、BTG2、BTK、CALR、CARD11、CASP8、CBFB、CBL、CCND1、CCND2、CCND3、CCNE1、CD274、CD28、CD58、CD74、CD79A、CD79B、CDC73、CDH1、CDH18、CDK12、CDK4、CDK6、CDK8、CDKN1A、CDKN1B、CDKN1C、CDKN2A、CDKN2B、CDKN2C、CEBPA、CENPA、CHD1、CHD2、CHD4、CHD8、CHEK1、CHEK2、CIC、CIITA、CREBBP、CRKL、CRLF2、CRYBG1、CSF1R、CSF3R、CSMD1、CSMD3、CTCF、CTLA4、CTNNA1、CTNNB1、CUL3、CUL4A、CXCR4、CYLD、CYP17A1、CYP2D6、DAXX、DCUN1D1、DDR1、DDR2、DDX3X、DICER1、DIS3、DNAJB1、DNMT1、DNMT3A、DNMT3B、DOT1L、DPYD、DTX1、DUSP22、EED、EGFR、EIF1AX、EIF4E、EMSY、EP300、EPCAM、EPHA2、EPHA3、EPHA5、EPHA7、EPHB1、EPHB4、ERBB2、ERBB3、ERBB4、ERCC1、ERCC2、ERCC3、ERCC4、ERCC5、ERG、ERRFI1、ESR1、ETV4、ETV5、ETV6、EWSR1、EZH2、EZR、FANCA、FANCC、FANCD2、FANCE、FANCF、FANCG、FANCI、FANCL、FANCM、FAS、FAT1、FAT3、FBXW7、FGF10、FGF12、FGF14、FGF19、FGF23、FGF3、FGF4、FGF6、FGF7、FGFR1、FGFR2、FGFR3、FGFR4、FH、FLCN、FLT1、FLT3、FLT4、FOXA1、FOXL2、FOXO1、FOXO3、FOXP1、FRS2、FUBP1、FYN、GABRA6、GALNT12、GATA1、GATA2、GATA3、GATA4、GATA6、GEN1、GID4、GLI1、GNA11、GNA13、GNAQ、GNAS、GPS2、GREM1、GRIN2A、GRM3、GSK3B、H3F3A、H3F3B、H3F3C、HDAC1、HDAC2、HGF、HIST1H1C、HIST1H2BD、HIST1H3A、HIST1H3B、HIST1H3C、HIST1H3D、HIST1H3E、HIST1H3G、HIST1H3H、HIST1H3I、HIST1H3J、HIST2H3D、HIST3H3、HLA-A、HLA-B、HLA-C、HNF1A、HOXB13、HRAS、HSD3B1、HSP90AA1、ICOSLG、ID3、IDH1、IDH2、IFNGR1、IGF1、IGF1R、IGF2、IGHD、IGHJ、IGHV、IKBKE、IKZF1、IL10、IL7R、INHA、INHBA、INPP4A、INPP4B、INSR、IRF2、IRF4、IRS1、IRS2、ITK、ITPKB、JAK1、JAK2、JAK3、JUN、KAT6A、KDM5A、KDM5C、KDM6A、KDR、KEAP1、KEL、KIR2DL4、KIR3DL2、KIT、KLF4、KLHL6、KLRC1、KLRC2、KLRK1、KMT2A、KMT2C、KMT2D、KRAS、LATS1、LATS2、LMO1、LRP1B、LTK、LYN、MAF、MAGI2、MALT1、MAP2K1、MAP2K2、MAP2K4、MAP3K1、MAP3K13、MAP3K14、MAPK1、MAPK3、MAX、MCL1、MDC1、MDM2、MDM4、MED12、MEF2B、MEN1、MERTK、MET、MFHAS1、MGA、MIR21、MITF、MKNK1、MLH1、MLH3、MPL、MRE11、MSH2、MSH3、MSH6、MST1、MST1R、MTAP、MTOR、MUTYH、MYC、MYCL、MYCN、MYD88、MYOD1、NAV3、NBN、NCOA3、NCOR1、NCOR2、NEGR1、NF1、NF2、NFE2L2、NFKBIA、NKX2-1、NKX3-1、NOTCH1、NOTCH2、NOTCH3、NOTCH4、NPM1、NRAS、NRG1、NSD1、NSD2、NSD3、NT5C2、NTHL1、NTRK1、NTRK2、NTRK3、NUP93、NUTM1、P2RY8、PAK1、PAK3、PAK5、PALB2、PALLD、PARP1、PARP2、PARP3、PAX5、PBRM1、PCDH11X、PDCD1、PDCD1LG2、PDGFRA、PDGFRB、PDK1、PGR、PHOX2B、PIK3C2B、PIK3C2G、PIK3C3、PIK3CA、PIK3CB、PIK3CD、PIK3CG、PIK3R1、PIK3R2、PIK3R3、PIM1、PLCG2、PLK2、PMS1、PMS2、PNRC1、POLD1、POLE、POM121L12、PPARG、PPM1D、PPP2R1A、PPP2R2A、PPP6C、PRDM1、PREX2、PRKAR1A、PRKCI、PRKDC、PRKN、PTCH1、PTEN、PTPN11、PTPRD、PTPRO、PTPRS、PTPRT、QKI、RAB35、RAC1、RAD21、RAD50、RAD51、RAD51B、RAD51C、RAD51D、RAD52、RAD54L、RAF1、RARA、RASA1、RB1、RBM10、RECQL4、REL、RET、RHEB、RHOA、RICTOR、RIT1、RNF43、ROS1、RPA1、RPS6KA4、RPS6KB2、RPTOR、RSPO2、RUNX1、RUNX1T1、SDC4、SDHA、SDHAF2、SDHB、SDHC、SDHD、SETD2、SF3B1、SGK1、SH2B3、SH2D1A、SHQ1、SLC34A2、SLIT2、SLX4、SMAD2、SMAD3、SMAD4、SMARCA4、SMARCB1、SMARCD1、SMO、SNCAIP、SOCS1、SOX10、SOX17、SOX2、SOX9、SPEN、SPI1、SPOP、SPTA1、SRC、SRSF2、STAG2、STAT3、STAT4、STAT5A、STAT5B、STAT6、STK11、STK40、SUFU、SYK、TAF1、TBX21、TBX3、TCF3、TCF7L2、TEK、TENT5C、TERC、TERT、TET1、TET2、TGFBR1、TGFBR2、TIPARP、TMEM127、TMPRSS2、TNFAIP3、TNFRSF14、TOP1、TOP2A、TP53、TP63、TP73、TRAF2、TRAF3、TRAF7、TRIM58、TRPC5、TSC1、TSC2、TSHR、TYRO3、U2AF1、UGT1A1、VEGFA、VEGFB、VEGFC、VHL、WISP3、WRN、WT1、XIAP、XPO1、XRCC2、XRCC3、YAP1、YES1、ZAP70、ZBTB16、ZBTB2、ZNF217、ZNF703和ZNRF3。例如，所述目标基因可以包含选自以下组基因：ALK(转录本编号可以是NM_004304.4)、ERBB2(转录本编号可以是NM_004448.3)、EGFR(转录本编号可以是NM_005228.3)、FGFR1(转录本编号可以是NM_023110.2)、FGFR2(转录本编号可以是NM_000141.4)、CDK4(转录本编号可以是NM_000075.3)和MET(转录本编号可以是NM_000245.3)。

例如，所述步骤(S4-3)或模块(M4-3)可以包含基于所述待测样本的所述目标基因的外显子的长度以及所述待测样本的所述目标区间i上的拷贝数CN_i，确定所述CN_g。

例如，所述步骤(S4-3)或模块(M4-3)可以包含基于下式确定所述CN_g，

其中，i可以表示目标区间，j可以表示目标外显子，n可以表示目标外显子j上的目标区间个数，m可以表示目标外显子个数，CN_i可以表示目标区间i的拷贝数，Len_j可以表示目标外显子j的长度。

例如，所述步骤(S4)或模块(M4)可以包含步骤(S4-4)或模块(M4-4)：确定在所述目标区间上待测样本的拷贝数变异的存在的概率。

例如，所述拷贝数变异的存在的概率可以包含在所述目标区间上所述待测样本发生拷贝数扩增的概率(p_a)和/或缺失的概率(p_d)。

例如，所述步骤(S4-4)或模块(M4-4)可以包含，基于所述待测样本在所述目标区间i上的测序数据、以及在相应目标区间上所述与待测样本最接近的参考样本组的测序数据的均值与标准差，通过概率分布的方法或记载该程序的装置确认所述拷贝数变异的存在的概率。

例如，所述概率分布可以包含正态性概率分布。例如，所述概率分布可以包含任意常见的概率分布。例如，所述概率分布可以包含任意的离散的概率分布。例如，所述概率分布可以包含任意的连续的概率分布。

例如，所述步骤(S4)或模块(M4)可以包含步骤(S4-5)或模块(M4-5)：确定在所述目标基因上所述待测样本的显著性拷贝数扩增或缺失的存在的比例sigRatio。

例如，所述步骤(S4-5)或模块(M4-5)可以包含，使所述目标基因上发生显著性拷贝数变异的目标区间数量除以所述目标基因上所有目标区间数量，得到所述sigRatio。

例如，所述发生显著性拷贝数变异的目标区间可以包含所述拷贝数变异的比例为约30％或更高的所述目标区间。例如，所述发生显著性拷贝数变异的目标区间可以包含所述拷贝数变异的比例为约30％或更高、约40％或更高、约50％或更高、约60％或更高、约70％或更高、约80％或更高、约90％或更高、约95％或更高、或约95％或更高的所述目标区间。

例如，所述步骤(S4)或模块(M4)可以包含步骤(S4-6)或模块(M4-6)：确定在所述目标基因上所述待测样本的拷贝数变异的存在的统计检验参数。

例如，所述统计检验参数可以包含通过显著性检验确定的p值。

例如，所述显著性检验可以包含T检验。例如，所述显著性检验可以任意的显著性检验方式，以及根据实际情况进行变形的显著性检验方式。

例如，所述步骤(S4-6)或模块(M4-6)可以包含，基于在所述目标基因上所述待测样本的所述目标区间的数量、在所述目标基因上所述待测样本的各个所述目标区间的测序数据、在所述目标基因上所述待测样本的各个所述目标区间的测序数据的标准差、以及在相应目标基因上述与待测样本最接近的参考样本组的目标区间上的测序数据的均值和标准差，通过T检验的方法或记载该程序的装置确认p值p_ttest。

例如，所述步骤(S4)或模块(M4)可以通过以下内容确定所述待测样本的目标基因的拷贝数状态：

当CN_g≥CN_thA，sigRatio≥sigRatio_th，且p_ttest≤p_th时，确认所述待测样本的目标基因发生拷贝数扩增；

当CN_g≤CN_thD，sigRatio≥sigRatio_th，且p_ttest≤p_th时，确认所述待测样本的目标基因发生拷贝数缺失；

当CN_thA＜CN_g＜CN_thD，或sigRatio＜sigRatio_th，或p_ttest＞p_th时，确认所述待测样本的目标基因拷贝数正常，其中CN_thA，CN_thD，sigRatio_th，和p_th各自独立地为阈值。

例如，其中CN_thA可以为约2.25至约4。例如，其中CN_thA可以为约2.25、约2.50、约2.75、约3.00、约3.25、约3.50、约3.75、或约4.00。

例如，其中CN_thD可以为约1.0至约1.75。例如，其中CN_thD可以为约0.25、约0.50、约0.75、约1.00、约1.25、约1.50、约1.75。

例如，其中sigRatio_th可以为约0.3至约1。例如，其中sigRatio_th可以为约0.3、约0.4、约0.5、约0.6、约0.7、约0.8、约0.9、或约1.0。

例如，其中p_th可以为约0.05至约0.00001。例如，其中p_th可以为约0.05、约0.01、约0.001、约0.0001、约0.00001、约0.000001、或约0.0000001。

数据库建立

一方面，本申请提供一种数据库建立方法，可以包含获取多个参考样本的测序数据，以及将所述参考样本分为两个或以上参考样本组。

例如，所述数据库建立方法可以包含(S1)获取待测样本的测序数据和/或多个参考样本的测序数据；(S2)将所述参考样本分为两个或以上参考样本组。

一方面，本申请提供一种数据库建立装置，可以包含以下模块：接收模块，用于获取待测样本的测序数据和/或多个参考样本的测序数据；处理模块，用于将所述参考样本分为两个或以上参考样本组。

例如，所述数据库建立装置可以包含(M1)接收模块，用于获取待测样本的测序数据和/或多个参考样本的测序数据；(M2)处理模块，用于将所述参考样本分为两个或以上参考样本组。

一方面，本申请提供一种数据库建立方法，可以包含以下步骤：

(S2)将所述参考样本分为两个或以上参考样本组；步骤(S2-1)：使所述参考样本分组；步骤(S2-2)：确认所述参考样本组的所述测序数据的统计值。

一方面，本申请提供一种数据库建立装置，可以包含实现本申请数据库建立方法的模块。

一方面，本申请提供一种数据库建立方法，可以包含以下步骤：

(S2)将所述参考样本分为两个或以上参考样本组；步骤(S2-1)：使所述参考样本分组；步骤(S2-2)：确认所述参考样本组的所述测序数据的统计值。

一方面，本申请提供一种数据库建立装置，可以包含实现本申请数据库建立方法的模块。

另一方面，本申请提供一种数据库建立装置，可以包含以下模块：(M1)接收模块，用于获取待测样本的测序数据和/或多个参考样本的测序数据；(M2)处理模块，用于将所述参考样本分为两个或以上参考样本组。

拷贝数状态分析方法

一方面，本申请根据已有数据库的信息提供一种拷贝数状态分析方法，可以包含从两个或以上参考样本组确定与待测样本最接近的参考样本组，以及基于所述与待测样本最接近的参考样本组的测序数据，确定所述待测样本的目标基因的拷贝数状态。

例如，所述拷贝数状态分析方法可以包含(S3)确定与所述待测样本最接近的参考样本组；(S4)基于所述与待测样本最接近的参考样本组的测序数据，确定所述待测样本的目标基因的拷贝数状态。

一方面，本申请提供一种拷贝数状态分析装置，可以包含以下模块：计算模块，用于从两个或以上参考样本组确定与所述待测样本最接近的参考样本组；判断模块，用于基于所述与待测样本最接近的参考样本组的测序数据，确定所述待测样本的目标基因的拷贝数状态。

例如，所述拷贝数状态分析装置可以包含(M3)计算模块，用于确定与所述待测样本最接近的参考样本组；(M4)判断模块，用于基于所述与待测样本最接近的参考样本组的测序数据，确定所述待测样本的目标基因的拷贝数状态。

一方面，本申请提供一种拷贝数状态分析方法，可以包含以下步骤：

(S3)确定与所述待测样本最接近的参考样本组；

一方面，本申请提供一种拷贝数状态分析装置，可以包含实现本申请拷贝数状态分析方法的模块。

一方面，本申请提供一种拷贝数状态分析方法，可以包含以下步骤：

(S3)确定与所述待测样本最接近的参考样本组；

一方面，本申请提供一种拷贝数状态分析装置，可以包含实现本申请拷贝数状态分析方法的模块。

数据库、设备和应用方法

一方面，本申请提供一种数据库，其根据本申请所述的拷贝数状态分析方法或数据库建立方法建立。

一方面，本申请提供一种储存介质，其记载可以运行本申请所述的拷贝数状态分析方法或数据库建立方法的程序。

一方面，本申请提供一种设备，其包含本申请所述的储存介质。

一方面，本申请提供如本申请所述的设备，还包含耦接至所述储存介质的处理器，所述处理器被配置为基于存储在所述储存介质中的程序执行以实现本申请所述的拷贝数状态分析方法或数据库建立方法。

另一方面，本申请还提供了一种电子设备，包括存储器；和耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令执行以实现本申请所述的任一种或多种的方法。

另一方面，本申请提供了一种非易失性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行以实现本申请所述的任一种或多种的方法。

例如，所述非易失性计算机可读存储介质可以包括软盘、柔性盘、硬盘、固态存储(SSS)(例如固态驱动(SSD))、固态卡(SSC)、固态模块(SSM))、企业级闪存驱动、磁带或任何其他非临时性磁介质等。非易失性计算机可读存储介质还可以包括打孔卡、纸带、光标片(或任何其他具有孔型图案或其他光学可识别标记的物理介质)、压缩盘只读存储器(CD-ROM)、可重写式光盘(CD-RW)、数字通用光盘(DVD)、蓝光光盘(BD)和/或任何其他非临时性光学介质。

另一方面，本申请提供了一种数据库系统，其包括存储器；和耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令执行以实现本申请所述的任一种或多种的方法。

例如，所述数据库系统可以实现各种机制以便确保在数据库系统上执行的本申请所述的方法产生正确的结果。在本申请中，所述数据库系统可以使用磁盘作为永久性数据存储器。在本申请中，所述数据库系统可以为多个数据库客户端提供数据库存储和处理服务。所述数据库客户端可以跨多个共享存储设备存储数据库数据，和/或可以利用具有多个执行节点的一个或更多个执行平台。所述数据库系统可以被组织成使得存储和计算资源可以被有效地无限扩展。

一方面，本申请提供本申请所述的拷贝数状态分析方法或数据库建立方法，在疾病诊断、预防和/或治疗中的应用。

一方面，本申请提供本申请所述的拷贝数状态分析方法或数据库建立方法，在目标基因的拷贝数状态监测中的应用。

一方面，本申请提供本申请所述的拷贝数状态分析方法或数据库建立方法，在全基因组关联研究中的应用。

在本申请中，所述方法可以用于判断所述受试者是否具有拷贝数变异。例如，本申请的任一个或多个方法可以是非诊断目的的。例如，本申请的任一个或多个方法可以是诊断目的的。

在本申请中，所述方法可以用于通过检测所述拷贝数变异，用于临床实践(例如可以推测某些特定的肿瘤治疗方式是否适于该受试者)。在某些情况下，所述方法检测出的拷贝数变异水平可以与本领域已知的生物标志物联合使用于临床实践。

不欲被任何理论所限，下文中的实施例仅仅是为了阐释本申请的方法和用途等，而不用于限制本申请发明的范围。

实施例

实施例1

本申请的方法，使用聚类方法，将大量的真实样本数据，根据测序深度的趋势聚类情况划分成不同的样本集合，分别构建基线(平均深度及深度波动范围)，根据样本与基线的相似性动态筛选背景基线，消除批次效应的同时，提高检测的特异性和敏感性。同时可以任选地使用离散小波变换方法对拷贝数进行平滑降噪，提高测序数据的信噪比。

为了提供一种高通量测序中可以实现高敏感性和精准度的拷贝数变异检测的方法和介质，本申请的方法基于样本覆盖特征特异性的差异化来检测拷贝数变异。具体地，本申请基于大规模样本的聚类分析，构建多条对照组基线，可以避免了测序中由于实验和样本差异导致覆盖深度特征不一致引起的基线不匹配问题；并且可以综合多种覆盖深度矫正策略，降低样本特异性的数据差异；最终可以通过定量分析、统计学差异评估，保证结果的准确性和稳定性。本申请拷贝数变异检测的方法不仅可以适用于特定基因面板(panel)的靶向捕获测序数据，也可以适用于全外显子组的捕获测序数据。为了上述问题，本申请的数据库建立方法可以包含如下步骤：

1.数据准备模块，包括：

a)序列比对：将高通量测序原始fastq数据回帖到人类参考基因组，确定待测样本、参考样本的目标区间与人类参考基因组参考序列匹配的序列；

b)重复序列去除：将PCR扩增过程中产生的重复序列去掉；

c)覆盖深度计算：计算目标区间上每个碱基的测序深度RD_Base；

2.覆盖深度矫正模块，包括3方面独立的，顺序任选的矫正：

a)使所述测序数据标准化：样本总测序深度矫正，具体地可以是，对每个目标区间各个位点上的覆盖深度根据样本总测序深度进行标准化，以消除不同样本之间的测序数据量差异，获得RD_normD；

其中，i表示目标区间上的位点，n表示所有目标区间上位点的总数，RD_i表示目标区间上位点i的测序深度，R为一个常数，可以根据所有区间的大小进行设置，以保证待测样本矫正后的深度和参考样本组矫正后的深度在相同的水平。

b)使所述测序数据平滑化1：探针铺设特征矫正，具体可以是，根据探针设计中不同区间探针铺设乘数差异，例如区间上覆盖的探针数，将区间分割，每个目标区间长度可以为约24个碱基对，并计算各个目标区间平均覆盖深度RD，根据每个目标区间上覆盖的探针数ProbeN，对目标区间上测序深度进行局部加权回归(loess(RD～ProbeN))矫正，得到探针矫正后的测序深度RD_normP；

c)使所述测序数据平滑化2：GC矫正，具体可以是，将用于覆盖深度计算的目标区间按照侧翼延伸至总长大于200bp长度，计算平均GC占比，根据各区间的GC含量GC，对测序深度RD进行局部加权回归(loess(RD～GC))矫正，得到GC矫正后的测序深度RD_normGC；

d)可选的，可以进行筛选GC含量均衡的区间，将GC极度不均衡的区域(CG含量低于0.25，或GC含量高于0.75的区域)过滤掉，使用矫正后的覆盖深度进行拷贝数变异检测。

3.基线构建模块，具体包含以下步骤：

a)样本聚类：已有方法一般将所有参考样本作为一个类别来构建基线。本申请的方法对于参考样本进行分组，具体是基于各参考样本覆盖深度在目标区间上变化的一致性，例如在目标区间上参考样本的所述测序的近似程度，进行聚类分析，将参考样本分成不同类别的参考样本组，聚类方法可以例如K均值聚类、层次聚类等方法；

b)基线构建：对于每个参考样本组，分别构建一条基线。具体为，分别计算每个参考样本组中，各个目标区间上所有参考样本的平均测序深度和测序深度的标准差作为基线(Baseline_i)，其中i＝{1,2,3,4,…}。例如，每个参考样本组中需要有足够样本数量才具有统计学意义，每个参考样本组的样本数不低于30例。参考样本组数的设定需要考虑到肿瘤样本特征及测序质量，根据捕捉到的特征数确定参考样本组数，例如参考样本组数量可以为2个以上，如2-10条。

c)可选的，可以进行区间筛选：计算每个区间上测序深度的变异系数cv，去掉在样本中波动程度大的不稳定区间，其中：

其中，和分别表示各个目标区间上所有参考样本的平均测序深度和测序深度的标准差。当cv>0.8时，该区间被认为是不稳定区域而被过滤掉；同时矫正后的测序深度低于5时，被认为是捕获效率低的区域而被过滤掉，最终保留的区间作为稳定的区间。

最终，根据本实施例可以得到本申请的数据库，包含在目标区间上变化具有一致性的两个或以上参考样本组。与现有技术相比，本申请的数据库的优势在于：通过大规模样本的聚类分析，将参考样本划分为不同类别的参考样本组，分别构建样本特异性的背景基线，极大的降低了高通量测序数据在拷贝数变异检测中批次效应产生的假阳性，增加结果的稳定性。同时本申请消除批次效应的方法不需要同批次中保证有足够数量的相同基因panel的样本，极大降低了实际应用中的困难。

实施例2

为了解决测序中由于实验和样本差异导致覆盖深度特征不一致引起的基线不匹配问题，本申请还提供了一种拷贝数状态分析方法。本申请的拷贝数状态分析方法可以包含如下步骤：

a)根据所述待测样本与所述参考样本组的相似度，确定与所述待测样本最接近的参考样本组，即动态筛选基线：通过统计距离的计算方法，例如闵可夫斯基距离等，比较各个目标区间上待测样本的测序深度与该目标区间上各个参考样本组的测序深度，确认所述参考样本组与所述待测样本的统计距离：

其中，L_p值表示统计距离，i表示目标区间，n表示目标区间个数，表示待测样本的目标区间i的测序深度，表示参考样本组的目标区间i的测序深度，其中p任选地大于或等于1。选择与待测样本具有最小统计距离(L_p值最小，表示相似度最高)的参考样本组作为该待测样本的背景基线(Baseline_x)。

b)基因拷贝数检测，具体如下：

i.各待测样本的目标区间拷贝数评估：计算待测样本各个目标区间的拷贝数CN_i，公式如下：

其中，RD_sample表示待测样本的各个目标区间的测序深度，表示与待测样本最接近的参考样本组的各个目标区间的测序深度，其中倍性可以为2。

ii.可选的，可以进行各区间拷贝数平滑降噪：使用降噪算法对各个区间的CNi进行平滑降噪，提高数据的信噪比。降噪方法可以使用离散小波变换(Discrete WaveletTransformation，DWT)、主成分分析算法、奇异值分解和/或高斯滤波的方法进行平滑降噪。DWT是将信号分成高频信号和低频信号，分别通过低通滤波器和高通滤波器，将离散信号作离散小波变换，将连续的小波及其小波变换离散化，达到数据降噪的目的。这样可以得到降噪后的CNi；

iii.各目标基因的拷贝数评估：计算样本各个目标基因的加权平均拷贝数CN_g，并使用目标外显子的长度对CN_i进行矫正，例如：

其中，i表示目标区间，j表示目标外显子，n表示目标外显子j上的目标区间个数，m表示目标外显子个数，CN_i表示目标区间i的拷贝数，Len_j表示目标外显子j的长度。

iv.确定在所述目标区间上待测样本的拷贝数变异的存在的概率，例如可以是多个区间的测序深度与筛选出的背景基线的分布进行正态性检验，公式如下：

其中，表示待测样本的目标区间i的测序深度，表示与待测样本最接近的参考样本组的各个目标区间的测序深度的均值，表示与待测样本最接近的参考样本组的各个目标区间的测序深度的标准差，lower.tail＝F计算右尾概率，p_a表示该区间发生拷贝数扩增的概率值，lower.tail＝T计算左尾概率，p_d表示该区间发生拷贝数缺失的概率值。

v.各目标基因显著性比例评估：分别计算各个目标基因显著性扩增或缺失的比例sigRatio，公式如下：

其中，所述发生显著性拷贝数变异的目标区间包含拷贝数变异的比例为约30％或更高的所述目标区间。

vi.各目标基因整体水平显著性检验：对每个目标基因上各个目标区间矫正后的测序深度基于与待测样本最接近的参考样本组的各个区间的平均测序深度，进行T检验，判断样本与基线的差异是否显著，得到p_ttest。

c)确定所述待测样本的目标基因的拷贝数状态，判断标准为：

各个阈值可通过使用大规模样本训练得到。其中：CN_thA表示拷贝数扩增的阈值，取值可以任选为2.25～4；CN_thD表示拷贝数缺失的阈值，取值可以任选为1.0～1.75；sigRatio_th表示显著性扩增/缺失比例的阈值，取值可以任选为0.3～1；p_th表示显著性T检验的阈值，取值可以任选为0.05～0.00001。

本申请的拷贝数状态分析方法根据待测样本与参考样本组的相似性动态筛选与待测样本最接近的参考样本组作为背景基线，可以消除批次效应，也可以提高检测的特异性和敏感性。

实施例3

数据库建立：使用655例参考样本构建基线，采用本申请的数据库构建方法，例如使用k均值聚类算法，将参考样本划分为5个参考样本组，构建5条不同候选基线作为数据库。

构建模拟数据：使用varBen肿瘤突变数据模拟软件(github.com/nccl-jmli/VarBen)，以良性组织样本为基础，通过插入基因的读段的方式，在测序数据中插入目标基因的读段，梯度模拟目标基因不同拷贝数扩增的情况，模拟样本列表如表1所示。

表1：模拟样本列表

目标基因	模拟样本数	模拟拷贝数梯度
			ALK	20	2.5，2.75，3.0，3.5，4.0
ERBB2	20	2.5，2.75，3.0，3.5，4.0
			FGFR1	20	2.5，2.75，3.0，3.5，4.0
FGFR2	20	2.5，2.75，3.0，3.5，4.0

根据本申请的拷贝数状态分析方法检测模拟样本，检测的结果如表2所示。

表2：本申请在模拟样本中的检测结果

图1A-1F显示的是，本申请的检测结果部分数据的拷贝数分布图示例。每个点表示基因的一个区间，灰色的点表示拷贝数正常的基因，黑色的点表示拷贝数发生扩增或缺失的基因，同时标注出相应的基因名。横轴表示基因所在的染色体位置，纵轴表示基于本申请方法计算得到的拷贝数(中间横线表示正常基因的拷贝数)，灰色背景表示背景基线(与待测样本最接近的参考样本组)中各目标区间的波动范围。图1A-1C分别为模拟ERBB2基因发生不同程度的拷贝数扩增，图1D-1F分别为FGFR1基因发生不同层度的拷贝数扩增，模拟拷贝数梯度为2.5，2.75和3.0。结果表明，本申请的拷贝数状态分析方法用于模拟样本中，所有模拟基因及不同梯度的拷贝数扩增均能稳定检测，且拷贝数预测准确。

实施例4

阳性标准样本：本申请测试包括30例阳性标准样本，来源于NCI-BL2009细胞系，使用质粒转染的方式将相应比例的目标基因转染至细胞系中，获得CNV阳性数据，并使用微滴式数字PCR(ddPCR)定量基因的拷贝数。质粒编号为：Life RPCI11.C-433C10 BAC-EGFR，Life RPCI11.C-936I7 BAC-CDK4，Life RPCI11.C-163C9 BAC-MET，Life RPCI11.C-909L6BAC-ERBB2，Life RPCI11.C-957P17 BAC-FGFR1。阳性标准样本列表如表3所示。

表3：阳性标准样本列表

根据本申请的拷贝数状态分析方法检测拷贝数扩增阳性标准样本的拷贝数状态，检测的结果如表4所示。

表4：本申请在阳性标准样本的检测结果

图2A-2C显示的是，本申请的检测结果部分数据的拷贝数分布图示例。图2A-2C表示质粒转染的CNV阳性细胞系标准样本的检测结果，ddPCR标定拷贝数分别为3，5和8。结果表明，本发明方法用于质粒转染的细胞系标准品中，所有的基因以及不同的拷贝数状态下，均能稳定检出，且拷贝数预测准确。

实施例5

真实数据：本申请测试的真实样本包括第三方免疫组化法(IHC)验证的20例ERBB2扩增阳性样本，真实样本列表如表5所示。

表5：真实样本列表

基因	样本数	IHC结果
			ERBB2	20	拷贝数：3+

数据库建立：使用443例参考样本构建基线，采用本申请的数据库构建方法，例如使用k均值聚类算法，将参考样本划分为参考样本组，构建不同候选基线作为数据库。

根据本申请的拷贝数状态分析方法检测真实样本的拷贝数状态，检测的结果如表6所示。

表6：本申请在真实样本中的检测结果

图3A-3C显示的是，本申请的检测结果部分数据的拷贝数分布图示例。图3A-3C表示真实ERBB2阳性样本的检测结果。结果表明，本申请方法用于真实样本中，20例IHC结果为HER2阳性的样本，均能稳定检出。

实施例6

阳性标准样本：本申请测试包括3例阳性标准样本，同实施例4中来源，用于检测不同基线的检测结果。阳性标准样本列表如表7所示。

表7：阳性标准样本列表

样本	基因	ddPCR标定拷贝数
			标准样本1	CDK4，ERBB2，EGFR，FGFR1，MET	3
标准样本2	CDK4，ERBB2，EGFR，FGFR1，MET	5
			标准样本3	CDK4，ERBB2，EGFR，FGFR1，MET	8

数据库建立：使用655例参考样本构建基线，采用本申请的数据库构建方法，例如使用k均值聚类算法，将参考样本划分为5个参考样本组，构建5条不同候选基线作为数据库。同时，不使用聚类方法，将所有的参考样本构建1条基线。

分别使用聚类算法得到的5条基线和不聚类的1条基线，作为参考对照，检测拷贝数扩增标准样本的拷贝数状态。基线的选择和样本的波动情况如表8所示，检测的结果如表9所示。

表8：不同基线检测结果的波动情况

表9：不同基线的检测结果

图4A-4F显示的是，标准样本1使用不同的基线检测结果的拷贝数分布示例图。

结果表明，使用本申请发明方法匹配到的最优基线与待测样本最相近(样本与基线的距离值最小)，样本整体拷贝数的波动(SD)最低，拷贝数分布图最稳定，噪音最小，说明本方法检测结果更加稳定。本申请方法，在所有基因以及不同的拷贝数状态下，均能稳定检出，其他基线在拷贝数为3时无法稳定检出。

以上详细描述了本申请的实施方式，但是，本申请并不限于上述实施方式中的具体细节，在本申请的技术构思范围内，可以对本申请的技术方案进行多种简单变型，这些简单变型均属于本申请的保护范围。另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本申请对各种可能的组合方式不再另行说明。此外，本申请的各种不同的实施方式之间也可以进行任意组合，只要其不违背本申请的思想，其同样应当视为本申请所公开的内容。

41页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种批量构建和筛选重组质粒的方法

一种拷贝数变异的检测方法及其应用

相关技术

网友询问留言