一种从fastq文件中快速判断样本性别的方法

文档序号:1965072 发布日期:2021-12-14 浏览:16次 >En<

阅读说明:本技术 一种从fastq文件中快速判断样本性别的方法 (Method for rapidly judging sample gender from FASTQ file ) 是由 吴星辰 栗海波 梁萌萌 余伟师 于 2021-09-29 设计创作,主要内容包括:本发明公开了一种从FASTQ文件中快速判断样本性别的方法,包括:(1)根据参考基因组,生成Y染色体上特有的K-mer;(2)获取全外显子组测序捕获探针的设计区间的交集,剔除在交集外的K-mer,将留存的K-mer以在捕获探针的设计区间出现的次数从多到少的顺序排列,选取靠前的K-mer作为特有K-mer集合;(3)随机读取FASTQ文件,对特有K-mer进行计数,并使用相同男女数量的真实数据分析特有K-mer在不同性别FASTQ文件中的分布差异,确定性别判断阈值;(4)根据阈值,对FASTQ文件进行性别判定。该方法适用于NGS的多种数据类型,分析流程简单,操作方便,大大提高了判断效率。(The invention discloses a method for quickly judging the sex of a sample from a FASTQ file, which comprises the following steps: (1) generating a unique K-mer on the Y chromosome according to the reference genome; (2) acquiring an intersection of a design interval of a full exome sequencing capture probe, removing K-mers outside the intersection, arranging the retained K-mers in a sequence with more or less times of appearance in the design interval of the capture probe, and selecting the front K-mer as a special K-mer set; (3) randomly reading a FASTQ file, counting the special K-mers, analyzing the distribution difference of the special K-mers in different sexes FASTQ files by using the real data of the same number of men and women, and determining a gender judgment threshold; (4) according to the threshold value, the gender judgment is carried out on the FASTQ file. The method is suitable for various data types of the NGS, simple in analysis process and convenient to operate, and greatly improves judgment efficiency.)

一种从FASTQ文件中快速判断样本性别的方法

技术领域

本发明涉及生物学与精准医学高通量测序与变异检测技术领域,具体涉及一种从FASTQ文件中快速判断样本性别的方法。

背景技术

伴随着现代医学的快速发展,高通量测序技术(Next-Generation Sequencing,NGS)的成本也越来越低,逐渐成为遗传病、肿瘤和其它基因检测的首选方法。FASTQ是最常见的用来存储NGS测序碱基和对应质量分数以及其它相关信息的文件格式。FASTQ也是测序数据交付和基因组分析的原始数据,可以在其基础上,通过大量的计算,得到其它格式的NGS数据和结果,如比对文件BAM和变异检出文件VCF。研究人员在分析NGS数据时,通常需要核实样本性别和数据性别是否一致,这对于判断数据和样本是否一致、有无污染,以及后续的染色体拷贝数分析和变异解读至关重要。

目前判断NGS数据性别的主流研究思路都是从BAM中分析X染色体和Y染色体上特定基因的覆盖度,或者从VCF中分析X染色体和Y染色体上的基因型分布,这些方法有以下几个方面的弊端:

(1)从FASTQ生成比对文件BAM和变异检出文件VCF需要大量的计算资源和存储空间,根据数据量的不同,分析流程通常消耗数小时到数十小时,在有些只需要判断数据性别而暂时不需要后续分析的应用场景中,这些弊端更加明显。

(2)分析过程中使用的大多数软件只能在Linux系统运行,在Windows电脑上安装和运行这些软件的难度很大,而很多数据都是通过Windows系统的网盘软件进行交付,判断性别还需要上传至Linux服务器,给分析人员带来不便。

因此,分析人员迫切需要一种新的技术方案,能够在显著降低资源需求和减少系统依赖的同时,还能从FASTQ文件中快速判断样本性别以及不同性别样本间的污染。

发明内容

本发明的目的在于针对现有技术中的上述问题,提供一种从FASTQ文件中快速判断样本性别的方法,可显著降低资源需求、减少系统依赖,快速判断样本性别。

本发明技术方案详述如下:

一种从FASTQ文件中快速判断样本性别的方法,包括以下步骤:

(1)根据参考基因组,生成Y染色体上特有的K-mer;

(2)获取不同来源的全外显子组测序捕获探针的设计区间的交集,剔除在交集外的K-mer,将留存的K-mer以在捕获探针的设计区间出现的次数从多到少的顺序排列,选取靠前预设位数的K-mer作为最终的特有K-mer集合;

(3)随机读取不同性别FASTQ文件的数据,将数据中包含的特有K-mer进行计数,并使用相同男女数量的真实数据分析特有K-mer在不同性别FASTQ文件中的分布差异,确定性别判断阈值;

(4)根据阈值,对FASTQ文件进行性别判定。

可选或优选的,上述方法中,所述阈值包括K-mer数量的上限阈值U和下限阈值L,大于U的数据为男性,小于L的数据为女性;K-mer数量介于L和U之间时,判定为存在不同性别样本间的污染。

可选或优选的,上述方法中,所述FASTQ文件为全基因测序或全外显子组测序产生的FASTQ文件。

可选或优选的,上述方法中,步骤(2)中所述交集外包括覆盖率低于50%和在Y染色体上出现频数低于3。

可选或优选的,上述方法中,步骤(2)中所述靠前预设位数为前100位。

可选或优选的,上述方法中,步骤(3)中所述随机读取不同性别FASTQ文件的数据,FASTQ文件的数量为10万条。

与现有技术相比,本发明具有如下有益效果:

本发明的判断方法,是基于Y染色体特有的K-mer,这些特有的K-mer理论上只会在男性样本的数据中存在,蕴含着可能的性别信息,利用这些K-mer在不同性别FASTQ中出现频率的差异,确定男女数据的划分阈值,从而可以从NGS原始数据就可以判断这些数据的性别,以及不同性别样本间的污染。

将未覆盖或者覆盖率低的K-mer,以及在Y染色体上出现频数相对较少的K-mer剔除掉,能够进一步提高K-mer的鲁棒性和计算速度。

另外,本发明还有以下优势:

1、该方法判断过程快,不需要大量计算资源

常规的从比对文件BAM或变异检出文件VCF中判断数据性别,需要在特定的服务器上计算数到数十小时。本发明所设计的处理流程部署简单,使用操作方便,只需部署相关的可执行文件可完成全流程分析。对服务器计算资源要求较低,一台普通的笔记本电脑,利用多线程,每分钟就能够对几十个FASTQ进行性别判断,效率非常高。

2、不依赖操作系统,适用范围广

该方法适用于目前NGS的多种数据类型,包括不同深度的全基因组测序数据和各种捕获探针的全外显子组测序数据;不仅适用大型的Linux服务器,也适用于个人Windows笔记本电脑。

附图说明

图1为实施例1判断方法的整体流程图;

图2为实施例1第一部分流程图;

图3为实施例1第二部分流程图;

图4为实施例1第三部分流程图;

图5为实施例1第四部分流程图。

具体实施方式

下面结合附图和较佳的实施例对本发明的技术方案进行详细说明,以使本领域技术人员能够更好地理解本发明并予以实施。

实施例1

请参考图1,从FASTQ文件中快速判断样本性别的方法包括以下几个部分:

第一部分:根据参考基因组,生成Y染色体上特有的K-mer;

第二部分:根据探针区间和出现次数,对Y染色体上特有的K-mer进行筛选;

第三部分:使用真实数据分析筛选后的K-mer在不同性别FASTQ中的分布差异,从而确定性别判断的阈值;

第四部分:根据阈值,对NGS数据的FASTQ进行性别判定。

下面对每个部分的详细步骤进行具体说明。

第一部分:根据参考基因组,生成Y染色体上特有的K-mer

通过比较参考基因组上Y染色体和其它染色体上的K-mer差异,找出Y染色体上特有的K-mer,这些特有的K-mer理论上只会在男性样本的数据中存在,蕴含着可能的性别信息。具体流程参见图2。

输入:人类基因组的参考序列,

输出:Y染色体特有的K-mer。

步骤:

(1)从UCSC或其它公共数据库中下载人类基因组FASTA格式的参考序列,例如hg38.fa.gz。

(2)使用脚本将参考序列按染色体拆分成两部分:Y染色体序列(Y.fa)和其它染色体序列(other.fa)。

(3)设置不同的K-mer长度,本实施例中分别设置7、9、11、13、15、17、19、21几个长度,分别使用Jellyfish软件模块对步骤(2)的两个序列文件进行K-mer计数。

(4)比较两个序列文件的K-mer集合,找出Y染色体上特有的K-mer。

(5)综合考虑运行时间和特有的K-mer数量,确定K-mer的长度为13。

第二部分:根据探针区间和出现次数,对Y染色体上特有的K-mer进行筛选

为了使Y染色体上特有的K-mer在不同的测序技术和捕获探针中都可以较好的覆盖,需要根据市场上不同来源(不同厂家生产)的主流的全外显子组捕获探针,获得这些捕获探针的设计区间的集合,过滤掉未覆盖或覆盖率低的K-mer,同时剔除在Y染色体上出现频数相对较少的K-mer,提高K-mer的鲁棒性和计算速度。将留存的K-mer以在捕获探针的设计区间出现的次数从多到少的顺序排列,选取靠前100位的K-mer作为最终的特有K-mer集合,具体流程参见图3。

输入:Y染色体特有的K-mer,探针捕获区间;

输出:筛选后的特有的K-mer。

步骤:

(1)从不同的探针设计公司获得全外显子组测序捕获探针的设计区间;

(2)使用程序工具bedtk获取不同设计公司的探针捕获探针的设计区间的交集;

(3)剔除在捕获探针的设计区间交集外的K-mer;

(4)按在捕获探针设计区间的出现次数逆序排列K-mer;

(5)选取前100位的K-mer作为最终的特有K-mer集合。

第三部分:使用真实数据分析筛选后的K-mer在不同性别FASTQ中的分布差异,从而确定性别判断的阈值;

随机读取FASTQ文件的10万条数据(包含不同性别),使用脚本对第二部分筛选后的特有K-mer进行计数,也就是计算特有K-mer在FASTQ文件中的数量。使用大量的相同男女数量的真实数据进行统计,分析特有K-mer在不同性别FASTQ文件中的分布差异,划分出可以较好区分男女性别的K-mer上限阈值(U,大于此阈值的数据为男性)和下限阈值(L,小于此阈值的数据为女性)。同时,如果K-mer数量介于L和U之间(L-U),那么可能存在不同性别样本间的污染,具体流程参见图4。

输入:筛选后的特有的K-mer,FASTQ,真实性别;

输出:性别判断的阈值。

步骤:

(1)随机读取FASTQ文件的10万条数据;

(2)使用脚本对筛选后的K-mer进行计数;

(3)根据数据的真实性别进行阈值划分。

第四部分:根据阈值,对NGS数据的FASTQ进行性别判定

对于全基因测序(Whole Genome Sequencing,WGS)或全外显子组测序(WholeExome Sequencing,WES)产生的FASTQ,都可以对第二部分得到的筛选后的特有的K-mer进行计数,结合第三部分得到的阈值区间进行性别判断,参见图5。

输入:筛选后的特有的K-mer,FASTQ,性别判断的阈值;

输出:性别判断的结果。

步骤:

(1)随机读取FASTQ文件的10万条数据;

(2)使用脚本对筛选后的特有的K-mer进行计数;

(3)根据阈值进行性别判断。

该方法采用Y染色体上特有的K-mer作为判断依据,从原始FASTQ数据中随机抽样来进行NGS数据的性别判断,适用于NGS的多种数据类型,分析流程简单,操作方便,只需要部署相关的可执行文件即可完成全流程分析,使用一台普通的笔记本电脑,利用多线程,每分钟就能够对几十个FASTQ进行性别判断,相较于以往在特定服务器上计算数小时到数十小时的传统方法,在效率上有了很大提高。

本文中应用了具体个例对发明构思进行了详细阐述,以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离该发明构思的前提下,所做的任何显而易见的修改、等同替换或其他改进,均应包含在本发明的保护范围之内。

11页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种高通量测序变异风险分组筛选方法及系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!