一种细菌中功能性前噬菌体及其位置与序列的检测方法

文档序号:1339749 发布日期:2020-07-17 浏览:25次 >En<

阅读说明:本技术 一种细菌中功能性前噬菌体及其位置与序列的检测方法 (Detection method for functional prophage in bacteria and position and sequence thereof ) 是由 张湘莉兰 谢湘成 童贻刚 孙强 彭绍亮 翟诗翔 童善惟 牛琦 于 2020-03-31 设计创作,主要内容包括:本发明公开了一种细菌中功能性前噬菌体及其位置与序列的检测方法。本发明公开的细菌中功能性前噬菌体的检测方法包括:预测待测细菌基因组测序数据中的开放阅读框,得到开放阅读框编码的蛋白质,将该蛋白质序列与噬菌体蛋白质库中序列进行比对,能与噬菌体蛋白质比对上的蛋白质为功能性蛋白质,在功能蛋白质的编码基因及其上下游查找正向重复序列,两条互为正向重复序列间的序列为候选前噬菌体的候选序列,连接候选序列首尾,测序数据中含有跨越候选序列首尾连接处的测序读长的候选前噬菌体为功能性噬菌体;测序数据中不含跨越候选序列首尾连接处的测序读长的候选前噬菌体不为功能性噬菌体。本发明的方法操作简便,应用前景广泛。(The invention discloses a method for detecting functional prophage in bacteria and a position and a sequence thereof. The invention discloses a method for detecting functional prophages in bacteria, which comprises the following steps: predicting an open reading frame in sequencing data of a bacterial genome to be tested to obtain protein encoded by the open reading frame, comparing a protein sequence with a sequence in a phage protein library, wherein the protein which can be compared with the phage protein is functional protein, searching forward repeat sequences in a coding gene of the functional protein and upstream and downstream of the coding gene, taking a sequence between two forward repeat sequences as a candidate sequence of a candidate prophage, connecting the head and the tail of the candidate sequence, and taking the candidate prophage which spans the sequencing read length of the head-tail connection part of the candidate sequence as the functional phage in sequencing data; candidate prophages in the sequencing data that do not contain sequencing reads spanning the end-to-end junction of the candidate sequence are not functional phages. The method is simple and convenient to operate and wide in application prospect.)

一种细菌中功能性前噬菌体及其位置与序列的检测方法

技术领域

本发明涉及生物技术领域中,一种细菌中功能性前噬菌体及其位置与序列的检测方法。

背景技术

噬菌体,是一种感染细菌的病毒,并在宿主体内发挥重要的生物学作用。它们能够被分为两类:裂解性噬菌体和溶原性噬菌体。溶原性噬菌体是一种能够将自身基因整合进细菌基因组中的病毒,在整合过程中,溶原性噬菌体能够将它的基因插入细菌基因组中(溶原性噬菌体整合进细菌基因组后称为前噬菌体)或者以质粒的形式存在细菌细胞质中。

前噬菌体作为噬菌体的一种重要存在形式,在原核生物进化中扮演着重要角色,也是细菌基因组多样化的驱动力。在前噬菌体整合到细菌的过程中,能够改变宿主的基因表达并破坏细菌原基因组,通过毒力基因和耐药基因等的水平转移,导致细菌表型改变。例如德国发现的肠出血性大肠杆菌O104:H4的主要毒力基因由前噬菌体所编码。霍乱弧菌的霍乱毒素基因是由丝状功能性前噬菌体CTXφ编码的。

前噬菌体包括功能性前噬菌体(functional prophage)和隐匿性前噬菌体(cryptic prophage)。功能性前噬菌体指在特定条件诱导后仍然具有裂解作用的前噬菌体。隐匿性前噬菌体又称前噬菌体样元件(prophage genome elements),因其产生突变而不能进行裂解。由于只有功能性前噬菌体才能够裂解并感染细菌(隐匿性前噬菌体已丧失裂解功能)。当功能性前噬菌体被从宿主菌中诱导出来后,即为溶原性噬菌体。只有在获得了完整的功能性前噬菌体序列的基础上,才能更深刻、更系统的去理解噬菌体-细菌相互作用关系,进一步深入的进行细菌耐药相关研究。

另一方面,由于细菌耐药问题的严重性,裂解性噬菌体因其具有杀灭耐药菌的能力,近年来得到越来越广泛的研究。为了安全地使用裂解性噬菌体,仔细的检查并排除功能性前噬菌体是非常重要的。一般而言,裂解性噬菌体的分离纯化是通过挑取合适的噬菌斑实现的。如果整合在细菌中的功能性前噬菌体进入裂解周期,则极易混合在挑选的裂解性噬菌体中。当使用含有已诱导的功能性前噬菌体(即溶原性噬菌体)的裂解性噬菌体进行杀菌时,其中的溶原性噬菌体很可能又再次整合到细菌中,将自身含有的毒力因子和耐药因子水平转移到细菌基因组中,导致未被杀灭的细菌获得新的毒力/致病性引起表型改变,反而加速了该宿主菌的进化变异和适应性。因此,更好地理解功能性前噬菌体,会帮助人们理解细菌的致病性和特殊的代谢途径,以及安全的进行裂解性噬菌体生产。

传统方法需要通过对前噬菌体的诱导分离来鉴定细菌中是否含有功能性前噬菌体。在生物实验中,通过照射紫外线或者加入丝裂霉素等化学物质破坏宿主菌的DNA,促使功能性前噬菌体从宿主菌中分离出来,然后通过双层琼脂板分离这些已诱导的功能性前噬菌体(即溶原性噬菌体),对其进行扩增培养,并转染到不同菌株中,观察噬菌斑并挑取克隆,从而进行噬菌体特性分析和噬菌体-细菌相互关系研究。

值得注意的是,由于溶原性噬菌体的溶原特点(即将自身基因组整合到细菌基因组中),即便是在其被诱导成功后,在进行细菌转染的过程中,也极易与宿主菌进行重组、整合,再次进入溶原状态,从而无法观察到噬菌斑。因此,溶原性噬菌体的溶原特点导致其诱导过程非常艰难并且低效。

高通量测序技术的发展,使得人们在很短的时间内能够得到海量的细菌基因组序列,也使得借助计算机算法对细菌序列中的前噬菌体进行预测成为可能。然而,前噬菌体自身在科(family)分类水平上的低相似性,以及在整合到细菌基因组过程中带来的前噬菌体基因大小的不确定性,一直制约着前噬菌体的有效预测,在计算上非常具有挑战性。

早期确定前噬菌体的方法通常基于计算不同GC含量或鉴定缺损基因,但上述此类简单计算方法得出的预测结果非常不可靠。在2000年代后期,出现了一批改进后的计算程序和服务网站,帮助预测细菌基因组中的前噬菌体。这些方法首先将输入序列和已知的噬菌体和细菌基因进行比对,进行tRNA和二核苷酸分析,并使用隐马尔科夫模型预测结合位点。上述方法极大的提高了前噬菌体预测的准确性,并促进了更多前噬菌体预测工具的开发,包括不依赖于已知噬菌体序列、面向宏基因组测序数据的前噬菌体预测软件。PHAST系列是目前使用较为广泛的前噬菌体预测服务网站。这类基于互联网的应用程序限制了它们的使用通量,并且在使用高峰期时对用户的响应时间过长,影响了前噬菌体预测效率;此外用户(例如各类微生物研究所)在产生大量细菌基因组数据后,将其全部上传到网站上进行分析,显然是不现实的。

另外,上述工具从一个细菌基因组中能够预测出很多前噬菌体序列。但是通过生物实验验证,发现这些工具预测出的很多前噬菌体都无法进行诱导;而个别能够诱导出的功能性前噬菌体与之前的预测结果大相径庭,存在预测位置偏差、无法准确预测出功能性前噬菌体的情况。因此,这些工具中没有一个能预测功能性前噬菌体的精确位置。另外,它们也不能自动从细菌基因组中提取出完整的功能性前噬菌体基因组序列。

发明内容

本发明所要解决的技术问题是如何准确检测细菌中功能性前噬菌体及其位置与序列。

为解决上述技术问题,本发明首先提供了一种细菌中功能性前噬菌体/溶原性噬菌体的检测方法,所述方法包括:

(1)对待测细菌基因组进行高通量测序,得到测序数据;所述待测细菌含有噬菌体;

(2)预测所述测序数据中的开放阅读框,得到所述开放阅读框编码的蛋白质,将其记为候选蛋白质;

(3)将所述候选蛋白质的序列与噬菌体蛋白质库中序列进行比对,能与噬菌体蛋白质比对上的候选蛋白质为功能性蛋白质,不能与噬菌体蛋白质比对上的候选蛋白质为非功能性蛋白质;所述功能蛋白质的编码基因在所述待测细菌基因组中的位置为候选前噬菌体所处的位置,将该位置记为粗略位置;

(4)在所述粗略位置及其上下游采用滑动窗口方法查找正向重复序列,所述正向重复序列是指溶原性噬菌体整合进细菌基因组后所形成的前噬菌体序列两端的正向重复序列;所述采用滑动窗口方法包括:在所述粗略位置及其上下游定义两个长度均为n的滑动窗口,n为50bp,两个滑动窗口间的距离为10,000bp,比对两个滑动窗口的序列,确定两个滑动窗口中是否存在互为正向重复序列,如两个滑动窗口中不存在互为正向重复序列,则将两个滑动窗口延序列的上下游滑动以确定所述粗略位置及其上下游是否存在正向重复序列;

将含有所述功能蛋白质的编码基因的两条互为正向重复序列间的序列记为所述候选前噬菌体的候选序列,将所述候选序列在所述待测细菌基因组中的位置记为所述候选前噬菌体的候选位置;

(5)连接所述候选序列首尾,得到环状序列;根据如下方法确定所述候选前噬菌体是否为功能性前噬菌体:所述测序数据中含有跨越所述候选序列首尾连接处的测序读长(reads),所述候选前噬菌体为或候选为功能性噬菌体;所述测序数据中不含跨越所述候选序列首尾连接处的测序读长(reads),所述候选前噬菌体不为或候选不为功能性噬菌体。

本发明还提供了一种细菌基因组中前噬菌体位置的检测方法,所述方法包括:

(1)对待测细菌基因组进行高通量测序,得到测序数据;所述待测细菌含有噬菌体;

(2)预测所述测序数据中的开放阅读框,得到所述开放阅读框编码的蛋白质,将其记为候选蛋白质;

(3)将所述候选蛋白质的序列与噬菌体蛋白质库中序列进行比对,能与噬菌体蛋白质比对上的候选蛋白质为功能性蛋白质,不能与噬菌体蛋白质比对上的候选蛋白质为非功能性蛋白质;所述功能蛋白质的编码基因在所述待测细菌基因组中的位置为候选前噬菌体所处的位置,将该位置记为粗略位置;

(4)在所述粗略位置及其上下游采用滑动窗口方法查找正向重复序列,所述正向重复序列是指溶原性噬菌体整合进细菌基因组后所形成的前噬菌体序列两端的正向重复序列;所述采用滑动窗口方法包括:在所述粗略位置及其上下游定义两个长度均为n的滑动窗口,n为50bp,两个滑动窗口间的距离为10,000bp,比对两个滑动窗口的序列,确定两个滑动窗口中是否存在互为正向重复序列,如两个滑动窗口中不存在互为正向重复序列,则将两个滑动窗口延序列的上下游滑动以确定所述粗略位置及其上下游是否存在正向重复序列;

将含有所述功能蛋白质的编码基因的两条互为正向重复序列间的序列记为所述候选前噬菌体的候选序列,将所述候选序列在所述待测细菌基因组中的位置记为所述候选前噬菌体的候选位置;

(5)连接所述候选序列首尾,得到环状序列;根据如下方法确定所述候选前噬菌体在所述待测细菌基因组中的位置:所述测序数据中含有跨越所述候选序列首尾连接处的测序读长(reads),所述候选位置为或候选为所述候选前噬菌体在所述待测细菌基因组中的位置;所述测序数据中不含跨越所述候选序列首尾连接处的测序读长(reads),所述候选位置不为或候选不为所述候选前噬菌体在所述待测细菌基因组中的位置。

本发明还提供了一种细菌基因组中前噬菌体序列的检测方法,所述方法包括:

(1)对待测细菌基因组进行高通量测序,得到测序数据;所述待测细菌含有噬菌体;

(2)预测所述测序数据中的开放阅读框,得到所述开放阅读框编码的蛋白质,将其记为候选蛋白质;

(3)将所述候选蛋白质的序列与噬菌体蛋白质库中序列进行比对,能与噬菌体蛋白质比对上的候选蛋白质为功能性蛋白质,不能与噬菌体蛋白质比对上的候选蛋白质为非功能性蛋白质;所述功能蛋白质的编码基因在所述待测细菌基因组中的位置为候选前噬菌体所处的位置,将该位置记为粗略位置;

(4)在所述粗略位置及其上下游采用滑动窗口方法查找正向重复序列,所述正向重复序列是指溶原性噬菌体整合进细菌基因组后所形成的前噬菌体序列两端的正向重复序列;所述采用滑动窗口方法包括:在所述粗略位置及其上下游定义两个长度均为n的滑动窗口,n为50bp,两个滑动窗口间的距离为10,000bp,比对两个滑动窗口的序列,确定两个滑动窗口中是否存在互为正向重复序列,如两个滑动窗口中不存在互为正向重复序列,则将两个滑动窗口延序列的上下游滑动以确定所述粗略位置及其上下游是否存在正向重复序列;

将含有所述功能蛋白质的编码基因的两条互为正向重复序列间的序列记为所述候选前噬菌体的候选序列,将所述候选序列在所述待测细菌基因组中的位置记为所述候选前噬菌体的候选位置;

(5)连接所述候选序列首尾,得到环状序列;根据如下方法确定所述候选前噬菌体的序列:所述测序数据中含有跨越所述候选序列首尾连接处的测序读长(reads),所述候选序列为或候选为所述候选前噬菌体的序列;所述测序数据中不含跨越所述候选序列首尾连接处的测序读长(reads),所述候选序列不为或候选不为所述候选前噬菌体的序列。

上文中,步骤(1)中测序深度满足能得到所述待测细菌的全长序列。

步骤(3)中,将所述候选蛋白质的序列与噬菌体蛋白质库中序列进行比对,可利用BLASTP进行。

所述噬菌体蛋白质库可为NCBI中的噬菌体序列组成的数据库。

所述正向重复序列的长度可为14-50bp。所述正向重复序列为attL和attR。

所述两条互为正向重复序列间的距离可满足大于等于10,000bp。

在所述粗略位置及其上下游查找正向重复序列可为在所述粗略位置及其上下游各45,000bp内查找正向重复序列。

本发明还提供了一种数据处理系统,所述数据处理系统为能按照所述细菌中功能性前噬菌体的检测方法、所述细菌基因组中前噬菌体位置的检测方法或所述细菌基因组中前噬菌体序列的检测方法检测细菌中功能性前噬菌体、检测细菌基因组中前噬菌体位置或检测细菌基因组中前噬菌体序列的系统。

在本发明的一个实施例中,所述系统为LysoPhD/LivePhD或记载有LysoPhD/LivePhD的载体。

本发明还提供了一个功能性前噬菌体数据库,所述数据库通过使用所述细菌中功能性前噬菌体的检测方法、所述细菌基因组中前噬菌体位置的检测方法或所述细菌基因组中前噬菌体序列的检测方法检测多个细菌基因组获得。

所述数据库可包括功能性前噬菌体、细菌基因组中前噬菌体位置和/或前噬菌体序列。该类序列信息构成本发明的功能性前噬菌体数据库。

在本发明的一个实施例中,所述功能性前噬菌体数据库为livephage.info的数据访问网站。

所述细菌中功能性前噬菌体的检测方法、所述细菌基因组中前噬菌体位置的检测方法、所述细菌基因组中前噬菌体序列的检测方法或所述系统在构建功能性噬菌体数据库中的应用。

所述数据库可包括功能性前噬菌体、细菌基因组中前噬菌体位置和/或前噬菌体序列。

本发明中,功能性前噬菌体,又称溶原性噬菌体,是指在特定条件下(如紫外线或丝裂霉素处理下)诱导从宿主基因组中分离出来后仍能裂解宿主的前噬菌体。

本发明中,所述测序数据也可以直接从公开数据库中获得。

实验证明,利用本发明的检测细菌中功能性前噬菌体及其位置与序列的方法检测76个细菌样本,共检测到11个溶原性细菌(即含有前噬菌体的细菌)及其所含的前噬菌体的位置及序列,并确定了这些前噬菌体均为功能性噬菌体,该结果均经生物实验进行验证,结果准确。表明本发明的方法能够高效并精确地确定整合在细菌基因组中的溶原性噬菌体序列、位置,并可以确定细菌中所含有的前噬菌体是否为功能性前噬菌体。另外,本发明可以直接利用原始高通量测序数据检测细菌中功能性前噬菌体及其位置与序列,无需使用454Newbler拼接软件以及Cytoscape软件(若Cytoscape软件因各种原因无法显示环化现象,则会出现漏检现象),可对大数据进行自动化批量处理,具有操作简便,高通量性,本发明以自动化、智能化手段,预测出尽可能多的功能性前噬菌体。相比其他需要使用例如Cytoscape等第三方软件的方法,可以明显降低漏检率,减少假阴性结果,具有广泛的应用前景。

附图说明

图1为LysoPhD/LivePhD的工作流程图。

图2为滑动窗口寻找整合位点核心序列示例。

图3为前噬菌体分析示意图。

具体实施方式

下面结合具体实施方式对本发明进行进一步的详细描述,给出的实施例仅为了阐明本发明,而不是为了限制本发明的范围。下述实施例中的实验方法,如无特殊说明,均为常规方法。下述实施例中所用的材料、试剂、仪器等,如无特殊说明,均可从商业途径得到。以下实施例中的定量试验,均设置三次重复实验,结果取平均值。

本发明公开了细菌中功能性前噬菌体及其位置与序列的检测方法,该方法的步骤如下:

(1)对待测细菌基因组进行高通量测序,得到测序数据;测序深度满足能得到待测细菌的全长序列;

(2)预测测序数据中的开放阅读框(ORF),并得到其编码的蛋白质,将得到的蛋白质记为候选蛋白质;

(3)将步骤(2)得到的候选蛋白质的序列利用blastp与噬菌体蛋白质库中序列(来源于NCBI)进行比对,能与噬菌体蛋白质比对上的候选蛋白质为功能性蛋白质,不能与噬菌体蛋白质比对上的候选蛋白质为非功能性蛋白质;所述功能蛋白质的编码基因在所述待测细菌基因组中的位置为候选前噬菌体所处的位置,将该位置记为粗略位置;

(4)在粗略位置及其上下游(以功能性蛋白为中心,上下游各45000bp的区域)中查找正向重复序列,将含有功能蛋白质的编码基因的两条互为正向重复序列间的序列记为候选前噬菌体的候选序列,将候选序列在待测细菌基因组中的位置记为候选前噬菌体的候选位置;两条互为正向重复序列间的距离大于等于10,000bp;

正向重复序列是指溶原性噬菌体整合进细菌基因组后所形成的前噬菌体序列两端的14-50bp的短正向重复序列(attL和attR);

(5)连接所述候选序列首尾,得到环状序列;根据如下方法确定候选前噬菌体是否为功能性前噬菌体:测序数据中含有跨越候选序列首尾连接处的测序读长(reads),候选前噬菌体为功能性噬菌体;测序数据中不含跨越候选序列首尾连接处的测序读长,候选前噬菌体不为功能性噬菌体,即待测细菌不含有功能性噬菌体;

根据如下方法确定候选前噬菌体在待测细菌基因组中的位置:测序数据中含有跨越候选序列首尾连接处的测序读长(reads),候选位置为候选前噬菌体在待测细菌基因组中的位置;测序数据中不含跨越所述候选序列首尾连接处的测序读长(reads),候选位置不为候选前噬菌体在待测细菌基因组中的位置;

根据如下方法确定候选前噬菌体的序列:测序数据中含有跨越候选序列首尾连接处的测序读长(reads),候选序列为候选前噬菌体的序列;测序数据中不含跨越候选序列首尾连接处的测序读长(reads),候选序列不为候选前噬菌体的序列。

下面以具体的细菌为例具体阐明该方法。本发明还根据上述方法开发了一种可以用于检测细菌中功能性前噬菌体及其位置与序列的软件,其名称为LysoPhD/LivePhD。

实施例1、细菌中功能性前噬菌体及其位置与序列的检测

一、待测细菌

76种细菌,具体如下表:

这76种细菌均记载在文献(孙强,高通量测序数据中病毒基因组的生物信息学分析方法探索,中国人民解放军军事医学科学院,2017)中。

二、检测方法

1、高通量测序

提取各待测菌株的基因组DNA,并进行高通量测序,得到测序数据。

2、功能性前噬菌体及其位置与序列的检测

该步骤利用LysoPhD/LivePhD进行,LysoPhD/LivePhD是一个集成的搜索工具,它集成了现有的软件和发明人的自编程序,其工作流程图如图1所示,包含以下部分:

数据过滤:采用数据过滤软件Trimmomatic 0.3去除测序质量较差的reads以及测序数据中的接头,提高拼接效果,使contig拼接的更长,提高前噬菌体在contig上保持完整的可能性;

组装:利用序列组装软件SPAdes 3.14.0进行序列组装,组装会将测序数据拼接成contig;

ORF预测和翻译:采用开发阅读框预测软件GLIMMER 3.02预测所得测序数据中的开放阅读框,并得到开放阅读框所编码的蛋白质,将得到的蛋白质记为候选蛋白质;

功能性蛋白质识别及前噬菌体粗略位置的确定:采用BLSATP在从NCBI下载到本地的噬菌体蛋白数据库中将候选蛋白质的序列与噬菌体蛋白质进行比对,能与噬菌体蛋白质比对上的候选蛋白质即为功能性蛋白质,功能性蛋白质的编码基因在细菌基因组中的位置即为候选前噬菌体所处的粗略位置;噬菌体蛋白数据库地址:ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/;

前噬菌体能被认为是细菌基因组上的一簇类噬菌体基因构成的区域。在历史发展中,大部分整合在细菌上的前噬菌体失去了从细菌基因组上诱导出来的能力,因为一些重要的噬菌体基因出现了突变,因此导致了大量的缺陷前噬菌体残留于细菌基因组上。近年来,可以采用紫外线或其它化学方法来诱导整合在细菌基因组上并且仍然保留功能性的前噬菌体。为了得到尽量多的前噬菌体区域,发明人使用了类噬菌体基因簇(假想噬菌体基因)和功能性噬菌体蛋白质基因(比如编码capsid、terminase、tail fiber、lysin、holin的基因)来识别细菌基因组contig上可能是前噬菌体的区域。为了识别类噬菌体基因簇,发明人使用了一种常用的表现的很好的DBSCAN算法。DBSCAN使用了两个参数:簇的规模c,和距离e。参数c定义了构成一个簇所需类噬菌体基因的最小数量。e是一个簇里面两个临近的基因之间的最大空间距离。两个基因之间的空间距离用它们之间所隔的ORF数量来表示。按经验将c设为6。因为前噬菌体通常含有五个蛋白质以上,因此将e设为5。为了识别功能性蛋白质基因,将细菌基因组与噬菌体蛋白质库比对并且找出其中的功能性蛋白质基因。为了得到可能的前噬菌体区域,以类噬菌体基因簇或者功能性蛋白质基因为中心,以90,000个核苷酸为范围来从细菌基因组中提取出DNA序列,该序列候选含有候选前噬菌体。这些通过类噬菌体和功能性蛋白质找到的区域可能会重叠。当合并了重叠区域后,就得到了细菌基因组中可能为前噬菌体的位置(即前噬菌体粗略位置)。

前噬菌体位置识别:在候选前噬菌体所处的粗略位置(长度为90,000bp)采用滑动窗口方法查找正向重复序列来确定候选前噬菌体在待测细菌基因组中的候选位置以及候选前噬菌体的候选序列,将含有功能蛋白质的编码基因的两条互为正向重复序列间的序列记为候选前噬菌体的候选序列,将候选序列在待测细菌基因组中的位置记为候选前噬菌体的候选位置。

正向重复序列是指溶原性噬菌体整合进细菌基因组后所形成的前噬菌体序列两端的14-50bp的正向重复序列(即attL和attR);

attL和attR是集成在细菌基因组中的前噬菌体两端的两个特有的位点。attL和attR是成对出现的短正向重复序列,长度通常在14-50bp。它们明确了前噬菌体基因组在细菌基因组上的边界。

滑动窗口方法查找正向重复序列方法如下:定义两个同样大小(50bp)的滑动窗口,滑动窗口之间的距离为d(d∈[10,000,length(粗略的前噬菌体范围)])。定义d初始值为10,000bp。当固定d后,开始进行窗口中重复序列的搜索,即对两个窗口内的序列逐个位置依次进行比对,记录两个窗口中相同的碱基。当比对到不同碱基或到窗口末位一个碱基时,该轮搜索停止。如果搜索到重复序列,则记录下该重复序列及中间的碱基序列,作为功能性前噬菌体序列候选。如图2所示。

检查环化:将候选前噬菌体的候选序列首尾相连,得到环状序列,根据如下方法确定候选前噬菌体是否为功能性前噬菌体:测序数据中含有跨越候选序列首尾连接处的测序读长(reads),候选前噬菌体为功能性噬菌体;测序数据中不含跨越候选序列首尾连接处的测序读长(reads),候选前噬菌体不为功能性噬菌体,即待测细菌不含有功能性噬菌体;

根据如下方法确定候选前噬菌体在待测细菌基因组中的位置:测序数据中含有跨越候选序列首尾连接处的测序读长(reads),候选位置为候选前噬菌体在待测细菌基因组中的位置;测序数据中不含跨越所述候选序列首尾连接处的测序读长(reads),候选位置不为候选前噬菌体在待测细菌基因组中的位置;

根据如下方法确定候选前噬菌体的序列:测序数据中含有跨越候选序列首尾连接处的测序读长(reads),候选序列为候选前噬菌体的序列;测序数据中不含跨越候选序列首尾连接处的测序读长(reads),候选序列不为候选前噬菌体的序列。

功能性前噬菌体能够被紫外线和其它破坏DNA的化学试剂诱导出来,但是由于一些未知的原因,一少部分纯培养的细菌(一般是百分之一的细菌)会被自动的诱导(自然诱导)。因此,如果细菌包含功能性前噬菌体,细菌的DNA制备会自然地将存在的功能性前噬菌体诱导出来环化。根据这个推测,应该能找到一些reads序列把整合在细菌基因组中的功能性前噬菌体基因组的两端连接起来。如果在测序数据中发现了这种连接两端的reads,它意味着有功能性噬菌体自然地诱导出来了。为了发现这种连接的reads并实现环化检测,从可能为前噬菌体的精确范围的两端选择了两个区域(即候选序列的5’端和3’端),A和B,各为1000个核苷酸的长度(图3)。然后将这两个序列上下游顺序反过来,连接成为序列C,LysoPhD/LivePhD能够在C上面搜索是否有配对的read跨过了序列C的中间连接处。如果找到这种配对reads,它说明这个前噬菌体是功能性的,并且这个能环化的序列正是溶原性噬菌体基因组序列。

三、检测结果

利用步骤二的方法对76种待测细菌进行检测,结果显示,利用LysoPhD/LivePhD共检测到11个溶原性细菌(即含有前噬菌体的细菌)及其所含的前噬菌体的位置及序列,并确定了这些前噬菌体均为功能性噬菌体,结果如表1所示。

四、生物实验验证

发明人用进一步的生物实验来验证上述检测结果的正确性,即:首先使用了丝裂霉素来诱导上述76株待测细菌,在诱导之后,提取上层清液中的核酸用于高通量测序,确定待测细菌中是否含有功能性前噬菌体(当功能性前噬菌体被从宿主菌中诱导出来后,即称为溶原性噬菌体),具体步骤如下:

(1)溶原性噬菌体的诱导

挑取细菌的单克隆于5ml LB液体培养基中,在37℃培养箱中培养过夜后加入至400ml LB液体培养基中,继续培养至对数期(OD600=0.5),加入丝裂霉素C,终浓度为1g/ml,继续在37℃温度下培养12h至澄清,收集上清液。

(2)溶原性噬菌体的浓缩

向上述上清液中加入23.4g NaCl,使其终浓度达到1mo]/L,搅拌溶解后冰浴大于1h。1 000g,4℃离心10min,收集上清液,将上清液转移至500ml干净烧瓶中,按10mg/100mL的比例加入PEG8000,搅拌溶解后冰浴3h。冰浴后取出培养物,1 000g,4℃离心10min,弃上清,收集噬菌体沉淀。将噬菌体沉淀重悬于SM缓冲液中,加入等体积氯仿抽提3次,回收亲水相,用0.45m滤器过滤,收集滤噬菌体液于4℃保存。

(3)溶原性噬菌体的纯化

通过CsCl平衡梯度等密度离心纯化噬菌体颗粒。将高质量的固体CsCl加入至SM缓冲液中,制成三种不同密度的CsCl溶液(P:1.45g/ml,P:1.50g/ml,P:1.70g/ml)。按密度大小取3d各密度CsCl溶液加入至10Inl Beckman超离管中,加入1ml步骤(2)的噬菌体滤液补足体积至10ml,4℃ 25000r/min离心3h。吸取含噬菌体层于新的离心管,使用100kD的透析袋用SM缓冲液透析10h以去除CsCl,得到噬菌体纯化液。

(4)溶原性噬菌体基因组提取

取噬菌体纯化液加入DNase和RNase,37℃孵育10h,80℃灭活15min后提取噬菌体的基因组,并于-20℃保存。

(5)溶原性噬菌体全基因组测序

上述方法提取的溶原性噬菌体基因组采用miseq测序方法进行测序。测序原始数据过滤掉低质量序列后,使用SPAdes 3.14.0软件进行噬菌体全基因组序列的组装,得到诱导的溶原性噬菌体基因组。

结果显示,LysoPhD/LivePhD检测到的11个功能性前噬菌体中,11个全部都被诱导出来了,即这11个预测的功能性前噬菌体均为真阳性结果,并且得到的噬菌体的序列以及在溶原性细菌中的位置与LysoPhD/LivePhD检测的结果完全一致,结果如表1所示。

而LysoPhD/LivePhD未检测到功能性前噬菌体的菌株,均未诱导出来功能性前噬菌体。

以上实验结果表明,利用上述方法检测细菌中功能性前噬菌体的准确性和特异性(即不含溶原性噬菌体的细菌未被检测到功能性前噬菌体的百分比)均可达100%。

表1、11个溶原性细菌中前噬菌体的长度检测

另外,发明人还利用目前可获取的前噬菌体预测工具(PHAST和PHASTER)来预测了上述76个细菌中的前噬菌体,这些工具均不能够精确地预测到前噬菌体完整的基因组,尽管所有的这些工具都能预测到大量的前噬菌体区域。

表明本发明的方法及LysPhD能够很好地检测整合在细菌基因组中的溶原性噬菌体序列、位置,并可以确定细菌中所含有的前噬菌体是否为功能性前噬菌体。

五、功能性前噬菌体数据库的构建

由于功能性前噬菌体的基因组序列通过生物实验很难提取到,而通过现有所有计算方法得到的前噬菌体基因组序列又不准确,故目前世界上还没有一个功能性前噬菌体数据库。本发明针对不同的致病菌属构建功能性前噬菌体数据库。当功能性前噬菌体被从宿主菌中诱导出来后,即称为溶原性噬菌体。因此本发明所构建的功能性前噬菌体数据库也可称为溶原性噬菌体数据库(为讲述简洁清晰,下述描述中均采用功能性前噬菌体的称谓)。

从NCBI下载不同种属的细菌测序数据,并使用实施例1的方法进行批量分析,预测到的序列经过验证后,按照细菌种的分类,对功能性前噬菌体进行基因序列标注以及进化分析,阐明同一细菌种、属中不同功能性前噬菌体之间的分化关系,定义若干功能性前噬菌体种属,并汇总成世界首个功能性前噬菌体基因库,为功能性前噬菌体及细菌研究提供标准。

本发明将不同致病菌属的功能性前噬菌体全基因组序列、整合位点、毒力基因、耐药基因、同一种水平上的前噬菌体进化关系、基因水平转移机制等信息进行整合。数据添加工作通过使用web表格录入MySQL数据库终端。本专利中的功能性前噬菌体数据库的基本元素定义为前噬菌体基因序列,包括整合位点、毒力基因、耐药基因等注释信息。按照门(Phylum)、纲(Class)、目(Order)、科(Family)、属(Genus)、种(Species)、菌株(Strain)的水平递进存储信息,通过进化关系展示种内各个前噬菌体之间的个体差异,种间前噬菌体之间的差异性将通过代表菌株的基因组结构比较图进行展示。该数据库同时保存所有细菌基因组序列,每一个前噬菌体将链接到包含自身的细菌基因组序列上,并展示毒力基因、耐药基因的水平转移过程。

发明人已构建了三种病原菌属(弧菌属(Vibrio)、梭菌属(Clostridium)以及肠球菌属(Enterococcus))的噬菌体数据库,这三种病原菌属包含细菌基因组个数统计如表2所示。在NCBI的SRA数据库中,共查找到弧菌属的Miseq和Hiseq数据共7,454条,按照实施例1的方法,共找到前噬菌体序列306条,详情如表3所示。共查找到梭菌属的Miseq和Hiseq数据共14,215条,共找到功能性前噬菌体序列504条,详情如表4所示。共查找到肠球菌属的Miseq和Hiseq数据共9,671条,目前已分析5,073条,共找到功能性前噬菌体序列724条,详情如表5所示。

表2、NCBI网站上三种病原菌属包含细菌基因组个数统计

表3、弧菌属前噬菌体数据库

表4、梭菌属前噬菌体数据库

表5、肠球菌属前噬菌体数据库

注:表3、4和5中下载日期为细菌基因组序列下载日期。

19页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法及系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!