样品细菌物种检测方法和系统

文档序号:1818158 发布日期:2021-11-09 浏览:3次 >En<

阅读说明:本技术 样品细菌物种检测方法和系统 (Sample bacterial species detection methods and systems ) 是由 周哲敏 董少华 于 2021-08-06 设计创作,主要内容包括:本申请公开了一种样品细菌物种检测方法,该方法包括对所述样品细菌进行测序,并将测序得到的核酸序列作为输入序列进行组装形成拼接结果;提取所述拼接结果中的细菌广泛保守基因;将所述细菌广泛保守基因与细菌保守基因序列数据集进行比较,获取每个保守基因的最近似物种列表;其中,所述细菌保守基因序列数据集是预先应用保守基因鉴定方法在大量细菌基因组序列中提取得到的;以及将每个细菌广泛保守基因的所述最近似物种列表整合。本申请中的方法可以有效对样品中的多菌混合进行鉴定,并且由于使用了稳定的保守基因,确保结果的特异性。本申请还公开了对应的系统。(The application discloses a sample bacterium species detection method, which comprises the steps of sequencing sample bacteria, and assembling a nucleic acid sequence obtained by sequencing as an input sequence to form a splicing result; extracting a bacterial extensive conserved gene in the splicing result; comparing the bacterial widely conserved genes with a bacterial conserved gene sequence data set to obtain a list of the nearest similar species of each conserved gene; wherein the bacterial conserved gene sequence data set is extracted from a large number of bacterial genome sequences in advance by applying a conserved gene identification method; and integrating the most closely related species list for each of the genes that are widely conserved among bacteria. The method can effectively identify the mixture of multiple bacteria in the sample, and ensures the specificity of the result due to the use of stable conservative genes. The application also discloses a corresponding system.)

样品细菌物种检测方法和系统

技术领域

本发明涉及:本发明专利涉及病原体检测领域,尤其涉及一种基于基因组测序的病原细菌检测方法和系统。

背景技术

环境或临床样品中常见多菌混合,其中病原体和近似的非病原体遗传距离接近,难以区分。现有的病原体检测体系在准确性及可行性上有较大的完善空间,具体不足包括:

(1)基于16S核糖体RNA序列多样性的检测方法,由于16S核糖体RNA序列保守度较高,相关检测方法仅能将微生物鉴定到属或者种的级别,无法进一步准确区分。

(2)基于基因组中不保守基因的检测方法,由于不保守基因区域容易出现横向遗传转移或随机片段丢失,将会造成检测中出现假阳性及假阴性结果。

(3)基于保守基因的检测方法,由于多菌混合样品中同一基因将出现多样化序列,直接应用序列比较无法得到结果或仅能得到单一物种分析结果。

(4)一些方法假设样品中只存在单一物种,因而导致其他物种被忽略,出现假阴性结果。

发明内容

本发明的目的是克服现有技术的不足之处,提供一种基于宏基因组序列在临床及环境样品中准确区分混合的病原微生物和非病原微生物的系统和方法,解决现有检测方法分辨率及准确性低的问题。

为了实现上述目的,本申请的一些实施例提供了一种样品细菌物种检测方法,该方法包括对所述样品细菌进行测序,并将测序得到的核酸序列作为输入序列进行组装形成拼接结果;提取所述拼接结果中的细菌广泛保守基因;将所述细菌广泛保守基因与细菌保守基因序列数据集进行比较,获取每个广泛保守基因的最近似物种列表;其中,所述细菌保守基因序列数据集是预先应用保守基因鉴定方法在大量细菌基因组序列中提取得到的;以及将每个细菌广泛保守基因的所述最近似物种列表整合以将不同广泛保守基因比对结果中来源于同一物种的比对结果整合从而计算出样品相对于细菌保守基因序列数据集中包括的所有细菌物种的遗传相似性,其中相似性越高的细菌物种越有可能在样品中存在的步骤。

本申请的一些实施例提供了一种样品细菌物种检测系统,该系统包括:核酸序列组装模块用于将测序得到的核酸序列作为输入序列进行组装形成拼接结果;保守基因鉴定模块用于提取所述拼接结果中的细菌广泛保守基因;保守基因近缘序列检索模块用于将所述细菌广泛保守基因与细菌保守基因序列数据集进行比较,获取每个广泛保守基因的最近似物种列表;以及近缘序列整合分析模块用于将每个细菌广泛保守基因的所述最近似物种列表整合以将不同广泛保守基因比对结果中来源于同一物种的比对结果整合从而计算出样品相对于细菌保守基因序列数据集中包括的所有细菌物种的遗传相似性,其中相似性越高的细菌物种越有可能在样品中存在。

本申请的一些实施例提供了一种样品细菌物种检测系统,该系统包括:一个或多个处理器;存储器,用于存储一个或多个程序,使得所述一个或多个处理器其中,所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少执行上述任意一项的样品细菌物种检测方法。

本发明提出的细菌物种检测系统可以有效对样品中的多菌混合进行鉴定,并且由于使用了稳定的保守基因,确保结果的特异性,进而同时克服了细菌检测中的过度假阴性和假阳性结果,提高了致病细菌检测的准确性。

附图说明

图1是根据本申请的实施例的样品细菌物种检测方法的流程图;

图2是根据本申请的实施例的样品细菌物种检测方法的硬件环境的原理图;

图3是根据本申请的实施例的样品细菌物种检测系统的原理图。

具体实施方式

下面结合附图对本申请的具体实施方式进行详细说明。

容易理解的是,如本文的附图中一般性描述和描绘的,某些示例性实施方式的部件可以以各种不同的配置来布置和设计。因此,与交互式多媒体结构有关的系统、方法,装置和计算机程序产品的一些示例实施例的以下详细描述并非旨在限制某些实施例的范围,而是所选示例实施例的代表。

在整个说明书中描述的示例实施例的特征,结构或特性可以在一个或多个示例实施例中以任何合适的方式组合。例如,在整个说明书中,短语“某些实施例”,“一些实施例”或其他类似语言的使用是指以下事实:结合实施例描述的特定特征,结构或特性可以包括在至少一个实施例。因此,在整个说明书中,短语“在某些实施例中”,“在一些实施例中”,“在其他实施例中”或其他类似语言的出现不一定全都指向同一组实施例,并且所描述的特征、结构在一个或多个示例实施例中,可以以任何合适的方式组合。另外,短语“一组”是指包括一个或多个引用的组成员的一组。因此,短语“一组”,“一个或多个”和“至少一个”或等同用语可以互换地使用。另外,除非另外明确指出,否则“或”旨在表示“和/或”。

另外,如果需要,下面讨论的不同功能或操作可以彼此以不同的顺序和/或同时执行。此外,如果期望的话,所描述的功能或操作中的一个或多个可以是可选的或可以被组合。这样,以下描述应被认为仅是对某些示例实施例的原理和教导的说明,而不是对其的限制。

图1是本发明实例提供的一种样品细菌物种检测方法的流程图,该方法可以以计算机程序的形式由处理器执行。该方法具体包括如下操作步骤:

核酸序列组装步骤S1。在该步骤中应用例如基于德布鲁因图模型的(包括有色德布鲁因图模型)的方法对输入的核酸序列进行拼接,其中该核酸序列指例如经由第二代合成测序平台或第三代单分子测序平台对样品细菌基因组测序所产生的测序结果核酸序列。可选的,可以对输入核酸序列进行去除接头、去除低质量区域、连接双端测序结果的覆盖区域等处理操作,提高测序结果的整体可信度,从而提升组装准确性。

保守基因鉴定步骤S2。细菌基因组中大部分基因都在不同情况下可以被舍去,其中一小部分基因在几乎所有细菌物种中均存在,且对细菌生存起决定性作用,因此被称为细菌广泛保守基因,或称保守基因。可以保存预先依据大量细菌基因计算获得的广泛保守基因,并且基于隐马尔科夫模型计算了每个广泛保守基因中的保守核酸序列。将步骤S1中所得样品拼接结果和细菌保守基因隐马尔科夫模型进行比较预测得到样品细菌中全部潜在保守基因的核酸序列。可选的,步骤S2还可以包含根据额外的筛选机制,基于比对得分、相似度或比对区域长度对保守基因进行进一步筛选,从而减少保守基因预测中的误差。这些筛选条件是预先在构建保守基因数据集B5过程中基于大量实例测试得到的。

保守基因近缘序列检索步骤S3。如上所述,由于细菌广泛保守基因在几乎所有细菌物种中存在,将样品细菌中每个鉴定得到的保守基因和细菌物种检测系统A中预先保存的细菌保守基因序列数据集B5相互比较,可以寻找到样品中全部潜在细菌物种成分。其中,细菌保守基因序列数据集B5是预先应用保守基因鉴定模块S2在大量细菌基因组序列中提取得到的。可选的细菌保守基因序列数据集B5中记录了来源细菌的物种信息及其于最近缘模式菌株(type strain)的遗传相似性。可选的,比对寻找可以经由传统的局部序列比对方法进行,或经由基于短序列(kmer)的高效比对方法进行。

近缘序列整合分析步骤S4。获得的每个保守基因比对结果中包括大量高度相似的细菌参考序列,这些参考序列可以来源于不同但近缘的多个细菌物种,其中包括大量的假阴性及假阳性结果,需要进行进一步筛选。为此,在本近缘序列整合分析步骤中把不同保守基因比对结果中来源于同一物种的比对结果整合,计算出样品相对于细菌保守基因序列数据集B5中包括的所有细菌物种的遗传相似性。其中相似性越高的细菌物种越有可能在样品中存在。可选的,由于样品和参考数据库的不完美,比对结果中可能出现部分保守基因缺失,因此在不同实施例中近缘序列整合分析步骤S4中可以调整筛选指标为比对得分总和、平均比对得分、平均氨基酸相似度(Average amino acid identity)或比对区域总长度等。

为了从比对结果中获取全部存在的细菌物种,近缘序列整合分析步骤S4可以进一步对整合后的比对结果进行筛选,步骤S5。在不同实例中,可选方法包括贪婪算法、最大似然法、梯度下降法、贝叶斯分析等方法中的一种或多种。例如,可选贪婪算法中,近缘序列整合分析步骤S4对比对结果进行多轮次筛选,每次筛选获得最佳比对结果后,将所有包含这些比对结果的保守基因舍去,再重新筛选获得次佳比对结果。该筛选步骤反复执行,直至所有步骤S2中预测的保守基因均找到潜在的细菌物种来源。又比如,最大似然法中,近缘序列整合分析模块S4设定多个假设,分别假设样品中存在一个、两个或更多的细菌物种,然后将各种可能的组合进行排列,预测不同细菌物种组合情况下所应出现的保守基因比对结果,将这一预测结果和实际比对结果进行比较后计算出各种组合的似然度,进而从中挑选最可能的细菌物种组成。进而,将基于不同细菌物种数量假设所得到的细菌物种组合相互比较,应用可选的赤池信息量准则(Akaike information criterion)或贝叶斯信息准则(Bayesian information criterion),从而筛选出样品中最有可能存有的细菌物种数量以及对应物种组合。

本申请的实施例提供了多种样品细菌物种检测方法,这些方法可以基于一个样品细菌物种检测系统,该系统可以包括一个或多个包含显示模块的硬件平台。在一些实施例中样品细菌物种检测系统可以是一个通用目的的计算机,或一个具有计算处理功能的测序设备。测序设备可以是基于合成测序的第二代测序设备,或基于单分子测序的第三代测序设备。如图2所示,细菌物种检测系统A包括内部通信总线A1、硬盘A2、处理器A3、随机存储器A4、输入/输出组件A5、通信端口A6和用户界面A7。内部通信总线A1可以实现不同组件间的数据通信,硬盘A2包含了对细菌物种检测的一个或多个程序模块。A2中的程序在处理器A3中执行,并使用随机存储器A4保存中间计算结果,最终结果存储于A2。一些实例中,细菌物种检测系统A可以通过通信端口A6从网络接收和发送信息及数据。细菌物种检测系统A和用户的交互可以通过用户界面A7或通信端口A6进行。在一些实例中,细菌物种检测系统A的各个组件可以处于不同的硬件设备或地理位置中,并通过互联网、公司内部网络或其组合相互连接。

在一些实施例中,待组装的核酸序列可以是从测序平台中产生后直接通过输入/输出组件A6传入细菌物种检测系统A中,或经由通信端口A7从网络传入物种检测系统A中。细菌物种检测系统A中可以保存保守基因数据库。

在一些示例实施例中,本文描述的任何方法,过程,信令图,算法或流程图的功能可以由存储在存储器或其他计算机可读或有形媒体的软件和/或计算机程序代码或代码部分实现,并由处理器执行。

在一些示例实施例中,一种装置可以被包括或与至少一个软件应用、模块、单元或实体相关联,该软件应用、模块、单元或实体被配置为算术运算,或作为其程序或部分(包括添加或更新的软件例程),由至少一个操作处理器执行。程序,也称为程序产品或计算机程序,包括软件例程,小程序和宏,可以被存储在任何装置可读数据存储介质中,并且可以包括用于执行特定任务的程序指令。

序列是数据结构的单元,其可以包括字符串、列表、元组等。

例如上述核酸序列组装步骤可以体现为核酸序列组装模块B1,保守基因鉴定步骤可以体现为保守基因鉴定模块B2,保守基因近缘序列检索步骤可以体现为保守基因近缘序列检索模块B3,近缘序列整合分析步骤可以体现为近缘序列整合分析模块B4。如图3所示。

作为本申请的实验例,对某药厂洁净区域工作台面X及水池Y分别用棉签擦拭,获得样品后对其中的总体微生物进行了测序,分别获得351MB和326MB的测序结果。

将两个样品的测序结果经由通信端口A6输入细菌物种鉴定系统A,其处理器A3运行本申请的样品细菌物种检测方法。其中核酸序列组装模块B1对测序结果进行组装后,X样品获得29095846碱基的拼接结果,Y样品获得12862918碱基的拼接结果。

保守基因鉴定模块B2在X样品中鉴定得到217个细菌广泛保守基因,在Y样品中鉴定得到122个细菌广泛保守基因。

保守基因近缘序列检索模块B3对每个保守基因汇报至多1000个最近似的微生物物种。

近缘序列整合分析模块B4应用贪婪算法对样品X中的细菌构成进行预测,预测得到五个样品中存在的微生物物种,分别为"Stenotrophomonas maltophilia","Delftiaacidovorans","Brevundimonas diminuta","Comamonas testosteroni","Brucellaanthropi"和"Achromobacter pulmonis"。

近缘序列整合分析模块B4应用最大似然算法对样品Y中的细菌构成进行预测,预测得到三个样品中存在的微生物物种,分别为"Bacillus cereus","Pseudomonasstutzeri"和"Kocuria palustris"。

一种计算机程序产品可以包括一个或多个计算机可执行部件,当程序运行时,该计算机可执行部件被配置为执行一些示例实施例。该一个或多个计算机可执行部件可以是至少一个软件代码或代码部分。用于实现示例实施例的功能的更改和配置可以作为例程来执行,该例程可以作为添加或更新的软件例程来实现。在一示例中,可以将软件例程下载到该装置中。

作为示例,软件或计算机程序代码或代码的一部分可以是源代码形式,目标代码形式或某种中间形式,并且可以存储在某种载体,分发介质或计算机可读介质,其可以是能够承载程序的任何实体或设备。例如,这样的载体可以包括记录介质、计算机存储器、只读存储器、光电和/或电载体信号、电信信号和/或软件分发包。取决于所需的处理能力,计算机程序可以在单个电子数字计算机中执行,或者可以分布在多个计算机中。所述计算机可读介质或计算机可读存储介质可以是非暂时性介质。

在其他示例实施例中,功能可以由路执行,例如通过使用专用集成电路(ASIC),可编程门阵列(PGA),现场可编程门阵列(FPGA)或任何其他硬件和软件组合。在又一示例实施例中,该功能可以被实现为信号,诸如可以由从因特网或其他网络下载的电磁信号所携带的非有形手段。

根据示例实施例,诸如节点、设备或响应部件之类的装置可以被配置为电路,计算机或微处理器(诸如单芯片计算机元件)或芯片集,其可以至少包括用于提供用于算术运算的存储容量的存储器和/或用于执行算术运算的运算处理器。

本文描述的示例实施例同等地适用于单数和复数实施方式,无论描述某些实施例所使用的语言是单数还是复数形式。例如,描述单个计算设备的操作的实施例同样适用于包括计算设备的多个实例的实施例,反之亦然。

本领域的普通技术人员将容易理解,可以以不同顺序的操作和/或以与所公开的配置不同的配置的硬件元件来实施如上所述的示例实施例。因此,尽管已经基于这些示例实施例描述了一些实施例,但是对于本领域技术人员显而易见的是,某些修改,变化和替代构造将是显而易见的,同时仍在示例实施例的精神和范围内。

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于多个基因组比较和二代测序数据的全基因组关联分析方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!