样品病原细菌分型方法和系统

文档序号：1800832 发布日期：2021-11-05 浏览：22次 >En<

阅读说明：本技术 样品病原细菌分型方法和系统 (Sample pathogenic bacteria typing method and system ) 是由周哲敏董少华于 2021-08-10 设计创作，主要内容包括：本申请公开了构建病原细菌的核心基因参考短序列集的方法,其包括步骤确定每个核心基因的参考短序列,以建立核心基因参考短序列；其中从所述核心基因对应的全部型别中挑选一定数量的参考型别形成参考型别集,并将其中每个参考型别的核酸序列分解为一系列固定碱基长度的短序列,该一系列固定碱基长度的短序列即为该核心基因的参考短序列集。本申请还公开了基于该方法的系统以及基于该方法的样品病原细菌分型方法和系统。本申请提供的方法和系统不但可提高计算效率和系统鲁棒性,更可避免私有基因型别数据被上传至不可控的公开数据库中。(The application discloses a method for constructing a core gene reference short sequence set of pathogenic bacteria, which comprises the steps of determining a reference short sequence of each core gene to establish a core gene reference short sequence; selecting a certain number of reference types from all types corresponding to the core gene to form a reference type set, and decomposing the nucleic acid sequence of each reference type into a series of short sequences with fixed base length, wherein the series of short sequences with fixed base length are the reference short sequence set of the core gene. The application also discloses a system based on the method and a sample pathogenic bacteria typing method and system based on the method. The method and the system provided by the application can improve the calculation efficiency and the system robustness, and can further avoid uploading the private genotype data to an uncontrollable public database.)

样品病原细菌分型方法和系统

技术领域

本发明涉及：本发明专利涉及病原体检测领域，尤其涉及一种基于基因组测序的病原细菌种内分型方法和系统。

背景技术

病原体快速及准确的检测是疾病临床诊疗以及流行病监测的基础。因此各国自2014年期陆续采用全基因组测序方法对全部重要人类病原细菌进行测序，并以此为基础对传染性疾病暴发进行发现、溯源和追踪。然而，这也导致了数据过载，过量的基因组数据难以使用传统的生物信息学方法快速解析。因此，各国陆续开始采用基于核心基因组多位点序列分型(cgMLST)的新一代基因组学分型手段

cgMLST技术针对各类病原细菌单独建立分型系统。这些cgMLST分型系统的基础是该类细菌的预设的一个包含数千个基因的核心基因集。基因组数据在组装形成拼接结果后即与这个核心基因集比较以取得其独特的核心基因序列。随后，各核心基因中的不同核酸序列被区分为不同的型别(allele)并赋予独有的序号。以此为基础，cgMLST将一个有数百万个碱基的基因组数据压缩成为数千个序号，并且将基因组之间的比较简化为对这些序号一致性的比较。因此，cgMLST可以极大减少基因组数据的存储空间，并且数千倍地提高基因组之间的比较速度。基于该创新技术，包括EnteroBase、pubMLST、cgmlst.org在内的多个大规模基因组分型数据库在全球创立。各国公共卫生中心也选择以cgMLST为基础建立地区、国家乃至全球的致病细菌监测网络 (https://pubmed.ncbi.nlm.nih.gov/28662764/)。

近年来，宏基因组学在临床上的应用迅速发展。由于可以对临床样品中所有微生物DNA进行整体测序，宏基因组学能够对各类未知感染的病原体进行检测。然而，由于宏基因组学测序数据来源复杂，难以组装形成较完整的拼接结果。当应用cgMLST方法分析时存在大量缺失信息，无法实际应用。这也导致了宏基因组数据难以被应用于在流行病暴发的监测。

现行的核心基因组多位点序列分型(cgMLST)方法包含三个步骤，分别是对测序结果的拼接，拼接结果与预定的核心基因集比较，以及对其上核心基因序列标记编号这三部分。这其中每一个步骤均有其缺陷，限制了cgMLST方法的运行效率及其在宏基因组中的应用。

(1)cgMLST分析需要对测序结果进行组装。而组装步骤耗时较长，通常需要15分钟以上，限制了cgMLST的应用速度。且宏基因组以及部分单菌基因组序列的拼接结果碎片化，很多基因不完整，无法应用cgMLST分析。

(2)核心基因集中包括数千个基因，每个基因均需要应用比对工具和拼接结果比较，导致整体运行速度较为缓慢。通常比较操作总共需要一分钟时间。

(3)每个核心基因的每种型别均需要被赋予独特的序号，以利后续存储和比较。然而，这个赋予序号的过程全球范围内只能由单一中心数据库进行，这一方面限制了系统的运行速度，另一方面也导致系统的脆弱性和潜在的数据风险。

发明内容

本发明的一个目的是提供一种运行速度快、鲁棒性强、安全性更高的构建病原细菌的核心基因参考短序列集的方法。

为此本申请公开了一种构建病原细菌的核心基因参考短序列集的方法，其包括步骤：针对所述病原细菌建立参考基因组数据集，其中所述参考基因组数据集包括一系列该种细菌的基因组；在所述参考基因组数据集中寻找在大部分参考基因组中共有的核心基因，以建立所需的核心基因列表；以及确定每个核心基因的参考短序列，以建立每个核心基因参考短序列集；其中从每个所述核心基因对应的全部型别中挑选一定数量的参考型别形成参考型别集，并将其中每个参考型别的核酸序列分解为一系列固定碱基长度的短序列，该一系列固定碱基长度的短序列即为该核心基因的参考短序列集。

在一些实施例中，所述参考基因组数据集的数据来源为从公共产权基因组数据库直接下载，或从公共产权的测序结果数据库载测序结果后拼接得到，或经由预先准备的自有测序结果拼接得到，或者上述三者中任意两者的结合，或者上述三者的结合；所获得的基因组数据可以整体形成参考基因组数据集，或挑选部分代表序列构建。

在一些实施例中，从所述基因组中挑选部分代表序列包括应用基于最小哈希算法或HyperLogLog算法进行基因组两两间遗传距离的计算，随后基于预设的标准构建单连接聚类，并从每个聚类结果中挑选一个序列作为代表。

在一些实施例中，通过预测每个参考基因组数据集中每个基因组上的细菌广泛保守基因，以及依据这些广泛保守基因在所述参考基因组中的数量判断基因组是否完整.

在一些实施例中，在所述参考基因组数据集中寻找在大部分参考基因组中共有的核心基因包括预测参考基因组数据集中每个基因组中的基因；将这些预测的基因通过两个可选路径之一相互比对以获得核心基因列表。

在一些实施例中，第一种可以路径包括从参考基因组数据集中挑选一个优先基因组，将优先基因组中的所有基因和参考基因组数据集中的其他基因组比较，确定优先基因组上每个基因在参考基因组数据集中的存在情况；当一个基因在大多数参考基因组中存在时即确定为核心基因；第二种路径包括将所有参考基因组中的基因两两比较，构建直系同源基因基因对；所有这些直系同源基因对的总和中在大多数参考基因组中存在的部分即为核心基因。

在一些实施例中，从所述核心基因对应的型别中挑选一定数量的参考型别形成参考型别集包括：首先从每个核心基因中随机挑选一个参考型别作为第一参考型别，将其与同基因的其他型别序列比较后，挑选出与该第一参考型别相似性最低的第二参考型别；进而，再把挑选出的两个参考型别均与同基因的其他型别序列比较，挑选出和两者相似性之和最低的第三参考型别；每次将所有已经挑选的参考型别和同基因的其他型别序列比较，以挑选出和已有参考型别相似性之和最低的下一个参考型别，而新的参考型别又再次被用于挑选下一个参考型别；该流程迭代进行直至挑选到足够的参考型别数量为止。

在一些实施例中，基于现有cgMLST方法的核心基因集以及型别序列构建核心基因参考短序列集。

本申请的另一些实施例提供了构建病原细菌的核心基因参考短序列集的系统，该系统包括一个或多个处理器；存储器，用于存储一个或多个程序，使得所述一个或多个处理器其中，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少执行上述任意一项的构建病原细菌的核心基因参考短序列集的方法。

本申请提供的方法和系统不但可提高计算效率和系统鲁棒性，更可避免私有基因型别数据被上传至不可控的公开数据库中。

本申请的而另一些实施例提供了样品病原细菌分型方法，其包括步骤：基于上述任意一项的方法构建所述样品病原细菌的核心基因参考短序列集；将所有输入的样品测序结果或拼接结果中的核酸序列分解为固定碱基长度的样品短序列集，其中每个短序列的长度与核心基因参考短序列集中的短序列的长度相同；以及将所述核心基因参考短序列集中每一个核心基因的短序列与输入的所述样品的核酸序列的样品短序列集比较，获得所述核心基因所对应的一系列短序列在后者中存在与否的结果；并根据所述结果构建核心基因短序列存在性阵列。

在一些实施例中，样品短序列集可由原始测序结果或测序数据的拼接结果输入产生。当输入为原始测序结果时，仅保留输入中出现频率大于二次的短序列，并且基于正态分布模型判断样品短序列集中短序列是否为潜在污染。

在一些实施例中，还包括采用统一的哈希函数将样品每个核心基因对应的短序列存在性阵列转换成唯一的哈希值；从而将整个基因组转换为与核心基因数量相同的哈希值序列。

本申请的另一些实施例提供了对样品进行分型的系统，该系统包括一个或多个处理器；存储器，用于存储一个或多个程序，使得所述一个或多个处理器其中，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少执行上述任意一项的对样品进行分型的方法。

本申请提供的方法和系统不但可提高计算效率和系统鲁棒性，更可避免私有基因型别数据被上传至不可控的公开数据库中。

附图说明

图1是本发明实例提供的一种细菌基因组分型方法所需参考短序列集的架构图；

图2是本发明实例提供的一种细菌基因组分型方法的应用流程图；

图3是本发明实例提供的一种细菌基因组分型方法的系统架构图；

图4是本发明实验例中20个沙门氏Agona血清型基因组分型后构建的遗传关系树。

具体实施方式

下面参照附图对本申请的实施例作详细说明。

图1是本发明实例提供的构建核心基因参考短序列(kmer)集的流程图，该方法可以以计算机程序的形式由处理器执行。该方法具体包括如下操作步骤：

建立参考基因组数据集步骤S1。为了建立针对某种病原细菌的基因组分型方法，首先需要建立该种病原细菌的参考基因组数据集。参考基因组数据集由一系列该种细菌的基因组组成，其中基因组数据来源可以从公共产权基因组数据库 (如GenBank、pubMLST、EnteroBase等)直接下载，或从公共产权的测序结果数据库(如NCBI SRA，EBI ENA等)下载测序结果后拼接得到，或经由预先准备的自有测序结果拼接得到。该参考基因组数据集可以由所有可获得基因组组成，或可选的从上述基因组中挑选部分代表序列得到。挑选代表序列不仅可以降低基因组数据总量提高流程效率，也可以降低少数优势细菌群体在参考数据集中的比例，从而避免由此带来的误差。挑选代表序列可选的方案包括基于核糖体MLST分型挑选，或基于基因组间遗传距离挑选。

本申请较佳的实施例中使用后者。具体而言，在一些实施例中应用基于最小哈希(MinHash)算法或HyperLogLog算法进行基因组两两间遗传距离的计算，随后基于特定标准，如0.001遗传距离，构建单连接聚类，并从每个聚类结果中挑选一个序列作为代表。在可选的步骤中，可以对基因组是否完整进行验证，并将完整的基因组用于后续流程。例如，可以预测每个参考基因组数据集中每个基因组上的细菌广泛保守基因。由于绝大多数细菌基因组中都有完整的细菌广泛保守基因，如果一个基因组中缺失了部分应有的细菌广泛保守基因，则可认为其序列不完整，因而不用于构建参考基因组数据集。

建立核心基因列表步骤S2。建立参考基因组数据集后，寻找在大部分参考基因组中共有的核心基因，以建立所需的核心基因列表。具体而言，本实施例首先预测参考基因组数据集中每个基因组中的基因。进而，这些预测的基因可以通过两个可选路径之一相互比对，以获得核心基因列表：第一种路径中从参考基因组数据集中挑选一个优先基因组，然后将优先基因组中的所有基因和参考基因组数据集中的其他基因组比较，确定优先基因组上每个基因在参考基因组数据集中的存在情况。当一个基因在大多数参考基因组中存在时，例如在较佳的实施例中可选参数为98％中存在时，即确定为核心基因。第二种路径中将所有参考基因组中的基因两两比较，构建直系同源基因基因对。所有这些直系同源基因对的总和即称为“泛基因”。进而，泛基因中在大多数参考基因组中存在的部分即为核心基因，在较佳实施例中可选参数为98％中存在的部分即为核心基因。可选的，核心基因可以通过基因长度或每个基因编码区的完整性等条件进一步筛选。这些筛选条件可以去除部分功能上不保守的基因，进而提高核心基因的可靠性。

建立核心基因参考短序列(kmer)集步骤S3。以上S2步骤获得了核心基因列表。该列表中每个核心基因在参考基因组数据集中存在大量序列不同的型别。本实施例进而从这些型别中挑选一个或数个参考型别形成参考型别集。具体而言，首先从每个核心基因中随机挑选一个参考型别作为第一参考型别，将其与同基因的其他型别序列比较后，挑选出与该第一参考型别相似性最低的第二参考型别。进而，再把挑选出的两个参考型别均与同基因的其他型别序列比较，挑选出和两者相似性之和最低的第三参考型别。同理，每次将所有已经挑选的参考型别和同基因的其他型别序列比较，可以挑选出和已有参考型别相似性之和最低的下一个参考型别，而新的参考型别又可以再次被用于挑选下一个参考型别。该流程迭代进行直至挑选到足够的参考型别数量为止。进而，该方法将所有参考型别集中全部参考型别的核酸序列分解为一系列固定碱基长度的短序列。该一系列固定碱基长度的短序列即为该核心基因的参考短序列集。可选的，短序列的长度可以是 21bp以上的任何奇数长度，长度越长特异性越佳，但灵敏性较低。经过大量数据测试后，最佳实施例中挑选短序列长度为41bp。可选的，这些短序列以布隆过滤器(Bloom Filter)，商过滤器(Quotientfilter)，布谷过滤器(Cuckoo filter) 或有色德布鲁因图形式储存。所有这些可选形式存储信息大致相同，但在存储规模和读取效率上有所差异。

提取现有cgMLST方法所使用的核心基因列表S4。以上流程为从头设计方法所需的参考基因组短序列集的步骤。可选的，实施例可以继承现有cgMLST方法的核心基因集以及型别序列，并应用步骤S3构建核心基因参考短序列集。该可选路线优势在于，现有cgMLST分析过的基因组数据可以无缝转换至本发明的方法中。

图2是本发明实例提供的基于核心基因参考数据集对样品进行分型的流程图，该方法可以以计算机程序的形式由处理器执行。该方法具体包括如下操作步骤：

提取测序数据或拼接结果的短序列步骤S5。该步骤将所有输入的原始测序结果或测序数据的拼接结果中的核酸序列分解为固定碱基长度的短序列集。其中每个短序列的长度应当与步骤S3中的短序列长度相同。可选的，当输入为原始测序数据时，本实施例的方法视所有仅在原始测序结果中出现一次或两次的短序列片段为测序误差，并且不用其进行后续步骤，仅保留输入中出现频率大于二次的短序列。方法记录其余所有短序列的序列和出现频率，并可选地以布隆过滤器 (Bloom Filter)，商过滤器(Quotient filter)，布谷过滤器(Cuckoo filter) 或有色德布鲁因图形式储存。所有这些可选形式存储信息大致相同，但在存储规模和读取效率上有所差异。

建立核心基因短序列存在性阵列步骤S6。将步骤S3获得的核心基因参考短序列集中每一个核心基因的短序列与步骤S5获得的输入核酸序列的短序列集比较，可以简便地获得核心基因所对应的一系列短序列在后者中存在与否的结果。设置存在为1，不存在为0，则依序构建出一个0/1矩阵，即核心基因短序列存在性阵列。可选地，当输入为原始测序结果时，所有存在的短序列依据其在输入集中的出现频率进行筛选，剔除频率显著高于或低于平均值的那些结果，以避免潜在污染。一种可能的剔除方案为，基于正态分布模型首先计算出所有存在的短序列的平均覆盖度以及标准差，进而计算每个短序列相对于该平均覆盖度值的差异绝对值，并认为差异绝对值大于三倍标准差的短序列为污染。可选的，当一个核心基因的绝大多数短序列都无法在输入短序列集中找到时，例如在较佳实施例中为>80％时，则认为该核心基因在样品中不存在，并舍去其内的所有短序列。

建立核心基因短序列哈希表步骤S7。针对方法中包括的每一个核心基因，由于不同的基因型别序列不同，其分解出的短序列也有差异，进而由上述步骤S6 构建的短序列存在性阵列也不同。因此S6获得的短序列存在性阵列可以有效记录样品中核心基因的序列差异。然而，该阵列包含多个0/1值，规模较大。因此，本示例性方法采用统一的哈希函数，可选如md5、CityHash、MurmurHash等，将样品每个核心基因对应的短序列存在性阵列转换成唯一的哈希值，并存入数据库中。由于哈希函数的特性，同样的矩阵在经历同一哈希函数编码后可以保证产生同一个哈希值，而不同的矩阵转换后几乎不可能出现同一哈希值。经过这一转换，样品中每一个核心基因对应一个特征性哈希值，整个基因组转换为与核心基因数量相同的哈希值序列。当两个样品相互比较时，比较它们对应的哈希值序列即可计算出它们共有的核心基因数量。此步骤避免了原本cgMLST方法对单一中心数据库的依赖，不但可提高计算效率和系统鲁棒性，更可避免私有基因型别数据被上传至不可控的公开数据库中。

本申请的实施例提供了多种样品中细菌基因组分型方法，这些方法可以基于一个细菌基因组分型系统，该系统可以包括一个或多个包含显示模块的硬件平台。在一些实施例中细菌基因组分型系统可以是一个通用目的的计算机，或一个具有计算处理功能的测序设备。测序设备可以是基于合成测序的第二代测序设备，或基于单分子测序的第三代测序设备。如图3所示，细菌基因组分型系统A包括内部通信总线A1、硬盘A2、处理器A3、随机存储器A4、输入/输出组件A5、通信端口A6和用户界面A7。内部通信总线A1可以实现不同组件间的数据通信，硬盘A2包含了对细菌基因组分型系统的一个或多个程序模块。A2中的程序在处理器A3中执行，并使用随机存储器A4保存中间计算结果，最终结果存储于A2。一些实例中，细菌基因组分型系统A可以通过通信端口A6从网络接收和发送信息及数据。细菌基因组分型系统A和用户的交互可以通过用户界面A7或通信端口A6进行。在一些实例中，细菌基因组分型系统A的各个组件可以处于不同的硬件设备或地理位置中，并通过互联网、公司内部网络或其组合相互连接。

在一些实施例中，待组装的核酸序列可以是从测序平台中产生后直接通过输入/输出组件A6传入细菌基因组分型系统A中，或经由通信端口A7从网络传入细菌基因组分型系统A中。细菌基因组分型系统A中可以保存保守基因数据库。

在一些示例实施例中，本文描述的任何方法，过程，信令图，算法或流程图的功能可以由存储在存储器或其他计算机可读或有形媒体的软件和/或计算机程序代码或代码部分实现，并由处理器执行。

在一些示例实施例中，一种装置可以被包括或与至少一个软件应用、模块、单元或实体相关联，该软件应用、模块、单元或实体被配置为算术运算，或作为其程序或部分(包括添加或更新的软件例程)，由至少一个操作处理器执行。程序，也称为程序产品或计算机程序，包括软件例程，小程序和宏，可以被存储在任何装置可读数据存储介质中，并且可以包括用于执行特定任务的程序指令。

序列是数据结构的单元，其可以包括字符串、列表、元组等。

作为本申请的实验例，应用发明方法对公共数据库(EnteroBase)中沙门氏菌cgMLST的核心基因进行了转换。该cgMLST中包括有3002个核心基因，应用步骤S3在每个核心基因中挑选了5个相似度较低的参考型别，发现各个参考型别来源于沙门氏菌的不同亚种。将参考型别分解为41个碱基的短序列后，每个核心基因平均获得2316个非冗余的短序列片段，即为沙门氏菌核心基因参考短序列集。

随后，本实验例从公共数据库中挑选了20个沙门Agona血清型基因组，其中12个已知为某食源性疾病暴发的分离菌株，另外8个为随机挑选的非暴发分离菌株。应用步骤S5分解每个基因组中的短序列，并将其以有色德布鲁因图形式存储。随后应用步骤S6将这些样品的短序列和沙门氏菌核心基因参考短序列集比较，并应用步骤S7中的md5哈希函数将短序列存在性阵列转换为哈希值。最终，两两比较这些基因组的哈希值序列，并应用临近结合法可以构建这些基因组的遗传关系树。如图4所示，12个食源性疾病暴发菌株聚集形成独立的簇，显示发明公开的方法可以有效应用于对食源性疾病暴发的发现和溯源。

本申请中的方法可以在极短时间内对宏基因组测序数据，以及基因组的测序数据或拼接结果进行有效的分型，并用于对传染性疾病暴发的发现和溯源。同时，由于现有的cgMLST分型数据可以被无缝转换为新方法的数据，也确保了方法的准确性和向后兼容能力。

一种计算机程序产品可以包括一个或多个计算机可执行部件，当程序运行时，该计算机可执行部件被配置为执行一些示例实施例。该一个或多个计算机可执行部件可以是至少一个软件代码或代码部分。用于实现示例实施例的功能的更改和配置可以作为例程来执行，该例程可以作为添加或更新的软件例程来实现。在一示例中，可以将软件例程下载到该装置中。

作为示例，软件或计算机程序代码或代码的一部分可以是源代码形式，目标代码形式或某种中间形式，并且可以存储在某种载体，分发介质或计算机可读介质，其可以是能够承载程序的任何实体或设备。例如，这样的载体可以包括记录介质、计算机存储器、只读存储器、光电和/或电载体信号、电信信号和/或软件分发包。取决于所需的处理能力，计算机程序可以在单个电子数字计算机中执行，或者可以分布在多个计算机中。所述计算机可读介质或计算机可读存储介质可以是非暂时性介质。

在其他示例实施例中，功能可以由路执行，例如通过使用专用集成电路 (ASIC)，可编程门阵列(PGA)，现场可编程门阵列(FPGA)或任何其他硬件和软件组合。在又一示例实施例中，该功能可以被实现为信号，诸如可以由从因特网或其他网络下载的电磁信号所携带的非有形手段。

根据示例实施例，诸如节点、设备或响应部件之类的装置可以被配置为电路，计算机或微处理器(诸如单芯片计算机元件)或芯片集，其可以至少包括用于提供用于算术运算的存储容量的存储器和/或用于执行算术运算的运算处理器。

本文描述的示例实施例同等地适用于单数和复数实施方式，无论描述某些实施例所使用的语言是单数还是复数形式。例如，描述单个计算设备的操作的实施例同样适用于包括计算设备的多个实例的实施例，反之亦然。

本领域的普通技术人员将容易理解，可以以不同顺序的操作和/或以与所公开的配置不同的配置的硬件元件来实施如上所述的示例实施例。因此，尽管已经基于这些示例实施例描述了一些实施例，但是对于本领域技术人员显而易见的是，某些修改，变化和替代构造将是显而易见的，同时仍在示例实施例的精神和范围内。

12页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种提高宏基因组纳米孔测序数据菌种组装效率的方法

样品病原细菌分型方法和系统

相关技术

网友询问留言