染色体外环状dna识别方法、系统、设备及介质

文档序号:1536706 发布日期:2020-02-14 浏览:30次 >En<

阅读说明:本技术 染色体外环状dna识别方法、系统、设备及介质 (Extrachromosomal circular DNA recognition methods, systems, devices and media ) 是由 刘英娟 孙晓勇 陈士民 付尊元 韩金玉 魏庆功 张圆周 张童 于 2019-11-01 设计创作,主要内容包括:本公开公开了染色体外环状DNA识别方法、系统、设备及介质,包括:训练阶段:构建若干个并列的组合神经网络单元;基于已知类型的DNA进行裁剪,构建不同长度序列的训练集;对训练集进行预处理;将经过预处理后的每一种长度序列的训练集输入到对应的组合神经网络单元中,对组合神经单元进行训练;得到训练好的组合神经网络单元;每一种长度序列的训练集,均训练出对应的组合神经网络单元;最终,得到若干个针对不同长度序列的组合神经网络单元;应用阶段:获取待识别的DNA;对待识别的DNA进行裁剪;对裁剪后的结果进行预处理;将预处理后的裁剪的DNA输入到对应的组合神经网络单元中,输出待识别DNA的识别结果。(The present disclosure discloses methods, systems, devices and media for extrachromosomal circular DNA identification, comprising: a training stage: constructing a plurality of parallel combined neural network units; cutting based on known types of DNA, and constructing training sets of sequences with different lengths; preprocessing a training set; inputting the training set of each length sequence after pretreatment into a corresponding combined neural network unit, and training the combined neural network unit; obtaining a trained combined neural network unit; training a corresponding combined neural network unit in each training set of the length sequences; finally, a plurality of combined neural network units aiming at sequences with different lengths are obtained; an application stage: obtaining DNA to be identified; cutting DNA to be identified; preprocessing the cut result; and inputting the preprocessed and cut DNA into a corresponding combined neural network unit, and outputting the recognition result of the DNA to be recognized.)

染色体外环状DNA识别方法、系统、设备及介质

技术领域

本公开涉及染色体外环状DNA识别技术领域,特别是涉及染色体外环状DNA识别方法、系统、设备及介质。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。

染色体外环状DNA(eccDNA)是独立于染色体的,广泛存在于许多真核生物中。它最初是在1964年发现的一系列DNA圆环,后来报道其来源于与基因组DNA同源的重复序列。2012年柴田等人证明eccDNA的两侧是9-11bp直接重复,中部则由非重复序列形成。研究发现,eccDNA在动物中具有组织特异性,不仅能促进衰老,而且还参与细胞间通讯。2017年,eccDNA不仅在正常组织中检测到,而且发现其在肿瘤中作为主要驱动因子,远长于正常组织。因此,eccDNA作为一种明确而重要的肿瘤标志物,在临床实践中有着重要的应用价值。

在实现本公开的过程中,发明人发现现有技术中存在以下技术问题:

目前的染色体外环状DNA识别主要采用人工识别,通过经验丰富的医师对染色体进行识别,整个识别周期非常长,而且医师判断的主观性也很强,容易受到外界环境的影响,准确率不高。

发明内容

为了解决现有技术的不足,本公开提供了染色体外环状DNA识别方法、系统、设备及介质;

第一方面,本公开提供了染色体外环状DNA识别方法;

染色体外环状DNA识别方法,包括:

训练阶段:

构建若干个并列的组合神经网络单元;

基于已知类型的DNA进行裁剪,构建不同长度序列的训练集;

对训练集进行预处理;将经过预处理后的每一种长度序列的训练集输入到对应的组合神经网络单元中,对组合神经单元进行训练;得到训练好的组合神经网络单元;每一种长度序列的训练集,均训练出对应的组合神经网络单元;

最终,得到若干个针对不同长度序列的组合神经网络单元;

应用阶段:

获取待识别的DNA;对待识别的DNA进行裁剪;

对裁剪后的结果进行预处理;

将预处理后的裁剪的DNA输入到对应的组合神经网络单元中,输出待识别DNA的识别结果,所述识别结果,包括:属于染色体外环状DNA,或不属于染色体外环状DNA。

第二方面,本公开还提供了染色体外环状DNA识别系统;

染色体外环状DNA识别方法,包括:

训练模块,包括:

模型构建单元,其被配置为:构建若干个并列的组合神经网络单元;

训练集构建单元,其被配置为:基于已知类型的DNA进行裁剪,构建不同长度序列的训练集;

第一预处理单元,其被配置为:对训练集进行预处理;将经过预处理后的每一种长度序列的训练集输入到对应的组合神经网络单元中,对组合神经单元进行训练;得到训练好的组合神经网络单元;每一种长度序列的训练集,均训练出对应的组合神经网络单元;最终,得到若干个针对不同长度序列的组合神经网络单元;

应用模块:

裁剪单元,其被配置为:获取待识别的DNA;对待识别的DNA进行裁剪;

第二预处理单元:其被配置为:对裁剪后的结果进行预处理;

识别单元,其被配置为:将预处理后的裁剪的DNA输入到对应的组合神经网络单元中,输出待识别DNA的识别结果,所述识别结果,包括:属于染色体外环状DNA,或不属于染色体外环状DNA。

第三方面,本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述方法的步骤。

第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述方法的步骤。

与现有技术相比,本公开的有益效果是:

通过深度学习算法实现染色体外环状DNA的识别,识别的准确率提升,不依赖医师的主观判断,有效减轻医师的工作负担,识别的速率提升。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。

图1为第一个实施例的数据集获取方法流程图;

图2为第一个实施例的训练和应用方法流程图;

图3为第一个实施例的组合神经网络单元示意图。

具体实施方式

应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一,本实施例提供了染色体外环状DNA识别方法;

染色体外环状DNA识别方法,包括:

S1:训练阶段:

构建若干个并列的组合神经网络单元;

基于已知类型的DNA进行裁剪,构建不同长度序列的训练集;

对训练集进行预处理;将经过预处理后的每一种长度序列的训练集输入到对应的组合神经网络单元中,对组合神经单元进行训练;得到训练好的组合神经网络单元;每一种长度序列的训练集,均训练出对应的组合神经网络单元;

最终,得到若干个针对不同长度序列的组合神经网络单元;

S2:应用阶段:

获取待识别的DNA;对待识别的DNA进行裁剪;

对裁剪后的结果进行预处理;

将预处理后的裁剪的DNA输入到对应的组合神经网络单元中,输出待识别DNA的识别结果,所述识别结果,包括:属于染色体外环状DNA,或不属于染色体外环状DNA。

如图3所示,作为一个或多个实施例,训练阶段,构建若干个并列的组合神经网络单元,其中,每个组合神经网络单元,包括:

第一卷积神经网络、第二卷积神经网络和门控循环单元网络;

第一卷积神经网络的输入端,用于输入待识别DNA的accept序列对应的矩阵;第一卷积神经网络的输出端,与门控循环单元网络的输入端连接;

第二卷积神经网络的输入端,用于输入待识别DNA的donor序列对应的矩阵;第二卷积神经网络的输出端,与门控循环单元网络的输入端连接;

门控循环单元网络的输出端输出当前组合神经网络单元对应的待识别DNA的识别结果。

作为一个或多个实施例,训练阶段,基于已知类型的DNA进行裁剪,构建不同长度序列的训练集;具体步骤包括:

S11:获取每段染色体外环状DNA在DNA序列中的起始端点和结束端点,根据设定的剪切长度和剪切方向确定剪切位置,将剪切方向相同且剪切长度也相同的DNA序列存储到一起;根据确定的剪切位置,在DNA序列上对剪切位点前后进行剪切;

S12:将相同剪取方向且相同剪切长度的DNA基因序列打包成一类数据集,又将每类数据集的60%作为模型训练用数据集,剩下的40%作为模型预测用数据集。

应理解的,S11中,所述DNA序列,包括染色体外环状DNA基因序列和非染色体外环状DNA基因序列。

应理解的,S11中,所述根据设定的剪切长度和剪切方向确定剪切的位置;是指:

从染色体外环状DNA每端的端点,向染色体外环状DNA内部的方向剪切200、400或600个碱基的长度;

或者,在染色体外环状DNA两侧端点的每个端点各自向两侧分别剪取200、400、600个碱基的长度;

或者,在染色体外环状DNA两侧端点的每个端点各自向外300个碱基的长度且向内100个碱基的长度;

或者,在染色体外环状DNA两侧端点的每个端点各自向外100个碱基的长度且向内300个碱基的长度。

应理解的,S11中,倘若长度达不到设定长度,则裁剪染色体外环状DNA剪切位点靠近整段序列的一端,获取非染色体外环状DNA基因序列。

作为一个或多个实施例,训练阶段,对训练集进行预处理;具体步骤包括:

对待识别DNA的accept序列和donor序列均进行one-hot编码;

将one-hot编码后的待识别DNA的A转化为四位二进制数0001;

将one-hot编码后的待识别DNA的T转化为四位二进制数1000;

将one-hot编码后的待识别DNA的C转化为四位二进制数0100;

将one-hot编码后的待识别DNA的G转化为四位二进制数0010;

其余情况转化为0000。其余情况,例如,字符B,字符@等。

将得到的若干个四位二进制数转化为两个4*n的矩阵,其中两个4*n的矩阵,accept序列对应一个矩阵,donor序列对应另外一个矩阵,accept序列的长度和donor序列的长度均用n来表示。

应理解的,所述accept序列,是指:染色体外环状DNA拥有两端,染色体外环状DNA一端的基因序列,即为accept序列;染色体外环状DNA另外一端的基因序列,即为donor序列。

作为一个或多个实施例,训练阶段,将经过预处理后的每一种长度序列的训练集输入到对应的组合神经网络单元中,对组合神经单元进行训练;得到训练好的组合神经网络单元;每一种长度序列的训练集,均训练出对应的组合神经网络单元;例如:

将200个碱基长度的训练集输入到第一组合神经网络单元中,对第一组合神经网络单元进行训练,得到训练好的第一组合神经网络单元;

将400个碱基长度的训练集输入到第二组合神经网络单元中,对第二组合神经网络单元进行训练,得到训练好的第二组合神经网络单元;

将600个碱基长度的训练集输入到第三组合神经网络单元中,对第三组合神经网络单元进行训练,得到训练好的第三组合神经网络单元;等。

作为一个或多个实施例,应用阶段,对待识别的DNA进行裁剪;具体步骤包括:应用阶段采用与训练阶段同样的裁剪方式对待识别的DNA进行裁剪。

同样的裁剪方式,例如是同样的长度和同样的方向。

例如:如果应用阶段采用的裁剪方式为:从染色体外环状DNA每端的端点,向染色体外环状DNA内部的方向剪切200、400或600个碱基的长度;则训练阶段也采用同样的方式进行裁剪。

作为一个或多个实施例,应用阶段,对裁剪后的结果进行预处理;具体步骤包括:

对待识别DNA的序列进行one-hot编码;

将one-hot编码后的待识别DNA的A转化为四位二进制数0001;

将one-hot编码后的待识别DNA的T转化为四位二进制数1000;

将one-hot编码后的待识别DNA的C转化为四位二进制数0100;

将one-hot编码后的待识别DNA的G转化为四位二进制数0010;

其余情况转化为0000。

作为一个或多个实施例,应用阶段,将预处理后的裁剪的DNA输入到对应的组合神经网络单元中,输出待识别DNA的识别结果;具体步骤包括:

如果预处理后的裁剪的DNA的长度是200个碱基,则训练阶段曾采用200个碱基训练过的组合神经单元进行类型识别。

如果预处理后的裁剪的DNA的长度是400个碱基,则训练阶段曾采用400个碱基训练过的组合神经单元进行类型识别。

作为一个或多个实施例,所述构建训练集的具体步骤包括:

根据已知染色体外环状DNA的在染色体上的位置信息,计算出不同设定裁剪长度情况下所需剪切的位置信息,并在DNA序列上进行剪切,根据采取剪切长度的不同划分出不同的数据集。

所述已知染色体外环状DNA的在染色体上的位置信息,包括:accept序列的唯一序列标识chr_acc、accept序列的开始端acc_start、accept序列的结束端acc_end、donor序列的唯一序列标识chr_don、donor序列的开始端don_start、donor序列的结束端don_end。

应理解的,计算出不同情况下所需剪切的位置信息;具体步骤包括:

当在端点位置前后一定的距离进行剪切时,会碰到两种情况,一种是端点位置结合距离之后,这些数据信息是在这个染色体上的,我们就正常的计算;另一种情况,是端点信息结合距离超出了能够在染色体上获取信息的范围,我们就从端点开始截取距离乘以2的长度。

举例:有1、2、3、……98、99、100;

端点信息为5—91截取距离为4;

向两端截取的话,我们的截取范围为:

1—9、87—95;

如果截取距离为6;

显然-1—11、85—97,已经超出范围;

那么,我们就将前一个不符合的数据改为:

1—13、85—95;

这个不同情况指的是,在计算获取数据的信息的时候,是否会超出长度的情况,因为有截取不同长度的可能,例如前后200个碱基的长度,400个碱基的长度。

应理解的,所述根据采取剪切长度的不同划分出不同的数据集;是指:

将截取200视作一种方式,将截取400视作一种方式;统一计算需要截取200长度下的数据范围信息存储到一个数据集中;

然后,统一计算需要截取400长度下的位置信息,截取出来,存储到另外一个数据集中。其他的长度也是上述这种操作。

另外,向染色体外环状DNA内部的方向剪切200长度,得到的长度为201的accept序列和donor序列;

在染色体外环状DNA每端位点向两侧分别剪取400长度,得到长度为801的accept序列和donor序列;

在染色体外环状DNA每端位点向外剪取300长度向内100长度得到401的accept序列和donor序列。

深度学习网络是目前机器学习与人工智能领域性能最佳的分析方法之一。深度学习在处理大数据方面尤为强大,在生物信息学等各个领域都取得了巨大的成功。随着生物大数据时代的进步,可以预见,深度学习在该领域将变得越来越重要,并将被纳入到绝大多数的分析管道中。深度学习非常适合应用于大量的高维数据集(DNA序列、RNAmeasurements、流式细胞仪或自动显微镜),通过训练多层的复杂网络来捕获数据内部的结构。学习网络可以发现高维特征,特征表示丰富,能捕获非线性的关系(如序列、相互作用的影响)。提高了传统模型的性能,增加可解释性,让我们更加了解生物数据的结构。

本实施例依赖于深度学习,构建一个对eccDNA序列识别并分类的系统,利用深度学习模型对eccDNA信息进行识别,并按照模型识别情况给出结果;更加智能、更加简捷的进行eccDNA识别分类,具有对已知不同eccDNA进行高准确率、自动识别的优点。

如图1所示,图1表示的是我们根据所拥有的eccDNA两端的端点位置信息,去进行计算,因为我们由不同的裁剪策略或者方式,对同一条数据我们会都得到因不同剪切方式而得到的数据,然后同种方式的打包到一起作为一个数据集。

如图2所示,在预判之前是训练过程,预判之后是应用过程;

实施例二,本实施例还提供了染色体外环状DNA识别系统;

染色体外环状DNA识别方法,包括:

训练模块,包括:

模型构建单元,其被配置为:构建若干个并列的组合神经网络单元;

训练集构建单元,其被配置为:基于已知类型的DNA进行裁剪,构建不同长度序列的训练集;

第一预处理单元,其被配置为:对训练集进行预处理;将经过预处理后的每一种长度序列的训练集输入到对应的组合神经网络单元中,对组合神经单元进行训练;得到训练好的组合神经网络单元;每一种长度序列的训练集,均训练出对应的组合神经网络单元;最终,得到若干个针对不同长度序列的组合神经网络单元;

应用模块:

裁剪单元,其被配置为:获取待识别的DNA;对待识别的DNA进行裁剪;

第二预处理单元:其被配置为:对裁剪后的结果进行预处理;

识别单元,其被配置为:将预处理后的裁剪的DNA输入到对应的组合神经网络单元中,输出待识别DNA的识别结果,所述识别结果,包括:属于染色体外环状DNA,或不属于染色体外环状DNA。

实施例三,本实施例还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例一所述方法的步骤。

实施例四,本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述方法的步骤。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

11页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:测序序列处理方法及装置、存储介质、电子设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!