一种生物学序列的数据库保存方法和系统

文档序号：1783986 发布日期：2019-12-06 浏览：28次 >En<

阅读说明：本技术 一种生物学序列的数据库保存方法和系统 (Biological sequence database storage method and system ) 是由蓝田李钟文岑文杰于 2019-08-06 设计创作，主要内容包括：本发明公开了一种生物学序列的数据库保存方法及系统,所述方法包括如下步骤：步骤S1,根据将生物学序列的通用保存格式内有关生物学序列的信息构建若干用于保存生物学序列部分信息的数据表,且各数据表通过特定逻辑进行关联；步骤S2,获取生物学序列信息,对所获取的生物学序列信息进行解析,依据解析结果将生物学序列信息的各部分存入对应的数据表,通过本发明,可降低生物学序列的信息复杂度,为生物学序列的数据使用和网络传输提供方便。(The invention discloses a method and a system for storing a database of biological sequences, wherein the method comprises the following steps: step S1, constructing a plurality of data tables for storing partial information of the biological sequence according to the information related to the biological sequence in the general storage format of the biological sequence, and associating the data tables through specific logic; and step S2, acquiring biological sequence information, analyzing the acquired biological sequence information, and storing each part of the biological sequence information into a corresponding data table according to the analysis result.)

一种生物学序列的数据库保存方法和系统

技术领域

本发明涉及及数据处理技术领域，特别是涉及一种生物学序列的数据库保存方法和系统。

背景技术

现有生物学序列保存的方式多是文件格式的形式，例如Genbank(DNA序列数据库),FastA(基于文本用于表示核酸序列或多肽序列)等，各种生物学软件一般都有自己独自的数据保存格式，其可以通过通用格式Genbank来进行一定程度上的格式转换。但对于使用者来说，还必须了解如何使用Genbank进行格式转换，费时费力。另外，虽然在NCBI(National Center for Biotechnology Information，美国国立生物技术信息中心)上有针对Genbank的拆分和数据库保存方法，但是这个保存方式的层级和复杂度对于网络应用的使用来说是不够方便的。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种生物学序列的数据库保存方法和系统，以降低生物学序列的信息复杂度，为生物学序列的数据使用和网络传输提供了极大的方便。

为达上述目的，本发明提出一种生物学序列的数据库保存方法，包括如下步骤：

步骤S1，根据将生物学序列的通用保存格式内有关生物学序列的信息构建若干用于保存生物学序列部分信息的数据表，且各数据表通过特定逻辑进行关联；

步骤S2，获取生物学序列信息，对所获取的生物学序列信息进行解析，依据解析结果将生物学序列信息的各部分存入对应的数据表。

优选地，于步骤S2后，还包括如下步骤：

步骤S3，对各数据表设计数据接口，以通过数据接口实现对各数据表中的生物学学列信息的操作。

优选地，于步骤S1中，构建包括但不限于如下用于保存生物学序列部分信息的数据表：分别为annotation表，type表，component表，node表以及annotation_types表，所述annotation表用于保存生物学序列信息的名称和对应的描述信息，所述type表用于保存生物学序列信息的类型，所述component表用于保存生物学序列的hashcode和序列本身，所述node表用于保存生物学序列的进化树节点，所述annotation_types表用于建立annotation表与type表的关系。

优选地，于步骤S2中，对所述生物学序列信息进行解析，获取该生物学序列信息中生物学序列信息的名称和对应的描述信息，将其存入所述annotation表中，并生成annotation_id，获取该生物学序列信息中的生物学序列信息的类型，将其存入所述type表中，并生成type_id，获取该生物学序列信息中的hashcode和序列本身，将其存入所述component表中，并生成component_id，获取该生物学序列信息中的进化树节点，将其存入所述node表中，并生成node_id，根据annotation_id和type_id建立所述annotation_types表，最后各数据表之间利用各表的ID进行关联。

优选地，于步骤S3中，通过所述数据接口实现对生物学学列信息的增删改查目的。

为达到上述目的，本发明还提供一种生物学序列的数据库保存系统，包括：

数据表构建单元，用于根据将生物学序列的通用保存格式内有关生物学序列的信息构建若干用于保存生物学序列部分信息的数据表，且各数据表通过特定逻辑进行关联；

解析存储单元，用于获取生物学序列信息，对所获取的生物学序列信息进行解析，依据解析结果将生物学序列信息的各部分存入对应的数据表。

优选地，所述系统还包括：

数据接口设计单元，用于对各数据表设计数据接口，以通过数据接口实现对各数据表中的生物学学列信息的操作。

优选地，所述数据表构建单元构建包括但不限于如下用于保存生物学序列部分信息的数据表：分别为annotation表，type表，component表，node表以及annotation_types表，所述annotation表用于保存生物学序列信息的名称和对应的描述信息，所述type表用于保存生物学序列信息的类型，所述component表用于保存生物学序列的hashcode和序列本身，所述node表用于保存生物学序列的进化树节点，所述annotation_types表用于建立annotation表与type表的关系。

优选地，所述解析存储单元对所述生物学序列信息进行解析，获取该生物学序列信息中生物学序列信息的名称和对应的描述信息，将其存入所述annotation表中，并生成annotation_id，获取该生物学序列信息中的生物学序列信息的类型，将其存入所述type表中，并生成type_id，获取该生物学序列信息中的hashcode和序列本身，将其存入所述component表中，并生成component_id，获取该生物学序列信息中的进化树节点，将其存入所述node表中，并生成node_id，根据annotation_id和type_id建立所述annotation_types表，最后各数据表之间利用各表的ID进行关联。

优选地，所述数据接口设计单元通过所述数据接口实现对生物学学列信息的增删改查目的。

与现有技术相比，本发明一种生物学序列的数据库保存方法及系统通过根据生物学序列的通用保存格式内有关生物学序列的信息将生物学序列信息拆分成若干数据表，把数据通过特定的逻辑关系进行保存，同时通过设计对数据表增删改查的数据接口，通过调用这些接口，不分平台后端和前段，都能非常方便快捷的在网络中管理和使用这些生物学序列信息，大大减低了信息处理门槛，降低了生物学序列的信息复杂度，提高了信息的处理速度，为生物学序列的数据使用和网络传输提供了极大的方便。

附图说明

图1为本发明一种生物学序列的数据库保存方法的步骤流程图；

图2为本发明一种生物学序列的数据库保存系统的系统架构图；

图3为本发明具体实施例中各数据表的结构示意图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种生物学序列的数据库保存方法的步骤流程图。如图1所示，本发明一种生物学序列的数据库保存方法，包括如下步骤：

步骤S1，根据将生物学序列的通用保存格式内有关生物学序列的信息构建若干用于保存生物学序列部分信息的数据表，且各数据表通过特定逻辑进行关联。

在本发明具体实施例中，构建五个用于保存生物学序列部分信息的数据表，分别为annotation表，type表，component表，node表以及annotation_types表，其中annotation表用于保存生物学序列信息的名称和对应的描述信息，type表用于保存生物学序列信息的类型，component表用于保存生物学序列的hashcode和序列本身，node表用于保存生物学序列的进化树节点，annotation_types表则为关系表，用于建立annotation表与type表的关系。

步骤S2，获取生物学序列信息，对所获取的生物学序列信息进行解析，依据解析结果将生物学序列信息的各部分存入对应的数据表。具体地说，当获得某一生物学序列信息时，对其进行解析，获取该生物学序列信息中生物学序列信息的名称和对应的描述信息，将其存入annotation表中，并生成annotation_id，获取该生物学序列信息中的生物学序列信息的类型，将其存入type表中，并生成type_id，获取该生物学序列信息中的hashcode和序列本身，将其存入component表中，并生成component_id，获取该生物学序列信息中的进化树节点，将其存入node表中，并生成node_id，根据annotation_id和type_id建立annotation_types表，最后各数据表之间利用各表的ID进行关联。

优选地，本发明之生物学序列的数据库保存方法，还包括：

步骤S3，对各数据表设计数据接口，以通过数据接口实现对生物学学列信息的增删改查目的。在本发明中，通过调用这些接口，不分平台后端和前端，都可方便快捷地在网络中管理和使用这些生物学序列信息。

图2为本发明一种生物学序列的数据库保存系统的系统架构图。如图2所示，本发明一种生物学序列的数据库保存系统，包括：

数据表构建单元201，用于根据将生物学序列的通用保存格式内有关生物学序列的信息构建若干用于保存生物学序列部分信息的数据表，且各数据表通过特定逻辑进行关联。

在本发明具体实施例中，数据表构建单元201构建五个用于保存生物学序列部分信息的数据表，分别为annotation表，type表，component表，node表以及annotation_types表，其中annotation表用于保存生物学序列信息的名称和对应的描述信息，type表用于保存生物学序列信息的类型，component表用于保存生物学序列的hashcode和序列本身，node表用于保存生物学序列的进化树节点，annotation_types表则为关系表，用于建立annotation表与type表的关系。

解析存储单元202，用于获取生物学序列信息，对所获取的生物学序列信息进行解析，依据解析结果将生物学序列信息的各部分存入对应的数据表。具体地说，当获得某一生物学序列信息时，解析存储单元202首先对其进行解析，获取该生物学序列信息中生物学序列信息的名称和对应的描述信息，将其存入annotation表中，并生成annotation_id，获取该生物学序列信息中的生物学序列信息的类型，将其存入type表中，并生成type_id，获取该生物学序列信息中的hashcode和序列本身，将其存入component表中，并生成component_id，获取该生物学序列信息中的进化树节点，将其存入node表中，并生成node_id，根据annotation_id和type_id建立annotation_types表，最后各数据表之间利用各表的ID进行关联。

优选地，本发明之生物学序列的数据库保存系统，还包括：

数据接口设计单元，用于对各数据表设计数据接口，以通过数据接口实现对生物学学列信息的增删改查目的。在本发明中，通过调用这些接口，不分平台后端和前端，都可方便快捷地在网络中管理和使用这些生物学序列信息。

实施例

如图3所示，根据将生物学序列的通用保存格式内有关生物学序列的信息构建如下五个数据表：annotation，type，component，node，annotation_types。其中annotation表保存的的是序列的名称和对应的描述信息，其包含有id，detail(详细描述信息),name(序列名称)，official(标记元件是否属于内部定义的相对正式、有意义的元件)，uuid(通用识别码)，created_on(产生时间)，update_on(更新时间)字段；type表保存的是序列的类型，其包括id，name(类型名称)字段；component表保存的是序列的hashcode和序列本身，其包括id，hashcode,seq(序列本身),annotation_id，is_show(是否显示)等字段，node表则是保存序列的进化树节点，其包括id，uuid，tree_id(进化树节点)，created_on(产生时间)，component_id，parent_id(父节点id)，update_on(更新时间)，annotation_types表则包括id，annotation_id，type_id。

当获得某一生物学序列信息时，对其进行解析，获取该生物学序列信息中生物学序列信息的名称和对应的描述信息，将其存入annotation表中，生成annotation_id，获取该生物学序列信息中的生物学序列信息的类型，将其存入type表中，生成type_id，获取该生物学序列信息中的hashcode和序列本身，将其存入component表中，生成component_id，获取该生物学序列信息中的进化树节点，将其存入node表中，生成node_id，根据annotation_id和type_id建立annotation_types表。

针对各数据表设计增删改查的数据接口，这样通过调用这些接口，不分平台后端和前段，都能非常方便快捷的在网络中管理和使用这些生物学序列信息。

本发明具体实施例中，系统的功能通过数据接口的形式提供，以下是接口和对应的功能：

1.Type Resource

1)获取当前所有的序列类型。

2)增加类型

3)更新类型

2)删除类型

2.Annotation Resource

1)获取Annotation完整信息，包含子components。

2)批量获取Annotation完整信息，包含子components。

3)获取单个Annotation的信息。

4)修改单个Annotation的信息。

5)筛选component。

6)获取Annotation进化树。

7)合并多个Annotation。

3.Component Resource

1)***component。

2)获取component。

3)修改component。

4)根据序列hash code查询所有UUID。

5)根据hash code得到序列信息。

6)修改component是否展示。

7)对component拆分多个Annotation。

4.Node Resource

1)根据node获取component明细。

2)根据node获取序列hash code。

3)根据node更新component。

4)根据node获取序列。

5)获取特定node节点的进化树。

6)根据node列表获取组装后的载体或者其他生物序列元件。

7)根据node列表获取component集合。

综上所述，本发明一种生物学序列的数据库保存方法及系统通过根据生物学序列的通用保存格式内有关生物学序列的信息将生物学序列信息拆分成若干数据表，把数据通过特定的逻辑关系进行保存，同时通过设计对数据表增删改查的数据接口，通过调用这些接口，不分平台后端和前段，都能非常方便快捷的在网络中管理和使用这些生物学序列信息，大大减低了信息处理门槛，降低了生物学序列的信息复杂度，提高了信息的处理速度，为生物学序列的数据使用和网络传输提供了极大的方便。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

10页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：基于单峰热解曲线的炭化可燃物热解动力学参数计算方法

一种生物学序列的数据库保存方法和系统

相关技术

网友询问留言