一种使用dna字符码存储文字点阵的方法

文档序号:1127734 发布日期:2020-10-02 浏览:6次 >En<

阅读说明:本技术 一种使用dna字符码存储文字点阵的方法 (Method for storing character dot matrix by using DNA character code ) 是由 任兆瑞 于 2020-06-24 设计创作,主要内容包括:本发明公开了一种使用DNA字符码存储文字点阵的方法,方法首先将文字或字符点阵使用一段长度为N个碱基的DNA字符码表示,字符码为N+1的形式,其最后一位为根据其前面的N个碱基统计计算得到的校验码,所得字符码添加到其对应的文字或字符点阵的开头和末尾,并添加到字典中,文字点阵存储则直接使用方法所生成的带有校验码的字符码进行;采用本发明的文字点阵存储方法,不仅能够避免文字点阵DNA存储方法容易产生大段的重复DNA序列的不足,同时,采用了较短长度的DNA字符码取代文字点阵记录文字信息,极大地提高了存储密度。(The invention discloses a method for storing a character lattice by using DNA character codes, which comprises the steps of firstly, expressing the character or character lattice by using a section of DNA character codes with the length of N basic groups, wherein the character codes are in a form of N &#43;1, the last bit of the character or character lattice is a check code obtained by statistical calculation according to the previous N basic groups, the obtained character codes are added to the beginning and the end of the corresponding character or character lattice and are added into a dictionary, and the character lattice storage is directly carried out by using the character codes with the check codes generated by the method; the character lattice storage method of the invention can avoid the defect that the character lattice DNA storage method is easy to generate large-segment repeated DNA sequences, and simultaneously, the character lattice is replaced by the DNA character codes with shorter length to record character information, thereby greatly improving the storage density.)

一种使用DNA字符码存储文字点阵的方法

技术领域

本发明公开了一种使用DNA字符码存储文字点阵的方法,属于生物技术与信息技术领 域。

背景技术

DNA是重要的遗传物质载体,是自然界生物通过数十亿年进化而产生的一种线形或环形 的双螺旋生物大分子。上世纪五十年代,DNA作为生物的遗传信息载体被科学家证实,与普 通信息存储载体相比,DNA在数据存储方面有其独有的天然优势:存储密度高,1克DNA 可以保存世界上的所有书籍内容;存储稳定且时间久,能够达到几万年到几百万年;携带方 便,能够由细菌或者生物体内生物携带或置于容器长期保存等。

传统存储介质中,纸张等主要用图形文字等来表示,光盘等信息载体使用二进制电信号 0/1来表示,而DNA则是用A/T/G/C四个碱基依次排列实现,不同的序列代表不同的信息, 相当于是四进制。一般在生物体的DNA中,A/T/G/C碱基的分布和比例需要均匀并且尽量减 少大段的重复,而基于文字点阵进行DNA存储时,每个文字的DNA序列均会包括上百个碱 基,不同的汉字其点阵可能会包含有许多相同的片段,从而产生较多的重复DNA片段;同 时,基于文字点阵进行DNA存储时,相同的汉字会产生相同的DNA序列,对于一些出现频率较高的文字或字符,也会产生较多的重复DNA序列,这些普遍存在的重复DNA序列都会 极大的影响DNA的复制与合成。

发明内容

发明要解决的技术问题

为解决现有文字点阵DNA存储时会产生较多重复序列,影响其复制合成的问题,本发 明提出一种使用DNA字符码存储文字点阵的方法。

技术方案

为解决上述技术问题,本发明采用以下技术方案:

一种使用DNA字符码存储文字点阵的方法,包括以下步骤:

步骤1,面向字库中的每个文字或字符的点阵随机生成一段长度为N的DNA碱基作为字 符码;

步骤2,为生成字符码的二进制码生成校验码并添加到字符码的末尾,生成长度为8-10 个DNA碱基的字符码;

步骤3,将上一步中所得的字符码添加到其对应的文字或字符点阵的开头和末尾,并添加 到字典中;

步骤4,使用步骤2所得的DNA字符码对文字点阵进行存储。

进一步地,步骤2中的校验码为一个DNA碱基,校验码二进制码首位的生成方法为:统 计字符码二进制码中奇数位“1”的个数,个数为奇数则为1,偶数则为0;校验码二进制码次位的生成方法为:统计字符码二进制码中偶数位“1”的个数,个数为奇数则为1,偶数则为0。

进一步地,为避免重复,对于经常使用的文字或字符的点阵生成多个字符码。

有益效果

采用本发明提供的技术方案,与现有技术相比,具有如下有益效果:

本发明存储方法能够避免产生大段的重复DNA序列,克服了文字点阵DNA存储方法的 不足;

本发明采用较短长度的DNA字符码记录文字信息,极大地提高了存储密度;

本发明存储方法原理步骤简单,便于在本技术领域推广应用。

附图说明

图1为本发明方法的流程框图;

图2为本发明校验码产生的示例图。

具体实施方式

为进一步了解本发明的内容,结合附图和具体实施方式对本发明作详细描述。

图1为本发明DNA字符码存储文字点阵的方法步骤图,方法将字库中的每个文字或字符 使用一段8-10个碱基的DNA序列来表示,所生成的字符码为N+1的方式,如10位字符码的 前9位DNA碱基序列为随机生成,最后1位则是依据前9位所生成的校验码,来校验这9位字符码是否发生错误。

通过校验码可以判断在DNA存储的过程中是否发生了基因突变而导致字符码发生变化, 一般来说DNA复制的过程中,出现错误一个碱基的概率小于10-6,如果在这10位的字符码种 出现了一个错误碱基,那么校验码和前面的9位便会出现不匹配的现象。校验码的规则是按 照ACGT的二进制编码共18位排在一起,奇数位如有奇数个1则为1,偶数个1则为0,同样 偶数位如有奇数个1则为1,偶数个1则为0,最终奇数位和偶数位形成的00,01,10或者 11再转变成ACGT形成校验码。图2所示为初始字符码生成校验码的例子,这里9位字符码TCTATGTTC生成校验码C,则该汉字的最终校验码为TCTATGTTCC。

在字典中,每个文字或字符点阵的DNA序列的前后均使用相同的字符码表示其开始和终 止,文字信息直接使用其字符码进行存储。N+1位字符码中,N的长度决定了字库的容量,例 如4位碱基(ACGT)的字符码,字符库最多可以包含有44,就是256个不同的字符;而9位 的则有49,即超过26万个不同的字符。

采用点阵库进行存储时,每个汉字的点阵都包括上百个DNA碱基序列,在每一段信息中, 相同的汉字其序列相同,将会极大影响DNA的复制合成。使用字符码后,其长度降低为不超 过10个碱基,基本上可以避免大段重复序列的出现。对经常频繁出现的文字或者字符,例如 最常使用的部分文字,标点符号的逗号和句号,可分配多个不同的字符码,从而进一步减少 存储时重复的DNA序列。同时,采用字符码的方式来记录文字信息的方法比单独使用点阵字 符能够提高数十倍的存储密度。

据统计,大多数书籍使用的不同的字数并不多,中文版《圣经》使用了3100多个不同的汉字,《新华字典》中所收录的汉字在10000个左右,英文版《圣经》则使用了约11000个不同的英语单词。使用本发明的方法时,以10位字符码(9+1)为例,其字符码总容量为49个,大约27万个,采用这种大容量字符码能够有足够的冗余度,可以对使用频率较高的文字或者符号,采用多个点阵和字符码,以减少重复DNA的重复序列。另外对于绝大多数要存储的信息而言,使用2万个字符码已经足够,相当于使用了其27万总容量的不到10%,若记录信息的字符码DNA序列在保存过程中发生了随机突变,除了字符码本身和校验码会不一致以外,在点阵字库字典中也有超过90%的可能性找不到该错误字符码所对应的字符点阵,进一步可判断出字符码出错,这种方法便于在后续的信息读取过程中进行及时纠正。

以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也 只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员 受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结 构方式及实施例,均应属于本发明的保护范围。

6页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种DNA数据存储编码方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!