一个咖啡杯装下全世界的数据,DNA存储芯片神奇在哪?( 二 )


与硬盘和闪存的数据存储密度相比 , 硬盘存储每立方厘米约为1013位 , 闪存存储约为1016位 , 而DNA存储的密度约为1019位 。
其次是DNA分子存储具有稳定性 。今年2月 , 国际顶级学术期刊Nature上的一篇论文称古生物学家在西伯利亚东北部的永久冻土层中提取到距今120万年猛犸象的遗传物质 , 并对其DNA进行了解析 , 这也进一步刷新了DNA分子的保存年代纪录 。
据悉 , DNA至少可保留上百年的数据 , 相比之下 , 硬盘、磁带的数据最多只能保留约10年 。
最后 , DNA存储维护成本低 。以DNA形式存储的数据易于维护 , 和传统的数据中心不同 , 不需要大量的人力、财力投入 , 仅需要保存在低温环境中 。
在能耗方面 , 1GB的数据硬盘存储能耗约为0.04W , 而DNA存储的能耗则小于10-10W 。02 低成本扩大规模 , 可放置数百万个DNA序列
上个世纪50年代 , 科学家已经提出创建人造物体与微观世界的生物特征相似的想法 , 并且认为该人造物体将具有更加广泛的能力 。不到十年 , 苏联物理学家米哈伊尔·萨莫伊洛维奇·内曼(MikhailSamoilovichNeiman)就独立提出了可以利用DNA和RNA分子来进行信息记录、存储和检索的可能性 。
DNA进行数据存储的应用真正开始于1988年 ,艺术家乔戴维斯和哈佛大学的研究人员合作 , 在大肠杆菌的DNA序列中 , 将一张代表生命和女性地球的古代日耳曼符文图片 , 通过5x7的矩阵存储到DNA序列中 。他们用二进制中的1代表图片中的暗像素 , 0代表图片中的亮像素 。
在之后的研究中 , 研究人员提出了多种DNA存储的编码方式 。2011年 , 研究团队对一本659KB的书籍进行编码 , 通过一对一对应 , 由腺嘌呤或胞嘧啶表示二进制中的0 , 鸟嘌呤或胸腺嘧啶表示1 。然而 , 最后研究人员检查数据存储结果时发现 , 在DNA中出现了22个错误 。这种一一对应的编码方式的精度较低 。
DNA是由四种碱基结合成碱基对 , 并组成螺旋结构 。四种碱基分别是腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)、胞嘧啶(C) , 然后依据碱基互补配对原则 , 来排列DNA分子储存遗传信息 。这四个代码也为DNA存储芯片提供了一个合适的编码环境 。

一个咖啡杯装下全世界的数据,DNA存储芯片神奇在哪?
文章图片

文章图片

▲DNA分子结构示意图
DNA存储技术包括信息编码、存储、检索、解码四个步骤 。在计算机中 , 数据存储需要用二进制0和1来表示 , 使用DNA来存储数据首先需要将0和1转化为DNA中的四个碱基A、C、T、G , 创建具有正确碱基序列的DNA螺旋结构 。合成DNA后在体内或体外进行存储 。在解码时 , DNA测序仪会转录该DNA结构中的碱基序列 , 通过解码软件将其转化为0和1 , 还原数据信息 。
2012年 , 哈佛大学的研究团队证实 , DNA可以作为一种和硬盘驱动器、磁带类似的存储介质 。他们通过DNA对数字信息进行编码 , 包括53400字节的HTML草稿 , 11张JPG图片和一个JavaScript程序 , 利用位与碱基一对一映射 , 但这种方式会使得相同碱基长时间运行 , 测序过程容易出错 。
这种简单的一对一编码形式 , 在2013年得到了突破 。欧洲生物信息学研究所(EBI)的研究人员在论文中称 , 他们已经实现了超过500万位数据的存储、检索和复制 , 并且所有DNA文件都以99.99%到100%的准确度再现了信息 。在编码过程中 , 研究小组加入了纠错编码方案 , 并采用了可通过序列识别的重叠短寡核苷酸的编码方式 。
此后 , 哥伦比亚大学、华盛顿大学、帝国理工学院等研究团队都开展了一系列研究 。