一个咖啡杯装下全世界的数据,DNA存储芯片神奇在哪?

我们正处于数据爆炸的时代 , 全球数据量呈指数级增长!
国际数据机构IDC预测 , 2025年 , 全球数据量将达到175ZB , 5年平均复合增长率8% 。1ZB等于1万亿GB , 如果175ZB数据用容量1GB的移动硬盘来装 , 至少需要175万亿个硬盘 。在未来 , 数据存储问题将成为互联网发展的痛点 。
为了解决数据存储这一难题 , 受生物学的启发 , 研究人员瞄准了人体内的DNA 。
最大的人类染色体含有近2.5亿个碱基对 , 如果每个碱基对上都能存储数据 , 理论上 , 麻省理工学院生物工程教授MarkBathe说 , 一个装满DNA的咖啡杯就可以存储世界上所有的数据 。这样看来 , 存储175ZB的数据也就不在话下了 。
这样一个前景可观的新兴存储技术 , 在今年3月被写进“十四五”规划纲要草案中 。不仅如此 , 2021年层出不穷的相关研究及落地进展 , 令DNA存储技术愈发受到关注 。
例如1月11日 , Nature子刊上发表了哥伦比亚大学将helloworld翻译成碱基语言录入大肠杆菌DNA的相关论文;5月26日 , 由中科院深圳先进技术研究院孵化的中科碳元成立 , 专注于推进DNA数据存储研发及商业化;11月12日 , 东南大学刘宏团队将校训“止于至善”写进DNA的论文发表于ScienceAdvances;11月24日 , 微软公布首个纳米级DNA存储写入器……
需要注意的是 , 广义上的DNA芯片是基因组学和遗传学研究的工具 , 指在固相支持物上原位合成寡核苷酸或者直接将大量预先制备的DNA探针以显微打印的方式有序地固化于支持物表面 , 然后与标记的样品杂交 。因为其支持物表面常是计算机芯片 , 因此称其为DNA芯片 。
DNA芯片类型多样 , 包括检测基因、染色体或用于临床诊断用的芯片 , 而其中模仿DNA分子结构进行数据存储的是我们今天讨论的重点 , 也就是DNA存储芯片 。01 碱基与二进制对应 , 人手长的DNA链可存储10亿G数据
从远古石墙上刻的图案到文字的出现 , 再到最重要的信息载体书籍的产生 , 我们产生的信息其实并不多 。但自从进入信息时代 , 人类在过去50年里记录的信息已经远远超过过去2000年的信息 。
我们处在信息爆炸的大数据时代 , 所有互联网中的信息都作为数据保存下来 , 从网页、应用程序到安防、卫星领域应有尽有 。
根据国际数据组织IDC的数据 , 2013年至2015年全球大数据存储量分别为4.3ZB、6.6ZB、8.6ZB , 增速维持在40%左右 , 而到2016年全球大数据存储量达到16.1ZB , 增长率达到87.21% 。2017年至2019年全球大数据存储量分别为21.6ZB、33ZB、41ZB , 2020年全球数据量达到了60ZB 。在大数据领域不断发展的同时 , 为了满足海量的数据存储需求 , 存储方式也在不断发生变化 。

一个咖啡杯装下全世界的数据,DNA存储芯片神奇在哪?
文章图片

文章图片

▲IDC监测2015-2020年全球数据量变化趋势以及2025年预测
DNA是储存遗传信息的载体 , 携带有合成RNA和蛋白质所必需的遗传信息 , 它可以对生物的所有信息进行编码 。
上世纪50年代 , 就有研究人员发现了生物特征和人造物体的关系 。DNA分子由四种碱基组成 , 数据由二进制0和1组成;DNA用来储存遗传信息 , 数据正好需要一个介质存储 , 由此苏联物理学家米哈伊尔·萨莫伊洛维奇·内曼(MikhailSamoilovichNeiman)想到 , 是否可以参考DNA结构来存储数据?
与传统的存储介质不同 , DNA存储技术有如下显著优势 。
首先是DNA存储密度高 。一个DNA分子可以保留一个物种的全部遗传信息 , 最大的人类染色体含有近2.5亿个碱基对 , 那么就意味着一条和人手差不多长的DNA链 , 就可以存储1EB(1EB=10.74亿G)数据 。