1、 DNA 数据存储的现在和未来 中国科学院上海生命科学信息中心 上海市生物工程学会 2019 年 9 月 DNA 数据存储的现在和未来 合成生物学快讯 2019 年第 9 期 (总期第九十三期) DNA 数据存储的现在和未来 编者按编者按: 2019 年 7 月, 世界经济论坛(WEF) 发布2019 年十大新兴技术(Top 10 Emerging Technologies 2019)报告。报告入选的技术由达沃斯论坛专家根据一系列标准确定。除了具有重大社会与经济潜在效益,入选技术还必须具有颠覆性,能够吸引研究者和投资者,其发展有望在未来五年内达到相当规模。DNA 数据存储(DNA Data S
2、torage)就是其中之一。此外,2018 年 9 月,美国波托马克政策研究所(Potomac Institute for Policy Studies)也发布了探讨DNA 数据存储的未来 (The Future of DNA Data Storage)的报告。 本期快讯总结了两份报告中针对“DNA 数据存储”的信息和观点,包括目前数据存储面临的挑战、 DNA数据存储技术的优势、 DNA数据存储的发展现状、目前该领域的关键参与者(学术机构、企业、政府等) ,以及对 DNA 数据存储未来的预测。 1. 背景背景 2018 年的每一分钟内,谷歌可以进行 388 万次搜索,YouTube 观影视频为
3、433 万, 有 159,362,760 封电子邮件被发送, 产生了 473,000 次推文,Instagram 上发布了 49,000 张照片。预计到 2020 年,全球每人每秒估计产生 1.7MB 的数据。假设世界人口为 78 亿,一年内就会产生约 418ZB(即 4180 亿 1TB 硬盘)的信息,而目前拥有 0 和 1 的磁或光数据存储系统保存数据一般不能超过一个世纪。此外,运行数据的中心还需要大量的能源维持。因此,我们即将面临严重的数据存储问题,并且这种问题随着时间的推移会变得越来越严峻。 1.1 数据存储危机 互联网时代的兴起,以及相关技术和平台导致了数字化数据的飞速增加。目前,
4、对数字化数据存储的需求已经超过了现有的储存能力,并且随着数据的指数增长,这种差距将越来越大(图 1) 。现代数据信息储存技术(例如闪存)主要依赖硅制的微电子。分析人员预计,2040 年全球数据储存将需要超过 1000 千克的晶圆级硅,但是 2040 年硅单晶片供应量仅有 108 千克。目前,迫切需要新型、可持续材料以支持世界信息技术基础和数字化数据存储。 DNA 数据存储的现在和未来 合成生物学快讯 2019 年第 9 期 (总期第九十三期) 图 1 预计到 2020 年的全球数据存储容量供需情况(以 EB 为单位)1 为了满足大数据存储的需求,微软、IBM、Facebook、苹果等公司正在寻
5、找芯片以外的解决方案。预计到 2022 年,下一代数据存储市场价值将达到 1447.6亿美元。大自然大自然为人为人们提供了们提供了潜在的潜在的解决办法:解决办法:DNA。DNA 是所有生命调控指令/编码的存储系统。DNA 不仅丰富、可持续,其储存密度远远大于当前的数据存储介质(图 2) ,并且可以保存和访问至少几十万年。 图 2 储存 40ZB 所需的传统储存媒介与 DNA 量(以 2020 年预计的数据输出量计算) 1 Data Storage Supply and Demand Worldwide, from 2009 to 2020 (in exabytes). Statista. Re
6、trievable at: https:/ DNA 数据存储的现在和未来 合成生物学快讯 2019 年第 9 期 (总期第九十三期) 1.2 DNA 作为数据存储介质 DNA 数据存储是一个将二进制数据转换成人工合成 DNA 链的编码过程。为了在 DNA 中存储二进制数字文件,比特(bits,二进制数字)将从 1 和 0 转换成为字母 A、C、G、T。这些字母代表组成 DNA 的 4 种核苷酸:腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶。物理存储介质是一条序列中包含 As、Cs、Gs、Ts 的合成 DNA 链, 其顺序与数字文件中的 bits 对应。 如果要恢复数据, 需要对 DNA 链进行测序,根据