将书本信息写入DNA

一本用寡核苷酸写成的书籍展示了一个以DNA为基础存档和检索信息的体外系统。

DNA是一种理想的数据存储材料。它可以数千年维持稳定,当受损时仍可读取。不同于软盘,这种读写DNA数据的装置——聚合酶和核苷酸——不会很快被淘汰。

在DNA上存档信息的新一代系统刚刚通过了一个概念验证测试。一本包含53,426个单词、11张图像和一个JavaScript程序的书被编入DNA中,之后再度被成功读取。这本书是合成生物学上一份html版本的草案文本,来自哈佛大学医学院的George Church教授将这一成果发布在8月17日的《科学》(Science)杂志上。

研究的共同作者、哈佛大学维斯仿生工程研究所研究员Sriram Kosuri说研究小组没有选择经典书籍《Moby Dick,》,而是选择了教会书,这是因为它包含html标签和其他“现代格式”。

这本书被分为数个96比特(bit)数字数据组块,这些数字数据转变为了近55,000个寡核苷酸序列,用A或C表示0,G或T表示1。这种编码的灵活性意味着可以避免带有难于测序的二级结构或重复的序列。这些寡核苷酸是用96个核苷酸数据,加上供扩增和测序的侧翼序列合成,在书中用条形码显示定位,与页码和行数相似。该书现在被储存在一个试管中。阅读该书比操作Kindle电子阅读器略难。可利用侧翼区域通过PCR扩增这些寡核苷酸并测序。只利用具有适当长度和一个准确条形码的序列,研究人员重组装和解码了信息,在527万bit中只发现了10个错误。

相比较早期的DNA存储机制,这一系统的主要优点在于它是完全体外的,避免了在细菌中耗时的克隆。然而,新系统不可重写或检索。改变信息需要重新合成,且搜索需要测序。因此不要指望你的书库很快会存放在微孔板上。Kosuri说该项目主要是显示DNA如何能够被用于高密度、长期的信息存档,他将这一研究称为“思考替代存储机制的一个良好的起点。”

Kosuri解释说随着我们累积数字信息,我们需要更好的存档技术。如DNA的三维聚合物存储的信息远比表面编码数据的版式更密集。一个以DNA为基础的信息储存系统密度相比一张CD可以高10个数量级(测量为每立方毫米log­10比特)。Kosuri估计1帕字节信息(1000兆兆字节)可以被存储在不到1.5毫克的DNA中。

除提高了信息存储,这项研究之所以是开创性的是因为高级研究人员完成了工作台的工作。“这对我们是一个角色的转换,但是Church想要回到实验室,因此他完成了大部分的工作,”Kosuri说。Church说完成PCR和测序准备“就像骑自行车,它全部都回来了。”