图注:MyHeritage首席科学家、哥伦比亚大学副教授Yaniv Erlich
整理 | 胡巍巍
2007年10月,有媒体引用一个家谱网站的调查报告指出,当时正参加总统选举的奥巴马,不仅与时任美国副总统理查德·布鲁斯·切尼 (Richard Bruce Cheney)是远房表亲,而且还是小布什的远房亲戚。
新闻爆出后,该家谱网站迅速走红。其中,家谱和DNA检测服务网站MyHeritage.com,通过一系列收购活动,成为坐拥全球最大族谱数据库的最热门家族社交网络平台。
截至目前,该平台已拥有1.05亿用户、35亿份个人/家族档案以及4700万家庭族谱,并且正在为用户提供消费级基因检测服务。
作为MyHeritage.com首席科学家Yaniv Erlich博士,在基因隐私与众包基因组数据领域的基础研究工作方面,做出了巨大贡献,他曾因发现公开基因数据中存在的隐私漏洞被《自然》杂志(Nature)称为“基因黑客(Genome Hacker)”。此外,他还创建了包含1300万人口的家谱,是目前史上最大的谱系图。
那么,我们到底可以通过基因数据,了解到哪些信息?我们可以拿这些信息,做些什么?以及还有哪些潜在的应用?近日,Erlich博士在EmTech China 2019全球新兴技术峰会上,用演讲回答了上述问题。
以下为CSDN在不改变原意的基础上,整理的Erlich博士的演讲实录。
二战犹太人大*中,一些犹太人储存了很多信息。他们担心纳粹会把这些信息都毁掉,于是就把这些信息储存到奶罐中。现在,储存犹太人信息的奶罐,已经被发现,并已经成为联合国教科文组织的文化遗产。
我们不一定要像007一样,去隐藏信息。但在特定条件下,为了特殊的目的,我们需要隐藏一些信息。在未来,我们不光会把信息储存到DNA上,我们还可以在DNA上、在内存上做一些计算。目前,我们已经有一些实时设备,可以做到直接做计算。
在过去70年中,各行各业在不断地快速发展。在20世纪50年代,你需要6个身强力壮的人,去推这个大箱子。而现在,智能手机的芯片,已经可以搭载巨量信息。再也不像以前那样,需要很多人来推动巨大设备。
当然,我们仍面临很多挑战,尤其是在数据存储方面。我们不再像以前那样,可以享受狂欢。现在存储的量和成本,是在不断变化的。当下有很多不同创新的方法,这些办法使存储成本,每年可以降低30%。
从2010年开始,创新速度在变缓。主要原因是,我们很难把这些设备的成本变得更优。
另外一个原因,是因为数字技术的演进。有时,每一个设备搭建的架构都不一样。可能每搭建一个架构,你就需要做一次数据和技术的迁移。
20世纪70年代,人们会用光碟来看电影,但是同样的光碟,因为格式不对、或者硬件不支持,已经无法被今天的设备读取。
有什么办法,可以让信息永远存储?DNA可以。
DNA已经存在35亿年,未来也将继续存在。
DNA也是任何物质的组成部分。所以,人类可以借助DNA的力量。
可以说,DNA才是人类真正的存储技术。
几年前,MyHeritage.com网站计算了所有DNA承载的信息,包括你早上喝的牛奶、吃的米饭。
你每一天经历的物品,都属于生物圈中的一个成分。通过计算,MyHeritage.com网站发现,一共有10的37次方字节的DNA,存在于人类生物圈中。
目前,人类电脑上所存储的信息,是这个数字再乘上10的12次方。人类电脑存储的所有信息,和所有DNA承载的信息之间的距离,就好比地球到月球的距离。
以乐高积木为例,它可能需要很大密度,才能存储一比特信息。但是,在这么小的存储单位上,我们是不是可以思考一下,到底可以存储多少个DNA的核苷酸?计算结果显示,加起来一共有2万比特数据。
这样一来,存储相同的信息量,DNA可以存储更多信息条目。
再以一个90年代的光盘为例,这上面的擦痕非常明显,而且没有办法修复。同样的,任何数字技术,都存在这样的问题。一般经过10年,硬件损毁会让你没有办法读取信息。
而DNA就比较稳健,哪怕你发掘出一个几千年前的残骸,都可以通过DNA,来了解当时的情况。
所以,DNA是不是可以存储信息?但怎么去打造基于这种DNA的文件呢?其实,每一个文件都是一个序列,不管是文本文件、还是歌曲,都可以用这种形式存储。
MyHeritage.com网站有一个非常复杂的纠错代码,对于0和1,我们有很多对应代码,比如00,它可能是一个字母,在实验室当中我们可以看到,如果是00我们就写A,01我们就写C,等等。
现在我们有了ACGNT组成的文本,把它放到DNA的融合器当中,它自己就可以生成这样的信息。
DNA其实也是一个序列,它是ACGTN几种不同的组合,目前这种数字文件,能读取出不同的子节。我们可以给每一个字母赋值,比如A是00、C是01。这样就可以通过二进制,来描述这个DNA的编码。
我们还可以利用合成化学技术,做到这一点。其中一个方法,是用喷墨式打印机,它其实有不同喷墨针,你把ACTNG放到喷头上后,它就可以利用一些化学物质来打印,并生成一个DNA序列。
最终结果是,我们可以拿到一个像试管一样、以液体形式存在的物品。如果你想读取的话,就可以把其放到一个序列仪上,通过这个序列仪,来读取存储的数据。
现在DNA的合成,实际上要比磁带的生产成本高很多,所以我们还要做更多创新,我们要想到三个潜在应用,它们分别是:
1、带有DNA的物件,这是和我们传统的储存设备不同的地方。
2、DNA上计算。这是另外一个优势,我们不需要像传统储存设备一样,只需要在其它地方做存储就可以。
3、我们可以做一个集中式的存储设备。有了一个存储设备后,然后再把它扩大起来。可能生成第一管的DNA是很贵的,但PCR(聚合酶链式反应)是非常便宜的,我们只需要把PCR的反应,放到数据中心当中,它就可以不断的拓展,而且整个过程非常安全,这就是我可以想到的一些应用场景。
我的团队用一个计算机操作系统,读取了一个早年的电影,我们把所有的数据,都放在小试管中。这样,DNA就存在于小的试管当中,你可以通过测序仪去读取它。
当然,这个技术有一个缺点,每当你想读取这个文件时,就需要提取出液体中的一部分。如果你想更多次地进行测序,最终样本量会越来越少。
打个比方,把你喜欢的一首歌的信息,存储在DNA上,如果你一直在测序,最后这个片段剩得越来越少。而人体细胞,可以不断进行DNA复制,我们可以通过PCR做一个类似的扩增,这样就可以把问题解决掉。
通过DNA扩增,它可以引入更多重复操作。为了减少错误,就得有很好的机制,在以上重复过程中不断去纠错。在一个试管当中,可能有300个这样的文件,然后我们拿出这个文件,进行放大和复制。如果每一次它都可以向下再去延伸三次,基本上来说,它就可以无限复制。
然后,我们会再看一下,这个文件能不能被正确读取信息。并且拷贝后的信息和原始信息,没有任何差别。MyHeritage.com有非常好的纠错代码,虽然在复制过程中会出现错误,但仍可以很好地把错误纠正过来。
另外,MyHeritage.com做了一个实验,希望看一下在DNA当中的信息密度,可以达到多少,以及一个DNA最多可以储存多少比特的信息。
为了这个实验,我们拿了一只试管,每次我们拿出一滴后,都会把它稀释成过去的1/10,然后我们再拿一滴,再去稀释它,再拿一滴,再去不停的稀释,一直在重复,直到我们没有办法再从一滴液体中,读取到任何信息为止。
最后得到的结论是,在每一个DNA上,最大的密度是,上面可以有125艾字节(exabytes)的信息。可以想象,假如一个几百平的房间里,全都是笔记本电脑的话,所有这些信息,都可以储存到一个DNA上。
人类所创造的数据总量,是10到24次方。我们只需10吨的DNA,就可以储存我们包含电影和微信聊天记录在内的人类创造出的所有数字信息,而这些DNA可以被直接放在一个大卡车上。
传统的存储设备,都有一定形状的限制。我们可以想象一下CD光盘,我们叫它光盘,是因为它是圆的,你没有办法把它的形状改变。再比如说胶卷,如果把它弄坏了,信息就没了。再比如说硬盘,我们把它叫做硬盘,是因为它就是硬的,你没有办法去掰它,你也没有办法改变它的形状。
但是,DNA是一种业态的信息储存方式,它是液体,它的排列顺序,没有特定要求。
那么,为什么我们不能使用这样的技术、使用材料把它填充进来,把它做成一个物品,然后在里面,放有存储信息的DNA呢?
答案是可以的。比如说,我们有一个文件想要储藏,同样的文件我们会把它转化成DNA,就像我们把数据转化成DNA一样。这次,我们不再把它放到试管里,而是把它放到很小的硅珠中。然后,我们通过胶囊的形式把它封住,再把这些小珠放到我们的聚合物里面,比如说塑料。最后,我们再把塑料,按照想要的方式,把它做成想要的东西或者是形状。
以这个镜片为例,它当中就有硅珠,硅珠里面有DNA,DNA里面有电影。如果你想看电影,你只需要从里面,剥出一小点硅珠,把它解析后,就可以看电影了。
如果把左边和右边的镜片进行比较,可以看到它是完全透明的,左边是没有硅珠的,右边的是有硅珠的。所以,我们可以把它做成非常常见的东西,比如你可以在硅珠中,存储一些个人信息、敏感信息。你戴上这幅眼镜,根本没有人会注意到有什么不同寻常的地方。
我手上的这个小兔子,是3D打印的,它不是一个一般的兔子,因为这个兔子里有DNA。这个DNA里,写有如何打印这个兔子的3D打印指令。想象一下,这个小兔子里有生产它的具体指令和硅珠,而硅珠里有DNA信息。这个DNA信息,就是如何制造这个小兔子的生产信息,我们只需把这个小秃子的耳朵折下一点,然后读取DNA信息并进行复制,就可以生产新的小兔子。
这是一件非常酷的事情,因为这些新生产的兔子,也有DNA,所以我们就像兔子繁殖一样,不断地复制小兔子。
通过测试,我们生产6代这样的兔子。生产最后一代时,我们等了9个月,才生产出最后一个兔子。9个月之后,我们还是能从最后生产的兔子里,去提取到最原始的信息。
所以,我们可以生产10的20次方的小兔子,同时不会丢失任何信息。我们从小兔子开始,把它转化成为DNA序列,把它放到试管当中。然后进行不断地放大和拓展,进而获得更多DNA。再接着,把它封到硅珠当中,然后再把硅小球,放到聚合物当中,最后把这些聚合物,放到3D打印机里面,从而打印出兔子。
如果你想要读取数据,你只需从小兔子的耳朵上,割下一小块,把塑料稀释开之后,就可以拿出里面的DNA。
然后,你只需要一个DNA测序仪,就能把这里面的信息解析出来,最终你就能拿到数据、做解码,并能收获兔子生产的指令。
那么,物联DNA有着怎样的应用?我们可以把各种各样材料的生产方式,放到材料本身。比如,我们可以在植入物中,放上病人的医疗信息。
比如说,等到植入物植入20年之后,那时病人的病例,可能已经没了,我们只需要从病人身上拿出植入物,并从里面提取信息就可以。
我们也可以用这种方式,来生产各种各样车部件,如果说汽车有什么部件损坏了,我们只需要从这上面,刮下来一点东西,就可以生产出同样的部件。
另一个应用,是隐藏信息。我们可以把一些常见的东西或者物件,当做隐藏信息的东西,比如鞋带、镜片、衬衣或者是扣子,都可以帮助我们来储存和隐藏信息。我们甚至可以通过喝饮料的方式,把硅小球通过饮料的形式,喝到肚子里面,等到需要时,我们再把它排泄出来。
还有一个应用,是我们自复制的机器人。对于自复制机器人,它们需要有能力把自己的生产方式,自动传递给下一代机器人。而我们的技术,可以帮助满足这种标准和要求。
最后总结一下,我们最近刚在Natural Biotic期刊上,发布了这个文章。
最后总结一下,DNA很有可能是人类终极的储存设备。它的存储密度,要比我们其它的存储技术都要高,而且它会更加持久,我们只要使用一个一般的DNA测序仪,就可以把信息解析出来。
因为我们没有任何材料、或者形状上的限制,所以我们可以把DNA,注入到常见物件当中。作为技术来讲,我觉得它是非常酷的,但是它距离上市好像还有一定的距离,首先DNA合成是非常昂贵的。它非常昂贵,是因为DNA合成这项技术本身,是为了生物医药而创造的。