全新测序技术大盘点

在去年召开的美国微生物学会上,来自明斯特大学的医学微生物学家Dag Harmsen开始听到了有关德国大肠杆菌疫情爆发的传言,这场疫情首先在德国北部地区爆发,感染了至少4000人,夺去了超过50人的生命(德国范围内),在德国以外的欧洲地区也发现了76名患者。

Harmsen教授在这场疫情中发挥了重要的作用——他们通过将引发此次疫情的O104:H4型肠出血性大肠杆菌与2001年采集自一名溶血性尿毒症(HUS)体内的O104:H4型肠出血性大肠杆菌进行基因对比后,发现,两种菌株并非同源,引起此次德国EHEC暴发的O104:H4菌株来自一种肠聚集性大肠杆菌EAEC O104:H4 55989菌株的变异,其中还掺杂了一种目前未知的由志贺毒素产生的O104:H4菌株。

在这一场“战役”中,Harmsen教授主要采用的就是新一代测序技术,他说,“至今,新一代测序技术已经遍布全球上百个基因组测序中心”。并且随着更多更新技术的发展,未来新一代测序技术将发展出下下一代创新技术,为基础科学与临床治疗提供越来越完善的帮助。近期The Scientist杂志就以“Sons of Next Gen”为题,介绍了目前值得关注的各种新技术。

压缩数据

各种新型测序技术为我们实验带来了高通量测序的方法,为生物医学研究提供了更加广阔的研究思路,但是这些新技术也导致了一个日益严重的问题——如何处理这些数据。即使是对于更传统的新一代测序技术,也需要将数据外包给某些基因组研究中心,然后兆兆级别(terabytes)的测序数据又被返回到原实验室。

“对于许多生物学家而言,这是第一次他们需要处理如此大数据量的数据”,来自英国欧洲生物信息学研究所的生物信息学家Ewan Birney说,Birney加入了美国政府主持的国家生物技术信息中心,后者旨在获取来自全球的测序数据。

一些研究团队发展了一些新方法制止数据膨胀,比如Birney和他的同事就研发了一种能比标准压缩方法小5-50倍,来压缩数据信息的运算方法。这一系统基于图像和视频压缩方法(就像是YouTube,或者卫星电视),并利用了测序数据高度冗余的特点。

这种算法能将每次阅读与参考数据进行比对,然后标记出两者的差别,忽视那些相同的地方,比如说,在一个新完成的人类基因组序列中,与参考人类基因组相比,只有10,000个碱基对分之一存在差异,这样大部分的数据可以忽略不计。

制药公司和生物技术公司也在加紧开发基因测序数据共享框架,许多公司还参与了一个非盈利组织:Pistoia Alliance,这一组织创始人Nick Lynch 说,Pistoia Alliance就是希望能完成基因测序数据共享框架。

去年11月,这一组织宣布了Sequence Squeeze挑战,团队成员以竞争的方式,力求最短时间内将一个参考序列压缩至最小尺寸。这吸引了许多处理大量研究数据的研究人员,比如计算机科学家,还有天体物理学家,利用他们的知识来解决测序难题。

得胜者是来自Sanger研究院的James Bonfield,他能将原始序列压缩至一个非常小的大小,而且压缩和解压的过程时间都很短。“我们希望(这一技术)能在全球应用,成为数据处理的一种方法”,Lynch说。



单分子测序

Pacific Biosciences公司在2011年4月向市场推出了他们的一款全新产品:the Single Molecule Real Time (SMRT) 测序仪,这一款仪器与传统测序仪一样,也是依赖于荧光标记核苷酸,但是有一点却不同——SMRT一次只聚焦于一个分子,消减了耗时的扩增步骤。

Pacific Biosciences首席科学家Eric Schadt解释道,这一系统能在15万个小孔(小孔直径为几十纳米,蚀刻于一种铝薄膜上)中捕获单个DNA分子,以及一个DNA聚合酶,然后将四种荧光基团标记的核苷酸加在上面。当DNA聚合酶将核苷酸加到序列上的时候,利用两种不同波长的激光束扫描每个小孔,与增长DNA链匹配的核苷酸就发出荧光,这时精密的成像仪器就能从光激发颜色中识别出加入DNA链的特殊核苷酸。“这样你就能确实观察到DNA的一个单分子”,Schadt说。

SMRT无需仔细调整多个DNA片段序列——由于错误积累,逐渐导致非同步,就可以阅读非常长的片段,平均可超过3000个碱基对,甚至达到上万个碱基对。而传统的测序方法只能达到35-400个碱基对的读长。

这种测序能力对于来自加州大学戴维斯分校的遗传学家:西蒙·陈(Simon Chan)来说意义重大,他希望能搞清楚端粒中重复的,迅速进化的DNA是否参与了形态变化。在此前一项研究中,陈博士分析了不同类型序列模式,追踪了新重复重组出现的时间,但是由于每个序列都很相似,因此很难见短DNA片段,精确组装成正确序列,陈博士说,“现在我们采用了长读长测序,更全面的了解了这些序列,解决了问题。”

但是SMRT的价格并不亲民,比较高,这就意味着只有少数几个大型测序中心能买得起。而且这种仪器的错误率也相对比较高,来自Warp Drive Bio的Keith Robison说,“一个run大约会出现15%”,他分析过几种测序仪的数据。不过由于出错是随机出现的,而SMRT读长很长,因此可以将DNA片段前后相连,多做几次获得比较精确的结果,他表示。

Robison认为这种仪器最有利的应用是在单体型分析方面,因为这种研究需要很长读长,或者从头测序,而且发生小错误也无关紧要。

无需光的测序

Ion Torrent PGM速度和合适价格标签的关键在于,这种测序仪无需传统二代测序技术苛刻复杂的光学要求。之前的一些测序仪,比如Illumina的HiSeq,需要荧光标记核苷酸进行DNA片段测序,这些系统利用DNA聚合酶构建新链,通过激光发生器激发荧光标记核苷酸,采用精密光学原理,检测信号识别碱基。 相比之下,Ion PGM优势在于利用了DNA合成过程中,DNA聚合酶添加核苷酸时释放的氢离子,因此能进行多达百万,或者更多微孔的DNA扩增片段检测,然后用四种核苷酸按先后顺序覆盖测序板——先是As,然后是Gs,Ts,最后是Cs。

如果DNA模板序列上互补核苷酸组装了上去,就说明序列正确,就会释放出一个氢离子,通过一个pH感应器就能检测到,研究人员利用一个半导体感应器就能捕获这种电压变化,解析序列。每个核苷酸阅读过程几秒钟就能完成,并且不会受到光学系统的干扰,因此这种测序仪更加便宜,也更有效,Life Technologies市场营销和业务发展副总裁Maneesh Jain说。

为了能让成本降低,Life Technologies也在一些生产消费性电子产品的加工厂制造芯片,“这就像是电子产品中的Xbox”,Jain说。

据称,Ion PGM测序仪由于其简捷、扩展和快速的特性,应用范围非常广泛,是多个应用的理想解决方案。目前可进行微生物和病毒Deovo测序、微生物和病毒重测序、扩增子测序、靶向测序、micro RNA和small RNA测序、甲基化测序、CNV检测和定量、全基因组测序或者全外显子组测序验证、条形码文库、末端配对测序、线粒体测序、文库质控、ChIP-Seq、RNA-Seq、mate-paired 测序。

今年一月,Ion Torrent系列产品又推出了一个更强大的产品:Ion Proton,这款Ion PGM的升级版的测序仪能在一天内完成人类基因组的测序,成本约为1000美元。

不过Ion Torrent也存在局限性,这种仪器在处理重复序列长片段时,可能会出错,来自Warp Drive Bio的Keith Robison说,他分析了几种测序仪的数据,他认为由此Ion Torrent很难识别出癌症基因组中的插入片段,或者删除片段,这个仪器最好应用于速度和成本为关键因素的实验。



纳米-纳米

这是一种与扩增,光学检测无关的技术,来自英国的Oxford Nanopore公司最新研发了一种称为 GridION的测序仪,这个测序系统由数个充满可任意使用的测试盒(cartridge)的节点构成,每个盒内又包含了多个纳米孔。每个GridION 的节点和测试盒,最初的设计规模都是每天传输万兆字节的数据量。一开始,公司为每个盒内配备2000个纳米孔,但最后还是采用了20个节点,8000个纳米孔的配置,这样才有可能在15分钟内完整传输一个人的基因。

这个系统采用外切酶测序。基于“芯片上的实验室”技术,将多个电子元件整合进一个支架状的装置。一个蛋白纳米孔整合进磷脂双分子层,位于微池顶部,并配有电极。许多微池被整合入一个阵列芯片,每个模块控制一个芯片,整合包括用于样品制备、检测和分析的液体流动和电子系统。样品被引入模块,这个模块插入一个叫GridION节点的装置。

每个节点可以单独使用也可以成簇使用,所有节点间可以实时互相沟通、可以同用户的网络系统和存储系统进行沟通。虽然该平台的主要用于DNA测序,但它也可以进行调整(对α溶血素蛋白纳米孔进行适当调整)而用于蛋白质和小分子的检测。