Nature子刊:长读取测序揭秘转录本结构

  生物通 cuturl('www.ebiotrade.com')
生物通报道:短读取的RNA-seq可以精确计数已表达的转录本,但无法提供这些转录本的结构信息。日前,斯坦福大学的研究人员发表了能保留转录本结构信息的新方法,他们通过环状cDNA模板和长读取测序,实现了对转录异构体(transcript isoform)的定量和分析。这项研究发表在Nature Biotechnology杂志上。
该研究的领导者Michael Snyder教授舍弃了传统的短读取RNA测序法,利用PacBio公司提供的长读取技术来测序完整的转录本。他们在20个人体组织的混合样本中,鉴定得到了476,000个转录本序列,平均长度1 kb。生物通 cuturl('www.ebiotrade.com')
绝大多数哺乳动物的基因,不符合一基因一转录本的模式。这些基因往往存在多种剪切形式,拥有可变的转录起始/终止位点。短读取的测序技术不能提供上述信息,举例来说,短读取可以检测到发生选择性剪切的外显子,但无法判断外显子之间的结构关系,是包含在同一个转录本中还是各自独立出现。
理论上,长读取测序技术可以克服这样的限制。Snyder的研究团队构建了,由环状cDNA模板组成的SMRTbell文库,并将其用于测序。由于测序平台的读取长度实际上比这些cDNA长,该系统可以对每个碱基读取多次,沿着圆环不断进行,生成更为精确的“环化一致序列”(circular-consensus sequence CCS)。在这项研究中,平均读取长度达到7 kb,绝大多数cDNA碱基被测序了5-15次。生物通 cuturl('www.ebiotrade.com')
研究人员鉴定得到的绝大多数是全长转录本,但也并不完全。这是由于PacBio测序读长和cDNA合成效率的限制,而这两个因素都受序列长度的影响。“对1.5 kb以下的cDNA来说没什么问题,对于大部分2–2.5 kb的cDNA来说,也可以鉴定到全长,”作者写道。“更长的转录本需要参考,质量较低但更长的读取数据。”总的来说,研究人员获得了476,000个CCS,代表着476 million碱基。
研究人员将这些转录本,与GENCODE项目鉴定的mRNA进行比对,确定了约14,000个全长的转录异构体(包括编码和非编码的转录本),其中有10%是前所未见的。Snyder将这类研究比作是盲人摸象,“我们看到了更完整的图像,”他说。生物通 cuturl('www.ebiotrade.com')
这项研究中的方法可以用于RNA的结构分析和定量。不过,巴塞罗那的科学家Roderic Guigo认为,单纯从实用性和经济性考虑,这一方法主要适用于前者,因为在真实样本中为各转录异构体精确计数是很昂贵的。
麻省理工的Chris Burge教授评价道,该方法“有望在转录异构体水平全面注释基因组,揭示转录本的详细结构信息。”这项研究可以帮助人们解决一些转录本难题,例如判断相距较远的选择性外显子剪切是否相互关联。不过Burge也指出,许多人类转录本实际上超过2 kb,这一技术还有待进一步改进,以处理更长序列。