垃圾DNA与信息生物学

金秋九月,两群科学家——一群天文学家和一群生物学家,他们之中多数是物理学出身,具有很强的物理学背景——聚会呼和浩特,纪念爱因斯坦,纵论当代自然科学问题。爱因斯坦是天才的幸运儿,他生活在物理学需要改写的年代,以太风和黑体辐射两朵乌云遮拦着这个年轻人的视线,激发了他敏锐而深刻的科学思考。他成功地改变了因袭几百年的关于自然的观念,改写了物理学的历史。100年过去了,类似的两朵乌云——宇宙暗能量和垃圾DNA(junk DNA)问题又呈现在人们眼前。这是牵动着多学科、矛盾极为尖锐、将会引发科学革命的自然科学基本问题。有谁能说,对于有志于科学的青年,这不是一次类似百年前那两朵乌云一样的巨大机会呢?


    暗能量和垃圾DNA

    宇宙中的物质和能量分布为:可探测到的普通物质仅占约4%,暗物质约占 23%,暗能量约占 73%。最奇怪的是,占据宇宙能量大部分的竟是暗能量。1998年美国两个观测组发现了宇宙加速膨胀,这意味着存在某种与已知作用力完全不相容的“万有斥力”。这部分能量称为暗能量。引入暗能量还能对宇宙学中很多困难问题,如宇宙年龄问题等给出合理的解释。这种能量的本质是什么?它可能代表宇宙的真空能量密度,也可能还存在某种崭新的场,对此,科学家仍感到茫然,这是第一朵乌云。

    原核生物(如大肠杆菌)基因组的DNA序列约88%编码蛋白质,约1%编码稳定RNA,但高等生物的情况完全不同。随着人类基因组测序的完成,已经知道编码蛋白质的外显子仅占基因组的1%,内含子占24%,基因间的DNA序列占22%,重复序列占53%;重复序列中可移动重复序列(转座子)占45%,简单重复序列占3%,大重复片段占5%。在99%的非编码序列中,内含子被认为只是大自然为加速基因进化而引进的一种把戏,是插在基因中外显子间的噪声;基因间序列中只有很少部分被确认为与基因表达调控有关,剩下绝大部分也是无功能的废物或垃圾(junk)。大量重复序列被认为来源于“自私的”基因的高复制能力,完全是中性进化中产生的“junk”。为什么高等生物的遗传物质中有高达90%以上的“垃圾”?对比低等生物,这个矛盾显得更加尖锐。这是悬在当代科学晴空中的第二朵乌云。

    宇宙中竟有三分之二以上的物质是前所未知的暗能量,约四分之一是性质奇特的暗物质;人的生命中竟有90%以上的遗传物质是没有或未知功能的垃圾DNA。两朵乌云如此相像!这是对人类求知欲的巨大挑战。一个谈“天”,一个论“人”。一个是物质和能量,一个是信息。两朵乌云的同时出现意味着两个基本学科的巨大发展机遇,意味着需要从一个新的更高的角度来审视这些问题。本文仅就垃圾DNA问题发表管见。

    是垃圾,还是宝库?

    1950年代末1960年代初开始阐明低等生物的基因结构时,乍一看情况井井有条,但随着研究工作的深入,发现基因组结构具有愈来愈高的复杂性,这些复杂性很多来自于中性突变,以及基因为获得生存所作的努力。高等生物的基因组90%以上都是非编码序列,是中性或近中性进化中产生的“垃圾”。近两三年,科学界对垃圾DNA的讨论日益增多,各种观点层出不穷,人们开始重新审视这些“垃圾”,发现它们并非垃圾,而是宝物。

    例证之一,可移动重复序列具有整合到基因组新位点的能力,特别是其中的逆转录转座子,它们在基因组中的数量随进化而增加,在低等真核生物中只有3%以下,而在哺乳动物中几乎占一半。其中一个叫做L1序列的转座子,大约每50个人基因组中就有一个新的L1序列插入,它具有修复双链DNA的功能,可帮助它前后的基因移动并插入到基因组其他位置,可通过它包含的反义启动子改变基因的表达,还能变成编码蛋白质的基因序列的一部分(L1存在于200 ~ 2 400个编码蛋白质的基因中)。Alu序列是另一个逆转录转座子,其300碱基对的重复单元以140万份拷贝散乱地分布在人类基因组中,它们大约是在4 000万年前大批进入基因组的,至少有20种人类遗传病与Alu序列的插入有关。最近发现Alu序列的外显子化可导致可变剪接,编码更多种类的蛋白质。这些都说明重复序列尽管是在中性进化中产生的,但后来还可能获得功能。功能本来就是一个动态的概念,那些在进化过程中被保留下来的重复序列很可能与后来获得的功能有关。脊椎动物基因组的快速进化动用了可移动重复序列,这些移动元素变成了基因进化的推动者。

    例证之二,人类基因组中有很多保守的非基因序列,它们在从鸭嘴兽到人的十余种哺乳动物中高度保守,比编码蛋白质的基因序列和非编码的RNA序列更保守,并具有不同于后两者的独立的信息学特征,且数量之多惊人,估计人类基因组中有6万个,几乎是编码蛋白质基因数的2倍。在5′端和3′端非翻译区,特别是5′端非翻译区中,普遍存在着这类保守的非基因序列。尽管它们的功能还不清楚,但从此类序列的物种保守性可以估计它们编码了某些功能元素。

    例证之三,非编码RNA中RNA干涉和微RNA在2001和2002年连续被评为十大科技新闻之首。微RNA(miRNA)和小干涉RNA(siRNA)性质相像,都是长约22核苷酸的小RNA,miRNA通过调节内源基因表达,对生物体的正常生长进行调节;siRNA是外源基因诱导下RNA干涉过程中形成的中间体,介导基因沉默,是基因组免疫系统的重要组成部分。两者都是通过与靶基因配对来抑制翻译过程,但前者部分互补于3′端非翻译区,后者完全互补于靶基因,并切断之。siRNA可能在进化早期已有,由于抑制过于彻底,导致调节不可逆,在进化过程中产生miRNA来代替它,它们对基因组的功能都极为重要。