科学家发现非编码序列调控基因表达的拼图

来自瑞典卡罗琳斯卡医学院的研究人员取得了基因调控研究的突破性进展——他们识别出了结合在调控基因表达的400多个蛋白上的DNA序列,这将有助于解析为什么不同的个体基因组对疾病患病风险的影响不同。



2000年,科学家们完成了人类基因组测序,希望能将这整个人类DNA序列信息,迅速转换到临床应用上来,比如新型药物,和能判断有患病风险的个体的预测工具。

然而结果却证明这实际上比预期的更难以实现,其中的一个原因就在于基因组中只有1%的序列用于编码蛋白,其余的大部分都用于了调控这些蛋白在不同的细胞和组织中如何表达。而科学家们又不清楚哪些DNA序列能结合一些特异性蛋白,也就是转录因子,调控基因表达,因此阻挡了临床应用前进的步伐。

“基因组就像是一本用外文撰写的书,我们知道每个字母,却不理解为什么人类基因组造就出的是人,而小鼠基因组生成的是小鼠,”领导这一研究的Jussi Taipale教授表示,“为什么某些人患上常见疾病的风险更高,比如心脏病或癌症,也一直是一个迷。”

人类基因组编码约1000个转录因子,这些作用因子能特异性结合短序列DNA上,调控其它蛋白的表达。在这篇文章中,研究人员发现了结合在超过400个这样蛋白上的DNA序列,这些转录因子占据了所有人类转录因子大约一半的份额。研究人员采用了一种新方法生成数据,这种方法通过新型DNA测序仪,生成了数以百万的序列,其结果也非常精确和可靠。

此外,研究人员还将人类转录因子的结合特异性,与小鼠转录因子结合特点进行了比对,结果令研究人员感到惊讶的是,没有发现任何差别。

研究人员认为,这些结果表明人类和小鼠的基因表达基本机器十分相似,转录因子的差别并不会引起其大小和形状上的变化,而是由这些结合其上的特异性序列的存在或缺失,造成差别。

“总的来说,这项研究取得了基因表达调控研究的突破性进展,朝着解码基因表达密码迈进了一大步,也为全球的科学家们进一步了解整个人类基因组的功能,提供了非常宝贵的资源”,Taipale教授说,“这项成果提高了我们理解基因组的能力,也有助于将基因组信息应用到临床上去。”