美科学家设计出一款软件可预测基因组调控区域

来自约翰霍普金斯大学的研究人员成功教会了计算机如何去识别用以调控基因活性的DNA序列的共同点,并利用这些共同点预测基因组中的其它调控区域,这种新工具能帮助科学家们更好地了解疾病风险和细胞发育。这些研究成果公布在Genome Research杂志是两篇论文中。



美科学家设计出一款软件可预测基因组调控区域

“我们的目的是分析调控信息如何加密的,并了解哪些序列变化会导致疾病风险,“约翰霍普金斯大学的分子和比较病理学副教授Andrew McCallion说,“我们给计算机加入了一些数据,‘教’它们区分不具有生物学价值,和具有生物学价值的数据,然后建立一套规则,让计算机分析新数据,基本上我们就是让计算机上了一次课。“

这种先进的”机器学习“技术是由约翰霍普金斯大学医学院的生化工程助理教授Michael Beer,以及生物技术信息国家实验室的Ivan Ovcharenko联合研发出来的,他们最初是想为他们的计算机设置一种”训练集“(training sets),以便这些机器学习,这种训练集就是来自基因组中称为增强子的DNA序列——增强子能增加特异性细胞中某些基因的活性。

在第一篇文章中,McCallion研究组构建了一种包含大脑特殊区域的增强子序列的训练数据集,这些序列包含有211个已公开的,来自小鼠和斑马鱼不同研究中的增强子序列,它们在大脑的发育或行使功能等方面发挥作用。

而第二项研究中,这一研究组又根据他们自己的经验构建了另外一套训练数据集,最初是一些小鼠纯黑色素细胞,这些皮肤细胞能产生黑色素,改变皮肤的颜色,阻止太阳光的紫外线伤害。研究人员利用ChIP-seq技术,通过增强子结合蛋白,收集并测序了这些细胞中的所有的DNA片段,获得了大约包含2,500个假设黑色素细胞增强子序列的列表。

一旦研究人员有了这两个训练数据集——其中一个具有大脑特异性,另外一个具有黑色素细胞特异性,就能令计算机区分训练序列特征与基因组中所有其他序列特征,创建识别不同序列的规则。在整个基因组中应用这种规则,计算机就能发现上千对可能的大脑或者黑色素细胞增强子序列。

在其中针对大脑的研究中,计算机共找到了40,000个可能的增强子序列,而在另外的黑色素细胞研究中,计算机找到了7,500个这样的序列,研究人员随机检查了每个批次序列中的一个亚组,发现超过85%的预测增强子序列确实可以增强大脑或者黑色素细胞中的基因活性,验证了这种方法。

研究人员说,除了能识别调控某一器官或者细胞类型遗传活性的特殊DNA序列,而且这些方法还有助于我们整体解析增强子,同时应用到其它方面的研究中。