Nat Rev Gene:占用与序列的复杂性

近日,刊登在国际著名评论杂志Nature Reviews Genetics上的研究指出,基因组非编码区域的变化越来越多地被涉及到复杂性状间的个体差异,包括疾病易感性,然而阐释非编码变化的功能效应却是一项特殊的挑战。最近发表的两篇论文系统地研究了SNP对于转录因子结合的影响,从而表明尽管序列与结合之间的一些趋势正如预期的那样,但预测特定SNP的效应将是很困难的。

通过对源自跨越3代人的一个家族的12位成员的淋巴母细胞系进行测序(ChIP–seq),以及进行染色质免疫沉淀反应,Maurano等人对转录调节因子CTCF的结合位点进行了绘制。他们随后对间隔环绕每一个结合位点134bp的区域进行了定向测序,从而使他们拥有了总数超过35,000个CTCF结合位点的高分辨率的基因型和ChIP数据。在这些位点中,有21%至少与一个SNP重叠,使得他们能够探索SNP与位点占用之间的关系。总的来说,5.6%的多态性结合位点具有一个与CTCF占用有关的SNP基因型显著相关性,并且像预期的那样,影响占用的SNP中有85%位于44bp区域的范围之内,在这里CTCF能够在其结合位点与DNA进行接触。

然而,应当指出,蛋白质—DNA交互区域的大部分SNP并不会影响占用,甚至在CTCF结合主题的核心14bp中,也只有36%的SNP会影响占用。此外,在不同基因组结合位点位置中的单核苷酸变体在相同的结合位点位置对于蛋白质占用具有不同的影响,这取决于它们环境。这些发现表明了SNP效应的一个缓冲作用。缓冲作用的范围似乎取决于结合位点的强度(更强的主题会缓冲除了非常具有破坏性的变化之外的所有变化)以及序列的前后关系。例如,核心CTCF主题中位置1上的SNP对占用具有的影响均在位置5的一个腺嘌呤的背景下。

在第二项研究中,Reddy等人利用了来自一个个体(对他们而言,父母的基因组也可用)的一个淋巴母细胞系的ChIP–seq和重新测序数据,并且他们着眼于一个24个转录因子组。观察到的模式与CTCF相类似:13%的转录因子占用区域是多态性的,并且5.5%的杂合多态性位点在转录因子占用上表现出了等位基因差异。然而,在已知转录因子结合主题中的变体只能解释12%的等位基因占用差别案例。这些作者还分析了等位基因表达数据周边的占用数据,进而发现一个转录起始位点的100bp之内的占用的表达可以高度预测;与表达有关的一些占用在一些更遥远的位点中被发现,但是长距离效应更弱且更难预测。