钱书兵PNAS解码基因组的新技术

尽管10多年前科学家们就对整个人类基因组进行了测序,了解所有这些基因编码的蛋白质还有许多工作要做。发表在8月27日《美国科学院院刊》(PNAS)上的一项研究介绍了一种新方法,可使研究人员通过了解基因开始编码多肽(构成蛋白质的氨基酸长链)的位置来对基因组进行解码。

论文的资深作者、康奈尔大学营养科学助理教授钱书兵(Shu-Bing Qian)说:“解码基因组的关键是确切地了解基因从何处开始编码多肽。如果我们知道它们从何处开始,那么我们就能基于基因序列预测它们生成什么蛋白质。”

基因序列是由四种核苷酸——腺苷(A)、胞苷(C)、鸟苷(G)和胸苷(T)构成,但密码子是由三个连续的核苷酸排列而成。问题在于,根据开始读取密码子的位点,一段DNA可以生成不同的基因产物。

新方法利用了核糖体,译码信使RNA(mRNA)的翻译机器,它携带着来自DNA的编码信息,并将这些密码翻译为蛋白质的构成元件——氨基酸链。

当翻译mRNA时,起始位置的核糖体内部有一个空间。钱书兵及同事们利用一种特异的化合物填补这一空间,并冻结了核糖体。这使得研究人员能够精确定位基因开始编码多肽的位点。他们然后利用这一信息预测序列生成了什么蛋白质。

通过采用这种方法,研究人员发现相同的mRNA可以具有多个起始位点,因而导致生成了不同的蛋白。

“大约50%的mRNA有超过1个起始位点,”钱书兵说。这样,一个有限的基因组可以具有多种可能性,这取决于基因上起始位点存在的位置。例如,如果它存在于基因序列的较后,它可能会编码较短或完全不同的蛋白。

在转录过程中,mRNA用尿嘧啶(U)替代DNA中的T。“通常所有已知的翻译起始位点是AUG,但是我们发现了其他的密码子。例如CUG也能作为起始位点,”钱书兵说。这一研究发现将重写关于基因和它们编码起始位点的常规认识。

这些结果表明可通过单一基因表达的全部蛋白质比原来所认为的更为多样。此外,由于这一替代性的译码过程,预测一种基因可能编码什么蛋白或许更具挑战性。

该技术还可用于检测病毒的基因组,众所周知其劫持了细胞的翻译机器来生成新的病毒。

“病毒常常利用这一替代性翻译来使它们有限的基因组序列编码生成病毒蛋白的能力达到最大化,”钱书兵说。这种方法有可能发现新的病毒蛋白,他补充说。