小中大【转帖】如何使用NCBI寻找所需基因的信息
今天在应助以为战友的问题时觉得有必要把自己在人类基因缺陷疾病基因诊断过程中积累的经验跟大家分享和交流。撰写此贴,以便大家互相学习、讨论。
就以白仁战友应助的CCR9基因为例。
(一)如何寻找基因信息
首先,打开NCBI网页cuturl('http://www.ncbi.nlm.nih.gov/pubmed/'),选择"gene",输入您要的基因名称(可简写),如CCR9,搜索;
然后,选择种属,如homo sapiens,点击进入,cuturl('http://www.ncbi.nlm.nih.gov/gene/10803');
然后,使劲往下拉网页,在"NCBI Reference sequence (Refseq)"下方,
NG_029472.1就是该基因的genomic DNA序列号,
NM_001256369.1就是异构体B的mRNA序列号,而NP_001243298.1就是NM_001256369.1相应的氨基酸序列号,
同理,NM_031200.2 → NP_112477.1分别是异构体A的mRNA和氨基酸序列号。
点击进入相应页面就会出现详细的外显子、编码序列等信息。
(二)如何选择目前公认的mRNA序列号?
在这儿推荐一个网站:mutation@glance,cuturl('http://rapid.rcai.riken.jp/mutation/')(您只能在google搜索中才能快速搜到,百度是搜不到的)。
输入您查找的基因,如CCR9,"submit"提交,便会出现CCR9的相应界面,Reference sequence: NM_031200.2这里所显示的就是公认的序列号。
这样您参照的序列号对了,您设计引物、基因突变的命名及表述才是对的,发文章时才不会错。(基因突变命名也是一个系统,可以到NCBI上下载相关文献)。
另外,这一网站也提供了目前文献报道的已知的突变位点和SNP位点。非常好用。
(三)如何看懂mRNA的相关信息?
选好公认的mRNA序列号后,我们就可以利用其序列设计引物了。
以CCR9的公认序列号NM_031200.2 为例。
1. source 中map=map="3p21.3"是指此基因位于3号染色体短臂(p)2带1区3亚区;
2. gene 1..2567 表示CCR9 mRNA长度2567bp;
3. "CDS" 为mRNA编码氨基酸的序列:
translation="MTPTDFTSPIPNMADDYGSESTSSMEDYVNFNFTDFYCEKNNVRQFASHFLPPLYWLVFIVGALGNSLVILVYWYCTRVKTMTDMFLLNLAIADLLFLVTLPFWAIAAADQWKFQTFMCKVVNSMYKMNFYSCVLLIMCISVDRYIAIAQAMRAHTWREKRLLYSKMVCFTIWVLAAALCIPEILYSQIKEESGIAICTMVYPSDESTKLKSAVLTLKVILGFFLPFVVMACCYTIIIHTLIQAKKSSKHKALKVTITVLTVFVLSQFPYNCILLVQTIDAYAMFISNCAVSTNIDICFQVTQTIAFFHSCLNPVLYVFVGERFRRDLVKTLKNLGCISQAQWVSFTRREGSLKLSSMLLETTSGALSL" 引号所引就是CCR9基因编码的CCR9蛋白的氨基酸序列。
"60..1169",60是编码mRNA的起始位置,所以CCR9基因(人)编码序列长度是1169-60+1=1110bp,编码蛋白是由1110/3=370个氨基酸构成。
4. exon 是外显子相应的mRNA序列。如exon 1..152 number=1,是指exon1对应的mRNA位置为1到152,以此类推;
5. CDS 181..1290 可见exon1(1..152)是不参与氨基酸的编码的,就是说转录了,但是经后期的翻译时被剪切修饰掉了;
6. ORIGIN部分就是具体的碱基序列了,可以用来参照设计引物的。
这里我也还有没弄清楚的,如STS、misc_feature是什么意思?
期待大家讨论交流经验,将您的经验分享给大家
注:我说的只是人的,病毒、动物的会有差异吧,不对之处请大家指出来我会虚心学习。