下面以人的IL6(白細胞介素6)為例講述一下具體的操作步驟
一、打開Map viewer頁面,網址為
在search的下拉菜單里選擇物種,for后面填寫你的目的基因。
二、點擊“GO”:
三、在步驟二圖示的右下角有一個Quick Filter,下面是讓你選擇的幾個復選框,在Gene前面的小方框里打勾,然后點擊Filter:
說明一下:
1、染色體的紅色區域即為你的目的基因所處位置。
2、下面參考序列給出了三個,是不同的部門做出來的,經我驗證,序列有微小的差異,但總體來說基本相同。盡管你分別點擊后,序列代碼、序列代碼等有所差異,但堿基基本一致,不影響大家研究分析序列。現在普遍采用的是最上面的那個序列,這一條是世界范圍的生物科學家用計算機合成的一個序列。我也推薦大家使用這個序列。
四、點擊上述三條序列第一條序列(即reference)對應的"Genes seq",出現新的頁面,
五、點擊上圖出現的“Download/View Sequence/Evidence ”,即下載查看序列等功能,
先對上面這張圖做點簡要的說明,在Sequence Format(序列輸出格式)后面是一個下拉式選擇菜單,默認的為FASTA格式,還有一個是GenBank格式。我推薦大家選擇GenBnak格式,因為這個格式提供了很多該基因的信息,而FASTA格式只有基因序列。
六、在Sequence Format后選擇GenBank,然后點擊下面的Display,目的基因的相關信息和序列就出現在眼前了。
在上述打開的網頁中,你可以看到基因長度,基因序列,以及這個基因是如何被報道出來的等各種信息。
你會看到: mRNA join(3598..3678,3841..4031,5090..5203,5911..6057, 7803..8394) 這代表了從基因的3598位開始就是轉錄區了,即我們常說的mRNA片斷,由于內含子的存在,所以mRNA在DNA序列上分成了幾段。
CDS join(3660..3678,3841..4031,5090..5203,5911..6057, 7803..7970)
CDS代表編碼序列,即蛋白編碼區是從3660開始的(ATG),由于剪接作用所以CDS區也是不連續的。
說到這里,可能很多朋友都已經明白了promoter即啟動子區域在哪里了。但我還是再嘮叨幾句:轉錄起始位點前面是基因的調控區,啟動子區沒有明顯的位置定義,大家也只是猜測它的大體位置,如果你要研究promoter區的話,建議你選擇轉錄起始位點前的2000個堿基進行研究,一般默認的是這樣。當然你如果覺得長度太長不好研究的話,也可以只研究-1000到0這一千個堿基,因為一般情況下,啟動子區的變異都在這個區域內。
這樣大家就可以找到自己的目的基因序列和啟動子了,這種方法可能使用的人不是很多,但我個人比較喜歡,因為它最大的優點是可以找到啟動子區域和其他調控區域。希望大家可以發帖交流,讓我們把NCBI用的更好!