生物信息學可指利用信息技術管理和分析生物學數據。這就意味著生物信息學所涉及的范圍相當廣泛,從人工智能、機器人一直到基因組(genome)分析。就基因組分析這一角度來看,生物信息學主要是指核酸和蛋白質序列數據的計算機處理和分析。近年來,蛋白質結構數據的快速增長,使蛋白質三維結構的處理分析也歸入到生物信息學的范疇。
近年來,三大國際一級生物信息數據庫,即美國國家信息中心 (National Center of Biotechnology Information, NCBI)的Gen Bank(http:/ / www. nchi. nlm. nih. gov/ web/Gen Bank/ imdex. html)、歐洲分子生物學室驗室(European Molecular Biology L aboratory-Euro-pean Bioinformatics Institute, EMBL-EBI)的 EM-BL (http:// ebi. ac.uk/ databases/ index.html)和日本 DNA數據庫 (DNA Data Bank of Japan, DDBJ) (http:/ / ddbj.nig.ac.jp/ )新收錄的核酸序列數據中,EST占65%以上[18]。隨著生物信息學 (Bioinformatics)的發展,通過檢索數據庫進行核酸序列同源性檢索,電子基因定位、電子延伸、電子克隆和電子表達以及蛋白質功能分析、基因鑒定等方面起到了重要作用,已成為人們認識生物個體生長發育、繁殖分化、遺傳變異、疾病發生、衰老死亡等生命過程的有力工具。
1核酸序列的同源性檢索
目前,通過數據庫查詢、cDNA文庫直接測序、mRNA差別顯示 (DDRT-PCR)、代表性差示分析(RDA-PCR)和抑制差減雜交(SSH)等方法獲得的EST數據越來越龐大。GenBank數據庫中收錄的EST序列有數百萬個之多。由于 EST代表著一段表達基因序列,這樣就可用其與公共數據庫進行同源性檢索,檢索與其同源的核酸序列。典型分析是采取NCBI的Blast軟件對GenBank 中的非冗余數據庫(non-redundant database,nr)進行查詢。該數據庫是對GenBank EMBL 和DDBJ中去除所有相同核酸序列進行整合后所得的最為全面的已知基因數據庫,其中包括部分基因組序列。聯網至“http://www.ncbi.nlm.nih.gov/blast/blast.cgi選擇數據庫“Nucleotide”,利用blastn程序進行同源性檢索。”, 按照提示進行查詢。
2 比較基因組分析
達爾文的進化論給比較基因組學提供了理論依據。動物進化從低等到高等,動物與動物之間存在著親緣關系。這種關系可以從基因序列上反映出來。親緣關系越近,其基因序列的同源性就越高。可以根據已經親緣關系較大的動物的基因序列來擴增目的基因的序列。
3 利用Unigene數據庫進行電子克隆
此分析需要聯網至“http://www.ncbi.nlm.nih.gov/blast/blast.cgi選擇數據庫“dbEST”,利用blastn程序進行同源性檢索。一般情況下可從EST數據庫中檢索到一批與代分析序列高度同源的EST序列。選擇同源性比分最高的一條EST序列。從NCBI的UniGene數據庫中進行檢索,得到相應的UniGene編號。獲得待分析序列的UniGene編號以后,就可以將與UniGene Cluster的所有核酸序列下載到本地,利用SequencherTM或其他的序列裝配軟件進行組裝。形成較長的新生序列。
4 cDNA序列的開放閱讀框分析
大量的實驗證明,在真核生物起始蛋白質合成時,40S核糖體亞基及有關合成起始因子首先與mRNA模板靠近5`末端處結合,然后向3`末端滑行,發現AUG起始MM子時,與60S大亞基結合形成80S起始復合物。開始轉譯蛋白質。這就是Kozak提出的真核生物蛋白質合成起始的“掃描模式”。MRNA需要翻譯為蛋白質方能發揮生物學作用,因此,核酸序列的開放閱讀框(open reading frame.ORF)的分析便成為核酸分析的一個重要部分。基于遺傳MM表,可通過計算機方便分析核酸序列的讀碼框。聯網至http://www.ncbi.nlm.nih.gov/orf finder,輸入cDNA序列,計算機將按照六種相位翻譯成蛋白質。
5基于核酸序列的電子基因定位
對核酸序列進行電子基因定位(即基因的染色體定位),通過所定位區帶的相鄰基因或者基因簇間接提示該基因的功能,是核酸分析的一個重要方面。進行電子定位一般有兩種策略:(1)通過序列標簽位點(Sequence Tagged Site,STS)進行定位;(2)通過UniGene/RH技術進行定位。
①利用STS數據庫進行電子基因定位
利用此種方式進行定位時主要是利用NCBI的電子PCR資源,即登錄http://www.ncbi.nlm.nih.gov/genome/sts/eper.cgi,輸入待分析的序列即可進行查詢。
②利用UniGene數據庫進行電子基因定位
參考前述,首現獲得待分析序列所對應的UniGene編號。而大部分UniGene序列已經具有較為明確的利用放射性雜交(radiation hybrid,RH)技術所給出的定位信息,所以,根據此結果就可以得到待分析序列的基因定位。
6 電子表達譜分析
在獲得待分析序列的UniGene編號以后,就可以通過參與形成UniGene Cluster 的序列的/細胞來間接地反映待分析序列在何種組織表達,體現在字段“cDNA sources”中。
7基于序列同源性分析的蛋白質功能預測
相似的序列很可能具有相似的功能。因此,蛋白質的功能預測最為可靠的方法是進行數據庫相似性檢索。此方法應至少80個氨基酸長度范圍內具有25%以上的序列一致才提示可能的顯著意義。目前一般方法是基于NCBI/Blast軟件的蛋白質同源性分析
類似于核酸序列的同源性分析,用戶直接將待分析的蛋白質序列輸入NCBI/Blast軟件(http://www.ncbi.nlm.nih.gov/blast/)的序列輸入框內,選擇程序:Blastp”就可聯網進行相應分析。
8 較長或全長的cDNA序列注冊
進行較長或全長cDNA序列注冊時,可將其制成一個注冊文件,其中可包含有多條cDNA序列。用戶需要將可能多的信息在GenBank所規范的字段中填寫。序列注冊文件生成以后,可直接將其以附件方式向NCBI發送Email(gb-sub@ncbi.nlm.nih.gov)。一般在3-7個工作日之內可得到回音,并獲得新的GenBank序列接收號。具體過程如下:下載Sequin軟件;安裝Sequin軟件;運行Sequin.exe文件。按要求回答一系列問題,包括作者及單位、核酸序列信息、注解信息等。最后將生成一個序列注冊文件(擴展名為sqn)。可將該文件以附件形式向NCBI發送(gb-sub@ncbi.nlm.nih.gov)。
一般地,核酸序列信息分析的基本思路:編碼區序列 (簡稱CDS)與EST數據比較→尋找感興趣ESTS (標準:長度≥100bp,同源性介于50%-85%之間 )→所選ESTs與GenEmble數據庫比較→找出未克隆ESTs→再與dbEST、dsSTS、dbHTGs、MGD及UniGene數據庫比較搜尋重疊群Contigs→設計引物進行PCR擴增或篩選cDNA文庫或索取cDNA克隆號進行電子拼接獲取全長cDNA→基因定位、表達、結構、功能檢測分析等。