• <table id="caaaa"><source id="caaaa"></source></table>
  • <td id="caaaa"><rt id="caaaa"></rt></td>
  • <table id="caaaa"></table><noscript id="caaaa"><kbd id="caaaa"></kbd></noscript>
    <td id="caaaa"><option id="caaaa"></option></td>
  • <noscript id="caaaa"></noscript>
  • <td id="caaaa"><option id="caaaa"></option></td>
    <td id="caaaa"></td>
  • 發布時間:2021-06-23 14:47 原文鏈接: RNAseq綜述(一)

    摘要

    在過去的十年中,RNA測序(RNA-seq)已經成為在全轉錄組范圍內分析差異基因表達和mRNAs差異剪接的重要工具。然而,隨著下一代測序技術的發展,RNA-seq技術也在不斷發展。現在,RNA-seq用于研究RNA生物學的許多方面,其中包括單細胞基因表達、翻譯(翻譯組,translatome)和RNA結構(結構組,structurome)。RNA-seq的其它應用也在開發中,例如空間轉錄學(spatialomics)。加上新的長讀長 (long-read,注:在本文中,RNA-seq測序生成的read統一譯為“讀長“)和直接RNA-seq(direct RNA-seq)技術以及用于數據分析的更好的計算工具的整合,RNA-seq技術的創新有助于人們更全面地理解RNA生物學,例如從何時何地轉錄發生到控制RNA功能的折疊和分子間相互作用等問題。

    前言

    RNA-seq技術出現于十年之前,自其誕生之日起,RNA-seq就成了研究分子生物學的普遍工具,這項技術幾乎構成了我們對基因組功能的認知基礎 。RNA-seq中最常用的分析方法就是找出差異基因表達(Differential gene expression, DGE)。從最早的出版期刊開始,DGE分析的基本階段就未發生實質性的改變

    在實驗室中,其標準流程就分為三步:

    第一步是構建測序文庫,這一步驟包括提取RNA,富集mRNA或清除核糖體RNA,合成 cDNA,加上接頭。

    第二步,在高通量平臺(通常是Illumina平臺)上對文庫進行測序,每個樣本的測序深度為10-30M讀長數(讀長這里就是前面說的reads)。

    第三步是數據分析,具體的工作是:對測序得到的讀長進行比對(aligning)和/或組裝到轉錄組上,對這些覆蓋了轉錄組的讀長進行過濾,歸一化(Normalization),根據統計模型找出那些在不同樣本之間有差異的轉錄本。早期的RNA-seq從大量的實驗樣本中產生了DGE數據,這充分說明了RNA-seq在廣泛的生物體以及系統中的使用,這些生物體包括玉米(Zea mays), 擬南芥(Arabiodopsis thaliana), 釀酒酵母(Saccharomyces cerevisae),小鼠(Mus musculus)以及人類。雖然RNA-seq這個術語經常被用于那些完全不同的方法學方法和/或生物學,但是DGE分析仍然是RNA-seq(補充材料中的表1)的主要應用,并被視為常規研究工具。

    RNA-seq的更廣泛應用已經促進了我們對生物學多方面的理解 ,例如通過提示mRNA剪接和非編碼RNAs和增強子RNAs對基因表達的調控。RNA-seq的應用和進步是由技術發展(濕實驗室和計算生物學)驅動的,相對于以前的基因芯片,RNA-seq這種方法對RNA生物學和轉錄組產生更豐富并且偏見更小的信息。到目前為止,從標準的RNA-seq方法衍生而來的各種RNA-seq方法幾乎有100種。Illumina的短讀長(short-read)測序平臺能對這些由大部分不同方法的RNA-seq構建的文庫進行測序,但是最近長讀長(long-read)RNA-seq的與直接RNA-seq測序(direct RNA sequencing, dRNA-seq)的進步已經能夠解決以前研究人員使用短序列手段無法解決的一些問題。

    在這篇綜述中,我們首先會介紹一些最基本的短讀長RNA-seq中的DGE方法,再將這種基礎方法與最近新興的長讀長RNA-seq和dRNA-seq進行比較。我們會介紹短讀長測序方法在文庫制備方面的進展,以及實驗設計和DGE的數據分析方法。隨后我們會拓展這些常規的RNA-seq方法,介紹一些單細胞測序和空間轉錄組學的分析。我們會提供一些案例,介紹RNA-seq在RNA生物學方面的關鍵應用,包括轉錄組分析,翻譯動力學,RNA結構,RNA-RNA之間相互作用和RNA-蛋白質的相互作用。最后,我們會簡單描述一下RNA-seq的未來,以及單細胞和空間RNA-seq方法是否會像DGE分析一樣成為常規工具,長讀長測序方法是否會取代短讀長測序方法。由于篇幅限制,我們無法介紹所有的RNA-seq方法,在這些方法中,值得注意的是非編碼轉錄組學,原核轉錄組學(prokaryotic transcriptomes)和表觀轉錄組學(epitranscriptome)。

    RNA-seq技術的發展歷史

    Illumina的短序列讀長測序技術生成了SRA(Short Read Archive)中95%已表達的數據(附件表2)。由于cDNA的短序列讀長測序方法幾乎是一種常規的方法,因此 我們認為這是一種最基礎的 RNA-seq技術,我們先來討論這種測序主要流程與局限。不過,長讀長cDNA測序與dRNA-seq已經興起,隨著研究人員對能提供更豐富轉錄本水平方面(isoform-level)數據需求增大,這兩種新的測序方法有望對常規的短讀長測序方法提出挑戰(FIG1, TABLE1)。

    Table1-短讀長與長讀長RNA-seq平臺

    Figure 1-短讀長,長讀長和直接RNA-seq技術與工作流程

    Figure 1-短讀長,長讀長和直接RNA-seq技術與工作流程。
    (a)不同RNA-se方法的文庫制備,這些方法可以分為3種,分別是短讀長測序(黑色),長讀長測序(綠色),或長讀長直接RNA-seq(藍色)。根據使用的文庫制備方法不同,文庫制備會表現出相應的復雜性和偏倚。短讀長與長讀長cDNA文庫在制備時有一些步驟是相同的,不過所有的方法都需要一個接頭連接步驟,并且它們都受到樣本質量和文庫上下游計算問題的影響。
    (b)三種主流的RNA-seq測序方法。
    Illumina的工作流程(左邊):文庫制備好后,每個cDNA就會在一個泳道(flowcell)上通過合成來聚集成簇,其中合成的過程使用3'阻斷的熒光標記的核苷酸。在每一輪測序的過程中,新合成的DNA鏈就會被成像,從而檢測出參與合成的是哪種核苷酸,這種測序方法產生的讀長是50-500bp。
    Pacific Biosciences工作流程(中間):文庫制備好后,每個分子被加載到一個測序芯片上,在芯片上這些分子與固定到納米孔(nanowell)底部的聚合酶進行結合。隨著每一個熒光標記的核苷酸被整合到新合成的鏈上,這些核苷酸發出的熒光就會被檢測到,這種方法產生的讀長為50kb。
    Oxford納米孔工作流程(右邊):文庫制備好后,每個分子被加載到流動室(flowccell)中,流式室中含有馬達蛋白,馬達蛋白固定在流動室中,它可以與文庫的接頭結合。馬達蛋白控制RNA鏈通過納米孔,從而造成納米孔中電流的改變,這種技術產生的讀長為1-10kb。
    (c) 短讀長、長讀長與直接RNA-seq分析的比較。超過90%的人類基因(gene n)存在可變剪接,它們會形成兩個或更多的可表達異構體(轉錄本x與y)。短讀長cDNA測序中就增加了捕獲信息的復雜性,短讀長對異構體的檢測會受到其讀長的限制,在這種技術里,短讀長無法精確地回貼(注:測序分析方法中的術語“map“在本文中都譯為”回貼“)到轉錄組上,而長讀長測序方法則能直接鑒定異構體。在短讀長cDNA測序中,有很大比例的讀長會不明確地回貼到不同異構相同的外顯子上;而那些跨越了外顯子-外顯子連接處的讀長可以提高對異構體的分析效果,但是當不同的異構體都含有這個連接處時,這種操作意義不大。這些問題都加劇了數據分析的復雜性,以及無法對結果進行明確地解釋。長讀長cDNA方法能夠產生全長的異構體讀長,從而去除或大幅度降低這些不精確的結果,并改進差異異構表達的分析結果。然而這些方法依賴于cDNA的轉換,它去除了RNA堿基的修飾信息,并且只能粗略地估計多聚腺苷酸(poly(A))尾巴長度。直接RNA-seq可以進行全長導構體分析,堿基修飾檢測(例如N6-甲基腺苷(M6A))和poly(A)尾巴長度估計。


    人体艺术视频