摘要
自從RNA被發(fā)現(xiàn)在基因組和蛋白組之間作為關(guān)鍵的調(diào)控和中間媒介后,轉(zhuǎn)錄本的鑒定和基因表達(dá)定量,就成為了分子生物學(xué)中的研究熱點(diǎn),而利用高通量RNA測(cè)序,能夠很好的幫助人們進(jìn)行這兩項(xiàng)研究。然而近年來越來越多的方法學(xué)和分析流程的公開發(fā)表與應(yīng)用,往往讓初學(xué)者感到迷茫與困惑,尤其是如何理解RNA-Seq研究的必要和關(guān)鍵步驟。
由于研究目的的千差萬別,目前并沒有一個(gè)分析流程,能夠適用于所有的項(xiàng)目。本文回顧了RNA-Seq數(shù)據(jù)分析中的主要步驟,包括實(shí)驗(yàn)設(shè)計(jì),數(shù)據(jù)指控,數(shù)據(jù)比對(duì),基因和轉(zhuǎn)錄本定量,數(shù)據(jù)可視化,基因差異表達(dá),可變剪接,功能分析,融合基因檢測(cè)和eQTL檢測(cè)等等。本文探討了每一步分析中的難點(diǎn)與挑戰(zhàn),也展望了新技術(shù)可能帶來的轉(zhuǎn)錄組研究的革新。
01
實(shí)驗(yàn)設(shè)計(jì)
科學(xué)合理得實(shí)驗(yàn)設(shè)計(jì)是通過RNA-Seq成功回答生物學(xué)問題的先決條件。首先,我們實(shí)驗(yàn)設(shè)計(jì)理我們需要考慮的是選擇什么樣的文庫(kù)類型,測(cè)序深度,和重復(fù)的次數(shù),其次選擇合適的測(cè)序平臺(tái)和測(cè)序方式,避免不必要的系統(tǒng)偏向性。
在細(xì)胞的total RNA中往往超過90%的rRNA都是核糖體RNA,而我們感興趣的mRNA只占1~2%。在真核生物中我們可以選擇用poly A選擇性富集mRNA或者去除rRNA的方式:poly A富集要求比較高的RNA起始量,且只允許RNA存在少量的降解,這種方式獲得reads通常落在已知外顯子的比例比較高;但是有一些生物學(xué)樣品(比如活檢組織)很可能不能提取得到足量的或者質(zhì)量較高的RNA,如果用poly A的方式富集可能會(huì)文庫(kù)質(zhì)量不佳,所以我們會(huì)推薦用去除rRNA的方式建庫(kù)。對(duì)于測(cè)序長(zhǎng)度的選擇,一般而言相對(duì)便宜的單端短測(cè)序reads足夠用來研究注釋比較完整的物種的基因表達(dá)情況,而雙短長(zhǎng)測(cè)序,適合用于從頭組裝,轉(zhuǎn)錄本鑒定,或者注釋不完備的物種研究。
對(duì)于測(cè)序的深度,主要依賴研究的目的,有些作者認(rèn)為最少5M的reads就足夠用于中等表達(dá)和高表達(dá)基因的定量,有一些則認(rèn)為需要測(cè)到100M的reads才能對(duì)稀有基因和低表達(dá)的基因精確定量。隨著測(cè)序深度的增加,可以鑒定到更多的基因,同時(shí)過高的測(cè)序量也可能導(dǎo)致背景噪聲的增強(qiáng)。
在實(shí)驗(yàn)設(shè)計(jì)的時(shí)候生物學(xué)重復(fù)的設(shè)置是很有必要的,它能增強(qiáng)統(tǒng)計(jì)檢驗(yàn)在實(shí)驗(yàn)處理組之間發(fā)現(xiàn)顯著差異的基因的能力和可靠性。一般而言,每個(gè)組至少需要三個(gè)重復(fù),重復(fù)的數(shù)量越多,驗(yàn)測(cè)顯著差異表的基因的準(zhǔn)確性和敏感度越高。同時(shí),增加測(cè)序深度也可以提高檢測(cè)低豐度基因的能力。
注:該表中的統(tǒng)計(jì)能力基于的是中度表達(dá)基因(70條比對(duì)上的reads)
02
數(shù)據(jù)分析內(nèi)容
【慕序君亂入】
如您想深入學(xué)習(xí)轉(zhuǎn)錄組&R語言繪圖技能
往下戳鏈接,更有料!
轉(zhuǎn)錄組&R語言繪圖技能培訓(xùn)班
主辦單位:深圳市華大基因?qū)W院
舉辦地點(diǎn):中國(guó) 深圳
培訓(xùn)時(shí)間:2016年12月19日——2016年12月23日
03
數(shù)據(jù)比對(duì)與轉(zhuǎn)錄本鑒定
當(dāng)參考轉(zhuǎn)錄組或者參考基因組存在的時(shí)候,一般會(huì)同時(shí)或者選擇性比對(duì)到其中一個(gè)參考序列,對(duì)于人的樣品而言,一般而言根據(jù)比對(duì)軟件的不同,RNA-Seq數(shù)據(jù)比對(duì)到基因組的比對(duì)率到70~90%之間,而當(dāng)reads比對(duì)到參考轉(zhuǎn)錄組的時(shí)候,因?yàn)橛行﹔eads來自之前尚未被注釋的新轉(zhuǎn)錄組,從而比對(duì)率會(huì)相對(duì)偏低一些;另外由于同一個(gè)基因的外顯子通過可變剪接會(huì)形成不同的轉(zhuǎn)錄本,從而這些來自不同轉(zhuǎn)錄本的reads因?yàn)楣蚕硗瑯拥耐怙@子,會(huì)有多處比對(duì)(multiple-mapping)的現(xiàn)象。通過數(shù)據(jù)比對(duì),以及與已知轉(zhuǎn)錄本的比較,我們可以進(jìn)行基因表達(dá)定量分析,和轉(zhuǎn)錄本鑒定,新轉(zhuǎn)錄本預(yù)測(cè)等分析。當(dāng)物種沒有參考基因組和轉(zhuǎn)錄組時(shí),那么RNA-Seq分析的第一步應(yīng)該時(shí)把短reads組裝得到長(zhǎng)的contigs,把contigs當(dāng)成該物種的轉(zhuǎn)錄組,再把reads比對(duì)回去進(jìn)行表達(dá)量的計(jì)算。
04
轉(zhuǎn)錄組組裝與新轉(zhuǎn)錄本預(yù)測(cè)
利于短reads,如Illumina測(cè)序平臺(tái)產(chǎn)生的數(shù)據(jù)進(jìn)行組裝,是一件十分具有挑戰(zhàn)性的工作,短的reads很難跨過多個(gè)外顯子的連接位點(diǎn),也難以覆蓋到轉(zhuǎn)錄本的轉(zhuǎn)錄起始和終止位置,此外,組裝的算法比較復(fù)雜,效果也不是特別理想,在很多項(xiàng)目中,一些比較長(zhǎng)或者結(jié)構(gòu)復(fù)雜的轉(zhuǎn)錄本通過從頭組裝的方式,獲得的是幾十甚至上百個(gè)轉(zhuǎn)錄本碎片。而目前起步的第三代測(cè)序,如Pacific Biosciences的SMRT測(cè)序方式,能夠測(cè)序得到足夠長(zhǎng)的reads,從5’到3’端覆蓋整條完整的轉(zhuǎn)錄本,擁有比較好的發(fā)展前景。
05
基因定量與差異表達(dá)分析
基因表達(dá)定量是RNA-Seq中最常規(guī)應(yīng)用范圍最廣的分析。當(dāng)reads比對(duì)到參考基因組后,我們可以用cufflinks,HTSeq-count等軟件,根據(jù)基因在染色體上的位置進(jìn)行表達(dá)量的計(jì)算;當(dāng)reads比對(duì)到參考轉(zhuǎn)錄組時(shí),我們可以用RSEM,eXpress等工具進(jìn)行分析。對(duì)于表達(dá)量計(jì)算的關(guān)鍵在于統(tǒng)計(jì)有多少條reads是屬于特定某一條基因或者轉(zhuǎn)錄本的,之后考慮到基因或者轉(zhuǎn)錄本的長(zhǎng)度,測(cè)序的深度等等影響因素,會(huì)采用RPKM/FPKM,或者TPM的方式進(jìn)行均一化。在比較同一個(gè)基因在不同樣本里的表達(dá)量變化時(shí),均一化基因長(zhǎng)度的步驟不是必須的,但是當(dāng)我們想要比較多個(gè)基因在同一個(gè)樣品中的表達(dá)量高低時(shí),就需要考慮到長(zhǎng)度的影響,因?yàn)殚L(zhǎng)的基因經(jīng)過打斷后,會(huì)產(chǎn)生更多的reads。
當(dāng)進(jìn)行差異表達(dá)分析時(shí),我們需要比較在不同樣品中基因的表達(dá)情況,由于任何一項(xiàng)技術(shù)都會(huì)存在或引入一些偏向性,差異表達(dá)分析軟件的作用,就是建立模型減少偏向性的影響,過濾背景噪聲,增加真實(shí)差異基因的檢出率(TPR),降低假陽性(FPR)。比如edgeR,DESeq2以及baySeq,EBSeq等常用軟件,假設(shè)基因的表達(dá)量分布是符合負(fù)二項(xiàng)分布的,用每個(gè)基因檢測(cè)到的reads數(shù),以及覆蓋度,插入片段長(zhǎng)度,CG含量,轉(zhuǎn)錄本長(zhǎng)度等等可能存在偏向性的因素,輸入到統(tǒng)計(jì)模型中進(jìn)行計(jì)算,最終得到較為可靠的差異表達(dá)基因。對(duì)于樣品數(shù)及重復(fù)數(shù)非常少的研究,利用負(fù)二項(xiàng)分布來做統(tǒng)計(jì)檢驗(yàn),可能背景噪聲比較高,我們會(huì)選用一些更加簡(jiǎn)單的模型,比如基于泊松分布的DEGseq,或者基于經(jīng)驗(yàn)分布(empirical distribution)的NOISeq。當(dāng)采用的差異表達(dá)軟件不同時(shí),得到的結(jié)果,也會(huì)存在一定的差異,我們可以根據(jù)數(shù)據(jù)特征選取適合的軟件,或者綜合考量比較各個(gè)軟件的結(jié)果。
06
可變剪接
對(duì)于可變剪接分析,目前主流的方式主要分成兩大類:一類是基于轉(zhuǎn)錄本亞型(isoform)的表達(dá)定量,以及基因內(nèi)不同亞型組成的比例變化來做的,比如BASIS,CuffDiff2等軟件;另一種是根據(jù)比較reads在外顯子和junction區(qū)域的分析變化,來檢測(cè)單個(gè)可變剪接事件,比如DEXseq,DSGSeq,rMATS,DiffSplice等。
因?yàn)槎鷾y(cè)序讀長(zhǎng)有限,轉(zhuǎn)錄本亞型的定量仍存在較高的難度,目前而言定量的準(zhǔn)確性受讀長(zhǎng)的影響,準(zhǔn)確性不是很高;而對(duì)于單個(gè)可變剪接事件的鑒定,基于外顯子或者junction的方法精度要高很多,所以如果研究對(duì)象是特定某個(gè)外顯子的選擇性剪接,或者某個(gè)功能蛋白的結(jié)構(gòu)域,可以選擇基于外顯子或者juntion的方法。
07
數(shù)據(jù)可視化
RNA-Seq數(shù)據(jù)reads層面,或者覆蓋度層面的數(shù)據(jù)可視化,可以用ReadXplorer,UCSC browser,IGV等二代測(cè)序通用軟件來做,也可以用專門針對(duì)多個(gè)RNA-Seq數(shù)據(jù)可是化開發(fā)等RNAseqViewer來做,RNAseqViewer在基因結(jié)構(gòu)展示上,有一定優(yōu)勢(shì),但速度比IGV慢。
此外,DESeq2,DEXseq等基因差異表達(dá)軟件,也會(huì)提供數(shù)據(jù)可是化的功能,還有基于CuffDiff2結(jié)果的CummeRbund,以及Sashimi plots等軟件,均可以實(shí)現(xiàn)差異基因或者差異剪接外顯子的可視化。
08
基因融合檢測(cè)
因?yàn)槿诤匣蛲ǔI婕暗饺旧w重排,因此,在比對(duì)的時(shí)候就增加了額外的挑戰(zhàn):比對(duì)軟件需要增加更大的搜索空間,比對(duì)的位置可能不是線性的,甚至可能不在同一個(gè)染色體上。當(dāng)我們找到潛在的嵌合序列后,需要經(jīng)過復(fù)雜的過濾步驟來降低假陽性,尤其需要注意排除相似度非常高的同源基因的影響,它們可能存在域染色體上的多個(gè)位置,從而不能唯一比對(duì)到基因組上;另外表達(dá)量非常高的序列,也不太可能是融合基因,畢竟融合基因是比較罕見的。測(cè)序長(zhǎng)度越長(zhǎng),比對(duì)的準(zhǔn)確性越高,插入片段越大,也越有利于大的結(jié)構(gòu)變異檢測(cè),所以我們推薦用較大插入片段的雙端測(cè)序數(shù)據(jù)來做融合基因的分析。
09
RNA-Seq功能注釋分析
一般而言,RNA-Seq的功能注釋分析分為兩類:一類是比較差異表達(dá)基因和所有的基因的功能分類,推測(cè)是否某些功能的基因出現(xiàn)差異表達(dá)的比例更高;另一類是研究篩選的差異表達(dá)基因是否富集到某一些功能。
完整有效的數(shù)據(jù)庫(kù)是進(jìn)行功能分析的前提條件,大部分的模式生物的注釋信息可以在Gene Ontology,Bioconductor,DAVID等數(shù)據(jù)庫(kù)找到,對(duì)于通過從頭組裝得到轉(zhuǎn)錄本序列的物種,可以通過序列相似性比對(duì)到SwissProt或者Pfam,InterPro等數(shù)據(jù)庫(kù),注釋到其同源蛋白。Blast2GO可以用來做大規(guī)模的注釋,通常RNA-Seq得到的轉(zhuǎn)錄本序列50~80%可以得到注釋。
因?yàn)殚L(zhǎng)鏈非編碼RNA(lncRNA)相對(duì)編碼的RNA更加不保守,所以數(shù)據(jù)要困難一些,Rfam中收錄了一些非編碼RNA家族,可以用來做分類,但lncRNA的功能注釋目前并沒有一個(gè)公認(rèn)的標(biāo)準(zhǔn)做法。
10
展望
RNA-Seq已經(jīng)成為了研究轉(zhuǎn)錄組的常用方法,其軟件與技術(shù)的更新升級(jí)發(fā)展迅速,但值得注意的是,不同軟件之間的一致性,受到參數(shù)和方法的影響,仍不是特別高,尤其是低豐度的基因定量是非常不穩(wěn)定的。
目前RNA-Seq的最熱門的兩個(gè)方向?yàn)椋簭姆浅I俚钠鹗剂繌墨@得轉(zhuǎn)錄組的信息,以及通過更長(zhǎng)的read得到更好的轉(zhuǎn)錄本注釋。單細(xì)胞RNA-Seq的發(fā)展十分迅猛,近幾年有不少高分文章產(chǎn)出,Smart-seq和Smart-seq2等技術(shù)通過適當(dāng)?shù)臄U(kuò)增,讓研究單個(gè)細(xì)胞中微量的mRNA變得可能,從而實(shí)現(xiàn)組織中新細(xì)胞種類的鑒定,分類,以及研究單個(gè)細(xì)胞內(nèi)的分子生物和生物化學(xué)過程。一般而言,做單細(xì)胞需要一定的數(shù)量才能做到亞群的精確分類,細(xì)胞數(shù)量太少,獲得的信息比較有限。長(zhǎng)reads測(cè)序平臺(tái),比如Pacific-Biosciences SMRT和Oxford Nanopore,可以有效解決短reads RNA-Seq難以解決的復(fù)雜轉(zhuǎn)錄本的組裝,以及高度相似轉(zhuǎn)錄本亞型的鑒定等問題,通過直接通讀整條轉(zhuǎn)錄本序列,而避免了組裝的過程,能夠獲得更加完整準(zhǔn)確的轉(zhuǎn)錄本結(jié)構(gòu)。當(dāng)然長(zhǎng)reads測(cè)序目前仍存在一些局限性,比如測(cè)序錯(cuò)誤相對(duì)較高,通量較低,從而不適合用于做表達(dá)定量。但這些可以通過與二代短reads測(cè)序相結(jié)合的辦法得到彌補(bǔ)。
參考文獻(xiàn):
Conesa A, Madrigal P, Tarazona S, et al. A Survey of Best Practices for RNA-seq Data Analysis[J]. 2016.
Robles J A, Qureshi S E, Stephen S J, et al. Efficient experimental design and analysis strategies for the detection of differential expression using RNA-Sequencing[J]. BMC genomics, 2012, 13(1): 484.
聯(lián)系客服