最近,越來越多的證據(jù)表明:自然環(huán)境(如海洋、土壤等)中的微生物群落功能(functional)組成而非物種(taxonomic)組成與環(huán)境因子密切相關(guān);換言之,相似環(huán)境中的微生物群落功能更相似,而行使功能的微生物物種組成可能差異較大(Gibbons et al. 2017; Louca et al. 2016; Nelson et al. 2016)。這說明,除了揭示環(huán)境中有哪些微生物之外,揭示微生物群落功能輪廓尤為重要。目前,微生物生態(tài)研究中常用的揭示微生物群落功能的方法有宏基因組測序、宏轉(zhuǎn)錄組測序、宏蛋白組測序、宏代謝組分析等。這些方法優(yōu)點(diǎn)突出,能較準(zhǔn)確、真實(shí)地反映不同層面的微生物群落功能特征。但其價(jià)格較高,一般實(shí)驗(yàn)室難以承受大批量樣本的實(shí)驗(yàn);另外,數(shù)據(jù)量巨大,數(shù)據(jù)處理也是難點(diǎn)。有沒有較經(jīng)濟(jì)、又適合大樣本的方法呢?有!那就是基于marker基因擴(kuò)增子高通量測序的功能預(yù)測。上次盧瑟菌給大家介紹了根據(jù)真菌ITS序列預(yù)測真菌群落功能的工具——FUNGuild(點(diǎn)擊了解更多)
今天,盧瑟菌就和大家介紹基于原核16SrDNA高通量測序結(jié)果對(duì)微生物群落功能(function)或表型(phenotype)進(jìn)行預(yù)測的四種方法——PICRUSt、Tax4Fun、FAPROTAX及BugBase。
簡介
PICRUSt全稱為Phylogenetic Investigationof Communities by Reconstruction of Unobserved States,由Langille等人于2013年開發(fā),文章發(fā)表在Nature Biotechnology上(Langille et al. 2013)。它是最早被開發(fā)的基于16S rRNA基因序列預(yù)測微生物群落功能的工具,包括在線版(http://huttenhower.sph.harvard.edu/galaxy/root?tool_id=PICRUSt_normalize)和基于MacOS X或Linux系統(tǒng)的下載安裝版(http://picrust.github.io/picrust/install.html#install)。
原理
如圖1所示,其預(yù)測過程分兩步:
(1)基因內(nèi)容預(yù)測(gene content inference)。該步先對(duì)Greengenes數(shù)據(jù)庫的“closed reference”序列劃分OTU后構(gòu)建進(jìn)化樹,通過祖先狀態(tài)重構(gòu)(Ancestralstate reconstruction)算法并結(jié)合IMG/M數(shù)據(jù)庫,預(yù)測出樹中未進(jìn)行全基因組測序OTU的基因組信息。
(2)宏基因組預(yù)測(metagenome inference)。將16SrDNA測序結(jié)果與Greengenes數(shù)據(jù)庫進(jìn)行比對(duì),挑選出與“closed reference”數(shù)據(jù)庫相似性高的(默認(rèn)為≥97%)OTU;根據(jù)OTU對(duì)應(yīng)基因組中16SrDNA的拷貝數(shù)信息,將每個(gè)OTU對(duì)應(yīng)序列數(shù)除以其16S拷貝數(shù)來進(jìn)行標(biāo)準(zhǔn)化;最后,將標(biāo)準(zhǔn)化的數(shù)據(jù)乘以其對(duì)應(yīng)的基因組中基因含量從而實(shí)現(xiàn)宏基因組預(yù)測的目的。獲得的預(yù)測結(jié)果可以通過KEGG Orthology、COGs或Pfams等對(duì)基因家族進(jìn)行分類。
圖1 PICRUSt預(yù)測微生物功能原理流程圖(Langille et al. 2013)
特點(diǎn)
(1)因開發(fā)者當(dāng)初開發(fā)PICRUSt時(shí)基于Greengenes數(shù)據(jù)庫為參考,用該分析時(shí)只識(shí)別16S序列與Greengenes數(shù)據(jù)庫(GG13.5或GG12.5)比對(duì)的結(jié)果;
(2)預(yù)測結(jié)果的準(zhǔn)確度可通過參數(shù)NSTI(Nearest Sequenced Taxon Index)值的大小來評(píng)估。NSTI表征某樣品中所有微生物OTU與其親緣關(guān)系最近的已測序基因組間系統(tǒng)進(jìn)化距離的平均值,因此,該值越小表示預(yù)測結(jié)果越可信。如圖2,通過對(duì)不同環(huán)境來源的微生物群落功能預(yù)測結(jié)果及其宏基因組數(shù)據(jù)比較后發(fā)現(xiàn):PICRUSt對(duì)于人腸道微生物樣品的預(yù)測結(jié)果最好(平均NSTI =0.03 ± 0.02 s.d.),其次是土壤樣品(平均NSTI= 0.17 ± 0.02 s.d.),其他哺乳動(dòng)物腸道樣品波動(dòng)較大(NSTI = 0.14 ± 0.06 s.d.),而對(duì)于研究較少的高鹽微生物席樣品的預(yù)測準(zhǔn)確度最低(NSTI= 0.23 ± 0.07 s.d.)。
圖2 不同環(huán)境微生物組PICRUSt預(yù)測準(zhǔn)確度比較(Langille et al. 2013)
(3)對(duì)于低16S測序深度的樣品也可獲得較準(zhǔn)確的預(yù)測結(jié)果。通過比較PICRUSt預(yù)測與宏基因組測序隨測序深度變化的結(jié)果準(zhǔn)確度后發(fā)現(xiàn),即使低16S測序量(105條序列)也可獲得準(zhǔn)確度較高的功能預(yù)測結(jié)果(圖3)。這說明PICRUSt不僅適用于高通量測序后的功能預(yù)測,對(duì)于傳統(tǒng)克隆文庫/Sanger測序獲得的低測序深度的樣品也有較好的預(yù)測準(zhǔn)確度。
圖3 隨測序深度增加PICRUSt預(yù)測與宏基因組測序結(jié)果準(zhǔn)確度比較(Langille et al. 2013)
(4)無論對(duì)古菌還是細(xì)菌都有較高的預(yù)測準(zhǔn)確度。如圖4,無論細(xì)菌(mean= 0.95 ± 0.05 s.d., n = 2,487)還是古菌(mean = 0.94 ± 0.04s.d., n = 103),PICRUSt都有較高的預(yù)測準(zhǔn)確度。
圖4 細(xì)菌和古菌基因組進(jìn)化樹中PICRUSt預(yù)測準(zhǔn)確度情況(Langille et al. 2013)
(5)對(duì)不同功能基因分組的預(yù)測準(zhǔn)確度存在差異,但均在可信范圍。如圖5,對(duì)于核心功能基因分組,如遺傳信息加工的基因家族預(yù)測準(zhǔn)確度最高(0.99± 0.03 s.d.);而對(duì)于那些在不同基因組間易變和易發(fā)生基因橫向轉(zhuǎn)移的基因家族,如環(huán)境信息加工基因家族的預(yù)測準(zhǔn)確度相對(duì)較低(0.95 ± 0.04 s.d.);但整體而言,預(yù)測的準(zhǔn)確度都高于0.82,說明預(yù)測結(jié)果可靠。
圖5 PICRUSt對(duì)基因組功能模塊預(yù)測準(zhǔn)確度差異(Langille et al. 2013)
示例
基于16S rDNA序列的PICRUSt功能預(yù)測,可獲得不同level(1~3)的KEGG Pathways的功能基因豐度富集情況(圖6),也可獲得具體與某個(gè)功能過程(如硫代謝等)相關(guān)的基因豐度情況(圖7)。
圖6 通過PICRUSt功能基因預(yù)測得到的KEGG通路中的基因相對(duì)豐度示例(Sun et al. 2016)
圖中展示了西藏獼猴在不同季節(jié)(winter和spring)腸道微生物的KEGG功能通路預(yù)測結(jié)果,*表示在不同季節(jié)差異顯著的功能富集。
圖7 通過PICRUSt預(yù)測得到的硫代謝相關(guān)基因的豐度示例(Wang et al. 2016)
圖中顯示了不同地點(diǎn)沉積物原核微生物群落硫代謝相關(guān)功能基因的PICRUSt預(yù)測結(jié)果,右側(cè)紅色字體表示異化硫酸鹽還原相關(guān)的基因,藍(lán)色表示同化硫酸鹽還原相關(guān)基因。
簡介
Tax4Fun是A?hauer等人2015年開發(fā)的通過16S高通量測序數(shù)據(jù)預(yù)測微生物群落功能的方法,文章發(fā)表在Bioinformatics上(A?hauer et al. 2015)。其設(shè)計(jì)思路與PICRUSt類似。Tax4Fun無網(wǎng)頁在線版,只能基于R包進(jìn)行線下分析。相關(guān)資料下載鏈接:http://tax4fun.gobics.de/。
原理
首先,將16S高通量測序數(shù)據(jù)通過QIIME或SILVAngs平臺(tái),基于SILVA數(shù)據(jù)庫對(duì)OTU進(jìn)行物種分類;基于分類結(jié)果,再根據(jù)NCBI的基因組注釋對(duì)16S拷貝數(shù)進(jìn)行標(biāo)準(zhǔn)化;最后通過構(gòu)建SILVA分類與KEGG數(shù)據(jù)庫中原核分類間的線性關(guān)系,實(shí)現(xiàn)對(duì)微生物群落功能的預(yù)測。
特點(diǎn)
據(jù)Tax4Fun文章介紹,其最大優(yōu)點(diǎn)是對(duì)微生物群落功能預(yù)測的準(zhǔn)確性要比PICRUSt好。作者對(duì)不同環(huán)境來源的樣品(人類腸道、哺乳動(dòng)物腸道、高鹽微生物席及土壤樣品)分別通過Tax4Fun和PICRUSt進(jìn)行功能預(yù)測,并與相應(yīng)的宏基因組結(jié)果進(jìn)行相關(guān)性分析后發(fā)現(xiàn):基于QIIME或SILVAngs平臺(tái)結(jié)合Tax4Fun的預(yù)測結(jié)果在所有測試樣品中與實(shí)際測得宏基因組結(jié)果的相關(guān)性均好于PICRUSt的預(yù)測結(jié)果,即Tax4Fun對(duì)微生物群落功能的預(yù)測準(zhǔn)確性要優(yōu)于PICRUSt(圖8)。盧瑟菌個(gè)人認(rèn)為,一方面,從預(yù)測原理來講,PICRUSt中相當(dāng)比例OTU的基因組是經(jīng)祖先狀態(tài)重構(gòu)算法預(yù)測出來的,并非真實(shí)的基因組信息,而Tax4Fun都是基于KEGG庫中已測序注釋的原核基因組信息,這可能是決定兩者準(zhǔn)確度差異的主要原因;另一方面,Tax4Fun選擇的是SILVA數(shù)據(jù)庫,而PICRUSt是Greengenes數(shù)據(jù)庫,前者的更新速度更快。
圖8 不同樣本宏基因組及Tax4Fun、PICRUSt預(yù)測結(jié)果相關(guān)性比較(A?hauer et al. 2015)
示例
與PICRUSt類似,通過Tax4Fun可預(yù)測出不同level(1~3)的KEGG Pathways功能基因豐度富集情況,也可獲得具體與某個(gè)功能過程(如硫代謝等)相關(guān)的基因豐度狀況(示例參見PICRUSt示例)。
簡介
FAPROTAX取詞自Functional Annotation of Prokaryotic Taxa,是Louca等人為解析微生物群落功能于2016年創(chuàng)建的基于原核微生物分類的功能注釋數(shù)據(jù)庫,文章發(fā)表在2016年的Science上(Louca et al. 2016)。FAPROTAX是基于目前對(duì)可培養(yǎng)菌的文獻(xiàn)資料手動(dòng)整理的原核功能注釋數(shù)據(jù)庫,其包含了收集自4600多個(gè)原核微生物的80多個(gè)功能分組(如硝酸鹽呼吸、產(chǎn)甲烷、發(fā)酵、植物病原等)的7600多條功能注釋信息。作者編寫了一套python腳本來運(yùn)行預(yù)測,輸入文件格式可以是SILVA或Greengenes數(shù)據(jù)庫生成的OTU分類表或BIOM文件。相關(guān)資料下載地址:http://www.zoology.ubc.ca/louca/FAPROTAX/lib/php/index.php?section=Home。
原理
FAPROTAX原理與以前提到的真菌功能預(yù)測FUNGuild類似。如圖9,作者先根據(jù)文獻(xiàn)資料(Begrey's Manualof Systematic Bacteriology、The Prokaryotes、The International Journal of Systematic Bacteriology等)手動(dòng)構(gòu)建了聯(lián)系物種分類與功能注釋的FAPROTAX數(shù)據(jù)庫;后又編寫了聯(lián)系OTU分類表與FAPROTAX數(shù)據(jù)庫的python腳本;最后,只要將基于16S的OTU分類表通過python腳本就可以輸出微生物群落功能注釋預(yù)測結(jié)果。
圖9 FAPROTAX預(yù)測微生物群落功能原理示意圖(Louca et al. 2016)
特點(diǎn)
FAPROTAX較適用于對(duì)環(huán)境樣本(如海洋、湖泊等)的生物地球化學(xué)循環(huán)過程(特別是碳、氫、氮、磷、硫等元素循環(huán))進(jìn)行功能注釋預(yù)測。因其基于已發(fā)表驗(yàn)證的可培養(yǎng)菌文獻(xiàn),其預(yù)測準(zhǔn)確度可能較好,但相比于上述PICRUSt和Tax4Fun來說預(yù)測的覆蓋度可能會(huì)降低。與PICRUSt和Tax4Fun類似,FAPROTAX依賴于16S序列的分類結(jié)果,較好的分類結(jié)果(能分辨到屬種水平的物種比例較高)才能得到較好的預(yù)測結(jié)果。預(yù)測結(jié)果中可能出現(xiàn)一個(gè)OTU對(duì)應(yīng)多個(gè)功能分組的情況,如被注釋到硫磺單胞菌屬(Sulfurospirillum)的OTU即可進(jìn)行硝酸鹽氨化,又可以進(jìn)行砷酸呼吸和發(fā)酵。
示例
FAPROTAX可根據(jù)16S序列的分類注釋結(jié)果對(duì)微生物群落功能(特別是生物地化循環(huán)相關(guān))進(jìn)行注釋預(yù)測(圖10)。
圖10 FAPROTAX預(yù)測的不同分層海水樣品微生物群落功能輪廓(Louca et al. 2016)
圖中橫軸所示為表層(SRF,surfacewater)、葉綠素含量最高層(DCM,deepchlorophyll maximum)、混合層(MIX,mixedlayer)和海洋中層(MES,mesopelagic)海水樣品中微生物群落功能輪廓,縱軸所示為包括碳、氫、氮、硫等元素循環(huán)相關(guān)及其他諸多功能分組。顏色越深代表樣品中該類群微生物的相對(duì)豐度越高。
簡介
BugBase是Dan Knights課題組開發(fā)的用于對(duì)微生物組數(shù)據(jù)進(jìn)行高水平表型(high-level phenotypes)分類的工具,目前相關(guān)文章正在整理之中,但該工具已開放,可免費(fèi)使用(bugbase.cs.umn.edu/index.html)。該工具可對(duì)微生物群落根據(jù)七類表型進(jìn)行分類:革蘭氏陽性(Gram Positive)、革蘭氏陰性(Gram Negative)、生物膜形成(Biofilm Forming)、致病性(Pathogenic)、移動(dòng)元件(Mobile Element Containing)、氧需求(Oxygen Utilizing,包括Aerobic、Anaerobic、facultatively anaerobic)及氧化脅迫耐受(Oxidative Stress Tolerant)。輸入由Greengenes數(shù)據(jù)庫分類后的OTU表格(BIOM格式),即可快速實(shí)現(xiàn)對(duì)上述表型的分類預(yù)測。若同時(shí)輸入Mapping文件還可以實(shí)現(xiàn)對(duì)分組變量的作圖及統(tǒng)計(jì)比較分析。目前有在線網(wǎng)頁版(bugbase.cs.umn.edu/upload.html,數(shù)據(jù)<15M適用)和線下安裝版(bugbase.cs.umn.edu/downloads.html,>15M適用)。
原理
由于文章還未發(fā)表,因此具體原理未給出。但推測基本原理與上述三種類似,先根據(jù)Greengenes等數(shù)據(jù)庫對(duì)16S數(shù)據(jù)進(jìn)行物種分類,再根據(jù)分類結(jié)果結(jié)合KEGG數(shù)據(jù)庫中原核功能基因的注釋或根據(jù)文獻(xiàn)對(duì)可培養(yǎng)菌的報(bào)道實(shí)現(xiàn)表型預(yù)測。
示例
通過BugBase可快速地對(duì)16S高通量結(jié)果根據(jù)七類表型進(jìn)行分類比較(圖11)。
圖11 通過BugBase預(yù)測得到的細(xì)菌群落表型分析示例(Thomas et al. 2016)
圖中展示了結(jié)腸癌患者及健康人群的結(jié)腸樣本細(xì)菌群落在好氧、厭氧、革蘭氏陰性、陽性、生物膜形成及兼性厭氧等表型上的相對(duì)豐度差異,p值經(jīng)Wilcoxonrank sum test計(jì)算得到,p <0.05表示差異顯著,三條線自上而下分別表示上四分位、平均值及下四分位。
至此,目前常用的基于微生物marker基因的微生物群落功能預(yù)測工具介紹完畢。表1從不同角度列出了這些工具的特點(diǎn),以方便大家選擇使用。另外,根據(jù)盧瑟菌的個(gè)人理解,簡單總結(jié)各工具的選擇策略,僅供參考:
①若想獲得原核微生物的KEGG代謝通路或相關(guān)酶等類似宏基因組測序獲得的功能預(yù)測信息,選擇PICRUSt和Tax4Fun。其中前者有定量的預(yù)測準(zhǔn)確度評(píng)估參數(shù)NSTI,若NSTI≤0.17則說明PICRUSt的預(yù)測準(zhǔn)確度較好。雖然Tax4Fun文中指出其預(yù)測準(zhǔn)確性高于PICRUSt,但缺乏類似于NSTI的定量參數(shù)評(píng)估。因此,當(dāng)NSTI >0.17時(shí),建議兩種方法都試一下,看看結(jié)果是否一致。另外,除了考慮預(yù)測的準(zhǔn)確度之外,預(yù)測力度或覆蓋度(即能被預(yù)測的OTU的序列數(shù)占總序列數(shù)的比例)也是要考慮的參數(shù)。
②想了解原核微生物群落生態(tài)功能,尤其是在碳、氫、氮、磷、硫等元素的生物地球化學(xué)循環(huán)中的功能預(yù)測情況,選擇FAPROTAX。
③想獲得原核微生物群落的好氧、厭氧、兼性厭氧、生物膜形成、革蘭氏陽性/陰性等高水平的表型分類情況,選擇BugBase。
④想獲得真菌群落的共生、腐生、致病性等生態(tài)型分類,選擇FUNGuild。
⑤上述所有基于marker基因的功能預(yù)測方法,都不能完全代表真實(shí)的微生物群落功能,若想嚴(yán)謹(jǐn)?shù)刈C明微生物群落確實(shí)存在某功能(基因),仍需要結(jié)合宏基因組、宏轉(zhuǎn)錄組、宏蛋白組、宏代謝組及其他微生物功能、活性測定方法來共同佐證。
表1 常用微生物群落功能預(yù)測工具比較
聯(lián)系客服