摘要
擴(kuò)增子測序在微生物群相關(guān)研究中被廣泛實(shí)施。近年來,微生物生態(tài)學(xué)家已經(jīng)改用新的算法進(jìn)行分類鑒定和量化。擴(kuò)增子序列變異(ASV)去噪算法的無偏序列挑選已經(jīng)取代了OTU聚類方法。ASV可用于檢測和區(qū)分生物變異到物種OTU水平(≥97%的相似度)。然而,樣品之間的ASV量化是稀疏的,在同一批樣品中也不太普遍。
在此,我們提出了一種基于k-mer的無對齊算法KTU'(K-mer分類單元)--將ASVs迭代地重新聚集成最佳的生物分類單元。
KTU'算法包括四個(gè)部分:(a)K-mer頻率調(diào)用是通過DNA序列兩端的四核苷酸頻率的滑動(dòng)窗口來計(jì)算的。(b) 序列之間的k-mer頻率的相似性用余弦差值來衡量。(c) 用余弦異同矩陣檢測KTU,使用圍繞中間物的分區(qū)(PAM)聚類算法。迭代的PAM-KTU檢測過程根據(jù)最大剪影系數(shù)來搜索KTU收斂集群的數(shù)量。(d) 最后,ASVs被聚集到相應(yīng)的KTU中。
KTU每1.38-4.53個(gè)ASVs重新聚類為一個(gè)特征,平均序列相似度>99%,每個(gè)KTU的余弦分歧為1%。此外,重新聚類的程序改善了對臨床和環(huán)境因素的相關(guān)性和意義的生物學(xué)解釋。
(KTU re-clustered every 1.38–4.53 ASVs into a feature with >99% sequence similarity on average and 1% cosine divergence for each KTU.)
引言
高通量測序(HTS)技術(shù)為十年來大規(guī)模的環(huán)境微生物組調(diào)查,甚至是宿主與微生物的相互作用奠定了基礎(chǔ)?,F(xiàn)在,微生物學(xué)家仍然遵循卡爾-沃斯的策略,即比較普遍保守的成分來推斷進(jìn)化關(guān)系?;诜肿隅娂僬f,核糖體RNA(rRNA)基因可作為良好的分子分類學(xué)標(biāo)記,因?yàn)樗鼈冊诠δ苌鲜潜J氐模⑶矣泻愣ǖ倪M(jìn)化變化率。因此,小亞單位rRNA基因(16S和18S)序列成為獨(dú)立于培養(yǎng)的微生物分類的基礎(chǔ)。Stackebrandt和Goebel(1994)首先將16S rRNA基因序列的身份閾值定義為97%,作為 "物種 "操作分類單位(OTU)。
隨后開發(fā)了聚類方法,利用基于排列的算法構(gòu)建16S rRNA基因的OTU。盡管聚類方法善于管理大量的HTS序列,但如果原始輸入數(shù)據(jù)(包括reads數(shù)量和樣本數(shù)量)發(fā)生變化,它們就不能再現(xiàn)相同的聚類。此外,聚類方法容易高估由PCR擴(kuò)增偏差引起的OTU多樣性。去噪算法--例如DADA2、Deblur和UNOISE3--正在取代OTU聚類方法來處理擴(kuò)增子序列。這些去噪方法可以保留準(zhǔn)確的序列變體(也叫擴(kuò)增子序列變體,ASVs),這些變體可能被聚類所隱藏,并產(chǎn)生精細(xì)的分辨率和可重復(fù)的特征。
去噪方法被推薦用于基于擴(kuò)增子的微生物相關(guān)研究,并被設(shè)置為QIIME2管道中的默認(rèn)算法。然而,細(xì)分辨率的序列特征(即ASVs)使特征(ASV)表過于稀疏(太多的零)。瑣碎的特征也低估了微生物組和相關(guān)因素之間的關(guān)聯(lián),如環(huán)境數(shù)據(jù)和宿主表型。在本文中,我們提出了一種算法-KTU(K-mer Taxonomic Unit),用于重新對ASV進(jìn)行聚類,提高與環(huán)境/臨床因素相關(guān)的微生物組的生物相關(guān)性。KTU算法是作為一個(gè)R軟件包開發(fā)的(可在https://github.com/poyul iu/KTU),可在R環(huán)境中執(zhí)行。KTU算法的核心包括四個(gè)步驟,整合為一個(gè)步驟的函數(shù)(圖1)。
算法
KTU包的主要算法--聚類(klustering)--被執(zhí)行來重新聚類有代表性的ASV序列(fasta格式),這些序列是用去噪過程(例如嵌入QIIME2管道的DADA2插件;也支持其他去噪管道)生成的。在重新聚類過程后,可以將ASV特征表組裝起來,創(chuàng)建一個(gè)聚合的KTU表。
方法
為了驗(yàn)證KTU算法提高了基于擴(kuò)增子的分析的生物學(xué)相關(guān)性,我們從EMBL-EBI ENA和NCBI SRA數(shù)據(jù)庫中檢索了四個(gè)先前發(fā)表的擴(kuò)增子數(shù)據(jù)集。這些數(shù)據(jù)集包括一項(xiàng)對酸面團(tuán)起動(dòng)器中簡單細(xì)菌組成的研究、一項(xiàng)臨床腸道微生物組關(guān)聯(lián)研究、一項(xiàng)野生動(dòng)物腸道微生物組研究和一項(xiàng)時(shí)間序列生物反應(yīng)器實(shí)驗(yàn)研究。酸面團(tuán)微生物組數(shù)據(jù)集被用來評估重新聚類的功效,包括KTU算法的可重復(fù)性(見支持信息文本)、系統(tǒng)發(fā)育關(guān)系的正確性、KTU內(nèi)分類學(xué)的一致性和阿爾法多樣性估計(jì)(觀察特征、香農(nóng)指數(shù)和菲斯系統(tǒng)發(fā)育多樣性)。相關(guān)的元數(shù)據(jù)從原始論文中檢索出來,或者通過與作者的私下溝通。進(jìn)行了相關(guān)分析,以評估KTU和環(huán)境或臨床因素之間的生物相關(guān)性(相關(guān)系數(shù)作為效果大小的衡量標(biāo)準(zhǔn))。擴(kuò)增子序列使用輔助信息方法中描述的QIIME2管道進(jìn)行處理。然后將ASV特征表導(dǎo)入R環(huán)境中。預(yù)先加載的特征表和ASV代表序列fasta文件使用klustering功能進(jìn)行了重新聚類。隨后的KTU微生物組關(guān)聯(lián)分析用R軟件包MARco進(jìn)行并可視化。Faith的系統(tǒng)發(fā)育多樣性(PD)是用picante包中的'pd'函數(shù)計(jì)算的。
結(jié)果
驗(yàn)證KTU的生物學(xué)意義。靈活的序列特征聚合反映了系統(tǒng)發(fā)育的異質(zhì)性差異
為了驗(yàn)證KTU重新聚類算法的功效和生物學(xué)意義,我們重新分析了來自酸面團(tuán)起動(dòng)器的細(xì)菌群落數(shù)據(jù)集。酸面團(tuán)起動(dòng)器中的復(fù)合微生物可以提高面團(tuán)的酸度和面包的味道。這些以酵母和乳酸菌為主的自然發(fā)生的微生物群落來自于原料和面包師的手。Reese等人(2020年)對18個(gè)酸面包起動(dòng)器(每個(gè)都由不同的面包師制作)的真菌和細(xì)菌組成進(jìn)行了表征。這些酸面團(tuán)起動(dòng)器的細(xì)菌群落主要由乳酸菌ASVs組成。這些群落很簡單,足以單獨(dú)描述每種微生物的特征。在這里,我們只檢索了18個(gè)起動(dòng)器的細(xì)菌數(shù)據(jù)集,以重新分析和評估KTU重新聚類的功效,并糾正其分類(即揭示KTU的真正生物學(xué)意義)。
有186個(gè)ASVs被識別并聚類到135個(gè)KTU(平均每個(gè)KTU有1.38個(gè)ASVs被聚類;KTU內(nèi)平均序列同一性為99.79%,平均余弦分歧為0.01;圖S1a;表S4)。我們繪制了18個(gè)酸面包起動(dòng)器的細(xì)菌組成與KTU(圖2a)??偟膩碚f,23個(gè)KTU構(gòu)成了18個(gè)酸包起動(dòng)器中99.9%的細(xì)菌;最豐富的屬--平均豐度大于1%--包括乳球菌、白球菌、小球菌和乳酸桿菌,與Reese等人的結(jié)果一致。然而,Huang等人(2018年)表示,由于組內(nèi)相似度高(>99%),各種乳酸菌的群體(如L. buchneri、L. casei、L. plantarum和L. sakei)是無法區(qū)分的。對酸面團(tuán)起動(dòng)器的主要KTU的ASVs(由52個(gè)ASVs聚合而成)的系統(tǒng)發(fā)育分析表明,KTU能夠?qū)⑷樗峋鶤SVs聚類到其相似度超過99%的接近的亞系中(圖2b;表S1)。這表明KTU不僅能夠?qū)⑻囟ǖ娜樗峋锓N聚集到相同的分類單位中,而且還能聚集到相同的系統(tǒng)發(fā)育線中。
應(yīng)用SILVA 132、NCBI 16S rRNA和非冗余(nr)數(shù)據(jù)庫來驗(yàn)證分類法的一致性(表S1)??偟膩碚f,23個(gè)KTU中的21個(gè)被歸入各自的屬,甚至種,都是一致的。此外,22個(gè)乳酸菌ASVs被重新聚類到7個(gè)不同的乳酸菌KTU中,并保持一致或與 "最接近譜系 "的物種一致。該結(jié)果與2個(gè)乳酸菌屬和23個(gè)新屬的乳酸菌的最新分類一致(Zheng等,2020)。我們的結(jié)果表明,KTU算法將ASVs重新聚類到原核生物的屬甚至種和菌株級別。然而,該算法受到16S擴(kuò)增子的屬級分辨率的限制。另一方面,23個(gè)KTU中的2個(gè)在集群內(nèi)被分配了不同的屬名--一個(gè)是潘多拉菌屬+Erwinia,另一個(gè)是腸桿菌屬+未分類的腸桿菌屬。根據(jù)系統(tǒng)發(fā)育分析(圖2b)和與NCBI數(shù)據(jù)庫的交叉驗(yàn)證,這些KTU是由部分16S序列(如V4區(qū)100%相同)無法區(qū)分的模糊分類群組成。
阿爾法多樣性是另一個(gè)與評估重新聚類功效有關(guān)的生物學(xué)問題。瑣碎的ASVs容易高估阿爾法多樣性。相反,重新聚類方法(KTU和基于排列的方法)允許聚類內(nèi)的核苷酸變體反映生物現(xiàn)實(shí)。據(jù)估計(jì),ASVs的豐富度(觀察到的OTU)和香農(nóng)指數(shù)的值都很高,KTU估計(jì)的α多樣性指數(shù)值在97%和99%的OTU聚類。然而,ASV、KTU和基于排列的聚類方法產(chǎn)生了相同的系統(tǒng)發(fā)育成分(Faith的系統(tǒng)發(fā)育多樣性;圖S2)。
案例1:血漿三甲胺-N-氧化物(TMAO)濃度與人類腸道微生物群失調(diào)相關(guān)聯(lián)
Wu等人(2019年)對56名健康人實(shí)施了口服肉堿挑戰(zhàn)試驗(yàn)(OCCT),以篩選產(chǎn)生TMAO的高性能腸道微生物群組成,TMAO是一種與心血管疾?。–VD)相關(guān)的微生物代謝產(chǎn)物。一項(xiàng)為期1個(gè)月的OCCT試驗(yàn)表明,雜食者或素食者的腸道微生物群有產(chǎn)生TMAO的風(fēng)險(xiǎn)。在OCCT試驗(yàn)的56個(gè)個(gè)體中,總共確定了1637個(gè)OTU中的39個(gè),然后由50名CVD患者驗(yàn)證,隨機(jī)森林(RF)分類模型的AUROC為0.8(該參考文獻(xiàn)使用QIIME1聚類管道;Wu等人,2020)。在此,我們使用QIIME2與DADA2去噪管道和KTU重新聚類過程重新分析了OCCT試驗(yàn)數(shù)據(jù)集。有3811個(gè)ASVs被識別并聚類為1192個(gè)KTU(平均每個(gè)KTU有3.2個(gè)ASVs被聚類;KTU內(nèi)平均序列一致性為99.34%,平均余弦分歧為0.01;圖1b和表S4)。在KTU重新聚類后,數(shù)據(jù)解釋功效得到改善,用于PCoA排序的β多樣性、TMAO濃度與微生物組成的相關(guān)性和隨機(jī)森林分類模型(圖3;圖S3)。
由于KTU算法將瑣碎的ASV聚集成較少的分類單元,前兩個(gè)軸解釋的β多樣性的百分比從13.83%(ASV;圖3b)增加到20.38%(KTU;圖3a);它也改善了ADONIS模型的方差解釋(R2)。與原始ASV數(shù)據(jù)(|r| = 0.21,p = 0.028;圖3d)相比,KTU重新聚類的數(shù)據(jù)顯示血漿TMAO濃度與微生物組成之間有更好的相關(guān)性(|r| = 0.33,p < 0.001;圖3c)。
我們對兩個(gè)數(shù)據(jù)集都使用了RF分類模型,并遵循原論文的標(biāo)準(zhǔn),使用TMAO相關(guān)的前2.5%的OTU進(jìn)行訓(xùn)練模型。與TMAO相關(guān)的前2.5%的KTU和ASV在診斷RF分類模型中分別達(dá)到0.84和0.83的AUROC;但是,KTU RF模型僅用29個(gè)特征進(jìn)行訓(xùn)練(圖S3a,b),而ASV RF模型為61個(gè)(圖S3c,d)。
結(jié)論
KTU重新聚類算法被設(shè)計(jì)用來對去噪管道中的rRNA基因擴(kuò)增子序列進(jìn)行后處理。使用重新聚類的特征(稱為 "KTU")可以改善解釋方差(β多樣性排序)和生物相關(guān)性(相關(guān)分析),因?yàn)镵TU算法聚集了瑣碎的ASV特征,使數(shù)據(jù)分布更加連續(xù)。KTU傾向于允許聚合特征內(nèi)的序列差異。聚合過程沒有確切的序列相似性截止點(diǎn);相反,KTU算法的圍繞中間物的分區(qū)聚類方法在余弦異同空間中搜索收斂的聚類。
我們使用來自酸面團(tuán)起動(dòng)器、臨床研究、野生動(dòng)物腸道微生物組調(diào)查和人工生物反應(yīng)器監(jiān)測的數(shù)據(jù)集應(yīng)用該算法。我們算法的結(jié)果顯示 KTU重新聚類程序集中了瑣碎的ASV特征,并提高了研究中感興趣區(qū)域的統(tǒng)計(jì)學(xué)意義和與生物/生物因素的生物學(xué)相關(guān)性(即p值和相關(guān)系數(shù),分別為Martínez-Abraín,2008)。基于系統(tǒng)發(fā)育分析和跨數(shù)據(jù)庫驗(yàn)證,我們論證了KTU的聚集不是人為的偽裝;此外,KTU精確地將具有高相似性的類群,如乳酸菌屬類群聚集起來。這一功效與使用多個(gè)單拷貝基因的蛋白質(zhì)序列的分類群識別方法一致(Zheng等,2020)。
此外,兩種重新聚類方法(KTU和OTU by Vsearch聚類;Bokulich等人,2018)都合理地降低了對阿爾法多樣性(豐富度和香農(nóng)指數(shù))的估計(jì),但不改變系統(tǒng)發(fā)育的構(gòu)成(Faith's PD指數(shù))。KTU算法,一個(gè)無對齊和無單值截止的程序,更合理地聚類了最佳的分類單位數(shù)量(由于原核生物之間16S的異速系統(tǒng)發(fā)育分歧)。