免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
瞬息全堿基:泛基因組日臻成熟 |《自然》長文

本篇《自然》長文共5106字,干貨滿滿,預(yù)計(jì)閱讀時(shí)間16分鐘,時(shí)間不夠建議可以先“浮窗”或者收藏哦。

原文作者:Michael Eisenstein

被稱為泛基因組的多基因組組裝可捕捉物種的遺傳多樣性信息,不過研究者們?nèi)栽谘芯繕?gòu)建和探索它的最佳方式。

長讀長測序系統(tǒng)的應(yīng)用降低了確定給定序列所屬染色體拷貝的難度。來源:SCIEPRO/Getty

“參考”一詞流露著權(quán)威之意,提示在我們評估新信息時(shí)可將其視作可信的信源。百科全書和地圖集如此,而描繪一物種染色體DNA完整序列的超高精度圖譜——參考基因組(reference genome)亦是如此。

但實(shí)際上大家都知道,在呈現(xiàn)真實(shí)世界中的生物藍(lán)圖時(shí),單個參考基因組往往表現(xiàn)不佳。西澳大學(xué)的生物信息學(xué)家David Edwards回憶起,有個同事曾想用一種經(jīng)過充分研究的單一小麥品系來研究小麥遺傳變異對基因表達(dá)的影響?!拔覀儼l(fā)現(xiàn)商品化小麥品系大約有20000個基因不存在于當(dāng)時(shí)使用的那個參考基因組中?!彼f。“除非考慮到這個,不然錯過的可就多了?!?/p>

植物是個極端例子,它們有極其復(fù)雜多變的基因組,但隱匿的基因組多樣性無處不在。有一項(xiàng)在64個不同人類個體基因組中開展的比較研究,揭示了近1600萬個單核苷酸變異以及大于200萬個由序列的缺失或插入所造成的結(jié)構(gòu)變異[1]。這就使得任何一個基因組都不可能被定義為可用于比較其他基因組的“參考”。而且迄今為止被測序解析出的基因組大多來自西歐祖先的人,可能遺漏適用于其他遺傳背景個體的基因組的關(guān)鍵發(fā)現(xiàn)?!霸O(shè)想某種可能的基因組學(xué)醫(yī)療實(shí)踐,給某些祖先的人用療效較好,但用于其他祖先的人時(shí)更差了,這算得上是場噩夢?!钡聡湃麪柖喾虼髮W(xué)計(jì)算基因組學(xué)研究員Tobias Marschall說,他是該比較研究的主要作者。

解決方法是泛基因組(pangenome):作為一種由多個基因組組成的復(fù)合型參考基因組,它在各染色體位點(diǎn)上都捕捉到更大范圍的可變性和多樣性信息。泛基因組此前已是用于微生物和植物研究的完備工具,現(xiàn)在終于要進(jìn)入脊椎動物研究了。2022年7月,人類泛基因組參考聯(lián)盟(Human Pangenome Reference Consortium, HPRC)發(fā)表了人類泛基因組草圖的預(yù)印本,這份草圖基于47位在種族和地理多樣性上具有廣泛代表性的人類個體[2]。還有數(shù)百個基因組現(xiàn)已納入該基因組組裝。

但泛基因組還太新了,這個領(lǐng)域仍在努力解決如何整合和探索它們等問題,以及如何勸說研究者們放下他們熟悉的傳統(tǒng)基因組學(xué)中的線性參考?!罢麄€領(lǐng)域的改變大約要花上十年?!奔又荽髮W(xué)圣克魯斯分校計(jì)算基因組學(xué)研究員Benedict Paten預(yù)測,他也參與了HPRC?!澳惚仨氉C明它確實(shí)為人們帶來了些改進(jìn)——不然意義何在?”

覆蓋多領(lǐng)域

和許多遺傳學(xué)領(lǐng)域的進(jìn)展一樣,泛基因組學(xué)最早也來自單細(xì)胞微生物研究。2005年,一個由美國基因組研究所的Claire Fraser和意大利Chiron疫苗公司的Rino Rappuoli共同領(lǐng)導(dǎo)的研究團(tuán)隊(duì),在8株無乳鏈球菌(一種可導(dǎo)致幼兒潛在致命感染的細(xì)菌)分離株的基礎(chǔ)上建立了基因組組裝[3]。每向該組裝中添加一個基因組的數(shù)據(jù),便會向該組裝中引入數(shù)十個新基因。該基因組組裝被研究者們稱為“泛基因組”(pan-genome,“pan”在希臘語中意為“整體”),這一名稱對傳統(tǒng)參考基因組的缺點(diǎn)算是直言不諱。

微生物泛基因組學(xué)是正處于蓬勃發(fā)展中的一個研究領(lǐng)域。美國加州大學(xué)圣地亞哥分校的系統(tǒng)生物學(xué)家Bernhard Palsson說,截至2013年,他的研究團(tuán)隊(duì)已將55種不同的大腸桿菌Escherichia coli菌株匯編為一個泛基因組[4]。通過評估各基因組間的變異與這些細(xì)菌的生物學(xué)功能之間存在著怎樣的關(guān)聯(lián),他們能夠?qū)⒓?xì)菌在代謝和毒力上的差異聯(lián)系到特定的基因和染色質(zhì)特征。在那之后,Palsson團(tuán)隊(duì)將泛基因組這一概念推廣到了菌株和物種水平之外,用以研究親緣關(guān)系更遠(yuǎn)的生物,包括一類名為乳桿菌科Lactobacillaceae的細(xì)菌?!拔覀冇屑s3500個基因組可供研究使用?!彼f。

第一批真核生物的泛基因組則出現(xiàn)于植物學(xué)研究領(lǐng)域,首先是2014年由7個大豆基因組組成的基因組組裝,由中國農(nóng)業(yè)科學(xué)院的農(nóng)作物遺傳學(xué)家邱麗娟領(lǐng)導(dǎo)的研究小組創(chuàng)立[5]。小麥、玉米和水稻等重要農(nóng)作物的泛基因組緊隨其后出現(xiàn)?!艾F(xiàn)在大多數(shù)主要農(nóng)作物物種都有泛基因組數(shù)據(jù)了?!蔽靼拇髮W(xué)的植物基因組學(xué)研究員Jacqueline Batley說,她也是Edwards的一位密切合作者。植物生物學(xué)家們正在利用這些資源開發(fā)經(jīng)過改良的遺傳變體,整合了與抗旱、抗病原體、增產(chǎn)以及其他有價(jià)值的性狀相關(guān)的遺傳特征。

在測序技術(shù)和基因組組裝等領(lǐng)域的創(chuàng)新推動下,人類泛基因組領(lǐng)域已取得進(jìn)展,一個由全世界研究人員組成的研究網(wǎng)絡(luò)在2022年3月發(fā)布第一份真正完整的“端粒到端?!钡幕蚪M序列[6]。共同領(lǐng)導(dǎo)這項(xiàng)工作的UCSC遺傳學(xué)家Karen Miga表示,完成于2019年的首份完整人類X染色體序列(其中充斥著排列得雜亂無章的高度重復(fù)元素)就像“射向空中的一枚信號彈”,表明學(xué)界終于獲得進(jìn)一步探尋人類參考泛基因組的能力。她說,“這就是搞清楚如何獲得正確的數(shù)據(jù)和組裝策略的問題。”HPRC同年啟動,Miga擔(dān)任項(xiàng)目負(fù)責(zé)人。

進(jìn)展頻頻

在首批泛基因組的構(gòu)建中,收集DNA序列信息主要采用的是美國Illumina公司開發(fā)的“短讀長(short-read)”系統(tǒng)。該系統(tǒng)雖然非常準(zhǔn)確,但產(chǎn)生的讀長僅有大約100-200個核苷酸。研究人員可以將這些DNA序列片段組裝成“連續(xù)序列片段”(contig),從而揭示那些相對較小的差異,例如單核苷酸變體和“插入缺失”(inDel,少量核苷酸的插入或缺失),但是無法解決那些更大的結(jié)構(gòu)變異。出于這個原因,早期的泛基因組通常會將短讀長測序所得的各樣本contig映射到一個現(xiàn)有參考基因組。這種方法容易生成以基因?yàn)橹行牡姆夯蚪M,缺失單個基因組中的復(fù)雜結(jié)構(gòu)變異。后者可能在基因調(diào)控中發(fā)揮重要作用,而且可能蘊(yùn)含了與基因組演化有關(guān)的重要信息。

盡管如此,這些“從圖譜到泛基因組”的方法仍有其用處。Edwards和Batley指出,他們曾于2017年基于短讀長測序分析首次嘗試構(gòu)建小麥泛基因組,所構(gòu)建的泛基因組對于確定哪些基因不存在于或僅存在于特定品種而言頗為有效[7]。但這種也完全違背了創(chuàng)建泛基因組的初衷,因?yàn)樵摲椒ㄔ谶x擇具體以哪一個基因組作為構(gòu)建泛基因組的基礎(chǔ)時(shí)就會引入偏倚的干擾,使得同一物種泛基因組的各組裝之間出現(xiàn)很大的不同。

更好的解決方法是先構(gòu)建多個具有參考基因組質(zhì)量的基因組,然后以無偏倚的方式比對這些基因組,從而描繪它們之間的位置關(guān)系以及差異所在。這一方法因而“長讀長(long-read)”測序技術(shù)的快速發(fā)展而變得可行。

更長的讀長也簡化了另一個棘手問題。人類以及很多動植物都是二倍體(diploid),這意味著這些生物個體所攜帶的各條常染色體有兩個拷貝。每個拷貝都有自己的變異模式,即所謂單倍型(haplotype)。有些物種的常染色體拷貝數(shù)不止兩個,例如小麥就有六個。這就給短讀長測序帶來了一個令人困惑的問題:如何將給定的讀段分配給多個染色體拷貝中的具體哪個拷貝?!斑@就像把兩張巨大的拼圖混在一起,兩者的碎片都很像,你不知道某一塊碎片到底屬于哪張拼圖?!泵绹蹇朔评沾髮W(xué)的神經(jīng)遺傳學(xué)研究員Erich Jarvis說。他補(bǔ)充說這是“獲得準(zhǔn)確的基因組數(shù)據(jù)集一個最大的問題”。

突破進(jìn)行中

為了完成HPRC的泛基因組“初稿”,Jarvis和Miga及其同事借助各DNA捐贈者父母的基因組數(shù)據(jù)解決了單倍型問題,了解到各組變異的母方或父方來源[8]。長讀長測序在此不可或缺,它使HPRC的科學(xué)家們得以遍歷足夠長的DNA片段,從而區(qū)分染色體的兩個拷貝。通過將來自全部三個基因組的數(shù)據(jù)導(dǎo)入一個名為Hifiasm的軟件工具,研究人員能夠在各染色體單倍型均被明確解析(即“確定相位”)的前提下重建二倍體基因組。

盡管如此,就這一泛基因組初始版本中的47個二倍體基因組而言,它們并非像“從端粒到端?!被蚪M那樣可被算作完整的基因組組裝。建立它們的過程中用到了一種特殊的細(xì)胞系,該細(xì)胞系所攜帶的兩個染色體拷貝是完全相同的。而在真正的二倍體細(xì)胞中,Jarvis說,HPRC的工作流程通常產(chǎn)生不是一整條染色體,而是數(shù)百個大型contig,在高度相似的重復(fù)基因陣列、以及粗糙重復(fù)的著絲粒區(qū)域(該區(qū)域連接了攜帶基因的染色體臂)均會出現(xiàn)空隙。他說,HPRC仍在努力探尋處理這些問題區(qū)域的最佳方式。

好消息是現(xiàn)有的工作流程已實(shí)現(xiàn)對大部分基因組的分析,并可在很大程度上實(shí)現(xiàn)自動化。Marschall著重強(qiáng)調(diào)了一個名為Verkko的軟件,是他之前的學(xué)生Mikko Rautiainen在美國國家人類基因組研究所做博士后時(shí)開發(fā)的,能夠極大簡化二倍體組裝的過程?!坝行┙馕龀龅娜旧w呈現(xiàn)出單一且定相的contig形式”,他說。這應(yīng)該有助于HPRC實(shí)現(xiàn)其目標(biāo),到2024年時(shí)為第一代人類泛基因組組裝350個基因組。

HPRC的科學(xué)家們還找到了實(shí)驗(yàn)方法,能幫助他們把來自同一條染色體的測序讀長連接在一起(即使它們在染色體上相距甚遠(yuǎn)),消除了收集測序親代DNA的繁瑣要求。“我認(rèn)為我們現(xiàn)在幾乎可以做到用單個二倍體基因組樣本就獲得'端粒到端?!幕蚪M組裝”,Marschall說。

這就產(chǎn)生了一個重要問題:如何描繪泛基因組。在過去的20年中一直被用于展示參考基因組的線性圖譜,不適用于包含了數(shù)十、數(shù)百乃至數(shù)千個獨(dú)立基因組的基因組組裝。

該領(lǐng)域的大多數(shù)研究人員都把“圖泛基因組(graph pangenome)”作為這個問題的最佳解決方案(見“泛基因組可視化”)。在這些精心制作的網(wǎng)絡(luò)圖中,基因組序列中的共有區(qū)域被壓縮為大家熟悉的扁平直線,但在可能發(fā)生變異的位點(diǎn)處彎出多條不同路徑。可以將其想象成一張展示了列車默認(rèn)路線的城市公共交通地圖。為路段養(yǎng)護(hù)、交通事故或運(yùn)營高峰所作出的行車安排調(diào)整,可能會導(dǎo)致列車改道至其他線路或跳過部分車站,但在繞行的總數(shù)量上存在限制。列車線路圖樣式的地圖可以呈現(xiàn)路線的不變部分,以及所有已知可能發(fā)生的繞道(本質(zhì)上描繪了該線路單倍型的可能范圍)。

計(jì)算基因組學(xué)的研究人員仍在研究構(gòu)建此類圖形的最佳方法,HPRC泛基因組草圖的預(yù)印本探索了幾種可能的方案。其中一個方法涉及對多個獨(dú)立二倍體基因組進(jìn)行迭代性組裝。但Miga表示,這種方法盡管可以很好地處理較大的結(jié)構(gòu)變化,卻“不具有精確到堿基的分辨率”。另一種需要進(jìn)行密集計(jì)算的方法是對所有基因組進(jìn)行同步對齊,該方法對于包含基因的區(qū)域效果很好,但很難處理具有高重復(fù)性、低復(fù)雜性特點(diǎn)的那些區(qū)域?!斑@就是為什么這篇論文在標(biāo)題中有'草圖’一詞,以說明這是我們的首次嘗試”,Marschall說。

而構(gòu)建非人類泛基因組的研究人員們則面臨著更為嚴(yán)峻的挑戰(zhàn)。例如Edwards和Batley發(fā)現(xiàn),圍繞人類基因組而開發(fā)的圖形組裝軟件在應(yīng)用于植物時(shí)的工作效果不佳?!拔覀冃枰嗟墓ぞ摺?,Edwards說,指出其中一個關(guān)鍵問題在于植物基因組相對于人類基因組具有的更大復(fù)雜性。Jarvis目前正參與協(xié)調(diào)一項(xiàng)為地球上每種脊椎動物建立參考基因組的“脊椎動物基因組計(jì)劃”(Vertebrate Genomes Project),他說HPRC的路徑在應(yīng)用至許多我們的近親動物時(shí)效果不佳?!凹词故菓?yīng)用于人類泛基因組,我們也發(fā)現(xiàn)那些組裝工具需要針對不同人類個體進(jìn)行一些調(diào)整?!盝arvis說。

還有一個挑戰(zhàn)是獲得來自更廣泛學(xué)術(shù)社群的支持。人類參考基因組過去的幾次迭代在轉(zhuǎn)入日常使用上速度緩慢,許多臨床實(shí)驗(yàn)室至今仍未采用當(dāng)下最先進(jìn)的一版人類參考基因組GRCh38。此外,該領(lǐng)域以外的研究者們可能不喜歡這種新的參考基因組格式?!叭藗儽粓D形嚇退了?!盉atley說。

一種解決方案是構(gòu)建能將圖泛基因組本身藏到幕后的工具,并讓研究者們能借助更為用戶友好的圖形界面來查詢基因組的特定區(qū)域。Miga贊成在人類泛基因組與GRCh38序列坐標(biāo)之間建立聯(lián)系,這樣當(dāng)前參考基因組的使用者就無需完全修改他們的分析流程。但她補(bǔ)充說,促進(jìn)大家接納圖泛基因組將是HPRC明年的首要任務(wù)。

全新參考架構(gòu)

最終對泛基因組最好的推廣,是能證明其力量的證據(jù),而該領(lǐng)域的先驅(qū)者們正期待著組裝良好的基因組參考所能揭開的秘密。

正遙遙領(lǐng)先的仍是微生物泛基因組學(xué)。Palsson提及他的團(tuán)隊(duì)在2018年開展的一項(xiàng)工作,他們利用一個由近1600個結(jié)核分枝桿菌Mycobacterium tuberculosis,結(jié)核病的致病菌)分離株組成的泛基因組對單倍型特異表型進(jìn)行了分析[9]。“我們可以將它(基因組變異)與代謝特征聯(lián)系起來,并闡明抗菌藥物耐藥機(jī)制?!彼f。

與此類似的是,植物泛基因組正在幫助研究人員找到一些從前被忽視的、賦予植物惡劣環(huán)境條件下生存優(yōu)勢的基因。中國科學(xué)院的植物基因組學(xué)家田志喜指出,其中許多相關(guān)遺傳特征存在于結(jié)構(gòu)上具有可變性的基因組區(qū)域,早期的參考基因組中沒有?!巴ǔD切┛刂茟?yīng)激相關(guān)表型的基因在基因組中是重復(fù)出現(xiàn)的,”他說,“劑量差異會引起性狀不同?!?/p>

泛基因組圖譜在揭示隱匿變異上可能有同樣強(qiáng)大的力量,這些變異隱藏于人類復(fù)雜的發(fā)育和病理狀態(tài)背后。例如,臨床基因組學(xué)中一般會收集數(shù)百萬個微小的短讀長測序片段,Paten小組的Giraffe算法可以對這些片段進(jìn)行分析,并根據(jù)泛基因組圖譜推斷出某人的片段序列遵循哪一條單倍型“路徑”,從而填補(bǔ)他們基因組剩下的空白部分。Jarvis還提到了有可能創(chuàng)建關(guān)注特定疾病和發(fā)育條件(例如自閉癥譜系障礙)的泛基因組,將其與基線泛基因組進(jìn)行比較,從而識別出多種不同的基因組特征。

另一個振奮人心的可能性是將參考泛基因組與其他生物學(xué)信息相結(jié)合,從而更全面地審視染色體變異對細(xì)胞功能的影響。例如,一些研究人員正在創(chuàng)建“泛轉(zhuǎn)錄組”數(shù)據(jù)集,即用RNA測序?qū)蚪M數(shù)據(jù)進(jìn)行補(bǔ)充,用以研究DNA變異如何影響相應(yīng)基因轉(zhuǎn)錄產(chǎn)物的數(shù)量和結(jié)構(gòu)。HPRC團(tuán)隊(duì)目前正在從其樣本供體的基因組中收集表觀遺傳學(xué)數(shù)據(jù),從而更好地了解基因表達(dá)在分子尺度上的個體間差異。

“這不只是堿基對的問題,”Miga強(qiáng)調(diào),“我們需要著手在泛基因組基礎(chǔ)上構(gòu)建此類注釋圖譜,把它變成一站式的?!?/p>

參考文獻(xiàn):

1.Ebert, P. et al. Science 372, eabf7117 (2021).

2.Liao, W.-W. et al. Preprint at bioRxiv https://doi.org/10.1101/2022.07.09.499321 (2022).

3.Tettelin, H. et al. Proc. Natl Acad. Sci. USA 102, 13950–13955 (2005).

4.Monk, J. M. et al. Proc. Natl Acad. Sci. USA 110, 20338–20343 (2013).

5.Li, Y.-H. et al. Nature Biotechnol32, 1045–1052 (2014).

6.Nurk, S. et al. Science 376, 44–53 (2022).

7.Montenegro, J. D. et al. Plant J90, 1007–1013 (2017).

8.Jarvis, E. D. et al. Nature 611, 519–531 (2022).

9.Kavvas, E. S. et al. Nature Commun9, 4306 (2018).

原文以Every base everywhere all at once: pangenomics comes of age標(biāo)題發(fā)表在2023年4月18日《自然》的技術(shù)特寫版塊上

? nature

doi: 10.1038/d41586-023-01300-w

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
基因組學(xué)的新時(shí)代:完美參考基因組
勝利在望:即將完整的人類基因組
這就是全世界最牛的個人基因組測序結(jié)果,沒有之一
解密最后的“空白區(qū)” 首個完整無間隙人類基因組序列公布
Cell:首次完成單個人精子全基因組測序
關(guān)于基因你不可不知的一些知識!
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服