一日連發(fā) 6 篇 Science 和多篇 Nature 子刊論文
這一系列工作起始于 2018 年,并在 2019 年官宣。而今天發(fā)布的是一個葡萄胎細胞系的 22 條常染色體加 X 性染色體基因組。在本次全基因組之前已經(jīng)發(fā)表了兩條染色體完整基因組。X 染色體的完整基因組相關(guān)論文于 2020 年發(fā)表在 Nature 上;即將加入上海交通大學(xué)擔任長聘教軌副教授的毛亞飛,參與了第一條常染色體(8號染色體)的部分工作,相應(yīng)論文于 2021 年發(fā)表在 Nature 上。
此次成果,得益于 DNA 測序技術(shù)的發(fā)展。過去十年間,兩種新型長讀長 DNA 測序技術(shù)問世,它們均能產(chǎn)生更長的序列讀取。牛津納米孔 DNA 測序方法可以一次讀取多達 100 萬個堿基序列,而 PacBioHiFiDNA 測序方法可以讀取大約 20000 個堿基序列。
T2T 聯(lián)盟主要使用這兩種 DNA 測序方法輔以其他測序手段,最終組裝出完整的人類基因組序列。T2T-CHM13 完整基因組構(gòu)建是基因組學(xué)上的又一個里程碑。
打包發(fā)表 6 篇 Science 論文的背后,是一個 long story。2021 年,論文就已放在預(yù)印本平臺上。本來希望在慶祝 2001 年人類基因組計劃完成 20 周年之際發(fā)表,但是由于審稿等因素,直到今天才正式發(fā)表。
研究人員分別來自不同團隊,但是各團隊成員相互交叉,即同時隸屬于 T2T 聯(lián)盟。T2T 聯(lián)盟由美國國立衛(wèi)生研究院和加利福尼亞大學(xué)圣克魯茲分校的兩位科學(xué)家主持,后又邀請到華盛頓大學(xué)醫(yī)學(xué)院基因組科學(xué)系教授埃文·E·艾希勒(Evan E. Eichler)的加入,而埃文正是毛亞飛的博后導(dǎo)師。上述三位科學(xué)家將聯(lián)盟組織起來之后,又聯(lián)合美國人類遺傳學(xué)方面的各個實驗室一起公關(guān),通過不同視角去解讀該完整基因組。
圖 | 王文(來源:王文)
但是,即便如此這依然是一個“曠日持久”的研究。
為何時隔 21 年人類基因組測序領(lǐng)域才迎來新里程?
浙江大學(xué)生命演化研究中心求是講席教授張國捷表示,2000 年美、英、日、法、德、中等六國同時宣布人類基因組“工作框架圖(草圖)”,當時大概只覆蓋人類基因組 90% 左右的區(qū)域。盡管在第二代測序技術(shù)出現(xiàn)之后,可對一些用第一代測序技術(shù)不能檢測的序列進行補全,可仍然有至少 8% 的序列漏洞。詳細來說,每個人含有兩套基因組,每套含有 23 條染色,即 22 條常染色體 +1 條性染色體 X/Y。每條染色體就是一條有 ATCG 四種堿基組成的字符串,理想的完整基因組應(yīng)該從頭到尾把 23 條染色體完整的排序出來。但是,基因組上彌散著許多相同字符串組成的重復(fù)序列,由于過去測序讀長比較短,很難一次性把這些重復(fù)序列測出來,通過計算分析也很難把重復(fù)序列的完整序列進行完整排序。
圖 | 張國捷(來源:張國捷)
西北工業(yè)大學(xué)教授王文表示,通過原來的一代和二代測序技術(shù)無法讀通著絲粒等重復(fù)序列區(qū)。直至最近,高保真的長讀長三代測序技術(shù)出現(xiàn)之后,才基本解決上述問題。
張國捷同時指出,即便測序技術(shù)出現(xiàn)革新性進步,有些超長的重復(fù)序列仍然很棘手,因此需要借助計算機組裝算法、對測序數(shù)據(jù)進行精準排序。所以,該工作綜合了多種測序技術(shù)、以及新型組裝算法,才完成了所有常染色體和 X 染色體的組裝。他還表示,在過去人類基因組草圖存在的 8% 的未測區(qū)域,影響了我們對染色體完整結(jié)構(gòu)的認識,比如對于端粒和著絲粒等區(qū)域的認識,而它們對維持基因組穩(wěn)定、染色體復(fù)制和許多細胞過程都有著至關(guān)重要的意義。這些區(qū)域往往含有許多重復(fù)序列,因此大部分沒有被解析出來?;蚪M上的重復(fù)元件往往在人群里存在廣泛的拷貝數(shù)差異,對現(xiàn)代人類的分化和人類疾病有深遠影響。此外,這些未測的區(qū)域含有大量過去未知的基因、或者調(diào)控基因表達的調(diào)控元件。因此,解析出完整的基因組,為我們?nèi)胬斫馊祟惢蚪M結(jié)構(gòu)和功能奠定重要基礎(chǔ)。
但是張國捷表示,這次公布的人類基因組并非真正意義完整的基因組,因為這個工作所用的材料是個女性來源的細胞系,Y 染色體的完整序列仍未被被解析出來。而且,一個個體完整的基因組序列應(yīng)該包含兩套基因組信息,一個來自父本一個來自母本,也即我們每個人身上有 2 套染色體:23X2。而這次公布的序列也沒有將父母本基因組分開。因此,未來還有很長的路要走。
王文也表示,目前仍然難以讀通一些物種中重復(fù)序列較長的區(qū)域,而本次成果亦是使用一個人類葡萄胎衍生的單倍體細胞系。這說明,直接測通二倍體正常人的高度重復(fù)染色體區(qū)域還需更多努力。
填補最后 8% 的空白,解鎖最復(fù)雜的區(qū)域
在人類基因組中,大約 50% 的片段都由重復(fù)序列構(gòu)成。部分重復(fù)序列聚集的基因組片段(如:端粒,中心粒和segmental duplication等)具有相當復(fù)雜的結(jié)構(gòu)。如前所述,在該研究中,研究人員利用最新三代測序技術(shù)解決了之前未能解決的 8% 的人類基因組復(fù)雜區(qū)域。
那么,為什么要關(guān)心復(fù)雜區(qū)域?因為很多人類遺傳性疾病或癌癥,它們的真正致病位點恰恰和這 8% 的基因組片段息息相關(guān)。如果沒有這部分的人類基因組模板序列,自然無法對其進行研究。同時,我們也不可能真正的理解這 8% 基因組片段的遺傳多樣性和演化歷史。因此,該 8% 的重復(fù)序列在遺傳學(xué)和演化生物學(xué)上都至關(guān)重要。
舉例來說,人類 1q21.1 基因組上有一段極為復(fù)雜的人類特有基因組片段。如果該基因片段出現(xiàn)丟失或重復(fù),可能會導(dǎo)致小腦癥等疾病。我們之前對該片段在人類基因組的多樣性和復(fù)雜性都不甚了解。但是,有了該完整的基因組,就能進一步研究該片段在人類種群中的多樣性以及它導(dǎo)致疾病的精細遺傳位點。所以本次工作的意義之一,在于通過長讀長測序技術(shù)去解決復(fù)雜區(qū)域的序列結(jié)構(gòu),為后續(xù)的精準醫(yī)療和分子診斷提供更為精細的藍圖。
未來還將完成 350 個人類基因組測序
該完整基因組的構(gòu)建不僅僅是一個人類基因組模板,更重要是該技術(shù)手段將迅速被應(yīng)用到以基因組學(xué)為手段的生物學(xué)研究中。
-End-
特別鳴謝:中科院基因組所研究員趙文明、中國科學(xué)院動物所研究員張勇
參考:
S.J. Hoyt et al. From telomere to telomere: The transcriptional and epigenetic state of human repeat elements. Science. Vol. 376, April 1, 2022, p. 57. doi: 10.1126/science.abk3112.
S. Aganezov et al. A complete reference genome improves analysis of human genetic variation. Science. Vol. 376, April 1, 2022, p. 54. doi: 10.1126/science.abl3533.
S. Nurk et al. The complete sequence of a human genome. Science. Vol. 376, April 1, 2022, p. 44. doi: 10.1126/science.abj6987.
N. Altemose et al. Complete genomic and epigenetic maps of human centromeres. Science. Vol. 376, April 1, 2022, p. 56. doi: 10.1126/science.abl4178.
M.R. Vollger et al. Segmental duplications and their variation in a complete human genome. Science. Vol. 376, April 1, 2022, p. 55. doi: 10.1126/science.abj6965.
A. Gershman et al. Epigenetic patterns in a complete human genome. Science. Vol. 376, April 1, 2022, p. 58. doi: 10.1126/science.abj5089.
A.M. McCartney et al. Chasing perfection: validation and polishing strategies for telomere-to-telomere genome assemblies. Nature Methods. Published online March 31, 2022. doi: 10.1038/s41592-022-01440-3.
G. Formenti et al. Merfin: improved variant filtering, assembly evaluation and polishing via k-mer validation. Nature Methods. Published online March 31, 2022. doi: 10.1038/s41592-022-01445-y