擬南芥(Arabidopsis thaliana)作為被廣泛應(yīng)用的模式植物,其基因組序列加快了植物分子生物學(xué)研究。在首個(gè)基因組發(fā)布二十余年后,仍存在大量未填補(bǔ)的缺口區(qū)域。在常用的TAIR10/Araport11版本的基因組序列中,存在165個(gè)缺口。這些缺失區(qū)域可能由高度重復(fù)的序列組成,包括端粒、著絲粒、5S rDNA簇和含有45S rDNA的核仁組織區(qū)(NORs)。近年來(lái),ONT和PacBio等長(zhǎng)讀段測(cè)序技術(shù)的發(fā)展為組裝高復(fù)雜度序列提供了有力工具。近期發(fā)表的兩個(gè)高完整度基因組Col-CEN和Col-XJTU填補(bǔ)了著絲粒等缺失區(qū)域,但這兩個(gè)新的組裝仍不完整且有相互矛盾之處。
為提供更好的參考基因組,中國(guó)科學(xué)院遺傳與發(fā)育生物學(xué)研究所焦雨鈴研究組與中國(guó)科學(xué)院大學(xué)汪穎研究組合作,結(jié)合長(zhǎng)讀ONT、高保真的長(zhǎng)讀PacBio HiFi和短讀Illumina NovaSeq測(cè)序數(shù)據(jù)獲得了接近完整的擬南芥Col-0生態(tài)型的參考基因組Col-PEK。Col-PEK組裝填補(bǔ)了包括五個(gè)著絲粒在內(nèi)各區(qū)域中的絕大多數(shù)缺口。例如,Col-CEN中5號(hào)染色體中的缺口均已在Col-PEK中補(bǔ)齊。Col-PEK為目前最為完整的基因組組裝,完成了1、3、5號(hào)染色體從端粒到端粒的完整組裝,僅2號(hào)和4號(hào)染色體的多拷貝NORs區(qū)域尚不完全。Col-PEK組裝總長(zhǎng)度133.92 Mb,比TAIR10組裝長(zhǎng)14.77 Mb,即增加了12.4%的序列。在填補(bǔ)缺口之外,Col-PEK還修訂了Col-CEN等組裝中的拼接錯(cuò)誤。
Col-PEK組裝具有較高的序列完整度,對(duì)Col-PEK的注釋揭示了重復(fù)序列的分布規(guī)律,特別是著絲粒區(qū)域的CENH3結(jié)合區(qū)域分布規(guī)律和CEN180重復(fù)序列分布特征。對(duì)編碼基因的注釋還發(fā)現(xiàn)了145個(gè)新的“隱藏基因重復(fù)”,其與已知基因序列高度相似,可能是由新近的串聯(lián)重復(fù)等基因組擴(kuò)增機(jī)制所產(chǎn)生。
Col-PEK組裝補(bǔ)全了所有著絲粒序列及絕大部分其它缺口,糾正了之前的錯(cuò)誤組裝。該研究的初步分析展示了重復(fù)序列的分布規(guī)律,并揭示了一批新基因。Col-PEK參考基因組為植物學(xué)科研工作者提供了新的參照序列和重要數(shù)據(jù)資源。
相關(guān)研究成果以A near-complete assembly of an Arabidopsis thaliana genome為題,于6月1日在線發(fā)表在Molecular Plant上(DOI:10.1016/j.molp.2022.05.014)。研究工作得到國(guó)家重點(diǎn)研發(fā)計(jì)劃的資助。
圖1.不同參考基因組組裝的完整度比較
聯(lián)系客服