一、研究背景
自20年前首次發(fā)布以來(lái),人類(lèi)參考基因組(當(dāng)前版本GRCh38)已經(jīng)顯著促進(jìn)了廣泛的生物醫(yī)學(xué)研究。目前,幾乎所有已發(fā)表的高通量基因組研究都是基于“map-to-single-reference基因組策略”。但是,人類(lèi)基因組計(jì)劃產(chǎn)生的參考基因組是從少量的個(gè)體樣本中進(jìn)行測(cè)序的,并不能反映不同群體的完整基因組狀態(tài)。事實(shí)上,人類(lèi)的參考基因組仍然是不完整的。
最近的一項(xiàng)研究表明,在人類(lèi)參考基因組中有819個(gè)不連貫的間隙,一些來(lái)自大種群的長(zhǎng)片段序列與目前的人類(lèi)參考基因組不匹配。近年來(lái),科學(xué)家們探索了一種新的方法,即泛基因組學(xué)方法,來(lái)研究參考基因組的缺失序列。泛基因組是指某個(gè)群體中所有個(gè)體基因組的總和,相較于單個(gè)人類(lèi)參考基因組更能反映遺傳多樣性,在人類(lèi)疾病相關(guān)基因組學(xué)研究中以泛基因組作為參照可能更為合適。泛基因組研究可能提高人類(lèi)參考基因組(GRCh38)的完整性,促進(jìn)精準(zhǔn)醫(yī)療。
二、實(shí)驗(yàn)結(jié)果
本研究通過(guò)結(jié)合人類(lèi)參考基因組和非參考序列,開(kāi)發(fā)了一種癌癥基因組學(xué)研究的新策略。該研究中使用HUPAN分析了185對(duì)(370個(gè)樣本)胃癌和正常組織的WGS深度測(cè)序數(shù)據(jù),構(gòu)建了包含人類(lèi)參考基因組(GRCh38)和80.88 Mbp新序列的胃癌泛基因組(GCPAN),基于GCPAN,對(duì)人胃癌的PAVs基因進(jìn)行了特征分析。
在胃癌人群中共發(fā)現(xiàn)了261個(gè)非必需基因,其中195個(gè)非必需基因?qū)儆诎┡院桶┙M織共有基因。4個(gè)分布的基因ACOT1、GSTM1、SIGLEC14和UGT2B17在胃癌人群中表現(xiàn)出極高的缺失頻率。與來(lái)自SGDP和90個(gè)漢族的數(shù)據(jù)集相比,ACOT1在中國(guó)漢族人群中顯示出較高的缺失頻率。GSTM1和SIGLEC14基因在東亞個(gè)體中缺失頻率較高,而UGT2B17基因在所有亞洲個(gè)體中缺失頻率較高?;騏GT2B17和GSTM1均富集于化學(xué)致癌信號(hào)通路中。這一發(fā)現(xiàn)部分解釋了東亞地區(qū)胃癌,特別是中國(guó)漢族人群胃癌的高發(fā)病率。此外,本研究還預(yù)測(cè)了一組基因,其中,GC0643是胃癌的抑癌基因??偟膩?lái)說(shuō),強(qiáng)大的泛基因組策略提供了對(duì)人類(lèi)癌癥基因組中基因PAV的更深入了解。
圖1 GCPAN的組成
圖2 a.分布基因的PAV分布譜;b.通過(guò)RNA-seq驗(yàn)證了87種癌癥中分布基因的mRNA表達(dá);c.胃癌與SGDP組間78個(gè)差異分布基因的分布特征;d.分布在前20位的基因可分為高度缺失的基因和低確實(shí)基因;e.四種HAGs在不同群體中基因缺失頻率的比較
圖3 基因缺失變異和分布基因功能富集
圖4 以GCPAN為參考,預(yù)測(cè)了9個(gè)胃癌新基因的PAVs特征
圖5 GC0643基因的染色體定位和功能富集
圖6 GC0643基因的生物學(xué)功能
參考文獻(xiàn)
Pangenomic analysis of Chinese gastric cancer. nature communications, 2022.
聯(lián)系客服