今天,我將為大家解讀一篇3.96分的SCI,借此來學習GEO數(shù)據(jù)庫甲基化芯片發(fā)SCI的套路,文章的題目是:Aberrantly methylated-diferentially expressed genes and pathways in colorectal cancer。
首先簡單介紹一下,GEO數(shù)據(jù)庫(GENE EXPRESSION OMNIBUS)是NCBI旗下主打基因表達芯片的數(shù)據(jù)庫,它的網(wǎng)址是http://www.ncbi.nlm.nih.gov/geo,或者直接通過PUBMED的菜單欄進入。
小碩在此申明,GEO數(shù)據(jù)庫的芯片數(shù)據(jù)是不花錢的!而且數(shù)據(jù)海量,更新較快!小伙伴們迫不及待了吧,Let′s go!
全文思路明確,從GEO數(shù)據(jù)庫中下載4張芯片,其中2張基因表達芯片(GSE68468, GSE44076)和2張甲基化的芯片(GSE29490, GSE17648),是不是感覺芯片在手,天下我有?
接著利用GEO2R工具找出甲基化的差異基因(methylated-DEGs),DAVID網(wǎng)站做功能和富集分析,STRING網(wǎng)站做蛋白互作網(wǎng)絡圖(PPI),利用Cytoscape軟件的MCODEapp構建PPI聚類功能模塊。
最終,找出了異常甲基化的差異表達基因和通路,這些Hub基因可能作為異常甲基化的生物標志物,以此服務于結腸癌的精準治療。
“Totally 186 CRC and 55normal mucosa specimens were enrolled in GSE68468 (platform: GPL96 AfymetrixHuman Genome U133A Array) while 98 CRC and 50 normal mucosa specimens wereenrolled in GSE44076 (platform: GPL13667 Afym[1]etrix Human Genome U219 Array).”這句來源于原文中,咋一看,不了解GEO的小伙伴可能有點懵,一會GSE,一會GPL?請看下面表格內容。
總結一下,GEO數(shù)據(jù)庫的表達譜信息主要儲存在DataSets和Profiles中,而數(shù)據(jù)下載說到底就是要得到表達矩陣,即“基因在行,樣本在列”的矩陣。
在下圖的GEO DataSets輸入研究的癌癥,然后就可以選擇自己需要的芯片,里面關于芯片的信息非常詳細,下載原始文件,整理后即可得到需要的表達矩陣。哈哈,還是挺容易實現(xiàn)的。
利用GEO數(shù)據(jù)庫自帶的GEO2R工具將樣本分為正常組和病例組,設定cut-off值(P < 0.05and |t| > 2),尋找出差異表達基因(DEGs)和差異甲基化基因(DMGs)。
再利用EXCEL中的MATCH函數(shù)進行匹配,去除重疊的基因,同時獲得甲基化芯片和表達譜芯片的交集,最終得到低甲基化-高表達基因411個,高甲基化-低表達基因239個,利用R軟件代碼實現(xiàn)韋恩圖制作,文中的韋恩圖確實不錯哈。
選取典型的芯片的TOP100基因(包括50高表達和50低表達基因)做差異基因的熱圖,可通過R代碼實現(xiàn)熱圖的制作。微信公眾號回復“熱圖”,可獲得R軟件熱圖制作代碼。
DAVID網(wǎng)站(網(wǎng)址https://david.ncifcrf.gov/)實現(xiàn)GO功能富集分析,這個還是比較簡單的,直接上圖了。分別從生物學過程(BP),細胞組成(CC),分子功能(MF)對低甲基化-高表達基因、高甲基化-低表達基因功能注釋,選取排名前5的富集分析制成下表。
同樣,利用DAVID網(wǎng)站進行KEGG通路分析,分別預測了低甲基化-高表達基因、高甲基化-低表達基因富集的通路。
蛋白互作網(wǎng)絡圖(PPI)通過STRING網(wǎng)站來制作(網(wǎng)址https://string-db.org/),PPI聚類功能模塊則用Cytoscape軟件的MCODEapp制作。其中PPI網(wǎng)絡圖,以Interactionscore>0.4作為cut-off值;利用Cytoscape軟件,篩選出MCODE評分>3、節(jié)點數(shù)>4的PPI網(wǎng)絡中的模塊制作聚類模塊分析圖。篩選出節(jié)點degree大于10的即為Hub基因。
最終分別篩選出低甲基化-高表達基因排名前五的Hub基因:CAD,CCND1, ATM, RB1 and MET;高甲基化-低表達基因排名前五的Hub基因:EGFR,ACTA1, SST, ESR1 and DNM2。
分別將低甲基化-高表達的Hub基因和高甲基化-低表達的Hub基因在TCGA中觀察Hub基因的甲基化狀態(tài)和表達差異,最終結果如下表,大部分Hub基因在TCGA中和GEO數(shù)據(jù)庫中的甲基化狀態(tài)和表達差異是一致的,這對作者的GEO數(shù)據(jù)庫分析加強了說服力。
綜上,可以看出本文甲基化數(shù)據(jù)挖掘步驟:
(1)GEO芯片下載和預處理:GEO數(shù)據(jù)庫直接下載原始數(shù)據(jù);R軟件的GEOquery包(上bioconductor官網(wǎng)搜索)。預處理一般就是將原始文件整理成我們需要的表達矩陣。
(2)差異基因和甲基化基因的篩選:本文采用的是GEO在線工具GEO2R分組后設定cut-off值P < 0.05and |t| > 2,分別可以篩選出高、低表達基因,高、低甲基化基因,利用EXCEL中的MATCH函數(shù)去除重疊的基因,同時對低甲基化高表達的基因求交集,對高甲基化低表達基因求交集。制作韋恩圖,選取典型芯片做熱圖。當然,這一步也可以用R軟件跑,最終結果是一致的。
(3)GO和KEGG分析:DAVID網(wǎng)站直接實現(xiàn)。
(4)PPI網(wǎng)絡構建、模塊分析和Hub基因選擇:STRING網(wǎng)站做蛋白互作網(wǎng)絡圖,利用Cytoscape軟件的MCOD app構建PPI聚類功能模塊。通過cut-off值設定,節(jié)點degree大于10的即為Hub基因。
(5)TCGA數(shù)據(jù)庫驗證:利用TCGA數(shù)據(jù)庫分析Hub基因的甲基化狀態(tài)和表達差異,看是否與GEO數(shù)據(jù)庫一致,以增強說服力。
做到這里,已經3.96分了,小碩設想,如果繼續(xù)把Hub基因進行共表達或預后分析,是不是影響因子又得上漲呢!當然,前面這些步驟都不用花經費!假如你的老板經費充足,繼續(xù)來個小樣本的實驗驗證吧,估計小伙伴們手已癢癢,趕緊準備發(fā)文吧!我們明天將手把手教你R語言實操分析GEO數(shù)據(jù)庫甲基化芯片。
關注微信公眾號“百味科研芝士”,一個分享干貨的地方