誰來調(diào)控我感興趣的DNA?100%可行的全面解決方案V2.0。
這次主要更新了ENCODE的查詢方案。以前ENCODE自己的網(wǎng)站功能不強(qiáng)大,需要去UCSC上檢索,而且數(shù)據(jù)量太少?,F(xiàn)在,已經(jīng)積累到7813套ChIP-seq數(shù)據(jù),能從ENCODE網(wǎng)站www.encodeproject.org把100套以內(nèi)的數(shù)據(jù)提交給UCSC,進(jìn)行可視化。如果需要100套以上的數(shù)據(jù),還能方便的批量下載。
本文關(guān)心的是直接調(diào)控,即哪個蛋白結(jié)合在我感興趣的基因上游。研究哪個蛋白質(zhì)結(jié)合某段DNA,介紹三種screen的有效方法:
Plan A:基于大量ChIP-seq公共數(shù)據(jù)挖掘
Plan B:motif分析預(yù)測
Plan C:ATAC-seq結(jié)合motif分析
Plan A:基于大量ChIP-seq公共數(shù)據(jù)
一套ChIP-seq數(shù)據(jù)只能看一個蛋白質(zhì)調(diào)控哪個靶基因。轉(zhuǎn)錄因子調(diào)控了誰?100%可行的完整解決方案V2.0。如果有大量ChIP-seq數(shù)據(jù),就能看到哪個蛋白質(zhì)調(diào)控某個基因。
目前全世界已發(fā)表人和小鼠的2萬多套ChIP-seq數(shù)據(jù),包含800多個TF,把這些ChIP-seq數(shù)據(jù)放在一起,就能看到基因組的每個位置都結(jié)合了哪些TF。
大量的ChIP-seq數(shù)據(jù)去哪里找呢?
收錄ChIP-seq數(shù)據(jù)最全的數(shù)據(jù)庫Cistrome Data Browser,需要一點(diǎn)點(diǎn)linux基礎(chǔ),批量下載和處理Cistrome Data Browser數(shù)據(jù);
ChIP實驗質(zhì)量最好的ENCODE項目。
下面介紹這兩個數(shù)據(jù)來源的檢索方法:
1. Cistrome Data Browser
Cistrome Data Browser收錄了目前已發(fā)表的2萬多套人和小鼠的ChIP-seq、DNase-seq、ATAC-seq數(shù)據(jù)??梢詥蝹€查看某個轉(zhuǎn)錄因子調(diào)控的靶基因,詳見轉(zhuǎn)錄因子調(diào)控了誰?
最近開始提供批量下載功能,http://cistrome.org/db/#/,我們就可以從大量的ChIP-seq數(shù)據(jù)里找到:哪套數(shù)據(jù)的Factor結(jié)合了我感興趣的DNA區(qū)段。
點(diǎn)擊右上角的“Batch download”,填寫課題組信息,勾選要下載的數(shù)據(jù)類型
承諾提交的信息正確,不會把下載到的數(shù)據(jù)交給別人,發(fā)表文章的時候引用該論文。輸入校驗碼,點(diǎn)擊最下面的按鈕,就開始下載了。
用bedtools找出感興趣的基因附近有結(jié)合信號peak的ChIP-seq數(shù)據(jù),對應(yīng)到TF名字,就推測出哪些TF結(jié)合了感興趣的基因。bedtools的用法滿天飛,小哈在這里不啰嗦。其實只需要一點(diǎn)點(diǎn)linux基礎(chǔ),紙老虎,不用怕。
2. ENCODE
ENCODE項目進(jìn)展到今天已經(jīng)產(chǎn)生了7813套ChIP-seq數(shù)據(jù),其中人的5568套,小鼠1086套。檢索方法參考表觀遺傳系列視頻17 | Penn State 岳峰:ENCODE & Roadmap workshop(附PPT)。另外,還有平行項目,例如模式生物modENCODE和modERN項目,以后小哈會發(fā)帖分享使用心得。
人,除組蛋白以外,轉(zhuǎn)錄因子等factor的ChIP-seq數(shù)據(jù)2191套,包含620個factor。
目前可以最多添加100套數(shù)據(jù)到UCSC genome browser里面查看某段DNA上的peak分布。
例如,在Biosample type里選擇stem cell,一共86套數(shù)據(jù)
點(diǎn)擊Visuallize
選擇hg19,數(shù)據(jù)更全。后面再check一下GRCh38版本的基因組在你關(guān)心的區(qū)域上是否有更新。
打開后看到所有86套數(shù)據(jù)都展示出來了,在位置框里輸入您想看的區(qū)段,或基因名字,例如sox2,然后zoom out 10x看更大的區(qū)域。好多小矩形的那行就是call出來的peak,下面緊挨著那行是原始信號強(qiáng)度。用眼睛看哪個factor在sox2 TSS附近有peak,推測該factor對sox2的轉(zhuǎn)錄有調(diào)控作用。
繼續(xù)往下滾動頁面,還能看到該區(qū)域存在哪些TF的motif,詳見下文Plan B。
如果不想用眼睛看100套以內(nèi)的數(shù)據(jù),而是要從所有的ChIP-seq數(shù)據(jù)中找到結(jié)合某段DNA的factor,需要批量下載:
下載后的數(shù)據(jù)處理類似于前面講的Cistrome Data Browser。
該方法的優(yōu)點(diǎn)是,找到的TF跟DNA的結(jié)合關(guān)系是有in vivo實驗證據(jù)的;缺點(diǎn)是,基因的轉(zhuǎn)錄調(diào)控有著組織特異性,在這套ChIP-seq數(shù)據(jù)的細(xì)胞類型和處理條件下不結(jié)合,不代表你關(guān)心的細(xì)胞類型或處理條件下也不結(jié)合,有可能真就能結(jié)合呢!反之亦然。
Plan B:基于motif預(yù)測
通過motif預(yù)測DNA上可能會有哪些轉(zhuǎn)錄因子結(jié)合。每個轉(zhuǎn)錄因子都有一個DNA結(jié)合結(jié)構(gòu)域(DBD),喜歡結(jié)合在特定DNA序列上,也就是motif。如果我感興趣的基因上游DNA有某個TF的motif,那么該TF就有可能結(jié)合這段DNA,從而調(diào)控下游基因表達(dá)。
書接上文Plan A的ENCODE數(shù)據(jù)檢索。向下滾動鼠標(biāo),找到Regulation,點(diǎn)擊TFBS Conserved,full,refresh
refresh后,那些段豎線就是該區(qū)域存在的TF的motif,TF名字在左側(cè)
V$和_之間的就是TF名
點(diǎn)擊名字,出現(xiàn)motif信息
該方法的缺點(diǎn)是,就算在DNA序列上找到了TF對應(yīng)的motif,該TF不一定真的就能in vivo結(jié)合這段DNA。不過,這起碼提供了一條線索,讓你有跡可循,看到了某個感興趣的TF的motif,就做個ChIP-qPCR驗證一下吧!
Plan C:ATAC-seq結(jié)合motif分析
調(diào)控蛋白所結(jié)合的DNA附近會形成open區(qū)域,產(chǎn)生DHS。2013年,Howard Y Chang發(fā)明了ATAC-seq。詳見從第一篇文章開始,講講ATAC-seq能干啥?類似于DNase-seq,ATAC-seq能夠找出基因組上的open區(qū),根據(jù)這段區(qū)域上的motif,推測它上面可能結(jié)合的TF。ATAC-seq用的細(xì)胞數(shù)更少,500-50,000個細(xì)胞就能做,實驗更穩(wěn)定。有了ATAC-seq的加入,把motif預(yù)測出來的候選TF范圍縮小到染色質(zhì)開放區(qū)域,結(jié)果更準(zhǔn)確。
還記得Howard Y Chang嗎?美帝國自然NIH資助啥?一文中看到,他憑《lncRNA在癌癥中的作用機(jī)制》一項拿到$724,705,相當(dāng)于人民幣400多萬,該項目已經(jīng)發(fā)表2篇paper,一篇Single cell,一篇CRISPR screen。我們站在大牛肩上,緊跟大牛節(jié)奏,就能趕在上升期,抓緊時間輕松發(fā)一區(qū);否則,鄰居大媽都知道ATAC-seq的時候。。。
您可能還想看:
Factorbook | 翁志萍 | ChIP-seq in ENCODE
想用ChIP-seq、ATAC-seq實驗研究感興趣的基因?想用已發(fā)表的ChIP-seq、eCLIP-seq、ChIA-PET、DNA甲基化測序、RNA-seq數(shù)據(jù)尋找線索?找嘉因生物吧!從實驗、測序,到多種數(shù)據(jù)整合分析,為您一站式解決。(點(diǎn)擊文中藍(lán)字了解詳情)
嘉因生物公眾號定位:客戶共性問題解答,生信學(xué)習(xí)資源導(dǎo)航,高通量實驗導(dǎo)購 | 為您提供高通量實驗-測序-分析-驗證一站式解決方案
電話:021-61539657
Email:marketing@rainbow-genome.com
地址:上海市楊浦區(qū)赤峰路65號同濟(jì)科技園1號樓611室