前述,我已經(jīng)寫了兩個 TBtools 插件,實現(xiàn)了在純粹的WIndows環(huán)境下(非虛擬機,非WSL),使用 Hisat2 進行基因組索引構(gòu)建以及轉(zhuǎn)錄本回帖。最近家里事情較多,期間不少時間可以天馬行空的想事情。過于具體的生物學問題難以思考出個答案,畢竟是以實踐為主。但數(shù)據(jù)分析上的鬼點子倒是非常合適。
過去幾年,正是這類時間,讓我能設(shè)計出 TBtools/JIGplot,優(yōu)化出其中各式各樣的特性。正如現(xiàn)在 TBtools 的插件模式,也是臨時想到的實現(xiàn)方式。
今天躺著,突然想著:
目的是矯正基因注釋
手段是在我改造的基因瀏覽器 IGV-GSAme 矯正
輸入是基因組,待矯正的基因結(jié)構(gòu)注釋以及RNA讀段回帖的BAM
操作是基于RNA的Alignments,手動調(diào)整注釋
那么問題來了,要在windows完成全部工作,我們會遇到幾個問題
IGV的特性不足,通過 IGV-GSAme 已經(jīng)解決
轉(zhuǎn)錄組回帖,通過 TBtools 的 Hisat2 插件也解決了
基因組局部區(qū)域的有參考組裝,無解!
既然無解,那我完全可以鼓搗一個windows下的stringTie,中間做個接口,那么就可以實現(xiàn)局部組裝(注意,指定一個區(qū)域組裝,常常反而能組裝出準確的結(jié)果,具體自行思考)。千里之行始于足下,在讓 IGV-GSAme 變得更強之前,先做一個簡單的東西,TBtools插件。
一共兩個對應的是 Stringtie 兩個主要功能:
Stringtie Assembly : 轉(zhuǎn)錄組組裝
Stringtie Quantify : 轉(zhuǎn)錄本表達量估計
對于組裝一步,參數(shù)簡單,用戶只需要提供排序好的BAM文件即可,這些文件,事實上可以通過前幾天推的 Hisat-build 和 Hisat-align 插件來獲取。需要注意的有三點:
參考物種基因結(jié)構(gòu)注釋是可選的
設(shè)置輸出目錄而不是輸出文件,因為組裝時是單個bam文件單獨組裝,最后再進行一次merge,得到最終可用的 GTF 文件(具體Fasta序列提取,可直接使用 TBtools 的 GXF Sequence Extract,請參考公號前述推文)
并行線程數(shù),應該注意,此處的并行線程數(shù)與Stringtie軟件的線程數(shù)并不等價。(我調(diào)整了stringtie源碼,編譯并使其可以在windows下運行,但windows系統(tǒng)限制,所以只能單線程,且速度上不來。這沒關(guān)系,我們可以多個文件同時組裝,這樣也就只需要使用stringtie的單線程模式,畢竟很多時候,我們并不可能做一個樣品的轉(zhuǎn)錄組測序和組裝 - PS:windows下可能會慢不少,比如6G的轉(zhuǎn)錄組,估計組裝時間大概要到 1個小時,在我的筆記本上。不過同時跑2個,那么也是1個小時嘛..)
組裝結(jié)果大體如下,我做了兩個實際數(shù)據(jù)的,
使用簡單,用戶需要的注意的幾乎只有三點:
排序好的BAM文件
一個必須的基因結(jié)構(gòu)注釋文件,可以是gff3也可以是gtf,比如使用 StringTie Assembly插件整理的組裝結(jié)果。
ReadLength, 這一參數(shù)即測序讀長。因為StringTie計算的其實是Coverage,并沒有讀段計數(shù)這一步。常見的操作是簡單地基于Coverage反推raw counts。于是read length成為必要。
整體上會輸出六個矩陣,具體大伙自己看名字就知道是啥。
即,轉(zhuǎn)錄本水平或基因水平的Counts,F(xiàn)PKM,TPM矩陣。可查看其中某個。
注意到,我前面做StringTie Assembly的時候設(shè)置了參考注釋,所以AcoXXXX等ID為原始注釋ID(事實上是沒有被組裝出來的,一般是覆蓋率極低),而MSTRGXXXX等為已有注釋中被當前樣品覆蓋以及新注釋出來的基因。
PS:四個插件將會一并上線至插件商店,暫時票價應該會定位 100,打包估計 365,具體再定。
感興趣的,想上車的,請參考前述《Plugin | 高速版插件商店!我又有一個絕妙的 idea》推文。
忙,簡單的推文斷續(xù)寫了幾天?,F(xiàn)在是大年三十晚上九點,也算是在新春到來之時,了卻一個鬼點子。
在此祝大伙新春快樂,牛年大吉!
搞個活動
評論區(qū)點贊前三,送新春現(xiàn)金紅包:¥66.66,¥33.33,¥11.11 !