免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
StringTie 插件 | 直接在 Windows 下進行轉(zhuǎn)錄組組裝與讀段計數(shù)

注:同時支持 Windows 和 MacOS。

寫在前面

前述,我已經(jīng)寫了兩個 TBtools 插件,實現(xiàn)了在純粹的WIndows環(huán)境下(非虛擬機,非WSL),使用 Hisat2 進行基因組索引構(gòu)建以及轉(zhuǎn)錄本回帖。最近家里事情較多,期間不少時間可以天馬行空的想事情。過于具體的生物學問題難以思考出個答案,畢竟是以實踐為主。但數(shù)據(jù)分析上的鬼點子倒是非常合適。
過去幾年,正是這類時間,讓我能設(shè)計出 TBtools/JIGplot,優(yōu)化出其中各式各樣的特性。正如現(xiàn)在 TBtools 的插件模式,也是臨時想到的實現(xiàn)方式。
今天躺著,突然想著:

  • 目的是矯正基因注釋

  • 手段是在我改造的基因瀏覽器 IGV-GSAme 矯正

  • 輸入是基因組,待矯正的基因結(jié)構(gòu)注釋以及RNA讀段回帖的BAM

  • 操作是基于RNA的Alignments,手動調(diào)整注釋

那么問題來了,要在windows完成全部工作,我們會遇到幾個問題

  1. IGV的特性不足,通過 IGV-GSAme 已經(jīng)解決

  2. 轉(zhuǎn)錄組回帖,通過 TBtools 的 Hisat2 插件也解決了

  3. 基因組局部區(qū)域的有參考組裝,無解!

既然無解,那我完全可以鼓搗一個windows下的stringTie,中間做個接口,那么就可以實現(xiàn)局部組裝(注意,指定一個區(qū)域組裝,常常反而能組裝出準確的結(jié)果,具體自行思考)。千里之行始于足下,在讓 IGV-GSAme 變得更強之前,先做一個簡單的東西,TBtools插件。

StringTie Wrapper - 新的 TBtools 插件

一共兩個對應的是 Stringtie 兩個主要功能:

  1. Stringtie Assembly : 轉(zhuǎn)錄組組裝

  2. Stringtie Quantify : 轉(zhuǎn)錄本表達量估計

StringTie Assembly 插件的使用

對于組裝一步,參數(shù)簡單,用戶只需要提供排序好的BAM文件即可,這些文件,事實上可以通過前幾天推的 Hisat-build 和 Hisat-align 插件來獲取。需要注意的有三點:

  1. 參考物種基因結(jié)構(gòu)注釋是可選的

  2. 設(shè)置輸出目錄而不是輸出文件,因為組裝時是單個bam文件單獨組裝,最后再進行一次merge,得到最終可用的 GTF 文件(具體Fasta序列提取,可直接使用 TBtools 的 GXF Sequence Extract,請參考公號前述推文)

  3. 并行線程數(shù),應該注意,此處的并行線程數(shù)與Stringtie軟件的線程數(shù)并不等價。(我調(diào)整了stringtie源碼,編譯并使其可以在windows下運行,但windows系統(tǒng)限制,所以只能單線程,且速度上不來。這沒關(guān)系,我們可以多個文件同時組裝,這樣也就只需要使用stringtie的單線程模式,畢竟很多時候,我們并不可能做一個樣品的轉(zhuǎn)錄組測序和組裝 - PS:windows下可能會慢不少,比如6G的轉(zhuǎn)錄組,估計組裝時間大概要到 1個小時,在我的筆記本上。不過同時跑2個,那么也是1個小時嘛..)
    組裝結(jié)果大體如下,我做了兩個實際數(shù)據(jù)的,

StringTie Quantify 插件的使用

使用簡單,用戶需要的注意的幾乎只有三點:

  1. 排序好的BAM文件

  2. 一個必須的基因結(jié)構(gòu)注釋文件,可以是gff3也可以是gtf,比如使用 StringTie Assembly插件整理的組裝結(jié)果。

  3. ReadLength, 這一參數(shù)即測序讀長。因為StringTie計算的其實是Coverage,并沒有讀段計數(shù)這一步。常見的操作是簡單地基于Coverage反推raw counts。于是read length成為必要。

整體上會輸出六個矩陣,具體大伙自己看名字就知道是啥。

即,轉(zhuǎn)錄本水平或基因水平的Counts,F(xiàn)PKM,TPM矩陣。可查看其中某個。

注意到,我前面做StringTie Assembly的時候設(shè)置了參考注釋,所以AcoXXXX等ID為原始注釋ID(事實上是沒有被組裝出來的,一般是覆蓋率極低),而MSTRGXXXX等為已有注釋中被當前樣品覆蓋以及新注釋出來的基因。
PS:四個插件將會一并上線至插件商店,暫時票價應該會定位 100,打包估計 365,具體再定。

感興趣的,想上車的,請參考前述《Plugin | 高速版插件商店!我又有一個絕妙的 idea》推文。

寫在最后

忙,簡單的推文斷續(xù)寫了幾天?,F(xiàn)在是大年三十晚上九點,也算是在新春到來之時,了卻一個鬼點子。
在此祝大伙新春快樂,牛年大吉

搞個活動

評論區(qū)點贊前三,送新春現(xiàn)金紅包¥66.66¥33.33,¥11.11 !

本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
RNA-Seq分析新工具
影響實驗精確度的RNA分析套路及優(yōu)化
hisat+stringtie+ballgown
轉(zhuǎn)錄組入門傳送門
IGV基因組注釋文件說明
必看|史上最全的39個RNAseq分析工具與對比
更多類似文章 >>
生活服務
分享 收藏 導長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服