上一節(jié)我們講到了,腫瘤外顯子數(shù)據(jù)處理系列教程(四)比對結(jié)果的質(zhì)控,接下來我們將通過igv可視化的方式,對bam文件進行一個深入的了解,同樣也是以這個樣本case1_biorep_A_techrep
為例。
bam(或者是sam,cram)文件,是比對后拿到的文件,sam文件是純文本,非常占用存儲空間,bam是sam的二進制格式,cram則是進一步壓縮后的格式,這三者所記錄的內(nèi)容是一致的,但是bam文件是最常用的。記錄了每一條reads比對到參考基因組的結(jié)果,主要有11列比較重要的信息(每一列以制表符分開):
列 | 列名 | 簡介 | 舉例 |
---|---|---|---|
1 | QNAME | reads的名稱 | case1_biorep_A_techrep.89335031 |
2 | FLAG | 由二進制數(shù)表示,每一個數(shù)字代表一種比對情況,這里的值是符合情況的數(shù)字相加總和,如75=1+2^1^ +2^3^+2^6^ | 129 |
3 | RNAME | 參考序列,一般是染色體 | chr17 |
4 | POS | 比對到染色體位置 | 42852401 |
5 | MAPQ | mapping質(zhì)量 | 60 |
6 | CIGAR | MIDNSHP=XB這10個字符代表不同的含義,M比對成功,I插入,D刪除 | 76M3D |
7 | RNEXT | 配對reads比對到的參考序列(染色體) | chr11 |
8 | PNEXT | 配對reads比對到染色體的位置 | 96427099 |
9 | TLEN | 可以理解為測序是文庫插入片段長度 | 0 |
10 | SEQ | 序列,fq文件的第二行 | GCTTC…CCAGC |
11 | QUAL | 質(zhì)量值,fq文件第四行 | @@@?D…CA@DD |
更多的說明可以查看官方教程:
https://samtools.github.io/hts-specs/SAMv1.pdf
由于原bam文件特別大,下載到本地載入igv非常耗資源,所以我們就提取一個小的bam進行演示。首先,要構(gòu)建索引,提取小bam,這里我們提取17號染色體的信息:chr17。再對小bam文件構(gòu)建索引,因為igv要求bam文件需要帶索引才能載入。
samtools index case1_biorep_A_techrep.bam
samtools view -h case1_biorep_A_techrep.bam chr17 | samtools view -Sb - > small.bam
samtools index small.bam
對比一下大小,如果還覺得太大,上面提取的參數(shù)chr17
可以改為類似chr17:42850000-42950000
。
12G 8月 29 05:46 case1_biorep_A_techrep.bam
694M 8月 29 12:15 small.bam
然后把小bam文件及其索引下載到本地,打開IGV,加載hg38參考基因組,然后把bam文件拖到IGV窗口中。
點擊17
和右上角的+
直到標尺顯示的尺度小于30kb,igv默認小于30kb才會顯示reads的信息。
也可以在搜索框中輸入感興趣的位置或者基因,比如chr17:42,850,644-42,853,784
或者AOC3
這里我們可以看到有5條軌道:
第一條是Coverage即覆蓋深度,可以直觀的看出染色體的每一處reads的覆蓋情況,因為我們是外顯子捕獲測序,所以極大部分的reads都覆蓋到了參考基因組的外顯子區(qū)域及其側(cè)翼區(qū)域。值得注意的是在這一行開頭有峰的高度范圍,且默認是隨覆蓋深度動態(tài)變化的。
第二條是Junctions,一般用于轉(zhuǎn)錄組數(shù)據(jù),可以看可變剪切,默認是不顯示的,這里是我之前設(shè)置。
第三條是bam文件中reads詳細信息,每一塊代表一條reads,將鼠標放到某一條reads上,就會呈現(xiàn)該reads的詳細比對信息,與bam文件的中信息相對應(yīng)。而且可以通過鼠標右鍵,調(diào)出設(shè)置菜單,方便進一步探索。
第四條是sequence,參考基因組的序列堿基信息,當放大至一定程度時就會顯示出來。
第五條是參考基因組注釋信息,可以看到有基因、外顯子、內(nèi)含子、5'UTR、3'UTR等,還可以右鍵選擇顯示基因的各個轉(zhuǎn)錄本。
可以看到,這些reads大多數(shù)是灰色的,部分是透明,少部分是紅色、藍色、棕色等等,不同的顏色有不同的含義。
灰色:指的是比對成功,沒有其他特別的含義
白色:指的是比對失敗,對應(yīng)的是bam文件中第5列,MAPQ比對質(zhì)量值,我們把鼠標放到透明的reads上就可以看到
紅色和藍色:igv會根據(jù)配對的兩條reads的距離,即bam的第9列TLEN,可以理解為測序時文庫插入片段長度,來判斷是否存在染色體的結(jié)構(gòu)變異deletions
,insertions
,inter-chromosomal rearrangements
。紅色代表插入片段大于期望值,可能是deletions的證據(jù),藍色代表插入片段小于預(yù)期,可能是insertions的證據(jù)。我們可以通過右鍵選擇view as pairs
來進一步理解這個含義。藍色的兩條reads重疊,而紅色的reads距離都比較大
其他顏色:指的是這條reads所配對的另一條reads沒有比對到同一條染色體,不同顏色代表不同染色體,具體看下圖:
比如下面棕色的reads,代表與之配對的reads比對到了11號染色體上了:
grep 89335031
:$ samtools view -h case1_biorep_A_techrep.bam chr11 | grep 89335031
case1_biorep_A_techrep.89335031 65 chr11 96427099 60 76M chr17 42852401 0 AAATTGAATCTGCAATTTCTCAACCCATTAAATTGTTCATCAATGCTGAACTAATACAAGAGTTACATTAATAAGC @>>??G?@AEDEDCAAAADCECADBBCAAABA?@FAAECAEBA@EEDCAADDABAADCBEAF@A@EC@@=A@>@DD NM:i:0 MD:Z:76 MC:Z:76M AS:i:76 XS:i:19 RG:Z:case1_biorep_A_techrep
$ samtools view -h case1_biorep_A_techrep.bam chr17 | grep 89335031
case1_biorep_A_techrep.89335031 129 chr17 42852401 60 76M chr11 96427099 0 GCTTCCAAGGAGAAAGACTAGTTTATGAGATAAGCCTCCAAGAGGCCTTGGCCATCTATGGTGGAAATTCCCCAGC @@@?DDCAFCAEABAE@DC@E@@@@ADAFAAAAEEBCDCBAFAFDECDAFDEDBAEDBBFD@GD@AAA@E@CA@DD NM:i:0 MD:Z:76 MC:Z:76M AS:i:76 XS:i:0 RG:Z:case1_biorep_A_techrep
關(guān)于顏色更多的介紹,請參考igv官方文檔:
http://software.broadinstitute.org/software/igv/interpreting_insert_size
不同組學(xué)的測序策略不同,這里展示的是外顯子組的bam文件,還有其他組學(xué)的bam文件也可以在igv中可視化,對此推薦大家看一下不同組學(xué)測序數(shù)據(jù)拿到的bam文件在igv可視化結(jié)果的區(qū)別:各種NGS組學(xué)數(shù)據(jù)分析異同點視頻講解
介紹到這里只講了一部分,還有bam文件載入igv也可以看變異位點,SNP和INDEL,這部分我們留到后面分析拿到vcf文件后再繼續(xù)討論。
下一期我們將走gatk最佳實踐流程,并且會詳細介紹每一步分析的原理以及需要注意的細節(jié)。
然后提一個小問題給讀者:
如果你的測序數(shù)據(jù)qc結(jié)果如上所示,你會怎么處理?