在跟著
健明老師學(xué)習(xí)生物信息學(xué)的過程中,少走了很多彎路,躲過了很多坑,在指導(dǎo)下淺嘗過一些。但是自己常??墼恚蛛p叒叕落坑,百思不得其解。
以下是之前遇到的問題,今天整理帶大家一起分析分析,若有不嚴(yán)謹(jǐn)或者錯(cuò)誤的地方,強(qiáng)烈歡迎指正:
問題1
首先,我們討論一個(gè)問題,我們都知道同源染色體上的堿基并不完全相同,但是為什么參考基因組參考序列是單序列而不是雙序列呢?
我們需要了解
“人類基因組計(jì)劃”和
“千人基因組計(jì)劃”以及
2017-12-28央視宣布我國(guó)啟動(dòng)“中國(guó)10萬(wàn)人基因組計(jì)劃”人類細(xì)胞內(nèi)共有22對(duì)常染色體,2對(duì)性染色體,共24條染色體。人體有23對(duì),46條染色體,但卻測(cè)定24條染色體.說明有部分染色體無(wú)需全測(cè),這很自然的就聯(lián)想到“常染色體每對(duì)是互補(bǔ)配對(duì)”的性質(zhì),說明,每對(duì)染色體中的兩條,基因相同,只需測(cè)一條就可知另一條的基因。如果是這樣的話,需測(cè)22對(duì)常染色體,那么剩下的就自然是兩條性染色體,因?yàn)閄染色體與Y染色體構(gòu)造有所不同(Y染色體比X少一部分),所以兩條都要測(cè)。
則一共22條常染色體+2條性染色體=24條染色體。
然后有人想到了同源染色體上等位基因的情況:
等位基因(allele)又作allelomorph.可能出現(xiàn)在染色體某特定座位上的兩個(gè)或多個(gè)基因中的一個(gè)。若一個(gè)座位上的基因以兩個(gè)以上的狀態(tài)存在,便稱為復(fù)等位基因。若成對(duì)的等位基因中兩個(gè)成員完全相同,則該個(gè)體對(duì)此性狀來說成為純合子。若兩個(gè)等位基因各不相同,則該個(gè)體對(duì)該性狀來說是雜合子。由于等位基因都對(duì)應(yīng)同一性狀,所以只要測(cè)其中一個(gè),其等位基因會(huì)作為特殊基因單獨(dú)測(cè)序,但不作為人類基因組計(jì)劃另外測(cè)定。同源染色體具體的序列不一樣,但是結(jié)構(gòu)是一樣的,所以沒必要多測(cè)。也就是說人類基因組計(jì)劃要搞清楚的是基因片段與性狀的關(guān)系,重點(diǎn)不在堿基序列。
因?yàn)橥慈旧w上的顯隱性基因控制的是同一性狀的不同表現(xiàn)類型!就好比紅綠色盲基因和色覺正?;蚴俏挥谕慈旧w上的同一位置的!基因測(cè)序時(shí),只要知道這個(gè)位置的基因是控制色覺的就行了!這大概就是人類基因組計(jì)劃的目的(通俗意思,請(qǐng)自行谷歌客觀了解)
接下來我們回顧以下測(cè)序過程:引出其他問題
PCR+測(cè)序
測(cè)序得到兩條read
問題2
測(cè)序過程中以上圖很明顯read1和read2為interset區(qū)域兩條互補(bǔ)鏈并且方向相對(duì)的兩部分序列,那測(cè)序過程中如何實(shí)現(xiàn)將此兩條序列比對(duì)到單鏈的參考基因組呢?
為了得到答案,翻書,谷歌,看原理視屏依然沒有解決問題,于是在熟練Linux和各文件格式之后,我找了真實(shí)fq數(shù)據(jù)中的一對(duì)reads一探究竟。
步驟1:找出具體信息為CAY9KANXX:5:1101:1113:2067的一對(duì)fq(一對(duì)reads),笨辦法列出所有堿基,如下圖:
圖1:fq_reads
根據(jù)原理,我們可以知道上圖中的fq1和fq2是實(shí)際測(cè)序得到的read1和read2。
注意:Excel排版原因?qū)ead1和read2顯示長(zhǎng)短不一,經(jīng)過計(jì)算實(shí)際均為150個(gè)堿基。
步驟2:然后在得到原始sam/bam文件中找到這對(duì)reads,并列出堿基觀察(:
圖2:sam/bam_reads
仔細(xì)肉眼比對(duì)圖二和圖一,發(fā)現(xiàn)bam文件中reads2已被轉(zhuǎn)義并且倒序排列。為什么這么確定是倒序過來的呢?細(xì)心的人會(huì)發(fā)現(xiàn)reads的質(zhì)量值是倒過來的。到此問題2已經(jīng)得到的解釋。
為了徹底搞清楚,我們?cè)贗GV中可視化直觀看一下:
我將圖2中的重復(fù)堿基標(biāo)紅,將這兩條序列的bam文件導(dǎo)入IGV中可視化:
圖3:IGV可視化
圖3中,非常直觀看到兩條帶方向箭頭的灰色條帶(read1和read2)的比對(duì)到單序列的參考基因組(下方彩色條帶)。
為了更加直觀,讓自己死心(我也是服了自己那顆躁動(dòng)的心),我把對(duì)應(yīng)參考序列也列出來了,模擬了一下IGV的比對(duì)情況,如圖:
圖4:比對(duì)
依然要總結(jié)一下:
雙端測(cè)序下機(jī)數(shù)據(jù)中得到的read1和read2是兩條互補(bǔ)鏈insertsize中方向相對(duì)的兩條序列,再比對(duì)到單鏈的參考基因組之前會(huì)先將其中一條read轉(zhuǎn)義,然后進(jìn)行比對(duì),所以比對(duì)得到的SAM和BAM文件中read1和read2有一條是被轉(zhuǎn)了的。
全劇終。。。。。。
參考:
1.
生信技能樹健明大牛線下培訓(xùn)2.基因課視屏截圖
3.陳巍學(xué)基因