小編自語:
基因組選擇,預(yù)測雜種優(yōu)勢,在水稻可以用,在玉米,高粱中也可以用,在動物選擇配套系時也可以用,根據(jù)加性效應(yīng)和非加性效應(yīng)進行預(yù)測,前景廣闊。
這篇文章的作者,有很多大牛:徐世忠老師, 專門做算法的;張啟發(fā)老師, 水稻大牛。
這篇文章本身沒有自己的數(shù)據(jù),但是它使用其他文獻中已有的數(shù)據(jù),去構(gòu)建模型,挖掘信息,預(yù)測雜交組合表現(xiàn),操作真是666,這才是數(shù)據(jù)分析師應(yīng)該有的范…
文章亮點:
1,使用加性,加性+顯性,加性+GbyE互作,考察預(yù)測的準(zhǔn)確性
2,對于重測序數(shù)據(jù),而不是芯片數(shù)據(jù),進行的GS,而且針對于非純合的位點,進行了編碼,也可以利用這些信息(-0.5,0.5)構(gòu)建G矩陣
3,訓(xùn)練群體是雜交種F1,測試群體是自交系(純合),然后預(yù)測這些自交系所有可能的組合,這在育種實踐中非常有用
4,針對于SNP非常多時,貝葉斯類的或者RRBLUP就有點吃力,GBLUP非常強健。
可以進一步分析或者挖掘的地方:
1,水稻或者玉米等利用雜種優(yōu)勢的作物,本身自交系是有一定的分群劃分的,可以針對不同群體的雜交組合構(gòu)建參考群,然后進行預(yù)測所有群體間雜交種的表現(xiàn),準(zhǔn)確性應(yīng)該更高
2,很多經(jīng)濟性狀,都是有遺傳相關(guān)的,利用多性狀模型比單性狀模型準(zhǔn)確性更高
3,無論是玉米,還是水稻,都是有系譜信息的,畢竟測序的自交系有限,如果利用系譜+基因組的一步法基因組選擇(SSGBLUP),可以預(yù)測一些沒有基因組信息,但是有系譜信息的自交系間的雜交種的表現(xiàn),應(yīng)用范圍更廣
Cui Y , Li R , Li G , et al. Hybrid Breeding of Rice via Genomic Selection[J]. Plant Biotechnology Journal, 2019.
Genomic hybrid breeding is a technology that uses whole genome markers to predict future hybrids.
10倍交叉驗證(cross validation), 10個農(nóng)藝性狀的準(zhǔn)確性從0.35~0.92.
雜交種, 利用雜種優(yōu)勢, 產(chǎn)量提高20%以上, 但是如何選擇合適的親本進行雜交是一個難點. 如果自交系比較多, 那么所有可能的雜交種很多, 進行所有可能的雜交不現(xiàn)實, 因此有很多折中的方法, 比如類群劃分, 群間雜交…基因組選擇的出現(xiàn), 可以利用建模的方式模擬預(yù)測所有可能的雜交種的表現(xiàn), 然后進行選擇, 再根據(jù)結(jié)果進行實地種植測試, 可以節(jié)約很多資源.
利用基因組選擇預(yù)測雜交種表現(xiàn)很有前景, 因為可以根據(jù)親本信息(基因型和表型)預(yù)測所有可能的雜交種的表現(xiàn), 這樣在沒有雜交之前就能夠預(yù)測雜交種的表現(xiàn), 然后根據(jù)結(jié)果進行雜交試驗, 這樣可以節(jié)約大量的資源和成本, 不用做無用的雜交, 不用種植無用的雜交種…
訓(xùn)練群體中, 雜交種的表型值需要測量, 基因型值可以根據(jù)親本的基因型進行推斷(親本為純合的, 雜交種為雜合的).
測試群體中, 可以根據(jù)親本的基因型, 推斷出他們后代雜交種的基因型, 然后根據(jù)模型預(yù)測該雜交種的表現(xiàn)
預(yù)測雜交種育種值的模型有很多, 比如BLUP, LASSO, BayesB, 經(jīng)驗Bayes等. 這些模型的預(yù)測能力基本類似.
但是, 當(dāng)SNP和樣本數(shù)都很大時, LASSO和其它多元回歸的方法會跪掉, 因為這些模型能不能估算太多的效應(yīng). 基于BLUP的方法更優(yōu)秀, 因為:BLUP的方法不需要估計每個SNP的效應(yīng)值, 它僅僅利用SNP估算個體間的親緣關(guān)系矩陣, 然后帶入混合線性方程組中計算育種值
應(yīng)該具有廣泛的遺傳背景
應(yīng)該是來源于不同的親本的后代
預(yù)測群體應(yīng)該和參考群有一定的聯(lián)系
新建一個新的訓(xùn)練群體很費錢, 可以充分利用已有的數(shù)據(jù)
POP1: Huang et al.(2015) 有1495個雜交種, 兩個環(huán)境, 測量了一些農(nóng)藝性狀, 當(dāng)時用于關(guān)聯(lián)分析和QTL作圖, 這些雜交種來源于一些親本自交系. 對這些數(shù)據(jù)進行建模, 并進行交叉驗證
POP2: 我們從上面的數(shù)據(jù)中選擇100個雜交種, 來源于21個親本自交系的不完全雙列雜交(half diallel)進行驗證上一步模型的好壞, 結(jié)果很好.
POP3: Li et al.(2014) 數(shù)據(jù)中三個類群中獲得3000個自交系, 預(yù)測44636個可能雜交種的表現(xiàn), 然后進行排名, 將預(yù)測表現(xiàn)好的進行實際的測試.
大致來說, 預(yù)測的準(zhǔn)確性 = 遺傳力的平方根:
$$ accur = \sqrt{h^2} $$
1, 將育種值標(biāo)準(zhǔn)化
2, 根據(jù)權(quán)重進行加權(quán)(考慮各個性狀的權(quán)重)
3, 計算綜合育種值
權(quán)重如下:
模型1
y = u + A
模型2
y = u + A + D
模型3
y = u + A + GbyE
結(jié)果顯示, 考慮線性效應(yīng)和基因與環(huán)境互作效應(yīng), 沒有顯著提高預(yù)測的準(zhǔn)確性.
1495雜交種的測序數(shù)據(jù)
1495個雜交種, 2層, 96bp雙鏈, 共有2TB數(shù)據(jù)
使用BWA比對到Geng Nipponbare Version7的參考基因組上
使用samtools 用于檢測SNP, -q 20 -q 40
, 共獲得1.6 millin SNPs
保留平均覆蓋度在0.8~2.5, 缺失少于25%的SNP, 共有232,935個SNP
3K 水稻基因組項目測序數(shù)據(jù)
共有6.9 million SNPs, 3000個體
和上面SNP交叉的個數(shù)為: 201,756
使用BEAGLE進行填充缺失數(shù)據(jù)
MAF >0.1過濾SNP
共有102,795用于基因組選擇的分析
SNP編碼
-1表示為參考基因組位點(純合)
0 表示雜合
1表示為alternative 純合
DNA測序數(shù)據(jù)再European Nucleotide Archive(www.ebi.ac.uk/ena), 編號為: ERP005527.
3K SNP 數(shù)據(jù)保存在 Rice SNP-Seek Database(http://snp-seek.irri.rog). 所有相關(guān)的數(shù)據(jù)和R代碼, 可以聯(lián)系文章作者索要.