摘要:單細胞技術的最新進展使得能夠非常詳細地解釋細胞異質性。然而,由于在DNA提取和全基因組擴增過程中產生的偏差和偽影,包括等位基因不平衡和丟失,單細胞DNA測序數據的分析仍然具有挑戰(zhàn)性。
在這里,我們提出了一個框架,通過利用鄰域雜合單核苷酸多態(tài)性的等位基因頻率,在單細胞全基因組測序數據的任何給定位置統(tǒng)計估計等位基因特異性擴增失衡。得到的等位基因不平衡譜對于確定觀察到的突變的變異等位基因部分是否與真實變體的預期分數一致是至關重要的。該方法在SCAN-SNV(SNV單細胞分析)中實現,大大改善了單個細胞中體細胞變體的鑒定。我們的等位基因平衡框架廣泛適用于任何可能表現出等位基因失衡的數據中任何變體類型的基因型分析。
scDNA-seq分析由于同源等位基因的不平衡擴增(等位基因失衡)和影響大部分初始DNA的早期偽影而變得復雜。一個 MDA是一個非線性放大過程。通過復制置換的DNA鏈可立即用于重復的復制循環(huán),這可導致同源等位基因之間的不平衡擴增。單細胞測序深度是等位基因特異性測序深度的總和,由堆積深度圖表示。粉紅色:母體等位基因的測序深度; 藍色:父本等位基因。b提取方案中的常規(guī)DNA損傷可能不成比例地影響單細胞DNA。由于自發(fā)錯誤不可能在多個分子上獨立復發(fā),因此大量DNA損傷大部分被淘汰。然而,單個細胞基因組的損傷會影響初始模板的大量(25%;單鏈錯誤)。在理想化的MDA過程中,MDA復制DNA的所有四個初始鏈(兩個分子)以產生八個鏈(四個分子)。隨機聚合酶錯誤摻入錯誤會影響8條DNA鏈中的1條,影響12.5%的DNA。C等位不平衡會影響真正的突變和偽影的VAF。過度擴增具有早期單鏈損傷(紅色)的等位基因可以將人工制品膨脹為類似突變的VAF,而真正的突變(綠色)可以降低至低VAF。d由于隨機抽樣效應,沒有等位基因不平衡,雜合SNV VAF將緊密分布在50%左右。然而,等位基因失衡導致scDNA-seq中的VAF顯著過度分散,對稱性約為50%。
等位基因平衡模型有助于識別單細胞偽影。a單個細胞偽影(左,綠色)獲得高VAF(44%)。該區(qū)域受等位基因不平衡的影響,hSNP證實VAF為94%(右,藍色)。候選sSNV應該呈現VAF≈6%或VAF≈94%。b MDA聚合酶(綠色)從屬于一個等位基因(黑色)的模板DNA中隨機解離,產生各種長度的擴增子(灰色)。附近的位點很可能被相同的聚合酶擴增,但更遠的位點的概率會降低。這在鄰近位點(藍色,橙色)之間產生等位基因特異性擴增水平的相關性。該過程在兩個同源等位基因上獨立發(fā)生,導致小基因組基因座中的穩(wěn)定等位基因平衡。c長擴增子導致等位基因特異性讀取深度(藍色,父本等位基因;粉紅色,母本等位基因)沿基因組變化更慢。當每個等位基因更穩(wěn)定時,等位基因平衡也是如此。AB相關函數量化等位基因平衡穩(wěn)定性。dAB建模和估計的例證。可以根據hSNP是否包含參考或變體支持堿基將讀數分配給等位基因。這允許在hSNP處估計等位基因特異性深度,并因此估計AB。使用由AB相關函數參數化的高斯過程推斷出hSNP基因座外的AB(粗黑線)。二項式讀取采樣模型確定推斷的AB曲線應該跟隨有噪聲的hSNP測量值的接近程度(誤差條:95%置信區(qū)間)。定相hSNP允許將父本SNP(藍色)VAF調整至(1-VAF)以與周圍的母體SNP一致,這是產生長程等位基因平衡估計所必需的。盡管達到非常高的VAF,所示的候選sSNV可能是錯誤的,因為它與局部放大平衡不匹配。e AB模型應用于(a)中所示的候選sSNV周圍的200kb窗口。VAF = 44%時的偽影(紅色)與模型的估計AB為89%(黑線)非常不一致,并且遠低于95%概率間隔(灰色包絡線)。
SCAN-SNV FDR調整策略。在單細胞中擴增之前,50%的DNA支持體細胞SNV和hSNP。兩種突變類型的VAF分布的形狀應該是相似的,因為兩者同樣受等位基因不平衡的影響,但候選sSNV組(紅線)中的偽像通常在低VAF下與hSNP(黑線)相比產生富集。候選sSNV(綠色區(qū)域)中未知真實突變數量的VAF應與hSNP類似地分布。真實sSNV的總數N(虛線)的潛在值可以通過首先根據hSNP VAF 分布N個突變然后確保每個VAF的預測sSNV數量不超過該VAF處的候選者數來評估。最大的這樣的N提供了體細胞突變數量的上限。給定N,可以估計任何VAF中sSNV之間的偽影部分的下限。
SCAN-SNV工作流程。GATK HaplotypeCaller確定具有非參考證據的位點,并從批量中發(fā)現種系或克隆hSNP。分階段hSNP用作訓練集以學習AB相關模式,預測候選sSNV基因座處的AB并估計人工流行率。只有通過所有過濾器的候選sSNV才被報告為推定的突變。
難以驗證scDNA-seq數據中的體細胞SNV,因為在WGA期間消耗單個細胞的基因組,即,DNA提取和擴增不能被復制以識別偽像。通過對未用于初始測序的過量擴增DNA進行深度測序來驗證推定的sSNV可以通過在擴增的DNA中引入的人工制品來混淆; 通過非常高深度的擴增子測序在原始組織中進行驗證是可能的3但僅適用于VAF不太小的克隆sSNV。因此,我們使用兩種方法評估SCAN-SNV和其他呼叫者:合成數據集和同類細胞系統(tǒng)。
合成二倍體結構和性能。一個合成二倍體X染色體(chrX)通過合并chrX產生從兩個雄性供體的單個細胞進行讀取。在提取chrX讀數后,去除假常染色體區(qū)域(PAR)并在chrX的半合子區(qū)域上鑒定SNP和sSNV。新的隨機放置的體細胞突變被摻入讀數中。對第二個雄性供體重復該過程,并合并兩組讀數以產生合成二倍體(SD)。b每個SD包含1000個加標突變,其他SD共享750個突變。例如,250個尖峰由所有SD共享,另外250個由四個SD共享,依此類推。C每個點代表一個SD上的genotyper性能。只有尖峰突變用于計算靈敏度。假陽性率是FP的數量除以chrX上的非PAR兆堿基的數量。d私有尖峰的摻入靈敏度(克隆性= 1),兩個樣本共享的尖峰(克隆性= 2)等。
SCAN-SNV性能由同類細胞系統(tǒng)評估。來自人成纖維細胞系10的 12個單細胞衍生的樣品。體細胞突變定義為在細胞系體內未觀察到的突變。包含三個非常密切相關的樣品的親緣細胞系統(tǒng)模擬單個細胞的生物學復制并且能夠進行評估。真正的突變(綠色恒星)很可能得到幾個類似樣本的支持; 然而,scDNA-seq工件應該是私有的。b具有非親緣支持的親屬樣本中的sSNV可以是亞克隆sSNV。如果是,則繼承亞克隆sSNV的每個單細胞樣品提供獨立的VAF測量。對于真正的亞克隆突變,許多樣品的平均VAF應為~50%。C單細胞基因在親緣細胞IL-12上的表現。TRE敏感性,三重專用站點(TRE)的百分比恢復; FDR,被歸類為可能FP的總呼叫的一部分。d sSNV呼叫兩個基因型分子都被VAF分類并根據13個樣本中的哪一個包含對該突變的讀支持而被分類為TRE,可能是TP或可能是FP。三重獨家(TRE)網站是所有同類樣本支持的高質量網站,沒有其他樣本。Monovar以單樣本模式運行。(下圖)hSNP VAF為sSNV提供參考分布。e在親緣細胞IL-12中TRE和基因調用的三核苷酸突變特征。Monovar以單樣本模式運行。箭頭表示產生均聚物的突變背景。f與(相同)c)對于親緣細胞IL-11。g對于親緣細胞IL-11 與(d)相同。hSNPs和TRE sSNV的VAF分布與IL-12非常不同,表明擴增或細胞質量存在顯著差異。
用于全基因組擴增單細胞中SNV發(fā)現的體細胞基因組。
SCAN-SNV作為conda包分發(fā)。安裝需要conda包管理工具和Linux風格的操作系統(tǒng)。
操作系統(tǒng)已測試
GNU / Linux,內核版本3.10.0,CentOS 7.請注意,預編譯的SHAPEIT2二進制文件僅適用于Linux系統(tǒng),但原則上可以使用其他定相算法。
Ubuntu 16.04.4 LTS AWS實例。
注意此安裝過程和演示已在Amazon Web Services Ubuntu 16.04.4 LTS實例上成功運行。
為SCAN-SNV創(chuàng)建一個conda環(huán)境
$ conda deactivate # The 'base' environment will be active after login$ conda create -n scansnv$ conda activate scansnv
安裝scansnv包
注冊您的GATK安裝
$ wget 'https://software.broadinstitute.org/gatk/download/auth?package=GATK-archive&version=3.8-1-0-gf15c1c3ef' -O GenomeAnalysisTK-3.8-1-0-gf15c1c3ef.tar.bz2$ tar xjvf GenomeAnalysisTK-3.8-1-0-gf15c1c3ef.tar.bz2$ gatk-register GenomeAnalysisTK-3.8-1-0-gf15c1c3ef/GenomeAnalysisTK.jar# Test the install$ gatk --version# Above should print 3.8-1-0-gf15c1c3ef
SCAN-SNV已在NCBI人參考構建37上進行了測試。
下載參考基因組。
下載dbSNP。請注意,在發(fā)布中使用了dbSNP build 147(僅限常見變體)。但是,NCBI不保證長期托管dbSNP構建,因此我們建議下載Broad的GATK資源包中包含的dbSNP版本。要使用dbSNP的其他版本,您需要生成一個tribble索引(見下文)。
$ wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/b37/dbsnp_138.b37.vcf.gz$ wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/b37/dbsnp_138.b37.vcf.idx.gz
下載SHAPEIT的單倍型參考面板。
解壓縮所有內容并將chrX SHAPEIT文件移動到主SHAPEIT目錄中。
$ gunzip *.gz$ tar xzvf 1000GP_Phase3.tgz$ tar xzvf 1000GP_Phase3_chrX.tgz$ mv genetic_map_chrX_* 1000GP_Phase3_chrX* 1000GP_Phase3
下載演示chr22 BAM。
運行SCAN-SNV。將/ path / to / ...的實例替換為上面下載的路徑。通過將分析限制在1 MB的chr22段并使用不切實際的粗網格進行協(xié)方差函數擬合,該演示在單核計算機上運行大約5分鐘。
scansnv \ --ref /path/to/human_g1k_v37_decoy.fasta \ --dbsnp /path/to/dbsnp_138.b37.vcf \ --shapeit-panel /path/to/1000GP_Phase3 \ --regions 22:30000001-31000000 \ --output-dir demo \ --bam hunamp hunamp.chr22.bam \ --bam h25 il-12.chr22.bam \ --sc-sample h25 \ --bulk-sample hunamp \ --abmodel-chunks 1 \ --abmodel-samples-per-chunk 10000 \ --abmodel-hsnp-chunk-size 50 \ --hsnp-spikein-replicates 5 \ --joblimit 1 --resume
有關scansnv -h
參數的詳細信息,請參閱。
SCAN-SNV完成后,Rdata文件中提供單個樣本結果demo/scansnv/[single_cell_sample_name]/somatic_genotypes.rda
。通過SCAN-SNV呼叫閾值的SNV將pass=TRUE
在 somatic
數據幀中具有(見下文)。
注意:即將推出VCF輸出選項。
與BAM 關聯的樣本名稱必須與BAM中的SM標記匹配。
conda activate
在運行SCAN-SNV之前,conda環(huán)境(在這些指令中名為scansnv)必須始終為d。
真實世界的分析需要并行化。
在具有多個核心的計算機上,增加--joblimit
參數將并行運行多個分析部分。
對于具有分布式資源管理軟件(例如,SLURM)的集群,SCAN-SNV暴露了Snakemake的并行化選項 --cluster
和--drmaa
。
對于GATK,dbSNP VCF必須由Tribble(不是 tabix)索引。GATK資源包中的dbSNP已經編入索引。如果您希望使用不同的dbSNP版本,則可以將該文件編入索引igvtools
。
$ conda install -c bioconda igvtools$ igvtools index /path/to/your/dbsnp.vcf
如果您覺得有價值,請把此文放到您朋友圈,大家都會感謝你
看完別忘了點“在看”哦