目前,單細(xì)胞轉(zhuǎn)錄組技術(shù)已成功應(yīng)用于解析腫瘤微環(huán)境(TME)中正常細(xì)胞和腫瘤細(xì)胞的亞群和基因表達(dá)。同時(shí),隨著高通量測(cè)序技術(shù)的發(fā)展,使并行檢測(cè)數(shù)以萬(wàn)計(jì)的單細(xì)胞轉(zhuǎn)錄組信息也成為可能。
然而,大規(guī)模腫瘤相關(guān)的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析的一個(gè)主要挑戰(zhàn)是在如何有效地從TME的基質(zhì)細(xì)胞和免疫細(xì)胞中區(qū)分出腫瘤細(xì)胞,使得能更深入的研究腫瘤細(xì)胞。前期研究表明,鑒別腫瘤細(xì)胞和正常細(xì)胞的有效方法為鑒別非整倍體拷貝數(shù)(Aneuploid copy number profiles),這是因?yàn)榉钦扼w拷貝數(shù)在大多數(shù)人類腫瘤中很常見(88%),而在具有二倍體基因組的基質(zhì)細(xì)胞類型中則不存在。
前人在該領(lǐng)域也進(jìn)行了探索,比如inferCNV和HoneyBadger方法的建立,這些方法可以從足夠大的基因組區(qū)域的轉(zhuǎn)錄組數(shù)據(jù)中估算基因組拷貝數(shù)。然而,這些方法是為分析來(lái)自第一代單細(xì)胞轉(zhuǎn)錄組技術(shù)數(shù)據(jù)而設(shè)計(jì)的,第一代單細(xì)胞轉(zhuǎn)錄組技術(shù)具有較高的測(cè)序深度。但是,這些方法并不適用于新開發(fā)的高通量單細(xì)胞轉(zhuǎn)錄組技術(shù)平臺(tái)的數(shù)據(jù)分析(如10X Genomics),因?yàn)楦咄繂渭?xì)胞轉(zhuǎn)錄組技術(shù)僅對(duì)mRNA的3 '或5 '端進(jìn)行較低深度的測(cè)序。此外,以前的方法不能準(zhǔn)確地預(yù)測(cè)染色體斷點(diǎn)的基因組位置,也不能根據(jù)腫瘤細(xì)胞和正常細(xì)胞的非整倍體拷貝數(shù)對(duì)細(xì)胞進(jìn)行分類。
為了應(yīng)對(duì)這些挑戰(zhàn),來(lái)自休斯頓衛(wèi)理公會(huì)研究所、德克薩斯大學(xué)安德森癌癥中心等單位的研究人員開發(fā)了CopyKAT,并以長(zhǎng)文的形式發(fā)表在Nature Biotechnology,題目為 “Delineating copy number and clonal substructure in human tumors from single-cell transcriptomes”。該研究表明,CopyKAT可以應(yīng)用于人類多種腫瘤的研究,以識(shí)別非整倍體腫瘤細(xì)胞,并描繪腫瘤細(xì)胞中共存的不同亞群的克隆亞結(jié)構(gòu)。
CopyKAT算法概述
首先,單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)的Unique Molecular Identifier(UMI)的基因表達(dá)矩陣作為CopyKAT的輸入,通過(guò)它們的基因組坐標(biāo)對(duì)它們進(jìn)行排序,并對(duì)基因的排列進(jìn)行注釋。之后,用Freeman-Tukey變換來(lái)穩(wěn)定方差,然后采用多項(xiàng)式動(dòng)態(tài)線性建模矯正單細(xì)胞UMI計(jì)數(shù)矩陣中的異常值。
下一步是建立一個(gè)高可信度的正常二倍體細(xì)胞子集,用來(lái)推測(cè)正常二倍體細(xì)胞的拷貝數(shù)基線值。為此,研究人員將所有單細(xì)胞集中到幾個(gè)小的亞群分類中,并使用高斯混合模型估算每個(gè)分類的方差。通過(guò)嚴(yán)格的分類標(biāo)準(zhǔn),具有最小估計(jì)方差的聚類被定義為“標(biāo)準(zhǔn)的二倍體細(xì)胞”。
為了檢測(cè)染色體斷點(diǎn),他們整合泊松-伽瑪模型和馬爾可夫鏈蒙特卡羅迭代生成每個(gè)基因窗口的后驗(yàn)均值,然后應(yīng)用Kolmogorov-Smirnov檢驗(yàn)對(duì)均值無(wú)顯著差異的相鄰窗口進(jìn)行合并,然后計(jì)算每個(gè)窗口的最終拷貝數(shù)值,以此作為跨越每個(gè)細(xì)胞中相鄰染色體斷點(diǎn)的所有基因的后驗(yàn)平均值。
然后對(duì)單細(xì)胞拷貝數(shù)數(shù)據(jù)進(jìn)行分層聚類,以確定非整倍體腫瘤細(xì)胞和二倍體基質(zhì)細(xì)胞之間的最大距離。最后,根據(jù)聚類信息識(shí)別克隆亞群,并計(jì)算代表亞克隆基因型的共表達(dá)譜,進(jìn)一步分析其基因表達(dá)的差異。
CopyKAT性能的評(píng)估
研究結(jié)果表明,在220 kb的基因組分辨率下,CopyKAT的預(yù)測(cè)結(jié)果與標(biāo)準(zhǔn)參考DNA拷貝數(shù)信息具有很高的一致性(皮爾森相關(guān)系數(shù)為0.82)。inferCNV的預(yù)測(cè)結(jié)果也具有較高的一致性(皮爾森相關(guān)系數(shù)為0.79)。然而,inferCNV的主要局限性是不能檢測(cè)染色體斷點(diǎn)的具體坐標(biāo)或拷貝數(shù)片段,而CopyKAT則可以實(shí)現(xiàn)這些。
接下來(lái),通過(guò)在不同基因大小區(qū)間的相鄰局部區(qū)域重復(fù)采樣,他們進(jìn)一步計(jì)算了從兩種方法推斷的拷貝數(shù)狀態(tài)與參考DNA拷貝數(shù)信息的相對(duì)差距。分析結(jié)果表明與inferCNV相比,CopyKAT更接近參考DNA拷貝數(shù)狀態(tài)(P < 0.001, t檢驗(yàn))。此外,數(shù)據(jù)還表明,在5 ~ 500個(gè)基因區(qū)間內(nèi),CopyKAT具有更穩(wěn)定的表現(xiàn)。
圖3. CopyKAT與inferCNV性能的比較(二),來(lái)源:Nature Biotechnology
CopyKAT性能的檢測(cè):實(shí)體瘤中腫瘤與正常細(xì)胞的分類
結(jié)果表明,CopyKAT具有很好的區(qū)分能力,比如根據(jù)5例胰腺癌患者的9,717個(gè)單細(xì)胞轉(zhuǎn)錄組,CopyKAT成功地在所有個(gè)體中鑒定出非整倍體腫瘤細(xì)胞亞群。預(yù)測(cè)的腫瘤細(xì)胞具有全基因組拷貝數(shù)異常,包括頻繁擴(kuò)增的1q、3q、7p、8q、17、19和20以及缺失的3p、6和8p,這與之前的研究報(bào)道是一致的。同時(shí),預(yù)測(cè)得到的非整倍體腫瘤細(xì)胞的UMAP投射與表現(xiàn)出高上皮基因得分的細(xì)胞亞群共定位,這也體現(xiàn)了這些細(xì)胞的腫瘤特性。
圖4. CopyKAT可將人類腫瘤中癌細(xì)胞和正常細(xì)胞分類,來(lái)源:Nature Biotechnology
CopyKAT可應(yīng)用于其他單細(xì)胞轉(zhuǎn)錄組測(cè)序數(shù)據(jù)
推測(cè)乳腺腫瘤的克隆亞結(jié)構(gòu)
結(jié)果表明,CopyKAT能夠區(qū)分出腫瘤細(xì)胞的亞克隆結(jié)構(gòu),比如克隆A的亞克隆擴(kuò)增(4p, 7q, 9p13.2-q22.2和17q);克隆B的亞克隆擴(kuò)增(3p26.3-p25.1, 6q, 7p, 11q,Xp11.23和Xq)。
差異分析在兩個(gè)亞克隆中共鑒定出329個(gè)差異表達(dá)基因,在亞克隆A中,包括雄激素反應(yīng)和上皮-間質(zhì)轉(zhuǎn)化等特征顯著富集;并且這兩個(gè)預(yù)測(cè)出的非整倍體亞克隆在降維圖上也對(duì)應(yīng)不同的細(xì)胞亞群。因此,這些結(jié)果表明,CopyKAT可以從單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)中解析腫瘤的克隆拷貝數(shù)亞結(jié)構(gòu),并識(shí)別出亞克隆的差異。
聯(lián)系客服