近年來,隨著精準(zhǔn)醫(yī)學(xué)治療時代的到來,單細(xì)胞研究領(lǐng)域正在不斷推動人類癌癥研究、代謝組學(xué)、發(fā)育生物學(xué)、免疫學(xué)及神經(jīng)科學(xué)多個領(lǐng)域向前發(fā)展,逐漸成為生物醫(yī)學(xué)領(lǐng)域研究的焦點。本文中,小編就對近期科學(xué)家們在單細(xì)胞研究領(lǐng)域取得的重磅級研究成果進行整理,分享給大家!
【1】Nat Genet:科學(xué)家利用空間單細(xì)胞轉(zhuǎn)錄組學(xué)技術(shù)成功對人類的彌漫性中線膠質(zhì)瘤進行了可視化研究
doi:10.1038/s41588-022-01236-3
組蛋白3賴氨酸27-蛋氨酸(H3-K27M)突變最常發(fā)生在兒童腦橋的彌漫性中線膠質(zhì)瘤(DMGs,diffuse midline gliomas)中,但其也在越來越多的成年人中被發(fā)現(xiàn),目前研究人員并不清楚其在不同年齡和中線位置的潛在異質(zhì)性。被診斷為彌漫性中線膠質(zhì)瘤的患兒通常會在確診后的1年內(nèi)發(fā)生死亡,因為并沒有有效的療法治療這種罕見的癌癥,但如今研究人員或能對這種腫瘤更好地理解并有望開發(fā)出潛在的治療性策略。近日,一篇發(fā)表在國際雜志Nature Genetics上題為“The landscape of tumor cell states and spatial organization in H3-K27M mutant diffuse midline glioma across age and location”的研究報告中,來自達納-法伯/波士頓兒童癌癥和血液病中心等機構(gòu)的科學(xué)家們通過研究利用空間單細(xì)胞轉(zhuǎn)錄組學(xué)技術(shù)對不同年齡組和不同部位的癌細(xì)胞的結(jié)構(gòu)進行了可視化研究。
p53或是科學(xué)家開發(fā)治療人類唾液腺癌新型療法的關(guān)鍵科學(xué)家利用空間單細(xì)胞轉(zhuǎn)錄組學(xué)技術(shù)成功
對人類的彌漫性中線膠質(zhì)瘤進行了可視化研究。
圖片來源:Nature Genetics (2022). DOI: 10.1038/s41588-022-01236-3
研究者發(fā)現(xiàn),細(xì)胞的空間組織或能幫助解釋為何彌漫性中線膠質(zhì)瘤如何難以治療,這項研究中,研究人員首次利用空間分辨率單細(xì)胞技術(shù)來對患者的組織進行分析,并強調(diào)了未來需要根據(jù)患者的腫瘤狀況來開發(fā)專門化的治療手段。研究人員重點對一種名為H3-K27M的突變所引起的彌漫性中線膠質(zhì)瘤進行研究,H3-K27M會驅(qū)動大腦中的早期干細(xì)胞發(fā)生癌變。
隨后研究者Filbin及其同事通過測定來自50名攜帶H3-K27M突變的個體(2-68歲之間)機體組織中的基因活性,從而尋找年齡和位點依賴性的差異;研究者發(fā)現(xiàn),兒童腫瘤以及腦干和脊髓中的腫瘤中含有更多的不成熟細(xì)胞,這些不成熟的細(xì)胞會快速增且很容易的增殖,因為其類似于干細(xì)胞,這或許就能幫助解釋兒童中彌漫性中線膠質(zhì)瘤的致死性。此外,研究者還注意到,成年人機體的腫瘤含有更多間質(zhì)樣細(xì)胞,這些細(xì)胞通常有助于幫助愈合受損的組織并幫助促進腫瘤生長和癌癥進展,然而,研究人員并未發(fā)現(xiàn)引起這種差異背后的遺傳性原因。
【2】Nature:揭示癌癥中突變過程誘導(dǎo)的單細(xì)胞基因組變異
doi:10.1038/s41586-022-05249-0
近日,一篇發(fā)表在國際雜志Nature上題為“Single-cell genomic variation induced by mutational processes in cancer”的研究報告中,來自美國威爾康奈爾醫(yī)學(xué)院等機構(gòu)的研究人員利用單細(xì)胞測序揭示了乳腺癌和卵巢癌相關(guān)的突變過程。在這篇論文中,他們描述了他們?nèi)绾螌Τ汕先f個乳腺組織細(xì)胞進行單細(xì)胞基因組測序,并將他們的發(fā)現(xiàn)與他們對成千上萬個卵巢腫瘤和乳腺腫瘤細(xì)胞樣本進行的測序進行比較。
這些作者在注意到可能在多種癌癥中引發(fā)基因組不穩(wěn)定的細(xì)胞間拷貝數(shù)改變還沒有被科學(xué)界很好地解決后開始了他們的研究。他們還注意到,在不同種類癌癥的進化過程中,這種改變能夠?qū)е卤硇妥兓姆绞揭矝]有得到充分的研究。為了糾正這種情況,他們開始了一項雄心勃勃的測序工作,最直接地關(guān)注與卵巢癌和乳腺癌有關(guān)的突變過程。
這些作者的研究工作是雙管齊下的。其中的一項實驗涉及對13800個乳腺上皮細(xì)胞進行單細(xì)胞基因組測序,這些細(xì)胞來自可能存在或不存在p53、BRCA1或BRCA2突變的女性,這些突變會導(dǎo)致同源重組缺陷。他們隨后通過觀察單倍型模式和單細(xì)胞結(jié)構(gòu)變異(structural variant)來尋找突變過程。第二項實驗是對22057個晚期卵巢癌或乳腺癌的腫瘤細(xì)胞進行單細(xì)胞基因組測序。他們隨后將在第一項實驗中發(fā)現(xiàn)的模式(他們稱之為前景事件)與第二項實驗中發(fā)現(xiàn)的模式進行了比較。
【3】Nature子刊:騰訊AI Lab發(fā)布scBERT模型,攻克單細(xì)胞測序數(shù)據(jù)分析痛點
doi:10.1038/s42256-022-00534-z
單細(xì)胞測序技術(shù)是生命科學(xué)領(lǐng)域的一項革命性技術(shù)??梢约?xì)粒度地觀察和刻畫各個物種中組織、器官和有機體中單細(xì)胞分子圖譜(細(xì)胞表達),便于更好地了解腫瘤微環(huán)境,以達到精細(xì)分析病因、精準(zhǔn)匹配治療方案的效果,對于「精準(zhǔn)醫(yī)療」具有極高的應(yīng)用價值。受數(shù)據(jù)樣本量小、人工干預(yù)多、過度依賴 marker gene(已報道的特異性基因)等因素的影響,單細(xì)胞測序細(xì)胞類型注釋技術(shù)一直面臨著泛化性、可解釋性、穩(wěn)定性均比較低的問題,現(xiàn)存的算法難以有更廣泛的應(yīng)用。
近日,一篇發(fā)表在國際雜志Nature Machine Intelligence上題為“scBERT as a Large-scale Pretrained Deep Language Model for Cell Type Annotation of Single-cell RNA-seq Data”的研究報告中,來自騰訊AI Lab等機構(gòu)的科學(xué)家們通過研究創(chuàng)新性地提出關(guān)于單細(xì)胞注釋的 scBERT 算法模型,實現(xiàn)了高解釋性、高泛化性、高穩(wěn)定性的單細(xì)胞類型注釋技術(shù)。這項研究成果對于單細(xì)胞轉(zhuǎn)錄組測序數(shù)據(jù)分析領(lǐng)域未來研究具有深遠(yuǎn)意義。
從結(jié)果上來看,scBERT模型實現(xiàn)了高解釋性、高泛化性、高穩(wěn)定性的單細(xì)胞類型注釋技術(shù)。截至目前,通過了9個獨立數(shù)據(jù)集、超過50萬個細(xì)胞、覆蓋17種主要人體器官和主流測序技術(shù)組成的大規(guī)模benchmarking測試數(shù)據(jù)集上,該算法模型的優(yōu)越性均得以驗證。其中,在極具挑戰(zhàn)的外周血細(xì)胞亞型細(xì)分任務(wù)上,相較現(xiàn)有最優(yōu)方法的70%準(zhǔn)確度提升了7%。在應(yīng)用價值層面,該項技術(shù)能給細(xì)胞中的每個基因都印上專屬「身份證」,可用于臨床單細(xì)胞測序數(shù)據(jù),并輔助醫(yī)生描述準(zhǔn)確的腫瘤微環(huán)境、檢測出微量癌細(xì)胞,從而實現(xiàn)個性化治療方案或者癌癥早篩。同時,對疾病致病機制分析、耐藥性、藥物靶點發(fā)現(xiàn)、預(yù)后分析、免疫療法設(shè)計等領(lǐng)域都具有極其重要的作用。
【4】Science:通過單細(xì)胞分析揭示蠑螈端腦的神經(jīng)發(fā)生和再生
doi:10.1126/science.abp9262
諸如墨西哥蠑螈(axolotl, 學(xué)名Ambystoma mexicanum)之類的蠑螈在研究四足動物保守性狀方面發(fā)揮了作用。到目前為止,對蠑螈大腦的細(xì)胞類型多樣性及其與其他脊椎動物大腦的關(guān)系的研究主要是通過組織學(xué)來進行的。墨西哥蠑螈的大腦在胚胎后的生活中生長,新的神經(jīng)元由增殖性的室管膜膠質(zhì)細(xì)胞(ependymoglia cell)產(chǎn)生。墨西哥蠑螈的大腦在受傷后也會再生;然而,目前仍不清楚干細(xì)胞如何再生這種蠑螈的大腦以及神經(jīng)元連接是否得到適當(dāng)?shù)幕謴?fù)。
對端腦的單細(xì)胞和單核基因組分析揭示了幾種羊膜動物(包括爬行動物、鳥類和哺乳動物)的細(xì)胞類型和大腦區(qū)域的多樣性和進化關(guān)系。這些方法還揭示了發(fā)育期間和成年時期神經(jīng)發(fā)生的分子軌跡。近日,一篇發(fā)表在國際雜志Science上題為“Single-cell analyses of axolotl telencephalon organization, neurogenesis, and regeneration”的研究報告中,來自奧地利維也納生物中心等機構(gòu)的科學(xué)家們通過研究對墨西哥蠑螈端腦的細(xì)胞類型、神經(jīng)發(fā)生和進化保守性進行了分子表征。他們將單核基因組分析應(yīng)用于穩(wěn)定狀態(tài)下和再生期間的墨西哥蠑螈端腦,以研究它的細(xì)胞類型的多樣性和穩(wěn)態(tài)神經(jīng)發(fā)生的分子動態(tài)。他們比較了分子譜,以了解再生性神經(jīng)發(fā)生的損傷特異性特征。
蠑螈端腦的結(jié)構(gòu)、保守性和神經(jīng)發(fā)生
圖片來源:Science, 2022, doi:10.1126/science.abp9262。
文章中,研究人員利用單核RNA測序(snRNA-seq)和snATAC-seq以及空間轉(zhuǎn)錄組學(xué),確定了墨西哥蠑螈端腦的細(xì)胞多樣性。他們確定了區(qū)域分布的神經(jīng)元、室管膜膠質(zhì)細(xì)胞和神經(jīng)母細(xì)胞(neuroblast)群體,并通過比較分析確定了它們在羊膜動物中的保守性。他們發(fā)現(xiàn)墨西哥蠑螈端腦含有谷氨酸能神經(jīng)元(glutamatergic neuron),它們的轉(zhuǎn)錄與烏龜和小鼠海馬體、背皮層和嗅皮層的神經(jīng)元相似。
【5】Cell Discov:西湖大學(xué)科學(xué)家利用單細(xì)胞多組學(xué)技術(shù)揭示腎透明細(xì)胞癌中的關(guān)鍵調(diào)控程序
doi:10.1038/s41421-022-00415-0
腎透明細(xì)胞癌(clear cell renal carcinoma, ccRCC)是腎細(xì)胞癌中最常見和最具侵襲性的亞型。當(dāng)前多種臨床治療策略,如靶向治療和免疫治療,仍然還無法很好地應(yīng)對高度異質(zhì)性的腫瘤微環(huán)境,所以在臨床上并沒有取得令人滿意的治療效果。深入刻畫ccRCC微環(huán)境中的細(xì)胞組成和基因組調(diào)控特征對于我們理解腫瘤致病機理和開發(fā)新的治療策略具有重要意義。
近年來,單細(xì)胞測序技術(shù)飛速發(fā)展,已經(jīng)能夠檢測出單個細(xì)胞的基因轉(zhuǎn)錄表達和表觀基因組調(diào)控等多種維度的信息。近日,一篇發(fā)表在國際雜志Cell Discovery上題為“Single-cell multiomics analysis reveals regulatory programs in clear cell renal cell carcinoma”的研究報告中,來自西湖大學(xué)等機構(gòu)的科學(xué)家們通過研究對ccRCC在單細(xì)胞水平進行了多維度的探索。該研究整合了single-cell RNA-seq(scRNA-seq)和single-cell ATAC-seq(scATAC-seq)數(shù)據(jù),描繪了ccRCC的轉(zhuǎn)錄組和表觀基因組圖譜,識別了在腫瘤細(xì)胞和多種免疫細(xì)胞中發(fā)揮重要作用的調(diào)控因子,進一步闡明了ccRCC的異質(zhì)性并發(fā)現(xiàn)了潛在的治療靶點。
該研究對ccRCC患者的腫瘤組織進行了配對的scRNA-seq和scATAC-seq測序,分別獲得了38097和21272個單細(xì)胞。通過單細(xì)胞數(shù)據(jù)分析,識別了多種淋巴細(xì)胞和髓系細(xì)胞亞群。聯(lián)合ccRCC標(biāo)志基因CA9和拷貝數(shù)變異特征,在兩種數(shù)據(jù)類型中各鑒定出了一個腫瘤細(xì)胞群體。總的來說,免疫細(xì)胞是ccRCC微環(huán)境中主要的細(xì)胞群體(>70%),腫瘤細(xì)胞只占不到10%。
【6】Nat Genet:科學(xué)家利用小鼠發(fā)育的單細(xì)胞圖譜確定細(xì)胞命運調(diào)控程序
doi:10.1038/s41588-022-01118-8
多細(xì)胞生物的發(fā)育過程的穩(wěn)健性表明有一個專門的調(diào)控程序來控制細(xì)胞命運決定的軌跡。根據(jù)Waddington的表觀遺傳景觀理論,分化的細(xì)胞類型來自不穩(wěn)定的干/祖細(xì)胞狀態(tài),并最終進入穩(wěn)定的細(xì)胞狀態(tài)。從單細(xì)胞數(shù)據(jù)中得出的狀態(tài)流形(state manifold)的新興概念進一步增強了我們對譜系進展的理解。這些狀態(tài)流形背后的基因調(diào)控程序是什么?它們是如何被調(diào)控的?這兩個問題在這個領(lǐng)域仍然是個謎。
中國浙江大學(xué)的研究者Guo Guoji等人長期致力于單細(xì)胞測序和細(xì)胞命運決定的研究。他們開發(fā)了Microwell-seq,即一種使用簡單和廉價設(shè)備的高通量和低成本的scRNA-seq平臺。利用Microwell-seq,他們構(gòu)建了世界上第一個小鼠細(xì)胞圖譜和人類細(xì)胞景觀,分別于2018年和2020年發(fā)表在Cell期刊和Nature期刊上。在此基礎(chǔ)上,這個研究團隊在一項新的研究中對小鼠進行了從早期胚胎階段到成熟成體階段的七個生命階段的單細(xì)胞轉(zhuǎn)錄組分析。他們總共分析了52萬多個細(xì)胞,并確定了參與小鼠核心命運決定回路的譜系共同主調(diào)節(jié)因子和譜系特異性主調(diào)節(jié)因子。相關(guān)研究結(jié)果“Systematic identification of cell-fate regulatory programs using a single-cell atlas of mouse development”發(fā)表在了Nature Genetics雜志上。
在這項新的研究中,這個研究團隊分析了小鼠在從早期胚胎階段到成熟成體階段的不同階段---胎齡(E)10.5、E12.5、E14.5、出生當(dāng)天(P0)、出生后第10天(P10)、出生后第21天(P21)和成年(6~10周)---的基因表達變化。所分析的器官涉及神經(jīng)系統(tǒng)、呼吸系統(tǒng)、消化系統(tǒng)、循環(huán)系統(tǒng)、泌尿系統(tǒng)和生殖系統(tǒng)。實驗顯示,在譜系發(fā)育過程中,轉(zhuǎn)錄的可塑性逐漸降低。這個研究團隊構(gòu)建了一個系統(tǒng)性的轉(zhuǎn)錄因子調(diào)控網(wǎng)絡(luò),確定了900多個調(diào)控子(regulon),并確定了15種不同的表達模式,包括譜系共同調(diào)控程序和譜系特異性調(diào)控程序。他們比較了不同細(xì)胞譜系的分化特異性,確定了細(xì)胞命運決定的共同調(diào)控因子。
【7】Sci Adv:單細(xì)胞多組學(xué)分析或為開發(fā)新型CAR-T細(xì)胞療法提供新的思路
doi:10.1126/sciadv.abj2820
在過去10年里,一種稱之為CAR-T細(xì)胞療法的癌癥療法在治療血液癌癥上展現(xiàn)出了巨大的前景,但通常情況下患者往往會在短時間內(nèi)出現(xiàn)疾病復(fù)發(fā)。近日,一篇發(fā)表在國際雜志Science Advances上題為“Single-cell antigen-specific landscape of CAR T infusion product identifies determinants of CD19-positive relapse in patients with ALL”的研究報告中,來自耶魯大學(xué)等機構(gòu)的科學(xué)家們揭示了其中一些關(guān)鍵的線索來解釋為何患者會出現(xiàn)癌癥復(fù)發(fā)。
單細(xì)胞多組學(xué)分析或為開發(fā)新型CAR-T細(xì)胞療法提供新的思路。
原始出處:Science Advances (2022). DOI:10.1126/sciadv.abj2820
CAR-T細(xì)胞療法主要涉及從患者機體的血液中分離出抵御病毒的T細(xì)胞,并利用嵌合抗原受體(CAR)對其進行遺傳性修飾,CAR能靶向作用癌細(xì)胞表面表達的標(biāo)志物,這些CAR-T細(xì)胞隨后就會被重新輸注到患者體內(nèi)來抵御癌細(xì)胞,實踐證明,其能有效抵御多種血液癌癥,比如急性淋巴細(xì)胞性白血病(ALL)、淋巴瘤和多發(fā)性骨髓瘤,然而,很多患者都會在短期內(nèi)出現(xiàn)疾病的緩解,30%-60%接受治療的患者都會在1年內(nèi)出現(xiàn)疾病的復(fù)發(fā)。為此,研究人員開始著手分析疾病長期緩解的患者和疾病復(fù)發(fā)的患者之間的差異,他們尋找了患者機體細(xì)胞的模式,并分析了12名兒童ALL患者機體的10萬個單一的CAR-T細(xì)胞,在12名患者中,有5名患者在長達5年多的時間里疾病得到了完全緩解,另外5名患者則在試驗過程中發(fā)生了疾病復(fù)發(fā),其中位時間點為9.6個月,另外2名受試者并沒有顯示出對該療法的客觀反應(yīng)。
文章中,研究人員使用了所謂的多組學(xué)方法,即將來自轉(zhuǎn)錄組和蛋白質(zhì)組的數(shù)據(jù)結(jié)合,從而進行了強大的單細(xì)胞分析,這樣他們就能密切研究每個細(xì)胞的基因表達特性,并識別出CAR-T細(xì)胞中隱藏的分子機制,其在未來癌癥療法的開發(fā)過程中扮演著關(guān)鍵角色。研究人員還識別出了一種共表達的細(xì)胞因子組件,其能作為免疫系統(tǒng)的信使而分泌特殊蛋白質(zhì),同時其還是協(xié)調(diào)免疫細(xì)胞的關(guān)鍵調(diào)節(jié)子,在這些細(xì)胞因子中,研究者發(fā)現(xiàn)了一組能代表T輔助2細(xì)胞(Th2)功能的細(xì)胞因子在疾病已經(jīng)緩解了5年或更長時間的患者的細(xì)胞譜中非常突出,Th2細(xì)胞是介導(dǎo)機體免疫反應(yīng)激活和維持的一種細(xì)胞亞型,這樣研究人員就能更好地評估來自不同患者機體的CAR-T細(xì)胞的功能差異。
【8】Science:微生物單細(xì)胞時代正式開啟 微生物高通量單細(xì)胞基因組學(xué)
doi:10.1126/science.abm1483
近日,一篇發(fā)表在國際雜志Science上題為“High-throughput, single-microbe genomics with strain resolution, applied to a human gut microbiome”的研究報告中,來自哈佛大學(xué)等機構(gòu)的科學(xué)家們在微生物群落研究方法學(xué)上取得重要突破,文章中,他們發(fā)明了一種名為“Microbe-seq”的微生物高通量單細(xì)胞基因組學(xué)技術(shù)。
Microbe-seq技術(shù)集成了多種液滴微流控操作技術(shù)和定制開發(fā)的生物信息學(xué)分析手段,不需要培養(yǎng)即可從復(fù)雜微生物群落中獲取成千上萬個單細(xì)胞微生物的基因組信息,并組裝出高質(zhì)量的菌株水平基因組,從而能夠在不損失分辨率或廣泛物種適用性的基礎(chǔ)上探究微生物群落的基因組。該方法應(yīng)用面廣泛,可用于具有復(fù)雜微生物群落的樣本,如糞便、土壤和海洋等,在微生態(tài)研究中具有極大的市場應(yīng)用潛力。
Microbe-seq技術(shù)集成了多種液滴微流控操作技術(shù)和定制開發(fā)的生物信息學(xué)分析手段,不需要培養(yǎng)即可從復(fù)雜微生物群落中獲取成千上萬個單細(xì)胞微生物的基因組信息,并組裝出高質(zhì)量的菌株水平基因組(包含大量尚未被培養(yǎng)的菌株),從而能夠在不損失分辨率或廣泛物種適用性的基礎(chǔ)上探究微生物群落的基因組。同時,該技術(shù)還可精確解析菌株水平基因組、發(fā)現(xiàn)未培養(yǎng)的潛在的新菌株;進而可在菌株水平對HGT、宿主-噬菌體關(guān)聯(lián)、功能基因和代謝通路進行深入研究。該方法可同時適用于其它復(fù)雜的微生物群落,如土壤和海洋中的微生物群落,有望成為醫(yī)學(xué)和環(huán)境微生態(tài)研究的主流技術(shù),對于發(fā)掘有潛在應(yīng)用價值的微生物資源、探究種間/種內(nèi)關(guān)系具有重要的理論和現(xiàn)實意義。
【9】Science:構(gòu)建出迄今為止最為龐大的多種人類器官的單細(xì)胞圖譜
doi:10.1126/science.abl4896
除了極少數(shù)例外,我們每個人身體里的數(shù)萬億個細(xì)胞都攜帶著基本相同的人類基因組,每個人類基因組包含2萬到2.5萬個蛋白編碼基因。但是,為了執(zhí)行使生命成為可能的專門功能,像腎臟、肺部、心臟和大腦這樣的器官依賴于由獨特的細(xì)胞類型構(gòu)建的組織,當(dāng)每個細(xì)胞類型發(fā)育到只表達基因組中的特定基因子集時,就會出現(xiàn)這種情況。
在此之前,不同細(xì)胞類型的基因表達多樣性,即所謂的轉(zhuǎn)錄組(transcriptome),一直難以破譯。但隨著單細(xì)胞生物學(xué)的迅速發(fā)展,科學(xué)家們已經(jīng)開發(fā)出一些工具和技術(shù),精確地揭示了構(gòu)成組織和器官的不同細(xì)胞所表達的基因。除了帶來對正常生物學(xué)的更深理解,這些單細(xì)胞方法有望為新的治療方法開辟途徑,因為疾病通常會襲擊特定的細(xì)胞類型。近日,一篇發(fā)表在國際雜志Science上題為“The Tabula Sapiens: A multiple-organ, single-cell transcriptomic atlas of humans”的研究報告中,來自Tabula Sapiens聯(lián)盟的科學(xué)家們通過研究公布了一個巨大的數(shù)字圖譜,繪制了來自24種人類組織和器官的近50萬個細(xì)胞的基因表達,包括肺部、皮膚、心臟和血液。
Tabula Sapiens細(xì)胞圖譜
圖片來源:Science, 2022, doi:10.1126/science.abl4896。
Tabula Sapiens細(xì)胞圖譜是包括來自同一人類供者的多種組織的最大圖譜,也是第一個包括組織的組織學(xué)圖像的圖譜,并納入了生活在組成腸道不同區(qū)室的人類細(xì)胞周圍的微生物群落的細(xì)節(jié)。研究者Stephen Quake博士表示,這些數(shù)據(jù)的質(zhì)量和廣度是無可比擬的。這個圖譜將使科學(xué)家們能夠提出并回答他們以前從未接觸過的有關(guān)人類健康和疾病的問題。
【10】Nature子刊:韓敬東團隊提出基于Transformer的單細(xì)胞可解釋注釋方法
doi:10.1038/s41467-023-35923-4
近年來得益于單細(xì)胞測序技術(shù)的發(fā)展,我們可以以單細(xì)胞分辨率去理解生物學(xué)過程,包括發(fā)育,衰老和疾病等。細(xì)胞類型注釋在單細(xì)胞數(shù)據(jù)分析過程中非常關(guān)鍵,傳統(tǒng)的注釋方法是將細(xì)胞降維到去除批次效應(yīng)的低維空間,再進行一輪或多輪不同分辨率的聚類,最后根據(jù)不同細(xì)胞簇的標(biāo)記基因人工的標(biāo)注細(xì)胞類型。這一過程缺乏公認(rèn)的標(biāo)準(zhǔn),很大程度上受到研究人員偏好的影響。此外,移除批次效應(yīng)的同時保留生物學(xué)差異也是單細(xì)胞研究的難點。幸而,隨著技術(shù)進步,越來越多大規(guī)模單細(xì)胞圖譜產(chǎn)生并公開發(fā)表,為后續(xù)研究提供了重要參考,但同時也產(chǎn)生了開發(fā)能夠高效處理大規(guī)模數(shù)據(jù)的計算工具的需求。所以,統(tǒng)一標(biāo)準(zhǔn)的,高效的,生物學(xué)可解釋的細(xì)胞類型標(biāo)注工具對于單細(xì)胞分析結(jié)果的可重復(fù)性和科學(xué)研究的持續(xù)發(fā)展至關(guān)重要。
近日,一篇發(fā)表在國際雜志Nature Communications上題為“Transformer for One Stop Interpretable Cell type Annotation”的研究報告中,來自北京大學(xué)等機構(gòu)的科學(xué)家們通過研究開創(chuàng)性地提出了基于多頭自注意力機制的深度學(xué)習(xí)方法TOSICA,實現(xiàn)了無需任何批次信息輸入,使用個人電腦,在數(shù)十分鐘內(nèi)對百萬級單細(xì)胞數(shù)據(jù)的細(xì)胞類型注釋,并建立多層次可解釋性的,批次不敏感的,高分辨率的細(xì)胞低維表示。
與基于特征基因或相關(guān)性的機器學(xué)習(xí)方法相比,深度學(xué)習(xí)方法往往更適合處理大數(shù)據(jù),更高效,更自動化。目前已經(jīng)有大量基于自編碼器(Autoencoder,AE)及其各種變體的細(xì)胞類型注釋方法被開發(fā),但受限于AE模型結(jié)構(gòu)本身帶來的弊端,此類方法大多伴隨著特征提取過程中的信息損失,需要額外批次信息的輔助去除批次效應(yīng),以及無法在不犧牲模型深度或能力的情況下賦予隱空間生物學(xué)可解釋性等問題。
Transformer是一種先進的,基于多頭自注意力(Multi-head self-attention)機制的深度學(xué)習(xí)模型,擁有強大的全局信息集成能力和可解釋性,它在自然語言處理(NLP)和計算機視覺(CV)等領(lǐng)域都取得了突破性進展。受這些優(yōu)良特性的鼓舞,TOSICA 開創(chuàng)性的將Transformer計算單元運用到scRNA-seq數(shù)據(jù)分析領(lǐng)域。該模型首先將細(xì)胞中基因的表達信息轉(zhuǎn)化成基因集特征(Gene set token)并添加一維用于分類的分類頭(Class token),由于基因集間的離散特性,相對于傳統(tǒng)Transformer模型,TOSICA無需位置信息編碼(position embedding)而直接進入多頭自注意力層進行特征集成,最后僅將class token接入分類器中得到細(xì)胞分類結(jié)果。(生物谷Bioon.com)