編譯|王娜 審稿|王海云
本文介紹由美國德克薩斯大學MD安德森癌癥中心生物統計學系的Ziyi Li和Kim-Anh Do共同通訊發表在 Bioinformatics 的研究成果:為了更好地注釋scRNA-seq 數據,發現新的細胞類型,作者開發了一種簡單而有效的方法,結合自動編碼器和迭代特征選擇,從scRNA-seq數據中自動識別新細胞。該方法用標記的訓練數據訓練一個自動編碼器,并將自動編碼器應用于測試數據以獲得重建誤差。通過反復選擇表現出雙模模式的特征,并使用所選特征對細胞進行重新分組,該方法可以準確地識別訓練數據中不存在的新細胞。作者進一步將這種方法與支持向量機結合起來,為注釋所有的細胞類型提供了一個完整的解決方案。使用五個真實的scRNA-seq數據集進行的廣泛的數值實驗,結果表明,該方法比現有的方法具有更好的性能。
簡介
單細胞RNA測序(scRNA-seq)的出現使研究人員能夠以前所未有的精度和準確度研究人類組織的細胞組成和轉錄組概況。作為第一步,注釋細胞和分配細胞類型標簽是最重要的步驟之一,因為大多數的下游分析都依賴于細胞標簽的準確性。由于不同的研究人員對細胞類型標志物的理解存在差異,通常不能保證注釋結果的可重復性。盡管多種監督方法為細胞注釋提供了各種解決方案,但監督方法面臨的一個大挑戰是如何將新的(或未知的)細胞類型與已知的細胞類型區分開來。
在這項工作中,作者開發了一種新的兩步法來自動標記含有新細胞的scRNA-seq數據。稱之為使用基于機器學習的方法對未知細胞的存在進行細胞注釋(CAMLU)。在第一步,CAMLU使用自動編碼器和迭代特征選擇的組合來區分已知細胞類型和新的細胞類型。這樣的目的是,用訓練數據訓練自動編碼器后,自動編碼器將包含所有已知細胞類型的信息。將這個自動編碼器應用于測試數據將產生所有基因的重構誤差。由于細胞是已知和未知細胞類型的混合體,一些 "有信息的 "基因在其重構誤差中會有雙模分布,代表它們與已知細胞類型的不同相似程度。通過迭代特征選擇,CAMLU可以選擇一組較小的信息性特征,這些特征在已知和未知細胞群中具有表達差異,并最終將新型細胞與已知細胞類型區分開來。然后,可以根據這些信息性基因重新對細胞進行分組,并識別出新型細胞。除去第一步中確定的新細胞,CAMLU在第二步中使用支持向量機對其余的細胞進行詳盡的注釋。圖1展示了CAMLU的工作流程。
圖1 CAMLU的工作流程
結果
蒙特卡洛數值實驗 為了廣泛地評估CAMLU的性能,作者設計了三個基于真實數據集的蒙特卡洛數值實驗。作者將CAMLU與四種流行的細胞注釋方法進行了比較,這些方法能夠使用 "未分配 "的標簽來識別未知的細胞。
用PBMC和HNCC細胞系進行的數值實驗 PBMC數據有6萬多個來自8種免疫細胞類型的分類細胞。HNCC總共有4632個癌細胞。對于每個實驗,我們從PBMC數據中每個細胞類型隨機選擇個細胞,從HNCC數據中隨機選擇個癌癥細胞。考慮了三種設置,正常細胞樣本量=300;400;500(即訓練數據中2400、3100和3800個細胞),對應于圖2中的小、中和大。在所有設置中,癌細胞數量保持不變,即=300。圖2總結了100多次蒙特卡洛實驗的數值實驗情況。與現有的方法相比,CAMLU在區分癌細胞和新型細胞以及標記全部細胞類型方面具有最高的準確性。CopyKAT在識別圖2上圖中的癌細胞方面是第二好的。由于它不能分配完整的標簽列表,copyKAT沒有在圖2中展示。在其他現有的方法中,scmap-cluster和CHETAH也能很好地分配正確的標簽,但準確率和ARI略低,其次是scPred。Scmap-cell在這兩項任務中的準確率最低,可能是由于該方法產生了大量的 "未分配 "標簽。
圖2 使用PBMC數據和癌細胞系數據的混合物進行數值實驗的結果
用PBMC進行的數值實驗 接下來,作者設計了一個數值實驗,只用PBMC數據來模擬未知細胞不是非整倍體時的情況。我們將單核細胞作為 "新型 "細胞類型,其他七種細胞類型作為已知細胞類型。與第一個實驗類似,作者為其余七種細胞類型的每個細胞類型隨機選擇個細胞,從單核細胞中選擇個細胞。作者再次考慮了三種設置,已知細胞類型的大小不同,=300;400;500,單核細胞的=300。
圖3A中總結了CAMLU和現有方法的準確度。CAMLU在識別測試數據中的單核細胞和分配所有標簽方面具有最高的準確性。作者發現scmap-cluster在這兩項任務中都是第二好的方法,其次是CHETAH和scPred,性能相似。與第一次數值實驗相比,CAMLU的準確率下降了一點,可能是因為目前的設置比較難。隨著訓練樣本量的增加,所有方法的性能都略有提高。
圖3B和C展示了單個實驗中真實和估計標簽的新型細胞識別結果,這可能闡明了CAMLU和現有方法的差異。CAMLU在區分單核細胞和已知細胞方面具有幾乎完美的準確性,而現有的方法,特別是scmap-cell,往往將很多已知細胞標記為 "未分配"。
用胰腺數據進行的數值實驗 除PBMC數據外,作者還獲得了胰腺scRNAseq數據集,以進一步評估新細胞為二倍體時的情況。作者通過將間質細胞作為未知細胞類型來設計實驗。對于每次模擬,從 "已知 "細胞類型中隨機抽取500個非間質細胞,并將這些細胞的數據作為訓練數據。其余的 "已知 "細胞與間充質細胞結合起來作為測試數據。其中間質細胞數量為80,訓練數據中的細胞總數為1626。
在圖4中總結了100個蒙特卡洛實驗的結果。在圖4A中,CAMLU與其他現有的方法相比,具有更高的識別精度,精度平均提高5-10%。在圖4B中,作者將CAMLU和其他方法的新型細胞類型和整體注釋的細胞標簽與一次實驗的真實標簽進行了可視化對比。CAMLU在這兩項任務中脫穎而出,在區分極少數的新型細胞(<5%的測試數據)時表現出很高的準確性。CHETAH在這種情況下也有良好的表現,scmap-cell排名第三。scmap-cluster和scPred都不能識別新型細胞。
圖3 使用單核細胞作為新的細胞類型的PBMC數據進行數值實驗的結果
圖4 使用胰腺數據的數值實驗結果,以間質細胞為新型細胞類型
應用于兩個真實的癌癥數據集 在這個實驗中,作者獲得了一個scRNA-seq數據集,包括5名三陰性乳腺癌(TNBC)患者和另一個包括5名無性系甲狀腺癌(ATC)患者的數據集。作者首先評估了所有方法從測試數據中識別惡性細胞的準確性。在圖5B中,跨主題的細胞注釋給分析帶來了額外的噪聲,與之前的設置相比,所有的方法都有較低的準確性。在所有的方法中,CAMLU仍然是該任務中最準確的方法,其平均準確率約為0.9。性能第二好的方法是在TNBC數據集的scmap-cluster和在ATC數據集的scPred。在TNBC數據中,scmap-cluster的準確率約為0.80,所有其他方法的平均準確率都低于0.6。對于ATC,所有現有的方法的準確率都在0.5-0.6左右。
在圖5B中,作者說明了四個top基因在正常(藍條)和惡性細胞(紅條)中的重建誤差分布。例如,COL6A2編碼VI型膠原蛋白的三條α鏈之一,并被報道通過影響腫瘤和基質細胞來促進腫瘤的進展。作者發現COL6A2在惡性細胞中的重建誤差比在正常細胞中高得多,表明COL6A2可能是兩組細胞之間的差異基因。
圖5C顯示了使用TNBC和ATC數據從CAMLU中選出的前200個特征的最重要的Hallmark術語。作者在結果中發現了一些與疾病相關的術語。例如,在TNBC中,通過途徑的信號傳遞是最重要的Hallmark術語。大量的現有研究報告了炎癥因子TNF-a對乳腺癌生長的促進作用。同樣,ATC結果中的首要術語,上皮-間質轉化是與上皮性腫瘤進展、局部侵襲和轉移有關的重要機制。一些研究報告指出,上皮-間質轉化與ATC的進展密切相關。
圖5 在兩個癌癥數據集上應用CAMLU和現有方法的結果,即三陰性乳腺癌(TNBC)和非彈性甲狀腺癌(ATC)
總結與討論
在這項工作中,作者開發了一種基于機器學習的新方法,用于從scRNA-seq數據中識別未知細胞。該方法利用自動編碼器和迭代特征選擇的組合,根據信息特征的重建誤差來識別新型細胞。在識別 "未知 "細胞后,其余的細胞使用支持向量機進行注釋。與大多數將低相關度或低置信度的細胞標記為新型細胞的現有方法相比,該方法創新性地將未知細胞的選擇和現有細胞類型的注釋分開。
該有幾個優點。首先,不依賴于非整倍體/二倍體細胞狀態。第二,可以應用于識別不同大小的新型細胞。第三,盡管跨主體預測給問題帶來了額外的噪音,并降低了所有方法的準確性,但該方法仍然比服務于類似目的的現有方法取得更高的性能。
有幾個方向可以考慮和探索未來的工作。首先,作者將繼續探索不同參數的選擇,以提高方法的敏感性和穩健性。例如,細胞類型結構的不同復雜性可能需要更大或更小的自動編碼器模型。選擇的特征數量也可以與感興趣的問題有關。可以設計自適應程序,在模型構建中自動選擇這些因素。第二,可以考慮通過在框架中加入額外的生物知識,使工具更好地適應不同的疾病環境。在目前的特征選擇設置中,作者僅僅根據重建分布來選擇頂級特征。將雙模特征與疾病相關的特征相結合,有可能獲得更好的性能。
參考資料
Ziyi Li, Yizhuo Wang, Irene Ganan-Gomez, Simona Colla, Kim-Anh Do. A machine learning-based method for automatically identifying novel cells in annotating single-cell RNA-seq data. Bioinformatics; doi: //doi.org/10.1093/bioinformatics/btac617
代碼
編譯|程昭龍
審稿|林榮鑫,王靜 本文介紹由美國斯坦福大學醫學院干細胞生物學與再生醫學研究所的Sean M. Wu通訊發表在 Nature Communications 的研究成果:在單細胞RNA測序分析中,由于細胞表現出復雜的多層身份或過渡狀態,導致對數據集的精確注釋成為主要挑戰。因此,作者提出了一個高度精確的機器學習工具devCellPy,它能自動預測跨復雜注釋層次結構的細胞類型。為了證明devCellPy的強大功能,作者從已發布細胞的數據集中構建了小鼠心臟發育圖譜,并訓練devCellPy生成心臟預測算法。該算法可以在多層注釋和小鼠發育數據中達到高預測精度。最終研究表明,devCellPy是一個可跨復雜細胞層次結構、物種和實驗系統進行自動細胞預測的工具。
1 簡介 在過去的十年中,單細胞RNA測序(scRNA-seq)技術為調控胚胎發育、細胞特性和疾病狀態的轉錄環境提供了前所未有的見解。但隨著實驗中獲得的細胞數量持續增長,生物信息學家通常需通過無監督聚類和手動細胞類型分配的費力過程來識別數千個細胞。此外,人工細胞類型指定可能導致研究組間細胞注釋的高可變性,以及實驗間細胞識別的低再現性。
為了應對這些挑戰,研究人員利用參考數據集將注釋映射到新收集的數據上,開發了用于識別細胞類型的信息學工具。雖然這些工具提供了強大的注釋算法,但依然缺乏全自動化的過程對跨復雜注釋層次的細胞進行分類,其中這些細胞表現出多個身份子類或時間限制的細胞類型。例如,在從發育中的胚胎收集的scRNA-seq數據中,細胞表現出動態和短暫的細胞狀態以及更精細的細胞特征。在訓練預測模型時,使用不考慮時間變量的算法自動分配細胞標識時,某些細胞標識可能只在已定義的發展時間點出現,這就造成了額外的挑戰。此外,如果沒有對數據進行大量的子聚類和重新計算新的降維特征空間,這些更精細的特征通常是無法檢測到的。自動細胞預測算法通常要求用戶構建單獨的參考模型,以實現對高粒度細胞亞型的注釋。這一挑戰在發育數據集中尤為突出,其中細胞類型存在于發育的有限時期內,因此,使生成統一預測模型復雜化。
為了解決這些挑戰,作者提出了基于Python的發育細胞預測(devCellPy)工具,用于從任何組織或物種獲得的高度復雜的注釋層次結構中自動預測細胞身份。devCellPy預測模型的基礎是極端梯度提升(XGBoost),這是一種有監督的機器學習方法,通過使用一系列梯度增強的決策樹集成來學習創建精確預測所需的輸入特征集。DevCellPy通過學習特定參考數據集的注釋層次結構和創建預測模型以全自動化的方式跨所有注釋層對細胞進行分類,其在細胞標識的自動化分配方面取得了重大進展。重要的是,該算法允許將時間點變量合并到注釋層次結構中,因此,可以對限定時間段內出現的細胞標識進行分類。
為了證明devCellPy在多層細胞預測方面的能力,作者從多個公開的scRNA-seq數據集中構建了一個單一的大規模心臟發育細胞圖譜。因為在心臟發育過程中存在非常復雜的不同細胞類型注釋,并且心臟內的細胞類型表現出隨時間變化的基因表達模式,所以作者在心臟發育數據集上測試了devCellPy的預測能力。實驗結果表明,該算法在多個層面(包括時間受限的細胞群)都具有高度準確性的預測能力,這進一步證明了devCellPy算法在跨物種預測心肌細胞類型方面的廣泛適用性。
2 結果 devCellPy 能夠生成用于細胞類型和亞型分類的多層預測算法
為了解決以分層方式自動分類細胞類型和亞型的挑戰,作者構建了一種基于Python的軟件包devCellPy,它可用于生成包含時間元素的細胞身份預測算法。devCellPy由訓練和預測步驟組成。在訓練期間,一個包含多層注釋的參考數據集被用于訓練算法(圖1a)。用戶為devCellPy提供一個注釋層次結構,其指定了數據集中的多個層和細胞類別,包括用于構造細胞類型和時間相關的注釋層次結構的時間點變量。此外,用戶為參考數據中的所有細胞提供一個對數規范化表達式矩陣,以及包含跨層次結構所有層的單細胞注釋的元數據表(圖1b)。作者在devCellPy中引入LayerObject類來創建一個有組織的數據結構,其中算法學習數據集的注釋層次結構,并包含層次結構中每個層的位置信息(圖1c)。該系統允許跨層次結構的正確分支自動分類細胞亞型,并為層次結構的每一層訓練一個XGBoost預測模型,并將其存儲在該層各自的LayerObject中。
除了LayerObjects,作者還在devCellPy中實現了最近開發的Shapley Additive explained (SHAP)算法。SHAP有助于devCellPy輸出在進行細胞類型分類的訓練過程中自動識別的基因標記,從而突出顯示用于對感興趣數據集中的細胞類型進行分類的主要陽性和陰性基因標記(圖1c)。在使用參考數據集訓練devCellPy之后,用戶可以使用devCellPy生成的預測算法,通過導出一個直接加載到算法中的對數歸一化計數矩陣來對查詢數據集進行分類(圖1d)。devCellPy將自動讀取矩陣文件,并使用存儲在LayerObjects中的預測模型來輸出查詢細胞的多層細胞類型和子類型預測。除了提供輸出注釋之外,devCellPy還將為每個分類的細胞輸出概率度量,以向用戶提供有關算法在進行細胞預測時的可信度信息。總體而言,該算法的結構允許用戶從任何模型生物的任何組織獲得的任何參考scRNA-seq數據集來創建訓練模型,并可以輕松導出這些模型,以對類似細胞類型和亞型的新數據集進行預測。
圖1 devCellPy結構圖
大規模心臟發育圖譜的構建
為了測試devCellPy在生成用于進行多層細胞注釋的高精度預測算法方面的性能,作者首先從四個公開的數據集中集成了一個中胚層來源的心臟發育細胞類型的大規模scRNA-seq圖譜,經過整合的數據集可觀察到從早期原腸胚形成到主要心臟細胞類型的清晰發育軌跡(圖2a)。
通過關注中胚層衍生的細胞類型,作者觀察到從多能外胚層細胞開始的分化樹,通過原始條紋過渡到早期新生的中胚層祖細胞,并進展為心臟祖細胞(圖2b)。盡管這些數據集來自四個不同的來源,但經過成功地整合所有數據集,可以觀察到12種主要細胞類型在整個發育時期的聚類(圖2b, c)。UMAP圖顯示了發育一致的結構,心臟祖細胞組成樹干,隨后分裂成不同的細胞類型。作者還通過對所有主要標注的細胞類型進行差異基因表達分析,進一步驗證了構建圖譜中分配的注釋,并證實了已報道的12個主要細胞群的主要細胞標記的獨特表達(圖2d,e)。
圖2 中胚層來源心臟發育細胞圖譜的構建
devcellPy生成的算法可以精確預測注釋層復雜層次結構中的細胞類型
在建立了包含多層注釋的大型心臟發育圖譜后,作者繼續測試了devCellPy在該數據集上生成高度精確的細胞識別預測算法的能力。通過對心肌細胞圖譜進行多層分析,其中頂層代表廣義細胞注釋,其次是心肌細胞亞型,以及在發育過程中按時間點劃分的心室心肌細胞亞型(圖3a)。為了測試算法的分類性能,作者將數據隨機劃分為90%和10%的分區,分別用于交叉驗證和保留數據集測試(圖3b)。實驗結果顯示,對于第一層注釋,該模型在 10 輪獨立訓練中顯示出高整體準確度(圖 3c)。同時,devCellPy 對10% 保留數據進行了分類(這些分類在訓練后的模型中未發現),這證實了devCellPy高度準確的預測(圖 3d)。
對心室心肌細胞亞群的心肌細胞預測算法性能的進一步分析表明(圖 3c),實驗觀察到的性能指標在第一層注釋上得分最高,而在注釋層次結構較低級別中發現的密切相關的細胞類型中略有下降。為了進一步評估devCellPy的性能精度,作者還將該算法的性能與先前發布的單細胞預測算法(CaSTLE、SeuratV3、scmap、SingleCellNet)進行了比較,結果表明,devCellPy在所有評估的細胞類型中顯示了最高的整體精度。
圖3 devCellPy在各層之間的性能評估
devCellPy識別生物相關的細胞標記
為驗證devCellPy生成的心臟預測算法是否可以識別與發育相關的基因,以便跨細胞層進行預測。作者通過使用devCellPy中的SHAP算法,確定了測試的每一層注釋中細胞類型的主要陽性和陰性預測基因。對于第一層,算法自動識別出先前驗證過的細胞類型預測因子。在實驗中,一般的細胞類型預測因子可以揭示已知細胞類型的主要陽性預測因子,而除了識別一般細胞類型的典型標記外,SHAP還可以識別其他細胞類型的標記。
除了在第一層中識別一般細胞類型的主要標記外,作者還確定了用于在多個分化時間點識別心肌細胞和心室心肌細胞亞型的主要基因。并且,devCellPy還跨時間點識別了多個先前發表的心肌細胞亞型標記,同時也以特定的時間點方式識別了獨特的標記。
devcellPy生成的算法從de novo數據集中準確預測細胞類型
為了進一步評估devCellPy的性能,驗證devCellPy生成的預測算法是否能夠成功預測以前數據集中沒有遇到過的細胞類型。作者分析了來自三個新來源的scRNA-seq數據,并從E10.5小鼠心臟中生成了新的數據,并測試了devCellPy對心臟圖譜中存在的所有細胞類型進行全自動預測的能力。同時,作者進一步評估了其他細胞預測算法對心臟圖譜中所有細胞類型進行完整分類的能力(圖4a、b)。作者將機器學習分類與查詢數據集的無監督聚類注釋期間分配的手動注釋進行了比較(圖4b),手動注釋和devCellPy預測的比較顯示,兩種注釋方法在17個細胞類別中的11個中具有高度的一致性,準確率達80%(圖4c)。
與之前發表的其他機器學習方法相比,devCellPy在心臟圖譜中所有細胞類型的分類方面優于SingleCellNet、Seurat和scPred。所有其他方法對外胚層、原始條紋和新生中胚層的人工方法顯示出高度的一致性,但在其他細胞類型中觀察到的預測準確性較低。并且,在密切相關的細胞類型中,如心臟祖細胞、心外膜和間充質細胞以及心肌細胞亞型,其他方法在人工方法和機器學習預測之間顯示出低一致性(圖4c)。總體而言,實驗結果證明了devCellPy生成的預測算法可以準確預測de novo數據集中的細胞類型,并在對高粒度細胞類型進行預測時優于其他方法。
圖4 devCellPy預測新的scRNA-seq數據
devCellPy生成的心臟預測算法揭示了hiPSC衍生心肌細胞的發育不成熟和心室特異性心肌細胞分化
在驗證了devCellPy對胚胎小鼠心肌細胞分類的準確性后,作者研究驗證了是否可以使用小鼠心臟預測算法來準確預測人誘導多能干細胞(hiPSC)衍生的心肌細胞的類別(圖5a, b)。鑒于已知的體外衍生心肌細胞不成熟,作者驗證了早期胚胎小鼠模型是否能更好地預測 hiPSC 系統中的心肌細胞亞型。通過對六個時間點的心肌細胞進行分析,并繪制了前兩個主成分的單細胞圖。正如預期的那樣,細胞以時間依賴性方式沿著第一個主成分前進(圖5c)。此前有報道稱,小分子雙相WNT協議在缺乏后向視黃酸信號的情況下主要產生心室特異性心肌細胞。為了證實這一點,作者繪制了在hiPSC、人類胎兒和小鼠胚胎發育過程中經過驗證的心室標志物Myl2、Myl3、Myh7的表達圖,并證實了所有這些確定的心室標志物的表達逐漸增加(圖5d)。為繼續驗證基于小鼠數據訓練的devCellPy模型是否能夠準確識別hiPSC-CMs心室特性,作者基于E7.75和E13.5之間的早期小鼠胚胎時間點訓練了多個devCellPy預測模型,用于識別心肌細胞亞型。然后使用基于時間點的模型計算devCellPy的預測置信度,以確定hiPSC-CMs心室特性。實驗結果表明,hiPSC-CMs表現出發育不成熟,并且hiPSC-CMs的胚胎表型和小鼠心肌細胞成熟基因表達程序具有密切保守性。
圖5 devCellPy小鼠預測模型確定了心室優勢HiPSC-CMs的發育不成熟
3 總結 在這項研究中,作者開發了一個基于Python的生物信息學管道devCellPy,它可以使用精確的高分辨率參考數據集,自動預測多個發育時間點和級聯注釋層的細胞類型。分層注釋結構存在于多個器官、物種和模型系統之間。正如此處介紹的心臟發育圖譜所示,細胞表現出多個身份子類。此外,對數據集進行精確的手動標注通常需要有對陽性和陰性表達標記的專業知識,這可能導致經驗不足的用戶,在數據集標注過程中的可再現性較差。以前的研究也表明,包含多個子類的高度相關細胞類型的深度注釋數據集,可能會對自動細胞分類器的性能產生負面影響。作者通過創建分層組織的預測模型來解決這一問題,該模型在 “LayerObject”對象類的注釋層次結構中編碼它們的位置。通過將密切相關的細胞類型的預測分解為不同的注釋層,從而在注釋層次結構中的高粒度細胞子類之間實現更高分辨率的預測結果。重要的是,用戶可以在層次結構中指定時間點,從而允許在跨注釋的多個子層中構建時間點相關預測。隨著細胞在預測層次結構中移動,devCellPy將只對用戶設置的概率閾值的細胞進行下一層分類,從而允許對跨每個分類層的細胞類型進行高置信度注釋。此外,devCellPy中的LayerObjects具有高度可移植性,允許用戶共享訓練過的預測模型,或導出單個LayerObjects進行單層預測。devCellPy的可移植性允許科學界廣泛使用專家策劃的參考圖譜,以在復雜場景中進行細胞預測。
除了可移植性之外,devCellPy還需要對數據集進行處理以進行訓練和預測,devCellPy可以識別超過35000個輸入基因中的生物學相關標記基因。該算法的高預測性能表明,除了歸一化計數表達式矩陣外,不需要額外的預處理或特征選擇來從精確的高分辨率參考數據集中訓練算法和參考標簽。當將devCellPy的性能與其他之前發表的細胞分類算法進行比較時,devCellPy的自動化分層方法在分類心臟圖譜中存在的所有細胞類型方面優于其他分類訓練方法。同時,devCellPy完全自動化了跨多層細胞標識的訓練,從而自動化了跨復雜注釋層次結構預測細胞的過程。此外,雖然其他方法允許為一組獨特的標簽生成細胞預測模型,但devCellPy允許跨時間點相關注釋自動分類,從而為跨發育數據集的細胞分類提供了顯著的改進。
devCellPy為scRNA-seq分析提供了一個重要工具,它為生成細胞類型/亞型預測算法提供了一個全自動化的管道,且該算法非常適用于分層注釋的數據集。作者的工作表明,devCellPy生成的算法具有高度通用性,可推廣到任何scRNA-seq數據集,并提供了一個完全開源的Python包。隨著大規模發育細胞圖譜的發展,devCellPy將提供資源來幫助識別跨平臺和物種的細胞類型,特別是在注釋良好的參考數據集中顯示復雜的多層注釋方案。
參考資料 Galdos, F.X., Xu, S., Goodyer, W.R. et al. devCellPy is a machine learning-enabled pipeline for automated annotation of complex multilayered single-cell transcriptomic data. Nat Commun 13, 5271 (2022). //doi.org/10.1038/s41467-022-33045-x
數據鏈接:
代碼鏈接:
編譯|程昭龍
審稿|王靜本文介紹由華大基因的汪建和牟峰共同通訊發表在 Nature Machine Intelligence 的研究成果:單細胞數據集規模的不斷擴大,對解決擴展的規模、擴展的模態和批次效應等問題帶來了計算挑戰。最近提出的基因深度學習的方法,是通過推導非線性細胞嵌入來解決這些問題。對此,**作者提出了基于對比學習的方法Concerto,它利用自監督的蒸餾框架來模擬多模態單細胞圖譜。**只需將每個細胞與其他細胞區分開來,Concerto 就可以適用于各種下游任務,如細胞類型分類、數據集成、參考映射。與當前的主流軟件包不同,Concerto 的對比設置支持對所有基因進行操作以保留生物變異,它還可以靈活地推廣到多組學中以獲得統一的細胞表示。在模擬數據集和真實數據集上進行基準測試,實驗結果表明,Concerto 的性能遠優于其他方法。并且,Concerto 概括了不同的免疫反應,還發現了 COVID-19 患者的疾病特異性細胞狀態。總體而言,Concerto 將通過迭代構建單細胞參考圖譜并快速映射新的數據集來傳輸相關的細胞注釋,從而促進生物醫學研究。
1 簡介 目前,單細胞多組學工具正在以前所未有的分辨率徹底改變組織表征,而人類細胞圖譜和小鼠細胞圖譜的規模已接近數百萬。同時,單細胞分析還具有以下特點。首先,技術脫落或生物信號可能會帶來過多的零計數。主流軟件包通過特征選擇和線性降維來提取可能導致信息丟失的主要變化,深度學習方法為模擬所有基因之間的非線性關系提供了一種解決方案,變分自動編碼器(VAE)利用具有重構功能的編碼器-解碼器結構來學習低維細胞嵌入。其次,批次效應廣泛存在于技術、條件和捐助者之間。從混雜效應中分離生物信號對數據集成非常重要,Seurat v.3使用相互最近鄰識別跨批次的錨細胞對,但一次只允許兩個批次的集成,并且隨著處理細胞數量的增加,其內存消耗也呈指數增長。為了校正批次效應,Harmony迭代地使用模糊聚類和線性校正,而trVAE則是利用條件VAE。最后,query-to-reference映射可以快速解釋新生成的數據集,而無需費力的從頭聚類或手動注釋。與嚴格的監督分類不同,作者將query-to-reference映射視為無監督遷移學習問題,從學習到的查詢嵌入中推導出基于投票的注釋。
對比學習最近在計算機視覺領域取得了巨大成功,受其在建模未標記數據方面的啟發,作者認為可通過自監督的方式區分每個細胞來獲得高質量的表示。蒸餾方案也被用在非對稱神經網絡中,從監督環境中的模型壓縮和在線共蒸餾發展到半監督環境中的自訓練,進行自監督蒸餾以獲得更好的表示。
因此,作者提出了一個用于單細胞分析的自蒸餾對比學習框架 Concerto。通過對真實數據集和模擬數據集進行基準測試,學習的嵌入可以針對各種下游需求進行微調,包括自動細胞類型分類、聚類、批次效應校正的數據集成以及query-to-reference映射。Concerto 可以靈活地處理多組學數據集,并在每個任務中優于其他方法。此外,作者利用Concerto 根據包含健康和感染樣本的綜合參考圖譜查詢 COVID-19 免疫細胞數據集,概括了具有不同疾病狀態的患者的幾種不同免疫特征。實驗結果表明,Concerto 是一個強大、準確、可擴展的表示學習框架,可用于 1000 萬個細胞規模的單細胞多模態分析。
2 結果 Concerto結構概述
Concerto 利用配置為非對稱師生架構的自蒸餾對比學習框架(圖 1a),非對稱設計注入了不平衡的模型復雜性,即較大的教師網絡通過注意力機制將基因嵌入聚合到細胞嵌入中,而較小的學生網絡則通過密集操作將離散輸入轉換為細胞嵌入。通過為每個未標記的細胞定義實例區分前置任務,Concerto通過最大化每個細胞的師生視圖之間的一致性來學習語義不變嵌入。在輸出層之前添加一個隨機的dropout掩碼,以便在SimCSE的句子處理方案的推斷下,在模型級別生成最小的數據增強。同時,通過添加一個特定域的批處理規范化層以校正批次效應。在處理多組學數據集時,對每個模態進行簡單的元素求和可以生成統一的細胞嵌入(圖1b)。通過投射到單位超球面空間上,Concerto將同一細胞的師生視圖作為正對匯集在一起,同時分開同批次內的其他細胞,最終將細胞區分開來。學習到的嵌入可以針對各種下游任務進行微調,包括自動細胞類型分類、聚類、批次效應校正的數據集成以及query-to-reference映射(圖1c)。
圖1 Concerto結構概述
Concerto有助于自動細胞類型分類并發現跨組織的新細胞類型
為了證明對比學習的嵌入滿足嚴格的細胞分類,作者使用現有的注釋作為訓練標簽來在 Concerto 上實現監督微調。通過使用人類外周血單核細胞數據集(PBMC45k, n = 31021)來對比不同的分類器,包括基于似然的SciBet、基于神經網絡的Cell BLAST、基于相關性的SingleR、基于支持向量機的Moana和元學習方法MARS。Concerto分為兩步:預訓練和微調,而其他方法則是端到端訓練。作者還通過丟棄對比損失并以完全監督的方式進行訓練,從而實現了 Concerto(Concerto-E2E)的端到端版本。實驗結果表明,Concerto 幾乎在所有的train-test分割上都遠優于其他方法。
如果測試集包含訓練樣本中不存在的細胞類型,好的分類器應該將非上述(NOTA)細胞標記為拒絕預測選項。作者將PBMC CITE-seq數據集在三個水平上注釋,并從訓練集中去除不同的T細胞粒度以評估NOTA方法,圖2顯示Concerto可以清晰地分離出1級和2級掩蔽的驗證集和測試集的置信曲線。即使在最具挑戰性的3級情景中,Concerto也能得到與驗證曲線部分重疊的雙峰曲線。
圖2 Concerto和SciBet對比實驗
對于跨組織注釋,作者采用與MARS類似的實驗設計,將一個組織作為未注釋的測試集,并在所有其他組織上訓練Concerto。通過添加域適應模塊,Concerto在22個保留組織上實現了優于MARS的調整蘭德指數(ARI)。與 MARS 類似,Concerto 可以有效地進行知識轉移以發現跨組織的新細胞類型。
Concerto可在多模態數據集上實現無監督聚類
一項新的單細胞研究通常從無監督聚類開始,然而,離散的集群可能會忽略細胞狀態之間的平滑過渡。Cell-ID 可以以無聚類的方式提取每個細胞的基因特征。為此,作者評估了 Concerto 嵌入在從頭聚類中的效用,并表明 Concerto 還可以在單細胞分辨率下提取具有生物學意義的特征。通過在PBMC45k(n=11377個細胞)選擇具有最小批次效應的子集,作者將 Concerto 的表示與 Seurat 在不同聚類算法上的共享最近鄰進行比較。實驗證明,Concerto嵌入上的Leiden聚類(Concerto+Leiden)在五種分辨率下顯著優于其他方法(圖3a),并且,Concerto可以很好地將聚類分配與手動注釋對齊(圖3b)。
圖3 對比 Concerto嵌入和其他方法的聚類性能
為了驗證納入轉錄組以外的其他組能夠更精確地定義細胞特性,作者使用RNA、蛋白質或兩者同時作為輸入來實現Concerto,并將學習到的嵌入通過分層注釋進行可視化(圖4)。Concerto 可以簡單地通過對每個模態進行元素求和來獲得統一的視圖,從而解決任意數量的擴展模態。Concerto 的教師模塊使用注意力機制來聚合基因嵌入。首先假設注意力權重可以通過復制細胞類型建立的分子特征來提供某些模型的可解釋性。實驗結果證明了用于定義細胞身份的關鍵特征的歸一化注意力貢獻,成功地恢復了一些典型細胞類型的規范模態特異性標記。
圖4 Concerto學習嵌入的可視化
Concerto通過消除批次效應實現數據集成
面對將不同來源合并到參考圖譜時需要校正批次效應的問題,作者在多供體人體胰腺 (HP) 胰島數據集(8批次,n = 14890 個細胞)上對 Concerto 的數據集成性能進行了基準測試。通過設計六種方案來評估輸入基因數量的影響,觀察到Concerto在六種情況下實現了遠高于其他方法的平均輪廓寬度(ASW),這表明Concerto可以更好的捕獲生物變異。同時,Concerto的對比學習目標不受融合不同亞群的影響,并能保留生物變異以構建高質量參考。
Concerto實現高精度的query-to-reference映射
我們進一步評估了 Concerto 將查詢細胞映射到協調的參考嵌入的能力。與嚴格的細胞分類不同,查詢到參考映射僅在推理過程中使用細胞類型標簽。特別地,作者首先使用預訓練的模型權重計算查詢嵌入,將查詢細胞定位在它們最相似的參考細胞附近,并使用 k 最近鄰(通常 k = 5)投票分類器將參考注釋轉移到查詢。通過設計兩個實驗:跨技術映射和跨物種映射,結果表明,Concerto在兩個實驗中均達到最高的平均 ACC(圖5a)。并且,混淆矩陣(圖 5b)表明Concerto 可以準確地跨技術和跨物種轉移標簽。然后,作者還設計了一項研究來預測看未知的細胞類型,并評估整合所有基因是否對此有益。通過從PBMC160k 中分配一個樣本 (P3) 作為查詢,并使用其他七個樣本來構建參考。該實驗證明Concerto可以沿著具有生物學意義的連續體投射未知的細胞亞型,Concerto還可以推斷查詢細胞中不可測量的模態。
圖5 Concerto和其他方法進行query-to-reference 映射的性能對比
Concerto可以擴展到1000萬細胞的圖譜構建和參考映射
對于可擴展性分析,作者模擬虛擬參考并針對每個參考映射等量的查詢細胞。通過將整個任務分成多個處理批次,對比學習自然是可并行化的并且易于擴展到超大圖譜。Concerto可以有效擴展以構建數百萬個細胞參考,從而在幾分鐘內實現快速映射。Concerto還可以在僅使用CPU的典型計算機上工作,需要1.1小時構建100000個細胞的參考,并在30分鐘內查詢相同數量的細胞。實驗表明Concerto是最具可擴展性的,不需要PCA或縮放,可以對所有基因進行操作并很好地支持多模態集成。
映射COVID-19免疫細胞與疾病參考圖譜
作者進一步使用Concerto 將最近發布的 COVID-19 PBMC 數據集投影到全面的COVID-19參考中。然后在不進行微調的情況下,即可將查詢集投影到其上(圖6a)。COVID-19參考包含與查詢中類似的疾病相關細胞狀態,因此,直接的模型推理足以進行快速映射。對于所有注釋的CD8 T細胞,Concerto可以區分不同疾病狀態(健康對照,輕度和重度)的原始、增殖、記憶和效應狀態的不同組成,并獲得一致的狀態特異性特征(圖6b、c)。
圖6 Concerto保留COVID-19患者的差異免疫應答
總體而言,Concerto 成功地分離了病理狀態,保留了細微的狀態特異性變異,并識別了不同的免疫特征。無論實施直接推理還是無監督微調,都取決于參考的多樣性和查詢的相關性,更全面的參考通常有利于映射性能。Concerto 可以通過迭代更新參考來覆蓋更多樣化的樣本,從而形成一個持續學習的框架。
3 總結 假設每個細胞不同,Concerto通過區分每個細胞與其他細胞來學習高質量的細胞表示。基于將不同的理論基礎的方法與基于PCA或VAE的方法進行比較,對比學習的嵌入非常適合于保存生物學細微差別。Concerto支持對所有基因進行操作,這對于在基于映射的任務中確保查詢和參考之間的特征重疊尤為重要。Concerto的非對稱自蒸餾方案在從教師網絡的注意力操作中學習語義豐富的表示和從學生網絡密集輸出中獲得良好的泛化性之間取得了平衡。通過解釋注意力權重,Concerto可以在單細胞分辨率下自動提取一些典型的分子特征,并確定每種模態對定義細胞身份的相對貢獻。query-to-reference映射已成為單細胞分析中的一種新范式。Concerto的對比設置很容易并行化,并根據參考多樣性或相關性支持直接推理或無監督微調。通過簡單的元素總和,Concerto可以有效地支持多組學集成。當大規模疾病圖譜可用時,Concerto在轉化研究中也顯示出巨大的潛力。
參考資料 Yang, M., Yang, Y., Xie, C. et al. Contrastive learning enables rapid mapping to multimodal single-cell atlas of multimillion scale. Nat Mach Intell 4, 696–709 (2022).
//doi.org/10.1038/s42256-022-00518-z
數據鏈接:
代碼鏈接:
編譯 | 楊博,王自樂 審稿 | 王海云 本文介紹美國紐約州伊薩卡康奈爾大學獸醫學院貝克動物健康研究所Tinyi Chu和美國紐約州伊薩卡市康奈爾大學獸醫學院生物醫學系Charles G. Danko共同通訊發表在 Nature cancer 的研究成果:作者開發了貝葉斯細胞比例重構,使用統計邊緣化推斷(BayesPrism),一種貝葉斯方法,使用來源于患者的scRNA-seq作為先驗信息,從bulk RNA-seq中預測單個細胞類型的細胞組成和基因表達。對原發性膠質母細胞瘤、頭頸部鱗狀細胞癌和皮膚黑色素瘤進行了整合分析,以將細胞類型組成與不同腫瘤類型的臨床結果相關聯,并探索惡性和非惡性細胞狀態的空間異質性。作者使用排除混雜的非惡性細胞后的基因表達注釋來細化當前的癌癥亞型。最后確定了惡性細胞中與多種腫瘤類型的巨噬細胞浸潤、T細胞、成纖維細胞和內皮細胞相關的基因表達。并且引入了一種新的視角,可以在bulk RNA-seq數據中準確地推斷細胞組成和表達。
1 簡介 細胞與細胞之間的相互作用非常復雜,在生物環境中會強烈影響細胞行為,通常會產生醫學后果。
兩層信息對于理解腫瘤組成至關重要:(1)每種細胞類型的比例;(2)每種細胞類型中的基因表達水平。單細胞RNA測序(scRNA-seq)技術的興起最近使TME內單個細胞轉錄組的全基因組測量和異質性表征成為可能。然而,scRNA-seq的成本和對高質量組織的要求限制了可檢測的患者樣本數量。此外,scRNA-seq易受細胞捕獲技術偏差的影響,這會干擾細胞類型組成的恢復。
作為一種替代方法,細胞類型豐度可以通過對一組任意定義的標記基因構建的參考表達矩陣進行回歸,從大量RNA-seq數據推斷。然而,現有的反卷積方法對參考樣本與體樣本的分布差異做了限制性的假設。這些假設經常被大量數據和參考數據之間的技術和生物學差異阻礙。因此,現有的方法未能解決下述關鍵問題:在TME中,惡性細胞如何影響非惡性細胞的組成,哪些基因與這些相互作用相關?
因此作者提出了名為BayesPrism的貝葉斯模型,使用scRNA-seq作為先驗信息,通過bulk RNA-seq數據聯合推斷細胞類型的部分后驗分布和基因表達。通過明確建模和邊緣化單細胞參考數據和bulk數據之間的基因表達差異,BayesPrism在腫瘤和非腫瘤設置的細胞類型分數推斷方面大大優于現有的方法。并且作者使用了一個包含膠質母細胞瘤(GBM)、頭頸部鱗狀細胞癌(HNSCC)和皮膚黑色素瘤(SKCM)的大樣本數據集,其中包含1412個批量RNA-seq和85個scRNA-seq樣本,證明了該方法的有效性。
2 結果 細胞類型部分和基因表達的貝葉斯推斷 BayesPrism使用一個參考的scRNA-seq來推斷每個bulk RNA-seq樣本的兩個統計數據:(1) 從每個細胞類型獲得的讀數比例,假設它與該細胞類型的比例成正比;(2)每種細胞類型的基因表達水平(圖1a,b)。細胞去卷積最具挑戰性的方面是考慮各種不確定性的來源,包括技術和生物批次的變化,在bulk和參考scRNA-seq之間的基因表達。為了解釋這些不確定性,BayesPrism采用貝葉斯策略,使用scRNA-seq對先驗分布進行建模,利用每個觀測數據,推斷出每個細胞類型和大量樣本中細胞類型比例和基因表達的聯合后驗分布。因此,每次估計的不確定性都可以從聯合后驗中剔除。
BayesPrism提高了細胞類型去卷積的準確性 為了評估BayesPrism是否在更現實的環境中提高去卷積性能,接下來作者通過在三種不同的環境中結合來自單細胞的讀數來生成偽bulk數據,(1) 外周血單個核細胞(PBMC)和小鼠大腦皮質樣本;(2) 在三種人類癌癥類型的數據集中進行遺漏測試;(3) 使用不同的測序平臺從不同的隊列中產生的GBM數據集(圖1c,d)。使用PBMC scRNA-seq數據作為參考,BayesPrism獲得了比其他去卷積方法更準確的五個細胞類型的估計(MSE上,相關系數上P<0.03)(圖1e,f)。綜上所述,這些基準表明,BayesPrism 改善了現實環境中的解卷積性能。
BayesPrism估計未觀察患者的基因表達 作者估計了28個GBMs的SMART-seq2偽bulk數據中的細胞類型和基因表達。并使用了來自8個GBMs的基于microwell的scRNA-seq參考數據,在bulk RNA-seq和scRNA-seq參考數據之間存在生物和技術差異的情況下,測試了BayesPrism的準確性。偽bulk樣本(ψmal)中惡性細胞的基因表達估計與已知的基礎真理高度相似(圖1g)。對腫瘤來說,BayesPrism基因表達估計值和已知的真實值之間的相關性>0.95,純度大于50%(圖1h)。使用BayesPrism進行基因表達估計比使用CIBERSORTx或無反卷積的bulk腫瘤更準確(圖1h)。
圖1 BayesPrism算法流程及性能驗證。
浸潤性免疫細胞類型和狀態對生存的影響。 作者分析了來自三種腫瘤類型GBM、HNSCC和SKCM16-18的1142份腫瘤基因組圖譜(TCGA)樣本的細胞類型比例。為了保持盡可能高的準確性,作者在每個去卷積任務中使用了來自相同腫瘤類型的scRNA-seq參考。利用這些參考數據集,提供了6種GBM細胞類型的估計,10種HNSCC細胞類型,8種SKCM細胞類型(圖2a)。作者發現CD8+ T細胞與生存有更強的相關性,與以往報告一致。在HNSCC中,T細胞比例也與更好的臨床結果相關,但僅在將細胞類型豐度作為連續變量處理的模型中,效果顯著(P = 0.001, Wald檢驗) (圖2b)。圖2c表明BayesPrism估計的巨噬細胞與SKCM患者的生存呈正相關(P = 0.01, log-rank檢驗)。作者使用BayesPrism來評估含有5%巨噬細胞的樣本中巨噬細胞特異性基因的表達。作者比較了巨噬細胞表達與兩個巨噬細胞亞群特征的標記基因M1和M2,這兩個亞群被認為在TME中有不同的作用。來自GBM的巨噬細胞M2評分最高,M1評分最低,而來自SKCM的巨噬細胞M2評分最低,M1評分與來自HNSCC的巨噬細胞相當(圖2d)。在SKCM中,巨噬細胞極化與生存率有極強的相關性(圖2e)。
圖2 三種TCGA腫瘤的預后與非惡性細胞的細胞類型比例或細胞狀態的關系。
基因表達模式與TME細胞類型相關 作者利用利用BayesPrism,同時實施兩個額外的過濾器,發現相互作用基因POSTN、ITGB1和LOX(圖3a)均與巨噬細胞浸潤具有顯著正相關。盡管IVY GAP數據集中每個標記的樣本量有限,但作者在PI3和POSTN的ISH陽性切片中觀察到了更高的巨噬細胞含量,這是通過至少10個ISH實驗分析的唯一有兩個通過過濾器的基因(圖3b、c)。因此,BayesPrism利用TCGA確定了可通過腫瘤內異質性復制的相關性。為總結與細胞間相互作用相關的生物過程,作者使用候選相互作用基因和非惡性細胞類型部分之間的相關系數進行了基因集富集分析(圖3d),該分析揭示了幾種互動模式。首先,在所有三種腫瘤類型中,許多與非惡性細胞類型比例相關的生物學過程都是獨立發現的。例如,在所有三種腫瘤類型中,干擾素γ/α反應與巨噬細胞呈正相關(圖3e)。間充質激活與GBM中的巨噬細胞、SKCM中的內皮細胞和成纖維細胞呈正相關,與HNSCC中的淋巴細胞呈負相關(圖3d,f)。最后,一些生物過程只與一種腫瘤類型相關,但與該腫瘤中的多種細胞類型相關。例如,角質化與HNSCC中的多個非惡性細胞呈負相關,但與肥大細胞呈正相關(圖3g)。這些結果突顯了BayesPrism在研究惡性和非惡性細胞浸潤中生物過程之間的相互作用方面有重要作用。
圖3 惡性細胞基因表達與非惡性細胞分數之間的相關性。
BayesPrism識別惡性細胞內在基因程序 作者在BayesPrism中開發了一個用于推斷基因程序的線性組合的模塊,在從非惡性細胞類型中分解出基因表達后,解釋了bulk RNA-seq中的表達異質性(圖4a),作者在由28GBMs讀數聚集產生的偽bulk數據集上驗證了該方法,BayesPrism恢復的基因程序與最近通過對同一數據集的6863個單一惡性細胞進行因子化得到的基因程序相似(圖4b)。研究發現,基于BayesPrism學習的每個基因程序的權重與分配給四個主要亞型腫瘤中的細胞比例相關(圖4c,d)。作者將嵌入學習應用于GBM、HNSCC和SKCM,揭示了GBM中與先前研究相似的幾個程序,包括程序3(經典和AC類)、程序4(間充質)和程序5(前神經、OPC和NPC類)(圖4e)。在HNSCC中,程序1因單細胞研究(圖4f)確定的部分EMT程序而豐富,與存活率呈負相關(P=0.017,瓦爾德檢驗)。在SKCM中,作者確定了多個與AXL和MITF基因程序相關的生存相關基因程序(之前使用TCGA批量數據報告),以及一個T細胞排除程序(在最近的scRNA-seq研究中確定;圖4g-j)。與基因集富集分析一致,BayesPrism沒有發現任何與HNSCC中的間充質亞型或GBM中的神經亞型相似的基因程序。因此,作者認為,嵌入學習模塊減少了非惡性細胞類型的影響,導致了惡性細胞固有的基因程序。
圖4 BayesPrism在排除非惡性細胞表達后重新定義了GBM分子亞型。
GBM基因程序和細胞類型的空間異質性 本文假設惡性細胞中基因程序的激活與微環境中非惡性細胞類型的比例之間的關系可以顯示出腫瘤內的空間異質性。實驗使用IVY GAP將122個RNA-seq樣本分離成五個結構:前緣(LE)、浸潤性腫瘤(IT)、細胞腫瘤(CT)、微血管增生(MVP)和壞死周圍的假柵欄細胞(PAN)(圖5a)。作者檢查了IVY GAP研究的解剖結構中富集了哪些細胞類型和基因程序(上面使用TCGA識別)(圖5b,c),發現MVP區域在內皮細胞和周細胞高度富集,而LE和IT區域在少突膠質細胞和神經元高度富集。同時,為有助于解釋BayesPrism獲得的程序中的富集情況,作者分析了每個IVY缺口結構中惡性細胞(使用BayesPrism推斷)的基因集富集分數,這些生物學過程的子集顯示了TCGA-GBM的顯著變化(圖5d)。此外,發現CT和MVP具有高度增殖性,這與它們在程序3和5中的富集程度一致, MVP和PAN在組織重塑和免疫相互作用方面都有所增強(程序4),而MVP更具血管生成性,PAN更具炎癥性。綜上所述,上述分析顯示了BayesPrism如何利用IVY缺口數據集將路徑和基因程序與空間解剖結構聯系起來。
圖5 BayesPrism揭示了GBM的空間異質性。
3 總結與討論 現在有大量的文獻提供了非惡性細胞如何影響惡性細胞功能的例子,證實了一個多世紀以來關于TME關鍵作用的猜測。scRNA-seq不僅可以系統地測量腫瘤中存在的細胞類型,還可以測量它們的基因表達狀態。盡管scRNA-seq提供了正確的數據模式,但目前的研究還沒有足夠大的樣本量來解決這些問題。除此之外,雖然可用的bulk RNA-seq數據集可達上千個,但它們只能提供關于各種惡性腫瘤中整個細胞環境中少量的信息。本文利用了兩種基因組資源,開發了一個嚴格的統計模型來整合scRNA-seq和bulk RNA-seq數據,為腫瘤學這一重大挑戰提供了一個新的視角。并且本文的綜合分析也為疾病進展提供了新的見解。此外,BayesPrism滿足了基因組學工具箱中的幾個關鍵需求。與以前的方法相比,BayesPrism能夠更準確地將bulk RNA-seq分解為細胞類型的比例,這部分要歸功于對bulk RNA-seq和scRNA-seq數據之間差異進行建模的貝葉斯統計模型。最重要的是,BayesPrism對細胞類型及其樣本特異性平均表達聯合建模,這對本文報告的分析至關重要。在實際應用中,BayesPrism的精度可能會受到參考矩陣中細胞狀態缺失的影響,異質性TME中細胞狀態缺失的表達有時會偏離BayesPrism建模的先驗分布,導致將細胞狀態缺失的轉錄本部分分配給屬于其他細胞類型的細胞。因此在探究基因表達和細胞類型分數的后驗估計值之間的相關性時需要謹慎,可能需要使用與本文介紹的類似的過濾器。作者推測,隨著從患者身上收集單細胞數據的增加,由于每個數據可能都涵蓋了轉錄狀態的細微差別,腫瘤樣本的反卷積計算將變得更加準確。因此,BayesPrism將提供一種新的視角,將不斷增長的scRNA-seq數據與現有的大量bulk RNA-seq數據進行整合,從而深入了解腫瘤與微環境的相互作用。 參考資料 Chu T , Wang Z , Pe'Er D , et al. Cell type and gene expression deconvolution with BayesPrism enables Bayesian integrative analysis across bulk and single-cell RNA sequencing in oncology. Nature Cancer(2022). //doi.org/10.1038/s43018-022-00356-3
數據
代碼