亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

編譯|程昭龍

審稿|林榮鑫,王靜 本文介紹由美國斯坦福大學醫學院干細胞生物學與再生醫學研究所的Sean M. Wu通訊發表在 Nature Communications 的研究成果:在單細胞RNA測序分析中,由于細胞表現出復雜的多層身份或過渡狀態,導致對數據集的精確注釋成為主要挑戰。因此,作者提出了一個高度精確的機器學習工具devCellPy,它能自動預測跨復雜注釋層次結構的細胞類型。為了證明devCellPy的強大功能,作者從已發布細胞的數據集中構建了小鼠心臟發育圖譜,并訓練devCellPy生成心臟預測算法。該算法可以在多層注釋和小鼠發育數據中達到高預測精度。最終研究表明,devCellPy是一個可跨復雜細胞層次結構、物種和實驗系統進行自動細胞預測的工具。

1 簡介 在過去的十年中,單細胞RNA測序(scRNA-seq)技術為調控胚胎發育、細胞特性和疾病狀態的轉錄環境提供了前所未有的見解。但隨著實驗中獲得的細胞數量持續增長,生物信息學家通常需通過無監督聚類和手動細胞類型分配的費力過程來識別數千個細胞。此外,人工細胞類型指定可能導致研究組間細胞注釋的高可變性,以及實驗間細胞識別的低再現性。

為了應對這些挑戰,研究人員利用參考數據集將注釋映射到新收集的數據上,開發了用于識別細胞類型的信息學工具。雖然這些工具提供了強大的注釋算法,但依然缺乏全自動化的過程對跨復雜注釋層次的細胞進行分類,其中這些細胞表現出多個身份子類或時間限制的細胞類型。例如,在從發育中的胚胎收集的scRNA-seq數據中,細胞表現出動態和短暫的細胞狀態以及更精細的細胞特征。在訓練預測模型時,使用不考慮時間變量的算法自動分配細胞標識時,某些細胞標識可能只在已定義的發展時間點出現,這就造成了額外的挑戰。此外,如果沒有對數據進行大量的子聚類和重新計算新的降維特征空間,這些更精細的特征通常是無法檢測到的。自動細胞預測算法通常要求用戶構建單獨的參考模型,以實現對高粒度細胞亞型的注釋。這一挑戰在發育數據集中尤為突出,其中細胞類型存在于發育的有限時期內,因此,使生成統一預測模型復雜化。

為了解決這些挑戰,作者提出了基于Python的發育細胞預測(devCellPy)工具,用于從任何組織或物種獲得的高度復雜的注釋層次結構中自動預測細胞身份。devCellPy預測模型的基礎是極端梯度提升(XGBoost),這是一種有監督的機器學習方法,通過使用一系列梯度增強的決策樹集成來學習創建精確預測所需的輸入特征集。DevCellPy通過學習特定參考數據集的注釋層次結構和創建預測模型以全自動化的方式跨所有注釋層對細胞進行分類,其在細胞標識的自動化分配方面取得了重大進展。重要的是,該算法允許將時間點變量合并到注釋層次結構中,因此,可以對限定時間段內出現的細胞標識進行分類。

為了證明devCellPy在多層細胞預測方面的能力,作者從多個公開的scRNA-seq數據集中構建了一個單一的大規模心臟發育細胞圖譜。因為在心臟發育過程中存在非常復雜的不同細胞類型注釋,并且心臟內的細胞類型表現出隨時間變化的基因表達模式,所以作者在心臟發育數據集上測試了devCellPy的預測能力。實驗結果表明,該算法在多個層面(包括時間受限的細胞群)都具有高度準確性的預測能力,這進一步證明了devCellPy算法在跨物種預測心肌細胞類型方面的廣泛適用性。

2 結果 devCellPy 能夠生成用于細胞類型和亞型分類的多層預測算法

為了解決以分層方式自動分類細胞類型和亞型的挑戰,作者構建了一種基于Python的軟件包devCellPy,它可用于生成包含時間元素的細胞身份預測算法。devCellPy由訓練和預測步驟組成。在訓練期間,一個包含多層注釋的參考數據集被用于訓練算法(圖1a)。用戶為devCellPy提供一個注釋層次結構,其指定了數據集中的多個層和細胞類別,包括用于構造細胞類型和時間相關的注釋層次結構的時間點變量。此外,用戶為參考數據中的所有細胞提供一個對數規范化表達式矩陣,以及包含跨層次結構所有層的單細胞注釋的元數據表(圖1b)。作者在devCellPy中引入LayerObject類來創建一個有組織的數據結構,其中算法學習數據集的注釋層次結構,并包含層次結構中每個層的位置信息(圖1c)。該系統允許跨層次結構的正確分支自動分類細胞亞型,并為層次結構的每一層訓練一個XGBoost預測模型,并將其存儲在該層各自的LayerObject中。

除了LayerObjects,作者還在devCellPy中實現了最近開發的Shapley Additive explained (SHAP)算法。SHAP有助于devCellPy輸出在進行細胞類型分類的訓練過程中自動識別的基因標記,從而突出顯示用于對感興趣數據集中的細胞類型進行分類的主要陽性和陰性基因標記(圖1c)。在使用參考數據集訓練devCellPy之后,用戶可以使用devCellPy生成的預測算法,通過導出一個直接加載到算法中的對數歸一化計數矩陣來對查詢數據集進行分類(圖1d)。devCellPy將自動讀取矩陣文件,并使用存儲在LayerObjects中的預測模型來輸出查詢細胞的多層細胞類型和子類型預測。除了提供輸出注釋之外,devCellPy還將為每個分類的細胞輸出概率度量,以向用戶提供有關算法在進行細胞預測時的可信度信息。總體而言,該算法的結構允許用戶從任何模型生物的任何組織獲得的任何參考scRNA-seq數據集來創建訓練模型,并可以輕松導出這些模型,以對類似細胞類型和亞型的新數據集進行預測。

圖1 devCellPy結構圖

大規模心臟發育圖譜的構建

為了測試devCellPy在生成用于進行多層細胞注釋的高精度預測算法方面的性能,作者首先從四個公開的數據集中集成了一個中胚層來源的心臟發育細胞類型的大規模scRNA-seq圖譜,經過整合的數據集可觀察到從早期原腸胚形成到主要心臟細胞類型的清晰發育軌跡(圖2a)。

通過關注中胚層衍生的細胞類型,作者觀察到從多能外胚層細胞開始的分化樹,通過原始條紋過渡到早期新生的中胚層祖細胞,并進展為心臟祖細胞(圖2b)。盡管這些數據集來自四個不同的來源,但經過成功地整合所有數據集,可以觀察到12種主要細胞類型在整個發育時期的聚類(圖2b, c)。UMAP圖顯示了發育一致的結構,心臟祖細胞組成樹干,隨后分裂成不同的細胞類型。作者還通過對所有主要標注的細胞類型進行差異基因表達分析,進一步驗證了構建圖譜中分配的注釋,并證實了已報道的12個主要細胞群的主要細胞標記的獨特表達(圖2d,e)。

圖2 中胚層來源心臟發育細胞圖譜的構建

devcellPy生成的算法可以精確預測注釋層復雜層次結構中的細胞類型

在建立了包含多層注釋的大型心臟發育圖譜后,作者繼續測試了devCellPy在該數據集上生成高度精確的細胞識別預測算法的能力。通過對心肌細胞圖譜進行多層分析,其中頂層代表廣義細胞注釋,其次是心肌細胞亞型,以及在發育過程中按時間點劃分的心室心肌細胞亞型(圖3a)。為了測試算法的分類性能,作者將數據隨機劃分為90%和10%的分區,分別用于交叉驗證和保留數據集測試(圖3b)。實驗結果顯示,對于第一層注釋,該模型在 10 輪獨立訓練中顯示出高整體準確度(圖 3c)。同時,devCellPy 對10% 保留數據進行了分類(這些分類在訓練后的模型中未發現),這證實了devCellPy高度準確的預測(圖 3d)。

對心室心肌細胞亞群的心肌細胞預測算法性能的進一步分析表明(圖 3c),實驗觀察到的性能指標在第一層注釋上得分最高,而在注釋層次結構較低級別中發現的密切相關的細胞類型中略有下降。為了進一步評估devCellPy的性能精度,作者還將該算法的性能與先前發布的單細胞預測算法(CaSTLE、SeuratV3、scmap、SingleCellNet)進行了比較,結果表明,devCellPy在所有評估的細胞類型中顯示了最高的整體精度。

圖3 devCellPy在各層之間的性能評估

devCellPy識別生物相關的細胞標記

為驗證devCellPy生成的心臟預測算法是否可以識別與發育相關的基因,以便跨細胞層進行預測。作者通過使用devCellPy中的SHAP算法,確定了測試的每一層注釋中細胞類型的主要陽性和陰性預測基因。對于第一層,算法自動識別出先前驗證過的細胞類型預測因子。在實驗中,一般的細胞類型預測因子可以揭示已知細胞類型的主要陽性預測因子,而除了識別一般細胞類型的典型標記外,SHAP還可以識別其他細胞類型的標記。

除了在第一層中識別一般細胞類型的主要標記外,作者還確定了用于在多個分化時間點識別心肌細胞和心室心肌細胞亞型的主要基因。并且,devCellPy還跨時間點識別了多個先前發表的心肌細胞亞型標記,同時也以特定的時間點方式識別了獨特的標記。

devcellPy生成的算法從de novo數據集中準確預測細胞類型

為了進一步評估devCellPy的性能,驗證devCellPy生成的預測算法是否能夠成功預測以前數據集中沒有遇到過的細胞類型。作者分析了來自三個新來源的scRNA-seq數據,并從E10.5小鼠心臟中生成了新的數據,并測試了devCellPy對心臟圖譜中存在的所有細胞類型進行全自動預測的能力。同時,作者進一步評估了其他細胞預測算法對心臟圖譜中所有細胞類型進行完整分類的能力(圖4a、b)。作者將機器學習分類與查詢數據集的無監督聚類注釋期間分配的手動注釋進行了比較(圖4b),手動注釋和devCellPy預測的比較顯示,兩種注釋方法在17個細胞類別中的11個中具有高度的一致性,準確率達80%(圖4c)。

與之前發表的其他機器學習方法相比,devCellPy在心臟圖譜中所有細胞類型的分類方面優于SingleCellNet、Seurat和scPred。所有其他方法對外胚層、原始條紋和新生中胚層的人工方法顯示出高度的一致性,但在其他細胞類型中觀察到的預測準確性較低。并且,在密切相關的細胞類型中,如心臟祖細胞、心外膜和間充質細胞以及心肌細胞亞型,其他方法在人工方法和機器學習預測之間顯示出低一致性(圖4c)。總體而言,實驗結果證明了devCellPy生成的預測算法可以準確預測de novo數據集中的細胞類型,并在對高粒度細胞類型進行預測時優于其他方法。

圖4 devCellPy預測新的scRNA-seq數據

devCellPy生成的心臟預測算法揭示了hiPSC衍生心肌細胞的發育不成熟和心室特異性心肌細胞分化

在驗證了devCellPy對胚胎小鼠心肌細胞分類的準確性后,作者研究驗證了是否可以使用小鼠心臟預測算法來準確預測人誘導多能干細胞(hiPSC)衍生的心肌細胞的類別(圖5a, b)。鑒于已知的體外衍生心肌細胞不成熟,作者驗證了早期胚胎小鼠模型是否能更好地預測 hiPSC 系統中的心肌細胞亞型。通過對六個時間點的心肌細胞進行分析,并繪制了前兩個主成分的單細胞圖。正如預期的那樣,細胞以時間依賴性方式沿著第一個主成分前進(圖5c)。此前有報道稱,小分子雙相WNT協議在缺乏后向視黃酸信號的情況下主要產生心室特異性心肌細胞。為了證實這一點,作者繪制了在hiPSC、人類胎兒和小鼠胚胎發育過程中經過驗證的心室標志物Myl2、Myl3、Myh7的表達圖,并證實了所有這些確定的心室標志物的表達逐漸增加(圖5d)。為繼續驗證基于小鼠數據訓練的devCellPy模型是否能夠準確識別hiPSC-CMs心室特性,作者基于E7.75和E13.5之間的早期小鼠胚胎時間點訓練了多個devCellPy預測模型,用于識別心肌細胞亞型。然后使用基于時間點的模型計算devCellPy的預測置信度,以確定hiPSC-CMs心室特性。實驗結果表明,hiPSC-CMs表現出發育不成熟,并且hiPSC-CMs的胚胎表型和小鼠心肌細胞成熟基因表達程序具有密切保守性。

圖5 devCellPy小鼠預測模型確定了心室優勢HiPSC-CMs的發育不成熟

3 總結 在這項研究中,作者開發了一個基于Python的生物信息學管道devCellPy,它可以使用精確的高分辨率參考數據集,自動預測多個發育時間點和級聯注釋層的細胞類型。分層注釋結構存在于多個器官、物種和模型系統之間。正如此處介紹的心臟發育圖譜所示,細胞表現出多個身份子類。此外,對數據集進行精確的手動標注通常需要有對陽性和陰性表達標記的專業知識,這可能導致經驗不足的用戶,在數據集標注過程中的可再現性較差。以前的研究也表明,包含多個子類的高度相關細胞類型的深度注釋數據集,可能會對自動細胞分類器的性能產生負面影響。作者通過創建分層組織的預測模型來解決這一問題,該模型在 “LayerObject”對象類的注釋層次結構中編碼它們的位置。通過將密切相關的細胞類型的預測分解為不同的注釋層,從而在注釋層次結構中的高粒度細胞子類之間實現更高分辨率的預測結果。重要的是,用戶可以在層次結構中指定時間點,從而允許在跨注釋的多個子層中構建時間點相關預測。隨著細胞在預測層次結構中移動,devCellPy將只對用戶設置的概率閾值的細胞進行下一層分類,從而允許對跨每個分類層的細胞類型進行高置信度注釋。此外,devCellPy中的LayerObjects具有高度可移植性,允許用戶共享訓練過的預測模型,或導出單個LayerObjects進行單層預測。devCellPy的可移植性允許科學界廣泛使用專家策劃的參考圖譜,以在復雜場景中進行細胞預測。

除了可移植性之外,devCellPy還需要對數據集進行處理以進行訓練和預測,devCellPy可以識別超過35000個輸入基因中的生物學相關標記基因。該算法的高預測性能表明,除了歸一化計數表達式矩陣外,不需要額外的預處理或特征選擇來從精確的高分辨率參考數據集中訓練算法和參考標簽。當將devCellPy的性能與其他之前發表的細胞分類算法進行比較時,devCellPy的自動化分層方法在分類心臟圖譜中存在的所有細胞類型方面優于其他分類訓練方法。同時,devCellPy完全自動化了跨多層細胞標識的訓練,從而自動化了跨復雜注釋層次結構預測細胞的過程。此外,雖然其他方法允許為一組獨特的標簽生成細胞預測模型,但devCellPy允許跨時間點相關注釋自動分類,從而為跨發育數據集的細胞分類提供了顯著的改進。

devCellPy為scRNA-seq分析提供了一個重要工具,它為生成細胞類型/亞型預測算法提供了一個全自動化的管道,且該算法非常適用于分層注釋的數據集。作者的工作表明,devCellPy生成的算法具有高度通用性,可推廣到任何scRNA-seq數據集,并提供了一個完全開源的Python包。隨著大規模發育細胞圖譜的發展,devCellPy將提供資源來幫助識別跨平臺和物種的細胞類型,特別是在注釋良好的參考數據集中顯示復雜的多層注釋方案。

參考資料 Galdos, F.X., Xu, S., Goodyer, W.R. et al. devCellPy is a machine learning-enabled pipeline for automated annotation of complex multilayered single-cell transcriptomic data. Nat Commun 13, 5271 (2022). //doi.org/10.1038/s41467-022-33045-x

數據鏈接:

代碼鏈接:

付費5元查看完整內容

相關內容

醫學領域的人工智能是使用機器學習模型搜索醫療數據,發現洞察,從而幫助改善健康狀況和患者體驗。 得益于近年來計算機科學和信息技術的發展,人工智能 (AI) 正迅速成為現代醫學中不可或缺的一部分。 由人工智能支持的人工智能算法和其他應用程序正在為臨床和研究領域的醫學專業人員提供支持。

編譯|王娜 審稿|王海云

本文介紹由美國德克薩斯大學MD安德森癌癥中心生物統計學系的Ziyi Li和Kim-Anh Do共同通訊發表在 Bioinformatics 的研究成果:為了更好地注釋scRNA-seq 數據,發現新的細胞類型,作者開發了一種簡單而有效的方法,結合自動編碼器和迭代特征選擇,從scRNA-seq數據中自動識別新細胞。該方法用標記的訓練數據訓練一個自動編碼器,并將自動編碼器應用于測試數據以獲得重建誤差。通過反復選擇表現出雙模模式的特征,并使用所選特征對細胞進行重新分組,該方法可以準確地識別訓練數據中不存在的新細胞。作者進一步將這種方法與支持向量機結合起來,為注釋所有的細胞類型提供了一個完整的解決方案。使用五個真實的scRNA-seq數據集進行的廣泛的數值實驗,結果表明,該方法比現有的方法具有更好的性能。

簡介

單細胞RNA測序(scRNA-seq)的出現使研究人員能夠以前所未有的精度和準確度研究人類組織的細胞組成和轉錄組概況。作為第一步,注釋細胞和分配細胞類型標簽是最重要的步驟之一,因為大多數的下游分析都依賴于細胞標簽的準確性。由于不同的研究人員對細胞類型標志物的理解存在差異,通常不能保證注釋結果的可重復性。盡管多種監督方法為細胞注釋提供了各種解決方案,但監督方法面臨的一個大挑戰是如何將新的(或未知的)細胞類型與已知的細胞類型區分開來。

在這項工作中,作者開發了一種新的兩步法來自動標記含有新細胞的scRNA-seq數據。稱之為使用基于機器學習的方法對未知細胞的存在進行細胞注釋(CAMLU)。在第一步,CAMLU使用自動編碼器和迭代特征選擇的組合來區分已知細胞類型和新的細胞類型。這樣的目的是,用訓練數據訓練自動編碼器后,自動編碼器將包含所有已知細胞類型的信息。將這個自動編碼器應用于測試數據將產生所有基因的重構誤差。由于細胞是已知和未知細胞類型的混合體,一些 "有信息的 "基因在其重構誤差中會有雙模分布,代表它們與已知細胞類型的不同相似程度。通過迭代特征選擇,CAMLU可以選擇一組較小的信息性特征,這些特征在已知和未知細胞群中具有表達差異,并最終將新型細胞與已知細胞類型區分開來。然后,可以根據這些信息性基因重新對細胞進行分組,并識別出新型細胞。除去第一步中確定的新細胞,CAMLU在第二步中使用支持向量機對其余的細胞進行詳盡的注釋。圖1展示了CAMLU的工作流程。

圖1 CAMLU的工作流程

結果

蒙特卡洛數值實驗 為了廣泛地評估CAMLU的性能,作者設計了三個基于真實數據集的蒙特卡洛數值實驗。作者將CAMLU與四種流行的細胞注釋方法進行了比較,這些方法能夠使用 "未分配 "的標簽來識別未知的細胞。

用PBMC和HNCC細胞系進行的數值實驗 PBMC數據有6萬多個來自8種免疫細胞類型的分類細胞。HNCC總共有4632個癌細胞。對于每個實驗,我們從PBMC數據中每個細胞類型隨機選擇個細胞,從HNCC數據中隨機選擇個癌癥細胞。考慮了三種設置,正常細胞樣本量=300;400;500(即訓練數據中2400、3100和3800個細胞),對應于圖2中的小、中和大。在所有設置中,癌細胞數量保持不變,即=300。圖2總結了100多次蒙特卡洛實驗的數值實驗情況。與現有的方法相比,CAMLU在區分癌細胞和新型細胞以及標記全部細胞類型方面具有最高的準確性。CopyKAT在識別圖2上圖中的癌細胞方面是第二好的。由于它不能分配完整的標簽列表,copyKAT沒有在圖2中展示。在其他現有的方法中,scmap-cluster和CHETAH也能很好地分配正確的標簽,但準確率和ARI略低,其次是scPred。Scmap-cell在這兩項任務中的準確率最低,可能是由于該方法產生了大量的 "未分配 "標簽。

圖2 使用PBMC數據和癌細胞系數據的混合物進行數值實驗的結果

用PBMC進行的數值實驗 接下來,作者設計了一個數值實驗,只用PBMC數據來模擬未知細胞不是非整倍體時的情況。我們將單核細胞作為 "新型 "細胞類型,其他七種細胞類型作為已知細胞類型。與第一個實驗類似,作者為其余七種細胞類型的每個細胞類型隨機選擇個細胞,從單核細胞中選擇個細胞。作者再次考慮了三種設置,已知細胞類型的大小不同,=300;400;500,單核細胞的=300。

圖3A中總結了CAMLU和現有方法的準確度。CAMLU在識別測試數據中的單核細胞和分配所有標簽方面具有最高的準確性。作者發現scmap-cluster在這兩項任務中都是第二好的方法,其次是CHETAH和scPred,性能相似。與第一次數值實驗相比,CAMLU的準確率下降了一點,可能是因為目前的設置比較難。隨著訓練樣本量的增加,所有方法的性能都略有提高。

圖3B和C展示了單個實驗中真實和估計標簽的新型細胞識別結果,這可能闡明了CAMLU和現有方法的差異。CAMLU在區分單核細胞和已知細胞方面具有幾乎完美的準確性,而現有的方法,特別是scmap-cell,往往將很多已知細胞標記為 "未分配"。

用胰腺數據進行的數值實驗 除PBMC數據外,作者還獲得了胰腺scRNAseq數據集,以進一步評估新細胞為二倍體時的情況。作者通過將間質細胞作為未知細胞類型來設計實驗。對于每次模擬,從 "已知 "細胞類型中隨機抽取500個非間質細胞,并將這些細胞的數據作為訓練數據。其余的 "已知 "細胞與間充質細胞結合起來作為測試數據。其中間質細胞數量為80,訓練數據中的細胞總數為1626。

在圖4中總結了100個蒙特卡洛實驗的結果。在圖4A中,CAMLU與其他現有的方法相比,具有更高的識別精度,精度平均提高5-10%。在圖4B中,作者將CAMLU和其他方法的新型細胞類型和整體注釋的細胞標簽與一次實驗的真實標簽進行了可視化對比。CAMLU在這兩項任務中脫穎而出,在區分極少數的新型細胞(<5%的測試數據)時表現出很高的準確性。CHETAH在這種情況下也有良好的表現,scmap-cell排名第三。scmap-cluster和scPred都不能識別新型細胞。

圖3 使用單核細胞作為新的細胞類型的PBMC數據進行數值實驗的結果

圖4 使用胰腺數據的數值實驗結果,以間質細胞為新型細胞類型

應用于兩個真實的癌癥數據集 在這個實驗中,作者獲得了一個scRNA-seq數據集,包括5名三陰性乳腺癌(TNBC)患者和另一個包括5名無性系甲狀腺癌(ATC)患者的數據集。作者首先評估了所有方法從測試數據中識別惡性細胞的準確性。在圖5B中,跨主題的細胞注釋給分析帶來了額外的噪聲,與之前的設置相比,所有的方法都有較低的準確性。在所有的方法中,CAMLU仍然是該任務中最準確的方法,其平均準確率約為0.9。性能第二好的方法是在TNBC數據集的scmap-cluster和在ATC數據集的scPred。在TNBC數據中,scmap-cluster的準確率約為0.80,所有其他方法的平均準確率都低于0.6。對于ATC,所有現有的方法的準確率都在0.5-0.6左右。

在圖5B中,作者說明了四個top基因在正常(藍條)和惡性細胞(紅條)中的重建誤差分布。例如,COL6A2編碼VI型膠原蛋白的三條α鏈之一,并被報道通過影響腫瘤和基質細胞來促進腫瘤的進展。作者發現COL6A2在惡性細胞中的重建誤差比在正常細胞中高得多,表明COL6A2可能是兩組細胞之間的差異基因。

圖5C顯示了使用TNBC和ATC數據從CAMLU中選出的前200個特征的最重要的Hallmark術語。作者在結果中發現了一些與疾病相關的術語。例如,在TNBC中,通過途徑的信號傳遞是最重要的Hallmark術語。大量的現有研究報告了炎癥因子TNF-a對乳腺癌生長的促進作用。同樣,ATC結果中的首要術語,上皮-間質轉化是與上皮性腫瘤進展、局部侵襲和轉移有關的重要機制。一些研究報告指出,上皮-間質轉化與ATC的進展密切相關。

圖5 在兩個癌癥數據集上應用CAMLU和現有方法的結果,即三陰性乳腺癌(TNBC)和非彈性甲狀腺癌(ATC)

總結與討論

在這項工作中,作者開發了一種基于機器學習的新方法,用于從scRNA-seq數據中識別未知細胞。該方法利用自動編碼器和迭代特征選擇的組合,根據信息特征的重建誤差來識別新型細胞。在識別 "未知 "細胞后,其余的細胞使用支持向量機進行注釋。與大多數將低相關度或低置信度的細胞標記為新型細胞的現有方法相比,該方法創新性地將未知細胞的選擇和現有細胞類型的注釋分開。

該有幾個優點。首先,不依賴于非整倍體/二倍體細胞狀態。第二,可以應用于識別不同大小的新型細胞。第三,盡管跨主體預測給問題帶來了額外的噪音,并降低了所有方法的準確性,但該方法仍然比服務于類似目的的現有方法取得更高的性能。

有幾個方向可以考慮和探索未來的工作。首先,作者將繼續探索不同參數的選擇,以提高方法的敏感性和穩健性。例如,細胞類型結構的不同復雜性可能需要更大或更小的自動編碼器模型。選擇的特征數量也可以與感興趣的問題有關。可以設計自適應程序,在模型構建中自動選擇這些因素。第二,可以考慮通過在框架中加入額外的生物知識,使工具更好地適應不同的疾病環境。在目前的特征選擇設置中,作者僅僅根據重建分布來選擇頂級特征。將雙模特征與疾病相關的特征相結合,有可能獲得更好的性能。

參考資料

Ziyi Li, Yizhuo Wang, Irene Ganan-Gomez, Simona Colla, Kim-Anh Do. A machine learning-based method for automatically identifying novel cells in annotating single-cell RNA-seq data. Bioinformatics; doi: //doi.org/10.1093/bioinformatics/btac617

代碼

付費5元查看完整內容

編譯 | 王海云

審稿 | 王娜 本文介紹由美國耶魯大學統計與數據科學系的Mark Gerstein通訊發表在 Nature Communications 的研究成果:作者介紹了林火聚類,這是一種從單細胞數據中發現細胞類型的有效手段,具有良好的可解釋性。林火聚類采用最小的先驗假設,與當前方法不同,它計算每個細胞分配一個細胞類型標簽的非參數后驗概率。這些后驗分布允許評估每個細胞的標簽置信度,并允許計算“標簽熵”,突出沿著分化軌跡的過渡。此外,作者表明,林火聚類可以在在線學習環境中進行穩健的歸納推理,并且可以很容易地擴展到數百萬個細胞。最后,作者證明了該方法在模擬和實驗數據的不同基準上優于最先進的聚類方法。總的來說,林火聚類是大規模單細胞分析中發現稀有細胞類型的有用工具。

1 簡介 聚類分析是一種重要的統計方法,有許多應用場景。在單細胞測序中,聚類分析將單個細胞分為不同的亞型,例如將癌癥細胞的亞型分類以進行靶向治療。當前大多數聚類方法可以大致分為五大類:基于質心的方法、基于分布的方法、基于連接的方法、基于密度的方法和基于圖的方法。

適用于單細胞數據的聚類算法應具有以下三個重要特征:(1)對于罕見細胞類型的發現,單細胞聚類算法應該對數據(例如數據的形狀)做出相對較弱的假設;(2)單細胞聚類方法應該能夠在內部驗證其聚類結果;(3)單細胞聚類算法應具有較高的計算效率。

為了滿足這些規范,作者根據森林火災動力學中的自組織臨界性開發了森林火災聚類。通過模擬類似于森林火災蔓延的標簽傳播,可以在僅給定一個“火災溫度”超參數的情況下(類似于Louvain中的分辨率超參數)對數據進行聚類。通過模擬來自不同起點的標簽傳播,可以計算與P值類似的逐點后驗排除概率(PEP),以量化數據點在其他聚類標簽上的概率。還可以計算逐點標簽信息熵來測量每個數據點標簽的一般不確定性。由于該算法的歸納性質,森林火災聚類可以對少量新到達的數據點進行在線推斷,而無需重新聚類。

2 結果 方法概述 森林火災聚類算法有三個主要步驟:(1)預處理:使用行作為細胞、列作為基因組特征的數據矩陣W計算細胞間成對距離矩陣M。然后,使用核方法將M轉換為親和矩陣A(圖1a,步驟1-2)。(2)標簽傳播:在數據圖上,選擇一個隨機的未標記頂點r作為種子,以獲取新標簽(圖1a,步驟3)。未標記頂點離種子越遠,它們受到的標簽影響越小。如果未標記頂點i上所有標記頂點的平均標簽影響超過接受閾值,則頂點i采用種子的標簽(圖1a,步驟4-5)。即使不足以超過閾值,也有可能超過閾值,因為稍后會標記更多頂點(圖1a,步驟6-7)。因此,每次標記新頂點時,森林火災聚類都會檢查剩余的未標記頂點,直到平均標簽影響不能超過任何未標記頂點的閾值(圖1a,步驟8)。(3)迭代標簽傳播:迭代執行新的標簽傳播,直到所有頂點都已標記,每輪標簽傳播定義一個簇(圖1a,步驟9-10)。此外,可以使用蒙特卡洛模擬評估森林火災聚類標簽的置信度(圖1c)。

圖1 森林火災聚類和蒙特卡洛驗證說明

根據合成數據評估森林火災聚類 我們首先研究了模擬高斯混合上森林火災聚類的性能(圖2a,e)。有趣的是,還可以從平均標簽影響圖(圖2b)中的峰值數推斷出簇的數量。在高斯方差較低的情況下,每個尖峰對應于發現的一個有意義的簇。在高斯方差較高的情況下,發現了八個簇,盡管兩個簇的分離與地面真實值不同(以綠色和橙色顯示)。因此,隨時間變化的平均標簽影響圖顯示了這些簇的不同峰值(圖2f)。為了在內部驗證之前的聚類結果,作者使用蒙特卡洛模擬構建了后驗標簽分布,并計算了高斯混合中每個數據點的后驗排除概率和標簽熵(圖2c,d)。驗證表明,特定簇上和少數簇之間的標簽熵較高。作者驗證了之前的假設,即隨著火災溫度c的升高,平均簇大小也會增加(圖2g)。因此,火災溫度c是用于生成不同大小簇的直觀參數。此外,作者在使用相同聚類數K的前提下,對森林火災聚類和K-均值進行了比較(圖2h)。隨著火災溫度c的升高,林火聚類的輪廓分數收斂到K均值聚類的輪廓系數。由于K-means的輪廓分數在給定聚類數K的情況下是局部最優的,這表明森林火災聚類可以生成具有適當火災溫度c的近似最優聚類。

圖2 用高斯混合模型可視化林火聚類過程

森林火災聚類與其他聚類方法的比較 如前所述,林火聚類旨在克服單細胞測序數據集上許多聚類方法的缺點(圖3a)。與其他聚類方法相比,林火聚類可以生成具有最小先驗假設的聚類,并可以計算非參數逐點后驗概率進行內部驗證。除了這些獨特的優勢外,作者還在大量合成數據集上使用許多現有聚類方法對森林火災聚類進行了基準測試(圖3b)。對于環形或半月形數據(圖3b),基于分布的方法(如高斯混合建模)無法準確分類這些數據集,純度分數分別為0.5和0.85。基于分布和質心的方法在識別非凸聚類方面都有局限性。相比之下,林火聚類中的聚類邊界更靈活,因為數據流形中的標簽傳播對數據的形狀做出了最小的假設。此外,結果表明,與基于連通性的方法相比,林火聚類可以更好地揭示聚類的數量和大小,尤其是當聚類內距離大于聚類間距離時。當簇重疊時,我們的方法也保持了穩健的性能,而基于密度的方法,如DBSCAN和OPTICS在這種情況下表現不佳。

基于模擬scRNA-seq數據的森林火災聚類評估 對于模擬的離散細胞類型(圖4a),林火聚類在ARI和純度分數方面優于SC3(Wilcoxon signed-rank P=)。森林火災聚類在ARI中也優于Seurat(Wilcoxon signed-rank P=) 但純度得分無統計學顯著差異。作者觀察到連續細胞類型的ARI和純度分數表現類似(圖4b)。這表明,林火聚類和Seurat都可以生成同質聚類,但林火聚類更能正確發現細胞類型和子單元的內在數量。此外,此外,森林火災聚類在運行時的平均時間為80毫秒,分別優于SC3和Seurat,而前者為分別為12分鐘和1秒(圖4c)。此外,內部驗證表明,細胞的標簽熵與沿分化路徑的偽時間步長呈負相關(圖4d,e)。隨著過渡細胞的分化和沿著發育軌跡變得更加特殊化,細胞的身份也變得更加明確(圖4f)。因此,與許多現有聚類方法相比,林火聚類可以突出發育偽時間內的過渡種群,并為單細胞分析提供更深入的見解。

基于PBMC單細胞數據的林火聚類分析 為了證明林火聚類在實驗數據上的優勢,作者分析了兩個數據集中約10000個外周血單個核細胞(PBMC)的單細胞測序。結果表明,林火聚類可以正確分類主要的PBMC細胞類型(圖5)。聚類質量基準表明,與其他最先進的單細胞聚類方法相比,林火聚類可以始終生成具有相似ARI和純度分數的聚類(圖5d,f)。此外,林火聚類可以在不同的聚類分辨率和細胞種群大小下發現高質量的聚類(圖5h)。然后,作者評估了內部驗證對森林火災集群的影響。通過關注具有高置信度標簽(PEP<0.1)的細胞,森林火災聚類可以將聚類ARI比現有方法提高20%以上(圖5d、f)。此外,林火聚類可以分析連續的細胞類型。模擬研究的結果表明,隨著每種細胞類型內擴散偽時間的增加,標記熵降低,擴散偽時間分析中的祖細胞與森林火災標記熵突出顯示的細胞相匹配(圖5i)。

圖3 林火聚類與其他聚類方法的比較

圖4 模擬scRNA-seq數據分析

圖5 基于PBMC數據的林火聚類基準測試

基于大規模小鼠單細胞數據的森林火災聚類評估 隨著單細胞測序過程中細胞數量的增加,聚類算法的可擴展性變得越來越重要。在這里,作者展示了在大型異構數據集上與其他最先進的聚類算法相比,森林火災聚類的效率最高。結果表明,在同時生成質量相似的聚類結果的條件下,森林火災聚類比最先進的單細胞聚類算法更快(圖6d,e)。此外,與現有方法相比,森林火災聚類使用的內存更少。運行時和內存使用基準表明,森林火災聚類可以有效地擴展到更大的數據集。接下來,作者研究了內部驗證對森林火災集群的影響(圖6e)。對于像MCA這樣的異構數據集,關注具有高標記置信度(PEP<0.1)的細胞將ARI從0.38提高到0.72。此外,新生和胎兒小鼠組織表現出較高的標記熵,這支持先前的結論,即標記熵模擬發育時間(圖6f)。然而,需要計算密集的蒙特卡洛模擬來獲得這些新的見解。在實踐中,作者發現幾千次蒙特卡洛試驗足以獲得合理的近似值。此外,蒙特卡洛模擬具有令人尷尬的并行性,可以使用多進程以最小的同步開銷有效加速。

圖6 基于MCA數據的森林火災聚類基準測試

3 總結與討論 目前,對于scRNA-seq數據無監督聚類相關的研究,存在許多公認的挑戰。首先,許多聚類方法對數據進行了強大的顯式或隱式先驗假設。其次,現有的聚類方法無法在內部驗證其聚類結果。對于單細胞分析中的罕見細胞類型發現,關鍵是使用最小的先驗假設進行聚類,并報告每個數據點的標簽置信度以進行驗證。第三,雖然已知單細胞數據中存在離散細胞類型,但一些細胞可以放置在兩個或多個末端狀態的連續梯度中,沒有明確的邊界。為了解決與高維單細胞數據聚類相關的現有挑戰,應專門設計聚類算法以滿足單細胞分析需求。

在這里,受森林火災動力學的啟發,作者開發了森林火災聚類。森林火災聚類在常見基準上優于以前的聚類方法,在scRNA-seq數據集上表現出穩健的性能。此外,森林火災聚類可以使用蒙特卡洛模擬進行內部驗證。聚類標簽隨機傳播以產生逐點后驗排除概率,該概率可以量化每個數據點的標簽置信度,并用作質量控制的度量。此外,逐點標記熵可以突出發育偽時間的分支點和關鍵過渡細胞。 參考資料 Chen, Z., Goldwasser, J., Tuckman, P., Liu, J., Zhang, J., & Gerstein, M. (2022). Forest Fire Clustering for single-cell sequencing combines iterative label propagation with parallelized Monte Carlo simulations. Nature communications, 13(1), 1-13. Doi: //doi.org/10.1038/s41467-022-31107-8

數據
代碼

付費5元查看完整內容

編譯 | 程昭龍 審稿 | 林榮鑫,王靜 本文介紹由美國加利福尼亞州帕薩迪納加州理工學院生物與生物工程系的Matt Thomson通訊發表在 Nature Computational Science 的研究成果:目前,測序成本是導致單細胞mRNA-seq無法應用于許多生物學和臨床分析的主要原因。靶向單細胞mRNA-seq通過分析縮減的基因集來降低測序成本,這些基因集以最少的基因捕獲生物信息。為此,作者提出了一種主動學習方法,該方法可以識別數量最少但信息量很大的基因集,從而能夠使用少量基因識別單細胞數據中的細胞類型、生理狀態和遺傳擾動。其中的主動特征選擇過程通過使用主動支持向量機 (ActiveSVM) 分類器從單細胞數據中生成最小基因集。經實驗證明,ActiveSVM 特征選擇識別的基因集在細胞圖譜和疾病特征數據集上的細胞類型分類準確率能達到約90%。數量少但信息量大的基因集的發現有助于減少將單細胞 mRNA-seq 應用于臨床測試、治療發現和遺傳篩選所需的測量次數。

1 簡介 單細胞 mRNA-seq方法的規模已擴大到每次實驗可以對數千個細胞進行常規的轉錄組水平分析。盡管單細胞 mRNA-seq 方法可以為許多不同的生物學和生物醫學問題提供見解,但高昂的測序成本阻礙了單細胞 mRNA-seq 在許多探索性分析和成本敏感的臨床分析中的廣泛應用。靶向 mRNA-seq 的開發有助于解決上述測序瓶頸,通過將測序資源集中在特定生物學問題或分析的高信息量基因上,可將測序成本降低多達 90%。

細胞通過調控轉錄程序或模塊來調控基因表達,這些轉錄程序或模塊包含受共同轉錄因子組調控的多個基因。由于協同調控,轉錄模塊內的基因表現出相關的基因表達。基因表達的相關性可以使細胞的轉錄狀態能夠通過對少量高信息量基因的靶向mRNA分析來重建。然而,這種靶向測序方法需要計算方法來識別針對特定生物學問題的高信息量基因。差異基因表達分析和主成分分析(PCA)等一系列計算方法可用于識別高信息量基因。目前,定義最小基因集的方法在計算上非常昂貴,難以應用于大型單細胞mRNA-seq數據集,并且通常需要用戶定義的閾值來進行基因選擇。

受主動學習方法的啟發,作者開發了一種計算方法,該方法通過主動支持向量機(ActiveSVM)分類任務選擇能夠可靠識別細胞類型和轉錄狀態的最小基因集。ActiveSVM 算法通過迭代細胞狀態分類任務構建最小基因集。在每次迭代中,ActiveSVM 應用當前基因集將細胞分類到類中,這些類由細胞狀態的無監督聚類獲得或實驗標簽提供。該程序分析當前基因集錯誤分類的細胞,然后識別其中最大信息量的基因,并將這些基因添加到正在增長的基因集中以改善分類。ActiveSVM 通過主動查詢 SVM 分類器的輸出,找出分類不佳的細胞,然后對錯誤分類的細胞進行詳細分析,以選擇信息量最大的基因。通過定義明確的分類任務選擇最小的基因集,可以確保 ActiveSVM 發現的基因集保留了生物信息。

ActiveSVM 的主要貢獻是:該方法可以擴展到超過一百萬個細胞的大型單細胞數據集上,這是因為該方法將計算資源集中在分類較差的細胞上。由于該算法僅分析與當前基因集分類較差的細胞的完整轉錄組,因此該方法可用于發現能夠以高精度區分細胞類型的小型基因集,即使在超過一百萬個細胞的數據集中也是如此。經實驗證明, ActiveSVM 可以在短短數小時內分析包含 130 萬個細胞的小鼠大腦數據集。此外,ActiveSVM還可以推廣到一系列單細胞數據分析任務中,包括識別疾病標志物、Cas9擾動應答基因和空間轉錄組學中的區域特異性基因。

2 結果 ActiveSVM特征選擇概述 作者開發了一種應用支持向量機分類器來識別小型基因集的計算方法,以區分單細胞數據中的細胞狀態(圖 1)。該算法通過訓練SVM模型,根據標簽對細胞類型進行分類,從而迭代的選擇基因并使用已識別的基因對細胞進行分類。該算法在給定當前基因集的情況下,識別數據集中分類較差的細胞,并通過分類錯誤的細胞選擇額外的基因,以提高整個數據集的分類精度。

圖1 ActiveSVM特征選擇概述

ActiveSVM基于一組細胞標簽,通過迭代分類和基因選擇來構造最小基因集。由于ActiveSVM僅對當前基因集分類較差的細胞執行全轉錄組分析,因此大大提高了該算法的計算效率。ActiveSVM可以從無監督分析、實驗元數據或細胞類型標記基因的生物學知識中獲得細胞標簽。作者分別提供了最小復雜度和最小細胞版本的 ActiveSVM 算法。最小復雜度算法對一定數量的錯誤分類細胞進行采樣,并直接將其作為細胞集來選擇下一個基因。最小細胞算法重用在先前迭代中選擇的錯誤分類細胞,以減少所需細胞的總數。

用ActiveSVM識別單細胞mRNA-seq數據中的最小基因集 作者在四個單細胞 mRNA-seq 數據集(PBMC 數據集、130 萬個小鼠大腦細胞數據集、Tabula Muris 小鼠組織數據集和多發性骨髓瘤人類疾病數據集)上測試了ActiveSVM 特征選擇方法。在每次分析過程中,顯示測試集的分類準確度和選擇的基因數量,并將分類性能與幾種廣泛使用的特征選擇方法進行比較,結果表明,ActiveSVM 獲得的準確度最高。此外,ActiveSVM 大大減少了時間和內存消耗,特別是對于大型數據集。在與ActiveSVM方法使用相同數量的細胞情況下,所有的比較方法都是逐一選擇基因,并根據相應評估函數選擇得分最高的新基因。但是,這些方法在每次迭代過程中隨機采樣細胞,而沒有采取主動學習方法。

在人類PBMC數據上的主動特征選擇 為了測試 ActiveSVM 的性能,作者將該方法用于提取人類 PBMC 的分類基因子集,分析了包含 6915 個基因的 10194 個細胞的單細胞轉錄譜數據集,并使用 Louvain 聚類來識別 T 細胞、活化的 T細胞和 NK 細胞、B 細胞和單核細胞。

最小細胞和最小復雜度策略確定的基因組都能以超過85%的準確度對五種主要細胞類型進行分類,且總基因少至15個 (圖2a-c)。除了支持數據集的細胞類型分類外,ActiveSVM基因集還提供了一個低維空間來分析數據。主動學習策略的一個關鍵優點是分析數據集中相對較小的部分,因此該程序可以在只分析298個細胞的情況下生成基因集(圖2d)。此外,ActiveSVM可以生成包含已知標記的基因集,標記基因通常對單個細胞類型具有高度特異性,但有些也標記多種細胞類型。

圖2 PBMC數據集的基因選擇和細胞類型分類

將 ActiveSVM 擴展到百萬細胞的小鼠大腦數據集 為了證明ActiveSVM特征選擇方法對大型單細胞mRNA-seq數據集的擴展性,作者應用該方法從由10x Genomics收集的大規模細胞演示數據集中提取小型基因集。該數據集包含來自第18天胚胎發育中小鼠大腦的130萬個細胞的完整轉錄組mRNA-seq 數據,它是目前可用的最大的單細胞 mRNA-seq 數據集之一。

實驗結果表明,ActiveSVM 分析130萬個細胞所需的時間和內存遠遠小于其他方法。在大規模細胞數據集上,ActiveSVM 發現在分析不到 1000 個細胞時,僅用 50 個基因就可達到約 90% 分類準確度(圖 3a-c),ActiveSVM還發現了一系列細胞狀態特異性標記基因,擴展了先前的分析(圖3d-f)。總的來說,對小鼠大腦細胞數據集的分析表明,ActiveSVM 可擴展到分析超過 100 萬個細胞的大型數據集。

圖3 ActiveSVM特征選擇擴展到130萬個細胞的小鼠大腦數據集

用于小鼠組織研究中細胞類型分類的基因集 除了分析具有大量細胞的數據集外,作者還在具有大量不同細胞類型的數據集上對 ActiveSVM 的特征選擇性能進行基準測試。作者將 ActiveSVM 應用于 Tabula Muris 小鼠組織數據集,該數據集包含 58 種帶注釋的細胞類型和 12 個主要組織的 55656 個單細胞。對于每個細胞,測量 8661 個基因。并且在分析中使用了提供的細胞類型標簽,這些標簽與組織類型無關。

與其他方法相比,即使有大量的細胞類型, ActiveSVM 也可以構建高精度(>90%)的基因集(圖 4a)。為了構建一個大小為500的基因集,ActiveSVM特征選擇使用不到800個獨特的細胞或者平均每個細胞類型14個細胞。當分析由選定的150個基因(圖4c、d)或500個基因組成的低維t-SNE空間內的細胞時,可以從原始數據(圖4b)中重建聚類模式。ActiveSVM 能夠構建一組識別小鼠不同組織的細胞類型的標記基因,即使在分析大量細胞類型時,也能夠識別出細胞類型高度特異性的基因。

圖4 Tabula Muris小鼠組織研究中細胞類型分類的最小基因集

識別多發性骨髓瘤患者的最小基因集 為了分析作為發現疾病特異性標志物工具的ActiveSVM,作者使用了從兩名健康供體和四名被診斷為多發性骨髓瘤(一種無法治愈的漿細胞癌)患者的外周血免疫細胞中收集的單細胞數據,該數據集包含35159個細胞和32527個基因。

作者將ActiveSVM的分類精度與其他方法(圖5a)進行了比較,發現ActiveSVM在有限的步驟內實現了高精度,并始終優于使用隨機和平衡采樣的其他方法。在 t-SNE 投影的原始數據集中,確定了健康和多發性骨髓瘤細胞的非重疊細胞類型簇(圖 5b)。使用最小復雜度(圖5c、d)和最小細胞策略,從40個基因構建的t-SNEs中復制非重疊簇。在數據的t-SNE表示中,使用最小復雜度策略(有或沒有細胞平衡),最小的基因集足以將多發性骨髓瘤從健康樣本中分離出來。ActiveSVM還識別了外周血免疫細胞內多發性骨髓瘤的已知的和標記的成分(圖5e)。結果表明,ActiveSVM可以自動定義與疾病進展和治療結果有臨床關聯的基因組。ActiveSVM生成的最小基因集可以為各種臨床任務提供有用的靶向測序面板。

圖5 多發性骨髓瘤數據集中健康與疾病分類的基因集選擇

識別受Cas9擾動影響的基因 上述分析表明,ActiveSVM在一系列單細胞mRNA-seq數據集中識別了用于細胞狀態識別的最小基因集。為了證明基于 ActiveSVM 的基因集選擇在單細胞基因組學任務中的泛化能力,作者在另外兩個應用中用該方法來識別標記基因:perturb-seq和空間轉錄組學。

Perturb-seq 是一種使用單細胞 mRNA-seq 讀數進行基于 Cas9 的遺傳篩選方法,它的優點是可以同時進行多個敲除實驗。然而,由于測量和實驗噪聲,識別遺傳擾動對細胞群的影響可能具有挑戰性,并且Cas9分子對基因組的切割是不完整的,現在已經開發了各種方法來增強信號。

作者應用ActiveSVM從具有轉錄因子敲除的小鼠樹突狀細胞收集的perturb-seq數據中識別了最小的基因集以及轉錄因子敲除的下游效應。ActiveSVM通過類別平衡策略在Cebp sgRNA細胞標記上識別出最小基因集(50個基因),分類準確率約為80%。ActiveSVM只使用了一小部分數據,而比較方法在整個數據集上執行, ActiveSVM在該數據集上(有噪聲)的表現也比其他方法更好(圖6a,b)。我們對 perturb-seq 數據的分析表明,ActiveSVM 可以作為一種有用的工具,用于識別由 perturb-seq 實驗調節的基因。因此,ActiveSVM 可以提供一種識別最小基因集的方法,該方法可用于增加 perturb-seq 數據收集的規模。

圖6 ActiveSVM在perturb-seq 數據上的分類結果對比

用空間轉錄組學定義大腦區域標記物 最后,為了進一步證明 ActiveSVM 方法的普遍性,作者應用該方法來識別最小基因集,以便按空間轉錄組數據中的空間位置對細胞進行分類。空間轉錄組學是一種新興的方法,用于測量單個細胞內的 mRNA 表達,同時保留組織內的空間信息和細胞相似度。

作者應用 ActiveSVM 來識別與小鼠大腦中特定空間位置相關的基因,并確定了小于30個基因的基因集,這些基因集能夠以最小復雜度策略實現位置分類,準確率高于85%。ActiveSVM在每次迭代中僅使用十個細胞,但效果優于在整個數據集上執行的比較方法。空間分析表明,ActiveSVM 能夠自動識別富含不同大腦區域的基因。

3 總結 在本文中,作者介紹了一種特征選擇方法ActiveSVM,用于在大型單細胞 mRNA-seq 數據集中發現最小基因集。ActiveSVM 通過迭代細胞狀態分類策略提取最小基因集,并專門選擇位于 SVM 分類器邊緣的細胞,然后使用這些分類較差的細胞來搜索信息量最大的基因(特征)。

在生物學上,最近的一項研究強調了轉錄組中存在的低維結構,當細胞通過包含大量基因的基因表達程序或模塊來調節其生理狀態時,該結構將出現在基因表達數據中。由于轉錄模塊中的基因表達具有高度相關性,對少量高信息量的特征基因進行測量足以推斷細胞的狀態。低維結構可以用來降低測量和分析成本,因為必須測量一小部分轉錄組來推斷細胞狀態。而作者開發的ActiveSVM作為一種可擴展策略,可用于在細胞狀態分類中提取高信息量的基因。

ActiveSVM 方法在當前實踐中有一些限制。首先,作者使用單一分類方法(支持向量機)作為計算引擎開發了 ActiveSVM,而主動學習方法可以更廣泛地應用于其他分類策略。其次,該方法目前應用監督學習任務(細胞狀態分類)來構建最小基因集,在沒有明確細胞狀態標簽的數據集中,可以從無監督的數據聚類中獲得標簽。主動采樣策略可以擴展到更廣泛的應用,包括完全無監督的分析方法和微分軌跡分析。第三,在當前的實踐中,ActiveSVM 在每一輪中只選擇單個基因。而在某些情況下,可能存在信息量很大的基因對或三元組,這些基因對或三元組只能通過明確的組合策略來發現,這些策略可以在每次迭代中搜索提高分類準確性的基因組合。

雖然 ActiveSVM 目前關注的是降低計算成本,但作者希望未來可將主動采樣策略直接應用于測量點。在基因組學中,測量資源通常會限制數據采集的規模。單細胞 mRNA-seq 測量目前受到測序和試劑成本的限制,同樣,空間基因組學方法也受到成像時間的限制。在未來的工作中,作者的目標是開發能夠通過主動采樣提高單細胞數據在線采集的策略。通過僅對符合標準的細胞進行測序或成像,可以在測量點實施主動策略。更廣泛地說,通過設計實驗擾動,實際誘導生物系統產生信息高度豐富的示例,可能會增加測量的信息量。 參考資料 Chen, X., Chen, S. & Thomson, M. Minimal gene set discovery in single-cell mRNA-seq datasets with ActiveSVM. Nat Comput Sci 2, 387–398 (2022). //doi.org/10.1038/s43588-022-00263-8
數據

代碼

付費5元查看完整內容

編譯 | 王娜

審稿 | 王海云 本文介紹由美國加州大學圣地亞哥分校生物工程系Nathan E. Lewis通訊發表在 Nature Communications 的研究成果:作者介紹了Tensor-cell2cell,這是一種基于張量分解的無監督方法,它通過同時說明細胞的多個階段、狀態或位置來破譯上下文驅動的細胞間通信。為此,Tensor-cell2cell揭示了與不同表型狀態相關并由細胞類型和配體-受體對的獨特組合決定的上下文驅動的通信模式。Tensor-cell2cell有力地改進和擴展了現有工具的分析能力。作者發現,Tensor-cell2cell可以識別與明顯通訊過程相關的多個模塊,這些通訊過程與COVID-19嚴重程度和自閉癥譜系障礙相關。因此,作者引入了一種有效且易于使用的策略來理解不同條件下的復雜通信模式。  1 簡介 當細胞在其微環境中通過細胞間的相互作用來適應和協調其功能時,就會出現有機體表型。這些相互作用是由細胞產生的信號和受體的變化介導的,導致細胞間通信(CCC)的變化。因此,CCC依賴于時間、空間和條件特定的環境,我們在這里將其稱為細胞環境。“細胞環境”是指基因型、生物狀態或條件的變化,這些變化可以形成細胞的微環境,從而形成細胞的CCC。單細胞組學分析為測量這些細胞間相互作用和介導細胞間相互作用的配體-受體對提供了必要的分辨率。雖然推斷CCC的計算方法對于發現許多生物過程(包括有機體發育和疾病發病機制)背后的細胞和分子相互作用非常寶貴,但目前的方法無法解釋環境中的高度可變性。現有方法失去了跨環境的相關性結構,因為它們涉及對每個環境分別進行重復地分析,忽略了疾病嚴重程度、時間點、受試者或細胞位置等因素中CCC的信息變化。

基于張量的方法,如張量分量分析(TCA),可以解卷積與感興趣系統的生物背景相關的模式。在恢復與相關的真值模式時,TCA優于基于矩陣的降維方法。TCA表現出優越的性能,因為它不需要跨不同環境將數據集聚合到單個矩陣中。相反,它將數據組織為張量,即矩陣的高階泛化,通過保留矩陣缺少的數學特征,可以更好地保留潛在的環境驅動的相關結構。

在這里,作者介紹了Tensor-cell2cell,這是一種基于TCA的策略,可以在多個環境中解卷積細胞間通信,并揭示CCC的模塊或潛在的環境相關模式。這些數據驅動的模式揭示了在環境、配體-受體對和細胞之間同時相互作用的情況下潛在的通信變化。作者還說明,Tensor-cell2cell具有廣泛的適用性,能夠研究與COVID-19嚴重性和自閉癥譜系障(ASD)相關的各種生物學問題。此外,Tensor-cell2cell計算速度更快,需要更少的內存,并且在分離特定于環境的信息方面可以實現更好的準確性。

2 結果 使用Tensor-cell2cell解讀環境驅動的通信模式 簡而言之,Tensor-cell2cell首先生成4D通信張量,該張量包含非負分數,以表示不同條件下的細胞通信(圖1a-c)。然后,應用非負TCA將該張量的潛在CCC結構解卷積為低維分量或因子(圖1d-e)。因此,這些因素中的每一個都可以解釋為一個通信模塊或模式,其跨環境的動態由環境維度中的負載表示(圖1e)。

為了演示Tensor-cell2cell如何恢復潛在的通信模式,作者模擬了一個由3種細胞類型組成的系統,通過12個環境中的300個LR對進行交互(在模擬中表示為時間點)(圖2a)。構建了一個4D通信張量,該張量包含一組嵌入的通信模式,這些模式分配給特定交互細胞對使用的某些LR對,并通過通信分數的振蕩、脈動、指數和線性變化來表示(圖2a-f)。作者發現四個因素導致了分解,從而最大限度地減少了誤差,與引入模式的數量一致(圖2f)。作者基于模擬的分析進一步證明,Tensor-cell2cell準確檢測通信的環境相關變化,并確定哪些LR對、發送細胞和接收細胞是重要的(圖2g)。

Tensor-cell2cell有力地擴展了細胞通信分析 為了證明同時考慮多個環境的能力,作者將Tensor-cell2cell的計算效率和準確性與CellChat進行了比較,CellChat是唯一一種能自動總結多個成對比較的工具(表1)。簡而言之,作者發現Tensor-cell2cell在分析多個樣本的CCC時速度更快,占用更少的內存,并且實現了更高的準確性。Tensor-cell2cell可以將這些輸出重構為4D通信張量(圖1),擴展其恢復環境相關通信模式的能力。這種普遍性使用戶能夠采用任何評分方法。因此,可以使用CellPhoneDB、CellChat、NATMI和SingleCellSignalR對樣本特定分析生成的通信分數以及Tensor-cell2cell的內置分數運行Tensor-cell2cell。作者采用上述每種方法分析了12份來自COVID-19不同嚴重程度(健康、中度和重度)患者的支氣管肺泡灌洗液(BALF)樣本。結果表明,Tensor-cell2cell可以獨立于初始通信評分方法(圖3a)一致地識別環境相關的通信模式,平均相似性分數為0.82。Tensor-cell2cell可以檢測到一致的CCC特征,與校正基因表達的方法無關,但原始計數除外,正如觀察到的高度相似性所示(圖3b)。

Tensor-cell2cell將細胞間通信與COVID-19的不同嚴重程度聯系起來 因此,作者在來自COVID-19患者的BALF樣本的單細胞數據集上做了測試,以了解Tensor-cell2cell可以揭示COVID-19疾病中多少細胞-細胞以及LR對關系。通過將與該數據集相關的張量分解為10個因子(圖4a),tensor-cell2cell發現了代表與COVID-19嚴重性高度相關的通信模式的因子(圖4c)和其他區分不同疾病階段特征的因子。前兩個因子捕獲的CCC,涉及BALF中上皮細胞與免疫細胞的自分泌和旁分泌相互作用(圖4a)。這些因素的樣本負荷揭示了一種通信模式,其中所涉及的LR和細胞-細胞相互作用隨著嚴重程度的增加而變得更強(斯皮爾曼相關性為0.72和0.61,圖4c)。Tensor-cell2cell強調上皮細胞是因子1中的主要發送細胞(圖4a),作者還進一步提供了涉及頂級信號(如APP、MDK、MIF和CD99)的分子機制的詳細信息(圖4b)。

圖1 細胞間通訊的張量表示和分解

圖2 Tensor-cell2cell恢復模擬通訊模式

表1 可用工具中的方法策略和基于環境的分析

圖3 不同輸入值引起的張量分解的比較

圖4 不同程度COVID-19患者細胞間通訊的去卷積

張量細胞闡明與自閉癥譜系障礙相關的通訊機制 自閉癥譜系障礙(ASD)的神經發育失調與信號通路紊亂和CCC以復雜方式相關。為了了解這些細胞和分子機制,作者分析了來自13例ASD患者和10例對照的死后前額葉大腦皮層(PFC)的單核RNA序列(snRNA序列)數據,構建了一個4D通信張量,包含所有樣本中存在的16種細胞類型,包括神經元和非神經元細胞,以及749對LR。然后,使用Tensor-cell2cell將其相關CCC解卷積為6種環境驅動模式(圖5a)。作者觀察到,每個因子與不同的生物學功能相關,包括軸突引導、細胞粘附、細胞外基質受體相互作用、ERBB信號、MAPK信號等(圖5b)。此外因素3和4顯著區分自閉癥與典型的發展對照組(圖5c)。皮質層的神經元是因子3中的主要發送細胞,而中間神經元是因子4中的關鍵接收細胞類型(圖5a),小白蛋白中間神經元(in-PV)和表達SV2C的神經元間(in-SV2C)是排名靠前的細胞,與之前報道的在ASD條件下受影響更大的細胞類型一致。下游分析結果表明,在ASD條件下,Tensor-cell2cell捕獲的CCC模式的多個失調同時發生(圖5d),即使這些模式在單獨考慮時無法解釋表型差異(圖5c)。

圖5 Tensor-cell2cell細胞在研究ASD患者細胞間通訊機制中的應用

3 總結與討論 作者介紹了Tensor-cell2cell,這是一種計算方法,用于識別細胞間通信模塊及其在不同背景下的變化(例如,不同疾病嚴重程度的受試者、多個時間點、不同組織等)。該方法可以根據LR對每個通信模塊的貢獻對其進行排序,并將這些信號連接到特定的細胞類型和表型。Tensor-cell2cell同時考慮多個環境以識別環境相關的通信模式的能力超越了現有的工具。因此,Tensor-cell2cell是一種靈活的方法,可以集成多個數據集,并以上環境感知的方式輕松識別細胞間通信模式。

Tensor-cell2cell使用許多其他評分方法穩健地檢測通信模式。因此,Tensor-cell2cell不僅是對其他工具的改進,而且大大擴展了這些工具,使現有方法能夠進行獨特的分析。與成對比較相比,Tensor-cell2cell分析多個樣本的速度更快,大大縮短了運行時間并減少了內存需求。當GPU可用時,可以進一步加速Tensor-cell2cell的運行時間。與CellChat相比,Tensor-cell2cell的分類準確率更高,使得COVID-19受試者的分類準確率高出10-20%。

生物學意義可以很容易地從Tensorcell2cell中識別出來。例如,對BALF COVID-19分解的手動解釋發現了先前在原始研究中未觀察到的通信結果,并概括了跨越數十篇同行評審文章的發現。

Tensor-cell2cell的局限性是張量中缺少通信分數的可能性(例如,當一種罕見的細胞類型僅出現在一個樣本中時)。盡管Tensor-cell2cell可以處理某些情況下缺失的細胞類型,但實現的張量分解算法可以針對缺失值進行進一步優化。除了此處分析的單細胞數據外,Tensor-cell2cell還接受大量轉錄組學數據,并且可以進一步用于分析蛋白質組學數據。 參考資料 Armingol, E., Baghdassarian, H.M., Martino, C. et al. Context-aware deconvolution of cell–cell communication with Tensor-cell2cell. Nat Commun 13, 3665 (2022). //doi.org/10.1038/s41467-022-31369-2
數據

代碼

付費5元查看完整內容
北京阿比特科技有限公司