作者 | 楊柳青 審核 | 劉洛濤 今天給大家分享的是印度德里英德拉普拉斯塔信息技術研究所和澳大利亞昆士蘭前列腺癌研究中心發表在Nature Communications上的論文《Gene expression based inference of cancer drug sensitivity》。本文介紹了一種使用基因表達數據預測癌癥治療藥物敏感性的深度神經網絡模型——Precily。作者將藥物的結構特性與基因表達的通路特異性相結合作為特征來訓練模型,該模型在體外和體內預測藥物反應都取得了較好的表現。 摘要**
**
腫瘤異質性是癌癥治療的主要絆腳石,也是癌癥患者產生不同藥物反應的主要原因。現階段使用的癌癥藥物主要針對常見的癌癥治療靶點,但并不是所有的癌癥和抗癌藥物都與常見的、研究透徹的腫瘤標志物有關,而且在不考慮耐藥性的情況下實施靶向治療可能會降低患者的生存率。所以對癌癥患者進行預先繪制分子圖譜和提前推斷藥物反應是必要的。作者介紹了一種使用基因表達數據推斷癌癥治療反應的深度神經網絡模型——Precily,展示了將通路活性與藥物描述符結合起來作為特征的優勢。作者將Precily應用于高通量數據集中與癌細胞系相關的bulk RNA-seq和scRNA-seq測序數據,并且使用作者自己的前列腺癌細胞系和暴露在不同治療條件下的異種移植數據集來評估模型對藥物反應的可預測性,證明了該方法的適用性。
****方法
**1. 輸入數據預處理
(1)分子描述符:基于從CCLE數據庫中篩選的550個細胞系在GDSC數據庫中獲得了192種化合物的藥物反應信息,基于1517名TCGA患者的用藥情況獲得了215種化合物的臨床反應信息,對這些化合物進行SMILES檢索,過濾掉沒有SMILES描述符的藥物分子,最后獲得550個CCLE細胞系對應的173個化合物的SMILES和1443個TCGA患者對應的139個化合物的SMILES。使用smiles2vec工具將這些SMILES轉換為大小為100的向量。 (2)通路活性分數:從分子特征庫(MSigDB)中選取包含1329個基因集的C2典型通路集合作為輸入的參考基因集,以log2(TPM+1)基因表達矩陣作為輸入,使用基因集變異分析(GSVA)R軟件包計算GSVA得分,得到通路得分矩陣。將通路得分矩陣與藥物特征向量嵌入相結合,最終CCLE細胞系訓練數據集包括80056個細胞系藥物組合行和1429個特征,其中1329個路徑和載體大小為100的藥物特征作為解釋變量,LN IC50作為反應變量列。對于TCGA患者數據,將單個癌癥類型的基因表達譜轉化為通路得分,根據共同通路合并每個癌癥類別中藥物反應信息可用的樣本的GSVA得分。最終矩陣包括3108個患者藥物組合和1427個特征(通路得分和藥物描述符),反應變量為患者是否對藥物有反應(有反應者=1,無反應者=0)。2. 訓練模型 作者制定了用通路得分矩陣和藥物分子描述符作為決策變量,LN IC50值作為反應變量的有監督回歸任務。作者利用Keras框架構建和訓練了深度神經網絡(DNN),DNN體系結構包括一個能輸入所有特征的輸入層,隱藏層和輸出層,每層以ReLU作為激活函數。作者將CCLE訓練數據集分為90%的訓練集(72262個細胞系-藥物對)和10%的測試集(7794個細胞系-藥物對),以便細胞系之間沒有重疊。使用五折交叉驗證進行超參調優,使用Adam優化器來優化學習率。最小化均方誤差損失。
**
結果
**1. Precily能夠在癌細胞系中預測可重復的藥物反應 作者在未利用化合物結構信息的情況下將Precily與兩種廣泛應用的、基于基因表達預測藥物敏感性的方法(CaDRReS方法和Theodore等人的方法)和傳統的機器學習方法進行比較,證明基于Precily-pathway的預測與基本事實的相關性最高,其次是CaDRReS-Sc(圖c)。但僅基于基因表達譜的預測方法是不理想的,因為它沒有利用化合物的結構信息。將藥物結構信息與pathway匯總進行預測時,Precily的藥物敏感性預測值獲得了0.88(R2=0.68,p value<2.2e-16)的Pearson 相關系數值(圖d)。除此之外,作者利用CTRPv2數據庫中的另一批小分子抗癌藥物與CCLE的細胞系組合進行預測,初步得到的皮爾遜相關系數為0.84(R2=0.70;p value<2.2e-16)(圖e)。上述分析證明,Precily對于預測癌細胞系對抗癌藥物治療的敏感性具有合理的準確性和可重復性。
更多、更詳細的實驗方法與結果請查看原文。 論文鏈接://www.nature.com/articles/s41467-022-33291-z 代碼鏈接:
編譯 | 姜晶
審稿 | 許俊林 本文介紹由美國俄亥俄州立大學醫學院Qin Ma副教授團隊和美國密蘇里大學哥倫比亞分校許東教授團隊聯合發表在Nature Communications的研究成果。本文作者提出了scDEAL,這是一個通過整合大規模bulk細胞系數據在單細胞水平上預測癌癥藥物反應的深度遷移學習框架。scDEAL的亮點在于協調藥物相關的bulk RNA-seq數據與scRNA-seq數據,并通過遷移學習把在bulk RNA-seq數據上訓練的模型用以預測scRNA-seq中的藥物反應。scDEAL的另一個特點是整合梯度特征解釋來推斷耐藥機制的特征基因。作者在六個scRNA-seq數據集上對scDEAL進行了基準測試,并通過三個專注于藥物反應標簽預測、基因特征識別和偽時間分析的案例證明了模型的可解釋性。作者相信scDEAL可以幫助研究細胞重編程、藥物選擇和再利用以提高治療效果。
1 簡介 癌癥的藥物治療因不同狀態或細胞命運之間的癌癥異質性而導致治療效率低和復發率高。這種異質性是導致單個細胞對藥物產生不同反應的原因,從而導致體內仍存在極少數量的癌性殘留物,最終導致癌癥復發。單細胞RNA測序(scRNA-seq)技術為發現癌癥亞群對特定藥物的異質基因表達提供了前所未有的機會。現有的針對bulk數據開發的藥物反應預測方法不能直接用于單細胞數據,因此,迫切需要在單細胞水平上開發推斷癌癥藥物反應的計算方法。然而,開發用于預測單細胞藥物反應的基于深度學習的工具面臨的主要障礙是由于公共領域的基準數據數量有限,訓練能力不足。幸運的是,深度遷移學習(DTL)可以將知識和關系模式從bulk數據遷移到單細胞數據中。DTL模型已作為一種有效的策略應用于多個bulk數據進行癌癥藥物反應預測;然而,到目前為止,其將bulk水平上的知識遷移到單細胞水平上的能力尚未得到充分研究。
作者通過調整域自適應神經網絡(DaNN)來開發scDEAL(單細胞藥物反應分析),根據bulk和scRNA-seq數據預測藥物反應。scDEAL在預測單細胞水平的藥物敏感性方面非常強大,因為它在藥物敏感性、單細胞的基因特征和bulk樣本的基因特征之間建立了橋梁。scDEAL突出了以下幾個方面:(i)它可以使用來自癌癥藥物敏感性基因組學(GDSC)數據庫和癌細胞系百科全書(CCLE)的大量bulk RNA-seq藥物反應信息來訓練和優化模型;(ii)為了考慮bulk數據和scRNA-seq數據之間的數據結構差異,scDEAL協調單細胞和bulk數據的嵌入,以確保藥物反應標簽可從bulk數據轉移到單細胞數據;(iii)為了避免在scRNA-seq數據中丟失異質性,scDEAL在每個訓練epoch代入細胞簇標簽;(iv)scDEAL整合梯度解釋推斷藥物反應預測的特征基因,從而提高了模型的可解釋性。作者對六個基準藥物治療的scRNA-seq數據進行綜合分析和評估,scDEAL在預測細胞類型藥物反應方面上有高準確率。作者通過追蹤和累積DTL模型中每個神經元的積分梯度,進一步識別被認為直接導致細胞中藥物敏感性或耐藥性的基因特征。最后,證明預測的藥物反應與治療程序的表達軌跡很好地吻合。總體而言,作者相信scDEAL能夠在單細胞藥物反應預測中部署DTL模型,這可能有利于藥物開發、再利用和癌癥治療選擇研究。
2 結果 scDEAL框架概述 首先,scDEAL在bulk水平上對基因表達特征和藥物反應之間的關系進行建模;然后,識別單細胞和bulk數據之間共享的低維特征空間,以協調兩種數據類型之間的關系。通過共享的低維特征空間捕獲bulk水平的基因表達-藥物反應關系。訓練DTL模型來學習上述兩種關系的優化方案。最后,單細胞-藥物反應關系可以通過DTL模型中的單細胞水平的基因表達、bulk水平的基因表達和藥物反應的元關系來建立。總體而言,scDEAL可以推斷單個細胞的藥物反應,而無需在單細胞水平上進行監督訓練(圖1a)。
scDEAL框架包括五個主要步驟:(1)提取bulk基因特征,(2)使用在步驟1中提取的特征預測每個bulk細胞系中的藥物反應,(3)提取單細胞基因特征,(4)聯合訓練和更新前面步驟中的所有模型,(5)將訓練好的模型遷移并應用到scRNA-seq數據以預測藥物反應(圖1b)。scDEAL的訓練由一個僅使用bulk數據確定bulk特征降維和藥物反應預測的初始參數的源模型,以及一個包含scRNA-seq數據并部署遷移學習策略來訓練和更新單細胞藥物反應預測的整個框架的目標模型組成。訓練了兩個去噪自動編碼器(DAE),以分別從bulk數據和scRNA-seq數據中提取低維基因特征;DTL模型以多任務學習的方式同時更新兩個DAE模型和預測器模型。該框架協調bulk表達數據和scRNA-seq數據,并將可信的基因-藥物關系從bulk水平遷移到單細胞水平。scDEAL的輸出是預測的單個細胞的潛在藥物反應。
模型訓練的關鍵挑戰之一是在協調scRNA-seq數據與bulk數據時保持單細胞異質性。為了解決這種挑戰,作者應用了兩種策略。首先,由于bulk RNA-seq和scRNA-seq數據中的噪聲特征非常不同,使用DAE模型,而不是常見的自編碼器或變分自編碼器,在特征降維之前在bulk和scRNA-seq中誘導噪聲。通過這種方式,可以避免不平衡訓練的風險,這種風險只會迫使scRNA-seq數據中的基因表達接近于bulk RNA-seq數據。其次,整合了細胞聚類結果以正則化scDEAL的整體損失函數,以便在訓練過程中保留細胞異質性。
圖1 scDEAL框架
在scDEAL中對單細胞藥物反應預測進行基準測試 作者評估了由五種藥物(即順鉑、吉非替尼、I-BET-762、多西他賽和埃羅替尼)治療的六個公共scRNA-seq數據集的藥物反應預測性能。所有數據集都提供了單個細胞的真實藥物反應注釋(即藥物敏感或耐藥)。ground truth標簽是從原始手稿中提取的二進制指示符(0表示抗性,1表示敏感)。大多數研究根據治療條件確定對整個細胞群的藥物反應,例如,二甲基亞砜(DMSO)治療的細胞都是敏感的,治療后存活的細胞都是耐藥的。與真實標簽相比,scDEAL預測使用七個指標進行評估:F1得分、AUROC、AP得分、準確率、召回率、AMI和ARI。作者展示了基于scDEAL優化超參數在六個數據集上的F1得分、AUROC和AP得分的結果(圖2a)。
如上所述,scDEAL在所有六個數據集中的單細胞藥物反應預測方面取得了相當高的性能。此外,為了闡明scDEAL框架設計的基本原理,作者替換或刪除了scDEAL中的特定組件,并將結果與最終框架的結果進行了比較。如果最終的scDEAL框架能夠勝過所有替代模型,它將得到全面驗證。
首先,通過僅在bulk數據上訓練模型,直接將其用于scRNA-seq數據預測,無需步驟3(遷移學習) ,進行比較測試。對于每個數據,實驗重復50次。所有六個數據集的結果顯示,與不使用遷移策略相比,使用轉移策略時F1得分顯著增加(圖2b)。比較表明,遷移學習有助于提高單細胞藥物反應預測的性能。
其次,為了評估遷移模型的訓練能力是否依賴于bulk資源,僅使用來自GDSC數據庫、僅CCLE數據庫以及GDSC和CCLE數據庫的組合的bulk數據對scDEAL進行基準測試。結果表明,結合來自GDSC和CCLE數據庫的bulk數據可以顯著提高預測能力(圖2c)。
第三,驗證使用DAE和細胞類型正則化是否有助于減少單細胞異質性的損失并提高預測性能。比較使用常見的自編碼器在bulk和scRNA-seq數據中提取特征的框架、使用DAE但未按細胞類型正則化的框架和最終的scDEAL框架(包括DAE和細胞類型正則化)的結果。對于所有六個數據集,在框架中使用DAE和細胞類型正則化獲得了比其他兩個選項更好的性能(圖2d)。為了進一步闡明添加細胞類型正則化如何更好地保持scRNA-seq數據的異質性,作者使用來自具有和不具有細胞類型正則項的scDEAL的潛在表示展示了具有細胞簇和藥物反應注釋的細胞(圖2e)。UMAP結果表明,在應用細胞類型正則項后,細胞在簇內變得更加有序和緊湊。
最后,作者展示了一個網格參數調整結果,包括6個超參數的480種組合。總體而言,結果顯示單個參數選擇對scDEAL性能沒有顯著影響。對于任何新數據集,作者建議調整bulk采樣方法和瓶頸維度,因為在實現最佳預測性能時,這兩個參數在六個數據集之間存在很大差異。為了評估scDEAL的魯棒性,作者對六個數據集進行了隨機分層抽樣測試(n?=?20) (圖2f)。根據F1得分、AUROC、AP得分、精準率、召回率、AMI和ARI的變化,表明scDEAL在多次隨機抽樣中是魯棒的。
圖2 scDEAL的基準測試結果
scDEAL在多種I-BET治療條件下對白血病細胞的的藥物反應預測結果良好 作者展示了scDEAL對數據6的分析能力,包括用BET抑制劑(I-BET)處理的1419個混合譜系白血病-AF9(MA9)白血病細胞(圖3a)。接下來,引入一個基因評分來反映敏感(或抗性)細胞簇中鑒定的差異表達基因的整體基因表達水平。分數背后的假設是準確的預測會給細胞分配正確的反應標簽。因此,用于準確預測的抗性和敏感狀態之間的DEGs基因評分應與源自ground truth的DEGs相關。此外,作者的DEG顯示的基因評分模式可以比使用真實標簽識別的DEG更好地區分抗性和敏感細胞(圖3b)。對于敏感的DEG列表,預測的DEG分數與地面真實DEG分數之間的相關性高達R2?=?0.90,對于抗性DEG列表,R2?=?0.77(圖3c)。作者進行了經驗零模型檢驗來評估相關性的顯著性。隨機選擇與作者預測的DEG相同數量的基因,并如上所述計算相關性1000次。經驗檢驗(n?=?1000)結果顯示,對敏感和抗性DEG評分相關性的p值低于0.001,表明作者的相關性顯著且具有統計學意義(圖3d)。
圖3 I-BET治療的數據6的案例研究
scDEAL可以識別負責藥物反應的關鍵基因 盡管scDEAL對單細胞藥物反應提供了準確的預測,但對模型中活躍的遺傳特征的理解是必不可少的。作者在數據1中對順鉑治療的口腔鱗狀細胞癌(OSCC)進行了scDEAL分析。順鉑通過與DNA上的嘌呤堿基相互作用產生DNA交聯來發揮其抗癌活性,干擾DNA復制并導致額外的有害DNA雙鏈斷裂,如果不修復,會導致癌細胞凋亡。因此,任何可以增強DNA修復或/和抑制細胞凋亡的因素都能夠使癌細胞對順鉑治療產生抗性。使用scDEAL,85%的細胞被正確預測為對順鉑敏感或耐藥 (圖4a)。調整后的p值<0.05、log-fold變化<0.1且在任何一個比較組中細胞百分比高于0.2的基因被定義為影響藥物反應的關鍵基因(CG)。在HN120P(敏感細胞組)中識別出936個藥物敏感CGs,在HN120PCR(順鉑治療四個月后的耐藥細胞組)中識別出868個耐藥CGs,IG評分差異顯著(圖4b)。作者觀察到幾種預測最高的抗性CG,例如BCL2A1和DKK1,具有抗凋亡活性(圖4c)。已證明這些基因的過表達介導對順鉑的抗性。
圖4 具有順鉑藥物反應的數據1的scDEAL案例研究
scDEAL藥物反應預測與偽時間分析高度相關 應用Monocle3對數據6(用I-BET治療)進行軌跡推斷,以驗證作者預測的藥物反應是否與藥物治療的進展相關。基于基因表達的偽時間分析顯示了從DMSO樣品開始向1000ml I-BET治療樣品的軌跡趨勢(圖5a)。當將偽時間結果與相同擴散UMAP上的藥物反應進行比較時,觀察到DMSO對照對治療樣品的抗性增加(圖5b)。這些結果表明,在高劑量藥物后測序的剩余活細胞表現出顯著的藥物耐受性,這也與實驗藥物反應標簽(ground-truth標簽)非常吻合。除了預測和軌跡拓撲之間的一致性外,作者還進一步解釋了scDEAL中識別的CG的抗性發展趨勢。作者展示了兩個代表性的I-BET抗性CG的表達值,即Eid2和Galnt17(圖5c),以及兩個代表性的I-BET敏感基因,即Emilin1和Ramp1(圖5d)。觀察到這些基因的表達水平與偽時間分析的軌跡和預測的藥物反應概率評分相匹配。
關于預測的CG和DEG的比較以及軌跡的進一步研究表明,預測的CG列表在區分敏感和耐藥細胞狀態方面具有更明顯的表達(圖5e)。Pearson評分與pseudotime值之間的相關性高達0.81(正相關)和-0.93(負相關),這表明scDEAL的預測可能暗示藥物反應發展。敏感和耐藥細胞組中的前十名CG顯示出不同的表達模式,并且與偽時間分數高度相關(圖5f)。總之,作者證實了scDEAL中預測的藥物反應結果和CG與I-BET處理的細胞偽時間軌跡有很強的相關性。
圖5 用偽時間軌跡驗證預測的藥物反應
3 總結與討論 scDEAL使用bulk基因表達數據增強了scRNA-seq數據分析和解釋,可用于預測癌癥scRNA-seq數據和其他疾病中細胞群的藥物反應。適應scRNA-seq數據的神經網絡可以在bulk細胞系數據上進行初步訓練。因此,可以從scRNA-seq數據預測藥物敏感性。需要注意的是,scDEAL僅根據訓練好的模型和scRNA-seq基因表達矩陣預測單細胞藥物反應,不需要標簽。
未來工作展望: * 通過整合額外的bulk數據庫來更新scDEAL訓練數據,提高scDEAL中預測結果的準確性。 * 增加實驗驗證的藥物反應scRNA-seq數據,有助于確定更好的模型超參數,甚至有助于開發直接的單細胞到單細胞深度遷移學習模型。 * 跨不同物種的單細胞藥物反應預測,如人類到小鼠。
scDEAL在單細胞水平上改進藥物開發方面具有相當大的潛力。首先,它可用于預測藥物反應并將基因特征與治療效果聯系起來。其次,CG可用于CRISPR篩選或細胞重編程的潛在目標簽名。第三,它可以應用于現有的未經藥物治療的scRNA-seq數據,以預測多個細胞簇中的潛在藥物反應,可以選擇用于動物藥物測試。從長遠來看,作者相信該工作可以為細胞重編程、藥物選擇和再利用以及聯合用藥以提高治療效果做出貢獻并提供見解。
參考資料 Chen, J., Wang, X., Ma, A. et al. Deep transfer learning of cancer drug responses by integrating bulk and single-cell RNA-seq data. Nat Commun 13, 6494 (2022). //doi.org/10.1038/s41467-022-34277-7
數據
代碼
編譯 | 王海云
審稿 | 王娜 本文介紹由清華大學生命科學學院生物信息學教育部重點實驗室、北京結構生物學高級創新中心和生物結構前沿研究中心、合成與系統生物學研究中心的Qiangfeng Cliff Zhang通訊發表在 Nature Communications 的研究成果:作者提出了SCALEX,一種深度學習方法,通過將細胞投射到一個批次不變的、共同的細胞嵌入空間,以真正的在線方式(即不需要重新訓練模型)整合單細胞數據。SCALEX在不同模式的基準單細胞數據集(scRNA-seq,scATAC-seq)上的表現大大優于在線iNMF和其他最先進的非在線整合方法,特別是對于有部分重疊的數據集,在保留真正的生物差異的同時準確地對齊類似細胞群。作者通過構建人類、小鼠和COVID-19患者的可持續擴展的單細胞圖譜來展示SCALEX的優勢,每個圖譜都由不同的數據源組裝而成,并隨著每個新數據的出現而不斷增長。在線數據整合能力和卓越的性能使SCALEX特別適合于大規模的單細胞應用。
簡介
單細胞實驗可以將樣本分解為不同的細胞類型和細胞狀態。許多計算工具已經被開發出來用于單細胞數據集的綜合分析,所有這些工具都是為了從非生物噪音中分離出生物變異,如不同供體、條件和/或分析平臺的批次效應。
目前大多數的單細胞數據整合方法都是基于跨批次的細胞對應關系的搜索,例如類似的單個細胞或細胞群。這些方法有三個限制。首先,它們容易混合只存在于某些批次的細胞群,這對于整合每批中包含不重疊的細胞群的復雜數據集(即部分重疊的數據)是一個嚴重的問題。其次,它們需要的計算資源隨著細胞數量和批次的增加而急劇增加,使得這些方法越來越不適合今天的大規模單細胞數據集。最后,這些方法只能消除當前正在評估的數據集的批次效應。每次增加一個新的數據集,都需要一個全新的整合過程,改變以前研究的現有整合結果。在線數據整合能力在當今的單細胞實驗中變得越來越關鍵。
在這里,作者開發了SCALEX,作為一種基于VAE框架的異質單細胞數據的在線整合方法。SCALEX的編碼器被設計成一個數據投影函數,在投影單細胞時只保留批量不變的生物數據成分。重要的是,該投影函數是一個通用的函數,不需要對新數據進行再訓練,因此允許SCALEX以在線方式整合單細胞數據。
結果
SCALEX實現了一個通用的編碼器,能夠在線整合單細胞數據 為了實現在線整合,SCALEX的基本設計理念是實現一個廣義的投影函數,將單細胞數據的批處理相關成分從批處理不變量成分中分離出來,并將批處理不變量成分投影到一個共同的細胞嵌入空間。在這里,為了獲得一個無需重新訓練的用于數據投影的通用編碼器,SCALEX包括三個具體的設計元素(圖1a)。首先,SCALEX實現了一個沒有批處理的編碼器,它只從輸入的單細胞數據(x)中提取與生物相關的潛在特征(z),以及一個特定批處理的解碼器,它通過在數據重構期間將批處理信息納入其中,從z中重構原始數據。只向解碼器提供批次信息,使編碼器只關注學習批次不變的生物成分,這對編碼器的泛化能力至關重要。第二,SCALEX在其解碼器中包括一個使用多分支批次歸一化的DSBN層,以支持在單細胞數據重建過程中納入批次特定變化。第三,SCALEX編碼器采用了一個迷你批次策略,從所有批次(而不是單一批次)中取樣,這更嚴格地遵循了輸入數據的整體分布。請注意,每個迷你批次都要經過編碼器中的批次歸一化層,以調整每個迷你批次的偏差,并使其與整體輸入分布相一致。
SCALEX比最先進的單細胞數據整合方法要準確得多 作者按照最近一項比較研究中提出的評價框架,廣泛評估了SCALEX的基本數據整合性能。作者在多個數據集上與多種方法做了比較,包括在線iNMF和一些最先進的非在線單細胞數據整合方法,包括Seurat v3、Harmony、MNN、Conos、BBKNN、Scanorama、LIGER(即批量iNMF)和scVI。作者根據基準數據集,通過統一模態逼近和投影(UMAP)嵌入可視化以及一系列評分指標,評估了這些工具的整合性能。
MNN、scVI和Conos整合了許多數據集,但仍有一些常見的細胞類型沒有得到很好的排列。在線的iNMF、LIGER、BBKNN和Scanorama經常有未合并的共同細胞類型,有時還錯誤地將不同的細胞類型混在一起。例如,考慮到PMBC數據集中兩批之間的T細胞群(圖1b),雖然SCALEX、Seurat v3、Harmony、MNN、scVI整合是有效的,但在線iNMF將一些CD4初始T細胞與CD8初始T細胞錯位,并將一些NK細胞與CD8 T細胞錯位。根據調整蘭德指數(ARI)和歸一化互信息(NMI)的評估,SCALEX在細胞類型聚類方面的表現大大優于其他所有方法(圖1c)。
SCALEX可擴展到Atlas級別的數據集,并可容納 不同的數據模式 在最近的一項比較研究中,包含大量細胞并由來自多個組織的異質和復雜樣本組成的單細胞數據集被稱為 " Atlas-level "數據集。這些數據集對數據整合工具提出了新的挑戰。作者將SCALEX應用于一個典型的Atlas數據集,即人類胎兒Atlas數據集,其中包含來自GSE156793和GSE134355兩個數據批次的4,317,246個細胞,以此來測試SCALEX的可擴展性和計算效率。SCALEX準確地整合了這兩批數據,顯示了相同細胞類型的良好排列(圖1d)。SCALEX可用于整合其他模式的單細胞數據(如scATAC-seq、通過測序對轉錄組和表位進行細胞索引、CITE-Seq等)和跨模式的數據(如同時分析scRNA-seq和scATAC-seq)。SCALEX在整合小鼠大腦scATAC-seq數據集方面大大優于所有其他方法(圖1f),并在整合其他單細胞數據模式包括CITEseq和空間轉錄組MERFISH數據方面表現良好。作者還用SCALEX整合了一個跨模式的數據集(scRNA-seq和scATAC-seq),發現SCALEX正確地整合了兩種模式的數據,并區分了scRNA-seq數據中特有的稀有細胞,包括pDC和血小板細胞(圖1g),根據UMAP嵌入和多種分析指標,SCALEX的表現比其他方法更好,包括scjoint和bindSC。
圖1 用于單細胞數據整合的SCALEX的設計和性能。
SCALEX在沒有過度修正的條件下整合了部分重疊的數據集 許多最近的單細胞數據集,特別是Atlas級數據集,具有高度的樣本異質性和復雜的細胞類型組成。這些數據集往往包含部分重疊的批次,其中每批包含一些不重疊的細胞群。這種部分重疊問題給單細胞數據整合帶來了重大挑戰,往往會導致過度校正的問題(即不同細胞類型的混合),特別是對于那些基于局部細胞相似性的方法。例如,Seurat v3混合了肝細胞CXCL1、肝細胞-CYP2A13和肝細胞TAT-AS1細胞,Harmony混合了肝細胞-CYP2A13和肝細胞-TAT-AS1細胞(圖2a)。作為一種將細胞投射到一個共同的細胞嵌入空間的全局整合方法,預計SCALEX對這個問題不那么敏感。事實上, SCALEX正確地保持了五個肝細胞亞型的分離(和scVI一樣,圖2a)。出乎意料的是,盡管是一個全局性的方法,在線iNMF嚴重遭受了過度修正,混合了所有五個肝細胞亞型,甚至混合了B細胞和NK細胞(圖2a),可能是因為其矩陣因子算法強迫不同細胞類型的對齊。
作者定義了一個過度修正分數,這是一個衡量這種過度修正問題的指標,基于每個細胞的鄰域中細胞類型不一致的百分比。從形式上看,過度校正得分是一個負指數,即過度校正得分越高,細胞類型的不準確混合程度越嚴重。對于基準數據集,SCALEX的過度校正分數最低(圖2b),而在線iNMF產生了極高的過度校正分數。為了系統地描述不同方法在部分重疊的數據集上的性能,作者構建了具有一系列常見細胞類型的測試數據集,這些數據集是根據胰腺數據集中六種主要細胞類型的下采樣產生的。SCALEX整合在所有情況下都是準確的,對準相同的細胞類型而沒有過度校正,而Seurat v3、Harmony和在線的 iNMF經常混合不同的細胞類型(圖2c,d)。
SCALEX通過在線投影添加新的數據,增加了現有細胞空間的范圍和分辨率 SCALEX的編碼器具有通用性,可以將不同來源的細胞投射到一個共同的細胞嵌入空間,而不需要重新訓練模型,這使得SCALEX能夠以在線方式將新的單細胞數據與現有的數據進行整合。作者對SCALEX基于胰腺數據集的新到數據的在線數據整合性能進行了測試。在投影之前,作者首先使用SCALEX來整合胰腺數據集,這準確地消除了原始數據中明顯的批次效應(圖3a)。隨后,作者使用在原始胰腺數據集上訓練的同一個SCALEX編碼器將三批新的胰腺組織scRNA-seq數據(圖3b)投影到這個 "胰腺細胞空間"。投影后,新批次中的大多數細胞都準確地對準了胰腺細胞空間中的正確細胞類型,從而能夠通過細胞類型標簽轉移對其進行準確注釋(圖3c)。作者通過計算ARI、NMI和F1分數來評估投影的準確性,以便通過標簽轉移與原始研究中的細胞類型信息進行細胞類型注釋。作者將結果與在線iNMF和scVI進行了比較,這兩個工具能夠將細胞投影到現有的細胞空間中(注意scVI的數據投影需要通過scArches進行模型再訓練)。在與在線iNMF和scVI的比較中,SCALEX取得了最高的投影精度(圖3c)。scVI也取得了較高的精度,將大多數細胞投影到正確的位置,只有少數α和導管細胞例外。在線iNMF在納入新的批次時混合了不同的細胞類型,例如將一些α細胞投射到γ和δ細胞的位置上,這反過來又導致了在標簽轉移時的錯誤注釋(圖3c)。
將新的單細胞數據投射到現有的細胞嵌入空間的能力,使SCALEX能夠隨時用額外的信息細節來豐富(即增加生物分辨率)這個細胞空間。為了驗證這一點,作者將另外兩批黑色素瘤數據(SKCM_GSE72056,SKCM_GSE123139)投射到先前構建的PBMC空間。同樣,SCALEX正確地將所有常見的細胞類型投射到PBMC細胞空間的相同位置(圖3d),但在線iNMF將腫瘤細胞與血漿、單核細胞和CD8 T細胞混合,scVI則將CD8T細胞分成幾個不同的組。重要的是,對于只存在于黑色素瘤數據批次中的腫瘤細胞和漿細胞,SCALEX沒有將這些細胞投射到PBMC空間中的任何現有細胞群上;相反,它將它們投射到靠近類似細胞的新位置,漿細胞投射到靠近B細胞的位置,而腫瘤細胞投射到靠近造血干細胞的位置(圖3e)。這表明SCALEX可以通過數據投影,用新的細胞類型充實現有的細胞空間 通過數據投射來豐富現有的細胞空間。
SCALEX投影還可以利用新數據對現有細胞空間中的未知細胞類型進行事后注釋。例如,作者注意到在胰腺數據集中有一組以前未被描述的細胞(圖3a)。作者發現這些細胞顯示了已知上皮基因標記物的高表達水平。因此,作者從支氣管上皮細胞數據集中收集了一些上皮細胞,然后將這些上皮細胞投射到胰腺細胞空間。作者發現,一組抗原呈遞的氣道上皮細胞(SLC16A7+上皮細胞)被投射到未定性細胞的同一位置(圖3f)。這些數據,再加上觀察到這兩個細胞群顯示出類似的標記基因表達(圖3g),表明這些未定性細胞也是SLC16A7 +上皮細胞。
SCALEX整合構建可擴展的單細胞圖譜 將異質數據結合到一個共同的細胞嵌入空間的能力使SCALEX成為一個強大的工具,從不同的數據集集合中構建一個單細胞圖集。盡管原始數據有很強的批次效應,SCALEX還是準確地將三批小鼠圖譜的數據整合到一個共同的細胞嵌入空間中(圖4a-c)。常見的細胞類型在細胞空間的同一位置排列整齊,包括所有組織中的B、T和內皮細胞,以及特定組織中的近端腎小管、尿路細胞和肝細胞。不同的細胞類型被單獨定位,如Microwell-seq數據中的精子、Leydig和小腸細胞,Smart-seq2數據中的角質細胞干細胞和大腸細胞,表明生物變化被很好地保存下來。作者將SCALEX與其他所有方法進行了比較,發現SCALEX在細胞類型聚類方面表現最好,尤其是避免了過度校正(圖4d,e)。重要的是,用SCALEX生成的圖譜可以通過投影新的單細胞數據來進一步擴展,以支持原始圖譜和新數據中的細胞的比較研究。為了說明這一效用,作者將來自Tabula Muris Senis(Smart-seq2和10X)的兩批額外的老年小鼠組織數據和兩個單組織數據集(肺和腎)投射到SCALEX小鼠圖譜的細胞空間。作者發現,新的數據批中的細胞被正確地投射到初始圖集的細胞包埋空間中相同的細胞類型的位置上(圖4f),這一點被標簽轉移對新數據的準確細胞類型注釋所證實(圖4g)。
一個綜合的SCALEX COVID-19 PBMC圖譜揭示了COVID-19患者之間不同的免疫反應 許多單細胞研究已經被用于分析COVID-19患者的免疫反應。然而,這些研究往往存在樣本量小和/或對各種疾病狀態采樣有限的問題。為了進行全面的研究,作者使用SCALEX生成了一個COVID-19 PBMC圖譜,整合了9項COVID-19研究的數據,涉及10批共860,746個單細胞(圖5a)。作者確定了22種細胞類型,每種類型都有基因表達數據支持的典型標志物(圖5b,c)。有趣的是,作者發現一些細胞亞群與病人狀態有不同的關聯(圖5d)。CD14單核細胞亞群(CD14-ISG15-Mono)的特點是高表達I型干擾素刺激的基因(ISG)和富含免疫反應相關基因本體論(GO)術語的基因(圖5e,f)。從輕度、中度到重度患者,CD14-ISG15 Mono細胞的頻率明顯增加(圖5g)。在COVID-19患者中,作者觀察到在輕度、中度和重度病例之間,CD14-ISG15-Mono細胞的ISG基因表達明顯下降,表明在重度COVID-19患者中存在類似免疫衰竭的反應(圖5e)。
SCALEX COVID-19 PBMC Atlas與SC4聯盟研究的在線整合 作者基于SCALEX COVID-19 PBMC圖譜的分析結果與中國COVID-19單細胞聯盟(SC4)研究的兩個結論一致,該研究最近進行了大規模的努力,從171名COVID-19患者和25名健康對照者中產生了一個超過100萬個細胞的單細胞圖譜。首先,這兩項研究觀察到相同的免疫細胞亞群,顯示出與COVID-19嚴重程度的不同關聯。CD14單核細胞、巨核細胞、漿細胞和原T細胞的比例隨著疾病嚴重程度的增加而升高,而pDC和mDC細胞的比例下降(圖5g)。其次,根據在SCALEX COVID-19 PBMC Atlas中的細胞計算相同的細胞因子評分和炎癥評分(在SC4研究中定義),作者證實單核細胞亞群與SARS-Cov2感染引發的細胞因子風暴有關,并且在嚴重患者中進一步升高(圖5j)。
SCALEX的在線整合能力使作者能夠將SC4聯盟的數據集投射到SCALEX COVID-19 PBMC圖譜的細胞空間。作者發現,兩個圖集的細胞類型排列得很好(圖5h,i)。SC4數據的整合進一步大幅提高了SCALEX COVID-19 PBMC圖譜的范圍和分辨率。首先,該數據將巨噬細胞和上皮細胞加入到細胞空間中,使調查它們在COVID-19中的潛在參與成為可能。這種整合還支持對特定的細胞亞群進行更精確的表征。例如,巨核細胞群在SCALEX COVID-19 PBMC圖譜或SC4圖譜中都沒有區分,在SC4投影后,在聯合圖譜中被分為兩個亞群(圖5h)。對這兩個新劃分的巨核細胞亞群(TUBA8-Mega和IGKC-Mega)中差異表達的基因進行探索性功能分析,發現IGKC-Mega細胞的GO術語 "體液免疫反應 "富集,但TUBA8-Mega細胞的 "血小板激活的負性調節 "富集(圖5k)。這些結果說明了使用SCALEX生成的可持續擴展的單細胞圖譜如何利用現有的大規模數據資源,并促進新的生物和生物醫學見解的發現。
3 總結與討論 單細胞研究正變得越來越普遍,規模越來越大,樣本類型的范圍也在不斷擴大,往往有相當多的異質細胞子集。因此,非常需要數據整合工具來準確和有效地處理這些Atlas級的數據集。此外,還需要有在線整合能力,以不斷地將傳入的新數據與現有的整合相結合,而不必從頭開始重新計算。SCALEX學習了一個廣義的投影函數,將異質的單細胞數據投影到一個共同的細胞嵌入空間,使其能夠實現真正的在線數據整合。SCALEX在計算上也是高效的,并且在整合部分重疊的數據集時保留了生物變化,避免了過度校正。這些特點使SCALEX對Atlas級別的數據集特別有用,允許整合許多單細胞研究,以支持整個生命科學和生物醫學領域正在進行的、非常大規模的研究項目。作者推測,使用SCALEX來預測來自高度多樣化的癌癥類型的單細胞數據集,以構建一個泛癌癥單細胞圖譜,可能會導致發現以前未知的細胞類型,這些細胞類型在不同的癌癥中是共同的,并在發病機制、惡性腫瘤進展和/或轉移中發揮作用。
參考資料 Xiong, L., Tian, K., Li, Y. et al. Online single-cell data integration through projecting heterogeneous datasets into a common cell-embedding space. Nature Communications 13, 6118 (2022). //doi.org/10.1038/s41467-022-33758-z
代碼
圖2 不同方法對部分重疊的數據集的整合性能比較。
圖3 將異質數據投射到一個共同的細胞嵌入空間中。
圖4 構建一個可擴展的小鼠單細胞圖譜。
圖5 在線整合COVID-19 PBMC圖譜。
編譯|程昭龍
審稿|林榮鑫,王靜 本文介紹由美國斯坦福大學醫學院干細胞生物學與再生醫學研究所的Sean M. Wu通訊發表在 Nature Communications 的研究成果:在單細胞RNA測序分析中,由于細胞表現出復雜的多層身份或過渡狀態,導致對數據集的精確注釋成為主要挑戰。因此,作者提出了一個高度精確的機器學習工具devCellPy,它能自動預測跨復雜注釋層次結構的細胞類型。為了證明devCellPy的強大功能,作者從已發布細胞的數據集中構建了小鼠心臟發育圖譜,并訓練devCellPy生成心臟預測算法。該算法可以在多層注釋和小鼠發育數據中達到高預測精度。最終研究表明,devCellPy是一個可跨復雜細胞層次結構、物種和實驗系統進行自動細胞預測的工具。
1 簡介 在過去的十年中,單細胞RNA測序(scRNA-seq)技術為調控胚胎發育、細胞特性和疾病狀態的轉錄環境提供了前所未有的見解。但隨著實驗中獲得的細胞數量持續增長,生物信息學家通常需通過無監督聚類和手動細胞類型分配的費力過程來識別數千個細胞。此外,人工細胞類型指定可能導致研究組間細胞注釋的高可變性,以及實驗間細胞識別的低再現性。
為了應對這些挑戰,研究人員利用參考數據集將注釋映射到新收集的數據上,開發了用于識別細胞類型的信息學工具。雖然這些工具提供了強大的注釋算法,但依然缺乏全自動化的過程對跨復雜注釋層次的細胞進行分類,其中這些細胞表現出多個身份子類或時間限制的細胞類型。例如,在從發育中的胚胎收集的scRNA-seq數據中,細胞表現出動態和短暫的細胞狀態以及更精細的細胞特征。在訓練預測模型時,使用不考慮時間變量的算法自動分配細胞標識時,某些細胞標識可能只在已定義的發展時間點出現,這就造成了額外的挑戰。此外,如果沒有對數據進行大量的子聚類和重新計算新的降維特征空間,這些更精細的特征通常是無法檢測到的。自動細胞預測算法通常要求用戶構建單獨的參考模型,以實現對高粒度細胞亞型的注釋。這一挑戰在發育數據集中尤為突出,其中細胞類型存在于發育的有限時期內,因此,使生成統一預測模型復雜化。
為了解決這些挑戰,作者提出了基于Python的發育細胞預測(devCellPy)工具,用于從任何組織或物種獲得的高度復雜的注釋層次結構中自動預測細胞身份。devCellPy預測模型的基礎是極端梯度提升(XGBoost),這是一種有監督的機器學習方法,通過使用一系列梯度增強的決策樹集成來學習創建精確預測所需的輸入特征集。DevCellPy通過學習特定參考數據集的注釋層次結構和創建預測模型以全自動化的方式跨所有注釋層對細胞進行分類,其在細胞標識的自動化分配方面取得了重大進展。重要的是,該算法允許將時間點變量合并到注釋層次結構中,因此,可以對限定時間段內出現的細胞標識進行分類。
為了證明devCellPy在多層細胞預測方面的能力,作者從多個公開的scRNA-seq數據集中構建了一個單一的大規模心臟發育細胞圖譜。因為在心臟發育過程中存在非常復雜的不同細胞類型注釋,并且心臟內的細胞類型表現出隨時間變化的基因表達模式,所以作者在心臟發育數據集上測試了devCellPy的預測能力。實驗結果表明,該算法在多個層面(包括時間受限的細胞群)都具有高度準確性的預測能力,這進一步證明了devCellPy算法在跨物種預測心肌細胞類型方面的廣泛適用性。
2 結果 devCellPy 能夠生成用于細胞類型和亞型分類的多層預測算法
為了解決以分層方式自動分類細胞類型和亞型的挑戰,作者構建了一種基于Python的軟件包devCellPy,它可用于生成包含時間元素的細胞身份預測算法。devCellPy由訓練和預測步驟組成。在訓練期間,一個包含多層注釋的參考數據集被用于訓練算法(圖1a)。用戶為devCellPy提供一個注釋層次結構,其指定了數據集中的多個層和細胞類別,包括用于構造細胞類型和時間相關的注釋層次結構的時間點變量。此外,用戶為參考數據中的所有細胞提供一個對數規范化表達式矩陣,以及包含跨層次結構所有層的單細胞注釋的元數據表(圖1b)。作者在devCellPy中引入LayerObject類來創建一個有組織的數據結構,其中算法學習數據集的注釋層次結構,并包含層次結構中每個層的位置信息(圖1c)。該系統允許跨層次結構的正確分支自動分類細胞亞型,并為層次結構的每一層訓練一個XGBoost預測模型,并將其存儲在該層各自的LayerObject中。
除了LayerObjects,作者還在devCellPy中實現了最近開發的Shapley Additive explained (SHAP)算法。SHAP有助于devCellPy輸出在進行細胞類型分類的訓練過程中自動識別的基因標記,從而突出顯示用于對感興趣數據集中的細胞類型進行分類的主要陽性和陰性基因標記(圖1c)。在使用參考數據集訓練devCellPy之后,用戶可以使用devCellPy生成的預測算法,通過導出一個直接加載到算法中的對數歸一化計數矩陣來對查詢數據集進行分類(圖1d)。devCellPy將自動讀取矩陣文件,并使用存儲在LayerObjects中的預測模型來輸出查詢細胞的多層細胞類型和子類型預測。除了提供輸出注釋之外,devCellPy還將為每個分類的細胞輸出概率度量,以向用戶提供有關算法在進行細胞預測時的可信度信息。總體而言,該算法的結構允許用戶從任何模型生物的任何組織獲得的任何參考scRNA-seq數據集來創建訓練模型,并可以輕松導出這些模型,以對類似細胞類型和亞型的新數據集進行預測。
圖1 devCellPy結構圖
大規模心臟發育圖譜的構建
為了測試devCellPy在生成用于進行多層細胞注釋的高精度預測算法方面的性能,作者首先從四個公開的數據集中集成了一個中胚層來源的心臟發育細胞類型的大規模scRNA-seq圖譜,經過整合的數據集可觀察到從早期原腸胚形成到主要心臟細胞類型的清晰發育軌跡(圖2a)。
通過關注中胚層衍生的細胞類型,作者觀察到從多能外胚層細胞開始的分化樹,通過原始條紋過渡到早期新生的中胚層祖細胞,并進展為心臟祖細胞(圖2b)。盡管這些數據集來自四個不同的來源,但經過成功地整合所有數據集,可以觀察到12種主要細胞類型在整個發育時期的聚類(圖2b, c)。UMAP圖顯示了發育一致的結構,心臟祖細胞組成樹干,隨后分裂成不同的細胞類型。作者還通過對所有主要標注的細胞類型進行差異基因表達分析,進一步驗證了構建圖譜中分配的注釋,并證實了已報道的12個主要細胞群的主要細胞標記的獨特表達(圖2d,e)。
圖2 中胚層來源心臟發育細胞圖譜的構建
devcellPy生成的算法可以精確預測注釋層復雜層次結構中的細胞類型
在建立了包含多層注釋的大型心臟發育圖譜后,作者繼續測試了devCellPy在該數據集上生成高度精確的細胞識別預測算法的能力。通過對心肌細胞圖譜進行多層分析,其中頂層代表廣義細胞注釋,其次是心肌細胞亞型,以及在發育過程中按時間點劃分的心室心肌細胞亞型(圖3a)。為了測試算法的分類性能,作者將數據隨機劃分為90%和10%的分區,分別用于交叉驗證和保留數據集測試(圖3b)。實驗結果顯示,對于第一層注釋,該模型在 10 輪獨立訓練中顯示出高整體準確度(圖 3c)。同時,devCellPy 對10% 保留數據進行了分類(這些分類在訓練后的模型中未發現),這證實了devCellPy高度準確的預測(圖 3d)。
對心室心肌細胞亞群的心肌細胞預測算法性能的進一步分析表明(圖 3c),實驗觀察到的性能指標在第一層注釋上得分最高,而在注釋層次結構較低級別中發現的密切相關的細胞類型中略有下降。為了進一步評估devCellPy的性能精度,作者還將該算法的性能與先前發布的單細胞預測算法(CaSTLE、SeuratV3、scmap、SingleCellNet)進行了比較,結果表明,devCellPy在所有評估的細胞類型中顯示了最高的整體精度。
圖3 devCellPy在各層之間的性能評估
devCellPy識別生物相關的細胞標記
為驗證devCellPy生成的心臟預測算法是否可以識別與發育相關的基因,以便跨細胞層進行預測。作者通過使用devCellPy中的SHAP算法,確定了測試的每一層注釋中細胞類型的主要陽性和陰性預測基因。對于第一層,算法自動識別出先前驗證過的細胞類型預測因子。在實驗中,一般的細胞類型預測因子可以揭示已知細胞類型的主要陽性預測因子,而除了識別一般細胞類型的典型標記外,SHAP還可以識別其他細胞類型的標記。
除了在第一層中識別一般細胞類型的主要標記外,作者還確定了用于在多個分化時間點識別心肌細胞和心室心肌細胞亞型的主要基因。并且,devCellPy還跨時間點識別了多個先前發表的心肌細胞亞型標記,同時也以特定的時間點方式識別了獨特的標記。
devcellPy生成的算法從de novo數據集中準確預測細胞類型
為了進一步評估devCellPy的性能,驗證devCellPy生成的預測算法是否能夠成功預測以前數據集中沒有遇到過的細胞類型。作者分析了來自三個新來源的scRNA-seq數據,并從E10.5小鼠心臟中生成了新的數據,并測試了devCellPy對心臟圖譜中存在的所有細胞類型進行全自動預測的能力。同時,作者進一步評估了其他細胞預測算法對心臟圖譜中所有細胞類型進行完整分類的能力(圖4a、b)。作者將機器學習分類與查詢數據集的無監督聚類注釋期間分配的手動注釋進行了比較(圖4b),手動注釋和devCellPy預測的比較顯示,兩種注釋方法在17個細胞類別中的11個中具有高度的一致性,準確率達80%(圖4c)。
與之前發表的其他機器學習方法相比,devCellPy在心臟圖譜中所有細胞類型的分類方面優于SingleCellNet、Seurat和scPred。所有其他方法對外胚層、原始條紋和新生中胚層的人工方法顯示出高度的一致性,但在其他細胞類型中觀察到的預測準確性較低。并且,在密切相關的細胞類型中,如心臟祖細胞、心外膜和間充質細胞以及心肌細胞亞型,其他方法在人工方法和機器學習預測之間顯示出低一致性(圖4c)。總體而言,實驗結果證明了devCellPy生成的預測算法可以準確預測de novo數據集中的細胞類型,并在對高粒度細胞類型進行預測時優于其他方法。
圖4 devCellPy預測新的scRNA-seq數據
devCellPy生成的心臟預測算法揭示了hiPSC衍生心肌細胞的發育不成熟和心室特異性心肌細胞分化
在驗證了devCellPy對胚胎小鼠心肌細胞分類的準確性后,作者研究驗證了是否可以使用小鼠心臟預測算法來準確預測人誘導多能干細胞(hiPSC)衍生的心肌細胞的類別(圖5a, b)。鑒于已知的體外衍生心肌細胞不成熟,作者驗證了早期胚胎小鼠模型是否能更好地預測 hiPSC 系統中的心肌細胞亞型。通過對六個時間點的心肌細胞進行分析,并繪制了前兩個主成分的單細胞圖。正如預期的那樣,細胞以時間依賴性方式沿著第一個主成分前進(圖5c)。此前有報道稱,小分子雙相WNT協議在缺乏后向視黃酸信號的情況下主要產生心室特異性心肌細胞。為了證實這一點,作者繪制了在hiPSC、人類胎兒和小鼠胚胎發育過程中經過驗證的心室標志物Myl2、Myl3、Myh7的表達圖,并證實了所有這些確定的心室標志物的表達逐漸增加(圖5d)。為繼續驗證基于小鼠數據訓練的devCellPy模型是否能夠準確識別hiPSC-CMs心室特性,作者基于E7.75和E13.5之間的早期小鼠胚胎時間點訓練了多個devCellPy預測模型,用于識別心肌細胞亞型。然后使用基于時間點的模型計算devCellPy的預測置信度,以確定hiPSC-CMs心室特性。實驗結果表明,hiPSC-CMs表現出發育不成熟,并且hiPSC-CMs的胚胎表型和小鼠心肌細胞成熟基因表達程序具有密切保守性。
圖5 devCellPy小鼠預測模型確定了心室優勢HiPSC-CMs的發育不成熟
3 總結 在這項研究中,作者開發了一個基于Python的生物信息學管道devCellPy,它可以使用精確的高分辨率參考數據集,自動預測多個發育時間點和級聯注釋層的細胞類型。分層注釋結構存在于多個器官、物種和模型系統之間。正如此處介紹的心臟發育圖譜所示,細胞表現出多個身份子類。此外,對數據集進行精確的手動標注通常需要有對陽性和陰性表達標記的專業知識,這可能導致經驗不足的用戶,在數據集標注過程中的可再現性較差。以前的研究也表明,包含多個子類的高度相關細胞類型的深度注釋數據集,可能會對自動細胞分類器的性能產生負面影響。作者通過創建分層組織的預測模型來解決這一問題,該模型在 “LayerObject”對象類的注釋層次結構中編碼它們的位置。通過將密切相關的細胞類型的預測分解為不同的注釋層,從而在注釋層次結構中的高粒度細胞子類之間實現更高分辨率的預測結果。重要的是,用戶可以在層次結構中指定時間點,從而允許在跨注釋的多個子層中構建時間點相關預測。隨著細胞在預測層次結構中移動,devCellPy將只對用戶設置的概率閾值的細胞進行下一層分類,從而允許對跨每個分類層的細胞類型進行高置信度注釋。此外,devCellPy中的LayerObjects具有高度可移植性,允許用戶共享訓練過的預測模型,或導出單個LayerObjects進行單層預測。devCellPy的可移植性允許科學界廣泛使用專家策劃的參考圖譜,以在復雜場景中進行細胞預測。
除了可移植性之外,devCellPy還需要對數據集進行處理以進行訓練和預測,devCellPy可以識別超過35000個輸入基因中的生物學相關標記基因。該算法的高預測性能表明,除了歸一化計數表達式矩陣外,不需要額外的預處理或特征選擇來從精確的高分辨率參考數據集中訓練算法和參考標簽。當將devCellPy的性能與其他之前發表的細胞分類算法進行比較時,devCellPy的自動化分層方法在分類心臟圖譜中存在的所有細胞類型方面優于其他分類訓練方法。同時,devCellPy完全自動化了跨多層細胞標識的訓練,從而自動化了跨復雜注釋層次結構預測細胞的過程。此外,雖然其他方法允許為一組獨特的標簽生成細胞預測模型,但devCellPy允許跨時間點相關注釋自動分類,從而為跨發育數據集的細胞分類提供了顯著的改進。
devCellPy為scRNA-seq分析提供了一個重要工具,它為生成細胞類型/亞型預測算法提供了一個全自動化的管道,且該算法非常適用于分層注釋的數據集。作者的工作表明,devCellPy生成的算法具有高度通用性,可推廣到任何scRNA-seq數據集,并提供了一個完全開源的Python包。隨著大規模發育細胞圖譜的發展,devCellPy將提供資源來幫助識別跨平臺和物種的細胞類型,特別是在注釋良好的參考數據集中顯示復雜的多層注釋方案。
參考資料 Galdos, F.X., Xu, S., Goodyer, W.R. et al. devCellPy is a machine learning-enabled pipeline for automated annotation of complex multilayered single-cell transcriptomic data. Nat Commun 13, 5271 (2022). //doi.org/10.1038/s41467-022-33045-x
數據鏈接:
代碼鏈接: