亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

編譯 | 程昭龍

審稿 | 林榮鑫,王靜 本文介紹由同濟大學控制科學與工程系的洪奕光和中國科學院數學與系統科學研究院的萬林共同通訊發表在 Nature Communications 的研究成果:單細胞數據集成可以提供細胞的全面分子視圖。然而,如何整合異質性單細胞多組學以及空間分辨的轉錄組學數據仍然是一個重大挑戰。為此,作者提出了uniPort,這是一種結合耦合變分自動編碼器(coupled-VAE)和小批量不平衡最優傳輸(Minibatch-UOT)的統一單細胞數據集成框架。它利用高度可變的通用基因和數據集特異性基因進行集成,以處理數據集之間的異質性,并可擴展到大規模數據集。uniPort 將異質性單細胞多組學數據集嵌入到共享的潛在空間。它還可以進一步構建一個用于跨數據集基因插補的參考圖譜。同時,uniPort提供了一個靈活的標簽傳輸框架,以使用最優傳輸計劃去卷積異構的空間轉錄組數據,而不是嵌入潛在空間。作者通過應用uniPort集成多種數據集,包括單細胞轉錄組學、染色質可及性和空間分辨轉錄組學數據,從而證明了uniPort的能力。

簡介

單細胞RNA測序(scRNA)和單細胞染色質轉座酶可及性測序(scATAC)等高通量單細胞多組學測序技術的發展,能夠對構成組織的異質性細胞群、發育過程的動力學以及控制細胞功能的潛在調節機制進行全面研究。單細胞數據集的計算集成是機器學習和數據科學領域的重要研究方向。

現有的單細胞集成方法中,大量工作致力于同時集成來自同一細胞的多個數據集。然而,這些配對數據集在技術上具有挑戰性,且獲取成本高昂。因此,針對來自相同或相似群體的不同細胞的數據,開發了大量的集成方法。例如,Seurat平臺使用典型相關分析(CCA)將特征空間投影到公共子空間中,從而最大化數據集間的相關性。LIGER和DC3采用非負矩陣分解尋找共同特征的共享低維因子來匹配單細胞組學數據集。Harmony在最大多樣性聚類和基于混合模型的線性批次校正之間進行協調迭代,提供了一個潛在空間來去除批次效應。然而,這些方法依賴于線性操作,因此缺乏處理跨細胞模態的非線性變形的能力。此外,它們只利用過濾后的常見基因,而忽略了數據集特異性基因對于識別細胞群的重要性,而這些細胞群通常能捕獲不存在于常見基因中的細胞類型異質性。為了解決這些缺點,多種對比方法在集成單細胞多組學數據集方面取得了很有前景的結果。然而,流形對齊方法受到相對較高的計算復雜度限制,并且不能擴展到大規模數據集。

隨著深度學習的發展,現已提出了許多基于自動編碼器的方法,并證明了它們在跨模態數據集成中的能力。然而,其中大多數方法需要來自相同細胞的配對數據集以利用細胞配對信息,如DCCA和Cobolt。當細胞配對信息不可用時,替代方法是同時訓練不同的自動編碼器,并在潛在空間中跨不同的模態對齊細胞。最近,出現了大量的方法來解釋非配對數據。例如,scDART和跨模態自動編碼器通過自動編碼器學習潛在空間,并通過基于核或基于判別器的差異來對齊潛在表示。然而,這些方法需要進行全局比對,這對于整合異質細胞群往往具有限制性。此外,已開發的基于遷移學習的方法,通過學習模態不變的潛在空間,將知識(如細胞標簽)從一個模態遷移到另一個模態,從而建立源圖譜。這雖然取得了較好的結果,但僅限于使用帶有標注細胞標簽的源模態。

最近發表的單細胞基因組學集成方法,如scMC和SCALEX,在一種模式的批次效應校正方面表現出了最佳性能,但它們尚未成為單細胞多組學數據集成的基準。GLUE是另一種最先進的單細胞多組學集成和集成調控推理方法,其開發了基于高級圖的自動編碼器。同時,許多其他方法被提出用于空間轉錄組學(ST)和scRNA數據的集成分析。其中,gimVI和Tangram取得了最優性能。然而,目前尚未開發出統一集成單細胞多組學以及空間分辨轉錄組學數據的方法。

為此,作者提出了uniPort,這是一個精確、穩健和高效的計算平臺,用于將異構單細胞數據集與最佳傳輸(OT)集成。為了克服傳統VAE在單細胞異質性或非配對數據集成方面的局限性,作者提出了一個通過結合耦合變分自動編碼器(coupled-VAE)和小批量不平衡最優傳輸 (Minibatch-UOT) 的統一計算框架(圖1)。該框架允許利用高度可變的常見基因和數據集特異性基因進行集成,以處理不同數據集的異質性。實驗結果表明,uniPort可以準確、穩健地集成來自外周血單核細胞(PBMC)和小鼠脾臟的scATAC和scRNA數據集。它還可以通過scRNA數據精確填補未測量的空間分辨多重誤差穩健的熒光原位雜交(MERFISH)基因。此外,通過輸出OT計劃,作者證明了uniPort可以準確地破譯小鼠大腦的典型結構,幫助定位乳腺癌區域的三級淋巴結構(TLS),并在基于微陣列的空間數據中揭示癌癥異質性。

圖1 uniPort算法概述

結果

uniPort通過coupled-VAE和Minibatch-UOT嵌入和集成數據集 uniPort在不同模式或技術中采用不同異構單細胞數據集作為輸入。uniPort通過耦合變分自編碼器(coupled-VAE),利用無數據集編碼器將不同數據集的高度可變公共基因集投射到廣義細胞嵌入的潛在空間中。然后uniPort重構兩個輸入項,一個由具有數據集特定批量規范化(DSBN)層的無數據集解碼器輸入;另一個是通過與每個數據集對應的數據集特定解碼器形成的高度可變基因集(圖1)。由于一些常見基因在每個數據集中也高度可變,因此在兩個輸入項之間經常會發現一些重疊的基因。在集成期間,uniPort最大限度地減少了來自不同數據集的潛在空間中細胞嵌入之間的Minibatch-UOT損失。為了獲得更好的校準結果,有必要引入損失,特別是當特定數據集的解碼器被認為增加了潛在空間中不同數據集的異質性時。同時,小批量策略大大提高了OT的計算效率,使其可擴展到大數據集,而不平衡OT更適合異構數據集成。

作者使用了不同的評估指標來評估uniPort集成單細胞數據的能力。為了量化數據集混合和細胞類型分離,作者使用SCALEX計算了兩種評分:批次熵分數用來評估跨數據集混合細胞的程度,輪廓系數用來評估生物學特征的分離。為了對標注聚類的準確性進行基準測試,作者采用了調整蘭德指數(ARI)、歸一化互信息(NMI)和使用細胞類型標注的F1分數。然后,對于配對數據集,作者使用比真實匹配更接近的樣本的平均分數(FOSCTTM)來衡量跨數據集細胞間對應關系的保持情況。

uniPort集成scATAC和scRNA數據 在一個配對的scATAC和scRNA數據集(配對的PBMC數據集)和兩個不配對的scATAC和scRNA數據集(基于微流體的PBMC數據集和小鼠脾臟數據集)上,作者將uniPort與目前最先進的單細胞基因組學集成方法進行了基準測試,同時采用一致的流形近似和投影(UMAP)將積分結果進行可視化。

作者首先應用uniPort來集成配對的PBMC數據集(圖2),配對信息僅用于性能評估。實驗結果表明,uniPort和GLUE的性能最佳,且結果相當(圖2c-e)。在所有比較的方法中,uniPort,、Seurat、 Harmony、 SCOT和GLUE在兩種模式中準確集成了大多數細胞類型(圖2b)。

圖2 uniPort集成了配對的PBMC數據集

除了集成配對的PBMC數據集,作者還在基于非配對微流體的PBMC數據集上進一步評估了uniPort。結果顯示,uniPort準確地集成了scATAC和scRNA數據,并且具有與GLUE、MultiMAP和Harmony相當的競爭性能。此外,作者還在另一個來自小鼠脾臟數據集的未配對的scATAC和scRNA上測試了uniPort (圖3)。uniPort、scMC、Harmony和Seurat都取得了較好的性能。總之,在所有方法中,uniPort與最近發表的最先進方法相比表現良好,且在配對和非配對數據集中均顯示出準確和穩健的結果。

圖3 uniPort集成了非配對的小鼠脾臟數據集

uniPort執行異構數據集的非平衡匹配任務 uniPort最大限度地減少了Minibatch-UOT的損失,適用于不平衡匹配,為異構數據集成提供了強有力的保障。為了評估uniPort在異構數據集成方面的性能,作者分別從小鼠脾臟的scATAC或scRNA中去除一些細胞類型,進行了兩項不平衡匹配任務。去除scATAC數據部分類型的集成任務命名為ATAC不平衡匹配(“UBM-ATAC”),將在scRNA數據中刪除相同細胞類型的集成任務表示為RNA不平衡匹配(“UBM-RNA”)。同時,為了進行比較,將完整小鼠脾臟數據的集成定義為平衡匹配(“BM”)。

在兩種不平衡匹配的情況中,uniPort準確地識別并分離了“DC”、“Granulocyte”、“Macrophage”和“NK”細胞與其他細胞類型,同時很好地對齊了模態共享細胞類型(圖4a, b)。將uniPort與GLUE、Harmony、Seurat、MultiMAP和scMC進行比較,可以發現這些方法都在“BM”任務中取得了較高的準確性。但在所有方法中,只有uniPort和Seurat在三種情況下都取得了穩定的性能(圖4c, d)。因此,與“BM”的情況相比,當數據集中呈現異質性時,uniPort比其他方法更穩健。

圖4 uniPort集成了細胞類型不平衡的小鼠脾臟數據

uniPort集成了MERFISH和scRNA數據 作者進一步考慮了ST和scRNA數據的集成。ST測序技術主要有兩種類型:基于高復雜度RNA成像的ST測序技術和基于條形碼的ST測序技術。基于高復雜度RNA成像的空間測序具有單細胞精度更高、深度更大的優勢,但局限于覆蓋率較低的部分測量。為了測試uniPort在基于高復雜度RNA成像數據上的性能,作者應用uniPort集成了MERFISH和scRNA數據。

在MERFISH數據的155個基因中,使用scRNA和MERFISH中的153個共同基因進行集成。應用UMAP將uniPort、Harmony、Seurat、SCALEX、scVI、gimVI和MultiMAP的細胞嵌入結果可視化(圖5a,b)。從圖中可以看出,uniPort和scVI在鑒別和分離OD 未成熟細胞和其他細胞類型方面的表現優于其他方法。通過再次使用輪廓系數和總分對uniPort與其他方法的集成性能進行基準測試(圖5c, d),可發現uniPort優于其他方法。

uniPort為MERFISH數據插補基因 uniPort訓練了一個編碼器網絡,以將跨數據集中具有共同基因的細胞投射到共同細胞嵌入的潛在空間,同時訓練了一個解碼器網絡,以重建具有共同基因和特定基因的細胞。因此,一旦coupled-VAE訓練良好,就可以將其視為參考圖譜,從而允許uniPort通過圖譜根據另一個數據集的共同基因來對一個數據集中的共同基因和特定基因進行插補。插補基因可用于增強空間轉錄組學的分辨率。

為了探索uniPort的基因插補能力,作者采用gimVI方案從MERFISH的scRNA中插補缺失基因。首先隨機選擇MERFISH中80%的基因作為訓練基因,并保留剩余20%的基因作為測試基因。重復上述步驟12次,得到12個訓練和測試基因集。然后用每個訓練基因集訓練uniPort網絡,同時對相應的測試基因集進行插補,并將實驗結果與兩種最先進的基因插補方法進行比較:gimVI和Tangram。通過應用uniPort、gimVI和Tangram對測試基因進行插補,并使用UMAP對訓練和測試基因進行可視化(圖5e)。在MERFISH數據集上,與兩種比較方法相比,uniPort具有較優的性能 (圖5e,f)。

圖5 uniPort為MERFISH數據插補

uniPort去卷積合成的STARmap數據 基于條形碼的ST更容易獲得轉錄本,覆蓋率更高,但僅限于分辨率較低的混合點。接下來,通過將scRNA數據中的標簽轉移到混合點來實現基于條形碼的ST數據的去卷積。uniPort可以提供一個OT計劃,該計劃代表scRNA和ST數據之間的細胞到混合點的概率對應關系,從而能夠根據scRNA數據中的細胞注釋來對ST數據的單細胞簇比例進行去卷積。為了評估性能,將uniPort與兩種最先進的細胞類型去卷積方法Tangram和SpaOTsc進行了基準測試。實驗結果表明,uniPort對比兩種方法表現較好。

uniPort破譯小鼠大腦的典型結構 作者應用uniPort來去卷積現實世界中基于條形碼的ST示例。為了估計每個捕獲點的細胞類型組成和破譯典型的組織結構,作者首先整合了成年小鼠腦ST數據的前切片(10× Visium)。

正如清晰的邊界所示,uniPort準確地重建了結構良好的層并去卷積了28種細胞類型(圖6a)。多皮質層和區域特異性細胞類型等代表性簇的比例和位置與過往研究高度一致。盡管其解剖結構復雜,但uniPort仍精確地重塑和排列了從邊界延伸到中心區域的L2/3L6亞簇 (圖6b)。此外,L6層的亞群也被清晰地分離,揭示了該方法對幾乎無法察覺的信號的敏感性。因此,無論是標記基因的表達還是大腦的解剖結構,都證明了所提出圖譜的穩健性,且可以在基于基因表達的聚類和解剖注釋之間建立一致性,并提供比通過視覺檢查更徹底和全面的理解。

uniPort幫助定位乳腺癌區域的TLS 癌癥的發生和發展通常受到其與異質性腫瘤微環境(TME)的關聯影響,而ST可以為其提供生物學見解。為了進一步證明其靈活的效用,作者使用uniPort對 HER2陽性乳腺癌的空間數據進行去卷積,其中包含彌漫性浸潤細胞,這使得去卷積位點變得更加困難。如圖6c所示,在空間圖像上分配了9個主要簇,主要涉及T細胞和癌上皮細胞。此外,實驗發現分散在集中富集區域的代表性簇與標記基因表達所顯示的區域相一致(圖6d,e)。

大量研究表明,免疫細胞浸潤的增加與乳腺癌的良好預后高度相關。TLS是近年來在腫瘤或炎癥部位發現的一種異位淋巴樣器官,被認為是腫瘤患者的預后和預測因素。雖然TLS中存在多種細胞類型,但主要是T細胞和B細胞,它們的聯合共定位影響了TME。作者通過對每個點的細胞類型比例進行分析,并通過T細胞和B細胞共定位來識別TLS信號,以使T細胞和B細胞的表達強度相同(圖6f)。總體而言,uniPort可以協調不同模態,并滿足對組織和疾病代表性結構的高分辨率映射和識別。

圖6 uniPort識別空間轉錄組學數據中的標志性結構

uniPort揭示了基于微陣列的空間數據中的癌癥異質性 基于Visium的ST數據區域被限制在每個捕獲點直徑為55 μm的范圍內,這達到了相當于3-30個細胞的中等分辨率。隨著位點分辨率的降低,可能會對集成造成潛在的影響,因為成分的混合增長會帶來更多的噪聲。為了檢驗uniPort在這種情況下的性能,作者使用基于微陣列的胰腺導管腺癌(PDAC)組織的ST數據進行集成,其直徑延伸至100 μm。對1926個單細胞配對的428個位點進行細胞類型去卷積,并分別測量了19736個基因。

通過分解15個主要的簇,可以發現它們表現出正常和腫瘤組成的離散富集和復雜性(圖7a)。正常胰腺細胞類型分為導管細胞和腺泡細胞,與以往研究結果一致,保留了與癌細胞明顯不同的分布和遺傳特征。對于惡性胰腺細胞,根據遺傳差異將其分組為癌癥克隆A簇和B簇。其次,正常和癌變區域的組織學注釋總體上符合其數據驅動的標簽(圖7b), TME的基本成分由其標記基因表示(圖7c, d)。

為了進一步了解癌癥亞型的異質性,進一步分析確認它們的身份,以及每個位點所占最大比例(圖7e)。KEGG通路將它們分離成不同的功能組件(圖7f)。此外,在腫瘤克隆A中,包括紅細胞(RBC)、T細胞和自然殺傷(NK)細胞在內的血源性細胞比例顯著增加(圖7g),這與功能分析的結果一致。綜上所述,該方法可以操作不同分辨率的應用光譜,揭示細微的異質性TME。

圖7 uniPort在基于微陣列的空間數據中識別不同的癌癥亞型

總結

本文介紹了一種用于單細胞數據集成的統一深度學習方法uniPort,并將其應用于集成基于轉錄組學、表觀基因組學、空間分辨的高復雜度RNA成像以及條形碼的單細胞基因組學。uniPort結合了coupled-VAE和Minibatch-UOT,并利用高度可變的常見基因和數據集特異性基因進行集成。它是一種非線性方法,可將所有數據集投射到一個公共潛在空間,并在數據集之間輸出其潛在表示,從而實現可視化和下游分析。

uniPort解決了幾個計算方面的挑戰,首先是通過使用Minibatch-UOT消除其他基于自編碼器模型所需配對細胞的約束。與僅考慮跨數據集常見基因的現有方法不同,作者還利用了每個數據集特有的基因,從而捕獲常見基因中不存在的細胞類型異質性。此外,由于coupled-VAE的泛化能力,uniPort通過構建參考圖譜顯示了其在基因插補方面的能力和潛力。需要指出的是,uniPort甚至可以通過一個數據集中的公共基因來插補另一個數據集中的獨特基因,而無需從頭開始訓練。此外,uniPort還可以輸出用于下游分析的OT計劃,如靈活的標簽遷移學習,用于空間異構數據的去卷積。

在集成大規模異構數據集方面,uniPort具有計算效率和可擴展性,而這對于其他基于OT的方法來說可能是計算上的障礙。目前流行的基于OT的單細胞分析方法是基于全局最優傳輸,但全局最優傳輸使得計算非常昂貴。為了解決這一問題,uniPort在基于VAE的單細胞基因組學分析框架中引入了Minibatch-UOT,在每次迭代中只需要求解一個mini-batch傳輸計劃,從而大大降低了計算成本。因此,它可擴展到大數據集。

由于研究中對scATAC的集成是基于基因活性評分,為此作者還測試了uniPort在以不同方法計算基因活性評分時的性能。集成結果顯示,uniPort在MAESTRO的基因活性評分上取得了更好的表現,所有的評分都高于Signac,這說明了對基因活性評分建模的重要性。

與最近發表的最先進的方法相比,uniPort始終表現良好,并成功地使用OT計劃去卷積空間異構數據。隨著配對數據集和各種異質模態的快速發展,本文還通過使用CITE-seq數據和SNARE-seq數據集或沒有對齊公共基因的數據集,證明了uniPort對其他類型單細胞數據的普遍適用性。

參考資料

Cao, K., Gong, Q., Hong, Y. et al. A unified computational framework for single-cell data integration with optimal transport. Nat Commun 13, 7419 (2022). //doi.org/10.1038/s41467-022-35094-8

數據
代碼

付費5元查看完整內容

相關內容

醫學領域的人工智能是使用機器學習模型搜索醫療數據,發現洞察,從而幫助改善健康狀況和患者體驗。 得益于近年來計算機科學和信息技術的發展,人工智能 (AI) 正迅速成為現代醫學中不可或缺的一部分。 由人工智能支持的人工智能算法和其他應用程序正在為臨床和研究領域的醫學專業人員提供支持。

編譯 | 楊千立 審稿 | 陳梓豪 指導 | 閔小平(廈門大學)

此次為大家分享的是來自Nature Communiations 上的一篇題為"Deep learning to decompose macromolecules into independent Markovian domains" 的文章,來自德國柏林自由大學、美國德克薩斯州休斯頓萊斯大學的Frank Noé團隊。

對越來越大的蛋白質進行動力學建模興趣日益濃厚,但目前缺乏收集足夠的狀態概率或狀態間轉換統計數據的能力,因為對于大分子系統,亞穩態的數量隨大小呈指數增長。在本文中,作者通過引入一種方法來應對這一挑戰,該方法將作者在獨立馬爾可夫分解 (IMD) 方面的最新進展與VAMPnets (一種用于馬爾可夫建模的深度學習方法) 相結合。作者建立了一個訓練目標,該目標量化了基于馬爾可夫動力學將分子系統分解為獨立子域的程度與整體動力學的近似程度。通過構建端到端學習框架,同時學習分解成這些子域及其各自的馬爾可夫狀態模型,從而提供數據高效且易于解釋的復雜系統動力學摘要。盡管學習馬爾可夫子域之間的動態耦合仍然是一個懸而未決的問題,但目前的結果是邁出了模擬數據中學習大分子復合物伊辛模型的重要一步。

介紹

對蛋白質功能的理解通常與對蛋白質動力學的理解是相互關聯的。分子動力學 (MD) 模擬是在原子尺度上研究這些動力學的工具;馬爾可夫狀態模型 (MSM) 已應用于廣泛的分子生物學問題,例如蛋白質聚集或配體結合,并且可以成為了解原子尺度上的實驗數據的工具。

評估模型性能并由此對其質量進行排名,發展了特別是馬爾可夫過程 (VAMP) 的變分方法。這使我們能夠使用VAMPnet,該框架同時學習使分子系統降維到最能描述罕見事件過程的集體變量和 MSM變量。該框架可用于沿著這些學習到的集體變量進一步驅動 MD 模擬,還可以使用該框架來估計統計上可逆的 MSM,并結合來自實驗觀察結果的約束。

盡管有這些發展,在描述 MD 時在全局系統狀態之間的轉換方面存在一個基本的縮放問題:雖然小協同分子系統是一個很好的模型,但對于中小型蛋白質,較大的分子系統具有大量的的子系統,其動力學幾乎獨立(圖 1)。例如,當這些蛋白質解離時,這些蛋白質會獨立地在開放和關閉狀態之間進行轉換,并且這些轉換僅在與其他蛋白質結合時(部分)耦合。全局系統狀態的數量為2 ^N,即隨著子系統數量N呈指數增長。這意味著任何形式模擬或分析都不會擴展到大分子系統。

圖1:iVAMP 概念通過模擬蛋白質的動力學可視化,該蛋白質具有兩個獨立的柔性區域,由剛性桶隔開

同時,子系統之間的(近似)獨立性也是問題解決的關鍵。可擴展的解決方案需要解決兩個不同的問題:(a) 將蛋白質系統劃分為近似馬爾可夫子系統和 (b) 了解它們之間的耦合。

作者提出了一種聯合 IMD(通過將全局系統動力學近似為一組獨立馬爾可夫模型) 和 VAMP 方法(稱為iVAMPnet),它通過將IMD推廣到神經網絡基函數,顯著提高了識別近似獨立馬爾可夫子系統(問題 a)的能力。iVAMPnets 是一種集成的端到端學習方法,它將大分子結構分解為動態弱耦合的子系統,并為每個子系統估計一個 VAMPnet,以促進對子系統動力學的綜合分析(圖1)。與之前的 IMD 相比,該方法可以學習對獨立子系統的最佳分解,并且可以找到作為輸入特征的非線性組合的集體變量。

結果

馬爾可夫狀態模型和庫普曼模型

馬爾可夫動力學可以通過過渡密度建模:

這是假設系統在時間t處于配置x時在時間t ?+? τ時觀察配置y的概率密度。基于過渡密度,我們可以將概率密度 χ 的時間演化描述為:

通過以合適的方式離散化分子狀態空間并定義離散狀態之間的過渡矩陣T,我們可以將此方程線性化為:

這是馬爾可夫狀態模型的方程,其中向量χt ?+? τ(y)的元素i是在時間 t ?+? τ 處于離散狀態i的概率。此外,轉移矩陣元素描述了給定的跳轉到狀態j的轉移概率時間 τ 內的狀態i。在模糊狀態分配的情況下,例如,與 VAMPnets 一樣,等式(3)描述了更一般的庫普曼模型和Tτ庫普曼矩陣。這意味著概率密度仍在傳播,但矩陣元素不能解釋為轉移概率。

滯后時間 τ 是所有馬爾可夫模型所共有的,通常是在隱含的時間尺度測試的幫助下選擇的。如果選擇的 τ 太小,則生成的模型不是有效的馬爾可夫模型(導致預測變量的錯誤);選擇的 τ 太大會丟棄動力學信息的模型。因此,通常選擇最小的滯后時間,在該滯后時間之上隱含的時間尺度近似恒定。

現在尋求找到滿足方程式的狀態分配χ和模型矩陣T。形式上,χ是(最初未知的)基函數,即假設相關的動態特征可以用它們的線性組合來表示。VAMP 表明,當χ可以跨越左和右奇異函數(ψ1, . . . ,ψk)T,(φ1, . . . ,φk)T的轉換運算符。它們可以通過從模擬數據估計的矩陣最大化奇異值來找到(參見“方法”中的等式(9)-(13))。在VAMPnet的情況下,通過最大化 VAMP 分數來訓練深度神經網絡,以表示最佳模糊狀態分配。在平衡狀態下,奇異函數對應馬爾可夫狀態模型的特征函數,奇異值對應其特征值。由于庫普曼模型仍然傳播密度,檢查T的特征函數和隱含時間尺度是有用的,因為它們描述了給定系統的慢動力學。

iVAMPnets and iVAMP-score

為了實現 iVAMPnets,需要彌合 VAMPnets 的深度神經網絡與獨立馬爾可夫模型的空間分解之間的差距。總體思路是建立多個并行的 VAMPnets,每個模型都對分子的一個單獨、獨立的子系統的馬爾可夫動力學進行建模,以及識別這些子系統的注意力機制。因此,每個獨立的 VAMPnet只接收代表其特定子系統的時間依賴性分子幾何特征。例如,這種注意機制可以分離不同的蛋白質域,并將各個域的數據引導到單獨的 VAMPnets。因此,(圖2) iVAMPnet 旨在同時優化這兩個目標。

圖2:適用于N個子系統的iVAMPnet體系結構,其中可訓練的部分呈綠色陰影

在實踐中,提取所有分子幾何特征 (距離、接觸等),并將它們傳入圖2所示的體系結構。數據通過注意力機制 (由矩陣G表示) 饋送,該機制產生子系統特定向量Yti ,每個都涉及與子系統i相關的特征。然后,這些向量充當N個并行特征變換 ηi (并行VAMPnets) 的輸入,這些變換轉換為輸出特征 χ1,…… χn (具有 χi (xt)= ηi (Yti (xt))),表示直接模糊分配到每個分子子系統的亞穩態馬爾可夫狀態。配備了狀態分配,我們可以計算相關矩陣(公式9),并從這些矩陣(公式10)導出庫普曼模型矩陣。與VAMPnets一樣,特征轉換 η1……ηn由深度神經網絡表示。在本研究中,使用具有表示模糊狀態分配的SoftMax輸出層的多層感知器。更詳細地說,給定N個單獨的子系統模型,全局系統狀態可以由所有子系統狀態的Kronecker乘積給出:

并通過使用χG從等式(9)計算全局相關矩陣(C00G,C0τG,CττG),注意到,這一步驟并不要求擁有獨立的馬爾可夫模型,但它只是用局部狀態的組合來表達全局狀態的一種形式。

此外,可以通過將單個奇異值和向量與Kronecker乘積相結合,從子系統模型中構造全局庫普曼模型的候選者。

矩陣U^G和 V^G將全局狀態分配映射到構造的奇異函數上,并根據等式(11,12)中定義的局部矩陣進行計算。對角矩陣K^G編碼奇異值,并通過公式10從子系統奇異值矩陣中計算。

為了評估構造模型的性能以預測全局狀態空間中的動力學,可以利用VAMP-E驗證得分。

Vamp-E得分估計了庫普曼模型與真實動力學之間的差異。在這里,它被評估為映射在構造的奇異函數(編碼為U^G ,V^G)上的全局狀態分配 ? χi (以(C00G,C0τG,CττG)編碼。如果子系統是獨立的,則構造的奇異函數是最優的,并且全局系統的奇異值確實是子系統的奇異值的乘積。在這種情況下,全局VAMP-E評分公式6具有如下形式:

這為子系統獨立性提供了必要條件。為了最終訓練模型,作者開發了一個損失函數,該函數有兩個作用,(1)使全局VAMP-E得分最大化 (2)最小化了懲罰這些子系統之間的統計依賴性的項 (式7),由加權因子 ξ 縮放。

僅成對地評估分數,以避免全局狀態空間的增長,并對所有可能的對i,j求和。

在這里,REij利用公式6量化構造的子系統i和j的庫普曼模型的質量,。加權因子 ξ 是一個超參數,應選擇大到足以找到解耦系統,而小到足以不干擾子系統動力學。即使選擇合適的 ξ 取決于動力學和耦合的性質,它也與訓練過程直接相關,因為它在動力學和解耦之間平衡了優化器的重點。評估奇異函數和值的獨立性的其他條件 (式18) 可以用作訓練后的驗證指標,以調整 ξ 并測試發現動態獨立的子系統的程度。

具有兩個獨立子系統的基準模型

在圖2中描述了使用PyTorch實現的iVAMPnet架構。作者選擇具有多達5個隱藏層的全連接前饋神經網絡,每個隱藏層具有100個節點。

作者首先證明iVAMPnets能夠使用精確可分解的基準模型,基于觀測到的軌跡數據,將動態系統分解為其獨立的馬爾可夫子系統 (圖3)。

圖3:隱馬爾可夫狀態模型作為獨立子系統的基準示例

類似于圖1所示的蛋白質,定義了一個系統,該系統由兩個獨立的子系統組成,分別具有兩個、三個狀態。它由兩個具有相應狀態數的轉移矩陣建模,用每個矩陣 (100k步) 采樣離散軌跡。全局狀態定義為這些離散狀態的組合。離散子系統狀態現在被解釋為隱馬爾可夫模型的隱藏狀態。每個子系統的輸出都使用高斯噪聲N~(μi,σ)建模,該高斯噪聲特定于系統狀態 (由指定μi) 和常數 σ。因此,兩個狀態子系統分別描述了沿x軸的高斯盆地和沿y軸的三個狀態子系統之間的跳躍過程 (圖3a)。這些變量與圖1中描述的綠色 (x) 和藍色 (y) 系統的集體變量進行比較。請注意,盡管在此基準系統中已知相關的慢速集體變量,但iVAMPnets通常能夠找到它們 (參見10D超立方體基準模型和Synaptotagmin-C2A)。

由于生成基準模型由完全獨立的子系統組成,并且該對已經描述了全局系統,因此作者的方法可以簡單地針對全局VAMP-E得分 (等式6) 進行優化,而無需任何進一步的約束。在 τ = 1步的滯后時間訓練具有兩個和三個狀態子系統的模型。

經過訓練后,iVAMPnet會生成每個已識別子系統中的動力學模型。正如預期的那樣,發現兩個子系統的估計轉移矩陣與基本事實非常吻合 (圖3c)。為了更詳細地評估慢速子系統動力學,借鑒了MSM分析的概念,并對iVAMPnet模型 (參見VAMPnets) 進行了特征值分解。對本征函數的分析表明,通過構造,系統表現出沿x軸的一個獨立過程 (λ1 = 0.90) 和沿y軸的兩個過程 (λ2 = 0.89和 λ4 = 0.66) (圖3d)。相比之下,注意到,在全局狀態的圖片中,由于混合了獨立的過程 (參見補充說明2),將出現兩個額外的過程,這使得組合動力學模型的分析更具挑戰性,而iVAMPnet分析仍然簡單明了。

除了動態模型外,iVAMPnet還會在輸入特征和子系統之間分配。該方法分別正確地將兩個狀態系統識別為x軸,將三個狀態識別為y軸特征 (圖3b)。

10D超立方體基準模型

在下一步中,用十個兩狀態子系統測試iVAMPnet方法,其對應于1024個全局狀態 (圖4a,b)。與以前一樣,動力學系統是由具有唯一時間尺度的十個獨立的隱馬爾可夫狀態模型生成的。該系統被分成五對子系統,并且控制每對過渡動力學的兩個坐標被旋轉,以使它們更難以分離 (圖4a)。此外,通過添加十個噪聲維度來使學習問題變得更加困難,從而使全局系統在嵌入20維空間中的10維超立方體上。

圖4 :隱馬爾可夫狀態模型,具有1024個全局狀態,形成嵌入20D空間中的10D超立方體

盡管子系統是完全獨立的,但作者將以成對的方式估計具有vamp-E分數的iVAMPnet,從而避免在R1024 × 1024中有極大的相關性。因為這只有在所有系統都是獨立的情況下才是合理的,所以另外強制執行等式(7)。在訓練過程中,通過最小化等式(8),從而排除任何兩個子系統近似相同的過程。

iVAMPnet估計產生子系統模型,可以通過測試其隱含的松弛時間尺度是否收斂于模型滯后時間 τ 來驗證。結果表明,由iVAMPnet學習的隱含時間尺度被正確地轉換并準確地再現了基本事實 (圖4d)。注意到,除了由iVAMPnet識別的各個子系統的時間尺度之外,全局模型還將包含由特征值乘積產生的所有時間尺度,從而產生1024個時間尺度。因此,與全局MSM或VAMPnet相比,iVAMPnet分析提供了一個更簡單,更簡潔的模型。

此外,子系統分配掩碼指示該方法正確地為每個模型的兩個輸入特征分配高重要性權重 (圖4c)。因此,該方法證明了其能夠以數據高效的方式將嘈雜的高維全局系統分解為其獨立的子過程的能力。

作者已經將10-cube系統推廣到可變數量的子系統 (N-cube) 來進行性能基準測試,發現iVAMPnets在此特定系統的性能優于VAMPnets。但是注意到,因為N-cube具有真正獨立的2狀態子系統,該結果可能無法推廣到任意系統。

突觸結合蛋白-C2A

最后,在全原子蛋白質系統上測試iVAMPnets。與基準示例相比,期望底層的全局動態系統只能近似地分解為獨立的子系統。我們測試一下數據由先前描述的(補充說明7)數據組成; 突觸蛋白在神經遞質釋放的調節中起著至關重要的作用。它被證明由近似解偶聯的子系統組成,分別包含鈣結合區 (CBR) 和 C78環。

首先,作者嘗試使用全局模型對蛋白質進行建模,即使用單個(常規)VAMPnet。事實上,這種方法失敗了,因為沒有足夠的模擬統計數據來估計所有全局亞穩態之間的可逆連接過渡模型,從而導致隱含的時間尺度不同(補充說明 3和補充圖 2)。這正是 iVAMPnets 應該提供優勢的場景,它只依賴于本地而不是全局融合的轉換統計數據。

接下來,作者訓練 iVAMPnet 以分別尋找12個和6個狀態的兩個子系統,每個子系統的滯后時間為τ ?= 10 ns,強制執行等式7尋找非耦合子系統。

訓練好的 iVAMPnet 識別一個包含所有三個 CBR 循環(CBR-1、CBR-2、CBR-3;圖 5a)的子系統。第二個子系統不僅包括上述 C78 環路,還包括連接 β 折疊,C34環路。當映射蛋白質結構上的殘基位置時,很明顯這兩個子系統在物理上很好地分離(圖5a),支持兩個區域僅弱耦合的結論。

圖 5:突觸結合蛋白-C2A 的 iVAMPnet 具有兩個子系統,分別具有12個和6個狀態。

兩個系統的隱含時間尺度在模型滯后時間τ中大致恒定。大多數時間尺度都在 1~10 μs 的范圍內,除了在第一個子系統中是100 μs (圖 5b),這是以前沒有發現的。對控制此過程的結構變化的分析表明,它涉及所有 CBR 循環的協調轉換(圖 5c)。然而,之前的研究無法解決這樣的過程,在該研究中,CBR 被建模為單獨的循環。第二個系統的過程涉及 C78 和 C34 循環的同時移動(圖5c)。

iVAMPnets 在局部特征中發現亞穩態結構,這些結構與之前的工作中描述的結構相當。具體而言,可以在 CBR1 中找到兩個不同位置的α螺旋和掩埋甲硫氨酸殘基 (Met173) 的狀態。在相鄰的 CBR2 位點,確定了緊密結合和松散的配置,而 C78 位點具有所有三個先前描述的纈氨酸殘基構象(Val250、Val255)。除了之前的研究中建模的特征外,iVAMPnets 還識別富含賴氨酸的簇 (Lys189-192) 中的動力學,該簇先前曾被報道對膜相互作用很重要。與作者之前的工作相比,局部子系統中的動力學模型更復雜,包含更多的動態過程,提供更全面的畫面,無需手動定義分區。事實上,同時進行域分解和局部動力學建模已經能夠識別非常細微的動力學特征,只要它們對局部 VAMP 分數有顯著貢獻。

盡管在稀疏數據樣本的情況下估計突觸結合蛋白的全局 VAMPnet 模型不可行,但 iVAMPnet 可以有效地使用相同的數據并估計統計上有效的動態模型。這一結果尤其引人注目,因為 iVAMPnet 方法還通過分離動態獨立的蛋白質域簡化了后續解釋模型的任務。

反例:絨毛蛋白微型蛋白的折疊

最后,作者以時間長度25 μs 絨毛蛋白折疊軌跡作為反例進行了實驗(補充說明7)。絨毛蛋白等小蛋白通常是協同的,即與折疊相關的最慢過程涉及所有殘基(補充說明5)。因此,當將系統分解為多個子系統時,無法解決這些過程。事實上,作者發現分裂成兩個具有兩個狀態的子系統,各自導致不收斂的時間尺度,并且其松弛過程近似于不相交區域上的部分折疊(參見補充圖 6)。

測試學習到的動態子系統的統計獨立性

等式7在訓練期間被用作懲罰,通過評估在訓練期間未強制執行的約束(等式17)來評估估計子系統分配的有效性。訓練獨立性分數MU、?MV和MUV(在等式 18中定義)。較低的MU和MV意味著構造的左右奇異函數確實是全局狀態空間中奇異函數的有效候選者。較低的MUV表明子系統模型的克羅內克積很好地預測了全局狀態空間中的動力學。結果表明這三個指標非常適合指示學習子系統的獨立性(表 1)。在經過測試的系統中,只有villin不能拆分成獨立的部分(所有分數 > 0.1)。相比之下,基準模型和突觸結合蛋白可以分解為統計上不耦合的子系統(所有分數 < 0.01)。突觸結合蛋白的MR值略有增加表明其子系統可能是弱耦合的。 表1.訓練后獨立性驗證

總結與討論

作者提出了一種無監督的深度學習框架,該框架僅使用分子動力學模擬數據,學習將復雜的分子系統分解為行為近似獨立的馬爾可夫模型的子系統。因此,iVAMPnet 是一個端到端的學習框架,可以解決對模擬數據呈指數增長的需求,而模擬數據需要對越來越大的生物分子復合物進行采樣。具體來說,作者已經開發并展示了用于分子動力學的 iVAMPnets,但原則上,該方法也適用于不同的應用領域,例如流體動力學。具體實現,如輸入向量χt的表示和χ-功能的神經網絡架構,取決于應用程序,可以根據需要進行調整。

現在有一個越來越強大的模型層次結構,從 VAMPnets 上的 MSMs 到 iVAMPnets。MSM 總是由狀態空間分解和控制這些狀態之間動態的馬爾可夫轉移矩陣組成。VAMPnets 為 MSM 提供深度學習框架,從而學習最佳狀態空間離散化的集體坐標。iVAMPnets 還學習將分子系統物理分離為子系統,每個子系統都有自己的慢坐標、馬爾可夫狀態和轉移矩陣。

作者已經證明 iVAMPNets 是一種強大的多尺度學習方法,當這些子系統確實在統計上獨立進化時,它可以成功地找到和建模分子子系統。此外,iVAMPnets 能夠從高維 MD 數據中學習。為了證明這一點,已經證明突觸結合蛋白 C2A 域可分解為兩個幾乎獨立的馬爾可夫狀態模型。重要的是,已經證明突觸結合蛋白 C2A 的這種動態分解是成功的,而嘗試使用全局馬爾可夫狀態模型對系統進行建模由于采樣不佳而失敗。這直接證明 iVAMPnets 在統計上比 VAMPnets、MSM 或其他全局狀態模型更有效,并且確實可以擴展到更大的系統。

然而,注意到,iVAMPnets 不學習子系統如何耦合,因此在它們當前的形式下,僅適用于由非耦合或弱耦合子系統組成的分子系統。雖然已知大多數生物分子復合物是協同的,但也有使用獨立子系統非常成功地建模的示例。耦合程度是一個有爭議的問題,例如突觸結合蛋白中的 C2 串聯(C2A和C2B 結構域)。由于已知孤立域在許多情況下會自行發揮作用,作者認為丟棄耦合是適合識別這些域及其相關亞穩態的一階建模假設。

跟進參考并引入描述學習的 MSM 如何耦合的耦合參數,這是正在進行的研究。此外,弱耦合假設是針對所研究分子過程的時間尺度做出的,可能無法推廣到任意時間。

除了深度學習方法中通常的超參數選擇外,iVAMPnet 還需要指定所尋找子系統的數量。這種選擇可以通過為不同數量的子系統訓練 iVAMPnet 然后詢問獨立性分數(等式18、19) 選擇統計獨立性最佳的分解。建議首先將系統分解為兩個子系統作為起點,然后增加這個數量。例如,反映在不收斂的隱含時間尺度(可能是抽樣問題的化身,可以通過增加子系統的數量來緩解)或高獨立性分數(不可能拆分系統)。此外,子系統數量的選擇可以由蛋白質中的結構域數量或使用參考文獻中介紹的基于網絡的方法來指導。此外,每個子系統中的狀態數量需要平衡 (a) 奇異函數近似的質量(少數狀態更高)和 (b) 模型分辨率(更多狀態更高)。最終,不同的選擇可能會產生收斂的驗證措施,并且在這種情況下可以選擇狀態的數量來產生所需的模型分辨率。

可以通過多種方式改進和進一步開發 iVAMPnet,例如,通過采用更高級的網絡架構,例如圖形神經網絡,其中參數可以跨子系統共享。這可能會導致更高質量的模型和對超參數選擇的更強魯棒性。最近,圖神經網絡確實成功地與 VAMPnets 相結合,表明所得到的方法 (GraphVAMPnets) 適用于 MD 數據,并且估計模型是高質量的。

總之,iVAMPnets 為以數據高效和可解釋的方式對大型生物系統的動力學進行建模鋪平了道路。

方法

文章中有關的數學公式定義、推導在該部分中,感興趣的朋友可以訪問原文進一步學習。

參考資料 Mardt, A., Hempel, T., Clementi, C. et al. Deep learning to decompose macromolecules into independent Markovian domains. Nat Commun 13, 7101 (2022). //doi.org/10.1038/s41467-022-34603-z

項目地址

付費5元查看完整內容

編譯 | 姜晶

審稿 | 許俊林 本文介紹由美國俄亥俄州立大學醫學院Qin Ma副教授團隊和美國密蘇里大學哥倫比亞分校許東教授團隊聯合發表在Nature Communications的研究成果。本文作者提出了scDEAL,這是一個通過整合大規模bulk細胞系數據在單細胞水平上預測癌癥藥物反應的深度遷移學習框架。scDEAL的亮點在于協調藥物相關的bulk RNA-seq數據與scRNA-seq數據,并通過遷移學習把在bulk RNA-seq數據上訓練的模型用以預測scRNA-seq中的藥物反應。scDEAL的另一個特點是整合梯度特征解釋來推斷耐藥機制的特征基因。作者在六個scRNA-seq數據集上對scDEAL進行了基準測試,并通過三個專注于藥物反應標簽預測、基因特征識別和偽時間分析的案例證明了模型的可解釋性。作者相信scDEAL可以幫助研究細胞重編程、藥物選擇和再利用以提高治療效果。

1 簡介 癌癥的藥物治療因不同狀態或細胞命運之間的癌癥異質性而導致治療效率低和復發率高。這種異質性是導致單個細胞對藥物產生不同反應的原因,從而導致體內仍存在極少數量的癌性殘留物,最終導致癌癥復發。單細胞RNA測序(scRNA-seq)技術為發現癌癥亞群對特定藥物的異質基因表達提供了前所未有的機會。現有的針對bulk數據開發的藥物反應預測方法不能直接用于單細胞數據,因此,迫切需要在單細胞水平上開發推斷癌癥藥物反應的計算方法。然而,開發用于預測單細胞藥物反應的基于深度學習的工具面臨的主要障礙是由于公共領域的基準數據數量有限,訓練能力不足。幸運的是,深度遷移學習(DTL)可以將知識和關系模式從bulk數據遷移到單細胞數據中。DTL模型已作為一種有效的策略應用于多個bulk數據進行癌癥藥物反應預測;然而,到目前為止,其將bulk水平上的知識遷移到單細胞水平上的能力尚未得到充分研究。

作者通過調整域自適應神經網絡(DaNN)來開發scDEAL(單細胞藥物反應分析),根據bulk和scRNA-seq數據預測藥物反應。scDEAL在預測單細胞水平的藥物敏感性方面非常強大,因為它在藥物敏感性、單細胞的基因特征和bulk樣本的基因特征之間建立了橋梁。scDEAL突出了以下幾個方面:(i)它可以使用來自癌癥藥物敏感性基因組學(GDSC)數據庫和癌細胞系百科全書(CCLE)的大量bulk RNA-seq藥物反應信息來訓練和優化模型;(ii)為了考慮bulk數據和scRNA-seq數據之間的數據結構差異,scDEAL協調單細胞和bulk數據的嵌入,以確保藥物反應標簽可從bulk數據轉移到單細胞數據;(iii)為了避免在scRNA-seq數據中丟失異質性,scDEAL在每個訓練epoch代入細胞簇標簽;(iv)scDEAL整合梯度解釋推斷藥物反應預測的特征基因,從而提高了模型的可解釋性。作者對六個基準藥物治療的scRNA-seq數據進行綜合分析和評估,scDEAL在預測細胞類型藥物反應方面上有高準確率。作者通過追蹤和累積DTL模型中每個神經元的積分梯度,進一步識別被認為直接導致細胞中藥物敏感性或耐藥性的基因特征。最后,證明預測的藥物反應與治療程序的表達軌跡很好地吻合。總體而言,作者相信scDEAL能夠在單細胞藥物反應預測中部署DTL模型,這可能有利于藥物開發、再利用和癌癥治療選擇研究。

2 結果 scDEAL框架概述 首先,scDEAL在bulk水平上對基因表達特征和藥物反應之間的關系進行建模;然后,識別單細胞和bulk數據之間共享的低維特征空間,以協調兩種數據類型之間的關系。通過共享的低維特征空間捕獲bulk水平的基因表達-藥物反應關系。訓練DTL模型來學習上述兩種關系的優化方案。最后,單細胞-藥物反應關系可以通過DTL模型中的單細胞水平的基因表達、bulk水平的基因表達和藥物反應的元關系來建立。總體而言,scDEAL可以推斷單個細胞的藥物反應,而無需在單細胞水平上進行監督訓練(圖1a)。

scDEAL框架包括五個主要步驟:(1)提取bulk基因特征,(2)使用在步驟1中提取的特征預測每個bulk細胞系中的藥物反應,(3)提取單細胞基因特征,(4)聯合訓練和更新前面步驟中的所有模型,(5)將訓練好的模型遷移并應用到scRNA-seq數據以預測藥物反應(圖1b)。scDEAL的訓練由一個僅使用bulk數據確定bulk特征降維和藥物反應預測的初始參數的源模型,以及一個包含scRNA-seq數據并部署遷移學習策略來訓練和更新單細胞藥物反應預測的整個框架的目標模型組成。訓練了兩個去噪自動編碼器(DAE),以分別從bulk數據和scRNA-seq數據中提取低維基因特征;DTL模型以多任務學習的方式同時更新兩個DAE模型和預測器模型。該框架協調bulk表達數據和scRNA-seq數據,并將可信的基因-藥物關系從bulk水平遷移到單細胞水平。scDEAL的輸出是預測的單個細胞的潛在藥物反應。

模型訓練的關鍵挑戰之一是在協調scRNA-seq數據與bulk數據時保持單細胞異質性。為了解決這種挑戰,作者應用了兩種策略。首先,由于bulk RNA-seq和scRNA-seq數據中的噪聲特征非常不同,使用DAE模型,而不是常見的自編碼器或變分自編碼器,在特征降維之前在bulk和scRNA-seq中誘導噪聲。通過這種方式,可以避免不平衡訓練的風險,這種風險只會迫使scRNA-seq數據中的基因表達接近于bulk RNA-seq數據。其次,整合了細胞聚類結果以正則化scDEAL的整體損失函數,以便在訓練過程中保留細胞異質性。

圖1 scDEAL框架

在scDEAL中對單細胞藥物反應預測進行基準測試 作者評估了由五種藥物(即順鉑、吉非替尼、I-BET-762、多西他賽和埃羅替尼)治療的六個公共scRNA-seq數據集的藥物反應預測性能。所有數據集都提供了單個細胞的真實藥物反應注釋(即藥物敏感或耐藥)。ground truth標簽是從原始手稿中提取的二進制指示符(0表示抗性,1表示敏感)。大多數研究根據治療條件確定對整個細胞群的藥物反應,例如,二甲基亞砜(DMSO)治療的細胞都是敏感的,治療后存活的細胞都是耐藥的。與真實標簽相比,scDEAL預測使用七個指標進行評估:F1得分、AUROC、AP得分、準確率、召回率、AMI和ARI。作者展示了基于scDEAL優化超參數在六個數據集上的F1得分、AUROC和AP得分的結果(圖2a)。

如上所述,scDEAL在所有六個數據集中的單細胞藥物反應預測方面取得了相當高的性能。此外,為了闡明scDEAL框架設計的基本原理,作者替換或刪除了scDEAL中的特定組件,并將結果與最終框架的結果進行了比較。如果最終的scDEAL框架能夠勝過所有替代模型,它將得到全面驗證。

首先,通過僅在bulk數據上訓練模型,直接將其用于scRNA-seq數據預測,無需步驟3(遷移學習) ,進行比較測試。對于每個數據,實驗重復50次。所有六個數據集的結果顯示,與不使用遷移策略相比,使用轉移策略時F1得分顯著增加(圖2b)。比較表明,遷移學習有助于提高單細胞藥物反應預測的性能。

其次,為了評估遷移模型的訓練能力是否依賴于bulk資源,僅使用來自GDSC數據庫、僅CCLE數據庫以及GDSC和CCLE數據庫的組合的bulk數據對scDEAL進行基準測試。結果表明,結合來自GDSC和CCLE數據庫的bulk數據可以顯著提高預測能力(圖2c)。

第三,驗證使用DAE和細胞類型正則化是否有助于減少單細胞異質性的損失并提高預測性能。比較使用常見的自編碼器在bulk和scRNA-seq數據中提取特征的框架、使用DAE但未按細胞類型正則化的框架和最終的scDEAL框架(包括DAE和細胞類型正則化)的結果。對于所有六個數據集,在框架中使用DAE和細胞類型正則化獲得了比其他兩個選項更好的性能(圖2d)。為了進一步闡明添加細胞類型正則化如何更好地保持scRNA-seq數據的異質性,作者使用來自具有和不具有細胞類型正則項的scDEAL的潛在表示展示了具有細胞簇和藥物反應注釋的細胞(圖2e)。UMAP結果表明,在應用細胞類型正則項后,細胞在簇內變得更加有序和緊湊。

最后,作者展示了一個網格參數調整結果,包括6個超參數的480種組合。總體而言,結果顯示單個參數選擇對scDEAL性能沒有顯著影響。對于任何新數據集,作者建議調整bulk采樣方法和瓶頸維度,因為在實現最佳預測性能時,這兩個參數在六個數據集之間存在很大差異。為了評估scDEAL的魯棒性,作者對六個數據集進行了隨機分層抽樣測試(n?=?20) (圖2f)。根據F1得分、AUROC、AP得分、精準率、召回率、AMI和ARI的變化,表明scDEAL在多次隨機抽樣中是魯棒的。

圖2 scDEAL的基準測試結果

scDEAL在多種I-BET治療條件下對白血病細胞的的藥物反應預測結果良好 作者展示了scDEAL對數據6的分析能力,包括用BET抑制劑(I-BET)處理的1419個混合譜系白血病-AF9(MA9)白血病細胞(圖3a)。接下來,引入一個基因評分來反映敏感(或抗性)細胞簇中鑒定的差異表達基因的整體基因表達水平。分數背后的假設是準確的預測會給細胞分配正確的反應標簽。因此,用于準確預測的抗性和敏感狀態之間的DEGs基因評分應與源自ground truth的DEGs相關。此外,作者的DEG顯示的基因評分模式可以比使用真實標簽識別的DEG更好地區分抗性和敏感細胞(圖3b)。對于敏感的DEG列表,預測的DEG分數與地面真實DEG分數之間的相關性高達R2?=?0.90,對于抗性DEG列表,R2?=?0.77(圖3c)。作者進行了經驗零模型檢驗來評估相關性的顯著性。隨機選擇與作者預測的DEG相同數量的基因,并如上所述計算相關性1000次。經驗檢驗(n?=?1000)結果顯示,對敏感和抗性DEG評分相關性的p值低于0.001,表明作者的相關性顯著且具有統計學意義(圖3d)。

圖3 I-BET治療的數據6的案例研究

scDEAL可以識別負責藥物反應的關鍵基因 盡管scDEAL對單細胞藥物反應提供了準確的預測,但對模型中活躍的遺傳特征的理解是必不可少的。作者在數據1中對順鉑治療的口腔鱗狀細胞癌(OSCC)進行了scDEAL分析。順鉑通過與DNA上的嘌呤堿基相互作用產生DNA交聯來發揮其抗癌活性,干擾DNA復制并導致額外的有害DNA雙鏈斷裂,如果不修復,會導致癌細胞凋亡。因此,任何可以增強DNA修復或/和抑制細胞凋亡的因素都能夠使癌細胞對順鉑治療產生抗性。使用scDEAL,85%的細胞被正確預測為對順鉑敏感或耐藥 (圖4a)。調整后的p值<0.05、log-fold變化<0.1且在任何一個比較組中細胞百分比高于0.2的基因被定義為影響藥物反應的關鍵基因(CG)。在HN120P(敏感細胞組)中識別出936個藥物敏感CGs,在HN120PCR(順鉑治療四個月后的耐藥細胞組)中識別出868個耐藥CGs,IG評分差異顯著(圖4b)。作者觀察到幾種預測最高的抗性CG,例如BCL2A1和DKK1,具有抗凋亡活性(圖4c)。已證明這些基因的過表達介導對順鉑的抗性。

圖4 具有順鉑藥物反應的數據1的scDEAL案例研究

scDEAL藥物反應預測與偽時間分析高度相關 應用Monocle3對數據6(用I-BET治療)進行軌跡推斷,以驗證作者預測的藥物反應是否與藥物治療的進展相關。基于基因表達的偽時間分析顯示了從DMSO樣品開始向1000ml I-BET治療樣品的軌跡趨勢(圖5a)。當將偽時間結果與相同擴散UMAP上的藥物反應進行比較時,觀察到DMSO對照對治療樣品的抗性增加(圖5b)。這些結果表明,在高劑量藥物后測序的剩余活細胞表現出顯著的藥物耐受性,這也與實驗藥物反應標簽(ground-truth標簽)非常吻合。除了預測和軌跡拓撲之間的一致性外,作者還進一步解釋了scDEAL中識別的CG的抗性發展趨勢。作者展示了兩個代表性的I-BET抗性CG的表達值,即Eid2和Galnt17(圖5c),以及兩個代表性的I-BET敏感基因,即Emilin1和Ramp1(圖5d)。觀察到這些基因的表達水平與偽時間分析的軌跡和預測的藥物反應概率評分相匹配。

關于預測的CG和DEG的比較以及軌跡的進一步研究表明,預測的CG列表在區分敏感和耐藥細胞狀態方面具有更明顯的表達(圖5e)。Pearson評分與pseudotime值之間的相關性高達0.81(正相關)和-0.93(負相關),這表明scDEAL的預測可能暗示藥物反應發展。敏感和耐藥細胞組中的前十名CG顯示出不同的表達模式,并且與偽時間分數高度相關(圖5f)。總之,作者證實了scDEAL中預測的藥物反應結果和CG與I-BET處理的細胞偽時間軌跡有很強的相關性。

圖5 用偽時間軌跡驗證預測的藥物反應

3 總結與討論 scDEAL使用bulk基因表達數據增強了scRNA-seq數據分析和解釋,可用于預測癌癥scRNA-seq數據和其他疾病中細胞群的藥物反應。適應scRNA-seq數據的神經網絡可以在bulk細胞系數據上進行初步訓練。因此,可以從scRNA-seq數據預測藥物敏感性。需要注意的是,scDEAL僅根據訓練好的模型和scRNA-seq基因表達矩陣預測單細胞藥物反應,不需要標簽。

未來工作展望: * 通過整合額外的bulk數據庫來更新scDEAL訓練數據,提高scDEAL中預測結果的準確性。 * 增加實驗驗證的藥物反應scRNA-seq數據,有助于確定更好的模型超參數,甚至有助于開發直接的單細胞到單細胞深度遷移學習模型。 * 跨不同物種的單細胞藥物反應預測,如人類到小鼠。

scDEAL在單細胞水平上改進藥物開發方面具有相當大的潛力。首先,它可用于預測藥物反應并將基因特征與治療效果聯系起來。其次,CG可用于CRISPR篩選或細胞重編程的潛在目標簽名。第三,它可以應用于現有的未經藥物治療的scRNA-seq數據,以預測多個細胞簇中的潛在藥物反應,可以選擇用于動物藥物測試。從長遠來看,作者相信該工作可以為細胞重編程、藥物選擇和再利用以及聯合用藥以提高治療效果做出貢獻并提供見解。

參考資料 Chen, J., Wang, X., Ma, A. et al. Deep transfer learning of cancer drug responses by integrating bulk and single-cell RNA-seq data. Nat Commun 13, 6494 (2022). //doi.org/10.1038/s41467-022-34277-7

數據

代碼

付費5元查看完整內容

編譯 | 王海云

審稿 | 王娜 本文介紹由清華大學生命科學學院生物信息學教育部重點實驗室、北京結構生物學高級創新中心和生物結構前沿研究中心、合成與系統生物學研究中心的Qiangfeng Cliff Zhang通訊發表在 Nature Communications 的研究成果:作者提出了SCALEX,一種深度學習方法,通過將細胞投射到一個批次不變的、共同的細胞嵌入空間,以真正的在線方式(即不需要重新訓練模型)整合單細胞數據。SCALEX在不同模式的基準單細胞數據集(scRNA-seq,scATAC-seq)上的表現大大優于在線iNMF和其他最先進的非在線整合方法,特別是對于有部分重疊的數據集,在保留真正的生物差異的同時準確地對齊類似細胞群。作者通過構建人類、小鼠和COVID-19患者的可持續擴展的單細胞圖譜來展示SCALEX的優勢,每個圖譜都由不同的數據源組裝而成,并隨著每個新數據的出現而不斷增長。在線數據整合能力和卓越的性能使SCALEX特別適合于大規模的單細胞應用。

簡介

單細胞實驗可以將樣本分解為不同的細胞類型和細胞狀態。許多計算工具已經被開發出來用于單細胞數據集的綜合分析,所有這些工具都是為了從非生物噪音中分離出生物變異,如不同供體、條件和/或分析平臺的批次效應。

目前大多數的單細胞數據整合方法都是基于跨批次的細胞對應關系的搜索,例如類似的單個細胞或細胞群。這些方法有三個限制。首先,它們容易混合只存在于某些批次的細胞群,這對于整合每批中包含不重疊的細胞群的復雜數據集(即部分重疊的數據)是一個嚴重的問題。其次,它們需要的計算資源隨著細胞數量和批次的增加而急劇增加,使得這些方法越來越不適合今天的大規模單細胞數據集。最后,這些方法只能消除當前正在評估的數據集的批次效應。每次增加一個新的數據集,都需要一個全新的整合過程,改變以前研究的現有整合結果。在線數據整合能力在當今的單細胞實驗中變得越來越關鍵。

在這里,作者開發了SCALEX,作為一種基于VAE框架的異質單細胞數據的在線整合方法。SCALEX的編碼器被設計成一個數據投影函數,在投影單細胞時只保留批量不變的生物數據成分。重要的是,該投影函數是一個通用的函數,不需要對新數據進行再訓練,因此允許SCALEX以在線方式整合單細胞數據。

結果

SCALEX實現了一個通用的編碼器,能夠在線整合單細胞數據 為了實現在線整合,SCALEX的基本設計理念是實現一個廣義的投影函數,將單細胞數據的批處理相關成分從批處理不變量成分中分離出來,并將批處理不變量成分投影到一個共同的細胞嵌入空間。在這里,為了獲得一個無需重新訓練的用于數據投影的通用編碼器,SCALEX包括三個具體的設計元素(圖1a)。首先,SCALEX實現了一個沒有批處理的編碼器,它只從輸入的單細胞數據(x)中提取與生物相關的潛在特征(z),以及一個特定批處理的解碼器,它通過在數據重構期間將批處理信息納入其中,從z中重構原始數據。只向解碼器提供批次信息,使編碼器只關注學習批次不變的生物成分,這對編碼器的泛化能力至關重要。第二,SCALEX在其解碼器中包括一個使用多分支批次歸一化的DSBN層,以支持在單細胞數據重建過程中納入批次特定變化。第三,SCALEX編碼器采用了一個迷你批次策略,從所有批次(而不是單一批次)中取樣,這更嚴格地遵循了輸入數據的整體分布。請注意,每個迷你批次都要經過編碼器中的批次歸一化層,以調整每個迷你批次的偏差,并使其與整體輸入分布相一致。

SCALEX比最先進的單細胞數據整合方法要準確得多 作者按照最近一項比較研究中提出的評價框架,廣泛評估了SCALEX的基本數據整合性能。作者在多個數據集上與多種方法做了比較,包括在線iNMF和一些最先進的非在線單細胞數據整合方法,包括Seurat v3、Harmony、MNN、Conos、BBKNN、Scanorama、LIGER(即批量iNMF)和scVI。作者根據基準數據集,通過統一模態逼近和投影(UMAP)嵌入可視化以及一系列評分指標,評估了這些工具的整合性能。

MNN、scVI和Conos整合了許多數據集,但仍有一些常見的細胞類型沒有得到很好的排列。在線的iNMF、LIGER、BBKNN和Scanorama經常有未合并的共同細胞類型,有時還錯誤地將不同的細胞類型混在一起。例如,考慮到PMBC數據集中兩批之間的T細胞群(圖1b),雖然SCALEX、Seurat v3、Harmony、MNN、scVI整合是有效的,但在線iNMF將一些CD4初始T細胞與CD8初始T細胞錯位,并將一些NK細胞與CD8 T細胞錯位。根據調整蘭德指數(ARI)和歸一化互信息(NMI)的評估,SCALEX在細胞類型聚類方面的表現大大優于其他所有方法(圖1c)。

SCALEX可擴展到Atlas級別的數據集,并可容納 不同的數據模式 在最近的一項比較研究中,包含大量細胞并由來自多個組織的異質和復雜樣本組成的單細胞數據集被稱為 " Atlas-level "數據集。這些數據集對數據整合工具提出了新的挑戰。作者將SCALEX應用于一個典型的Atlas數據集,即人類胎兒Atlas數據集,其中包含來自GSE156793和GSE134355兩個數據批次的4,317,246個細胞,以此來測試SCALEX的可擴展性和計算效率。SCALEX準確地整合了這兩批數據,顯示了相同細胞類型的良好排列(圖1d)。SCALEX可用于整合其他模式的單細胞數據(如scATAC-seq、通過測序對轉錄組和表位進行細胞索引、CITE-Seq等)和跨模式的數據(如同時分析scRNA-seq和scATAC-seq)。SCALEX在整合小鼠大腦scATAC-seq數據集方面大大優于所有其他方法(圖1f),并在整合其他單細胞數據模式包括CITEseq和空間轉錄組MERFISH數據方面表現良好。作者還用SCALEX整合了一個跨模式的數據集(scRNA-seq和scATAC-seq),發現SCALEX正確地整合了兩種模式的數據,并區分了scRNA-seq數據中特有的稀有細胞,包括pDC和血小板細胞(圖1g),根據UMAP嵌入和多種分析指標,SCALEX的表現比其他方法更好,包括scjoint和bindSC。

圖1 用于單細胞數據整合的SCALEX的設計和性能。

SCALEX在沒有過度修正的條件下整合了部分重疊的數據集 許多最近的單細胞數據集,特別是Atlas級數據集,具有高度的樣本異質性和復雜的細胞類型組成。這些數據集往往包含部分重疊的批次,其中每批包含一些不重疊的細胞群。這種部分重疊問題給單細胞數據整合帶來了重大挑戰,往往會導致過度校正的問題(即不同細胞類型的混合),特別是對于那些基于局部細胞相似性的方法。例如,Seurat v3混合了肝細胞CXCL1、肝細胞-CYP2A13和肝細胞TAT-AS1細胞,Harmony混合了肝細胞-CYP2A13和肝細胞-TAT-AS1細胞(圖2a)。作為一種將細胞投射到一個共同的細胞嵌入空間的全局整合方法,預計SCALEX對這個問題不那么敏感。事實上, SCALEX正確地保持了五個肝細胞亞型的分離(和scVI一樣,圖2a)。出乎意料的是,盡管是一個全局性的方法,在線iNMF嚴重遭受了過度修正,混合了所有五個肝細胞亞型,甚至混合了B細胞和NK細胞(圖2a),可能是因為其矩陣因子算法強迫不同細胞類型的對齊。

作者定義了一個過度修正分數,這是一個衡量這種過度修正問題的指標,基于每個細胞的鄰域中細胞類型不一致的百分比。從形式上看,過度校正得分是一個負指數,即過度校正得分越高,細胞類型的不準確混合程度越嚴重。對于基準數據集,SCALEX的過度校正分數最低(圖2b),而在線iNMF產生了極高的過度校正分數。為了系統地描述不同方法在部分重疊的數據集上的性能,作者構建了具有一系列常見細胞類型的測試數據集,這些數據集是根據胰腺數據集中六種主要細胞類型的下采樣產生的。SCALEX整合在所有情況下都是準確的,對準相同的細胞類型而沒有過度校正,而Seurat v3、Harmony和在線的 iNMF經常混合不同的細胞類型(圖2c,d)。

SCALEX通過在線投影添加新的數據,增加了現有細胞空間的范圍和分辨率 SCALEX的編碼器具有通用性,可以將不同來源的細胞投射到一個共同的細胞嵌入空間,而不需要重新訓練模型,這使得SCALEX能夠以在線方式將新的單細胞數據與現有的數據進行整合。作者對SCALEX基于胰腺數據集的新到數據的在線數據整合性能進行了測試。在投影之前,作者首先使用SCALEX來整合胰腺數據集,這準確地消除了原始數據中明顯的批次效應(圖3a)。隨后,作者使用在原始胰腺數據集上訓練的同一個SCALEX編碼器將三批新的胰腺組織scRNA-seq數據(圖3b)投影到這個 "胰腺細胞空間"。投影后,新批次中的大多數細胞都準確地對準了胰腺細胞空間中的正確細胞類型,從而能夠通過細胞類型標簽轉移對其進行準確注釋(圖3c)。作者通過計算ARI、NMI和F1分數來評估投影的準確性,以便通過標簽轉移與原始研究中的細胞類型信息進行細胞類型注釋。作者將結果與在線iNMF和scVI進行了比較,這兩個工具能夠將細胞投影到現有的細胞空間中(注意scVI的數據投影需要通過scArches進行模型再訓練)。在與在線iNMF和scVI的比較中,SCALEX取得了最高的投影精度(圖3c)。scVI也取得了較高的精度,將大多數細胞投影到正確的位置,只有少數α和導管細胞例外。在線iNMF在納入新的批次時混合了不同的細胞類型,例如將一些α細胞投射到γ和δ細胞的位置上,這反過來又導致了在標簽轉移時的錯誤注釋(圖3c)。

將新的單細胞數據投射到現有的細胞嵌入空間的能力,使SCALEX能夠隨時用額外的信息細節來豐富(即增加生物分辨率)這個細胞空間。為了驗證這一點,作者將另外兩批黑色素瘤數據(SKCM_GSE72056,SKCM_GSE123139)投射到先前構建的PBMC空間。同樣,SCALEX正確地將所有常見的細胞類型投射到PBMC細胞空間的相同位置(圖3d),但在線iNMF將腫瘤細胞與血漿、單核細胞和CD8 T細胞混合,scVI則將CD8T細胞分成幾個不同的組。重要的是,對于只存在于黑色素瘤數據批次中的腫瘤細胞和漿細胞,SCALEX沒有將這些細胞投射到PBMC空間中的任何現有細胞群上;相反,它將它們投射到靠近類似細胞的新位置,漿細胞投射到靠近B細胞的位置,而腫瘤細胞投射到靠近造血干細胞的位置(圖3e)。這表明SCALEX可以通過數據投影,用新的細胞類型充實現有的細胞空間 通過數據投射來豐富現有的細胞空間。

SCALEX投影還可以利用新數據對現有細胞空間中的未知細胞類型進行事后注釋。例如,作者注意到在胰腺數據集中有一組以前未被描述的細胞(圖3a)。作者發現這些細胞顯示了已知上皮基因標記物的高表達水平。因此,作者從支氣管上皮細胞數據集中收集了一些上皮細胞,然后將這些上皮細胞投射到胰腺細胞空間。作者發現,一組抗原呈遞的氣道上皮細胞(SLC16A7+上皮細胞)被投射到未定性細胞的同一位置(圖3f)。這些數據,再加上觀察到這兩個細胞群顯示出類似的標記基因表達(圖3g),表明這些未定性細胞也是SLC16A7 +上皮細胞。

SCALEX整合構建可擴展的單細胞圖譜 將異質數據結合到一個共同的細胞嵌入空間的能力使SCALEX成為一個強大的工具,從不同的數據集集合中構建一個單細胞圖集。盡管原始數據有很強的批次效應,SCALEX還是準確地將三批小鼠圖譜的數據整合到一個共同的細胞嵌入空間中(圖4a-c)。常見的細胞類型在細胞空間的同一位置排列整齊,包括所有組織中的B、T和內皮細胞,以及特定組織中的近端腎小管、尿路細胞和肝細胞。不同的細胞類型被單獨定位,如Microwell-seq數據中的精子、Leydig和小腸細胞,Smart-seq2數據中的角質細胞干細胞和大腸細胞,表明生物變化被很好地保存下來。作者將SCALEX與其他所有方法進行了比較,發現SCALEX在細胞類型聚類方面表現最好,尤其是避免了過度校正(圖4d,e)。重要的是,用SCALEX生成的圖譜可以通過投影新的單細胞數據來進一步擴展,以支持原始圖譜和新數據中的細胞的比較研究。為了說明這一效用,作者將來自Tabula Muris Senis(Smart-seq2和10X)的兩批額外的老年小鼠組織數據和兩個單組織數據集(肺和腎)投射到SCALEX小鼠圖譜的細胞空間。作者發現,新的數據批中的細胞被正確地投射到初始圖集的細胞包埋空間中相同的細胞類型的位置上(圖4f),這一點被標簽轉移對新數據的準確細胞類型注釋所證實(圖4g)。

一個綜合的SCALEX COVID-19 PBMC圖譜揭示了COVID-19患者之間不同的免疫反應 許多單細胞研究已經被用于分析COVID-19患者的免疫反應。然而,這些研究往往存在樣本量小和/或對各種疾病狀態采樣有限的問題。為了進行全面的研究,作者使用SCALEX生成了一個COVID-19 PBMC圖譜,整合了9項COVID-19研究的數據,涉及10批共860,746個單細胞(圖5a)。作者確定了22種細胞類型,每種類型都有基因表達數據支持的典型標志物(圖5b,c)。有趣的是,作者發現一些細胞亞群與病人狀態有不同的關聯(圖5d)。CD14單核細胞亞群(CD14-ISG15-Mono)的特點是高表達I型干擾素刺激的基因(ISG)和富含免疫反應相關基因本體論(GO)術語的基因(圖5e,f)。從輕度、中度到重度患者,CD14-ISG15 Mono細胞的頻率明顯增加(圖5g)。在COVID-19患者中,作者觀察到在輕度、中度和重度病例之間,CD14-ISG15-Mono細胞的ISG基因表達明顯下降,表明在重度COVID-19患者中存在類似免疫衰竭的反應(圖5e)。

SCALEX COVID-19 PBMC Atlas與SC4聯盟研究的在線整合 作者基于SCALEX COVID-19 PBMC圖譜的分析結果與中國COVID-19單細胞聯盟(SC4)研究的兩個結論一致,該研究最近進行了大規模的努力,從171名COVID-19患者和25名健康對照者中產生了一個超過100萬個細胞的單細胞圖譜。首先,這兩項研究觀察到相同的免疫細胞亞群,顯示出與COVID-19嚴重程度的不同關聯。CD14單核細胞、巨核細胞、漿細胞和原T細胞的比例隨著疾病嚴重程度的增加而升高,而pDC和mDC細胞的比例下降(圖5g)。其次,根據在SCALEX COVID-19 PBMC Atlas中的細胞計算相同的細胞因子評分和炎癥評分(在SC4研究中定義),作者證實單核細胞亞群與SARS-Cov2感染引發的細胞因子風暴有關,并且在嚴重患者中進一步升高(圖5j)。

SCALEX的在線整合能力使作者能夠將SC4聯盟的數據集投射到SCALEX COVID-19 PBMC圖譜的細胞空間。作者發現,兩個圖集的細胞類型排列得很好(圖5h,i)。SC4數據的整合進一步大幅提高了SCALEX COVID-19 PBMC圖譜的范圍和分辨率。首先,該數據將巨噬細胞和上皮細胞加入到細胞空間中,使調查它們在COVID-19中的潛在參與成為可能。這種整合還支持對特定的細胞亞群進行更精確的表征。例如,巨核細胞群在SCALEX COVID-19 PBMC圖譜或SC4圖譜中都沒有區分,在SC4投影后,在聯合圖譜中被分為兩個亞群(圖5h)。對這兩個新劃分的巨核細胞亞群(TUBA8-Mega和IGKC-Mega)中差異表達的基因進行探索性功能分析,發現IGKC-Mega細胞的GO術語 "體液免疫反應 "富集,但TUBA8-Mega細胞的 "血小板激活的負性調節 "富集(圖5k)。這些結果說明了使用SCALEX生成的可持續擴展的單細胞圖譜如何利用現有的大規模數據資源,并促進新的生物和生物醫學見解的發現。

3 總結與討論 單細胞研究正變得越來越普遍,規模越來越大,樣本類型的范圍也在不斷擴大,往往有相當多的異質細胞子集。因此,非常需要數據整合工具來準確和有效地處理這些Atlas級的數據集。此外,還需要有在線整合能力,以不斷地將傳入的新數據與現有的整合相結合,而不必從頭開始重新計算。SCALEX學習了一個廣義的投影函數,將異質的單細胞數據投影到一個共同的細胞嵌入空間,使其能夠實現真正的在線數據整合。SCALEX在計算上也是高效的,并且在整合部分重疊的數據集時保留了生物變化,避免了過度校正。這些特點使SCALEX對Atlas級別的數據集特別有用,允許整合許多單細胞研究,以支持整個生命科學和生物醫學領域正在進行的、非常大規模的研究項目。作者推測,使用SCALEX來預測來自高度多樣化的癌癥類型的單細胞數據集,以構建一個泛癌癥單細胞圖譜,可能會導致發現以前未知的細胞類型,這些細胞類型在不同的癌癥中是共同的,并在發病機制、惡性腫瘤進展和/或轉移中發揮作用。

參考資料 Xiong, L., Tian, K., Li, Y. et al. Online single-cell data integration through projecting heterogeneous datasets into a common cell-embedding space. Nature Communications 13, 6118 (2022). //doi.org/10.1038/s41467-022-33758-z

代碼

圖2 不同方法對部分重疊的數據集的整合性能比較。

圖3 將異質數據投射到一個共同的細胞嵌入空間中。

圖4 構建一個可擴展的小鼠單細胞圖譜。

圖5 在線整合COVID-19 PBMC圖譜。

付費5元查看完整內容

作者 | 楊柳青 審核 | 劉洛濤 今天給大家分享的是印度德里英德拉普拉斯塔信息技術研究所和澳大利亞昆士蘭前列腺癌研究中心發表在Nature Communications上的論文《Gene expression based inference of cancer drug sensitivity》。本文介紹了一種使用基因表達數據預測癌癥治療藥物敏感性的深度神經網絡模型——Precily。作者將藥物的結構特性與基因表達的通路特異性相結合作為特征來訓練模型,該模型在體外和體內預測藥物反應都取得了較好的表現。 摘要**

**

腫瘤異質性是癌癥治療的主要絆腳石,也是癌癥患者產生不同藥物反應的主要原因。現階段使用的癌癥藥物主要針對常見的癌癥治療靶點,但并不是所有的癌癥和抗癌藥物都與常見的、研究透徹的腫瘤標志物有關,而且在不考慮耐藥性的情況下實施靶向治療可能會降低患者的生存率。所以對癌癥患者進行預先繪制分子圖譜和提前推斷藥物反應是必要的。作者介紹了一種使用基因表達數據推斷癌癥治療反應的深度神經網絡模型——Precily,展示了將通路活性與藥物描述符結合起來作為特征的優勢。作者將Precily應用于高通量數據集中與癌細胞系相關的bulk RNA-seq和scRNA-seq測序數據,并且使用作者自己的前列腺癌細胞系和暴露在不同治療條件下的異種移植數據集來評估模型對藥物反應的可預測性,證明了該方法的適用性。


****方法


**1. 輸入數據預處理

(1)分子描述符:基于從CCLE數據庫中篩選的550個細胞系在GDSC數據庫中獲得了192種化合物的藥物反應信息,基于1517名TCGA患者的用藥情況獲得了215種化合物的臨床反應信息,對這些化合物進行SMILES檢索,過濾掉沒有SMILES描述符的藥物分子,最后獲得550個CCLE細胞系對應的173個化合物的SMILES和1443個TCGA患者對應的139個化合物的SMILES。使用smiles2vec工具將這些SMILES轉換為大小為100的向量。 (2)通路活性分數:從分子特征庫(MSigDB)中選取包含1329個基因集的C2典型通路集合作為輸入的參考基因集,以log2(TPM+1)基因表達矩陣作為輸入,使用基因集變異分析(GSVA)R軟件包計算GSVA得分,得到通路得分矩陣。將通路得分矩陣與藥物特征向量嵌入相結合,最終CCLE細胞系訓練數據集包括80056個細胞系藥物組合行和1429個特征,其中1329個路徑和載體大小為100的藥物特征作為解釋變量,LN IC50作為反應變量列。對于TCGA患者數據,將單個癌癥類型的基因表達譜轉化為通路得分,根據共同通路合并每個癌癥類別中藥物反應信息可用的樣本的GSVA得分。最終矩陣包括3108個患者藥物組合和1427個特征(通路得分和藥物描述符),反應變量為患者是否對藥物有反應(有反應者=1,無反應者=0)。2. 訓練模型 作者制定了用通路得分矩陣和藥物分子描述符作為決策變量,LN IC50值作為反應變量的有監督回歸任務。作者利用Keras框架構建和訓練了深度神經網絡(DNN),DNN體系結構包括一個能輸入所有特征的輸入層,隱藏層和輸出層,每層以ReLU作為激活函數。作者將CCLE訓練數據集分為90%的訓練集(72262個細胞系-藥物對)和10%的測試集(7794個細胞系-藥物對),以便細胞系之間沒有重疊。使用五折交叉驗證進行超參調優,使用Adam優化器來優化學習率。最小化均方誤差損失。

**

結果

**1. Precily能夠在癌細胞系中預測可重復的藥物反應 作者在未利用化合物結構信息的情況下將Precily與兩種廣泛應用的、基于基因表達預測藥物敏感性的方法(CaDRReS方法和Theodore等人的方法)和傳統的機器學習方法進行比較,證明基于Precily-pathway的預測與基本事實的相關性最高,其次是CaDRReS-Sc(圖c)。但僅基于基因表達譜的預測方法是不理想的,因為它沒有利用化合物的結構信息。將藥物結構信息與pathway匯總進行預測時,Precily的藥物敏感性預測值獲得了0.88(R2=0.68,p value<2.2e-16)的Pearson 相關系數值(圖d)。除此之外,作者利用CTRPv2數據庫中的另一批小分子抗癌藥物與CCLE的細胞系組合進行預測,初步得到的皮爾遜相關系數為0.84(R2=0.70;p value<2.2e-16)(圖e)。上述分析證明,Precily對于預測癌細胞系對抗癌藥物治療的敏感性具有合理的準確性和可重復性。

  1. 利用單細胞表達譜預測藥物反應 為了證明Precily在單細胞表達譜水平上預測藥物反應的潛力,作者使用了兩個現有研究的單細胞轉錄組數據集進行分析。首先使用Kinker G.S.等人提供的207個癌細胞系scRNA-seq數據,其中116個細胞系與CCLE數據集重疊。作者重新訓練了CCLE/GDSC模型,使得Kinker,G.S.等人的細胞系數據集從未用于模型訓練,將重新訓練后的模型用于Kinker G.S.等人的數據集,模型預測值與真實值的皮爾遜相關系數=0.85(R2=0.73;p value<2.2e-16)(圖a)。在另外一項關于轉移性乳腺癌的研究,Precily也正確預測了藥物治療反應(圖b)。

  1. 前列腺癌細胞系不同治療策略分析 作者將Precily應用于自己研究的五個未經藥物處理的前列腺癌(PCa)細胞系的bulk RNA-seq數據,每個細胞系進行兩個生物學重復。并預測了GDSC數據庫中針對不同細胞通路的155種藥物在上述十個樣本的藥物反應。發現雄激素受體(AR)陽性的PCa細胞系(LNCaP、DuCaP和VCAP)與AR陰性的細胞系(DU145和PC3)相比對藥物相更敏感,且根據藥物與通路的關系清楚預測了LNCaP細胞對PI3K/mTOR信號通路靶向藥物的潛在敏感性(圖a、b、c)。另外,作者預測在雄激素受體(AR)激動劑雙氫睪酮(DHT)和AR拮抗劑比卡魯胺(BIC)、恩雜魯胺(ENZ)和阿帕魯胺(APA)存在的不同情況下,LNCaP細胞系對藥物的敏感性變化(圖d、e、f),從而暗示了Precily在確定潛在的前列腺癌聯合療法方面具有指導意義。

  1. 患者臨床反應的可預測性作者基于TCGA數據集中患者腫瘤細胞RNA-seq數據、患者用藥情況及用藥反應,使用自動機器學習(AutoML)H2O.ai的現成R庫構建藥物反應分類器,用于預測患者對藥物治療是否有反應。AutoML共評估了34個模型(包括機器學習、深度學習、增強模型和集成模型),并提供了“極端隨機樹”(XRT)作為最佳模型,且XRT在測試數據集中的AUC-PR為0.85(圖a)。作者的分析結果也表明患者的藥物反應概率與生存風險之間具有相關性。另外,作者將TCGA模型應用于一個與黑色素瘤相關的獨立數據集時能夠正確預測三位患者的耐藥性,從而評估了TCGA模型的可用性和準確性。

更多、更詳細的實驗方法與結果請查看原文。 論文鏈接://www.nature.com/articles/s41467-022-33291-z 代碼鏈接:

付費5元查看完整內容

編譯|程昭龍

審稿|林榮鑫,王靜 本文介紹由美國斯坦福大學醫學院干細胞生物學與再生醫學研究所的Sean M. Wu通訊發表在 Nature Communications 的研究成果:在單細胞RNA測序分析中,由于細胞表現出復雜的多層身份或過渡狀態,導致對數據集的精確注釋成為主要挑戰。因此,作者提出了一個高度精確的機器學習工具devCellPy,它能自動預測跨復雜注釋層次結構的細胞類型。為了證明devCellPy的強大功能,作者從已發布細胞的數據集中構建了小鼠心臟發育圖譜,并訓練devCellPy生成心臟預測算法。該算法可以在多層注釋和小鼠發育數據中達到高預測精度。最終研究表明,devCellPy是一個可跨復雜細胞層次結構、物種和實驗系統進行自動細胞預測的工具。

1 簡介 在過去的十年中,單細胞RNA測序(scRNA-seq)技術為調控胚胎發育、細胞特性和疾病狀態的轉錄環境提供了前所未有的見解。但隨著實驗中獲得的細胞數量持續增長,生物信息學家通常需通過無監督聚類和手動細胞類型分配的費力過程來識別數千個細胞。此外,人工細胞類型指定可能導致研究組間細胞注釋的高可變性,以及實驗間細胞識別的低再現性。

為了應對這些挑戰,研究人員利用參考數據集將注釋映射到新收集的數據上,開發了用于識別細胞類型的信息學工具。雖然這些工具提供了強大的注釋算法,但依然缺乏全自動化的過程對跨復雜注釋層次的細胞進行分類,其中這些細胞表現出多個身份子類或時間限制的細胞類型。例如,在從發育中的胚胎收集的scRNA-seq數據中,細胞表現出動態和短暫的細胞狀態以及更精細的細胞特征。在訓練預測模型時,使用不考慮時間變量的算法自動分配細胞標識時,某些細胞標識可能只在已定義的發展時間點出現,這就造成了額外的挑戰。此外,如果沒有對數據進行大量的子聚類和重新計算新的降維特征空間,這些更精細的特征通常是無法檢測到的。自動細胞預測算法通常要求用戶構建單獨的參考模型,以實現對高粒度細胞亞型的注釋。這一挑戰在發育數據集中尤為突出,其中細胞類型存在于發育的有限時期內,因此,使生成統一預測模型復雜化。

為了解決這些挑戰,作者提出了基于Python的發育細胞預測(devCellPy)工具,用于從任何組織或物種獲得的高度復雜的注釋層次結構中自動預測細胞身份。devCellPy預測模型的基礎是極端梯度提升(XGBoost),這是一種有監督的機器學習方法,通過使用一系列梯度增強的決策樹集成來學習創建精確預測所需的輸入特征集。DevCellPy通過學習特定參考數據集的注釋層次結構和創建預測模型以全自動化的方式跨所有注釋層對細胞進行分類,其在細胞標識的自動化分配方面取得了重大進展。重要的是,該算法允許將時間點變量合并到注釋層次結構中,因此,可以對限定時間段內出現的細胞標識進行分類。

為了證明devCellPy在多層細胞預測方面的能力,作者從多個公開的scRNA-seq數據集中構建了一個單一的大規模心臟發育細胞圖譜。因為在心臟發育過程中存在非常復雜的不同細胞類型注釋,并且心臟內的細胞類型表現出隨時間變化的基因表達模式,所以作者在心臟發育數據集上測試了devCellPy的預測能力。實驗結果表明,該算法在多個層面(包括時間受限的細胞群)都具有高度準確性的預測能力,這進一步證明了devCellPy算法在跨物種預測心肌細胞類型方面的廣泛適用性。

2 結果 devCellPy 能夠生成用于細胞類型和亞型分類的多層預測算法

為了解決以分層方式自動分類細胞類型和亞型的挑戰,作者構建了一種基于Python的軟件包devCellPy,它可用于生成包含時間元素的細胞身份預測算法。devCellPy由訓練和預測步驟組成。在訓練期間,一個包含多層注釋的參考數據集被用于訓練算法(圖1a)。用戶為devCellPy提供一個注釋層次結構,其指定了數據集中的多個層和細胞類別,包括用于構造細胞類型和時間相關的注釋層次結構的時間點變量。此外,用戶為參考數據中的所有細胞提供一個對數規范化表達式矩陣,以及包含跨層次結構所有層的單細胞注釋的元數據表(圖1b)。作者在devCellPy中引入LayerObject類來創建一個有組織的數據結構,其中算法學習數據集的注釋層次結構,并包含層次結構中每個層的位置信息(圖1c)。該系統允許跨層次結構的正確分支自動分類細胞亞型,并為層次結構的每一層訓練一個XGBoost預測模型,并將其存儲在該層各自的LayerObject中。

除了LayerObjects,作者還在devCellPy中實現了最近開發的Shapley Additive explained (SHAP)算法。SHAP有助于devCellPy輸出在進行細胞類型分類的訓練過程中自動識別的基因標記,從而突出顯示用于對感興趣數據集中的細胞類型進行分類的主要陽性和陰性基因標記(圖1c)。在使用參考數據集訓練devCellPy之后,用戶可以使用devCellPy生成的預測算法,通過導出一個直接加載到算法中的對數歸一化計數矩陣來對查詢數據集進行分類(圖1d)。devCellPy將自動讀取矩陣文件,并使用存儲在LayerObjects中的預測模型來輸出查詢細胞的多層細胞類型和子類型預測。除了提供輸出注釋之外,devCellPy還將為每個分類的細胞輸出概率度量,以向用戶提供有關算法在進行細胞預測時的可信度信息。總體而言,該算法的結構允許用戶從任何模型生物的任何組織獲得的任何參考scRNA-seq數據集來創建訓練模型,并可以輕松導出這些模型,以對類似細胞類型和亞型的新數據集進行預測。

圖1 devCellPy結構圖

大規模心臟發育圖譜的構建

為了測試devCellPy在生成用于進行多層細胞注釋的高精度預測算法方面的性能,作者首先從四個公開的數據集中集成了一個中胚層來源的心臟發育細胞類型的大規模scRNA-seq圖譜,經過整合的數據集可觀察到從早期原腸胚形成到主要心臟細胞類型的清晰發育軌跡(圖2a)。

通過關注中胚層衍生的細胞類型,作者觀察到從多能外胚層細胞開始的分化樹,通過原始條紋過渡到早期新生的中胚層祖細胞,并進展為心臟祖細胞(圖2b)。盡管這些數據集來自四個不同的來源,但經過成功地整合所有數據集,可以觀察到12種主要細胞類型在整個發育時期的聚類(圖2b, c)。UMAP圖顯示了發育一致的結構,心臟祖細胞組成樹干,隨后分裂成不同的細胞類型。作者還通過對所有主要標注的細胞類型進行差異基因表達分析,進一步驗證了構建圖譜中分配的注釋,并證實了已報道的12個主要細胞群的主要細胞標記的獨特表達(圖2d,e)。

圖2 中胚層來源心臟發育細胞圖譜的構建

devcellPy生成的算法可以精確預測注釋層復雜層次結構中的細胞類型

在建立了包含多層注釋的大型心臟發育圖譜后,作者繼續測試了devCellPy在該數據集上生成高度精確的細胞識別預測算法的能力。通過對心肌細胞圖譜進行多層分析,其中頂層代表廣義細胞注釋,其次是心肌細胞亞型,以及在發育過程中按時間點劃分的心室心肌細胞亞型(圖3a)。為了測試算法的分類性能,作者將數據隨機劃分為90%和10%的分區,分別用于交叉驗證和保留數據集測試(圖3b)。實驗結果顯示,對于第一層注釋,該模型在 10 輪獨立訓練中顯示出高整體準確度(圖 3c)。同時,devCellPy 對10% 保留數據進行了分類(這些分類在訓練后的模型中未發現),這證實了devCellPy高度準確的預測(圖 3d)。

對心室心肌細胞亞群的心肌細胞預測算法性能的進一步分析表明(圖 3c),實驗觀察到的性能指標在第一層注釋上得分最高,而在注釋層次結構較低級別中發現的密切相關的細胞類型中略有下降。為了進一步評估devCellPy的性能精度,作者還將該算法的性能與先前發布的單細胞預測算法(CaSTLE、SeuratV3、scmap、SingleCellNet)進行了比較,結果表明,devCellPy在所有評估的細胞類型中顯示了最高的整體精度。

圖3 devCellPy在各層之間的性能評估

devCellPy識別生物相關的細胞標記

為驗證devCellPy生成的心臟預測算法是否可以識別與發育相關的基因,以便跨細胞層進行預測。作者通過使用devCellPy中的SHAP算法,確定了測試的每一層注釋中細胞類型的主要陽性和陰性預測基因。對于第一層,算法自動識別出先前驗證過的細胞類型預測因子。在實驗中,一般的細胞類型預測因子可以揭示已知細胞類型的主要陽性預測因子,而除了識別一般細胞類型的典型標記外,SHAP還可以識別其他細胞類型的標記。

除了在第一層中識別一般細胞類型的主要標記外,作者還確定了用于在多個分化時間點識別心肌細胞和心室心肌細胞亞型的主要基因。并且,devCellPy還跨時間點識別了多個先前發表的心肌細胞亞型標記,同時也以特定的時間點方式識別了獨特的標記。

devcellPy生成的算法從de novo數據集中準確預測細胞類型

為了進一步評估devCellPy的性能,驗證devCellPy生成的預測算法是否能夠成功預測以前數據集中沒有遇到過的細胞類型。作者分析了來自三個新來源的scRNA-seq數據,并從E10.5小鼠心臟中生成了新的數據,并測試了devCellPy對心臟圖譜中存在的所有細胞類型進行全自動預測的能力。同時,作者進一步評估了其他細胞預測算法對心臟圖譜中所有細胞類型進行完整分類的能力(圖4a、b)。作者將機器學習分類與查詢數據集的無監督聚類注釋期間分配的手動注釋進行了比較(圖4b),手動注釋和devCellPy預測的比較顯示,兩種注釋方法在17個細胞類別中的11個中具有高度的一致性,準確率達80%(圖4c)。

與之前發表的其他機器學習方法相比,devCellPy在心臟圖譜中所有細胞類型的分類方面優于SingleCellNet、Seurat和scPred。所有其他方法對外胚層、原始條紋和新生中胚層的人工方法顯示出高度的一致性,但在其他細胞類型中觀察到的預測準確性較低。并且,在密切相關的細胞類型中,如心臟祖細胞、心外膜和間充質細胞以及心肌細胞亞型,其他方法在人工方法和機器學習預測之間顯示出低一致性(圖4c)。總體而言,實驗結果證明了devCellPy生成的預測算法可以準確預測de novo數據集中的細胞類型,并在對高粒度細胞類型進行預測時優于其他方法。

圖4 devCellPy預測新的scRNA-seq數據

devCellPy生成的心臟預測算法揭示了hiPSC衍生心肌細胞的發育不成熟和心室特異性心肌細胞分化

在驗證了devCellPy對胚胎小鼠心肌細胞分類的準確性后,作者研究驗證了是否可以使用小鼠心臟預測算法來準確預測人誘導多能干細胞(hiPSC)衍生的心肌細胞的類別(圖5a, b)。鑒于已知的體外衍生心肌細胞不成熟,作者驗證了早期胚胎小鼠模型是否能更好地預測 hiPSC 系統中的心肌細胞亞型。通過對六個時間點的心肌細胞進行分析,并繪制了前兩個主成分的單細胞圖。正如預期的那樣,細胞以時間依賴性方式沿著第一個主成分前進(圖5c)。此前有報道稱,小分子雙相WNT協議在缺乏后向視黃酸信號的情況下主要產生心室特異性心肌細胞。為了證實這一點,作者繪制了在hiPSC、人類胎兒和小鼠胚胎發育過程中經過驗證的心室標志物Myl2、Myl3、Myh7的表達圖,并證實了所有這些確定的心室標志物的表達逐漸增加(圖5d)。為繼續驗證基于小鼠數據訓練的devCellPy模型是否能夠準確識別hiPSC-CMs心室特性,作者基于E7.75和E13.5之間的早期小鼠胚胎時間點訓練了多個devCellPy預測模型,用于識別心肌細胞亞型。然后使用基于時間點的模型計算devCellPy的預測置信度,以確定hiPSC-CMs心室特性。實驗結果表明,hiPSC-CMs表現出發育不成熟,并且hiPSC-CMs的胚胎表型和小鼠心肌細胞成熟基因表達程序具有密切保守性。

圖5 devCellPy小鼠預測模型確定了心室優勢HiPSC-CMs的發育不成熟

3 總結 在這項研究中,作者開發了一個基于Python的生物信息學管道devCellPy,它可以使用精確的高分辨率參考數據集,自動預測多個發育時間點和級聯注釋層的細胞類型。分層注釋結構存在于多個器官、物種和模型系統之間。正如此處介紹的心臟發育圖譜所示,細胞表現出多個身份子類。此外,對數據集進行精確的手動標注通常需要有對陽性和陰性表達標記的專業知識,這可能導致經驗不足的用戶,在數據集標注過程中的可再現性較差。以前的研究也表明,包含多個子類的高度相關細胞類型的深度注釋數據集,可能會對自動細胞分類器的性能產生負面影響。作者通過創建分層組織的預測模型來解決這一問題,該模型在 “LayerObject”對象類的注釋層次結構中編碼它們的位置。通過將密切相關的細胞類型的預測分解為不同的注釋層,從而在注釋層次結構中的高粒度細胞子類之間實現更高分辨率的預測結果。重要的是,用戶可以在層次結構中指定時間點,從而允許在跨注釋的多個子層中構建時間點相關預測。隨著細胞在預測層次結構中移動,devCellPy將只對用戶設置的概率閾值的細胞進行下一層分類,從而允許對跨每個分類層的細胞類型進行高置信度注釋。此外,devCellPy中的LayerObjects具有高度可移植性,允許用戶共享訓練過的預測模型,或導出單個LayerObjects進行單層預測。devCellPy的可移植性允許科學界廣泛使用專家策劃的參考圖譜,以在復雜場景中進行細胞預測。

除了可移植性之外,devCellPy還需要對數據集進行處理以進行訓練和預測,devCellPy可以識別超過35000個輸入基因中的生物學相關標記基因。該算法的高預測性能表明,除了歸一化計數表達式矩陣外,不需要額外的預處理或特征選擇來從精確的高分辨率參考數據集中訓練算法和參考標簽。當將devCellPy的性能與其他之前發表的細胞分類算法進行比較時,devCellPy的自動化分層方法在分類心臟圖譜中存在的所有細胞類型方面優于其他分類訓練方法。同時,devCellPy完全自動化了跨多層細胞標識的訓練,從而自動化了跨復雜注釋層次結構預測細胞的過程。此外,雖然其他方法允許為一組獨特的標簽生成細胞預測模型,但devCellPy允許跨時間點相關注釋自動分類,從而為跨發育數據集的細胞分類提供了顯著的改進。

devCellPy為scRNA-seq分析提供了一個重要工具,它為生成細胞類型/亞型預測算法提供了一個全自動化的管道,且該算法非常適用于分層注釋的數據集。作者的工作表明,devCellPy生成的算法具有高度通用性,可推廣到任何scRNA-seq數據集,并提供了一個完全開源的Python包。隨著大規模發育細胞圖譜的發展,devCellPy將提供資源來幫助識別跨平臺和物種的細胞類型,特別是在注釋良好的參考數據集中顯示復雜的多層注釋方案。

參考資料 Galdos, F.X., Xu, S., Goodyer, W.R. et al. devCellPy is a machine learning-enabled pipeline for automated annotation of complex multilayered single-cell transcriptomic data. Nat Commun 13, 5271 (2022). //doi.org/10.1038/s41467-022-33045-x

數據鏈接:

代碼鏈接:

付費5元查看完整內容

編譯|程昭龍

審稿|王靜本文介紹由華大基因的汪建和牟峰共同通訊發表在 Nature Machine Intelligence 的研究成果:單細胞數據集規模的不斷擴大,對解決擴展的規模、擴展的模態和批次效應等問題帶來了計算挑戰。最近提出的基因深度學習的方法,是通過推導非線性細胞嵌入來解決這些問題。對此,**作者提出了基于對比學習的方法Concerto,它利用自監督的蒸餾框架來模擬多模態單細胞圖譜。**只需將每個細胞與其他細胞區分開來,Concerto 就可以適用于各種下游任務,如細胞類型分類、數據集成、參考映射。與當前的主流軟件包不同,Concerto 的對比設置支持對所有基因進行操作以保留生物變異,它還可以靈活地推廣到多組學中以獲得統一的細胞表示。在模擬數據集和真實數據集上進行基準測試,實驗結果表明,Concerto 的性能遠優于其他方法。并且,Concerto 概括了不同的免疫反應,還發現了 COVID-19 患者的疾病特異性細胞狀態。總體而言,Concerto 將通過迭代構建單細胞參考圖譜并快速映射新的數據集來傳輸相關的細胞注釋,從而促進生物醫學研究。

1 簡介 目前,單細胞多組學工具正在以前所未有的分辨率徹底改變組織表征,而人類細胞圖譜和小鼠細胞圖譜的規模已接近數百萬。同時,單細胞分析還具有以下特點。首先,技術脫落或生物信號可能會帶來過多的零計數。主流軟件包通過特征選擇和線性降維來提取可能導致信息丟失的主要變化,深度學習方法為模擬所有基因之間的非線性關系提供了一種解決方案,變分自動編碼器(VAE)利用具有重構功能的編碼器-解碼器結構來學習低維細胞嵌入。其次,批次效應廣泛存在于技術、條件和捐助者之間。從混雜效應中分離生物信號對數據集成非常重要,Seurat v.3使用相互最近鄰識別跨批次的錨細胞對,但一次只允許兩個批次的集成,并且隨著處理細胞數量的增加,其內存消耗也呈指數增長。為了校正批次效應,Harmony迭代地使用模糊聚類和線性校正,而trVAE則是利用條件VAE。最后,query-to-reference映射可以快速解釋新生成的數據集,而無需費力的從頭聚類或手動注釋。與嚴格的監督分類不同,作者將query-to-reference映射視為無監督遷移學習問題,從學習到的查詢嵌入中推導出基于投票的注釋。

對比學習最近在計算機視覺領域取得了巨大成功,受其在建模未標記數據方面的啟發,作者認為可通過自監督的方式區分每個細胞來獲得高質量的表示。蒸餾方案也被用在非對稱神經網絡中,從監督環境中的模型壓縮和在線共蒸餾發展到半監督環境中的自訓練,進行自監督蒸餾以獲得更好的表示。

因此,作者提出了一個用于單細胞分析的自蒸餾對比學習框架 Concerto。通過對真實數據集和模擬數據集進行基準測試,學習的嵌入可以針對各種下游需求進行微調,包括自動細胞類型分類、聚類、批次效應校正的數據集成以及query-to-reference映射。Concerto 可以靈活地處理多組學數據集,并在每個任務中優于其他方法。此外,作者利用Concerto 根據包含健康和感染樣本的綜合參考圖譜查詢 COVID-19 免疫細胞數據集,概括了具有不同疾病狀態的患者的幾種不同免疫特征。實驗結果表明,Concerto 是一個強大、準確、可擴展的表示學習框架,可用于 1000 萬個細胞規模的單細胞多模態分析。

2 結果 Concerto結構概述

Concerto 利用配置為非對稱師生架構的自蒸餾對比學習框架(圖 1a),非對稱設計注入了不平衡的模型復雜性,即較大的教師網絡通過注意力機制將基因嵌入聚合到細胞嵌入中,而較小的學生網絡則通過密集操作將離散輸入轉換為細胞嵌入。通過為每個未標記的細胞定義實例區分前置任務,Concerto通過最大化每個細胞的師生視圖之間的一致性來學習語義不變嵌入。在輸出層之前添加一個隨機的dropout掩碼,以便在SimCSE的句子處理方案的推斷下,在模型級別生成最小的數據增強。同時,通過添加一個特定域的批處理規范化層以校正批次效應。在處理多組學數據集時,對每個模態進行簡單的元素求和可以生成統一的細胞嵌入(圖1b)。通過投射到單位超球面空間上,Concerto將同一細胞的師生視圖作為正對匯集在一起,同時分開同批次內的其他細胞,最終將細胞區分開來。學習到的嵌入可以針對各種下游任務進行微調,包括自動細胞類型分類、聚類、批次效應校正的數據集成以及query-to-reference映射(圖1c)。

圖1 Concerto結構概述

Concerto有助于自動細胞類型分類并發現跨組織的新細胞類型

為了證明對比學習的嵌入滿足嚴格的細胞分類,作者使用現有的注釋作為訓練標簽來在 Concerto 上實現監督微調。通過使用人類外周血單核細胞數據集(PBMC45k, n = 31021)來對比不同的分類器,包括基于似然的SciBet、基于神經網絡的Cell BLAST、基于相關性的SingleR、基于支持向量機的Moana和元學習方法MARS。Concerto分為兩步:預訓練和微調,而其他方法則是端到端訓練。作者還通過丟棄對比損失并以完全監督的方式進行訓練,從而實現了 Concerto(Concerto-E2E)的端到端版本。實驗結果表明,Concerto 幾乎在所有的train-test分割上都遠優于其他方法。

如果測試集包含訓練樣本中不存在的細胞類型,好的分類器應該將非上述(NOTA)細胞標記為拒絕預測選項。作者將PBMC CITE-seq數據集在三個水平上注釋,并從訓練集中去除不同的T細胞粒度以評估NOTA方法,圖2顯示Concerto可以清晰地分離出1級和2級掩蔽的驗證集和測試集的置信曲線。即使在最具挑戰性的3級情景中,Concerto也能得到與驗證曲線部分重疊的雙峰曲線。

圖2 Concerto和SciBet對比實驗

對于跨組織注釋,作者采用與MARS類似的實驗設計,將一個組織作為未注釋的測試集,并在所有其他組織上訓練Concerto。通過添加域適應模塊,Concerto在22個保留組織上實現了優于MARS的調整蘭德指數(ARI)。與 MARS 類似,Concerto 可以有效地進行知識轉移以發現跨組織的新細胞類型。

Concerto可在多模態數據集上實現無監督聚類

一項新的單細胞研究通常從無監督聚類開始,然而,離散的集群可能會忽略細胞狀態之間的平滑過渡。Cell-ID 可以以無聚類的方式提取每個細胞的基因特征。為此,作者評估了 Concerto 嵌入在從頭聚類中的效用,并表明 Concerto 還可以在單細胞分辨率下提取具有生物學意義的特征。通過在PBMC45k(n=11377個細胞)選擇具有最小批次效應的子集,作者將 Concerto 的表示與 Seurat 在不同聚類算法上的共享最近鄰進行比較。實驗證明,Concerto嵌入上的Leiden聚類(Concerto+Leiden)在五種分辨率下顯著優于其他方法(圖3a),并且,Concerto可以很好地將聚類分配與手動注釋對齊(圖3b)。

圖3 對比 Concerto嵌入和其他方法的聚類性能

為了驗證納入轉錄組以外的其他組能夠更精確地定義細胞特性,作者使用RNA、蛋白質或兩者同時作為輸入來實現Concerto,并將學習到的嵌入通過分層注釋進行可視化(圖4)。Concerto 可以簡單地通過對每個模態進行元素求和來獲得統一的視圖,從而解決任意數量的擴展模態。Concerto 的教師模塊使用注意力機制來聚合基因嵌入。首先假設注意力權重可以通過復制細胞類型建立的分子特征來提供某些模型的可解釋性。實驗結果證明了用于定義細胞身份的關鍵特征的歸一化注意力貢獻,成功地恢復了一些典型細胞類型的規范模態特異性標記。

圖4 Concerto學習嵌入的可視化

Concerto通過消除批次效應實現數據集成

面對將不同來源合并到參考圖譜時需要校正批次效應的問題,作者在多供體人體胰腺 (HP) 胰島數據集(8批次,n = 14890 個細胞)上對 Concerto 的數據集成性能進行了基準測試。通過設計六種方案來評估輸入基因數量的影響,觀察到Concerto在六種情況下實現了遠高于其他方法的平均輪廓寬度(ASW),這表明Concerto可以更好的捕獲生物變異。同時,Concerto的對比學習目標不受融合不同亞群的影響,并能保留生物變異以構建高質量參考。

Concerto實現高精度的query-to-reference映射

我們進一步評估了 Concerto 將查詢細胞映射到協調的參考嵌入的能力。與嚴格的細胞分類不同,查詢到參考映射僅在推理過程中使用細胞類型標簽。特別地,作者首先使用預訓練的模型權重計算查詢嵌入,將查詢細胞定位在它們最相似的參考細胞附近,并使用 k 最近鄰(通常 k = 5)投票分類器將參考注釋轉移到查詢。通過設計兩個實驗:跨技術映射和跨物種映射,結果表明,Concerto在兩個實驗中均達到最高的平均 ACC(圖5a)。并且,混淆矩陣(圖 5b)表明Concerto 可以準確地跨技術和跨物種轉移標簽。然后,作者還設計了一項研究來預測看未知的細胞類型,并評估整合所有基因是否對此有益。通過從PBMC160k 中分配一個樣本 (P3) 作為查詢,并使用其他七個樣本來構建參考。該實驗證明Concerto可以沿著具有生物學意義的連續體投射未知的細胞亞型,Concerto還可以推斷查詢細胞中不可測量的模態。

圖5 Concerto和其他方法進行query-to-reference 映射的性能對比

Concerto可以擴展到1000萬細胞的圖譜構建和參考映射

對于可擴展性分析,作者模擬虛擬參考并針對每個參考映射等量的查詢細胞。通過將整個任務分成多個處理批次,對比學習自然是可并行化的并且易于擴展到超大圖譜。Concerto可以有效擴展以構建數百萬個細胞參考,從而在幾分鐘內實現快速映射。Concerto還可以在僅使用CPU的典型計算機上工作,需要1.1小時構建100000個細胞的參考,并在30分鐘內查詢相同數量的細胞。實驗表明Concerto是最具可擴展性的,不需要PCA或縮放,可以對所有基因進行操作并很好地支持多模態集成。

映射COVID-19免疫細胞與疾病參考圖譜

作者進一步使用Concerto 將最近發布的 COVID-19 PBMC 數據集投影到全面的COVID-19參考中。然后在不進行微調的情況下,即可將查詢集投影到其上(圖6a)。COVID-19參考包含與查詢中類似的疾病相關細胞狀態,因此,直接的模型推理足以進行快速映射。對于所有注釋的CD8 T細胞,Concerto可以區分不同疾病狀態(健康對照,輕度和重度)的原始、增殖、記憶和效應狀態的不同組成,并獲得一致的狀態特異性特征(圖6b、c)。

圖6 Concerto保留COVID-19患者的差異免疫應答

總體而言,Concerto 成功地分離了病理狀態,保留了細微的狀態特異性變異,并識別了不同的免疫特征。無論實施直接推理還是無監督微調,都取決于參考的多樣性和查詢的相關性,更全面的參考通常有利于映射性能。Concerto 可以通過迭代更新參考來覆蓋更多樣化的樣本,從而形成一個持續學習的框架。

3 總結 假設每個細胞不同,Concerto通過區分每個細胞與其他細胞來學習高質量的細胞表示。基于將不同的理論基礎的方法與基于PCA或VAE的方法進行比較,對比學習的嵌入非常適合于保存生物學細微差別。Concerto支持對所有基因進行操作,這對于在基于映射的任務中確保查詢和參考之間的特征重疊尤為重要。Concerto的非對稱自蒸餾方案在從教師網絡的注意力操作中學習語義豐富的表示和從學生網絡密集輸出中獲得良好的泛化性之間取得了平衡。通過解釋注意力權重,Concerto可以在單細胞分辨率下自動提取一些典型的分子特征,并確定每種模態對定義細胞身份的相對貢獻。query-to-reference映射已成為單細胞分析中的一種新范式。Concerto的對比設置很容易并行化,并根據參考多樣性或相關性支持直接推理或無監督微調。通過簡單的元素總和,Concerto可以有效地支持多組學集成。當大規模疾病圖譜可用時,Concerto在轉化研究中也顯示出巨大的潛力。

參考資料 Yang, M., Yang, Y., Xie, C. et al. Contrastive learning enables rapid mapping to multimodal single-cell atlas of multimillion scale. Nat Mach Intell 4, 696–709 (2022).

//doi.org/10.1038/s42256-022-00518-z

數據鏈接:

代碼鏈接:

付費5元查看完整內容
北京阿比特科技有限公司