編譯 | 王海云
審稿 | 王娜 本文介紹由清華大學生命科學學院生物信息學教育部重點實驗室、北京結構生物學高級創新中心和生物結構前沿研究中心、合成與系統生物學研究中心的Qiangfeng Cliff Zhang通訊發表在 Nature Communications 的研究成果:作者提出了SCALEX,一種深度學習方法,通過將細胞投射到一個批次不變的、共同的細胞嵌入空間,以真正的在線方式(即不需要重新訓練模型)整合單細胞數據。SCALEX在不同模式的基準單細胞數據集(scRNA-seq,scATAC-seq)上的表現大大優于在線iNMF和其他最先進的非在線整合方法,特別是對于有部分重疊的數據集,在保留真正的生物差異的同時準確地對齊類似細胞群。作者通過構建人類、小鼠和COVID-19患者的可持續擴展的單細胞圖譜來展示SCALEX的優勢,每個圖譜都由不同的數據源組裝而成,并隨著每個新數據的出現而不斷增長。在線數據整合能力和卓越的性能使SCALEX特別適合于大規模的單細胞應用。
簡介
單細胞實驗可以將樣本分解為不同的細胞類型和細胞狀態。許多計算工具已經被開發出來用于單細胞數據集的綜合分析,所有這些工具都是為了從非生物噪音中分離出生物變異,如不同供體、條件和/或分析平臺的批次效應。
目前大多數的單細胞數據整合方法都是基于跨批次的細胞對應關系的搜索,例如類似的單個細胞或細胞群。這些方法有三個限制。首先,它們容易混合只存在于某些批次的細胞群,這對于整合每批中包含不重疊的細胞群的復雜數據集(即部分重疊的數據)是一個嚴重的問題。其次,它們需要的計算資源隨著細胞數量和批次的增加而急劇增加,使得這些方法越來越不適合今天的大規模單細胞數據集。最后,這些方法只能消除當前正在評估的數據集的批次效應。每次增加一個新的數據集,都需要一個全新的整合過程,改變以前研究的現有整合結果。在線數據整合能力在當今的單細胞實驗中變得越來越關鍵。
在這里,作者開發了SCALEX,作為一種基于VAE框架的異質單細胞數據的在線整合方法。SCALEX的編碼器被設計成一個數據投影函數,在投影單細胞時只保留批量不變的生物數據成分。重要的是,該投影函數是一個通用的函數,不需要對新數據進行再訓練,因此允許SCALEX以在線方式整合單細胞數據。
結果
SCALEX實現了一個通用的編碼器,能夠在線整合單細胞數據 為了實現在線整合,SCALEX的基本設計理念是實現一個廣義的投影函數,將單細胞數據的批處理相關成分從批處理不變量成分中分離出來,并將批處理不變量成分投影到一個共同的細胞嵌入空間。在這里,為了獲得一個無需重新訓練的用于數據投影的通用編碼器,SCALEX包括三個具體的設計元素(圖1a)。首先,SCALEX實現了一個沒有批處理的編碼器,它只從輸入的單細胞數據(x)中提取與生物相關的潛在特征(z),以及一個特定批處理的解碼器,它通過在數據重構期間將批處理信息納入其中,從z中重構原始數據。只向解碼器提供批次信息,使編碼器只關注學習批次不變的生物成分,這對編碼器的泛化能力至關重要。第二,SCALEX在其解碼器中包括一個使用多分支批次歸一化的DSBN層,以支持在單細胞數據重建過程中納入批次特定變化。第三,SCALEX編碼器采用了一個迷你批次策略,從所有批次(而不是單一批次)中取樣,這更嚴格地遵循了輸入數據的整體分布。請注意,每個迷你批次都要經過編碼器中的批次歸一化層,以調整每個迷你批次的偏差,并使其與整體輸入分布相一致。
SCALEX比最先進的單細胞數據整合方法要準確得多 作者按照最近一項比較研究中提出的評價框架,廣泛評估了SCALEX的基本數據整合性能。作者在多個數據集上與多種方法做了比較,包括在線iNMF和一些最先進的非在線單細胞數據整合方法,包括Seurat v3、Harmony、MNN、Conos、BBKNN、Scanorama、LIGER(即批量iNMF)和scVI。作者根據基準數據集,通過統一模態逼近和投影(UMAP)嵌入可視化以及一系列評分指標,評估了這些工具的整合性能。
MNN、scVI和Conos整合了許多數據集,但仍有一些常見的細胞類型沒有得到很好的排列。在線的iNMF、LIGER、BBKNN和Scanorama經常有未合并的共同細胞類型,有時還錯誤地將不同的細胞類型混在一起。例如,考慮到PMBC數據集中兩批之間的T細胞群(圖1b),雖然SCALEX、Seurat v3、Harmony、MNN、scVI整合是有效的,但在線iNMF將一些CD4初始T細胞與CD8初始T細胞錯位,并將一些NK細胞與CD8 T細胞錯位。根據調整蘭德指數(ARI)和歸一化互信息(NMI)的評估,SCALEX在細胞類型聚類方面的表現大大優于其他所有方法(圖1c)。
SCALEX可擴展到Atlas級別的數據集,并可容納 不同的數據模式 在最近的一項比較研究中,包含大量細胞并由來自多個組織的異質和復雜樣本組成的單細胞數據集被稱為 " Atlas-level "數據集。這些數據集對數據整合工具提出了新的挑戰。作者將SCALEX應用于一個典型的Atlas數據集,即人類胎兒Atlas數據集,其中包含來自GSE156793和GSE134355兩個數據批次的4,317,246個細胞,以此來測試SCALEX的可擴展性和計算效率。SCALEX準確地整合了這兩批數據,顯示了相同細胞類型的良好排列(圖1d)。SCALEX可用于整合其他模式的單細胞數據(如scATAC-seq、通過測序對轉錄組和表位進行細胞索引、CITE-Seq等)和跨模式的數據(如同時分析scRNA-seq和scATAC-seq)。SCALEX在整合小鼠大腦scATAC-seq數據集方面大大優于所有其他方法(圖1f),并在整合其他單細胞數據模式包括CITEseq和空間轉錄組MERFISH數據方面表現良好。作者還用SCALEX整合了一個跨模式的數據集(scRNA-seq和scATAC-seq),發現SCALEX正確地整合了兩種模式的數據,并區分了scRNA-seq數據中特有的稀有細胞,包括pDC和血小板細胞(圖1g),根據UMAP嵌入和多種分析指標,SCALEX的表現比其他方法更好,包括scjoint和bindSC。
圖1 用于單細胞數據整合的SCALEX的設計和性能。
SCALEX在沒有過度修正的條件下整合了部分重疊的數據集 許多最近的單細胞數據集,特別是Atlas級數據集,具有高度的樣本異質性和復雜的細胞類型組成。這些數據集往往包含部分重疊的批次,其中每批包含一些不重疊的細胞群。這種部分重疊問題給單細胞數據整合帶來了重大挑戰,往往會導致過度校正的問題(即不同細胞類型的混合),特別是對于那些基于局部細胞相似性的方法。例如,Seurat v3混合了肝細胞CXCL1、肝細胞-CYP2A13和肝細胞TAT-AS1細胞,Harmony混合了肝細胞-CYP2A13和肝細胞-TAT-AS1細胞(圖2a)。作為一種將細胞投射到一個共同的細胞嵌入空間的全局整合方法,預計SCALEX對這個問題不那么敏感。事實上, SCALEX正確地保持了五個肝細胞亞型的分離(和scVI一樣,圖2a)。出乎意料的是,盡管是一個全局性的方法,在線iNMF嚴重遭受了過度修正,混合了所有五個肝細胞亞型,甚至混合了B細胞和NK細胞(圖2a),可能是因為其矩陣因子算法強迫不同細胞類型的對齊。
作者定義了一個過度修正分數,這是一個衡量這種過度修正問題的指標,基于每個細胞的鄰域中細胞類型不一致的百分比。從形式上看,過度校正得分是一個負指數,即過度校正得分越高,細胞類型的不準確混合程度越嚴重。對于基準數據集,SCALEX的過度校正分數最低(圖2b),而在線iNMF產生了極高的過度校正分數。為了系統地描述不同方法在部分重疊的數據集上的性能,作者構建了具有一系列常見細胞類型的測試數據集,這些數據集是根據胰腺數據集中六種主要細胞類型的下采樣產生的。SCALEX整合在所有情況下都是準確的,對準相同的細胞類型而沒有過度校正,而Seurat v3、Harmony和在線的 iNMF經常混合不同的細胞類型(圖2c,d)。
SCALEX通過在線投影添加新的數據,增加了現有細胞空間的范圍和分辨率 SCALEX的編碼器具有通用性,可以將不同來源的細胞投射到一個共同的細胞嵌入空間,而不需要重新訓練模型,這使得SCALEX能夠以在線方式將新的單細胞數據與現有的數據進行整合。作者對SCALEX基于胰腺數據集的新到數據的在線數據整合性能進行了測試。在投影之前,作者首先使用SCALEX來整合胰腺數據集,這準確地消除了原始數據中明顯的批次效應(圖3a)。隨后,作者使用在原始胰腺數據集上訓練的同一個SCALEX編碼器將三批新的胰腺組織scRNA-seq數據(圖3b)投影到這個 "胰腺細胞空間"。投影后,新批次中的大多數細胞都準確地對準了胰腺細胞空間中的正確細胞類型,從而能夠通過細胞類型標簽轉移對其進行準確注釋(圖3c)。作者通過計算ARI、NMI和F1分數來評估投影的準確性,以便通過標簽轉移與原始研究中的細胞類型信息進行細胞類型注釋。作者將結果與在線iNMF和scVI進行了比較,這兩個工具能夠將細胞投影到現有的細胞空間中(注意scVI的數據投影需要通過scArches進行模型再訓練)。在與在線iNMF和scVI的比較中,SCALEX取得了最高的投影精度(圖3c)。scVI也取得了較高的精度,將大多數細胞投影到正確的位置,只有少數α和導管細胞例外。在線iNMF在納入新的批次時混合了不同的細胞類型,例如將一些α細胞投射到γ和δ細胞的位置上,這反過來又導致了在標簽轉移時的錯誤注釋(圖3c)。
將新的單細胞數據投射到現有的細胞嵌入空間的能力,使SCALEX能夠隨時用額外的信息細節來豐富(即增加生物分辨率)這個細胞空間。為了驗證這一點,作者將另外兩批黑色素瘤數據(SKCM_GSE72056,SKCM_GSE123139)投射到先前構建的PBMC空間。同樣,SCALEX正確地將所有常見的細胞類型投射到PBMC細胞空間的相同位置(圖3d),但在線iNMF將腫瘤細胞與血漿、單核細胞和CD8 T細胞混合,scVI則將CD8T細胞分成幾個不同的組。重要的是,對于只存在于黑色素瘤數據批次中的腫瘤細胞和漿細胞,SCALEX沒有將這些細胞投射到PBMC空間中的任何現有細胞群上;相反,它將它們投射到靠近類似細胞的新位置,漿細胞投射到靠近B細胞的位置,而腫瘤細胞投射到靠近造血干細胞的位置(圖3e)。這表明SCALEX可以通過數據投影,用新的細胞類型充實現有的細胞空間 通過數據投射來豐富現有的細胞空間。
SCALEX投影還可以利用新數據對現有細胞空間中的未知細胞類型進行事后注釋。例如,作者注意到在胰腺數據集中有一組以前未被描述的細胞(圖3a)。作者發現這些細胞顯示了已知上皮基因標記物的高表達水平。因此,作者從支氣管上皮細胞數據集中收集了一些上皮細胞,然后將這些上皮細胞投射到胰腺細胞空間。作者發現,一組抗原呈遞的氣道上皮細胞(SLC16A7+上皮細胞)被投射到未定性細胞的同一位置(圖3f)。這些數據,再加上觀察到這兩個細胞群顯示出類似的標記基因表達(圖3g),表明這些未定性細胞也是SLC16A7 +上皮細胞。
SCALEX整合構建可擴展的單細胞圖譜 將異質數據結合到一個共同的細胞嵌入空間的能力使SCALEX成為一個強大的工具,從不同的數據集集合中構建一個單細胞圖集。盡管原始數據有很強的批次效應,SCALEX還是準確地將三批小鼠圖譜的數據整合到一個共同的細胞嵌入空間中(圖4a-c)。常見的細胞類型在細胞空間的同一位置排列整齊,包括所有組織中的B、T和內皮細胞,以及特定組織中的近端腎小管、尿路細胞和肝細胞。不同的細胞類型被單獨定位,如Microwell-seq數據中的精子、Leydig和小腸細胞,Smart-seq2數據中的角質細胞干細胞和大腸細胞,表明生物變化被很好地保存下來。作者將SCALEX與其他所有方法進行了比較,發現SCALEX在細胞類型聚類方面表現最好,尤其是避免了過度校正(圖4d,e)。重要的是,用SCALEX生成的圖譜可以通過投影新的單細胞數據來進一步擴展,以支持原始圖譜和新數據中的細胞的比較研究。為了說明這一效用,作者將來自Tabula Muris Senis(Smart-seq2和10X)的兩批額外的老年小鼠組織數據和兩個單組織數據集(肺和腎)投射到SCALEX小鼠圖譜的細胞空間。作者發現,新的數據批中的細胞被正確地投射到初始圖集的細胞包埋空間中相同的細胞類型的位置上(圖4f),這一點被標簽轉移對新數據的準確細胞類型注釋所證實(圖4g)。
一個綜合的SCALEX COVID-19 PBMC圖譜揭示了COVID-19患者之間不同的免疫反應 許多單細胞研究已經被用于分析COVID-19患者的免疫反應。然而,這些研究往往存在樣本量小和/或對各種疾病狀態采樣有限的問題。為了進行全面的研究,作者使用SCALEX生成了一個COVID-19 PBMC圖譜,整合了9項COVID-19研究的數據,涉及10批共860,746個單細胞(圖5a)。作者確定了22種細胞類型,每種類型都有基因表達數據支持的典型標志物(圖5b,c)。有趣的是,作者發現一些細胞亞群與病人狀態有不同的關聯(圖5d)。CD14單核細胞亞群(CD14-ISG15-Mono)的特點是高表達I型干擾素刺激的基因(ISG)和富含免疫反應相關基因本體論(GO)術語的基因(圖5e,f)。從輕度、中度到重度患者,CD14-ISG15 Mono細胞的頻率明顯增加(圖5g)。在COVID-19患者中,作者觀察到在輕度、中度和重度病例之間,CD14-ISG15-Mono細胞的ISG基因表達明顯下降,表明在重度COVID-19患者中存在類似免疫衰竭的反應(圖5e)。
SCALEX COVID-19 PBMC Atlas與SC4聯盟研究的在線整合 作者基于SCALEX COVID-19 PBMC圖譜的分析結果與中國COVID-19單細胞聯盟(SC4)研究的兩個結論一致,該研究最近進行了大規模的努力,從171名COVID-19患者和25名健康對照者中產生了一個超過100萬個細胞的單細胞圖譜。首先,這兩項研究觀察到相同的免疫細胞亞群,顯示出與COVID-19嚴重程度的不同關聯。CD14單核細胞、巨核細胞、漿細胞和原T細胞的比例隨著疾病嚴重程度的增加而升高,而pDC和mDC細胞的比例下降(圖5g)。其次,根據在SCALEX COVID-19 PBMC Atlas中的細胞計算相同的細胞因子評分和炎癥評分(在SC4研究中定義),作者證實單核細胞亞群與SARS-Cov2感染引發的細胞因子風暴有關,并且在嚴重患者中進一步升高(圖5j)。
SCALEX的在線整合能力使作者能夠將SC4聯盟的數據集投射到SCALEX COVID-19 PBMC圖譜的細胞空間。作者發現,兩個圖集的細胞類型排列得很好(圖5h,i)。SC4數據的整合進一步大幅提高了SCALEX COVID-19 PBMC圖譜的范圍和分辨率。首先,該數據將巨噬細胞和上皮細胞加入到細胞空間中,使調查它們在COVID-19中的潛在參與成為可能。這種整合還支持對特定的細胞亞群進行更精確的表征。例如,巨核細胞群在SCALEX COVID-19 PBMC圖譜或SC4圖譜中都沒有區分,在SC4投影后,在聯合圖譜中被分為兩個亞群(圖5h)。對這兩個新劃分的巨核細胞亞群(TUBA8-Mega和IGKC-Mega)中差異表達的基因進行探索性功能分析,發現IGKC-Mega細胞的GO術語 "體液免疫反應 "富集,但TUBA8-Mega細胞的 "血小板激活的負性調節 "富集(圖5k)。這些結果說明了使用SCALEX生成的可持續擴展的單細胞圖譜如何利用現有的大規模數據資源,并促進新的生物和生物醫學見解的發現。
3 總結與討論 單細胞研究正變得越來越普遍,規模越來越大,樣本類型的范圍也在不斷擴大,往往有相當多的異質細胞子集。因此,非常需要數據整合工具來準確和有效地處理這些Atlas級的數據集。此外,還需要有在線整合能力,以不斷地將傳入的新數據與現有的整合相結合,而不必從頭開始重新計算。SCALEX學習了一個廣義的投影函數,將異質的單細胞數據投影到一個共同的細胞嵌入空間,使其能夠實現真正的在線數據整合。SCALEX在計算上也是高效的,并且在整合部分重疊的數據集時保留了生物變化,避免了過度校正。這些特點使SCALEX對Atlas級別的數據集特別有用,允許整合許多單細胞研究,以支持整個生命科學和生物醫學領域正在進行的、非常大規模的研究項目。作者推測,使用SCALEX來預測來自高度多樣化的癌癥類型的單細胞數據集,以構建一個泛癌癥單細胞圖譜,可能會導致發現以前未知的細胞類型,這些細胞類型在不同的癌癥中是共同的,并在發病機制、惡性腫瘤進展和/或轉移中發揮作用。
參考資料 Xiong, L., Tian, K., Li, Y. et al. Online single-cell data integration through projecting heterogeneous datasets into a common cell-embedding space. Nature Communications 13, 6118 (2022). //doi.org/10.1038/s41467-022-33758-z
代碼
圖2 不同方法對部分重疊的數據集的整合性能比較。
圖3 將異質數據投射到一個共同的細胞嵌入空間中。
圖4 構建一個可擴展的小鼠單細胞圖譜。
圖5 在線整合COVID-19 PBMC圖譜。
編譯 | 程昭龍
審稿 | 林榮鑫,王靜 本文介紹由同濟大學控制科學與工程系的洪奕光和中國科學院數學與系統科學研究院的萬林共同通訊發表在 Nature Communications 的研究成果:單細胞數據集成可以提供細胞的全面分子視圖。然而,如何整合異質性單細胞多組學以及空間分辨的轉錄組學數據仍然是一個重大挑戰。為此,作者提出了uniPort,這是一種結合耦合變分自動編碼器(coupled-VAE)和小批量不平衡最優傳輸(Minibatch-UOT)的統一單細胞數據集成框架。它利用高度可變的通用基因和數據集特異性基因進行集成,以處理數據集之間的異質性,并可擴展到大規模數據集。uniPort 將異質性單細胞多組學數據集嵌入到共享的潛在空間。它還可以進一步構建一個用于跨數據集基因插補的參考圖譜。同時,uniPort提供了一個靈活的標簽傳輸框架,以使用最優傳輸計劃去卷積異構的空間轉錄組數據,而不是嵌入潛在空間。作者通過應用uniPort集成多種數據集,包括單細胞轉錄組學、染色質可及性和空間分辨轉錄組學數據,從而證明了uniPort的能力。
簡介
單細胞RNA測序(scRNA)和單細胞染色質轉座酶可及性測序(scATAC)等高通量單細胞多組學測序技術的發展,能夠對構成組織的異質性細胞群、發育過程的動力學以及控制細胞功能的潛在調節機制進行全面研究。單細胞數據集的計算集成是機器學習和數據科學領域的重要研究方向。
現有的單細胞集成方法中,大量工作致力于同時集成來自同一細胞的多個數據集。然而,這些配對數據集在技術上具有挑戰性,且獲取成本高昂。因此,針對來自相同或相似群體的不同細胞的數據,開發了大量的集成方法。例如,Seurat平臺使用典型相關分析(CCA)將特征空間投影到公共子空間中,從而最大化數據集間的相關性。LIGER和DC3采用非負矩陣分解尋找共同特征的共享低維因子來匹配單細胞組學數據集。Harmony在最大多樣性聚類和基于混合模型的線性批次校正之間進行協調迭代,提供了一個潛在空間來去除批次效應。然而,這些方法依賴于線性操作,因此缺乏處理跨細胞模態的非線性變形的能力。此外,它們只利用過濾后的常見基因,而忽略了數據集特異性基因對于識別細胞群的重要性,而這些細胞群通常能捕獲不存在于常見基因中的細胞類型異質性。為了解決這些缺點,多種對比方法在集成單細胞多組學數據集方面取得了很有前景的結果。然而,流形對齊方法受到相對較高的計算復雜度限制,并且不能擴展到大規模數據集。
隨著深度學習的發展,現已提出了許多基于自動編碼器的方法,并證明了它們在跨模態數據集成中的能力。然而,其中大多數方法需要來自相同細胞的配對數據集以利用細胞配對信息,如DCCA和Cobolt。當細胞配對信息不可用時,替代方法是同時訓練不同的自動編碼器,并在潛在空間中跨不同的模態對齊細胞。最近,出現了大量的方法來解釋非配對數據。例如,scDART和跨模態自動編碼器通過自動編碼器學習潛在空間,并通過基于核或基于判別器的差異來對齊潛在表示。然而,這些方法需要進行全局比對,這對于整合異質細胞群往往具有限制性。此外,已開發的基于遷移學習的方法,通過學習模態不變的潛在空間,將知識(如細胞標簽)從一個模態遷移到另一個模態,從而建立源圖譜。這雖然取得了較好的結果,但僅限于使用帶有標注細胞標簽的源模態。
最近發表的單細胞基因組學集成方法,如scMC和SCALEX,在一種模式的批次效應校正方面表現出了最佳性能,但它們尚未成為單細胞多組學數據集成的基準。GLUE是另一種最先進的單細胞多組學集成和集成調控推理方法,其開發了基于高級圖的自動編碼器。同時,許多其他方法被提出用于空間轉錄組學(ST)和scRNA數據的集成分析。其中,gimVI和Tangram取得了最優性能。然而,目前尚未開發出統一集成單細胞多組學以及空間分辨轉錄組學數據的方法。
為此,作者提出了uniPort,這是一個精確、穩健和高效的計算平臺,用于將異構單細胞數據集與最佳傳輸(OT)集成。為了克服傳統VAE在單細胞異質性或非配對數據集成方面的局限性,作者提出了一個通過結合耦合變分自動編碼器(coupled-VAE)和小批量不平衡最優傳輸 (Minibatch-UOT) 的統一計算框架(圖1)。該框架允許利用高度可變的常見基因和數據集特異性基因進行集成,以處理不同數據集的異質性。實驗結果表明,uniPort可以準確、穩健地集成來自外周血單核細胞(PBMC)和小鼠脾臟的scATAC和scRNA數據集。它還可以通過scRNA數據精確填補未測量的空間分辨多重誤差穩健的熒光原位雜交(MERFISH)基因。此外,通過輸出OT計劃,作者證明了uniPort可以準確地破譯小鼠大腦的典型結構,幫助定位乳腺癌區域的三級淋巴結構(TLS),并在基于微陣列的空間數據中揭示癌癥異質性。
圖1 uniPort算法概述
結果
uniPort通過coupled-VAE和Minibatch-UOT嵌入和集成數據集 uniPort在不同模式或技術中采用不同異構單細胞數據集作為輸入。uniPort通過耦合變分自編碼器(coupled-VAE),利用無數據集編碼器將不同數據集的高度可變公共基因集投射到廣義細胞嵌入的潛在空間中。然后uniPort重構兩個輸入項,一個由具有數據集特定批量規范化(DSBN)層的無數據集解碼器輸入;另一個是通過與每個數據集對應的數據集特定解碼器形成的高度可變基因集(圖1)。由于一些常見基因在每個數據集中也高度可變,因此在兩個輸入項之間經常會發現一些重疊的基因。在集成期間,uniPort最大限度地減少了來自不同數據集的潛在空間中細胞嵌入之間的Minibatch-UOT損失。為了獲得更好的校準結果,有必要引入損失,特別是當特定數據集的解碼器被認為增加了潛在空間中不同數據集的異質性時。同時,小批量策略大大提高了OT的計算效率,使其可擴展到大數據集,而不平衡OT更適合異構數據集成。
作者使用了不同的評估指標來評估uniPort集成單細胞數據的能力。為了量化數據集混合和細胞類型分離,作者使用SCALEX計算了兩種評分:批次熵分數用來評估跨數據集混合細胞的程度,輪廓系數用來評估生物學特征的分離。為了對標注聚類的準確性進行基準測試,作者采用了調整蘭德指數(ARI)、歸一化互信息(NMI)和使用細胞類型標注的F1分數。然后,對于配對數據集,作者使用比真實匹配更接近的樣本的平均分數(FOSCTTM)來衡量跨數據集細胞間對應關系的保持情況。
uniPort集成scATAC和scRNA數據 在一個配對的scATAC和scRNA數據集(配對的PBMC數據集)和兩個不配對的scATAC和scRNA數據集(基于微流體的PBMC數據集和小鼠脾臟數據集)上,作者將uniPort與目前最先進的單細胞基因組學集成方法進行了基準測試,同時采用一致的流形近似和投影(UMAP)將積分結果進行可視化。
作者首先應用uniPort來集成配對的PBMC數據集(圖2),配對信息僅用于性能評估。實驗結果表明,uniPort和GLUE的性能最佳,且結果相當(圖2c-e)。在所有比較的方法中,uniPort,、Seurat、 Harmony、 SCOT和GLUE在兩種模式中準確集成了大多數細胞類型(圖2b)。
圖2 uniPort集成了配對的PBMC數據集
除了集成配對的PBMC數據集,作者還在基于非配對微流體的PBMC數據集上進一步評估了uniPort。結果顯示,uniPort準確地集成了scATAC和scRNA數據,并且具有與GLUE、MultiMAP和Harmony相當的競爭性能。此外,作者還在另一個來自小鼠脾臟數據集的未配對的scATAC和scRNA上測試了uniPort (圖3)。uniPort、scMC、Harmony和Seurat都取得了較好的性能。總之,在所有方法中,uniPort與最近發表的最先進方法相比表現良好,且在配對和非配對數據集中均顯示出準確和穩健的結果。
圖3 uniPort集成了非配對的小鼠脾臟數據集
uniPort執行異構數據集的非平衡匹配任務 uniPort最大限度地減少了Minibatch-UOT的損失,適用于不平衡匹配,為異構數據集成提供了強有力的保障。為了評估uniPort在異構數據集成方面的性能,作者分別從小鼠脾臟的scATAC或scRNA中去除一些細胞類型,進行了兩項不平衡匹配任務。去除scATAC數據部分類型的集成任務命名為ATAC不平衡匹配(“UBM-ATAC”),將在scRNA數據中刪除相同細胞類型的集成任務表示為RNA不平衡匹配(“UBM-RNA”)。同時,為了進行比較,將完整小鼠脾臟數據的集成定義為平衡匹配(“BM”)。
在兩種不平衡匹配的情況中,uniPort準確地識別并分離了“DC”、“Granulocyte”、“Macrophage”和“NK”細胞與其他細胞類型,同時很好地對齊了模態共享細胞類型(圖4a, b)。將uniPort與GLUE、Harmony、Seurat、MultiMAP和scMC進行比較,可以發現這些方法都在“BM”任務中取得了較高的準確性。但在所有方法中,只有uniPort和Seurat在三種情況下都取得了穩定的性能(圖4c, d)。因此,與“BM”的情況相比,當數據集中呈現異質性時,uniPort比其他方法更穩健。
圖4 uniPort集成了細胞類型不平衡的小鼠脾臟數據
uniPort集成了MERFISH和scRNA數據 作者進一步考慮了ST和scRNA數據的集成。ST測序技術主要有兩種類型:基于高復雜度RNA成像的ST測序技術和基于條形碼的ST測序技術。基于高復雜度RNA成像的空間測序具有單細胞精度更高、深度更大的優勢,但局限于覆蓋率較低的部分測量。為了測試uniPort在基于高復雜度RNA成像數據上的性能,作者應用uniPort集成了MERFISH和scRNA數據。
在MERFISH數據的155個基因中,使用scRNA和MERFISH中的153個共同基因進行集成。應用UMAP將uniPort、Harmony、Seurat、SCALEX、scVI、gimVI和MultiMAP的細胞嵌入結果可視化(圖5a,b)。從圖中可以看出,uniPort和scVI在鑒別和分離OD 未成熟細胞和其他細胞類型方面的表現優于其他方法。通過再次使用輪廓系數和總分對uniPort與其他方法的集成性能進行基準測試(圖5c, d),可發現uniPort優于其他方法。
uniPort為MERFISH數據插補基因 uniPort訓練了一個編碼器網絡,以將跨數據集中具有共同基因的細胞投射到共同細胞嵌入的潛在空間,同時訓練了一個解碼器網絡,以重建具有共同基因和特定基因的細胞。因此,一旦coupled-VAE訓練良好,就可以將其視為參考圖譜,從而允許uniPort通過圖譜根據另一個數據集的共同基因來對一個數據集中的共同基因和特定基因進行插補。插補基因可用于增強空間轉錄組學的分辨率。
為了探索uniPort的基因插補能力,作者采用gimVI方案從MERFISH的scRNA中插補缺失基因。首先隨機選擇MERFISH中80%的基因作為訓練基因,并保留剩余20%的基因作為測試基因。重復上述步驟12次,得到12個訓練和測試基因集。然后用每個訓練基因集訓練uniPort網絡,同時對相應的測試基因集進行插補,并將實驗結果與兩種最先進的基因插補方法進行比較:gimVI和Tangram。通過應用uniPort、gimVI和Tangram對測試基因進行插補,并使用UMAP對訓練和測試基因進行可視化(圖5e)。在MERFISH數據集上,與兩種比較方法相比,uniPort具有較優的性能 (圖5e,f)。
圖5 uniPort為MERFISH數據插補
uniPort去卷積合成的STARmap數據 基于條形碼的ST更容易獲得轉錄本,覆蓋率更高,但僅限于分辨率較低的混合點。接下來,通過將scRNA數據中的標簽轉移到混合點來實現基于條形碼的ST數據的去卷積。uniPort可以提供一個OT計劃,該計劃代表scRNA和ST數據之間的細胞到混合點的概率對應關系,從而能夠根據scRNA數據中的細胞注釋來對ST數據的單細胞簇比例進行去卷積。為了評估性能,將uniPort與兩種最先進的細胞類型去卷積方法Tangram和SpaOTsc進行了基準測試。實驗結果表明,uniPort對比兩種方法表現較好。
uniPort破譯小鼠大腦的典型結構 作者應用uniPort來去卷積現實世界中基于條形碼的ST示例。為了估計每個捕獲點的細胞類型組成和破譯典型的組織結構,作者首先整合了成年小鼠腦ST數據的前切片(10× Visium)。
正如清晰的邊界所示,uniPort準確地重建了結構良好的層并去卷積了28種細胞類型(圖6a)。多皮質層和區域特異性細胞類型等代表性簇的比例和位置與過往研究高度一致。盡管其解剖結構復雜,但uniPort仍精確地重塑和排列了從邊界延伸到中心區域的L2/3L6亞簇 (圖6b)。此外,L6層的亞群也被清晰地分離,揭示了該方法對幾乎無法察覺的信號的敏感性。因此,無論是標記基因的表達還是大腦的解剖結構,都證明了所提出圖譜的穩健性,且可以在基于基因表達的聚類和解剖注釋之間建立一致性,并提供比通過視覺檢查更徹底和全面的理解。
uniPort幫助定位乳腺癌區域的TLS 癌癥的發生和發展通常受到其與異質性腫瘤微環境(TME)的關聯影響,而ST可以為其提供生物學見解。為了進一步證明其靈活的效用,作者使用uniPort對 HER2陽性乳腺癌的空間數據進行去卷積,其中包含彌漫性浸潤細胞,這使得去卷積位點變得更加困難。如圖6c所示,在空間圖像上分配了9個主要簇,主要涉及T細胞和癌上皮細胞。此外,實驗發現分散在集中富集區域的代表性簇與標記基因表達所顯示的區域相一致(圖6d,e)。
大量研究表明,免疫細胞浸潤的增加與乳腺癌的良好預后高度相關。TLS是近年來在腫瘤或炎癥部位發現的一種異位淋巴樣器官,被認為是腫瘤患者的預后和預測因素。雖然TLS中存在多種細胞類型,但主要是T細胞和B細胞,它們的聯合共定位影響了TME。作者通過對每個點的細胞類型比例進行分析,并通過T細胞和B細胞共定位來識別TLS信號,以使T細胞和B細胞的表達強度相同(圖6f)。總體而言,uniPort可以協調不同模態,并滿足對組織和疾病代表性結構的高分辨率映射和識別。
圖6 uniPort識別空間轉錄組學數據中的標志性結構
uniPort揭示了基于微陣列的空間數據中的癌癥異質性 基于Visium的ST數據區域被限制在每個捕獲點直徑為55 μm的范圍內,這達到了相當于3-30個細胞的中等分辨率。隨著位點分辨率的降低,可能會對集成造成潛在的影響,因為成分的混合增長會帶來更多的噪聲。為了檢驗uniPort在這種情況下的性能,作者使用基于微陣列的胰腺導管腺癌(PDAC)組織的ST數據進行集成,其直徑延伸至100 μm。對1926個單細胞配對的428個位點進行細胞類型去卷積,并分別測量了19736個基因。
通過分解15個主要的簇,可以發現它們表現出正常和腫瘤組成的離散富集和復雜性(圖7a)。正常胰腺細胞類型分為導管細胞和腺泡細胞,與以往研究結果一致,保留了與癌細胞明顯不同的分布和遺傳特征。對于惡性胰腺細胞,根據遺傳差異將其分組為癌癥克隆A簇和B簇。其次,正常和癌變區域的組織學注釋總體上符合其數據驅動的標簽(圖7b), TME的基本成分由其標記基因表示(圖7c, d)。
為了進一步了解癌癥亞型的異質性,進一步分析確認它們的身份,以及每個位點所占最大比例(圖7e)。KEGG通路將它們分離成不同的功能組件(圖7f)。此外,在腫瘤克隆A中,包括紅細胞(RBC)、T細胞和自然殺傷(NK)細胞在內的血源性細胞比例顯著增加(圖7g),這與功能分析的結果一致。綜上所述,該方法可以操作不同分辨率的應用光譜,揭示細微的異質性TME。
圖7 uniPort在基于微陣列的空間數據中識別不同的癌癥亞型
總結
本文介紹了一種用于單細胞數據集成的統一深度學習方法uniPort,并將其應用于集成基于轉錄組學、表觀基因組學、空間分辨的高復雜度RNA成像以及條形碼的單細胞基因組學。uniPort結合了coupled-VAE和Minibatch-UOT,并利用高度可變的常見基因和數據集特異性基因進行集成。它是一種非線性方法,可將所有數據集投射到一個公共潛在空間,并在數據集之間輸出其潛在表示,從而實現可視化和下游分析。
uniPort解決了幾個計算方面的挑戰,首先是通過使用Minibatch-UOT消除其他基于自編碼器模型所需配對細胞的約束。與僅考慮跨數據集常見基因的現有方法不同,作者還利用了每個數據集特有的基因,從而捕獲常見基因中不存在的細胞類型異質性。此外,由于coupled-VAE的泛化能力,uniPort通過構建參考圖譜顯示了其在基因插補方面的能力和潛力。需要指出的是,uniPort甚至可以通過一個數據集中的公共基因來插補另一個數據集中的獨特基因,而無需從頭開始訓練。此外,uniPort還可以輸出用于下游分析的OT計劃,如靈活的標簽遷移學習,用于空間異構數據的去卷積。
在集成大規模異構數據集方面,uniPort具有計算效率和可擴展性,而這對于其他基于OT的方法來說可能是計算上的障礙。目前流行的基于OT的單細胞分析方法是基于全局最優傳輸,但全局最優傳輸使得計算非常昂貴。為了解決這一問題,uniPort在基于VAE的單細胞基因組學分析框架中引入了Minibatch-UOT,在每次迭代中只需要求解一個mini-batch傳輸計劃,從而大大降低了計算成本。因此,它可擴展到大數據集。
由于研究中對scATAC的集成是基于基因活性評分,為此作者還測試了uniPort在以不同方法計算基因活性評分時的性能。集成結果顯示,uniPort在MAESTRO的基因活性評分上取得了更好的表現,所有的評分都高于Signac,這說明了對基因活性評分建模的重要性。
與最近發表的最先進的方法相比,uniPort始終表現良好,并成功地使用OT計劃去卷積空間異構數據。隨著配對數據集和各種異質模態的快速發展,本文還通過使用CITE-seq數據和SNARE-seq數據集或沒有對齊公共基因的數據集,證明了uniPort對其他類型單細胞數據的普遍適用性。
參考資料
Cao, K., Gong, Q., Hong, Y. et al. A unified computational framework for single-cell data integration with optimal transport. Nat Commun 13, 7419 (2022). //doi.org/10.1038/s41467-022-35094-8
數據
代碼
作者 | 王永康審核 | 熊展坤
今天給大家分享美國密西根州立大學Jiliang Tang教授團隊表達在KDD 2022上的一篇論文“Graph Neural Networks for Multimodal Single-Cell Data Integration”。研究針對單細胞的三個關鍵任務:模態預測、模態匹配和聯合嵌入,提出了一種通用圖神經網絡scMoGNN。該方法對單細胞的不同模態分別進行建模,根據單細胞測序數據構建GNN網絡,將不同組學的生物知識添加到圖網絡中作為額外的結構性信息,從而捕捉細胞和模態之間的高階結構關系。同時,該方法表現出高度靈活性,可在不同模式的單細胞任務進行擴展使用,有效解決傳統的單細胞數據整合技術的局限性。實驗結果表明,該方法表現出優異性能,在三個任務上均領先當前基準模型。
單細胞技術的快速發展使得同時測量細胞中多種模式的分子特征成為可能,從而為單細胞提供了前所未有的多模態數據。這不僅為不同模態之間的關系帶來了新的見解,也提供了對細胞系統的整體理解和認識。如何有效地利用多模態數據的互補信息來研究單細胞狀態,并在利用多模態數據的同時整合大量的單模態數據,成為單細胞基因組學的巨大的挑戰。對此,近期有相關研究整理出單細胞的三大主要任務:
作者認為當前的大部分研究方法將每個細胞視為單獨的輸入,不考慮細胞之間或不同模態之間可能的交互關系,然而這種交互信息在單細胞數據的稀疏特征學習過程中是必不可少的。因此,作者提出一個通用圖神經網絡scMoGNN,用于解決不同模態的單細胞數據整合問題。該方法通過將單細胞與模態特征之間的交互關系建模為圖結構,進而采用GNN網絡通過結構信息解決先前單細胞數據整合技術的局限性。基于構建的圖結構,可以很容易地將外部的生物知識(如基因之間的相互作用)整合到圖網絡中。
本文主要使用三種模態的單細胞數據,包括GEX(轉錄組數據),ATAC(DNA數據),ADT(蛋白質數據)。每種類型的數據可表示為,即N個細胞數目,每個細胞的特征維度為K。同時對于每種模態數據,可以針對細胞和特征信息構建二部圖,其中為細胞節點,表示特征節點。以下定義單細胞的三個關鍵任務:
在二部圖中,表示細胞節點和特征節點之間的關聯狀態,整張圖的形式可以描述為下式,對角線分別表示細胞節點之間以及特征節點之間的關系。由于細胞之間不存在先驗生物知識,因此;特征節點之間的聯系需要根據實際的生物任務來具體設置。 鑒于圖上存在不同的關系邊類型(如細胞-細胞,細胞-特征,特征-特征),需要分別進行處理。具體來說,使用不同的網絡參數來對節點-邊信息進行聚合,進而使得不同類型的節點產生具有差異性的分布信息。例如,對于細胞與其鄰居特征之間的關系可描述為如下式。表示邊的權重, 和表示待學習的模型參數,用于權重的標準化過程。
同理,對于特征與其鄰居細胞之間的關系可描述為如下式:
因此在圖網絡消息傳播過程中,存在如下兩種傳播方式:
針對不同的模態任務,作者補充相應的生物學知識用于增強特征信息。例如在GEX-ADT和GEX-ATAC中,作者使用MSigDB數據庫中的hallmark基因集,用于標識基因特征之間的生物關聯性。因此細胞和基因特征的圖結構可描述為下式。 標識基因特征之間的關系。 由于細胞節點和特征節點標識不同的生物含義,因此在消息傳播時無法直接將兩者進行整合。作者分別處理不同類型鄰域內的節點消息,具體如下式: ; 是可學習超參數,用于確定特征內部和細胞-特征之間的消息比例。模態信息在經過多層的圖卷積操作后,從最終的卷積結果中提取細胞節點的嵌入并進行聚合,而后通過全連接層轉換到目標模態空間內。表示不同細胞節點嵌入的權重。
任務目標要求預測一對不同模態的單細胞數據,兩數據集中相應數據具有成對性(源于同一細胞)的評分。首先根據模態預測的過程,分別對兩種模態的數據各自進行cell-feature圖的構建,以及細胞嵌入的獲取,即。而后通過計算細胞嵌入之間的余弦相似度來獲得兩模態的打分矩陣,,并通過softmax方法將評分轉化為不同細胞之間的相似性概率: 除了相似性評分外,作者構建了預測損失和重構損失用于增強模態匹配的效果,具體如下: 表示兩模態的原始數據,表示相應的模態轉化器。最終作者將和結合,作為模態匹配任務的目標函數。
任務目標是學習不同模態細胞的嵌入,用于更好的描述細胞內部的異質性,便于下游的任務分析(如批次效應移除)。作者將不同模態的信息依據模態預測方式進行特征提取,并將得到細胞特征進行拼接,形成一張更大的cell-feature圖。鑒于細胞類型信息的重要性,作者根據新的圖結構,獲得細胞節點的嵌入信息,即給每個細胞添加T維度的信息,同時評估細胞所屬類型的概率;該任務的目標函數如下: 表示對兩種模態數據通過LSI算法進行預處理,而后將特征拼接,以此構建重構損失項。式子第二項表示分類損失,第三項為正則化。
研究評估了scMoGNN框架針對上述三個任務的有效性,并在本實驗中遵循多模態單細胞數據競賽中的官方設置和數據集,將所提出框架與競賽中的優勝者進行比較,具體結果如下: 在模態預測任務中,總體結果表明了scMoGNN框架的有效性,并且在某些特定情況下該方法具有巨大的性能優勢。
在模態匹配任務中,結果表明scMoGNN框架在不同模態的匹配轉換過程中,均達到最優的效果。
在聯合嵌入任務中,scMoGNN在GEX-ADT任務中的表現明顯優于其他兩個模型。
更多詳細的實驗結果請查看原文。
本研究提出了一個基于scMoGNN的通用框架,通過捕獲細胞和特征之間高階結構信息,以此用于多模態單細胞數據的整合。實驗結果表明該方法能有效地應用于單細胞的三個關鍵任務,情態預測,情態匹配和聯合嵌入,相對于任務中的其他模型,表現出具有顯著的優勢。
論文地址://dl.acm.org/doi/abs/10.1145/3534678.3539213 代碼地址:
編譯 | 姜晶
審稿 | 許俊林 本文介紹由美國俄亥俄州立大學醫學院Qin Ma副教授團隊和美國密蘇里大學哥倫比亞分校許東教授團隊聯合發表在Nature Communications的研究成果。本文作者提出了scDEAL,這是一個通過整合大規模bulk細胞系數據在單細胞水平上預測癌癥藥物反應的深度遷移學習框架。scDEAL的亮點在于協調藥物相關的bulk RNA-seq數據與scRNA-seq數據,并通過遷移學習把在bulk RNA-seq數據上訓練的模型用以預測scRNA-seq中的藥物反應。scDEAL的另一個特點是整合梯度特征解釋來推斷耐藥機制的特征基因。作者在六個scRNA-seq數據集上對scDEAL進行了基準測試,并通過三個專注于藥物反應標簽預測、基因特征識別和偽時間分析的案例證明了模型的可解釋性。作者相信scDEAL可以幫助研究細胞重編程、藥物選擇和再利用以提高治療效果。
1 簡介 癌癥的藥物治療因不同狀態或細胞命運之間的癌癥異質性而導致治療效率低和復發率高。這種異質性是導致單個細胞對藥物產生不同反應的原因,從而導致體內仍存在極少數量的癌性殘留物,最終導致癌癥復發。單細胞RNA測序(scRNA-seq)技術為發現癌癥亞群對特定藥物的異質基因表達提供了前所未有的機會。現有的針對bulk數據開發的藥物反應預測方法不能直接用于單細胞數據,因此,迫切需要在單細胞水平上開發推斷癌癥藥物反應的計算方法。然而,開發用于預測單細胞藥物反應的基于深度學習的工具面臨的主要障礙是由于公共領域的基準數據數量有限,訓練能力不足。幸運的是,深度遷移學習(DTL)可以將知識和關系模式從bulk數據遷移到單細胞數據中。DTL模型已作為一種有效的策略應用于多個bulk數據進行癌癥藥物反應預測;然而,到目前為止,其將bulk水平上的知識遷移到單細胞水平上的能力尚未得到充分研究。
作者通過調整域自適應神經網絡(DaNN)來開發scDEAL(單細胞藥物反應分析),根據bulk和scRNA-seq數據預測藥物反應。scDEAL在預測單細胞水平的藥物敏感性方面非常強大,因為它在藥物敏感性、單細胞的基因特征和bulk樣本的基因特征之間建立了橋梁。scDEAL突出了以下幾個方面:(i)它可以使用來自癌癥藥物敏感性基因組學(GDSC)數據庫和癌細胞系百科全書(CCLE)的大量bulk RNA-seq藥物反應信息來訓練和優化模型;(ii)為了考慮bulk數據和scRNA-seq數據之間的數據結構差異,scDEAL協調單細胞和bulk數據的嵌入,以確保藥物反應標簽可從bulk數據轉移到單細胞數據;(iii)為了避免在scRNA-seq數據中丟失異質性,scDEAL在每個訓練epoch代入細胞簇標簽;(iv)scDEAL整合梯度解釋推斷藥物反應預測的特征基因,從而提高了模型的可解釋性。作者對六個基準藥物治療的scRNA-seq數據進行綜合分析和評估,scDEAL在預測細胞類型藥物反應方面上有高準確率。作者通過追蹤和累積DTL模型中每個神經元的積分梯度,進一步識別被認為直接導致細胞中藥物敏感性或耐藥性的基因特征。最后,證明預測的藥物反應與治療程序的表達軌跡很好地吻合。總體而言,作者相信scDEAL能夠在單細胞藥物反應預測中部署DTL模型,這可能有利于藥物開發、再利用和癌癥治療選擇研究。
2 結果 scDEAL框架概述 首先,scDEAL在bulk水平上對基因表達特征和藥物反應之間的關系進行建模;然后,識別單細胞和bulk數據之間共享的低維特征空間,以協調兩種數據類型之間的關系。通過共享的低維特征空間捕獲bulk水平的基因表達-藥物反應關系。訓練DTL模型來學習上述兩種關系的優化方案。最后,單細胞-藥物反應關系可以通過DTL模型中的單細胞水平的基因表達、bulk水平的基因表達和藥物反應的元關系來建立。總體而言,scDEAL可以推斷單個細胞的藥物反應,而無需在單細胞水平上進行監督訓練(圖1a)。
scDEAL框架包括五個主要步驟:(1)提取bulk基因特征,(2)使用在步驟1中提取的特征預測每個bulk細胞系中的藥物反應,(3)提取單細胞基因特征,(4)聯合訓練和更新前面步驟中的所有模型,(5)將訓練好的模型遷移并應用到scRNA-seq數據以預測藥物反應(圖1b)。scDEAL的訓練由一個僅使用bulk數據確定bulk特征降維和藥物反應預測的初始參數的源模型,以及一個包含scRNA-seq數據并部署遷移學習策略來訓練和更新單細胞藥物反應預測的整個框架的目標模型組成。訓練了兩個去噪自動編碼器(DAE),以分別從bulk數據和scRNA-seq數據中提取低維基因特征;DTL模型以多任務學習的方式同時更新兩個DAE模型和預測器模型。該框架協調bulk表達數據和scRNA-seq數據,并將可信的基因-藥物關系從bulk水平遷移到單細胞水平。scDEAL的輸出是預測的單個細胞的潛在藥物反應。
模型訓練的關鍵挑戰之一是在協調scRNA-seq數據與bulk數據時保持單細胞異質性。為了解決這種挑戰,作者應用了兩種策略。首先,由于bulk RNA-seq和scRNA-seq數據中的噪聲特征非常不同,使用DAE模型,而不是常見的自編碼器或變分自編碼器,在特征降維之前在bulk和scRNA-seq中誘導噪聲。通過這種方式,可以避免不平衡訓練的風險,這種風險只會迫使scRNA-seq數據中的基因表達接近于bulk RNA-seq數據。其次,整合了細胞聚類結果以正則化scDEAL的整體損失函數,以便在訓練過程中保留細胞異質性。
圖1 scDEAL框架
在scDEAL中對單細胞藥物反應預測進行基準測試 作者評估了由五種藥物(即順鉑、吉非替尼、I-BET-762、多西他賽和埃羅替尼)治療的六個公共scRNA-seq數據集的藥物反應預測性能。所有數據集都提供了單個細胞的真實藥物反應注釋(即藥物敏感或耐藥)。ground truth標簽是從原始手稿中提取的二進制指示符(0表示抗性,1表示敏感)。大多數研究根據治療條件確定對整個細胞群的藥物反應,例如,二甲基亞砜(DMSO)治療的細胞都是敏感的,治療后存活的細胞都是耐藥的。與真實標簽相比,scDEAL預測使用七個指標進行評估:F1得分、AUROC、AP得分、準確率、召回率、AMI和ARI。作者展示了基于scDEAL優化超參數在六個數據集上的F1得分、AUROC和AP得分的結果(圖2a)。
如上所述,scDEAL在所有六個數據集中的單細胞藥物反應預測方面取得了相當高的性能。此外,為了闡明scDEAL框架設計的基本原理,作者替換或刪除了scDEAL中的特定組件,并將結果與最終框架的結果進行了比較。如果最終的scDEAL框架能夠勝過所有替代模型,它將得到全面驗證。
首先,通過僅在bulk數據上訓練模型,直接將其用于scRNA-seq數據預測,無需步驟3(遷移學習) ,進行比較測試。對于每個數據,實驗重復50次。所有六個數據集的結果顯示,與不使用遷移策略相比,使用轉移策略時F1得分顯著增加(圖2b)。比較表明,遷移學習有助于提高單細胞藥物反應預測的性能。
其次,為了評估遷移模型的訓練能力是否依賴于bulk資源,僅使用來自GDSC數據庫、僅CCLE數據庫以及GDSC和CCLE數據庫的組合的bulk數據對scDEAL進行基準測試。結果表明,結合來自GDSC和CCLE數據庫的bulk數據可以顯著提高預測能力(圖2c)。
第三,驗證使用DAE和細胞類型正則化是否有助于減少單細胞異質性的損失并提高預測性能。比較使用常見的自編碼器在bulk和scRNA-seq數據中提取特征的框架、使用DAE但未按細胞類型正則化的框架和最終的scDEAL框架(包括DAE和細胞類型正則化)的結果。對于所有六個數據集,在框架中使用DAE和細胞類型正則化獲得了比其他兩個選項更好的性能(圖2d)。為了進一步闡明添加細胞類型正則化如何更好地保持scRNA-seq數據的異質性,作者使用來自具有和不具有細胞類型正則項的scDEAL的潛在表示展示了具有細胞簇和藥物反應注釋的細胞(圖2e)。UMAP結果表明,在應用細胞類型正則項后,細胞在簇內變得更加有序和緊湊。
最后,作者展示了一個網格參數調整結果,包括6個超參數的480種組合。總體而言,結果顯示單個參數選擇對scDEAL性能沒有顯著影響。對于任何新數據集,作者建議調整bulk采樣方法和瓶頸維度,因為在實現最佳預測性能時,這兩個參數在六個數據集之間存在很大差異。為了評估scDEAL的魯棒性,作者對六個數據集進行了隨機分層抽樣測試(n?=?20) (圖2f)。根據F1得分、AUROC、AP得分、精準率、召回率、AMI和ARI的變化,表明scDEAL在多次隨機抽樣中是魯棒的。
圖2 scDEAL的基準測試結果
scDEAL在多種I-BET治療條件下對白血病細胞的的藥物反應預測結果良好 作者展示了scDEAL對數據6的分析能力,包括用BET抑制劑(I-BET)處理的1419個混合譜系白血病-AF9(MA9)白血病細胞(圖3a)。接下來,引入一個基因評分來反映敏感(或抗性)細胞簇中鑒定的差異表達基因的整體基因表達水平。分數背后的假設是準確的預測會給細胞分配正確的反應標簽。因此,用于準確預測的抗性和敏感狀態之間的DEGs基因評分應與源自ground truth的DEGs相關。此外,作者的DEG顯示的基因評分模式可以比使用真實標簽識別的DEG更好地區分抗性和敏感細胞(圖3b)。對于敏感的DEG列表,預測的DEG分數與地面真實DEG分數之間的相關性高達R2?=?0.90,對于抗性DEG列表,R2?=?0.77(圖3c)。作者進行了經驗零模型檢驗來評估相關性的顯著性。隨機選擇與作者預測的DEG相同數量的基因,并如上所述計算相關性1000次。經驗檢驗(n?=?1000)結果顯示,對敏感和抗性DEG評分相關性的p值低于0.001,表明作者的相關性顯著且具有統計學意義(圖3d)。
圖3 I-BET治療的數據6的案例研究
scDEAL可以識別負責藥物反應的關鍵基因 盡管scDEAL對單細胞藥物反應提供了準確的預測,但對模型中活躍的遺傳特征的理解是必不可少的。作者在數據1中對順鉑治療的口腔鱗狀細胞癌(OSCC)進行了scDEAL分析。順鉑通過與DNA上的嘌呤堿基相互作用產生DNA交聯來發揮其抗癌活性,干擾DNA復制并導致額外的有害DNA雙鏈斷裂,如果不修復,會導致癌細胞凋亡。因此,任何可以增強DNA修復或/和抑制細胞凋亡的因素都能夠使癌細胞對順鉑治療產生抗性。使用scDEAL,85%的細胞被正確預測為對順鉑敏感或耐藥 (圖4a)。調整后的p值<0.05、log-fold變化<0.1且在任何一個比較組中細胞百分比高于0.2的基因被定義為影響藥物反應的關鍵基因(CG)。在HN120P(敏感細胞組)中識別出936個藥物敏感CGs,在HN120PCR(順鉑治療四個月后的耐藥細胞組)中識別出868個耐藥CGs,IG評分差異顯著(圖4b)。作者觀察到幾種預測最高的抗性CG,例如BCL2A1和DKK1,具有抗凋亡活性(圖4c)。已證明這些基因的過表達介導對順鉑的抗性。
圖4 具有順鉑藥物反應的數據1的scDEAL案例研究
scDEAL藥物反應預測與偽時間分析高度相關 應用Monocle3對數據6(用I-BET治療)進行軌跡推斷,以驗證作者預測的藥物反應是否與藥物治療的進展相關。基于基因表達的偽時間分析顯示了從DMSO樣品開始向1000ml I-BET治療樣品的軌跡趨勢(圖5a)。當將偽時間結果與相同擴散UMAP上的藥物反應進行比較時,觀察到DMSO對照對治療樣品的抗性增加(圖5b)。這些結果表明,在高劑量藥物后測序的剩余活細胞表現出顯著的藥物耐受性,這也與實驗藥物反應標簽(ground-truth標簽)非常吻合。除了預測和軌跡拓撲之間的一致性外,作者還進一步解釋了scDEAL中識別的CG的抗性發展趨勢。作者展示了兩個代表性的I-BET抗性CG的表達值,即Eid2和Galnt17(圖5c),以及兩個代表性的I-BET敏感基因,即Emilin1和Ramp1(圖5d)。觀察到這些基因的表達水平與偽時間分析的軌跡和預測的藥物反應概率評分相匹配。
關于預測的CG和DEG的比較以及軌跡的進一步研究表明,預測的CG列表在區分敏感和耐藥細胞狀態方面具有更明顯的表達(圖5e)。Pearson評分與pseudotime值之間的相關性高達0.81(正相關)和-0.93(負相關),這表明scDEAL的預測可能暗示藥物反應發展。敏感和耐藥細胞組中的前十名CG顯示出不同的表達模式,并且與偽時間分數高度相關(圖5f)。總之,作者證實了scDEAL中預測的藥物反應結果和CG與I-BET處理的細胞偽時間軌跡有很強的相關性。
圖5 用偽時間軌跡驗證預測的藥物反應
3 總結與討論 scDEAL使用bulk基因表達數據增強了scRNA-seq數據分析和解釋,可用于預測癌癥scRNA-seq數據和其他疾病中細胞群的藥物反應。適應scRNA-seq數據的神經網絡可以在bulk細胞系數據上進行初步訓練。因此,可以從scRNA-seq數據預測藥物敏感性。需要注意的是,scDEAL僅根據訓練好的模型和scRNA-seq基因表達矩陣預測單細胞藥物反應,不需要標簽。
未來工作展望: * 通過整合額外的bulk數據庫來更新scDEAL訓練數據,提高scDEAL中預測結果的準確性。 * 增加實驗驗證的藥物反應scRNA-seq數據,有助于確定更好的模型超參數,甚至有助于開發直接的單細胞到單細胞深度遷移學習模型。 * 跨不同物種的單細胞藥物反應預測,如人類到小鼠。
scDEAL在單細胞水平上改進藥物開發方面具有相當大的潛力。首先,它可用于預測藥物反應并將基因特征與治療效果聯系起來。其次,CG可用于CRISPR篩選或細胞重編程的潛在目標簽名。第三,它可以應用于現有的未經藥物治療的scRNA-seq數據,以預測多個細胞簇中的潛在藥物反應,可以選擇用于動物藥物測試。從長遠來看,作者相信該工作可以為細胞重編程、藥物選擇和再利用以及聯合用藥以提高治療效果做出貢獻并提供見解。
參考資料 Chen, J., Wang, X., Ma, A. et al. Deep transfer learning of cancer drug responses by integrating bulk and single-cell RNA-seq data. Nat Commun 13, 6494 (2022). //doi.org/10.1038/s41467-022-34277-7
數據
代碼
編譯|王娜 審稿|王海云
本文介紹由美國德克薩斯大學MD安德森癌癥中心生物統計學系的Ziyi Li和Kim-Anh Do共同通訊發表在 Bioinformatics 的研究成果:為了更好地注釋scRNA-seq 數據,發現新的細胞類型,作者開發了一種簡單而有效的方法,結合自動編碼器和迭代特征選擇,從scRNA-seq數據中自動識別新細胞。該方法用標記的訓練數據訓練一個自動編碼器,并將自動編碼器應用于測試數據以獲得重建誤差。通過反復選擇表現出雙模模式的特征,并使用所選特征對細胞進行重新分組,該方法可以準確地識別訓練數據中不存在的新細胞。作者進一步將這種方法與支持向量機結合起來,為注釋所有的細胞類型提供了一個完整的解決方案。使用五個真實的scRNA-seq數據集進行的廣泛的數值實驗,結果表明,該方法比現有的方法具有更好的性能。
簡介
單細胞RNA測序(scRNA-seq)的出現使研究人員能夠以前所未有的精度和準確度研究人類組織的細胞組成和轉錄組概況。作為第一步,注釋細胞和分配細胞類型標簽是最重要的步驟之一,因為大多數的下游分析都依賴于細胞標簽的準確性。由于不同的研究人員對細胞類型標志物的理解存在差異,通常不能保證注釋結果的可重復性。盡管多種監督方法為細胞注釋提供了各種解決方案,但監督方法面臨的一個大挑戰是如何將新的(或未知的)細胞類型與已知的細胞類型區分開來。
在這項工作中,作者開發了一種新的兩步法來自動標記含有新細胞的scRNA-seq數據。稱之為使用基于機器學習的方法對未知細胞的存在進行細胞注釋(CAMLU)。在第一步,CAMLU使用自動編碼器和迭代特征選擇的組合來區分已知細胞類型和新的細胞類型。這樣的目的是,用訓練數據訓練自動編碼器后,自動編碼器將包含所有已知細胞類型的信息。將這個自動編碼器應用于測試數據將產生所有基因的重構誤差。由于細胞是已知和未知細胞類型的混合體,一些 "有信息的 "基因在其重構誤差中會有雙模分布,代表它們與已知細胞類型的不同相似程度。通過迭代特征選擇,CAMLU可以選擇一組較小的信息性特征,這些特征在已知和未知細胞群中具有表達差異,并最終將新型細胞與已知細胞類型區分開來。然后,可以根據這些信息性基因重新對細胞進行分組,并識別出新型細胞。除去第一步中確定的新細胞,CAMLU在第二步中使用支持向量機對其余的細胞進行詳盡的注釋。圖1展示了CAMLU的工作流程。
圖1 CAMLU的工作流程
結果
蒙特卡洛數值實驗 為了廣泛地評估CAMLU的性能,作者設計了三個基于真實數據集的蒙特卡洛數值實驗。作者將CAMLU與四種流行的細胞注釋方法進行了比較,這些方法能夠使用 "未分配 "的標簽來識別未知的細胞。
用PBMC和HNCC細胞系進行的數值實驗 PBMC數據有6萬多個來自8種免疫細胞類型的分類細胞。HNCC總共有4632個癌細胞。對于每個實驗,我們從PBMC數據中每個細胞類型隨機選擇個細胞,從HNCC數據中隨機選擇個癌癥細胞。考慮了三種設置,正常細胞樣本量=300;400;500(即訓練數據中2400、3100和3800個細胞),對應于圖2中的小、中和大。在所有設置中,癌細胞數量保持不變,即=300。圖2總結了100多次蒙特卡洛實驗的數值實驗情況。與現有的方法相比,CAMLU在區分癌細胞和新型細胞以及標記全部細胞類型方面具有最高的準確性。CopyKAT在識別圖2上圖中的癌細胞方面是第二好的。由于它不能分配完整的標簽列表,copyKAT沒有在圖2中展示。在其他現有的方法中,scmap-cluster和CHETAH也能很好地分配正確的標簽,但準確率和ARI略低,其次是scPred。Scmap-cell在這兩項任務中的準確率最低,可能是由于該方法產生了大量的 "未分配 "標簽。
圖2 使用PBMC數據和癌細胞系數據的混合物進行數值實驗的結果
用PBMC進行的數值實驗 接下來,作者設計了一個數值實驗,只用PBMC數據來模擬未知細胞不是非整倍體時的情況。我們將單核細胞作為 "新型 "細胞類型,其他七種細胞類型作為已知細胞類型。與第一個實驗類似,作者為其余七種細胞類型的每個細胞類型隨機選擇個細胞,從單核細胞中選擇個細胞。作者再次考慮了三種設置,已知細胞類型的大小不同,=300;400;500,單核細胞的=300。
圖3A中總結了CAMLU和現有方法的準確度。CAMLU在識別測試數據中的單核細胞和分配所有標簽方面具有最高的準確性。作者發現scmap-cluster在這兩項任務中都是第二好的方法,其次是CHETAH和scPred,性能相似。與第一次數值實驗相比,CAMLU的準確率下降了一點,可能是因為目前的設置比較難。隨著訓練樣本量的增加,所有方法的性能都略有提高。
圖3B和C展示了單個實驗中真實和估計標簽的新型細胞識別結果,這可能闡明了CAMLU和現有方法的差異。CAMLU在區分單核細胞和已知細胞方面具有幾乎完美的準確性,而現有的方法,特別是scmap-cell,往往將很多已知細胞標記為 "未分配"。
用胰腺數據進行的數值實驗 除PBMC數據外,作者還獲得了胰腺scRNAseq數據集,以進一步評估新細胞為二倍體時的情況。作者通過將間質細胞作為未知細胞類型來設計實驗。對于每次模擬,從 "已知 "細胞類型中隨機抽取500個非間質細胞,并將這些細胞的數據作為訓練數據。其余的 "已知 "細胞與間充質細胞結合起來作為測試數據。其中間質細胞數量為80,訓練數據中的細胞總數為1626。
在圖4中總結了100個蒙特卡洛實驗的結果。在圖4A中,CAMLU與其他現有的方法相比,具有更高的識別精度,精度平均提高5-10%。在圖4B中,作者將CAMLU和其他方法的新型細胞類型和整體注釋的細胞標簽與一次實驗的真實標簽進行了可視化對比。CAMLU在這兩項任務中脫穎而出,在區分極少數的新型細胞(<5%的測試數據)時表現出很高的準確性。CHETAH在這種情況下也有良好的表現,scmap-cell排名第三。scmap-cluster和scPred都不能識別新型細胞。
圖3 使用單核細胞作為新的細胞類型的PBMC數據進行數值實驗的結果
圖4 使用胰腺數據的數值實驗結果,以間質細胞為新型細胞類型
應用于兩個真實的癌癥數據集 在這個實驗中,作者獲得了一個scRNA-seq數據集,包括5名三陰性乳腺癌(TNBC)患者和另一個包括5名無性系甲狀腺癌(ATC)患者的數據集。作者首先評估了所有方法從測試數據中識別惡性細胞的準確性。在圖5B中,跨主題的細胞注釋給分析帶來了額外的噪聲,與之前的設置相比,所有的方法都有較低的準確性。在所有的方法中,CAMLU仍然是該任務中最準確的方法,其平均準確率約為0.9。性能第二好的方法是在TNBC數據集的scmap-cluster和在ATC數據集的scPred。在TNBC數據中,scmap-cluster的準確率約為0.80,所有其他方法的平均準確率都低于0.6。對于ATC,所有現有的方法的準確率都在0.5-0.6左右。
在圖5B中,作者說明了四個top基因在正常(藍條)和惡性細胞(紅條)中的重建誤差分布。例如,COL6A2編碼VI型膠原蛋白的三條α鏈之一,并被報道通過影響腫瘤和基質細胞來促進腫瘤的進展。作者發現COL6A2在惡性細胞中的重建誤差比在正常細胞中高得多,表明COL6A2可能是兩組細胞之間的差異基因。
圖5C顯示了使用TNBC和ATC數據從CAMLU中選出的前200個特征的最重要的Hallmark術語。作者在結果中發現了一些與疾病相關的術語。例如,在TNBC中,通過途徑的信號傳遞是最重要的Hallmark術語。大量的現有研究報告了炎癥因子TNF-a對乳腺癌生長的促進作用。同樣,ATC結果中的首要術語,上皮-間質轉化是與上皮性腫瘤進展、局部侵襲和轉移有關的重要機制。一些研究報告指出,上皮-間質轉化與ATC的進展密切相關。
圖5 在兩個癌癥數據集上應用CAMLU和現有方法的結果,即三陰性乳腺癌(TNBC)和非彈性甲狀腺癌(ATC)
總結與討論
在這項工作中,作者開發了一種基于機器學習的新方法,用于從scRNA-seq數據中識別未知細胞。該方法利用自動編碼器和迭代特征選擇的組合,根據信息特征的重建誤差來識別新型細胞。在識別 "未知 "細胞后,其余的細胞使用支持向量機進行注釋。與大多數將低相關度或低置信度的細胞標記為新型細胞的現有方法相比,該方法創新性地將未知細胞的選擇和現有細胞類型的注釋分開。
該有幾個優點。首先,不依賴于非整倍體/二倍體細胞狀態。第二,可以應用于識別不同大小的新型細胞。第三,盡管跨主體預測給問題帶來了額外的噪音,并降低了所有方法的準確性,但該方法仍然比服務于類似目的的現有方法取得更高的性能。
有幾個方向可以考慮和探索未來的工作。首先,作者將繼續探索不同參數的選擇,以提高方法的敏感性和穩健性。例如,細胞類型結構的不同復雜性可能需要更大或更小的自動編碼器模型。選擇的特征數量也可以與感興趣的問題有關。可以設計自適應程序,在模型構建中自動選擇這些因素。第二,可以考慮通過在框架中加入額外的生物知識,使工具更好地適應不同的疾病環境。在目前的特征選擇設置中,作者僅僅根據重建分布來選擇頂級特征。將雙模特征與疾病相關的特征相結合,有可能獲得更好的性能。
參考資料
Ziyi Li, Yizhuo Wang, Irene Ganan-Gomez, Simona Colla, Kim-Anh Do. A machine learning-based method for automatically identifying novel cells in annotating single-cell RNA-seq data. Bioinformatics; doi: //doi.org/10.1093/bioinformatics/btac617
代碼
編譯 | 王娜
審稿 | 王海云 本文介紹由美國加州大學圣地亞哥分校生物工程系Nathan E. Lewis通訊發表在 Nature Communications 的研究成果:作者介紹了Tensor-cell2cell,這是一種基于張量分解的無監督方法,它通過同時說明細胞的多個階段、狀態或位置來破譯上下文驅動的細胞間通信。為此,Tensor-cell2cell揭示了與不同表型狀態相關并由細胞類型和配體-受體對的獨特組合決定的上下文驅動的通信模式。Tensor-cell2cell有力地改進和擴展了現有工具的分析能力。作者發現,Tensor-cell2cell可以識別與明顯通訊過程相關的多個模塊,這些通訊過程與COVID-19嚴重程度和自閉癥譜系障礙相關。因此,作者引入了一種有效且易于使用的策略來理解不同條件下的復雜通信模式。 1 簡介 當細胞在其微環境中通過細胞間的相互作用來適應和協調其功能時,就會出現有機體表型。這些相互作用是由細胞產生的信號和受體的變化介導的,導致細胞間通信(CCC)的變化。因此,CCC依賴于時間、空間和條件特定的環境,我們在這里將其稱為細胞環境。“細胞環境”是指基因型、生物狀態或條件的變化,這些變化可以形成細胞的微環境,從而形成細胞的CCC。單細胞組學分析為測量這些細胞間相互作用和介導細胞間相互作用的配體-受體對提供了必要的分辨率。雖然推斷CCC的計算方法對于發現許多生物過程(包括有機體發育和疾病發病機制)背后的細胞和分子相互作用非常寶貴,但目前的方法無法解釋環境中的高度可變性。現有方法失去了跨環境的相關性結構,因為它們涉及對每個環境分別進行重復地分析,忽略了疾病嚴重程度、時間點、受試者或細胞位置等因素中CCC的信息變化。
基于張量的方法,如張量分量分析(TCA),可以解卷積與感興趣系統的生物背景相關的模式。在恢復與相關的真值模式時,TCA優于基于矩陣的降維方法。TCA表現出優越的性能,因為它不需要跨不同環境將數據集聚合到單個矩陣中。相反,它將數據組織為張量,即矩陣的高階泛化,通過保留矩陣缺少的數學特征,可以更好地保留潛在的環境驅動的相關結構。
在這里,作者介紹了Tensor-cell2cell,這是一種基于TCA的策略,可以在多個環境中解卷積細胞間通信,并揭示CCC的模塊或潛在的環境相關模式。這些數據驅動的模式揭示了在環境、配體-受體對和細胞之間同時相互作用的情況下潛在的通信變化。作者還說明,Tensor-cell2cell具有廣泛的適用性,能夠研究與COVID-19嚴重性和自閉癥譜系障(ASD)相關的各種生物學問題。此外,Tensor-cell2cell計算速度更快,需要更少的內存,并且在分離特定于環境的信息方面可以實現更好的準確性。
2 結果 使用Tensor-cell2cell解讀環境驅動的通信模式 簡而言之,Tensor-cell2cell首先生成4D通信張量,該張量包含非負分數,以表示不同條件下的細胞通信(圖1a-c)。然后,應用非負TCA將該張量的潛在CCC結構解卷積為低維分量或因子(圖1d-e)。因此,這些因素中的每一個都可以解釋為一個通信模塊或模式,其跨環境的動態由環境維度中的負載表示(圖1e)。
為了演示Tensor-cell2cell如何恢復潛在的通信模式,作者模擬了一個由3種細胞類型組成的系統,通過12個環境中的300個LR對進行交互(在模擬中表示為時間點)(圖2a)。構建了一個4D通信張量,該張量包含一組嵌入的通信模式,這些模式分配給特定交互細胞對使用的某些LR對,并通過通信分數的振蕩、脈動、指數和線性變化來表示(圖2a-f)。作者發現四個因素導致了分解,從而最大限度地減少了誤差,與引入模式的數量一致(圖2f)。作者基于模擬的分析進一步證明,Tensor-cell2cell準確檢測通信的環境相關變化,并確定哪些LR對、發送細胞和接收細胞是重要的(圖2g)。
Tensor-cell2cell有力地擴展了細胞通信分析 為了證明同時考慮多個環境的能力,作者將Tensor-cell2cell的計算效率和準確性與CellChat進行了比較,CellChat是唯一一種能自動總結多個成對比較的工具(表1)。簡而言之,作者發現Tensor-cell2cell在分析多個樣本的CCC時速度更快,占用更少的內存,并且實現了更高的準確性。Tensor-cell2cell可以將這些輸出重構為4D通信張量(圖1),擴展其恢復環境相關通信模式的能力。這種普遍性使用戶能夠采用任何評分方法。因此,可以使用CellPhoneDB、CellChat、NATMI和SingleCellSignalR對樣本特定分析生成的通信分數以及Tensor-cell2cell的內置分數運行Tensor-cell2cell。作者采用上述每種方法分析了12份來自COVID-19不同嚴重程度(健康、中度和重度)患者的支氣管肺泡灌洗液(BALF)樣本。結果表明,Tensor-cell2cell可以獨立于初始通信評分方法(圖3a)一致地識別環境相關的通信模式,平均相似性分數為0.82。Tensor-cell2cell可以檢測到一致的CCC特征,與校正基因表達的方法無關,但原始計數除外,正如觀察到的高度相似性所示(圖3b)。
Tensor-cell2cell將細胞間通信與COVID-19的不同嚴重程度聯系起來 因此,作者在來自COVID-19患者的BALF樣本的單細胞數據集上做了測試,以了解Tensor-cell2cell可以揭示COVID-19疾病中多少細胞-細胞以及LR對關系。通過將與該數據集相關的張量分解為10個因子(圖4a),tensor-cell2cell發現了代表與COVID-19嚴重性高度相關的通信模式的因子(圖4c)和其他區分不同疾病階段特征的因子。前兩個因子捕獲的CCC,涉及BALF中上皮細胞與免疫細胞的自分泌和旁分泌相互作用(圖4a)。這些因素的樣本負荷揭示了一種通信模式,其中所涉及的LR和細胞-細胞相互作用隨著嚴重程度的增加而變得更強(斯皮爾曼相關性為0.72和0.61,圖4c)。Tensor-cell2cell強調上皮細胞是因子1中的主要發送細胞(圖4a),作者還進一步提供了涉及頂級信號(如APP、MDK、MIF和CD99)的分子機制的詳細信息(圖4b)。
圖1 細胞間通訊的張量表示和分解
圖2 Tensor-cell2cell恢復模擬通訊模式
表1 可用工具中的方法策略和基于環境的分析
圖3 不同輸入值引起的張量分解的比較
圖4 不同程度COVID-19患者細胞間通訊的去卷積
張量細胞闡明與自閉癥譜系障礙相關的通訊機制 自閉癥譜系障礙(ASD)的神經發育失調與信號通路紊亂和CCC以復雜方式相關。為了了解這些細胞和分子機制,作者分析了來自13例ASD患者和10例對照的死后前額葉大腦皮層(PFC)的單核RNA序列(snRNA序列)數據,構建了一個4D通信張量,包含所有樣本中存在的16種細胞類型,包括神經元和非神經元細胞,以及749對LR。然后,使用Tensor-cell2cell將其相關CCC解卷積為6種環境驅動模式(圖5a)。作者觀察到,每個因子與不同的生物學功能相關,包括軸突引導、細胞粘附、細胞外基質受體相互作用、ERBB信號、MAPK信號等(圖5b)。此外因素3和4顯著區分自閉癥與典型的發展對照組(圖5c)。皮質層的神經元是因子3中的主要發送細胞,而中間神經元是因子4中的關鍵接收細胞類型(圖5a),小白蛋白中間神經元(in-PV)和表達SV2C的神經元間(in-SV2C)是排名靠前的細胞,與之前報道的在ASD條件下受影響更大的細胞類型一致。下游分析結果表明,在ASD條件下,Tensor-cell2cell捕獲的CCC模式的多個失調同時發生(圖5d),即使這些模式在單獨考慮時無法解釋表型差異(圖5c)。
圖5 Tensor-cell2cell細胞在研究ASD患者細胞間通訊機制中的應用
3 總結與討論 作者介紹了Tensor-cell2cell,這是一種計算方法,用于識別細胞間通信模塊及其在不同背景下的變化(例如,不同疾病嚴重程度的受試者、多個時間點、不同組織等)。該方法可以根據LR對每個通信模塊的貢獻對其進行排序,并將這些信號連接到特定的細胞類型和表型。Tensor-cell2cell同時考慮多個環境以識別環境相關的通信模式的能力超越了現有的工具。因此,Tensor-cell2cell是一種靈活的方法,可以集成多個數據集,并以上環境感知的方式輕松識別細胞間通信模式。
Tensor-cell2cell使用許多其他評分方法穩健地檢測通信模式。因此,Tensor-cell2cell不僅是對其他工具的改進,而且大大擴展了這些工具,使現有方法能夠進行獨特的分析。與成對比較相比,Tensor-cell2cell分析多個樣本的速度更快,大大縮短了運行時間并減少了內存需求。當GPU可用時,可以進一步加速Tensor-cell2cell的運行時間。與CellChat相比,Tensor-cell2cell的分類準確率更高,使得COVID-19受試者的分類準確率高出10-20%。
生物學意義可以很容易地從Tensorcell2cell中識別出來。例如,對BALF COVID-19分解的手動解釋發現了先前在原始研究中未觀察到的通信結果,并概括了跨越數十篇同行評審文章的發現。
Tensor-cell2cell的局限性是張量中缺少通信分數的可能性(例如,當一種罕見的細胞類型僅出現在一個樣本中時)。盡管Tensor-cell2cell可以處理某些情況下缺失的細胞類型,但實現的張量分解算法可以針對缺失值進行進一步優化。除了此處分析的單細胞數據外,Tensor-cell2cell還接受大量轉錄組學數據,并且可以進一步用于分析蛋白質組學數據。 參考資料 Armingol, E., Baghdassarian, H.M., Martino, C. et al. Context-aware deconvolution of cell–cell communication with Tensor-cell2cell. Nat Commun 13, 3665 (2022). //doi.org/10.1038/s41467-022-31369-2
數據
代碼