在**《自然-計算科學》(Nature Computational Science)上發表題為《利用圖神經網絡對空間轉錄組數據進行細胞聚類》**(Cell clustering for spatial transcriptomics data with graph neural networks)的研究論文。
論文簡介
★
★ ★ ★
★
空間轉錄組技術是生物信息學領域近年來的重大突破之一。該技術通過同時測量大量細胞的空間位置和細胞內的轉錄組計數,彌補了單細胞測序技術難以測量單個細胞之間位置關系的缺陷,從而為理解多細胞之間的相互作用提供了全新的數據基礎。發展針對空間轉錄組數據的基礎分析方法是當前生物信息學領域的前沿問題之一。
論文提出了一種基于圖卷積神經網絡的空間轉錄組細胞聚類方法(Cell Clustering for Spatial Transcriptomics,CCST)。此前針對該類數據的處理模型大都基于“同種細胞在空間上相互臨近”的這一假設。相比之下,**CCST并不依賴于局部特征,而是****可以從細胞的全局空間分布中學習節點嵌入。**具體方案為:首先將空間轉錄組建模為圖結構的數據。圖中每一個節點代表一個細胞,其原始表征為高維的基因表達信息。圖的鄰接矩陣則依據細胞之間的空間距離建立。隨后分別提取圖上的局部特征和全局特征,以最大化局部和全局特征間的互信息為目標,訓練圖神經網絡模型,從而得到帶有全局結構信息的節點嵌入,再對各細胞所對應的表示向量進行聚類來識別細胞類型,最后從生物功能角度對聚類結果進行了深入分析。
CCST方法示意圖
創新之處
★
★ ★ ★
★
論文在幾種不同類型數據集上,綜合對比了近期學術界提出的多個相關算法。在腦前額葉皮質和人乳腺癌細胞ST數據集上的實驗表明,CCST在ARI、NMI和FMI等多個聚類評價指標上均體現出優勢。同時,此方法得到的聚類結果具有較好的生物可解釋性。在MERFISH數據中,通過進行差異表達基因和基因本體(GO)分析,可以發現使用CCST聚類出的各個細胞簇能夠很好地和各細胞周期階段對應。
CCST與相關算法的指標對比:a. 調整蘭德系數(ARI);b. 歸一化互信息(NMI);c. Fowlkes-Mallows分數(FMI);d. 局部逆辛普森指數(LISI)
此研究為處理空間轉錄組數據提供了新方案,具有被應用于生命醫藥科學中多層次基礎問題研究的潛力,包括建模基因表達的空間分布、分析細胞動力學以及發現關鍵細胞亞型相互作用及其分子機制等;同時該研究也具有潛在的廣泛醫學應用場景。
作者信息
★
★ ★ ★
★
電院自動化系博士生****李家琛為論文的第一作者,電院沈紅斌教授、****袁野副教授為通訊作者,潘小勇助理教授和陳思衡副教授為共同作者。該研究獲得國家自然科學基金項目和上海浦江計劃的資助。
關于Nature Computational Science
★
★ ★ ★
★
Nature Computational Science(《自然-計算科學》)是專注于基礎和應用計算科學的《Nature》子刊,側重于計算技術和數學模型的開發與使用,以及它們在解決一系列科學學科中復雜問題的應用。該雜志的主要目標是促進多學科研究和新計算技術的跨學科應用。
論文鏈接
來源丨自動化系 文稿丨袁野 編輯 | 孟嫻 李霞 責任編輯 | 王佳力瀾
2022年8月4日,來自美國德州大學西南醫學中心(UT Southwestern Medical Center)定量生物學研究中心(Quantitative Biomedical Research Center)的王濤博士團隊(Tao Wang Lab)和德州大學阿靈頓分校(UT Arlington)的王莉教授在Nature Methods(《自然-方法》)雜志上發表了一篇題為 Sprod for De-noising Spatial Transcriptomics Data Based on Position and Image Information 的文章。該團隊報告了他們發明的Sprod方法,其使用空間轉錄組數據特有的空間位置和病理學圖像的信息,來修正空間轉錄組基因表達譜數據中的噪音。
空間轉錄組(spatial transcriptomics)是近年來越來越熱門的高通量測序技術。空間轉錄組能夠在提供類似于單細胞測序數據的基因表達譜數據的同時,提供測序的位置信息甚至對應的病理學圖像數據。然而,空間轉錄組技術(特別是最新的高分辨率空間轉錄組技術)的基因表達譜數據中含有大量的噪音。這些噪音來自于每個測序位點上攤薄的低通量測序深度以及為了保留測序位置所執行的額外實驗步驟。這些噪音包括但是不限于單細胞測序數據中的drop-out現象。這些噪音給研究者們從寶貴的空間轉錄組數據提取出有價值的信息制造了巨大的障礙。
在Sprod的降噪過程中,測序的每個位點會向附近的位點借用基因表達信息。在病理學圖像上(有圖像的空間轉錄組技術,如Visium)或者總體轉錄譜上(Overall transcriptomics profile,針對沒有圖像的空間轉錄組技術,如Slide-Seq)更相似且測序位置相鄰的位點,會互相借用更多的信息。基于這個原理,Sprod構建了一個隱圖模型(Latent Graph Model, Fig 1),通過分析不同測序位點的空間距離和基因表達譜特征,將測序位點放入這個隱圖中。空間轉錄組的表達譜信息根據這個隱圖流動,從而實現表達譜數據的降噪。Sprod可以應用于各種空間轉錄組技術,如Visium、 Slide-Seq、HDST、Seq-Scope等。分辨率越高的技術類型,噪音越大,Sprod的作用也越大。
Fig 1:Sprod軟件內部數學模型的工作原理
王濤課題組接下來在不同的空間轉錄組技術數據集上,驗證了Sprod降噪的可靠程度。比如,在Fig. 2中,王濤課題組展示了在一個卵巢癌的Visium數據集上使用Sprod降噪前后的效果。這個數據集提供了與空間轉錄組對應的免疫熒光染色(IF)圖像,其中包括CD45。如Fig. 2左所示,CD45 IF和Visium數據中的基因PTPRC (PTPRC的翻譯產物為CD45)的RNA表達數據吻合度非常差,但在使用了Sprod之后(出于獨立驗證的目的,IF圖像的CD45 channel在Sprod的計算過程中被剔除了),PTPRC的基因表達量和CD45的染色強度有了很好的重合。此外,王濤課題組還將Sprod與scRNA-seq數據分析中常用的drop-out矯正方法(scImpute和SAVER)做了比較,并顯示出Sprod在降噪效果上優于scImpute和SAVER。
Fig 2:PTPRC的基因表達量和CD45的免疫熒光染色的吻合度。左:原始Visium數據;右:Sprod降噪之后的數據
王濤課題組進而將Sprod應用到了一系列的Visium, Slide-Seq, Seq-Scope等其他空間轉錄組數據集上,驗證了Sprod能夠給各種數據有效降噪。降噪后的數據在差異表達分析(differential expression),信號通路富集(pathway enrichment),細胞間通訊(cell-to-cell communications)等各方面的下游分析中,都有了生物學上更合理(biologically relevant)的結果。單細胞測序數據的drop-out矯正方法單純地利用表達譜本身來矯正表達譜數據中的問題。這會造成一種類似于過擬合(overfitting)或者過平滑(oversmoothing)的現象,因此在學界受到了一些批評。與之不同的是,Sprod利用的是空間轉錄組數據中獨有的測序位置和病例圖像的信息。通過這樣的獨立的信息,Sprod得以更精確的執行降噪操作。
總而言之,空間轉錄組技術給生物醫學研究提供了一個強大的工具。空間轉錄組數據的分析隨著技術的發展,變得越來越有挑戰性。王濤課題組認為,嚴謹的數據預處理,是正確分析和理解空間轉錄組數據的關鍵,而Sprod降噪正是預處理中重要且有力的一環。
該論文的共一作為王允冠博士與宋冰博士。論文的其他主要作者包括西南醫學中心的謝陽教授,肖光華教授,王詩丹助理教授。定量生物學研究中心有多個博士后招聘職位(qbrc.swmed.edu/labs/wanglab,qbrc.swmed.edu/labs/xielab,qbrc.swmed.edu/labs/xiaolab)。我們歡迎各個專業的生物信息學人才加盟我們。 參考資料 Wang, Y., Song, B., Wang, S. et al. Sprod for de-noising spatially resolved transcriptomics data based on position and image information. Nat Methods 19, 950–958 (2022). //doi.org/10.1038/s41592-022-01560-w
數據
代碼
編譯 | 程昭龍 審稿 | 林榮鑫,王靜 本文介紹由美國加利福尼亞州帕薩迪納加州理工學院生物與生物工程系的Matt Thomson通訊發表在 Nature Computational Science 的研究成果:目前,測序成本是導致單細胞mRNA-seq無法應用于許多生物學和臨床分析的主要原因。靶向單細胞mRNA-seq通過分析縮減的基因集來降低測序成本,這些基因集以最少的基因捕獲生物信息。為此,作者提出了一種主動學習方法,該方法可以識別數量最少但信息量很大的基因集,從而能夠使用少量基因識別單細胞數據中的細胞類型、生理狀態和遺傳擾動。其中的主動特征選擇過程通過使用主動支持向量機 (ActiveSVM) 分類器從單細胞數據中生成最小基因集。經實驗證明,ActiveSVM 特征選擇識別的基因集在細胞圖譜和疾病特征數據集上的細胞類型分類準確率能達到約90%。數量少但信息量大的基因集的發現有助于減少將單細胞 mRNA-seq 應用于臨床測試、治療發現和遺傳篩選所需的測量次數。
1 簡介 單細胞 mRNA-seq方法的規模已擴大到每次實驗可以對數千個細胞進行常規的轉錄組水平分析。盡管單細胞 mRNA-seq 方法可以為許多不同的生物學和生物醫學問題提供見解,但高昂的測序成本阻礙了單細胞 mRNA-seq 在許多探索性分析和成本敏感的臨床分析中的廣泛應用。靶向 mRNA-seq 的開發有助于解決上述測序瓶頸,通過將測序資源集中在特定生物學問題或分析的高信息量基因上,可將測序成本降低多達 90%。
細胞通過調控轉錄程序或模塊來調控基因表達,這些轉錄程序或模塊包含受共同轉錄因子組調控的多個基因。由于協同調控,轉錄模塊內的基因表現出相關的基因表達。基因表達的相關性可以使細胞的轉錄狀態能夠通過對少量高信息量基因的靶向mRNA分析來重建。然而,這種靶向測序方法需要計算方法來識別針對特定生物學問題的高信息量基因。差異基因表達分析和主成分分析(PCA)等一系列計算方法可用于識別高信息量基因。目前,定義最小基因集的方法在計算上非常昂貴,難以應用于大型單細胞mRNA-seq數據集,并且通常需要用戶定義的閾值來進行基因選擇。
受主動學習方法的啟發,作者開發了一種計算方法,該方法通過主動支持向量機(ActiveSVM)分類任務選擇能夠可靠識別細胞類型和轉錄狀態的最小基因集。ActiveSVM 算法通過迭代細胞狀態分類任務構建最小基因集。在每次迭代中,ActiveSVM 應用當前基因集將細胞分類到類中,這些類由細胞狀態的無監督聚類獲得或實驗標簽提供。該程序分析當前基因集錯誤分類的細胞,然后識別其中最大信息量的基因,并將這些基因添加到正在增長的基因集中以改善分類。ActiveSVM 通過主動查詢 SVM 分類器的輸出,找出分類不佳的細胞,然后對錯誤分類的細胞進行詳細分析,以選擇信息量最大的基因。通過定義明確的分類任務選擇最小的基因集,可以確保 ActiveSVM 發現的基因集保留了生物信息。
ActiveSVM 的主要貢獻是:該方法可以擴展到超過一百萬個細胞的大型單細胞數據集上,這是因為該方法將計算資源集中在分類較差的細胞上。由于該算法僅分析與當前基因集分類較差的細胞的完整轉錄組,因此該方法可用于發現能夠以高精度區分細胞類型的小型基因集,即使在超過一百萬個細胞的數據集中也是如此。經實驗證明, ActiveSVM 可以在短短數小時內分析包含 130 萬個細胞的小鼠大腦數據集。此外,ActiveSVM還可以推廣到一系列單細胞數據分析任務中,包括識別疾病標志物、Cas9擾動應答基因和空間轉錄組學中的區域特異性基因。
2 結果 ActiveSVM特征選擇概述 作者開發了一種應用支持向量機分類器來識別小型基因集的計算方法,以區分單細胞數據中的細胞狀態(圖 1)。該算法通過訓練SVM模型,根據標簽對細胞類型進行分類,從而迭代的選擇基因并使用已識別的基因對細胞進行分類。該算法在給定當前基因集的情況下,識別數據集中分類較差的細胞,并通過分類錯誤的細胞選擇額外的基因,以提高整個數據集的分類精度。
圖1 ActiveSVM特征選擇概述
ActiveSVM基于一組細胞標簽,通過迭代分類和基因選擇來構造最小基因集。由于ActiveSVM僅對當前基因集分類較差的細胞執行全轉錄組分析,因此大大提高了該算法的計算效率。ActiveSVM可以從無監督分析、實驗元數據或細胞類型標記基因的生物學知識中獲得細胞標簽。作者分別提供了最小復雜度和最小細胞版本的 ActiveSVM 算法。最小復雜度算法對一定數量的錯誤分類細胞進行采樣,并直接將其作為細胞集來選擇下一個基因。最小細胞算法重用在先前迭代中選擇的錯誤分類細胞,以減少所需細胞的總數。
用ActiveSVM識別單細胞mRNA-seq數據中的最小基因集 作者在四個單細胞 mRNA-seq 數據集(PBMC 數據集、130 萬個小鼠大腦細胞數據集、Tabula Muris 小鼠組織數據集和多發性骨髓瘤人類疾病數據集)上測試了ActiveSVM 特征選擇方法。在每次分析過程中,顯示測試集的分類準確度和選擇的基因數量,并將分類性能與幾種廣泛使用的特征選擇方法進行比較,結果表明,ActiveSVM 獲得的準確度最高。此外,ActiveSVM 大大減少了時間和內存消耗,特別是對于大型數據集。在與ActiveSVM方法使用相同數量的細胞情況下,所有的比較方法都是逐一選擇基因,并根據相應評估函數選擇得分最高的新基因。但是,這些方法在每次迭代過程中隨機采樣細胞,而沒有采取主動學習方法。
在人類PBMC數據上的主動特征選擇 為了測試 ActiveSVM 的性能,作者將該方法用于提取人類 PBMC 的分類基因子集,分析了包含 6915 個基因的 10194 個細胞的單細胞轉錄譜數據集,并使用 Louvain 聚類來識別 T 細胞、活化的 T細胞和 NK 細胞、B 細胞和單核細胞。
最小細胞和最小復雜度策略確定的基因組都能以超過85%的準確度對五種主要細胞類型進行分類,且總基因少至15個 (圖2a-c)。除了支持數據集的細胞類型分類外,ActiveSVM基因集還提供了一個低維空間來分析數據。主動學習策略的一個關鍵優點是分析數據集中相對較小的部分,因此該程序可以在只分析298個細胞的情況下生成基因集(圖2d)。此外,ActiveSVM可以生成包含已知標記的基因集,標記基因通常對單個細胞類型具有高度特異性,但有些也標記多種細胞類型。
圖2 PBMC數據集的基因選擇和細胞類型分類
將 ActiveSVM 擴展到百萬細胞的小鼠大腦數據集 為了證明ActiveSVM特征選擇方法對大型單細胞mRNA-seq數據集的擴展性,作者應用該方法從由10x Genomics收集的大規模細胞演示數據集中提取小型基因集。該數據集包含來自第18天胚胎發育中小鼠大腦的130萬個細胞的完整轉錄組mRNA-seq 數據,它是目前可用的最大的單細胞 mRNA-seq 數據集之一。
實驗結果表明,ActiveSVM 分析130萬個細胞所需的時間和內存遠遠小于其他方法。在大規模細胞數據集上,ActiveSVM 發現在分析不到 1000 個細胞時,僅用 50 個基因就可達到約 90% 分類準確度(圖 3a-c),ActiveSVM還發現了一系列細胞狀態特異性標記基因,擴展了先前的分析(圖3d-f)。總的來說,對小鼠大腦細胞數據集的分析表明,ActiveSVM 可擴展到分析超過 100 萬個細胞的大型數據集。
圖3 ActiveSVM特征選擇擴展到130萬個細胞的小鼠大腦數據集
用于小鼠組織研究中細胞類型分類的基因集 除了分析具有大量細胞的數據集外,作者還在具有大量不同細胞類型的數據集上對 ActiveSVM 的特征選擇性能進行基準測試。作者將 ActiveSVM 應用于 Tabula Muris 小鼠組織數據集,該數據集包含 58 種帶注釋的細胞類型和 12 個主要組織的 55656 個單細胞。對于每個細胞,測量 8661 個基因。并且在分析中使用了提供的細胞類型標簽,這些標簽與組織類型無關。
與其他方法相比,即使有大量的細胞類型, ActiveSVM 也可以構建高精度(>90%)的基因集(圖 4a)。為了構建一個大小為500的基因集,ActiveSVM特征選擇使用不到800個獨特的細胞或者平均每個細胞類型14個細胞。當分析由選定的150個基因(圖4c、d)或500個基因組成的低維t-SNE空間內的細胞時,可以從原始數據(圖4b)中重建聚類模式。ActiveSVM 能夠構建一組識別小鼠不同組織的細胞類型的標記基因,即使在分析大量細胞類型時,也能夠識別出細胞類型高度特異性的基因。
圖4 Tabula Muris小鼠組織研究中細胞類型分類的最小基因集
識別多發性骨髓瘤患者的最小基因集 為了分析作為發現疾病特異性標志物工具的ActiveSVM,作者使用了從兩名健康供體和四名被診斷為多發性骨髓瘤(一種無法治愈的漿細胞癌)患者的外周血免疫細胞中收集的單細胞數據,該數據集包含35159個細胞和32527個基因。
作者將ActiveSVM的分類精度與其他方法(圖5a)進行了比較,發現ActiveSVM在有限的步驟內實現了高精度,并始終優于使用隨機和平衡采樣的其他方法。在 t-SNE 投影的原始數據集中,確定了健康和多發性骨髓瘤細胞的非重疊細胞類型簇(圖 5b)。使用最小復雜度(圖5c、d)和最小細胞策略,從40個基因構建的t-SNEs中復制非重疊簇。在數據的t-SNE表示中,使用最小復雜度策略(有或沒有細胞平衡),最小的基因集足以將多發性骨髓瘤從健康樣本中分離出來。ActiveSVM還識別了外周血免疫細胞內多發性骨髓瘤的已知的和標記的成分(圖5e)。結果表明,ActiveSVM可以自動定義與疾病進展和治療結果有臨床關聯的基因組。ActiveSVM生成的最小基因集可以為各種臨床任務提供有用的靶向測序面板。
圖5 多發性骨髓瘤數據集中健康與疾病分類的基因集選擇
識別受Cas9擾動影響的基因 上述分析表明,ActiveSVM在一系列單細胞mRNA-seq數據集中識別了用于細胞狀態識別的最小基因集。為了證明基于 ActiveSVM 的基因集選擇在單細胞基因組學任務中的泛化能力,作者在另外兩個應用中用該方法來識別標記基因:perturb-seq和空間轉錄組學。
Perturb-seq 是一種使用單細胞 mRNA-seq 讀數進行基于 Cas9 的遺傳篩選方法,它的優點是可以同時進行多個敲除實驗。然而,由于測量和實驗噪聲,識別遺傳擾動對細胞群的影響可能具有挑戰性,并且Cas9分子對基因組的切割是不完整的,現在已經開發了各種方法來增強信號。
作者應用ActiveSVM從具有轉錄因子敲除的小鼠樹突狀細胞收集的perturb-seq數據中識別了最小的基因集以及轉錄因子敲除的下游效應。ActiveSVM通過類別平衡策略在Cebp sgRNA細胞標記上識別出最小基因集(50個基因),分類準確率約為80%。ActiveSVM只使用了一小部分數據,而比較方法在整個數據集上執行, ActiveSVM在該數據集上(有噪聲)的表現也比其他方法更好(圖6a,b)。我們對 perturb-seq 數據的分析表明,ActiveSVM 可以作為一種有用的工具,用于識別由 perturb-seq 實驗調節的基因。因此,ActiveSVM 可以提供一種識別最小基因集的方法,該方法可用于增加 perturb-seq 數據收集的規模。
圖6 ActiveSVM在perturb-seq 數據上的分類結果對比
用空間轉錄組學定義大腦區域標記物 最后,為了進一步證明 ActiveSVM 方法的普遍性,作者應用該方法來識別最小基因集,以便按空間轉錄組數據中的空間位置對細胞進行分類。空間轉錄組學是一種新興的方法,用于測量單個細胞內的 mRNA 表達,同時保留組織內的空間信息和細胞相似度。
作者應用 ActiveSVM 來識別與小鼠大腦中特定空間位置相關的基因,并確定了小于30個基因的基因集,這些基因集能夠以最小復雜度策略實現位置分類,準確率高于85%。ActiveSVM在每次迭代中僅使用十個細胞,但效果優于在整個數據集上執行的比較方法。空間分析表明,ActiveSVM 能夠自動識別富含不同大腦區域的基因。
3 總結 在本文中,作者介紹了一種特征選擇方法ActiveSVM,用于在大型單細胞 mRNA-seq 數據集中發現最小基因集。ActiveSVM 通過迭代細胞狀態分類策略提取最小基因集,并專門選擇位于 SVM 分類器邊緣的細胞,然后使用這些分類較差的細胞來搜索信息量最大的基因(特征)。
在生物學上,最近的一項研究強調了轉錄組中存在的低維結構,當細胞通過包含大量基因的基因表達程序或模塊來調節其生理狀態時,該結構將出現在基因表達數據中。由于轉錄模塊中的基因表達具有高度相關性,對少量高信息量的特征基因進行測量足以推斷細胞的狀態。低維結構可以用來降低測量和分析成本,因為必須測量一小部分轉錄組來推斷細胞狀態。而作者開發的ActiveSVM作為一種可擴展策略,可用于在細胞狀態分類中提取高信息量的基因。
ActiveSVM 方法在當前實踐中有一些限制。首先,作者使用單一分類方法(支持向量機)作為計算引擎開發了 ActiveSVM,而主動學習方法可以更廣泛地應用于其他分類策略。其次,該方法目前應用監督學習任務(細胞狀態分類)來構建最小基因集,在沒有明確細胞狀態標簽的數據集中,可以從無監督的數據聚類中獲得標簽。主動采樣策略可以擴展到更廣泛的應用,包括完全無監督的分析方法和微分軌跡分析。第三,在當前的實踐中,ActiveSVM 在每一輪中只選擇單個基因。而在某些情況下,可能存在信息量很大的基因對或三元組,這些基因對或三元組只能通過明確的組合策略來發現,這些策略可以在每次迭代中搜索提高分類準確性的基因組合。
雖然 ActiveSVM 目前關注的是降低計算成本,但作者希望未來可將主動采樣策略直接應用于測量點。在基因組學中,測量資源通常會限制數據采集的規模。單細胞 mRNA-seq 測量目前受到測序和試劑成本的限制,同樣,空間基因組學方法也受到成像時間的限制。在未來的工作中,作者的目標是開發能夠通過主動采樣提高單細胞數據在線采集的策略。通過僅對符合標準的細胞進行測序或成像,可以在測量點實施主動策略。更廣泛地說,通過設計實驗擾動,實際誘導生物系統產生信息高度豐富的示例,可能會增加測量的信息量。 參考資料 Chen, X., Chen, S. & Thomson, M. Minimal gene set discovery in single-cell mRNA-seq datasets with ActiveSVM. Nat Comput Sci 2, 387–398 (2022). //doi.org/10.1038/s43588-022-00263-8
數據
代碼