亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

編譯 | 程昭龍 審稿 | 林榮鑫,王靜 本文介紹由美國加利福尼亞州帕薩迪納加州理工學院生物與生物工程系的Matt Thomson通訊發表在 Nature Computational Science 的研究成果:目前,測序成本是導致單細胞mRNA-seq無法應用于許多生物學和臨床分析的主要原因。靶向單細胞mRNA-seq通過分析縮減的基因集來降低測序成本,這些基因集以最少的基因捕獲生物信息。為此,作者提出了一種主動學習方法,該方法可以識別數量最少但信息量很大的基因集,從而能夠使用少量基因識別單細胞數據中的細胞類型、生理狀態和遺傳擾動。其中的主動特征選擇過程通過使用主動支持向量機 (ActiveSVM) 分類器從單細胞數據中生成最小基因集。經實驗證明,ActiveSVM 特征選擇識別的基因集在細胞圖譜和疾病特征數據集上的細胞類型分類準確率能達到約90%。數量少但信息量大的基因集的發現有助于減少將單細胞 mRNA-seq 應用于臨床測試、治療發現和遺傳篩選所需的測量次數。

1 簡介 單細胞 mRNA-seq方法的規模已擴大到每次實驗可以對數千個細胞進行常規的轉錄組水平分析。盡管單細胞 mRNA-seq 方法可以為許多不同的生物學和生物醫學問題提供見解,但高昂的測序成本阻礙了單細胞 mRNA-seq 在許多探索性分析和成本敏感的臨床分析中的廣泛應用。靶向 mRNA-seq 的開發有助于解決上述測序瓶頸,通過將測序資源集中在特定生物學問題或分析的高信息量基因上,可將測序成本降低多達 90%。

細胞通過調控轉錄程序或模塊來調控基因表達,這些轉錄程序或模塊包含受共同轉錄因子組調控的多個基因。由于協同調控,轉錄模塊內的基因表現出相關的基因表達。基因表達的相關性可以使細胞的轉錄狀態能夠通過對少量高信息量基因的靶向mRNA分析來重建。然而,這種靶向測序方法需要計算方法來識別針對特定生物學問題的高信息量基因。差異基因表達分析和主成分分析(PCA)等一系列計算方法可用于識別高信息量基因。目前,定義最小基因集的方法在計算上非常昂貴,難以應用于大型單細胞mRNA-seq數據集,并且通常需要用戶定義的閾值來進行基因選擇。

受主動學習方法的啟發,作者開發了一種計算方法,該方法通過主動支持向量機(ActiveSVM)分類任務選擇能夠可靠識別細胞類型和轉錄狀態的最小基因集。ActiveSVM 算法通過迭代細胞狀態分類任務構建最小基因集。在每次迭代中,ActiveSVM 應用當前基因集將細胞分類到類中,這些類由細胞狀態的無監督聚類獲得或實驗標簽提供。該程序分析當前基因集錯誤分類的細胞,然后識別其中最大信息量的基因,并將這些基因添加到正在增長的基因集中以改善分類。ActiveSVM 通過主動查詢 SVM 分類器的輸出,找出分類不佳的細胞,然后對錯誤分類的細胞進行詳細分析,以選擇信息量最大的基因。通過定義明確的分類任務選擇最小的基因集,可以確保 ActiveSVM 發現的基因集保留了生物信息。

ActiveSVM 的主要貢獻是:該方法可以擴展到超過一百萬個細胞的大型單細胞數據集上,這是因為該方法將計算資源集中在分類較差的細胞上。由于該算法僅分析與當前基因集分類較差的細胞的完整轉錄組,因此該方法可用于發現能夠以高精度區分細胞類型的小型基因集,即使在超過一百萬個細胞的數據集中也是如此。經實驗證明, ActiveSVM 可以在短短數小時內分析包含 130 萬個細胞的小鼠大腦數據集。此外,ActiveSVM還可以推廣到一系列單細胞數據分析任務中,包括識別疾病標志物、Cas9擾動應答基因和空間轉錄組學中的區域特異性基因。

2 結果 ActiveSVM特征選擇概述 作者開發了一種應用支持向量機分類器來識別小型基因集的計算方法,以區分單細胞數據中的細胞狀態(圖 1)。該算法通過訓練SVM模型,根據標簽對細胞類型進行分類,從而迭代的選擇基因并使用已識別的基因對細胞進行分類。該算法在給定當前基因集的情況下,識別數據集中分類較差的細胞,并通過分類錯誤的細胞選擇額外的基因,以提高整個數據集的分類精度。

圖1 ActiveSVM特征選擇概述

ActiveSVM基于一組細胞標簽,通過迭代分類和基因選擇來構造最小基因集。由于ActiveSVM僅對當前基因集分類較差的細胞執行全轉錄組分析,因此大大提高了該算法的計算效率。ActiveSVM可以從無監督分析、實驗元數據或細胞類型標記基因的生物學知識中獲得細胞標簽。作者分別提供了最小復雜度和最小細胞版本的 ActiveSVM 算法。最小復雜度算法對一定數量的錯誤分類細胞進行采樣,并直接將其作為細胞集來選擇下一個基因。最小細胞算法重用在先前迭代中選擇的錯誤分類細胞,以減少所需細胞的總數。

用ActiveSVM識別單細胞mRNA-seq數據中的最小基因集 作者在四個單細胞 mRNA-seq 數據集(PBMC 數據集、130 萬個小鼠大腦細胞數據集、Tabula Muris 小鼠組織數據集和多發性骨髓瘤人類疾病數據集)上測試了ActiveSVM 特征選擇方法。在每次分析過程中,顯示測試集的分類準確度和選擇的基因數量,并將分類性能與幾種廣泛使用的特征選擇方法進行比較,結果表明,ActiveSVM 獲得的準確度最高。此外,ActiveSVM 大大減少了時間和內存消耗,特別是對于大型數據集。在與ActiveSVM方法使用相同數量的細胞情況下,所有的比較方法都是逐一選擇基因,并根據相應評估函數選擇得分最高的新基因。但是,這些方法在每次迭代過程中隨機采樣細胞,而沒有采取主動學習方法。

在人類PBMC數據上的主動特征選擇 為了測試 ActiveSVM 的性能,作者將該方法用于提取人類 PBMC 的分類基因子集,分析了包含 6915 個基因的 10194 個細胞的單細胞轉錄譜數據集,并使用 Louvain 聚類來識別 T 細胞、活化的 T細胞和 NK 細胞、B 細胞和單核細胞。

最小細胞和最小復雜度策略確定的基因組都能以超過85%的準確度對五種主要細胞類型進行分類,且總基因少至15個 (圖2a-c)。除了支持數據集的細胞類型分類外,ActiveSVM基因集還提供了一個低維空間來分析數據。主動學習策略的一個關鍵優點是分析數據集中相對較小的部分,因此該程序可以在只分析298個細胞的情況下生成基因集(圖2d)。此外,ActiveSVM可以生成包含已知標記的基因集,標記基因通常對單個細胞類型具有高度特異性,但有些也標記多種細胞類型。

圖2 PBMC數據集的基因選擇和細胞類型分類

將 ActiveSVM 擴展到百萬細胞的小鼠大腦數據集 為了證明ActiveSVM特征選擇方法對大型單細胞mRNA-seq數據集的擴展性,作者應用該方法從由10x Genomics收集的大規模細胞演示數據集中提取小型基因集。該數據集包含來自第18天胚胎發育中小鼠大腦的130萬個細胞的完整轉錄組mRNA-seq 數據,它是目前可用的最大的單細胞 mRNA-seq 數據集之一。

實驗結果表明,ActiveSVM 分析130萬個細胞所需的時間和內存遠遠小于其他方法。在大規模細胞數據集上,ActiveSVM 發現在分析不到 1000 個細胞時,僅用 50 個基因就可達到約 90% 分類準確度(圖 3a-c),ActiveSVM還發現了一系列細胞狀態特異性標記基因,擴展了先前的分析(圖3d-f)。總的來說,對小鼠大腦細胞數據集的分析表明,ActiveSVM 可擴展到分析超過 100 萬個細胞的大型數據集。

圖3 ActiveSVM特征選擇擴展到130萬個細胞的小鼠大腦數據集

用于小鼠組織研究中細胞類型分類的基因集 除了分析具有大量細胞的數據集外,作者還在具有大量不同細胞類型的數據集上對 ActiveSVM 的特征選擇性能進行基準測試。作者將 ActiveSVM 應用于 Tabula Muris 小鼠組織數據集,該數據集包含 58 種帶注釋的細胞類型和 12 個主要組織的 55656 個單細胞。對于每個細胞,測量 8661 個基因。并且在分析中使用了提供的細胞類型標簽,這些標簽與組織類型無關。

與其他方法相比,即使有大量的細胞類型, ActiveSVM 也可以構建高精度(>90%)的基因集(圖 4a)。為了構建一個大小為500的基因集,ActiveSVM特征選擇使用不到800個獨特的細胞或者平均每個細胞類型14個細胞。當分析由選定的150個基因(圖4c、d)或500個基因組成的低維t-SNE空間內的細胞時,可以從原始數據(圖4b)中重建聚類模式。ActiveSVM 能夠構建一組識別小鼠不同組織的細胞類型的標記基因,即使在分析大量細胞類型時,也能夠識別出細胞類型高度特異性的基因。

圖4 Tabula Muris小鼠組織研究中細胞類型分類的最小基因集

識別多發性骨髓瘤患者的最小基因集 為了分析作為發現疾病特異性標志物工具的ActiveSVM,作者使用了從兩名健康供體和四名被診斷為多發性骨髓瘤(一種無法治愈的漿細胞癌)患者的外周血免疫細胞中收集的單細胞數據,該數據集包含35159個細胞和32527個基因。

作者將ActiveSVM的分類精度與其他方法(圖5a)進行了比較,發現ActiveSVM在有限的步驟內實現了高精度,并始終優于使用隨機和平衡采樣的其他方法。在 t-SNE 投影的原始數據集中,確定了健康和多發性骨髓瘤細胞的非重疊細胞類型簇(圖 5b)。使用最小復雜度(圖5c、d)和最小細胞策略,從40個基因構建的t-SNEs中復制非重疊簇。在數據的t-SNE表示中,使用最小復雜度策略(有或沒有細胞平衡),最小的基因集足以將多發性骨髓瘤從健康樣本中分離出來。ActiveSVM還識別了外周血免疫細胞內多發性骨髓瘤的已知的和標記的成分(圖5e)。結果表明,ActiveSVM可以自動定義與疾病進展和治療結果有臨床關聯的基因組。ActiveSVM生成的最小基因集可以為各種臨床任務提供有用的靶向測序面板。

圖5 多發性骨髓瘤數據集中健康與疾病分類的基因集選擇

識別受Cas9擾動影響的基因 上述分析表明,ActiveSVM在一系列單細胞mRNA-seq數據集中識別了用于細胞狀態識別的最小基因集。為了證明基于 ActiveSVM 的基因集選擇在單細胞基因組學任務中的泛化能力,作者在另外兩個應用中用該方法來識別標記基因:perturb-seq和空間轉錄組學。

Perturb-seq 是一種使用單細胞 mRNA-seq 讀數進行基于 Cas9 的遺傳篩選方法,它的優點是可以同時進行多個敲除實驗。然而,由于測量和實驗噪聲,識別遺傳擾動對細胞群的影響可能具有挑戰性,并且Cas9分子對基因組的切割是不完整的,現在已經開發了各種方法來增強信號。

作者應用ActiveSVM從具有轉錄因子敲除的小鼠樹突狀細胞收集的perturb-seq數據中識別了最小的基因集以及轉錄因子敲除的下游效應。ActiveSVM通過類別平衡策略在Cebp sgRNA細胞標記上識別出最小基因集(50個基因),分類準確率約為80%。ActiveSVM只使用了一小部分數據,而比較方法在整個數據集上執行, ActiveSVM在該數據集上(有噪聲)的表現也比其他方法更好(圖6a,b)。我們對 perturb-seq 數據的分析表明,ActiveSVM 可以作為一種有用的工具,用于識別由 perturb-seq 實驗調節的基因。因此,ActiveSVM 可以提供一種識別最小基因集的方法,該方法可用于增加 perturb-seq 數據收集的規模。

圖6 ActiveSVM在perturb-seq 數據上的分類結果對比

用空間轉錄組學定義大腦區域標記物 最后,為了進一步證明 ActiveSVM 方法的普遍性,作者應用該方法來識別最小基因集,以便按空間轉錄組數據中的空間位置對細胞進行分類。空間轉錄組學是一種新興的方法,用于測量單個細胞內的 mRNA 表達,同時保留組織內的空間信息和細胞相似度。

作者應用 ActiveSVM 來識別與小鼠大腦中特定空間位置相關的基因,并確定了小于30個基因的基因集,這些基因集能夠以最小復雜度策略實現位置分類,準確率高于85%。ActiveSVM在每次迭代中僅使用十個細胞,但效果優于在整個數據集上執行的比較方法。空間分析表明,ActiveSVM 能夠自動識別富含不同大腦區域的基因。

3 總結 在本文中,作者介紹了一種特征選擇方法ActiveSVM,用于在大型單細胞 mRNA-seq 數據集中發現最小基因集。ActiveSVM 通過迭代細胞狀態分類策略提取最小基因集,并專門選擇位于 SVM 分類器邊緣的細胞,然后使用這些分類較差的細胞來搜索信息量最大的基因(特征)。

在生物學上,最近的一項研究強調了轉錄組中存在的低維結構,當細胞通過包含大量基因的基因表達程序或模塊來調節其生理狀態時,該結構將出現在基因表達數據中。由于轉錄模塊中的基因表達具有高度相關性,對少量高信息量的特征基因進行測量足以推斷細胞的狀態。低維結構可以用來降低測量和分析成本,因為必須測量一小部分轉錄組來推斷細胞狀態。而作者開發的ActiveSVM作為一種可擴展策略,可用于在細胞狀態分類中提取高信息量的基因。

ActiveSVM 方法在當前實踐中有一些限制。首先,作者使用單一分類方法(支持向量機)作為計算引擎開發了 ActiveSVM,而主動學習方法可以更廣泛地應用于其他分類策略。其次,該方法目前應用監督學習任務(細胞狀態分類)來構建最小基因集,在沒有明確細胞狀態標簽的數據集中,可以從無監督的數據聚類中獲得標簽。主動采樣策略可以擴展到更廣泛的應用,包括完全無監督的分析方法和微分軌跡分析。第三,在當前的實踐中,ActiveSVM 在每一輪中只選擇單個基因。而在某些情況下,可能存在信息量很大的基因對或三元組,這些基因對或三元組只能通過明確的組合策略來發現,這些策略可以在每次迭代中搜索提高分類準確性的基因組合。

雖然 ActiveSVM 目前關注的是降低計算成本,但作者希望未來可將主動采樣策略直接應用于測量點。在基因組學中,測量資源通常會限制數據采集的規模。單細胞 mRNA-seq 測量目前受到測序和試劑成本的限制,同樣,空間基因組學方法也受到成像時間的限制。在未來的工作中,作者的目標是開發能夠通過主動采樣提高單細胞數據在線采集的策略。通過僅對符合標準的細胞進行測序或成像,可以在測量點實施主動策略。更廣泛地說,通過設計實驗擾動,實際誘導生物系統產生信息高度豐富的示例,可能會增加測量的信息量。 參考資料 Chen, X., Chen, S. & Thomson, M. Minimal gene set discovery in single-cell mRNA-seq datasets with ActiveSVM. Nat Comput Sci 2, 387–398 (2022). //doi.org/10.1038/s43588-022-00263-8
數據

代碼

付費5元查看完整內容

相關內容

醫學領域的人工智能是使用機器學習模型搜索醫療數據,發現洞察,從而幫助改善健康狀況和患者體驗。 得益于近年來計算機科學和信息技術的發展,人工智能 (AI) 正迅速成為現代醫學中不可或缺的一部分。 由人工智能支持的人工智能算法和其他應用程序正在為臨床和研究領域的醫學專業人員提供支持。

編譯|程昭龍

審稿|王靜本文介紹由華大基因的汪建和牟峰共同通訊發表在 Nature Machine Intelligence 的研究成果:單細胞數據集規模的不斷擴大,對解決擴展的規模、擴展的模態和批次效應等問題帶來了計算挑戰。最近提出的基因深度學習的方法,是通過推導非線性細胞嵌入來解決這些問題。對此,**作者提出了基于對比學習的方法Concerto,它利用自監督的蒸餾框架來模擬多模態單細胞圖譜。**只需將每個細胞與其他細胞區分開來,Concerto 就可以適用于各種下游任務,如細胞類型分類、數據集成、參考映射。與當前的主流軟件包不同,Concerto 的對比設置支持對所有基因進行操作以保留生物變異,它還可以靈活地推廣到多組學中以獲得統一的細胞表示。在模擬數據集和真實數據集上進行基準測試,實驗結果表明,Concerto 的性能遠優于其他方法。并且,Concerto 概括了不同的免疫反應,還發現了 COVID-19 患者的疾病特異性細胞狀態。總體而言,Concerto 將通過迭代構建單細胞參考圖譜并快速映射新的數據集來傳輸相關的細胞注釋,從而促進生物醫學研究。

1 簡介 目前,單細胞多組學工具正在以前所未有的分辨率徹底改變組織表征,而人類細胞圖譜和小鼠細胞圖譜的規模已接近數百萬。同時,單細胞分析還具有以下特點。首先,技術脫落或生物信號可能會帶來過多的零計數。主流軟件包通過特征選擇和線性降維來提取可能導致信息丟失的主要變化,深度學習方法為模擬所有基因之間的非線性關系提供了一種解決方案,變分自動編碼器(VAE)利用具有重構功能的編碼器-解碼器結構來學習低維細胞嵌入。其次,批次效應廣泛存在于技術、條件和捐助者之間。從混雜效應中分離生物信號對數據集成非常重要,Seurat v.3使用相互最近鄰識別跨批次的錨細胞對,但一次只允許兩個批次的集成,并且隨著處理細胞數量的增加,其內存消耗也呈指數增長。為了校正批次效應,Harmony迭代地使用模糊聚類和線性校正,而trVAE則是利用條件VAE。最后,query-to-reference映射可以快速解釋新生成的數據集,而無需費力的從頭聚類或手動注釋。與嚴格的監督分類不同,作者將query-to-reference映射視為無監督遷移學習問題,從學習到的查詢嵌入中推導出基于投票的注釋。

對比學習最近在計算機視覺領域取得了巨大成功,受其在建模未標記數據方面的啟發,作者認為可通過自監督的方式區分每個細胞來獲得高質量的表示。蒸餾方案也被用在非對稱神經網絡中,從監督環境中的模型壓縮和在線共蒸餾發展到半監督環境中的自訓練,進行自監督蒸餾以獲得更好的表示。

因此,作者提出了一個用于單細胞分析的自蒸餾對比學習框架 Concerto。通過對真實數據集和模擬數據集進行基準測試,學習的嵌入可以針對各種下游需求進行微調,包括自動細胞類型分類、聚類、批次效應校正的數據集成以及query-to-reference映射。Concerto 可以靈活地處理多組學數據集,并在每個任務中優于其他方法。此外,作者利用Concerto 根據包含健康和感染樣本的綜合參考圖譜查詢 COVID-19 免疫細胞數據集,概括了具有不同疾病狀態的患者的幾種不同免疫特征。實驗結果表明,Concerto 是一個強大、準確、可擴展的表示學習框架,可用于 1000 萬個細胞規模的單細胞多模態分析。

2 結果 Concerto結構概述

Concerto 利用配置為非對稱師生架構的自蒸餾對比學習框架(圖 1a),非對稱設計注入了不平衡的模型復雜性,即較大的教師網絡通過注意力機制將基因嵌入聚合到細胞嵌入中,而較小的學生網絡則通過密集操作將離散輸入轉換為細胞嵌入。通過為每個未標記的細胞定義實例區分前置任務,Concerto通過最大化每個細胞的師生視圖之間的一致性來學習語義不變嵌入。在輸出層之前添加一個隨機的dropout掩碼,以便在SimCSE的句子處理方案的推斷下,在模型級別生成最小的數據增強。同時,通過添加一個特定域的批處理規范化層以校正批次效應。在處理多組學數據集時,對每個模態進行簡單的元素求和可以生成統一的細胞嵌入(圖1b)。通過投射到單位超球面空間上,Concerto將同一細胞的師生視圖作為正對匯集在一起,同時分開同批次內的其他細胞,最終將細胞區分開來。學習到的嵌入可以針對各種下游任務進行微調,包括自動細胞類型分類、聚類、批次效應校正的數據集成以及query-to-reference映射(圖1c)。

圖1 Concerto結構概述

Concerto有助于自動細胞類型分類并發現跨組織的新細胞類型

為了證明對比學習的嵌入滿足嚴格的細胞分類,作者使用現有的注釋作為訓練標簽來在 Concerto 上實現監督微調。通過使用人類外周血單核細胞數據集(PBMC45k, n = 31021)來對比不同的分類器,包括基于似然的SciBet、基于神經網絡的Cell BLAST、基于相關性的SingleR、基于支持向量機的Moana和元學習方法MARS。Concerto分為兩步:預訓練和微調,而其他方法則是端到端訓練。作者還通過丟棄對比損失并以完全監督的方式進行訓練,從而實現了 Concerto(Concerto-E2E)的端到端版本。實驗結果表明,Concerto 幾乎在所有的train-test分割上都遠優于其他方法。

如果測試集包含訓練樣本中不存在的細胞類型,好的分類器應該將非上述(NOTA)細胞標記為拒絕預測選項。作者將PBMC CITE-seq數據集在三個水平上注釋,并從訓練集中去除不同的T細胞粒度以評估NOTA方法,圖2顯示Concerto可以清晰地分離出1級和2級掩蔽的驗證集和測試集的置信曲線。即使在最具挑戰性的3級情景中,Concerto也能得到與驗證曲線部分重疊的雙峰曲線。

圖2 Concerto和SciBet對比實驗

對于跨組織注釋,作者采用與MARS類似的實驗設計,將一個組織作為未注釋的測試集,并在所有其他組織上訓練Concerto。通過添加域適應模塊,Concerto在22個保留組織上實現了優于MARS的調整蘭德指數(ARI)。與 MARS 類似,Concerto 可以有效地進行知識轉移以發現跨組織的新細胞類型。

Concerto可在多模態數據集上實現無監督聚類

一項新的單細胞研究通常從無監督聚類開始,然而,離散的集群可能會忽略細胞狀態之間的平滑過渡。Cell-ID 可以以無聚類的方式提取每個細胞的基因特征。為此,作者評估了 Concerto 嵌入在從頭聚類中的效用,并表明 Concerto 還可以在單細胞分辨率下提取具有生物學意義的特征。通過在PBMC45k(n=11377個細胞)選擇具有最小批次效應的子集,作者將 Concerto 的表示與 Seurat 在不同聚類算法上的共享最近鄰進行比較。實驗證明,Concerto嵌入上的Leiden聚類(Concerto+Leiden)在五種分辨率下顯著優于其他方法(圖3a),并且,Concerto可以很好地將聚類分配與手動注釋對齊(圖3b)。

圖3 對比 Concerto嵌入和其他方法的聚類性能

為了驗證納入轉錄組以外的其他組能夠更精確地定義細胞特性,作者使用RNA、蛋白質或兩者同時作為輸入來實現Concerto,并將學習到的嵌入通過分層注釋進行可視化(圖4)。Concerto 可以簡單地通過對每個模態進行元素求和來獲得統一的視圖,從而解決任意數量的擴展模態。Concerto 的教師模塊使用注意力機制來聚合基因嵌入。首先假設注意力權重可以通過復制細胞類型建立的分子特征來提供某些模型的可解釋性。實驗結果證明了用于定義細胞身份的關鍵特征的歸一化注意力貢獻,成功地恢復了一些典型細胞類型的規范模態特異性標記。

圖4 Concerto學習嵌入的可視化

Concerto通過消除批次效應實現數據集成

面對將不同來源合并到參考圖譜時需要校正批次效應的問題,作者在多供體人體胰腺 (HP) 胰島數據集(8批次,n = 14890 個細胞)上對 Concerto 的數據集成性能進行了基準測試。通過設計六種方案來評估輸入基因數量的影響,觀察到Concerto在六種情況下實現了遠高于其他方法的平均輪廓寬度(ASW),這表明Concerto可以更好的捕獲生物變異。同時,Concerto的對比學習目標不受融合不同亞群的影響,并能保留生物變異以構建高質量參考。

Concerto實現高精度的query-to-reference映射

我們進一步評估了 Concerto 將查詢細胞映射到協調的參考嵌入的能力。與嚴格的細胞分類不同,查詢到參考映射僅在推理過程中使用細胞類型標簽。特別地,作者首先使用預訓練的模型權重計算查詢嵌入,將查詢細胞定位在它們最相似的參考細胞附近,并使用 k 最近鄰(通常 k = 5)投票分類器將參考注釋轉移到查詢。通過設計兩個實驗:跨技術映射和跨物種映射,結果表明,Concerto在兩個實驗中均達到最高的平均 ACC(圖5a)。并且,混淆矩陣(圖 5b)表明Concerto 可以準確地跨技術和跨物種轉移標簽。然后,作者還設計了一項研究來預測看未知的細胞類型,并評估整合所有基因是否對此有益。通過從PBMC160k 中分配一個樣本 (P3) 作為查詢,并使用其他七個樣本來構建參考。該實驗證明Concerto可以沿著具有生物學意義的連續體投射未知的細胞亞型,Concerto還可以推斷查詢細胞中不可測量的模態。

圖5 Concerto和其他方法進行query-to-reference 映射的性能對比

Concerto可以擴展到1000萬細胞的圖譜構建和參考映射

對于可擴展性分析,作者模擬虛擬參考并針對每個參考映射等量的查詢細胞。通過將整個任務分成多個處理批次,對比學習自然是可并行化的并且易于擴展到超大圖譜。Concerto可以有效擴展以構建數百萬個細胞參考,從而在幾分鐘內實現快速映射。Concerto還可以在僅使用CPU的典型計算機上工作,需要1.1小時構建100000個細胞的參考,并在30分鐘內查詢相同數量的細胞。實驗表明Concerto是最具可擴展性的,不需要PCA或縮放,可以對所有基因進行操作并很好地支持多模態集成。

映射COVID-19免疫細胞與疾病參考圖譜

作者進一步使用Concerto 將最近發布的 COVID-19 PBMC 數據集投影到全面的COVID-19參考中。然后在不進行微調的情況下,即可將查詢集投影到其上(圖6a)。COVID-19參考包含與查詢中類似的疾病相關細胞狀態,因此,直接的模型推理足以進行快速映射。對于所有注釋的CD8 T細胞,Concerto可以區分不同疾病狀態(健康對照,輕度和重度)的原始、增殖、記憶和效應狀態的不同組成,并獲得一致的狀態特異性特征(圖6b、c)。

圖6 Concerto保留COVID-19患者的差異免疫應答

總體而言,Concerto 成功地分離了病理狀態,保留了細微的狀態特異性變異,并識別了不同的免疫特征。無論實施直接推理還是無監督微調,都取決于參考的多樣性和查詢的相關性,更全面的參考通常有利于映射性能。Concerto 可以通過迭代更新參考來覆蓋更多樣化的樣本,從而形成一個持續學習的框架。

3 總結 假設每個細胞不同,Concerto通過區分每個細胞與其他細胞來學習高質量的細胞表示。基于將不同的理論基礎的方法與基于PCA或VAE的方法進行比較,對比學習的嵌入非常適合于保存生物學細微差別。Concerto支持對所有基因進行操作,這對于在基于映射的任務中確保查詢和參考之間的特征重疊尤為重要。Concerto的非對稱自蒸餾方案在從教師網絡的注意力操作中學習語義豐富的表示和從學生網絡密集輸出中獲得良好的泛化性之間取得了平衡。通過解釋注意力權重,Concerto可以在單細胞分辨率下自動提取一些典型的分子特征,并確定每種模態對定義細胞身份的相對貢獻。query-to-reference映射已成為單細胞分析中的一種新范式。Concerto的對比設置很容易并行化,并根據參考多樣性或相關性支持直接推理或無監督微調。通過簡單的元素總和,Concerto可以有效地支持多組學集成。當大規模疾病圖譜可用時,Concerto在轉化研究中也顯示出巨大的潛力。

參考資料 Yang, M., Yang, Y., Xie, C. et al. Contrastive learning enables rapid mapping to multimodal single-cell atlas of multimillion scale. Nat Mach Intell 4, 696–709 (2022).

//doi.org/10.1038/s42256-022-00518-z

數據鏈接:

代碼鏈接:

付費5元查看完整內容

![](//cdn.zhuanzhi.ai/vfiles/66d848f8853fbf4603567dbc526d83f

近日,電子信息與電氣工程學院自動化系沈紅斌教授****、****袁野副教授的課題組(模式識別與生物信息學課題組)在**《自然-計算科學》(Nature Computational Science)上發表題為《利用圖神經網絡對空間轉錄組數據進行細胞聚類》**(Cell clustering for spatial transcriptomics data with graph neural networks)的研究論文。

論文簡介

★ ★ ★

空間轉錄組技術是生物信息學領域近年來的重大突破之一。該技術通過同時測量大量細胞的空間位置和細胞內的轉錄組計數,彌補了單細胞測序技術難以測量單個細胞之間位置關系的缺陷,從而為理解多細胞之間的相互作用提供了全新的數據基礎。發展針對空間轉錄組數據的基礎分析方法是當前生物信息學領域的前沿問題之一。

論文提出了一種基于圖卷積神經網絡的空間轉錄組細胞聚類方法(Cell Clustering for Spatial Transcriptomics,CCST)。此前針對該類數據的處理模型大都基于“同種細胞在空間上相互臨近”的這一假設。相比之下,**CCST并不依賴于局部特征,而是****可以從細胞的全局空間分布中學習節點嵌入。**具體方案為:首先將空間轉錄組建模為圖結構的數據。圖中每一個節點代表一個細胞,其原始表征為高維的基因表達信息。圖的鄰接矩陣則依據細胞之間的空間距離建立。隨后分別提取圖上的局部特征和全局特征,以最大化局部和全局特征間的互信息為目標,訓練圖神經網絡模型,從而得到帶有全局結構信息的節點嵌入,再對各細胞所對應的表示向量進行聚類來識別細胞類型,最后從生物功能角度對聚類結果進行了深入分析。

CCST方法示意圖

創新之處

★ ★ ★

論文在幾種不同類型數據集上,綜合對比了近期學術界提出的多個相關算法。在腦前額葉皮質和人乳腺癌細胞ST數據集上的實驗表明,CCST在ARI、NMI和FMI等多個聚類評價指標上均體現出優勢。同時,此方法得到的聚類結果具有較好的生物可解釋性。在MERFISH數據中,通過進行差異表達基因和基因本體(GO)分析,可以發現使用CCST聚類出的各個細胞簇能夠很好地和各細胞周期階段對應。

CCST與相關算法的指標對比:a. 調整蘭德系數(ARI);b. 歸一化互信息(NMI);c. Fowlkes-Mallows分數(FMI);d. 局部逆辛普森指數(LISI)

此研究為處理空間轉錄組數據提供了新方案,具有被應用于生命醫藥科學中多層次基礎問題研究的潛力,包括建模基因表達的空間分布、分析細胞動力學以及發現關鍵細胞亞型相互作用及其分子機制等;同時該研究也具有潛在的廣泛醫學應用場景。

作者信息

★ ★ ★

電院自動化系博士生****李家琛為論文的第一作者,電院沈紅斌教授、****袁野副教授為通訊作者,潘小勇助理教授和陳思衡副教授為共同作者。該研究獲得國家自然科學基金項目和上海浦江計劃的資助。

關于Nature Computational Science

★ ★ ★

Nature Computational Science(《自然-計算科學》)是專注于基礎和應用計算科學的《Nature》子刊,側重于計算技術和數學模型的開發與使用,以及它們在解決一系列科學學科中復雜問題的應用。該雜志的主要目標是促進多學科研究和新計算技術的跨學科應用。

論文鏈接

來源丨自動化系 文稿丨袁野 編輯 | 孟嫻 李霞 責任編輯 | 王佳力瀾

付費5元查看完整內容

編譯 | 楊博,王自樂 審稿 | 王海云 本文介紹美國紐約州伊薩卡康奈爾大學獸醫學院貝克動物健康研究所Tinyi Chu和美國紐約州伊薩卡市康奈爾大學獸醫學院生物醫學系Charles G. Danko共同通訊發表在 Nature cancer 的研究成果:作者開發了貝葉斯細胞比例重構,使用統計邊緣化推斷(BayesPrism),一種貝葉斯方法,使用來源于患者的scRNA-seq作為先驗信息,從bulk RNA-seq中預測單個細胞類型的細胞組成和基因表達。對原發性膠質母細胞瘤、頭頸部鱗狀細胞癌和皮膚黑色素瘤進行了整合分析,以將細胞類型組成與不同腫瘤類型的臨床結果相關聯,并探索惡性和非惡性細胞狀態的空間異質性。作者使用排除混雜的非惡性細胞后的基因表達注釋來細化當前的癌癥亞型。最后確定了惡性細胞中與多種腫瘤類型的巨噬細胞浸潤、T細胞、成纖維細胞和內皮細胞相關的基因表達。并且引入了一種新的視角,可以在bulk RNA-seq數據中準確地推斷細胞組成和表達。

1 簡介 細胞與細胞之間的相互作用非常復雜,在生物環境中會強烈影響細胞行為,通常會產生醫學后果。

兩層信息對于理解腫瘤組成至關重要:(1)每種細胞類型的比例;(2)每種細胞類型中的基因表達水平。單細胞RNA測序(scRNA-seq)技術的興起最近使TME內單個細胞轉錄組的全基因組測量和異質性表征成為可能。然而,scRNA-seq的成本和對高質量組織的要求限制了可檢測的患者樣本數量。此外,scRNA-seq易受細胞捕獲技術偏差的影響,這會干擾細胞類型組成的恢復。

作為一種替代方法,細胞類型豐度可以通過對一組任意定義的標記基因構建的參考表達矩陣進行回歸,從大量RNA-seq數據推斷。然而,現有的反卷積方法對參考樣本與體樣本的分布差異做了限制性的假設。這些假設經常被大量數據和參考數據之間的技術和生物學差異阻礙。因此,現有的方法未能解決下述關鍵問題:在TME中,惡性細胞如何影響非惡性細胞的組成,哪些基因與這些相互作用相關?

因此作者提出了名為BayesPrism的貝葉斯模型,使用scRNA-seq作為先驗信息,通過bulk RNA-seq數據聯合推斷細胞類型的部分后驗分布和基因表達。通過明確建模和邊緣化單細胞參考數據和bulk數據之間的基因表達差異,BayesPrism在腫瘤和非腫瘤設置的細胞類型分數推斷方面大大優于現有的方法。并且作者使用了一個包含膠質母細胞瘤(GBM)、頭頸部鱗狀細胞癌(HNSCC)和皮膚黑色素瘤(SKCM)的大樣本數據集,其中包含1412個批量RNA-seq和85個scRNA-seq樣本,證明了該方法的有效性。

2 結果 細胞類型部分和基因表達的貝葉斯推斷 BayesPrism使用一個參考的scRNA-seq來推斷每個bulk RNA-seq樣本的兩個統計數據:(1) 從每個細胞類型獲得的讀數比例,假設它與該細胞類型的比例成正比;(2)每種細胞類型的基因表達水平(圖1a,b)。細胞去卷積最具挑戰性的方面是考慮各種不確定性的來源,包括技術和生物批次的變化,在bulk和參考scRNA-seq之間的基因表達。為了解釋這些不確定性,BayesPrism采用貝葉斯策略,使用scRNA-seq對先驗分布進行建模,利用每個觀測數據,推斷出每個細胞類型和大量樣本中細胞類型比例和基因表達的聯合后驗分布。因此,每次估計的不確定性都可以從聯合后驗中剔除。

BayesPrism提高了細胞類型去卷積的準確性 為了評估BayesPrism是否在更現實的環境中提高去卷積性能,接下來作者通過在三種不同的環境中結合來自單細胞的讀數來生成偽bulk數據,(1) 外周血單個核細胞(PBMC)和小鼠大腦皮質樣本;(2) 在三種人類癌癥類型的數據集中進行遺漏測試;(3) 使用不同的測序平臺從不同的隊列中產生的GBM數據集(圖1c,d)。使用PBMC scRNA-seq數據作為參考,BayesPrism獲得了比其他去卷積方法更準確的五個細胞類型的估計(MSE上,相關系數上P<0.03)(圖1e,f)。綜上所述,這些基準表明,BayesPrism 改善了現實環境中的解卷積性能。

BayesPrism估計未觀察患者的基因表達 作者估計了28個GBMs的SMART-seq2偽bulk數據中的細胞類型和基因表達。并使用了來自8個GBMs的基于microwell的scRNA-seq參考數據,在bulk RNA-seq和scRNA-seq參考數據之間存在生物和技術差異的情況下,測試了BayesPrism的準確性。偽bulk樣本(ψmal)中惡性細胞的基因表達估計與已知的基礎真理高度相似(圖1g)。對腫瘤來說,BayesPrism基因表達估計值和已知的真實值之間的相關性>0.95,純度大于50%(圖1h)。使用BayesPrism進行基因表達估計比使用CIBERSORTx或無反卷積的bulk腫瘤更準確(圖1h)。

圖1 BayesPrism算法流程及性能驗證。

浸潤性免疫細胞類型和狀態對生存的影響。 作者分析了來自三種腫瘤類型GBM、HNSCC和SKCM16-18的1142份腫瘤基因組圖譜(TCGA)樣本的細胞類型比例。為了保持盡可能高的準確性,作者在每個去卷積任務中使用了來自相同腫瘤類型的scRNA-seq參考。利用這些參考數據集,提供了6種GBM細胞類型的估計,10種HNSCC細胞類型,8種SKCM細胞類型(圖2a)。作者發現CD8+ T細胞與生存有更強的相關性,與以往報告一致。在HNSCC中,T細胞比例也與更好的臨床結果相關,但僅在將細胞類型豐度作為連續變量處理的模型中,效果顯著(P = 0.001, Wald檢驗) (圖2b)。圖2c表明BayesPrism估計的巨噬細胞與SKCM患者的生存呈正相關(P = 0.01, log-rank檢驗)。作者使用BayesPrism來評估含有5%巨噬細胞的樣本中巨噬細胞特異性基因的表達。作者比較了巨噬細胞表達與兩個巨噬細胞亞群特征的標記基因M1和M2,這兩個亞群被認為在TME中有不同的作用。來自GBM的巨噬細胞M2評分最高,M1評分最低,而來自SKCM的巨噬細胞M2評分最低,M1評分與來自HNSCC的巨噬細胞相當(圖2d)。在SKCM中,巨噬細胞極化與生存率有極強的相關性(圖2e)。

圖2 三種TCGA腫瘤的預后與非惡性細胞的細胞類型比例或細胞狀態的關系。

基因表達模式與TME細胞類型相關 作者利用利用BayesPrism,同時實施兩個額外的過濾器,發現相互作用基因POSTN、ITGB1和LOX(圖3a)均與巨噬細胞浸潤具有顯著正相關。盡管IVY GAP數據集中每個標記的樣本量有限,但作者在PI3和POSTN的ISH陽性切片中觀察到了更高的巨噬細胞含量,這是通過至少10個ISH實驗分析的唯一有兩個通過過濾器的基因(圖3b、c)。因此,BayesPrism利用TCGA確定了可通過腫瘤內異質性復制的相關性。為總結與細胞間相互作用相關的生物過程,作者使用候選相互作用基因和非惡性細胞類型部分之間的相關系數進行了基因集富集分析(圖3d),該分析揭示了幾種互動模式。首先,在所有三種腫瘤類型中,許多與非惡性細胞類型比例相關的生物學過程都是獨立發現的。例如,在所有三種腫瘤類型中,干擾素γ/α反應與巨噬細胞呈正相關(圖3e)。間充質激活與GBM中的巨噬細胞、SKCM中的內皮細胞和成纖維細胞呈正相關,與HNSCC中的淋巴細胞呈負相關(圖3d,f)。最后,一些生物過程只與一種腫瘤類型相關,但與該腫瘤中的多種細胞類型相關。例如,角質化與HNSCC中的多個非惡性細胞呈負相關,但與肥大細胞呈正相關(圖3g)。這些結果突顯了BayesPrism在研究惡性和非惡性細胞浸潤中生物過程之間的相互作用方面有重要作用。

圖3 惡性細胞基因表達與非惡性細胞分數之間的相關性。

BayesPrism識別惡性細胞內在基因程序 作者在BayesPrism中開發了一個用于推斷基因程序的線性組合的模塊,在從非惡性細胞類型中分解出基因表達后,解釋了bulk RNA-seq中的表達異質性(圖4a),作者在由28GBMs讀數聚集產生的偽bulk數據集上驗證了該方法,BayesPrism恢復的基因程序與最近通過對同一數據集的6863個單一惡性細胞進行因子化得到的基因程序相似(圖4b)。研究發現,基于BayesPrism學習的每個基因程序的權重與分配給四個主要亞型腫瘤中的細胞比例相關(圖4c,d)。作者將嵌入學習應用于GBM、HNSCC和SKCM,揭示了GBM中與先前研究相似的幾個程序,包括程序3(經典和AC類)、程序4(間充質)和程序5(前神經、OPC和NPC類)(圖4e)。在HNSCC中,程序1因單細胞研究(圖4f)確定的部分EMT程序而豐富,與存活率呈負相關(P=0.017,瓦爾德檢驗)。在SKCM中,作者確定了多個與AXL和MITF基因程序相關的生存相關基因程序(之前使用TCGA批量數據報告),以及一個T細胞排除程序(在最近的scRNA-seq研究中確定;圖4g-j)。與基因集富集分析一致,BayesPrism沒有發現任何與HNSCC中的間充質亞型或GBM中的神經亞型相似的基因程序。因此,作者認為,嵌入學習模塊減少了非惡性細胞類型的影響,導致了惡性細胞固有的基因程序。

圖4 BayesPrism在排除非惡性細胞表達后重新定義了GBM分子亞型。

GBM基因程序和細胞類型的空間異質性 本文假設惡性細胞中基因程序的激活與微環境中非惡性細胞類型的比例之間的關系可以顯示出腫瘤內的空間異質性。實驗使用IVY GAP將122個RNA-seq樣本分離成五個結構:前緣(LE)、浸潤性腫瘤(IT)、細胞腫瘤(CT)、微血管增生(MVP)和壞死周圍的假柵欄細胞(PAN)(圖5a)。作者檢查了IVY GAP研究的解剖結構中富集了哪些細胞類型和基因程序(上面使用TCGA識別)(圖5b,c),發現MVP區域在內皮細胞和周細胞高度富集,而LE和IT區域在少突膠質細胞和神經元高度富集。同時,為有助于解釋BayesPrism獲得的程序中的富集情況,作者分析了每個IVY缺口結構中惡性細胞(使用BayesPrism推斷)的基因集富集分數,這些生物學過程的子集顯示了TCGA-GBM的顯著變化(圖5d)。此外,發現CT和MVP具有高度增殖性,這與它們在程序3和5中的富集程度一致, MVP和PAN在組織重塑和免疫相互作用方面都有所增強(程序4),而MVP更具血管生成性,PAN更具炎癥性。綜上所述,上述分析顯示了BayesPrism如何利用IVY缺口數據集將路徑和基因程序與空間解剖結構聯系起來。

圖5 BayesPrism揭示了GBM的空間異質性。

3 總結與討論 現在有大量的文獻提供了非惡性細胞如何影響惡性細胞功能的例子,證實了一個多世紀以來關于TME關鍵作用的猜測。scRNA-seq不僅可以系統地測量腫瘤中存在的細胞類型,還可以測量它們的基因表達狀態。盡管scRNA-seq提供了正確的數據模式,但目前的研究還沒有足夠大的樣本量來解決這些問題。除此之外,雖然可用的bulk RNA-seq數據集可達上千個,但它們只能提供關于各種惡性腫瘤中整個細胞環境中少量的信息。本文利用了兩種基因組資源,開發了一個嚴格的統計模型來整合scRNA-seq和bulk RNA-seq數據,為腫瘤學這一重大挑戰提供了一個新的視角。并且本文的綜合分析也為疾病進展提供了新的見解。此外,BayesPrism滿足了基因組學工具箱中的幾個關鍵需求。與以前的方法相比,BayesPrism能夠更準確地將bulk RNA-seq分解為細胞類型的比例,這部分要歸功于對bulk RNA-seq和scRNA-seq數據之間差異進行建模的貝葉斯統計模型。最重要的是,BayesPrism對細胞類型及其樣本特異性平均表達聯合建模,這對本文報告的分析至關重要。在實際應用中,BayesPrism的精度可能會受到參考矩陣中細胞狀態缺失的影響,異質性TME中細胞狀態缺失的表達有時會偏離BayesPrism建模的先驗分布,導致將細胞狀態缺失的轉錄本部分分配給屬于其他細胞類型的細胞。因此在探究基因表達和細胞類型分數的后驗估計值之間的相關性時需要謹慎,可能需要使用與本文介紹的類似的過濾器。作者推測,隨著從患者身上收集單細胞數據的增加,由于每個數據可能都涵蓋了轉錄狀態的細微差別,腫瘤樣本的反卷積計算將變得更加準確。因此,BayesPrism將提供一種新的視角,將不斷增長的scRNA-seq數據與現有的大量bulk RNA-seq數據進行整合,從而深入了解腫瘤與微環境的相互作用。 參考資料 Chu T , Wang Z , Pe'Er D , et al. Cell type and gene expression deconvolution with BayesPrism enables Bayesian integrative analysis across bulk and single-cell RNA sequencing in oncology. Nature Cancer(2022). //doi.org/10.1038/s43018-022-00356-3

數據
代碼

付費5元查看完整內容
北京阿比特科技有限公司