編譯|程昭龍
審稿|王靜本文介紹由華大基因的汪建和牟峰共同通訊發表在 Nature Machine Intelligence 的研究成果:單細胞數據集規模的不斷擴大,對解決擴展的規模、擴展的模態和批次效應等問題帶來了計算挑戰。最近提出的基因深度學習的方法,是通過推導非線性細胞嵌入來解決這些問題。對此,**作者提出了基于對比學習的方法Concerto,它利用自監督的蒸餾框架來模擬多模態單細胞圖譜。**只需將每個細胞與其他細胞區分開來,Concerto 就可以適用于各種下游任務,如細胞類型分類、數據集成、參考映射。與當前的主流軟件包不同,Concerto 的對比設置支持對所有基因進行操作以保留生物變異,它還可以靈活地推廣到多組學中以獲得統一的細胞表示。在模擬數據集和真實數據集上進行基準測試,實驗結果表明,Concerto 的性能遠優于其他方法。并且,Concerto 概括了不同的免疫反應,還發現了 COVID-19 患者的疾病特異性細胞狀態。總體而言,Concerto 將通過迭代構建單細胞參考圖譜并快速映射新的數據集來傳輸相關的細胞注釋,從而促進生物醫學研究。
1 簡介 目前,單細胞多組學工具正在以前所未有的分辨率徹底改變組織表征,而人類細胞圖譜和小鼠細胞圖譜的規模已接近數百萬。同時,單細胞分析還具有以下特點。首先,技術脫落或生物信號可能會帶來過多的零計數。主流軟件包通過特征選擇和線性降維來提取可能導致信息丟失的主要變化,深度學習方法為模擬所有基因之間的非線性關系提供了一種解決方案,變分自動編碼器(VAE)利用具有重構功能的編碼器-解碼器結構來學習低維細胞嵌入。其次,批次效應廣泛存在于技術、條件和捐助者之間。從混雜效應中分離生物信號對數據集成非常重要,Seurat v.3使用相互最近鄰識別跨批次的錨細胞對,但一次只允許兩個批次的集成,并且隨著處理細胞數量的增加,其內存消耗也呈指數增長。為了校正批次效應,Harmony迭代地使用模糊聚類和線性校正,而trVAE則是利用條件VAE。最后,query-to-reference映射可以快速解釋新生成的數據集,而無需費力的從頭聚類或手動注釋。與嚴格的監督分類不同,作者將query-to-reference映射視為無監督遷移學習問題,從學習到的查詢嵌入中推導出基于投票的注釋。
對比學習最近在計算機視覺領域取得了巨大成功,受其在建模未標記數據方面的啟發,作者認為可通過自監督的方式區分每個細胞來獲得高質量的表示。蒸餾方案也被用在非對稱神經網絡中,從監督環境中的模型壓縮和在線共蒸餾發展到半監督環境中的自訓練,進行自監督蒸餾以獲得更好的表示。
因此,作者提出了一個用于單細胞分析的自蒸餾對比學習框架 Concerto。通過對真實數據集和模擬數據集進行基準測試,學習的嵌入可以針對各種下游需求進行微調,包括自動細胞類型分類、聚類、批次效應校正的數據集成以及query-to-reference映射。Concerto 可以靈活地處理多組學數據集,并在每個任務中優于其他方法。此外,作者利用Concerto 根據包含健康和感染樣本的綜合參考圖譜查詢 COVID-19 免疫細胞數據集,概括了具有不同疾病狀態的患者的幾種不同免疫特征。實驗結果表明,Concerto 是一個強大、準確、可擴展的表示學習框架,可用于 1000 萬個細胞規模的單細胞多模態分析。
2 結果 Concerto結構概述
Concerto 利用配置為非對稱師生架構的自蒸餾對比學習框架(圖 1a),非對稱設計注入了不平衡的模型復雜性,即較大的教師網絡通過注意力機制將基因嵌入聚合到細胞嵌入中,而較小的學生網絡則通過密集操作將離散輸入轉換為細胞嵌入。通過為每個未標記的細胞定義實例區分前置任務,Concerto通過最大化每個細胞的師生視圖之間的一致性來學習語義不變嵌入。在輸出層之前添加一個隨機的dropout掩碼,以便在SimCSE的句子處理方案的推斷下,在模型級別生成最小的數據增強。同時,通過添加一個特定域的批處理規范化層以校正批次效應。在處理多組學數據集時,對每個模態進行簡單的元素求和可以生成統一的細胞嵌入(圖1b)。通過投射到單位超球面空間上,Concerto將同一細胞的師生視圖作為正對匯集在一起,同時分開同批次內的其他細胞,最終將細胞區分開來。學習到的嵌入可以針對各種下游任務進行微調,包括自動細胞類型分類、聚類、批次效應校正的數據集成以及query-to-reference映射(圖1c)。
圖1 Concerto結構概述
Concerto有助于自動細胞類型分類并發現跨組織的新細胞類型
為了證明對比學習的嵌入滿足嚴格的細胞分類,作者使用現有的注釋作為訓練標簽來在 Concerto 上實現監督微調。通過使用人類外周血單核細胞數據集(PBMC45k, n = 31021)來對比不同的分類器,包括基于似然的SciBet、基于神經網絡的Cell BLAST、基于相關性的SingleR、基于支持向量機的Moana和元學習方法MARS。Concerto分為兩步:預訓練和微調,而其他方法則是端到端訓練。作者還通過丟棄對比損失并以完全監督的方式進行訓練,從而實現了 Concerto(Concerto-E2E)的端到端版本。實驗結果表明,Concerto 幾乎在所有的train-test分割上都遠優于其他方法。
如果測試集包含訓練樣本中不存在的細胞類型,好的分類器應該將非上述(NOTA)細胞標記為拒絕預測選項。作者將PBMC CITE-seq數據集在三個水平上注釋,并從訓練集中去除不同的T細胞粒度以評估NOTA方法,圖2顯示Concerto可以清晰地分離出1級和2級掩蔽的驗證集和測試集的置信曲線。即使在最具挑戰性的3級情景中,Concerto也能得到與驗證曲線部分重疊的雙峰曲線。
圖2 Concerto和SciBet對比實驗
對于跨組織注釋,作者采用與MARS類似的實驗設計,將一個組織作為未注釋的測試集,并在所有其他組織上訓練Concerto。通過添加域適應模塊,Concerto在22個保留組織上實現了優于MARS的調整蘭德指數(ARI)。與 MARS 類似,Concerto 可以有效地進行知識轉移以發現跨組織的新細胞類型。
Concerto可在多模態數據集上實現無監督聚類
一項新的單細胞研究通常從無監督聚類開始,然而,離散的集群可能會忽略細胞狀態之間的平滑過渡。Cell-ID 可以以無聚類的方式提取每個細胞的基因特征。為此,作者評估了 Concerto 嵌入在從頭聚類中的效用,并表明 Concerto 還可以在單細胞分辨率下提取具有生物學意義的特征。通過在PBMC45k(n=11377個細胞)選擇具有最小批次效應的子集,作者將 Concerto 的表示與 Seurat 在不同聚類算法上的共享最近鄰進行比較。實驗證明,Concerto嵌入上的Leiden聚類(Concerto+Leiden)在五種分辨率下顯著優于其他方法(圖3a),并且,Concerto可以很好地將聚類分配與手動注釋對齊(圖3b)。
圖3 對比 Concerto嵌入和其他方法的聚類性能
為了驗證納入轉錄組以外的其他組能夠更精確地定義細胞特性,作者使用RNA、蛋白質或兩者同時作為輸入來實現Concerto,并將學習到的嵌入通過分層注釋進行可視化(圖4)。Concerto 可以簡單地通過對每個模態進行元素求和來獲得統一的視圖,從而解決任意數量的擴展模態。Concerto 的教師模塊使用注意力機制來聚合基因嵌入。首先假設注意力權重可以通過復制細胞類型建立的分子特征來提供某些模型的可解釋性。實驗結果證明了用于定義細胞身份的關鍵特征的歸一化注意力貢獻,成功地恢復了一些典型細胞類型的規范模態特異性標記。
圖4 Concerto學習嵌入的可視化
Concerto通過消除批次效應實現數據集成
面對將不同來源合并到參考圖譜時需要校正批次效應的問題,作者在多供體人體胰腺 (HP) 胰島數據集(8批次,n = 14890 個細胞)上對 Concerto 的數據集成性能進行了基準測試。通過設計六種方案來評估輸入基因數量的影響,觀察到Concerto在六種情況下實現了遠高于其他方法的平均輪廓寬度(ASW),這表明Concerto可以更好的捕獲生物變異。同時,Concerto的對比學習目標不受融合不同亞群的影響,并能保留生物變異以構建高質量參考。
Concerto實現高精度的query-to-reference映射
我們進一步評估了 Concerto 將查詢細胞映射到協調的參考嵌入的能力。與嚴格的細胞分類不同,查詢到參考映射僅在推理過程中使用細胞類型標簽。特別地,作者首先使用預訓練的模型權重計算查詢嵌入,將查詢細胞定位在它們最相似的參考細胞附近,并使用 k 最近鄰(通常 k = 5)投票分類器將參考注釋轉移到查詢。通過設計兩個實驗:跨技術映射和跨物種映射,結果表明,Concerto在兩個實驗中均達到最高的平均 ACC(圖5a)。并且,混淆矩陣(圖 5b)表明Concerto 可以準確地跨技術和跨物種轉移標簽。然后,作者還設計了一項研究來預測看未知的細胞類型,并評估整合所有基因是否對此有益。通過從PBMC160k 中分配一個樣本 (P3) 作為查詢,并使用其他七個樣本來構建參考。該實驗證明Concerto可以沿著具有生物學意義的連續體投射未知的細胞亞型,Concerto還可以推斷查詢細胞中不可測量的模態。
圖5 Concerto和其他方法進行query-to-reference 映射的性能對比
Concerto可以擴展到1000萬細胞的圖譜構建和參考映射
對于可擴展性分析,作者模擬虛擬參考并針對每個參考映射等量的查詢細胞。通過將整個任務分成多個處理批次,對比學習自然是可并行化的并且易于擴展到超大圖譜。Concerto可以有效擴展以構建數百萬個細胞參考,從而在幾分鐘內實現快速映射。Concerto還可以在僅使用CPU的典型計算機上工作,需要1.1小時構建100000個細胞的參考,并在30分鐘內查詢相同數量的細胞。實驗表明Concerto是最具可擴展性的,不需要PCA或縮放,可以對所有基因進行操作并很好地支持多模態集成。
映射COVID-19免疫細胞與疾病參考圖譜
作者進一步使用Concerto 將最近發布的 COVID-19 PBMC 數據集投影到全面的COVID-19參考中。然后在不進行微調的情況下,即可將查詢集投影到其上(圖6a)。COVID-19參考包含與查詢中類似的疾病相關細胞狀態,因此,直接的模型推理足以進行快速映射。對于所有注釋的CD8 T細胞,Concerto可以區分不同疾病狀態(健康對照,輕度和重度)的原始、增殖、記憶和效應狀態的不同組成,并獲得一致的狀態特異性特征(圖6b、c)。
圖6 Concerto保留COVID-19患者的差異免疫應答
總體而言,Concerto 成功地分離了病理狀態,保留了細微的狀態特異性變異,并識別了不同的免疫特征。無論實施直接推理還是無監督微調,都取決于參考的多樣性和查詢的相關性,更全面的參考通常有利于映射性能。Concerto 可以通過迭代更新參考來覆蓋更多樣化的樣本,從而形成一個持續學習的框架。
3 總結 假設每個細胞不同,Concerto通過區分每個細胞與其他細胞來學習高質量的細胞表示。基于將不同的理論基礎的方法與基于PCA或VAE的方法進行比較,對比學習的嵌入非常適合于保存生物學細微差別。Concerto支持對所有基因進行操作,這對于在基于映射的任務中確保查詢和參考之間的特征重疊尤為重要。Concerto的非對稱自蒸餾方案在從教師網絡的注意力操作中學習語義豐富的表示和從學生網絡密集輸出中獲得良好的泛化性之間取得了平衡。通過解釋注意力權重,Concerto可以在單細胞分辨率下自動提取一些典型的分子特征,并確定每種模態對定義細胞身份的相對貢獻。query-to-reference映射已成為單細胞分析中的一種新范式。Concerto的對比設置很容易并行化,并根據參考多樣性或相關性支持直接推理或無監督微調。通過簡單的元素總和,Concerto可以有效地支持多組學集成。當大規模疾病圖譜可用時,Concerto在轉化研究中也顯示出巨大的潛力。
參考資料 Yang, M., Yang, Y., Xie, C. et al. Contrastive learning enables rapid mapping to multimodal single-cell atlas of multimillion scale. Nat Mach Intell 4, 696–709 (2022).
//doi.org/10.1038/s42256-022-00518-z
數據鏈接:
代碼鏈接:
作者 | 鄭仰昆 審稿 | 楊崇周 指導 | 閔小平(廈門大學) 今天帶來的是美國馬薩諸塞州波士頓哈佛醫學院系統藥理學實驗室發表在nature biotechnology上的Single-sequence protein structure prediction using a language model and deep learning。
單序列結構預測是較為基礎的研究方向,蛋白質設計和量化序列變異對功能或免疫原性影響的研究等都需要單序列結構預測作為支持。AlphaFold2 和相關計算系統使用以多序列比對 (MSA) 編碼的深度學習和共同進化關系來預測蛋白質結構。盡管這些系統有很高的預測準確性,但其對于無法生成 MSA 的孤兒蛋白質的預測、快速設計結構仍然有些不足。
本文針對以上兩個問題設計了一個端到端可微循環幾何網絡 (RGN2),該網絡使用蛋白質語言模型 (AminoBERT) 從未對齊的蛋白質中學習潛在的結構信息,以此改進之前提出的RGN。RGN2 在孤兒蛋白質和設計蛋白質類別上的性能優于 AlphaFold2 和 RoseTTAFold,同時計算時間減少了 106 倍。并證明了蛋白質語言模型在結構預測中相對于 MSA 的實踐和理論優勢。
模型構造
圖1 RGN2的組織與應用
RGN2組成:RGN2 將基于轉換器的蛋白質語言模型(AminoBERT,黃色)與使用 Frenet-Serret 框架生成蛋白質骨架結構(綠色)的 RGN 相結合。在初步構建側鏈和氫鍵網絡后,隨后使用 AF2Rank(藍色)對結構進行細化。
**RGN:**基于機器學習的 RGN,利用源自 MSA 的位置特異性評分矩陣(PSSM)預測蛋白質結構,將PSSM 結構關系參數化為相鄰殘基之間的扭轉角,從而可以在 3D 空間中順序定位蛋白質骨架(骨架幾何結構包括每個氨基酸的 N、Cα 和 C' 原子的排列)。盡管 RGN1 不依賴用于生成 MSA 的協同進化信息,但對 PSSM 的要求需要多個同源序列可用。RGN2改進了RGN,利用了一種自然的方式來描述在整個多肽水平上旋轉和平移不變的多肽幾何形狀。這涉及使用 Frenet-Serret 公式在每個 Cα 碳嵌入參考框架;然后通過一系列轉換輕松構建主干。
**AminoBERT: **AminoBERT 旨在捕獲一串隱含指定蛋白質結構的氨基酸中的潛在信息。為了生成 AminoBERT 語言模型,本文使用從 UniParc 序列數據庫獲得的約 2.5 億天然蛋白質序列訓練了一個 12 層轉換器。訓練任務第一個是預測序列中同時屏蔽的2-8個連續殘基,強調從全局而不是局部上下文中學習。第二個是識別打亂的“塊排列”順序,塊排列是連續的蛋白質片段交換,保留了局部序列信息,但破壞了全局連貫性,鼓勵轉換器從整個蛋白質序列中發現信息。RGN2 的 AminoBERT 模塊以自我監督的方式獨立于幾何模塊進行訓練,無需微調。
**數據:**RGN2 訓練是使用 ProteinNet12 數據集和僅由源自 ASTRAL SCOPe 數據集(版本 1.75)的單個蛋白質域組成的較小數據集進行的。因為本文觀察到兩者之間沒有可檢測到的差異。
圖2比較 RGN2 和 AF2 對孤兒蛋白的結構預測
表1 RGN2 和 AF2、RF 和 trRosetta 跨 330 個目標的預測時間比較
**結果:**本文使用dRMSD 和 GDT_TS 評估了預測準確性。堆積條形圖2顯示了 149 種從頭設計的孤兒蛋白質。條形高度表示蛋白質長度。對于富含單螺旋和彎曲或散布有螺旋的氫鍵轉角的蛋白質,RGN2 優于所有其他方法。表1展示了對于沒有同源序列的蛋白預測時花費的時間是RGN2明顯占優的。
總結
RGN2 是使用機器學習從單個序列預測蛋白質結構的首次嘗試之一。在設計孤兒蛋白質結構的情況下具有許多優勢,因為這些蛋白質通常無法生成多序列比對。RGN2 通過將蛋白質語言模型 (AminoBERT) 與基于 Frenet-Serret 公式的簡單直觀的 Cα 骨架幾何參數化方法融合來實現這一點。AF2 和 RF 的無模板和無 MSA 生成均比 RGN2 慢 >105 倍。本文認為,未來同時使用語言模型和 MSA 的混合方法可能會優于單獨使用任何一種方法。
參考資料 Chowdhury, R., Bouatta, N., Biswas, S. et al. Single-sequence protein structure prediction using a language model and deep learning. Nat Biotechnol (2022). //doi.org/10.1038/s41587-022-01432-w
編譯|程昭龍
審稿|林榮鑫,王靜 本文介紹由美國斯坦福大學醫學院干細胞生物學與再生醫學研究所的Sean M. Wu通訊發表在 Nature Communications 的研究成果:在單細胞RNA測序分析中,由于細胞表現出復雜的多層身份或過渡狀態,導致對數據集的精確注釋成為主要挑戰。因此,作者提出了一個高度精確的機器學習工具devCellPy,它能自動預測跨復雜注釋層次結構的細胞類型。為了證明devCellPy的強大功能,作者從已發布細胞的數據集中構建了小鼠心臟發育圖譜,并訓練devCellPy生成心臟預測算法。該算法可以在多層注釋和小鼠發育數據中達到高預測精度。最終研究表明,devCellPy是一個可跨復雜細胞層次結構、物種和實驗系統進行自動細胞預測的工具。
1 簡介 在過去的十年中,單細胞RNA測序(scRNA-seq)技術為調控胚胎發育、細胞特性和疾病狀態的轉錄環境提供了前所未有的見解。但隨著實驗中獲得的細胞數量持續增長,生物信息學家通常需通過無監督聚類和手動細胞類型分配的費力過程來識別數千個細胞。此外,人工細胞類型指定可能導致研究組間細胞注釋的高可變性,以及實驗間細胞識別的低再現性。
為了應對這些挑戰,研究人員利用參考數據集將注釋映射到新收集的數據上,開發了用于識別細胞類型的信息學工具。雖然這些工具提供了強大的注釋算法,但依然缺乏全自動化的過程對跨復雜注釋層次的細胞進行分類,其中這些細胞表現出多個身份子類或時間限制的細胞類型。例如,在從發育中的胚胎收集的scRNA-seq數據中,細胞表現出動態和短暫的細胞狀態以及更精細的細胞特征。在訓練預測模型時,使用不考慮時間變量的算法自動分配細胞標識時,某些細胞標識可能只在已定義的發展時間點出現,這就造成了額外的挑戰。此外,如果沒有對數據進行大量的子聚類和重新計算新的降維特征空間,這些更精細的特征通常是無法檢測到的。自動細胞預測算法通常要求用戶構建單獨的參考模型,以實現對高粒度細胞亞型的注釋。這一挑戰在發育數據集中尤為突出,其中細胞類型存在于發育的有限時期內,因此,使生成統一預測模型復雜化。
為了解決這些挑戰,作者提出了基于Python的發育細胞預測(devCellPy)工具,用于從任何組織或物種獲得的高度復雜的注釋層次結構中自動預測細胞身份。devCellPy預測模型的基礎是極端梯度提升(XGBoost),這是一種有監督的機器學習方法,通過使用一系列梯度增強的決策樹集成來學習創建精確預測所需的輸入特征集。DevCellPy通過學習特定參考數據集的注釋層次結構和創建預測模型以全自動化的方式跨所有注釋層對細胞進行分類,其在細胞標識的自動化分配方面取得了重大進展。重要的是,該算法允許將時間點變量合并到注釋層次結構中,因此,可以對限定時間段內出現的細胞標識進行分類。
為了證明devCellPy在多層細胞預測方面的能力,作者從多個公開的scRNA-seq數據集中構建了一個單一的大規模心臟發育細胞圖譜。因為在心臟發育過程中存在非常復雜的不同細胞類型注釋,并且心臟內的細胞類型表現出隨時間變化的基因表達模式,所以作者在心臟發育數據集上測試了devCellPy的預測能力。實驗結果表明,該算法在多個層面(包括時間受限的細胞群)都具有高度準確性的預測能力,這進一步證明了devCellPy算法在跨物種預測心肌細胞類型方面的廣泛適用性。
2 結果 devCellPy 能夠生成用于細胞類型和亞型分類的多層預測算法
為了解決以分層方式自動分類細胞類型和亞型的挑戰,作者構建了一種基于Python的軟件包devCellPy,它可用于生成包含時間元素的細胞身份預測算法。devCellPy由訓練和預測步驟組成。在訓練期間,一個包含多層注釋的參考數據集被用于訓練算法(圖1a)。用戶為devCellPy提供一個注釋層次結構,其指定了數據集中的多個層和細胞類別,包括用于構造細胞類型和時間相關的注釋層次結構的時間點變量。此外,用戶為參考數據中的所有細胞提供一個對數規范化表達式矩陣,以及包含跨層次結構所有層的單細胞注釋的元數據表(圖1b)。作者在devCellPy中引入LayerObject類來創建一個有組織的數據結構,其中算法學習數據集的注釋層次結構,并包含層次結構中每個層的位置信息(圖1c)。該系統允許跨層次結構的正確分支自動分類細胞亞型,并為層次結構的每一層訓練一個XGBoost預測模型,并將其存儲在該層各自的LayerObject中。
除了LayerObjects,作者還在devCellPy中實現了最近開發的Shapley Additive explained (SHAP)算法。SHAP有助于devCellPy輸出在進行細胞類型分類的訓練過程中自動識別的基因標記,從而突出顯示用于對感興趣數據集中的細胞類型進行分類的主要陽性和陰性基因標記(圖1c)。在使用參考數據集訓練devCellPy之后,用戶可以使用devCellPy生成的預測算法,通過導出一個直接加載到算法中的對數歸一化計數矩陣來對查詢數據集進行分類(圖1d)。devCellPy將自動讀取矩陣文件,并使用存儲在LayerObjects中的預測模型來輸出查詢細胞的多層細胞類型和子類型預測。除了提供輸出注釋之外,devCellPy還將為每個分類的細胞輸出概率度量,以向用戶提供有關算法在進行細胞預測時的可信度信息。總體而言,該算法的結構允許用戶從任何模型生物的任何組織獲得的任何參考scRNA-seq數據集來創建訓練模型,并可以輕松導出這些模型,以對類似細胞類型和亞型的新數據集進行預測。
圖1 devCellPy結構圖
大規模心臟發育圖譜的構建
為了測試devCellPy在生成用于進行多層細胞注釋的高精度預測算法方面的性能,作者首先從四個公開的數據集中集成了一個中胚層來源的心臟發育細胞類型的大規模scRNA-seq圖譜,經過整合的數據集可觀察到從早期原腸胚形成到主要心臟細胞類型的清晰發育軌跡(圖2a)。
通過關注中胚層衍生的細胞類型,作者觀察到從多能外胚層細胞開始的分化樹,通過原始條紋過渡到早期新生的中胚層祖細胞,并進展為心臟祖細胞(圖2b)。盡管這些數據集來自四個不同的來源,但經過成功地整合所有數據集,可以觀察到12種主要細胞類型在整個發育時期的聚類(圖2b, c)。UMAP圖顯示了發育一致的結構,心臟祖細胞組成樹干,隨后分裂成不同的細胞類型。作者還通過對所有主要標注的細胞類型進行差異基因表達分析,進一步驗證了構建圖譜中分配的注釋,并證實了已報道的12個主要細胞群的主要細胞標記的獨特表達(圖2d,e)。
圖2 中胚層來源心臟發育細胞圖譜的構建
devcellPy生成的算法可以精確預測注釋層復雜層次結構中的細胞類型
在建立了包含多層注釋的大型心臟發育圖譜后,作者繼續測試了devCellPy在該數據集上生成高度精確的細胞識別預測算法的能力。通過對心肌細胞圖譜進行多層分析,其中頂層代表廣義細胞注釋,其次是心肌細胞亞型,以及在發育過程中按時間點劃分的心室心肌細胞亞型(圖3a)。為了測試算法的分類性能,作者將數據隨機劃分為90%和10%的分區,分別用于交叉驗證和保留數據集測試(圖3b)。實驗結果顯示,對于第一層注釋,該模型在 10 輪獨立訓練中顯示出高整體準確度(圖 3c)。同時,devCellPy 對10% 保留數據進行了分類(這些分類在訓練后的模型中未發現),這證實了devCellPy高度準確的預測(圖 3d)。
對心室心肌細胞亞群的心肌細胞預測算法性能的進一步分析表明(圖 3c),實驗觀察到的性能指標在第一層注釋上得分最高,而在注釋層次結構較低級別中發現的密切相關的細胞類型中略有下降。為了進一步評估devCellPy的性能精度,作者還將該算法的性能與先前發布的單細胞預測算法(CaSTLE、SeuratV3、scmap、SingleCellNet)進行了比較,結果表明,devCellPy在所有評估的細胞類型中顯示了最高的整體精度。
圖3 devCellPy在各層之間的性能評估
devCellPy識別生物相關的細胞標記
為驗證devCellPy生成的心臟預測算法是否可以識別與發育相關的基因,以便跨細胞層進行預測。作者通過使用devCellPy中的SHAP算法,確定了測試的每一層注釋中細胞類型的主要陽性和陰性預測基因。對于第一層,算法自動識別出先前驗證過的細胞類型預測因子。在實驗中,一般的細胞類型預測因子可以揭示已知細胞類型的主要陽性預測因子,而除了識別一般細胞類型的典型標記外,SHAP還可以識別其他細胞類型的標記。
除了在第一層中識別一般細胞類型的主要標記外,作者還確定了用于在多個分化時間點識別心肌細胞和心室心肌細胞亞型的主要基因。并且,devCellPy還跨時間點識別了多個先前發表的心肌細胞亞型標記,同時也以特定的時間點方式識別了獨特的標記。
devcellPy生成的算法從de novo數據集中準確預測細胞類型
為了進一步評估devCellPy的性能,驗證devCellPy生成的預測算法是否能夠成功預測以前數據集中沒有遇到過的細胞類型。作者分析了來自三個新來源的scRNA-seq數據,并從E10.5小鼠心臟中生成了新的數據,并測試了devCellPy對心臟圖譜中存在的所有細胞類型進行全自動預測的能力。同時,作者進一步評估了其他細胞預測算法對心臟圖譜中所有細胞類型進行完整分類的能力(圖4a、b)。作者將機器學習分類與查詢數據集的無監督聚類注釋期間分配的手動注釋進行了比較(圖4b),手動注釋和devCellPy預測的比較顯示,兩種注釋方法在17個細胞類別中的11個中具有高度的一致性,準確率達80%(圖4c)。
與之前發表的其他機器學習方法相比,devCellPy在心臟圖譜中所有細胞類型的分類方面優于SingleCellNet、Seurat和scPred。所有其他方法對外胚層、原始條紋和新生中胚層的人工方法顯示出高度的一致性,但在其他細胞類型中觀察到的預測準確性較低。并且,在密切相關的細胞類型中,如心臟祖細胞、心外膜和間充質細胞以及心肌細胞亞型,其他方法在人工方法和機器學習預測之間顯示出低一致性(圖4c)。總體而言,實驗結果證明了devCellPy生成的預測算法可以準確預測de novo數據集中的細胞類型,并在對高粒度細胞類型進行預測時優于其他方法。
圖4 devCellPy預測新的scRNA-seq數據
devCellPy生成的心臟預測算法揭示了hiPSC衍生心肌細胞的發育不成熟和心室特異性心肌細胞分化
在驗證了devCellPy對胚胎小鼠心肌細胞分類的準確性后,作者研究驗證了是否可以使用小鼠心臟預測算法來準確預測人誘導多能干細胞(hiPSC)衍生的心肌細胞的類別(圖5a, b)。鑒于已知的體外衍生心肌細胞不成熟,作者驗證了早期胚胎小鼠模型是否能更好地預測 hiPSC 系統中的心肌細胞亞型。通過對六個時間點的心肌細胞進行分析,并繪制了前兩個主成分的單細胞圖。正如預期的那樣,細胞以時間依賴性方式沿著第一個主成分前進(圖5c)。此前有報道稱,小分子雙相WNT協議在缺乏后向視黃酸信號的情況下主要產生心室特異性心肌細胞。為了證實這一點,作者繪制了在hiPSC、人類胎兒和小鼠胚胎發育過程中經過驗證的心室標志物Myl2、Myl3、Myh7的表達圖,并證實了所有這些確定的心室標志物的表達逐漸增加(圖5d)。為繼續驗證基于小鼠數據訓練的devCellPy模型是否能夠準確識別hiPSC-CMs心室特性,作者基于E7.75和E13.5之間的早期小鼠胚胎時間點訓練了多個devCellPy預測模型,用于識別心肌細胞亞型。然后使用基于時間點的模型計算devCellPy的預測置信度,以確定hiPSC-CMs心室特性。實驗結果表明,hiPSC-CMs表現出發育不成熟,并且hiPSC-CMs的胚胎表型和小鼠心肌細胞成熟基因表達程序具有密切保守性。
圖5 devCellPy小鼠預測模型確定了心室優勢HiPSC-CMs的發育不成熟
3 總結 在這項研究中,作者開發了一個基于Python的生物信息學管道devCellPy,它可以使用精確的高分辨率參考數據集,自動預測多個發育時間點和級聯注釋層的細胞類型。分層注釋結構存在于多個器官、物種和模型系統之間。正如此處介紹的心臟發育圖譜所示,細胞表現出多個身份子類。此外,對數據集進行精確的手動標注通常需要有對陽性和陰性表達標記的專業知識,這可能導致經驗不足的用戶,在數據集標注過程中的可再現性較差。以前的研究也表明,包含多個子類的高度相關細胞類型的深度注釋數據集,可能會對自動細胞分類器的性能產生負面影響。作者通過創建分層組織的預測模型來解決這一問題,該模型在 “LayerObject”對象類的注釋層次結構中編碼它們的位置。通過將密切相關的細胞類型的預測分解為不同的注釋層,從而在注釋層次結構中的高粒度細胞子類之間實現更高分辨率的預測結果。重要的是,用戶可以在層次結構中指定時間點,從而允許在跨注釋的多個子層中構建時間點相關預測。隨著細胞在預測層次結構中移動,devCellPy將只對用戶設置的概率閾值的細胞進行下一層分類,從而允許對跨每個分類層的細胞類型進行高置信度注釋。此外,devCellPy中的LayerObjects具有高度可移植性,允許用戶共享訓練過的預測模型,或導出單個LayerObjects進行單層預測。devCellPy的可移植性允許科學界廣泛使用專家策劃的參考圖譜,以在復雜場景中進行細胞預測。
除了可移植性之外,devCellPy還需要對數據集進行處理以進行訓練和預測,devCellPy可以識別超過35000個輸入基因中的生物學相關標記基因。該算法的高預測性能表明,除了歸一化計數表達式矩陣外,不需要額外的預處理或特征選擇來從精確的高分辨率參考數據集中訓練算法和參考標簽。當將devCellPy的性能與其他之前發表的細胞分類算法進行比較時,devCellPy的自動化分層方法在分類心臟圖譜中存在的所有細胞類型方面優于其他分類訓練方法。同時,devCellPy完全自動化了跨多層細胞標識的訓練,從而自動化了跨復雜注釋層次結構預測細胞的過程。此外,雖然其他方法允許為一組獨特的標簽生成細胞預測模型,但devCellPy允許跨時間點相關注釋自動分類,從而為跨發育數據集的細胞分類提供了顯著的改進。
devCellPy為scRNA-seq分析提供了一個重要工具,它為生成細胞類型/亞型預測算法提供了一個全自動化的管道,且該算法非常適用于分層注釋的數據集。作者的工作表明,devCellPy生成的算法具有高度通用性,可推廣到任何scRNA-seq數據集,并提供了一個完全開源的Python包。隨著大規模發育細胞圖譜的發展,devCellPy將提供資源來幫助識別跨平臺和物種的細胞類型,特別是在注釋良好的參考數據集中顯示復雜的多層注釋方案。
參考資料 Galdos, F.X., Xu, S., Goodyer, W.R. et al. devCellPy is a machine learning-enabled pipeline for automated annotation of complex multilayered single-cell transcriptomic data. Nat Commun 13, 5271 (2022). //doi.org/10.1038/s41467-022-33045-x
數據鏈接:
代碼鏈接:
編譯|王娜 審稿|王海云
本文介紹由美國德克薩斯大學MD安德森癌癥中心生物統計學系的Ziyi Li和Kim-Anh Do共同通訊發表在 Bioinformatics 的研究成果:為了更好地注釋scRNA-seq 數據,發現新的細胞類型,作者開發了一種簡單而有效的方法,結合自動編碼器和迭代特征選擇,從scRNA-seq數據中自動識別新細胞。該方法用標記的訓練數據訓練一個自動編碼器,并將自動編碼器應用于測試數據以獲得重建誤差。通過反復選擇表現出雙模模式的特征,并使用所選特征對細胞進行重新分組,該方法可以準確地識別訓練數據中不存在的新細胞。作者進一步將這種方法與支持向量機結合起來,為注釋所有的細胞類型提供了一個完整的解決方案。使用五個真實的scRNA-seq數據集進行的廣泛的數值實驗,結果表明,該方法比現有的方法具有更好的性能。
簡介
單細胞RNA測序(scRNA-seq)的出現使研究人員能夠以前所未有的精度和準確度研究人類組織的細胞組成和轉錄組概況。作為第一步,注釋細胞和分配細胞類型標簽是最重要的步驟之一,因為大多數的下游分析都依賴于細胞標簽的準確性。由于不同的研究人員對細胞類型標志物的理解存在差異,通常不能保證注釋結果的可重復性。盡管多種監督方法為細胞注釋提供了各種解決方案,但監督方法面臨的一個大挑戰是如何將新的(或未知的)細胞類型與已知的細胞類型區分開來。
在這項工作中,作者開發了一種新的兩步法來自動標記含有新細胞的scRNA-seq數據。稱之為使用基于機器學習的方法對未知細胞的存在進行細胞注釋(CAMLU)。在第一步,CAMLU使用自動編碼器和迭代特征選擇的組合來區分已知細胞類型和新的細胞類型。這樣的目的是,用訓練數據訓練自動編碼器后,自動編碼器將包含所有已知細胞類型的信息。將這個自動編碼器應用于測試數據將產生所有基因的重構誤差。由于細胞是已知和未知細胞類型的混合體,一些 "有信息的 "基因在其重構誤差中會有雙模分布,代表它們與已知細胞類型的不同相似程度。通過迭代特征選擇,CAMLU可以選擇一組較小的信息性特征,這些特征在已知和未知細胞群中具有表達差異,并最終將新型細胞與已知細胞類型區分開來。然后,可以根據這些信息性基因重新對細胞進行分組,并識別出新型細胞。除去第一步中確定的新細胞,CAMLU在第二步中使用支持向量機對其余的細胞進行詳盡的注釋。圖1展示了CAMLU的工作流程。
圖1 CAMLU的工作流程
結果
蒙特卡洛數值實驗 為了廣泛地評估CAMLU的性能,作者設計了三個基于真實數據集的蒙特卡洛數值實驗。作者將CAMLU與四種流行的細胞注釋方法進行了比較,這些方法能夠使用 "未分配 "的標簽來識別未知的細胞。
用PBMC和HNCC細胞系進行的數值實驗 PBMC數據有6萬多個來自8種免疫細胞類型的分類細胞。HNCC總共有4632個癌細胞。對于每個實驗,我們從PBMC數據中每個細胞類型隨機選擇個細胞,從HNCC數據中隨機選擇個癌癥細胞。考慮了三種設置,正常細胞樣本量=300;400;500(即訓練數據中2400、3100和3800個細胞),對應于圖2中的小、中和大。在所有設置中,癌細胞數量保持不變,即=300。圖2總結了100多次蒙特卡洛實驗的數值實驗情況。與現有的方法相比,CAMLU在區分癌細胞和新型細胞以及標記全部細胞類型方面具有最高的準確性。CopyKAT在識別圖2上圖中的癌細胞方面是第二好的。由于它不能分配完整的標簽列表,copyKAT沒有在圖2中展示。在其他現有的方法中,scmap-cluster和CHETAH也能很好地分配正確的標簽,但準確率和ARI略低,其次是scPred。Scmap-cell在這兩項任務中的準確率最低,可能是由于該方法產生了大量的 "未分配 "標簽。
圖2 使用PBMC數據和癌細胞系數據的混合物進行數值實驗的結果
用PBMC進行的數值實驗 接下來,作者設計了一個數值實驗,只用PBMC數據來模擬未知細胞不是非整倍體時的情況。我們將單核細胞作為 "新型 "細胞類型,其他七種細胞類型作為已知細胞類型。與第一個實驗類似,作者為其余七種細胞類型的每個細胞類型隨機選擇個細胞,從單核細胞中選擇個細胞。作者再次考慮了三種設置,已知細胞類型的大小不同,=300;400;500,單核細胞的=300。
圖3A中總結了CAMLU和現有方法的準確度。CAMLU在識別測試數據中的單核細胞和分配所有標簽方面具有最高的準確性。作者發現scmap-cluster在這兩項任務中都是第二好的方法,其次是CHETAH和scPred,性能相似。與第一次數值實驗相比,CAMLU的準確率下降了一點,可能是因為目前的設置比較難。隨著訓練樣本量的增加,所有方法的性能都略有提高。
圖3B和C展示了單個實驗中真實和估計標簽的新型細胞識別結果,這可能闡明了CAMLU和現有方法的差異。CAMLU在區分單核細胞和已知細胞方面具有幾乎完美的準確性,而現有的方法,特別是scmap-cell,往往將很多已知細胞標記為 "未分配"。
用胰腺數據進行的數值實驗 除PBMC數據外,作者還獲得了胰腺scRNAseq數據集,以進一步評估新細胞為二倍體時的情況。作者通過將間質細胞作為未知細胞類型來設計實驗。對于每次模擬,從 "已知 "細胞類型中隨機抽取500個非間質細胞,并將這些細胞的數據作為訓練數據。其余的 "已知 "細胞與間充質細胞結合起來作為測試數據。其中間質細胞數量為80,訓練數據中的細胞總數為1626。
在圖4中總結了100個蒙特卡洛實驗的結果。在圖4A中,CAMLU與其他現有的方法相比,具有更高的識別精度,精度平均提高5-10%。在圖4B中,作者將CAMLU和其他方法的新型細胞類型和整體注釋的細胞標簽與一次實驗的真實標簽進行了可視化對比。CAMLU在這兩項任務中脫穎而出,在區分極少數的新型細胞(<5%的測試數據)時表現出很高的準確性。CHETAH在這種情況下也有良好的表現,scmap-cell排名第三。scmap-cluster和scPred都不能識別新型細胞。
圖3 使用單核細胞作為新的細胞類型的PBMC數據進行數值實驗的結果
圖4 使用胰腺數據的數值實驗結果,以間質細胞為新型細胞類型
應用于兩個真實的癌癥數據集 在這個實驗中,作者獲得了一個scRNA-seq數據集,包括5名三陰性乳腺癌(TNBC)患者和另一個包括5名無性系甲狀腺癌(ATC)患者的數據集。作者首先評估了所有方法從測試數據中識別惡性細胞的準確性。在圖5B中,跨主題的細胞注釋給分析帶來了額外的噪聲,與之前的設置相比,所有的方法都有較低的準確性。在所有的方法中,CAMLU仍然是該任務中最準確的方法,其平均準確率約為0.9。性能第二好的方法是在TNBC數據集的scmap-cluster和在ATC數據集的scPred。在TNBC數據中,scmap-cluster的準確率約為0.80,所有其他方法的平均準確率都低于0.6。對于ATC,所有現有的方法的準確率都在0.5-0.6左右。
在圖5B中,作者說明了四個top基因在正常(藍條)和惡性細胞(紅條)中的重建誤差分布。例如,COL6A2編碼VI型膠原蛋白的三條α鏈之一,并被報道通過影響腫瘤和基質細胞來促進腫瘤的進展。作者發現COL6A2在惡性細胞中的重建誤差比在正常細胞中高得多,表明COL6A2可能是兩組細胞之間的差異基因。
圖5C顯示了使用TNBC和ATC數據從CAMLU中選出的前200個特征的最重要的Hallmark術語。作者在結果中發現了一些與疾病相關的術語。例如,在TNBC中,通過途徑的信號傳遞是最重要的Hallmark術語。大量的現有研究報告了炎癥因子TNF-a對乳腺癌生長的促進作用。同樣,ATC結果中的首要術語,上皮-間質轉化是與上皮性腫瘤進展、局部侵襲和轉移有關的重要機制。一些研究報告指出,上皮-間質轉化與ATC的進展密切相關。
圖5 在兩個癌癥數據集上應用CAMLU和現有方法的結果,即三陰性乳腺癌(TNBC)和非彈性甲狀腺癌(ATC)
總結與討論
在這項工作中,作者開發了一種基于機器學習的新方法,用于從scRNA-seq數據中識別未知細胞。該方法利用自動編碼器和迭代特征選擇的組合,根據信息特征的重建誤差來識別新型細胞。在識別 "未知 "細胞后,其余的細胞使用支持向量機進行注釋。與大多數將低相關度或低置信度的細胞標記為新型細胞的現有方法相比,該方法創新性地將未知細胞的選擇和現有細胞類型的注釋分開。
該有幾個優點。首先,不依賴于非整倍體/二倍體細胞狀態。第二,可以應用于識別不同大小的新型細胞。第三,盡管跨主體預測給問題帶來了額外的噪音,并降低了所有方法的準確性,但該方法仍然比服務于類似目的的現有方法取得更高的性能。
有幾個方向可以考慮和探索未來的工作。首先,作者將繼續探索不同參數的選擇,以提高方法的敏感性和穩健性。例如,細胞類型結構的不同復雜性可能需要更大或更小的自動編碼器模型。選擇的特征數量也可以與感興趣的問題有關。可以設計自適應程序,在模型構建中自動選擇這些因素。第二,可以考慮通過在框架中加入額外的生物知識,使工具更好地適應不同的疾病環境。在目前的特征選擇設置中,作者僅僅根據重建分布來選擇頂級特征。將雙模特征與疾病相關的特征相結合,有可能獲得更好的性能。
參考資料
Ziyi Li, Yizhuo Wang, Irene Ganan-Gomez, Simona Colla, Kim-Anh Do. A machine learning-based method for automatically identifying novel cells in annotating single-cell RNA-seq data. Bioinformatics; doi: //doi.org/10.1093/bioinformatics/btac617
代碼
王建民 本文介紹Max-Planck生物化學研究所計算系統生物化學研究組的Jürgen Cox近期發表在Nature Biotechnology的綜述Prediction of peptide mass spectral libraries with machine learning。最近開發的機器學習方法用于識別復雜的質譜數據中的肽,是蛋白質組學的一個重大突破。長期以來的多肽識別方法,如搜索引擎和實驗質譜庫,正在被深度學習模型所取代,這些模型可以根據多肽的氨基酸序列來預測其碎片質譜。這些新方法,包括遞歸神經網絡和卷積神經網絡,使用預測的計算譜庫而不是實驗譜庫,在分析蛋白質組學數據時達到更高的靈敏度或特異性。機器學習正在激發涉及大型搜索空間的應用,如免疫肽組學和蛋白質基因組學。該領域目前的挑戰包括預測具有翻譯后修飾的多肽和交聯的多肽對的質譜。將基于機器學習的質譜預測滲透到搜索引擎中,以及針對不同肽類和測量條件的以質譜為中心的數據獨立采集工作流程,將在未來幾年繼續推動蛋白質組學應用的靈敏度和動態范圍。
“鳥槍法”蛋白質組學(shotgun proteomics)是一種識別和量化目標樣品中蛋白質的技術。該方法包括兩個主要步驟。首先,蛋白質被蛋白酶消化成肽,其次,肽在質譜儀中被片段化,從而產生片段化質譜。由于肽的寡聚結構和主鏈中鍵斷裂的優勢,碎片質譜顯示出可用于確定其氨基酸序列和氨基酸共價修飾的規律性。因此,與缺乏重復結構的分子相比,肽譜的解釋有些不同。通過了解碎片化的物理方法——例如碰撞誘導解離、高能碰撞解離 (HCD) 或電子轉移解離, 可以很容易地從序列中計算出主要肽片段的質量。然而,預測光譜中碎片峰的相對強度,或者在某些情況下它們在光譜中的缺失,這都是由量子化學決定的,這并非易事。傳統上在“鳥槍法”蛋白質組學中用于識別肽的肽搜索引擎通常會忽略超出簡化規則的強度信息。盡管這些工具已成功應用多年,但強度模式攜帶的信息可用于提高肽識別過程的靈敏度和特異性。
利用強度信息的一種方法是直接從先前測量的質譜中組裝庫,并將它們應用于感興趣的樣品的分析。這種方法的優點是對光譜的內容是無假設的。原則上,它可以容納不屬于任何標準碎片離子系列的非標準峰,目前大多數預測方法都沒有考慮這些峰。缺點是樣品中沒有獲得譜庫質譜的任何新肽都會在分析中丟失。然而,另一種方法也容易在分析中丟失新肽,即獲取項目特定的庫。生成這樣的庫為項目增加了大量的測量工作,并且通常僅限于提高靈敏度的好處遠遠超過肽空間受庫內容限制的缺點的應用。
如果可以從氨基酸序列中快速準確地預測碎片質譜中的峰值強度,無論是檢測新肽的失敗還是生成項目特定庫的額外測量工作都將得到克服。這樣做的第一次嘗試可以追溯到近 20 年前,使用決策樹或單個隱藏層神經網絡。最近的一項突破中,深度學習方法已經開始以接近實驗的精度從氨基酸序列中預測肽片段譜。本綜述側重于準確預測光譜庫的機器學習方法。
機器學習和深度學習方法
碎片譜預測是一個監督學習問題,其中譜是從肽序列預測的,模型在肽序列集和元數據作為輸入變量和片段強度作為輸出變量。有多種回歸方法可用,包括基于樹的模型,如隨機森林和 XGBoost、支持向量回歸和神經網絡。神經網絡因其優越的性能而經常用于頻譜預測。
循環神經網絡 (RNN)已證明對碎片譜預測非常有用。它們旨在處理序列數據,并且可以應用于可變長度的序列,這使得它們特別適用于肽。雙向 RNN 結合了兩個 RNN,一個用于序列中的每個方向,以考慮到某個鍵斷裂的頻率取決于該鍵之前和之后的序列上下文。對于某些肽鍵,它們的斷裂傾向主要由局部分子環境決定,而對于其他更遠的序列特性是相關的。門控 RNN 已被開發用于處理序列中的多個因果距離尺度。門控 RNN 的兩種主要類型,長短期記憶 (LSTM) 和門控循環單元 (GRU) 都已應用于碎片譜預測。此外,傳統上用于圖像分類和識別任務的卷積神經網絡 (CNN) 已應用于光譜。
經過訓練的遷移學習模型的一部分在具有不同但相關任務的模型中重復使用,然后通過較少數量的訓練實例進行微調,如果模型是從頭開始訓練的。這種技術可用于針對特定技術或生物環境預測光譜的應用,為此人們可以從更通用的環境中借用訓練模型的一部分。例如,在未修飾肽的大型數據集上訓練的模型可以部分轉移到攜帶翻譯后修飾 (PTM) 的肽模型,該模型隨后在較小的數據集上進行訓練。最后,有趣的是,諸如形狀加性解釋 (SHAP) 和積分梯度之類的計算方法可用于將輸入特征范圍歸因于特定實例的預測結果。例如,在圖像識別中,這些方法可以指示圖像中對某個決定最負責的像素范圍。類似地,在光譜中,它們可以提供關于最有助于確定碎片離子強度的序列區域的信息。
光譜數據
碎片質譜可以通過兩種方式預測,或者通過關注預定義的離子系列類型,其質量可直接從輸入序列計算并且其強度將被預測,或者通過在不參考離子系列注釋的情況下預測全光譜。訓練預測模型的關鍵是輸入和輸出已知的示例數據集。這樣的基本事實數據集可以從具有定義序列的合成肽中獲得,然后進行質譜分析。這種方法的優點是肽混合物的整個組成是已知的。然而,從這些測量中獲得的光譜并不能反映真實樣品的組成,因為它們僅涵蓋有限的一組肽,合成和分析需要大量的努力。更常見的是利用現有的 DDA 數據集,這些數據集存放在公共原始數據存儲庫中。這種情況下,可以確保肽被正確識別到可選擇的錯誤發現率 (FDR),因此可以作為準基本事實。可選地,可以應用關于附加質量參數的進一步閾值,例如搜索引擎分數。對于預測全譜的方法,重新分析復雜的蛋白質組學數據以訓練模型具有復雜性,即峰可能是由共同片段化的肽引起的,這要么必須通過光譜聚類來減少,要么通過測量閾值來減少。否則,機器學習模型將具有識別由于共同碎片而存在的特征的額外任務。相比之下,在僅預測離子系列強度的方法中,即使在復雜的蛋白質組樣本中,預計共同片段化肽的污染影響也很小。
為了確定機器學習模型的性能,需要將可用數據拆分為訓練、驗證和測試數據集。訓練和驗證集用于模型構建,而測試集完全排除在此過程之外,但隨后用于以無偏見的方式評估模型在預測準確性方面的性能。對于模型構建,訓練數據集用于確定模型的參數,驗證集用于調整模型的超參數并避免在此過程中過度擬合。為了判斷預測的準確性,需要一種光譜相似性度量,它可以量化預測光譜與實驗光譜的接近程度。計算測試集元素上所有預測的相似性度量會產生一個直方圖,該直方圖可用于計算整個預測群體的平均準確度、置信區間或箱線圖。在可用數據有限的情況下,可以使用交叉驗證來增加準確度直方圖的統計數據。
模型的預測性能取決于可用訓練實例的數量。如果訓練集太小,該方法的全部潛力可能還沒有達到,需要獲得更多實例才能達到漸近性能的平臺期。實踐中重要的是模型如何在有限數量的訓練實例下執行,因為在給定的技術或生物環境中可用光譜的數量可能會受到限制。對于相同的肽段和相同的元數據參數值,串聯質譜 (MS/MS) 光譜的相似技術復制的預測準確性存在實際限制。 離子序列強度預測
大多數流行的離子序列強度預測深度學習模型都使用 RNN,這pDeep、DeepMass:Prism、Prosit 和 Guan 等人中已經實現,但也使用了 CNN。Prosit 基于 GRU,而其他基于 RNN 的模型使用 LSTM 層。例如,DeepMass:Prism 的架構使用編碼器-解碼器架構,該架構是在機器翻譯的背景下開發的。編碼器部分將可變長度的肽序列作為輸入,并將其轉換為固定長度的表示,這是通過三個 LSTM 層實現的。與元數據參數的值一起,由多層感知器組成的解碼器生成離子序列強度的“轉換”序列。Prosit 也遵循編碼器-解碼器架構,但其結構略有不同,因為它將歸一化的碰撞能量作為額外的元數據參數輸入。
傳統的機器學習也已應用于離子序列強度預測。這些方法可以細分為固定長度和基于窗口的方法。前者中,在 MS2PIP 中實現,為每個可能的肽長度訓練一個單獨的模型。因此,不同長度的肽沒有協同作用,就像 RNN 的情況一樣。由于可變長度輸入沒有復雜性,原則上任何傳統的機器學習算法都可以使用隨機森林作為首選。對于基于窗口的方法,例如 wiNNer,由于其神經網絡包含多個隱藏層,因此被歸類為深度學習,不同長度的肽段有助于同一模型。該模型預測了由一次斷裂一個肽鍵形成的離子相對于光譜中最高峰的峰高。特征空間是固定長度的,可以認為是表示當前考慮的鍵周圍的序列窗口以及一些附加特征。特征包括以所考慮的肽鍵為中心的序列窗口中的 one-hot 編碼氨基酸、肽的長度、到 C 和 N 末端的距離(殘基數)、末端的 one-hot 編碼氨基酸加上值元數據參數也被饋送到基于 RNN 的模型中。通過沿序列滑動窗口,將從一個肽創建多個基于窗口的訓練數據實例。其他幾種方法也屬于這一類,因為它們的預測一次只關注一個肽鍵,并且特征部分是從具有小窗口大小的鍵周圍的氨基酸中招募的。盡管與基于 RNN 的預測相比,基于窗口的預測的預測精度通常較低,但它可以接近,并且具有減少訓練實例數量和降低計算復雜度的潛在優點。
全光譜預測
開發了一種基于 CNN 的架構,用于預測包括非骨架離子在內的全光譜。該方法不依賴于峰注釋,而是使用最高 2,000?Da 的分箱 m/z 范圍,分箱寬度為 0.1,從而生成 20,000 維向量作為預測強度的目標。輸入序列的 one-hot 編碼用于預測雙電荷和三電荷未修改的 HCD 光譜,許多訓練實例可用。大約需要 150 萬個光譜才能達到預測精度的飽和。由于可用于訓練的電荷一和四個 HCD 光譜要少得多,因此將多任務學習應用于預測不太頻繁的電荷狀態。一個輔助預測任務,即前體電荷預測,作為一種聚焦方法被集成到模型中,以避免災難性遺忘。通過包含碎片類型的偽預測器,通過與 HCD 模型類似的集成來實現電子轉移解離譜的預測。全光譜預測的未來工作可能包括擴展到其他碎片化方法。此外,特征歸因方法的應用可能會揭示非骨架離子產生背后的機制。
修飾和交聯的多肽
PTMs是對蛋白質的共價修飾,可以發生在氨基酸側鏈或末端。它們的存在改變了離子序列成員的質量,也可以對峰強度產生深遠的影響。此外,由于特定于修改的中性損失,它們可能會產生額外的碎片。遷移學習用于修改 pDeep2以預測包含修改的光譜。該模型首先在來自未修飾肽的大型光譜數據集上進行了預訓練。完整模型由一個輸入層、兩個雙向 LSTM 層和一個輸出層組成,輸出層增加了代表由 PTMs中性損失引起的 b 和 y 離子的節點。遷移學習步驟中,只有第一個 LSTM 層和輸出層被微調,而模型的其余部分被凍結在其預訓練狀態。結果發現,特別是當只有少量攜帶 PTMs 的光譜可用時,遷移學習模式的性能優于從頭訓練的模型的性能。一個模型最近被用于修飾肽的保留時間預測。將來可能會改進表示,因為它不能充分表示復雜的 PTMs,例如糖基化,不能區分異構體,并且固有地在修飾的原子組成之間進行插值,這可能不是表示化學性質的最佳選擇。DeepPhospho 是另一種深度學習模型,它通過使用轉換器網絡預測肽碎片模式,將光譜庫預測集成到 DIA 工作流程中。
交聯質譜法中產生了另一類需要專門方法進行光譜預測的肽。此處產生了成對的肽,它們通過連接兩個氨基酸的接頭共價連接,兩個氨基酸中的一個來自兩個肽中的每一個。每個肽的片段化模式都受到其他肽存在的影響,這使得它們的預測比線性肽更難。一些片段包括接頭和相應的其他肽,這使它們平均更重和更高的電荷。與線性肽相比,交聯肽的可用數據較少,并且由于許多可用的交聯試劑,它們顯示出高度的多樣性。交聯劑可以通過質譜法裂解或不可裂解,從而產生兩種不同類型的碎片光譜。pDeepXL 是一個深度神經網絡,它在可切割和不可切割交聯數據上分別進行訓練,從而產生兩個基于遷移學習的預測模型。深度學習架構的未來迭代可能與交聯肽的保留時間預測器一起在集成到其分數中時可能會提高交聯搜索引擎的敏感性。
DDA 應用
準確片段質譜強度預測的一個重要應用是其用于改進實驗光譜與候選肽段的匹配。在 DDA 中,肽數據庫搜索引擎為每個給定的碎片譜做出決定,通常在幾個候選中構成最佳肽譜匹配 (PSM)。PSM 分配正確性的整體改進導致更好的靈敏度、特異性或兩者兼而有之。強度整合的早期嘗試表明,這在原則上是可行的。最近表明,通過使用強度信息,可以在標準蛋白質組搜索中針對來自智人UniProt蛋白質序列的物種特異性序列數據庫進行標準蛋白質組搜索,從而進一步提高分配的正確性,該數據庫包含所有胰蛋白酶肽,最多有幾個缺失的切割。一種方法直接將強度信息集成到Andromeda搜索引擎分數中,另一種方法使用滲透器將光譜比較特征與 MS-GF+ 搜索引擎分數集成。靈敏度的提高取決于 q 值,并且在 q 值較小時更高。在 1% 的標準 FDR 下,深度學習預測的改進約為 4%。盡管對標準蛋白質組的鑒定增加只是適度的,但預計在更大的搜索空間中,強度預測的好處更高,因為在某個公差窗口內,每個前體質量平均存在更多潛在的 PSM,其中正確的 PSM 需要被發現。具有較大肽搜索空間的應用包括免疫肽組學、蛋白質組學和元蛋白質組學。
免疫肽組學專注于與人類白細胞抗原 (HLA) 結合的肽,這些肽由細胞內蛋白質的蛋白酶體降解產生,然后重新定位到細胞表面。定義呈現在癌細胞上的 HLA 肽組是生物醫學研究的一個深入研究領域,因為這些肽為治療干預提供了靶標。與必須由特定蛋白酶消化才能進行鳥槍法蛋白質組學的蛋白質相比,HLA 肽可以通過質譜直接測量,但由于非特異性切割而帶來了搜索空間增加的挑戰。此外,管理片段化的規則與胰蛋白酶肽的規則不同。因此,預測 HLA 肽片段化的模型也需要在非胰蛋白酶肽上進行廣泛的訓練。基于深度學習的強度預測用于改進免疫肽組學中的肽鑒定。
蛋白質組學是借助基因組或轉錄組序列對蛋白質組的研究,允許識別不屬于參考蛋白質組序列的肽。這種擴展序列空間的計算機翻譯導致肽搜索空間膨脹,在確定光譜的最佳 PSM 時必須考慮這一點。搜索空間膨脹的程度取決于科學問題,范圍可以從包含轉錄本的非翻譯區域到整個基因組的六幀翻譯。蛋白質組學還受益于通過在基于滲濾器的方法中對 PSM 重新評分來整合預測的光譜強度。蛋白質組學搜索空間是通過核糖體分析和基于使用納米孔的 RNA 測序 (RNA-seq) 的三幀翻譯數據庫生成的。后者導致序列數據庫大小增長超過 50 倍,相關的氨基酸含量增加了 20 倍。
盡管應用于標準蛋白質組、蛋白質基因組學和免疫肽組的方法不同,不能直接比較,但結果表明,到目前為止,免疫肽組學的改進是最大的。深度學習在多肽識別問題上的另一個有前途的應用是DeepMatch,它規避了光譜的預測,直接預測PSM分數。盡管該方法在識別率方面顯示出有希望的結果,但其計算要求太高,無法將其整合到常規的肽搜索引擎中。
DIA 應用
DIA 數據分析工作流程可細分為以光譜為中心和以肽為中心的方法。以光譜為中心的軟件工具從 DIA 數據的前體和碎片特征中組裝偽 DDA 光譜,然后將其提交給傳統的搜索引擎。在以肽為中心的方法中,專用光譜庫用于查詢 DIA 樣品中由庫光譜表示的肽。因此,以肽為中心的方法可以直接受益于文庫預測。已經開發了幾個以肽為中心的軟件框架,原則上它們都可以與預測的庫一起操作。對于沒有額外富集的單一物種的標準蛋白質組學樣品,例如磷酸化,發現使用無偏的完整蛋白質組計算機預測庫進行胰蛋白酶消化是可行和有益的。此外,蛋白質鑒定的錯誤率處于良好的統計控制之下,即使在使用如此大的計算機庫時也是如此。
結論
目前質譜庫預測工具的預測準確性正在推進DDA和DIA數據分析。在DDA中對PSMs的重新評分正在改善其敏感性-特異性特征。DIA數據分析現在可以在光譜庫的無偏全蛋白質組預測的基礎上常規進行,消除了測量項目特定庫的需要。盡管取得了這些進展,蛋白質組學仍然面臨著靈敏度方面的挑戰。盡管細胞蛋白質組可以常規地進行足夠深度的量化,但大多數蛋白質的序列覆蓋還遠未完成,并且落后于RNA-seq的轉錄組分析。這意味著,由于缺乏敏感性,在鳥槍法蛋白質組學中往往不能解決因替代剪接而存在的蛋白質形態。同樣,單細胞蛋白質組學和血漿蛋白質組學將大大受益于靈敏度和動態測量范圍的改善。通過將強度信息更好地整合到現有的搜索引擎中,碎片光譜的預測將有助于解決這些挑戰。為此,也為了適應PTMs,強度預測模型必須具有計算效率。此外,需要考慮的肽類的多樣性,使得一個什么都知道的大型深度學習模型似乎不太可能成為首選方式。相反,許多專門的模型,每一個都可以通過適度的努力和有限的訓練數據進行訓練,應該能更好地滿足需求。 參考資料 Cox, J. Prediction of peptide mass spectral libraries with machine learning. Nat Biotechnol (2022). //doi.org/10.1038/s41587-022-01424-w