亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

編譯 | 楊千立 審稿 | 陳梓豪 指導 | 閔小平(廈門大學)

此次為大家分享的是來自Nature Communiations 上的一篇題為"Deep learning to decompose macromolecules into independent Markovian domains" 的文章,來自德國柏林自由大學、美國德克薩斯州休斯頓萊斯大學的Frank Noé團隊。

對越來越大的蛋白質進行動力學建模興趣日益濃厚,但目前缺乏收集足夠的狀態概率或狀態間轉換統計數據的能力,因為對于大分子系統,亞穩態的數量隨大小呈指數增長。在本文中,作者通過引入一種方法來應對這一挑戰,該方法將作者在獨立馬爾可夫分解 (IMD) 方面的最新進展與VAMPnets (一種用于馬爾可夫建模的深度學習方法) 相結合。作者建立了一個訓練目標,該目標量化了基于馬爾可夫動力學將分子系統分解為獨立子域的程度與整體動力學的近似程度。通過構建端到端學習框架,同時學習分解成這些子域及其各自的馬爾可夫狀態模型,從而提供數據高效且易于解釋的復雜系統動力學摘要。盡管學習馬爾可夫子域之間的動態耦合仍然是一個懸而未決的問題,但目前的結果是邁出了模擬數據中學習大分子復合物伊辛模型的重要一步。

介紹

對蛋白質功能的理解通常與對蛋白質動力學的理解是相互關聯的。分子動力學 (MD) 模擬是在原子尺度上研究這些動力學的工具;馬爾可夫狀態模型 (MSM) 已應用于廣泛的分子生物學問題,例如蛋白質聚集或配體結合,并且可以成為了解原子尺度上的實驗數據的工具。

評估模型性能并由此對其質量進行排名,發展了特別是馬爾可夫過程 (VAMP) 的變分方法。這使我們能夠使用VAMPnet,該框架同時學習使分子系統降維到最能描述罕見事件過程的集體變量和 MSM變量。該框架可用于沿著這些學習到的集體變量進一步驅動 MD 模擬,還可以使用該框架來估計統計上可逆的 MSM,并結合來自實驗觀察結果的約束。

盡管有這些發展,在描述 MD 時在全局系統狀態之間的轉換方面存在一個基本的縮放問題:雖然小協同分子系統是一個很好的模型,但對于中小型蛋白質,較大的分子系統具有大量的的子系統,其動力學幾乎獨立(圖 1)。例如,當這些蛋白質解離時,這些蛋白質會獨立地在開放和關閉狀態之間進行轉換,并且這些轉換僅在與其他蛋白質結合時(部分)耦合。全局系統狀態的數量為2 ^N,即隨著子系統數量N呈指數增長。這意味著任何形式模擬或分析都不會擴展到大分子系統。

圖1:iVAMP 概念通過模擬蛋白質的動力學可視化,該蛋白質具有兩個獨立的柔性區域,由剛性桶隔開

同時,子系統之間的(近似)獨立性也是問題解決的關鍵。可擴展的解決方案需要解決兩個不同的問題:(a) 將蛋白質系統劃分為近似馬爾可夫子系統和 (b) 了解它們之間的耦合。

作者提出了一種聯合 IMD(通過將全局系統動力學近似為一組獨立馬爾可夫模型) 和 VAMP 方法(稱為iVAMPnet),它通過將IMD推廣到神經網絡基函數,顯著提高了識別近似獨立馬爾可夫子系統(問題 a)的能力。iVAMPnets 是一種集成的端到端學習方法,它將大分子結構分解為動態弱耦合的子系統,并為每個子系統估計一個 VAMPnet,以促進對子系統動力學的綜合分析(圖1)。與之前的 IMD 相比,該方法可以學習對獨立子系統的最佳分解,并且可以找到作為輸入特征的非線性組合的集體變量。

結果

馬爾可夫狀態模型和庫普曼模型

馬爾可夫動力學可以通過過渡密度建模:

這是假設系統在時間t處于配置x時在時間t ?+? τ時觀察配置y的概率密度。基于過渡密度,我們可以將概率密度 χ 的時間演化描述為:

通過以合適的方式離散化分子狀態空間并定義離散狀態之間的過渡矩陣T,我們可以將此方程線性化為:

這是馬爾可夫狀態模型的方程,其中向量χt ?+? τ(y)的元素i是在時間 t ?+? τ 處于離散狀態i的概率。此外,轉移矩陣元素描述了給定的跳轉到狀態j的轉移概率時間 τ 內的狀態i。在模糊狀態分配的情況下,例如,與 VAMPnets 一樣,等式(3)描述了更一般的庫普曼模型和Tτ庫普曼矩陣。這意味著概率密度仍在傳播,但矩陣元素不能解釋為轉移概率。

滯后時間 τ 是所有馬爾可夫模型所共有的,通常是在隱含的時間尺度測試的幫助下選擇的。如果選擇的 τ 太小,則生成的模型不是有效的馬爾可夫模型(導致預測變量的錯誤);選擇的 τ 太大會丟棄動力學信息的模型。因此,通常選擇最小的滯后時間,在該滯后時間之上隱含的時間尺度近似恒定。

現在尋求找到滿足方程式的狀態分配χ和模型矩陣T。形式上,χ是(最初未知的)基函數,即假設相關的動態特征可以用它們的線性組合來表示。VAMP 表明,當χ可以跨越左和右奇異函數(ψ1, . . . ,ψk)T,(φ1, . . . ,φk)T的轉換運算符。它們可以通過從模擬數據估計的矩陣最大化奇異值來找到(參見“方法”中的等式(9)-(13))。在VAMPnet的情況下,通過最大化 VAMP 分數來訓練深度神經網絡,以表示最佳模糊狀態分配。在平衡狀態下,奇異函數對應馬爾可夫狀態模型的特征函數,奇異值對應其特征值。由于庫普曼模型仍然傳播密度,檢查T的特征函數和隱含時間尺度是有用的,因為它們描述了給定系統的慢動力學。

iVAMPnets and iVAMP-score

為了實現 iVAMPnets,需要彌合 VAMPnets 的深度神經網絡與獨立馬爾可夫模型的空間分解之間的差距。總體思路是建立多個并行的 VAMPnets,每個模型都對分子的一個單獨、獨立的子系統的馬爾可夫動力學進行建模,以及識別這些子系統的注意力機制。因此,每個獨立的 VAMPnet只接收代表其特定子系統的時間依賴性分子幾何特征。例如,這種注意機制可以分離不同的蛋白質域,并將各個域的數據引導到單獨的 VAMPnets。因此,(圖2) iVAMPnet 旨在同時優化這兩個目標。

圖2:適用于N個子系統的iVAMPnet體系結構,其中可訓練的部分呈綠色陰影

在實踐中,提取所有分子幾何特征 (距離、接觸等),并將它們傳入圖2所示的體系結構。數據通過注意力機制 (由矩陣G表示) 饋送,該機制產生子系統特定向量Yti ,每個都涉及與子系統i相關的特征。然后,這些向量充當N個并行特征變換 ηi (并行VAMPnets) 的輸入,這些變換轉換為輸出特征 χ1,…… χn (具有 χi (xt)= ηi (Yti (xt))),表示直接模糊分配到每個分子子系統的亞穩態馬爾可夫狀態。配備了狀態分配,我們可以計算相關矩陣(公式9),并從這些矩陣(公式10)導出庫普曼模型矩陣。與VAMPnets一樣,特征轉換 η1……ηn由深度神經網絡表示。在本研究中,使用具有表示模糊狀態分配的SoftMax輸出層的多層感知器。更詳細地說,給定N個單獨的子系統模型,全局系統狀態可以由所有子系統狀態的Kronecker乘積給出:

并通過使用χG從等式(9)計算全局相關矩陣(C00G,C0τG,CττG),注意到,這一步驟并不要求擁有獨立的馬爾可夫模型,但它只是用局部狀態的組合來表達全局狀態的一種形式。

此外,可以通過將單個奇異值和向量與Kronecker乘積相結合,從子系統模型中構造全局庫普曼模型的候選者。

矩陣U^G和 V^G將全局狀態分配映射到構造的奇異函數上,并根據等式(11,12)中定義的局部矩陣進行計算。對角矩陣K^G編碼奇異值,并通過公式10從子系統奇異值矩陣中計算。

為了評估構造模型的性能以預測全局狀態空間中的動力學,可以利用VAMP-E驗證得分。

Vamp-E得分估計了庫普曼模型與真實動力學之間的差異。在這里,它被評估為映射在構造的奇異函數(編碼為U^G ,V^G)上的全局狀態分配 ? χi (以(C00G,C0τG,CττG)編碼。如果子系統是獨立的,則構造的奇異函數是最優的,并且全局系統的奇異值確實是子系統的奇異值的乘積。在這種情況下,全局VAMP-E評分公式6具有如下形式:

這為子系統獨立性提供了必要條件。為了最終訓練模型,作者開發了一個損失函數,該函數有兩個作用,(1)使全局VAMP-E得分最大化 (2)最小化了懲罰這些子系統之間的統計依賴性的項 (式7),由加權因子 ξ 縮放。

僅成對地評估分數,以避免全局狀態空間的增長,并對所有可能的對i,j求和。

在這里,REij利用公式6量化構造的子系統i和j的庫普曼模型的質量,。加權因子 ξ 是一個超參數,應選擇大到足以找到解耦系統,而小到足以不干擾子系統動力學。即使選擇合適的 ξ 取決于動力學和耦合的性質,它也與訓練過程直接相關,因為它在動力學和解耦之間平衡了優化器的重點。評估奇異函數和值的獨立性的其他條件 (式18) 可以用作訓練后的驗證指標,以調整 ξ 并測試發現動態獨立的子系統的程度。

具有兩個獨立子系統的基準模型

在圖2中描述了使用PyTorch實現的iVAMPnet架構。作者選擇具有多達5個隱藏層的全連接前饋神經網絡,每個隱藏層具有100個節點。

作者首先證明iVAMPnets能夠使用精確可分解的基準模型,基于觀測到的軌跡數據,將動態系統分解為其獨立的馬爾可夫子系統 (圖3)。

圖3:隱馬爾可夫狀態模型作為獨立子系統的基準示例

類似于圖1所示的蛋白質,定義了一個系統,該系統由兩個獨立的子系統組成,分別具有兩個、三個狀態。它由兩個具有相應狀態數的轉移矩陣建模,用每個矩陣 (100k步) 采樣離散軌跡。全局狀態定義為這些離散狀態的組合。離散子系統狀態現在被解釋為隱馬爾可夫模型的隱藏狀態。每個子系統的輸出都使用高斯噪聲N~(μi,σ)建模,該高斯噪聲特定于系統狀態 (由指定μi) 和常數 σ。因此,兩個狀態子系統分別描述了沿x軸的高斯盆地和沿y軸的三個狀態子系統之間的跳躍過程 (圖3a)。這些變量與圖1中描述的綠色 (x) 和藍色 (y) 系統的集體變量進行比較。請注意,盡管在此基準系統中已知相關的慢速集體變量,但iVAMPnets通常能夠找到它們 (參見10D超立方體基準模型和Synaptotagmin-C2A)。

由于生成基準模型由完全獨立的子系統組成,并且該對已經描述了全局系統,因此作者的方法可以簡單地針對全局VAMP-E得分 (等式6) 進行優化,而無需任何進一步的約束。在 τ = 1步的滯后時間訓練具有兩個和三個狀態子系統的模型。

經過訓練后,iVAMPnet會生成每個已識別子系統中的動力學模型。正如預期的那樣,發現兩個子系統的估計轉移矩陣與基本事實非常吻合 (圖3c)。為了更詳細地評估慢速子系統動力學,借鑒了MSM分析的概念,并對iVAMPnet模型 (參見VAMPnets) 進行了特征值分解。對本征函數的分析表明,通過構造,系統表現出沿x軸的一個獨立過程 (λ1 = 0.90) 和沿y軸的兩個過程 (λ2 = 0.89和 λ4 = 0.66) (圖3d)。相比之下,注意到,在全局狀態的圖片中,由于混合了獨立的過程 (參見補充說明2),將出現兩個額外的過程,這使得組合動力學模型的分析更具挑戰性,而iVAMPnet分析仍然簡單明了。

除了動態模型外,iVAMPnet還會在輸入特征和子系統之間分配。該方法分別正確地將兩個狀態系統識別為x軸,將三個狀態識別為y軸特征 (圖3b)。

10D超立方體基準模型

在下一步中,用十個兩狀態子系統測試iVAMPnet方法,其對應于1024個全局狀態 (圖4a,b)。與以前一樣,動力學系統是由具有唯一時間尺度的十個獨立的隱馬爾可夫狀態模型生成的。該系統被分成五對子系統,并且控制每對過渡動力學的兩個坐標被旋轉,以使它們更難以分離 (圖4a)。此外,通過添加十個噪聲維度來使學習問題變得更加困難,從而使全局系統在嵌入20維空間中的10維超立方體上。

圖4 :隱馬爾可夫狀態模型,具有1024個全局狀態,形成嵌入20D空間中的10D超立方體

盡管子系統是完全獨立的,但作者將以成對的方式估計具有vamp-E分數的iVAMPnet,從而避免在R1024 × 1024中有極大的相關性。因為這只有在所有系統都是獨立的情況下才是合理的,所以另外強制執行等式(7)。在訓練過程中,通過最小化等式(8),從而排除任何兩個子系統近似相同的過程。

iVAMPnet估計產生子系統模型,可以通過測試其隱含的松弛時間尺度是否收斂于模型滯后時間 τ 來驗證。結果表明,由iVAMPnet學習的隱含時間尺度被正確地轉換并準確地再現了基本事實 (圖4d)。注意到,除了由iVAMPnet識別的各個子系統的時間尺度之外,全局模型還將包含由特征值乘積產生的所有時間尺度,從而產生1024個時間尺度。因此,與全局MSM或VAMPnet相比,iVAMPnet分析提供了一個更簡單,更簡潔的模型。

此外,子系統分配掩碼指示該方法正確地為每個模型的兩個輸入特征分配高重要性權重 (圖4c)。因此,該方法證明了其能夠以數據高效的方式將嘈雜的高維全局系統分解為其獨立的子過程的能力。

作者已經將10-cube系統推廣到可變數量的子系統 (N-cube) 來進行性能基準測試,發現iVAMPnets在此特定系統的性能優于VAMPnets。但是注意到,因為N-cube具有真正獨立的2狀態子系統,該結果可能無法推廣到任意系統。

突觸結合蛋白-C2A

最后,在全原子蛋白質系統上測試iVAMPnets。與基準示例相比,期望底層的全局動態系統只能近似地分解為獨立的子系統。我們測試一下數據由先前描述的(補充說明7)數據組成; 突觸蛋白在神經遞質釋放的調節中起著至關重要的作用。它被證明由近似解偶聯的子系統組成,分別包含鈣結合區 (CBR) 和 C78環。

首先,作者嘗試使用全局模型對蛋白質進行建模,即使用單個(常規)VAMPnet。事實上,這種方法失敗了,因為沒有足夠的模擬統計數據來估計所有全局亞穩態之間的可逆連接過渡模型,從而導致隱含的時間尺度不同(補充說明 3和補充圖 2)。這正是 iVAMPnets 應該提供優勢的場景,它只依賴于本地而不是全局融合的轉換統計數據。

接下來,作者訓練 iVAMPnet 以分別尋找12個和6個狀態的兩個子系統,每個子系統的滯后時間為τ ?= 10 ns,強制執行等式7尋找非耦合子系統。

訓練好的 iVAMPnet 識別一個包含所有三個 CBR 循環(CBR-1、CBR-2、CBR-3;圖 5a)的子系統。第二個子系統不僅包括上述 C78 環路,還包括連接 β 折疊,C34環路。當映射蛋白質結構上的殘基位置時,很明顯這兩個子系統在物理上很好地分離(圖5a),支持兩個區域僅弱耦合的結論。

圖 5:突觸結合蛋白-C2A 的 iVAMPnet 具有兩個子系統,分別具有12個和6個狀態。

兩個系統的隱含時間尺度在模型滯后時間τ中大致恒定。大多數時間尺度都在 1~10 μs 的范圍內,除了在第一個子系統中是100 μs (圖 5b),這是以前沒有發現的。對控制此過程的結構變化的分析表明,它涉及所有 CBR 循環的協調轉換(圖 5c)。然而,之前的研究無法解決這樣的過程,在該研究中,CBR 被建模為單獨的循環。第二個系統的過程涉及 C78 和 C34 循環的同時移動(圖5c)。

iVAMPnets 在局部特征中發現亞穩態結構,這些結構與之前的工作中描述的結構相當。具體而言,可以在 CBR1 中找到兩個不同位置的α螺旋和掩埋甲硫氨酸殘基 (Met173) 的狀態。在相鄰的 CBR2 位點,確定了緊密結合和松散的配置,而 C78 位點具有所有三個先前描述的纈氨酸殘基構象(Val250、Val255)。除了之前的研究中建模的特征外,iVAMPnets 還識別富含賴氨酸的簇 (Lys189-192) 中的動力學,該簇先前曾被報道對膜相互作用很重要。與作者之前的工作相比,局部子系統中的動力學模型更復雜,包含更多的動態過程,提供更全面的畫面,無需手動定義分區。事實上,同時進行域分解和局部動力學建模已經能夠識別非常細微的動力學特征,只要它們對局部 VAMP 分數有顯著貢獻。

盡管在稀疏數據樣本的情況下估計突觸結合蛋白的全局 VAMPnet 模型不可行,但 iVAMPnet 可以有效地使用相同的數據并估計統計上有效的動態模型。這一結果尤其引人注目,因為 iVAMPnet 方法還通過分離動態獨立的蛋白質域簡化了后續解釋模型的任務。

反例:絨毛蛋白微型蛋白的折疊

最后,作者以時間長度25 μs 絨毛蛋白折疊軌跡作為反例進行了實驗(補充說明7)。絨毛蛋白等小蛋白通常是協同的,即與折疊相關的最慢過程涉及所有殘基(補充說明5)。因此,當將系統分解為多個子系統時,無法解決這些過程。事實上,作者發現分裂成兩個具有兩個狀態的子系統,各自導致不收斂的時間尺度,并且其松弛過程近似于不相交區域上的部分折疊(參見補充圖 6)。

測試學習到的動態子系統的統計獨立性

等式7在訓練期間被用作懲罰,通過評估在訓練期間未強制執行的約束(等式17)來評估估計子系統分配的有效性。訓練獨立性分數MU、?MV和MUV(在等式 18中定義)。較低的MU和MV意味著構造的左右奇異函數確實是全局狀態空間中奇異函數的有效候選者。較低的MUV表明子系統模型的克羅內克積很好地預測了全局狀態空間中的動力學。結果表明這三個指標非常適合指示學習子系統的獨立性(表 1)。在經過測試的系統中,只有villin不能拆分成獨立的部分(所有分數 > 0.1)。相比之下,基準模型和突觸結合蛋白可以分解為統計上不耦合的子系統(所有分數 < 0.01)。突觸結合蛋白的MR值略有增加表明其子系統可能是弱耦合的。 表1.訓練后獨立性驗證

總結與討論

作者提出了一種無監督的深度學習框架,該框架僅使用分子動力學模擬數據,學習將復雜的分子系統分解為行為近似獨立的馬爾可夫模型的子系統。因此,iVAMPnet 是一個端到端的學習框架,可以解決對模擬數據呈指數增長的需求,而模擬數據需要對越來越大的生物分子復合物進行采樣。具體來說,作者已經開發并展示了用于分子動力學的 iVAMPnets,但原則上,該方法也適用于不同的應用領域,例如流體動力學。具體實現,如輸入向量χt的表示和χ-功能的神經網絡架構,取決于應用程序,可以根據需要進行調整。

現在有一個越來越強大的模型層次結構,從 VAMPnets 上的 MSMs 到 iVAMPnets。MSM 總是由狀態空間分解和控制這些狀態之間動態的馬爾可夫轉移矩陣組成。VAMPnets 為 MSM 提供深度學習框架,從而學習最佳狀態空間離散化的集體坐標。iVAMPnets 還學習將分子系統物理分離為子系統,每個子系統都有自己的慢坐標、馬爾可夫狀態和轉移矩陣。

作者已經證明 iVAMPNets 是一種強大的多尺度學習方法,當這些子系統確實在統計上獨立進化時,它可以成功地找到和建模分子子系統。此外,iVAMPnets 能夠從高維 MD 數據中學習。為了證明這一點,已經證明突觸結合蛋白 C2A 域可分解為兩個幾乎獨立的馬爾可夫狀態模型。重要的是,已經證明突觸結合蛋白 C2A 的這種動態分解是成功的,而嘗試使用全局馬爾可夫狀態模型對系統進行建模由于采樣不佳而失敗。這直接證明 iVAMPnets 在統計上比 VAMPnets、MSM 或其他全局狀態模型更有效,并且確實可以擴展到更大的系統。

然而,注意到,iVAMPnets 不學習子系統如何耦合,因此在它們當前的形式下,僅適用于由非耦合或弱耦合子系統組成的分子系統。雖然已知大多數生物分子復合物是協同的,但也有使用獨立子系統非常成功地建模的示例。耦合程度是一個有爭議的問題,例如突觸結合蛋白中的 C2 串聯(C2A和C2B 結構域)。由于已知孤立域在許多情況下會自行發揮作用,作者認為丟棄耦合是適合識別這些域及其相關亞穩態的一階建模假設。

跟進參考并引入描述學習的 MSM 如何耦合的耦合參數,這是正在進行的研究。此外,弱耦合假設是針對所研究分子過程的時間尺度做出的,可能無法推廣到任意時間。

除了深度學習方法中通常的超參數選擇外,iVAMPnet 還需要指定所尋找子系統的數量。這種選擇可以通過為不同數量的子系統訓練 iVAMPnet 然后詢問獨立性分數(等式18、19) 選擇統計獨立性最佳的分解。建議首先將系統分解為兩個子系統作為起點,然后增加這個數量。例如,反映在不收斂的隱含時間尺度(可能是抽樣問題的化身,可以通過增加子系統的數量來緩解)或高獨立性分數(不可能拆分系統)。此外,子系統數量的選擇可以由蛋白質中的結構域數量或使用參考文獻中介紹的基于網絡的方法來指導。此外,每個子系統中的狀態數量需要平衡 (a) 奇異函數近似的質量(少數狀態更高)和 (b) 模型分辨率(更多狀態更高)。最終,不同的選擇可能會產生收斂的驗證措施,并且在這種情況下可以選擇狀態的數量來產生所需的模型分辨率。

可以通過多種方式改進和進一步開發 iVAMPnet,例如,通過采用更高級的網絡架構,例如圖形神經網絡,其中參數可以跨子系統共享。這可能會導致更高質量的模型和對超參數選擇的更強魯棒性。最近,圖神經網絡確實成功地與 VAMPnets 相結合,表明所得到的方法 (GraphVAMPnets) 適用于 MD 數據,并且估計模型是高質量的。

總之,iVAMPnets 為以數據高效和可解釋的方式對大型生物系統的動力學進行建模鋪平了道路。

方法

文章中有關的數學公式定義、推導在該部分中,感興趣的朋友可以訪問原文進一步學習。

參考資料 Mardt, A., Hempel, T., Clementi, C. et al. Deep learning to decompose macromolecules into independent Markovian domains. Nat Commun 13, 7101 (2022). //doi.org/10.1038/s41467-022-34603-z

項目地址

付費5元查看完整內容

相關內容

醫學領域的人工智能是使用機器學習模型搜索醫療數據,發現洞察,從而幫助改善健康狀況和患者體驗。 得益于近年來計算機科學和信息技術的發展,人工智能 (AI) 正迅速成為現代醫學中不可或缺的一部分。 由人工智能支持的人工智能算法和其他應用程序正在為臨床和研究領域的醫學專業人員提供支持。

編譯 | 程昭龍

審稿 | 林榮鑫,王靜 本文介紹由同濟大學控制科學與工程系的洪奕光和中國科學院數學與系統科學研究院的萬林共同通訊發表在 Nature Communications 的研究成果:單細胞數據集成可以提供細胞的全面分子視圖。然而,如何整合異質性單細胞多組學以及空間分辨的轉錄組學數據仍然是一個重大挑戰。為此,作者提出了uniPort,這是一種結合耦合變分自動編碼器(coupled-VAE)和小批量不平衡最優傳輸(Minibatch-UOT)的統一單細胞數據集成框架。它利用高度可變的通用基因和數據集特異性基因進行集成,以處理數據集之間的異質性,并可擴展到大規模數據集。uniPort 將異質性單細胞多組學數據集嵌入到共享的潛在空間。它還可以進一步構建一個用于跨數據集基因插補的參考圖譜。同時,uniPort提供了一個靈活的標簽傳輸框架,以使用最優傳輸計劃去卷積異構的空間轉錄組數據,而不是嵌入潛在空間。作者通過應用uniPort集成多種數據集,包括單細胞轉錄組學、染色質可及性和空間分辨轉錄組學數據,從而證明了uniPort的能力。

簡介

單細胞RNA測序(scRNA)和單細胞染色質轉座酶可及性測序(scATAC)等高通量單細胞多組學測序技術的發展,能夠對構成組織的異質性細胞群、發育過程的動力學以及控制細胞功能的潛在調節機制進行全面研究。單細胞數據集的計算集成是機器學習和數據科學領域的重要研究方向。

現有的單細胞集成方法中,大量工作致力于同時集成來自同一細胞的多個數據集。然而,這些配對數據集在技術上具有挑戰性,且獲取成本高昂。因此,針對來自相同或相似群體的不同細胞的數據,開發了大量的集成方法。例如,Seurat平臺使用典型相關分析(CCA)將特征空間投影到公共子空間中,從而最大化數據集間的相關性。LIGER和DC3采用非負矩陣分解尋找共同特征的共享低維因子來匹配單細胞組學數據集。Harmony在最大多樣性聚類和基于混合模型的線性批次校正之間進行協調迭代,提供了一個潛在空間來去除批次效應。然而,這些方法依賴于線性操作,因此缺乏處理跨細胞模態的非線性變形的能力。此外,它們只利用過濾后的常見基因,而忽略了數據集特異性基因對于識別細胞群的重要性,而這些細胞群通常能捕獲不存在于常見基因中的細胞類型異質性。為了解決這些缺點,多種對比方法在集成單細胞多組學數據集方面取得了很有前景的結果。然而,流形對齊方法受到相對較高的計算復雜度限制,并且不能擴展到大規模數據集。

隨著深度學習的發展,現已提出了許多基于自動編碼器的方法,并證明了它們在跨模態數據集成中的能力。然而,其中大多數方法需要來自相同細胞的配對數據集以利用細胞配對信息,如DCCA和Cobolt。當細胞配對信息不可用時,替代方法是同時訓練不同的自動編碼器,并在潛在空間中跨不同的模態對齊細胞。最近,出現了大量的方法來解釋非配對數據。例如,scDART和跨模態自動編碼器通過自動編碼器學習潛在空間,并通過基于核或基于判別器的差異來對齊潛在表示。然而,這些方法需要進行全局比對,這對于整合異質細胞群往往具有限制性。此外,已開發的基于遷移學習的方法,通過學習模態不變的潛在空間,將知識(如細胞標簽)從一個模態遷移到另一個模態,從而建立源圖譜。這雖然取得了較好的結果,但僅限于使用帶有標注細胞標簽的源模態。

最近發表的單細胞基因組學集成方法,如scMC和SCALEX,在一種模式的批次效應校正方面表現出了最佳性能,但它們尚未成為單細胞多組學數據集成的基準。GLUE是另一種最先進的單細胞多組學集成和集成調控推理方法,其開發了基于高級圖的自動編碼器。同時,許多其他方法被提出用于空間轉錄組學(ST)和scRNA數據的集成分析。其中,gimVI和Tangram取得了最優性能。然而,目前尚未開發出統一集成單細胞多組學以及空間分辨轉錄組學數據的方法。

為此,作者提出了uniPort,這是一個精確、穩健和高效的計算平臺,用于將異構單細胞數據集與最佳傳輸(OT)集成。為了克服傳統VAE在單細胞異質性或非配對數據集成方面的局限性,作者提出了一個通過結合耦合變分自動編碼器(coupled-VAE)和小批量不平衡最優傳輸 (Minibatch-UOT) 的統一計算框架(圖1)。該框架允許利用高度可變的常見基因和數據集特異性基因進行集成,以處理不同數據集的異質性。實驗結果表明,uniPort可以準確、穩健地集成來自外周血單核細胞(PBMC)和小鼠脾臟的scATAC和scRNA數據集。它還可以通過scRNA數據精確填補未測量的空間分辨多重誤差穩健的熒光原位雜交(MERFISH)基因。此外,通過輸出OT計劃,作者證明了uniPort可以準確地破譯小鼠大腦的典型結構,幫助定位乳腺癌區域的三級淋巴結構(TLS),并在基于微陣列的空間數據中揭示癌癥異質性。

圖1 uniPort算法概述

結果

uniPort通過coupled-VAE和Minibatch-UOT嵌入和集成數據集 uniPort在不同模式或技術中采用不同異構單細胞數據集作為輸入。uniPort通過耦合變分自編碼器(coupled-VAE),利用無數據集編碼器將不同數據集的高度可變公共基因集投射到廣義細胞嵌入的潛在空間中。然后uniPort重構兩個輸入項,一個由具有數據集特定批量規范化(DSBN)層的無數據集解碼器輸入;另一個是通過與每個數據集對應的數據集特定解碼器形成的高度可變基因集(圖1)。由于一些常見基因在每個數據集中也高度可變,因此在兩個輸入項之間經常會發現一些重疊的基因。在集成期間,uniPort最大限度地減少了來自不同數據集的潛在空間中細胞嵌入之間的Minibatch-UOT損失。為了獲得更好的校準結果,有必要引入損失,特別是當特定數據集的解碼器被認為增加了潛在空間中不同數據集的異質性時。同時,小批量策略大大提高了OT的計算效率,使其可擴展到大數據集,而不平衡OT更適合異構數據集成。

作者使用了不同的評估指標來評估uniPort集成單細胞數據的能力。為了量化數據集混合和細胞類型分離,作者使用SCALEX計算了兩種評分:批次熵分數用來評估跨數據集混合細胞的程度,輪廓系數用來評估生物學特征的分離。為了對標注聚類的準確性進行基準測試,作者采用了調整蘭德指數(ARI)、歸一化互信息(NMI)和使用細胞類型標注的F1分數。然后,對于配對數據集,作者使用比真實匹配更接近的樣本的平均分數(FOSCTTM)來衡量跨數據集細胞間對應關系的保持情況。

uniPort集成scATAC和scRNA數據 在一個配對的scATAC和scRNA數據集(配對的PBMC數據集)和兩個不配對的scATAC和scRNA數據集(基于微流體的PBMC數據集和小鼠脾臟數據集)上,作者將uniPort與目前最先進的單細胞基因組學集成方法進行了基準測試,同時采用一致的流形近似和投影(UMAP)將積分結果進行可視化。

作者首先應用uniPort來集成配對的PBMC數據集(圖2),配對信息僅用于性能評估。實驗結果表明,uniPort和GLUE的性能最佳,且結果相當(圖2c-e)。在所有比較的方法中,uniPort,、Seurat、 Harmony、 SCOT和GLUE在兩種模式中準確集成了大多數細胞類型(圖2b)。

圖2 uniPort集成了配對的PBMC數據集

除了集成配對的PBMC數據集,作者還在基于非配對微流體的PBMC數據集上進一步評估了uniPort。結果顯示,uniPort準確地集成了scATAC和scRNA數據,并且具有與GLUE、MultiMAP和Harmony相當的競爭性能。此外,作者還在另一個來自小鼠脾臟數據集的未配對的scATAC和scRNA上測試了uniPort (圖3)。uniPort、scMC、Harmony和Seurat都取得了較好的性能。總之,在所有方法中,uniPort與最近發表的最先進方法相比表現良好,且在配對和非配對數據集中均顯示出準確和穩健的結果。

圖3 uniPort集成了非配對的小鼠脾臟數據集

uniPort執行異構數據集的非平衡匹配任務 uniPort最大限度地減少了Minibatch-UOT的損失,適用于不平衡匹配,為異構數據集成提供了強有力的保障。為了評估uniPort在異構數據集成方面的性能,作者分別從小鼠脾臟的scATAC或scRNA中去除一些細胞類型,進行了兩項不平衡匹配任務。去除scATAC數據部分類型的集成任務命名為ATAC不平衡匹配(“UBM-ATAC”),將在scRNA數據中刪除相同細胞類型的集成任務表示為RNA不平衡匹配(“UBM-RNA”)。同時,為了進行比較,將完整小鼠脾臟數據的集成定義為平衡匹配(“BM”)。

在兩種不平衡匹配的情況中,uniPort準確地識別并分離了“DC”、“Granulocyte”、“Macrophage”和“NK”細胞與其他細胞類型,同時很好地對齊了模態共享細胞類型(圖4a, b)。將uniPort與GLUE、Harmony、Seurat、MultiMAP和scMC進行比較,可以發現這些方法都在“BM”任務中取得了較高的準確性。但在所有方法中,只有uniPort和Seurat在三種情況下都取得了穩定的性能(圖4c, d)。因此,與“BM”的情況相比,當數據集中呈現異質性時,uniPort比其他方法更穩健。

圖4 uniPort集成了細胞類型不平衡的小鼠脾臟數據

uniPort集成了MERFISH和scRNA數據 作者進一步考慮了ST和scRNA數據的集成。ST測序技術主要有兩種類型:基于高復雜度RNA成像的ST測序技術和基于條形碼的ST測序技術。基于高復雜度RNA成像的空間測序具有單細胞精度更高、深度更大的優勢,但局限于覆蓋率較低的部分測量。為了測試uniPort在基于高復雜度RNA成像數據上的性能,作者應用uniPort集成了MERFISH和scRNA數據。

在MERFISH數據的155個基因中,使用scRNA和MERFISH中的153個共同基因進行集成。應用UMAP將uniPort、Harmony、Seurat、SCALEX、scVI、gimVI和MultiMAP的細胞嵌入結果可視化(圖5a,b)。從圖中可以看出,uniPort和scVI在鑒別和分離OD 未成熟細胞和其他細胞類型方面的表現優于其他方法。通過再次使用輪廓系數和總分對uniPort與其他方法的集成性能進行基準測試(圖5c, d),可發現uniPort優于其他方法。

uniPort為MERFISH數據插補基因 uniPort訓練了一個編碼器網絡,以將跨數據集中具有共同基因的細胞投射到共同細胞嵌入的潛在空間,同時訓練了一個解碼器網絡,以重建具有共同基因和特定基因的細胞。因此,一旦coupled-VAE訓練良好,就可以將其視為參考圖譜,從而允許uniPort通過圖譜根據另一個數據集的共同基因來對一個數據集中的共同基因和特定基因進行插補。插補基因可用于增強空間轉錄組學的分辨率。

為了探索uniPort的基因插補能力,作者采用gimVI方案從MERFISH的scRNA中插補缺失基因。首先隨機選擇MERFISH中80%的基因作為訓練基因,并保留剩余20%的基因作為測試基因。重復上述步驟12次,得到12個訓練和測試基因集。然后用每個訓練基因集訓練uniPort網絡,同時對相應的測試基因集進行插補,并將實驗結果與兩種最先進的基因插補方法進行比較:gimVI和Tangram。通過應用uniPort、gimVI和Tangram對測試基因進行插補,并使用UMAP對訓練和測試基因進行可視化(圖5e)。在MERFISH數據集上,與兩種比較方法相比,uniPort具有較優的性能 (圖5e,f)。

圖5 uniPort為MERFISH數據插補

uniPort去卷積合成的STARmap數據 基于條形碼的ST更容易獲得轉錄本,覆蓋率更高,但僅限于分辨率較低的混合點。接下來,通過將scRNA數據中的標簽轉移到混合點來實現基于條形碼的ST數據的去卷積。uniPort可以提供一個OT計劃,該計劃代表scRNA和ST數據之間的細胞到混合點的概率對應關系,從而能夠根據scRNA數據中的細胞注釋來對ST數據的單細胞簇比例進行去卷積。為了評估性能,將uniPort與兩種最先進的細胞類型去卷積方法Tangram和SpaOTsc進行了基準測試。實驗結果表明,uniPort對比兩種方法表現較好。

uniPort破譯小鼠大腦的典型結構 作者應用uniPort來去卷積現實世界中基于條形碼的ST示例。為了估計每個捕獲點的細胞類型組成和破譯典型的組織結構,作者首先整合了成年小鼠腦ST數據的前切片(10× Visium)。

正如清晰的邊界所示,uniPort準確地重建了結構良好的層并去卷積了28種細胞類型(圖6a)。多皮質層和區域特異性細胞類型等代表性簇的比例和位置與過往研究高度一致。盡管其解剖結構復雜,但uniPort仍精確地重塑和排列了從邊界延伸到中心區域的L2/3L6亞簇 (圖6b)。此外,L6層的亞群也被清晰地分離,揭示了該方法對幾乎無法察覺的信號的敏感性。因此,無論是標記基因的表達還是大腦的解剖結構,都證明了所提出圖譜的穩健性,且可以在基于基因表達的聚類和解剖注釋之間建立一致性,并提供比通過視覺檢查更徹底和全面的理解。

uniPort幫助定位乳腺癌區域的TLS 癌癥的發生和發展通常受到其與異質性腫瘤微環境(TME)的關聯影響,而ST可以為其提供生物學見解。為了進一步證明其靈活的效用,作者使用uniPort對 HER2陽性乳腺癌的空間數據進行去卷積,其中包含彌漫性浸潤細胞,這使得去卷積位點變得更加困難。如圖6c所示,在空間圖像上分配了9個主要簇,主要涉及T細胞和癌上皮細胞。此外,實驗發現分散在集中富集區域的代表性簇與標記基因表達所顯示的區域相一致(圖6d,e)。

大量研究表明,免疫細胞浸潤的增加與乳腺癌的良好預后高度相關。TLS是近年來在腫瘤或炎癥部位發現的一種異位淋巴樣器官,被認為是腫瘤患者的預后和預測因素。雖然TLS中存在多種細胞類型,但主要是T細胞和B細胞,它們的聯合共定位影響了TME。作者通過對每個點的細胞類型比例進行分析,并通過T細胞和B細胞共定位來識別TLS信號,以使T細胞和B細胞的表達強度相同(圖6f)。總體而言,uniPort可以協調不同模態,并滿足對組織和疾病代表性結構的高分辨率映射和識別。

圖6 uniPort識別空間轉錄組學數據中的標志性結構

uniPort揭示了基于微陣列的空間數據中的癌癥異質性 基于Visium的ST數據區域被限制在每個捕獲點直徑為55 μm的范圍內,這達到了相當于3-30個細胞的中等分辨率。隨著位點分辨率的降低,可能會對集成造成潛在的影響,因為成分的混合增長會帶來更多的噪聲。為了檢驗uniPort在這種情況下的性能,作者使用基于微陣列的胰腺導管腺癌(PDAC)組織的ST數據進行集成,其直徑延伸至100 μm。對1926個單細胞配對的428個位點進行細胞類型去卷積,并分別測量了19736個基因。

通過分解15個主要的簇,可以發現它們表現出正常和腫瘤組成的離散富集和復雜性(圖7a)。正常胰腺細胞類型分為導管細胞和腺泡細胞,與以往研究結果一致,保留了與癌細胞明顯不同的分布和遺傳特征。對于惡性胰腺細胞,根據遺傳差異將其分組為癌癥克隆A簇和B簇。其次,正常和癌變區域的組織學注釋總體上符合其數據驅動的標簽(圖7b), TME的基本成分由其標記基因表示(圖7c, d)。

為了進一步了解癌癥亞型的異質性,進一步分析確認它們的身份,以及每個位點所占最大比例(圖7e)。KEGG通路將它們分離成不同的功能組件(圖7f)。此外,在腫瘤克隆A中,包括紅細胞(RBC)、T細胞和自然殺傷(NK)細胞在內的血源性細胞比例顯著增加(圖7g),這與功能分析的結果一致。綜上所述,該方法可以操作不同分辨率的應用光譜,揭示細微的異質性TME。

圖7 uniPort在基于微陣列的空間數據中識別不同的癌癥亞型

總結

本文介紹了一種用于單細胞數據集成的統一深度學習方法uniPort,并將其應用于集成基于轉錄組學、表觀基因組學、空間分辨的高復雜度RNA成像以及條形碼的單細胞基因組學。uniPort結合了coupled-VAE和Minibatch-UOT,并利用高度可變的常見基因和數據集特異性基因進行集成。它是一種非線性方法,可將所有數據集投射到一個公共潛在空間,并在數據集之間輸出其潛在表示,從而實現可視化和下游分析。

uniPort解決了幾個計算方面的挑戰,首先是通過使用Minibatch-UOT消除其他基于自編碼器模型所需配對細胞的約束。與僅考慮跨數據集常見基因的現有方法不同,作者還利用了每個數據集特有的基因,從而捕獲常見基因中不存在的細胞類型異質性。此外,由于coupled-VAE的泛化能力,uniPort通過構建參考圖譜顯示了其在基因插補方面的能力和潛力。需要指出的是,uniPort甚至可以通過一個數據集中的公共基因來插補另一個數據集中的獨特基因,而無需從頭開始訓練。此外,uniPort還可以輸出用于下游分析的OT計劃,如靈活的標簽遷移學習,用于空間異構數據的去卷積。

在集成大規模異構數據集方面,uniPort具有計算效率和可擴展性,而這對于其他基于OT的方法來說可能是計算上的障礙。目前流行的基于OT的單細胞分析方法是基于全局最優傳輸,但全局最優傳輸使得計算非常昂貴。為了解決這一問題,uniPort在基于VAE的單細胞基因組學分析框架中引入了Minibatch-UOT,在每次迭代中只需要求解一個mini-batch傳輸計劃,從而大大降低了計算成本。因此,它可擴展到大數據集。

由于研究中對scATAC的集成是基于基因活性評分,為此作者還測試了uniPort在以不同方法計算基因活性評分時的性能。集成結果顯示,uniPort在MAESTRO的基因活性評分上取得了更好的表現,所有的評分都高于Signac,這說明了對基因活性評分建模的重要性。

與最近發表的最先進的方法相比,uniPort始終表現良好,并成功地使用OT計劃去卷積空間異構數據。隨著配對數據集和各種異質模態的快速發展,本文還通過使用CITE-seq數據和SNARE-seq數據集或沒有對齊公共基因的數據集,證明了uniPort對其他類型單細胞數據的普遍適用性。

參考資料

Cao, K., Gong, Q., Hong, Y. et al. A unified computational framework for single-cell data integration with optimal transport. Nat Commun 13, 7419 (2022). //doi.org/10.1038/s41467-022-35094-8

數據
代碼

付費5元查看完整內容
北京阿比特科技有限公司