作者 | 王永康
審核 | 熊展坤
今天給大家分享清華大學張牧涵團隊發表在ICML2022的論文“3DLinker: An E(3) Equivariant Variational Autoencoder for Molecular Linker Design”。本論文專注于一種新型的藥物設計問題,即如何生成一種合適的連接器,將兩個獨立的目標藥物分子片段有效地進行結合。為解決該問題,作者提出一種名為3DLinker的條件生成模型。該模型能夠基于E(3)等變圖變分自編碼器預測分子片段結合過程中的錨原子,并生成連接器的原子圖以及3D坐標信息。實驗結果表明,該模型在分子片段連接器的恢復上有較好效果,同時可以準確預測分子的3D坐標信息。
在藥物研發中,由于搜索空間的離散性和龐大性,設計包含所需藥效團特性的新分子藥物仍具有挑戰性。近期,一種獨特的藥物分子將兩個具有生物功能的片段分子與接頭分子相結合,進而表現出分子接合策略的巨大應用潛力。然而,該策略中的關鍵點是分子連接器的設計,目前此過程仍依賴于專業的結構生物學家,因此需要一種有效的深度學習方法來解決該問題。 如圖1,分子連接器的生成問題可定義為:給定兩個具有坐標信息的分子片段圖,生成一個包含坐標信息的連接圖,用于拼接上述兩個片段。同時,生成的連接圖坐標需要在空間中與片段相對齊。
圖1
2.1 消息傳播 作者設計一種混合特征的消息傳播方式(Mixed-Features Message Passing, MF-MP),在每次的消息傳播過程中,該方法將不變特征(即分子圖的特征嵌入)和等變特征(即分子圖的坐標嵌入)進行混合,使其各自的不變性與等變性質得以保存,同時在更新過程中兩種特征相互促進。 首先,借助VN-MLP等變神經網絡,將不變特征 與等變特征 進行變換,進而混合形成新的中間特征。而后,應用點卷積方法對混合特征進行線性變換。 表示相對位移, 表示相應的核函數,用于將節點的標量距離轉換為多維輸出向量,從而使消息具有幾何感知。最終,對不變特征 采用門控單元,對等變特征 采用等變神經網絡來更新節點上的具體消息。
消息獲取
消息更新
2.2 編碼器
基于上述MF-MP消息傳播過程,不變特征 與等變特征 進行充分的信息交互。此處,根據最后一次消息傳播的結果,生成兩種隱層特征的正態分布描述參數。
2.3 解碼器
解碼器的目的是根據分子片段的不變與等變特征,以順序方式逐步構造完整的目標連接圖過程。具體如下圖,首先預測兩個分子片段上的錨點信息,以此作為連接器的拼接位置。其次,預測連接器中所有原子的類型。而后,預測連接器中原子之間的邊以及相應的3D坐標信息。該過程中以不變與等變特征形式進行連接器的特征描述,進而保證連接器的理論有效性。
圖2
連接器的順序預測過程如下圖:選取目標點,并對其進行鄰居的預測(此處以片段的錨點作為預測的起始位點);在目標點與預測點(包括人工定義的終止位點)之間進行邊信息采樣;若本輪未選中終止節點,則對預測點進行坐標信息的生成,并重復執行預測點過程;若選中終止節點,則更新當前所有節點坐標,并重新選擇目標點,執行預測過程,直至連接器中所有節點均被以目標點形式選擇過。
圖3
作者選擇ZINC數據集作為分子結構來源,從中提取有效的分子片段與連接器信息,并使用RDKit來生成分子的真實三維坐標信息。實驗結果表明,3DLinker模型在預測的有效性,恢復率(即描述生成分子與真實分子的恢復比例),2D屬性通過率(即合成可及性、環芳香性和泛分析干擾化合物屬性),RMSD(即生成分子與真實分子在結構坐標上的差異)指標上,均表現出優秀的性能。
同時,作者隨機選取分子片段的連接過程,并可視化與真實分子相似性最高的五種連接器推斷,可以發現3DLinker相較于基準DeLinker+ ConfVAE模型,在預測的指標和實際效果上均有較高的優勢。
圖4
更多實驗結果請參考原文。
針對分子片段的連接問題,作者基于條件變分自編碼器,并結合分子的不變特征與等變特征,將分子圖的生成與分子三維信息的表征進行整合,從而有效地預測連接器的錨點與邊的具體連接狀態。該模型在連接器的預測上表現出良好的性能優勢,并能夠準確獲得連接器的有效坐標信息。
今天給大家介紹 Meta(Facebook) AI Research 團隊 2022 年發表在 ICLR 上的論文 “TOWARDS TRAINING BILLION PARAMETER GRAPH NEURAL NETWORKS FOR ATOMIC SIMULATIONS”。本文針對原子模擬領域,提出了一種圖并行框架,可以分布式的在多 GPU 上訓練十億級參數量的超大圖神經網絡模型。在標準數據集 OC20 上最高實現了 21% 的性能提升。
用于原子模擬建模的圖神經網絡(GNNs)的最新進展有可能徹底改變催化劑的發現,這是朝著應對氣候變化所需的能源突破取得進展的關鍵一步。然而,被證明對這項任務最有效的GNN是內存密集型的,因為它們在圖中模擬高階相互作用,例如三重或四重原子之間的相互作用,因此很難拓展這些模型。在本文中,我們提出了一種圖并行方案,這是一種將輸入圖分布在多個 GPU 上的方法,使我們能夠訓練具有數億或數十億參數的超大 GNN。我們通過將最近提出的 DimeNet++ 和 GemNet 模型的參數數量增加一個數量級以上,對我們的方法進行了實證評估。在大規模開放式 Catalyst 2020(OC20)數據集上,我們提出的圖并行在 S2EF 任務的 MAE指標相對提高了15%,在 IS2RS 任務的 AFbT 指標相對提高了21%,實現了新的 SOTA。
圖神經網絡(GNNs)已成為原子系統建模的標準體系結構,從蛋白質結構預測到催化劑發現和藥物設計,有著廣泛的應用。這些模型對圖結構輸入進行操作,其中圖的節點表示原子,邊表示鍵或原子鄰居。盡管它們取得了廣泛的成功,并且擁有大量的分子數據集,但訓練大規模的GNN(具有數十億個參數)是一個重要但尚未得到充分探索的領域。計算機視覺、自然語言處理和語音識別領域類似大型模型的成功表明,擴大 GNN 的規模可以顯著提高性能。 以前大多數擴展 GNN 的方法都專注于將小模型(具有數百萬個參數)擴展到大圖,產生了鄰域采樣等方法。但這些方法不適用于包含數百萬個較小圖的原子模擬數據集。我們的重點是針對由許多中等大小的圖組成的數據集,擴展到非常大的模型的問題。
Battaglia et al.(2018)介紹了一種稱為圖網絡(GN)的框架,該框架為許多流行的圖神經網絡(GNN)提供了一般抽象,這些網絡在圖的邊和節點表示上運行。本文以他們的工作為基礎,定義了擴展圖網絡(EGN)框架,以包括也在高階項上運行的 GNN,如三元組或四元組節點。 在 GN 框架中,圖被定義為一個三元組 , 其中 表示關于整個圖的全局屬性。GNN 包含一系列 GNblocks,這些 GNblocks 對輸入圖進行迭代操作,更新各種表示。在 Extended Graph Network (EGN) 框架中,圖被定義為一個四元組 , 表示高階相互作用項的集合。 作為一個具體的例子,考慮在這個框架中用圖表示的原子系統,節點表示原子,邊表示原子鄰居。節點屬性 和邊屬性 可以分別表示原子的原子數和原子之間的距離。更高階的相互作用可以表示原子的三元組,即成對的相鄰邊,其中 表示鍵角,鍵角是共享一個公共節點的邊之間的角度。最后,全局屬性 可以表示系統的能量。
在 EGN 框架中,GNN 包含一系列的 EGN 塊,迭代的更新圖中的表示,如上圖所示,從最高階的關系項開始更新,逐步到最低階,直到完成整個圖的更新,一次迭代完成。(上圖中,最高階為三元關系,邊為二元關系,節點為一元關系)。 即使在中等大小的圖上訓練大型 EGN 也具有挑戰性,因為存儲和更新每個三元組、邊和節點的表示需要大量內存占用。在許多應用中,邊的數量比節點的數量大一到兩個數量級,而三元組的數量比邊的數量大一到兩個數量級。因此,存儲和更新三元組表示通常是 GPU 內存和計算方面的瓶頸。許多最新的研究使用低維表示來克服這一問題。但會損失性能。
本文使用分布式 EGN 塊的實現。假設我們有 P 個處理單元。每個單元負責計算對三元組、邊和節點子集的更新。在計算開始時,我們將圖拆分為子集。在前向傳遞時,P 個處理單元并行的更新三元組的子集,并進行局部聚集。然后進行 reduce 操作實現全局聚集。剩下的低階關系聚集是相似的,整個過程如上圖所示。 基于這一分布式的框架,本文給出了兩個使用 GNN 預測原子系統能量和力的具體示例,將分子建模為一個圖,其節點表示原子,其邊表示原子的鄰居。GNN 將這樣的圖作為輸入,并預測整個系統的能量以及每個原子上的三維力矢量。
本文使用 OC20 數據集,其包含超過 1.3 億個原子結構,用于訓練模型,預測結構松弛期間的力和能量。我們報告了三項任務的結果:
未來,作者希望將圖并行 (graph parallelism)和模型并行 (例如 GPipe)的方法相結合,來訓練更大的模型,以產生更好的性能。 參考文獻
準確預測分子性質有助于評估和選擇具有許多下游應用所需特性的合適化學分子。隨著近年來圖神經網絡(GNNs)在各種圖相關任務中的顯著成功,已經從不同方向進行了許多努力來設計用于分子性質預測的GNN模型。基本思想是將原子和鍵的拓撲結構視為一個圖,并使用強大的GNN編碼器將每個分子轉換為一個表示向量,然后設置特定屬性的預測模塊。
//www.zhuanzhi.ai/paper/79ef70c82681e1e2ed1c394d8550bf47
當缺乏足夠的標記數據時,圖對比學習(GCL)方法在許多應用中顯示出非常好的性能。標記數據的缺乏是用于分子性質預測的GNN模型(以及其他深度學習模型)預測性能的主要障礙之一。現有的GCL方法通常對圖采用不同的數據增強方案,當其應用到其他領域的圖上時可能會改變圖的語義。目前大多數關于分子圖的GCL方法仍然基于這樣的數據增強方法,這不可避免地會改變分子的天然結構。例如,(You 等人)提出丟棄原子、擾動邊緣和屏蔽屬性來增強數據。然而,由于每個原子都對分子性質有影響,原子的這種隨機刪除和擾動會破壞分子的結構。雖然像MoCL這樣的一些其他方法采用預定義的分子子結構來緩解隨機破壞的問題,但這種替代規則仍然有可能違反化學原理。
本文提出了一種用于分子性質預測的幾何增強的圖對比學習模型(GeomGCL),該模型配備了自適應幾何消息傳遞網絡(GeomMPNN)以及增強2D-3D幾何結構學習過程的對比學習策略。該框架可以在不破壞分子結構的情況下,從不同的幾何角度預測分子性質。