編譯 | 陳睿哲
審稿 | 劉名權 今天給大家介紹的是來洛桑聯邦理工學院、MIT等團隊2022年10月發表在Arxiv上的預印本《Equivariant 3D-Conditional Diffusion Models for Molecular Linker Design》。
1 摘要 基于片段(fragment)的藥物發現已經成為早期藥物開發的一個有效范式。這一領域的一個開放挑戰是設計在interest的斷開分子片段之間的連接(linker),以獲得化學相關的候選藥物分子。在這項工作中,我們提出了一個擴散模型,一個E(3)等變3D條件擴散模型的分子連接設計模型。給定一組不相連的片段,我們的模型將缺失的原子放在中間,并設計了一個包含所有初始片段的分子。與以前只能連接分子片段對的方法不同,我們的方法可以連接任意數量的片段。此外,該模型還會自動確定連接器中的原子數及其連接點指向輸入片段。我們證明了擴散連接模型在生成更多樣化和綜合可獲得的分子的標準數據集上優于其他方法。此外,我們在現實應用中實驗測試了我們的方法,表明它可以成功地生成基于目標蛋白口袋條件的有效連接。
2 簡介 據估計,藥物的分子空間將超過10的60次方個結構,在該空間中搜索對藥物設計提出了重大挑戰。縮小這個空間大小的一個方法是從片段開始,片段是一種較小的分子化合物,通常有不超過20個重(非氫)原子。這種策略被稱為基于片段的藥物設計。給定一個蛋白質口袋(目標蛋白的一部分,利用合適的特性結合配體),計算確定與口袋相互作用的片段是一種比實驗性高通量篩選方法更便宜、更有效的替代方法。一旦相關片段被識別出來并與目標蛋白對接,就需要將它們結合成一個單一的、連接的分子。在片段連接、合并和生長等各種策略中,前者是首選,因為它可以快速提高目標和化合物的結合能。這項工作解決了連接的問題。
早期的分子連接設計的計算方法是基于數據庫搜索和物理模擬,這兩種方法都是計算密集型的。現有的方法要么基于語法模式識別,要么基于自回歸模型。前一種方法只使用SMILES,而后者則考慮了輸入片段的三維位置和方向。然而,這些方法對于原子的排列并不是等變的,只能結合成對的片段。
連接的設計依賴于目標蛋白口袋,正確地使用這些信息可以提高整體化合物的親和力。然而,到目前為止,還沒有計算方法的分子連接器設計,考慮到口袋。在這項工作中,我們提出了DiffLinker,一個條件擴散模型,它為一組表示為三維原子點云的輸入片段生成分子連接器。首先,我們的模型生成預期連接的大小,然后從正態分布中采樣初始連接原子的類型和位置。接下來,使用以輸入片段為條件的神經網絡迭代地更新連接原子類型和坐標。最終,去噪的連接原子和輸入片段原子形成一個連接分子,如圖1所示。
DiffLinker具有幾個理想的特性:它關于平移、旋轉、反射和排列等變,它不受輸入片段數量的限制,它不需要關于附著原子的信息,并生成任意大小的連接器。此外,DiffLinker的調節機制允許傳遞關于周圍蛋白質口袋原子的額外信息,這使該模型適用于基于結構的藥物設計應用。
我們的經驗表明,在生成片段對之間的化學相關連接方面比以前的方法更有效。我們的方法在合成可及性和藥物相似性方面取得了最先進的結果,這使其更適合用于藥物設計管道。此外,擴散連接器在生成的連接的多樣性方面顯著優于其他方法。我們進一步提出了一個更具挑戰性的基準測試,并表明我們的方法能夠成功地連接兩個以上的片段,而這是其他方法無法做到的。我們還證明了擴散蛋白可以基于目標蛋白質口袋:我們的模型尊重周圍蛋白質原子施加的幾何約束,并生成與相應口袋有最小沖突的分子。據我們所知,DiffLinker是第一個不受輸入片段數量限制并描述口袋信息的方法。這項工作的總體目標是為從業者提供一個有效的工具,分子連接子生成在現實的藥物設計場景。
3 方法 在本節中,我們將介紹DiffLinker,一種新的E(3)等變擴散模型,用于生成以3D片段為條件的分子連接。我們制定了底層去噪分布的等方差要求,并再提出了一個可學習的動態函數。我們討論了取樣一個連接的大小和調節蛋白質口袋的策略。完整的連接器生成工作流程如圖1所示。
3.1 EQUIVARIANT 3D-CONDITIONAL DIFFUSION MODEL 與其他分子生成的擴散模型不同,我們的方法以三維數據為條件。更具體地說,我們假設每個點云x都有一個相應的上下文u,這是另一個由所有輸入片段和蛋白質口袋原子組成的點云,這些原子在整個擴散和去噪過程中保持不變,如圖1所示。因此,我們考慮公式擴散過程中的生成過程在點云x上操作,同時基于固定的相應上下文。
條件去噪模型的馬爾科夫鏈定義:
函數f的選擇在很大程度上取決于要解決的問題和可用的先驗。在我們的實驗中,我們考慮了兩個情況。首先,我們利用了應該由連接器連接的原子的信息。我們稱這些原子為錨點,并將f (u)定義為錨點的質心。然而,在現實世界中,不太可能知道哪些原子應該是錨點。在這種情況下,我們將f (u)定義為整個環境u的質心。
我們注意到概率模型p與平移并不是等變的。為了克服這一問題,我們構造了附加平移不變的網絡?。然后,我們不再從N (f (u))采樣初始噪聲,而是將數據集中在f (u),從標準正態分布中采樣。
3.2 EQUIVARIANT GRAPH NEURAL NETWORK 建模擴散模型動力學的可學習函數?被實現為一個改進的E(3)等變圖神經網絡(EGNN)。它的輸入是時間t和上下文u的連接z_t的噪聲版本。這兩部分被建模為一個單一的全連通圖,其中節點用坐標r和特征向量h表示。
為了使函數?對平移不變,我們從預測噪聲的坐標分量中減去初始坐標:
EGNN由等變圖卷積層組成,消息傳遞的過程如下:
節點坐標的后一種更新由可學習函數φ_vel計算。我們的圖中包含了一個有噪聲的連接器z_t和一個固定的上下文u,而?的目的是預測應該從z_t的坐標和特征中減去的噪聲。因此,在計算動態時,保持上下文坐標不變是很自然的,并且在每個EGCL步驟中只對連接部分應用非零位移。因此,我們對節點位移的建模如下:
通過構造實現了卷積層的等方差。消息φ_e和節點更新φ_h只依賴于標量節點特征和E(3)不變的節點之間的距離。坐標更新φ_vel另外線性地依賴于坐標向量之間的差值,這使得它們成為E(3)等變的。
由于我們只對與連接相關的部分感興趣,因此我們放棄了上下文節點的坐標和特征,并將元組[z_r,z_h]視為EGNN輸出。
3.3 LINKER SIZE PREDICTION 為了預測一組片段之間缺失的連接的大小,我們將片段表示為一個全連接圖,使用原子類型的獨熱編碼作為節點特征,節點之間的距離為邊特征。由此,一個單獨訓練的GNN產生了連接大小的概率。我們的假設是,相對的片段的位置和方向以及原子類型包含了所有預測最可能的潛在連接大小的必要信息。當生成一個連接時,我們首先用在訓練數據中看到的連接大小列表上的分類分布上的預測概率對其大小進行采樣,如圖1所示。
3.4 PROTEIN POCKET CONDITIONING 在現實世界中基于片段的藥物設計應用中,經常會發生片段被選擇并連接到目標蛋白口袋中。要提出一種候選藥物分子,這些片段必須被連接起來。當生成連接時,應該考慮到周圍的口袋,并構建一個與蛋白質口袋原子沒有沖突的連接(換句話說,連接和口袋原子的配置應該是現實的),并保持較高的結合強度。為了將口袋條件反射添加到DiffLinker中,我們將一個蛋白質口袋表示為一個原子點云,并將其視為上下文u的一部分。我們還擴展了節點特征,用一個額外的二進制標記來標記屬于蛋白質口袋的原子。最后,由于新的上下文點云包含了更多的原子,我們修改了數據點z_t和傳遞給神經網絡?的上下文u的聯合表示。我們不考慮全連通圖,而是基于4A?的距離截止來分配節點之間的邊,因為它使得到的圖更不密集,并抵消了節點數量的增加帶來的計算負載。
4 實驗結果 在ZINC、CASF和GEOM測試集上的性能指標。前三個指標是為了評估所生成的分子的化學相關性。最后三個指標評估了這些方法的標準生成特性。
ZINC和CASF:雖然我們的模型在更多的應用中具有更大的靈活性和適用性,但在生成的分子的化學相關性方面,它們在標準基準測試的ZINC和CASF方面也優于其他方法。如表1所示,通過DiffLinker取樣的分子更容易合成獲得,并表現出更高的藥物相似性,這對于藥物設計應用尤為重要。此外,我們的模型生成了包含更多環的連接。此外,我們的分子通常具有更高的化學和幾何相似性,如表2中的SCRDKit評分所示。在有效性方面,我們的模型的性能與其他方法相同。兩種自回歸方法在每個生成步驟中都明確地使用了價規則,而我們的模型顯示出能夠從數據中學習這些規則。值得注意的是,對連接的大小進行采樣顯著提高了生成的連接的新穎性和唯一性,而沒有顯著退化最重要的指標。
與最近提出的自回歸模型DeLinker和3DLinker相比,它的主要優勢是在任意數量的片段之間一次性生成整個連接。這克服了DeLinker和3DLinker的局限性,它們一次只能連接兩個片段。雖然這些自回歸模型可以進行調整,以便在生長分子時迭代地連接片段對,但在這種情況下,不能考慮到完整的背景。因此,更有可能產生次優解。為了說明這一差異,我們采用了3DLinker來迭代地連接分子中需要連接兩個以上片段的片段對。如表1所示,3DLinker在幾乎84%的情況下無法構建有效分子,無法恢復任何參考分子,而盡管該數據集中連接器的復雜性更高,但我們的模型達到了94%的有效性,恢復了50%以上的參考分子。此外,由3DLinker生成的分子在連接體中沒有環,QED大大降低,而且更難合成。
為了說明DiffLinker考慮周圍口袋的能力,我們在口袋數據集上訓練了三個模型:它們分別基于全原子口袋表示,基于口袋主干原子和非條件。我們還計算了生成的分子和周圍口袋之間的沖突次數。如果兩個原子之間的距離小于它們的范德華半徑之和,我們就說兩個原子之間會發生沖突。如圖2所示,以全原子口袋表示為條件的模型產生的分子具有幾乎相同數量的沖突(平均每個分子7次沖突)(平均每個分子6次沖突)。根據口袋信息的數量有一個明顯的趨勢:口袋主干原子的模型平均產生14次沖突的分子,而非條件模型平均產生21次沖突的分子。
5 總結 在這項工作中,我們提出了DiffLinker,一個新的E(3)等變3D條件擴散模型的分子連接設計。DiffLinker通過生成一個連接,從一組斷開連接的片段中設計真實的分子,即一個相互連接輸入片段的原子點云。雖然以前的方法只能連接成對的片段,但擴散連接模型可以擴展到任意數量的片段。我們的方法不需要指定片段的附著點,并從片段中預測連接大小的分布。我們表明,所提出的方法在標準基準上優于其他模型,并產生更多的化學相關分子。此外,我們還證明了我們的模型可以以蛋白質口袋為條件,并產生具有最小沖突次數的連接。我們相信,我們的方法將加速潛在候選藥物的開發,并有潛力在基于片段的藥物設計領域得到廣泛應用。 參考資料 //doi.org/10.48550/arXiv.2210.05274
編譯|陳澤慧
審稿|侯琳琳 今天給大家帶來的是洛桑聯邦理工學院(EPFL)聯合微軟研究院Max Welling課題組、牛津、劍橋、康奈爾等團隊于2022年10月發表在arxiv上的預印本《Structure-based Drug Design with Equivariant Diffusion Models》。在本文中作者將基于結構的藥物設計(SBDD)表述為一個3D條件生成問題,并提出了DiffSBDD,一個 E(3)等變的3D條件擴散模型,它關于平移、旋轉、反射和排列等變,并可以根據蛋白質口袋的條件生成新的配體。
簡介
合理設計藥物分子化合物仍然是生物制藥研究中的一個突出挑戰。基于結構的藥物設計(structure-based drug design, SBDD)旨在生成可以與特定的3D蛋白質結構結合的高親和力和特異性的小分子配體。然而,SBDD仍然具有很大的挑戰性和局限性。傳統的SBDD在大規模化學數據庫上進行高通量實驗或虛擬篩選,但這不僅昂貴且耗時。近些年,生物分子的幾何結構建模的快速發展,為基于結構的藥物設計提供了一個有希望的方向。盡管利用深度神經網絡來替代對接模型已成為常態,但基于深度學習的配體與靶標蛋白結合的設計仍然是一個尚未解決的問題。
在這項工作中,作者為基于結構的藥物設計(DiffSBDD)開發了一個等變擴散模型,這是在該方向第一個這樣的模型。具體來說,作者將 SBDD 當作3D 條件生成問題,目的是生成對特定蛋白質靶標具有高結合親和力的多種配體。作者提出了一個 E(3) 等變的3D 條件擴散模型,該模型關于平移、旋轉、反射和排列等變。作者介紹了兩種策略,即以蛋白質為條件的生成和以蛋白質口袋為條件產生新配體的配體修復生成。具體來說,蛋白質的條件生成是將蛋白質視為一個固定的環境,而配體修復模型則對蛋白質-配體復合物的聯合分布進行建模,并在推理過程中修復新配體。同時,作者進一步整理了從binding MOAD導出的實驗確定的結合數據集,該數據集補充了常用的合成Crossdocked數據集,以驗證提出的模型在現實綁定場景下的性能。實驗結果表明,DiffSBDD能夠生成新的、多樣化的、類藥物的配體,并與給定的蛋白質口袋有高結合親和力。
圖1:蛋白質條件下的 DiffSBDD。首先模擬前向擴散過程q,以獲得在T個時間段內漸進式噪聲樣本的軌跡。然后訓練一個模型p_來反轉或去噪這個以目標結構為條件的過程。一旦訓練完成,就能夠從高斯分布中抽取新的候選藥物。原子特征和坐標都在整個過程中擴散。配體 在擴散過程中表示為全連接圖(為清楚起見,未顯示邊緣),并且在生成結束時將共價鍵添加到生成的點云中。蛋白質以圖形式表示,但為了清楚起見,此處顯示為表面。
方法
作者利用一個等變DDPM,結合特定的蛋白質靶標來生成分子并結合構象,并將蛋白質和配體點云表示為由 EGNNs 進一步處理的全連接圖。作者考慮了兩種不同的 3D口袋調節方法:(1)一個條件 DDPM,它在每個去噪步驟中接收一個固定的口袋表示作為背景,以及(2)一個近似配體-口袋對的聯合分布的模型,并在推理時與修復相結合。
pocket-conditioned small molecule generation
在條件分子的生成設置中,作者在去噪過程的每個步驟中都提供固定的三維上下文。為此,作者用上標 P 表示的蛋白質口袋節點來補充,用上標 L 表示的配體節點點云,并且在整個反向擴散過程中保持不變(圖 2)。
作者使用 EGNN 對噪聲預測器 進行參數化。為了使用單個 GNN 處理配體和口袋節點,原子類型和殘基類型首先通過單獨的可學習 MLP 嵌入到一個聯合節點的嵌入空間中,并且將坐標更新步驟確定為以下內容:
以確保三維蛋白質上下文在整個 EGNN 層中保持固定。
等變性 在具有3D條件的概率設置中,作者希望在以下意義上確保E(3)-等變:
對正交組 O(3)(包括旋轉和反射)的等變性是可以實現的,因為作者是用各向同性的高斯來模擬先驗和過渡概率,其中平均矢量在上下文的旋轉中進行等價變換。然而,確保平移等變并不容易,因為過渡概率本質上不是平移等變的。為了規避這個問題,作者遵循以前的工作,將整個采樣過程限制在系統的質心(CoM)為零的線性子空間。在實踐中,這是通過在進行似然計算或去噪步驟之前減去系統的質心來實現的。
joint distribution with inpainting
作為上述條件方法的擴展,作者還提出了一種配體修復方法。修復最初作為一種用于完成圖像被遮蔽部分的技術引入,目前已被應用于多個領域,包括生物分子結構。在這里,作者將這個想法擴展到三維點云數據。
作者首先訓練一個無條件的 DDPM 來近似配體和口袋節點的聯合分布。這使能夠在沒有額外上下文的情況下對新對進行采樣。為了以目標蛋白質袋為條件,需要通過修改概率轉換步驟將上下文注入采樣過程。在擴散步驟t-1, 蛋白質口袋和配體相組合的潛在表示,是從口袋的前向噪聲版本組裝而成的,該版本是與 DDPM 根據步驟t的上一個潛在表示預測的配體節點相結合。
以這種方式,作者以相反的順序從t=T 到t=0遍歷馬爾可夫鏈,在每一步中用它們的前向噪聲對應物替換預測的口袋節點。等式 (12)限制給定蛋白質口袋的生成過程。由于噪聲計劃在t=0時將噪聲過程的方差降低到幾乎為零,因此可以保證最終樣本包含蛋白質口袋的不受干擾的表示。
由于該模型被訓練以近似配體-口袋對的無條件聯合分布,除了將蛋白質和配體節點特征嵌入公共空間的全連接神經網絡外,該訓練過程與 Hoogeboom 等人開發的無條件分子生成過程相同。已知蛋白質口袋的調節完全委托給采樣算法,這意味著這種方法不僅限于配體修復,而且原則上允許在不重新訓練的情況下掩蓋和替換配體口袋系統的任意部分。
等變性 與條件生成一樣,類似的要求也適用于聯合概率模型,作者希望有 E(3)不變性,這可以通過等價流從不變先驗中獲得。與之前的方法相比,主要的復雜問題是缺少參考框架,無法定義有效的平移不變的先驗噪聲分布 ,因為這樣的分布不能整合為一個。因此,有必要將概率模型限制在一個無 CoM 的子空間,如以前的工作中所述。雖然反向擴散過程是為無 CoM 系統定義的,但用等式(11)-(13)中描述的已知口袋的新擴散版本取代預測的口袋節點坐標可能導致非零CoM。為了防止這種情況,作者翻譯已知口袋的表示,使其質心與預測的表示相吻合:
然后創建新的組合表示
圖 2:條件生成和修復方法之間的比較。條件式模型在蛋白質口袋 的固定上下文中學習去噪分子數據。在修復場景中,模型首先學習近似配體和口袋節點的聯合分布。對于采樣,通過在每個去噪步驟中將配體的潛在表示與口袋的前向擴散表示相結合來提供上下文。
實驗
CrossDocked
作者使用 CrossDocked 數據集并遵循與之前工作相同的過濾和拆分策略。這導致訓練集有 100,000個高質量的蛋白質-配體對,測試集有100個蛋白質。使用 MMseqs2通過 30% 的序列同一性完成拆分。
表 1中的實驗結果表明,DiffSBDD 可以生成具有預測的高結合親和力的多種小分子化合物,符合最先進的性能。我們沒有看到條件模型和修復方法之間的顯著差異。多樣性分數可以說是最有趣的,因為這表明與以前的方法相比,作者的模型能夠采樣更多的化學空間,同時保持高結合性能,這是早期基于結構的先導發現中最重要的要求之一。
表1 對來自CrossDocked測試集的目標生成的分子的評價。*表示重新評估了提供的生成配體
給出了兩個靶(2jjg和3kc1)的代表性分子選擇,這組分子的策劃是為了代表實驗中的高得分分子,其中顯示了現實的和非現實的motif。值得注意的是,為3kc1生成的第二個分子在與參考配體相同的口袋位置具有相似的三環基序,而參考配體是通過傳統的 SBDD 方法設計的,以通過環狀系統的形狀互補性最大限度地提高疏水相互作用。然而,即使是生成的分子中得分最高的,也存在一些不規則的現象。例如,針對 2jjg(來自Inpainting-)的分子中的大量三角形和 3kc1 的大環將被證明難以合成。
圖3 在CrossDocked上訓練DiffSBDD模型,并針對氨基轉移酶(top,PDB:2jjg)和水解酶(bottom,PDB:3kc1)進行評估。比較了條件和修復方法(分別使用全原子和級蛋白質表示),并展示了每個模型的三個高親和力分子。’Sim’是生成的配體和參考配體之間的Tanimoto相似度
Binding MOAD
作者評估了在 Binding MOAD中發現的實驗確定的蛋白質-配體復合物的方法,這些復合物根據蛋白質的酶委托編號進行過濾和拆分。這會產生 40,354 個蛋白質-配體對用于訓練和 130 對用于測試。
數據集 Binding MOAD與實驗確定的結合復合物數據的結果如下表所示。在 130個測試口袋中,每個口袋都產生了 100個有效配體,共產生了 13000個分子。DiffSBDD 生成了高度多樣化的分子,但平均對接分數低于該數據集的相應參考配體。
表 2 對來自 Binding MOAD 測試集的目標口袋生成的分子的評估
為代表性靶標生成的分子如圖 4 所示。靶標 (PDB: 6c0b) 是參與微生物感染和可能的腫瘤抑制的人類受體。參考分子是一種有助于受體結合的長脂肪酸,其可旋轉鍵的數量過多,而氫鍵供體/受體的數量較少,因此被認為是合適的藥物(QED 為 0.36)。然而,提出的模型通過添加由少量可旋轉鍵連接的芳香環來生成類似藥物(QED 介于 0.63-0.85 之間)和適當大小的分子,這允許分子采用互補的結合幾何形狀并且在熵上是有利的(通過減少自由度),這是一種經典的藥物化學技術。
圖4 在 Binding MOAD 上訓練的DiffSBDD模型針對人類受體蛋白(PDB:6c0b)進行了評估。比較了條件和修復方法(兩者都是),并給出了每個模型中親和力最高的三個分子。
結論
在這項工作中,作者提出了 DiffSBDD,一種基于結構的用于藥物設計的 E(3)-等變3D 條件擴散模型。作者在合成基準和實驗確定的蛋白質-配體復合物的新數據集上證明了 DiffSBDD 在生成新的且多樣化的配體方面的有效性,這些配體對給定的蛋白質口袋具有預測的高親和力。作者證明,在廣泛的分子指標上,基于修復的方法可以取得與直接調節相競爭的結果。因此,將這種更通用的策略擴展到全原子口袋表示,有望完成各種其他基于結構的藥物設計任務,例如先導優化或接頭設計,以及無需重新訓練的結合位點設計。
參考資料 Schneuing A, Du Y, Harris C, et al. Structure-based Drug Design with Equivariant Diffusion Models[J]. arXiv preprint arXiv:2210.13695, 2022.
圖神經網絡(GNNs)利用各種方法將卷積的概念推廣到圖中,已被廣泛應用于許多學習任務,包括物理系統建模,尋找分子表示來估計量子化學計算等。大多數現有的GNNs通過將網絡設想為一個消息傳遞方案來解決置換不變性,其中每個節點求和來自其鄰居的特征向量。我們認為該方案對GNN的表示能力施加了限制,使得每個節點在被求和聚合后失去了它們的身份。因此,我們提出了一種新的通用架構,稱為協變成分網絡(CCNs),其中節點特征由高階張量表示,并根據其接受野對稱群的特定表示進行協變/等價變換。實驗表明,CCNs在標準圖學習基準和估計密度泛函理論(DFT)計算的分子性質方面優于競爭方法。這種新穎的機器學習方法允許科學家有效地提取化學知識,并探索日益增長的化學數據。
從多尺度角度理解圖對于捕獲分子、蛋白質、基因組等的大規模結構至關重要。為此,我們引入了多分辨率等變圖變分自編碼器(MGVAE),這是第一個以多分辨率和等變方式學習和生成圖的分層生成模型。MGVAE建立在多分辨率圖網絡(MGN)之上,該體系結構顯式地學習頂點的多級硬聚類,從而形成真正的多分辨率層次結構。然后,MGVAE采用層次變分自編碼器模型,在給定潛在分布層次的情況下,隨機生成多個分辨率層次的圖。我們提出的框架實現了幾個生成任務,包括通用圖生成、分子生成、無監督分子表示學習、引用圖鏈接預測和基于圖的圖像生成。MGVAE的未來應用范圍從先導優化增強最有前途的化合物在藥物發現到尋找穩定的晶體結構在材料科學。
//people.cs.uchicago.edu/~hytruongson/PhD-Thesis.pdf 一般來說,我們希望學習由每個原子的一組電荷-位置對指定的分子數據。這個問題對旋轉和平移是不變的。我們使用協變激活來“烘焙”這些對稱性,同時保留局部幾何信息。我們提出協變分子神經網絡(Cormorant),一種旋轉協變神經網絡結構,用于學習復雜多體物理系統的行為和特性。我們將這些網絡應用到分子系統中,有兩個目標:學習用于分子動力學模擬的原子勢能面,以及學習通過密度泛函理論計算的分子基態性質。我們的網絡的一些關鍵特征是:(a)每個神經元明確地對應于原子的一個子集;(b)每個神經元的激活與旋轉協變,確保整個網絡完全旋轉不變。此外,我們的網絡中的非線性是基于張量乘積和Clebsch-Gordan分解,允許網絡完全在傅里葉空間中運行。Cormorant在從MD-17數據集的構象幾何圖形中學習分子勢能面方面明顯優于其他算法,在學習GDB-9數據集上分子的幾何、能量、電子和熱力學性質方面與其他方法具有競爭力。
多分辨率矩陣分解(MMF)在快速矩陣分解算法中是不尋常的,因為它不做低秩的假設。這使得MMF特別適合于建模具有復雜的多尺度或層次結構的某些類型的圖。雖然MMF有望產生一個有用的小波基,但找到因式分解本身是困難的,現有的貪婪方法往往是脆弱的。因此,我們提出了MMF的“可學習”版本,該版本結合強化學習和通過反向傳播誤差的Stiefel流形優化,仔細優化了因式分解。基于MMF在分解歸一化圖拉普拉斯時產生的小波基,利用稀疏小波變換定義的圖卷積,構造譜域小波網絡學習圖。我們已經證明,由我們的可學習MMF產生的小波基遠遠優于先前的MMF算法,相應的小波網絡在引用圖的標準節點分類和分子圖分類上產生了最先進的結果。這對于理解和可視化復雜的層級結構(如社會網絡和生物數據)是一個很有前途的方向。
今天給大家介紹一篇來自于icml2022關于在特定結合位點生成目標3D分子的文章,本文的標題是《Generating 3D Molecules for Target Protein Binding》。
首先本文提出了在當現存的生成與蛋白質結合的分子存在的問題,一共有三點。第一,現存的很多方法忽視了復雜的條件信息包含3d空間信息以及原子之間的化學信息;第二,本文認為應該能夠在連續的3d空間放置生成的分子,而此前的方法滿足不了這一點,即只能在離散化的空間放置生成的分子;第三,現在的方法,無法保證在蛋白質的環境發生變化的情況下(發生了相關的平移以及旋轉),生成對應的分子也隨之發生相應的改變(進行相關的平移和旋轉)。如果環境發生改變(發生了相關的平移以及旋轉)生成對應的分子也隨之改變(進行相關的平移和旋轉),這種特性稱為等變性。第三點換句話就是無法保證分子的等變性。 本文提出的這個框架(GraphBP)可以有效的解決上述的三個問題,GraphBP通過將特定類型和位置的原子一個一個地放置到給定的結合位點來生成與給定蛋白質結合的 3D 分子。在每一步,首先使用 3D 圖神經網絡從中間上下文信息中獲取幾何和化學信息表示。上下文包括給定的結合位點和在前面步驟中放置的所有原子。其次,為了保持理想的等變性質,該框架根據設計的輔助分類器選擇一個局部參考原子,然后構建一個局部球坐標系。最后,為了放置一個新原子,首先生成原子類型和相對位置 。文章通過流動模型構建局部坐標系。同時文章中對于原子的種類以及相對位置提出了一種按順序生成變量的方法(通過原子種類a生成一部分位置信息d再通過原子種類a和一部分位置信息d得到該原子其他的位置信息θ,最后通過a、d、θ得到該原子最后剩余的位置信息φ),并通過實驗驗證了這種依賴關系對于生成3D分子的有效性以及可靠性。實驗表明,GraphBP 可有效生成具有與目標蛋白質結合位點結合能力的 3D 分子。
本文中生成分子的過程如圖1所示:
圖1.GraphBP生成分子示意圖
第一步,編碼上下文信息。本文首先將各個原子之間進行連線構成一張Graph。然后將這種圖作為輸入放入3DGNN的網絡中,為每個分子生成對應的信息。在3DGNN中存在一個重要的輸入變量即每個原子與其臨近原子的距離d,而這個距離不會因為位置的平移和旋轉發生改變,所以每個原子的通過3DGNN獲得的編碼信息不會發生改變。 第二步,通過原子分類器選擇局部參考原子,構造局部球面坐標系(scs)。首先第一步使用contact atom classifier(接觸原子分類器)對結合位點的原子進行選擇(第一步只存在結合位點的原子,沒有配體原子)。contact atom classifier(接觸原子分類器)將結合位點的所有原子的編碼作為輸入,進行選擇,選擇出最佳的局部參考原子(結合位點中離配體最近的原子)。之后的步驟通過focal atom classifier(焦點原子分類器),從配體中的所有原子進行選擇,選擇出焦點原子作為局部參考原子。我們需要空間的三個點去定義scs,假設選擇的局部參考原子點是上下文c(t-1)中f原子,需要我們在c(t-1)選擇出離f最近的一個原子c以及第二近的原子e。存在了f,c,e原子,就可以構建scs,同時可以生成該局部球面坐標系的三元組(dt,θt,φt)。dt是生成原子t和f原子的距離,θt是生成原子t與f原子之間的線段和c原子和e原子之間線段之間的夾角,φt是生成原子t ,f原子 ,c原子的平面和e原子,f原子, c原子的平面 第三步,放置新的原子,通過一個Autoregressive flow models(自回歸流模型)得到生成原子的類型和三元組。首先,flow(流)模型表示經過一個參數化的可逆變換函數fθ:Z ∈ RD → X∈ RD,將服從某個先驗分布的隱變量Z變換到另一個變量X。Autoregressive flow models(自回歸流模型)是一種特定的flow(流)模型,其中變換函數被表述為Autoregressive models(自回歸模型)即X的每一維Xi的生成都以該維前面的每一維X1:i-1作為條件,如下;
t代表第t步產生的原子,本文按照at→dt→θt→φt的順序來添加原子即存在如下的依賴關系C(t?1) → at, (C(t?1), at) →dt, (C(t?1), at , dt) →θt, (C(t?1), at, dt ,θt) → φt,同時在每一步的生成過程添加 zta,ztd,ztθ,ztφ flow (流)模型的隱變量。在生成過程中,從已知的先驗高斯分布中采樣對應的隱變量z,然后將相對應的隱變量z和依賴關系通過g函數(自回歸函數)映射到at與dt, θt, φt 即ga(C(t?1),zta) → at,gd(C(t?1),ztd ,at ) → dt,gθ(C(t?1),ztθ,at, dt) → θt ,gφ(C(t?1),ztφ,at, dt ,θt) → φt ,在訓練過程中由于at是離散值,不滿足流模型的條件,需要通過添加高斯噪音將其連續化。,同時將獲得的進行argmax的操作獲得one-hot碼at 。g的表達如圖2,每次將上下文信息和依賴關系作為輸入,依次得到原子種類和三元組(dt,θt,φt)當得到最后的三元組(dt,θt,φt),就可以通過之前建立的局部球面坐標系(scs)放置新的原子。 總的來說,文章通過參考原子,建立局部球面坐標系,生成坐標三元組,一方面保障了生成原子的等變性(平移不變和旋轉不變)同時所有步驟中的生成原子構成生成分子,進而保障了生成分子的等變的特性。
在文章中涉及到三個損失函數:1.Atom placement loss Lap2.Contact atom classifier loss Lcc3.Contact atom classifier loss Lcc1采用流模型計算出訓練數據的對數似然值,然后取其相反數;2和3損失函數使用的是傳統的交叉熵損失,對于2來說結合位點離配體最近的點作為正樣本,最遠的作為負樣本。對于3來說所有原子沒有可以連接的位置作為負樣本,存在連接的位置作為正樣本。同時采用了CrossDocked2020 dataset。** ******
利用兩個指標衡量模型的生成性能即(i)Validity(有效性)是指在所有生成分子中化學有效分子的百分比。如果一個分子可以被 RDkit 消毒那么它就是有效的。(ii) ΔBinding(結合性) 衡量生成具有比其相應參考分子更高結合性的分子的百分比。生成模型與LiGAN-prior和LiGAN-posterior進行模型對比,本文中的模型效果非常顯著如表1。
表1.不同模型對于藥物設計的生成性能,↑表示更好的性能
驗證之前所提出的按順序去生成原子類型at和三元組(dt,θt,φt)即at→dt →θt→φt 文章中與完全依賴相對應引入了兩種方式進行對比: 1.無依賴 C(t?1) → at, C(t?1) → dt,C(t?1) → θt, C(t?1) → φt 2.部分依賴 C(t?1) → at, (C(t?1), at) → dt, (C(t?1), at) → θt, (C(t?1), at) → φt 比較兩個指標,一個是 Validity(有效性)另外一個是生成的3D分子和訓練的3D分子之間的鍵長分布的最大平均差異距離(MMD distances)如表2。
表2.GraphBP和和消融模型在隨機分子幾何生成任務上的比較,↑(↓)表示數值越高(越低)性能越好
在本篇論文中,提出了一種機器學習方法(GraphBP)來生成用于靶蛋白結合的3D分子。GraphBP能夠捕捉蛋白質-配體復合物的三維幾何結構和之間的相互作用,在不離散化三維空間的情況下放置原子,并在生成過程中保持等變特性,GraphBP被證明效果是非常優異的。
作者 | 王永康
審核 | 熊展坤
今天給大家分享清華大學張牧涵團隊發表在ICML2022的論文“3DLinker: An E(3) Equivariant Variational Autoencoder for Molecular Linker Design”。本論文專注于一種新型的藥物設計問題,即如何生成一種合適的連接器,將兩個獨立的目標藥物分子片段有效地進行結合。為解決該問題,作者提出一種名為3DLinker的條件生成模型。該模型能夠基于E(3)等變圖變分自編碼器預測分子片段結合過程中的錨原子,并生成連接器的原子圖以及3D坐標信息。實驗結果表明,該模型在分子片段連接器的恢復上有較好效果,同時可以準確預測分子的3D坐標信息。
在藥物研發中,由于搜索空間的離散性和龐大性,設計包含所需藥效團特性的新分子藥物仍具有挑戰性。近期,一種獨特的藥物分子將兩個具有生物功能的片段分子與接頭分子相結合,進而表現出分子接合策略的巨大應用潛力。然而,該策略中的關鍵點是分子連接器的設計,目前此過程仍依賴于專業的結構生物學家,因此需要一種有效的深度學習方法來解決該問題。 如圖1,分子連接器的生成問題可定義為:給定兩個具有坐標信息的分子片段圖,生成一個包含坐標信息的連接圖,用于拼接上述兩個片段。同時,生成的連接圖坐標需要在空間中與片段相對齊。
圖1
2.1 消息傳播 作者設計一種混合特征的消息傳播方式(Mixed-Features Message Passing, MF-MP),在每次的消息傳播過程中,該方法將不變特征(即分子圖的特征嵌入)和等變特征(即分子圖的坐標嵌入)進行混合,使其各自的不變性與等變性質得以保存,同時在更新過程中兩種特征相互促進。 首先,借助VN-MLP等變神經網絡,將不變特征 與等變特征 進行變換,進而混合形成新的中間特征。而后,應用點卷積方法對混合特征進行線性變換。 表示相對位移, 表示相應的核函數,用于將節點的標量距離轉換為多維輸出向量,從而使消息具有幾何感知。最終,對不變特征 采用門控單元,對等變特征 采用等變神經網絡來更新節點上的具體消息。
消息獲取
消息更新
2.2 編碼器
基于上述MF-MP消息傳播過程,不變特征 與等變特征 進行充分的信息交互。此處,根據最后一次消息傳播的結果,生成兩種隱層特征的正態分布描述參數。
2.3 解碼器
解碼器的目的是根據分子片段的不變與等變特征,以順序方式逐步構造完整的目標連接圖過程。具體如下圖,首先預測兩個分子片段上的錨點信息,以此作為連接器的拼接位置。其次,預測連接器中所有原子的類型。而后,預測連接器中原子之間的邊以及相應的3D坐標信息。該過程中以不變與等變特征形式進行連接器的特征描述,進而保證連接器的理論有效性。
圖2
連接器的順序預測過程如下圖:選取目標點,并對其進行鄰居的預測(此處以片段的錨點作為預測的起始位點);在目標點與預測點(包括人工定義的終止位點)之間進行邊信息采樣;若本輪未選中終止節點,則對預測點進行坐標信息的生成,并重復執行預測點過程;若選中終止節點,則更新當前所有節點坐標,并重新選擇目標點,執行預測過程,直至連接器中所有節點均被以目標點形式選擇過。
圖3
作者選擇ZINC數據集作為分子結構來源,從中提取有效的分子片段與連接器信息,并使用RDKit來生成分子的真實三維坐標信息。實驗結果表明,3DLinker模型在預測的有效性,恢復率(即描述生成分子與真實分子的恢復比例),2D屬性通過率(即合成可及性、環芳香性和泛分析干擾化合物屬性),RMSD(即生成分子與真實分子在結構坐標上的差異)指標上,均表現出優秀的性能。
同時,作者隨機選取分子片段的連接過程,并可視化與真實分子相似性最高的五種連接器推斷,可以發現3DLinker相較于基準DeLinker+ ConfVAE模型,在預測的指標和實際效果上均有較高的優勢。
圖4
更多實驗結果請參考原文。
針對分子片段的連接問題,作者基于條件變分自編碼器,并結合分子的不變特征與等變特征,將分子圖的生成與分子三維信息的表征進行整合,從而有效地預測連接器的錨點與邊的具體連接狀態。該模型在連接器的預測上表現出良好的性能優勢,并能夠準確獲得連接器的有效坐標信息。