亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

編譯|陳澤慧

審稿|侯琳琳 今天給大家帶來的是洛桑聯邦理工學院(EPFL)聯合微軟研究院Max Welling課題組、牛津、劍橋、康奈爾等團隊于2022年10月發表在arxiv上的預印本《Structure-based Drug Design with Equivariant Diffusion Models》。在本文中作者將基于結構的藥物設計(SBDD)表述為一個3D條件生成問題,并提出了DiffSBDD,一個 E(3)等變的3D條件擴散模型,它關于平移、旋轉、反射和排列等變,并可以根據蛋白質口袋的條件生成新的配體。

簡介

合理設計藥物分子化合物仍然是生物制藥研究中的一個突出挑戰。基于結構的藥物設計(structure-based drug design, SBDD)旨在生成可以與特定的3D蛋白質結構結合的高親和力和特異性的小分子配體。然而,SBDD仍然具有很大的挑戰性和局限性。傳統的SBDD在大規模化學數據庫上進行高通量實驗或虛擬篩選,但這不僅昂貴且耗時。近些年,生物分子的幾何結構建模的快速發展,為基于結構的藥物設計提供了一個有希望的方向。盡管利用深度神經網絡來替代對接模型已成為常態,但基于深度學習的配體與靶標蛋白結合的設計仍然是一個尚未解決的問題。

在這項工作中,作者為基于結構的藥物設計(DiffSBDD)開發了一個等變擴散模型,這是在該方向第一個這樣的模型。具體來說,作者將 SBDD 當作3D 條件生成問題,目的是生成對特定蛋白質靶標具有高結合親和力的多種配體。作者提出了一個 E(3) 等變的3D 條件擴散模型,該模型關于平移、旋轉、反射和排列等變。作者介紹了兩種策略,即以蛋白質為條件的生成和以蛋白質口袋為條件產生新配體的配體修復生成。具體來說,蛋白質的條件生成是將蛋白質視為一個固定的環境,而配體修復模型則對蛋白質-配體復合物的聯合分布進行建模,并在推理過程中修復新配體。同時,作者進一步整理了從binding MOAD導出的實驗確定的結合數據集,該數據集補充了常用的合成Crossdocked數據集,以驗證提出的模型在現實綁定場景下的性能。實驗結果表明,DiffSBDD能夠生成新的、多樣化的、類藥物的配體,并與給定的蛋白質口袋有高結合親和力。

圖1:蛋白質條件下的 DiffSBDD。首先模擬前向擴散過程q,以獲得在T個時間段內漸進式噪聲樣本的軌跡。然后訓練一個模型p_來反轉或去噪這個以目標結構為條件的過程。一旦訓練完成,就能夠從高斯分布中抽取新的候選藥物。原子特征和坐標都在整個過程中擴散。配體 在擴散過程中表示為全連接圖(為清楚起見,未顯示邊緣),并且在生成結束時將共價鍵添加到生成的點云中。蛋白質以圖形式表示,但為了清楚起見,此處顯示為表面。

方法

作者利用一個等變DDPM,結合特定的蛋白質靶標來生成分子并結合構象,并將蛋白質和配體點云表示為由 EGNNs 進一步處理的全連接圖。作者考慮了兩種不同的 3D口袋調節方法:(1)一個條件 DDPM,它在每個去噪步驟中接收一個固定的口袋表示作為背景,以及(2)一個近似配體-口袋對的聯合分布的模型,并在推理時與修復相結合。

pocket-conditioned small molecule generation

在條件分子的生成設置中,作者在去噪過程的每個步驟中都提供固定的三維上下文。為此,作者用上標 P 表示的蛋白質口袋節點來補充,用上標 L 表示的配體節點點云,并且在整個反向擴散過程中保持不變(圖 2)。

作者使用 EGNN 對噪聲預測器 進行參數化。為了使用單個 GNN 處理配體和口袋節點,原子類型和殘基類型首先通過單獨的可學習 MLP 嵌入到一個聯合節點的嵌入空間中,并且將坐標更新步驟確定為以下內容:

以確保三維蛋白質上下文在整個 EGNN 層中保持固定。

等變性 在具有3D條件的概率設置中,作者希望在以下意義上確保E(3)-等變:

對正交組 O(3)(包括旋轉和反射)的等變性是可以實現的,因為作者是用各向同性的高斯來模擬先驗和過渡概率,其中平均矢量在上下文的旋轉中進行等價變換。然而,確保平移等變并不容易,因為過渡概率本質上不是平移等變的。為了規避這個問題,作者遵循以前的工作,將整個采樣過程限制在系統的質心(CoM)為零的線性子空間。在實踐中,這是通過在進行似然計算或去噪步驟之前減去系統的質心來實現的。

joint distribution with inpainting

作為上述條件方法的擴展,作者還提出了一種配體修復方法。修復最初作為一種用于完成圖像被遮蔽部分的技術引入,目前已被應用于多個領域,包括生物分子結構。在這里,作者將這個想法擴展到三維點云數據。

作者首先訓練一個無條件的 DDPM 來近似配體和口袋節點的聯合分布。這使能夠在沒有額外上下文的情況下對新對進行采樣。為了以目標蛋白質袋為條件,需要通過修改概率轉換步驟將上下文注入采樣過程。在擴散步驟t-1, 蛋白質口袋和配體相組合的潛在表示,是從口袋的前向噪聲版本組裝而成的,該版本是與 DDPM 根據步驟t的上一個潛在表示預測的配體節點相結合。

以這種方式,作者以相反的順序從t=T 到t=0遍歷馬爾可夫鏈,在每一步中用它們的前向噪聲對應物替換預測的口袋節點。等式 (12)限制給定蛋白質口袋的生成過程。由于噪聲計劃在t=0時將噪聲過程的方差降低到幾乎為零,因此可以保證最終樣本包含蛋白質口袋的不受干擾的表示。

由于該模型被訓練以近似配體-口袋對的無條件聯合分布,除了將蛋白質和配體節點特征嵌入公共空間的全連接神經網絡外,該訓練過程與 Hoogeboom 等人開發的無條件分子生成過程相同。已知蛋白質口袋的調節完全委托給采樣算法,這意味著這種方法不僅限于配體修復,而且原則上允許在不重新訓練的情況下掩蓋和替換配體口袋系統的任意部分。

等變性 與條件生成一樣,類似的要求也適用于聯合概率模型,作者希望有 E(3)不變性,這可以通過等價流從不變先驗中獲得。與之前的方法相比,主要的復雜問題是缺少參考框架,無法定義有效的平移不變的先驗噪聲分布 ,因為這樣的分布不能整合為一個。因此,有必要將概率模型限制在一個無 CoM 的子空間,如以前的工作中所述。雖然反向擴散過程是為無 CoM 系統定義的,但用等式(11)-(13)中描述的已知口袋的新擴散版本取代預測的口袋節點坐標可能導致非零CoM。為了防止這種情況,作者翻譯已知口袋的表示,使其質心與預測的表示相吻合:

然后創建新的組合表示

圖 2:條件生成和修復方法之間的比較。條件式模型在蛋白質口袋 的固定上下文中學習去噪分子數據。在修復場景中,模型首先學習近似配體和口袋節點的聯合分布。對于采樣,通過在每個去噪步驟中將配體的潛在表示與口袋的前向擴散表示相結合來提供上下文。

實驗

CrossDocked

作者使用 CrossDocked 數據集并遵循與之前工作相同的過濾和拆分策略。這導致訓練集有 100,000個高質量的蛋白質-配體對,測試集有100個蛋白質。使用 MMseqs2通過 30% 的序列同一性完成拆分。

表 1中的實驗結果表明,DiffSBDD 可以生成具有預測的高結合親和力的多種小分子化合物,符合最先進的性能。我們沒有看到條件模型和修復方法之間的顯著差異。多樣性分數可以說是最有趣的,因為這表明與以前的方法相比,作者的模型能夠采樣更多的化學空間,同時保持高結合性能,這是早期基于結構的先導發現中最重要的要求之一。

表1 對來自CrossDocked測試集的目標生成的分子的評價。*表示重新評估了提供的生成配體

給出了兩個靶(2jjg和3kc1)的代表性分子選擇,這組分子的策劃是為了代表實驗中的高得分分子,其中顯示了現實的和非現實的motif。值得注意的是,為3kc1生成的第二個分子在與參考配體相同的口袋位置具有相似的三環基序,而參考配體是通過傳統的 SBDD 方法設計的,以通過環狀系統的形狀互補性最大限度地提高疏水相互作用。然而,即使是生成的分子中得分最高的,也存在一些不規則的現象。例如,針對 2jjg(來自Inpainting-)的分子中的大量三角形和 3kc1 的大環將被證明難以合成。

圖3 在CrossDocked上訓練DiffSBDD模型,并針對氨基轉移酶(top,PDB:2jjg)和水解酶(bottom,PDB:3kc1)進行評估。比較了條件和修復方法(分別使用全原子和級蛋白質表示),并展示了每個模型的三個高親和力分子。’Sim’是生成的配體和參考配體之間的Tanimoto相似度

Binding MOAD

作者評估了在 Binding MOAD中發現的實驗確定的蛋白質-配體復合物的方法,這些復合物根據蛋白質的酶委托編號進行過濾和拆分。這會產生 40,354 個蛋白質-配體對用于訓練和 130 對用于測試。

數據集 Binding MOAD與實驗確定的結合復合物數據的結果如下表所示。在 130個測試口袋中,每個口袋都產生了 100個有效配體,共產生了 13000個分子。DiffSBDD 生成了高度多樣化的分子,但平均對接分數低于該數據集的相應參考配體。

表 2 對來自 Binding MOAD 測試集的目標口袋生成的分子的評估

為代表性靶標生成的分子如圖 4 所示。靶標 (PDB: 6c0b) 是參與微生物感染和可能的腫瘤抑制的人類受體。參考分子是一種有助于受體結合的長脂肪酸,其可旋轉鍵的數量過多,而氫鍵供體/受體的數量較少,因此被認為是合適的藥物(QED 為 0.36)。然而,提出的模型通過添加由少量可旋轉鍵連接的芳香環來生成類似藥物(QED 介于 0.63-0.85 之間)和適當大小的分子,這允許分子采用互補的結合幾何形狀并且在熵上是有利的(通過減少自由度),這是一種經典的藥物化學技術。

圖4 在 Binding MOAD 上訓練的DiffSBDD模型針對人類受體蛋白(PDB:6c0b)進行了評估。比較了條件和修復方法(兩者都是),并給出了每個模型中親和力最高的三個分子。

結論

在這項工作中,作者提出了 DiffSBDD,一種基于結構的用于藥物設計的 E(3)-等變3D 條件擴散模型。作者在合成基準和實驗確定的蛋白質-配體復合物的新數據集上證明了 DiffSBDD 在生成新的且多樣化的配體方面的有效性,這些配體對給定的蛋白質口袋具有預測的高親和力。作者證明,在廣泛的分子指標上,基于修復的方法可以取得與直接調節相競爭的結果。因此,將這種更通用的策略擴展到全原子口袋表示,有望完成各種其他基于結構的藥物設計任務,例如先導優化或接頭設計,以及無需重新訓練的結合位點設計。

參考資料 Schneuing A, Du Y, Harris C, et al. Structure-based Drug Design with Equivariant Diffusion Models[J]. arXiv preprint arXiv:2210.13695, 2022.

代碼鏈接: //github.com/arneschneuing/DiffSBDD

付費5元查看完整內容

相關內容

醫學領域的人工智能是使用機器學習模型搜索醫療數據,發現洞察,從而幫助改善健康狀況和患者體驗。 得益于近年來計算機科學和信息技術的發展,人工智能 (AI) 正迅速成為現代醫學中不可或缺的一部分。 由人工智能支持的人工智能算法和其他應用程序正在為臨床和研究領域的醫學專業人員提供支持。

本文將給大家介紹一篇由Emiel Hoogeboom等人發表在 Proceedings of the 39th International Conference on Machine Learning的《Equivariant Diffusion for Molecule Generation in 3D》,在本工作中,引入了E(3)等變擴散模型(EDMs)。EDM學習針對坐標和原子類型上的擴散過程的去噪過程。這是第一個直接在三維空間中產生分子的擴散模型。本文的方法不需要特定的原子排序(與自回歸模型相比),并且可以比歸一化流更有效地進行訓練。

摘要文章引入了一個與歐幾里得變換等變的三維分子生成的擴散模型。E(3)等變擴散模型(EDM)學習了用一個等變網絡來去噪一個擴散過程,該網絡在連續特征(原子坐標)和分類特征(原子類型)上共同操作。此外,文章提供了一個概率分析,允許可能性計算的分子使用文章提出的模型。實驗結果表明,該方法在生成樣本的質量和訓練時的效率方面都顯著優于以往的三維分子生成方法。 1.研究背景現代深度學習方法正開始對分子科學產生重要影響。在Alphafold在蛋白質折疊預測方面的成功后,越來越多的文章運用深度學習模型來分析或合成分子。分子存在于物理的三維空間中,因此它們受到幾何對稱性的影響,如平移、旋轉和可能的反射。這些對稱性被稱為在三維空間中的歐幾里得群,即E(3)。在分子數據中利用這些對稱性對于良好的泛化很重要,并且已經得到了廣泛的研究。雖然運用為分類任務,E(n)等變層也可以用于三維分子生成。特別是,它們已經被整合到自回歸模型中,這些模型人為地計算了原子的順序,并且已知在采樣過程中難以縮放。另外,連續時間歸一化流,如E-NF,對于訓練是昂貴的,因為它們必須積分一個微分方程,導致有限的性能和可伸縮性。文章引入了E(3)等變擴散模型(EDMs)。在QM9數據集上訓練時,EDM產生的穩定分子是E-NF的16倍,而需要一半的訓練時間。這種有利的縮放行為允許EDM在更大的類藥物數據集上進行訓練,如 GEOM-Drugs數據集。文章的貢獻可以總結如下。引入了一種作用于原子坐標和分類特征的等變去噪擴散模型;添加了一個概率分析,它允許可能性計算,這種分析對連續和分類特征是一致的;證明了文章的方法在對數似然性和分子穩定性方面優于以前的分子生成模型。 2.模型

圖1.等變擴散模型的概述EDM利用了最近較火的擴散模型來生成分子,過程如圖1所示。擴散模型定義一個擴散步驟的馬爾可夫鏈,逐漸向數據添加隨機噪聲,然后學習逆擴散過程,從噪聲中構建所需的數據樣本。即模型分為兩個過程:擴散過程和去噪過程。

圖2.EDM模型訓練過程的偽代碼針對分子生成,模型訓練過程如圖2所示。具體過程如下:**步驟1:**定義一個參數T,含義是分子擴散的步數。分子的擴散過程被定義為一個馬爾可夫過程,t+1時刻的分子只與t時刻的分子有關,從高斯分布中采用噪聲,增加到在t時刻分子上,生成t+1時刻的分子。每一時刻的高斯分布參數是提前生成的,是不可訓練參數。**步驟2:**針對一個batch的分子,首先從均勻分布U(0,T)采樣batchsize個時刻t,t與分子一一對應。步驟3:針對分子坐標x和分子特征h從標準正態分布中隨機采樣噪聲ε。分子坐標的噪聲需要減去重心。不同的特征噪聲需要乘不同的尺度因子σ。利用步驟1生成的對應時刻的高斯分布參數和重參數技巧將噪聲加在原分子特征上形成新的分子,就是該分子在t時刻的擴散后的樣本。**步驟4:**將擴散后的樣本和時刻t作為E(n)等變圖神經網絡(EGNNs)的輸入,用該網絡預測增加的噪聲。**步驟5:**將步驟3采樣的真實噪聲和步驟4預測的噪聲求損失。用來預測噪聲的EGNNs網絡是一個等變網絡,等變網絡可以將一個不變分布映射到另一個不變分布。所以要求輸入的特征是E(3)不變的,即隨著分子的平移、旋轉等變化,分子特征的值不變。分子的電荷數(整數標量)、原子類型(one-hot feature)特征本身就是不變的,為了保證分子坐標(實數向量)不變,這里采用的方法是分子坐標減去重心。這樣保證了分子的E(3)等變性。EGNNs網絡的每一層架構如圖3所示,其中的每一個網絡的構成如圖4所示。

圖3.EGNNs網絡的層架構

** ****圖4.EGNNs中每個網絡的具體組成**模型利用的分子特征有電荷數(整數標量)、原子類型(one-hot feature)、分子坐標(實數向量)。由于不同的分子特征形式不同,無法通過對所有特征加相同的高斯噪聲來訓練模型。對此,文章設計了針對不同特征的加噪方法和損失,并且調整輸入特征的尺度來使訓練更加穩定。文章將EDM模型的輸入定義為[x,0.25h(one-hot feature),0.1h(atom charge)]顯著提高了性能。

圖5.分子采樣過程的偽代碼分子的采樣過程如圖5所示,具體過程如下:步驟1:從標準高斯分布中采樣分子特征,構成T時刻的分子。步驟2:在每一時刻中,將該時刻的分子輸入到訓練好的EGNNs模型中預測該時刻的噪聲,代入公式,計算下一時刻的分子,直到時刻t=1得到生成的分子。為了適應不同大小的不同分子,計算了訓練集上分子大小的分類分布P(M)。為了從模型P(x,h,M)中采樣,首先從P(M)中采樣原子數目M,然后利用EDM從P(x,h|M)中采樣x,h。 3.實驗結果

**1.實驗一:分子生成—QM9****數據:**QM9是一個標準數據集,包含130k個小分子,最多9個重原子(29個原子,包括氫)的分子性質和原子坐標。評價標準:使用原子對和原子類型之間的距離來預測鍵類型(單鍵、雙鍵、三重鍵或無鍵)。測量原子的穩定性(具有正確價的原子的比例)和分子的穩定性(生成的所有原子都是穩定的分子的比例)。實驗一訓練EDM無條件地生成具有三維坐標、原子類型(H、C、N、O、F)和整數原子電荷的分子,實驗結果如表1所示。同時計算了生成分子的有效性和獨特性,如表2所示。表1 .實驗一的實驗結果

表2.利用QM9數據集生成分子的有效性和獨特性

從表1可得出結論:EDM的負對數似然性遠低于其他模型,這表明它能夠在模型分布中產生更尖銳的峰值;利用EDM在數據集QM9上生成的分子的穩定性和原子穩定性比其他baseline高,效果好。表2表明EDM能夠產生非常高的有效和獨特的分子。一種可能的解釋是,等變擴散模型可以有效地學習非常精確的分布,這可以從低負對數似然中得到證明。 2.實驗二:條件分子生成—QM9實驗二生成針對一些所需特性的分子。數據與實驗一的數據一樣。實驗結果如表3所示,圖6是在不同的α值下生成的分子。 表3 .實驗二的實驗結果

圖6 .不同α下的分子生成樣例從表3可見EDM在每一性質下效果都比Naive(U-bound)和Atoms好,但是與QM9還有一定的差距以及可以優化的空間。 3.實驗三:分子生成—GEOM-DrugsQM9只有小分子,而GEOM-Drugs是一個更大規模的分子構象數據集。它有43萬個分子,平均有多達181個原子和44.4個原子。對于每個分子,都有許多構象和它們的能量。從這個數據集中,保留了每個分子的30個最低能量構象。這些模型學習了如何生成這些分子的三維位置和原子類型。所有的模型都使用4層,每層有256個特征,并使用批處理大小為64、學習率為10?4的Adam進行訓練。實驗結果如表4所示。關于模型能量捕獲方面,文章繪制了圖7。 表4 實驗三的實驗結果

圖7.DM與非等變對應物的比較從表4得出結論,利用EDM模型在數據集GEOM-Drugs上生成的分子的負對數似然比baseline低,原子穩定性高,效果較好。EDM在所有指標上都優于它的非等變對應物。特別是,從圖7可以看出EDM能夠很好地捕獲能量分布。

付費5元查看完整內容

編譯 | 劉名權 審稿 | 陳睿哲 本文介紹一篇來自于蘇黎世聯邦理工大學的Gisbert Schneider等人的關于幾何深度學習的綜述《Structure-based Drug Design With Geometric Deep Learning》。

基于結構的藥物設計利用大分子的三維幾何信息,如蛋白質或者核酸,來識別合適的配體。幾何深度學習,一個基于神經網絡的新興機器學習概念已經被應用到大分子結構中。作者介紹了幾何深度學習在生物有機化學和藥物化學中的最新應用,突出它在基于結構的藥物發現和設計中的潛力。

介紹

分子表示 大分子結構的表示取決于有關機器學習任務和所選結構。近期文獻中所用到的三種最常見的大分子表示分別是:網格、曲面和圖。這三種表示具有獨特的幾何形狀和對稱性。

3D網格 定義為由三維空間中的體素組成的歐氏數據結構。網格中的每一個體素都有固定的的鄰域幾何特征。即(i)每個體素都有相同的鄰域結構(由鄰居的數量和鄰居間的距離),和(ii)體素具有通過網格的空間維度定義的固定順序。

3D表面 由多邊形(面)組成網格坐標的三維排列(“網格空間”)。這些多邊形可以根據它們的化學特征以及由局部網格的幾何特征進行區分。

3D圖 定義為是由節點(用單個原子)和它們的邊構成的非歐氏數據結構。圖形的非歐氏幾何起源于單個節點具有不同的鄰域結構,即每個節點可以有不同數量的鄰居和不同舉例。節點和邊一般沒有順序。

對稱性 根據分子的輸入表示和目標性質,將對稱性注入到深度學習架構中能更有效的進行學習。和分子系統最相關的三個對稱群分別是:歐式群(Euclidean group,E(3))、特殊歐式群(Special Euclidean group SE(3))、排列群。E(3)和SE(3)都包括3D坐標系統中的旋轉和平移變換,此外,E(3)還包括反射變換。因此,如果一個網絡需要對手性輸入給出不同的結果,需要考慮SE(3)。排列群主要和節點順序對神經網絡性能的影響有關。通常,使用排列不變的池化(求和,取極值)操作。

分子性質預測

主要討論基于大分子(包含配體)結構預測標量的一些方法。比如配體結合能預測或者對接姿勢評分。

基于網格的方法 幾種使用3D網格大分子表示和卷積神經網絡(CNNs)來預測想要性質的方法。KDEEP通過使用3D網格表示蛋白質-配體復合物來預測絕對結合能,其中每一個體素的特征由編碼藥理性質的通道所決定。由于3D-CNN缺少旋轉不變性,通常將輸入進行90°旋轉作為數據增強。3D可控CNNs在傳統的3D-CNN基礎上進行擴展,它能提供SE(3)等變卷積對類網格數據進行處理。SE(3)等變性可以通過可控核的線性組合實現。

基于分子表面的方法 HoloProt,一種用于預測結合能和蛋白質方程的方法,它通過結合基于序列、表面、結構的圖表示,在不同長度規模上進行編碼。表面級別的圖利用三角化的蛋白質表面上的節點,這些節點富含物化和幾何信息,但是結構級別的圖則利用氨基酸殘基節點捕獲3D結構。最后,使用多級消息傳遞網絡對兩種表征進行聚合并結合配體圖輸出最終想要的物理量(用于結合能預測)。

基于3D圖的方法 各種方法使用3D圖捕捉大分子的結構并且將它和配體信息結合,要么使用額外的配體編碼要么直接對大分子-配體復合物進行處理。通過使用3D圖而不是直接對笛卡爾坐標進行操作,這些方法通常關于輸入結構的旋轉平移操作不變。

有不同的方法建立3D圖。他們要么使用節點距離的編碼作為邊特征,要么使用不同的邊類型(例如,分子類和分子間的邊應當不同),要么如果兩個節點之間的距離小于小于某個閾值作為一條邊。這些方法并不相互排斥,可以任意組合使用。

直接使用節點間距離作為邊的一個例子是,SIGN通過迭代的使用帶有角度或者距離考量的相互作用層來預測分子結合能,從而在消息傳遞階段加入空間朝向知識。

通過結合直接距離編碼和不同的邊特征,PIGNet旨在于預測結合能。為了達這個目的,PIGNet使用門-增強的圖注意力網絡建模含有物理信息的成對的相互作用過程。

使用不同的邊類型方法包括PotentiakNet和InteractionGraphNet用于結合能預測,區別在于使用共價和非共價,分子內和分子間的圖卷積。另一種方法是使用無監督的自編碼器生成具有代表性的結合口袋表征,隨后使用基于歐幾里得距離cutoff的蛋白質級別的圖卷積對蛋白質-配體對進行分類。

區別于直接使用蛋白質結構的3D圖最近提出的一種方法“蛋白質-配體相互作用圖(PLIGs)”直接將蛋白質環境的信息加入到配體圖的特征中,因而減小了問題規模。

結合位點/界面預測

結合位點預測旨在于預測大分子結構的部分區域,這些區域可以作為小分子、類藥物配體的結合位點或者其它大分子的反應界面。

基于網格的方法 DeepSite是一種早期的方法,它使用常規的3D網格表示蛋白質,其中,每一個體素特征由相鄰原子類型的藥效特性決定。使用滑動的子網格,該網絡輸出每一個子網格可能接近結合位點的概率。Rnet擴展了這種方法來預測RNA和配體的結合位點。

基于分子表面的方法 MaSIF(分子表面相互作用指紋)以及它的可微分版本dMaSIF使用大分子表面表示用于結合位點預測,同樣也可用于分類。基于表面的方式在測地空間中對蛋白質表面上的每一個點進行描述,這樣表面上的兩個點間的距離由分子表面決定,而不是歐式距離。該方法可以分成三個階段,表面首先分解成獨立的塊。每一個塊中的點的特征由幾何和化學性質決定。使用測地線卷積將這些特征轉換為數值向量用于下游任務。以上兩個步驟對于最初的方法來說非常昂貴,但是dMaSIF是端對端可微的并且直接作用于原子類型和坐標。

基于3D圖的方法 作用于分子結構3D圖表示的網絡已經被廣泛地用于結合位點和相互作用界面的預測當中。一個例子是,使用旋轉平移等變的方式利用邊特征(包含距離和角度)讓模型獲得幾何理解,隨后使用空間圖卷積或者圖Transformer預測成對的殘基級別的作用勢。

其它方法 ScanNet使用E(3)不變的幾何深度學習模型通過基于結構的線性高斯核濾波器預測蛋白質-蛋白質和蛋白質-抗體結合位點。

結合姿勢生成/分子對接

對接姿勢生成,即生成兩個大分子之間或者大分子和配體之間的結合構象。

基于圖表示和混合表示的方法 EquiDock使用一種SE(3)等變的消息傳遞網絡,并結合最優傳輸以一種剛體、盲對接的方式來預測兩個蛋白質分子的結合構象。該網絡預測一個旋轉矩陣和平移向量來移動一個蛋白質結構得到結合姿勢,保持另一個蛋白質固定,從而保證最終的構象與兩個參與者的初始朝向和位置無關。EquiBind對該方法進行擴展,通過改變初始結構的鍵角,考慮小分子配體的靈活性。DeepDock為小分子結合姿勢預測構建了一個幾何深度學習模型,其中,結合位點是用多面體網格表示,小分子使用3D圖表示。DiffDock使用基于擴散的生成模型進行分子對接。該方法在兩個階段生成可控數量的結合姿勢:首先,評分模型使用逆擴散過程將隨機初始的配體姿勢通過旋轉、平移、改變鍵角轉換為預測的姿勢。其次,置信模型預測一個二分類標簽表明生成的配體姿勢的均方誤差是否小于閾值,以此來評估結合姿勢的正確率。其中,評分模型使用蛋白質表示是殘基級別的3D圖,置信模型使用的是原子級別的3D圖表示。

從頭設計

分子設計旨在于從頭設計出具有想要的生物和物理性質的分子結構。

化學語言模型 當前,用于分子從頭設計的最成功的深度學習模型是所謂的化學語言模型(CLMs),它們使用基于序列的分子表示(例如SMILES序列)。使用CLMs進行基于配體的從頭設計在生成想要的物化性質的分子中取得重大成功。這樣的基于配體的深度生成模型已經被拓展到可以利用顯式的靶蛋白信息。如下圖所示:

此外,還有人使用基于3D網格的蛋白質結合位點表示作為輸入,用于學習隱空間然后被編碼成序列。

基于圖的方式 現如今,已經有人提出了根據大分子結合位點的3D結構直接生成配體分子潛在的3D結構。結合位點可以使用3D圖進行表示。他們順序的從預先學習到的的分布中采樣出原子,并且已經被證明具有一系列的分子性質。最近提出了一種E(3)等變的擴散模型,它能夠通過對正態分布的點降噪生成分子的3D圖。該過程也被拓展到在結合位點內進行分子的從頭生成,例如DiffSBDD和TargetDiff。DifferLinker為結合口袋中的片段生成合適的連接器。盡管這些基于圖的3D從頭設計模型能構建大部分新型的分子,它們的實際應用仍然需要探索。

未來展望

以前的研究表明,結合物理學的某些方面和模型中的對稱性往往會增加準確性、普遍性和可解釋性。作者進一步期望基于結構的藥物設計的深度學習研究將跟隨制藥行業的趨勢進行發展。

最近的工作表明,許多深度學習架構僅在 PDBbind 數據集上訓練,僅僅只是記住訓練數據而不是學習蛋白質-配體結構之間有意義的映射和結合親和力,導致泛化能力差。該領域的未來工作可能會受益于合適的基準數據集,以及構建此類數據集的指南。

3D 感知模型,例如基于歸一化流的方法,可能會出現在未來生成模型領域最前沿的研究。全面評估在現實世界中的效用藥物設計背景的新模型,最重要的是實驗驗證建議的分子結構。因為并非所有在該領域工作的研究組都會有專業知識、設備來執行所需的實驗測試、和實驗人員的合作將是非常有價值的。 參考資料 //arxiv.org/abs/2210.11250

付費5元查看完整內容

編譯 | 陳睿哲

審稿 | 劉名權 今天給大家介紹的是來洛桑聯邦理工學院、MIT等團隊2022年10月發表在Arxiv上的預印本《Equivariant 3D-Conditional Diffusion Models for Molecular Linker Design》。

1 摘要 基于片段(fragment)的藥物發現已經成為早期藥物開發的一個有效范式。這一領域的一個開放挑戰是設計在interest的斷開分子片段之間的連接(linker),以獲得化學相關的候選藥物分子。在這項工作中,我們提出了一個擴散模型,一個E(3)等變3D條件擴散模型的分子連接設計模型。給定一組不相連的片段,我們的模型將缺失的原子放在中間,并設計了一個包含所有初始片段的分子。與以前只能連接分子片段對的方法不同,我們的方法可以連接任意數量的片段。此外,該模型還會自動確定連接器中的原子數及其連接點指向輸入片段。我們證明了擴散連接模型在生成更多樣化和綜合可獲得的分子的標準數據集上優于其他方法。此外,我們在現實應用中實驗測試了我們的方法,表明它可以成功地生成基于目標蛋白口袋條件的有效連接。

2 簡介 據估計,藥物的分子空間將超過10的60次方個結構,在該空間中搜索對藥物設計提出了重大挑戰。縮小這個空間大小的一個方法是從片段開始,片段是一種較小的分子化合物,通常有不超過20個重(非氫)原子。這種策略被稱為基于片段的藥物設計。給定一個蛋白質口袋(目標蛋白的一部分,利用合適的特性結合配體),計算確定與口袋相互作用的片段是一種比實驗性高通量篩選方法更便宜、更有效的替代方法。一旦相關片段被識別出來并與目標蛋白對接,就需要將它們結合成一個單一的、連接的分子。在片段連接、合并和生長等各種策略中,前者是首選,因為它可以快速提高目標和化合物的結合能。這項工作解決了連接的問題。

早期的分子連接設計的計算方法是基于數據庫搜索和物理模擬,這兩種方法都是計算密集型的。現有的方法要么基于語法模式識別,要么基于自回歸模型。前一種方法只使用SMILES,而后者則考慮了輸入片段的三維位置和方向。然而,這些方法對于原子的排列并不是等變的,只能結合成對的片段。

連接的設計依賴于目標蛋白口袋,正確地使用這些信息可以提高整體化合物的親和力。然而,到目前為止,還沒有計算方法的分子連接器設計,考慮到口袋。在這項工作中,我們提出了DiffLinker,一個條件擴散模型,它為一組表示為三維原子點云的輸入片段生成分子連接器。首先,我們的模型生成預期連接的大小,然后從正態分布中采樣初始連接原子的類型和位置。接下來,使用以輸入片段為條件的神經網絡迭代地更新連接原子類型和坐標。最終,去噪的連接原子和輸入片段原子形成一個連接分子,如圖1所示。

DiffLinker具有幾個理想的特性:它關于平移、旋轉、反射和排列等變,它不受輸入片段數量的限制,它不需要關于附著原子的信息,并生成任意大小的連接器。此外,DiffLinker的調節機制允許傳遞關于周圍蛋白質口袋原子的額外信息,這使該模型適用于基于結構的藥物設計應用。

我們的經驗表明,在生成片段對之間的化學相關連接方面比以前的方法更有效。我們的方法在合成可及性和藥物相似性方面取得了最先進的結果,這使其更適合用于藥物設計管道。此外,擴散連接器在生成的連接的多樣性方面顯著優于其他方法。我們進一步提出了一個更具挑戰性的基準測試,并表明我們的方法能夠成功地連接兩個以上的片段,而這是其他方法無法做到的。我們還證明了擴散蛋白可以基于目標蛋白質口袋:我們的模型尊重周圍蛋白質原子施加的幾何約束,并生成與相應口袋有最小沖突的分子。據我們所知,DiffLinker是第一個不受輸入片段數量限制并描述口袋信息的方法。這項工作的總體目標是為從業者提供一個有效的工具,分子連接子生成在現實的藥物設計場景。

3 方法 在本節中,我們將介紹DiffLinker,一種新的E(3)等變擴散模型,用于生成以3D片段為條件的分子連接。我們制定了底層去噪分布的等方差要求,并再提出了一個可學習的動態函數。我們討論了取樣一個連接的大小和調節蛋白質口袋的策略。完整的連接器生成工作流程如圖1所示。

3.1 EQUIVARIANT 3D-CONDITIONAL DIFFUSION MODEL 與其他分子生成的擴散模型不同,我們的方法以三維數據為條件。更具體地說,我們假設每個點云x都有一個相應的上下文u,這是另一個由所有輸入片段和蛋白質口袋原子組成的點云,這些原子在整個擴散和去噪過程中保持不變,如圖1所示。因此,我們考慮公式擴散過程中的生成過程在點云x上操作,同時基于固定的相應上下文。

條件去噪模型的馬爾科夫鏈定義:

函數f的選擇在很大程度上取決于要解決的問題和可用的先驗。在我們的實驗中,我們考慮了兩個情況。首先,我們利用了應該由連接器連接的原子的信息。我們稱這些原子為錨點,并將f (u)定義為錨點的質心。然而,在現實世界中,不太可能知道哪些原子應該是錨點。在這種情況下,我們將f (u)定義為整個環境u的質心。

我們注意到概率模型p與平移并不是等變的。為了克服這一問題,我們構造了附加平移不變的網絡?。然后,我們不再從N (f (u))采樣初始噪聲,而是將數據集中在f (u),從標準正態分布中采樣。

3.2 EQUIVARIANT GRAPH NEURAL NETWORK 建模擴散模型動力學的可學習函數?被實現為一個改進的E(3)等變圖神經網絡(EGNN)。它的輸入是時間t和上下文u的連接z_t的噪聲版本。這兩部分被建模為一個單一的全連通圖,其中節點用坐標r和特征向量h表示。

為了使函數?對平移不變,我們從預測噪聲的坐標分量中減去初始坐標:

EGNN由等變圖卷積層組成,消息傳遞的過程如下:

節點坐標的后一種更新由可學習函數φ_vel計算。我們的圖中包含了一個有噪聲的連接器z_t和一個固定的上下文u,而?的目的是預測應該從z_t的坐標和特征中減去的噪聲。因此,在計算動態時,保持上下文坐標不變是很自然的,并且在每個EGCL步驟中只對連接部分應用非零位移。因此,我們對節點位移的建模如下:

通過構造實現了卷積層的等方差。消息φ_e和節點更新φ_h只依賴于標量節點特征和E(3)不變的節點之間的距離。坐標更新φ_vel另外線性地依賴于坐標向量之間的差值,這使得它們成為E(3)等變的。

由于我們只對與連接相關的部分感興趣,因此我們放棄了上下文節點的坐標和特征,并將元組[z_r,z_h]視為EGNN輸出。

3.3 LINKER SIZE PREDICTION 為了預測一組片段之間缺失的連接的大小,我們將片段表示為一個全連接圖,使用原子類型的獨熱編碼作為節點特征,節點之間的距離為邊特征。由此,一個單獨訓練的GNN產生了連接大小的概率。我們的假設是,相對的片段的位置和方向以及原子類型包含了所有預測最可能的潛在連接大小的必要信息。當生成一個連接時,我們首先用在訓練數據中看到的連接大小列表上的分類分布上的預測概率對其大小進行采樣,如圖1所示。

3.4 PROTEIN POCKET CONDITIONING 在現實世界中基于片段的藥物設計應用中,經常會發生片段被選擇并連接到目標蛋白口袋中。要提出一種候選藥物分子,這些片段必須被連接起來。當生成連接時,應該考慮到周圍的口袋,并構建一個與蛋白質口袋原子沒有沖突的連接(換句話說,連接和口袋原子的配置應該是現實的),并保持較高的結合強度。為了將口袋條件反射添加到DiffLinker中,我們將一個蛋白質口袋表示為一個原子點云,并將其視為上下文u的一部分。我們還擴展了節點特征,用一個額外的二進制標記來標記屬于蛋白質口袋的原子。最后,由于新的上下文點云包含了更多的原子,我們修改了數據點z_t和傳遞給神經網絡?的上下文u的聯合表示。我們不考慮全連通圖,而是基于4A?的距離截止來分配節點之間的邊,因為它使得到的圖更不密集,并抵消了節點數量的增加帶來的計算負載。

4 實驗結果 在ZINC、CASF和GEOM測試集上的性能指標。前三個指標是為了評估所生成的分子的化學相關性。最后三個指標評估了這些方法的標準生成特性。

ZINC和CASF:雖然我們的模型在更多的應用中具有更大的靈活性和適用性,但在生成的分子的化學相關性方面,它們在標準基準測試的ZINC和CASF方面也優于其他方法。如表1所示,通過DiffLinker取樣的分子更容易合成獲得,并表現出更高的藥物相似性,這對于藥物設計應用尤為重要。此外,我們的模型生成了包含更多環的連接。此外,我們的分子通常具有更高的化學和幾何相似性,如表2中的SCRDKit評分所示。在有效性方面,我們的模型的性能與其他方法相同。兩種自回歸方法在每個生成步驟中都明確地使用了價規則,而我們的模型顯示出能夠從數據中學習這些規則。值得注意的是,對連接的大小進行采樣顯著提高了生成的連接的新穎性和唯一性,而沒有顯著退化最重要的指標。

與最近提出的自回歸模型DeLinker和3DLinker相比,它的主要優勢是在任意數量的片段之間一次性生成整個連接。這克服了DeLinker和3DLinker的局限性,它們一次只能連接兩個片段。雖然這些自回歸模型可以進行調整,以便在生長分子時迭代地連接片段對,但在這種情況下,不能考慮到完整的背景。因此,更有可能產生次優解。為了說明這一差異,我們采用了3DLinker來迭代地連接分子中需要連接兩個以上片段的片段對。如表1所示,3DLinker在幾乎84%的情況下無法構建有效分子,無法恢復任何參考分子,而盡管該數據集中連接器的復雜性更高,但我們的模型達到了94%的有效性,恢復了50%以上的參考分子。此外,由3DLinker生成的分子在連接體中沒有環,QED大大降低,而且更難合成。

為了說明DiffLinker考慮周圍口袋的能力,我們在口袋數據集上訓練了三個模型:它們分別基于全原子口袋表示,基于口袋主干原子和非條件。我們還計算了生成的分子和周圍口袋之間的沖突次數。如果兩個原子之間的距離小于它們的范德華半徑之和,我們就說兩個原子之間會發生沖突。如圖2所示,以全原子口袋表示為條件的模型產生的分子具有幾乎相同數量的沖突(平均每個分子7次沖突)(平均每個分子6次沖突)。根據口袋信息的數量有一個明顯的趨勢:口袋主干原子的模型平均產生14次沖突的分子,而非條件模型平均產生21次沖突的分子。

5 總結 在這項工作中,我們提出了DiffLinker,一個新的E(3)等變3D條件擴散模型的分子連接設計。DiffLinker通過生成一個連接,從一組斷開連接的片段中設計真實的分子,即一個相互連接輸入片段的原子點云。雖然以前的方法只能連接成對的片段,但擴散連接模型可以擴展到任意數量的片段。我們的方法不需要指定片段的附著點,并從片段中預測連接大小的分布。我們表明,所提出的方法在標準基準上優于其他模型,并產生更多的化學相關分子。此外,我們還證明了我們的模型可以以蛋白質口袋為條件,并產生具有最小沖突次數的連接。我們相信,我們的方法將加速潛在候選藥物的開發,并有潛力在基于片段的藥物設計領域得到廣泛應用。 參考資料 //doi.org/10.48550/arXiv.2210.05274

付費5元查看完整內容

關鍵詞**:**靜5青年講座

編者按

2022年10月19日,加拿大蒙特利爾學習算法研究所(Mila-Quebec AI Institute)副教授唐建博士受邀于北京大學前沿計算研究中心做題為“Geometric Deep Learning for Drug Discovery”的報告。報告由計算機學院張銘教授和中心助理教授王鶴博士聯合主持,相關內容通過騰訊會議、Bilibili同步直播,線上數百人觀看。

唐建教授報告現場

講座開始,唐建教授首先介紹了目前藥物研發面臨的挑戰。藥物研發是一個非常漫長且昂貴的過程,開發一款新藥一般要花10年時間和25億美元的資金,這也導致了目前市場上藥價居高不下。具體來說,藥物研發一般需要經歷三個流程,首先確定藥物的靶點,然后設計能夠結合靶點的分子,最后是動物實驗和三期臨床實驗。目前的情況是,設計分子的環節失敗率很高,基本上只有10%的分子能夠進入臨床實驗。

好消息是,近年來,醫療領域已經積累了大量的研究文獻和大規模的數據集,這為訓練高質量的分析和預測藥物分子的 AI 奠定了基礎。這之中有大量的數據以圖的形式存在。例如,對于小分子,其中的原子可以表示為點,原子間相互作用(化學鍵等)可以表示為邊;對于蛋白質,氨基酸殘基可以表示為點,殘基間的相互作用可以表示為邊;對于醫療知識圖譜,點表示醫療領域的各種概念(例如基因、疾病、藥物),邊則刻畫了這些概念之間的聯系(例如什么基因可能導致什么病,什么藥可以治什么病)。

接下來,唐建教授介紹了他和他帶領的研究小組近期的工作。這些工作主要分為三類。第一類是分子和蛋白質的建模,又可以細分為早期的聚焦于圖表示學習的工作和近期在此基礎上引入 3D 結構信息(即幾何深度學習)的工作。第二類是醫療知識圖譜上的學習和推理。第三類是開源的藥物研發的機器學習框架,包括 TorchDrug 和 TorchProtein。

在分子的建模上,一個典型的工作是 GeoDiff,發表于 ICLR 2022 Oral。這是第一個將擴散(diffusion)模型用于生成 3D 分子構象(conformation)的工作。與經典的擴散模型一致,GeoDiff 在前向過程中不斷地添加噪聲,在反向生成時引入可學習的參數。然而幾何結構的數據對模型提出了新的挑戰:旋轉、平移等變性(SE(3)-invariant)。如果我們把輸入的幾何結構在 3D 空間中平移并旋轉一個角度,幾何結構本身并不會發生改變。所以我們不希望模型局限于 3D 空間中坐標的具體數值,而是能對旋轉、平移前后的同一幾何結構學到相同的表示。GeoDiff 一方面要求了前向過程中的噪聲分布旋轉平移不變,另一方面用特殊設計的圖神經網絡確保了反向生成的過程旋轉平移等價,并在數學上給出了模型滿足旋轉、平移等變性的嚴格證明。實驗結果表明 GeoDiff 的效果顯著優于之前的所有模型,在比較大的分子上表現更加突出。值得一提的是,GeoDiff 能夠生成同一分子不同的合法構象,這是 AlphaFold2 做不到的。

在蛋白質的建模中,唐建教授及其團隊同樣引入了幾何結構信息和旋轉、平移等變性,在蛋白質表示的預訓練、蛋白質大分子和藥物小分子的對接(docking)等任務上取得了突破。他們還整理了比較重要的蛋白質表示學習的任務以及相應的數據集和模型,做成基準(benchmark),相關工作將見于 NeurIPS 2022。

在醫療知識圖譜領域,唐建教授及其團隊專攻知識圖譜的表示學習和推理。表示學習的著名工作 RotatE 是第一個可以同時建模知識圖譜中對稱關系、不對稱關系、逆關系和合成關系的模型,2019年發表在 ICLR 至今已經有一千余次的引用。另一項在知識圖譜上結合了深度學習和符號推理的工作 RNNLogic 則是得到了圖靈獎得主 Yoshua Bengio 的認可。

最后,唐建教授簡單介紹了近年來他帶領團隊打造的用于藥物研發的開源機器學習平臺 TorchDrug 和 TorchProtein。平臺上實現了相關領域目前來看最重要的任務及其對應的模型和數據集。平臺的搭建聯合了 IBM、Intel、NVIDIA 等知名公司。有志于探索機器學習在藥物研發領域的應用的同學不妨可以關注。

付費5元查看完整內容
北京阿比特科技有限公司