亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

編譯 | 董靖鑫 審稿 | 程玉今天給大家介紹的是IBM研究團隊發表在arxiv上的一項有關分子生成的研究。作者提出一種可以編碼3D蛋白質-配體接觸的圖生成模型,該模型利用條件VAE從而可以預測在靶標結合口袋內的分子相互作用,從而實現特定活性的分子生成。實驗結果表明,與基于配體2D生成方法相比,該方法生成的分子與多巴胺D2受體的結合口袋更契合。該研究展現了蛋白靶標的結構信息如何增強分子生成。

1 介紹 小分子生成模型基于一系列深度學習架構設計的,其通常是要生成具有所需物化性質的分子,以增強化學家的創造力,并擴展傳統數據方法或物理方法的規模。大部分模型使用SMILES作為主要的分子表示,因為這樣可以從自然語言處理(NLP)技術中借鑒成功的經驗,但1維字符串遠不能提供小分子的物理直觀表示。在現實中,小分子是由存在于三維構象空間中的原子間連接的復雜網絡構成。雖然復雜的基于文本的深度學習架構,如Transformer,有時可以從簡單的字符串中學習空間關系,但編碼分子結合和三維性質表示的架構提供了一種更自然的方法來捕捉深度學習中的化學和物理信息。最近的一些圍繞著小分子的二維圖表示展開的研究也取得了進步。然而,配體結合最好的理解是在三維受體結構和蛋白配體結合位點內分子間接觸的背景下。最近的一些生成工作已經融入了來自靶標結合位點的信息(基因組或蛋白質序列)以及更具體結構數據(3D體素,空間形狀或分子碎片表示)。

2 模型 本文的模型將三維蛋白質-配體復合物顯式編碼為分子圖,擴展成一個關系圖結構,而不同于以前僅配體的圖生成模型(圖1A)。以分子和接觸圖為輸入,該模型建立在一個由圖卷積編碼器RNN輔助圖解碼器組成的**條件變分自編碼器架構(cVAE)**上。

通過優化三個目標函數來訓練模型: (1)配體分子圖和蛋白質接觸圖的重建損失, (2)高斯先驗和編碼后驗之間的正則化KL散度, (3)捕獲生成的蛋白質-配體相互作用的精確度的JS散度。

圖1 gen3D模型架構。A.3D蛋白-配體相互作用網絡;B.基于種子和隨機采樣生成的預測蛋白質-配體相互作用(虛線)的分子示例。

為了確定該3D方法的優勢,作者在一個共同的靶標(多巴胺D2受體)、共同的訓練集和測試集上訓練gen3D(本工作)和gen2D,并盡可能在一個共同的圖cVAE架構上訓練。

圖2 gen2D模型架構。 (//doi.org/10.1021/acs.jcim.1c01545)

3 實驗 3.1 實驗設置

生成策略 (1)隨機生成,通過在潛在空間直接隨機抽樣;(2)基于種子的生成,通過在編碼種子的潛在空間鄰域隨機抽樣。

對接 對gen3D和gen2D按照上述兩種生成策略生成的分子進行了大規模的對接模擬,當存在立體中心時,枚舉所有可能的對映體。

3.2 對接結果

圖3 來自種子和隨機抽樣的gen3D和gen2D分子的對接分數,包括前3位的平均對接分數(左)和活性條件和非活性條件分子的平均差異(右)。

基于種子的采樣策略在gen3D產生的top位對接得分比gen2D平均低近一個整體能量單位(~0.8千卡/摩爾),第二位和第三位保持相同的趨勢(圖3)。活性條件下也產生了gen3D比gen2D對接更一致的結果。**實驗表明,用3D蛋白質接觸訓練提高了生成的分子和預期靶標口袋之間的互補性,**這是通過對接分數衡量的。

隨機抽樣策略在gen3D和gen2D之間產生了統計上差不多的對接分數,無論是絕對的,還是活性和非活性條件分子之間。這種在隨機抽樣情況下缺乏三維優勢可能是由于三維潛在空間的復雜性增加,需要更高的維數來編碼蛋白質-配體接觸。

3.3 立體化學性評估

圖4 從gen3D和gen2D生成的分子的立體異構中心計數分布。

圖5 由Gen3D模型生成的選定分子的對接結合方式。生成的分子以經典元素顏色顯示,生成預測的接觸殘基以綠色顯示。

gen3D模型在立體化學方面也產生了更理想的結果。gen3D在生成策略和活性條件下產生與參考種子和訓練集更一致的立體中心計數;相比之下,gen2D方法傾向于更高的立體中心計數,使合成和構象選擇復雜化(圖4)。有趣的是,gen3D方法可以隱式學習匹配參考數據中的立體中心計數,并表明通過訓練蛋白質-配體復合物施加的約束限制了生成的分子的構型多樣性,使其形狀與靶標的結合口袋互補,從而提高對接分數(圖3和圖5)。

3.4 蛋白質配體接觸與對接結合位置的匹配度評估

圖6 對接結合位置接觸的匹配率。

超過90%的基于種子采樣生成的分子和85%的隨機抽樣生成的分子的最佳結合位置能與至少50%的預測接觸匹配。因此,由gen3D預測的幾乎所有結合模式都能以合理的匹配率由對接程序進行采樣。作者還發現對接分數和接觸匹配率有著負相關的關系。gen3D模型可以成功地學習生成的配體對特定結合口袋的適應性,這是通過對接模擬獲得。

4 總結 本文的方法預測了生成分子的假定結合模式,捕捉了配體結合位點的結構信息。實驗結果表明,訓練生成模型明確的三維蛋白質配體復合物可以使得小分子與靶標的結合口袋更契合。這些3D生成方法已經開始了解蛋白質-配體結合的底層物理原理,這是加速基于結構的分子設計藥物發現的重要步驟。

參考資料 Kang S, Weber J K, Morrone J A, et al. In-Pocket 3D Graphs Enhance Ligand-Target Compatibility in Generative Small-Molecule Creation[J].

付費5元查看完整內容

相關內容

醫學領域的人工智能是使用機器學習模型搜索醫療數據,發現洞察,從而幫助改善健康狀況和患者體驗。 得益于近年來計算機科學和信息技術的發展,人工智能 (AI) 正迅速成為現代醫學中不可或缺的一部分。 由人工智能支持的人工智能算法和其他應用程序正在為臨床和研究領域的醫學專業人員提供支持。

機器學習方法已經廣泛應用于藥物發現領域,使得更強大和高效的模型成為可能。在深度模型出現之前,建模分子在很大程度上是由專家知識驅動的;為了表現分子結構的復雜性,這些手工設計的規則被證明是不夠的。深度學習模型是強大的,因為它們可以學習問題的重要統計特征——但只有正確的歸納偏差。我們在兩個分子問題的背景下解決這個重要的問題:表征和生成。深度學習的典型成功在于它能夠將輸入域映射到有意義的表示空間。這對于分子問題尤其尖銳,分子之間的“正確”關系微妙而復雜。本論文的第一部分將重點討論分子表征,特別是性質和反應預測。在這里,我們探索了一種用于分子表示的Transformer式架構,提供了將這些模型應用于圖形結構對象的新工具。拋開傳統的圖神經網絡范式,我們展示了分子表示原型網絡的有效性,它允許我們對分子的學習性質原型進行推理。最后,我們在改進反應預測的背景下研究分子表示。本論文的第二部分將集中在分子生成,這是至關重要的藥物發現作為一種手段,提出有前途的藥物候選人。我們開發了一種新的多性質分子生成方法,通過首先學習分子片段的分布詞匯。然后,利用這個詞匯,我們調查了化學空間的有效探索方法。

//dspace.mit.edu/handle/1721.1/143362

機器學習已經迅速改變了藥物發現的傳統渠道,為過程的每一步提供了新的工具。許多傳統上需要廣泛、專業領域知識的問題已經通過深度學習工具解決,使它們更高效、更廉價。先前的化學信息學方法使用許多手工設計的規則來建模小分子。這些技術被用于解決諸如性質預測之類的問題,其中的任務是預測分子的性質。然而,試圖解決這些表示問題的傳統方法由于其不靈活的特性而缺乏良好的泛化能力。深度學習模型的變革性方面在于模型直接從數據中學習和提取重要特征的能力。然而,這只有在正確的結構偏差和模型基礎上的建模假設下才可能實現。在分子問題上天真地應用深度方法會限制模型的能力或有用性,阻礙它們的推廣能力和在實踐中的有用性。因此,利用正確的歸納偏差的重要性不能被低估。

在深度學習方法出現之前,分子建模需要繁重的工程和固定的表示,通常被稱為定量構效關系(QSAR)方法。在這些方法中,指紋技術是非常受歡迎的,大致可以分為基于結構的[30]、拓撲[1]、循環[8]和藥效團指紋等幾種類型[91]。其中一些指紋(如基于結構的MACCS[30]指紋)是高度特定的表示,由一組固定的預定義結構的指示函數組成。其他的指紋,拓撲的和圓形的,其中包括摩根指紋更靈活。這些指紋通過枚舉路徑或環形鄰域來捕獲局部拓撲。然而,問題仍然存在于生成方法的確定性本質中:如果這些預定義規則沒有為任務捕獲正確的表示,它們將不能很好地工作。例如,對于許多小分子問題來說,性質懸崖(property cliff)仍然是一個具有挑戰性的問題,這是一種類似分子表現出不同性質的現象。這個問題對于分子指紋尤其尖銳,因為特征是固定的。然而,使用深度模型也不能解決這個問題,因為深度模型很容易與數據過度擬合,并且提供較差的泛化。

因此,我們的深度學習模型納入正確類型的結構偏差是至關重要的。圖神經網絡通過迭代聚合方案進行操作,在每一步,節點從其鄰居聚合信息。依次,一個節點應該包含越來越多的關于更大的鄰域的信息。節點表示最終聚合為表示圖的單個向量。雖然這種簡單的范式有時是有效的,但可能并不總是包含正確的分子任務類型的偏見。例如,當考慮分子的特性時,這種局部鄰域聚集可能無法捕捉到很重要的遠程依賴關系。更重要的是,也許在二維分子圖上的聚集并不適合理想的分子表示,我們應該觀察三維結構。對于分子的深度模型的發展有許多考慮,但它們需要正確的結構才能有效。指紋表示很簡單,但不靈活,經常涉及很多人類設計的規則。另一方面,深度模型很容易過擬合,無法捕捉正確的結構表示。

付費5元查看完整內容

本文介紹一篇來自浙江大學侯廷軍教授課題組、中南大學曹東升教授課題組、華東理工大學李洪林教授課題組聯合發表的論文。該論文提出了一種能夠在分子生成過程中考慮到蛋白-配體相互作用的深度學習生成模型RELATION,該模型適用于基于靶標結構的全新藥物設計。RELATION模型同時使用百萬量級的分子庫以及蛋白-配體集合數據對變分自編碼器進行訓練,在引入雙向遷移學習后,隱藏層的采樣能夠同時兼顧生成分子的骨架片段的新穎性以及對靶標蛋白的親和性。RELATION模型還提供了藥效團約束生成以及貝葉斯優化(BO)采樣等模塊,可供用戶定制化生成藥效團匹配度更高以及對靶標的對接打分表現更好的分子。

1 研究背景 先導化合物的發現與優化在新藥研發過程中至關重要,高質量的先導化合物能夠大大縮短藥物探索的時間,提高成藥的可能性。在先導化合物的設計過程中,要充分考慮候選分子的結構新穎性、生物活性、靶標選擇性、化學可合成性、成藥性和安全性等,這些性質直接影響藥物開發的成敗,因此先導化合物的發現一直是創新藥物研發的主要瓶頸。隨著計算機硬件、軟件和算法的飛速發展,高通量篩選虛擬篩選和藥物從頭設計等計算機輔助藥物設計技術開始取代傳統方法,并大大縮短了先導物發現的時間和成本。

全新藥物設計與虛擬篩選技術不同,不依賴已有的化學數據庫,可以通過不同的生成算法對類藥空間進行更加深入的探索和發掘。傳統的全新藥物設計方法通常將遺傳算法結合到藥物從頭設計中,嘗試通過進化策略來優化生成的化合物結構。然而,傳統的藥物從頭設計方法無法兼顧生成分子的新穎性與理想屬性。深度學習(Deep learning, DL)的引入為全新藥物設計注入了新的活力。作為近期發展最快的人工智能技術,DL能夠更高效地處理數據,對化合物屬性深度特征的提取能力更強。鑒于深度學習對分子屬性的深度特征出色的提取能力,目前已經有近百種基于深度學習的框架的全新藥物設計模型被開發出來,旨在解決傳統方法中生成分子的新穎性與理想屬性之間的沖突。這些方法大致可以被分為四類:編碼-解碼器(Encoder-Decoder,Enc-Dec)、循環神經網絡(Recurrent Neural Network, RNN)、生成對抗網絡(Generative Adversarial Networks,GAN)和強化學習(Reinforcement Learning,RL)。

目前大部分基于DL的全新藥物設計模型是以配體為中心,配體分子被表示為SMILES字符串或2D分子圖。這些基于配體分子的全新藥物設計的模型,在經過訓練后確實能夠生成大量有效且新穎的化合物,但是這些基于配體二維信息的表征會忽略分子在藥物設計任務中一些非常重要的屬性,比如藥物分子的三維立體構象以及與蛋白之間的結合構象。本文介紹的RELATION模型是一個使用了變分自編碼器框架的生成模型,在雙向遷移學習的作用下,模型能夠生成大量結構有效、結構新穎并且對蛋白具有一定親和力的化合物。在藥效團約束和BO采樣的作用下,RELATION將會更加適用于基于靶點結構的全新藥物設計任務。

2 RELATION方法 數據集 RELATION模型的訓練使用了源域和目標域兩種數據集。源域的百萬數量級的小分子化合物來源于ZINC數據庫。目標域則使用AKT1以及CDK2兩個靶點的數據集,407個AKT1抑制劑和1017個CDK2抑制劑搜集于BindingDB和ChEMBL數據庫,然后將兩個靶點的抑制劑對接到靶標蛋白,只保留配體周圍5 ?的原子作為蛋白配體復合物數據集。隨后將源域數據集和目標域數據集放入7.57.57.5 ?3的網格中,并將源域數據集和目標域數據集的質心與立方體框的質心對齊,重原子的位置以1 ?作為分辨率,每個原子由19個物理化學性質描述。最后,源域數據集和目標域數據集中的每個分子都由一個由其坐標特征向量定義的四維張量表示。

模型框架 RELATION框架由兩個部分組成:(1)3D編碼器,使用了3D-CNN的結構,包括私有編碼器和共享編碼器。附帶SMILES標簽的訓練源域數據以及目標域數據轉換成4D張量后,分別作為私有編碼器和共享編碼器的輸入。所有的編碼器具有相同的架構,均具有8層,第一層包含64個過濾器,然后在奇數層上加倍,最后一層學習512個過濾器。每一個偶數層后面都有一個額外的池化層,核數、步長和填充為2,用于執行下采樣。利用ReLU激活函數對3D-CNN模型進行訓練,并使用兩個輸出為512維的全連接層得到μ和σ,對其重參數化后,生成一個的1024維嵌入向量;(2)解碼器,解碼器的結構是caption-LSTM,可以將隱藏層內的高維向量轉化為SMILE分子式,caption-LSTM由三層組成,其詞匯量輸入大小為39,隱藏大小為1024。

圖1 RELATION方法的模型框架

訓練方式

3 RELATION計算結果 RELATION生成分子的屬性 表1中的計算結果顯示,RELATION模型生成的分子的有效性、獨一性、新穎性以及生成的分子的多樣性均優于其他3D生成模型。隨著雙向遷移學習的引入,可以發現雙向遷移學習的RELATION (AAE)和RELATION (VAE)模型的有效度、獨一性以及多樣性均高于其他模型。圖1的結果顯示非遷移學習框架生成的分子的分布與抑制劑完全不同,當使用單向遷移學習框架對模型進行再訓練時,生成的分子分布與現有抑制劑分布的重疊明顯增加。而使用雙向遷移學習RELATION框架后,模型產生的分子的化學空間分布與抑制劑完全重合,表明所生成的分子和現有抑制劑涵蓋了類似的化學空間,并且具有相似的屬性。圖2則展示了不同模型生成的分子與AKT1和CDK2抑制劑的化學空間分布。圖2的結果也與表1中數FCD數據一致。這些結果均表明,RELATION模型生成的分子不僅能夠保證有效性、新穎性以及多樣性,也能夠保證和已有抑制劑的屬性相似性。

圖2 不同模型生成的分子與抑制劑的T-SNE分析

藥效團約束和BO采樣模塊的效果 RELATION模型的藥效團約束是通過CVAE框架實現,將藥效團特征匹配度作為CVAE的特征引入到RELATION的訓練中。不同模型生成分子的藥效團分數分布如圖3所示。對于AKT1和CDK2,基于藥效團的RELATION模型產生的分子比原始RELATION模型產生的分子有更高的藥效團分數。這表明,通過將藥效團特征引入RELATION,生成的分子可以增強與預設藥效團模型間的匹配性。

作者還在RELATION框架中引入了BO的采樣。如圖3所示,在RELATION框架中引入BO采樣后生成的分子的藥效團分數都得到了提高,其中基于對接打分的BO的采樣性能略好于基于QSAR打分的BO。此外,基于對接打分的BO采樣產生分子的對接分數較原始RELATION模型生成分子的對接分數有明顯提高,但基于QSAR打分生成的分子的對接打分變化不大。

圖3 不同模型生成分子的藥效團和對接打分分布

為了進一步研究基于BO采樣的RELATION模型的性能,作者將不同模型生成的有效分子與AKT1抑制劑再次進行了T-SNE分析。如圖4所示,RELATION和RELATIONpha模型不能有效地探索AKT1抑制劑的化學空間(紅圈中標記的點)。隨著通BO-采樣方式的引入,生成的分子在化學空間中的分布比原始RELATION更加分散,說明生成的分子與AKT1抑制劑的化學空間更為相似。此外,根據點的顏色梯度,使用BO采樣的RELATION模型生成的分子比原始RELATION模型生成的分子的對接得分更優。

圖4 RELATION模型使用不同的采樣方式生成分子的化學空間分布

作者在圖5中展示了不同RELATION模型生成的一些分子的示例。如圖5所示,引入BO采樣后,RELATION和RELATIONpha均能生成對接分數較好的分子,但基于BO采樣的RELATION模型生成的分子藥效團匹配分數較高,并產生了更理想的藥效團特征。

圖5 使用RELATION模型的設計AKT1抑制劑實例

4 總結 在AKT1與CDK2的抑制劑全新設計的任務中,RELATION模型既能生成結構新穎且多樣性高的分子,并且能夠保證生成的分子對靶標具有一定的親和性。隨著基于對接打分的BO采樣以及藥效團約束模塊用于RELATION模型,RELATION模型能夠使得生成的分子同時具有更好的藥效團匹配和對接表現。這些結果表明,RELATION模型是一種極具競爭力的深度學習全新藥物設計模型。 參考資料 RELATION: A Deep Generative Model for Structure-based De Novo Drug Design, Journal of Medicinal Chemistry, 2022. //doi.org/10.1021/acs.jmedchem.2c00732

付費5元查看完整內容
北京阿比特科技有限公司