亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在藥物研發過程中,從先導化合物的發現到臨床候選藥物之間存在著巨大的鴻溝,前者往往只需要具有良好的靶點結合活性及可改造的結構片段,但后者還需要對其藥代動力學性質等提出更高的要求。因此,先導化合物優化(Lead optimization)歸根結底是一類多參數優化的問題。在現實世界的先導化合物優化研究中,人們關注的更多還是提高小分子在靶點和細胞水平上的親合力,這一導向往往會使得改造后的化合物親脂性相對較高,與其他成藥性質存在一定的沖突。另一方面,為了實現不同層面上多種分子性質的理想平衡,需要對先導化合物進行反復地改造和優化,從潛在的化學空間中找出滿足多方面需求的結構。然而,在項目早期缺乏構效關系與結構數據的情況下,即使是資深的藥物化學家也難以從無比廣闊的化學空間中設計出值得優先進行測試的分子。 薛定諤公司的Sathesh Bhat等人發展了一種從頭設計算法AutoDesigner,通過模仿藥物化學家的先導化合物優化思路,廣泛地探索符合良好藥動性質條件的化學空間,最終設計出新穎、類藥且具有理想活性的化合物,并將其成功應用在D-氨基酸氧化酶(DAO)抑制劑的設計項目當中,大大加速了先導化合物優化的過程。這項工作最近發表在美國化學會出版的計算化學和化學信息學核心期刊Journal of Chemical Information and Modeling上(J. Chem. Inf. Model. 2022, 62, 1905-1915)【1】。

圖1:AutoDesigner算法的工作流示意圖 從整體上看,AutoDesigner算法的每一輪運行都會經歷三種生成分子以及緊隨其后的過濾篩選階段(如圖1)。其中,分子生成的機制可以具體分為匹配分子對轉換(MMP Transformations)、基于反應的枚舉(PathFinder enumeration)、遞歸結構修剪(Recursive Trimming)以及R基團修飾(R-group Decoration),過濾篩選階段也可以分作中間環節的篩選以及最終給出結果的篩選兩種情況。 匹配分子對轉換這一機制依賴于從PubChem和ChEMBL數據庫中獲取得到的海量匹配分子對,通過將兩個數據庫中的分子按照預定義的規則進行碎片化,再組合到片段間的轉化上,分別能得到約2.91億、0.26億種結構轉換。值得指出的是,在對輸入的配體分子進行轉換之前,會優先進行遞歸結構修剪,從而在一開始將輸入的單個配體轉變成一組結構相似的化合物(如圖2),有效擴大了分子對轉換時的化學空間覆蓋。此外,不論哪種分子生成機制,都不改變預定義的核心結構,如圖2中藍色發光標記的片段。

圖2:對方框中分子進行遞歸結構修剪的結果展示 如果說匹配分子對轉換模仿的是藥物化學家基于原始結構進行的衍生與改造,那么基于反應的枚舉與R基團修飾則更加體現了組合化學的思想,參考藥物化學家在設計目標分子的合成路線時,對各個反應步驟所使用的不同反應物進行組合。AutoDesigner算法采用薛定諤公司此前報道的PathFinder技術,對所給分子進行逆合成分析,并對反應物中所有可以購買的原料進行組合化學枚舉。一般而言,在目標化合物的最后一步合成中,人們會大量改變所使用的試劑或原料,從而向骨架中引入豐富多樣的修飾基團。類似地,AutoDesigner利用精選的R基團數據庫,向所給分子中每一個可改造的位點進行修飾,對于那些經過一輪修飾后還有修飾空間的分子,還會進行第二輪的修飾。通過這兩種分子生成機制,該算法在有效實現分子結構多樣性的同時,兼顧了可合成性。 四種分子生成機制保證AutoDesigner算法能充分地搜索豐富多樣性的化學結構,而有效的過濾篩選機制則是實現多參數優化的重要工具。中間環節的過濾篩選需要在保留有潛力的化合物前提下篩除不需要的化合物,因此設置的篩選條件較少,并能讓那些在后續改造過程中有機會保留下來的分子不被排除,例如不對氫鍵供體的數量設置篩選條件。相對的,最終環節的過濾篩選則盡可能使得條件嚴格,僅允許滿足項目目標化合物性質的分子得以通過。值得注意的是,篩選條件的制訂不拘泥于經典的五倍率,而是由藥物化學家根據項目本身需要進行靈活的調整。此外,兩種不同強度的篩選環節也節約了算法整體所消耗的計算資源。 為了實現對生成分子各項性質的篩選,作者為AutoDesigner算法準備了用于計算親合力與藥代性質的計算工具。前者通過薛定諤公司的FEP+模塊輔以主動學習技術實現加速優化,后者則通過機器學習模型AutoQSAR預測藥代性質。最后,AutoDesigner算法還被部署到云計算平臺上,從而提高對計算資源的調配水平,提高效率。 利用這一先導化合物優化工作流,作者依次運行了三個階段來對DAO抑制劑先導化合物進行優化(圖3),其輸入配體分別為化合物1,5,7。化合物2~4、化合物6及化合物8依次屬于三個階段優化輸出的分子,如圖3所示。結果表明,經過AutoDesigner的優化后,這些分子都能保持較為理想的抑制活性,而其他方面的干濕實驗也表明在眾多理化性質和藥代性質上有所改進,這意味著該算法工作流具有出色的實戰價值,能夠較好達成其預期目標。

圖3:三個階段中AutoDesigner各環節生成的分子數目與起始或代表性DAO抑制劑的結構、活性數據(括號中為預測值) 為了進一步探索DAO結合部位的性質,作者應用AutoDesigner完成了一項先導化合物優化的挑戰任務。在此前的文獻報道中,由于對DAO抑制劑結合口袋的了解不深,因此認為口袋的形狀大小較為狹窄有限,向先導化合物中引入較大的修飾基團時傾向于降低抑制活性。因此作者以化合物7作為這一階段算法運行的輸入,探索DAO抑制劑結合口袋的空間,嘗試向分子中的疏水芳基尾部引入基團來進一步提高抑制活性。

圖4:化合物7、8在靶點口袋中的占據情況比較 從圖3中可以發現,AutoDesigner共生成近2億個分子,但最終僅有156個符合理化、生物活性及藥代等各方面的性質要求,可見這一任務的困難程度。其中,化合物8是這一批優化結果中的代表分子,如圖4所示,其結構中延伸出的氟代苯基進入到了DAO結合口袋深處。這樣的結構改造使其成為該項目中得到的抑制活性最強的分子。從這一實例可以看出,AutoDesigner能夠有效識別出配體與靶點之間的已知構效關系,甚至可以輔助藥物化學家進一步探索未知的構效關系,從而助力先導化合物的優化環節。小 結

這項工作報道的AutoDesigner通過廣度的搜索算法輔以云計算,成功對龐大的化學空間進行了連續多輪的探索和過濾,并且基于項目本身需求配合上藥物化學家經驗指導的過濾條件設置,使得分子改造結果可以滿足多參數優化的需要。這個算法在DAO抑制劑設計的應用實踐中,彰顯了AutoDesigner的實用價值與可靠性,其能夠在缺乏大量過往實驗數據積累的情況下,共生成并篩選了超過10億種化合物,分析出其中的重要相互作用,甚至能夠發現新的構效關系。這意味著AutoDesigner不僅可以為藥物化學家確定化合物合成、測試的優先順序提供參考,還能夠協助人們進一步探索未被發現的結構信息。這項工作表明利用算法模擬傳統藥物化學的研究思路,或能確保計算方法的穩健性與可靠性。與此同時,隨著算力和計算精度的逐步提高,應用于藥物設計與研發的計算工具正逐漸從實驗室模擬向真實世界應用的方向不斷發展。

參考文獻【1】Bos, P. H.; Houang, E. M.; Ranalli, F.; Leffler, A. E.; Boyles, N. A.; Eyrich, V. A.; Luria, Y.; Katz, D.; Tang, H.; Abel, R.; Bhat, S., AutoDesigner, a De Novo Design Algorithm for Rapidly Exploring Large Chemical Space for Lead Optimization: Application to the Design and Synthesis of d-Amino Acid Oxidase Inhibitors. J. Chem. Inf. Model. 2022, 62, 1905?1915. (DOI: 10.1021/acs.jcim.2c00072)

付費5元查看完整內容

相關內容

醫學領域的人工智能是使用機器學習模型搜索醫療數據,發現洞察,從而幫助改善健康狀況和患者體驗。 得益于近年來計算機科學和信息技術的發展,人工智能 (AI) 正迅速成為現代醫學中不可或缺的一部分。 由人工智能支持的人工智能算法和其他應用程序正在為臨床和研究領域的醫學專業人員提供支持。

科學文獻(如期刊文章和專利)一直是藥物化學家尋找特定化學反應或感興趣的合成方法的重要信息來源。目前,基于非結構化文獻中構建結構化數據庫的Reaxys和SciFinder已經成功投入商業化多年。這些數據庫通常是手工提取文獻內容,成本高、耗時長且專業知識密集,已經難以跟上科學文獻的指數增長速度。Regina Barzilay課題組設計了一個統一的結構化語義架構表征化學反應,將兩個深度神經網絡構建的“產物提取模塊”與“反應角色標簽模塊”結合,自動解析期刊文章中的化學反應并提取到與Reaxys和SciFinder數據庫一致的架構中。該數據為藥物化學家提供結構化的反應信息,并可直接用于計算機輔助化學、反應結果預測、反應條件篩選和自動合成設計等方面。該項工作近日發表于美國化學會出版的化學信息學權威期刊Journal of Chemical Information and Modeling【1】。 目前,化學領域的信息提取主要集中在命名實體識別(NER)和相關性質的提取上,如OSCAR和ChemDataExtractor。較少的工作針對化學反應的提取,NER有助于將化合物和文本聯系起來,由此開發了目前兩個代表性工具包ChemicalTagger和OPSIN。OPSIN基于ChemicalTagger的標記和解析輸出一組規則來識別產物。 理想的反應架構應該具有反應原料、結果、反應條件和后處理等足夠的信息來反映該化學反應,且架構簡潔明了。作者引入了一個統一的語義架構表征反應,包含作為中心因素的產物和八個相關的反應角色(反應物、反應類型、催化劑/試劑、加工試劑、溶劑、溫度、時間和產量)。使用ChemDataExtractor工具對從1906年至2016年在多種化學期刊上發表的200,000篇文章中的反應描述段落進行預處理(如句子切割、標記等)。隨后將所有預處理過的段落進行人工注釋工作,最終按照8:1:1的比例將語料庫分為訓練、開發和測試集。產物提取與反應角色標簽標記

基于以上的思路,作者提出的兩階段架構,即產物提取模塊和反應角色標簽模塊來提取反應。產物提取模塊從給定文本中識別所有可能的產物,再對每個產物的上下文中出現的反應角色進行標記,以輸入文本和給定的產物為條件,制定一個序列標簽任務,并最終構成化學反應。 在輸入中添加特殊標記,把目標產物告知Transformer編碼器,計算每個詞塊的隱藏表征,同時將每個單詞的第一個單詞片段作為條件隨機字段(CRF)的輸入用于序列標記的解碼器。使用“BIO”標記方案對所有剩余標記執行序列標記,以識別相關的反應角色。

圖1. 反應角色的提取與反應角色標簽標記

圖2. 反應角色提取的模型架構ChemBERT****和ChemRxnBERT預訓練

作者試圖減少對深度神經模型監督訓練的大量標記數據的依賴,采用pretraining-and-finetuning的范式來訓練產物提取和角色標簽模型。首先使用無監督目標在大規模無標簽文本上預訓練Transformer編碼器,然后在規模有限的特定任務標簽訓練數據上對其進行微調。因此,作者提出一個級聯的自適應預訓練方法,由兩個階段組成:領域自適應預訓練,產生一個針對化學領域的預訓練編碼器(ChemBERT);任務自適應預訓練,產生一個針對任務的預訓練編碼器(ChemRxnBERT)。這兩個產生的編碼器分別用于產物提取和反應角色的標記。 其中ChemRxnBERT的預訓練需要一個更有約束性的化學文本集,與目標任務更加一致。為了解決這個問題,作者使用產物提取模型作為文本檢索器,從整個化學文本空間中自動識別反應相關的數據,即選擇至少包含一個產物的句子。 最終,ChemBERT在F1上比報道過的BERT模型取得了10.27%的絕對改進,而ChemRxnBERT僅收獲2%的改進,原因可能是ChemRxnBERT是通過句子級的屏蔽語言建模來適應ChemBERT,若用更大的語言規模進行預訓練應該能有更優的表現。與Reaxys的比較

最后,將提取后的反應與人工構建的Reaxys數據庫進行了定性比較。例如圖3中的反應,最明顯的是“DMSO”被ChemRxnExtractor系統識別為溶劑,這符合文本描述。但Reaxys將“DMSO”歸為反應物,因為其確實作為硫源參與了這個反應。Reaxys報告的反應產率值是四舍五入的,與此相反,該系統設計為文章中精確數值。 但是,因為該系統提取的內容是基于有限的段落,無法提取前后文中的特定反應角色。如圖3中,Reaxys提供的反應時間、反應過程等信息,均在該系統中缺失。

圖3. ChemRxnExtractor提取與Reaxys中手動抽象的單一反應的簡單反應的比較 該自動化表征系統與額外的光學化學結構識別(OCSR)工具結合起來,進行化學實體的確認。如圖4,Reaxys往往會忽略失敗反應或副反應,該化學文獻系統能夠提取這些數據,給科研工作者提供更多的參考價值。 針對多步驟的反應(第一個反應的產物是第二個反應的原料),傳統的提取方法和該系統均無法處理,因此均未被收錄在Reaxys和該系統中。

圖4. ChemRxnExtractor提取與Reaxys中手動抽取CpFe(CO)2 SiMe3在與不同的反應物偶合時得到不同的結果的比較總結

該工作構建了一個從文獻中提取化學反應的自動化系統,該系統由建立在編碼器-解碼器的架構上的產物提取和反應角色標簽兩個單獨模塊組成,達到與現有人工收集的商業數據庫一樣的效果。該系統通過領域和任務相關的無標簽數據進行自適應訓練,使檢索到的句子與反應數據吻合,并能精確解析文本中復雜的產物-反應角色關系,但受文本內容限制容易出現區分催化劑和試劑的錯誤。未來,隨著反應描述更加公式化和該系統識別性能優化,該方法必將能更高效的提取日益龐大的期刊數據,也能側面啟示現有商業數據庫的功能提升與改進。參考文獻【1】Jiang Guo, A. Santiago Ibanez-Lopez, Hanyu Gao, Victor Quach, Connor W. Coley, Klavs F. Jensen, and Regina Barzilay. Automated Chemical Reaction Extraction from Scientific Literature. J. Chem. Inf. Model. 2022, 62, 9, 2035-2045.

付費5元查看完整內容

今天給大家介紹韓國江原國立大學Umit V.等人在2022年在Nature Communications發表的一篇名為“Retrosynthetic reaction pathway prediction through neural machine translation of atomic environments”的文章[1]。盡管有機化學的知識已經積累了幾十年,但為藥物分子設計有效的合成路線仍然是有機合成中的一項關鍵任務。在這項工作中,作者提出一種新的單步逆合成預測方法:RetroTRAE,即通過學習參與化學反應的原子的環境變化來預測候選反應物。結果顯示,在UPSTO測試數據集上的Top-1準確率為58.3%,在相似化合物較多的情況下,準確率為61.6%,優于其他基于神經機器翻譯的逆合成方法。同時該方法可有效解決基于SMILES方法的不可解釋性以及生成無效字符串等問題研究背景

逆合成設計是有機化學的關鍵問題之一。現有的逆合成方法可分為基于模板的方法和無模板的方法。其中基于模板的逆合成方法不僅需要克服枚舉反應模板而導致的高計算成本,且只能預測模板庫中的反應。而無模板方法可有效避免上述的問題,在預測逆合成時表現出更強的泛化能力。無模板方法可進一步細分為基于圖神經網絡的逆合成預測算法和基于序列的逆合成預測算法。其中,基于序列的逆合成預測算法將反應路線的預測問題看作一項語言翻譯任務來處理,將產物的SMILES轉化為反應物的SMILES。但目前生成的無效SMILES字符串數量較多,可分為兩種類型:(1)語法無效的SMILES字符串;(2)語法有效但語義無效的SMILES。 這項研究通過將反應物的原子環境(Atom Environments, AE)與目標分子相關聯,使用原子環境替代傳統的SMILES進行單步逆合成預測。該方法使我們通過關注與反應中心相關片段來捕捉化學變化。實驗結果表明該算法的性能大大優于現有方法。************模型與方法****************1.模型框架

作者使用原子環境(AE)替代SMILES進行逆合成預測,AE是指以特定原子為中心,不同“半徑”的圓形拓撲鄰域片段,也包含所涵蓋原子之間的所有化學鍵。其中,“特定原子”稱為中心原子,“半徑”指的是中心原子和所有共價鍵原子之間允許的最大拓撲距離。因此半徑為 r 的AE包含分子中與中心原子的拓撲距離為 r 或更小的所有原子,以及它們之間的所有鍵。根據定義,r = 0 的AE只包括中心原子類型的原子,表示為AE0。r = 1的AE包含中心原子、與中心原子相鄰的所有原子,以及中心原子與這些原子之間的所有鍵,表示為AE2。如圖1(b)所示,化合物苯的文本描述是以常見的SMILES、SMARTS模式,和新開發的SELFIES模式,以及代表ECFP指紋的AE。 圖1(a)提供了該模型的整體流程。首先將產物分解為一組AEs。由SMART模式描述的每個AE都與一個特殊的整數值有關。將AEs列表作為模型RetroTRAE的輸入序列,用該模型來預測反應物的AE序列。

圖1 (a):RetroTRAE模型流程圖;(b)苯的字符串表示以SMILES、SELFIES以及SMARTS模式。在AEs渲染中,中心原子以藍色突出,而芳香族和脂肪族環狀原子分別以黃色和灰色突出。通配符[*]被用來代表任何原子******[1]**********************2.分子片段比較

找到一組最準確地代表分子結構的最佳片段是提高逆合成預測性能的關鍵因素。因此作者使用多個不同的分子片段描述在單反應物測試集中進行逆合成預測評估。如表1所示,作者一共選擇了三種分子片段的描述方法進行比較,并分別使用不同的模型框架,性能評價選擇衡量相似度的谷本系數(Tanimoto Coefficient, Tc)。 首先,基于Transformer的逆合成模型,在準確性方面與以前基于BiLSTM的方法相比有很大的改進。其次,在MACCS、ECFP2、ECFP4、AE2、AE0∪AE2幾種不同的分子片段描述方法中,基于AE0∪AE2的分子Transformer模型性能最佳,達到了55.4%的精確匹配精度。增加生物活性相似的預測(Tc ≥ 0.85)后,準確率也相應提高,模型的總體準確率達到68.1%。因此,作者把具有AE0和AE2聯合的Transformer模型命名為RetroTRAE。 表1 在單反應物測試集中使用不同分子片段方案訓練的Transformer模型的性能總結以及與基于BiLSTM的模型的比較******[1]**********

**************結果與討論**************1.RetroTRAE模型性能

與基于SMILES的方法不同,使用AEs的一個優點是解碼不會生成無效或完全不同的分子。模型可解碼生成與真實分子高度相似的AEs預測集,為逆合成預測提供有用的信息。 除了采用精準匹配(Tc = 1.0)方式來評估準確率以外,作者在評估模型性能時又增加了四個不同評價節點,四個節點可以分為兩類:(a)硬閾值;(b)軟閾值。作者將硬閾值定義為單片段(SM)或雙片段(DM)差異。反之,將基于Tanimoto系數的任意閾值稱為軟閾值,如Tc ≥ 0.85,用來篩選具有相似生物活性的分子。作者更強調硬閾值的使用,與軟閾值相比,硬閾值(SM/DM)預測分子與真實分子相比,只有某些子結構、官能團等差異,這些小的差異很容易通過與真實分子的視覺比較,找到與真實反應物不同的片段類型和數量,然后進行改正。 作者使用經過過濾的美國專利反映數據集USPTO-full的子集進行模型的性能評估和比較。忽略數據集中的多組分反應,因為此類反應在整個數據集中所占比例不足1.65%。然后根據反應物的數量,最終確定兩個不同的數據集,分別包括單反應物(R—>P)和雙反應物(R1+R2—>P)類型的反應,大小分別為100 K 和314 K。 此外,作者就使用數據增強、是否使用位置編碼等問題對模型進行更廣泛的訓練。研究表示,使用數據增強、位置編碼以及超參數優化等方法均可提高模型準確率,穩定模型訓練。評估結果匯總在表2中。結果表示,在擴增10倍的單反應物和雙反應物數據集上,RetroTRAE在精確匹配(Tc = 1.0)方面達到了56.4%和60.1%的準確率。同時,作者適當放寬閾值提高模型成功率,當允許單片段突變(SM)時,單反應物和雙反應物的成功率分別增加到58.1%和60.9%。允許雙片段突變(DM)時,相應的預測結果提高為60.5%和62.7%。 表2 RetroTRAE模型預測準確率******[1]**********

2.模型的可解釋性

作者通過觀察注意力權重,以解釋該模型實際上學到了什么。RetroTRAE模型更關注反應中心附近的AEs變化,例如開環反應等,如圖2所示。這充分證明,與SMILES描述符相比,AE描述符是有化學意義的,而且本身是可以完全解釋的。且該模型可與適當的搜索算法(如蒙特卡羅樹搜索)相結合,預測多步逆合成路線。 圖2 解碼注意力可視化及RetroTRAE模型的可解釋性(a)單反應物數據集的開環反應;(b)雙反應物數據集的解離反應******[1]******3.逆合成預測樣例

如圖3所示,作者介紹針對硬閾值產生的三種預測結果,首先是為精確預測(圖3a),RetroTRAE模型在測試集中的精確預測率為58.1%。其次是發生SM和DM的情況(圖3b、圖3c)。據統計,解碼發生SM和DM的數量共占總預測量的3.3%。為了證明硬閾值(SM/DM)設定的可行性,作者隨機選擇了10個SM對和10個DM對,比較單片段和雙片段突變與真實分子之間的相似性。研究表明,20對結構的平均Tc為0.91,RDKit產生的指紋圖譜兩兩相似度為0.97,這些結果表明,硬閾值(SM/DM)所獲得的預測結果是較為可靠的。 在單片段突變(SM)情況下,所有相連的原子類型都要與真實分子相同,因此只可能會發生有兩種類型的結構變化。首先,由于單一原子環境的錯位(例如,在鄰位/間位/對位),可能出現一個新的原子環境(或現有的環境消失)。其次,在化合物末端增加或減少一個現有的AE。雙片段突變(DM)的情況一般發生在錯位的側鏈AE或單原子的替換。

圖3 RetroTRAE模型樣例(a)精準預測(b)單片段突變(c)雙片段突變,顏色表示原子級對總體相似度的貢獻(綠色:相似度得分增加,紅色:相似度得分減少,未著色:無影響)******[1]**********4.與現有模型比較

由于模型沒有預先提供反應類信息,因此作者將該方法與其他不考慮反應類標記的逆合成預測方法進行了比較。結果如表3所示。RetroTRAE模型達到了58.3%的平均top-1準確率,超過了現有的基于NMT的無模板模型。允許SM和DM時,模型準確率提高到61.6%,是目前逆合成模型的最佳水平。表3 無反應類別的逆合成預測模型的top-1準確率比較******[1]**********

5.通過原子環境檢索候選反應物

使用RetroTRAE模型進行預測后,得到的結果是預測反應物的AE的集合,可以通過數據庫搜索來檢索,成功檢索到即證明模型預測的AEs可以完全還原為真實分子或高度相似的分子。作者使用PubChem研究了1000個USPTO測試分子檢索反應物候選的成功率。檢索測試結果顯示,超過一半的預測(55.7%)可以被準確檢索(圖4)。允許SM后,檢索成功率提高了約30%。當允許DM時,所有的測試分子都能被成功檢索到。這證明模型得到的所有結果最多只有兩個AE的差異。以上結果表明,用AEs表示和預測分子是一種可行實用的方法。

圖4 在大型PubChem化合物庫檢索候選反應物****[1]********************總結

作者提出結合Transformer架構和原子環境(AE)表示法,開發了新的無模板逆合成預測模型,即RetroTRAE。實驗證明,與傳統的基于SMILES的逆合成預測模型相比,使用AE作為描述符進行逆合成預測精度提高,且具有可解釋性,同時解決結構指紋在無模板的逆合成方法中的應用問題。該研究結果將為利用序列數據開發化學的NMT模型提供新的可能性,相信這種方法在有機化學中具有廣闊的應用前景。 **參考文獻 **

[1] Ucak UV, Ashyrmamatov I, Ko J, et al. Retrosynthetic reaction pathway prediction through neural machine translation of atomic environments. Nat Commun, 2022. 13(1): p. 1186.


供稿:張紅文

校稿:刁妍妍/張夢婷編輯:毛麗韞華東理工大學/上海市新藥設計重點實驗室/李洪林教授課題組▼招聘博后▼華東理工大學李洪林教授團隊誠聘博士后

Li's Lab地址:上海市梅隴路130號 電話:課題組網站: 長按掃碼可關注

付費5元查看完整內容

本文介紹一篇來自浙江大學侯廷軍教授課題組、中南大學曹東升教授課題組、華東理工大學李洪林教授課題組聯合發表的論文。該論文提出了一種能夠在分子生成過程中考慮到蛋白-配體相互作用的深度學習生成模型RELATION,該模型適用于基于靶標結構的全新藥物設計。RELATION模型同時使用百萬量級的分子庫以及蛋白-配體集合數據對變分自編碼器進行訓練,在引入雙向遷移學習后,隱藏層的采樣能夠同時兼顧生成分子的骨架片段的新穎性以及對靶標蛋白的親和性。RELATION模型還提供了藥效團約束生成以及貝葉斯優化(BO)采樣等模塊,可供用戶定制化生成藥效團匹配度更高以及對靶標的對接打分表現更好的分子。

1 研究背景 先導化合物的發現與優化在新藥研發過程中至關重要,高質量的先導化合物能夠大大縮短藥物探索的時間,提高成藥的可能性。在先導化合物的設計過程中,要充分考慮候選分子的結構新穎性、生物活性、靶標選擇性、化學可合成性、成藥性和安全性等,這些性質直接影響藥物開發的成敗,因此先導化合物的發現一直是創新藥物研發的主要瓶頸。隨著計算機硬件、軟件和算法的飛速發展,高通量篩選虛擬篩選和藥物從頭設計等計算機輔助藥物設計技術開始取代傳統方法,并大大縮短了先導物發現的時間和成本。

全新藥物設計與虛擬篩選技術不同,不依賴已有的化學數據庫,可以通過不同的生成算法對類藥空間進行更加深入的探索和發掘。傳統的全新藥物設計方法通常將遺傳算法結合到藥物從頭設計中,嘗試通過進化策略來優化生成的化合物結構。然而,傳統的藥物從頭設計方法無法兼顧生成分子的新穎性與理想屬性。深度學習(Deep learning, DL)的引入為全新藥物設計注入了新的活力。作為近期發展最快的人工智能技術,DL能夠更高效地處理數據,對化合物屬性深度特征的提取能力更強。鑒于深度學習對分子屬性的深度特征出色的提取能力,目前已經有近百種基于深度學習的框架的全新藥物設計模型被開發出來,旨在解決傳統方法中生成分子的新穎性與理想屬性之間的沖突。這些方法大致可以被分為四類:編碼-解碼器(Encoder-Decoder,Enc-Dec)、循環神經網絡(Recurrent Neural Network, RNN)、生成對抗網絡(Generative Adversarial Networks,GAN)和強化學習(Reinforcement Learning,RL)。

目前大部分基于DL的全新藥物設計模型是以配體為中心,配體分子被表示為SMILES字符串或2D分子圖。這些基于配體分子的全新藥物設計的模型,在經過訓練后確實能夠生成大量有效且新穎的化合物,但是這些基于配體二維信息的表征會忽略分子在藥物設計任務中一些非常重要的屬性,比如藥物分子的三維立體構象以及與蛋白之間的結合構象。本文介紹的RELATION模型是一個使用了變分自編碼器框架的生成模型,在雙向遷移學習的作用下,模型能夠生成大量結構有效、結構新穎并且對蛋白具有一定親和力的化合物。在藥效團約束和BO采樣的作用下,RELATION將會更加適用于基于靶點結構的全新藥物設計任務。

2 RELATION方法 數據集 RELATION模型的訓練使用了源域和目標域兩種數據集。源域的百萬數量級的小分子化合物來源于ZINC數據庫。目標域則使用AKT1以及CDK2兩個靶點的數據集,407個AKT1抑制劑和1017個CDK2抑制劑搜集于BindingDB和ChEMBL數據庫,然后將兩個靶點的抑制劑對接到靶標蛋白,只保留配體周圍5 ?的原子作為蛋白配體復合物數據集。隨后將源域數據集和目標域數據集放入7.57.57.5 ?3的網格中,并將源域數據集和目標域數據集的質心與立方體框的質心對齊,重原子的位置以1 ?作為分辨率,每個原子由19個物理化學性質描述。最后,源域數據集和目標域數據集中的每個分子都由一個由其坐標特征向量定義的四維張量表示。

模型框架 RELATION框架由兩個部分組成:(1)3D編碼器,使用了3D-CNN的結構,包括私有編碼器和共享編碼器。附帶SMILES標簽的訓練源域數據以及目標域數據轉換成4D張量后,分別作為私有編碼器和共享編碼器的輸入。所有的編碼器具有相同的架構,均具有8層,第一層包含64個過濾器,然后在奇數層上加倍,最后一層學習512個過濾器。每一個偶數層后面都有一個額外的池化層,核數、步長和填充為2,用于執行下采樣。利用ReLU激活函數對3D-CNN模型進行訓練,并使用兩個輸出為512維的全連接層得到μ和σ,對其重參數化后,生成一個的1024維嵌入向量;(2)解碼器,解碼器的結構是caption-LSTM,可以將隱藏層內的高維向量轉化為SMILE分子式,caption-LSTM由三層組成,其詞匯量輸入大小為39,隱藏大小為1024。

圖1 RELATION方法的模型框架

訓練方式

3 RELATION計算結果 RELATION生成分子的屬性 表1中的計算結果顯示,RELATION模型生成的分子的有效性、獨一性、新穎性以及生成的分子的多樣性均優于其他3D生成模型。隨著雙向遷移學習的引入,可以發現雙向遷移學習的RELATION (AAE)和RELATION (VAE)模型的有效度、獨一性以及多樣性均高于其他模型。圖1的結果顯示非遷移學習框架生成的分子的分布與抑制劑完全不同,當使用單向遷移學習框架對模型進行再訓練時,生成的分子分布與現有抑制劑分布的重疊明顯增加。而使用雙向遷移學習RELATION框架后,模型產生的分子的化學空間分布與抑制劑完全重合,表明所生成的分子和現有抑制劑涵蓋了類似的化學空間,并且具有相似的屬性。圖2則展示了不同模型生成的分子與AKT1和CDK2抑制劑的化學空間分布。圖2的結果也與表1中數FCD數據一致。這些結果均表明,RELATION模型生成的分子不僅能夠保證有效性、新穎性以及多樣性,也能夠保證和已有抑制劑的屬性相似性。

圖2 不同模型生成的分子與抑制劑的T-SNE分析

藥效團約束和BO采樣模塊的效果 RELATION模型的藥效團約束是通過CVAE框架實現,將藥效團特征匹配度作為CVAE的特征引入到RELATION的訓練中。不同模型生成分子的藥效團分數分布如圖3所示。對于AKT1和CDK2,基于藥效團的RELATION模型產生的分子比原始RELATION模型產生的分子有更高的藥效團分數。這表明,通過將藥效團特征引入RELATION,生成的分子可以增強與預設藥效團模型間的匹配性。

作者還在RELATION框架中引入了BO的采樣。如圖3所示,在RELATION框架中引入BO采樣后生成的分子的藥效團分數都得到了提高,其中基于對接打分的BO的采樣性能略好于基于QSAR打分的BO。此外,基于對接打分的BO采樣產生分子的對接分數較原始RELATION模型生成分子的對接分數有明顯提高,但基于QSAR打分生成的分子的對接打分變化不大。

圖3 不同模型生成分子的藥效團和對接打分分布

為了進一步研究基于BO采樣的RELATION模型的性能,作者將不同模型生成的有效分子與AKT1抑制劑再次進行了T-SNE分析。如圖4所示,RELATION和RELATIONpha模型不能有效地探索AKT1抑制劑的化學空間(紅圈中標記的點)。隨著通BO-采樣方式的引入,生成的分子在化學空間中的分布比原始RELATION更加分散,說明生成的分子與AKT1抑制劑的化學空間更為相似。此外,根據點的顏色梯度,使用BO采樣的RELATION模型生成的分子比原始RELATION模型生成的分子的對接得分更優。

圖4 RELATION模型使用不同的采樣方式生成分子的化學空間分布

作者在圖5中展示了不同RELATION模型生成的一些分子的示例。如圖5所示,引入BO采樣后,RELATION和RELATIONpha均能生成對接分數較好的分子,但基于BO采樣的RELATION模型生成的分子藥效團匹配分數較高,并產生了更理想的藥效團特征。

圖5 使用RELATION模型的設計AKT1抑制劑實例

4 總結 在AKT1與CDK2的抑制劑全新設計的任務中,RELATION模型既能生成結構新穎且多樣性高的分子,并且能夠保證生成的分子對靶標具有一定的親和性。隨著基于對接打分的BO采樣以及藥效團約束模塊用于RELATION模型,RELATION模型能夠使得生成的分子同時具有更好的藥效團匹配和對接表現。這些結果表明,RELATION模型是一種極具競爭力的深度學習全新藥物設計模型。 參考資料 RELATION: A Deep Generative Model for Structure-based De Novo Drug Design, Journal of Medicinal Chemistry, 2022. //doi.org/10.1021/acs.jmedchem.2c00732

付費5元查看完整內容
北京阿比特科技有限公司