在過去幾十年里,計算機在化合物逆合成領域的應用取得了巨大的發展。本文分享了當前已有的計算機輔助逆合成工具,并討論了目前逆合成預測方法所面臨的挑戰和機遇[1-2]。
背景
逆合成的概念最初由Corey在20世紀60年代提出,用來描述通過斷鍵將一個復雜的目標分子還原為一個簡單前體的迭代過程,即從產物出發, 搜索可能的前體,最終找到可商購獲得的反應物。最初的逆合成預測主要依賴于經驗豐富的化學家的已有知識或經驗,缺乏系統的方法,所以難以滿足一直不斷快速增長的新有機化學反應的需求,也無法用于預測新的化學反應。近年來,得益于快速發展的數據驅動模型以及大型反應數據庫,化學家和計算機科學家在計算機輔助逆合成方面取得了顯著的進步。 本文是對目前人工智能輔助逆合成方法的綜述,介紹并評估了在過去五年中開發的計算機輔助逆合成工具,結尾討論了逆合成研究的未來發展方向以及目前面臨的挑戰。
逆合成基本理論
計算機輔助化合物合成路線規劃(CASP)的框架通常由四部分組成,包括:建議斷開的模板庫、根據目標分子生成候選反應物的遞歸模板應用模塊、具有市售起始材料的化學物數據庫、以及單步或多步合成步驟評分方法。在過去十年中,由于大型反應數據庫的建立和數據驅動計算工具的進步,逆合成預測方法取得了重大進展[3],本節主要介紹了逆合成方法中的一些關鍵概念。
反應的模板
反應模板是用于確定反應物如何通過斷鍵轉化為產物的一組規則。以前的反應模板是化學家定義和手動編碼的。例如Chematica,它是目前商業上可用的、手動編碼的反應庫之一,其涵蓋了大多數已知的反應規則,但手動編碼現在所有的化學反應是一項艱巨的任務。一種更先進的反應編碼方法是通過原子-原子映射算法提取反應中心,從而識別反應物和產物原子之間的對應關系。對于給定的反應,將一組鍵連接性改變的原子確定為反應中心,然后通過算法提取反應中心和相鄰原子并進行泛化,最終形成相應的逆合成模板(圖1)。
圖1** 酯化反應SMARTS模板**[2]****逆合成方法評估
評估單步逆合成模型性能的一個常見指標是 Top-N 準確度,即在前n條推薦結果中出現數據集中記錄的標準前體數量的百分比。該指標需要分子結構的精確匹配。此外,也可以通過分子相似性評分進行評估,即相似性得分為 1 表示結構相同。但近期研究人員們認為這種指標用來評估模型性能并不適合。 基于模板的逆合成模型
基于模板的逆合成模型是通過解決子圖同構問題將目標分子與整個模板庫匹配以獲得候選反應物(圖2)。該方法通常需要對反應數據庫進行詳盡的枚舉,因此需要輔以高效的圖論算法和虛擬篩選技術。
圖2** 基于模板的逆合成模型(阿司匹林逆合成預測)[2]**
同時,為了量化分子結構的可合成性,在模型中引入可合成性的評價指標。傳統的評價指標依賴于生成的SMILES字符串的長度,旨在將目標分子分成盡可能小的反應物。最近新的評價指標有:合成可行性分數(SASCORE)、SCScore、DRSVM以及分子復雜度等[4]。 基于模板的方法準確性較高,這主要是因為該方法的可解釋性,以及該方法需要提供指定的化學前體。然而,該方法對計算能力需求很高,并且在模板庫之外的泛化能力有限。
機器學習在基于模板的逆合成模型中的應用
基于模板的逆合成模型的研究主要集中在克服因枚舉反應模板而導致的高計算成本。為了解決這個問題,研究人員利用機器學習只選擇相關的模板,而不是使用完整的模板庫。這類基于模板的模型被稱為“聚焦模板應用程序”。該方法可以減少原來基于模板的方法的高計算強度,同時保持生成結果的化學可解釋性,但是仍然無法預測反應模板庫外的新反應。
無模板的逆合成模型
最近,無模板的逆合成方法引起了越來越多的關注,因其避免了高計算成本的子圖匹配問題。該方法利用分子的文本表示(SMILES或InChI)將逆合成問題轉換為序列到序列(seq2seq)預測問題,即將產物的SMILES字符串轉化為反應物的SMILES字符串。 無模板的逆合成模型顯示出優于基于模板方法的兩個優勢。首先,該模型可以隱式地學習反應規則和候選排名指標,從而避免了反應復雜度排名指標的使用。其次,無模板模型更加簡便,手動編碼反應模板仍然是基于模板的方法的主要缺點之一。 但無模板方法在逆合成預測中仍然相對較新。該領域的最新發展依賴于僅包含注意力機制的NLP模型,例如Transformer。并且目前無模板方法的預測準確率仍稍落后于基于模板的方法。解決無模板方法中無效 SMILES 字符串的輸出是提高該方法準確性的關鍵。
小結
機器學習通過從豐富的化學知識中學習,為多步逆合成規劃框架做出了貢獻。然而,基于機器學習的逆合成模型的性能在很大程度上取決于反應數據庫的質量。從文獻中收集的反應數據可能具有噪聲大且不準確的問題,所以高質量的數據庫將加速逆合成模型的進一步發展。 同時單純基于數據驅動的逆合成模型有時會缺乏可解釋性。尤其是基于序列的無模板方法可能會忽略斷鍵背后的重要化學意義,這會導致解碼生成不可行的逆合成路徑。因此提高機器學習可解釋性的方法可能是應對這一挑戰的解決方案。同時,由于大多數反應數據以常見反應類型為主,罕見反應在數據集中代表性不足,因此機器學習模型會從數據集中出現次數多的斷鍵規則中學習,從而忽略其他罕見但更加簡單的反應途徑的斷鍵可能性。減少模型偏差的一個解決方案是將數據驅動方法與基于模板的方法相結合。這兩種方法的結合可以提高模型的可解釋性,并為逆合成問題提供新穎有效的解決方案。 任何計算機輔助化合物逆合成路線規劃,都應通過實驗驗證,以確定計算機輔助逆合成方法的真實性能。此外,訓練數據中缺乏實驗條件是當前逆合成方法的另一挑戰。 人工智能驅動的藥物合成給社會帶來極大的便利。在數字化趨勢的推動下,人工智能有望成為建立自動化化學合成系統的基本組成部分,最終成為未來的“機器人化學家”。
**參考文獻 **
[1] Ucak U , Ashyrmamatov I , Ko J , et al. Retrosynthetic reaction pathway prediction through neural machine translation of atomic environments. Nature Communications, 2022, 13(1). DOI: 10.1038/s41467-022-28857-w. [2] Sun Y, Sahinidis N V. Computer-aided retrosynthetic design: fundamentals, tools, and outlook. Current Opinion in Chemical Engineering, 2022, 35: 100721. [3] Segler M , Preuss M , Waller M P . Planning chemical syntheses with deep neural networks and symbolic AI. Nature, 2018, 555(7698):604-612. [4] Thakkar A , V Chadimová, Bjerrum E J , et al. Retrosynthetic accessibility score (RAscore) – rapid machine learned synthesizability classification from AI driven retrosynthetic planning. Chemical Science, 2021. DOI: 10.1039/D0SC05401A.
供稿:張紅文
校稿:張夢婷/謝金欣編輯:王思雨華東理工大學/上海市新藥設計重點實驗室/李洪林教授課題組▼招聘博后▼華東理工大學李洪林教授團隊誠聘博士后
Li's Lab地址:上海市梅隴路130號 電話:課題組網站: 長按掃碼可關注
論文剖析
生物信息學|逆合成預測的學習圖模型 ///////////////
逆合成預測是有機合成中的一個基本問題,其任務是識別可用于合成目標分子的前體分子。為這一任務建立神經模型的一個關鍵考慮因素是將模型設計與化學家采用的策略相一致。基于這一觀點,本文介紹了一種基于圖的方法,該方法利用了前驅體分子的圖拓撲結構在化學反應中基本不變的觀點。該模型首先預測了一組將目標轉化為不完整分子的合成子。接下來,該模型通過附加相關的離去基來學習將合成子擴展成完整的分子。這種分解簡化了體系結構,使其預測更具可解釋性,也可以手動修正。我們的模型達到了53.7%的top1精度,優于以前的無模板和基于半模板的方法。 2. 介紹
逆合成預測,首先由E.J.Corey提出是有機合成中的一個基本問題,它試圖識別合成目標分子的一系列化學轉化。在單步逆合成中,任務是識別一組給定一個目標的反應物分子。除了簡單的反應之外,許多涉及復雜有機分子的實際任務,即使對專家化學家來說也是困難的。因此,需要進行大量的實驗探索來彌補分析方法的不足。這激發了人們對計算機輔助逆合成的興趣。
在計算上,主要的挑戰是如何探索能夠產生目標分子的反應的組合空間。在很大程度上,以前的逆合成預測方法可以分為基于模板的和無模板的方法。基于模板的方法將目標分子與一組大型模板進行匹配,這些模板是在化學反應過程中突出變化的分子子圖模式。盡管這些方法具有可解釋性,但它們并不能推廣到新的反應中。無模板的方法通過學習從SMILES的產物表示到反應物的直接映射來繞過模板。盡管這些方法具有更大的泛化潛力,但它們會逐個生成反應物SMILES特征,從而增加了生成的復雜性。
在建立逆合成模型時的另一個重要考慮因素是將模型設計與專家化學家采用的策略保持一致。這些策略受到化學反應的基本性質的影響,獨立于復雜性水平:(i.)產物原子總是反應物原子的子集,和(ii)從產物到反應物,分子圖拓撲在很大程度上沒有改變。例如,在標準的逆合成數據集中,產物中只有6.3%的原子的連通性發生了變化。
這種考慮在最近的基于半模板的方法中得到了更多的關注,該方法分兩個階段生成反應物:(i.)首先識別被稱為合成子的中間分子,(ii)然后通過連續生成原子或SMILES特征將合成子完成成反應物。我們的模型graphretro也使用了類似的工作流。然而,我們通過從預先計算的詞匯表中選擇被稱為leaving groups的子圖來避免完成合成子的順序生成。這個詞匯表是在預處理過程中通過提取合成物和相應反應物之間不同的子圖來構建的。該詞匯表的大小較小(USPTO-50k為170),表明存在顯著的冗余,同時覆蓋了99.7%的測試集。在這些子圖的水平上進行操作,大大降低了反應物生成的復雜性,并提高了經驗性能。這個公式還簡化了我們的體系結構,并使我們的預測更加透明、可解釋和易于手動校正。
評估合成模型的基準數據集是USPTO-50k,它包含了10個反應類別的50000個反應。數據集包含了一個預測編輯(化學反應前后發生變化鍵和原子)的意外快捷方式,因為在75%的情況下,具有原子映射1的產品原子是編輯的一部分,允許依賴于原子位置的預測高估性能。我們規范化產品SMILES并重新映射現有數據集,從而刪除快捷方式。在這個重新映射的數據集上,當反應類別未知時,graphretro方法達到了53.7%的top-1精度,優于無模板和基于半模板的方法。 3. 相關工作
現有的逆合成預測機器學習方法可以分為基于模板的方法、無模板的方法和最近的基于半模板的方法。
基于模板:模板要么由專家手工制作,要么從大型數據庫中算法提取。由于涉及子圖匹配過程,應用大型模板集的代價很高。因此,基于模板的方法利用不同的方式對模板進行優先排序,通過學習模板集上的條件分布,根據先前反應的分子相似性對模板進行排名,或使用邏輯變量直接對模板和反應物的聯合分布建模。盡管具有可解釋性,但這些方法無法在其規則集之外泛化。
無模板:無模板方法利用神經機器翻譯結構學習從產物到反應物的直接轉化。將分子線性化并不利用固有的豐富的化學結構。此外,反應物的SMILES是從頭開始產生的。人們試圖通過添加語法校正器和混合模型來提高建議的多樣性,但在標準逆合成數據集上的性能仍然低于基于模板的方法。Sun等人利用基于能量的模型制定了逆合成,并附加了參數化和損失項,以加強正向(反應預測)和反向(逆合成)預測之間的對稱性。
基于半模板:我們的工作與最近提出的基于半模板的方法,首先識別合成子,然后擴展合成子到反應物。為了降低反應物生成的復雜性,我們使用從預先計算的詞匯表中選擇的稱為leaving groups的子圖來完成合成子。這允許我們將合成子擴展視為一個分類問題,而不是一個生成問題。我們還利用了可能的編輯之間的依賴性圖,并使用該圖上的消息傳遞網絡(MPN)更新編輯預測。與以前的基于半模板的方法相比,這兩種創新的性能分別提高了4.8%和3.3%。
反應中心識別覆蓋了少量參與反應的原子。我們的工作還與預測反應結果的模型有關,通過學習對位于反應中心的可能性進行排序。識別反應中心的任務與在我們的公式中推導合成子的步驟有關。我們還利用可能的編輯之間的依賴圖,并使用此圖上使用MPN更新編輯預測。 4. 模型設計
我們的方法利用了圖拓撲從產物到反應物基本不變的特性。為了實現這一點,我們首先從被稱為合成子的產物中獲得合適的構建塊,然后通過添加leaving groups,將它們完成成有效的反應物。我們首先訓練一個神經網絡來預測可能的編輯的分數。然后將得分最高的編輯應用于產物,以獲得合成子。由于唯一的leaving groups的數量較少,我們將leaving groups的選擇建模為預先計算的詞匯表上的一個分類問題。為了產生候選反應物,我們通過化學約束規則將預測的離去基附加到相應的合成物上。圖1概述了整個過程。
以往的單步逆合成方法要么限制對模板集的預測,要么對分子圖結構不敏感,要么從頭開始生成分子。我們通過引入一個受化學家工作流程啟發的基于圖的半模板模型來解決這些缺點,增強了逆合成模型的可解釋性。給定一個目標分子,我們首先確定合成的構建模塊,然后實現為有效的反應物,從而避免從零開始生成分子。我們的模型在基準數據集上比以前的半模板方法有顯著的優勢。未來的工作目標是擴展該模型,使其從多個合成物中實現單一反應物,并引入更多具有化學意義的成分,以提高此類逆合成預測工具與從業人員專業知識之間的協同作用。 原論文名稱: Learning Graph Models for Retrosynthesis Prediction
在藥物研發過程中,從先導化合物的發現到臨床候選藥物之間存在著巨大的鴻溝,前者往往只需要具有良好的靶點結合活性及可改造的結構片段,但后者還需要對其藥代動力學性質等提出更高的要求。因此,先導化合物優化(Lead optimization)歸根結底是一類多參數優化的問題。在現實世界的先導化合物優化研究中,人們關注的更多還是提高小分子在靶點和細胞水平上的親合力,這一導向往往會使得改造后的化合物親脂性相對較高,與其他成藥性質存在一定的沖突。另一方面,為了實現不同層面上多種分子性質的理想平衡,需要對先導化合物進行反復地改造和優化,從潛在的化學空間中找出滿足多方面需求的結構。然而,在項目早期缺乏構效關系與結構數據的情況下,即使是資深的藥物化學家也難以從無比廣闊的化學空間中設計出值得優先進行測試的分子。 薛定諤公司的Sathesh Bhat等人發展了一種從頭設計算法AutoDesigner,通過模仿藥物化學家的先導化合物優化思路,廣泛地探索符合良好藥動性質條件的化學空間,最終設計出新穎、類藥且具有理想活性的化合物,并將其成功應用在D-氨基酸氧化酶(DAO)抑制劑的設計項目當中,大大加速了先導化合物優化的過程。這項工作最近發表在美國化學會出版的計算化學和化學信息學核心期刊Journal of Chemical Information and Modeling上(J. Chem. Inf. Model. 2022, 62, 1905-1915)【1】。
圖1:AutoDesigner算法的工作流示意圖 從整體上看,AutoDesigner算法的每一輪運行都會經歷三種生成分子以及緊隨其后的過濾篩選階段(如圖1)。其中,分子生成的機制可以具體分為匹配分子對轉換(MMP Transformations)、基于反應的枚舉(PathFinder enumeration)、遞歸結構修剪(Recursive Trimming)以及R基團修飾(R-group Decoration),過濾篩選階段也可以分作中間環節的篩選以及最終給出結果的篩選兩種情況。 匹配分子對轉換這一機制依賴于從PubChem和ChEMBL數據庫中獲取得到的海量匹配分子對,通過將兩個數據庫中的分子按照預定義的規則進行碎片化,再組合到片段間的轉化上,分別能得到約2.91億、0.26億種結構轉換。值得指出的是,在對輸入的配體分子進行轉換之前,會優先進行遞歸結構修剪,從而在一開始將輸入的單個配體轉變成一組結構相似的化合物(如圖2),有效擴大了分子對轉換時的化學空間覆蓋。此外,不論哪種分子生成機制,都不改變預定義的核心結構,如圖2中藍色發光標記的片段。
圖2:對方框中分子進行遞歸結構修剪的結果展示 如果說匹配分子對轉換模仿的是藥物化學家基于原始結構進行的衍生與改造,那么基于反應的枚舉與R基團修飾則更加體現了組合化學的思想,參考藥物化學家在設計目標分子的合成路線時,對各個反應步驟所使用的不同反應物進行組合。AutoDesigner算法采用薛定諤公司此前報道的PathFinder技術,對所給分子進行逆合成分析,并對反應物中所有可以購買的原料進行組合化學枚舉。一般而言,在目標化合物的最后一步合成中,人們會大量改變所使用的試劑或原料,從而向骨架中引入豐富多樣的修飾基團。類似地,AutoDesigner利用精選的R基團數據庫,向所給分子中每一個可改造的位點進行修飾,對于那些經過一輪修飾后還有修飾空間的分子,還會進行第二輪的修飾。通過這兩種分子生成機制,該算法在有效實現分子結構多樣性的同時,兼顧了可合成性。 四種分子生成機制保證AutoDesigner算法能充分地搜索豐富多樣性的化學結構,而有效的過濾篩選機制則是實現多參數優化的重要工具。中間環節的過濾篩選需要在保留有潛力的化合物前提下篩除不需要的化合物,因此設置的篩選條件較少,并能讓那些在后續改造過程中有機會保留下來的分子不被排除,例如不對氫鍵供體的數量設置篩選條件。相對的,最終環節的過濾篩選則盡可能使得條件嚴格,僅允許滿足項目目標化合物性質的分子得以通過。值得注意的是,篩選條件的制訂不拘泥于經典的五倍率,而是由藥物化學家根據項目本身需要進行靈活的調整。此外,兩種不同強度的篩選環節也節約了算法整體所消耗的計算資源。 為了實現對生成分子各項性質的篩選,作者為AutoDesigner算法準備了用于計算親合力與藥代性質的計算工具。前者通過薛定諤公司的FEP+模塊輔以主動學習技術實現加速優化,后者則通過機器學習模型AutoQSAR預測藥代性質。最后,AutoDesigner算法還被部署到云計算平臺上,從而提高對計算資源的調配水平,提高效率。 利用這一先導化合物優化工作流,作者依次運行了三個階段來對DAO抑制劑先導化合物進行優化(圖3),其輸入配體分別為化合物1,5,7。化合物2~4、化合物6及化合物8依次屬于三個階段優化輸出的分子,如圖3所示。結果表明,經過AutoDesigner的優化后,這些分子都能保持較為理想的抑制活性,而其他方面的干濕實驗也表明在眾多理化性質和藥代性質上有所改進,這意味著該算法工作流具有出色的實戰價值,能夠較好達成其預期目標。
圖3:三個階段中AutoDesigner各環節生成的分子數目與起始或代表性DAO抑制劑的結構、活性數據(括號中為預測值) 為了進一步探索DAO結合部位的性質,作者應用AutoDesigner完成了一項先導化合物優化的挑戰任務。在此前的文獻報道中,由于對DAO抑制劑結合口袋的了解不深,因此認為口袋的形狀大小較為狹窄有限,向先導化合物中引入較大的修飾基團時傾向于降低抑制活性。因此作者以化合物7作為這一階段算法運行的輸入,探索DAO抑制劑結合口袋的空間,嘗試向分子中的疏水芳基尾部引入基團來進一步提高抑制活性。
圖4:化合物7、8在靶點口袋中的占據情況比較 從圖3中可以發現,AutoDesigner共生成近2億個分子,但最終僅有156個符合理化、生物活性及藥代等各方面的性質要求,可見這一任務的困難程度。其中,化合物8是這一批優化結果中的代表分子,如圖4所示,其結構中延伸出的氟代苯基進入到了DAO結合口袋深處。這樣的結構改造使其成為該項目中得到的抑制活性最強的分子。從這一實例可以看出,AutoDesigner能夠有效識別出配體與靶點之間的已知構效關系,甚至可以輔助藥物化學家進一步探索未知的構效關系,從而助力先導化合物的優化環節。小 結
這項工作報道的AutoDesigner通過廣度的搜索算法輔以云計算,成功對龐大的化學空間進行了連續多輪的探索和過濾,并且基于項目本身需求配合上藥物化學家經驗指導的過濾條件設置,使得分子改造結果可以滿足多參數優化的需要。這個算法在DAO抑制劑設計的應用實踐中,彰顯了AutoDesigner的實用價值與可靠性,其能夠在缺乏大量過往實驗數據積累的情況下,共生成并篩選了超過10億種化合物,分析出其中的重要相互作用,甚至能夠發現新的構效關系。這意味著AutoDesigner不僅可以為藥物化學家確定化合物合成、測試的優先順序提供參考,還能夠協助人們進一步探索未被發現的結構信息。這項工作表明利用算法模擬傳統藥物化學的研究思路,或能確保計算方法的穩健性與可靠性。與此同時,隨著算力和計算精度的逐步提高,應用于藥物設計與研發的計算工具正逐漸從實驗室模擬向真實世界應用的方向不斷發展。
參考文獻【1】Bos, P. H.; Houang, E. M.; Ranalli, F.; Leffler, A. E.; Boyles, N. A.; Eyrich, V. A.; Luria, Y.; Katz, D.; Tang, H.; Abel, R.; Bhat, S., AutoDesigner, a De Novo Design Algorithm for Rapidly Exploring Large Chemical Space for Lead Optimization: Application to the Design and Synthesis of d-Amino Acid Oxidase Inhibitors. J. Chem. Inf. Model. 2022, 62, 1905?1915. (DOI: 10.1021/acs.jcim.2c00072)
今天給大家介紹韓國江原國立大學Umit V.等人在2022年在Nature Communications發表的一篇名為“Retrosynthetic reaction pathway prediction through neural machine translation of atomic environments”的文章[1]。盡管有機化學的知識已經積累了幾十年,但為藥物分子設計有效的合成路線仍然是有機合成中的一項關鍵任務。在這項工作中,作者提出一種新的單步逆合成預測方法:RetroTRAE,即通過學習參與化學反應的原子的環境變化來預測候選反應物。結果顯示,在UPSTO測試數據集上的Top-1準確率為58.3%,在相似化合物較多的情況下,準確率為61.6%,優于其他基于神經機器翻譯的逆合成方法。同時該方法可有效解決基于SMILES方法的不可解釋性以及生成無效字符串等問題研究背景
逆合成設計是有機化學的關鍵問題之一。現有的逆合成方法可分為基于模板的方法和無模板的方法。其中基于模板的逆合成方法不僅需要克服枚舉反應模板而導致的高計算成本,且只能預測模板庫中的反應。而無模板方法可有效避免上述的問題,在預測逆合成時表現出更強的泛化能力。無模板方法可進一步細分為基于圖神經網絡的逆合成預測算法和基于序列的逆合成預測算法。其中,基于序列的逆合成預測算法將反應路線的預測問題看作一項語言翻譯任務來處理,將產物的SMILES轉化為反應物的SMILES。但目前生成的無效SMILES字符串數量較多,可分為兩種類型:(1)語法無效的SMILES字符串;(2)語法有效但語義無效的SMILES。 這項研究通過將反應物的原子環境(Atom Environments, AE)與目標分子相關聯,使用原子環境替代傳統的SMILES進行單步逆合成預測。該方法使我們通過關注與反應中心相關片段來捕捉化學變化。實驗結果表明該算法的性能大大優于現有方法。************模型與方法****************1.模型框架
作者使用原子環境(AE)替代SMILES進行逆合成預測,AE是指以特定原子為中心,不同“半徑”的圓形拓撲鄰域片段,也包含所涵蓋原子之間的所有化學鍵。其中,“特定原子”稱為中心原子,“半徑”指的是中心原子和所有共價鍵原子之間允許的最大拓撲距離。因此半徑為 r 的AE包含分子中與中心原子的拓撲距離為 r 或更小的所有原子,以及它們之間的所有鍵。根據定義,r = 0 的AE只包括中心原子類型的原子,表示為AE0。r = 1的AE包含中心原子、與中心原子相鄰的所有原子,以及中心原子與這些原子之間的所有鍵,表示為AE2。如圖1(b)所示,化合物苯的文本描述是以常見的SMILES、SMARTS模式,和新開發的SELFIES模式,以及代表ECFP指紋的AE。 圖1(a)提供了該模型的整體流程。首先將產物分解為一組AEs。由SMART模式描述的每個AE都與一個特殊的整數值有關。將AEs列表作為模型RetroTRAE的輸入序列,用該模型來預測反應物的AE序列。
圖1 (a):RetroTRAE模型流程圖;(b)苯的字符串表示以SMILES、SELFIES以及SMARTS模式。在AEs渲染中,中心原子以藍色突出,而芳香族和脂肪族環狀原子分別以黃色和灰色突出。通配符[*]被用來代表任何原子******[1]**********************2.分子片段比較
找到一組最準確地代表分子結構的最佳片段是提高逆合成預測性能的關鍵因素。因此作者使用多個不同的分子片段描述在單反應物測試集中進行逆合成預測評估。如表1所示,作者一共選擇了三種分子片段的描述方法進行比較,并分別使用不同的模型框架,性能評價選擇衡量相似度的谷本系數(Tanimoto Coefficient, Tc)。 首先,基于Transformer的逆合成模型,在準確性方面與以前基于BiLSTM的方法相比有很大的改進。其次,在MACCS、ECFP2、ECFP4、AE2、AE0∪AE2幾種不同的分子片段描述方法中,基于AE0∪AE2的分子Transformer模型性能最佳,達到了55.4%的精確匹配精度。增加生物活性相似的預測(Tc ≥ 0.85)后,準確率也相應提高,模型的總體準確率達到68.1%。因此,作者把具有AE0和AE2聯合的Transformer模型命名為RetroTRAE。 表1 在單反應物測試集中使用不同分子片段方案訓練的Transformer模型的性能總結以及與基于BiLSTM的模型的比較******[1]**********
**************結果與討論**************1.RetroTRAE模型性能
與基于SMILES的方法不同,使用AEs的一個優點是解碼不會生成無效或完全不同的分子。模型可解碼生成與真實分子高度相似的AEs預測集,為逆合成預測提供有用的信息。 除了采用精準匹配(Tc = 1.0)方式來評估準確率以外,作者在評估模型性能時又增加了四個不同評價節點,四個節點可以分為兩類:(a)硬閾值;(b)軟閾值。作者將硬閾值定義為單片段(SM)或雙片段(DM)差異。反之,將基于Tanimoto系數的任意閾值稱為軟閾值,如Tc ≥ 0.85,用來篩選具有相似生物活性的分子。作者更強調硬閾值的使用,與軟閾值相比,硬閾值(SM/DM)預測分子與真實分子相比,只有某些子結構、官能團等差異,這些小的差異很容易通過與真實分子的視覺比較,找到與真實反應物不同的片段類型和數量,然后進行改正。 作者使用經過過濾的美國專利反映數據集USPTO-full的子集進行模型的性能評估和比較。忽略數據集中的多組分反應,因為此類反應在整個數據集中所占比例不足1.65%。然后根據反應物的數量,最終確定兩個不同的數據集,分別包括單反應物(R—>P)和雙反應物(R1+R2—>P)類型的反應,大小分別為100 K 和314 K。 此外,作者就使用數據增強、是否使用位置編碼等問題對模型進行更廣泛的訓練。研究表示,使用數據增強、位置編碼以及超參數優化等方法均可提高模型準確率,穩定模型訓練。評估結果匯總在表2中。結果表示,在擴增10倍的單反應物和雙反應物數據集上,RetroTRAE在精確匹配(Tc = 1.0)方面達到了56.4%和60.1%的準確率。同時,作者適當放寬閾值提高模型成功率,當允許單片段突變(SM)時,單反應物和雙反應物的成功率分別增加到58.1%和60.9%。允許雙片段突變(DM)時,相應的預測結果提高為60.5%和62.7%。 表2 RetroTRAE模型預測準確率******[1]**********
2.模型的可解釋性
作者通過觀察注意力權重,以解釋該模型實際上學到了什么。RetroTRAE模型更關注反應中心附近的AEs變化,例如開環反應等,如圖2所示。這充分證明,與SMILES描述符相比,AE描述符是有化學意義的,而且本身是可以完全解釋的。且該模型可與適當的搜索算法(如蒙特卡羅樹搜索)相結合,預測多步逆合成路線。 圖2 解碼注意力可視化及RetroTRAE模型的可解釋性(a)單反應物數據集的開環反應;(b)雙反應物數據集的解離反應******[1]******3.逆合成預測樣例
如圖3所示,作者介紹針對硬閾值產生的三種預測結果,首先是為精確預測(圖3a),RetroTRAE模型在測試集中的精確預測率為58.1%。其次是發生SM和DM的情況(圖3b、圖3c)。據統計,解碼發生SM和DM的數量共占總預測量的3.3%。為了證明硬閾值(SM/DM)設定的可行性,作者隨機選擇了10個SM對和10個DM對,比較單片段和雙片段突變與真實分子之間的相似性。研究表明,20對結構的平均Tc為0.91,RDKit產生的指紋圖譜兩兩相似度為0.97,這些結果表明,硬閾值(SM/DM)所獲得的預測結果是較為可靠的。 在單片段突變(SM)情況下,所有相連的原子類型都要與真實分子相同,因此只可能會發生有兩種類型的結構變化。首先,由于單一原子環境的錯位(例如,在鄰位/間位/對位),可能出現一個新的原子環境(或現有的環境消失)。其次,在化合物末端增加或減少一個現有的AE。雙片段突變(DM)的情況一般發生在錯位的側鏈AE或單原子的替換。
圖3 RetroTRAE模型樣例(a)精準預測(b)單片段突變(c)雙片段突變,顏色表示原子級對總體相似度的貢獻(綠色:相似度得分增加,紅色:相似度得分減少,未著色:無影響)******[1]**********4.與現有模型比較
由于模型沒有預先提供反應類信息,因此作者將該方法與其他不考慮反應類標記的逆合成預測方法進行了比較。結果如表3所示。RetroTRAE模型達到了58.3%的平均top-1準確率,超過了現有的基于NMT的無模板模型。允許SM和DM時,模型準確率提高到61.6%,是目前逆合成模型的最佳水平。表3 無反應類別的逆合成預測模型的top-1準確率比較******[1]**********
5.通過原子環境檢索候選反應物
使用RetroTRAE模型進行預測后,得到的結果是預測反應物的AE的集合,可以通過數據庫搜索來檢索,成功檢索到即證明模型預測的AEs可以完全還原為真實分子或高度相似的分子。作者使用PubChem研究了1000個USPTO測試分子檢索反應物候選的成功率。檢索測試結果顯示,超過一半的預測(55.7%)可以被準確檢索(圖4)。允許SM后,檢索成功率提高了約30%。當允許DM時,所有的測試分子都能被成功檢索到。這證明模型得到的所有結果最多只有兩個AE的差異。以上結果表明,用AEs表示和預測分子是一種可行實用的方法。
圖4 在大型PubChem化合物庫檢索候選反應物****[1]********************總結
作者提出結合Transformer架構和原子環境(AE)表示法,開發了新的無模板逆合成預測模型,即RetroTRAE。實驗證明,與傳統的基于SMILES的逆合成預測模型相比,使用AE作為描述符進行逆合成預測精度提高,且具有可解釋性,同時解決結構指紋在無模板的逆合成方法中的應用問題。該研究結果將為利用序列數據開發化學的NMT模型提供新的可能性,相信這種方法在有機化學中具有廣闊的應用前景。 **參考文獻 **
[1] Ucak UV, Ashyrmamatov I, Ko J, et al. Retrosynthetic reaction pathway prediction through neural machine translation of atomic environments. Nat Commun, 2022. 13(1): p. 1186.
供稿:張紅文
校稿:刁妍妍/張夢婷編輯:毛麗韞華東理工大學/上海市新藥設計重點實驗室/李洪林教授課題組▼招聘博后▼華東理工大學李洪林教授團隊誠聘博士后
Li's Lab地址:上海市梅隴路130號 電話:課題組網站: 長按掃碼可關注
本文介紹一篇來自浙江大學侯廷軍教授課題組、中南大學曹東升教授課題組、華東理工大學李洪林教授課題組聯合發表的論文。該論文提出了一種能夠在分子生成過程中考慮到蛋白-配體相互作用的深度學習生成模型RELATION,該模型適用于基于靶標結構的全新藥物設計。RELATION模型同時使用百萬量級的分子庫以及蛋白-配體集合數據對變分自編碼器進行訓練,在引入雙向遷移學習后,隱藏層的采樣能夠同時兼顧生成分子的骨架片段的新穎性以及對靶標蛋白的親和性。RELATION模型還提供了藥效團約束生成以及貝葉斯優化(BO)采樣等模塊,可供用戶定制化生成藥效團匹配度更高以及對靶標的對接打分表現更好的分子。
1 研究背景 先導化合物的發現與優化在新藥研發過程中至關重要,高質量的先導化合物能夠大大縮短藥物探索的時間,提高成藥的可能性。在先導化合物的設計過程中,要充分考慮候選分子的結構新穎性、生物活性、靶標選擇性、化學可合成性、成藥性和安全性等,這些性質直接影響藥物開發的成敗,因此先導化合物的發現一直是創新藥物研發的主要瓶頸。隨著計算機硬件、軟件和算法的飛速發展,高通量篩選虛擬篩選和藥物從頭設計等計算機輔助藥物設計技術開始取代傳統方法,并大大縮短了先導物發現的時間和成本。
全新藥物設計與虛擬篩選技術不同,不依賴已有的化學數據庫,可以通過不同的生成算法對類藥空間進行更加深入的探索和發掘。傳統的全新藥物設計方法通常將遺傳算法結合到藥物從頭設計中,嘗試通過進化策略來優化生成的化合物結構。然而,傳統的藥物從頭設計方法無法兼顧生成分子的新穎性與理想屬性。深度學習(Deep learning, DL)的引入為全新藥物設計注入了新的活力。作為近期發展最快的人工智能技術,DL能夠更高效地處理數據,對化合物屬性深度特征的提取能力更強。鑒于深度學習對分子屬性的深度特征出色的提取能力,目前已經有近百種基于深度學習的框架的全新藥物設計模型被開發出來,旨在解決傳統方法中生成分子的新穎性與理想屬性之間的沖突。這些方法大致可以被分為四類:編碼-解碼器(Encoder-Decoder,Enc-Dec)、循環神經網絡(Recurrent Neural Network, RNN)、生成對抗網絡(Generative Adversarial Networks,GAN)和強化學習(Reinforcement Learning,RL)。
目前大部分基于DL的全新藥物設計模型是以配體為中心,配體分子被表示為SMILES字符串或2D分子圖。這些基于配體分子的全新藥物設計的模型,在經過訓練后確實能夠生成大量有效且新穎的化合物,但是這些基于配體二維信息的表征會忽略分子在藥物設計任務中一些非常重要的屬性,比如藥物分子的三維立體構象以及與蛋白之間的結合構象。本文介紹的RELATION模型是一個使用了變分自編碼器框架的生成模型,在雙向遷移學習的作用下,模型能夠生成大量結構有效、結構新穎并且對蛋白具有一定親和力的化合物。在藥效團約束和BO采樣的作用下,RELATION將會更加適用于基于靶點結構的全新藥物設計任務。
2 RELATION方法 數據集 RELATION模型的訓練使用了源域和目標域兩種數據集。源域的百萬數量級的小分子化合物來源于ZINC數據庫。目標域則使用AKT1以及CDK2兩個靶點的數據集,407個AKT1抑制劑和1017個CDK2抑制劑搜集于BindingDB和ChEMBL數據庫,然后將兩個靶點的抑制劑對接到靶標蛋白,只保留配體周圍5 ?的原子作為蛋白配體復合物數據集。隨后將源域數據集和目標域數據集放入7.57.57.5 ?3的網格中,并將源域數據集和目標域數據集的質心與立方體框的質心對齊,重原子的位置以1 ?作為分辨率,每個原子由19個物理化學性質描述。最后,源域數據集和目標域數據集中的每個分子都由一個由其坐標特征向量定義的四維張量表示。
模型框架 RELATION框架由兩個部分組成:(1)3D編碼器,使用了3D-CNN的結構,包括私有編碼器和共享編碼器。附帶SMILES標簽的訓練源域數據以及目標域數據轉換成4D張量后,分別作為私有編碼器和共享編碼器的輸入。所有的編碼器具有相同的架構,均具有8層,第一層包含64個過濾器,然后在奇數層上加倍,最后一層學習512個過濾器。每一個偶數層后面都有一個額外的池化層,核數、步長和填充為2,用于執行下采樣。利用ReLU激活函數對3D-CNN模型進行訓練,并使用兩個輸出為512維的全連接層得到μ和σ,對其重參數化后,生成一個的1024維嵌入向量;(2)解碼器,解碼器的結構是caption-LSTM,可以將隱藏層內的高維向量轉化為SMILE分子式,caption-LSTM由三層組成,其詞匯量輸入大小為39,隱藏大小為1024。
圖1 RELATION方法的模型框架
訓練方式
3 RELATION計算結果 RELATION生成分子的屬性 表1中的計算結果顯示,RELATION模型生成的分子的有效性、獨一性、新穎性以及生成的分子的多樣性均優于其他3D生成模型。隨著雙向遷移學習的引入,可以發現雙向遷移學習的RELATION (AAE)和RELATION (VAE)模型的有效度、獨一性以及多樣性均高于其他模型。圖1的結果顯示非遷移學習框架生成的分子的分布與抑制劑完全不同,當使用單向遷移學習框架對模型進行再訓練時,生成的分子分布與現有抑制劑分布的重疊明顯增加。而使用雙向遷移學習RELATION框架后,模型產生的分子的化學空間分布與抑制劑完全重合,表明所生成的分子和現有抑制劑涵蓋了類似的化學空間,并且具有相似的屬性。圖2則展示了不同模型生成的分子與AKT1和CDK2抑制劑的化學空間分布。圖2的結果也與表1中數FCD數據一致。這些結果均表明,RELATION模型生成的分子不僅能夠保證有效性、新穎性以及多樣性,也能夠保證和已有抑制劑的屬性相似性。
圖2 不同模型生成的分子與抑制劑的T-SNE分析
藥效團約束和BO采樣模塊的效果 RELATION模型的藥效團約束是通過CVAE框架實現,將藥效團特征匹配度作為CVAE的特征引入到RELATION的訓練中。不同模型生成分子的藥效團分數分布如圖3所示。對于AKT1和CDK2,基于藥效團的RELATION模型產生的分子比原始RELATION模型產生的分子有更高的藥效團分數。這表明,通過將藥效團特征引入RELATION,生成的分子可以增強與預設藥效團模型間的匹配性。
作者還在RELATION框架中引入了BO的采樣。如圖3所示,在RELATION框架中引入BO采樣后生成的分子的藥效團分數都得到了提高,其中基于對接打分的BO的采樣性能略好于基于QSAR打分的BO。此外,基于對接打分的BO采樣產生分子的對接分數較原始RELATION模型生成分子的對接分數有明顯提高,但基于QSAR打分生成的分子的對接打分變化不大。
圖3 不同模型生成分子的藥效團和對接打分分布
為了進一步研究基于BO采樣的RELATION模型的性能,作者將不同模型生成的有效分子與AKT1抑制劑再次進行了T-SNE分析。如圖4所示,RELATION和RELATIONpha模型不能有效地探索AKT1抑制劑的化學空間(紅圈中標記的點)。隨著通BO-采樣方式的引入,生成的分子在化學空間中的分布比原始RELATION更加分散,說明生成的分子與AKT1抑制劑的化學空間更為相似。此外,根據點的顏色梯度,使用BO采樣的RELATION模型生成的分子比原始RELATION模型生成的分子的對接得分更優。
圖4 RELATION模型使用不同的采樣方式生成分子的化學空間分布
作者在圖5中展示了不同RELATION模型生成的一些分子的示例。如圖5所示,引入BO采樣后,RELATION和RELATIONpha均能生成對接分數較好的分子,但基于BO采樣的RELATION模型生成的分子藥效團匹配分數較高,并產生了更理想的藥效團特征。
圖5 使用RELATION模型的設計AKT1抑制劑實例
4 總結 在AKT1與CDK2的抑制劑全新設計的任務中,RELATION模型既能生成結構新穎且多樣性高的分子,并且能夠保證生成的分子對靶標具有一定的親和性。隨著基于對接打分的BO采樣以及藥效團約束模塊用于RELATION模型,RELATION模型能夠使得生成的分子同時具有更好的藥效團匹配和對接表現。這些結果表明,RELATION模型是一種極具競爭力的深度學習全新藥物設計模型。 參考資料 RELATION: A Deep Generative Model for Structure-based De Novo Drug Design, Journal of Medicinal Chemistry, 2022. //doi.org/10.1021/acs.jmedchem.2c00732
近年來,計算機的巨大進展引領著神經網絡的革命,影響了從自然語言處理到計算機視覺等各領域。同時,深度學習也影響著藥物研發的許多領域,包括細胞圖像分析,有機分子合成路線的設計和分子生成(新化學分子的設計)等。 本文獻關注深度學習影響分子設計的兩個關鍵領域:分子性質預測和分子生成。
介紹
基于藥物相關數據進行分子的生成與評估是新藥設計的關鍵任務。在藥物設計早期,藥物研發通常依靠藥物化學家的經驗進行藥物分子的設計與驗證。藥物化學家會合成一組化合物并對其進行生物活性測試,查看測試產生的數據,并利用對基礎學科的理解來決定下一步要合成哪些分子。他們將以上步驟進行迭代,最終得到所需的目標分子。 20世紀30年代,定量結構-活性關系(Quantitative Structure-Activity Relationship,QSAR)的發展,為化學結構與各種理化性質之間建立了一個數學模型。這些用于性質預測的QSAR模型奠定了許多虛擬篩選策略的基礎。虛擬篩選使用大量候選分子數據集得到更小的數據集用于后續的合成或者購買。 之后許多研究團隊產生了新的想法。他們編寫了計算機程序來進行從頭分子設計進而生成新分子。這些程序通常在蛋白質結合位點上添加原子或官能團來“生長”現有的分子,然后使用各種打分函數來評估這些分子,并將更優分子用于合成。雖然這些全新的設計方法取得了一些成功,但它們并沒有被廣泛采用。 在近幾年深度學習發展的推動下,分子生成和分子性質預測領域開始復蘇。深度學習應用于分子性質預測,包括預測生物活性、ADME(Absorption, Distribution, Metabolism, and Excretion)和與毒性靶標(eg: hERG——thehumanEther-à-go-go-RelatedGene)的相互作用等。其不依賴于專家定義的分子特征集,而是使用可調整到特定任務的學習特征。相關性質預測模型的性能優于更傳統的QSAR方法。當應用于分子生成領域時,深度學習并不是隨機擴展現有的分子,也不是使用一套規則來連接現有的分子片段,而是從現有的分子訓練集中學習規則生成分子。通過將這些生成方法與預測模型相結合,研究人員能夠設計出滿足特定生物活性的分子。
分子性質預測
分子性質預測方法應用于虛擬篩選領域可以減少實驗篩選相關的時間和費用,同時拓寬可探索的化學空間。虛擬篩選可在短時間內評估數十億分子,相比實驗篩選方法快速很多。研究相關分子性質預測算法可以加速藥物發現。
1.用于分子性質預測的神經網絡
神經網絡模型的關鍵在于如何在機器學習算法中以較合理的方式表示分子。早期的模型使用專家構建的特征(如指紋與描述符)來表示分子。機器學習算法的作用是學習如何權衡這些特征,以提供準確的性質預測。這類模型的預測準確性很大程度上取決于所選特征的質量。而神經網絡直接從數據中自行學習合適的特征表示。輸入分子集與性質數據集進行網絡的訓練后,向網絡輸入新分子,我們可以得到該分子的性質預測值(如圖1)。
圖1 分子性質預測模型[1]****
作者列舉了一些深度學習應用于分子性質預測領域的研究。其中包括預測實驗毒性的回溯性研究——Tox21挑戰(Tox21 Challenge);以及前瞻性研究——發現新藥(新抗生素)。 Tox21挑戰中,研究小組使用了各種機器學習方法來預測實驗毒性分析的結果。Hochreiter團隊使用的深度學習模型贏得了15項挑戰中的9項。Feinberg研究團隊建立在各種藥物數據集上的模型的R2(相關系數)平均增加0.16。Yang團隊建立的模型在19個公共基準中的11個基準上表現較基線模型要好。 前瞻性研究中簡要描述了Stokes團隊應用性質預測進行虛擬篩選進而發現強效抗生素這一過程(見圖2)。該團隊選用了2335種已上市的藥物和天然產物,確定它們抑制大腸桿菌生長的能力;之后創建深度學習模型,在含1.07億商業化合物的數據庫中篩選預測分子,進而對所得分子進行后續生物測試。
圖2 Stokes應用性質預測發現了一種新型抗生素過程[1]**********
2.分子性質預測準確性的數據要求******
預測模型的準確性在很大程度上也取決于能否獲得合適的數據。 給定了大量的參數,神經網絡模型需要足夠多的訓練數據來學習最佳的分子表示,并最終預測任務本身。性質預測這一任務所需的數據量可達數萬以上。對于藥物研究來說,獲取大樣本很困難。典型先導化合物優化生成的分子量通常不足以提供給神經網絡進行模型訓練。然而,大量數據集也不一定能成功擴展新化學空間。預測分子與原始訓練集的散度不能太大。分子與訓練集的散度越大,模型就越難正確地預測分子屬性。此外,現有的置信度估計方法也不能充分評估模型預測的正確性。
3.分子性質預測中不確定性的度量******
當使用機器學習模型來預測一個分子的生物活性或物理性質時,了解該預測中性質預測值的不確定性很重要。然而該領域學者對評估不確定性的方法并未達成共識。在機器學習模型中量化分子的相似性和評估不確定性則更困難。 Hirschfeld等人使用了5個基準數據集來評估神經網絡模型中的幾種量化不確定性的方法。其中包括: ①集成方法:改變網絡參數創建集成模型,整個集成模型的方差用于不確定性的度量。 ②均值-方差評估方法:訓練其中一個網絡用于預測特定分子預測值的均值與方差。 ③基于分子指紋或基于距離表示潛在空間的度量方法。 ④聯合方法:即利用神經網絡與潛在空間表示相結合的方法輸出分子性質預測的不確定性值。 而作者認為這些方法可靠性均較低,需要進行進一步研究。
4.數據增強策略
在神經網絡中可使用數據增強的方法緩解大數據量的這一需要。例如在分析圖像時,可以通過旋轉或模糊圖像來創建更大的數據集,并將這些修改后的圖像作為附加示例插入到數據集中。而在分子性質預測數據集中,一般數據增強策略有兩種:一個是利用其他相關性質預測(例如相關蛋白質靶標的活性)的數據進行增強進而訓練網絡;另一個是對現有分子結構進行增強得到更大的數據庫進行網絡訓練,進而學習到較好特征進行分子性質預測。然而這兩種方法并沒有很成功,還需進一步研究。分子從頭設計與生成模型
分子生成模型從2017年開始出現,之后一直是一個比較熱門的研究領域。這些生成模型方法受到了來自計算機視覺和自然語言處理等領域的啟發,產生了許多神經網絡架構,網絡性能也在進一步提高。1.****分子生成模型的種類第一種可行的分子生成技術采用了被稱為自動編碼器(AutoEncoder, AE)(如圖3)的神經網絡。AE由編碼器和解碼器組成。編碼器以連續編碼的方式編碼分子,促進分子屬性的預測和優化,解碼器學習將一個優化的連續表示映射回具有改進屬性的分子圖,進而生成新分子。
圖3 生成模型的自動編碼器(AE)架構示意圖**[1]******
第三種方法稱為強化學習(ReinforcementLearning, RL)。該技術使用的網絡用于描述智能體(Agent)在與環境的交互過程中,通過學習策略達到回報最大化或實現特定目標的問題。RL應用于分子生成時,定義一系列“move”。這些“move”通過添加和修飾原子及原子鍵使分子生長或改變。目標通常被定義為基于預測模型的屬性值。之后網絡使用各種策略來實現目標。使用RL可生成滿足多個目標的分子,這些生成的分子與目標分子具有高相似性以及高類藥性等性質。
第四種生成方法文獻作者在此篇綜述中并沒有提及,筆者在此進行補充,該方法稱為生成對抗網絡(Generative Adversarial Networks , GAN)。GAN網絡由一個生成器(Generator)與一個判別器(Discriminator)組成。生成器生成類似于訓練集的數據, 判別器判斷數據的真假(是否來源于生成器)。生成器與判別器相互博弈,最終生成器生成的分子可以達到真假難辨的地步。
**2.**分子生成模型的分子表示方法
生成模型分子結構的文本表示首次應用的是SMILES(Simplified Molecular Input Line Entry System)字符串,進而將SMILES轉換成連續向量,然后根據所需要的性質進一步優化。優化后的新向量再被解碼成一個代表輸出分子的SMILES字符串。 在SMILES表征的基礎上,研究人員又開發了能夠有效處理分子圖的編碼和解碼算法,這種方法可明確地捕獲官能團及其空間排列,以及分子整體骨架等信息。 最近的研究進一步增加了分子的三維信息表示方式,探索了尋找優化分子的替代算法。其中一種方法是用給定的起始分子及改進性質后的對應分子作為配對進行訓練。這種方法可以被看作是匹配分子對分析(Matched MolecularPairs Analysis, MMPA)的神經網絡版本,其中模型在隱藏空間中學習軌跡,即使隱藏空間不平滑,也具有魯棒性,并支持生成不同的輸出(如圖4)。
圖4 使用編碼器解碼器生成分子的連續表示****[1]********
3.分子生成模型的相關研究
文獻作者列舉了分子生成相關應用研究,評估方法及未來發展前景。 分子生成的應用包括Merk設計的類視黃酮X受體(Retinoid X Receptors, RXRs)或過氧化物酶體增殖物激活受體(Peroxisome Proliferator-Activated Receptors, PPARs)的激動劑,Zhavoronkov設計生成的盤狀蛋白結構域受體1(Discoidin Domain Receptor 1, DDR1)抑制劑。而學者Walters和Murcko對生成模型提出質疑,因為生成的DDR1抑制劑與之前發表的上市藥物高度相關(見圖5)。于是,文獻作者引出生成模型的評估方法。
**圖5 模型生成化合物1與上市藥物ponatinib的比較
[1]**
生成模型評估方法有GuacaMol算法、分子枚舉比較方法以及Molecular Sets(MOSES)方法 (MOSES方法綜述作者沒有提及,筆者對其進行補充)。GuacaMol算法通過一系列的測試來評估算法生成分子的有效性、唯一性和多樣性以及評估生成模型探索化學空間的能力。分子枚舉比較方法使用生成的分子與化學空間(Zhang使用了GDB-13數據庫)詳盡枚舉的分子進行比較。 MOSES設計了一個分子生成基準平臺,該平臺提供了分子結構數據集、基準模型的實現方法以及它們的評估指標。其中評價指標與GuacaMol較為類似,主要有分子數據集分布指標與單個分子性質指標這兩類。 未來可能針對分子合成性開發基于可用試劑的分子生成模型,并生成具有目標性質(包括所需的分子相互作用,ADME性質等)的分子。
********總結與展望
雖然藥物發現領域由于人工智能的推動得到了加速發展,但它是一個復雜的過程,還有很多問題有待解決。 首先,藥物研發需要優化多個參數,包括靶點有效性,脫靶副作用,藥代動力學等。現有的研究只解決了其中部分問題。其次,研究人員需要用于正確構建研究模型的訓練數據,現有的數據有時會存在許多問題。未來研究人員可能會創建更加智能的方法來識別并排除可能包含錯誤的數據,構建模型的研究人員也會與實驗人員合作,確保數據適用于模型訓練。 我們不應該完全否定人工智能,但也不應該認為它是一種“萬能藥”。隨著人工智能繼續被用于藥物發現,它將成為藥物研發過程中廣泛使用的一種工具。
**參考文獻 *[1] W.Patrick Walters and Regina Barzilay. Applications of Deep Learning in MoleculeGeneration and Molecular Property Prediction. Accounts of Chemical Research. 2021, 54: 263-270.
供稿:胡楓
最近,以人工智能(ai)為基礎的新藥開發大幅縮短了新藥開發的時間和成本,因此備受關注。隨著深度學習(DL)技術的進步和藥物相關數據的增長,許多基于深度學習的方法正在藥物開發過程的所有步驟中出現。尤其值得一提的是,藥物化學家面臨著選擇和設計潛在藥物以進行臨床前試驗的重大問題。兩個主要的挑戰是預測藥物和可藥物靶點之間的相互作用,以及生成適合感興趣靶點的新分子結構。因此,我們回顧了近年來深度學習在藥物-靶點相互作用(DTI)預測和藥物從頭設計方面的應用。此外,我們還介紹了各種藥物和蛋白質表示、DL模型以及用于模型訓練和測試的常用基準數據集或工具的全面總結。最后,我們提出了未來基于dl的DTI預測和從頭設計藥物的剩余挑戰。
//www.ncbi.nlm.nih.gov/pmc/articles/PMC8470987/
隨著機器學習在各種應用領域的顯著成功,我們正目睹越來越多的人對機器學習在藥物發現和開發中的應用感興趣。
在本教程中,我們將介紹機器學習在過去幾年中取得的關鍵進展,并強調這些進展在藥物開發中帶來的根本性的新機遇。我們感興趣的是這些進步為什么以及如何幫助完成與藥品有關的任務。我們通過六個關鍵任務詳細闡述了機器學習在藥物開發中的應用:(a)合成預測和新藥設計,(b)分子性質預測,(c)虛擬藥物篩選和藥物靶標相互作用,(d)臨床試驗招募,(e)藥物再利用,(f)藥物不良反應和多用藥。
我們討論這些關鍵藥物相關任務的方法背后的理論基礎,闡明基于不同配方的各種方法,并總結代表性的應用。我們將涵蓋生成模型、強化學習以及深度表示學習和嵌入方面的最新進展。為此,我們提出了一個用于端到端藥物開發的人工智能算法工具箱。
藥物的發現和開發是一個漫長而昂貴的過程。它通常從分子和目標的實驗發現開始(即藥物從頭設計),并在轉入臨床試驗之前通過細胞系、類器官和動物的體外實驗驗證發現。一種新藥從發現到監管機構批準的整個過程可能需要長達12年,成本高達28億美元。此外,每個藥物開發階段都存在巨大的不確定性(1:50 000的成功率)。
機器學習方法已成為解決這些挑戰和加速藥物開發的一種有前途的工具。本教程將介紹以下與藥物相關的主要任務:
合成預測和藥物從頭設計(即從頭設計一個全新的分子)的目的是生成化學上正確的結構,以協助復雜的分子合成。
分子特性預測的目的是通過預測分子特性,如效力、生物活性和毒性,從分子數據來確定分子的治療效果。
虛擬藥物篩選和藥物靶標識別的目的是預測藥物如何通過與靶標蛋白結合并影響其下游活性來影響人體。
臨床試驗招募的目的是找到合適的醫生幫助進行試驗,以及找到合格的患者參與試驗。
藥物再利用尋求通過藥物化學、目標和藥物與疾病之間的副作用相似性來發現已知藥物以及新分子的新用途。
藥物不良反應、多重用藥和藥物-食品相互作用預測的目的是預測藥物不良反應產生的機制,建議替代藥物成員的預期藥理作用沒有負面的健康影響,并預測食品成分對相互作用藥物的影響。
然后,我們將討論解決這些與毒品有關的任務的主要方法:
生成模型。我們重點研究了適用于新分子設計的變分自編碼器(VAE)和生成對抗網絡(GAN)。他們以已知治療性質的以直線或圖形為基礎的化合物表示為輸入,將化合物編碼為潛在空間,然后解碼為新的藥物樣品。
強化學習。我們主要討論策略梯度法,最先進的分子生成方法,可以結合特定領域的分子合成知識。
深度表示學習。我們提出主要的神經體系結構學習表示藥物相關的數據。這些方法是相關的,因為它們在與藥物有關的任務中達到了最先進的性能。例如,這些方法被用于自動學習藥物指紋,學習藥物蛋白結合親和力,并招募患者參加臨床試驗。此外,圖嵌入方法用于研究藥物組合,并預測藥物效應,因為藥物擴散到生物網絡中,超出了它們直接結合的分子。
目錄內容: