亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

論文剖析

生物信息學|逆合成預測的學習圖模型 ///////////////

  1. 摘要

逆合成預測是有機合成中的一個基本問題,其任務是識別可用于合成目標分子的前體分子。為這一任務建立神經模型的一個關鍵考慮因素是將模型設計與化學家采用的策略相一致。基于這一觀點,本文介紹了一種基于圖的方法,該方法利用了前驅體分子的圖拓撲結構在化學反應中基本不變的觀點。該模型首先預測了一組將目標轉化為不完整分子的合成子。接下來,該模型通過附加相關的離去基來學習將合成子擴展成完整的分子。這種分解簡化了體系結構,使其預測更具可解釋性,也可以手動修正。我們的模型達到了53.7%的top1精度,優于以前的無模板和基于半模板的方法。 2. 介紹

逆合成預測,首先由E.J.Corey提出是有機合成中的一個基本問題,它試圖識別合成目標分子的一系列化學轉化。在單步逆合成中,任務是識別一組給定一個目標的反應物分子。除了簡單的反應之外,許多涉及復雜有機分子的實際任務,即使對專家化學家來說也是困難的。因此,需要進行大量的實驗探索來彌補分析方法的不足。這激發了人們對計算機輔助逆合成的興趣。

在計算上,主要的挑戰是如何探索能夠產生目標分子的反應的組合空間。在很大程度上,以前的逆合成預測方法可以分為基于模板的和無模板的方法。基于模板的方法將目標分子與一組大型模板進行匹配,這些模板是在化學反應過程中突出變化的分子子圖模式。盡管這些方法具有可解釋性,但它們并不能推廣到新的反應中。無模板的方法通過學習從SMILES的產物表示到反應物的直接映射來繞過模板。盡管這些方法具有更大的泛化潛力,但它們會逐個生成反應物SMILES特征,從而增加了生成的復雜性。

在建立逆合成模型時的另一個重要考慮因素是將模型設計與專家化學家采用的策略保持一致。這些策略受到化學反應的基本性質的影響,獨立于復雜性水平:(i.)產物原子總是反應物原子的子集,和(ii)從產物到反應物,分子圖拓撲在很大程度上沒有改變。例如,在標準的逆合成數據集中,產物中只有6.3%的原子的連通性發生了變化。

這種考慮在最近的基于半模板的方法中得到了更多的關注,該方法分兩個階段生成反應物:(i.)首先識別被稱為合成子的中間分子,(ii)然后通過連續生成原子或SMILES特征將合成子完成成反應物。我們的模型graphretro也使用了類似的工作流。然而,我們通過從預先計算的詞匯表中選擇被稱為leaving groups的子圖來避免完成合成子的順序生成。這個詞匯表是在預處理過程中通過提取合成物和相應反應物之間不同的子圖來構建的。該詞匯表的大小較小(USPTO-50k為170),表明存在顯著的冗余,同時覆蓋了99.7%的測試集。在這些子圖的水平上進行操作,大大降低了反應物生成的復雜性,并提高了經驗性能。這個公式還簡化了我們的體系結構,并使我們的預測更加透明、可解釋和易于手動校正。

評估合成模型的基準數據集是USPTO-50k,它包含了10個反應類別的50000個反應。數據集包含了一個預測編輯(化學反應前后發生變化鍵和原子)的意外快捷方式,因為在75%的情況下,具有原子映射1的產品原子是編輯的一部分,允許依賴于原子位置的預測高估性能。我們規范化產品SMILES并重新映射現有數據集,從而刪除快捷方式。在這個重新映射的數據集上,當反應類別未知時,graphretro方法達到了53.7%的top-1精度,優于無模板和基于半模板的方法。 3. 相關工作

現有的逆合成預測機器學習方法可以分為基于模板的方法、無模板的方法和最近的基于半模板的方法。

基于模板:模板要么由專家手工制作,要么從大型數據庫中算法提取。由于涉及子圖匹配過程,應用大型模板集的代價很高。因此,基于模板的方法利用不同的方式對模板進行優先排序,通過學習模板集上的條件分布,根據先前反應的分子相似性對模板進行排名,或使用邏輯變量直接對模板和反應物的聯合分布建模。盡管具有可解釋性,但這些方法無法在其規則集之外泛化。

無模板:無模板方法利用神經機器翻譯結構學習從產物到反應物的直接轉化。將分子線性化并不利用固有的豐富的化學結構。此外,反應物的SMILES是從頭開始產生的。人們試圖通過添加語法校正器和混合模型來提高建議的多樣性,但在標準逆合成數據集上的性能仍然低于基于模板的方法。Sun等人利用基于能量的模型制定了逆合成,并附加了參數化和損失項,以加強正向(反應預測)和反向(逆合成)預測之間的對稱性。

基于半模板:我們的工作與最近提出的基于半模板的方法,首先識別合成子,然后擴展合成子到反應物。為了降低反應物生成的復雜性,我們使用從預先計算的詞匯表中選擇的稱為leaving groups的子圖來完成合成子。這允許我們將合成子擴展視為一個分類問題,而不是一個生成問題。我們還利用了可能的編輯之間的依賴性圖,并使用該圖上的消息傳遞網絡(MPN)更新編輯預測。與以前的基于半模板的方法相比,這兩種創新的性能分別提高了4.8%和3.3%。

反應中心識別覆蓋了少量參與反應的原子。我們的工作還與預測反應結果的模型有關,通過學習對位于反應中心的可能性進行排序。識別反應中心的任務與在我們的公式中推導合成子的步驟有關。我們還利用可能的編輯之間的依賴圖,并使用此圖上使用MPN更新編輯預測。 4. 模型設計

我們的方法利用了圖拓撲從產物到反應物基本不變的特性。為了實現這一點,我們首先從被稱為合成子的產物中獲得合適的構建塊,然后通過添加leaving groups,將它們完成成有效的反應物。我們首先訓練一個神經網絡來預測可能的編輯的分數。然后將得分最高的編輯應用于產物,以獲得合成子。由于唯一的leaving groups的數量較少,我們將leaving groups的選擇建模為預先計算的詞匯表上的一個分類問題。為了產生候選反應物,我們通過化學約束規則將預測的離去基附加到相應的合成物上。圖1概述了整個過程。

  1. 結論

以往的單步逆合成方法要么限制對模板集的預測,要么對分子圖結構不敏感,要么從頭開始生成分子。我們通過引入一個受化學家工作流程啟發的基于圖的半模板模型來解決這些缺點,增強了逆合成模型的可解釋性。給定一個目標分子,我們首先確定合成的構建模塊,然后實現為有效的反應物,從而避免從零開始生成分子。我們的模型在基準數據集上比以前的半模板方法有顯著的優勢。未來的工作目標是擴展該模型,使其從多個合成物中實現單一反應物,并引入更多具有化學意義的成分,以提高此類逆合成預測工具與從業人員專業知識之間的協同作用。 原論文名稱: Learning Graph Models for Retrosynthesis Prediction

付費5元查看完整內容

相關內容

醫學領域的人工智能是使用機器學習模型搜索醫療數據,發現洞察,從而幫助改善健康狀況和患者體驗。 得益于近年來計算機科學和信息技術的發展,人工智能 (AI) 正迅速成為現代醫學中不可或缺的一部分。 由人工智能支持的人工智能算法和其他應用程序正在為臨床和研究領域的醫學專業人員提供支持。

本文介紹一篇來自浙江大學宋明黎教授課題組和侯廷軍教授課題組聯合發表的一篇文章。該文章提出了一種用于化學反應預測的緊湊的分子字符串表示。該方法基于分子的SMILES字符串表示和Transformer語言翻譯模型,通過在預處理階段對訓練集中的輸入輸出字符串進行對齊操作,來約束輸入與輸出之間的編輯距離并保證兩者的一一對應關系。這使得模型能從學習復雜的SMILES語法中解脫出來,而專注于學習與化學反應相關的化學知識。

1 研究背景 如何高效地設計有效的分子合成路徑是藥物設計與發現的一個重要研究領域。傳統的基于規則的分子合成專家系統往往需要大量的人工編碼規則。這種做法不但會受到規則的限制,而且隨著反應規則的增加,人工編碼規則的成本會越來越高,因此人們開始探索通過計算的方法來預測反應路徑。近年來隨著人工智能技術的興起,利用深度學習模型來進行反應預測成為了一種可行的方案。這些反應預測模型大體上可以劃分成兩類方法:基于選擇的以及基于生成的。基于選擇的方法將合成預測轉化成一個打分或分類問題,其目的是為了盡可能挑出可行的反應模板或目標分子來完成反應預測。這類方法由于在一定程度上引入了編碼后的化學知識,更容易完成反應預測,但都無法預測訓練集以外的模板或目標分子,這使得其難以泛化到復雜的實際應用中。基于生成的方法則可以緩解這一問題,因此如何提升基于生成的方法的效果成為了一個重要問題。

在當前基于生成的方法中,一種流行的計算模式是先將分子用SMILES字符串表示,再使用Transformer等自然語言翻譯模型來將反應預測建模成機器翻譯的問題。SMILES(simplified molecular-input line-entry specification)是一種根據分子圖的深度優先遍歷(depth-first traversal)而生成的分子的字符串表示形式,由于其本身的易讀性和易使用性,在反應預測領域得到了廣泛應用。由于SMILES是由深度優先遍歷而生成的,所以一個分子往往可以通過枚舉的方式,來獲得多個有效的SMILES表示形式,稱之為randomized SMILES。因此,一個化學反應通常也可以用多組不同的輸入輸出來表示,這作為深度模型的數據增強的一種手段而被許多模型所使用。但因為缺乏輸入與輸出之間明確的對應關系,這種數據增強實際上隱含了輸入和輸出之間的一對多關系,這使得計算模型不僅得掌握用于化學反應的相關知識,還得學習復雜的SMILES語法。盡管當前有一些標準化算法(canonicalization algorithm)可以將保證一個分子只能有一個canonical SMILES來表示,但這些標準化算法往往是針對單一分子而設計的,沒有考慮化學反應中反應物和生成物的SMILES之間的關系。因此通過這些算法而獲得的輸入輸出SMILES對,盡管保證了輸入和輸出的一一對應關系,但往往使得輸入和輸出之間較大的編輯距離(edit distance),最終導致了模型的搜索空間過大;同時這些算法也使得模型無法枚舉SMILES來進行數據增強來緩解模型的過擬合問題。

如圖1所示,與前人使用的randomized SMILES和 canonical SMILES不同,本研究提出的Root-aligned SMILES(R-SMILES),通過將輸入和輸出的根原子進行對齊的方式,不僅保證了輸入和輸出之間的一一對應關系,也大大約束了輸入和輸出之間的編輯距離,使得兩者之間高度相似。這些性質使得模型從學習復雜的SMILES語法中解脫出來,并專注于學習化學反應相關的化學知識。作者將R-SMILES應用到Transformer模型上,在正向反應和逆向反應的多個反應預測任務都進行了實驗,都取得了當前最先進的效果。作者還通過可視化Transformer模型中的交叉注意力,來進一步證明模型掌握到了想要的化學反應知識。此外,作者還證明了R-SMILES相比于以往的SMILES表示,在復雜反應(如手性反應)上更加具有優勢。最后作者通過讓模型預測了多條文獻中切實存在的多步反應路徑,來闡述在該方法在復雜的現實場景中的應用潛力。

圖1. 在逆向反應預測中基于不同的分子表示的輸入和輸出的對比。

2 實驗方法 實驗任務 作者在反應物到生成物、生成物到反應物、生成物到合成子、合成子到反應物等多個化學反應預測任務上都進行了實驗。為了簡化,將反應物(Reactant)簡寫為R,生成物(Product)簡寫為P,合成子(Synthon)簡寫為S,對應的反應預測任務也簡寫為P2R,R2P,P2S,S2R等。

數據集 本研究中使用了三個公開的分子反應數據集:USPTO-50K,USPTO-MIT與USPTO-FULL,這三個數據集分別包括大約50,000、400,000、1,000,000條反應數據。作者是用了與前人相同的數據劃分方式來保證對比的公平性。考慮到現實場景中往往無法獲知反應類型,在本研究中進行的所有實驗都不包括反應類型的信息。

R-SMILES 在逆向反應的P2R階段中,獲得R-SMILES的流程如表1所示,其中包含以下主要步驟:(1)隨機挑選一個帶有原子映射的反應SMILES作為原始數據;(2)在生成物SMILES中隨機挑選一個原子作為根原子,在表1中挑選了[Cl:8]作為根原子;(3)根據挑選的根原子,獲得一個新的生成物SMILES(4)移除生成物SMILES中的原子映射信息。(5)從左往右遍歷新的生成物SMILES的原子映射,如果該原子映射在某一個反應物分子的SMILES中出現,那么這個原子映射就作為該反應物SMILES的根原子。在表1中,[C:1]和[Cl:8]被選為兩個反應物分子的根原子;(6)根據新的根原子,獲得新的反應物SMILES;(7)將(4)和(6)中獲得的反應物和生成物的SMILES進行字符劃分,獲得模型最終的輸入和輸出。逆向反應的P2S階段的根對齊操作也與此類似。對于逆向反應的S2R階段,作者將生成物和合成子拼湊在一起作為模型的輸入。為了最小化輸入和輸出之間的編輯距離,作者將具有一一對應關系的合成子和反應物之間進行根對齊操作,而生成物則是向最大的合成子對齊。在正向反應的R2P階段,作者將生成物向最大的反應物進行對齊。 表1. 在逆向合成的P2R階段進行根對齊操作

3 實驗結果 使用R-SMILES后的編輯距離 表2. 有無根對齊下的編輯距離比較。Datasetxm::m為數據增強的倍數。Pro.:生成物SMILES。Rea.:反應物SMILES。

作者首先分析了在有無根對齊操作下,對于逆向預測的P2R階段的輸入輸出之間的編輯距離的變化。編輯距離指的是由一個字符串通過增加、修改、刪除字符來獲得另一個字符串所需要的操作數。可以看到與canonical SMILES對比時(即不進行數據增強的情況),使用R-SMILES后在三個數據集上編輯距離分別下降了21%、21%和16%。而在與randomized SMILES對比時(即進行數據增強的情況),R-SMILES減小編輯距離的效果變得更加顯著。在USPTO-50K數據集上進行5倍數據增強時,在使用R-SMILES后編輯距離保持不變,而不使用R-SMILES時編輯距離從17.9增長到了28.3,甚至達到了使用R-SMILES后的編輯距離的兩倍以上。

表3. 在USPTO-MIT數據集上R2P階段的top-K正確率。

表4. 在USPTO-50K(上)、USPTO-MIT(中)、USPTO-FULL(下)數據集上的P2R階段的top-K正確率。

與其他先進方法的比較 作者在這里主要選擇了top-K正確率來與其他方法進行比較,top-K正確率代表的是預測的前K個結果中出現正確結果的百分比。

**正向反應預測:**作者在兩種不同的實驗設置“separated”和“mixed”下進行了實驗。這兩種實驗設置的區別是是否在輸入的反應物中區分出試劑。如表3所示,可以看到無論是在哪一種實驗設置下,作者所提出的方法在除了top-1之外的所有正確率都取得了最好的效果。

逆向反應預測:作者在三個數據集上都進行了實驗。實驗證明,在數據量較小的USPTO-50K數據集上,作者提出的R-SMILES的方法在同類別的無模板(template-free)和半模板(semi-template)方法中的多個top-K正確率都達到了最先進的效果,其中無模板的方法甚至取得了與基于模板(template-based)的方法相媲美的效果。在數據量更大的USPTO-MIT和USPTO-FULL數據集上,作者的方法不僅在同類方法中取得了最先進的效果,且也大大優于基于模板的方法。在這里作者指出,在較大的數據集上,基于模板的方法的準確率會隨著模板數量增多而下降,同時也無法覆蓋測試集上的模板,最終導致了較低的準確率。

注意力可視化 作者進一步展示了在分別使用canonical SMILES和R-SMILES情況下訓練出來的模型進行逆合成預測時的注意力可視化的對比。作者隨機從測試集中挑選了四個分子的canonical SMILES作為輸入,并將Transformer的交叉注意力進行可視化,結果如圖2所示。在圖2a中,作者指出對于使用canonical SMILES訓練的模型,當輸入和目標輸出是高度相似的情況,模型可能可以捕捉到兩者之間的對齊信息并做出正確的預測,但對于每一個輸出的字符而言,都需要過分地關注于SMILE語法相關的字符,如‘)’,且這一現象存在于所有基于canonical SMILES所獲得的注意力圖中。而基于R-SMILES所獲得的注意力圖則不存在該現象,同時也做出了正確的預測。在圖2c中,盡管輸入和目標輸出是高度相似的,但基于canonical SMILES訓練的模型則給出了一張無序的注意力圖并做出了錯誤的預測。作者認為這表示了其捕捉對齊能力的不足。而對于圖2e, g中的輸入和輸出并不相似的反應,基于canonical SMILES訓練的模型再次給出了無序的注意力圖并且預測失敗。而基于R-SMILES的訓練的模型,對于這三個反應則成功地給出了有序的注意力圖并預測出了想要的R-SMILES。作者認為這些結果都說明了R-SMILES使得模型能夠專注于反應的化學知識,最終達到提高模型的預測準確性的目的。

圖2. 由canonical SMILES(左)和R-SMILES(右)所獲得的注意力可視化。

圖3. 在復雜反應上的top-10逆向反應預測正確率。(a) 根據新增原子數的正確率;(b)在反應有無手性時的正確率。

對復雜反應的正確率提升 新增原子數量:在圖3a中,作者指出,無論新增原子是多少,在使用R-SMILES的情況下總能取得更好的效果,而且這一提升會隨著新增原子數量的增多而增大,尤其是對于數據量較少的情況。這是因為R-SMILES減少了輸入和輸出之間的差異后,模型能夠更多地專注于新增的片段。

手性反應:手性是在立體化學中一項重要的分子屬性。在圖3b中可以看到,在不使用R-SMILES的情況,手性反應的正確率明顯低于沒有手性的反應的正確率(下降13.3%),而在使用R-SMILES后這一差距大大縮小(下降4.3%)。作者指出R-SMILES在兩方面上幫助了手性反應的預測正確率的提升:(1)這是由于手性反應的編輯距離減小的程度更加顯著;(2)對于USPTO數據集,進行R-SMILES對齊后的手性標志在反應前后往往是一致的,這大大降低了模型的學習難度。

多步逆合成反應預測 作者通過迭代使用基于R-SMILES訓練的逆合成預測模型,成功地復現了多種分子在文獻中報告的逆合成路徑,進一步驗證了方法的有效性。其中對于抗痛風藥非布索坦,作者除了復現了文獻中報告的逆合成路徑之外,還通過模型預測,提出了一條潛在的新的合成路徑,如圖4a所示。作者分別從產率和價格上分析了這兩條路徑:(1)作者指出第二條路徑中使用的硼酸酯,相比于第一條路徑的硼酸有更好的熱穩定性,且硼酸頻哪醇的引入可以有效地減少副反應的產生,即可以有效地提高產率;(2)在Reaxys數據庫中可以發現,第二條路徑的原材料相比于第一條路徑要便宜得多,因此作者認為他們的方法可能為非布索坦提出了一條更好的合成路徑。

圖4. 由R-SMILES訓練的模型所提出的多步逆合成預測路徑。

4 總結 本文提出了一種用于反應預測的新的分子表示形式R-SMILES,這一方法可以大大縮小輸入和輸出之間的編輯距離并保證輸入和輸出之間的一一對應關系。基于這一方法的Transformer模型能在當前主流的公開數據集USPTO上取得最先進的反應預測效果。作者還進一步展示了這一方法在復雜反應、多步逆合成預測上的效果來驗證方法的有效性。文章最后作者也指出R-SMILES可以與當前已有的自動化原子映射工具如Indigo、RXNMapper等相結合,應用到沒有原子映射的其他數據集上。這些結果表明對于反應預測而言,R-SMILES是一種更為合理的分子字符串表示形式,有望能幫助到相關領域的研究人員。

參考資料 Root-aligned SMILES: A Tight Representation for Chemical Reaction Prediction. Chem. Sci. 2022. DOI: 10.1039/D2SC02763A

付費5元查看完整內容

今天給大家介紹韓國江原國立大學Umit V.等人在2022年在Nature Communications發表的一篇名為“Retrosynthetic reaction pathway prediction through neural machine translation of atomic environments”的文章[1]。盡管有機化學的知識已經積累了幾十年,但為藥物分子設計有效的合成路線仍然是有機合成中的一項關鍵任務。在這項工作中,作者提出一種新的單步逆合成預測方法:RetroTRAE,即通過學習參與化學反應的原子的環境變化來預測候選反應物。結果顯示,在UPSTO測試數據集上的Top-1準確率為58.3%,在相似化合物較多的情況下,準確率為61.6%,優于其他基于神經機器翻譯的逆合成方法。同時該方法可有效解決基于SMILES方法的不可解釋性以及生成無效字符串等問題研究背景

逆合成設計是有機化學的關鍵問題之一。現有的逆合成方法可分為基于模板的方法和無模板的方法。其中基于模板的逆合成方法不僅需要克服枚舉反應模板而導致的高計算成本,且只能預測模板庫中的反應。而無模板方法可有效避免上述的問題,在預測逆合成時表現出更強的泛化能力。無模板方法可進一步細分為基于圖神經網絡的逆合成預測算法和基于序列的逆合成預測算法。其中,基于序列的逆合成預測算法將反應路線的預測問題看作一項語言翻譯任務來處理,將產物的SMILES轉化為反應物的SMILES。但目前生成的無效SMILES字符串數量較多,可分為兩種類型:(1)語法無效的SMILES字符串;(2)語法有效但語義無效的SMILES。 這項研究通過將反應物的原子環境(Atom Environments, AE)與目標分子相關聯,使用原子環境替代傳統的SMILES進行單步逆合成預測。該方法使我們通過關注與反應中心相關片段來捕捉化學變化。實驗結果表明該算法的性能大大優于現有方法。************模型與方法****************1.模型框架

作者使用原子環境(AE)替代SMILES進行逆合成預測,AE是指以特定原子為中心,不同“半徑”的圓形拓撲鄰域片段,也包含所涵蓋原子之間的所有化學鍵。其中,“特定原子”稱為中心原子,“半徑”指的是中心原子和所有共價鍵原子之間允許的最大拓撲距離。因此半徑為 r 的AE包含分子中與中心原子的拓撲距離為 r 或更小的所有原子,以及它們之間的所有鍵。根據定義,r = 0 的AE只包括中心原子類型的原子,表示為AE0。r = 1的AE包含中心原子、與中心原子相鄰的所有原子,以及中心原子與這些原子之間的所有鍵,表示為AE2。如圖1(b)所示,化合物苯的文本描述是以常見的SMILES、SMARTS模式,和新開發的SELFIES模式,以及代表ECFP指紋的AE。 圖1(a)提供了該模型的整體流程。首先將產物分解為一組AEs。由SMART模式描述的每個AE都與一個特殊的整數值有關。將AEs列表作為模型RetroTRAE的輸入序列,用該模型來預測反應物的AE序列。

圖1 (a):RetroTRAE模型流程圖;(b)苯的字符串表示以SMILES、SELFIES以及SMARTS模式。在AEs渲染中,中心原子以藍色突出,而芳香族和脂肪族環狀原子分別以黃色和灰色突出。通配符[*]被用來代表任何原子******[1]**********************2.分子片段比較

找到一組最準確地代表分子結構的最佳片段是提高逆合成預測性能的關鍵因素。因此作者使用多個不同的分子片段描述在單反應物測試集中進行逆合成預測評估。如表1所示,作者一共選擇了三種分子片段的描述方法進行比較,并分別使用不同的模型框架,性能評價選擇衡量相似度的谷本系數(Tanimoto Coefficient, Tc)。 首先,基于Transformer的逆合成模型,在準確性方面與以前基于BiLSTM的方法相比有很大的改進。其次,在MACCS、ECFP2、ECFP4、AE2、AE0∪AE2幾種不同的分子片段描述方法中,基于AE0∪AE2的分子Transformer模型性能最佳,達到了55.4%的精確匹配精度。增加生物活性相似的預測(Tc ≥ 0.85)后,準確率也相應提高,模型的總體準確率達到68.1%。因此,作者把具有AE0和AE2聯合的Transformer模型命名為RetroTRAE。 表1 在單反應物測試集中使用不同分子片段方案訓練的Transformer模型的性能總結以及與基于BiLSTM的模型的比較******[1]**********

**************結果與討論**************1.RetroTRAE模型性能

與基于SMILES的方法不同,使用AEs的一個優點是解碼不會生成無效或完全不同的分子。模型可解碼生成與真實分子高度相似的AEs預測集,為逆合成預測提供有用的信息。 除了采用精準匹配(Tc = 1.0)方式來評估準確率以外,作者在評估模型性能時又增加了四個不同評價節點,四個節點可以分為兩類:(a)硬閾值;(b)軟閾值。作者將硬閾值定義為單片段(SM)或雙片段(DM)差異。反之,將基于Tanimoto系數的任意閾值稱為軟閾值,如Tc ≥ 0.85,用來篩選具有相似生物活性的分子。作者更強調硬閾值的使用,與軟閾值相比,硬閾值(SM/DM)預測分子與真實分子相比,只有某些子結構、官能團等差異,這些小的差異很容易通過與真實分子的視覺比較,找到與真實反應物不同的片段類型和數量,然后進行改正。 作者使用經過過濾的美國專利反映數據集USPTO-full的子集進行模型的性能評估和比較。忽略數據集中的多組分反應,因為此類反應在整個數據集中所占比例不足1.65%。然后根據反應物的數量,最終確定兩個不同的數據集,分別包括單反應物(R—>P)和雙反應物(R1+R2—>P)類型的反應,大小分別為100 K 和314 K。 此外,作者就使用數據增強、是否使用位置編碼等問題對模型進行更廣泛的訓練。研究表示,使用數據增強、位置編碼以及超參數優化等方法均可提高模型準確率,穩定模型訓練。評估結果匯總在表2中。結果表示,在擴增10倍的單反應物和雙反應物數據集上,RetroTRAE在精確匹配(Tc = 1.0)方面達到了56.4%和60.1%的準確率。同時,作者適當放寬閾值提高模型成功率,當允許單片段突變(SM)時,單反應物和雙反應物的成功率分別增加到58.1%和60.9%。允許雙片段突變(DM)時,相應的預測結果提高為60.5%和62.7%。 表2 RetroTRAE模型預測準確率******[1]**********

2.模型的可解釋性

作者通過觀察注意力權重,以解釋該模型實際上學到了什么。RetroTRAE模型更關注反應中心附近的AEs變化,例如開環反應等,如圖2所示。這充分證明,與SMILES描述符相比,AE描述符是有化學意義的,而且本身是可以完全解釋的。且該模型可與適當的搜索算法(如蒙特卡羅樹搜索)相結合,預測多步逆合成路線。 圖2 解碼注意力可視化及RetroTRAE模型的可解釋性(a)單反應物數據集的開環反應;(b)雙反應物數據集的解離反應******[1]******3.逆合成預測樣例

如圖3所示,作者介紹針對硬閾值產生的三種預測結果,首先是為精確預測(圖3a),RetroTRAE模型在測試集中的精確預測率為58.1%。其次是發生SM和DM的情況(圖3b、圖3c)。據統計,解碼發生SM和DM的數量共占總預測量的3.3%。為了證明硬閾值(SM/DM)設定的可行性,作者隨機選擇了10個SM對和10個DM對,比較單片段和雙片段突變與真實分子之間的相似性。研究表明,20對結構的平均Tc為0.91,RDKit產生的指紋圖譜兩兩相似度為0.97,這些結果表明,硬閾值(SM/DM)所獲得的預測結果是較為可靠的。 在單片段突變(SM)情況下,所有相連的原子類型都要與真實分子相同,因此只可能會發生有兩種類型的結構變化。首先,由于單一原子環境的錯位(例如,在鄰位/間位/對位),可能出現一個新的原子環境(或現有的環境消失)。其次,在化合物末端增加或減少一個現有的AE。雙片段突變(DM)的情況一般發生在錯位的側鏈AE或單原子的替換。

圖3 RetroTRAE模型樣例(a)精準預測(b)單片段突變(c)雙片段突變,顏色表示原子級對總體相似度的貢獻(綠色:相似度得分增加,紅色:相似度得分減少,未著色:無影響)******[1]**********4.與現有模型比較

由于模型沒有預先提供反應類信息,因此作者將該方法與其他不考慮反應類標記的逆合成預測方法進行了比較。結果如表3所示。RetroTRAE模型達到了58.3%的平均top-1準確率,超過了現有的基于NMT的無模板模型。允許SM和DM時,模型準確率提高到61.6%,是目前逆合成模型的最佳水平。表3 無反應類別的逆合成預測模型的top-1準確率比較******[1]**********

5.通過原子環境檢索候選反應物

使用RetroTRAE模型進行預測后,得到的結果是預測反應物的AE的集合,可以通過數據庫搜索來檢索,成功檢索到即證明模型預測的AEs可以完全還原為真實分子或高度相似的分子。作者使用PubChem研究了1000個USPTO測試分子檢索反應物候選的成功率。檢索測試結果顯示,超過一半的預測(55.7%)可以被準確檢索(圖4)。允許SM后,檢索成功率提高了約30%。當允許DM時,所有的測試分子都能被成功檢索到。這證明模型得到的所有結果最多只有兩個AE的差異。以上結果表明,用AEs表示和預測分子是一種可行實用的方法。

圖4 在大型PubChem化合物庫檢索候選反應物****[1]********************總結

作者提出結合Transformer架構和原子環境(AE)表示法,開發了新的無模板逆合成預測模型,即RetroTRAE。實驗證明,與傳統的基于SMILES的逆合成預測模型相比,使用AE作為描述符進行逆合成預測精度提高,且具有可解釋性,同時解決結構指紋在無模板的逆合成方法中的應用問題。該研究結果將為利用序列數據開發化學的NMT模型提供新的可能性,相信這種方法在有機化學中具有廣闊的應用前景。 **參考文獻 **

[1] Ucak UV, Ashyrmamatov I, Ko J, et al. Retrosynthetic reaction pathway prediction through neural machine translation of atomic environments. Nat Commun, 2022. 13(1): p. 1186.


供稿:張紅文

校稿:刁妍妍/張夢婷編輯:毛麗韞華東理工大學/上海市新藥設計重點實驗室/李洪林教授課題組▼招聘博后▼華東理工大學李洪林教授團隊誠聘博士后

Li's Lab地址:上海市梅隴路130號 電話:課題組網站: 長按掃碼可關注

付費5元查看完整內容

在過去幾十年里,計算機在化合物逆合成領域的應用取得了巨大的發展。本文分享了當前已有的計算機輔助逆合成工具,并討論了目前逆合成預測方法所面臨的挑戰和機遇[1-2]。

背景

逆合成的概念最初由Corey在20世紀60年代提出,用來描述通過斷鍵將一個復雜的目標分子還原為一個簡單前體的迭代過程,即從產物出發, 搜索可能的前體,最終找到可商購獲得的反應物。最初的逆合成預測主要依賴于經驗豐富的化學家的已有知識或經驗,缺乏系統的方法,所以難以滿足一直不斷快速增長的新有機化學反應的需求,也無法用于預測新的化學反應。近年來,得益于快速發展的數據驅動模型以及大型反應數據庫,化學家和計算機科學家在計算機輔助逆合成方面取得了顯著的進步。 本文是對目前人工智能輔助逆合成方法的綜述,介紹并評估了在過去五年中開發的計算機輔助逆合成工具,結尾討論了逆合成研究的未來發展方向以及目前面臨的挑戰。

逆合成基本理論

計算機輔助化合物合成路線規劃(CASP)的框架通常由四部分組成,包括:建議斷開的模板庫、根據目標分子生成候選反應物的遞歸模板應用模塊、具有市售起始材料的化學物數據庫、以及單步或多步合成步驟評分方法。在過去十年中,由于大型反應數據庫的建立和數據驅動計算工具的進步,逆合成預測方法取得了重大進展[3],本節主要介紹了逆合成方法中的一些關鍵概念。

反應的模板

反應模板是用于確定反應物如何通過斷鍵轉化為產物的一組規則。以前的反應模板是化學家定義和手動編碼的。例如Chematica,它是目前商業上可用的、手動編碼的反應庫之一,其涵蓋了大多數已知的反應規則,但手動編碼現在所有的化學反應是一項艱巨的任務。一種更先進的反應編碼方法是通過原子-原子映射算法提取反應中心,從而識別反應物和產物原子之間的對應關系。對于給定的反應,將一組鍵連接性改變的原子確定為反應中心,然后通過算法提取反應中心和相鄰原子并進行泛化,最終形成相應的逆合成模板(圖1)。

圖1** 酯化反應SMARTS模板**[2]****逆合成方法評估

評估單步逆合成模型性能的一個常見指標是 Top-N 準確度,即在前n條推薦結果中出現數據集中記錄的標準前體數量的百分比。該指標需要分子結構的精確匹配。此外,也可以通過分子相似性評分進行評估,即相似性得分為 1 表示結構相同。但近期研究人員們認為這種指標用來評估模型性能并不適合。 基于模板的逆合成模型

基于模板的逆合成模型是通過解決子圖同構問題將目標分子與整個模板庫匹配以獲得候選反應物(圖2)。該方法通常需要對反應數據庫進行詳盡的枚舉,因此需要輔以高效的圖論算法和虛擬篩選技術。

圖2** 基于模板的逆合成模型(阿司匹林逆合成預測)[2]**

同時,為了量化分子結構的可合成性,在模型中引入可合成性的評價指標。傳統的評價指標依賴于生成的SMILES字符串的長度,旨在將目標分子分成盡可能小的反應物。最近新的評價指標有:合成可行性分數(SASCORE)、SCScore、DRSVM以及分子復雜度等[4]。 基于模板的方法準確性較高,這主要是因為該方法的可解釋性,以及該方法需要提供指定的化學前體。然而,該方法對計算能力需求很高,并且在模板庫之外的泛化能力有限。

機器學習在基于模板的逆合成模型中的應用

基于模板的逆合成模型的研究主要集中在克服因枚舉反應模板而導致的高計算成本。為了解決這個問題,研究人員利用機器學習只選擇相關的模板,而不是使用完整的模板庫。這類基于模板的模型被稱為“聚焦模板應用程序”。該方法可以減少原來基于模板的方法的高計算強度,同時保持生成結果的化學可解釋性,但是仍然無法預測反應模板庫外的新反應。

無模板的逆合成模型

最近,無模板的逆合成方法引起了越來越多的關注,因其避免了高計算成本的子圖匹配問題。該方法利用分子的文本表示(SMILES或InChI)將逆合成問題轉換為序列到序列(seq2seq)預測問題,即將產物的SMILES字符串轉化為反應物的SMILES字符串。 無模板的逆合成模型顯示出優于基于模板方法的兩個優勢。首先,該模型可以隱式地學習反應規則和候選排名指標,從而避免了反應復雜度排名指標的使用。其次,無模板模型更加簡便,手動編碼反應模板仍然是基于模板的方法的主要缺點之一。 但無模板方法在逆合成預測中仍然相對較新。該領域的最新發展依賴于僅包含注意力機制的NLP模型,例如Transformer。并且目前無模板方法的預測準確率仍稍落后于基于模板的方法。解決無模板方法中無效 SMILES 字符串的輸出是提高該方法準確性的關鍵。

小結

機器學習通過從豐富的化學知識中學習,為多步逆合成規劃框架做出了貢獻。然而,基于機器學習的逆合成模型的性能在很大程度上取決于反應數據庫的質量。從文獻中收集的反應數據可能具有噪聲大且不準確的問題,所以高質量的數據庫將加速逆合成模型的進一步發展。 同時單純基于數據驅動的逆合成模型有時會缺乏可解釋性。尤其是基于序列的無模板方法可能會忽略斷鍵背后的重要化學意義,這會導致解碼生成不可行的逆合成路徑。因此提高機器學習可解釋性的方法可能是應對這一挑戰的解決方案。同時,由于大多數反應數據以常見反應類型為主,罕見反應在數據集中代表性不足,因此機器學習模型會從數據集中出現次數多的斷鍵規則中學習,從而忽略其他罕見但更加簡單的反應途徑的斷鍵可能性。減少模型偏差的一個解決方案是將數據驅動方法與基于模板的方法相結合。這兩種方法的結合可以提高模型的可解釋性,并為逆合成問題提供新穎有效的解決方案。 任何計算機輔助化合物逆合成路線規劃,都應通過實驗驗證,以確定計算機輔助逆合成方法的真實性能。此外,訓練數據中缺乏實驗條件是當前逆合成方法的另一挑戰。 人工智能驅動的藥物合成給社會帶來極大的便利。在數字化趨勢的推動下,人工智能有望成為建立自動化化學合成系統的基本組成部分,最終成為未來的“機器人化學家”。

**參考文獻 **

[1] Ucak U , Ashyrmamatov I , Ko J , et al. Retrosynthetic reaction pathway prediction through neural machine translation of atomic environments. Nature Communications, 2022, 13(1). DOI: 10.1038/s41467-022-28857-w. [2] Sun Y, Sahinidis N V. Computer-aided retrosynthetic design: fundamentals, tools, and outlook. Current Opinion in Chemical Engineering, 2022, 35: 100721. [3] Segler M , Preuss M , Waller M P . Planning chemical syntheses with deep neural networks and symbolic AI. Nature, 2018, 555(7698):604-612. [4] Thakkar A , V Chadimová, Bjerrum E J , et al. Retrosynthetic accessibility score (RAscore) – rapid machine learned synthesizability classification from AI driven retrosynthetic planning. Chemical Science, 2021. DOI: 10.1039/D0SC05401A.


供稿:張紅文

校稿:張夢婷/謝金欣編輯:王思雨華東理工大學/上海市新藥設計重點實驗室/李洪林教授課題組▼招聘博后▼華東理工大學李洪林教授團隊誠聘博士后

Li's Lab地址:上海市梅隴路130號 電話:課題組網站: 長按掃碼可關注

付費5元查看完整內容

本文提出了一種融合了對比學習和概率表示的自監督表示學習方法——概率視頻對比學習。我們假設構成視頻的片段在短期內有不同的分布,但可以通過組合在一個共同的嵌入空間中來表示復雜和復雜的視頻分布。因此,該方法將視頻片段表示為正態分布,并將它們組合成混合高斯分布來建模整個視頻分布。通過從整個視頻分布中進行采樣嵌入,我們可以繞過仔細的采樣策略或轉換來生成視頻片段的增強視圖,而不像以前的確定性方法主要關注對比學習中的這種樣本生成策略。我們進一步提出了一種隨機對比損失來學習合適的視頻分布和處理原始視頻的固有不確定性。實驗結果證明,在UCF101和HMDB51等最流行的基準上,我們的概率嵌入是一種最先進的視頻表示學習,用于動作識別和視頻檢索。

//www.zhuanzhi.ai/paper/e9a8860b49e4b44cee3e7cf2b74a4c33

付費5元查看完整內容

逆合成設計是有機化學的關鍵問題之一。由于在反應的每一步理論上都有成千上萬種可能的轉化導致設計的搜索空間是巨大的,即使是有經驗的化學家處理這個問題也是十分棘手的。

單步逆合成預測對給定產物可能的直接反應物列表的預測,盡管單步合成法不斷得到改進,但現實世界中的大多數分子都無法在一步之內合成。合成步驟的數量可以達到60個甚至更多。單步逆合成法面臨著巨大的搜索空間和性能測量及基準測試模糊性的挑戰,為實現多步逆合成設計奠定基礎。

在本文中,作者提出了一種新的基于學習的逆合成設計算法Retro*來學習以前的設計經驗,該算法框架可以歸納出保證最優解的搜索算法。另外,作者提出了一種構建合成路線數據集的方法,用于對多步合成設計方法進行定量分析。其設計算法是通用的,它也可以應用于其他機器學習問題,如定理證明和分層任務設計,實驗結果表明該算法的性能大大優于現有方法。

//www.zhuanzhi.ai/paper/84dcdb8686f27852f81a0a23d48ce2dd

付費5元查看完整內容

新藥發現(Drug Discovery)領域中的一個基礎問題是預測目標分子的合成路線,即逆合成預測(Retrosynthesis Prediction)。現有的方法大多將給定的目標分子(產物)與許多化學反應模版匹配,從而預測可能的反應物。然而,模版匹配耗費大量的算力,并且這些方法在新數據集上的泛化能力也欠佳。本文提出了一種名為G2Gs的不依賴化學反應模版的方法。G2Gs通過一系列圖變換,將產物分子轉換(或稱為翻譯)到反應物分子。G2Gs首先通過一個反應中心預測模塊,將產物分子分解為多個合成子。然后它通過一個變分圖翻譯模塊,將每個合成子轉換到最終的反應物分子。實驗結果表明,本文提出的方法的性能遠優于那些不依賴反應模版的方法。并且,G2Gs的性能與基于模版的方法相近,但它不依賴任何領域知識,也有更好的可擴展性。

本文第一作者史晨策是北大計算機科學技術系2016級本科生,也是第一屆圖靈班學生,獲得北京大學信息科學技術學院“十佳”優秀本科畢業論文獎,已被MILA唐建教授錄為研究生。

付費5元查看完整內容

題目: A Graph to Graphs Framework for Retrosynthesis Prediction

摘要:

計算化學的一個基本問題是找到一組反應物來合成一個目標分子,即逆合成預測。現有的最先進的方法依賴于將目標分子與大量的反應模板進行匹配,這些模板的計算成本非常高,而且還存在覆蓋問題。在這篇論文中,我們提出了一種新的無模板方法,稱為G2Gs,通過將一個目標分子圖轉換成一組反應物分子圖。G2Gs首先通過識別反應中心將目標分子圖分割成一組合成圖,然后通過變分圖翻譯框架將合成圖翻譯成最終的反應物圖。實驗結果表明,G2Gs在準確率方面顯著優于現有的無模板方法,最高可達63%,其性能接近于最先進的基于模板的方法,但不需要領域知識,且可擴展性更強。

付費5元查看完整內容
北京阿比特科技有限公司