編譯 | 程寧 本文介紹由韓國科學技術院的Shuan Chen與Yousung Jung發表于Nature Machine Intelligence的研究工作。作者提出了一種基于原子映射的通用反應模板GRT用于描述有機反應,并在此基礎上提出LocalTransform圖注意力網絡來預測分子之間的有機反應。由于模板僅描述反應前后原子結構變化,大大減少了反應規則的數量,實驗結果表明LocalTransform準確率優于現有先進模型。除了通用反應模板內置的可解釋性外,score–accuracy相關性也使得模型具有可解釋性。
1 簡介
預測有機反應結果是化學中的一個基本問題,利用計算機模型精準預測有機反應能夠大大加快新分子的設計過程。目前已存在一些機器學習方法來預測有機反應,然而現有模型大多利用化學語言或者分子序列來對有機反應進行預測,這與資深化學家通過識別具體反應的子結構并通過已有化學知識判斷有機反應有很大區別。
針對上述問題作者提出了一種新的描述有機反應的模板GRT(Generalized Reaction Template),并在此基礎上提出預測有機反應的圖神經網絡模型LocalTransform。作者的貢獻如下: (1)提出了一種描述有機反應的通用模板GRT。針對USPTO-480k數據集,GRT能描述99.7%的有機反應,對于top-100的有機反應覆蓋率能夠達到94.6%。
(2)基于GRT提出了LocalTransform圖神經網絡以預測分子之間的有機反應,實驗結果表明該方法優于以往基于圖的方法。 (3)由于模型是基于分類的方法,具有很強的score–accuracy相關性,因此具有一定可解釋性。
2 方法
2.1 GRT通用反應模板 作者認為先前基于模板的方法性能較低的原因是模板中包含太多詳細信息從而導致其低覆蓋率和低擴展性。因此作者提出了僅描述反應前后原子結構變化的反應模板(GRT)用于描述有機反應。
圖1展示了GRT模板提取過程示例,首先根據反應前后分子變化抽象出具體反應位置,其中原子由通用原子符號“A”表示,然后根據分子具體變化類型分為四類:ATTACK、CHANGE、BREAK和REMOTE,并標注電子的移動情況。不同模板可能涉及不同數量的變化,在特定反應中心完成所選GRT所需的變化稱為AoT。
圖1 GRT提取過程
2.2 LocalTransform模型 ①分子圖的構建。每組反應物通過兩個分子圖構成:特征圖Gf和密度圖Gd,分別記為Gf = (Vf, Ef)和Gd=(Vd, Ed),V表示原子,E表示化學鍵。Gf包含現有的原子特征和化學鍵特征,通過現有的化學鍵或虛鍵來連接可能的原子對,用于潛在的鍵形成、斷裂和變化的預測。兩個圖都可通過DGL-LifeSci庫來構建。
②提取分子圖中每個原子的鄰居特征。使用基于門控循環單元的MPNN對原子特征進行三次迭代更新,如公式(1),hu其中表示原子u的特征,hv表示相鄰原子特征,huv表示相鄰鍵的特征,最終得到原子在處更新后的特征。
③全局原子感知注意力機制。為了使反應物中的原子能夠感知潛在的相互作用的電子,設計了一個基于Transformer的多頭注意力機制。原子u和v之間注意力評分如公式(2)所示。
其中Wq和Wk分別是查詢權重和鍵權重,T是轉置運算符,dz為歸一化因子,ru,v為相對位置embedding,可以通過公式(3)獲得Du,v。
從原子到原子的消息通過公式(4)傳遞。
上述為非線性變化的權值和偏差,激活函數為ReLU。 最后通過連接門控單元轉換原子特征。如公式(5)所示。
在MPNN學習到原子的局部環境后,反應物中的所有原子通過距離感知全局注意力網絡進一步尋找與其他原子的關系信息,以進行潛在反應。
④組合特征構建和池化。將稠密圖中有向圖的已有鍵和虛鍵的特征拼接成一個原子特征,如公式(6)所示。并將其作為神經網絡的輸入,如公式(7)所示。
⑤全局注意力網絡。鍵的特征被輸入到另一個全局注意力神經網絡,通過進一步學習聚合反應鍵之間的關系信息來對每個反應鍵的反應性進行排名。如公式(8)所示。
⑥AoT預測。使用雙層神經網絡對每個鍵的AoT進行預測,并通過SoftMax將最終預測結果轉換為每個鍵的AoT得分,如公式(9)、(10)所示。訓練LocalTransform的Loss為反應池化和AoT預測的交叉熵損失之和,如公式(11)所示。
⑦AoT排序和采集。預測出AoT的分數后,將所有鍵的預測AoT按分數排序,逐一收集預測AoT,直到收集到的AoT滿足預測GRT的所需要的反應變化。最后,將預測的GRT應用于預測的反應中心。
圖2 LocalTransform模型預測流程
3 實驗
3.1 在USPTO-480k數據集的預測結果 表1展示了USPTO-480k數據集上本文模型以及其他模型的預測結果,實驗表明除了top-1之外,LocalTransform模型均優于其他模型。雖然在top-1預測中Chenformer的效果比文中模型精度提高了0.5%,但在其他top-k的預測精度均小于LocalTransform。
表1混合預測場景下USPTO-480k數據集的top-k精確匹配精度
此外,模型會為每個預測對象生成分數作為其排名,預測分數可以解釋為給定有機反應的預測結果的置信度。由圖3可以看出模型預測分數越高,兩種分子之間具有實際反應的概率越高。統計結果顯示對于預測分數大于0.99的例子來說,其反應匹配正確率高達98.4%。
圖3 top-1精確匹配準確度和作為預測分數函數的反應百分比
對于預測分數高于0.99但是匹配失敗的例子,作者表示模型預測了一些更加合理或更有可能的反應,圖5中有4個有機反應被Schwaller等人認為是由于數據集本身的錯誤。
圖4 模型預測分數大于0.99但匹配失敗的例子
3.2 與專家對比結果 從測試集中獲取80個稀有有機反應,人類專家和WLDN、Molecular Transformer、LocalTransform模型同時進行預測,參與實驗的11位專家中選取得分最高的人,預測結果如圖5a所示,可以看出LocalTranform取得了最好的結果,正確預測了 80 個反應中的 75 個。基于文中提出的GRT再次對數據進行分類,LocalTranform依然取得了最好的結果,如圖5b所示。
圖5 不同模型與專家的預測結果
4 總結
在這項工作中,作者首先提出了一種用于描述有機反應的通用反應模板GRT,該模板能覆蓋大部分有機反應,具有極大的靈活性與簡便性;然后基于此提出LocalTransform模型,通過識別反應中心并利用GRTs來預測有機反應;最后通過實驗證明了該模型的有效性,并分析了識別錯誤的例子,指出模型很大程度上受限于反應映射的質量以及數據集中反應的多樣性,預期未來通過使用具有更高質量原子映射方法的數據集以改進模型。
參考資料 論文鏈接: //doi.org/10.1038/s42256-022-00526-z 項目源碼鏈接: 數據鏈接:USPTO-480k數據集: 圖數據:
本文介紹韓國大田 KAIST 化學與生物分子工程系與人工智能研究生院的Yousung Jung團隊2022年9月15日發表在Nature Machine Intelligence的研究成果A generalized-template-based graph neural network for accurate organic reactivity prediction。Yousung Jung團隊提出了一個化學驅動的圖神經網絡,稱為LocalTransform,它基于廣義的反應模板學習有機反應性,以描述反應物和產物之間的電子構型的凈變化。所提出的概念極大地減少了反應規則的數量,并表現出最先進的產物預測精度。除了廣義反應模板的內在可解釋性外,該模型的高分值-準確率相關性使用戶可以評估機器預測的不確定性。
背景
預測有機反應產物是有機化學的一個基本問題。基于成熟有機化學知識,化學家現在能夠設計實驗來制造用于不同目的的新分子。但是,它需要經驗豐富的專業化學家來準確預測化學反應的結果。為了進一步幫助有機化學家并在數字化學時代實現全自動發現,機器智能可以準確預測有機反應的產物,大大加快新分子的設計過程。最近,已經提出了幾種基于機器學習的方法來預測有機反應產物,但仍然需要改進反應預測模型才能達到足夠的準確性,與普通有機化學家相當或更好。由于幾種基于模板的方法的覆蓋范圍和可擴展性問題,科學家們提出了使用基于序列的模型或基于圖模型的無模板方法。盡管這些方法在公共反應數據集上表現出有希望的準確性,但當前最先進的方法仍然以機械方式預測有機反應的產物,要么翻譯化學語言,要么按順序編輯分子圖。相比之下,知識淵博的化學家通常通過識別反應中心并應用所學化學知識來預測有機反應性來和預測反應產物。
研究人員設計了廣義反應模板(GRT, generalized reaction template),一種僅描述基于原子映射的反應前后原子構型的局部變化但沒有特定原子類型或官能團信息的反應模板,并提出了一個基于圖機器智能的LocalTransform框架來預測反應產物。LocalTransform 通過識別反應中心以及要應用的 GRT 來預測反應產物。它通過全局注意力機制學習根據局部化學環境和選擇性識別反應原子。最終反應轉化由反應模板分類器預測,該分類器為預測的化學反應中心建議最可能的 GRT。
LocalTransform 在預測有機反應方面的三個重要突破: * GRT 在化學上是直觀的和通用的。提取的 GRT 可以描述所有測試反應的 99.7%,而前 100 個最流行的反應模板可以描述所有訓練反應的 94.6%,從而解決了以前基于模板的方法的覆蓋率和可擴展性問題。 * 證明了 LocalTransform 有前景的 top-k 產物預測精度,與以前的基于圖的方法相比有顯著改進。 * 由于模型是一種基于分類的方法,具有很強的分數-準確性相關性,它使用戶能夠理解不確定性并信任機器預測。
研究結果
GRTs 受有機反應主要是電子重排過程的啟發,研究人員在此推導出GRT,它描述了反應前后電子構型的凈變化,而不包括任何特定的原子類型或官能團信息。
LocalTransform 基于提出的 GRT,研究人員開發了一個名為 LocalTransform 的圖神經網絡,通過識別反應中心和應用反應規則來預測反應產物。LocalTransform 的整體預測流程如圖所示。LocalTransform 的反應產物預測包括七個步驟:(1)分子圖構建,(2)局部消息傳遞,(3)全局原子注意力,(4)鍵特征收縮和反應池化,(5)全局鍵注意力,(6)AoT 分類,(7))AoT 排名和收集以及 (8))產物完成。
USPTO-480k 反應數據集的結果
表1顯示了 USPTO-480k 數據集上混合預測場景中 top-k 精確匹配準確度的結果。LocalTransform 顯示了所有 top-k 準確度值的有希望的預測結果。更具體地說,LocalTransform 在 top-1 預測 (90.8%) 中的 top-1 準確度比當前最好的基于圖形的方法高出 4.5%。LocalTransform 的性能也比兩種流行的基于序列的模型略高 0.2-2.1%。研究人員預計類似的增強訓練或預訓練也會提高 LocalTransform 的準確性,但會大幅增加訓練的計算成本。
與人類專家的比較 遵循以前工作中使用的基準,將 top-1 模型預測與人類專家進行比較,這是 Coley 等人進行的擴展實驗。通過使用各種稀有反應模板從測試集中獲取80個反應。LocalTransform與WLDN、Molecular Transformer和人類專家的預測結果如圖所示。LocalTransform 正確預測了 80 個反應中的 75 個,并且在所有反應模板稀有箱中具有最佳準確度。同樣,LocalTransform 在所有稀有箱中顯示出最佳預測精度。對于具有最稀有 GRT 的三個反應,WLDN 和人類專家都未能正確預測任何反應結果,而 Molecular Transformer 和 LocalTransform 正確預測了三個反應中的兩個。
結論
作者提出了一種新穎的機器智能方法LocalTransform,它通過識別反應中心和應用數據驅動的一般反應規則來預測有機反應性。反應規則被編碼在所謂的GRT 中,GRT 基于從反應物到產物的電子構型的凈變化,具有極大的靈活性和簡單性。在 USPTO-480k 數據集上訓練和評估的 LocalTransform 產生了有希望的 top-1 和 top-2 精確匹配準確度值,分別為 90.8% 和 94.8%。在人類基準集上,作者強調了 LocalTransform 在優于人類專家預測方面的卓越預測,展示了預測分數和預測準確性之間的高度相關性,這使用戶能夠理解不確定性并信任機器預測。研究人員的方法的準確性在很大程度上受到反應映射的質量以及數據集中反應的多樣性和豐富性的限制。因此,期望未來可以通過使用更大的數據集和高質量的原子映射方法(如 Mappet 或 RXNMapper)來進一步改進模型。
參考資料 Chen, S., Jung, Y. A generalized-template-based graph neural network for accurate organic reactivity prediction. Nat Mach Intell (2022). //doi.org/10.1038/s42256-022-00526-z
論文剖析
生物信息學|逆合成預測的學習圖模型 ///////////////
逆合成預測是有機合成中的一個基本問題,其任務是識別可用于合成目標分子的前體分子。為這一任務建立神經模型的一個關鍵考慮因素是將模型設計與化學家采用的策略相一致。基于這一觀點,本文介紹了一種基于圖的方法,該方法利用了前驅體分子的圖拓撲結構在化學反應中基本不變的觀點。該模型首先預測了一組將目標轉化為不完整分子的合成子。接下來,該模型通過附加相關的離去基來學習將合成子擴展成完整的分子。這種分解簡化了體系結構,使其預測更具可解釋性,也可以手動修正。我們的模型達到了53.7%的top1精度,優于以前的無模板和基于半模板的方法。 2. 介紹
逆合成預測,首先由E.J.Corey提出是有機合成中的一個基本問題,它試圖識別合成目標分子的一系列化學轉化。在單步逆合成中,任務是識別一組給定一個目標的反應物分子。除了簡單的反應之外,許多涉及復雜有機分子的實際任務,即使對專家化學家來說也是困難的。因此,需要進行大量的實驗探索來彌補分析方法的不足。這激發了人們對計算機輔助逆合成的興趣。
在計算上,主要的挑戰是如何探索能夠產生目標分子的反應的組合空間。在很大程度上,以前的逆合成預測方法可以分為基于模板的和無模板的方法。基于模板的方法將目標分子與一組大型模板進行匹配,這些模板是在化學反應過程中突出變化的分子子圖模式。盡管這些方法具有可解釋性,但它們并不能推廣到新的反應中。無模板的方法通過學習從SMILES的產物表示到反應物的直接映射來繞過模板。盡管這些方法具有更大的泛化潛力,但它們會逐個生成反應物SMILES特征,從而增加了生成的復雜性。
在建立逆合成模型時的另一個重要考慮因素是將模型設計與專家化學家采用的策略保持一致。這些策略受到化學反應的基本性質的影響,獨立于復雜性水平:(i.)產物原子總是反應物原子的子集,和(ii)從產物到反應物,分子圖拓撲在很大程度上沒有改變。例如,在標準的逆合成數據集中,產物中只有6.3%的原子的連通性發生了變化。
這種考慮在最近的基于半模板的方法中得到了更多的關注,該方法分兩個階段生成反應物:(i.)首先識別被稱為合成子的中間分子,(ii)然后通過連續生成原子或SMILES特征將合成子完成成反應物。我們的模型graphretro也使用了類似的工作流。然而,我們通過從預先計算的詞匯表中選擇被稱為leaving groups的子圖來避免完成合成子的順序生成。這個詞匯表是在預處理過程中通過提取合成物和相應反應物之間不同的子圖來構建的。該詞匯表的大小較小(USPTO-50k為170),表明存在顯著的冗余,同時覆蓋了99.7%的測試集。在這些子圖的水平上進行操作,大大降低了反應物生成的復雜性,并提高了經驗性能。這個公式還簡化了我們的體系結構,并使我們的預測更加透明、可解釋和易于手動校正。
評估合成模型的基準數據集是USPTO-50k,它包含了10個反應類別的50000個反應。數據集包含了一個預測編輯(化學反應前后發生變化鍵和原子)的意外快捷方式,因為在75%的情況下,具有原子映射1的產品原子是編輯的一部分,允許依賴于原子位置的預測高估性能。我們規范化產品SMILES并重新映射現有數據集,從而刪除快捷方式。在這個重新映射的數據集上,當反應類別未知時,graphretro方法達到了53.7%的top-1精度,優于無模板和基于半模板的方法。 3. 相關工作
現有的逆合成預測機器學習方法可以分為基于模板的方法、無模板的方法和最近的基于半模板的方法。
基于模板:模板要么由專家手工制作,要么從大型數據庫中算法提取。由于涉及子圖匹配過程,應用大型模板集的代價很高。因此,基于模板的方法利用不同的方式對模板進行優先排序,通過學習模板集上的條件分布,根據先前反應的分子相似性對模板進行排名,或使用邏輯變量直接對模板和反應物的聯合分布建模。盡管具有可解釋性,但這些方法無法在其規則集之外泛化。
無模板:無模板方法利用神經機器翻譯結構學習從產物到反應物的直接轉化。將分子線性化并不利用固有的豐富的化學結構。此外,反應物的SMILES是從頭開始產生的。人們試圖通過添加語法校正器和混合模型來提高建議的多樣性,但在標準逆合成數據集上的性能仍然低于基于模板的方法。Sun等人利用基于能量的模型制定了逆合成,并附加了參數化和損失項,以加強正向(反應預測)和反向(逆合成)預測之間的對稱性。
基于半模板:我們的工作與最近提出的基于半模板的方法,首先識別合成子,然后擴展合成子到反應物。為了降低反應物生成的復雜性,我們使用從預先計算的詞匯表中選擇的稱為leaving groups的子圖來完成合成子。這允許我們將合成子擴展視為一個分類問題,而不是一個生成問題。我們還利用了可能的編輯之間的依賴性圖,并使用該圖上的消息傳遞網絡(MPN)更新編輯預測。與以前的基于半模板的方法相比,這兩種創新的性能分別提高了4.8%和3.3%。
反應中心識別覆蓋了少量參與反應的原子。我們的工作還與預測反應結果的模型有關,通過學習對位于反應中心的可能性進行排序。識別反應中心的任務與在我們的公式中推導合成子的步驟有關。我們還利用可能的編輯之間的依賴圖,并使用此圖上使用MPN更新編輯預測。 4. 模型設計
我們的方法利用了圖拓撲從產物到反應物基本不變的特性。為了實現這一點,我們首先從被稱為合成子的產物中獲得合適的構建塊,然后通過添加leaving groups,將它們完成成有效的反應物。我們首先訓練一個神經網絡來預測可能的編輯的分數。然后將得分最高的編輯應用于產物,以獲得合成子。由于唯一的leaving groups的數量較少,我們將leaving groups的選擇建模為預先計算的詞匯表上的一個分類問題。為了產生候選反應物,我們通過化學約束規則將預測的離去基附加到相應的合成物上。圖1概述了整個過程。
以往的單步逆合成方法要么限制對模板集的預測,要么對分子圖結構不敏感,要么從頭開始生成分子。我們通過引入一個受化學家工作流程啟發的基于圖的半模板模型來解決這些缺點,增強了逆合成模型的可解釋性。給定一個目標分子,我們首先確定合成的構建模塊,然后實現為有效的反應物,從而避免從零開始生成分子。我們的模型在基準數據集上比以前的半模板方法有顯著的優勢。未來的工作目標是擴展該模型,使其從多個合成物中實現單一反應物,并引入更多具有化學意義的成分,以提高此類逆合成預測工具與從業人員專業知識之間的協同作用。 原論文名稱: Learning Graph Models for Retrosynthesis Prediction
本文介紹由蘭州大學黎育權和騰訊量子實驗室謝昌諭博士等人發表在Nature Machine Intelligence期刊上的研究成果,論文通訊作者為姚小軍教授。文章中報道了一種自動圖學習方法,能夠在人工不參與的情況下,在多種不同任務上取得先進的預測性能,超越過去的主流模型。作者還提出一種新的分子魯棒性實驗方法,并發現模型集成能夠大幅提升魯棒性。
1 研究背景
藥物發現是一個耗時、昂貴和復雜的過程,在人類健康和福祉中發揮著至關重要的作用。機器學習方法,尤其是圖學習方法有可能顯著提高藥物發現效率。它們能從現有藥物相關數據集中進行學習,從而來預測分子相互作用和性質。同時,這也是機器學習能夠從廣闊的化學空間中以極快的速度和低成本尋找潛在候選藥物的關鍵所在。
然而,在少部分數據集上追求高預測性能已經固化了它們的架構和超參數,這使得它們在新數據的利用上不在有優勢。這種固化限制了他們在新數據上的學習能力和應用,使得他們的性能變得平庸。此外,大多數圖學習方法嚴重依賴深度學習的專家知識來實現其聲稱的最先進結果。當作者不給出這些具體的神經網絡架構和參數的時候,后來的研究人員甚至無法復現他們的模型性能。
這項工作提出了基于圖學習的自適應機器(Graph learning based adaptive machine, GLAM),它可以適應數據集并在無需人工干預的情況下做出準確的預測。
2主要貢獻
(1)提出一種自動機器學習方法,可以同時應用于分子屬性預測、藥物-蛋白相關關系預測、藥物-藥物相互作用預測。
(2)在相對公平比較的情況下(相同數據集分割),對比目前主流模型并取得最佳性能,包括分子屬性預測任務,藥物-靶標相關關系預測任務。 (3)提出一種合理的圖模型魯棒性測試方法,并發現集成模型比單模型的魯棒性好。
3 方法
本文的方法跟過去的設計一個圖網絡不同,本文利用自動化的流程從數據集中學習并逐步建立一個預測器,如圖 1 和圖2所示。以前的圖學習方法嚴重依賴人類專家來設計架構、調整模型超參數、選擇優化器和選擇損失函數。本文將這四個項目組合成一個配置,并將潛在的配置放入一個配置空間。從這個配置空間開始,GLAM 執行一系列步驟來構建預測器,如圖 2 所示。GLAM首先從配置空間中采樣了很多配置。然后將數據集喂給到這些配置以進行低保真訓練,從而得到驗證集分數以便于選擇性能高的配置。低保真訓練是指少量輪次的快速訓練,從而得到所有配置的驗證分數以快速估計他們的預測性能。高保真訓練是指使用巨量的輪次(帶早停)來精準地估計所選配置的預測性能。最后,將所有選定的預測器集成并建立一個最終預測器。
圖1. GLAM和傳統方法的對比.
圖 2. GLAM 具體流程圖.
本文設計了兩種通用架構,一種用于分子相互作用,另一種用于分子性質,如圖 3 所示。通用架構中的每個模塊都有自己的設計空間,如圖 4 所示。這些神經網絡架構接受的輸入都為圖,包括分子圖和蛋白圖。本文以原子為節點,以鍵為邊建立分子圖。對于蛋白圖,本文首先使用RaptorX計算得到接觸圖(contact map),然后以氨基酸殘基為節點,以接觸圖提供的信息作為邊建立蛋白圖。DTI任務同時考慮分子圖和蛋白圖作為輸入。DDI任務考慮兩個分子圖同時作為輸入。分子性質預測則接受單分子圖作為輸入。
圖 3. 應用于DTI和分子性質預測的神經網絡架構.
3 結果和討論 3.1適應數據集并取得高性能 GLAM是為了適應數據集以獲得高預測性能而設計的。為了考察該方法的適應性和性能,本文在14個數據集上與一系列具有代表性的傳統方法進行了性能比較。測試數據集的類型包括藥物-蛋白質相互作用、藥物-藥物相互作用、物理化學性質、生物活性、藥代動力學和毒性。考慮到不同的數據集分割會導致不同的性能,本文讓所有的方法共享相同的數據集分割,以獲得公平的評價。為了體現GCN,GAT,MPNN在不同架構和參數的差異,本文還盡量使用人工的方式優化架構并調整參數,以達到在某個數據集上達到最佳性能,以便于對比其適應性。最后,本文在這些數據集上運行基準測試。
與所有傳統方法相比,本文提出的方法能夠很好地適應數據集,并取得了良好的預測性能,如表1、表2和表3所示。傳統方法在不同數據集上固化下來的架構和參數表現出乘次不齊的性能,而GLAM可以在沒有人為干預的情況下始終如一地獲得最好的分數。因此,GLAM準備成為一種靈活、可靠和值得信賴的方法,在藥物設計的廣泛應用中都能很好地發揮作用。
表1. DTI任務上的性能對比
注:以上所有方法測試基于相同數據集分割。
表2. 分子性質預測任務上的性能對比
注:以上所有方法測試基于相同數據集分割,分割方式為基于scaffold的隨機分割。
3.2面對分子結構擾動表現出高魯棒性 本文認為魯棒性也是衡量一種方法是否優秀的重要指標。本文假設,當施加對分子性質影響很小的結構擾動時,一個魯棒的預測器不應顯著改變其輸出。機器學習方法可能受到各種自然干擾的影響,如果這樣的干擾發生在一些安全敏感型行業(如醫療),后果可能是災難性的。如圖4所示,本文跟多個主流模型進行了對比。GLAM 的魯棒性很可能是由于在流程末端的模型集成。集成的主要思想是訓練幾個模型,通過平均得到最終的預測。擾動分子結構可能會影響單個預測器,但不太可能會顯著影響混合模型。更多關于魯棒性實驗的細節見論文原文。
表4. 魯棒性實驗
4 總結 本文提出了一種靈活的方法,可以適應任何數據集并做出準確的預測。所提出的方法采用自適應的自動機器學習流程從數據集中學習并得到一個高性能,高魯棒的預測器。在沒有任何人工干預的情況下,該方法在所有測試數據集上實現了比基于手工設計的的傳統方法更好的預測性能。此外,本文發現所提出的方法比傳統方法更魯棒。這是第一個為分子數據設計的自動圖學習方法。它的出現能夠為新出現的全新數據賦能,即使充分利用好這些新數據。
參考資料 Li, Y., Hsieh, CY., Lu, R. et al. An adaptive graph learning method for automated molecular interactions and properties predictions. Nat Mach Intell (2022). //doi.org/10.1038/s42256-022-00501-8
在化學中,一般用IUPAC命名法、分子式、結構式、骨架式等形式來表示一個分子,然而這些形式最初是為人類而不是計算機設計的。為了便于計算機理解和利用分子,MRL被提出,MRL將分子映射到低維空間,表示為稠密向量。分子的學習向量(又稱嵌入)可用于廣泛的下游任務,如化學反應預測、分子性質預測、分子結構預測等。
研究人員已經提出了許多MRL方法,其中大部分都將SMILES字符串作為輸入,盡管這些語言模型功能強大,但它們卻很難從SMILES中學習到分子的原始結構信息,因為SMILES是分子結構的一維線性化。而GNN在處理分子表示中局限于設計新穎精致的GNN結構,忽略了MRL的本質——泛化能力。這激勵了作者探索GNN架構之外的方法。
在本文中,作者使用化學反應來協助學習分子表征,提高其泛化能力。化學反應通常由化學反應方程式表示,反應物在左側,生成物在右側,例如乙酸和乙醇的費希爾酯化反應。作者的想法是保持分子在嵌入空間的等價性。更重要的是,當分子編碼器是以總和作為readout函數的GNN時,該模型能夠自動隱式地學習同一類別內一組化學反應的反應模板,學習反應模板是提高分子表征泛化能力的關鍵。
作者將該模型稱為MoLR(chemical-reaction-aware molecule embeddings,化學反應感知的分子嵌入)。并且將可視化分子嵌入,表明它們能夠編碼反應模板和幾個關鍵的分子屬性,如分子大小和最小環的數量。
本文介紹由瑞士蘇黎世聯邦理工學院化學與應用生物科學系的Francesca Grisoni和Gisbert Schneider共同通訊發表在 Nature Machine Intelligence的研究成果:本文作者重點介紹了幾何深度學習在藥物發現、化學合成預測和量子化學等領域的應用,其包含幾何深度學習的原理和相關的分子表征,例如分子圖、網格、表面和字符串。作者討論了分子科學中幾何深度學習面臨的挑戰,并展望其未來應用。
論文鏈接:
//www.nature.com/articles/s42256-021-00418-8
幾何深度學習(Geometric deep learning, GDL)是人工智能的一個新興概念,在分子科學領域(如藥物發現、量子化學和結構生物學)得到了廣泛應用。
GDL涵蓋了將神經網絡推廣到歐幾里得和非歐幾里得域的新興技術,諸如圖、流形、網格和字符串表征。一般來說,GDL包括結合幾何先驗的方法,即關于輸入信號的空間結構和對稱屬性的信息,比如分子結構的表示。幾何先驗信息用于提高模型性能,如預測精度。雖然GDL已被越來越多地應用于分子模型,但其潛力仍未充分挖掘。
本綜述的目的是:
(1)對GDL在分子科學中的主要應用提供結構化和統一的綜述;
(2)描述該領域的主要研究方向;
(3)對GDL的未來應用進行展望。