本文介紹韓國大田 KAIST 化學與生物分子工程系與人工智能研究生院的Yousung Jung團隊2022年9月15日發表在Nature Machine Intelligence的研究成果A generalized-template-based graph neural network for accurate organic reactivity prediction。Yousung Jung團隊提出了一個化學驅動的圖神經網絡,稱為LocalTransform,它基于廣義的反應模板學習有機反應性,以描述反應物和產物之間的電子構型的凈變化。所提出的概念極大地減少了反應規則的數量,并表現出最先進的產物預測精度。除了廣義反應模板的內在可解釋性外,該模型的高分值-準確率相關性使用戶可以評估機器預測的不確定性。
背景
預測有機反應產物是有機化學的一個基本問題。基于成熟有機化學知識,化學家現在能夠設計實驗來制造用于不同目的的新分子。但是,它需要經驗豐富的專業化學家來準確預測化學反應的結果。為了進一步幫助有機化學家并在數字化學時代實現全自動發現,機器智能可以準確預測有機反應的產物,大大加快新分子的設計過程。最近,已經提出了幾種基于機器學習的方法來預測有機反應產物,但仍然需要改進反應預測模型才能達到足夠的準確性,與普通有機化學家相當或更好。由于幾種基于模板的方法的覆蓋范圍和可擴展性問題,科學家們提出了使用基于序列的模型或基于圖模型的無模板方法。盡管這些方法在公共反應數據集上表現出有希望的準確性,但當前最先進的方法仍然以機械方式預測有機反應的產物,要么翻譯化學語言,要么按順序編輯分子圖。相比之下,知識淵博的化學家通常通過識別反應中心并應用所學化學知識來預測有機反應性來和預測反應產物。
研究人員設計了廣義反應模板(GRT, generalized reaction template),一種僅描述基于原子映射的反應前后原子構型的局部變化但沒有特定原子類型或官能團信息的反應模板,并提出了一個基于圖機器智能的LocalTransform框架來預測反應產物。LocalTransform 通過識別反應中心以及要應用的 GRT 來預測反應產物。它通過全局注意力機制學習根據局部化學環境和選擇性識別反應原子。最終反應轉化由反應模板分類器預測,該分類器為預測的化學反應中心建議最可能的 GRT。
LocalTransform 在預測有機反應方面的三個重要突破: * GRT 在化學上是直觀的和通用的。提取的 GRT 可以描述所有測試反應的 99.7%,而前 100 個最流行的反應模板可以描述所有訓練反應的 94.6%,從而解決了以前基于模板的方法的覆蓋率和可擴展性問題。 * 證明了 LocalTransform 有前景的 top-k 產物預測精度,與以前的基于圖的方法相比有顯著改進。 * 由于模型是一種基于分類的方法,具有很強的分數-準確性相關性,它使用戶能夠理解不確定性并信任機器預測。
研究結果
GRTs 受有機反應主要是電子重排過程的啟發,研究人員在此推導出GRT,它描述了反應前后電子構型的凈變化,而不包括任何特定的原子類型或官能團信息。
LocalTransform 基于提出的 GRT,研究人員開發了一個名為 LocalTransform 的圖神經網絡,通過識別反應中心和應用反應規則來預測反應產物。LocalTransform 的整體預測流程如圖所示。LocalTransform 的反應產物預測包括七個步驟:(1)分子圖構建,(2)局部消息傳遞,(3)全局原子注意力,(4)鍵特征收縮和反應池化,(5)全局鍵注意力,(6)AoT 分類,(7))AoT 排名和收集以及 (8))產物完成。
USPTO-480k 反應數據集的結果
表1顯示了 USPTO-480k 數據集上混合預測場景中 top-k 精確匹配準確度的結果。LocalTransform 顯示了所有 top-k 準確度值的有希望的預測結果。更具體地說,LocalTransform 在 top-1 預測 (90.8%) 中的 top-1 準確度比當前最好的基于圖形的方法高出 4.5%。LocalTransform 的性能也比兩種流行的基于序列的模型略高 0.2-2.1%。研究人員預計類似的增強訓練或預訓練也會提高 LocalTransform 的準確性,但會大幅增加訓練的計算成本。
與人類專家的比較 遵循以前工作中使用的基準,將 top-1 模型預測與人類專家進行比較,這是 Coley 等人進行的擴展實驗。通過使用各種稀有反應模板從測試集中獲取80個反應。LocalTransform與WLDN、Molecular Transformer和人類專家的預測結果如圖所示。LocalTransform 正確預測了 80 個反應中的 75 個,并且在所有反應模板稀有箱中具有最佳準確度。同樣,LocalTransform 在所有稀有箱中顯示出最佳預測精度。對于具有最稀有 GRT 的三個反應,WLDN 和人類專家都未能正確預測任何反應結果,而 Molecular Transformer 和 LocalTransform 正確預測了三個反應中的兩個。
結論
作者提出了一種新穎的機器智能方法LocalTransform,它通過識別反應中心和應用數據驅動的一般反應規則來預測有機反應性。反應規則被編碼在所謂的GRT 中,GRT 基于從反應物到產物的電子構型的凈變化,具有極大的靈活性和簡單性。在 USPTO-480k 數據集上訓練和評估的 LocalTransform 產生了有希望的 top-1 和 top-2 精確匹配準確度值,分別為 90.8% 和 94.8%。在人類基準集上,作者強調了 LocalTransform 在優于人類專家預測方面的卓越預測,展示了預測分數和預測準確性之間的高度相關性,這使用戶能夠理解不確定性并信任機器預測。研究人員的方法的準確性在很大程度上受到反應映射的質量以及數據集中反應的多樣性和豐富性的限制。因此,期望未來可以通過使用更大的數據集和高質量的原子映射方法(如 Mappet 或 RXNMapper)來進一步改進模型。
參考資料 Chen, S., Jung, Y. A generalized-template-based graph neural network for accurate organic reactivity prediction. Nat Mach Intell (2022). //doi.org/10.1038/s42256-022-00526-z
作者 | 鄭仰昆 審稿 | 楊崇周 指導 | 閔小平(廈門大學) 今天帶來的是美國馬薩諸塞州波士頓哈佛醫學院系統藥理學實驗室發表在nature biotechnology上的Single-sequence protein structure prediction using a language model and deep learning。
單序列結構預測是較為基礎的研究方向,蛋白質設計和量化序列變異對功能或免疫原性影響的研究等都需要單序列結構預測作為支持。AlphaFold2 和相關計算系統使用以多序列比對 (MSA) 編碼的深度學習和共同進化關系來預測蛋白質結構。盡管這些系統有很高的預測準確性,但其對于無法生成 MSA 的孤兒蛋白質的預測、快速設計結構仍然有些不足。
本文針對以上兩個問題設計了一個端到端可微循環幾何網絡 (RGN2),該網絡使用蛋白質語言模型 (AminoBERT) 從未對齊的蛋白質中學習潛在的結構信息,以此改進之前提出的RGN。RGN2 在孤兒蛋白質和設計蛋白質類別上的性能優于 AlphaFold2 和 RoseTTAFold,同時計算時間減少了 106 倍。并證明了蛋白質語言模型在結構預測中相對于 MSA 的實踐和理論優勢。
模型構造
圖1 RGN2的組織與應用
RGN2組成:RGN2 將基于轉換器的蛋白質語言模型(AminoBERT,黃色)與使用 Frenet-Serret 框架生成蛋白質骨架結構(綠色)的 RGN 相結合。在初步構建側鏈和氫鍵網絡后,隨后使用 AF2Rank(藍色)對結構進行細化。
**RGN:**基于機器學習的 RGN,利用源自 MSA 的位置特異性評分矩陣(PSSM)預測蛋白質結構,將PSSM 結構關系參數化為相鄰殘基之間的扭轉角,從而可以在 3D 空間中順序定位蛋白質骨架(骨架幾何結構包括每個氨基酸的 N、Cα 和 C' 原子的排列)。盡管 RGN1 不依賴用于生成 MSA 的協同進化信息,但對 PSSM 的要求需要多個同源序列可用。RGN2改進了RGN,利用了一種自然的方式來描述在整個多肽水平上旋轉和平移不變的多肽幾何形狀。這涉及使用 Frenet-Serret 公式在每個 Cα 碳嵌入參考框架;然后通過一系列轉換輕松構建主干。
**AminoBERT: **AminoBERT 旨在捕獲一串隱含指定蛋白質結構的氨基酸中的潛在信息。為了生成 AminoBERT 語言模型,本文使用從 UniParc 序列數據庫獲得的約 2.5 億天然蛋白質序列訓練了一個 12 層轉換器。訓練任務第一個是預測序列中同時屏蔽的2-8個連續殘基,強調從全局而不是局部上下文中學習。第二個是識別打亂的“塊排列”順序,塊排列是連續的蛋白質片段交換,保留了局部序列信息,但破壞了全局連貫性,鼓勵轉換器從整個蛋白質序列中發現信息。RGN2 的 AminoBERT 模塊以自我監督的方式獨立于幾何模塊進行訓練,無需微調。
**數據:**RGN2 訓練是使用 ProteinNet12 數據集和僅由源自 ASTRAL SCOPe 數據集(版本 1.75)的單個蛋白質域組成的較小數據集進行的。因為本文觀察到兩者之間沒有可檢測到的差異。
圖2比較 RGN2 和 AF2 對孤兒蛋白的結構預測
表1 RGN2 和 AF2、RF 和 trRosetta 跨 330 個目標的預測時間比較
**結果:**本文使用dRMSD 和 GDT_TS 評估了預測準確性。堆積條形圖2顯示了 149 種從頭設計的孤兒蛋白質。條形高度表示蛋白質長度。對于富含單螺旋和彎曲或散布有螺旋的氫鍵轉角的蛋白質,RGN2 優于所有其他方法。表1展示了對于沒有同源序列的蛋白預測時花費的時間是RGN2明顯占優的。
總結
RGN2 是使用機器學習從單個序列預測蛋白質結構的首次嘗試之一。在設計孤兒蛋白質結構的情況下具有許多優勢,因為這些蛋白質通常無法生成多序列比對。RGN2 通過將蛋白質語言模型 (AminoBERT) 與基于 Frenet-Serret 公式的簡單直觀的 Cα 骨架幾何參數化方法融合來實現這一點。AF2 和 RF 的無模板和無 MSA 生成均比 RGN2 慢 >105 倍。本文認為,未來同時使用語言模型和 MSA 的混合方法可能會優于單獨使用任何一種方法。
參考資料 Chowdhury, R., Bouatta, N., Biswas, S. et al. Single-sequence protein structure prediction using a language model and deep learning. Nat Biotechnol (2022). //doi.org/10.1038/s41587-022-01432-w
編譯 | 程寧 本文介紹由韓國科學技術院的Shuan Chen與Yousung Jung發表于Nature Machine Intelligence的研究工作。作者提出了一種基于原子映射的通用反應模板GRT用于描述有機反應,并在此基礎上提出LocalTransform圖注意力網絡來預測分子之間的有機反應。由于模板僅描述反應前后原子結構變化,大大減少了反應規則的數量,實驗結果表明LocalTransform準確率優于現有先進模型。除了通用反應模板內置的可解釋性外,score–accuracy相關性也使得模型具有可解釋性。
1 簡介
預測有機反應結果是化學中的一個基本問題,利用計算機模型精準預測有機反應能夠大大加快新分子的設計過程。目前已存在一些機器學習方法來預測有機反應,然而現有模型大多利用化學語言或者分子序列來對有機反應進行預測,這與資深化學家通過識別具體反應的子結構并通過已有化學知識判斷有機反應有很大區別。
針對上述問題作者提出了一種新的描述有機反應的模板GRT(Generalized Reaction Template),并在此基礎上提出預測有機反應的圖神經網絡模型LocalTransform。作者的貢獻如下: (1)提出了一種描述有機反應的通用模板GRT。針對USPTO-480k數據集,GRT能描述99.7%的有機反應,對于top-100的有機反應覆蓋率能夠達到94.6%。
(2)基于GRT提出了LocalTransform圖神經網絡以預測分子之間的有機反應,實驗結果表明該方法優于以往基于圖的方法。 (3)由于模型是基于分類的方法,具有很強的score–accuracy相關性,因此具有一定可解釋性。
2 方法
2.1 GRT通用反應模板 作者認為先前基于模板的方法性能較低的原因是模板中包含太多詳細信息從而導致其低覆蓋率和低擴展性。因此作者提出了僅描述反應前后原子結構變化的反應模板(GRT)用于描述有機反應。
圖1展示了GRT模板提取過程示例,首先根據反應前后分子變化抽象出具體反應位置,其中原子由通用原子符號“A”表示,然后根據分子具體變化類型分為四類:ATTACK、CHANGE、BREAK和REMOTE,并標注電子的移動情況。不同模板可能涉及不同數量的變化,在特定反應中心完成所選GRT所需的變化稱為AoT。
圖1 GRT提取過程
2.2 LocalTransform模型 ①分子圖的構建。每組反應物通過兩個分子圖構成:特征圖Gf和密度圖Gd,分別記為Gf = (Vf, Ef)和Gd=(Vd, Ed),V表示原子,E表示化學鍵。Gf包含現有的原子特征和化學鍵特征,通過現有的化學鍵或虛鍵來連接可能的原子對,用于潛在的鍵形成、斷裂和變化的預測。兩個圖都可通過DGL-LifeSci庫來構建。
②提取分子圖中每個原子的鄰居特征。使用基于門控循環單元的MPNN對原子特征進行三次迭代更新,如公式(1),hu其中表示原子u的特征,hv表示相鄰原子特征,huv表示相鄰鍵的特征,最終得到原子在處更新后的特征。
③全局原子感知注意力機制。為了使反應物中的原子能夠感知潛在的相互作用的電子,設計了一個基于Transformer的多頭注意力機制。原子u和v之間注意力評分如公式(2)所示。
其中Wq和Wk分別是查詢權重和鍵權重,T是轉置運算符,dz為歸一化因子,ru,v為相對位置embedding,可以通過公式(3)獲得Du,v。
從原子到原子的消息通過公式(4)傳遞。
上述為非線性變化的權值和偏差,激活函數為ReLU。 最后通過連接門控單元轉換原子特征。如公式(5)所示。
在MPNN學習到原子的局部環境后,反應物中的所有原子通過距離感知全局注意力網絡進一步尋找與其他原子的關系信息,以進行潛在反應。
④組合特征構建和池化。將稠密圖中有向圖的已有鍵和虛鍵的特征拼接成一個原子特征,如公式(6)所示。并將其作為神經網絡的輸入,如公式(7)所示。
⑤全局注意力網絡。鍵的特征被輸入到另一個全局注意力神經網絡,通過進一步學習聚合反應鍵之間的關系信息來對每個反應鍵的反應性進行排名。如公式(8)所示。
⑥AoT預測。使用雙層神經網絡對每個鍵的AoT進行預測,并通過SoftMax將最終預測結果轉換為每個鍵的AoT得分,如公式(9)、(10)所示。訓練LocalTransform的Loss為反應池化和AoT預測的交叉熵損失之和,如公式(11)所示。
⑦AoT排序和采集。預測出AoT的分數后,將所有鍵的預測AoT按分數排序,逐一收集預測AoT,直到收集到的AoT滿足預測GRT的所需要的反應變化。最后,將預測的GRT應用于預測的反應中心。
圖2 LocalTransform模型預測流程
3 實驗
3.1 在USPTO-480k數據集的預測結果 表1展示了USPTO-480k數據集上本文模型以及其他模型的預測結果,實驗表明除了top-1之外,LocalTransform模型均優于其他模型。雖然在top-1預測中Chenformer的效果比文中模型精度提高了0.5%,但在其他top-k的預測精度均小于LocalTransform。
表1混合預測場景下USPTO-480k數據集的top-k精確匹配精度
此外,模型會為每個預測對象生成分數作為其排名,預測分數可以解釋為給定有機反應的預測結果的置信度。由圖3可以看出模型預測分數越高,兩種分子之間具有實際反應的概率越高。統計結果顯示對于預測分數大于0.99的例子來說,其反應匹配正確率高達98.4%。
圖3 top-1精確匹配準確度和作為預測分數函數的反應百分比
對于預測分數高于0.99但是匹配失敗的例子,作者表示模型預測了一些更加合理或更有可能的反應,圖5中有4個有機反應被Schwaller等人認為是由于數據集本身的錯誤。
圖4 模型預測分數大于0.99但匹配失敗的例子
3.2 與專家對比結果 從測試集中獲取80個稀有有機反應,人類專家和WLDN、Molecular Transformer、LocalTransform模型同時進行預測,參與實驗的11位專家中選取得分最高的人,預測結果如圖5a所示,可以看出LocalTranform取得了最好的結果,正確預測了 80 個反應中的 75 個。基于文中提出的GRT再次對數據進行分類,LocalTranform依然取得了最好的結果,如圖5b所示。
圖5 不同模型與專家的預測結果
4 總結
在這項工作中,作者首先提出了一種用于描述有機反應的通用反應模板GRT,該模板能覆蓋大部分有機反應,具有極大的靈活性與簡便性;然后基于此提出LocalTransform模型,通過識別反應中心并利用GRTs來預測有機反應;最后通過實驗證明了該模型的有效性,并分析了識別錯誤的例子,指出模型很大程度上受限于反應映射的質量以及數據集中反應的多樣性,預期未來通過使用具有更高質量原子映射方法的數據集以改進模型。
參考資料 論文鏈接: //doi.org/10.1038/s42256-022-00526-z 項目源碼鏈接: 數據鏈接:USPTO-480k數據集: 圖數據:
編譯|盧長城
審稿|劉瑩
今天介紹一篇洛桑聯邦理工學院Ljubisa Miskovic等人于2022年8月在線發表在Nature Machine Intelligence上的文章《Reconstructing Kinetic Models for Dynamical Studies of Metabolism using Generative Adversarial Networks》。新陳代謝動力學模型通過機械關系將代謝通量、代謝物濃度和酶水平聯系起來,使其對于理解、預測和優化生物體的行為至關重要。然而,由于缺乏動力學數據,傳統的動力學建模通常只產生很少或沒有理想動力學特性的動力學模型,使得分析不可靠且計算效率低下。作者提出了 REKINDLE框架(使用深度學習重建動力學模型),用于有效生成具有與細胞中觀察到的動態特性相匹配的動力學模型。同時展現了REKINDLE使用少量微調數據,在新陳代謝的生理狀態模型中遷移的能力。結果表明,數據驅動的神經網絡吸收了代謝網絡的隱含動力學知識和結構,并生成了具有定制屬性和統計多樣性的動力學模型。預計該框架將促進對新陳代謝的理解,并加速未來在生物技術和健康方面的研究。 1 簡介 高通量測量技術的進步推動了生物技術和醫學的發現,使人們能將不同的數據類型整合到細胞狀態的表示中,并獲得對細胞生理學的見解。從歷史上看,研究人員使用基因組規模模型(細胞代謝的數學描述)將實驗觀察到的數據與細胞表型相關聯。然而,傳統的基因組規模模型無法預測細胞對內部或外部刺激的動態反應,因為它們缺乏關于代謝調節和酶動力學的信息。最近,研究界已將重點轉移到開發動力學代謝模型上,以促進對細胞生理學的理解。
與通過穩態方法(如通量平衡分析)獲得的信息相比,動力學模型捕獲細胞狀態的時間依賴性行為,能夠提供關于細胞代謝的額外信息。然而,難以獲得(1)每個反應的確切機制和(2)所述機制的參數(例如米氏常數或最大速度),阻礙了動力學模型的建立。在大多數動力學建模方法中,未知的反應機制是通過近似反應機制來假設或建模的。獲得未知參數的主要挑戰是生物系統固有的不確定性。由于描述生物系統的數學方程固有的不確定性,該模型通常可以重現多個而不是一組獨特的參數值的實驗測量值。為了應對該挑戰,研究人員經常采用基于蒙特卡羅抽樣的框架。在這些方法中,首先通過整合實驗測量并確保與物理化學定律的一致來減少允許參數值的空間。然后對縮小的解空間進行采樣以提取可選參數集。
然而,基于采樣的動力學建模框架經常會產生與實驗觀察到的生理學不一致的大量動力學模型亞群。例如,與實驗數據相比,構建的模型可能局部不穩定或代謝狀態的時間演化過快或過慢(圖1)。這極大降低了計算效率,特別是對于具有理想屬性的亞群的低發生率。例如,局部穩定的大尺度動力學模型的生成率可以低于1%。額外要求其他模型屬性,例如實驗觀察到的代謝狀態的時間演變,進一步降低了所需模型的發生率。事實上,只有一小部分參數空間同時滿足所有理想的模型屬性,作者觀察表明這個子空間不是連續的。此外,這些方法都不能保證采樣過程(通常為無偏采樣)將產生理想的參數集。這些缺點隨著動力學模型大小的增加而被放大,并且在參數空間中找到滿足所需特性和觀察到的生理學的區域變得具有挑戰性。此外,這些區域的結構非常復雜,需要神經網絡等非線性函數逼近器來映射它們。
作者提出利用條件生成對抗網絡(CGAN)來生成動力學模型,以捕捉實驗觀察到的代謝反應。REKINDLE利用現有的動力學建模框架來創建訓練GAN所需的數據。使用神經網絡高效生成具有所需屬性的模型(圖1a),大大減少了傳統動力學建模方法所需的大量計算資源。同時,證明了針對一種生理學訓練的神經網絡可以使用少量數據針對另一種生理學進行微調(圖1b)。REKINDLE與創建動力學模型的傳統方式不同,為更全面的計算研究和高級代謝統計分析鋪平了道路。
圖1 REKINDLE框架和遷移應用概述
REKINDLE用于生成生物學相關的動力學模型
REKINDLE 框架由四個連續的步驟組成(圖1a)。第1步,針對預先指定的條件(能描述實驗觀察數據并具有適當動態特性的模型)測試動力學參數集,標記并劃分。第2步,REKINDLE 使用CGAN來學習從上一步獲得的標記數據的分布。第3步,經過訓練的生成器生成滿足指定條件的新動力學模型參數。第4步,對生成的數據集進行統計和驗證測試,以確定是否滿足強制約束條件。
REKINDLE的輸入是從傳統動力學建模方法獲得的動力學參數集。該工作研究大腸桿菌中心碳代謝的生物學相關動力學模型,包含411個動力學參數,只與濃度相關的參數(其他參數可由其推到得出)作為輸入特征,共計259個特征。定義生物學相關模型為滿足所有特征響應時間比細胞的倍增時間快三倍的模型,確保代謝過程的擾動在隨后的細胞分裂之前穩定在操作穩態的5%以內。
從傳統動力學模型ORACLE中生成80,000個動力學模型參數集,以9:1的比例劃分訓練集和測試集。值得注意的是,訓練數據中的兩類模型,無論是生物學相關還是不相關的,在動力學參數空間中都具有統計意義上較大的重疊,并且不能通過低階降維技術獨立可視化。
條件GAN由兩個前饋神經網絡(生成器和判別器)組成,以生物學相關標簽為條件。生成器以隨機噪聲和生物學相關標簽作為輸入,生成動力學模型參數集。判別器以動力學模型參數集和生物學相關標簽作為輸入,訓練過程的目標是獲得一個好的生成器,該生成器從特定的類標簽生成動力學模型(圖1a ,步驟 3),使判別器對這些模型與訓練數據中同類的動力學模型無法區分。
訓練完成后,通過一系列測試驗證生成的動力學模型的生物學相關性(圖1a,步驟 4)。首先通過比較參數空間中的分布來測試生成數據和訓練數據的統計相似性。然后,檢查雅可比特征值的分布及其相應的主要時間常數,以驗證生成的參數集是否滿足所需的動態響應要求。最后,測試模型對穩態代謝曲線擾動的動態響應,以評估生成的參數集的穩健性。
2 結果 REKINDLE生成大腸桿菌代謝動力學模型
以大腸桿菌中心碳代謝的生物學相關動力學模型為例,對模型進行的基于熱力學的通量分析以及來自野生型大腸桿菌有氧培養的綜合實驗數據表明,轉醛縮酶(TALA)和異檸檬酸裂解酶(ICL)這兩個反應可以正向和反向進行,而其他反應具有獨特的方向性。這意味著對這種生理狀況的研究需要生成四個動力學模型群體,每個群體對應于TALA和ICL方向性的不同組合。
對訓練數據的檢查表明,4種生理學模型中有39%到45%的動力學速度太慢(表1),這意味著這些模型無法描述大腸桿菌的代謝。
表1 使用ORACLE(訓練數據)和REKINDLE生成的四種生理學生物學相關模型的發生率
訓練1000個epoch的GAN,對四種生理學進行了5次統計重復。以一種生理學模型為例,每隔10個epoch,生成器生成300個生物學相關模型。通過計算REKINDLE生成的分布和訓練數據分布之間的 Kullback-Leibler散度來量化參數相似性(僅對應于生物學相關動力學模型的參數集)。KL散度隨著訓練而減小,這意味著GAN學習了與生物學相關動力學相對應的動力學參數的分布,也表明GAN沒有遭受模式崩潰,此外,GAN也沒有過度擬合。使用生成的常微分方程(ODE)參數化系統的線性穩定性分析來測試生成的模型的生物學相關性。相關模型的發生率隨著訓練epoch的數量而增加,此外,給定epoch,相關模型的數量與KL散度之間的= -0.691(Spearman相關系數)的負相關性?(圖2c)表明KL散度是評估訓練質量的良好指標。訓練在約400個epoch后穩定下來,判別器準確度約為50%,這表明生成的模型不是訓練失敗的產物。
圖2 驗證GAN生成的動力學模型
驗證REKINDLE生成的模型
本文選擇生物學相關發生率最高的生成器(圖2b),并用它生成了10,000個生物學相關的動力學模型。首先通過計算動態響應的主要特征時間常數的分布來驗證生成模型的動力學響應速度,REKINDLE生成的模型比訓練集中的模型具有更快的動態響應。
接下來,通過擾動穩態并驗證擾動系統是否會演變回穩態來比較REKINDLE生成的和ORACLE生成的動力學模型的穩健性,結果表明REKINDLE (66.85%)和ORACLE(66.31%)的模型恢復到穩定狀態的比例相當(圖2e,右)。對于其余三個生理學模型,REKINDLE生成的模型始終比ORACLE生成的模型更穩健。例如,對于生理學4,REKINDLE 生成的模型中有83.79% 恢復到穩定狀態,而ORACLE生成的模型中只有61.05%。
為了可視化動力學模型的擾動狀態的時間演變,對ODE解的時間序列數據進行了主成分分析(PCA)。前兩個主成分解釋了解ODE解中總方差的97.17%(成分1,85.21%;成分2,11.95%)。為四個隨機選擇的REKINDLE生成的動力學模型繪制了這些成分(圖2e,左),3個模型返回到參考穩態,1個逃脫了(圖2e,黑色三角表示參考穩態,圓圈表示初態)。 REKINDLE生成模型的可解釋性
圖3 REKINDLE生成的參數集的可解釋性
使用KL散度來比較生理學1的生物學相關和不相關動力學模型的參數分布,檢查具有最高KL散度的前十參數的分布(圖3a)。只有少數幾個參數在兩個群體之間的分布存在顯著差異,表明只有少數動力學參數影響特定模型屬性。對KL散度最大的參數進行量化,將生成的動力學模型以此劃分成10個子集,比較不同子集的響應時間分布(圖3b),表明該參數的較大值有利于生物學相關性。對其他三種生理學模型重復了這項研究并獲得了類似的結果。這些結果表明,GANs通過學習關鍵動力學參數的分布來提取重要信息,并且忽略不影響所需特性的參數。
使用遷移學習外推到其它生理學
代謝網絡的綜合分析需要大量的參數集,然而,在生成大型參數集和計算需求之間存在的權衡可能會限制研究范圍。REKINDLE通過遷移學習利用GAN的外推能力解決了這個問題。使用小的訓練樣本對另一種生理學模型預訓練的生成器進行微調就可以達到很好效果。其針對生理學1訓練的生成器,并用自生理學2-4的10、50、100、500和1,000個訓練樣本分別重新訓練生理學2-4的GAN。在僅具有30個訓練樣本的遷移學習中提供了非常高的生物學相關生理模型的發生率(圖4b)。盡管訓練時間較短,遷移學習明顯優于從頭開始的訓練。僅在大約1,000個訓練樣本情況下,從頭開始訓練的性能與遷移學習相當。當樣本數量低于500時,從頭開始訓練完全失敗,因為判別器勝過了生成器。擾動穩態分析表明,遷移學習生成的動力學模型具有與從頭開始訓練的GAN相似的魯棒性(圖4c)。狹窄的參數分布可能表明生成的模型源于空間中的受限區域,并且生成器沒有生成不同的動力學模型,通過比較遷移學習和從頭訓練GAN生成的動力學模型的響應時間分布,兩者具有良好的分布。
由此得出,遷移學習成功地捕捉了生理學的特殊性。只需幾個動力學參數集樣本,遷移學習就可以生成具有生物學相關性、魯棒性和參數多樣性等所需特性的動力學模型。預計這種方法可以幫助推導出代謝網絡高通量分析的新方法。
表2 ORACLE、REKINDLE、與遷移學習(REKINDLE-TL)的計算時間比較
圖4 通過遷移學習外推到多種生理學
3 總結 通過學習動力學參數的復雜高維空間和相關模型屬性之間的映射,GANs可以增強根據指定評價指標創建模型的效率,以及根據評價指標劃分參數空間的信息。REKINDLE在生成模型方面比傳統方法快幾個數量級,當通過遷移學習生成模型時,生成時間的減少更為明顯。一旦為目標生理學訓練了生成器,新生成的合成數據集適用于傳統的統計分析,擴展了傳統的小型數據集以進一步了解所研究的系統。
參考資料 Choudhury, S., Moret, M., Salvy, P. et al. Reconstructing Kinetic Models for Dynamical Studies of Metabolism using Generative Adversarial Networks. Nat Mach Intell 4, 710–719 (2022). //doi.org/10.1038/s42256-022-00519-y
源碼:
本文介紹由蘭州大學黎育權和騰訊量子實驗室謝昌諭博士等人發表在Nature Machine Intelligence期刊上的研究成果,論文通訊作者為姚小軍教授。文章中報道了一種自動圖學習方法,能夠在人工不參與的情況下,在多種不同任務上取得先進的預測性能,超越過去的主流模型。作者還提出一種新的分子魯棒性實驗方法,并發現模型集成能夠大幅提升魯棒性。
1 研究背景
藥物發現是一個耗時、昂貴和復雜的過程,在人類健康和福祉中發揮著至關重要的作用。機器學習方法,尤其是圖學習方法有可能顯著提高藥物發現效率。它們能從現有藥物相關數據集中進行學習,從而來預測分子相互作用和性質。同時,這也是機器學習能夠從廣闊的化學空間中以極快的速度和低成本尋找潛在候選藥物的關鍵所在。
然而,在少部分數據集上追求高預測性能已經固化了它們的架構和超參數,這使得它們在新數據的利用上不在有優勢。這種固化限制了他們在新數據上的學習能力和應用,使得他們的性能變得平庸。此外,大多數圖學習方法嚴重依賴深度學習的專家知識來實現其聲稱的最先進結果。當作者不給出這些具體的神經網絡架構和參數的時候,后來的研究人員甚至無法復現他們的模型性能。
這項工作提出了基于圖學習的自適應機器(Graph learning based adaptive machine, GLAM),它可以適應數據集并在無需人工干預的情況下做出準確的預測。
2主要貢獻
(1)提出一種自動機器學習方法,可以同時應用于分子屬性預測、藥物-蛋白相關關系預測、藥物-藥物相互作用預測。
(2)在相對公平比較的情況下(相同數據集分割),對比目前主流模型并取得最佳性能,包括分子屬性預測任務,藥物-靶標相關關系預測任務。 (3)提出一種合理的圖模型魯棒性測試方法,并發現集成模型比單模型的魯棒性好。
3 方法
本文的方法跟過去的設計一個圖網絡不同,本文利用自動化的流程從數據集中學習并逐步建立一個預測器,如圖 1 和圖2所示。以前的圖學習方法嚴重依賴人類專家來設計架構、調整模型超參數、選擇優化器和選擇損失函數。本文將這四個項目組合成一個配置,并將潛在的配置放入一個配置空間。從這個配置空間開始,GLAM 執行一系列步驟來構建預測器,如圖 2 所示。GLAM首先從配置空間中采樣了很多配置。然后將數據集喂給到這些配置以進行低保真訓練,從而得到驗證集分數以便于選擇性能高的配置。低保真訓練是指少量輪次的快速訓練,從而得到所有配置的驗證分數以快速估計他們的預測性能。高保真訓練是指使用巨量的輪次(帶早停)來精準地估計所選配置的預測性能。最后,將所有選定的預測器集成并建立一個最終預測器。
圖1. GLAM和傳統方法的對比.
圖 2. GLAM 具體流程圖.
本文設計了兩種通用架構,一種用于分子相互作用,另一種用于分子性質,如圖 3 所示。通用架構中的每個模塊都有自己的設計空間,如圖 4 所示。這些神經網絡架構接受的輸入都為圖,包括分子圖和蛋白圖。本文以原子為節點,以鍵為邊建立分子圖。對于蛋白圖,本文首先使用RaptorX計算得到接觸圖(contact map),然后以氨基酸殘基為節點,以接觸圖提供的信息作為邊建立蛋白圖。DTI任務同時考慮分子圖和蛋白圖作為輸入。DDI任務考慮兩個分子圖同時作為輸入。分子性質預測則接受單分子圖作為輸入。
圖 3. 應用于DTI和分子性質預測的神經網絡架構.
3 結果和討論 3.1適應數據集并取得高性能 GLAM是為了適應數據集以獲得高預測性能而設計的。為了考察該方法的適應性和性能,本文在14個數據集上與一系列具有代表性的傳統方法進行了性能比較。測試數據集的類型包括藥物-蛋白質相互作用、藥物-藥物相互作用、物理化學性質、生物活性、藥代動力學和毒性。考慮到不同的數據集分割會導致不同的性能,本文讓所有的方法共享相同的數據集分割,以獲得公平的評價。為了體現GCN,GAT,MPNN在不同架構和參數的差異,本文還盡量使用人工的方式優化架構并調整參數,以達到在某個數據集上達到最佳性能,以便于對比其適應性。最后,本文在這些數據集上運行基準測試。
與所有傳統方法相比,本文提出的方法能夠很好地適應數據集,并取得了良好的預測性能,如表1、表2和表3所示。傳統方法在不同數據集上固化下來的架構和參數表現出乘次不齊的性能,而GLAM可以在沒有人為干預的情況下始終如一地獲得最好的分數。因此,GLAM準備成為一種靈活、可靠和值得信賴的方法,在藥物設計的廣泛應用中都能很好地發揮作用。
表1. DTI任務上的性能對比
注:以上所有方法測試基于相同數據集分割。
表2. 分子性質預測任務上的性能對比
注:以上所有方法測試基于相同數據集分割,分割方式為基于scaffold的隨機分割。
3.2面對分子結構擾動表現出高魯棒性 本文認為魯棒性也是衡量一種方法是否優秀的重要指標。本文假設,當施加對分子性質影響很小的結構擾動時,一個魯棒的預測器不應顯著改變其輸出。機器學習方法可能受到各種自然干擾的影響,如果這樣的干擾發生在一些安全敏感型行業(如醫療),后果可能是災難性的。如圖4所示,本文跟多個主流模型進行了對比。GLAM 的魯棒性很可能是由于在流程末端的模型集成。集成的主要思想是訓練幾個模型,通過平均得到最終的預測。擾動分子結構可能會影響單個預測器,但不太可能會顯著影響混合模型。更多關于魯棒性實驗的細節見論文原文。
表4. 魯棒性實驗
4 總結 本文提出了一種靈活的方法,可以適應任何數據集并做出準確的預測。所提出的方法采用自適應的自動機器學習流程從數據集中學習并得到一個高性能,高魯棒的預測器。在沒有任何人工干預的情況下,該方法在所有測試數據集上實現了比基于手工設計的的傳統方法更好的預測性能。此外,本文發現所提出的方法比傳統方法更魯棒。這是第一個為分子數據設計的自動圖學習方法。它的出現能夠為新出現的全新數據賦能,即使充分利用好這些新數據。
參考資料 Li, Y., Hsieh, CY., Lu, R. et al. An adaptive graph learning method for automated molecular interactions and properties predictions. Nat Mach Intell (2022). //doi.org/10.1038/s42256-022-00501-8
在化學中,一般用IUPAC命名法、分子式、結構式、骨架式等形式來表示一個分子,然而這些形式最初是為人類而不是計算機設計的。為了便于計算機理解和利用分子,MRL被提出,MRL將分子映射到低維空間,表示為稠密向量。分子的學習向量(又稱嵌入)可用于廣泛的下游任務,如化學反應預測、分子性質預測、分子結構預測等。
研究人員已經提出了許多MRL方法,其中大部分都將SMILES字符串作為輸入,盡管這些語言模型功能強大,但它們卻很難從SMILES中學習到分子的原始結構信息,因為SMILES是分子結構的一維線性化。而GNN在處理分子表示中局限于設計新穎精致的GNN結構,忽略了MRL的本質——泛化能力。這激勵了作者探索GNN架構之外的方法。
在本文中,作者使用化學反應來協助學習分子表征,提高其泛化能力。化學反應通常由化學反應方程式表示,反應物在左側,生成物在右側,例如乙酸和乙醇的費希爾酯化反應。作者的想法是保持分子在嵌入空間的等價性。更重要的是,當分子編碼器是以總和作為readout函數的GNN時,該模型能夠自動隱式地學習同一類別內一組化學反應的反應模板,學習反應模板是提高分子表征泛化能力的關鍵。
作者將該模型稱為MoLR(chemical-reaction-aware molecule embeddings,化學反應感知的分子嵌入)。并且將可視化分子嵌入,表明它們能夠編碼反應模板和幾個關鍵的分子屬性,如分子大小和最小環的數量。