麻省理工近期發表在ICLR2022上關于分子生成的文章:《Data-Efficient Graph Grammar Learning for Molecular Generation》。作者提出了一種將圖文法構造與特定領域優化相結合的數據高效分子生成模型,能夠從由分子圖組成的小樣本中學習歸納出圖文法,然后基于圖文法的生成規則生成得到新的分子。圖文法包含不同大小(即高于原子水平)的子結構,文法的構造過程通過多種化學指標(分布統計、可合成性等)進行優化,且同時滿足特定的化學約束。在三個小型聚合物數據集和一個大型聚合物數據集的實驗證明了該方法的有效性,且能夠以高成功率生成特定類別分子單體。 該方法非常新穎且具有較好的解釋性。
圖 1:概述。給定要優化的分子和特定領域的指標,我們構建了一個圖形語法,它可以作為一個生成模型。圖文法構建過程通過優化度量來自動學習文法規則。
一種有效的機器學習方法使用化學知識來創建具有生產規則的可學習語法,以構建可合成的單體和聚合物。
化學工程師和材料科學家一直在尋找下一個革命性的材料、化學品和藥物。機器學習方法的興起正在加快發現過程,否則這可能需要數年時間。電氣工程教授 Wojciech Matusik 說:“理想情況下,目標是在一些現有的化學樣品上訓練機器學習模型,然后讓它生產盡可能多的具有可預測物理特性的同一類別的可制造分子”。“如果你擁有所有這些成分,你就可以構建具有最佳特性的新分子,并且你還知道如何合成它們。這就是該領域的人們想要實現的總體愿景”
然而,當前的技術,主要是深度學習,需要大量數據集來訓練模型,并且許多特定類別的化學數據集包含少數示例化合物,限制了它們概括和生成可以在現實世界中創建物理分子的能力。
麻省理工學院和 IBM 的研究人員發表了一篇新論文,使用生成圖模型在與其訓練數據相同的化學類別中構建新的可合成分子,從而解決了這個問題。為此,他們將原子和化學鍵的形成視為一個圖形,并開發了一種圖形語法——一種用于單詞排序的系統和結構的語言學類比——其中包含一系列構建分子的規則,例如單體和聚合物。使用從訓練集中推斷出的語法和產生式規則,該模型不僅可以對其示例進行逆向工程,還可以以系統和數據高效的方式創建新化合物。“我們基本上建立了一種用于創建分子的語言,”Matusik 說,“這種語法本質上是生成模型”。
分子結構可以被認為是圖形中的符號表示——通過化學鍵(邊)連接在一起的一串原子(節點)。在這種方法中,研究人員允許模型采用化學結構并將分子的子結構折疊到一個節點;這可能是通過鍵連接的兩個原子,鍵合原子的短序列或原子環。重復執行此操作,創建生產規則,直到剩下一個節點。然后可以以相反的順序應用規則和語法,從頭開始重新創建訓練集,或以不同的組合組合以產生相同化學類別的新分子。
在不久的將來,該團隊計劃解決擴大這種語法學習過程的問題,以便能夠生成大圖,以及生產和識別具有所需特性的化學品。
研究小組指出,在未來,研究人員看到了 DEG 方法的許多應用,因為它除了產生新的化學結構之外還具有適應性。圖形是一種非常靈活的表示形式,許多實體都可以用這種形式進行符號化——例如機器人、車輛、建筑物和電子電路。“本質上,我們的目標是建立我們的語法,以便我們的圖形表示可以廣泛用于許多不同的領域,因為DEG 可以自動設計新穎的實體和結構”。
在化學中,一般用IUPAC命名法、分子式、結構式、骨架式等形式來表示一個分子,然而這些形式最初是為人類而不是計算機設計的。為了便于計算機理解和利用分子,MRL被提出,MRL將分子映射到低維空間,表示為稠密向量。分子的學習向量(又稱嵌入)可用于廣泛的下游任務,如化學反應預測、分子性質預測、分子結構預測等。
研究人員已經提出了許多MRL方法,其中大部分都將SMILES字符串作為輸入,盡管這些語言模型功能強大,但它們卻很難從SMILES中學習到分子的原始結構信息,因為SMILES是分子結構的一維線性化。而GNN在處理分子表示中局限于設計新穎精致的GNN結構,忽略了MRL的本質——泛化能力。這激勵了作者探索GNN架構之外的方法。
在本文中,作者使用化學反應來協助學習分子表征,提高其泛化能力。化學反應通常由化學反應方程式表示,反應物在左側,生成物在右側,例如乙酸和乙醇的費希爾酯化反應。作者的想法是保持分子在嵌入空間的等價性。更重要的是,當分子編碼器是以總和作為readout函數的GNN時,該模型能夠自動隱式地學習同一類別內一組化學反應的反應模板,學習反應模板是提高分子表征泛化能力的關鍵。
作者將該模型稱為MoLR(chemical-reaction-aware molecule embeddings,化學反應感知的分子嵌入)。并且將可視化分子嵌入,表明它們能夠編碼反應模板和幾個關鍵的分子屬性,如分子大小和最小環的數量。
圖神經網絡(GNN)在實際應用中往往會受到可用樣本數量太少的限制,而元學習(meta-learning)作為解決機器學習中樣本缺乏問題的重要框架,正逐漸被應用到 GNN 領域以解決該問題。本文梳理近年來在元學習應用于 GNN 的一系列研究進展,我們根據模型的架構、共享的表示和應用的領域對以往工作進行分類,并在最后討論該領域當前有待解決的問題和未來值得關注的研究方向。
圖結構數據(Graph)廣泛存在于現實場景中,例如藥物研究中的藥物分子結構和推薦系統中的用戶商品交互都可以用圖(Graph)表示,而圖數據(Graph)的廣泛存在也促進了圖神經網絡(GNN)的發展。GNN 是專門用于處理圖數據的深度神經網絡,它將圖或圖上的頂點、邊映射到一個低維空間,從而學習得到圖的有效表示,并進一步將其應用于下游任務。近年來,GNN 被廣泛應用于新藥發現、交通預測、推薦系統等各個領域。
盡管 GNN 擁有非常強大的能力,但在實際應用中依然面臨樣本數量有限的挑戰,特別是在推薦系統等真實系統更是要求 GNN 可以在少量樣本可用的情況下適應新問題。而元學習(meta-learning)作為解決深度學習系統中樣本缺乏問題的重要框架,在自然語言處理、機器人技術等多種應用中都取得了成功。因此,如何利用元學習解決 GNN 所面臨的樣本缺乏問題,是研究人員普遍關心的問題。
元學習的主要思想是利用之前的學習經驗來快速適應一個新問題,從而利用很少的樣本就能學習一個有用的算法。具體來講,元學習旨在以先驗的形式學習一個模型,而不是針對所有任務學習一個模型(不能區分任務)或針對每個任務學習單獨的模型(可能對每個任務過擬合)。元學習應用于 Graph 的主要挑戰是如何確定跨任務共享的表示類型,以及怎樣設計有效的訓練策略。近期,研究人員針對不同的應用場景,已經提出了多種元學習方法來訓練 GNN。本文我們就將對元學習在 GNN 上的運用進行全面回顧。