在化學中,一般用IUPAC命名法、分子式、結構式、骨架式等形式來表示一個分子,然而這些形式最初是為人類而不是計算機設計的。為了便于計算機理解和利用分子,MRL被提出,MRL將分子映射到低維空間,表示為稠密向量。分子的學習向量(又稱嵌入)可用于廣泛的下游任務,如化學反應預測、分子性質預測、分子結構預測等。
研究人員已經提出了許多MRL方法,其中大部分都將SMILES字符串作為輸入,盡管這些語言模型功能強大,但它們卻很難從SMILES中學習到分子的原始結構信息,因為SMILES是分子結構的一維線性化。而GNN在處理分子表示中局限于設計新穎精致的GNN結構,忽略了MRL的本質——泛化能力。這激勵了作者探索GNN架構之外的方法。
在本文中,作者使用化學反應來協助學習分子表征,提高其泛化能力。化學反應通常由化學反應方程式表示,反應物在左側,生成物在右側,例如乙酸和乙醇的費希爾酯化反應。作者的想法是保持分子在嵌入空間的等價性。更重要的是,當分子編碼器是以總和作為readout函數的GNN時,該模型能夠自動隱式地學習同一類別內一組化學反應的反應模板,學習反應模板是提高分子表征泛化能力的關鍵。
作者將該模型稱為MoLR(chemical-reaction-aware molecule embeddings,化學反應感知的分子嵌入)。并且將可視化分子嵌入,表明它們能夠編碼反應模板和幾個關鍵的分子屬性,如分子大小和最小環的數量。
分子表示學習有助于多種下游任務,如分子性質預測和藥物設計。為了正確地表示分子,圖對比學習是一個很有前途的范式,因為它利用了自監督信號,而且不需要人類注釋。然而,以往的研究沒有將基本的領域知識納入圖語義學中,從而忽略了具有共同屬性但沒有鍵直接連接的原子之間的關聯。為了解決這些問題,我們構建了一個化學元素知識圖譜(KG)來概括元素之間的微觀關聯,并提出了一種新的知識增強對比學習(KCL)框架來進行分子表示學習。KCL框架由三個模塊組成。第一個模塊是知識引導的圖增強模塊,對原有的基于化學元素KG的分子圖進行擴充。第二個模塊是知識感知圖表示,對原始分子圖使用通用圖編碼器提取分子表示,并使用知識感知消息傳遞神經網絡(knowledge-aware Message Passing Neural Network, KMPNN)對增強分子圖中的復雜信息進行編碼。最后一個模塊是一個對比目標,在這里我們最大化了分子圖的這兩種視圖之間的一致性。大量實驗表明,KCL在8個分子數據集上取得了優于先進基線的性能。可視化實驗正確地解釋了KCL從增廣分子圖中的原子和屬性中學到的東西。我們的代碼和數據有補充資料。