編譯 | 夏忻焱 審核 | 沈祥振 今天給大家帶來的是牛津大學的Sheheryar Zaidi和DeepMind公司的Michael Schaarschmidt聯合發表的文章《Pre-training via Denoising for Molecular Property Prediction》。從3D結構中預測分子性質的數據有限,這對神經網絡的泛化造成了挑戰。作者介紹了一種預訓練技術,它利用平衡狀態下3D分子結構的大型數據集來為下游任務學習有意義的表示。受最近噪聲正則化的啟發,作者的預訓練目標是基于去噪的。依賴于去噪自動編碼器和分數比配之間公認的聯系,作者還表明目標對應于直接從平衡結構學習分子力場——其由高斯混合近似物理狀態分布產生。實驗表明,使用這個預訓練目標可以大大改善多個基準測試的性能,在廣泛使用的QM9數據集中達到了最先進水平。最后,作者分析了不同因素對預訓練的影響,并提出了實用性的見解。
1 介紹 計算機視覺(CV)和自然語言處理(NLP)中表現最好的神經網絡依賴于模型在大型數據集上的預訓練,預訓練可幫助學習適用于下游任務的特征。對于從3D結構(中原子核的點云)中預測分子性質,如何學習3D結構的近似表示仍有待研究。比如,那些在QM9基準測試中表現最好的模型沒有一個進行了預訓練,這與CV和NLP產生了鮮明的對比。有效的預訓練方法可以對相關領域產生重大影響,比如藥物發現和材料科學。
在這項工作中,作者關注的問題是如何利用大型3D分子結構數據集來提高下游分子性質預測任務的性能,這些任務也依賴于輸入的3D結構。文章討論的問題是:如何利用像PCQM4Mv2這樣包含超過300萬個結構的大型數據集來提高像DES15K這樣小一個數量級的數據集性能?答案是一種自監督的預訓練,為下游的預測任務提供有用的表示。
受圖神經網絡(GNNs)噪聲正則化最新進展的啟發,預訓練目標是基于結構空間的去噪(因此是自監督的)。與現有的大多集中于2D圖的預訓練方法不同的是,作者的方法目標是下游任務涉及到的定義分子結構的3D點云的設置。依賴于去噪和分數匹配之間的公認聯系,作者表明去噪目標等于(近似)特定力場的學習,揭示了它如何幫助表征學習。
文章的貢獻總結如下: * 研究了一種簡單有效的方法,通過在3D結構空間中的去噪來預訓練,目的是改善從這類3D結構中的下游分子性質的預測。去噪目標被證明與學習一種特定力場有關。 * 實驗表明通過去噪來預訓練可以極大的改善在大小,任務性質和分子位置上都有所不同的具有多種挑戰的任務數據集上的性能表現。這證明結構去噪成功地轉移到分子性質預測上,特別是在廣泛使用的QM9數據集的12個目標中的10個目標都創造了最先進的表現。圖1說明了QM9其中一個目標的性能。 * 作者對常見的GNN架構進行了改進,特別地展現了如何將定制的激活轉換器(TAT)應用到圖網絡模擬器中(GNS),這是對預訓練的補充并且進一步提升了性能。 * 通過深入了解訓練集大小、模型大小和結構、以及上下游數據集之間的關系,作者分析了預訓練的好處。
2 方法 2.1問題設置
2.2通過去噪來預訓練
3 實驗 實驗目的是回答以下問題。首先,相比于隨機初始化訓練,通過去噪對神經網絡進行預訓練是否可以改善在下游任務中的性能?第二,上游和下游數據集的聯系如何影響預訓練的效果?評估涉及到四個現實的、具有挑戰性的分子數據集,包括:PCQM4Mv2、QM9、OC20、 DES15K。
4 分析 作者分析了不同因素如何影響預訓練,考慮了許多因素的影響,包括不同架構、不同數據集大小、不同模型大小和固定特征只對解碼器進行微調。
4.1 預訓練不同的架構
4.2 不同的數據集大小 如圖4(左)所示,預訓練提高了所有規模數據集的下游性能。隨著下游訓練數據集的減少,測試MAE的差異也變大了。如圖4(中)所示,上游數據增加,下游性能普遍提高,GNS-TAT性能達到飽和。更多的上游數據可以產生更好質量的表征,其結果體現在下游性能中。
4.3 不同的模型尺寸 如圖4(右)所示,預訓練繼續受益于更大的模型規模。預訓練是有用的,因為比較而言,從頭開始訓練的模型表現不佳:從頭開始訓練的1.3億參數的模型被不到一半規模(0.53億參數)的預訓練模型超越。
4.4 固定預訓練參數
5 總結 作者研究了通過3D分子空間結構去噪對神經網絡進行預訓練。作者表明去噪等同于學習一個特定的力場,激勵其學習有用的表征,揭示了去噪在其它工作中的成功應用。這項工作可以利用現有的大型3D結構數據集,提高從3D結構預測各種下游分子性質任務的性能。更廣泛的說,這彌補了CV/NLP和從結構中預測分子性質的預訓練之間效用的差距。 參考資料 Zaidi, S., Schaarschmidt, M., Martens, J., Kim, H., Teh, Y. W., Sanchez-Gonzalez, A., ... & Godwin, J. (2022). Pre-training via Denoising for Molecular Property Prediction. arXiv preprint arXiv:2206.00133.
對結構化數據進行少樣本學習可能是在現實生活中部署AI模型的基本要求。在經典的監督ML設置中,我們可以獲得大量的標有標簽的樣本,這在現實環境中通常不是這樣——一些例子是生化、健康、社會或天氣環境。其中許多可以用圖形表示,因此結構在設計能夠成功處理這些場景的方法時也扮演著關鍵角色。因此,充分利用少數可用的標簽并使我們的模型能夠利用這些信息通常是很重要的,以便獲得與通過數據需求方法獲得的相同好的表示。該演講展示了兩件工作,從不同的角度解決了這個問題:場景圖生成中新穎合成的圖密度感知損失(Knyazev et al., 2020)和消息傳遞神經過程(Cangea & Day et al., 2020)。
//catalinacangea.netlify.app/talk/roaidays_nov21/
基于藥物相關數據進行分子的生成與評估是新藥設計的關鍵任務。在藥物設計早期,藥物研發通常依靠藥物化學家的經驗進行藥物分子的設計與驗證。藥物化學家會合成一組化合物并對其進行生物活性測試,查看測試產生的數據,并利用對基礎學科的理解來決定下一步要合成哪些分子。他們將以上步驟進行迭代,最終得到所需的目標分子。
20世紀30年代,定量結構-活性關系(Quantitative Structure-Activity Relationship,QSAR)的發展,為化學結構與各種理化性質之間建立了一個數學模型。這些用于性質預測的QSAR模型奠定了許多虛擬篩選策略的基礎。虛擬篩選使用大量候選分子數據集得到更小的數據集用于后續的合成或者購買。
之后許多研究團隊產生了新的想法。他們編寫了計算機程序來進行從頭分子設計進而生成新分子。這些程序通常在蛋白質結合位點上添加原子或官能團來“生長”現有的分子,然后使用各種打分函數來評估這些分子,并將更優分子用于合成。雖然這些全新的設計方法取得了一些成功,但它們并沒有被廣泛采用。
在近幾年深度學習發展的推動下,分子生成和分子性質預測領域開始復蘇。深度學習應用于分子性質預測,包括預測生物活性、ADME(Absorption, Distribution, Metabolism, and Excretion)和與毒性靶標(eg: hERG——thehumanEther-à-go-go-RelatedGene)的相互作用等。其不依賴于專家定義的分子特征集,而是使用可調整到特定任務的學習特征。相關性質預測模型的性能優于更傳統的QSAR方法。當應用于分子生成領域時,深度學習并不是隨機擴展現有的分子,也不是使用一套規則來連接現有的分子片段,而是從現有的分子訓練集中學習規則生成分子。通過將這些生成方法與預測模型相結合,研究人員能夠設計出滿足特定生物活性的分子。