分子表示學習(Molecular representation learning, MRL)是建立機器學習與化學科學聯系的關鍵步驟。特別是,它將分子編碼為保留分子結構和特征的數值向量,在此基礎上可以執行下游任務(如性能預測)。近年來,MRL取得了相當大的進展,特別是在基于深度分子圖學習的方法中。在這項綜述中,我們系統地回顧了這些基于圖的分子表示技術。具體來說,我們首先介紹了二維和三維圖形分子數據集的數據和特征。然后,我們總結了專門為MRL設計的方法,并將其分為四種策略。此外,我們還討論了MRL支持的一些典型的化學應用。為了促進這一快速發展領域的研究,我們也在論文中列出了基準和常用的數據集。最后,我們分享了對未來研究方向的思考。
機器學習和化學科學之間的相互作用受到了這兩個領域研究人員的極大關注。它在包括分子性質預測在內的各種化學應用中取得了顯著的進展[Guo et al., 2020; Sun et al., 2021; Yang et al., 2021b; Liu et al., 2022b],反應預測[Jin等人,2017;Do等人,2019],分子圖生成[Jin et al., 2018a; Jin et al., 2020b]以及藥物-藥物相互作用預測[Lin等人,2020]。分子表示學習(MRL)是彌補這兩個領域差距的重要步驟。MRL的目標是利用深度學習模型將輸入的分子編碼為數值向量,保存有關分子的有用信息,并作為下游(機器學習)應用的特征向量。早期的分子表示學習方法使用一般表示學習模型來表示分子,而不需要明確地涉及領域知識。近年來,針對MRL專門設計了許多算法,這些算法可以更好地融合化學領域知識。在本文中,我們系統地回顧了這一快速發展的主題的進展,繪制了從結合分子結構的表示學習方法到同時結合領域知識的方法的路徑。
動機1: 為什么分子表示學習很重要?
分子表示學習具有廣泛的應用范圍,與人們的生活密切相關。例如,通過wet-lab實驗發現藥物是非常耗時和昂貴的。隨著深度學習的發展,大量的實驗可以用機器學習模型來模擬。性質預測可以幫助識別具有目標性質的分子。反應預測可以預測主要產物。這大大減少了失敗實驗的數量。對于所有這些化學應用,MRL是深度學習模型成功的關鍵決定因素。
動機2: 為什么要用深度圖學習來進行分子表示學習?
分子圖自然地描述了具有豐富結構和空間信息的分子。分子本質上是原子和連接原子的鍵,這自然會導致它們自己的圖表示。相對于基于分子的線狀表示(即串),分子圖為MRL模型提供了更豐富的信息。因此,基于圖的MRL模型比基于序列的MRL模型發展得更快。此外,越來越多的通用圖學習論文[Gilmer et al., 2017; Hu* et al., 2020; You et al., 2020]也使用分子圖數據集來檢查他們算法的性能。
這項工作的主要貢獻總結如下:
基于圖的分子表示學習綜述: (a) 兩個分子圖; (b) 圖神經網絡的一般學習過程; (c) 提出了四種基于圖的分子表示學習方法; (d) 聚合原子表示以獲得分子表示的過程。
數據表示
傳統上,研究人員使用固定的指紋特征提取規則來識別每個分子的重要信息,并將這些手工制作的信息輸入線性分類/回歸頭部進行下游任務。這需要大量的時間來確定和計算最相關的功能,而設計的功能仍然不能支持所有的任務。為了避免這些問題,大多數深度學習模型都是用來自動學習分子特征的。兩種分子表示被用作輸入:分子圖和分子序列。據此,開發了基于圖和基于序列的模型,以從不同的輸入分子表示中學習。序列表示,如簡化的分子輸入行輸入系統(SMILES) [Weininger et al., 1989]和自引用嵌入字符串(selfie) [Krenn et al., 2020]可以轉換為分子圖,但這種轉換涉及大量領域知識。當我們以序列表示作為輸入時,基于序列的學習模型不容易意識到這一知識。相反,圖表示可以自然地在節點和邊中包含額外的信息,這很容易被豐富的基于圖的模型套件(例如,圖神經網絡)所利用。因此,在這次調研中,我們將重點放在圖表示上,因為它現在使用的比較普遍。在本節中,我們將闡明分子圖(不含空間信息)和三維分子圖表示,如圖1 (a)所示。對于每一種表示,我們都將分析其特點,并討論其在深度學習模型中使用的用途和局限性。
3 方法
在本節中,我們從MRL的一般圖神經網絡開始。然后,我們討論了專門為這項任務設計的方法,并將這些方法分為四種策略。這些特定的方法結合了化學相關信息,以不同的方式加強分子表征,從而導致更好的性能。表2列出了具有代表性的方法。
表一 一個具有代表性的基于圖的分子表示學習算法列表。四種方法(MS, DK, SS, KG)分別對應第3節的四個部分。在這里,MS專門代表了分子子結構相關的方法。該表包括四種訓練方法:自監督學習(SSL)、監督學習(SL)、預訓練學習(PT)和對比學習(CL)。
3.1 基于分子結構的方法
基于圖的MRL通常認為分子圖與其他平面圖是一樣的。它只關注分子圖的拓撲結構,而不關心分子圖中包含的特殊子結構或性質。最近的研究已經看到了對自監督學習策略的嘗試[Jin et al.,2020a],這促使模型更加關注圖結構。PreGNN [Hu et al.,2020]利用上下文預測和節點/邊緣屬性掩蔽兩種自監督策略對GNN進行預訓練。與這種一般的無監督設計不同,GROVER [Rong et al., 2020]提出了分子特異性的自監督前訓練方法:上下文屬性預測和圖形級motif預測。MGSSL[Zhang et al.,2021]還設計了一種基于主題的圖自監督策略,在主題樹生成過程中預測主題的拓撲和標簽。INFOGRAPH[Sun et al., 2020]通過最大化整個圖的表示和不同粒度的子結構之間的互信息來訓練模型。
對比學習是一種常見的自監督學習策略,它利用數據增強使模型產生具有更好的泛化性、可遷移性和魯棒性的圖表示。GraphCL [You et al.,2020]提出了三種通用的圖增強方法,也可應用于分子數據集。MoCL [Sun et al.,2021]提出了兩種分子圖增強方法:一種是用類似的物理或化學性質相關的子結構取代有效的子結構。另一種是改變一些普通的碳原子。分子2D和3D圖形表示自然是分子的兩種增強視圖。利用這一特性,GeomGCL[Li et al.,2022]和GRAPHMVP[Liu et al.,2022a]通過對比學習訓練模型。分子結構知識不僅用于自監督學習。基于Motif、substructure和scaffold的分子表征學習在分子生成中的應用[Jin et al., 2020c; Maziarz et al., 2022; Wu et al., 2022]也取得了具有很好的性能。
領域知識的方法
將深度學習與分子科學相結合是分子表示學習的重要組成部分。在模型設計中引入化學領域知識是提高性能的有效途徑。Yang等人[Yang等人,2021b]提出了一個新的模型,PhysChem,它由物理學家網絡(PhysNet)和化學家網絡(ChemNet)組成。PhysNet通過神經網絡學習分子構象,ChemNet通過神經網絡學習化學性質。通過融合物理和化學信息,PhysChem獲得了性能預測任務所需的性能。PAR[Wang et al., 2021]涉及任務信息,提出了一種屬性感知的嵌入方法。Wang等人[Wang等人,2022]的靈感來自化學反應中反應物和生成物之間的等價關系。他們提出,MolR,在嵌入空間中保持等價關系,這意味著使反應物嵌入和乘積嵌入的和相等。MolR在各種下游任務中實現SOTA性能。
基于空間學習的方法
空間信息尤其是幾何信息受到廣泛關注,越來越多地涉及到分子表示學習過程中,特別是當模型需要學習原子上的力或能量時。DimeNet [Klicpera et al., 2019],GemNet [Klicpera et al., 2021a]和定向MPNN [Klicpera et al., 2021b]提出了定向消息嵌入。雖然他們仍然以二維分子圖作為輸入,但他們不僅考慮了原子之間的距離,還考慮了空間方向,這是由原子的二維坐標計算的。它們利用方向信息,根據原子之間的角度轉換信息。利用球面貝塞爾函數和球面諧波,可以有效地聯合提出距離和角度。一般來說,二維圖強調拓撲信息,而三維幾何圖更注重能量。GeomGCL [Li et al., 2022]計算確定的幾何因子(角度和距離),并利用徑向基函數獲得幾何嵌入。GRAPHMVP [Liu et al., 2022a]采用3D構象,通過3D GNN模型學習分子表示。為了完成三維圖結構的識別,SphereNet [Liu et al., 2022b]設計了一個球形消息傳遞作為三維分子學習的強大方案。
基于知識圖譜的方法
知識圖譜是一種將分子結構不變但豐富的外部知識引入模型的有效策略。與以往的方法不同,KGNN [Lin et al., 2020]和MDNN [Lyu et al., 2021]探索以分子為節點,以分子之間的連接關系為邊的知識圖譜。這樣,通過知識圖譜結構而不是分子結構來學習分子表示。Fang等[Fang et al., 2022]構建了一個化學元素知識圖,由(化學元素、關系、屬性)形式的三元組構成,如(Gas, isStateOf, Cl)。他們建議使用這種KG來增加分子中的節點和邊,并利用對比學習來最大化分子圖的兩種觀點之間的一致性。
4 應用
在這里,我們介紹了幾個代表性的應用和算法,以解釋如何設計模型來處理基于MRL的特定應用。分子性質預測在藥物發現中起著重要的作用,能夠發現具有靶點性質的候選藥物。通常,該任務包括兩個階段:生成固定長度分子表示的分子編碼器和預測器。預測器根據學習到的分子表示預測分子是否具有目標性質或預測分子對目標性質的反應。性能預測結果可以直接反映學習到的分子表示質量。因此,性質預測問題得到了研究者的廣泛關注。越來越多的通用圖學習論文[Hu* et al., 2020; Gilmer et al., 2017; Brockschmidt, 2020; You et al., 2020]利用分子圖數據集和屬性預測任務來檢查其算法的性能。首先提出了針對MRL的分子深度學習方法,并將其應用于本課題。MolR [Wang et al., 2022]提出了一種通過保持分子反應在嵌入空間中的等價關系來學習分子表征的新方法,該方法也首先應用于性質預測任務。此外,現有的分子數據集不足是化學領域普遍存在的問題。Guo等人[Guo et al., 2021]和Wang等人[Wang et al., 2021]提出了元學習方法來處理性質預測中的這個問題。
藥物發現的關鍵挑戰是找到具有靶標性質的靶標分子,這在很大程度上依賴于領域專家。分子生成是為了使這個過程自動化。完成這項任務需要兩個步驟:一是設計一個編碼器,以連續的方式表示分子,這有利于優化和預測性質;另一種是提出一種解碼器,將優化后的空間映射到具有優化特性的分子圖上。由于SMILES 不是用來捕獲分子相似性的,分子生成模型大部分時間直接在分子圖上操作。為了避免無效狀態[Jin et al., 2018a],大多數工作都是通過子結構生成圖的子結構,而不是通過節點生成圖的子結構。JT-VAE [Jin et al., 2018a]和VJTNN [Jin et al., 2018b]基于圖中的子結構,首先將分子圖分解為連接樹。然后他們用神經網絡對樹進行編碼。接下來,他們重建連接樹,并將樹中的節點組裝回原始的分子圖。HierVAE [Jin et al., 2020b]基于基序分層生成分子圖。MoLeR [Maziarz et al,2022]在生成過程中保持支架結構,并依靠基序生成分子。GraphAF [Shi et al,2020]利用流動模型生成分子圖。MoleculeChef [Bradshaw et al,2019]是一種用于生成可合成分子的模型。它首先生成反應物分子,然后利用分子transformer (Schwaller et al., 2019)模型生成目標分子。
反應的預測
反應預測和反合成預測是有機化學的基本問題。反應預測是指利用反應物預測反應產物。反合成預測過程與反應預測相反。以SMILES為輸入時,將反應預測任務作為翻譯任務。以分子圖為輸入時,分為反應預測和反合成預測兩步。與WLDN [Jin et al., 2017]和WLDN++ [Coley et al., 2019]一樣,該模型需要先預測反應中心,然后預測潛在產物,這是主要產物。與之前的工作不同,MolR [Wang et al., 2022]將反應預測的任務定義為一個排序問題。測試集中的所有產品都放在候選池中。MolR根據從給定的反應物集學習到的嵌入對這些候選產物進行排名。
藥物之間相互作用
檢測藥物-藥物相互作用(DDI)是一項重要的任務,可以幫助臨床醫生做出有效的決策和安排合適的治療方案。準確的DDI不僅可以幫助藥物推薦,還可以有效地識別潛在的不良反應,這對患者和社會都至關重要。AttSemiGAE[Ma et al., 2018]提出通過測量多種藥物特征的藥物相似性來進行DDI。SafeDrug [Yang et al., 2021a]設計了全局和局部兩個模塊,以完全編碼藥物分子的連通性和功能,從而產生DDI。KGNN [Lin et al., 2020]和MDNN [Lyu et al., 2021]都構建了藥物知識圖譜,以提高DDI的準確性。
5. 數據集與基準
我們在表2中總結了代表性的分子表示學習算法。為方便查閱實證結果,每篇論文均附有代碼鏈接(如有)。文中還列出了相應的任務、編碼算法、方法和訓練方法。這里,方法指定了我們在第3節中討論的4種方法。對于訓練方法,我們包括自我監督學習、監督學習、訓練前學習和對比學習。除了算法,我們還在表3中總結了不同化學任務常用的數據集。
圖(或網絡)在生命科學和醫學中無處不在,從分子相互作用圖、信號轉導途徑,到科學知識的圖表,以及來自人口研究和/或現實世界證據的患者-疾病干預關系。圖機器學習(ML)方法的最新進展,如圖神經網絡(GNN),已經改變了一系列依賴于生物醫學網絡的問題,傳統上依賴于描述性拓撲數據分析。小分子和大分子,沒有被建模為圖,也看到了一個基于GNN算法,提高了最先進的性能,以學習他們的性質。與其他領域的圖ML應用相比,生命科學提供了許多獨特的問題和細微差別,從圖構造到圖級和雙圖級監督任務。
本教程的目的有兩個。首先,它將全面概述生物醫學圖/網絡的類型,潛在的生物和醫學問題,以及解決這些問題的圖ML算法的應用。其次,它將展示四個具體的生命科學GNN解決方案,并為與會者提供實踐經驗。這些實踐環節將包括: 1) 訓練和微調用于原子圖小分子性質預測的GNN模型,2)用于殘留圖的大分子性質和功能預測,3 )基于雙圖的蛋白質-配體結合親和力預測,4)組織和生成用于藥物發現的新知識,并利用知識圖譜進行再利用。本教程還將指導參會者開發Deep Graph library (DGL)軟件庫的兩個擴展,包括DGL-lifesci和DGL- KE,從而啟動他們自己的圖ML之旅,推動生命科學的研發。
本教程向數據科學研究人員和從業人員介紹了應用于生物醫學科學和醫療健康中各種問題的基于圖神經網絡(GNN)的方法。本教程首先概述了利用GNN實現小分子、大分子和生物醫學知識圖譜的各種機會。四項實踐活動將為參與者提供一系列不同的生物醫學問題,特別是如何部署基于GNN的庫用于這些應用,導致生物表型預測,相互作用預測,親和力預測和藥物發現。
本教程將分為以下五個部分:
第一節: 生物醫學中的圖ML概述。本節介紹生物醫學科學中常用的不同類型的圖,以及如何利用GNN等基于圖的機器學習方法。特別地,我們將涵蓋單一實體生物醫學網絡,包括基因調控網絡和蛋白質-蛋白質相互作用網絡,以及多實體網絡,如蛋白質、基因、疾病、癥狀和藥物的知識圖譜。本節還介紹了小分子和大分子(如有機化合物和蛋白質)的圖表示,它們可以分別建模為原子和殘基的獨立圖。
第二節: 用GNN解釋小分子的意義。本節演示如何開發端到端基于圖的ML管道,用于分子性質預測。該管道首先涵蓋了如何從原子圖構建小有機化合物的特征。然后,將介紹使用DGL-lifesci命令行界面的兩個用例:1)從頭開始訓練GNN以進行分子特性預測,2)微調預訓練的GNN以進行分子特性預測。
第三節: 用GNN解釋大分子的意義。本節演示如何使用GNN來預測包括RNA和蛋白質在內的大分子的性質。我們將涵蓋兩個實際案例研究:1)使用GCN預測COVID-19 mRNA疫苗降解,2)使用氨基酸殘基圖上的等變GNN預測蛋白質功能。
第四節: 超越單圖,基于雙圖的蛋白質-配體結合親和力預測。本節演示一個在一對圖之間進行預測的案例研究。蛋白質-配體結合親和度預測在藥物發現早期的候選藥物篩選中具有重要意義。我們演示了如何使用PotentialNet來完成這項任務,以及一種新穎的分子數據匿名化程序來保護分子結構的IP。
第五節:組織和生成新的知識,用于藥物發現和利用知識圖譜(KGs)。本節展示了圖在生命科學中的另一個應用,它使用大規模的KGs來組織來自不同醫療來源的信息,并對這些KGs進行預測。我們將回顧構建這類醫學知識圖譜的三種方法:1)挖掘醫學文獻和出版物;2)處理和拼接來自不同醫學數據庫的不同知識圖譜;3)將關系數據庫轉換為知識圖譜。我們將回顧展示如何使用知識圖譜和圖形ML來對知識圖譜進行預測的筆記本,并解釋完成知識圖譜的常見目標。
機器學習方法已經廣泛應用于藥物發現領域,使得更強大和高效的模型成為可能。在深度模型出現之前,建模分子在很大程度上是由專家知識驅動的;為了表現分子結構的復雜性,這些手工設計的規則被證明是不夠的。深度學習模型是強大的,因為它們可以學習問題的重要統計特征——但只有正確的歸納偏差。我們在兩個分子問題的背景下解決這個重要的問題:表征和生成。深度學習的典型成功在于它能夠將輸入域映射到有意義的表示空間。這對于分子問題尤其尖銳,分子之間的“正確”關系微妙而復雜。本論文的第一部分將重點討論分子表征,特別是性質和反應預測。在這里,我們探索了一種用于分子表示的Transformer式架構,提供了將這些模型應用于圖形結構對象的新工具。拋開傳統的圖神經網絡范式,我們展示了分子表示原型網絡的有效性,它允許我們對分子的學習性質原型進行推理。最后,我們在改進反應預測的背景下研究分子表示。本論文的第二部分將集中在分子生成,這是至關重要的藥物發現作為一種手段,提出有前途的藥物候選人。我們開發了一種新的多性質分子生成方法,通過首先學習分子片段的分布詞匯。然后,利用這個詞匯,我們調查了化學空間的有效探索方法。
//dspace.mit.edu/handle/1721.1/143362
機器學習已經迅速改變了藥物發現的傳統渠道,為過程的每一步提供了新的工具。許多傳統上需要廣泛、專業領域知識的問題已經通過深度學習工具解決,使它們更高效、更廉價。先前的化學信息學方法使用許多手工設計的規則來建模小分子。這些技術被用于解決諸如性質預測之類的問題,其中的任務是預測分子的性質。然而,試圖解決這些表示問題的傳統方法由于其不靈活的特性而缺乏良好的泛化能力。深度學習模型的變革性方面在于模型直接從數據中學習和提取重要特征的能力。然而,這只有在正確的結構偏差和模型基礎上的建模假設下才可能實現。在分子問題上天真地應用深度方法會限制模型的能力或有用性,阻礙它們的推廣能力和在實踐中的有用性。因此,利用正確的歸納偏差的重要性不能被低估。
在深度學習方法出現之前,分子建模需要繁重的工程和固定的表示,通常被稱為定量構效關系(QSAR)方法。在這些方法中,指紋技術是非常受歡迎的,大致可以分為基于結構的[30]、拓撲[1]、循環[8]和藥效團指紋等幾種類型[91]。其中一些指紋(如基于結構的MACCS[30]指紋)是高度特定的表示,由一組固定的預定義結構的指示函數組成。其他的指紋,拓撲的和圓形的,其中包括摩根指紋更靈活。這些指紋通過枚舉路徑或環形鄰域來捕獲局部拓撲。然而,問題仍然存在于生成方法的確定性本質中:如果這些預定義規則沒有為任務捕獲正確的表示,它們將不能很好地工作。例如,對于許多小分子問題來說,性質懸崖(property cliff)仍然是一個具有挑戰性的問題,這是一種類似分子表現出不同性質的現象。這個問題對于分子指紋尤其尖銳,因為特征是固定的。然而,使用深度模型也不能解決這個問題,因為深度模型很容易與數據過度擬合,并且提供較差的泛化。
因此,我們的深度學習模型納入正確類型的結構偏差是至關重要的。圖神經網絡通過迭代聚合方案進行操作,在每一步,節點從其鄰居聚合信息。依次,一個節點應該包含越來越多的關于更大的鄰域的信息。節點表示最終聚合為表示圖的單個向量。雖然這種簡單的范式有時是有效的,但可能并不總是包含正確的分子任務類型的偏見。例如,當考慮分子的特性時,這種局部鄰域聚集可能無法捕捉到很重要的遠程依賴關系。更重要的是,也許在二維分子圖上的聚集并不適合理想的分子表示,我們應該觀察三維結構。對于分子的深度模型的發展有許多考慮,但它們需要正確的結構才能有效。指紋表示很簡單,但不靈活,經常涉及很多人類設計的規則。另一方面,深度模型很容易過擬合,無法捕捉正確的結構表示。
結構蛋白質組學以研究蛋白質和蛋白質復合物的結構-功能關系為重點,近年來發展迅速。自21世紀初以來,蛋白質數據庫(Protein Data Bank)等結構數據庫存儲了越來越多的蛋白質結構數據,模型結構也越來越可用。結合基于圖的機器學習模型的最新進展,這使得在預測模型中使用蛋白質結構數據成為可能,目標是創建工具,以促進我們對蛋白質功能的理解。與目前快速發展的分子圖使用圖學習工具類似,在蛋白質結構上使用圖學習方法的趨勢也越來越大。在這篇簡短的綜述論文中,我們調研了在蛋白質上使用圖學習技術的研究,并檢驗了它們的成功和不足,同時也討論了未來的方向。
蛋白質是我們體內所有細胞的基石。雖然DNA分子擁有生命所必需的所有信息,但卻是蛋白質執行遺傳物質[1]的編碼。蛋白質的功能在很大程度上取決于其三維構象,了解蛋白質的三級結構是了解其功能[2]的基本前提。雖然有許多專門的蛋白質結構數據庫[3,4],但蛋白質數據庫(protein Data Bank, PDB)是事實上國際公認的存儲實驗確定的3D蛋白質結構[5]的數據庫。在過去的二十年中,我們已經看到PDB[6]中沉積的蛋白質結構有了顯著的增加,[7]領域的科學家對其使用也有了增加。此外,由于Alphafold[8,9]模型在從其氨基酸序列預測蛋白質結構方面的成功,最近創建了一個大型數據庫,其中包含幾乎整個人類蛋白質組[10]的模型結構。
與生物領域中結構化數據的增長并行的是,新型機器學習(ML)和深度學習(DL)方法正在開發中,它們可以利用大量數據來實現高預測性能[11,12]。在過去的幾年中,為了從復雜的結構數據中學習,特別是在結構組件較強的任務中,越來越多的人努力將DL技術擴展到幾何領域。因此,我們創建了傘形術語幾何深度學習,包括這些技術[13],其中一個子集包括用于建模網絡關系、數據誘導相似性以及3D形狀[13]的圖學習模型。基于圖的學習方法受到了好評,并在基準網絡數據集上取得了巨大的成果,因此,鼓勵研究人員在不同的領域和應用中使用這些方法。基于圖的模型已經被用于推薦系統、社交網絡、材料研究等[14]。圖學習模型也被應用于生物領域,最近在生物相關領域取得的成功之一是分子圖學習,這是一個用圖學習模型預測分子生化性質的分支領域。這一領域的進展使得開發了更專門提取/使用分子結構信息[15]的分子特異性圖模型,并推動了整個圖學習領域以及[16]的發展。
**鑒于蛋白質結構數據的增加和圖學習方法的成功,在結構蛋白質組學領域使用圖學習模型的研究自然會出現。這次簡短回顧的目的是:提供基于蛋白質圖表示的相關工作。介紹圖表示學習(GRL)領域,并探討其在結構蛋白質組學中的潛在應用。報告研究在六個不同的蛋白質組學任務類別,圖學習模型已成功使用。
【導讀】聚類是機器學習的一項基本任務。深度學習的發展催生了深度聚類。來自浙江大學等學者發布了關于深度聚類的最新綜述論文,35頁pdf涵蓋246篇文獻概述了深度聚類的概念、方法、體系與應用,值得關注!
聚類是一種基本的機器學習任務,在文獻中得到了廣泛的研究。經典的聚類方法遵循這樣的假設:通過各種表示學習技術,數據被表示為向量化的特征。隨著數據變得越來越復雜和復雜,淺層(傳統)聚類方法不再能夠處理高維數據類型。隨著深度學習,尤其是深度無監督學習的巨大成功,在過去的十年中,許多具有深度架構的表示學習技術被提出。融入深度學習好處的一種直接方法是,在將其輸入淺層聚類方法之前,首先學習深度表示。然而,這是次優的,因為: 1) 表示不是直接學習的聚類,限制了聚類性能;(2)聚類依賴于實例間的復雜關系而非線性關系;3)聚類和表示學習是相互依賴的,應該相互促進。為了應對上述挑戰,深度聚類(Deep Clustering)的概念被提出,即聯合優化表征學習和聚類,因此受到越來越多的關注。基于深度學習在聚類(最基本的機器學習任務之一)中的巨大成功,以及該方向最近的大量進展,本文通過提出不同最新方法的新分類,對深度聚類進行了全面的調研。我們總結了深度聚類的基本組成部分,并通過設計深度表示學習和聚類之間的交互方式對現有方法進行分類。此外,該綜述還提供了流行的基準數據集、評估指標和開源實現,以清楚地說明各種實驗設置。最后,我們討論了深度聚類的實際應用,并提出了值得進一步研究的具有挑戰性的主題作為未來的方向。
//www.zhuanzhi.ai/paper/c46ee4cd4877641a916a18dd389c017e
聚類是機器學習中的一個基本問題,也是許多數據挖掘任務中的一個重要預處理步驟。聚類的主要目的是將實例分配到組中,使相似的樣本屬于同一個集群,而不同的樣本屬于不同的集群。樣本的聚類提供了數據實例的全局表征,可以顯著地促進對整個數據集的進一步分析,如異常檢測[166,201]、域適應[180,240]、社區檢測[121,178]和鑒別表示學習[133,164,214]等。
雖然淺聚類方法已經取得了巨大的成功,但它們假設實例已經在一個具有良好形狀的潛在矢量空間中表示。隨著過去幾十年互聯網和web服務的快速發展,研究人員對發現新的機器學習模型越來越感興趣,這些模型能夠處理沒有明確特征的非結構化數據,如圖像,以及具有數千維的高維數據等。因此,淺聚類方法不能再直接用于處理此類數據。近年來,深度學習的表示學習取得了成功,特別是在非結構化和高維數據中[166,201]。然而,在聚類過程中并沒有探索深度學習技術。由于不能很好地捕捉到實例間復雜的關系,導致聚類結果欠佳。
為了解決這一問題,深度聚類(Deep Clustering)技術應運而生,它旨在將深度表示學習和聚類聯合優化。更具體地說,深度聚類方法關注以下研究挑戰:(1)如何學習能夠產生更好聚類性能的判別表示?(2)如何在一個統一的框架下高效地進行聚類和表示學習?(3)如何打破聚類和表示學習之間的壁壘,使它們以交互迭代的方式相互增強?
為了解決上述挑戰,已經提出了許多具有不同深度架構和數據類型的深度聚類方法。受聚類(最基本的機器學習任務之一)中深度學習的巨大成功以及該方向最近取得的大量進展的激勵,本文通過提出各種最新方法的新分類,對深度聚類進行了全面的調研。
綜上所述,本文旨在從以下幾個方面為潛在讀者理解深度聚類全景圖提供支持:
深度集群的基石。我們總結了深度聚類的兩個基礎模塊,即表示學習模塊和聚類模塊。對于每個模塊,我們強調了從現有方法中總結出的具有代表性和通用性的設計,這些設計很容易推廣到新的模型中。
系統的分類。基于表示學習模塊和聚類模塊之間的交互方式,我們對現有的深度聚類方法進行了系統的分類,提出了四個具有代表性的方法分支。我們還在不同的場景中比較和分析每個分支的屬性。
豐富的資源和參考資料。我們收集了各種類型的基準數據集、評估指標和深度聚類最新論文的開源實現,這些數據與Github (1.8K Star)上的參考文獻一起組織。
未來的發展方向。基于表示學習模塊和聚類模塊的特性及其相互作用,我們討論了現有方法的局限性和挑戰,并對未來值得研究的有前景的研究方向提出了自己的見解和想法。
在這個調研中,我們關注深度學習技術的聚類,特別是深度表示學習和深度神經網絡聚類之間的相互作用。對于其他基礎研究問題,如初始化聚類、自動識別聚類數量等,我們在第8節中進行了討論,并將其留待以后的工作。關于淺聚類、深聚類和表示學習的調研比較見表1。
幾何深度學習藥物發現
藥物發現是一個非常漫長和昂貴的過程,平均需要10年以上,花費25億美元來開發一種新藥。人工智能有可能通過從大量生物醫學數據中提取證據,顯著加快藥物發現的進程,從而徹底改變整個制藥行業。特別是,圖表示學習和幾何深度學習——機器學習和數據挖掘社區中一個快速增長的主題,專注于圖結構和3D數據的深度學習——已經看到了藥物發現的巨大機遇,因為該領域的許多數據都表示為圖形或3D結構(如分子,蛋白質,生物醫學知識圖譜)。在這次演講中,我將介紹我們在藥物發現幾何深度學習方面的最新進展,以及一個新發布的用于藥物發現的開源機器學習平臺——TorchDrug。
圖分類研究最新綜述論文
圖數據廣泛存在于現實世界中, 可以自然地表示復合對象及其元素之間的復雜關聯. 對圖數據的分類是一 個非常重要且極具挑戰的問題, 在生物/化學信息學等領域有許多關鍵應用, 如分子屬性判斷, 新藥發現等. 但目前 尚缺乏對于圖分類研究的完整綜述. 首先給出圖分類問題的定義和該領域的挑戰; 然后梳理分析了兩類圖分類方 法—基于圖相似度計算的圖分類方法和基于圖神經網絡的圖分類方法; 接著給出了圖分類方法的評價指標、常用 數據集和實驗結果對比; 最后介紹了圖分類常見的實際應用場景, 展望了圖分類領域的未來研究方向并對全文進 行總結.
//www.jos.org.cn/jos/article/abstract/6323
圖數據 (graph data) 廣泛地存在于我們的生活中, 用于表示復合對象元素之間的復雜關系. 例如社交網絡, 引 文網絡, 生物化學網絡, 交通網絡等. 不同于結構規則的歐式數據, 圖數據的結構復雜, 蘊含著豐富的信息. 近年來,對圖數據的研究是學術界的一個熱點. 圖上的研究問題包括節點分類[1,2] , 圖分類[3,4] , 鏈路預測[5]等, 本文主要關注 圖分類問題. 給定一組圖, 圖分類的目標是學習圖和對應類別標簽的映射關系, 并預測未知圖的類別標簽. 圖分類 是一個重要的數據挖掘任務, 可以應用在很多領域, 例如化學信息學中, 通過對分子圖進行分類來判斷化合物分子 的誘變性、毒性、抗癌活性等[6,7] ; 生物信息學中, 通過蛋白質網絡分類判斷蛋白質是不是酶, 是不是具有對某種 疾病的治療能力[8,9] . 從這個角度來看, 圖分類研究具有非常重要的意義.
圖分類的研究方法主要包括基于圖核的方法, 基于圖匹配的方法和基于圖深度學習的方法. 目前已有一些針 對圖分類領域中某類特定方法的綜述, 如圖核方法綜述[10,11] , 圖相似度學習綜述[12] . 但就我們所知, 當前還沒有既 包括傳統方法又包括近年來快速發展的深度學習方法的圖分類研究綜述. 為了方便更多的研究人員, 本文梳理總 結了圖分類的各類研究方法和這些研究之間的相互關系. 本文將現有圖分類方法總結為兩大類, 第 1 類是基于相似度計算的圖分類方法. 基于相似度計算的圖分類是 通過計算成對圖的相似度對圖進行分類, 包括圖核方法和圖匹配方法. 其中, 圖核方法主要通過圖核的定義來計算 圖的相似度, 是常見的傳統圖分類方法. 過去多年中已經有多種基于圖核的分類方法被提出[13?15] , 它們共同的思想 是將圖分解為某種子結構, 通過對比不同圖上的子結構來計算圖的相似度進而進行圖分類. 基于圖匹配方法的圖 分類方法, 則是通過考慮一些跨圖的因素來計算圖之間的相似度分數進而對圖分類. 早期的圖分類問題主要關注 于圖核方法, 然而這種方法不夠靈活且通常計算代價較大, 圖的特征提取過程和圖的分類是獨立進行的, 因此無法 針對具體任務進行優化.
第 2 類是基于圖神經網絡的圖分類方法. 隨著深度學習在圖像, 文本等領域的成功, 研究人員開始關注用深度 學習建模圖數據. 基于深度學習的圖數據建模方法也逐漸被應用于圖分類問題[16?19] . 其中, 圖神經網絡應用于圖分 類問題時, 主要包括卷積算子和池化算子兩個重要部分. 卷積算子利用結構和節點特征信息對圖的特征進行提取, 池化算子對特征進行匯總得到整個圖的表示用于分類. 本文從這兩個角度對基于圖卷積神經網絡的圖分類進行了 總結分析. 盡管近期已有大量的基于圖神經網絡的方法應用于圖分類任務, 但這個領域仍然存在許多問題和挑戰, 例如領 域內不同模型的實驗設置不同導致的復現困難; 有些模型在特定數據集上表現較好, 但模型泛化能力有限; 此外, 圖 分類任務中對圖結構信息的利用也是一個挑戰. 本文從這個角度總結分析了圖分類中存在的挑戰和未來的研究方向.
本文第 1 節給出圖分類問題定義并指出圖分類領域中的問題和挑戰. 第 2 節梳理了基于相似度計算的圖分類 方法, 其中包括基于圖核方法的圖分類和基于圖匹配的圖分類. 第 3 節介紹并分析了基于圖神經網絡的圖分類方 法. 第 4 節關注圖分類方法的評價, 包括圖分類的數據集, 評價指標和一些典型方法的效果對比分析. 第 5 節匯總 了圖分類在各個領域的應用場景并給出未來可能的研究趨勢. 最后一節總結全文.
圖分類問題挑戰
圖分類是圖領域中一個極具挑戰的任務, 當前圖分類任務上仍然存在許多問題和難點, 主要包括以下幾個方面.
(1) 圖數據的復雜多樣性 生活中有大量的數據都可以用圖這種數據結構進行表示. 例如社交網絡, 化學分子結構, 生物蛋白質結構等. 每種類型的圖中都包含不同的特征信息和結構信息. 這種多樣的信息提高了圖數據的分類難度. 此外, 圖數據是非 歐空間數據, 一般來說, 每個圖的節點數不同, 圖中節點連接方式不同, 每個節點的鄰居個數也不同. 卷積、池化等 在歐式數據中比較容易定義的操作, 很難直接遷移到圖數據上. 圖數據的復雜性和多樣性, 為圖數據的分類帶來非 常大的挑戰.
(2) 圖結構信息的有效建模 作為非歐數據, 圖的結構信息非常豐富. 圖數據的結構信息是指圖上節點之間的連接關系, 包括節點的一階連 接信息, 二階信息以及高階信息等[21] . 圖上機器學習的最基礎挑戰之一就是找到一種可以表示、編碼圖結構的方 法, 從而使得圖結構信息可以被機器學習方法有效利用[22] . 圖的結構信息對于圖分類任務也至關重要. 例如, 在生 物信息學等領域的數據集中, 圖的屬性標簽與圖上的某些結構模式有著必然的聯系. 然而 Errica 等人[23]在實驗中 發現, 目前基于圖神經網絡的圖分類方法在大部分數據集上并沒能有效地利用到圖的結構信息, 其對于圖分類的 預測性能甚至不如沒有建模圖結構信息的方法. 因此, 如何有效建模并合理利用圖結構信息是圖分類任務面臨的 一大重要挑戰.
(3) 強表達能力且高效的模型構建 目前基于信息傳遞的圖神經網絡方法都與 1-WL 圖同構測試有著緊密的聯系. Xu 等人[24]已經證明, 基于信息 傳遞的圖神經網絡, 其表達能力的上界就是 1-WL (Weisfeiler-Lehman) 圖同構測試. 近年也有一些對表達能力更強 的基于高階 WL 圖同構測試的圖神經網絡的探索[25,26] . 但總的來說, WL 測試關注的是對圖是否同構的判斷. 一方 面, 對圖同構的判斷還未被證明可以在多項式時間內完成, 通常計算復雜度較高. 另一方面, 在這種標準下, 并不能 保證表達能力強的模型, 也就是對圖是否同構的判斷準確率高的模型, 在圖分類問題上也表現得好[27] . 基于此, 探 索合適的圖分類模型表達能力的判斷標準非常重要, 這也是對圖分類本質的探索過程. 如何構建一個具有強表達 能力且高效的模型是圖分類問題中的一個關鍵挑戰.
基于圖相似度計算的圖分類
在很多用圖來表示數據的領域, 圖之間相似度度量是關鍵問題之一[12] , 它可以進一步處理一些下游任務, 包 括圖分類, 圖聚類和相似性搜索等. 本節關注利用圖的相似度度量進行圖分類的方法. 給定一組圖, 基于相似度計 算的圖分類方法先通過圖核或者圖匹配的方法獲得兩個圖之間的相似度度量, 然后利用機器學習方法, 根據已經 得到的相似度度量對圖進行分類. 這類方法隱含的假設是當兩個圖相似度較高時, 它們所屬的類別也相同. 這類方 法的關鍵是對圖之間相似度的計算. 本節從相似度計算的角度, 將基于圖相似度計算的圖分類分為基于圖核的方 法和基于圖匹配的方法, 分別進行介紹和分析.
基于圖神經網絡的圖分類
前文介紹的圖核方法很多年來都是圖分類中的主導方法, 也取得了不錯的分類效果[25] . 但由于這些方法通常 依賴于一組固定特征, 其特征表示難以有效地適應于新的數據分布. 隨著圖深度學習的發展[46] , 一些神經網絡方 法開始用于解決圖分類任務. 本節重點關注基于圖神經網絡的圖分類方法, 這類方法通過端到端的方式進行模型 的優化學習, 為圖分類的準確率帶來了較大的提升. 1?n 應用于圖像分類任務的傳統卷積神經網絡, 主要包括卷積和池化兩個操作, 這兩個操作依賴于圖像數據的結 構規則性和平移不變性. 類比于圖像分類任務, 圖卷積神經網絡應用于圖分類問題時, 同樣需要關注卷積和池化算 子. 但不同于圖像數據, 圖數據是非歐空間數據, 同一個數據集中的每個圖大小不同, 結構不一. 圖中的每個節點也 具有不同的局部結構, 為圖分類中卷積算子和池化算子的設計帶來了巨大的挑戰. 給定一組圖. 基于圖神經網絡的 圖分類方法通常先通過卷積的方式對這些圖進行多次特征變換, 然后在此基礎上進行池化操作, 將圖的規模縮小. 這個過程可以重復多次, 最終得到整個圖的表示, 從而進行分類. 本節就從圖分類任務中的卷積算子和池化算子角 度, 對基于圖神經網絡的圖分類方法進行總結和分析. 利用圖神經網絡進行圖分類的過程如圖 5 所示. 其中, 可選 的操作和模塊用虛線表示. 環形箭頭表示操作可以選擇重復1-n 次
圖分類方法評價
評價指標
圖分類方法的評價指標主要包括分類準確率, 精準率, 召回率, F1 值和 AUC, 下面分別介紹
圖分類的應用場景
(1) 化學信息學、生物信息學
傳統的圖分類主要應用于生物和化學領域. 它們天然地提供了很多圖結構數據. 通過實驗判斷分子屬性或蛋 白質功能的方式代價較大, 因此機器學習的方法被廣泛應用于生物化學信息學中. 在化學信息學中, 化合物被建模 為圖, 該領域常見的問題是判斷化合物是否具有某些性質. 圖分類方法已經被用于判斷分子是否具有誘變性、抗 癌活性、毒性等任務中[6,7] . 圖分類在藥物開發領域, 也有著非常重要的應用, 通過圖機器學習的方法對藥物的安 全性等性質進行判斷, 同時幫助化學家深入理解不斷增長的藥物發現數據[72] . 此外, 在多標簽圖分類場景下, 圖分 類方法也被用于計算機嗅覺領域中定量結構氣味關系 (QSOR) 建模問題. 此時, 分子有一個或多個氣味屬性標簽, 任務是預測分子的氣味屬性標簽[20,68] . 同樣的, 在生物信息學領域, 對蛋白質的探索[9]也是一項重要任務. 蛋白質的高級結構被建模為圖. 常見的應 用包括蛋白質屬性判斷, 如蛋白質是酶或者非酶, 通過蛋白質交互網絡預測疾病[8]等.
(2) 社交網絡分析
在社交網絡分析領域, 最常見的數據之一是引用網絡, 如第 4.1 節中描述的 COLLAB 數據集. 數據集中的圖 是研究人員的自我中心網絡圖, 也就是以研究人員為中心的引用關系圖. 該場景下常見的分類任務是給定訓練集 中自我網絡圖的類別標簽, 模型經訓練后對測試集中自我網絡圖的類別進行判斷.
(3) 計算機安全
圖分類常被應用于計算機安全領域,例如軟件剽竊的檢測、惡意軟件檢測、軟件漏洞檢測[73?75]等重要安全 問題. 該場景下的圖一般是經過一些轉化方式得到的控制圖, 通過控制圖結構判斷是否存在安全問題. 如在漏洞檢 測中, 當無權訪問源代碼時, 我們需要分析二進制文件, 結合反匯編程序和代碼分析器, 提取代碼的控制流圖. 控制 流圖以結構化的形式包含二進制函數中所有信息[43] . 控制流圖中的節點表示匯編指令的基本塊, 當兩個基本塊之 間有跳轉, 循環或者返回等控制流時, 對應節點之間有邊, 圖標簽是有無漏洞. 當前, 主要是基于圖相似度計算的圖 分類方法應用于計算機安全領域, 這些方法的假設是, 當未知控制流圖的結構和已知有漏洞的控制流圖相似度較 高時, 判斷該未知程序可能存在漏洞.
(4) 自然語言處理
圖分類的方法應用于自然語言處理的第一步就是圖的構建. 一種常見的方法是構建文本的單詞共現圖[76?78] , 節點表示單詞等有意義的語言實體, 邊表示在固定大小的滑動窗口中的共現關系. 與傳統的詞袋表示文本的方法相 比, 圖不僅建模了單詞等實體, 也對他們之間的遠距離依賴關系進行了建模. 圖分類的方法在自然語言處理領域已經 被應用于文檔相似性計算, 文本分類的重要任務中. 例如, Nikolentzos 等人[77]用共現的方式將文檔構建為無向無權 圖, 然后利用最短路徑核計算文檔的相似性, 取得了較好的效果. Peng 等人[76]將文檔構建為詞共現圖, 然后用對單 詞圖進行圖卷積操作, 提取單詞圖特征進而對文檔進行分類, 相比于傳統的文本分類方法, 該模型取得了較大的提升.
(5) 計算機視覺
有些基于圖核和基于圖神經網絡的方法被用于計算機視覺領域的圖像分類, 語義分割, 點云圖的形狀分類等 應用中[79?82] . 為了進行人體活動識別, Wu 等人[79]首先構建了 2 個圖模型建模人體活動的空間特征和時序關系, 然 后提出了上下文相關的圖核來衡量圖之間的相似性, 進而對人體活動進行識別. Wang 等人[80]在點云圖上使用邊 卷積的方式提取幾何特征, 然后利用全局池化的方式得到整個圖的表示進而進行形狀分類任務, 取得了較好的 效果.
未來研究方向
雖然圖分類問題已有很長的研究歷史, 并在近年取得了較大的進步. 但該領域仍然有很多需要注意的問題和值得繼續探索的研究方向.
(1) 圖分類中圖結構信息的充分利用
圖中的結構信息, 即圖上節點的連接信息, 如一階連接信息, 二階信息和其他高階信息等, 對于圖分類有著非 常重要的作用, 例如生物信息數據集中, 某些結構模式與分子功能屬性有著必然的聯系. 但當前圖分類領域中很多 基于圖神經網絡的方法并沒有有效地利用到圖結構信息[23] , 例如, 在基于信息傳遞的圖神經網絡中, 節點之間的 連接關系僅用來指導節點之間的信息傳遞, 并沒有直接對結構信息建模. 對于在圖分類中如何更好地利用結構信 息和判斷模型對結構的利用程度上, 我們并無定論. 對于圖結構信息的合理利用和對結構利用程度的表示是圖分 類領域重要的研究方向.
(2) 圖分類方法的可解釋性
基于圖神經網絡的圖分類方法的提出, 使得圖的表示和分類過程可以統一地進行優化, 取得了較好的分類效 果. 但是, 這類模型通常比較復雜且不夠透明, 人類無法直觀地理解它們的預測結果. 對圖分類模型的預測能力進 行直觀解釋, 探索這些模型中各個組件對圖分類的作用不僅可以增加我們對 GNN 模型的信任, 促進 GNN 模型應 用于涉及到公平, 隱私和安全的領域中, 也可以增進研究人員對于網絡特征的理解, 進一步提升模型效果[27,83] . 對 圖卷積神經網絡的可解釋性已有一些初步的嘗試[24,83] , 但當它們應用于圖分類問題時的可解釋性, 仍然值得進一 步探索.
(3) 圖分類模型表達能力的衡量
當前圖分類模型主要是基于圖神經網絡的模型. 一方面, 基于圖神經網絡模型的表達能力都是用判斷圖是否同 構的能力來衡量的[24,51] . 但我們并不能保證在這樣的衡量標準下, 對圖是否同構的區分能力在圖分類任務中可以泛 化得好[27] . 在圖分類問題中, 模型表達能力的衡量方法是一個重要的需要考慮的問題. 另一方面, 由于基于神經網 絡的模型依賴于充足數據, 需要通過大量的數據進行訓練. 而當前圖分類領域的常見數據集通常規模較小, 不能很 好地體現出方法的優勢, 限制了基于圖神經網絡的模型的表示能力. 構建更好的圖分類數據集成為亟待解決的問題.
(4) 圖分類新技術
雖然已經有很多經典的圖神經網絡方法在圖分類任務上取得了較好的效果, 但仍面臨著標簽數據獲取昂貴、 模型遷移能力不足等諸多挑戰, 需要通過合理引入新技術來解決. 具體來說, 一方面, 圖神經網絡的訓練過程需要 大量的任務相關的標簽數據, 標簽數據的獲取代價高昂[84] . 另一方面, 實際中, 有時我們需要具有遷移能力的模型 應用于不同的場景中. 類比于自然語言處理和圖像處理領域, 圖上也可以通過先在數據豐富的任務上對模型預訓 練, 然后在目標任務上進行微調來解決這些問題. 目前已有一些圖上預訓練的初步嘗試[84?86] , 未來圖上的預訓練仍 是值得探索的問題. 此外, 當前圖分類主要關注同質圖, 而實際場景中有很多異質圖存在, 已有的關于異質圖的研 究主要集中在節點分類問題[87,88]上, 未來, 關于異質圖的分類也是值得關注的方向.
(5) 實驗可復現性和學術社區的健康發展
在機器學習領域, 實驗的可復現一直是一個非常關鍵的議題[23] . 當前用圖神經網絡處理圖分類的工作中, 實 驗程序通常不夠嚴格且很難復現. 不同方法中的實驗設置也不盡相同, 使得我們很難橫向的對不同方法進行比較. Errica 等人[23]對 5 個圖分類模型在統一的評估框架下做了對比. 同樣的數據劃分和實驗設置條件下, 用 10 折交叉 驗證的方法進行模型的評估和選擇, 保證了實驗的公平性. 未來圖分類領域的工作, 應該延續這種做法, 詳細地給 出方法的實驗設置, 方便公平對比和對問題的深入理解, 推進圖分類學術社區的健康發展.
引言
幾何深度學習(GDL)是一種基于神經網絡架構的學習方法,它可以整合并處理對稱信息。GDL在分子建模應用中有著特殊的應用前景,在這些應用中存在著具有不同對稱性和抽象層次的各種分子表示。本文綜述了分子GDL在藥物發現、化學合成預測和量子化學中的應用。重點放在學習的分子特征的相關性和它們的互補的完善的分子描述符。本文綜述了當前的挑戰和機遇,并對GDL在分子科學中的應用前景進行了展望。
摘要
深度學習是基于神經網絡的人工智能(AI)[1,2]的一個實例,近年來的進展已經在分子科學領域得到了廣泛的應用,如藥物發現[3,4]、量子化學[5]和結構生物學[6,7]。深度學習的兩個特點使得它在應用于分子時特別有前途。首先,深度學習方法可以處理“非結構化”數據表示,如文本序列[8,9]、語音信號[10,11]、圖像[12-14]和圖形[15,16]。這種能力對于分子系統,尤其有用,化學家們已經開發出許多模型(即“分子表示”),捕獲分子性質在不同的萃取級別(圖1)。第二個關鍵特征是,深度學習可以執行特征提取(或學習)的特性從輸入數據, 也就是說,從輸入數據生成數據驅動的特性,而不需要人工干預。這兩個特性對于深度學習來說很有前途,可以作為“經典”機器學習應用(如定量結構-活性關系[QSAR])的補充,在這些應用中,分子特征 (即“分子描述符”[17])是通過基于規則的算法進行先驗編碼的。從非結構化數據中學習并獲得數據驅動的分子特征的能力,導致了人工智能在分子科學中的前所未有的應用。
幾何深度學習(GDL)是深度學習領域最有前景的進展之一。幾何深度學習是一個涵蓋新興技術的總稱,這些技術將神經網絡推廣到歐幾里得和非歐幾里得域,如圖、流形、網格或字符串表示[15]。一般來說,GDL包含了包含幾何先驗的方法,即關于輸入變量的結構、空間和對稱屬性的信息。利用這種幾何先驗來提高模型捕獲的信息的質量。盡管GDL越來越多地應用于分子建模[5,18,19],但其在該領域的全部潛力仍未得到充分挖掘。
本文的目的是 :(1) 對GDL在分子系統中的應用進行結構化和協調的綜述; (2)概述該領域的主要研究方向; (3) 預測GDL的未來影響。重點介紹了三個應用領域,即藥物發現、量子化學和計算機輔助合成規劃(CASP),特別關注了GDL方法學習到的數據驅動分子特征。所選術語的詞匯表見框1。
幾何深度學習原理
幾何深度學習這個詞是在2017年[15]誕生的。雖然GDL最初用于應用于非歐幾里得數據[15]的方法,但現在它擴展到所有包含幾何先驗[21]的深度學習方法,即有關感興趣系統的結構和對稱信息。在GDL中,對稱是一個至關重要的概念,因為它包含了系統與操作(轉換)相關的屬性,如平移、反射、旋轉、縮放或排列(框2)。
分子幾何深度學習
GDL在分子系統中的應用具有挑戰性,部分原因是有多種有效的方法來表示相同的分子實體。分子表示可以根據它們不同的提煉水平以及它們所捕獲的物理、化學和幾何方面進行分類。重要的是,所有這些表示都是同一現實的模型,因此“適合于某些目的,而不適合其他目的”[63]。GDL提供了用相同分子的不同表示進行實驗的機會,并利用它們的內在幾何特征來提高模型的質量。此外,由于GDL的特征提取(特征學習)功能,它已經多次被證明在為手頭的任務提供相關分子屬性方面是有用的。在接下來的章節中,我們將描述最流行的分子GDL方法及其在化學中的應用,并根據用于深度學習的分子表示進行分組: 分子圖、網格、字符串和曲面。
總結與展望
化學中的幾何深度學習使研究人員能夠利用不同非結構化分子表征的對稱性,從而為分子結構生成和性質預測提供更大的靈活性和通用性的可用計算模型。這些方法代表了對基于分子描述符或其他人類工程特征的經典化學信息學方法的有效替代。對于那些通常需要高度工程化規則的建模任務(例如,從頭設計的化學轉換,以及CASP的活性位點規范),GDL的好處已經得到了一致的顯示。在已發表的GDL應用中,每種分子表示都顯示出各自的優缺點。
隨著表示學習在提供強大的預測和數據洞察方面取得的顯著成功,我們見證了表示學習技術在建模、分析和網絡學習方面的快速擴展。生物醫學網絡是相互作用系統的通用描述,從蛋白質相互作用到疾病網絡,一直到醫療保健系統和科學知識。
在本綜述論文中,我們提出了一項觀察,即長期存在的網絡生物學和醫學原理(在機器學習研究中經常未被提及)可以為表示學習提供概念基礎,解釋其目前的成功和局限,并為未來的發展提供信息。我們整合了一系列算法方法,其核心是利用拓撲特征將網絡嵌入緊湊的向量空間。我們還提供了可能從算法創新中獲益最多的生物醫學領域的分類。
表示學習技術在識別復雜特征背后的因果變異、解開單細胞行為及其對健康的影響、用安全有效的藥物診斷和治療疾病等方面正變得至關重要。
引言
網絡,或稱圖表,在生物學和醫學中非常普遍,從分子相互作用圖到一個人疾病之間的依賴關系,一直到包括社會和健康相互作用的人群。根據網絡中編碼的信息類型,兩個實體之間“交互”的含義可能不同。例如,蛋白質-蛋白質相互作用(PPI)網絡中的邊緣可以表明實驗中測量到的物理相互作用,如酵母雙雜交篩選和質譜分析(例如,[148,197]);調節網絡中的邊緣可以指示通過動態單細胞表達測量的基因之間的因果相互作用(例如,[174]);電子健康記錄(EHR)網絡中的邊緣可以表明在醫療本體中發現的層次關系(例如,[182,190])。從分子到醫療保健系統,網絡已經成為代表、學習和推理生物醫學系統的主要范式。
生物醫學網絡上表示學習的案例。捕捉生物醫學系統中的交互作用會帶來令人困惑的復雜程度,只有通過整體和集成系統的觀點才能完全理解[17,28,164]。為此,網絡生物學和醫學在過去二十年中已經確定了一系列管理生物醫學網絡的組織原則(例如,[16,86,106,262])。這些原則將網絡結構與分子表型、生物學作用、疾病和健康聯系起來。我們認為,長期存在的原則——雖然在機器學習研究中經常未被提及——提供了概念基礎,可以解釋表示學習在生物醫學網絡建模中的成功(和局限性),并為該領域的未來發展提供信息。特別是,當對網絡中邊緣的解釋取決于上下文時,相互作用的實體往往比非相互作用的實體更相似。例如,疾病本體的結構是這樣的:通過邊緣連接的疾病術語往往比不連接的疾病術語更相似。在PPI網絡中,相互作用的蛋白質突變常常導致類似的疾病。相反,與同一疾病有關的蛋白質之間相互作用的傾向增加。在細胞網絡中,與特定表型相關的成分往往聚集在同一網絡鄰居。
表示學習實現網絡生物學和醫學的關鍵原理。我們假設表示學習可以實現網絡生物學和醫學的關鍵原則。這個假設的一個推論是表示學習可以很好地適用于生物醫學網絡的分析、學習和推理。表示學習的核心是向量空間嵌入的概念。其思想是學習如何將網絡中的節點(或更大的圖結構)表示為低維空間中的點,該空間的幾何結構經過優化,以反映節點之間的交互結構。表示學習通過指定(深度的、非線性的)轉換函數,將節點映射到緊湊的向量空間(稱為嵌入)中的點,從而形式化了這一思想。這些函數被優化以嵌入輸入圖,以便在學習空間中執行代數運算反映圖的拓撲結構。節點被映射到嵌入點,這樣具有相似網絡鄰域的節點被緊密地嵌入到嵌入空間中。值得注意的是,嵌入空間對于理解生物醫學網絡(例如,PPI網絡)的意義在于空間中點的鄰近性(例如,蛋白質嵌入之間的距離)自然地反映了這些點所代表的實體的相似性(例如,蛋白質表型的相似性),提示嵌入可被認為是網絡生物醫學關鍵原理的可微表現。
算法范式(圖1)。網絡科學和圖論技術促進了生物醫學的發現,從揭示疾病之間的關系[91,135,159,200]到藥物再利用[41,42,96]。進一步的算法創新,如隨機游走[40,229,242]、核函數[83]和網絡傳播[214],也在從網絡中捕獲結構和鄰域信息以生成下游預測的嵌入信息方面發揮了關鍵作用。特征工程是生物醫學網絡上機器學習的另一個常用范例,包括但不限于硬編碼網絡特征(例如,高階結構、網絡主題、度計數和共同鄰居統計),并將工程特征向量輸入預測模型。這種策略雖然強大,但并不能充分利用網絡信息,也不能推廣到新的網絡類型和數據集[255]。
近年來,圖表示學習方法已成為生物醫學網絡深度學習的主要范式。然而,對圖的深度學習具有挑戰性,因為圖包含復雜的拓撲結構,沒有固定的節點排序和參考點,它們由許多不同類型的實體(節點)和各種類型的相互關系(邊)組成。傳統的深度學習方法無法考慮生物醫學網絡的本質——多樣性的結構特性和豐富的交互作用。這是因為經典的深度模型主要是為固定大小的網格(例如,圖像和表格數據集)設計的,或者是為文本和序列優化的。因此,它們在計算機視覺、自然語言處理、語音和機器人技術方面取得了非凡的成就。就像對圖像和序列的深度學習徹底改變了圖像分析和自然語言處理領域一樣,圖表示學習也將改變生物學和醫學中復雜系統的研究。
我們的重點是表示學習,特別是流形學習[27]、圖變壓器網絡[250]、微分幾何深度學習[25]、拓撲數據分析(TDA)[34,224]和圖神經網絡(GNN)[125]。圖2描述了這次評審的結構和組織。我們首先提供流行的圖學習范式的技術說明,并描述其在加速生物醫學研究的關鍵影響。在圖表示學習的每個當前應用領域(圖4),我們展示了圖表示學習的潛在方向,可以通過四個獨特的前瞻性研究,每個研究至少解決以下圖機器學習的關鍵預測任務之一:節點、邊緣、子圖和圖級預測、連續嵌入和生成。
隨著機器學習在各種應用領域的顯著成功,我們正目睹越來越多的人對機器學習在藥物發現和開發中的應用感興趣。
在本教程中,我們將介紹機器學習在過去幾年中取得的關鍵進展,并強調這些進展在藥物開發中帶來的根本性的新機遇。我們感興趣的是這些進步為什么以及如何幫助完成與藥品有關的任務。我們通過六個關鍵任務詳細闡述了機器學習在藥物開發中的應用:(a)合成預測和新藥設計,(b)分子性質預測,(c)虛擬藥物篩選和藥物靶標相互作用,(d)臨床試驗招募,(e)藥物再利用,(f)藥物不良反應和多用藥。
我們討論這些關鍵藥物相關任務的方法背后的理論基礎,闡明基于不同配方的各種方法,并總結代表性的應用。我們將涵蓋生成模型、強化學習以及深度表示學習和嵌入方面的最新進展。為此,我們提出了一個用于端到端藥物開發的人工智能算法工具箱。
藥物的發現和開發是一個漫長而昂貴的過程。它通常從分子和目標的實驗發現開始(即藥物從頭設計),并在轉入臨床試驗之前通過細胞系、類器官和動物的體外實驗驗證發現。一種新藥從發現到監管機構批準的整個過程可能需要長達12年,成本高達28億美元。此外,每個藥物開發階段都存在巨大的不確定性(1:50 000的成功率)。
機器學習方法已成為解決這些挑戰和加速藥物開發的一種有前途的工具。本教程將介紹以下與藥物相關的主要任務:
合成預測和藥物從頭設計(即從頭設計一個全新的分子)的目的是生成化學上正確的結構,以協助復雜的分子合成。
分子特性預測的目的是通過預測分子特性,如效力、生物活性和毒性,從分子數據來確定分子的治療效果。
虛擬藥物篩選和藥物靶標識別的目的是預測藥物如何通過與靶標蛋白結合并影響其下游活性來影響人體。
臨床試驗招募的目的是找到合適的醫生幫助進行試驗,以及找到合格的患者參與試驗。
藥物再利用尋求通過藥物化學、目標和藥物與疾病之間的副作用相似性來發現已知藥物以及新分子的新用途。
藥物不良反應、多重用藥和藥物-食品相互作用預測的目的是預測藥物不良反應產生的機制,建議替代藥物成員的預期藥理作用沒有負面的健康影響,并預測食品成分對相互作用藥物的影響。
然后,我們將討論解決這些與毒品有關的任務的主要方法:
生成模型。我們重點研究了適用于新分子設計的變分自編碼器(VAE)和生成對抗網絡(GAN)。他們以已知治療性質的以直線或圖形為基礎的化合物表示為輸入,將化合物編碼為潛在空間,然后解碼為新的藥物樣品。
強化學習。我們主要討論策略梯度法,最先進的分子生成方法,可以結合特定領域的分子合成知識。
深度表示學習。我們提出主要的神經體系結構學習表示藥物相關的數據。這些方法是相關的,因為它們在與藥物有關的任務中達到了最先進的性能。例如,這些方法被用于自動學習藥物指紋,學習藥物蛋白結合親和力,并招募患者參加臨床試驗。此外,圖嵌入方法用于研究藥物組合,并預測藥物效應,因為藥物擴散到生物網絡中,超出了它們直接結合的分子。
目錄內容:
簡介: 近年來,生命科學和數據科學已經融合。機器人技術和自動化技術的進步使化學家和生物學家能夠生成大量數據。與20年前的整個職業生涯相比,如今的科學家每天能夠產生更多的數據。快速生成數據的能力也帶來了許多新的科學挑戰。我們不再處于可以通過將數據加載到電子表格中并制作幾個圖表來對其進行處理的時代。為了從這些數據集中提取科學知識,我們必須能夠識別和提取非顯而易見的關系。近年來,作為識別數據模式和關系的強大工具而出現的一種技術是深度學習,它是一類算法,它徹底改變了解決諸如圖像分析,語言翻譯和語音識別等問題的方法。深度學習算法擅長識別和利用大型數據集中的模式。由于這些原因,深度學習在生命科學學科中具有廣泛的應用。本書概述了深度學習如何應用于遺傳學,藥物發現和醫學診斷等多個領域。我們描述的許多示例都附帶有代碼示例,這些示例為方法提供了實用的介紹,并為讀者提供了以后進行研究和探索的起點。
該書中代碼地址://github.com/deepchem/DeepLearningLifeSciences
目錄: