帝國理工等最新《膠囊網絡綜述》論文,29頁pdf闡述膠囊的概念、方法與應用
膠囊網絡作為卷積神經網絡(Convolutional Neural networks, CNNs)的另一種學習以對象為中心表示的方法,可以提高泛化能力和樣本復雜度。與cnn不同,膠囊網絡使用神經元組對視覺實體進行編碼,顯式地建模部分-整體層次關系,并學習這些實體之間的關系。膠囊網絡早期取得的有前景的成果激勵了深度學習社區繼續努力提高其在多個應用領域的性能和可擴展性。然而,膠囊網絡研究的一個主要障礙是缺乏可靠的參考點來理解它們的基本思想和動機。這項綜述的目的是提供一個全面的概述膠囊網絡的研究景觀,這將為社區的未來提供寶貴的資源。為此,我們首先介紹膠囊網絡背后的基本概念和動機,例如計算機視覺中的等變推理。然后,我們將介紹膠囊路由機制的技術進展和膠囊網絡的各種公式,如生成和幾何。此外,我們還詳細解釋了膠囊網絡與Transformers中流行的注意力機制之間的關系,并強調了它們在表征學習背景下的非微不足道的概念相似性。隨后,我們探索了膠囊網絡在視頻和運動(如視頻對象分割、回歸跟蹤和動作視頻識別)、自然語言處理(如文本分類、關系提取、語言和視覺、推薦系統)、醫學成像(如病變的語義分割、腦腫瘤分類)、故障診斷(如軸承故障診斷)、高光譜成像和偽造檢測等方面的廣泛應用。最后,我們對膠囊網絡研究的主要障礙進行了深入的討論,并指出了未來的研究方向。
計算機視覺的核心任務是從圖像中提取的特征向量對物體進行分類,并提供更全面的描述,如姿態、形狀、外觀等。幾十年來,構建適合下游任務的數據表示(特征)需要大量的手工工程和專家知識。表示學習[1]由一組工具組成,使機器能夠自動發現原始數據的有用表示,然后用于下游的預測任務。近年來最成功的表示學習方法是深度學習(Deep learning, DL)[2]。盡管現代基于深度學習的視覺系統[2]、[3]、[4]取得了許多成功,但普遍缺乏對分布轉移的魯棒性[5]仍然很普遍。事實上,與目前的系統不同,人類能夠快速適應分布的變化,只需要很少的例子來學習[6],[7],[8]。有令人信服的證據表明,人類將視覺場景分解為部分-整體層次結構,我們通過對部分和整體之間的視點不變的空間關系建模,如分配給它們的內在坐標系[9],[10],[11]之間的坐標變換。讓神經網絡(NN)更加透明和可解釋的一種方法是,嘗試讓它們像人類一樣理解圖像。然而,這對于標準神經網絡來說是困難的,因為它們不能動態地表示每個圖像[12]的不同的部分-整體層次樹結構。這種無能是一系列模型的動機被稱為膠囊網絡[12],[13],[14],[15],[16]。膠囊網絡是一種NN,它比卷積神經網絡(Convolutional Neural Networks, CNNs)更明確地建模部分-整體層次關系,通過使用神經元組來編碼實體,并學習這些實體之間的關系[17]。和機器學習[18],[19]的其他發展一樣,膠囊網絡也是受到生物啟發的,他們的目標是能夠學習更健壯的、以對象為中心的、具有姿態感知和可解釋性的表示。來自神經科學的證據表明,緊密連接的附近神經元群(即超列)可以表示一個向量值單位,它不僅能夠傳遞標量,而且能夠傳遞一組協調值[8]。向量值單位的概念是膠囊網絡和軟注意機制[8],[20],[21]的核心,包括transformer [22]。如后面所示,在膠囊網絡中,這些向量值單位被稱為膠囊,在transformer 中,它們被表示為查詢向量、鍵向量和值向量。通過執行神經活動向量之間的標量乘積等操作,可以計算出強大的算法概念,如符合過濾和注意力。
盡管在膠囊工作上取得了有希望的進展,Barham等人[23]解釋說,盡管他們的卷積膠囊模型所需的浮點運算(FLOPS)比CNN少4倍,參數比CNN少16倍,但在TensorFlow[24]和PyTorch[25]中的實現運行速度明顯更慢,并且在更小的模型中耗盡內存。雖然后來有人提出了幾個更有效的膠囊路由版本[26],[27],[28],[29],但潛在的問題不僅是由路由引起的,還由膠囊投票過程引起。在他們的分析中,[23]得出結論,當前的框架已經針對一個流行的模型家族所使用的一小部分計算進行了高度優化,而且這些框架已經變得不適合研究,因為標準和非標準計算負載之間的性能差異巨大。因此,非標準的工作負載(如膠囊網絡中由路由和投票過程引起的工作負載)比它們本可以達到的速度要慢得多。正如[30]所指出的,雖然膠囊網絡的操作可以在CPU上很好地實現,但在GPU和TPU這樣的加速器上,性能會急劇下降,因為它們使用常見架構中的構建塊對標準工作負載進行了大量優化。我們希望這項綜述將激勵研究人員為膠囊網絡開發合適的工具。
在這項綜述中,我們提供了一個全面的概述,使用膠囊網絡和相關的注意為基礎的模型表征學習。雖然相對而言,膠囊的研究仍處于早期階段,但圖1a向我們顯示,盡管最初流行程度迅速增長,但每年的出版物總數有些停滯。這可能是由于進入該領域的高壁壘和缺乏可靠的參考點。盡管如此,如圖1b所示,頂級會議的膠囊網相關出版物數量持續穩步增長。我們相信,現在有足夠的材料來保證對各種概念、技術和基本思想進行詳細的組織,這將有利于社區和激發該領域的研究興趣。在撰寫本文時,僅存在三個基于Capsule Network的綜述。[31]是在Capsule Networks首次引入后不久編寫的,因此它沒有涵蓋最近取得的重大里程碑。同樣,[32]的寫作目的也很簡短,因此只涵蓋了相關文獻的很小一部分。[33]是最近的,涵蓋了更廣泛的論文,但沒有以我們認為必要的方式對該領域進行足夠詳細的廣泛綜述。相反,本綜述的目的是提供膠囊網絡和以對象為中心的表征學習的相關研究的第一次全面和詳細的分解。具體而言,我們的目標是:(a)詳細解釋膠囊網絡背后的基礎、動機和基本概念;(b)調查膠囊網在各個應用領域的研究現狀;(c)將膠囊和協議路由與Transformers 剛和自注意進行關聯和比較。(d)討論有待解決的問題,并提出有前景的研究方向。我們期望我們的綜述將作為膠囊網絡未來的主要參考文獻,并將有助于促進該領域的發展。
本次綜述的組織方式如下。在第1節中,我們對膠囊網絡背后的思想做了一個介紹性的概述。在第2節中,我們開始溫和地介紹不變性和等方差,并解釋為什么這些概念在表示學習中是基本的。在第3節中,我們解釋了膠囊網絡背后的基本思想和動機,并介紹了協議和膠囊路由等基本概念。在第4節中,我們深入研究了文獻中提出的最突出的膠囊路由算法。在第5節中,我們將揭示膠囊路由和Transformers中流行的自我注意機制之間的概念相似性。第6至10節討論膠囊網絡在視頻和運動、圖形、自然語言處理和醫學成像方面的一些主要應用。第11節重點介紹膠囊網絡的其他應用,如故障診斷、高光譜成像、偽造檢測和對抗攻擊。最后,在第12節中,我們討論了膠囊網絡的公開挑戰和缺點,以及我們認為未來有希望的研究方向。
圖是連接數據網絡結構的一種常用表示形式。圖數據可以在廣泛的應用領域中找到,如社會系統、生態系統、生物網絡、知識圖譜和信息系統。隨著人工智能技術的不斷滲透發展,圖學習(即對圖進行機器學習)越來越受到研究者和實踐者的關注。圖學習對許多任務都非常有效,如分類,鏈接預測和匹配。圖學習方法通常是利用機器學習算法提取圖的相關特征。在這個綜述中,我們提出了一個關于圖學習最全面的概述。特別關注四類現有的圖學習方法,包括圖信號處理、矩陣分解、隨機游走和深度學習。分別回顧了這些類別下的主要模型和算法。我們研究了諸如文本、圖像、科學、知識圖譜和組合優化等領域的圖學習應用。此外,我們還討論了該領域幾個有前景的研究方向。
真實的智能系統通常依賴于機器學習算法處理各種類型的數據。盡管圖數據無處不在,但由于其固有的復雜性,給機器學習帶來了前所未有的挑戰。與文本、音頻和圖像不同,圖數據嵌入在一個不規則的領域,使得現有機器學習算法的一些基本操作不適用。許多圖學習模型和算法已經被開發出來解決這些挑戰。本文系統地綜述了目前最先進的圖學習方法及其潛在的應用。這篇論文有多種用途。首先,它作為不同領域(如社會計算、信息檢索、計算機視覺、生物信息學、經濟學和電子商務)的研究人員和從業者提供圖學習的快速參考。其次,它提供了對該領域的開放研究領域的見解。第三,它的目的是激發新的研究思路和更多的興趣在圖學習。
圖,又稱網絡,可以從現實世界中豐富的實體之間的各種關系中提取。一些常見的圖表已經被廣泛用于表達不同的關系,如社會網絡、生物網絡、專利網絡、交通網絡、引文網絡和通信網絡[1]-[3]。圖通常由兩個集合定義,即頂點集和邊集。頂點表示圖形中的實體,而邊表示這些實體之間的關系。由于圖學習在數據挖掘、知識發現等領域的廣泛應用,引起了人們的廣泛關注。由于圖利用了頂點[4],[5]之間的本質和相關關系,在捕獲復雜關系方面,圖學習方法變得越來越流行。例如,在微博網絡中,通過檢測信息級聯,可以跟蹤謠言的傳播軌跡。在生物網絡中,通過推測蛋白質的相互作用可以發現治療疑難疾病的新方法。在交通網絡中,通過分析不同時間戳[6]的共現現象,可以預測人類的移動模式。對這些網絡的有效分析很大程度上取決于網絡的表示方式。
一般來說,圖學習是指對圖進行機器學習。圖學習方法將圖的特征映射到嵌入空間中具有相同維數的特征向量。圖學習模型或算法直接將圖數據轉換為圖學習體系結構的輸出,而不將圖投影到低維空間。由于深度學習技術可以將圖數據編碼并表示為向量,所以大多數圖學習方法都是基于或從深度學習技術推廣而來的。圖學習的輸出向量在連續空間中。圖學習的目標是提取圖的期望特征。因此,圖的表示可以很容易地用于下游任務,如節點分類和鏈接預測,而無需顯式的嵌入過程。因此,圖學習是一種更強大、更有意義的圖分析技術。
在這篇綜述論文中,我們試圖以全面的方式檢驗圖機器學習方法。如圖1所示,我們關注現有以下四類方法:基于圖信號處理(GSP)的方法、基于矩陣分解的方法、基于隨機游走的方法和基于深度學習的方法。大致來說,GSP處理圖的采樣和恢復,并從數據中學習拓撲結構。矩陣分解可分為圖拉普拉斯矩陣分解和頂點接近矩陣分解。基于隨機游動的方法包括基于結構的隨機游動、基于結構和節點信息的隨機游動、異構網絡中的隨機游動和時變網絡中的隨機游動。基于深度學習的方法包括圖卷積網絡、圖注意力網絡、圖自編碼器、圖生成網絡和圖時空網絡。基本上,這些方法/技術的模型架構是不同的。本文對目前最先進的圖學習技術進行了廣泛的回顧。
傳統上,研究人員采用鄰接矩陣來表示一個圖,它只能捕捉相鄰兩個頂點之間的關系。然而,許多復雜和不規則的結構不能被這種簡單的表示捕獲。當我們分析大規模網絡時,傳統的方法在計算上是昂貴的,并且很難在現實應用中實現。因此,有效地表示這些網絡是解決[4]的首要問題。近年來提出的網絡表示學習(NRL)可以學習低維表示[7]-[9]的網絡頂點潛在特征。當新的表示被學習后,可以使用以前的機器學習方法來分析圖數據,并發現數據中隱藏的關系。
當復雜網絡被嵌入到一個潛在的、低維的空間中時,結構信息和頂點屬性可以被保留[4]。因此,網絡的頂點可以用低維向量表示。在以往的機器學習方法中,這些向量可以看作是輸入的特征。圖學習方法為新的表示空間中的圖分析鋪平了道路,許多圖分析任務,如鏈接預測、推薦和分類,都可以有效地解決[10],[11]。網絡的圖形化表現方式揭示了社會生活的各個方面,如交流模式、社區結構和信息擴散[12],[13]。根據頂點、邊和子圖的屬性,可以將圖學習任務分為基于頂點、基于邊和基于子圖三類。圖中頂點之間的關系可以用于分類、風險識別、聚類和社區檢測[14]。通過判斷圖中兩個頂點之間的邊的存在,我們可以進行推薦和知識推理。基于子圖[15]的分類,該圖可用于聚合物分類、三維可視化分類等。對于GSP,設計合適的圖形采樣方法以保持原始圖形的特征,從而有效地恢復原始圖形[16]具有重要意義。在存在不完整數據[17]的情況下,可以使用圖恢復方法構造原始圖。然后利用圖學習從圖數據中學習拓撲結構。綜上所述,利用圖學習可以解決傳統的圖分析方法[18]難以解決的以下挑戰。
【導讀】倫敦帝國理工學院教授Michael Bronstein等人撰寫了一本關于幾何深度學習系統性總結的書,提出從對稱性和不變性的原則推導出不同的歸納偏差和網絡架構。非常值得關注!
幾何深度學習是一種從對稱性和不變性的角度對大量ML問題進行幾何統一的嘗試。這些原理不僅奠定了卷積神經網絡的突破性性能和最近成功的圖神經網絡的基礎,而且也提供了一種原則性的方法來構建新型的問題特定的歸納偏差。
在本文中,我們做了一個適度的嘗試,將Erlangen項目的思維模式應用到深度學習領域,最終目標是獲得該領域的系統化和“連接點”。我們將這種幾何化嘗試稱為“幾何深度學習”,并忠實于Felix Klein的精神,提出從對稱性和不變性的原則推導出不同的歸納偏差和網絡架構。特別地,我們將重點放在一類用于分析非結構集、網格、圖和流形的神經網絡上,并表明它們可以被統一地理解為尊重這些域的結構和對稱性的方法。
我們相信這篇文章將吸引深度學習研究人員、實踐者和愛好者的廣泛受眾。新手可以用它來概述和介紹幾何深度學習。經驗豐富的深度學習專家可能會發現從基本原理推導熟悉架構的新方法,也許還會發現一些令人驚訝的聯系。實踐者可以獲得如何解決各自領域問題的新見解。
一些重要論述:
隨著表示學習在提供強大的預測和數據洞察方面取得的顯著成功,我們見證了表示學習技術在建模、分析和網絡學習方面的快速擴展。生物醫學網絡是相互作用系統的通用描述,從蛋白質相互作用到疾病網絡,一直到醫療保健系統和科學知識。
在本綜述論文中,我們提出了一項觀察,即長期存在的網絡生物學和醫學原理(在機器學習研究中經常未被提及)可以為表示學習提供概念基礎,解釋其目前的成功和局限,并為未來的發展提供信息。我們整合了一系列算法方法,其核心是利用拓撲特征將網絡嵌入緊湊的向量空間。我們還提供了可能從算法創新中獲益最多的生物醫學領域的分類。
表示學習技術在識別復雜特征背后的因果變異、解開單細胞行為及其對健康的影響、用安全有效的藥物診斷和治療疾病等方面正變得至關重要。
引言
網絡,或稱圖表,在生物學和醫學中非常普遍,從分子相互作用圖到一個人疾病之間的依賴關系,一直到包括社會和健康相互作用的人群。根據網絡中編碼的信息類型,兩個實體之間“交互”的含義可能不同。例如,蛋白質-蛋白質相互作用(PPI)網絡中的邊緣可以表明實驗中測量到的物理相互作用,如酵母雙雜交篩選和質譜分析(例如,[148,197]);調節網絡中的邊緣可以指示通過動態單細胞表達測量的基因之間的因果相互作用(例如,[174]);電子健康記錄(EHR)網絡中的邊緣可以表明在醫療本體中發現的層次關系(例如,[182,190])。從分子到醫療保健系統,網絡已經成為代表、學習和推理生物醫學系統的主要范式。
生物醫學網絡上表示學習的案例。捕捉生物醫學系統中的交互作用會帶來令人困惑的復雜程度,只有通過整體和集成系統的觀點才能完全理解[17,28,164]。為此,網絡生物學和醫學在過去二十年中已經確定了一系列管理生物醫學網絡的組織原則(例如,[16,86,106,262])。這些原則將網絡結構與分子表型、生物學作用、疾病和健康聯系起來。我們認為,長期存在的原則——雖然在機器學習研究中經常未被提及——提供了概念基礎,可以解釋表示學習在生物醫學網絡建模中的成功(和局限性),并為該領域的未來發展提供信息。特別是,當對網絡中邊緣的解釋取決于上下文時,相互作用的實體往往比非相互作用的實體更相似。例如,疾病本體的結構是這樣的:通過邊緣連接的疾病術語往往比不連接的疾病術語更相似。在PPI網絡中,相互作用的蛋白質突變常常導致類似的疾病。相反,與同一疾病有關的蛋白質之間相互作用的傾向增加。在細胞網絡中,與特定表型相關的成分往往聚集在同一網絡鄰居。
表示學習實現網絡生物學和醫學的關鍵原理。我們假設表示學習可以實現網絡生物學和醫學的關鍵原則。這個假設的一個推論是表示學習可以很好地適用于生物醫學網絡的分析、學習和推理。表示學習的核心是向量空間嵌入的概念。其思想是學習如何將網絡中的節點(或更大的圖結構)表示為低維空間中的點,該空間的幾何結構經過優化,以反映節點之間的交互結構。表示學習通過指定(深度的、非線性的)轉換函數,將節點映射到緊湊的向量空間(稱為嵌入)中的點,從而形式化了這一思想。這些函數被優化以嵌入輸入圖,以便在學習空間中執行代數運算反映圖的拓撲結構。節點被映射到嵌入點,這樣具有相似網絡鄰域的節點被緊密地嵌入到嵌入空間中。值得注意的是,嵌入空間對于理解生物醫學網絡(例如,PPI網絡)的意義在于空間中點的鄰近性(例如,蛋白質嵌入之間的距離)自然地反映了這些點所代表的實體的相似性(例如,蛋白質表型的相似性),提示嵌入可被認為是網絡生物醫學關鍵原理的可微表現。
算法范式(圖1)。網絡科學和圖論技術促進了生物醫學的發現,從揭示疾病之間的關系[91,135,159,200]到藥物再利用[41,42,96]。進一步的算法創新,如隨機游走[40,229,242]、核函數[83]和網絡傳播[214],也在從網絡中捕獲結構和鄰域信息以生成下游預測的嵌入信息方面發揮了關鍵作用。特征工程是生物醫學網絡上機器學習的另一個常用范例,包括但不限于硬編碼網絡特征(例如,高階結構、網絡主題、度計數和共同鄰居統計),并將工程特征向量輸入預測模型。這種策略雖然強大,但并不能充分利用網絡信息,也不能推廣到新的網絡類型和數據集[255]。
近年來,圖表示學習方法已成為生物醫學網絡深度學習的主要范式。然而,對圖的深度學習具有挑戰性,因為圖包含復雜的拓撲結構,沒有固定的節點排序和參考點,它們由許多不同類型的實體(節點)和各種類型的相互關系(邊)組成。傳統的深度學習方法無法考慮生物醫學網絡的本質——多樣性的結構特性和豐富的交互作用。這是因為經典的深度模型主要是為固定大小的網格(例如,圖像和表格數據集)設計的,或者是為文本和序列優化的。因此,它們在計算機視覺、自然語言處理、語音和機器人技術方面取得了非凡的成就。就像對圖像和序列的深度學習徹底改變了圖像分析和自然語言處理領域一樣,圖表示學習也將改變生物學和醫學中復雜系統的研究。
我們的重點是表示學習,特別是流形學習[27]、圖變壓器網絡[250]、微分幾何深度學習[25]、拓撲數據分析(TDA)[34,224]和圖神經網絡(GNN)[125]。圖2描述了這次評審的結構和組織。我們首先提供流行的圖學習范式的技術說明,并描述其在加速生物醫學研究的關鍵影響。在圖表示學習的每個當前應用領域(圖4),我們展示了圖表示學習的潛在方向,可以通過四個獨特的前瞻性研究,每個研究至少解決以下圖機器學習的關鍵預測任務之一:節點、邊緣、子圖和圖級預測、連續嵌入和生成。
自監督學習由于能夠避免標注大規模數據集的成本而受到歡迎。它能夠采用自定義的偽標簽作為監督,并將學習到的表示用于幾個下游任務。具體來說,對比學習最近已成為計算機視覺、自然語言處理(NLP)等領域的自主監督學習方法的主要組成部分。它的目的是將同一個樣本的增廣版本嵌入到一起,同時試圖將不同樣本中的嵌入推開。這篇論文提供了一個廣泛的自我監督的方法綜述,遵循對比的方法。本研究解釋了在對比學習設置中常用的借口任務,以及到目前為止提出的不同架構。接下來,我們將對圖像分類、目標檢測和動作識別等多個下游任務的不同方法進行性能比較。最后,我們總結了目前方法的局限性和需要進一步的技術和未來方向取得實質性進展。
概述:
隨著深度學習技術的發展,它已成為目前大多數智能系統的核心組件之一。深度神經網絡(DNNs)能夠從現有的大量數據中學習豐富的模式,這使得它在大多數計算機視覺(CV)任務(如圖像分類、目標檢測、圖像分割、動作識別)以及自然語言處理(NLP)任務(如句子分類、語言模型、機器翻譯等)中成為一種引人注目的方法。然而,由于手工標注數百萬個數據樣本的工作量很大,從標記數據中學習特征的監督方法已經幾乎達到了飽和。這是因為大多數現代計算機視覺系統(受監督的)都試圖通過查找大型數據集中數據點及其各自注釋之間的模式來學習某種形式的圖像表示。像GRAD-CAM[1]這樣的工作提出了一種技術,可以為模型所做的決策提供可視化的解釋,從而使決策更加透明和可解釋。
傳統的監督學習方法很大程度上依賴于可用的帶注釋的訓練數據的數量。盡管有大量的可用數據,但缺乏注解促使研究人員尋找替代方法來利用它們。這就是自監督方法在推動深度學習的進程中發揮重要作用的地方,它不需要昂貴的標注,也不需要學習數據本身提供監督的特征表示。
監督學習不僅依賴昂貴的注釋,而且還會遇到泛化錯誤、虛假的相關性和對抗攻擊[2]等問題。最近,自監督學習方法集成了生成和對比方法,這些方法能夠利用未標記的數據來學習潛在的表示。一種流行的方法是提出各種各樣的代理任務,利用偽標簽來幫助學習特征。諸如圖像inpainting、灰度圖像著色、拼圖游戲、超分辨率、視頻幀預測、視聽對應等任務已被證明是學習良好表示的有效方法。
生成式模型在2014年引入生成對抗網絡(GANs)[3]后得到普及。這項工作后來成為許多成功架構的基礎,如CycleGAN[4]、StyleGAN[5]、PixelRNN[6]、Text2Image[7]、DiscoGAN [8]等。這些方法激發了更多的研究人員轉向使用無標簽數據在自監督的設置下訓練深度學習模型。盡管取得了成功,研究人員開始意識到基于GAN的方法的一些并發癥。它們很難訓練,主要有兩個原因: (a)不收斂——模型參數發散很多,很少收斂; (b)鑒別器太過成功,導致生成網絡無法產生類似真實的假信號,導致學習無法繼續。此外,生成器和判別器之間需要適當的同步,以防止判別器收斂和生成器發散。
近年來,人們對學習圖結構數據表示的興趣大增。基于標記數據的可用性,圖表示學習方法一般分為三大類。第一種是網絡嵌入(如淺層圖嵌入或圖自動編碼器),它側重于學習關系結構的無監督表示。第二種是圖正則化神經網絡,它利用圖來增加半監督學習的正則化目標的神經網絡損失。第三種是圖神經網絡,目的是學習具有任意結構的離散拓撲上的可微函數。然而,盡管這些領域很受歡迎,但在統一這三種范式方面的工作卻少得驚人。在這里,我們的目標是彌合圖神經網絡、網絡嵌入和圖正則化模型之間的差距。我們提出了圖結構數據表示學習方法的一個綜合分類,旨在統一幾個不同的工作主體。具體來說,我們提出了一個圖編碼解碼器模型(GRAPHEDM),它將目前流行的圖半監督學習算法(如GraphSage、Graph Convolutional Networks、Graph Attention Networks)和圖表示的非監督學習(如DeepWalk、node2vec等)歸納為一個統一的方法。為了說明這種方法的一般性,我們將30多個現有方法放入這個框架中。我們相信,這種統一的觀點既為理解這些方法背后的直覺提供了堅實的基礎,也使該領域的未來研究成為可能。
概述
學習復雜結構化數據的表示是一項具有挑戰性的任務。在過去的十年中,針對特定類型的結構化數據開發了許多成功的模型,包括定義在離散歐幾里德域上的數據。例如,序列數據,如文本或視頻,可以通過遞歸神經網絡建模,它可以捕捉序列信息,產生高效的表示,如機器翻譯和語音識別任務。還有卷積神經網絡(convolutional neural networks, CNNs),它根據移位不變性等結構先驗參數化神經網絡,在圖像分類或語音識別等模式識別任務中取得了前所未有的表現。這些主要的成功僅限于具有簡單關系結構的特定類型的數據(例如,順序數據或遵循規則模式的數據)。
在許多設置中,數據幾乎不是規則的: 通常會出現復雜的關系結構,從該結構中提取信息是理解對象之間如何交互的關鍵。圖是一種通用的數據結構,它可以表示復雜的關系數據(由節點和邊組成),并出現在多個領域,如社交網絡、計算化學[41]、生物學[105]、推薦系統[64]、半監督學習[39]等。對于圖結構的數據來說,將CNNs泛化為圖并非易事,定義具有強結構先驗的網絡是一項挑戰,因為結構可以是任意的,并且可以在不同的圖甚至同一圖中的不同節點之間發生顯著變化。特別是,像卷積這樣的操作不能直接應用于不規則的圖域。例如,在圖像中,每個像素具有相同的鄰域結構,允許在圖像中的多個位置應用相同的過濾器權重。然而,在圖中,我們不能定義節點的順序,因為每個節點可能具有不同的鄰域結構(圖1)。此外,歐幾里德卷積強烈依賴于幾何先驗(如移位不變性),這些先驗不能推廣到非歐幾里德域(如平移可能甚至不能在非歐幾里德域上定義)。
這些挑戰導致了幾何深度學習(GDL)研究的發展,旨在將深度學習技術應用于非歐幾里德數據。特別是,考慮到圖在現實世界應用中的廣泛流行,人們對將機器學習方法應用于圖結構數據的興趣激增。其中,圖表示學習(GRL)方法旨在學習圖結構數據的低維連續向量表示,也稱為嵌入。
廣義上講,GRL可以分為兩類學習問題,非監督GRL和監督(或半監督)GRL。第一個系列的目標是學習保持輸入圖結構的低維歐幾里德表示。第二系列也學習低維歐幾里德表示,但為一個特定的下游預測任務,如節點或圖分類。與非監督設置不同,在非監督設置中輸入通常是圖結構,監督設置中的輸入通常由圖上定義的不同信號組成,通常稱為節點特征。此外,底層的離散圖域可以是固定的,這是直推學習設置(例如,預測一個大型社交網絡中的用戶屬性),但也可以在歸納性學習設置中發生變化(例如,預測分子屬性,其中每個分子都是一個圖)。最后,請注意,雖然大多數有監督和無監督的方法學習歐幾里德向量空間中的表示,最近有興趣的非歐幾里德表示學習,其目的是學習非歐幾里德嵌入空間,如雙曲空間或球面空間。這項工作的主要動機是使用一個連續的嵌入空間,它類似于它試圖嵌入的輸入數據的底層離散結構(例如,雙曲空間是樹的連續版本[99])。
鑒于圖表示學習領域的發展速度令人印象深刻,我們認為在一個統一的、可理解的框架中總結和描述所有方法是很重要的。本次綜述的目的是為圖結構數據的表示學習方法提供一個統一的視圖,以便更好地理解在深度學習模型中利用圖結構的不同方法。
目前已有大量的圖表示學習綜述。首先,有一些研究覆蓋了淺層網絡嵌入和自動編碼技術,我們參考[18,24,46,51,122]這些方法的詳細概述。其次,Bronstein等人的[15]也給出了非歐幾里德數據(如圖或流形)的深度學習模型的廣泛概述。第三,最近的一些研究[8,116,124,126]涵蓋了將深度學習應用到圖數據的方法,包括圖數據神經網絡。這些調查大多集中在圖形表示學習的一個特定子領域,而沒有在每個子領域之間建立聯系。
在這項工作中,我們擴展了Hamilton等人提出的編碼-解碼器框架,并介紹了一個通用的框架,圖編碼解碼器模型(GRAPHEDM),它允許我們將現有的工作分為四大類: (i)淺嵌入方法,(ii)自動編碼方法,(iii) 圖正則化方法,和(iv) 圖神經網絡(GNNs)。此外,我們還介紹了一個圖卷積框架(GCF),專門用于描述基于卷積的GNN,該框架在廣泛的應用中實現了最先進的性能。這使我們能夠分析和比較各種GNN,從在Graph Fourier域中操作的方法到將self-attention作為鄰域聚合函數的方法[111]。我們希望這種近期工作的統一形式將幫助讀者深入了解圖的各種學習方法,從而推斷出相似性、差異性,并指出潛在的擴展和限制。盡管如此,我們對前幾次綜述的貢獻有三個方面
我們介紹了一個通用的框架,即GRAPHEDM,來描述一系列廣泛的有監督和無監督的方法,這些方法對圖形結構數據進行操作,即淺層嵌入方法、圖形正則化方法、圖形自動編碼方法和圖形神經網絡。
我們的綜述是第一次嘗試從同一角度統一和查看這些不同的工作線,我們提供了一個通用分類(圖3)來理解這些方法之間的差異和相似之處。特別是,這種分類封裝了30多個現有的GRL方法。在一個全面的分類中描述這些方法,可以讓我們了解這些方法究竟有何不同。
我們為GRL發布了一個開源庫,其中包括最先進的GRL方法和重要的圖形應用程序,包括節點分類和鏈接預測。我們的實現可以在//github.com/google/gcnn-survey-paper上找到。
題目: Graph Neural Networks:A Review of Methods and Applications
簡介: 許多學習任務需要處理圖形數據,該圖形數據包含元素之間的關系信息。對物理系統進行建模,學習分子指紋,預測蛋白質界面以及對疾病進行分類,都需要從圖輸入中學習模型。在諸如從文本和圖像之類的非結構數據中學習的其他領域中,對提取結構的推理,例如句子的依存關系樹和圖像的場景圖,是一個重要的研究課題,它也需要圖推理模型。圖神經網絡(GNN)是連接器模型,可通過在圖的節點之間傳遞消息來捕獲圖的依賴性。與標準神經網絡不同,圖神經網絡保留一種狀態,該狀態可以表示來自其鄰域的任意深度的信息。盡管已經發現難以訓練原始圖神經網絡來固定點,但是網絡體系結構,優化技術和并行計算的最新進展已使他們能夠成功學習。近年來,基于圖卷積網絡(GCN)和門控圖神經網絡(GGNN)的系統已經在上述許多任務上展示了突破性的性能。在本綜述中,我們對現有的圖神經網絡模型進行了詳細的回顧,對應用程序進行了系統分類,并提出了四個未解決的問題,供以后研究。
作者簡介: 周杰,教授,清華大學自動化系黨委書記,教授,博士生導師。
題目: Understanding Deep Learning Techniques for Image Segmentation
簡介: 機器學習已被大量基于深度學習的方法所淹沒。各種類型的深度神經網絡(例如卷積神經網絡,遞歸網絡,對抗網絡,自動編碼器等)有效地解決了許多具有挑戰性的計算機視覺任務,例如在不受限制的環境中對對象進行檢測,定位,識別和分割。盡管有很多關于對象檢測或識別領域的分析研究,但相對于圖像分割技術,出現了許多新的深度學習技術。本文從分析的角度探討了圖像分割的各種深度學習技術。這項工作的主要目的是提供對圖像分割領域做出重大貢獻的主要技術的直觀理解。從一些傳統的圖像分割方法開始,本文進一步描述了深度學習對圖像分割域的影響。此后,大多數主要的分割算法已按照專用于其獨特貢獻的段落進行了邏輯分類。