本文沒有描述一個工作系統。相反,它提出了一個關于表示的單一想法,允許幾個不同群體的進步被組合成一個虛構的系統,稱為GLOM。這些進展包括transformers、神經域、對比表示學習、蒸餾和膠囊。GLOM回答了這個問題: 具有固定架構的神經網絡如何將圖像解析為具有不同結構的部分整體層次結構?其思想是簡單地使用相同向量的島嶼來表示解析樹中的節點。如果GLOM能夠正常工作,那么當將其應用于視覺或語言時,它將顯著提高類transformer系統產生的表示的可解釋性。
有強有力的心理學證據表明,人們將視覺場景解析為部分整體的層次結構,并將部分和整體之間的視不變空間關系建模為他們分配給部分和整體的內在坐標系之間的坐標轉換[Hinton, 1979]。如果我們想讓神經網絡像人類一樣理解圖像,我們需要弄清楚神經網絡是如何代表部分-整體層次結構的。這是困難的,因為一個真正的神經網絡不能動態分配一組神經元來表示解析樹中的一個節點。神經網絡無法動態分配神經元是一系列使用“膠囊”模型的動機[Sabour et al., 2017, Hinton et al., 2018, Kosiorek et al., 2019]。這些模型假設一組被稱為膠囊的神經元將永久地專注于發生在圖像特定區域的特定類型的一部分。然后,可以通過激活這些預先存在的特定于類型的封裝的子集以及它們之間的適當連接來創建解析樹。本文描述了一種非常不同的方法,使用膠囊來表示神經網絡中的部分-整體層次結構。
盡管本文主要關注單個靜態圖像的感知,但GLOM最容易理解為處理幀序列的管道,因此靜態圖像將被視為相同幀序列。
GLOM體系結構由大量的列組成,這些列都使用完全相同的權重。每一列都是一個空間本地自動編碼器的堆棧,它學習在一個小圖像補丁中發生的多級表示。每個自動編碼器使用多層自底向上編碼器和多層自頂向下解碼器將一層上的嵌入轉換為相鄰層上的嵌入。這些級別對應于部分-整體層次結構中的級別。例如,當顯示一張臉的圖像時,單個列可能會匯聚到表示鼻孔、鼻子、臉和人的嵌入向量上。圖1顯示了不同級別的嵌入如何在單個列中交互。
題目:Graph Structure Estimation Neural Networks
作者:Ruijia Wang, Shuai Mou, Xiao Wang, Wanpeng Xiao, Qi Ju, Chuan Shi and Xing Xie
簡介:盡管現有的GNN已成功應用于各種場景,但存在一個基本的假設:所觀察到的圖結構是正確的且符合GNN的性質。實際上,由于圖通常抽取自復雜的交互系統,該假設總是被違反。原因之一是這些交互系統通常包含不確定性或錯誤。例如,在蛋白質相互作用圖中,傳統的實驗誤差是錯誤的主要來源。另一個原因是數據缺失是不可避免的。例如,Internet構建的圖通過檢查路由表或跟蹤路由路徑集合確定,而這兩個表僅給出了邊的子集。已經有研究表明不可靠的圖結構可能會嚴重限制GNN的表示能力,其中一個典型的例子是GNN的性能會在同配性(即同一社區內的節點傾向于相互連接)差的圖上大大降低。簡而言之,在實際的圖中普遍存在缺失、無意義甚至錯誤的邊,這導致其與GNN的性質不匹配,并對結果的準確性或正確性產生影響。因此,迫切需要探索適宜于GNN的圖結構。
然而,有效學習適合于GNN的圖結構在技術上具有挑戰性。我們認為,需要解決兩個障礙。(1)應考慮圖生成機制。網絡科學的很多文獻中已經證明圖的生成可能受某些基本原則的約束,如隨機塊模型模型。考慮這些原則,可以從根本上驅使學得的圖保持規則的全局結構,并對實際觀測中的噪聲更魯棒。不幸的是,大多數當前方法對每條邊進行參數化,沒有考慮全局結構和圖的基礎生成機制,因此學得的圖對噪聲和稀疏性的容忍度較低。(2)應該利用多方面信息以減少偏差。從一個信息源學習圖結構不可避免地會導致偏差和不確定性。合理的假設是如果一條邊在多次測量中存在,則邊存在的置信度會更大。因此,一個可靠的圖結構應該考慮全面的信息,盡管要獲得多視圖的信息并描述它們與GNN的關系是很復雜的。現有的方法主要利用特征相似性,從而使學得的圖易受單一視圖偏差的影響。
為了解決上述問題,在本文中我們提出了圖結構估計神經網絡(GEN),通過估計適宜于GNN的圖結構來提高節點分類性能。我們首先分析GNN的性質以匹配適當的圖生成機制。GNN作為低通濾波器,平滑鄰域以使相鄰節點表示相似,適用于具有社區結構的圖。因此,我們提出結構模型約束圖生成過程,假設圖是從隨機塊模型(SBM)中產生的。此外,除觀察到的圖結構和節點特征外,我們還創造性地利用多階鄰域信息來規避偏差,并提出觀測模型將上述多視圖信息作為最佳圖結構的觀測共同建模。為了估計最佳圖結構,我們在GNN訓練期間構造觀測集合,并基于結構和觀測模型應用貝葉斯推斷來計算圖結構的后驗分布。最后,估計的圖結構和GNN的參數通過精心設計的迭代優化實現彼此增強。
人工神經網絡中最重要的未解決問題是如何像大腦一樣有效地進行無監督學習。目前無監督學習主要有兩種方法。在第一種方法中,以BERT和變分自編碼器為例,使用深度神經網絡重構其輸入。這對于圖像來說是有問題的,因為網絡的最深層需要對圖像的細節進行編碼。另一種方法是由Becker和Hinton在1992年提出的,即訓練一個深度神經網絡的兩個副本,當輸入相同圖像的兩種不同作物時,產生具有高互信息的輸出向量。這種方法被設計為允許表示不受輸入無關細節的約束。
Becker和Hinton使用的優化相互信息的方法是有缺陷的(我將解釋一個微妙的原因),所以Pacannaro和Hinton用一個有區別的目標代替了它,其中一個向量表示必須從眾多選擇中選擇一個對應的向量表示。隨著硬件速度的提高,對比表示學習最近變得非常流行,并且被證明是非常有效的,但是它存在一個主要的缺陷:要學習具有N比特互信息的表示向量對,我們需要對比正確的對應向量和大約2 N個錯誤的替代。我將描述一種新穎而有效的方法來處理這一局限性。我也會展示這導致了一種簡單的方式在大腦皮層中執行感知學習。
最近,人們對在非歐幾里得空間中表示數據的方法(例如雙曲或球面)越來越感興趣,這些方法提供了對某些真實世界數據屬性(例如無尺度、分層或循環)有用的特定歸納偏差。然而,流行的圖神經網絡目前僅限于通過歐幾里得幾何和相關的向量空間操作來建模數據。在這里,我們通過提出將圖卷積網絡(GCN)在數學基礎上推廣為常曲率空間的(乘積)來彌補這一差距。我們通過i)引入一種統一的形式,可以在所有常曲率幾何之間平滑地插入,ii)利用陀螺質心坐標,推廣了經典的歐幾里德質心概念。當曲率從任何一邊變為零時,我們這類模型平滑地恢復它們的歐幾里得對應模型。根據其離散曲率,我們在非歐幾里得行為的符號數據上的節點分類和失真最小化的任務表現優于歐幾里得GCNs。
概述
圖卷積網絡 針對圖像數據的卷積網絡和深度學習的成功啟發了對于共享參數與圖形幾何形狀一致的圖推廣。Bruna等人(2014);Henaff等人(2015)是利用圖上的局部譜濾波器在圖傅里葉空間中開發頻譜圖卷積神經網絡的先驅。然而,為了減少對拉普拉斯特征模式的圖依賴,Defferrard等人(2016)利用Hammond等人(2011)的結果使用Chebyshev多項式近似卷積濾波器。所得到的方法(在附錄A中討論)在計算效率和精度和復雜性方面是優越的。此外,Kipf和Welling(2017)通過考慮一階近似來簡化這種方法,從而獲得高可伸縮性。提出的圖卷積網絡(GCN)是通過對稱歸一化鄰接矩陣來插值節點嵌入,而這種權值共享可以理解為一種有效的擴散式正則化器。最近的工作擴展了GCNs,實現了鏈接預測(Zhang & Chen, 2018)、圖分類(Hamilton等,2017;和節點分類(Klicpera et al., 2019;Velickoviˇc et al .′, 2018)。
ML中的歐幾里得幾何。在機器學習(ML)中,由于各種原因,數據通常在歐幾里得空間中表示。首先,有些數據本質上是歐幾里得的,比如經典力學中三維空間中的位置。其次,直覺在這樣的空間中更容易,因為它們擁有一個吸引人的矢量結構,允許基本的算術和豐富的線性代數理論。最后,許多感興趣的量,如距離和內積在封閉公式中是已知的,可以在現有的硬件上非常有效地計算。這些操作是當今大多數流行的機器學習模型的基本構建模塊。因此,歐幾里得幾何強大的簡單性和效率已經導致許多方法實現了最先進的任務,如機器翻譯(Bahdanau等,2015;wani et al., 2017),語音識別(Graves et al., 2013),圖像分類(He et al., 2016)或推薦系統(He et al., 2017)。
黎曼ML 盡管取得了成功,但某些類型的數據(例如分層數據、無標度數據或球形數據)被證明可以更好地用非歐幾里德幾何表示(Defferrard et al., 2019;Bronstein等,2017;Nickel & Kiela, 2017;Gu et al., 2019),尤其帶來了豐富的流形學習理論(Roweis & Saul, 2000;和信息幾何(Amari & Nagaoka, 2007)。在活力操縱非歐幾里得幾何的數學框架被稱為黎曼幾何(Spivak, 1979)。雖然它的理論導致了許多強而優雅的結果,但它的一些基本量,如距離函數d(·,·),通常不能以封閉的形式提供,這對許多計算方法都是禁止的。
常曲率幾何的代表性優勢。在一般黎曼流形和歐幾里得空間之間的一個有趣的權衡是由常截面曲率流形給出的。他們一起定義了所謂的雙曲(負曲率),橢圓(正曲率)和歐幾里得(零曲率)幾何。正如下面和附錄B中所討論的,歐幾里得空間在嵌入某些類型的數據(如樹)時具有局限性,并且會產生很大的失真。在這些情況下,雙曲空間和球面空間具有代表性的優勢,為各自的數據提供了更好的歸納偏差。
雙曲空間可以直觀地理解為一棵連續樹:球的體積隨半徑呈指數增長,類似于二叉樹的節點數隨深度呈指數增長(圖1)。它的樹狀性質已經被數學研究了很長時間(Gromov, 1987;哈曼,2017;與歐幾里得幾何結構相比,它被證明能夠更好地嵌入復雜網絡(Krioukov et al., 2010)、無標度圖和分層數據(Cho et al., 2019; Sala et al., 2018; Ganea et al., 2018b; Gu et al., 2019; Nickel & Kiela, 2018; 2017; Tifrea et al., 2019)。一些重要的工具或方法找到了它們的雙曲線對應物,例如變分自編碼器(Mathieu et al., 2019;、注意力機制(Gulcehre等,2018)、矩陣乘法、遞歸單位和多項logistic回歸(Ganea等,2018)。
常曲率空間中的GCNs。在這項工作中,我們引入了一個擴展的圖形卷積網絡,它允許學習存在于具有任何曲率符號的常曲率空間(乘積)中的表示。我們通過將導出的統一陀螺框架與GCNs的有效性相結合來實現這一點(Kipf & Welling, 2017)。與我們的工作同時,Chami等人(2019年);Liu等人(2019)考慮了通過切線空間聚合在雙曲空間中學習嵌入的圖神經網絡。他們的方法將在第3.4節中作更詳細的分析。我們的模型更一般化,因為它在一個包含雙曲空間的嚴格超集中產生表示。
【導讀】自監督學習是新的研究熱點-【AAAI2020圖靈獎得主YannLecun】自監督學習Self-Supervised Learning是未來 。近日,深度學習先驅Geoffrey Hinton領銜的Google大腦團隊發布了他們在視覺表示對比學習的最新研究成果-SimLCR,建立了新的SOTA視覺ImageNet識別模型,76.5%的top-1準確度,比以前的水平提高了7%,與監督的ResNet-50的性能相當。并有一系列重要的發現:包括(1) 數據增廣的組成在定義有效的預測任務中發揮了至關重要的作用,(2) 引入一個可學的非線性變換在視覺表示和對比損失之間大大提高學習表示的質量,和 (3) 與監督學習相比,對比學習受益于更大的批量尺寸和更多的訓練步驟,不得不看!
本文提出了一個簡單的視覺表示對比學習(contrastive learning)框架。我們簡化了最近提出的對比型自監督學習算法,不需要專門的架構或存儲庫。為了了解是什么使對比預測任務能學習有用的表示,我們系統地研究了我們提出的框架的主要組成部分。我們表明, (1) 數據增廣的組成在定義有效的預測任務中發揮了至關重要的作用,(2) 引入一個可學的非線性變換在視覺表示和對比損失之間大大提高學習表示的質量,和 (3) 與監督學習相比,對比學習受益于更大的批量尺寸和更多的訓練步驟。結合這些發現,我們能夠在很大程度上超越以往的方法,在ImageNet上進行自監督和半監督學習。在SimCLR學習的自監督表示上訓練的線性分類器實現了76.5%的top-1準確度,比以前的水平提高了7%,與監督的ResNet-50的性能相當。當僅對1%的標簽進行微調時,我們實現了85.8%的前5名準確度,以100倍的標簽數超過了AlexNet。
概述
學習沒有人類監督的有效視覺表示是一個長期存在的問題。大多數主流方法可分為兩類:生成式和判別式。生成式方法學習在輸入空間中生成或以其他方式建模像素 (Hinton et al., 2006; Kingma & Welling, 2013; Goodfellow et al., 2014)。然而,像素級的生成在計算上是昂貴的,而且對于表示學習可能不是必需的。判別方法使用與監督學習類似的目標函數來學習表示,但是訓練網絡執行下游任務,其中輸入和標簽都來自未標記的數據集。許多這類方法依賴于啟發法來設計下游任務(Doersch et al., 2015; Zhang et al., 2016; Noroozi & Favaro, 2016; Gidaris et al., 2018),這可能限制了學習表示的普遍性。基于潛在空間中的對比學習的判別方法最近顯示出了巨大的潛力,取得了最先進的結果(Hadsell et al., 2006; Dosovitskiy et al., 2014; Oord et al., 2018; Bachman et al., 2019)。
圖1: ImageNet top-1在不同自監督方法學習的表示上訓練的線性分類器的精度(在ImageNet上預先訓練)。灰色十字表示有監督的ResNet-50。我們的方法SimCLR以粗體顯示。
在這項工作中,我們介紹了視覺表示對比學習的一個簡單框架,我們稱之為SimCLR。SimCLR不僅優于以前的工作(圖1),而且更簡單,不需要專門的架構(Bachman et al., 2019; Hénaff et al., 2019)或者存儲池 (Wu et al., 2018; Tian et al., 2019; He et al., 2019a; Misra & van der Maaten, 2019)。
為了了解是什么使好的對比表示學習成為可能,我們系統地研究了我們的框架的主要組成部分,并表明:
[topsep=0pt, partopsep=0pt, leftmargin=13pt, parsep=0pt, itemsep=4pt]
在定義產生有效表示的對比預測任務時,多個數據增強操作的組合是至關重要的。另外,無監督對比學習比監督學習具有更強的數據增強性。
在表示和對比損失之間引入一個可學習的非線性變換,極大地提高了學習表示的質量。
具有對比交叉熵損失的表示法學習得益于歸一化嵌入和適當調整的溫度參數。
與監督學習相比,對比學習受益于更大的批量和更長的訓練。與監督學習一樣,對比學習也受益于更深更廣的網絡。
我們結合這些發現,在ImageNet ILSVRC-2012上實現了一種新的自監督和半監督學習(Russakovsky et al., 2015)。** 在線性評價方案下,SimCLR達到了76.5%的top-1準確率,相對于之前的最先進水平(Henaff et al., 2019)提高了7%。當僅使用1%的ImageNet標簽進行微調時,SimCLR達到了85.8%的top-5準確率,相對提高了10% (Henaff et al., 2019)。當對其他自然圖像分類數據集進行微調時,SimCLR在12個數據集中的10個上的表現與強監督基線(Kornblith et al., 2019)相當或更好。**