在需要平衡性能和參數效率的應用中,選擇深度神經網絡結構是一個基本問題。標準方法依賴于特定數據集上的特別工程或計算上昂貴的驗證。相反,我們試圖通過網絡的內在能力來量化網絡的獨特性和健壯性,從而在不需要任何數據的情況下進行有效的架構比較。基于深度學習和稀疏逼近之間的理論聯系,我們提出了深度框架潛力:一種與表征穩定性近似相關的相干性度量,但具有僅依賴于網絡結構的最小值。這為聯合量化架構超參數(如深度、寬度和跳過連接)的貢獻提供了一個框架。我們驗證了它作為模型選擇標準的作用,并證明了它與各種通用殘差和密集連接的網絡架構上的泛化誤差之間的相關性。
針對自監督學習的深度聚類是無監督視覺表示學習中一個非常重要和有前途的方向,因為設計前置任務需要較少的領域知識。而關鍵組件嵌入聚類由于需要保存整個數據集的全局潛在嵌入,限制了其擴展到超大規模的數據集。在這項工作中,我們的目標是使這個框架在不降低性能的情況下更加簡單和優雅。提出了一種不使用嵌入聚類的無監督圖像分類框架,與標準的監督訓練方法非常相似。為了進一步解釋,我們進一步分析了其與深度聚類和對比學習的關系。在ImageNet數據集上進行了大量的實驗,驗證了該方法的有效性。此外,在遷移學習基準上的實驗驗證了它對其他下游任務的推廣,包括多標簽圖像分類、目標檢測、語義分割和小樣本圖像分類。
地址:
本文提出了一種利用“無中生有”的監督方式,用于跨模態哈希編碼。現存的跨模態哈希編碼分為有監督和無監督兩類,前者通常精度更高,但依賴于圖像級標注信息,以生成相似度矩陣。本方法創新性地提出,利用無監督的哈希方法產生圖像特征,并利用圖像特征計算相似度矩陣,從而繞開了對監督信號的需求,在不增加標注代價的情況下,提升了跨模態哈希編碼的精度,超過了所有無監督的編碼方法。本文還分析了圖像特征和文本特征在相似度計算中的作用,并且討論了這種方法在類似場景中的應用。
內容感知的推薦方法對于向新用戶提供有意義的推薦是必不可少的。我們提出了一種基于內容感知神經哈希的協同過濾方法,它為用戶和項生成二進制哈希碼,這樣就可以利用高效的漢明距離估計用戶項相關性。NeuHash-CF被建模為一個自動編碼器架構,由兩個用于生成用戶和項哈希碼的聯合哈希組件組成。受語義哈希的啟發,項目哈希組件直接從項目的內容信息(即,它以相同的方式生成冷啟動和可見項哈希碼)。這與現有的最先進的模型形成了對比,后者分別處理兩個項目的情況。用戶哈希碼是通過學習用戶嵌入矩陣,直接基于用戶id生成的。我們通過實驗證明,在冷啟動推薦設置中,NeuHash-CF的性能顯著優于最先進的基線,最高可達12%的NDCG和13%的MRR,而在所有項目都在訓練時出現的標準設置中,NeuHash-CF和MRR的性能均可達4%。我們的方法使用2-4倍的更短的哈希碼,同時獲得與現有技術相同或更好的性能,因此也可以顯著減少存儲空間。
領域適應(DA)提供了重用數據和模型用于新問題領域的有價值的方法。然而,對于具有不同數據可用性的時間序列數據,還沒有考慮到健壯的技術。在本文中,我們做出了三個主要貢獻來填補這一空白。我們提出了一種新的時間序列數據卷積深度域自適應模型(CoDATS),該模型在現實傳感器數據基準上顯著提高了最先進的DA策略的準確性和訓練時間。通過利用來自多個源域的數據,我們增加了CoDATS的有用性,從而進一步提高了與以前的單源方法相比的準確性,特別是在域之間具有高度可變性的復雜時間序列數據集上。其次,我們提出了一種新的弱監督域自適應(DA-WS)方法,利用目標域標簽分布形式的弱監督,這可能比其他數據標簽更容易收集。第三,我們對不同的真實數據集進行了綜合實驗,以評估我們的域適應和弱監督方法的有效性。結果表明,用于單源DA的CoDATS比最先進的方法有了顯著的改進,并且我們使用來自多個源域和弱監督信號的數據實現了額外的準確性改進。
深度學習系統在許多任務中都取得了顯著的性能,但要確保生成的模型服從硬約束(在許多控制應用程序中可能經常需要這樣做),常常是出了名的困難。在這次演講中,我將介紹一些最近的關于在深度學習系統中加強不同類型的約束的工作。具體來說,我將重點介紹最近的一些工作,包括將一般的凸優化問題集成為深網絡中的層次,研究保證表示凸函數的學習網絡,以及研究增強非線性動力學的全局穩定性的深層動力系統。在所有情況下,我們都強調我們可以設計網絡結構來編碼這些隱性偏見的方式,這種方式可以讓我們輕松地執行這些硬約束。
近年來,人們對學習圖結構數據表示的興趣大增。基于標記數據的可用性,圖表示學習方法一般分為三大類。第一種是網絡嵌入(如淺層圖嵌入或圖自動編碼器),它側重于學習關系結構的無監督表示。第二種是圖正則化神經網絡,它利用圖來增加半監督學習的正則化目標的神經網絡損失。第三種是圖神經網絡,目的是學習具有任意結構的離散拓撲上的可微函數。然而,盡管這些領域很受歡迎,但在統一這三種范式方面的工作卻少得驚人。在這里,我們的目標是彌合圖神經網絡、網絡嵌入和圖正則化模型之間的差距。我們提出了圖結構數據表示學習方法的一個綜合分類,旨在統一幾個不同的工作主體。具體來說,我們提出了一個圖編碼解碼器模型(GRAPHEDM),它將目前流行的圖半監督學習算法(如GraphSage、Graph Convolutional Networks、Graph Attention Networks)和圖表示的非監督學習(如DeepWalk、node2vec等)歸納為一個統一的方法。為了說明這種方法的一般性,我們將30多個現有方法放入這個框架中。我們相信,這種統一的觀點既為理解這些方法背后的直覺提供了堅實的基礎,也使該領域的未來研究成為可能。
概述
學習復雜結構化數據的表示是一項具有挑戰性的任務。在過去的十年中,針對特定類型的結構化數據開發了許多成功的模型,包括定義在離散歐幾里德域上的數據。例如,序列數據,如文本或視頻,可以通過遞歸神經網絡建模,它可以捕捉序列信息,產生高效的表示,如機器翻譯和語音識別任務。還有卷積神經網絡(convolutional neural networks, CNNs),它根據移位不變性等結構先驗參數化神經網絡,在圖像分類或語音識別等模式識別任務中取得了前所未有的表現。這些主要的成功僅限于具有簡單關系結構的特定類型的數據(例如,順序數據或遵循規則模式的數據)。
在許多設置中,數據幾乎不是規則的: 通常會出現復雜的關系結構,從該結構中提取信息是理解對象之間如何交互的關鍵。圖是一種通用的數據結構,它可以表示復雜的關系數據(由節點和邊組成),并出現在多個領域,如社交網絡、計算化學[41]、生物學[105]、推薦系統[64]、半監督學習[39]等。對于圖結構的數據來說,將CNNs泛化為圖并非易事,定義具有強結構先驗的網絡是一項挑戰,因為結構可以是任意的,并且可以在不同的圖甚至同一圖中的不同節點之間發生顯著變化。特別是,像卷積這樣的操作不能直接應用于不規則的圖域。例如,在圖像中,每個像素具有相同的鄰域結構,允許在圖像中的多個位置應用相同的過濾器權重。然而,在圖中,我們不能定義節點的順序,因為每個節點可能具有不同的鄰域結構(圖1)。此外,歐幾里德卷積強烈依賴于幾何先驗(如移位不變性),這些先驗不能推廣到非歐幾里德域(如平移可能甚至不能在非歐幾里德域上定義)。
這些挑戰導致了幾何深度學習(GDL)研究的發展,旨在將深度學習技術應用于非歐幾里德數據。特別是,考慮到圖在現實世界應用中的廣泛流行,人們對將機器學習方法應用于圖結構數據的興趣激增。其中,圖表示學習(GRL)方法旨在學習圖結構數據的低維連續向量表示,也稱為嵌入。
廣義上講,GRL可以分為兩類學習問題,非監督GRL和監督(或半監督)GRL。第一個系列的目標是學習保持輸入圖結構的低維歐幾里德表示。第二系列也學習低維歐幾里德表示,但為一個特定的下游預測任務,如節點或圖分類。與非監督設置不同,在非監督設置中輸入通常是圖結構,監督設置中的輸入通常由圖上定義的不同信號組成,通常稱為節點特征。此外,底層的離散圖域可以是固定的,這是直推學習設置(例如,預測一個大型社交網絡中的用戶屬性),但也可以在歸納性學習設置中發生變化(例如,預測分子屬性,其中每個分子都是一個圖)。最后,請注意,雖然大多數有監督和無監督的方法學習歐幾里德向量空間中的表示,最近有興趣的非歐幾里德表示學習,其目的是學習非歐幾里德嵌入空間,如雙曲空間或球面空間。這項工作的主要動機是使用一個連續的嵌入空間,它類似于它試圖嵌入的輸入數據的底層離散結構(例如,雙曲空間是樹的連續版本[99])。
鑒于圖表示學習領域的發展速度令人印象深刻,我們認為在一個統一的、可理解的框架中總結和描述所有方法是很重要的。本次綜述的目的是為圖結構數據的表示學習方法提供一個統一的視圖,以便更好地理解在深度學習模型中利用圖結構的不同方法。
目前已有大量的圖表示學習綜述。首先,有一些研究覆蓋了淺層網絡嵌入和自動編碼技術,我們參考[18,24,46,51,122]這些方法的詳細概述。其次,Bronstein等人的[15]也給出了非歐幾里德數據(如圖或流形)的深度學習模型的廣泛概述。第三,最近的一些研究[8,116,124,126]涵蓋了將深度學習應用到圖數據的方法,包括圖數據神經網絡。這些調查大多集中在圖形表示學習的一個特定子領域,而沒有在每個子領域之間建立聯系。
在這項工作中,我們擴展了Hamilton等人提出的編碼-解碼器框架,并介紹了一個通用的框架,圖編碼解碼器模型(GRAPHEDM),它允許我們將現有的工作分為四大類: (i)淺嵌入方法,(ii)自動編碼方法,(iii) 圖正則化方法,和(iv) 圖神經網絡(GNNs)。此外,我們還介紹了一個圖卷積框架(GCF),專門用于描述基于卷積的GNN,該框架在廣泛的應用中實現了最先進的性能。這使我們能夠分析和比較各種GNN,從在Graph Fourier域中操作的方法到將self-attention作為鄰域聚合函數的方法[111]。我們希望這種近期工作的統一形式將幫助讀者深入了解圖的各種學習方法,從而推斷出相似性、差異性,并指出潛在的擴展和限制。盡管如此,我們對前幾次綜述的貢獻有三個方面
我們介紹了一個通用的框架,即GRAPHEDM,來描述一系列廣泛的有監督和無監督的方法,這些方法對圖形結構數據進行操作,即淺層嵌入方法、圖形正則化方法、圖形自動編碼方法和圖形神經網絡。
我們的綜述是第一次嘗試從同一角度統一和查看這些不同的工作線,我們提供了一個通用分類(圖3)來理解這些方法之間的差異和相似之處。特別是,這種分類封裝了30多個現有的GRL方法。在一個全面的分類中描述這些方法,可以讓我們了解這些方法究竟有何不同。
我們為GRL發布了一個開源庫,其中包括最先進的GRL方法和重要的圖形應用程序,包括節點分類和鏈接預測。我們的實現可以在//github.com/google/gcnn-survey-paper上找到。
組合優化是計算機視覺的常用方法。例如,在諸如語義分割、人體姿態估計和動作識別等應用中,為解決條件隨機域(CRFs)中的推理問題而編寫的程序可以生成與圖像視覺特征一致的結構化輸出。然而,在CRFs中求解推理通常是棘手的,而近似方法在計算上要求很高,并且僅限于一元的、成對的和手工制作的高階勢形式。在這篇論文中,我們證明了我們可以學習程序啟發式。策略,用于解決高階CRFs中推理任務的語義分割,采用強化學習。我們的方法有效地解決了推理任務,而沒有對勢的形式施加任何約束。我們在Pascal VOC和MOTS數據集上展示了引人注目的結果。
最近的研究表明,自注意力可以作為圖像識別模型的基本構件。我們探討了自注意力的變化,并評估了它們在圖像識別中的有效性。我們認為自注意力有兩種形式。一種是成對的自注意力,它概括了標準的點積注意,本質上是一個集合算子。另一種是拼湊式的自注意力,嚴格來說,它比卷積更強大。我們的成對自注意力網絡匹配或優于卷積網絡,補丁式網絡的性能大大優于卷積基線。我們還進行了實驗,探討了學習表征的魯棒性,并得出結論,自注意力網絡在魯棒性和泛化方面可能具有顯著的優勢。