主動推理是一種關于感知和行動的統一理論,其基礎是大腦通過最小化自由能來維持世界的內部模型。從行為角度來看,主動推理代理可以被視為自我證明的存在,通過行動來實現他們的樂觀預測,即首選結果或目標。相反,強化學習需要人為設計的獎勵來實現任何期望的結果。盡管主動推理可以為控制提供一個更自然的自監督目標,但它的適用性受到限制,因為該方法在復雜環境下可擴展性不足。在這項工作中,我們提出了一個主動推理的對比目標,這大大減少了學習agent生成模型和規劃未來行動的計算負擔。在基于圖像的任務中,我們的方法比基于可能性的主動推理表現得明顯更好,同時計算成本更低,更容易訓練。我們將其與強化學習代理進行了比較,這些代理可以獲得人類設計的獎勵功能,表明我們的方法與它們的表現非常匹配。最后,我們還表明對比方法在環境干擾的情況下有顯著的更好的表現。
學習用于分布外預測的因果語義表示
Learning Causal Semantic Representation for Out-of-Distribution Prediction 論文摘要:標準的有監督學習方法特別是深度學習方法對分布外樣例的預測表現欠佳,主要由于其學到的表示難免會混淆語義因素和多樣因素,因為兩者在特定環境下具有特定的相關性,但只有語義因素是輸出變量的因。為此,我們通過對變量間因果關系的分析,將這兩個因素分開建模,進而提出了一個因果語義生成模型,并建立了相應的分布外預測方法用于解決常見且有挑戰性的單訓練域的情況。此方法源自因果不變性原理,并基于變分貝葉斯框架實現,其中引入了一個新穎的設計既實現了高效訓練又便于預測。理論上,我們證明了一定條件下,此模型可通過擬合訓練數據來識別語義因素,且這種識別保證了分布外泛化誤差的有界性和成功的領域自適應。實驗結果表明所提方法比主流基線方法具有更好的分布外預測表現。
去柵格化的矢量圖識別
Recognizing Vector Graphics without Rasterization
論文摘要:本文工作關注在一種與以往大多數工作不同的圖像格式:矢量圖。和在圖像識別中常用的位圖不同,由于矢量圖基于解析幾何的表示方式,可以被無損失的縮放到任意分辨率。同時,矢量圖還提供了額外的結構化信息,描述了底層元素是如何構成高層的形狀和結構。現有的識別方法并沒有充分利用這一格式的優點。本文通過目標檢測這一基本的視覺任務來探索這個圖像格式。我們提出了一種無需 CNN 的高效網絡結構,在識別過程中無需將矢量圖渲染為像素圖(即柵格化),直接把矢量圖的文本作為模型輸入,稱為 YOLaT (You Only Look at Text)。YOLaT 將矢量圖的結構和空間信息建模為一個多重圖,并提出一個雙流圖神經網絡基于多重圖來進行目標檢測。實驗證明 YOLaT 通過直接對矢量圖進行處理分析,能夠在計算效率和性能上顯著超過現有的目標檢測方法。
本文提出了一種基于無監督學習的視頻目標分割方法。與之前的工作不同,我們的公式允許在完全卷積的情況下直接學習密集特征表示。我們依靠統一的網格采樣來提取一組錨點,并訓練我們的模型來在視頻間和視頻內消除它們之間的歧義。然而,訓練這樣一個模型的樸素方案會得到一個退化解。我們提出了一種簡單的正則化方案來防止這種情況,該方案適應了分割任務對相似變換的等方差特性。我們的訓練目標實現高效,并表現出快速的訓練趨同。在已建立的VOS基準上,我們的方法超過了以前工作的分割精度,盡管使用的訓練數據和計算能力明顯更少。
我們研究了一組新的用于恢復損壞數據表示的逆問題。我們假設可以訪問預訓練過的表示學習網絡R(x),該網絡對干凈的圖像進行操作,比如CLIP。問題是恢復圖像R(x)的表示,如果我們只給一個損壞的版本A(x),已知的正向算子A。我們提出了一種監督逆方法,使用對比目標,以獲得高損壞圖像的優秀表示。在我們的魯棒表示上使用線性探針,在對各種類型的畸變圖像(包括模糊、加性噪聲和隨機像素掩蔽)進行分類時,我們實現了比端到端監督基線更高的精度。我們在ImageNet的一個子集上進行評估,并觀察到我們的方法對不同程度的失真具有魯棒性。我們的方法優于端到端基線,即使在廣泛的前向運算符中只有一小部分標記數據。
由于數據有限甚至不均衡,半監督語義分割在某些類別上的性能往往較差,例如在cityscape數據集中顯示長尾標簽分布的尾類。現有的方法幾乎都忽視了這個問題,并對類別一視同仁。一些流行的方法,如一致性正則化或偽標簽,甚至可能會損害對表現不佳類別的學習,這些類別的預測或偽標簽可能太不準確,無法指導對未標記數據的學習。本文針對這一問題,提出了一種新的半監督語義分割框架——自適應均衡學習(adaptive equalization learning, AEL)。AEL自適應地平衡了訓練好的和表現不好的類別,在訓練期間用一個信心庫動態跟蹤類別的表現。信心庫被用作向表現不佳的類別傾斜訓練的指標,具體體現在三種策略中: 1) 自適應的Copy-Paste和CutMix數據增強方法,使表現不佳的類別有更多的機會被復制或刪除; 2) 自適應數據采樣方法,鼓勵對表現不佳類別的像素進行采樣; 3) 采用一種簡單而有效的加權方法來減輕偽標記帶來的訓練噪聲。在實驗上,在不同的數據劃分協議下,AEL在Cityscapes和Pascal VOC基準測試上的表現大大優于最先進的方法。
我們根據預測中包含的信息而不是訓練算法的輸出來推導有監督學習算法的信息理論泛化邊界。這些邊界改進了現有的信息理論界限,適用于更廣泛的算法,并解決了兩個關鍵的挑戰: (a)它們為確定性算法提供了有意義的結果;(b)它們明顯更容易估計。我們通過實驗證明,在深度學習的實際場景中,所提出的邊界與泛化差距密切相關。
Code://github.com/Shen-Lab/GraphCL Paper:
對于當前的圖神經網絡(GNNs)來說,圖結構數據的可泛化、可遷移和魯棒表示學習仍然是一個挑戰。與為圖像數據而開發的卷積神經網絡(CNNs)不同,自監督學習和預訓練很少用于GNNs。在這篇文章中,我們提出了一個圖對比學習(GraphCL)框架來學習圖數據的無監督表示。我們首先設計了四種類型的圖擴充來包含不同的先驗。然后,我們在四種不同的環境下系統地研究了圖擴充的各種組合對多個數據集的影響:半監督、無監督、遷移學習和對抗性攻擊。結果表明,與最先進的方法相比,即使不調優擴展范圍,也不使用復雜的GNN架構,我們的GraphCL框架也可以生成類似或更好的可泛化性、可遷移性和健壯性的圖表示。我們還研究了參數化圖增強的范圍和模式的影響,并在初步實驗中觀察了性能的進一步提高。
自監督學習由于能夠避免標注大規模數據集的成本而受到歡迎。它能夠采用自定義的偽標簽作為監督,并將學習到的表示用于幾個下游任務。具體來說,對比學習最近已成為計算機視覺、自然語言處理(NLP)等領域的自主監督學習方法的主要組成部分。它的目的是將同一個樣本的增廣版本嵌入到一起,同時試圖將不同樣本中的嵌入推開。這篇論文提供了一個廣泛的自我監督的方法綜述,遵循對比的方法。本研究解釋了在對比學習設置中常用的借口任務,以及到目前為止提出的不同架構。接下來,我們將對圖像分類、目標檢測和動作識別等多個下游任務的不同方法進行性能比較。最后,我們總結了目前方法的局限性和需要進一步的技術和未來方向取得實質性進展。
概述:
隨著深度學習技術的發展,它已成為目前大多數智能系統的核心組件之一。深度神經網絡(DNNs)能夠從現有的大量數據中學習豐富的模式,這使得它在大多數計算機視覺(CV)任務(如圖像分類、目標檢測、圖像分割、動作識別)以及自然語言處理(NLP)任務(如句子分類、語言模型、機器翻譯等)中成為一種引人注目的方法。然而,由于手工標注數百萬個數據樣本的工作量很大,從標記數據中學習特征的監督方法已經幾乎達到了飽和。這是因為大多數現代計算機視覺系統(受監督的)都試圖通過查找大型數據集中數據點及其各自注釋之間的模式來學習某種形式的圖像表示。像GRAD-CAM[1]這樣的工作提出了一種技術,可以為模型所做的決策提供可視化的解釋,從而使決策更加透明和可解釋。
傳統的監督學習方法很大程度上依賴于可用的帶注釋的訓練數據的數量。盡管有大量的可用數據,但缺乏注解促使研究人員尋找替代方法來利用它們。這就是自監督方法在推動深度學習的進程中發揮重要作用的地方,它不需要昂貴的標注,也不需要學習數據本身提供監督的特征表示。
監督學習不僅依賴昂貴的注釋,而且還會遇到泛化錯誤、虛假的相關性和對抗攻擊[2]等問題。最近,自監督學習方法集成了生成和對比方法,這些方法能夠利用未標記的數據來學習潛在的表示。一種流行的方法是提出各種各樣的代理任務,利用偽標簽來幫助學習特征。諸如圖像inpainting、灰度圖像著色、拼圖游戲、超分辨率、視頻幀預測、視聽對應等任務已被證明是學習良好表示的有效方法。
生成式模型在2014年引入生成對抗網絡(GANs)[3]后得到普及。這項工作后來成為許多成功架構的基礎,如CycleGAN[4]、StyleGAN[5]、PixelRNN[6]、Text2Image[7]、DiscoGAN [8]等。這些方法激發了更多的研究人員轉向使用無標簽數據在自監督的設置下訓練深度學習模型。盡管取得了成功,研究人員開始意識到基于GAN的方法的一些并發癥。它們很難訓練,主要有兩個原因: (a)不收斂——模型參數發散很多,很少收斂; (b)鑒別器太過成功,導致生成網絡無法產生類似真實的假信號,導致學習無法繼續。此外,生成器和判別器之間需要適當的同步,以防止判別器收斂和生成器發散。
本文通過新的概率建模方法,對對比學習的最新發展進行了有益的改進。我們推導了一種特殊形式的對比損失,稱為聯合對比學習(JCL)。JCL隱含地涉及到同時學習無限數量的查詢鍵對,這在搜索不變特征時帶來了更嚴格的約束。我們推導了這個公式的上界,它允許以端到端訓練的方式進行解析解。雖然JCL在許多計算機視覺應用程序中實際上是有效的,但我們也從理論上揭示了控制JCL行為的某些機制。我們證明,提出的公式具有一種內在的力量,強烈支持在每個實例特定類內的相似性,因此在搜索不同實例之間的區別特征時仍然具有優勢。我們在多個基準上評估這些建議,證明了對現有算法的相當大的改進。代碼可以通過以下網址公開獲得
圖神經網絡(GNNs)已被證明是有效的模型,用于對圖結構數據的不同預測任務。最近關于它們表達能力的工作集中在同構任務和可數特征空間。我們對這個理論框架進行了擴展,使其包含連續的特性——在真實世界的輸入域和gnn的隱藏層中定期出現——并演示了在此上下文中對多個聚合函數的需求。為此,我們提出了一種新的聚合器結構——主鄰域聚合(PNA),它將多個聚合器與度標器相結合,從而推廣了總和聚合器。最后,我們通過一個新的基準來比較不同模型捕獲和利用圖結構的能力,該基準包含了來自經典圖理論的多個任務,以及來自現實領域的現有基準,所有這些都證明了我們模型的強大。通過這項工作,我們希望引導一些GNN研究轉向新的聚合方法,我們認為這對于尋找強大和健壯的模型至關重要。
//www.zhuanzhi.ai/paper/bee47b0e291d163fae01c