人類能夠利用從以往經驗中提取的概念快速理解場景。這些概念是多種多樣的,包括全局場景描述符(如天氣或光照),以及局部場景描述符(如特定對象的顏色或大小)。到目前為止,概念的無監督發現主要集中在建模全局場景級或局部對象級的變化因素,而不是兩者。在這項工作中,我們提出了COMET,它發現并表示概念為獨立的能量函數,使我們能夠在一個統一的框架下表示全局概念和對象。COMET通過重新組合輸入圖像發現能量函數,我們發現該圖像捕獲獨立的因素,而不需要額外的監督。COMET中的示例生成是對底層能量函數的優化過程,使我們能夠生成具有排列和組合概念的圖像。最后,在COMET中發現的可視概念具有很好的通用性,使我們能夠在不同的圖像模式之間組合概念,以及在不同數據集上訓練的單獨COMET實例發現的其他概念。代碼和數據可在//energy-based-model.github.io/comet/。
無監督域自適應是一種將深度神經網絡泛化到新目標域的有效范式。然而,要達到完全監督的性能,仍有巨大的潛力有待挖掘。在本文中,我們提出了一種新的主動學習策略來輔助目標領域中的知識遷移,稱為主動領域自適應。我們從一個觀察開始,當訓練(源)和測試(目標)數據來自不同的分布時,基于能量的模型表現出自由能量偏差。受這一內在機制的啟發,我們從經驗上揭示了一個簡單而有效的基于能量的采樣策略,它比現有的需要特定架構或計算距離的方法更能幫助我們選擇最有價值的目標樣本。我們的算法,基于能量的主動域自適應(EADA),在每一輪的選擇中查詢集域特征和實例不確定性的目標數據組。同時,通過正則化項將目標數據壓縮的自由能對準源域,可以隱式地減小域間隙。通過大量的實驗,我們證明了EADA在眾所周知的具有挑戰性的基準測試中取得了重大改進,超越了最先進的方法,使其成為開放世界中一個有用的選項。代碼可以在//github.com/BIT-DA/EADA上找到。
基于激光雷達的傳感技術驅動著目前的自動駕駛汽車。盡管進展迅速,但目前的激光雷達傳感器在分辨率和成本方面仍落后于傳統彩色相機20年。對于自動駕駛來說,這意味著靠近傳感器的大物體很容易被看到,但遠處或小物體只包含一兩個測量。這是一個問題,尤其是當這些物體被證明是駕駛危險的時候。另一方面,這些相同的物體在機載RGB傳感器中清晰可見。在這項工作中,我們提出了無縫融合RGB傳感器到基于激光雷達的3D識別的方法。我們的方法采用一組二維檢測來生成密集的三維虛擬點,以增強稀疏的三維點云。這些虛擬點自然地集成到任何標準的基于激光雷達的3D探測器以及常規激光雷達測量。由此產生的多模態檢測器簡單而有效。在大規模nuScenes數據集上的實驗結果表明,我們的框架通過顯著的6.6 mAP改善了一個強大的中心點基線,并優于其他融合方法。代碼和更多可視化信息可以在//tianweiy.github.io/mvp/上找到
主動推理是一種關于感知和行動的統一理論,其基礎是大腦通過最小化自由能來維持世界的內部模型。從行為角度來看,主動推理代理可以被視為自我證明的存在,通過行動來實現他們的樂觀預測,即首選結果或目標。相反,強化學習需要人為設計的獎勵來實現任何期望的結果。盡管主動推理可以為控制提供一個更自然的自監督目標,但它的適用性受到限制,因為該方法在復雜環境下可擴展性不足。在這項工作中,我們提出了一個主動推理的對比目標,這大大減少了學習agent生成模型和規劃未來行動的計算負擔。在基于圖像的任務中,我們的方法比基于可能性的主動推理表現得明顯更好,同時計算成本更低,更容易訓練。我們將其與強化學習代理進行了比較,這些代理可以獲得人類設計的獎勵功能,表明我們的方法與它們的表現非常匹配。最后,我們還表明對比方法在環境干擾的情況下有顯著的更好的表現。
我們根據預測中包含的信息而不是訓練算法的輸出來推導有監督學習算法的信息理論泛化邊界。這些邊界改進了現有的信息理論界限,適用于更廣泛的算法,并解決了兩個關鍵的挑戰: (a)它們為確定性算法提供了有意義的結果;(b)它們明顯更容易估計。我們通過實驗證明,在深度學習的實際場景中,所提出的邊界與泛化差距密切相關。
Code://github.com/Shen-Lab/GraphCL Paper:
對于當前的圖神經網絡(GNNs)來說,圖結構數據的可泛化、可遷移和魯棒表示學習仍然是一個挑戰。與為圖像數據而開發的卷積神經網絡(CNNs)不同,自監督學習和預訓練很少用于GNNs。在這篇文章中,我們提出了一個圖對比學習(GraphCL)框架來學習圖數據的無監督表示。我們首先設計了四種類型的圖擴充來包含不同的先驗。然后,我們在四種不同的環境下系統地研究了圖擴充的各種組合對多個數據集的影響:半監督、無監督、遷移學習和對抗性攻擊。結果表明,與最先進的方法相比,即使不調優擴展范圍,也不使用復雜的GNN架構,我們的GraphCL框架也可以生成類似或更好的可泛化性、可遷移性和健壯性的圖表示。我們還研究了參數化圖增強的范圍和模式的影響,并在初步實驗中觀察了性能的進一步提高。
確定輸入是否在分布外(OOD)是在開放世界中安全部署機器學習模型的一個重要基石。然而,以往依賴softmax置信評分的方法對OOD數據存在過自信的后驗分布。我們提出了一個使用能量分數的OOD檢測的統一框架。我們表明,能量分數比使用softmax分數的傳統方法更好地區分分布內和分布外的樣本。與softmax信心分數不同,能量分數理論上與輸入的概率密度一致,不太容易受到過度自信問題的影響。在這個框架內,能量可以被靈活地用作任何預訓練的神經分類器的評分函數,也可以作為可訓練的代價函數來明確地塑造能量表面,用于OOD檢測。在CIFAR-10預訓練的WideResNet中,使用能量分數比softmax信心分數降低平均FPR (TPR 95%) 18.03%。在以能量為基礎的訓練中,我們的方法在一般的基準上比最先進的方法表現得更好。
本文通過新的概率建模方法,對對比學習的最新發展進行了有益的改進。我們推導了一種特殊形式的對比損失,稱為聯合對比學習(JCL)。JCL隱含地涉及到同時學習無限數量的查詢鍵對,這在搜索不變特征時帶來了更嚴格的約束。我們推導了這個公式的上界,它允許以端到端訓練的方式進行解析解。雖然JCL在許多計算機視覺應用程序中實際上是有效的,但我們也從理論上揭示了控制JCL行為的某些機制。我們證明,提出的公式具有一種內在的力量,強烈支持在每個實例特定類內的相似性,因此在搜索不同實例之間的區別特征時仍然具有優勢。我們在多個基準上評估這些建議,證明了對現有算法的相當大的改進。代碼可以通過以下網址公開獲得
為了從最能區分類的高維數據中學習內在的低維結構,我們提出了最大編碼率降低原理(MCR2),這是一種信息理論度量,可以最大限度地提高整個數據集和每個類的編碼率差。明確了它與交叉熵、信息瓶頸、信息增益、壓縮學習和對比學習等現有框架的關系,為學習多樣性和有判別性表示提供了理論保障。該編碼率可以從簡并類子空間分布的有限樣本中精確地計算出來,并且可以統一地學習有監督、自監督和無監督三種情況下的本征表示。特別地,單獨使用該原理學習的表示比使用交叉熵學習的表示在分類中標記錯誤時具有更強的魯棒性,并且可以在自學習不變特征聚類混合數據方面產生最先進的結果。