題目: Deep Isometric Learning for Visual Recognition
簡介: 初始化,正則化和skip連接被認為是訓練非常深的卷積神經網絡并獲得最新性能的三種必不可少的技術。 本文表明,無需規范化或skip連接的深層卷積網絡也可以訓練出在標準圖像識別基準上獲得令人驚訝的良好性能。 這是通過在初始化和訓練過程中強制卷積內核接近等距來實現的,還可以通過使用ReLU的變體來實現等距變遷。 進一步的實驗表明,如果與skip連接結合使用,則即使完全不進行正則化,此類近等距網絡也可以達到ResNet在ImageNet與COCO數據集上相同的性能。
針對自監督學習的深度聚類是無監督視覺表示學習中一個非常重要和有前途的方向,因為設計前置任務需要較少的領域知識。而關鍵組件嵌入聚類由于需要保存整個數據集的全局潛在嵌入,限制了其擴展到超大規模的數據集。在這項工作中,我們的目標是使這個框架在不降低性能的情況下更加簡單和優雅。提出了一種不使用嵌入聚類的無監督圖像分類框架,與標準的監督訓練方法非常相似。為了進一步解釋,我們進一步分析了其與深度聚類和對比學習的關系。在ImageNet數據集上進行了大量的實驗,驗證了該方法的有效性。此外,在遷移學習基準上的實驗驗證了它對其他下游任務的推廣,包括多標簽圖像分類、目標檢測、語義分割和小樣本圖像分類。
地址:
題目:
Con?dence-Aware Learning for Deep Neural Networks
簡介:
盡管深度神經網絡可以執行多種任務,但過分一致的預測問題限制了它們在許多安全關鍵型應用中的實際應用。已經提出了許多新的工作來減輕這個問題,但是大多數工作需要在訓練和/或推理階段增加計算成本,或者需要定制的體系結構來分別輸出置信估計。在本文中,我們提出了一種使用新的損失函數訓練深度神經網絡的方法,稱為正確排名損失,該方法將類別概率顯式規范化,以便根據依據的有序等級更好地進行置信估計。所提出的方法易于實現,并且無需進行任何修改即可應用于現有體系結構。而且,它的訓練計算成本幾乎與傳統的深度分類器相同,并且通過一次推斷就可以輸出可靠的預測。在分類基準數據集上的大量實驗結果表明,所提出的方法有助于網絡產生排列良好的置信度估計。我們還證明,它對于與置信估計,分布外檢測和主動學習密切相關的任務十分有效。
自監督式VO方法在視頻中聯合估計攝像機姿態和深度方面取得了很大的成功。然而,與大多數數據驅動的方法一樣,現有的VO網絡在面對與訓練數據不同的場景時,性能顯著下降,不適合實際應用。在本文中,我們提出了一種在線元學習算法,使VO網絡能夠以一種自監督的方式不斷適應新的環境。該方法利用卷積長短時記憶(convLSTM)來聚合過去的豐富時空信息。網絡能夠記憶和學習過去的經驗,以便更好地估計和快速適應當前幀。在開放環境中運行VO時,為了應對環境的變化,我們提出了一種在線的特征對齊方法,即在不同的時刻對特征分布進行對齊。我們的VO網絡能夠無縫地適應不同的環境。在看不見的戶外場景、虛擬到真實世界和戶外到室內環境的大量實驗表明,我們的方法始終比最先進的自監督的VO基線性能更好。
圖卷積運算符將深度學習的優勢引入到各種以前認為無法實現的圖和網格處理任務中。隨著他們的不斷成功,人們希望設計更強大的架構,通常是通過將現有的深度學習技術應用于非歐幾里德數據。在這篇論文中,我們認為在新興的幾何深度學習領域,幾何應該保持創新的主要驅動力。我們將圖神經網絡與廣泛成功的計算機圖形學和數據近似模型:徑向基函數(RBFs)聯系起來。我們推測,與RBFs一樣,圖卷積層將受益于將簡單函數添加到強大的卷積內核中。我們引入了仿射跳躍連接,這是一種將全連通層與任意圖卷積算子相結合而形成的新型構造塊。通過實驗驗證了該方法的有效性,表明改進的性能不僅僅是參數數目增加的結果。在我們評估的每一項任務中,配備了仿射跳躍連接的操作人員都顯著地優于他們的基本性能。形狀重建,密集形狀對應,和圖形分類。我們希望我們的簡單而有效的方法將作為一個堅實的基線,并有助于緩解未來在圖神經網絡的研究。
主題: A New Meta-Baseline for Few-Shot Learning
摘要: 近年來,元學習已經成為小樣本學習的流行框架,其目標是從少拍分類任務的集合中學習模型。雖然提出了越來越多的新穎元學習模型,但我們的研究發現了被忽視的簡單基準。我們通過在所有基類上預先訓練分類器,并在基于最近質心的少數鏡頭分類算法上進行元學習,提出了一種Meta-Baseline方法,該方法以較大的優勢勝過了最新的方法。為什么這個簡單的方法這么好?在元學習階段,我們觀察到在基礎類的未見任務上更好地推廣的模型在新型類任務上的性能可能會下降,這表明存在潛在的客觀差異。我們發現預訓練和從預訓練的分類器繼承良好的幾次快照分類法對于元基線都很重要,這可能有助于模型更好地利用具有更強可傳遞性的預訓練表示。此外,我們研究了何時需要在此元基線中進行元學習。我們的工作為該領域建立了一個新的基準,并為進一步了解元學習框架中的幾次學習現象提供了啟示。
人臉識別系統在實際應用中往往會遇到一些不可見的領域,由于其泛化能力較差而導致性能不佳。例如,一個訓練有素的webface數據模型不能處理監視場景中的ID和Spot任務。在本文中,我們的目標是學習一個不需要任何模型更新就可以直接處理新的未知域的廣義模型。為此,我們提出了一種新的基于元學習的人臉識別方法——元人臉識別(Meta face recognition, MFR)。MFR以元優化目標綜合源/目標域移位,這要求模型不僅要在綜合的源域上學習有效的表示,還要在綜合的目標域上學習有效的表示。具體來說,我們通過域級抽樣策略構建域移位批次,并通過優化多域分布得到合成源/目標域上的反向傳播梯度/元梯度。進一步結合梯度和元梯度對模型進行更新,提高了模型的泛化能力。此外,我們提出了兩種評估廣義人臉識別的基準。在我們的基準上進行的實驗驗證了我們的方法與幾個基線和其他技術水平的比較的普遍性。提出的基準將在//github.com/cleardusk/MFR上提供。
通過對異構任務的預訓練深度神經網絡(PR-DNNs)中編碼的知識之間的內在聯系,揭示了它們之間的互換性,從而使知識從一個任務轉移到另一個任務,從而減少后者的訓練工作量。本文提出了深度歸因圖(depa)來研究從PR-DNNs中學習到的知識的可轉移性。在DEPARA中,節點對應于輸入,并由與PR-DNN輸出相關的向量化屬性映射表示。邊緣表示輸入之間的相關性,并通過從PR-DNN中提取的特征的相似性來度量。兩種PR-DNNs的知識轉移能力是通過其對應基因間的相似性來衡量的。我們將DEPARA應用于轉移學習中兩個重要但尚未研究的問題:預先訓練的模型選擇和層選擇。大量的實驗證明了所提出的方法在解決這兩個問題上的有效性和優越性。復制本文結果的代碼、數據和模型可以在
元學習已被提出作為一個框架來解決具有挑戰性的小樣本學習設置。關鍵的思想是利用大量相似的小樣本任務,以學習如何使基學習者適應只有少數標記的樣本可用的新任務。由于深度神經網絡(DNNs)傾向于只使用少數樣本進行過度擬合,元學習通常使用淺層神經網絡(SNNs),因此限制了其有效性。本文提出了一種新的學習方法——元轉移學習(MTL)。具體來說,“meta”是指訓練多個任務,“transfer”是通過學習每個任務的DNN權值的縮放和變換函數來實現的。此外,我們還介紹了作為一種有效的MTL學習課程的困難任務元批處理方案。我們使用(5類,1次)和(5類,5次)識別任務,在兩個具有挑戰性的小樣本學習基準上進行實驗:miniImageNet和Fewshot-CIFAR100。通過與相關文獻的大量比較,驗證了本文提出的HT元批處理方案訓練的元轉移學習方法具有良好的學習效果。消融研究還表明,這兩種成分有助于快速收斂和高精度。
地址:
代碼:
題目: A Survey on Deep Geometry Learning: From a Representation Perspective
摘 要:
目前,研究人員已經在利用深度學習處理二維圖像方面取得了很大的成功。近年來,三維計算機視覺和幾何深度學習越來越受到人們的重視。針對不同的應用,提出了許多先進的三維造型技術。與二維圖像可以由像素的規則網格統一表示不同,三維圖形具有多種表示,如深度和多視圖圖像、基于體素的表示、基于點的表示、基于網格的表示、隱式的表面表示等。然而,不同應用程序的性能在很大程度上取決于所使用的表示,并且沒有一種惟一的表示可以適用于所有應用程序。因此,在本次調查中,我們從表象的角度回顧了三維幾何深度學習的最新發展,總結了不同表象在不同應用中的優缺點。我們也提出現有的數據集在這些表示和進一步討論未來的研究方向。
題目: Large Scale Learning of General Visual Representations for Transfer
摘要: 在訓練深層視覺神經網絡時,預訓練表示的傳遞提高了樣本效率,簡化了超參數整定。我們重新審視了在大監督數據集上進行預訓練和微調目標任務權重的范例。我們擴大了訓練前的規模,并創建了一個簡單的配方,我們稱之為大轉移(BiT)。通過組合一些精心挑選的組件,并使用簡單的啟發式進行傳輸,我們在20多個數據集上獲得了很強的性能。BiT在一系列出人意料的數據體系中表現良好——從10到100萬個標記示例。BiT在ILSVRC-2012上達到87.8%的top-1精度,在CIFAR-10上達到99.3%,在視覺任務適應基準(包括19個任務)上達到76.7%。在小型數據集上,ILSVRC-2012每類25個示例的BiT達到86.4%,CIFAR-10每類10個示例的BiT達到97.6%。我們對導致高傳輸性能的主要組件進行了詳細的分析。
作者簡介: Alexander Kolesnikov,谷歌儀器科學家。個人主頁:[//neutrons.ornl.gov/contacts/kolesnikovai]{}