深度學習推動了應用的爆炸式增長,然而訓練深度神經網絡通常需要昂貴的人工注釋。在這篇論文中,我們探索了在訓練深度神經網絡時避免大量依賴人工注釋示例的替代方案。具體來說,要么采用自監督方法來自動糾正自由獲得的數據標簽,要么完全放棄使用人工標簽,而是利用音頻和視覺信息的自然共生來學習視頻中的對象表示。越來越多的數字數據通常會提供噪聲標簽,這些標簽可以用來監督學習過程。傳統的數據預處理包括在訓練識別模型之前糾正/清理數據,但這可能需要大量的人工工作。我們考慮自動更正注釋噪聲,從而避免了昂貴的手動注釋的需要。我們構建和擴展了最近的突破,使用一致性損失(consistency loss)和空間記憶映射(space memory map)來提供靈活的實例級注冊,從而實現更大的泛化。進一步探索了多模態感覺流,利用模態冗余,即模態之間的重疊信息,為模型提供自監督。表示是通過利用不同的模式來學習的,而不使用任何人類注釋的標簽。我們將使用三個不同的應用程序演示此技術。
首先,我們自動管理一個大型音頻數據集VGG-Sound,使用視覺引導收集了超過200k的視頻,并在此基礎上進行訓練,生成最先進的音頻識別模型。其次,我們提出了一種改進和擴展最近聲源定位技術的方法,通過引入一種機制來挖掘硬樣本并自動將其添加到對比學習公式中。最后,與在一個特定領域執行的現有視聽同步任務不同,我們建議通過探索使用幾種基于transformer的體系結構來解決開放世界設置中的同步問題。通過這些模型,我們在具有挑戰性的語音數據集中獲得了最先進的結果,并在一般聲音數據集中顯示了出色的泛化效果。
是一所英國研究型大學,也是羅素大學集團、英國“G5超級精英大學”,歐洲頂尖大學科英布拉集團、歐洲研究型大學聯盟的核心成員。牛津大學培養了眾多社會名人,包括了27位英國首相、60位諾貝爾獎得主以及數十位世界各國的皇室成員和政治領袖。2016年9月,泰晤士高等教育發布了2016-2017年度世界大學排名,其中牛津大學排名第一。
深度學習在多個領域都取得了突破性進展,從圖像、語言和視頻理解等核心機器學習任務,到醫療、自動駕駛和農業等現實行業。它的成功是通過為神經網絡提供人工監督,從大型標記數據集(如ImageNet)自動學習分層數據表示。然而,獲取大規模的標簽數據通常是一個非常耗時和昂貴的過程。為應對這一挑戰,本文挑戰多模態視頻數據的自監督極限。視頻數據通常包含多種形式,如圖像、音頻、轉錄語音和可免費獲得的文本標題。這些模態通常共享冗余語義信息,因此可以作為偽標簽來監督彼此進行表示學習,而不需要使用人工標簽。在不依賴標簽數據的情況下,我們能夠在從互聯網收集的數百萬個視頻剪輯的非常大規模的視頻數據上訓練這些深度表示。通過在各種領域建立新的最先進的性能,展示了多模態自監督的可擴展性好處:視頻動作識別、文本到視頻檢索、文本到圖像檢索和音頻分類。我們還引入了數據轉換、模型架構和損失函數方面的其他技術創新,以使用多模態自監督進一步改進對這些深度視頻表示的學習。本文的第二個貢獻是改進深度表示的可解釋性的新工具,因為要破譯這些深度表示中編碼的關鍵特征是非常困難的。對于圖像,我們展示了如何使用攝動分析來分析網絡的中間表示。對于視頻,我們提出了一種新的聚類方法,使用Sinkhorn-Knopp算法將深度視頻表示映射到人類可解釋的語義偽標簽。本論文的研究成果為進一步提高深度視頻表示學習的可擴展性和可解釋性做出了貢獻。
//ora.ox.ac.uk/objects/uuid:3a0721a0-025e-423c-b441-2d7af5d960da
深度學習的出現為許多基本的計算機視覺任務帶來了巨大的進展,如分類、檢測和分割,這些任務描述了圖像和視頻中物體的類別和位置。在監督學習方面也做了很多工作--教機器使用人類注釋的標簽來解決這些任務。然而,機器只知道某些物體的名稱和位置是不夠的;許多任務需要對復雜的物理世界有更深入的了解--例如,物體與周圍環境的互動(通常通過創造陰影、反射、表面變形和其他視覺效果)。此外,在嚴重依賴人類監督的情況下,訓練模型來解決這些任務,成本很高,而且不切實際,難以推廣。因此,本論文探索了兩個方向:首先,我們的目標是超越分割,解決一個全新的任務:將物體與其相關的視覺效果(如陰影、反射或附著的物體)分組;其次,我們以自我監督的方式解決視頻物體分割的基本任務,而不依賴任何人類注釋。
//ora.ox.ac.uk/objects/uuid:6c722b16-1a13-4ae1-aebb-fb7026820a64
為了將物體與其相關的視覺效果自動分組,我們采用了一種分層的方法:我們的目標是將視頻分解成特定的物體層,其中包含所有與物體一起移動的元素。這些層的一個應用是,它們可以以新的方式重新組合,以產生一個高度真實的、經過改變的原始視頻版本(例如,刪除或復制物體,或改變其運動的時間)。這里的關鍵是利用卷積神經網絡的自然屬性來獲得輸入視頻的分層分解。我們設計了一個神經網絡,通過對視頻的過度擬合,為視頻輸出層。我們首先介紹了一種針對人類的方法,然后展示了如何將其適應于任意的物體類別,如動物或汽車。我們的第二個任務是視頻物體分割:為視頻中的物體產生像素級的標簽(段)。我們以前的工作是在單個視頻上進行優化,而在這里,我們采取了一種數據驅動的方法,以自我監督的方式對大量的視頻語料庫進行訓練。我們考慮了兩種不同的任務設置:(1)半監督物體分割,即為單一幀提供初始物體掩碼,該方法必須將該掩碼傳播到其余幀;(2)移動物體發現,即不提供掩碼,該方法必須分割突出的移動物體。我們探討了兩種不同的輸入流。RGB和光流,并討論它們與人類視覺系統的聯系。
本文探討了計算機如何使用自監督學習在沒有強監督的情況下學習視覺對象的結構。我們演示了我們可以使用一個以重構為關鍵學習信號的自動編碼框架來學習對象的結構表示。我們通過工程瓶頸將對象結構從其他變化因素中分離出來來做到這一點。此外,設計了以2D和3D物體地標或3D網格形式表示物體結構的瓶頸。具體來說,我們開發了一種自動發現2D對象地標的方法,無需任何注釋,該方法使用帶有2D關鍵點瓶頸的條件自動編碼器,將表示為2D關鍵點的姿勢和外觀分離開來。**盡管自監督學習方法能夠學習穩定的物體地標,但自動發現的地標與人類標注者標注的地標不一致。為解決這個問題,本文提出一種方法,通過引入一種新的地標自編碼,將未配對的經驗先驗注入到條件自編碼器中,可以利用對抗性學習中使用的強大圖像鑒別器。**這些條件自動編碼方法的一個副產品是,可以通過操縱瓶頸中的關鍵點來交互控制生成。我們利用這一特點在一個新的方法進行交互式3D形狀變形。該方法以自監督的方式訓練,使用自動發現的3D地標來對齊對3D形狀。在測試時間內,該方法允許用戶通過發現的三維物體標志進行物體形狀的交互變形。最后,我們提出了一種利用光幾何自編碼器恢復物體類別三維形狀的方法,而不需要任何三維注釋。它使用視頻進行訓練,并學會將輸入的圖像分解為剛性的姿勢、紋理和可變形的形狀模型。
如何對不同設置下的序列數據建模是一個跨許多領域的重要機器學習問題,包括對時間序列數據、自然語言文本和事件流的預測。不同字段中的順序數據通常具有不同的特征。例如,自然語言文本可以被視為一個離散變量的序列,而傳感器網絡信號可以被視為一個連續向量空間中的多變量序列。為了在各種各樣的現實世界領域中開發成功的神經網絡模型,我們需要根據數據和問題的性質定制架構和算法。本文設計了新穎高效的神經網絡解決方案,用于序列建模和應用。具體來說,這些貢獻可以分為四部分。
第一部分重點研究了多變量序列數據中變量之間的相關性,如多傳感器的時間序列,并提出了新的算法,即深度可分圖卷積網絡(DSGC)(第二章)[60]和分解遞歸神經網絡(FRNN)(第三章)[63],以利用相關模式,提高預測精度。
第二部分側重于將人類先驗知識用于時序數據依賴模式的時間建模。具體地說,我們提出了一種新的方法,命名為長期和短期時間序列網絡(LSTNet)(第4章)[59],它被證明是特別有效的捕獲各種周期模式在不同的應用。
第三部分著重于序列分類任務中Transformers 的高效算法。具體來說,通過識別常用的Transformer架構中的計算冗余,并提出一種新的替代方案,即漏斗Transformers (第5章)[27],我們實現了更好的計算與精度之間的權衡。
第四部分側重于事件之間時間關系的建模/預測,其中的主要挑戰是從稀疏標記的數據中有效學習。我們通過結合高級數據增強、半監督學習和人類先驗知識的引入來應對這一挑戰(第6章)。因此,我們大大提高了這項任務的最先進性能。
我們對世界的體驗是多模態的,然而深度學習網絡傳統上是為圖像、音頻片段或文本等單模態輸入而設計和訓練的。在這篇論文中,我們提出了策略來利用多模態信息(以視覺、文本、語音和非語音音頻的形式)來自動理解以人為中心的視頻。本文提出的關鍵思想是 (i)跨模態監督,(ii)自監督表示學習和(iii)模態融合。在跨模態監督中,來自監督豐富的模態的數據標簽被用于學習另一個缺乏監督的目標模態的表示,從而避免了在目標模態域中昂貴的手動注釋的需要。這有效地利用了模態之間的冗余或重疊信息。我們將展現該技術在三個不同任務中的效用; 首先,我們使用人臉識別和視覺主動說話人檢測來管理一個被稱為VoxCeleb的大規模人類語音視聽數據集,對其進行訓練,產生了最先進的說話人識別模型; 其次,我們訓練了一個基于文本的模型來預測僅從轉錄的語音中的動作標簽,并將這些標簽轉移到相應的視頻中。使用這些標簽進行的訓練使我們能夠在完全監督的動作識別模型上表現得更好,而這些模型是通過昂貴的人工監督進行訓練的; 第三,我們從為情感識別而訓練的人臉模型中提取信息到語音領域,而在語音領域,手動情感標注是昂貴的。本文探討的第二個關鍵思想是利用模態冗余進行自監督表示學習。在這里,我們學習了在沒有任何人工監督的情況下,在任何一種模式下的視聽表示,特別是對于人類的面孔和聲音。與現有的表示不同,我們的聯合表示支持從音頻到視覺的跨模態檢索,反之亦然。然后,我們將這項工作擴展到明確地消除習得偏見,從而實現更大的泛化。最后,我們通過開發新的模態融合架構,有效地結合不同模式下的互補信息。通過將視頻中的多個模態的信息提取到一個單一的、緊湊的視頻表示,我們實現了對可能丟失、損壞、閉塞或具有不同級別背景噪聲的單峰輸入的魯棒性。利用這些模型,我們在動作識別和視頻文本檢索方面都取得了最先進的結果。
//www.robots.ox.ac.uk/~vgg/publications/2020/Nagrani20e/nagrani20e.pdf
自監督學習由于能夠避免標注大規模數據集的成本而受到歡迎。它能夠采用自定義的偽標簽作為監督,并將學習到的表示用于幾個下游任務。具體來說,對比學習最近已成為計算機視覺、自然語言處理(NLP)等領域的自主監督學習方法的主要組成部分。它的目的是將同一個樣本的增廣版本嵌入到一起,同時試圖將不同樣本中的嵌入推開。這篇論文提供了一個廣泛的自我監督的方法綜述,遵循對比的方法。本研究解釋了在對比學習設置中常用的借口任務,以及到目前為止提出的不同架構。接下來,我們將對圖像分類、目標檢測和動作識別等多個下游任務的不同方法進行性能比較。最后,我們總結了目前方法的局限性和需要進一步的技術和未來方向取得實質性進展。
概述:
隨著深度學習技術的發展,它已成為目前大多數智能系統的核心組件之一。深度神經網絡(DNNs)能夠從現有的大量數據中學習豐富的模式,這使得它在大多數計算機視覺(CV)任務(如圖像分類、目標檢測、圖像分割、動作識別)以及自然語言處理(NLP)任務(如句子分類、語言模型、機器翻譯等)中成為一種引人注目的方法。然而,由于手工標注數百萬個數據樣本的工作量很大,從標記數據中學習特征的監督方法已經幾乎達到了飽和。這是因為大多數現代計算機視覺系統(受監督的)都試圖通過查找大型數據集中數據點及其各自注釋之間的模式來學習某種形式的圖像表示。像GRAD-CAM[1]這樣的工作提出了一種技術,可以為模型所做的決策提供可視化的解釋,從而使決策更加透明和可解釋。
傳統的監督學習方法很大程度上依賴于可用的帶注釋的訓練數據的數量。盡管有大量的可用數據,但缺乏注解促使研究人員尋找替代方法來利用它們。這就是自監督方法在推動深度學習的進程中發揮重要作用的地方,它不需要昂貴的標注,也不需要學習數據本身提供監督的特征表示。
監督學習不僅依賴昂貴的注釋,而且還會遇到泛化錯誤、虛假的相關性和對抗攻擊[2]等問題。最近,自監督學習方法集成了生成和對比方法,這些方法能夠利用未標記的數據來學習潛在的表示。一種流行的方法是提出各種各樣的代理任務,利用偽標簽來幫助學習特征。諸如圖像inpainting、灰度圖像著色、拼圖游戲、超分辨率、視頻幀預測、視聽對應等任務已被證明是學習良好表示的有效方法。
生成式模型在2014年引入生成對抗網絡(GANs)[3]后得到普及。這項工作后來成為許多成功架構的基礎,如CycleGAN[4]、StyleGAN[5]、PixelRNN[6]、Text2Image[7]、DiscoGAN [8]等。這些方法激發了更多的研究人員轉向使用無標簽數據在自監督的設置下訓練深度學習模型。盡管取得了成功,研究人員開始意識到基于GAN的方法的一些并發癥。它們很難訓練,主要有兩個原因: (a)不收斂——模型參數發散很多,很少收斂; (b)鑒別器太過成功,導致生成網絡無法產生類似真實的假信號,導致學習無法繼續。此外,生成器和判別器之間需要適當的同步,以防止判別器收斂和生成器發散。