【導讀】CVPR2020workshop的視覺與語言研究,邀請了業界學者講述了視覺語言之間的研究進展。來自微軟和facebook的Licheng Yu, Yen-Chun Chen, Linjie Li講述了自監督學習在視覺語言建模中的技術進展,共115頁ppt,不容錯過!
//rohit497.github.io/Recent-Advances-in-Vision-and-Language-Research/
視覺和語言(V+L)研究是計算機視覺和自然語言處理之間聯系的一個有趣的領域,并迅速吸引了這兩個領域的關注。各種各樣的V+L任務,以大規模的人類注釋數據集為基準,已經推動了聯合多模態表示學習的巨大進步。本教程將重點介紹該領域中最近流行的一些任務,如視覺描述、視覺基準、視覺問題回答和推理、文本到圖像的生成以及通用圖像-文本表示的自監督學習。我們將涵蓋這些領域的最新方法,并討論集中體現多模態理解、推理和生成的核心挑戰和機遇的關鍵原則。
【導讀】DeepMind開設了一系列深度學習課程。本次課講述了深度學習計算機視覺。
繼上一講之后,DeepMind研究科學家Viorica Patraucean介紹了圖像分類之外的經典計算機視覺任務(目標檢測、語義分割、光流估計),并描述了每種任務的最新模型以及標準基準。她討論了視頻處理任務的類似模型,如動作識別、跟蹤和相關挑戰。她特別提到了最近提高視頻處理效率的工作,包括使用強化學習的元素。接下來,她介紹了單模態和多模態(vision+audio, visio+language)自監督學習的各種設置,在這些設置中,大規模學習是有益的。最后,Viorica討論了視覺中的開放問題,以及計算機視覺研究在構建智能代理這一更廣泛目標中的作用。
【導讀】小樣本學習是一類重要的機器學習方法,旨在解決數據缺少的情況下如何訓練模型的問題。在CVPR2020的Tutorial,來自valeo.ai的學者給了Spyros Gidaris關于小樣本學習的最新教程報告。
在過去的幾年里,基于深度學習的方法在圖像理解問題上取得了令人印象深刻的效果,如圖像分類、目標檢測或語義分割。然而,真實字計算機視覺應用程序通常需要模型能夠(a)通過很少的注釋例子學習,(b)不斷適應新的數據而不忘記之前的知識。不幸的是,經典的監督深度學習方法在設計時并沒有考慮到這些需求。因此,計算機視覺的下一個重大挑戰是開發能夠解決這方面現有方法的重要缺陷的學習方法。本教程將介紹實現這一目標的可能方法。小樣本學習(FSL)利用先驗知識,可以快速地泛化到只包含少量有監督信息的樣本的新任務中。
//annotation-efficient-learning.github.io/
目錄內容:
借助現代的高容量模型,大數據已經推動了機器學習的許多領域的革命,但標準方法——從標簽中進行監督學習,或從獎勵功能中進行強化學習——已經成為瓶頸。即使數據非常豐富,獲得明確指定模型必須做什么的標簽或獎勵也常常是棘手的。收集簡單的類別標簽進行分類對于數百萬計的示例來說是不可能的,結構化輸出(場景解釋、交互、演示)要糟糕得多,尤其是當數據分布是非平穩的時候。
自監督學習是一個很有前途的替代方法,其中開發的代理任務允許模型和代理在沒有明確監督的情況下學習,這有助于對感興趣的任務的下游性能。自監督學習的主要好處之一是提高數據效率:用較少的標記數據或較少的環境步驟(在強化學習/機器人技術中)實現可比較或更好的性能。
自監督學習(self-supervised learning, SSL)領域正在迅速發展,這些方法的性能逐漸接近完全監督方法。
【導讀】Yann Lecun在紐約大學開設的2020春季《深度學習》課程,干貨滿滿。最新的一期是來自Facebook AI的研究科學家Ishan Misra講述了計算機視覺中的自監督學習最新進展,108頁ppt,很不錯報告。
在過去的十年中,許多不同的計算機視覺問題的主要成功方法之一是通過對ImageNet分類進行監督學習來學習視覺表示。并且,使用這些學習的表示,或學習的模型權值作為其他計算機視覺任務的初始化,在這些任務中可能沒有大量的標記數據。
但是,為ImageNet大小的數據集獲取注釋是非常耗時和昂貴的。例如:ImageNet標記1400萬張圖片需要大約22年的人類時間。
因此,社區開始尋找替代的標記過程,如社交媒體圖像的hashtags、GPS定位或自我監督方法,其中標簽是數據樣本本身的屬性。
什么是自監督學習?
定義自我監督學習的兩種方式:
基礎監督學習的定義,即網絡遵循監督學習,標簽以半自動化的方式獲得,不需要人工輸入。
預測問題,其中一部分數據是隱藏的,其余部分是可見的。因此,其目的要么是預測隱藏數據,要么是預測隱藏數據的某些性質。
自監督學習與監督學習和非監督學習的區別:
監督學習任務有預先定義的(通常是人為提供的)標簽,
無監督學習只有數據樣本,沒有任何監督、標記或正確的輸出。
自監督學習從給定數據樣本的共現形式或數據樣本本身的共現部分派生出其標簽。
自然語言處理中的自監督學習
Word2Vec
給定一個輸入句子,該任務涉及從該句子中預測一個缺失的單詞,為了構建文本前的任務,該任務特意省略了該單詞。
因此,這組標簽變成了詞匯表中所有可能的單詞,而正確的標簽是句子中省略的單詞。
因此,可以使用常規的基于梯度的方法對網絡進行訓練,以學習單詞級表示。
為什么自監督學習
自監督學習通過觀察數據的不同部分如何交互來實現數據的學習表示。從而減少了對大量帶注釋數據的需求。此外,可以利用可能與單個數據樣本相關聯的多個模式。
計算機視覺中的自我監督學習
通常,使用自監督學習的計算機視覺管道涉及執行兩個任務,一個前置任務和一個下游任務。
下游任務可以是任何類似分類或檢測任務的任務,但是沒有足夠的帶注釋的數據樣本。
Pre-text task是為學習視覺表象而解決的自監督學習任務,其目的是利用所學習的表象,或下游任務在過程中獲得的模型權值。
發展Pre-text任務
針對計算機視覺問題的文本前任務可以使用圖像、視頻或視頻和聲音來開發。
在每個pre-text任務中,都有部分可見和部分隱藏的數據,而任務則是預測隱藏的數據或隱藏數據的某些屬性。
下載鏈接: 鏈接: //pan.baidu.com/s/1gNK4DzqtAMXyrD1fBFGa-w 提取碼: ek7i
我們提出UniViLM:一個用于多模態理解和生成的統一視頻和語言預訓練模型。最近,基于BERT的NLP和圖像語言任務預訓練技術取得了成功,受此啟發,VideoBERT和CBT被提出將BERT模型用于視頻和語言預訓練,并使用敘事性教學視頻。不同于他們的工作只訓練理解任務,我們提出了一個統一的視頻語言理解和生成任務的預訓練模型。我們的模型由4個組件組成,包括兩個單模態編碼器、一個交叉編碼器和一個帶Transformer主干的譯碼器。我們首先對我們的模型進行預訓練,以學習視頻和語言在大型教學視頻數據集上的通用表示。然后,我們在兩個多模態任務上對模型進行微調,包括理解任務(基于文本的視頻檢索)和生成任務(多模態視頻字幕)。我們的大量實驗表明,我們的方法可以提高理解和生成任務的性能,并取得了最先進的結果。
【導讀】2020 年 2 月 7 日-2 月 12 日,AAAI 2020 于美國紐約舉辦。遷移學習近年來受到了非常大的關注,今年AAAI也有很多相關論文,這場Tutorial全面回顧可遷移表示學習方法的最新發展,重點介紹文本、多關系和多媒體數據的可遷移表示學習方法。除了介紹域內嵌入學習方法外,還討論各種半監督、弱監督、多視圖和自監督學習技術來連接多個域特定的嵌入表示,是一個非常全面的遷移表示學習總結,講者最后也介紹了其未來發展趨勢,值得研究者關注和收藏。
遷移表示學習最新進展
Recent Advances in Transferable Representation Learning
Tutorial 目標
本教程針對有興趣將深度學習技術應用于跨域決策任務的AI研究人員和從業人員。這些任務包括涉及多語言和跨語言自然語言處理,特定領域知識以及不同數據模式的任務。本教程將為聽眾提供以下方面的整體觀點:(i)針對未標記的文本,多關系和多媒體數據的多種表示學習方法;(ii)在有限的監督下跨多種表示對齊和遷移知識的技術;以及(iii)在自然語言理解,知識庫和計算生物學中使用這些技術的大量AI應用程序。我們將通過概述該領域未來的研究方向來結束本教程。觀眾不需要有特定的背景知識。
概述
許多人工智能任務需要跨域決策。例如,許多NLP任務涉及跨多種語言的預測,其中可以將不同的語言視為不同的域;在人工智能輔助的生物醫學研究中,藥物副作用的預測常常與蛋白質和有機體相互作用的建模并行進行。為了支持機器學習模型來解決這種跨域任務,必須提取不同域中數據組件的特征和關系,并在統一的表示方案中捕獲它們之間的關聯。為了滿足這一需求,表示學習的最新進展往往涉及到將不同域的未標記數據映射到共享嵌入空間。這樣,跨域的知識遷移可以通過向量搭配或變換來實現。這種可遷移的表現形式在涉及跨域決策的一系列人工智能應用中取得了成功。然而,這一領域的前沿研究面臨兩大挑戰。一是在學習資源很少的情況下如何有效地從特定領域中提取特性。另一個是在最少的監督下精確地對齊和傳遞知識,因為連接不同域的對齊信息常常是不充分和有噪聲的。
在本教程中,我們將全面回顧可遷移表示學習方法的最新發展,重點介紹文本、多關系和多媒體數據的可遷移表示學習方法。除了介紹域內嵌入學習方法外,我們還將討論各種半監督、弱監督、多視圖和自監督學習技術來連接多個域特定的嵌入表示。我們還將比較域內嵌入算法和跨域對齊算法的改進和聯合學習過程。此外,我們將討論如何利用獲得的可遷移表征來解決低資源和無標簽的學習任務。參會者將了解本主題的最新趨勢和挑戰,了解代表性工具和學習資源以獲取即用型模型,以及相關的模型和技術如何有益于現實世界AI應用程序。
講者介紹
Muhao Chen目前是美國賓夕法尼亞大學研究生院博士后。他于2019年在加州大學洛杉磯分校獲得了計算機科學博士學位。Muhao從事過機器學習和NLP方面的各種課題。他最近的研究也將相關技術應用于計算生物學。更多信息請訪問//muhaochen.github.io。
Kai-Wei Chang是加州大學洛杉磯分校計算機科學系的助理教授。他的研究興趣包括為大型復雜數據設計魯棒的機器學習方法,以及為社會公益應用程序構建語言處理模型。其他信息請訪問
Dan Roth是賓夕法尼亞大學CIS的Eduardo D. Glandt Distinguished Professor,也是AAAS、ACM、AAAI和ACL的Fellow。Roth因在自然語言理解建模、機器學習和推理方面的重大概念和理論進展而被認可。更多信息可以參考: /.
題目
自然語言處理中的遷移學習,41 頁PPT
關鍵字
自然語言處理,遷移學習
簡介
本教程,將系統地介紹在自然語言處理中,遷移學習的應用。
內容