人類通過多種渠道感知世界,如眼睛看到的圖像或耳朵聽到的聲音。盡管任何一個單獨的通道可能是不完整的或有噪聲的,但人類可以自然地將從多個通道收集的信息進行排列和融合,以便掌握更好地理解世界所需的關鍵概念。人工智能的核心愿望之一是開發算法,使計算機具有從多模態(或多通道)數據中有效學習的能力。這些數據類似于通過視覺和語言獲得的視覺和聲音,幫助人類理解周圍的世界。例如,計算機可以通過搜索最相似的圖像來進行文本查詢(反之亦然),并通過使用自然語言描述圖像的內容來模擬這種能力。
視覺與語言(VL),一個位于計算機視覺和自然語言處理(NLP)之間的熱門研究領域,旨在實現這一目標。視覺與語言預訓練(vision and language pre-training, VLP)受到語言模型預訓練在NLP中的巨大成功的啟發,近年來迅速引起了兩方面的關注。在本教程中,我們將涵蓋VLP前沿的最新方法和原則,包括(1) 基于區域特征和端到端圖像文本訓練前;(2) 統一的視覺語言建模;(3) 延伸到視頻語言預訓練; (4) 從語言監督中學習視覺模型;(5) 視覺合成。
//dvsml2022-tutorial.github.io/index.html/
IJCAI 大會將 7 月23日到29日在奧地利維也納舉辦。IJCAI 2022 共收到 4535 篇提交,最終接收率為 15%,對比去年 13.9% 的接收率有所提高。來自微軟研究院、香港城市大學和南洋理工等最新IJCAI2022《領域泛化》教程,介紹了領域泛化(DG)的最新進展,非常值得關注!
機器學習模型在很大程度上依賴于海量訓練數據的可用性。對于資源匱乏、標簽良好的數據難以獲取的場景,進行跨領域知識轉移非常重要,即從現有領域向目標領域進行知識轉移。針對這一問題,遷移學習和領域適應研究取得了很大進展。除了這些進步之外,學習能夠在任何新的看不見的環境中很好地推廣的模型也是非常重要的。這促使研究社區開發算法,以更好地利用現有的訓練領域,同時處理它們的分布轉移。
本教程致力于介紹領域泛化(DG)的最新進展。與假設目標域數據可用性的遷移學習和域適應不同,DG更進一步,不需要訪問目標數據。DG的目的是從一個或多個具有不同概率分布的訓練域學習一個廣義模型,并能很好地實現非分布泛化。潛在受眾將是機器學習研究人員和行業從業者,對遷移學習、領域適應和泛化特別感興趣。我們的教程旨在使這些技術在實際應用中更容易學習和使用。
//dgresearch.github.io/ 視頻: 代碼:
引言 Introduction and background * 相關研究 Related research areas * 領域泛化 Methodology of DG * 應用 Applications * 數據集 Datasets, benchmarks, and evaluations * 理論與未來挑戰,Theory and future challenges
領域泛化問題與領域自適應(Domain Adaptation, DA)最大的不同:領域自適應在訓練中,源域和目標域數據均能訪問(無監督領域自適應中則只有無標記的目標域數據);而在領域泛化問題中,我們只能訪問若干個用于訓練的源域數據,測試數據是不能訪問的。毫無疑問,領域泛化是比領域自適應更具有挑戰性和實用性的場景:畢竟我們都喜歡「一次訓練、到處應用」的足夠泛化的機器學習模型。
例如,在下圖中,領域自適應問題假定訓練集和測試集都可以在訓練過程中被訪問,而領域泛化問題中則只有訓練集。
圖1:PACS數據集中領域泛化示例。訓練集數據由簡筆畫、卡通畫、藝術畫作構成的圖片。領域泛化的目的是學習一個在未知目標域中表現良好的泛化模型。
領域泛化問題的示意圖如下所示,其形式化定義如下:
圖2:領域泛化示意圖
領域泛化不僅與領域自適應問題有相似之處,其與多任務學習、遷移學習、元學習、終身學習等,都有一些類似和差異之處。我們在下表中對它們的差異進行了總結。
表1:領域泛化與其它相關學習范式對比
領域泛化方法是我們的核心。我們將已有的領域泛化方法按照數據操作、表征學習、學習策略分為三大方面,如下圖所示。
圖3:領域泛化方法分類
其中:
在文章中,我們對每大類方法都進行了詳細地介紹與總結。
近年來,人們對計算機視覺中的具身人工智能研究越來越感興趣。在研究界已經舉辦了多個嵌入式AI研討會和挑戰,包括ICLR 2022年物理世界的廣義策略學習、IROS 2020年的OCRTOC:開放云機器人表組織挑戰、CVPR 2019年的棲息地:嵌入式agent挑戰和研討會,以及CVPR 2020年和2021年的嵌入式AI研討會。計算機視覺現在是具身人工智能研究的一個重要模塊,但我們仍然缺少一個基本的教程來指導研究人員,尤其是那些有視覺和機器學習背景的研究人員,開始在這個領域。
特別是,在物理模擬和渲染技術的最新進展的推動下,虛擬環境中的具身AI已經取得了許多令人印象深刻的進展。這些平臺使得許多視覺機器人問題的研究成為可能,而這些問題在現實世界中是無法進行大規模研究的。更快的速度、更容易的并行化、更簡單的數據收集和更低的成本的本質允許模擬中的嵌入式AI研究建立更大的社區,具有不同的研究人員背景、改進的代碼共享和標準基準。但是,虛擬環境也有其自身的問題,例如模擬參數和域間隙,在構建和使用它們時值得注意。
我們的教程旨在為計算機視覺研究人員提供入門指南,以研究環境中具身代理的視覺問題,以及突出使用這些環境時遇到的常見問題。本教程將側重于跨平臺共享的原則,并教授使用多個模擬環境的概念。
//ai-workshops.github.io/building-and-working-in-environments-for-embodied-ai-cvpr-2022/
ACL 是計算語言學和自然語言處理領域的頂級國際會議,由國際計算語言學協會組織,每年舉辦一次。一直以來,ACL 在 NLP 領域的學術影響力都位列第一,它也是 CCF-A 類推薦會議。今年的 ACL 大會已是第 60 屆,將于 5 月 22-5 月 27 在愛爾蘭都柏林舉辦。
ACL 2022論文獎項公布,伯克利摘得最佳論文,陳丹琦、楊笛一等華人團隊獲杰出論文
來自DeepMind等學者Aishwarya Agrawal, Damien Teney, Aida Nematzadeh做了關于《視覺語言預訓練:當前趨勢與未來》教程,值得關注!
本教程的目標是概述多模態預訓練問題的處理所需的要素,特別是視覺和語言。我們還將討論這一領域的一些開放性問題和有希望的未來方向。
在過去的幾年里,人們對建立多模態(視覺語言)模型越來越感興趣,這些模型是在較大但噪聲較大的數據集上進行預訓練的,其中兩種模態(如圖像和文本)松散地相互對應(如ViLBERT和CLIP)。給定一個任務(比如可視的問題回答),這些模型通常會針對特定于任務的監督數據集進行微調。除了更大的預訓練數據集,Transformer體系結構,特別是應用于兩種模態的自注意力,最近的預訓練模型在下游任務上的令人印象深刻的性能。
這種方法之所以有吸引力,有幾個原因: 首先,預訓練數據集通常是自動從Web上整理出來的,以微不足道的收集成本提供了巨大的數據集。第二,我們可以訓練大型模型一次,并在各種任務中重用它們。最后,這些預訓練方法的表現更好或與以前的特定任務模型持平。一個有趣的問題是,除了良好的任務表現,這些預訓練的模型是否學習了更好地捕捉兩種模態之間的一致性的表征。在本教程中,我們關注最近的視覺語言預訓練范例。我們的目標是首先提供圖像-語言數據集、基準和建模創新。接下來,我們討論用于視覺語言預訓練的不同模型家族,強調它們的優點和缺點。最后,我們討論了通過統計學習進行視覺語言預訓練的局限性,以及因果建模等替代方法的必要性。
目錄內容:
**1. 引言 Introduction: the goal of the tutorial (5 minutes) **
2. 視覺語言概覽 Vision-language landscape before the pretraining era (55 minutes)
**Motivation for vision-language research from both application and research point of views. **
**Popular vision-language tasks, datasets and benchmarks (e.g., image-retrieval, referring expressions, image captioning, visual question answering). **
Task specific modelling approaches and fundamental innovations before the pretraining era (e.g., CNN + LSTM based approaches, language guided image attention, multimodal pooling, compositional networks).
**3. 視覺語言預訓練 Vision-language pretraining (VLP) (60 minutes) **
**– Inspiration from pretraining successes in NLP (transformers, BERT, GPT). **
**– Different families of VLP models (all are transformer based models): * Models using task-specific heads for each downstream task (e.g., ViLBERT, LXMERT, UNITER, OSCAR, VinVL). **
*** Models treating all downstream tasks as language generation tasks, i.e. no task-specific head (e.g., VL-T5, VLBART, SimVLM). **
*** Models using VLP data for improving performance on vision tasks (e.g., CLIP, ALIGN). **
*** Models using VLP data for improving performance on language tasks, including multilingual data (e.g., Vokenization, M3P, VL-T5, SimVLM). **
– Different VLP datasets and how they affect the downstream task performance w.r.t their size, degree of noise, and similarity with downstream datasets.
4. Beyond statistical learning in vision-language
講者:
Aishwarya Agrawal (DeepMind, University of Montreal, Mila), Damien Teney (Idiap Research Institute), and Aida Nematzadeh (DeepMind)
本教程涵蓋了大規模的視覺定位任務,其目標是僅基于視覺信息對單個圖像進行定位。該教程包括不同粒度級別的定位方法,從簡單的命名位置識別和GPS估計到6D相機姿態的精確估計。教程的范圍涵蓋了不同的空間/地理擴展,例如小型室內/室外場景,城市級別,世界級別,以及變化條件下的本地化。
在粗定位機制中,任務通常通過檢索方法處理,這在本教程的第一部分中有所介紹。一個典型的用例如下:給定一個帶有地理標記的圖像數據庫,目標是確定新查詢圖像中描述的位置。傳統上,這個問題是通過將最相似的數據庫圖像的地理標記轉移到查詢圖像來解決的。本部分主要關注用于檢索的可視化表示模型,其中包括經典的基于特征的方法和最近的深度學習方法。本教程的第二部分和第三部分分別介紹了基于特征和深度學習的精確定位方法。這些算法的一個典型用例是估計(6自由度)構成完整的6自由度的查詢圖像,即圖像拍攝的位置和姿態,對于某些應用,如機器人、自動車輛自動駕駛汽車,增強/混合/虛擬現實,環路閉合檢測在大滿貫,和Structure-from-Motion。
本教程涵蓋了視覺定位的最新技術,有三個目標:1) 全面概述當前的最新技術。本課程面向剛開始學習或對該主題感興趣的一、二年級博士生和工業工程師。2) 讓專家教授更多有經驗的博士生和工程師,他們想要完善自己的視覺定位知識。3) 突出當前的公開挑戰。這概述了當前算法能做和不能做的事情。在本教程中,我們提供了有關所討論方法的公開源代碼的鏈接。我們還將強調用于實驗評估的數據集的不同屬性。
人工智能研究的長期目標是構建能夠看到我們周圍豐富視覺環境的智能體,用自然語言將這種理解傳達給人類和其他智能體,并在物理或具身環境中行動。為此,計算機視覺和自然語言處理的最新進展取得了巨大的進展——從生成圖像/視頻的自然語言描述,到回答有關圖像/視頻的問題,再到就視覺內容進行自由形式的對話。
最近,在計算機視覺、自然語言處理和機器人領域,具身人工智能(即訓練具身代理在自我中心感知中執行各種任務)吸引了大量的興趣。視覺語言導航(VLN)是由Anderson和Wu等人提出的嵌入式人工智能的一個基本主題。
在本教程中,我們將不僅涵蓋視覺和語言研究前沿的最新方法和原則,還將對VLN領域進行全面概述。
【導讀】小樣本學習是一類重要的機器學習方法,旨在解決數據缺少的情況下如何訓練模型的問題。在CVPR2020的Tutorial,來自valeo.ai的學者給了Spyros Gidaris關于小樣本學習的最新教程報告。
在過去的幾年里,基于深度學習的方法在圖像理解問題上取得了令人印象深刻的效果,如圖像分類、目標檢測或語義分割。然而,真實字計算機視覺應用程序通常需要模型能夠(a)通過很少的注釋例子學習,(b)不斷適應新的數據而不忘記之前的知識。不幸的是,經典的監督深度學習方法在設計時并沒有考慮到這些需求。因此,計算機視覺的下一個重大挑戰是開發能夠解決這方面現有方法的重要缺陷的學習方法。本教程將介紹實現這一目標的可能方法。小樣本學習(FSL)利用先驗知識,可以快速地泛化到只包含少量有監督信息的樣本的新任務中。
//annotation-efficient-learning.github.io/
目錄內容:
【導讀】CVPR2020workshop的視覺與語言研究,邀請了業界學者講述了視覺語言之間的研究進展。來自微軟和facebook的Licheng Yu, Yen-Chun Chen, Linjie Li講述了自監督學習在視覺語言建模中的技術進展,共115頁ppt,不容錯過!
//rohit497.github.io/Recent-Advances-in-Vision-and-Language-Research/
視覺和語言(V+L)研究是計算機視覺和自然語言處理之間聯系的一個有趣的領域,并迅速吸引了這兩個領域的關注。各種各樣的V+L任務,以大規模的人類注釋數據集為基準,已經推動了聯合多模態表示學習的巨大進步。本教程將重點介紹該領域中最近流行的一些任務,如視覺描述、視覺基準、視覺問題回答和推理、文本到圖像的生成以及通用圖像-文本表示的自監督學習。我們將涵蓋這些領域的最新方法,并討論集中體現多模態理解、推理和生成的核心挑戰和機遇的關鍵原則。
借助現代的高容量模型,大數據已經推動了機器學習的許多領域的革命,但標準方法——從標簽中進行監督學習,或從獎勵功能中進行強化學習——已經成為瓶頸。即使數據非常豐富,獲得明確指定模型必須做什么的標簽或獎勵也常常是棘手的。收集簡單的類別標簽進行分類對于數百萬計的示例來說是不可能的,結構化輸出(場景解釋、交互、演示)要糟糕得多,尤其是當數據分布是非平穩的時候。
自監督學習是一個很有前途的替代方法,其中開發的代理任務允許模型和代理在沒有明確監督的情況下學習,這有助于對感興趣的任務的下游性能。自監督學習的主要好處之一是提高數據效率:用較少的標記數據或較少的環境步驟(在強化學習/機器人技術中)實現可比較或更好的性能。
自監督學習(self-supervised learning, SSL)領域正在迅速發展,這些方法的性能逐漸接近完全監督方法。