國際計算機視覺與模式識別會議(CVPR)是由IEEE主辦的計算機視覺、模式識別及人工智能等領域最具影響力和最重要的國際頂級會議,是中國計算機學會(CCF)推薦的 A類國際會議,谷歌正式發布了2020年的學術指標(Scholar Metrics)榜單,在最新一期排名中,CVPR成為了AI 領域排名第一的大會。CVPR每年都吸引全球眾多頂尖科研工作者投稿,其錄用論文指引著計算機視覺和模式識別領域未來的研究方向。CVPR官網顯示,本次會議共收到有效投稿7015篇,最終錄用1663篇,錄用率為23.7%。本屆會議在6月19到25日舉行。
//interpretablevision.github.io
近年來,深度卷積神經網絡和遞歸神經網絡等復雜機器學習模型在物體/場景識別、圖像描述、視覺問答等計算機視覺應用領域取得了很大的進展。但它們通常被視為黑匣子。隨著模型在尋找更好的識別精度方面的深入,理解模型給出的預測以及原因變得更加困難。
本系列教程旨在介紹計算機視覺模型的可解釋性和可解釋性的主題。我們將回顧我們在計算機視覺中分析數據和模型的可視化、解釋(interpretation)和解釋方法方面所取得的最新進展。本教程的主要主題是通過闡明機器學習可解釋性的動機、典型方法、未來趨勢和潛在的工業應用,建立對機器學習可解釋性這一新興話題的共識。
目錄內容:
Lecture 1 by Wojciech Samek: XXAI: eXtending XAI towards Actionable Interpretability video, slide, bili
Lecture 2 by Cynthia Rudin: Interpretable Neural Networks for Computer Vision: Clinical Decisions that are Computer-Aided, not Automated video, slide
Lecture 3 by Ari Morcos: Towards Falsifiable Interpretability Research video, slide, bili
Lecture 4 by Bolei Zhou: Interpreting Deep Generative Models for Interactive AI Content Creation video, slide, bili
本教程將介紹自注意力機制在計算機視覺中的應用。Self-Attention在NLP中被廣泛采用,完全注意的Transformer模型已經在很大程度上取代了RNN,現在被用于最先進的語言理解模型,如GPT、BERT、XLNet、T5、Electra和Meena。因此,人們對研究自注意力是否能在計算機視覺中產生同樣巨大而深遠的影響產生了極大的興趣。然而,由于視覺任務與語言任務具有不同的性質,因此許多研究都致力于探索自注意力在視覺模型中的最佳應用方式。本教程將涵蓋視覺中自注意力的許多不同應用,以便讓用戶對這個子領域有一個廣泛而精確的理解。
細粒度視覺分析(FGVA)是計算機視覺和模式識別中一個長期存在的基本問題,它支撐著一系列真實世界的應用,如生物多樣性自動監測、氣候變化評估、智能零售、智能交通、在節約資源、促進經濟增長、提高社會運行效率等方面已取得了積極的社會經濟效果。FGVA任務的目標是分析從屬類別的視覺對象,例如鳥類的種類、汽車的模型、產品的庫存單位或體操的動作。由于其非常細粒度的特性,類間小而類內大變化使其成為一個具有挑戰性的問題。借助深度學習的蓬勃發展,近年來使用深度學習技術的FGVA取得了顯著進展。
本教程旨在促進研究基于細粒度可視化分析方法的研究人員之間的討論,并將尖端細粒度可視化技術部署到實際應用程序中。具體來說,我們將促進討論各種基于深度學習的細粒度視覺分析主題的最新進展、正在進行的發展和新應用,例如細粒度圖像檢索、細粒度圖像識別、長尾視覺識別、細粒度視頻理解等。
歸一化方法可以提高深度神經網絡(DNN)的訓練穩定性、優化效率和泛化能力,已成為目前最先進的DNN體系結構的基本組成部分。它們還成功地擴散到深度學習的各個領域,包括但不限于計算機視覺、自然語言處理和語音識別。然而,盡管歸一化技術發揮了豐富和越來越重要的作用,我們注意到沒有一個統一的視角來描述、比較和分析它們。此外,我們對這些方法成功的理論基礎仍然難以理解。
本教程涵蓋了標準化方法、分析和應用程序,并將解決以下問題: (1) DNN中不同規范化方法背后的主要動機是什么?我們如何提出一種分類法來理解各種方法之間的異同? (2) 如何縮小標準化技術的經驗成功與我們對它們的理論理解之間的差距? (3) 針對不同任務設計/裁剪標準化技術的最新進展是什么?它們背后的主要見解是什么?
能夠解釋機器學習模型的預測在醫療診斷或自主系統等關鍵應用中是很重要的。深度非線性ML模型的興起,在預測方面取得了巨大的進展。然而,我們不希望如此高的準確性以犧牲可解釋性為代價。結果,可解釋AI (XAI)領域出現了,并產生了一系列能夠解釋復雜和多樣化的ML模型的方法。
在本教程中,我們結構化地概述了在深度神經網絡(DNNs)的背景下為XAI提出的基本方法。特別地,我們提出了這些方法的動機,它們的優點/缺點和它們的理論基礎。我們還展示了如何擴展和應用它們,使它們在現實場景中發揮最大的作用。
本教程針對的是核心和應用的ML研究人員。核心機器學習研究人員可能會有興趣了解不同解釋方法之間的聯系,以及廣泛的開放問題集,特別是如何將XAI擴展到新的ML算法。應用ML研究人員可能會發現,理解標準驗證程序背后的強大假設是很有趣的,以及為什么可解釋性對進一步驗證他們的模型是有用的。他們可能還會發現新的工具來分析他們的數據并從中提取見解。參與者將受益于技術背景(計算機科學或工程)和基本的ML訓練。
目錄內容:
Part 1: Introduction to XAI (WS) 可解釋人工智能
Part 2: Methods for Explaining DNNs (GM) 可解釋深度神經網絡方法
Part 3: Implementation, Theory, Evaluation, Extensions (GM) 實現,理論、評價
Part 4: Applications (WS) 應用
主題: Exploring and Exploiting Interpretable Semantics in GANs
摘要: 諸如深度卷積神經網絡和遞歸神經網絡之類的復雜機器學習模型最近在諸如對象/場景識別,圖像字幕,視覺問題解答等廣泛的計算機視覺應用中取得了長足進步。但它們通常被視為黑匣子。隨著模型越來越深入地尋求更好的識別精度,變得越來越難以理解模型給出的預測及其原因。在此次課程中我們將回顧我們在可視化,解釋和解釋方法學方面的最新進展,以分析計算機視覺中的數據和模型。本教程的主要主題是通過闡明動機,典型方法,預期趨勢以及由此產生的可解釋性的潛在工業應用,來就新興的機器學習可解釋性主題達成共識。這是第一個lecture,由Bolei Zhou演講的Exploring and Exploiting Interpretable Semantics in GANs。
諸如深度卷積神經網絡和遞歸神經網絡之類的復雜機器學習模型最近在諸如對象/場景識別,圖像字幕,視覺問題解答等廣泛的計算機視覺應用中取得了長足進步。但它們通常被視為黑匣子。隨著模型越來越深入地尋求更好的識別精度,變得越來越難以理解模型給出的預測及其原因。
本教程的目的是讓計算機視覺社區廣泛參與計算機視覺模型的可解釋性和可解釋性的主題。我們將回顧最近的進展,我們取得了可視化,解釋和解釋方法,以分析數據和模型在計算機視覺。本教程的主要主題是通過闡明機器學習可解釋性的動機、典型方法、未來趨勢和由此產生的可解釋性的潛在工業應用,就機器學習可解釋性這一新興主題建立共識。
Deep Learning in Computer Vision: Methods, Interpretation, Causation, and Fairness Deep learning models have succeeded at a variety of human intelligence tasks and are already being used at commercial scale. These models largely rely on standard gradient descent optimization of function parameterized by , which maps an input to an output . The optimization procedure minimizes the loss (difference) between the model output and actual output . As an example, in the cancer detection setting, is an MRI image, and is the presence or absence of cancer. Three key ingredients hint at the reason behind deep learning’s power: (1) deep architectures that are adept at breaking down complex functions into a composition of simpler abstract parts; (2) standard gradient descent methods that can attain local minima on a nonconvex Loss function that are close enough to the global minima; and (3) learning algorithms that can be executed on parallel computing hardware (e.g., graphics processing units), thus making the optimization viable over hundreds of millions of observations . Computer vision tasks, where the input is a high-dimensional image or video, are particularly suited to deep learning application. Recent advances in deep architectures (i.e., inception modules, attention networks, adversarial networks and DeepRL) have opened up completely new applications that were previously unexplored. However, the breakneck progress to replace human tasks with deep learning comes with caveats. These deep models tend to evade interpretation, lack causal relationships between input and output , and may inadvertently mimic not just human actions but also human biases and stereotypes. In this tutorial, we provide an intuitive explanation of deep learning methods in computer vision as well as limitations in practice.