自監督學習(Self-Supervised learning, SSL)是近年來機器學習研究的熱點之一。在SSL中,學習模型捕獲輸入變量之間的依賴關系,其中一些可能被觀察到,記為X,而另一些不總是被觀察到,記為Y。SSL預訓練已經徹底改變了自然語言處理,并在語音和圖像識別方面取得了非常快的進展。SSL可以使機器通過觀察學習世界的預測模型,并學習感知世界的表示,從而減少標記樣本或獎勵試驗的數量,以學習下游任務。在基于能量的模型框架(EBM)中,X和Y都是輸入,模型輸出一個度量X和Y之間不兼容程度的標量能量。EBM是隱式函數,可以表示X和Y之間復雜和多模態的依賴關系。EBM架構主要分為兩類:聯合嵌入架構和潛在變量生成架構。訓練EBMs的方法主要有兩類: 對比方法和容量正則化方法。EBM的許多基礎數學借鑒自統計物理學,包括配分函數、自由能量和其變分逼近的概念。
? 圖像領域的深度生成技術 ? 基于神經網絡的深度學習技術 ? 變分自編碼器包括編碼器和解碼器 ? 對抗生成網絡包括生成器和判別器 ? 主流場景包括:虛擬圖像生成、風格遷移、圖像超分、虛擬視頻生成、音樂生成、文字生成圖像等。
近年來,人工智能領域,在開發人工智能系統方面取得了巨大進展,這些系統可以從大量精心標記的數據中學習。這種監督學習范式在訓練專門的模型方面性能極好,在它們訓練的任務上往往能夠獲得極高的性能表現。
但不幸的是,僅靠監督學習,人工智能領域難以走遠。
監督學習在構建更智能的通用模型上存在本質上的瓶頸,例如處理多任務問題,或者通過大量存在的無標簽數據學習新技能等。實際上,我們不可能對世界上一切事物都做標注;即使可以標注,但數量也可能并不足夠,例如低資源語言翻譯任務。
如果人工智能系統能夠在訓練數據集之外,對現實世界能夠有更深入、更細致的理解,顯然它們將更有用,最終也將使人工智能更接近人類層面的智能。
人類嬰兒學習世界運作,主要是通過觀察。我們會通過學習物體的持久性、重力等概念,從而形成關于世界上物體的廣義預測模型。在隨后的人生里,我們不斷觀察世界,然后對它進行作用,然而再觀察作用的效果等等,通過反復嘗試,從而建立假設,解釋我們的行動如何能夠改變我們的環境。
一種有效的假設是,人類和動物的生物智能,主要的成分是由關于世界的普遍知識或常識構成的,這種常識在生物智能中會被默認為自然而存在的背景。但對于人工智能來說,如何構建這種常識卻一直是一個開放的挑戰難題。在某種程度上,常識正是人工智能的暗物質。
常識可以幫助人們學習新技能,而無需為每項任務做大量的監督訓練。
例如,我們只需要給小孩子看幾張奶牛的圖畫,他們以后便可以輕松地識別出任何奶牛。相比之下,經過監督學習訓練的人工智能系統,則需要許多奶牛的標注圖像,即使這樣,訓練出的模型在一些特殊情況下,依然無法做出準確判斷。
人類通過 20 個小時的練習,便能夠學會駕駛汽車,但人類司機數千小時的數據卻無法訓練出一個很好的自動駕駛系統。
答案很簡單:人類借助了他們以前獲得的關于世界如何運作的背景知識。
我們如何讓機器也能這樣做呢?
我們認為,自我監督學習(self-supervised learning)是建立這種背景知識和近似人工智能系統中一種常識的最有前途的方法之一。
自我監督學習使人工智能系統能夠從數量級更大的數據中學習,這對于識別和理解世界更微妙、更不常見的表示模式很重要。
長期以來,自我監督學習在推進自然語言處理(NLP)領域取得了巨大成功,包括 Collobert-Weston 2008 model,Word2Vec,GloVE,fastText 以及最近的BERT,RoBERTa,XLM-R等。通過這些方法訓練的系統,會比以監督學習的方式訓練的系統,性能要高得多。
我們最新的研究項目 SEER 利用 SwAV 和其他方法,在10億張隨機的未標記圖像上預訓練了一個大型網絡,在各種視覺任務上獲得了最高的精度。這一進展表明,在復雜的現實環境中,自監督學習也可以在 CV 任務中有出色表現。
在接下來的這篇文章中,我們將講述,為什么自監督學習可能有助于解開智能暗物質,以及為什么它將是人工智能的下一個前沿。我們也將列出一些有前途的新方向,包括:在存在不確定性的情況下,基于能量的預測模型、聯合嵌入方法、人工智能系統中用于自監督學習和推理的隱變量體系結構等。
目錄內容: 人類和動物如何快速學習? 自監督學習 基于能量的模型 EBM Architectures for multimodal prediction Non-Contrastive EBM Training Architectural EBM Generative Regularized Latent-Variable Architectures Amortized Inference: Learning to predict the latent variable
來自MILA,Aaron Courville的《自監督表示學習綜述》, Introduction II - Overview of self-supervised representation learning?
深度學習在語音識別、計算機視覺等許多領域得到了廣泛的應用和突破。其中涉及的深度神經網絡結構和計算問題已經在機器學習中得到了很好的研究。但對于理解深度學習模型在網絡架構中的建模、逼近或泛化能力,缺乏理論基礎。在這里,我們對具有卷積結構的深度卷積神經網絡(CNNs)很感興趣。convolutional architecture使得deep CNNs和fully connected deep neural networks有本質的區別,而30年前發展起來的關于fully connected networks的經典理論并不適用。本講座介紹了深度神經網絡的數學理論與整流線性單元(ReLU)激活函數。特別是,我們首次證明了深度CNN的普遍性,即當神經網絡的深度足夠大時,深度CNN可以用來逼近任意的連續函數,達到任意的精度。我們還給出了顯式的逼近率,并表明對于一般函數,深度神經網絡的逼近能力至少與全連接多層神經網絡一樣好,對于徑向函數更好。我們的定量估計嚴格按照待計算的自由參數的數量給出,驗證了深度網絡神經網絡處理大數據的效率。
Lecun近年來一直大推自監督學習。在最新ICLR I2020會議上,Facebook人工智能總監、圖靈獎得主Yann Lecun給了自監督學習的報告《The Future is Self-Supervised 》,40頁ppt,介紹了深度學習面臨的挑戰,自監督學習,基于能量學習的模型,介紹最新自監督學習的進展與問題,是非常值得看的報告。
2020 年的 ICLR 會議原計劃于4 月 26 日至 4 月 30 日在埃塞俄比亞首都亞的斯亞貝巴舉行,這本是首次在非洲舉辦的頂級人工智能國際會議,但受到疫情影響,ICLR 2020 被迫取消線下會議改為線上虛擬會議。今年的 ICLR 論文接受情況如下:共計接收 679 片文章,其中:poster-paper 共 523 篇、Spotlight-paper(焦點論文)共 107 篇、演講 Talk 共 48 篇,另有被拒論文(reject-paper)共計 1907 篇,接受率為 26.48%。
首先解釋他的理解什么是深度學習,并簡單介紹了下監督學習及強化學習。LeCun 表示利用監督學習方法確實可以做一些有效的工作,不過會要求大量標記后的樣本及數據,當有足夠的數據時,監督式學習表現出的效果會非常好。而另一方面的強化學習,雖然在游戲中和模擬中的效果很好,如果要應用至現實生活中還需要大量的試驗否則后果會非常嚴重。并提出了他所認為的目前深度學習三大挑戰:
當標簽數據充足時,針對于感知的監督學習才會有不錯的效果
當實驗成本低廉的時候(如在模擬實驗中)強化學習才可以有較好的效果
以及在當下整個社區都在推進的三個問題:嘗試使用更少的標記樣本或者更少的實驗去訓練,嘗試學會推理并超越簡單的感知計算,嘗試規劃復雜的動作序列。
而對于 LeCun 最傾向的自監督學習,他則表示自監督學習相當于在填補空白,就目前來說自監督學習在自然語言處理領域表現的非常不錯,而在圖像識別及圖像理解方面表現的效果卻是一般。
最后,LeCun 表示自監督學習(SSL)才是未來發展的趨勢,它能在各種任務中學習到分層特征,以及現實生活中可使用的海量數據作為資源。但并不是盡善盡美,同時也面臨處理預測中不確定性的挑戰,比如之前的案例基于能量的模型。 沒有通用人工智能 AGI
【導讀】在最新AAAI2020的邀請嘉賓報告上,Facebook人工智能總監、圖靈獎得主Yann Lecun給了自監督學習的報告《Self-Supervised Learning 》,44頁ppt,介紹了深度學習面臨的挑戰,自監督學習的光明前景,基于能量學習的因變量模型,介紹最新自監督學習的進展與問題,是非常值得看的報告。
自監督學習 Self-Supervised Learning
計算機感知、語音識別和自然語言處理的最新進展幾乎都是建立在有監督的深度學習的基礎上的,在這種學習中,機器預測需要人類提供的標注。如今,DL系統已經成為搜索引擎和社交網絡內容過濾和檢索、醫學圖像分析、駕駛輔助以及許多科學領域的核心。但是,最好的機器學習方法仍然需要比人類和動物學習多得多的數據或與環境的交互。我們如何讓機器像動物和人類一樣,通過獨立于任務的觀察來學習關于世界如何運作的大量背景知識?一種有前途的方法是自監督學習(SSL),即機器從輸入的其他部分預測輸入的一部分。SSL已經在離散領域帶來了巨大的進步,例如語言理解。問題是如何在音頻、圖像和視頻等高維連續域中使用SSL。
報告主題: Energy-Based Self-Supervised Learning
報告摘要:
在監督或多任務學習中,將不會獲得像人類一樣可以泛化的智能。監督學習是有效的,但需要許多帶標簽的樣本,通過舉例而不是編程來訓練機器,當輸出錯誤時,調整機器的參數。在整個領域中可能需要在基于能量的學習方法上做更多的工作,能量函數在AI領域已經存在數十年了,無需創建大量帶有標簽的數據集,也不用花費數千個小時訓練模型,而只是獲取一些豐富的原始數據,讓機器變得足夠大,由此可以訓練機器預測,預測與現實之間的兼容性就是所謂的能級。能量越少越好,更兼容、更準確,因此神經網絡需要努力達到理想的低能量狀態。
嘉賓介紹:
Yann Lecun是一位法裔美國計算機科學家,主要研究領域為機器學習、計算機視覺、移動機器人和計算神經科學。他是紐約大學Courant數學科學研究所的銀牌教授,也是Facebook的副總裁兼首席人工智能科學家。他以研究卷積神經網絡(CNN)的光學字符識別和計算機視覺而聞名,是卷積網絡的創始人之一。他也是DjVu圖像壓縮技術的主要創建者之一(與Leon Bottou和Patrick Haffner一起)。他與Leon Bottou共同開發了Lush編程語言。他是2018年ACM A.M.的聯合獲獎者因為他在深度學習方面的工作獲得了圖靈獎。