【導讀】如何利用未標記數據進行機器學習是當下研究的熱點。最近自監督學習、對比學習等提出用于解決該問題。最近來自Google大腦團隊的Luong博士介紹了無標記數據學習的進展,半監督學習以及他們最近重要的兩個工作:無監督數據增強和自訓練學習,是非常好的前沿材料。
深度學習盡管取得了很大成功,但通常在小標簽訓練集中表現不佳。利用未標記數據改善深度學習一直是一個重要的研究方向,其中半監督學習是最有前途的方法之一。在本次演講中,Luong博士將介紹無監督數據增強(UDA),這是我們最近的半監督學習技術,適用于語言和視覺任務。使用UDA,我們僅使用一個或兩個數量級標記較少的數據即可獲得最先進的性能。
在本次演講中,Luong博士首先解釋了基本的監督機器學習。在機器學習中,計算機視覺的基本功能是利用圖像分類來識別和標記圖像數據。監督學習需要輸入和標簽才能與輸入相關聯。通過這樣做,您可以教AI識別圖像是什么,無論是對象,人類,動物等。Luong博士繼續進一步解釋神經網絡是什么,以及它們如何用于深度學習。這些網絡旨在模仿人類大腦的功能,并允許AI自己學習和解決問題。
無監督學習是機器學習的三個主要分支之一(以及監督學習和強化學習)。它也可以說是最不發達的分支。它的目標是通過發現和利用其隱藏結構來找到對輸入數據的簡約描述。據推測,與監督學習相比,這更讓人聯想到大腦的學習方式。此外,假設通過無監督學習發現的表示形式可以緩解深度監督和強化學習中的許多已知問題。但是,由于缺乏明確的ground-truth目標來優化,無監督學習的發展進展緩慢。在本次演講中,DeepMind研究科學家Irina Higgins和DeepMind研究工程師Mihaela Rosca概述了無監督表示學習的歷史作用以及開發和評估此類算法的困難。然后,他們將采取多學科的方法來思考什么可以做一個好的表示方法,以及為什么要這樣做,然后再對無監督的表示學習的當前最新方法進行廣泛的概述。
借助現代的高容量模型,大數據已經推動了機器學習的許多領域的革命,但標準方法——從標簽中進行監督學習,或從獎勵功能中進行強化學習——已經成為瓶頸。即使數據非常豐富,獲得明確指定模型必須做什么的標簽或獎勵也常常是棘手的。收集簡單的類別標簽進行分類對于數百萬計的示例來說是不可能的,結構化輸出(場景解釋、交互、演示)要糟糕得多,尤其是當數據分布是非平穩的時候。
自監督學習是一個很有前途的替代方法,其中開發的代理任務允許模型和代理在沒有明確監督的情況下學習,這有助于對感興趣的任務的下游性能。自監督學習的主要好處之一是提高數據效率:用較少的標記數據或較少的環境步驟(在強化學習/機器人技術中)實現可比較或更好的性能。
自監督學習(self-supervised learning, SSL)領域正在迅速發展,這些方法的性能逐漸接近完全監督方法。
交叉熵是圖像分類模型監督訓練中應用最廣泛的損失函數。在這篇論文中,我們提出了一種新的訓練方法,在不同架構和數據擴充的監督學習任務中,它的表現始終優于交叉熵。我們修改了批量對比損失,這是最近被證明在自監督學習強大表示是非常有效的。我們能夠比交叉熵更有效地利用標簽信息。在嵌入空間中,將同一類的點聚在一起,同時將不同類的樣本聚在一起。除此之外,我們還利用了關鍵的成分,如大批量和標準化嵌入,這些已經被證明有利于自監督學習。在ResNet-50和ResNet-200上,我們的交叉熵性能都超過了1%,在使用自動增廣數據增強的方法中,我們設置了78.8%的最新水平。這一損失也清楚地表明,在校準和準確性方面,對標準基準的自然損壞具有魯棒性。與交叉熵相比,我們的監督對比損失更穩定的超參數設置,如優化或數據擴充。
【導讀】Yann Lecun在紐約大學開設的2020春季《深度學習》課程,干貨滿滿。最新的一期是來自Facebook AI的研究科學家Ishan Misra講述了計算機視覺中的自監督學習最新進展,108頁ppt,很不錯報告。
在過去的十年中,許多不同的計算機視覺問題的主要成功方法之一是通過對ImageNet分類進行監督學習來學習視覺表示。并且,使用這些學習的表示,或學習的模型權值作為其他計算機視覺任務的初始化,在這些任務中可能沒有大量的標記數據。
但是,為ImageNet大小的數據集獲取注釋是非常耗時和昂貴的。例如:ImageNet標記1400萬張圖片需要大約22年的人類時間。
因此,社區開始尋找替代的標記過程,如社交媒體圖像的hashtags、GPS定位或自我監督方法,其中標簽是數據樣本本身的屬性。
什么是自監督學習?
定義自我監督學習的兩種方式:
基礎監督學習的定義,即網絡遵循監督學習,標簽以半自動化的方式獲得,不需要人工輸入。
預測問題,其中一部分數據是隱藏的,其余部分是可見的。因此,其目的要么是預測隱藏數據,要么是預測隱藏數據的某些性質。
自監督學習與監督學習和非監督學習的區別:
監督學習任務有預先定義的(通常是人為提供的)標簽,
無監督學習只有數據樣本,沒有任何監督、標記或正確的輸出。
自監督學習從給定數據樣本的共現形式或數據樣本本身的共現部分派生出其標簽。
自然語言處理中的自監督學習
Word2Vec
給定一個輸入句子,該任務涉及從該句子中預測一個缺失的單詞,為了構建文本前的任務,該任務特意省略了該單詞。
因此,這組標簽變成了詞匯表中所有可能的單詞,而正確的標簽是句子中省略的單詞。
因此,可以使用常規的基于梯度的方法對網絡進行訓練,以學習單詞級表示。
為什么自監督學習
自監督學習通過觀察數據的不同部分如何交互來實現數據的學習表示。從而減少了對大量帶注釋數據的需求。此外,可以利用可能與單個數據樣本相關聯的多個模式。
計算機視覺中的自我監督學習
通常,使用自監督學習的計算機視覺管道涉及執行兩個任務,一個前置任務和一個下游任務。
下游任務可以是任何類似分類或檢測任務的任務,但是沒有足夠的帶注釋的數據樣本。
Pre-text task是為學習視覺表象而解決的自監督學習任務,其目的是利用所學習的表象,或下游任務在過程中獲得的模型權值。
發展Pre-text任務
針對計算機視覺問題的文本前任務可以使用圖像、視頻或視頻和聲音來開發。
在每個pre-text任務中,都有部分可見和部分隱藏的數據,而任務則是預測隱藏的數據或隱藏數據的某些屬性。
下載鏈接: 鏈接: //pan.baidu.com/s/1gNK4DzqtAMXyrD1fBFGa-w 提取碼: ek7i
WSDM 2020全稱為第13屆國際互聯網搜索與數據挖掘會議(The 13thInternational Conference on Web Search and Data Mining, WSDM 2020),將于2020年2月3日-2月7日在美國休斯敦召開。賓夕法尼亞州立大學ZhenhuiLi, Huaxiu Yao, Fenglong Ma等做了關于小數據學習《Learning with Small Data》教程,124頁ppt涵蓋遷移學習與元學習等最新課題,是非常好的學習材料!
摘要:
在大數據時代,我們很容易收集到大量的圖像和文本數據。然而,在一些領域,例如醫療保健和城市計算,我們經常面對現實世界中只有少量(標記的)數據的問題。挑戰在于如何使機器學習算法在處理小數據時仍能很好地工作?為了解決這個挑戰,在本教程中,我們將介紹處理小數據問題的最新機器學習技術。我們特別關注以下三個方面:(1)全面回顧了近年來在探索知識遷移的力量方面取得的進展,特別是在元學習方面;(2)介紹了將人類/專家知識納入機器學習模型的前沿技術;(3)確定了開放的挑戰數據增強技術,如生成性對抗網絡。
百度網盤下載: 鏈接: //pan.baidu.com/s/1j-xvPMB4WwSdiMoDsaR8Sg 提取碼: 8v7y 目錄:
引言 Introduction
從模型進行遷移知識 Transfer knowledge from models
領域專家知識遷移 Transfer knowledge from domain expert
數據增廣 Data augmentation
地址:
講者介紹: Zhenhui Li 是賓夕法尼亞州立大學信息科學與技術終身副教授。在加入賓夕法尼亞州立大學之前,她于2012年在伊利諾伊大學香檳分校獲得了計算機科學博士學位,當時她是數據挖掘研究小組的成員。她的研究重點是挖掘時空數據,并將其應用于交通、生態、環境、社會科學和城市計算。她是一位充滿激情的跨學科研究人員,一直積極與跨領域研究人員合作。她曾擔任過許多會議的組織委員會或高級項目委員會,包括KDD、ICDM、SDM、CIKM和SIGSPATIAL。自2012年以來,她一直定期開設數據組織和數據挖掘課程。她的課程經常受到學生的好評。她獲得了NSF職業獎、研究院青年教師優秀獎和喬治J.麥克默里教學院青年教師優秀獎。
題目: Compositionality In Machine Learning
摘要:
現實世界是固有的結構,如句子是由詞語組成的,圖像是由物體組成的,物體本身是由部分組成的。人們如何度量這些,過程是合成的,而不是輸出的。本次教程主要講述了機器學習中的組合性,解釋了機器學習中組合模型的歷史以及原理,還講述了為什么我們要期望普通的模型是組成型學習者?
作者:
Angeliki Lazaridou是DeepMind的高級研究科學家,在此之前是Marco Baroni的研究生,在意大利特倫托大學(map)心智/腦科學中心CLIC實驗室從事基礎語言學習。在薩爾大學(University of Saarland)獲得了計算語言學理學碩士學位,研究情感分析,并獲得了伊拉斯謨?蒙德斯(Erasmus Mundus)語言與通信技術碩士獎學金(EM-LCT)的支持。研究興趣是緊急通信,計算語言學,自然語言處理,人工智能。