目前的自然語言處理模型嚴重依賴有效的表示學習算法。對比學習就是這樣一種學習嵌入空間的技術,它使相似的數據樣本對具有相近的表示,而不同的樣本彼此相距遙遠。它可以用于監督或非監督設置,使用不同的損失函數來產生特定于任務的或通用的表示。雖然它最初使視覺任務的成功成為可能,但近年來,關于對比NLP的工作越來越多。這一第一行的工作不僅在各種NLP任務中提供了有前景的性能改進,而且還提供了所需的特性,如任務不可知的句子表示、忠實的文本生成、零樣本和少樣本設置下的數據高效學習和可解釋性。
在本教程中,我們將溫柔地介紹對比學習方法的基本原理及其背后的理論。然后,我們調研了對比學習對各種下游NLP應用的好處和最佳實踐,包括文本分類、問題回答、摘要、文本生成、可解釋性和可解釋性、常識知識和推理、視覺和語言。
本教程旨在幫助自然語言處理和計算語言學領域的研究人員理解這一新興主題,并推動將對比學習用于自然語言處理應用的未來研究方向。
//contrastive-nlp-tutorial.github.io/
對比學習基礎 Part 1: Foundations of Contrastive Learning Contrastive Learning Objectives Contrastive Data Sampling and Augmentation Strategies Successful Applications Analysis of Contrastive Learning NLP對比學習 Part 2: Contrastive Learning for NLP Contrastive Learning in NLP Tasks Task-agnostics Representation Faithful Text Generation Data-efficient Learning Interpretability and Explainability
經驗教訓與未來 Part 3: Lessons Learned, Practical Advice, and Future Directions Lessons Learned Practical Advice Future Directions
講者:
【導讀】NeurIPS,全稱神經信息處理系統大會(Conference and Workshop on Neural Information Processing Systems),作為關于機器學習和計算神經科學的國際會議,每年固定在12月舉行,由NIPS基金會主辦。NeurIPS是機器學習領域的頂級會議 ,是神經計算方面最好的會議之一 。在中國計算機學會的國際學術會議排名中,NeurIPS為人工智能領域的A類會議。NeurIPS 2021于12月6日-12月14日在加拿大蒙特利爾采用線上線下結合的方式舉辦。
來自OpenAI的研究人員Lilian Weng和Jong Wook Kim對自監督學習做了最新的報告,非常值得關注。
Lilian Weng現為OpenAI應用人工智能研究負責人,主要從事機器學習、深度學習和網絡科學研究 。她本科畢業于香港大學,碩士就讀于北京大學信息系統與計算機科學系,之后前往印度安納大學布魯頓分校攻讀博士。
Lilian Weng經常在個人博客分享學習和工作筆記,感興趣的可以戳這里: //lilianweng.github.io/lil-log/。
Jong Wook Kim,OpenAI研究技術人員,參與Jukebox和CLIP這樣的項目。研究興趣包括大規模多模態深度學習和音樂理解。
自監督學習:自預測與對比學習
自監督學習是一種很好的方法,可以從大量的未標記數據中提取訓練信號,并學習良好的表示,以方便下游的任務,在這些任務中收集特定于任務的標簽非常昂貴。本教程將著重介紹自監督學習的兩種主要方法:自預測和對比學習。自預測是指自監督的訓練任務,在這種訓練任務中,模型學會從剩余數據中預測一部分可用數據。對比學習是通過從數據集構造相似和不同的對,來學習一個相似數據樣本保持相近而不同數據樣本相距較遠的表示空間。本教程將涵蓋這兩個主題和跨各種應用程序的方法,包括視覺、語言、視頻、多模態和強化學習。
● 導論 Introduction: motivation, basic concepts, examples.
● 早期工作 Early work: look into connection with old methods.
● 方法 Methods
○ Self-prediction
○ Contrastive Learning
● 前置任務 Pretext tasks: a wide range of literature review.
● 技術 Techniques: improve training efficiency.
● 未來方向 Future directions
自監督深度學習(SSDL)方法是近年來在計算機視覺領域出現的一種很有前途的學習范式。該方法巧妙地使用密集的學習信號來構建監督學習問題,而不需要外部的人工注釋。除了視覺之外,它是一個通用框架,可以實現多種學習模式,包括深度強化學習和AlphaGo Zero的成功。在NLP中,SSDL在表示學習方面也取得了很好的效果,包括屏蔽語言模型,如BERT和XLNet。
在本教程中,我們簡要介紹了自監督深度學習的基礎,以及NLP中一些實際問題的公式和解決方案。我們描述了NLP的自監督深度學習的最新進展,特別關注于生成和語言模型。我們提供了一個研究領域的概述,分類不同類型的自監督學習模型,并討論利弊,旨在提供一些解釋和實踐的觀點,以解決現實世界的NLP問題的自監督學習的未來。
//aacl2020.org/program/tutorials/#t3-self-supervised-deep-learning-for-nlp
EMNLP(Conference on Empirical Methods in Natural Language Processing)是計算語言學和自然語言處理領域的頂級國際會議,由ACL旗下SIGDAT組織,每年舉辦一次,Google Scholar計算語言學刊物指標中排名第二,是CCF-B類推薦會議。今年EMNLP 2020將于2020年11月16日至20日以在線會議的形式舉辦。本篇為大家帶來EMNLP2020在線Tutorial《Interpreting Predictions of NLP Models》教程,系統性講解了自然語言處理模型可解釋性預測,不可錯過!
雖然神經NLP模型具有高度的表示學習能力和良好性能,但它們也會以違反直覺的方式系統性失敗,并且在決策過程中不透明。本教程將提供可解釋技術的背景知識,即可解釋NLP模型預測的方法。我們將首先將具體實例的解釋置于理解模型的其他方法的上下文中(例如,探測,數據集分析)。接下來,我們將全面研究具體例子的解釋,包括顯著性映射、輸入擾動(例如LIME、輸入減少)、對抗性攻擊和影響函數。除了這些描述之外,我們還將介紹為各種NLP任務創建和可視化解釋的源代碼。最后,我們將討論該領域的開放問題,如評價、擴展和改進解釋方法。
//github.com/Eric-Wallace/interpretability-tutorial-emnlp2020/
自監督學習由于能夠避免標注大規模數據集的成本而受到歡迎。它能夠采用自定義的偽標簽作為監督,并將學習到的表示用于幾個下游任務。具體來說,對比學習最近已成為計算機視覺、自然語言處理(NLP)等領域的自主監督學習方法的主要組成部分。它的目的是將同一個樣本的增廣版本嵌入到一起,同時試圖將不同樣本中的嵌入推開。這篇論文提供了一個廣泛的自我監督的方法綜述,遵循對比的方法。本研究解釋了在對比學習設置中常用的借口任務,以及到目前為止提出的不同架構。接下來,我們將對圖像分類、目標檢測和動作識別等多個下游任務的不同方法進行性能比較。最后,我們總結了目前方法的局限性和需要進一步的技術和未來方向取得實質性進展。
概述:
隨著深度學習技術的發展,它已成為目前大多數智能系統的核心組件之一。深度神經網絡(DNNs)能夠從現有的大量數據中學習豐富的模式,這使得它在大多數計算機視覺(CV)任務(如圖像分類、目標檢測、圖像分割、動作識別)以及自然語言處理(NLP)任務(如句子分類、語言模型、機器翻譯等)中成為一種引人注目的方法。然而,由于手工標注數百萬個數據樣本的工作量很大,從標記數據中學習特征的監督方法已經幾乎達到了飽和。這是因為大多數現代計算機視覺系統(受監督的)都試圖通過查找大型數據集中數據點及其各自注釋之間的模式來學習某種形式的圖像表示。像GRAD-CAM[1]這樣的工作提出了一種技術,可以為模型所做的決策提供可視化的解釋,從而使決策更加透明和可解釋。
傳統的監督學習方法很大程度上依賴于可用的帶注釋的訓練數據的數量。盡管有大量的可用數據,但缺乏注解促使研究人員尋找替代方法來利用它們。這就是自監督方法在推動深度學習的進程中發揮重要作用的地方,它不需要昂貴的標注,也不需要學習數據本身提供監督的特征表示。
監督學習不僅依賴昂貴的注釋,而且還會遇到泛化錯誤、虛假的相關性和對抗攻擊[2]等問題。最近,自監督學習方法集成了生成和對比方法,這些方法能夠利用未標記的數據來學習潛在的表示。一種流行的方法是提出各種各樣的代理任務,利用偽標簽來幫助學習特征。諸如圖像inpainting、灰度圖像著色、拼圖游戲、超分辨率、視頻幀預測、視聽對應等任務已被證明是學習良好表示的有效方法。
生成式模型在2014年引入生成對抗網絡(GANs)[3]后得到普及。這項工作后來成為許多成功架構的基礎,如CycleGAN[4]、StyleGAN[5]、PixelRNN[6]、Text2Image[7]、DiscoGAN [8]等。這些方法激發了更多的研究人員轉向使用無標簽數據在自監督的設置下訓練深度學習模型。盡管取得了成功,研究人員開始意識到基于GAN的方法的一些并發癥。它們很難訓練,主要有兩個原因: (a)不收斂——模型參數發散很多,很少收斂; (b)鑒別器太過成功,導致生成網絡無法產生類似真實的假信號,導致學習無法繼續。此外,生成器和判別器之間需要適當的同步,以防止判別器收斂和生成器發散。